N – Diễn giải kết quả (Interpret results)

Một phần của tài liệu ĐỒ án cơ sở các ỨNG DỤNG KHOA học dữ LIỆU (DATA SCIENCE APPLICATIONS) (Trang 23 - 31)

CHƯƠNG 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU

1.7.5: N – Diễn giải kết quả (Interpret results)

Các nhà khoa học dữ liệu hợp tác cùng các chuyên gia phân tích và doanh nghiệp để chuyển đổi thông tin chi tiết về dữ liệu thành hành động. Họ tạo ra các sơ đồ, đồ thị và biểu đồ để thể hiện những xu hướng và dự đoán. Tóm tắt dữ liệu giúp các bên liên quan hiểu rõ và triển khai kết quả một cách hữu hiệu.

1.8 – CÁC KỸ THUẬT KHOA HỌC DỮ LIỆU LÀ GÌ?

Các chuyên gia khoa học dữ liệu sử dụng hệ thống máy tính để giám sát quy trình khoa học dữ liệu. Những kỹ thuật hàng đầu được sử dụng bởi các nhà khoa học dữ liệu là:

1.8.1 – Phân loại:

Phân loại là kỹ thuật sắp xếp dữ liệu thành các nhóm hoặc danh mục cụ thể. Máy tính được đào tạo để xác định và sắp xếp dữ liệu. Các tập dữ liệu đã xác định được sử dụng để xây dựng những thuật toán ra quyết định trong một máy tính có khả năng xử lý và phân loại dữ liệu một cách nhanh chóng. Ví dụ:

 Phân loại sản phẩm theo phổ biến hoặc không phổ biến.

 Phân loại đơn bảo hiểm theo rủi ro cao hoặc rủi ro thấp.

 Phân loại bình luận trên mạng xã hội thành tích cực, tiêu cực hoặc trung lập.

Các chuyên gia khoa học dữ liệu sử dụng hệ thống máy tính để giám sát quy trình khoa học dữ liệu.

1.8.2 – Hồi quy:

Hồi quy là phương pháp tìm ra mối quan hệ giữa 2 điểm dữ liệu dường như không liên quan. Mối liên kết này thường được lập mô hình xoay quanh một công thức toán học và được biểu thị dưới dạng đồ thị hoặc đường cong. Khi giá trị của một điểm dữ liệu đã được xác định, hồi quy sẽ được sử dụng để dự đoán điểm dữ liệu còn lại. Ví dụ:

 Tốc độ lây nhiễm của các căn bệnh lây qua đường không khí.

 Mối quan hệ giữa mức độ hài lòng của khách hàng và số lượng nhân viên.

 Mối quan hệ giữa số trạm cứu hỏa và số người bị thương do hỏa hoạn tại một địa điểm cụ thể.

1.8.3 – Phân nhóm:

Phân nhóm là phương pháp gộp các dữ liệu có liên quan chặt chẽ lại với nhau để tìm kiếm các mẫu và điểm dị thường. Phân nhóm khác với phân loại vì dữ liệu không thể được sắp xếp chính xác vào các hạng mục cố định. Do đó, dữ liệu được nhóm thành các mối quan hệ có khả năng xảy ra nhất. Thông qua phân nhóm, các mẫu và mối quan hệ mới có thể được phát hiện. Ví dụ:

 Nhóm những khách hàng có hành vi mua hàng giống nhau để cải thiện dịch vụ khách hang.

 Nhóm lưu lượng mạng để xác định mẫu sử dụng hàng ngày và nhanh chóng phát hiện một cuộc tấn công mạng.

 Nhóm các bài viết thành nhiều hạng mục tin tức khác nhau và sử dụng thông tin này để tìm kiếm tin giả.

1.8.4 – Nguyên tắc cơ bản đằng sau các kỹ thuật khoa học dữ liệu:

Mặc dù khác nhau về chi tiết, nhưng những kỹ thuật này có các nguyên tắc cơ bản như sau:

 Đào tạo một cỗ máy cách phân loại dữ liệu dựa trên một tập dữ liệu đã xác định.

Ví dụ: những từ khóa mẫu được nhập vào máy tính kèm theo giá trị phân loại của chúng. “Hạnh phúc” là tích cực, còn “Ghét” là tiêu cực.

 Cung cấp dữ liệu chưa xác định cho máy và cho phép thiết bị phân loại tập dữ liệu một cách độc lập.

 Cho phép sai lệch về kết quả và xử lý hệ số xác suất của kết quả.

1.9 – SẢN PHẨM DATA (DỮ LIỆU):

 Sản phẩm data được xây dựng dựa trên dữ liệu:

- Tính năng recommendation của Amazon được xây dựng dựa trên dữ liệu của nó: người dùng muốn mua món đồ gì? Những món đồ nào nên mua kèm?

 Sản phẩm data có thể là một sản phẩm riêng biệt hoặc một phần trong sản phẩm lớn:

- Facebook có thể tự tag ảnh bạn bè của bạn.

 Sản phẩm data bao gồm nhiều thành phần nhưng mô hình dữ liệu là cốt lõi của nó và được xây dựng bằng các thuật toán học máy.

1.9.1 – Mô hình Data:

Ví dụ: bạn muốn dùng một chiếc hộp đen để nhận diện loài vật

 B1: Bạn phải tìm rất nhiều hình ảnh con chó và con mèo

 B2: Cho hộp đen đọc những hình ảnh này

 B3: Dạy cho hộp đen biết đặc điểm nào trên bức hình là của con chó, đặc điểm nào là của con mèo

 B4: Bạn đưa ra 2 hình ảnh mới, hộp đen sẽ trả lời đâu là hình ảnh con chó, hình ảnh con mèo

Toàn bộ quá trình này gọi là học máy (machine learning) và cái hộp đen chính là mô hình dữ liệu

1.10 – NHỮNG TỐ CHẤT VÀ KỸ NĂNG CẦN CÓ CỦA NHÀ KHOA HỌC DỮ LIỆU:

1.10.1 – Tố chất:

Mỗi ngành nghề, lĩnh vực trong đời sống xã hội đều đòi hỏi người học phải có những điều kiện nhất định về tố chất và sở trường để gắn bó. Vì thế, trước khi quyết định chọn học một ngành nào đó, bạn cần xác định rõ những điểm mạnh, điểm yếu của chính mình có đáp ứng được những yêu cầu của ngành hay không. Và với ngành Khoa học dữ liệu cũng không ngoại lệ. Vậy tố chất để theo học ngành Khoa học dữ liệu là gì? Các bạn hãy cùng tìm hiểu qua bài viết sau đây.

a – Kiên nhẫn:

Tố chất này cực kì quan trọng vì DS phải dành phần lớn thời gian để thu thập và làm sạch dữ liệu.

Ví dụ, bạn muốn làm một mẫu dự đoán giá nhà.

Bạn sẽ phải thu thập dữ liệu về nhà từ nhiều nguồn khác nhau.

Mỗi nguồn này lại lưu dữ liệu theo một cấu trúc riêng. Vậy bạn hãy quy chúng về một cấu trúc chung.

Sau đó, bạn làm sạch bằng cách loại bỏ các dữ liệu không phù hợp như:

 Dữ liệu thiếu: có số lượng phòng mà không có diện tích.

 Dữ liệu rác: diện tích 10m2 mà giá 200 tỷ.

b – Giao tiếp tốt:

- Với Team Business: để hiểu rõ hơn về sản phẩm cũng như equirements, từ đó tìm ra các insights có giá trị

- Với Team Engineer: để áp dụng mô hình của mình vào hệ thống hoặc đề nghị họ tổ chức/hệ thống data cho mình sử dụng

- Trình bày, giải thích insights cho các bên liên quan hiểu

Hình 1. 3: Kỹ năng giao tiếp tốt

c – Thích tìm hiểu và thử cái mới:

- Nghề khoa học dữ liệu còn mới mẻ và sử dụng nhiều kiến thức liên ngành.

- Mỗi ngành riêng lại có bước tiến và công nghệ mới: Bạn cần cập nhật kiến thức liên tục.

Hình 1. 4: Thích tìm hiểu và thử cái mới.

1.9.2 – Kỹ năng cần có:

Nghề khoa học dữ liệu đòi hỏi khá nhiều kiến thức và kĩ năng tổng hợp:

 Machine Learning: để học từ dữ liệu, từ đó tạo ra các mô hình dự đoán

 Database: giúp lưu trữ, truy xuất dữ liệu cũng như thực hiện tính toán

 Programming language: viết code để áp dụng các mô hình đã học được nói trên vào sản phẩm cụ thể hoặc để thao tác với database

 Visualization: giúp hiểu hơn về dữ liệu hoặc trình bày kết quả phân tích a – Kiến thức toán học: Yếu tố quan trọng số 1

Hình 1. 5: Kiến thức toán học

Nghề data science sử dụng nhiều kiến thức liên ngành.

 Machine learning là sự kết hợp của các mô hình toán học chạy bên dưới.

 Khi xử lý / làm việc với dữ liệu, sẽ cần sử dụng rất nhiều kiến thức về toán, xác suất thống kê, …

 Tư duy toán học sẽ giúp dễ tiếp thu và học các kĩ năng khác nhau.

Ví dụ, khi cho máy học một bức ảnh để phân biệt con chó với con mèo. Thì bức ảnh đó sẽ được chia làm nhiều vùng tương ứng với 100 ô vuông chẳng hạn.

Rồi bạn dạy cho cái máy rằng, trong bức ảnh, ở ô cụm phía dưới bên góc trái có nhiều màu đen, kết hợp với ô ở cụm bên phải có nhiều màu trắng thì đó là đặc điểm nhận biết con chó.

b – Khả năng lập trình phần mềm:

Hình 1. 6: Khả năng lập trình phần mềm.

Công việc của nhà khoa học dữ liệu rất gần với kỹ sư phần mềm. Vì vậy, code cứng là một yêu cầu quan trọng.

c – Sự nhạy bén:

Khi nhìn vào dữ liệu, bạn cần đủ nhạy để suy đoán: đối với loại dữ liệu này thì nên làm gì với nó, nên estimate như thế nào?

Sự nhạy bén là tố chất song cũng tích lũy dần theo kinh nghiệm và thời gian.

Một phần của tài liệu ĐỒ án cơ sở các ỨNG DỤNG KHOA học dữ LIỆU (DATA SCIENCE APPLICATIONS) (Trang 23 - 31)

Tải bản đầy đủ (PDF)

(46 trang)