Khai phá dữ liệu (data mining) là quá trình tính toán để tìm ra các mẫu trong các bộ dữ liệu lớn liên quan đến các phương pháp tại giao điểm của máy học, thống kê và các hệ thống cơ sở dữ liệu. Đây là một lĩnh vực liên ngành của khoa học máy tính
Trang 1Khai phá dữ liệu
1 Khái niệm:
Khai phá dữ liệu (data mining) là quá trình tính toán để tìm ra các mẫu trong các bộ dữ
liệu lớn liên quan đến các phương pháp tại giao điểm của máy học, thống kê và các hệ thống cơ sở dữ liệu Đây là một lĩnh vực liên ngành của khoa học máy tính
2 Các phương pháp khai thác dữ liệu
- Phân loại (Classification): Là phương pháp dự báo, cho phép phân loại một đối tượng
vào một hoặc một số lớp cho trước
- Hồi qui (Regression): Khám phá chức năng học dự đoán, ánh xạ một mục dữ liệu thành
biến dự đoán giá trị thực
- Phân nhóm (Clustering): Một nhiệm vụ mô tả phổ biến trong đó người ta tìm cách xác
định một tập hợp hữu hạn các cụm để mô tả dữ liệu
- Tổng hợp (Summarization): Một nhiệm vụ mô tả bổ sung liên quan đến phương pháp
cho việc tìm kiếm một mô tả nhỏ gọn cho một bộ (hoặc tập hợp con) của dữ liệu
- Mô hình ràng buộc (Dependency modeling): Tìm mô hình cục bộ mô tả các phụ thuộc
đáng kể giữa các biến hoặc giữa các giá trị của một tính năng trong tập dữ liệu hoặc trong một phần của tập dữ liệu
- Dò tìm biến đổi và độ lệch (Change and Deviation Detection): Khám phá những thay
đổi quan trọng nhất trong bộ dữ liệu
3 Các lĩnh vực ứng dụng
- Thương mại điện tử
- Phát hiện lừa đảo
- Quảng cáo
- Marketing
- Quản lý quan hệ khách hàng
- Chăm sóc sức khỏe
VD 1: Những ứng dụng đáng chú ý của khai thác dữ liệu
Khai thác dữ liệu được xem là phương pháp mà đơn vị Able Danger của Quân đội Mỹ đã dùng
để xác định kẻ đứng đầu cuộc tấn công ngày 11 tháng 9, Mohamed Atta, và ba kẻ tấn công ngày
11 tháng 9 khác là các thành viên bị nghi ngờ thuộc lực lượng al Qaeda hoạt động ở Mỹ hơn một năm trước cuộc tấn công
VD 2: Khai phá dữ liệu trong lĩnh vực giáo dục có nhiều ứng dụng quan trọng nhằm cải thiện chất lượng giảng dạy, tối ưu hóa học tập và nâng cao hiệu suất học tập Dưới đây là một số ví dụ cụ thể:
Phân tích học tập cá nhân: Trường học có thể sử dụng dữ liệu điểm số, chuyên cần, và dự án
học tập của học sinh để tạo hồ sơ học tập cá nhân Điều này giúp giáo viên đưa ra đề xuất cụ thể
về cách học tốt hơn và giải quyết nhu cầu học tập đặc biệt của từng học sinh
Dự đoán rủi ro bỏ học: Bằng cách sử dụng dữ liệu về chuyên cần, điểm số và thông tin xã hội,
trường có thể dự đoán những học sinh có nguy cơ bỏ học Điều này giúp trường áp dụng các biện pháp can thiệp kịp thời để giúp học sinh ổn định tâm lý học tập
Trang 2Tạo chương trình đào tạo cá nhân hóa: Dữ liệu học tập có thể sử dụng để tạo ra các khóa học
đào tạo cá nhân hóa, cung cấp cho học sinh tài liệu và bài giảng phù hợp với nhu cầu học tập của họ
Đánh giá hiệu suất giảng dạy: Các trường học có thể sử dụng dữ liệu học tập để đánh giá hiệu
suất của giáo viên Điều này giúp xác định những giáo viên có hiệu suất cao và những người cần thêm hỗ trợ hoặc đào tạo
Quản lý tài nguyên trường học: Dữ liệu về số lượng học sinh, lớp học và nguồn tài trợ có thể
giúp trường học quản lý tài nguyên hiệu quả hơn, đảm bảo rằng có đủ lớp học và giáo viên cho tất cả học sinh
Dự đoán xu hướng giảng dạy: Dữ liệu học tập có thể được sử dụng để dự đoán xu hướng giảng
dạy và cung cấp hướng dẫn cho việc phát triển chương trình học tập trong tương lai
Những ứng dụng này giúp cải thiện hiệu suất học tập, tạo ra môi trường học tập tốt hơn và đảm bảo rằng giáo dục đáp ứng tốt nhu cầu của từng học sinh
Analytics and business inteligence
1 Nghiệp vụ thông minh (BI)
Khái niệm:
Nghiệp vụ thông minh (BI) bao gồm một loạt các ứng dụng, thực tiễn và công nghệ để trích xuất, chuyển đổi, tích hợp, trực quan hóa, phân tích, giải thích và trình bày dữ liệu để hỗ trợ việc ra quyết định được cải thiện
Mục tiêu:
- Để có được giá trị cao nhất từ thông tin và trình bày kết quả phân tích theo cách dễ hiểu
mà mọi người có thể hiểu được
- Giúp tổ chức học hỏi từ những sai lầm trong quá khứ, xây dựng dựa trên những thành công trong quá khứ Kiến thức này sau đó có thể được đưa vào quá trình lập kế sau đó
có thể được đưa vào quá trình lập kế hoạch sáng kiến, bắt chước những gì hiệu quả và thay đổi những gì không hiệu quả
2 Analytics (Phân tích)
Khái niệm:
Analytics (Phân tích) được hiểu là việc sử dụng rộng rãi dữ liệu và phân tích định lượng để hỗ
trợ việc ra quyết định dựa trên thực tế trong các tổ chức
Mục tiêu:
- Analytics sử dụng thuật toán để xác định mối quan hệ giữa các dữ liệu nhằm đưa ra dự đoán về những gì sẽ xảy ra trong tương lai
- cho phép tổ chức dự đoán những phát triển mới và thực hiện những thay đổi ngay bây giờ
để cải thiện kết quả trong tương lai
Ví dụ:
Phân tích tình hình kinh doanh trong một doanh nghiệp để hiểu rõ hơn về hiệu quả kinh doanh hiện tại, tiết lộ các mô hình và mối quan hệ kinh doanh mới, giải thích lý do tại sao một số kết quả nhất định xảy ra, tối ưu hóa hoạt động hiện tại và dự báo kết quả kinh doanh trong tương lai
3 Lợi ích đạt được từ BI và Analytics
- Phát hiện gian lận
VD: MetLife đã triển khai phần mềm phân tích để giúp đơn vị điều tra đặc biệt (SIU) xác định gian lận của nhà cung cấp dịch vụ y tế, luật sư và cửa hàng sửa chữa Mặc dù một khiếu nại về tai nạn có thể không có đủ dữ liệu để bị gắn cờ là đáng ngờ khi nó được gửi lần đầu tiên, nhưng
Trang 3khi có nhiều dữ liệu khiếu nại hơn được thêm vào, phần mềm sẽ liên tục ghi lại khiếu nại đó Sau sáu tháng đầu tiên sử dụng phần mềm, số lượng khiếu nại được SIU điều tra đã tăng 16%
- Cải thiện khả năng dự báo
VD: Kroger phục vụ khách hàng tại 2.422 siêu thị và 1.950 hiệu thuốc tại cửa hàng Công ty nhận thấy rằng bằng cách dự đoán tốt hơn nhu cầu của khách hàng hiệu thuốc, công ty có thể giảm số lượng đơn thuốc mà họ không thể đáp ứng vì thuốc hết hàng Để làm như vậy, Kroger
đã phát triển một hệ thống quản lý hàng tồn kho tinh vi có thể cung cấp cho nhân viên hình ảnh trực quan về mức tồn kho, thích ứng với phản hồi của người dùng và hỗ trợ phân tích "điều gì xảy ra nếu" Các đơn thuốc hết hàng đã giảm 1,5 triệu đơn thuốc mỗi năm, dẫn đến doanh thu tăng 80 triệu USD mỗi năm Ngoài ra, bằng cách vận chuyển đúng loại thuốc với số lượng phù hợp, Kroger đã có thể giảm tổng chi phí tồn kho 120 triệu USD mỗi năm.15
- Tăng doanh số bán hàng
VD: DaimlerChrysler và nhiều nhà sản xuất ô tô khác đặt ra giá bán lẻ và bán buôn đề xuất trong năm, sau đó điều chỉnh giá thông qua các ưu đãi theo mùa dựa trên tác động của cung và cầu DaimlerChrysler đã triển khai mô hình co giãn theo giá để tối ưu hóa các quyết định về giá của công ty Hệ thống này cho phép các nhà quản lý đánh giá nhiều ưu đãi tiềm năng cho từng sự kết hợp của mẫu xe (ví dụ: Jeep Grand Cherokee), phương thức mua lại (tiền mặt, tài chính hoặc cho thuê) và chương trình khuyến khích (hoàn tiền, APR khuyến mại và kết hợp hoàn lại tiền và APR khuyến mại) Công ty ước tính rằng việc sử dụng hệ thống đã tạo ra doanh thu bổ sung hàng năm là 500 triệu USD.16
- Tối ưu hóa hoạt động
VD: Chevron là một trong những công ty năng lượng tích hợp hàng đầu thế giới Các nhà máy lọc dầu của nó hoạt động với dầu thô được sử dụng để sản xuất nhiều loại sản phẩm dầu, bao gồm xăng, nhiên liệu máy bay phản lực, nhiên liệu diesel, chất bôi trơn và các sản phẩm đặc biệt như phụ gia Với giá thị trường của dầu thô và các sản phẩm khác nhau của nó liên tục thay đổi, việc xác định sản phẩm nào cần tinh chế tại một thời điểm nhất định là khá phức tạp Chevron sử dụng hệ thống phân tích có tên Petro để hỗ trợ các nhà phân tích trong việc tư vấn cho các nhà máy lọc dầu và nhà kinh doanh dầu về cách kết hợp các sản phẩm để sản xuất, mua và bán nhằm tối đa hóa lợi nhuận."
- Giảm chi phí
VD: Coca-Cola Enterprises là nhà đóng chai và phân phối các sản phẩm Coca Cola lớn nhất thế giới Đội xe giao hàng gồm 54.000 xe tải của họ có quy mô đứng thứ hai chỉ sau Bưu điện Hoa
Kỳ Bằng cách sử dụng phần mềm phân tích, công ty đã triển khai hệ thống tối ưu hóa lộ trình phương tiện, giúp tiết kiệm 45 triệu USD mỗi năm nhờ giảm mức tiêu thụ xăng và giảm số lượng tài xế cần thiết
4 Vai trò của một nhà khoa học dữ liệu
- Là cá nhân có sự nhạy bén, khả năng phân tích và một trong những hạn chế trong việc đưa ra quyết định
- Hiểu biết sâu sắc về phân tích và đánh giá đúng đắn về những hạn chế của dữ liệu, công
cụ và kỹ thuật để mang lại những cải tiến thực sự trong việc ra quyết định
- Thu thập và báo cáo dữ liệu, xem xét một tình huống từ nhiều góc độ
- Xác định dữ liệu và công cụ nào có thể giúp hiểu rõ hơn về tình huống đó, sau đó áp dụng dữ liệu và công cụ thích hợp
-5 Các yêu cầu về trình độ để trở thành một nhà khoa học dữ liệu
- Đòi hỏi phải thông thạo các số liệu thống kê, toán và lập trình máy tính
Trang 4- Yêu cầu bằng cấp cao, chẳng hạn như bằng thạc sĩ hoặc tiến sĩ, có bằng đại học chuyên ngành phân tích
- Có kỹ năng lập trình máy tính và quen thuộc với các ngôn ngữ và công cụ được sử dụng
để xử lý dữ liệu lớn, chẳng hạn như Hadoop, Hive, SQL, Python, R và Java
6 Các thành phần cần thiết cho BI và phân tích hiệu quả
Đầu tiên và quan trọng nhất là một chương trình quản lý dữ liệu vững chắc, bao gồm cả quản trị dữ liệu
Quản lý dữ liệu là một tập hợp các chức năng tích hợp xác định các quy trình thu thập dữ liệu, chứng nhận phù hợp để sử dụng, lưu trữ, bảo mật và xử lý theo cách đảm bảo rằng độ tin cậy về khả năng truy cập và tính kịp thời của dữ liệu đáp ứng nhu cầu của người sử dụng dữ liệu trong một tổ chức
Quản trị dữ liệu là thành phần cốt lõi của quản lý dữ liệu; nó xác định vai trò, trách nhiệm và quy trình để đảm bảo rằng dữ liệu có thể được toàn bộ tổ chức tin cậy và sử dụng, với những người được xác định và có trách nhiệm sửa chữa và ngăn chặn các vấn đề với dữ liệu
Các nhà khoa học dữ liệu sáng tạo
Những người hiểu rõ về hoạt động kinh doanh cũng như công nghệ phân tích kinh doanh, đồng thời nhận ra những hạn chế của dữ liệu, công cụ và kỹ thuật của họ
Cuối cùng là việc quản lý - nhóm cố vấn trong một tổ chức
Phải có cam kết mạnh mẽ về dữ liệu-việc ra quyết định có định hướng Các tổ chức có thể đặt các thành phần cần thiết tại chỗ có thể hành động nhanh chóng để đưa ra quyết định tốt hơn trong điều kiện không chắc chắn và thay đổi môi trường để đạt được lợi thế cạnh tranh mạnh mẽ