Các nhiệm vụ khai phá dữ liệu thường được chia thành hai loại chính:
• Nhiệm vụ dự đoán: Mục tiêu của những nhiệm vụ này là dự đoán giá trị của một thuộc tính cụ thể dựa trên giá trị của các thuộc tính khác. Thuộc tính được dự đoán thường được gọi là biến mục tiêu hoặc biến phụ thuộc, trong khi các thuộc tính được sử dụng để đưa ra dự đoán được gọi là biến giải thích hoặc biến độc lập.
• Nhiệm vụ mô tả: Mục tiêu là tìm ra các mẫu (tương quan, xu hướng, cụm, quỹ đạo và điểm bất thường) tóm tắt các mối quan hệ cơ bản trong dữ liệu. Các nhiệm vụ khai phá dữ liệu mô tả thường mang tính chất khám phá và thường yêu cầu các kỹ thuật xử lý sau để xác nhận và giải thích kết quả.
Hình 3. 3: Minh họa bốn trong số các nhiệm vụ khai phá dữ liệu cốt lõi
Mô hình dự đoán đề cập đến nhiệm vụ xây dựng mô hình cho biến mục tiêu như một hàm của các biến giải thích. Có hai loại nhiệm vụ mô hình dự báo: phân loại, được sử dụng cho các biến mục tiêu rời rạc và hồi quy, được sử dụng cho các biến mục tiêu liên tục. Ví dụ: dự đoán liệu người dùng web có mua hàng tại một cửa hàng sách trực tuyến hay không là một nhiệm vụ phân loại vì biến mục tiêu có giá trị nhị phân. Mặt khác, dự báo giá tương lai của cổ phiếu là một nhiệm vụ hồi quy vì giá là một thuộc tính có giá trị liên tục. Mục tiêu của cả hai nhiệm vụ là tìm hiểu một mô hình giảm thiểu sai số giữa giá trị dự đoán và giá trị thực của biến mục tiêu. Mô hình dự đoán có thể được sử dụng để xác định những khách hàng sẽ phản hồi chiến dịch tiếp thị, dự đoán những xáo trộn trong hệ thống trái đất hoặc đánh giá liệu một bệnh nhân có mắc một căn bệnh cụ thể hay không dựa trên kết quả của các xét nghiệm y tế.
Phân tích liên kết được sử dụng để khám phá các mẫu mô tả các đặc trưng được kết hợp chặt chẽ trong dữ liệu. Các mẫu được phát hiện thường được biểu diễn dưới dạng các quy tắc hàm ý hoặc các tập con đặc trưng. Do kích thước theo cấp số nhân của không gian tìm kiếm của nó, mục tiêu của phân tích liên kết là trích xuất các mẫu quan tâm nhất một cách hiệu quả. Các ứng dụng hữu ích của phân tích liên kết bao gồm tìm các nhóm gen có chức năng liên quan, xác định các trang web được truy cập cùng nhau hoặc hiểu mối quan hệ giữa các yếu tố khác nhau của hệ thống khí hậu trái đất.
Phân tích cụm nhằm tìm ra các nhóm quan sát có liên quan chặt chẽ với nhau để các quan sát thuộc cùng một cụm giống với nhau hơn các quan sát thuộc các cụm khác.
Phân cụm đã được sử dụng để nhóm các khách hàng có liên quan, tìm các khu vực của đại dương có tác động đáng kể đến khí hậu trái đất và nén dữ liệu.
Phát hiện bất thường là nhiệm vụ xác định các quan sát có các đặc điểm khác biệt đáng kể so với phần còn lại của dữ liệu. Những quan sát như vậy được gọi là dị thường hoặc ngoại lệ. Mục tiêu của thuật toán phát hiện dị thường là phát hiện ra các dị thường thực sự và tránh gắn nhãn sai các đối tượng bình thường là dị thường. Nói cách khác, một máy dò dị thường tốt phải có tỷ lệ phát hiện cao và tỷ lệ báo động giả thấp. Các ứng dụng của phát hiện bất thường bao gồm phát hiện gian lận, xâm nhập mạng, các dạng dịch bệnh bất thường và rối loạn hệ sinh thái, chẳng hạn như hạn hán, lũ lụt, hỏa hoạn, bão, v.v.
Ví dụ: Dự đoán loại hoa
Xem xét nhiệm vụ dự đoán một loài hoa dựa trên đặc điểm của hoa. Đặc biệt, hãy xem xét phân loại hoa Iris là một trong ba loài Iris sau: Setosa, Versicolour, hoặc Virginica. Để thực hiện nhiệm vụ này, chúng ta cần một tập dữ liệu chứa các đặc điểm của các loài hoa khác nhau của ba loài này. Tập dữ liệu với loại thông tin này là tập dữ liệu Iris nổi tiếng từ Kho lưu trữ Học máy UCI tại http://www.ics.uci.edu/~mlearn.
Ngoài loài hoa, tập dữ liệu này còn chứa bốn thuộc tính khác: chiều rộng đài hoa, chiều dài đài hoa, chiều dài cánh hoa và chiều rộng cánh hoa. Hình 3.4 cho thấy biểu đồ của chiều rộng cánh hoa so với chiều dài của cánh hoa cho 150 bông hoa trong tập dữ liệu Iris. Chiều rộng cánh hoa được chia thành các loại thấp, trung bình và cao, tương ứng với các khoảng [0 0.75), [0.75 1.75), tương ứng. Ngoài ra, chiều dài cánh hoa được chia thành các loại thấp, trung bình và cao, tương ứng với các khoảng [0 2.5), [2.5 5), tương ứng. Dựa trên các loại chiều rộng và chiều dài cánh hoa này, có thể rút ra các quy tắc sau:
• Chiều rộng cánh hoa thấp và chiều dài cánh hoa thấp => Setosa.
• Chiều rộng cánh hoa trung bình và chiều dài cánh hoa trung bình => Versicolour.
• Chiều rộng cánh hoa cao và chiều dài cánh hoa cao => Virginica.
Hình 3. 4: Chiều rộng cánh hoa so với chiều dài cánh hoa đối với 150 bông Iris Mặc dù các quy tắc này không phân loại tất cả các bông hoa, nhưng chúng thực hiện tốt (nhưng không hoàn hảo) trong việc phân loại hầu hết các bông hoa. Lưu ý rằng hoa từ loài Setosa được tách biệt rõ ràng với các loài Versicolour và Virginica về chiều rộng và chiều dài cánh hoa, nhưng hai loài sau trùng lặp đôi chút về các thuộc tính này.
Ví dụ: Phân tích giỏ thị trường
Các giao dịch trong Bảng 3.1 minh họa dữ liệu điểm bán hàng được thu thập tại quầy thanh toán của một cửa hàng tạp hóa. Phân tích liên kết có thể được áp dụng để tìm các mặt hàng được khách hàng thường xuyên mua cùng nhau. Ví dụ, chúng ta có thể khám phá ra quy tắc này cho thấy rằng khách hàng mua tã giấy cũng có xu hướng mua sữa. Loại quy tắc này có thể được sử dụng để xác định các cơ hội bán kèm tiềm năng giữa các mặt hàng có liên quan.
Bảng 3. 1: Dữ liệu giỏ thị trường
Transaction ID Items
1 {Bread, Butter, Diapers, Milk}
2 {Coffee, Sugar, Cookies, Salmon}
3 {Bread, Butter, Coffee, Diapers, Milk, Eggs}
4 {Bread, Butter, Salmon, Chicken}
5 {Eggs, Bread, Butter}
6 {Salmon, Diapers, Milk}
Ví dụ: Phân cụm tài liệu
Bộ thu thập các bài báo trong Bảng 3.2 có thể được phân nhóm dựa trên các chủ đề tương ứng của chúng. Mỗi bài viết được biểu diễn dưới dạng một tập hợp các cặp tần số từ (w: c), trong đó w là một từ và c là số lần từ xuất hiện trong bài báo. Có hai cụm tự nhiên trong tập dữ liệu. Cụm đầu tiên bao gồm bốn bài báo đầu tiên, tương ứng với tin tức về nền kinh tế, trong khi cụm thứ hai chứa bốn bài báo cuối cùng, tương ứng với tin tức về chăm sóc sức khỏe. Một thuật toán phân cụm tốt sẽ có thể xác định được hai cụm này dựa trên sự giống nhau giữa các từ xuất hiện trong bài viết.
Bảng 3. 2: Thu thập các bài báo
Article Word-frequency pairs
1 dollar: 1, industry: 4, country: 2, loan: 3, deal: 2, government: 2 2 machinery: 2, labor: 3, market: 4, industry: 2, work: 3, country: 1 3 job: 5, inflation: 3, rise: 2, jobless: 2, market: 3, country: 2, index: 3 4 domestic: 3, forecast: 2, gain: 1, market: 2, sale: 3, price: 2
5 patient: 4, symptom: 2, drug: 3, health: 2, clinic: 2, doctor: 2
Ví dụ 4 (Phát hiện gian lận thẻ tín dụng).
Một công ty thẻ tín dụng ghi lại các giao dịch được thực hiện bởi mọi chủ thẻ tín dụng, cùng với thông tin cá nhân như hạn mức tín dụng, tuổi, thu nhập hàng năm và địa chỉ. Vì số lượng các trường hợp gian lận là tương đối nhỏ so với số lượng các giao dịch hợp pháp, các kỹ thuật phát hiện bất thường có thể được áp dụng để xây dựng hồ sơ các giao dịch hợp pháp cho người dùng. Khi một giao dịch mới đến, nó sẽ được so sánh với hồ sơ của người dùng. Nếu các đặc điểm của giao dịch rất khác so với hồ sơ đã tạo trước đó, thì giao dịch đó sẽ bị gắn cờ là có khả năng gian lận.