Phân tích tìm ngoại lệ outlier detection 6.. Ứng dụng trong các bài toán viễn thông vd: churn prediction 7.. Phân tích tìm ngoại lệ outlier detection 6.. Ứng dụng trong các bài toán viễn
Trang 1Khai phá m ẫu phổ biến
và lu ật kết hợp
Phan Xuân Hi ếu
Bài giảng của DSLab Viện nghiên cứu cao cấp về Toán (VIASM)
Trang 2Câu chuy ện “bỉm” và “bia”
2
Trang 4Rakesh Agrawal
Trang 1010
Trang 57“Interestingness” và “Usefulness”
57
Trang 61§ Conviction l ớn: luật có nhiều ý nghĩa
§ Nh ận xét: điều kiện quá chặt (strict)
Trang 6262
§ P(B’ | A’) – P(B’ | not A’)
§ P(D | C) – P(D | not C)
Trang 64Phân tích d ữ liệu hỗ trợ ra quyết định
64
Trang 65Các ứng dụng thực tiễn
1 Phân lớp, phân loại (classification/decision rules)
2 Phân tích dữ liệu bán lẻ (market basket analysis)
3 Tư vấn trực tuyến (online recommendation)
4 Hiểu người dùng trực tuyến (user understanding)
5 Phân tích tìm ngoại lệ (outlier detection)
6 Ứng dụng trong các bài toán viễn thông
(vd: churn prediction)
7 Phân tích dữ liệu di truyền
8 Phân tích dữ cấu trúc mạng
65
Trang 66Các ứng dụng thực tiễn
1 Phân l ớp, phân loại (classification/decision rules)
2 Phân tích dữ liệu bán lẻ (market basket analysis)
3 Tư vấn trực tuyến (online recommendation)
4 Hiểu người dùng trực tuyến (user understanding)
5 Phân tích tìm ngoại lệ (outlier detection)
6 Ứng dụng trong các bài toán viễn thông
(vd: churn prediction)
7 Phân tích dữ liệu di truyền
8 Phân tích dữ cấu trúc mạng
66
Trang 67Các ứng dụng thực tiễn
1 Phân lớp, phân loại (classification/decision rules)
2 Phân tích d ữ liệu bán lẻ (market basket analysis)
3 Tư vấn trực tuyến (online recommendation)
4 Hiểu người dùng trực tuyến (user understanding)
5 Phân tích tìm ngoại lệ (outlier detection)
6 Ứng dụng trong các bài toán viễn thông
(vd: churn prediction)
7 Phân tích dữ liệu di truyền
8 Phân tích dữ cấu trúc mạng
67
Trang 69Các ứng dụng thực tiễn
1 Phân lớp, phân loại (classification/decision rules)
2 Phân tích dữ liệu bán lẻ (market basket analysis)
3 T ư vấn trực tuyến (online recommendation)
4 Hiểu người dùng trực tuyến (user understanding)
5 Phân tích tìm ngoại lệ (outlier detection)
6 Ứng dụng trong các bài toán viễn thông
(vd: churn prediction)
7 Phân tích dữ liệu di truyền
8 Phân tích dữ cấu trúc mạng
69
Trang 713 T ư vấn dựa trên nội dung
4 T ư vấn dựa trên patterns mua sắm (frequent patterns,
association rules)
71
Trang 74Các mặt hàng thường được xem cùng nhau
74
Trang 75Các mặt hàng thường được mua cùng nhau
Trang 76Các ứng dụng thực tiễn
1 Phân lớp, phân loại (classification/decision rules)
2 Phân tích dữ liệu bán lẻ (market basket analysis)
3 Tư vấn trực tuyến (online recommendation)
4 Hi ểu người dùng trực tuyến (user
understanding)
5 Phân tích tìm ngoại lệ (outlier detection)
6 Ứng dụng trong các bài toán viễn thông
(vd: churn prediction)
7 Phân tích dữ liệu di truyền
8 Phân tích dữ cấu trúc mạng
76
Trang 78Hiểu người dùng trực tuyến
78
Trang 7979
Trang 83Các ứng dụng thực tiễn
1 Phân lớp, phân loại (classification/decision rules)
2 Phân tích dữ liệu bán lẻ (market basket analysis)
3 Tư vấn trực tuyến (online recommendation)
4 Hiểu người dùng trực tuyến (user understanding)
5 Phân tích tìm ngo ại lệ (outlier detection)
6 Ứng dụng trong các bài toán viễn thông
(vd: churn prediction)
7 Phân tích dữ liệu di truyền
8 Phân tích dữ cấu trúc mạng
83
Trang 84Các ứng dụng thực tiễn
1 Phân lớp, phân loại (classification/decision rules)
2 Phân tích dữ liệu bán lẻ (market basket analysis)
3 Tư vấn trực tuyến (online recommendation)
4 Hiểu người dùng trực tuyến (user understanding)
5 Phân tích tìm ngoại lệ (outlier detection)
6 Ứng dụng trong các bài toán viễn thông
(vd: churn prediction)
7 Phân tích dữ liệu di truyền
8 Phân tích dữ cấu trúc mạng
84
Trang 85Churn prediction
Trang 86Các bài toán phân tích v ề v/đ “rời dịch vụ”
86
Trang 87D ữ liệu viễn thông
1 Thông tin khách hàng (customer data)
1 Thông tin t ĩnh
2 Thông tin đ ộng
2 Thông tin thuê bao (contract/plan data)
3 Thông tin sử dụng dịch vụ (call/service detail data)
Trang 88Highly imbalanced data
Trang 89Nh ận biết vấn đề và giải pháp
1 Dữ liệu rất lớn
2 Quan tâm đặc biệt đến “True positive”
3 Khó khăn khi lấy mẫu (sampling)
4 Khó khăn khi xây dựng mô hình học (thống kê) cho
dữ liệu mất cân bằng (nghiêm trọng)
5 Có thể rời rạc hoá dữ liệu?
6 Khai phá lu ật hiếm và tin cậy xấp xỉ
1 T ừ tập mẫu (sau khi sampling)
2 Lu ật “xấp xỉ” cho lớp dương (positive)
3 L ọc với độ đo: Conviction
4 Whitebox: d ễ hiểu, dễ đánh giá, và điều chỉnh
Trang 90Các ứng dụng thực tiễn
1 Phân lớp, phân loại (classification/decision rules)
2 Phân tích dữ liệu bán lẻ (market basket analysis)
3 Tư vấn trực tuyến (online recommendation)
4 Hiểu người dùng trực tuyến (user understanding)
5 Phân tích tìm ngoại lệ (outlier detection)
6 Ứng dụng trong các bài toán viễn thông
(vd: churn prediction)
7 Phân tích d ữ liệu di truyền.
8 Phân tích d ữ cấu trúc mạng.
90
Trang 91Ứng dụng khai phá dữ liệu viễn thông
1 Dữ liệu
1 Customer data
2 Call detail data
3 Log and content data
4 Network data
2 Các bài toán khai phá dữ liệu
1 Spam filtering
2 Churn prediction
3 Fraud detection (subscription vs superimposition)
4 Customer profiling and segmentation (for marketing)
5 Network fault isolation and prediction
6 Service/content recommendation
91