Các Nội Dung Giới thiệu về khai phá dữ liệu và các vấn đề liên quan Tiền xử lý dữ liệu preprocessing Hồi quy dữ liệu regression Các phương pháp phân lớp classification: Nạve Bayes
Trang 1Trịnh Tấn Đạt
Khoa CNTT – Đại Học Sài Gòn
Email: trinhtandat@sgu.edu.vn
Website: https://sites.google.com/site/ttdat88/
Trang 2 Danh sách các đề tài – đồ án môn học
Các vấn đề trong data mining
Trao đổi và thảo luận
Trang 3Giới Thiệu Môn Học
Khai phá dữ liệu (data mining)
Cung cấp nền tảng tốt về suy luận thống kê và cấu trúc toán học cần thiết để phục
vụ cho công việc nghiên cứu khoa học
Kỹ năng thực hành, thiết kế mô phỏng thực nghiệm
Trang 4Các Nội Dung
Giới thiệu về khai phá dữ liệu và các vấn đề liên quan
Tiền xử lý dữ liệu (preprocessing)
Hồi quy dữ liệu (regression)
Các phương pháp phân lớp (classification): Nạve Bayes Classifier, Neural
Network, SVM, Boosting…
Các phương pháp phân cụm (clustering): Kmeans, Phân cụm đa cấp, …
Luật kết hợp (association rules)
Đồ án mơn học – seminar nhĩm
Trang 5Tài liệu tham khảo
Slide giảng viên cung cấp
Jiawei Han, Micheline Kamber, and Jian Pei, Data Mining: Concepts and Techniques, 3rd edition, Morgan Kaufmann Publishers, 2011
Ian H Witten and Eibe Frank, Data Mining – Practical Machine Learning Tools and Techniques, 2nd edition, Morgan Kaufmann Publishers, 2005
Richard O Duda, Peter E Hart, and David G Stork, Pattern Classification,
Trang 6Hình thức đánh giá
Điểm quá trình:
Chuyên cần: 10%
Báo cáo đề tài: 40%
Soạn slide báo cáo.
Thuyết trình giảng bài trước lớp (20 phút đến 30 phút).
Chương trình demo mô phỏng ứng dụng của phương pháp/thuật toán trình bày.
Báo cáo cuối kỳ: 50%
Báo cáo trình bày theo mẫu nghiên cứu khoa học/ khóa luận tốt nghiệp
Báo cáo yêu cầu ít nhất 30 trang
Có tài liệu tham khảo và trích dẫn (ít nhất 15 tài liệu tham khảo)
Trình bày chi tiết cơ sở lý thuyết của thuật toán/ phương pháp lựa chọn
Trang 7Danh sách chủ đề báo cáo
❖Sinh viên đăng ký làm đề tài theo nhĩm (mỗi nhĩm tối đa 3 sinh viên):
1 K-Nearest Neighbors
2 Decision Tree ( C4.5, CART, …)
3 Clustering (K- means, Spectral clustering, hierarchical clustering, DBSCAN, …)
4 Support vector machines (SVM)
5 Boosting algorithm: thuật tốn AdaBoost
6 Association rules: thuật tốn Apriori
7 Expectation –Maximization algorithm
8 Nạve Bayes Classifier
9 Neural Network
10 Rough set theory (Lý thuyết tập thơ)
Trang 8Các ứng dụng
▪ Trích chọn thông tin
▪ Phân tích chủ đề và ứng dụng
▪ Phân tích liên kết và tìm kiếm trên Web
▪ Quảng cáo trực tuyến
▪ Phân tích quan điểm
▪ Các hệ thống gợi ý
▪ Phân tích mạng xã hội
▪ Dữ liệu lớn và Khai phá dữ liệu quy mô lớn
▪ Phân tích và dự báo với dữ liệu kinh tế tài chính
▪ Đấu giá và thị trường
▪ …
Trang 9Các Vấn Đề Trong Data Mining
❖ Data Mining là gì?
• Quá trình trích xuất tri thức từ lượng lớn dữ liệu.
• Quá trình trích xuất thông tin ẩn, hữu ích, chưa được biết trước từ dữ liệu.
Trang 10Các Vấn Đề Trong Data Mining
Các ứng dụng: Prediction
Tid Refund Marital
Status
Taxable Income Cheat
Trang 11Các Vấn Đề Trong Data Mining
Các ứng dụng: Biometric recognition – face, fingerprint, iris, gait, …
Trang 12Các Vấn Đề Trong Data Mining
Các ứng dụng : Recommender system
Trang 13Các Vấn Đề Trong Data Mining
Các ứng dụng : Sentiment Analysis
Trang 14Các Vấn Đề Trong Data Mining
Các ứng dụng : Credit scoring
Trang 15Các Vấn Đề Trong Data Mining
Trang 16Các Vấn Đề Trong Data Mining
❖ Quá trình khám phá tri thức là một chuỗi lặp gồm các bước:
Data cleaning (làm sạch dữ liệu)
Data integration (tích hợp dữ liệu)
Data selection ( chọn lựa dữ liệu)
Data transformation ( biến đổi dữ liệu)
Data mining (khai phá dữ liệu)
Pattern evaluation ( đánh giá mẫu)
Knowledge presentation ( biểu diễn tri thức)
Trang 17Các Vấn Đề Trong Data Mining
❖ Quá trình khám phá tri thức là một chuỗi lặp gồm các bước được thực thi với:
Data sources (các nguồn dữ liệu)
Data warehouse (kho dữ liệu)
Task-relevant data ( dữ liệu cụ thể sẽ được khai phá)
Patterns ( mẫu kết quả từ khai phá dữ liệu)
Knowledge (tri thức đạt được)
Trang 19Các Vấn Đề Trong Data Mining
Lượng lớn dữ liệu sẵn có để khai phá
Bất kỳ loại dữ liệu được lưu trữ hay tạm thời, có cấu trúc hay bán cấu trúc hay phi cấu trúc
Dữ liệu được lưu trữ
Các tập tin truyền thống (flat files)
Các cơ sở dữ liệu giao tác (transactional databases) hay kho dữliệu (data warehouses)
Các cơ sở dữ liệu hướng ứng dụng: cơ sở dữ liệu chuỗi thời gian (time series databases), cơ
sở dữ liệu văn bản (text databases), cơ sở dữ liệu đa phương tiện (multimedia databases), …
Các kho thông tin: the World Wide Web , …
Dữ liệu tạm thời: các dòng dữ liệu (data streams)
Trang 20Các Vấn Đề Trong Data Mining
Data Mining
Database
MachineLearning
PatternRecognition
Algorithm
OtherDisciplinesVisualization
Trang 21Các Vấn Đề Trong Data Mining
Phân loại các thuật toán: (chức năng)
Trang 22Các vấn đề trong Data Mining
Regression vs Classification
Regression: biến đầu ra là định lượng
(liên tục/dạng số/có thứ tự)
Classification: biến đầu ra dạng định
tính (kiểu rời rạc/thứ bậc/định danh)
(categorical)
Trang 23Các vấn đề trong Data Mining
Prediction vs Inference
Prediction (dự đoán): Dự đoán
biến output với tập dữ liệu input
cho trước, sử dụng một hàm ước
lượng thống kê
Inference (suy diễn): Tìm hiểu mối
quan hệ giữa output với các biến
input
Trang 24Các vấn đề trong Data Mining
Recognition: Verification vs Identification
Trang 25Các Vấn Đề Trong Data Mining
❖ Phân cụm (clustering)
Chia dữ liệu thành các tập con mà chúng có các đặc tính chung
Trang 26Các Vấn Đề Trong Data Mining
❖ Chuẩn bị dữ liệu
Tiền xử lý dữ liệu (data preprocessing) để chuẩn hóa dữ liệu trước khi áp dụng vào giải thuật xử lý
– Lấy mẫu: chọn tập con các quan sát/mẫu
– Trích chọn thuộc tính: Chọn các biến đầu vào
– Chuẩn hóa dữ liệu (Normalization) (standardization, scaling, binarization)
– Xử lý dữ liệu thiếu và phần tử ngoại lai (missing data and outliers)
Ngoài ra, còn phụ thuộc vào giải thuật xử lý
– Decision Tree, Xgboost có thể xử lý dữ liệu thiếu/phần tử ngoại lai
– PCA, SVM, Neural Nets yêu cầu dữ liệu đã được chuẩn hóa