Tài liệu tóm tắt môn Khai phá dữ liệu, chuyên ngành phần mềm khoa công nghệ thông tin. DeepL (www.deepl.com): Được đánh giá là một trong những trang web dịch ngôn ngữ chính xác nhất, DeepL sử dụng công nghệ AI và máy học sâu để cải thiện chất lượng dịch. Microsoft Translator (www.microsoft.comenustranslator): Công cụ dịch ngôn ngữ miễn phí của Microsoft, cho phép bạn dịch văn bản, từ vựng, câu và cả hình ảnh.
Trang 1Trường Đại học Nha Trang Khoa Công nghệ thông tin
Bộ môn Hệ thống thông tin Giáo viên: TS.Nguyễn Khắc Cường KHAI PHÁ DỮ LIỆU
Trang 2CHỦ ĐỀ 4 PHÂN LỚP
2
là các k ỹ thu ậ t dùng để h ọ c các d ữ li ệ u có s ẵ n, h ọ c cho t ớ i khi phân bi ệ t đượ c d ữ li ệ u m ớ i vào các l ớ p rõ ràng, chính xác K ế t qu ả là m ộ t cái nhãn gán cho d ữ
li ệ u m ớ i
Trang 3Phân lớp
Phân lớp = classification
Là một trong các bài toán học theo dữ liệu (data-driven)
Training dataset (tập huấn luyện)
Tập dữ liệu được xây dựng sẵn
Từng dữ liệu được gán vào một lớp cụ thể cho trước gán nhãn
Model (mô hình phân lớp)
Model = Classifier = là kết quả của quá trình huấn luyện
Dựa vào thông tin của tập huấn luyện Xây dựng mô hình phân lớp
sử dụng một giải thuật nào đó
Tác dụng
Từ một dữ liệu mới dùng model (đã huấn luyện) để xác định dữ liệu đó có khả năng cao là
thuộc vào lớp nào trong số các lớp mà model đó đã biết
hoặc không thuộc lớp nào
classifier
Trang 4Phân lớp
Giới thiệu bài toán phân lớp
4
Trang 5Phân lớp
Giới thiệu bài toán phân lớp
d ự đ oán
phân l ớ p
Trang 6Phân lớp
Giới thiệu bài toán phân lớp
6
Trang 7Phân lớp
Một số giải thuật phân lớp phổ biến
Binary classification
k-Nearest Neighbors
Support Vector Machine
Decision Trees
Logistic Regression
Naive Bayes
Multi-class classification
k-Nearest Neighbors
Support Vector Machine
Decision Trees
Naive Bayes
Random Forest
Gradient Boosting
Trang 8Phân lớp
Giới thiệu bài toán phân lớp
Email classification
Anomaly / Fraud Detection
8
phân lo ạ i email
Trang 9Phân lớp
Giới thiệu bài toán phân lớp
Business data mining:
transaction data
Web mining:
web page classification
information extraction
Biological mining:
protein family classification
structure prediction
Autonomous driving
Speech recognition
Medical:
Based on patient records who should be highly emergency
Trang 10Phân lớp
Giới thiệu bài toán phân lớp
Human face detection
Text categorization
Automatically collect documents of specific topics
Scientific Paper Header and Citation Extraction
Citation Index
Citation Database
DNA Sequence Modeling
DNA Database Search
10
Trang 11Phân lớp