1. Trang chủ
  2. » Công Nghệ Thông Tin

Bài giảng khai phá dữ liệu (data mining) introduction

26 6 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Bài Giảng Khai Phá Dữ Liệu (Data Mining) Introduction
Tác giả Trịnh Tấn Đạt
Người hướng dẫn TAN DAT TRINH, Ph.D.
Trường học Saigon University
Chuyên ngành Khoa CNTT
Thể loại bài giảng
Năm xuất bản 2024
Thành phố Hồ Chí Minh
Định dạng
Số trang 26
Dung lượng 806,68 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Các Nội Dung Giới thiệu về khai phá dữ liệu và các vấn đề liên quan  Tiền xử lý dữ liệu preprocessing  Hồi quy dữ liệu regression  Các phương pháp phân lớp classification: Nạve Bayes

Trang 1

Trịnh Tấn Đạt

Khoa CNTT – Đại Học Sài Gòn

Email: trinhtandat@sgu.edu.vn

Website: https://sites.google.com/site/ttdat88/

Trang 2

 Danh sách các đề tài – đồ án môn học

 Các vấn đề trong data mining

 Trao đổi và thảo luận

Trang 3

Giới Thiệu Môn Học

 Khai phá dữ liệu (data mining)

 Cung cấp nền tảng tốt về suy luận thống kê và cấu trúc toán học cần thiết để phục

vụ cho công việc nghiên cứu khoa học

 Kỹ năng thực hành, thiết kế mô phỏng thực nghiệm

Trang 4

Các Nội Dung

 Giới thiệu về khai phá dữ liệu và các vấn đề liên quan

 Tiền xử lý dữ liệu (preprocessing)

 Hồi quy dữ liệu (regression)

 Các phương pháp phân lớp (classification): Nạve Bayes Classifier, Neural

Network, SVM, Boosting…

 Các phương pháp phân cụm (clustering): Kmeans, Phân cụm đa cấp, …

 Luật kết hợp (association rules)

 Đồ án mơn học – seminar nhĩm

Trang 5

Tài liệu tham khảo

 Slide giảng viên cung cấp

 Jiawei Han, Micheline Kamber, and Jian Pei, Data Mining: Concepts and Techniques, 3rd edition, Morgan Kaufmann Publishers, 2011

 Ian H Witten and Eibe Frank, Data Mining – Practical Machine Learning Tools and Techniques, 2nd edition, Morgan Kaufmann Publishers, 2005

 Richard O Duda, Peter E Hart, and David G Stork, Pattern Classification,

Trang 6

Hình thức đánh giá

 Điểm quá trình:

 Chuyên cần: 10%

 Báo cáo đề tài: 40%

 Soạn slide báo cáo.

 Thuyết trình giảng bài trước lớp (20 phút đến 30 phút).

 Chương trình demo mô phỏng ứng dụng của phương pháp/thuật toán trình bày.

 Báo cáo cuối kỳ: 50%

 Báo cáo trình bày theo mẫu nghiên cứu khoa học/ khóa luận tốt nghiệp

 Báo cáo yêu cầu ít nhất 30 trang

 Có tài liệu tham khảo và trích dẫn (ít nhất 15 tài liệu tham khảo)

 Trình bày chi tiết cơ sở lý thuyết của thuật toán/ phương pháp lựa chọn

Trang 7

Danh sách chủ đề báo cáo

❖Sinh viên đăng ký làm đề tài theo nhĩm (mỗi nhĩm tối đa 3 sinh viên):

1 K-Nearest Neighbors

2 Decision Tree ( C4.5, CART, …)

3 Clustering (K- means, Spectral clustering, hierarchical clustering, DBSCAN, …)

4 Support vector machines (SVM)

5 Boosting algorithm: thuật tốn AdaBoost

6 Association rules: thuật tốn Apriori

7 Expectation –Maximization algorithm

8 Nạve Bayes Classifier

9 Neural Network

10 Rough set theory (Lý thuyết tập thơ)

Trang 8

Các ứng dụng

▪ Trích chọn thông tin

▪ Phân tích chủ đề và ứng dụng

▪ Phân tích liên kết và tìm kiếm trên Web

▪ Quảng cáo trực tuyến

▪ Phân tích quan điểm

▪ Các hệ thống gợi ý

▪ Phân tích mạng xã hội

▪ Dữ liệu lớn và Khai phá dữ liệu quy mô lớn

▪ Phân tích và dự báo với dữ liệu kinh tế tài chính

▪ Đấu giá và thị trường

▪ …

Trang 9

Các Vấn Đề Trong Data Mining

❖ Data Mining là gì?

• Quá trình trích xuất tri thức từ lượng lớn dữ liệu.

• Quá trình trích xuất thông tin ẩn, hữu ích, chưa được biết trước từ dữ liệu.

Trang 10

Các Vấn Đề Trong Data Mining

 Các ứng dụng: Prediction

Tid Refund Marital

Status

Taxable Income Cheat

Trang 11

Các Vấn Đề Trong Data Mining

 Các ứng dụng: Biometric recognition – face, fingerprint, iris, gait, …

Trang 12

Các Vấn Đề Trong Data Mining

 Các ứng dụng : Recommender system

Trang 13

Các Vấn Đề Trong Data Mining

 Các ứng dụng : Sentiment Analysis

Trang 14

Các Vấn Đề Trong Data Mining

 Các ứng dụng : Credit scoring

Trang 15

Các Vấn Đề Trong Data Mining

Trang 16

Các Vấn Đề Trong Data Mining

❖ Quá trình khám phá tri thức là một chuỗi lặp gồm các bước:

 Data cleaning (làm sạch dữ liệu)

 Data integration (tích hợp dữ liệu)

 Data selection ( chọn lựa dữ liệu)

 Data transformation ( biến đổi dữ liệu)

 Data mining (khai phá dữ liệu)

 Pattern evaluation ( đánh giá mẫu)

 Knowledge presentation ( biểu diễn tri thức)

Trang 17

Các Vấn Đề Trong Data Mining

❖ Quá trình khám phá tri thức là một chuỗi lặp gồm các bước được thực thi với:

 Data sources (các nguồn dữ liệu)

 Data warehouse (kho dữ liệu)

 Task-relevant data ( dữ liệu cụ thể sẽ được khai phá)

 Patterns ( mẫu kết quả từ khai phá dữ liệu)

 Knowledge (tri thức đạt được)

Trang 19

Các Vấn Đề Trong Data Mining

 Lượng lớn dữ liệu sẵn có để khai phá

 Bất kỳ loại dữ liệu được lưu trữ hay tạm thời, có cấu trúc hay bán cấu trúc hay phi cấu trúc

 Dữ liệu được lưu trữ

 Các tập tin truyền thống (flat files)

 Các cơ sở dữ liệu giao tác (transactional databases) hay kho dữliệu (data warehouses)

 Các cơ sở dữ liệu hướng ứng dụng: cơ sở dữ liệu chuỗi thời gian (time series databases), cơ

sở dữ liệu văn bản (text databases), cơ sở dữ liệu đa phương tiện (multimedia databases), …

 Các kho thông tin: the World Wide Web , …

 Dữ liệu tạm thời: các dòng dữ liệu (data streams)

Trang 20

Các Vấn Đề Trong Data Mining

Data Mining

Database

MachineLearning

PatternRecognition

Algorithm

OtherDisciplinesVisualization

Trang 21

Các Vấn Đề Trong Data Mining

 Phân loại các thuật toán: (chức năng)

Trang 22

Các vấn đề trong Data Mining

 Regression vs Classification

 Regression: biến đầu ra là định lượng

(liên tục/dạng số/có thứ tự)

 Classification: biến đầu ra dạng định

tính (kiểu rời rạc/thứ bậc/định danh)

(categorical)

Trang 23

Các vấn đề trong Data Mining

 Prediction vs Inference

 Prediction (dự đoán): Dự đoán

biến output với tập dữ liệu input

cho trước, sử dụng một hàm ước

lượng thống kê

 Inference (suy diễn): Tìm hiểu mối

quan hệ giữa output với các biến

input

Trang 24

Các vấn đề trong Data Mining

 Recognition: Verification vs Identification

Trang 25

Các Vấn Đề Trong Data Mining

❖ Phân cụm (clustering)

 Chia dữ liệu thành các tập con mà chúng có các đặc tính chung

Trang 26

Các Vấn Đề Trong Data Mining

❖ Chuẩn bị dữ liệu

 Tiền xử lý dữ liệu (data preprocessing) để chuẩn hóa dữ liệu trước khi áp dụng vào giải thuật xử lý

– Lấy mẫu: chọn tập con các quan sát/mẫu

– Trích chọn thuộc tính: Chọn các biến đầu vào

– Chuẩn hóa dữ liệu (Normalization) (standardization, scaling, binarization)

– Xử lý dữ liệu thiếu và phần tử ngoại lai (missing data and outliers)

 Ngoài ra, còn phụ thuộc vào giải thuật xử lý

– Decision Tree, Xgboost có thể xử lý dữ liệu thiếu/phần tử ngoại lai

– PCA, SVM, Neural Nets yêu cầu dữ liệu đã được chuẩn hóa

Ngày đăng: 23/12/2023, 10:14

HÌNH ẢNH LIÊN QUAN

Hình thức đánh giá - Bài giảng khai phá dữ liệu (data mining) introduction
Hình th ức đánh giá (Trang 6)

TỪ KHÓA LIÊN QUAN