Khai thác dữ liệu
Trang 1Khai Thác Dữ Liệu
GV: Nguyễn Kim Long
Trang 2Giới thiệu môn học
Trang 3• Trình bày được các khái niệm cơ bản trong khai thác dữ liệu.
• Các kỹ thuật, công nghệ, phương pháp áp dụng trong khai thác dữ liệu
• Triển khai phương pháp khai thác dữ liệu đối với một lĩnh vực cụ thể
• Nâng cao kỹ năng tham khảo tài liệu về lĩnh vực khai thác dữ liệu
Kết quả đạt được
Trang 6• Lý thuyết: trên lớp CS2
• Thực hành: phòng máy CS2
• Bài tập: tùy chọn
Môi trường học và thực hành
Trang 8• 1-3 Làm quen công cụ mining
Trang 9Bài giảng 1 Giới thiệu
Trang 11• 1960s: HT xử lý tập tin đơn giản -> HT CSDL
• 1970s: CSDL quan hệ, mô hình hóa, câu truy vấn,
• 1980s: lý thuyết mô hình hướng đối tượng, CSDL phân tán,
=> sự bùng nổ kho dữ liệu khổng lồ
=> „giàu dữ liệu, nghèo thông tin”
Lịch Sử
Trang 12Tại sao KTDL?
Trang 13KTDL là gì?
Trang 14• khai thác tri thức
• Knowledge Discovery form Data (KDD)
• knowledge mining from data
• knowledge extraction
• data/pattern analysis
• data archaeology (khai quật dữ liệu)
• data dredging (nạo vét dữ liệu)
Các khái niệm tương đương
Trang 15• Tra cứu số điện thoại trong danh bạ.
• Tìm xem trong 1 khu vực nhất định, cái tên nào phổ biến nhất
• Sử dụng Google để tìm kiếm thông tin về
Trang 16Quá trình khám phá tri thức
Trang 171 Làm sạch dữ liệu – Data cleaning
2 Tích hợp dữ liệu − Data integration
3 Lựa chọn dữ liệu − Data selection
4 Chuyển hóa dữ liệu − Data transformation
5 Khai thác dữ liệu − Data mining
6 Đánh giá mẫu − Pattern evaluation
7 Biểu diễn tri thức − Knowledge representation
Các bước KTDL
Trang 18• relational database (cơ sở dữ liệu quan hệ)
• data warehouse (Kho dữ liệu)
• Cơ sở dữ liệu giao dịch
• Dữ liệu cao cấp, hệ thống thông tin và ứng dụng cao cấp
– Cơ sở dữ liệu quan hệ đối tượng
– Cơ sở dữ liệu thời gian, Cơ sở dữ liệu khoảng thời gian, và
Cơ sở dữ liệu chuỗi thời gian
– Cơ sở dữ liệu không gian và cơ sở dữ liệu không gian thời gian
– Cơ sở dữ liệu văn bản và cơ sở dữ liệu đa truyền thông
– Cơ sở dữ liệu hỗn tạp và Cơ sở dữ liệu kế thừa
Kiểu dữ liệu
Trang 19• Table
• Attribute(column/field)
• Record (row/tuple)
• ER
• SQL (select, join, sum, min, max, avg)
• => nơi lưu trữ nhiều thông tin nhất hiện nay
relational database
Trang 20• Kho dữ liệu:
– Def: Là nơi lưu trữ thông tin tập hợp từ nhiều nguồn khác nhau
– Dạng lưu trữ: Schema (giản đồ), khối đa chiều
• Các bước xây dựng kho dữ liệu:
Trang 22• Hồi quy (Regression) - P
• Phân tích trình tự (Sequence Analysis) - D
• Phân tích độ lệch (Deviation Analysis) - P
Chức năng KTDL
Trang 23• Sử dụng 1 tập các records có sẵn, mỗi record có chứa nhiều thuộc tính, trong đó có 1 thuộc tính
là class
Classification (P)1/6
Trang 24• Cho 1 t p các i m d li u (data points) v i ậ đ ể ữ ệ ớ
các thu c tính và 1 ộ đơ n v t ị ươ ng đươ ng
(similarity measure), tìm các nhóm sao cho:
– D li u trong cùng 1 nhóm (cluster) thì gi ng ữ ệ ố nhau h n nhóm khác ơ
– D li u trong các nhóm khác nhau thì ít gi ng ữ ệ ố nhau h n ơ
Clustering (D)2/6
Trang 25• Cho tr ướ c 1 nhóm records có ch a m t s ứ ộ ố
các items t 1 b nh t nh ừ ộ ấ đị
• Thi t l p các lu t ph thu c ế ậ ậ ụ ộ để ự đ d oán s ự
xu t hi n c a 1 s item d a trên nh ng item ấ ệ ủ ố ự ữ
khác.
Association (D) 3/6
Trang 26• D oán giá tr c a 1 thông s ự đ ị ủ ố đượ c cho liên
t c, d a trên giá tr c a nh ng thông s ụ ự ị ủ ữ ố
khác.
– (Gi s cho tr ả ử ướ c 1 mô hình ph thu c tuy n ụ ộ ế
tính hay phi tuy n tính) ế
• Áp d ng nhi u trong l nh v c th ng kê, m ng ụ ề ĩ ự ố ạ
l ướ i th n kinh ầ
Regression (P) 4/6
Trang 27• Cho tr ướ c 1 t p các ậ đố ượ i t ng, trong ó m i đ ỗ đố ượ i t ng
có riêng 1 chu i các s ki n C n tìm các quy lu t d ỗ ự ệ ầ ậ ự oán s ph thu c tu n t gi a các s ki n.
Trang 29• Lựa chọn thuộc tính:
– Thuật tóan RELIEF, FOCUS, LVF, EBR, SCRAP,
LVW, Neuralnet, Genetic,
• Luật kết hợp:
– Thuật tóan Apriori, AprioriTid, AprioriHybrid, FP-tree,
PHP, PCY, PCY nhiều chặng, cây quyết định (ID3, các mở rộng của C4.5)
• Phân lớp:
– Cây quyết định, mạng bayes, mạng neural, SVM,
Các kỹ thuật (thuật tóan)KTDL
Trang 301 Phân lọai theo cơ sở dữ liệu được khai thác
2 Phân lọai theo tri thức khai thác
3 Phân lọai theo kỹ thuật KTDL
4 Phân lọai theo môi trường ứng dụng
Phân lọai hệ thống KTDL
Trang 31• Hệ thống khai thác CSDL quan hệ
• Hệ thống khai thác CSDL giao dịch
• Hệ thống khai thác CSDL quan hệ đối tượng
• Hệ thống khai thác kho dữ liệu
• Hệ thống khai thác CSDL không gian, thời gian
• Hệ thống khai thác dữ liệu văn bản, đa truyền thông
• Hệ thống khai thác dữ liệu mạng tòan cần
Theo CSDL(1/4)
Trang 32• Hệ thống mô tả và phân biệt dữ liệu
• Hệ thồng khai thác kết hợp và tương quan dữ liệu
• Hệ thống phân lớp và dự đóan dữ liệu
• Hệ thống gom nhóm dữ liệu
• HT phân tích dữ liệu ngọai lệ và tiến hóa
• HT khai thác tri thức phổ biến
• HT khai thác tri thức thô
• HT khai thác tri thức đa cấp độ
Theo tri thức (2/4)
Trang 33• HT khai thác dữ liệu tự động
• HT khai thác dữ liệu có tương tác
• HT khai thác dữ liệu theo truy vấn
• HT sử dụng kỹ thuật máy học, thống kê, mô phỏng, nhận dạng mẫu
Theo kỹ thuật (3/4)
Trang 34• HT khai thác dữ liệu tài chính kế tóan
• HT khai thác dự liệu viễn thông
• HT khai thác dự liệudi truyền học
• HT khai thác dự liệu chứng khóan
• HT khai thác dự liệu giáo dục
Theo môi trường ứng dụng (4/4)
Trang 35• Các bước khai thác dữ liệu? Các bước thực
hiện một bài tóan khai thác dữ liệu?
• Nội dung thuyết trình.
• Chủ đề 1 thi cuối kỳ:
- tổng quan khai thác dữ liệu.
Tổng kết
Trang 36Q&A?