CHƯƠNG TRÌNH 45 tiết lý thuyết và 30 tiết thực hành Tổng quan Chuẩn bị dữ liệu Tập phổ biến và luật kết hợp Bài toán phân lớp Bài toán gom nhóm Các nghiên cứu xa hơn 6 Hình
Trang 1KHAI THÁC DỮ LIỆU
& ỨNG DỤNG
(DATA MINING)
GV : ThS NGUYỄN HOÀNG TÚ ANH
2
NỘI DUNG
dữ liệu (DM)
Trang 2GIỚI THIỆU MÔN HỌC
Tai sao chọn môn học này ?
Thế mạnh và nền tảng kiến thức :
TTNT, hệ QTCSDL, thống kê, kinh tế,…
Sự quan tâm đến kiến thức, vấn đề mới.
Mục tiêu môn học :
Cung cấp các khái niệm và kỹ thuật cơ bản của
khai thác dữ liệu (DM)
Chuyển dữ liệu về dạng phù hợp
Tìm tri thức từ dữ liệu
Biểu diễn, đánh giá tri thức
Ứng dụng của DM
Các kỹ năng giải quyết vấn đề
4
Thông tin liên lạc
Giảng viên lý thuyết :
Th.s Nguyễn Hoàng Tú Anh
nhtanh@fit.hcmus.edu.vn
Tel : 38354266 – 803
Website môn học :
http://courses.cs.hcmus.edu.vn/
Trang 3CHƯƠNG TRÌNH
45 tiết lý thuyết và 30 tiết thực hành
Tổng quan
Chuẩn bị dữ liệu
Tập phổ biến và luật kết hợp
Bài toán phân lớp
Bài toán gom nhóm
Các nghiên cứu xa hơn
6
Hình thức học
Lý thuyết:
Bài giảng : GV cung cấp slide theo tiến độ.
Bài tập theo nhóm và bài tập cá nhân.
Tìm hiểu, nghiên cứu tài liệu để báo cáo
xemina
Thực hành :
Hình thức 2
Sử dụng PM Weka
Cài đặt một số thuật toán
Trang 4HÌNH THỨC KIỂM TRA VÀ
ĐÁNH GIÁ
Hệ thống thang điểm:
Bài thi lý thuyết: 4.5 điểm
Bài tập theo nhóm và cá nhân: 1.5 điểm
Báo cáo xemina: 1.5 điểm
Bài tập thực hành hằng tuần: 2.5 điểm
Điểm cộng cho phần TH: tối đa 1 điểm
8
HÌNH THỨC KIỂM TRA VÀ
ĐÁNH GIÁ
Thi lý thuyết: 4.5 điểm
Thi viết, đựơc sử dụng tài liệu, KHÔNG sử dụng laptop,
mang theo máy tính : thời gian 120’
Bài tập theo nhóm và cá nhân: 1.5 điểm
Bài tập làm theo nhóm và cá nhân trên lớp và qua Moodle
Tối đa 4 SV/nhóm
Hạn chót đăng ký nhóm qua Moodle: 15/09/2009
Báo cáo xemina: 1.5 điểm
Thực hiện theo nhóm đã đăng ký bài tập nhóm
(4SV/nhóm)
Các nhóm sẽ đăng ký nội dung xemina theo thông báo
trên website môn học.(trong tuần từ 21/9 -26/9)
Trang 5HÌNH THỨC KIỂM TRA VÀ
ĐÁNH GIÁ
Bài tập (theo nhóm và cá nhân): 1.5 điểm
Bài tập làm theo nhóm hoặc cá nhân trên lớp và qua
Moodle hằng tuần.
Đánh giá sự tham gia lớp học và sự chuẩn bị bài
trong suốt quá trình học tập.
hằng tuần trên lớp và qua Moodle.
Đối với các bài tập làm theo nhóm, trưởng
nhóm cần thống kê tỷ lệ đóng góp của
từng thành viên trong nhóm.
10
HÌNH THỨC KIỂM TRA VÀ
ĐÁNH GIÁ
Bài tập (theo nhóm và cá nhân): 1.5 điểm
Đánh giá sự tham gia lớp học và sự chuẩn bị bài
trong suốt quá trình học tập.
30% - bài tập cá nhân trong giờ học và 70% là bài
tập theo nhóm.
Để có thể đạt kết quả tốt, các SV cần xem trước bài
giảng để chuẩn bị.
Các mức đánh giá :
A – Xuất sắc 100% số điểm
B - Đạt yêu cầu ~70% số điểm
C - Không đạt yêu cầu ~30% số điểm
F - Không làm hoặc giống bài của SV khác 0% số điểm
Trang 6HÌNH THỨC KIỂM TRA VÀ
ĐÁNH GIÁ
Các nhóm sẽ đăng ký nội dung xemina theo
thông báo trên website môn học. (trong tuần
từ 21/9 -26/9)
Thứ tự báo cáo phụ thuộc vào nội dung các
nhóm đăng ký Bắt đầu xemina từ tuần thứ
10.
Trước buổi báo cáo, các nhóm phải gửi nội
dung trình bày (file.ppt) cho GV góp ý và post
lên website để các nhóm khác tham khảo.
12
HÌNH THỨC KIỂM TRA VÀ
ĐÁNH GIÁ
Các nhóm sẽ đăng ký nội dung xemina theo thông báo
trên website môn học. (trong tuần từ 21/9 -26/9)
Điểm báo cáo xemina sẽ đánh giá trên nội dung trình
bày, trả lời câu hỏi tại buổi xemina, trên cả nội dung
của báo cáo chi tiết và sự tham dự các buổi xemina.
Trong tuần thứ 16, các nhóm sẽ post nội dung bản
báo cáo viết chi tiết (file doc theo mẫu) lên website
môn học.
Trong bài thi viết lý thuyết cuối kỳ sẽ có 1 câu hỏi
liên quan đến các nội dung xemina.
Trang 7HÌNH THỨC KIỂM TRA VÀ
ĐÁNH GIÁ
Bài tập thực hành hằng tuần: 2.5 điểm
Bài tập làm theo nhóm Một nhóm : 2 SV
Số lượng : 4 bài Thời gian : 2 tuần/bài
Hạn chót đăng ký nhóm TH qua Moodle:
15/09/2009
Sử dụng phần mềm Weka để giải quyết một số bài toán
trong nội dung lý thuyết : xử lý DL, khai thác luật kết hợp,
phân lớp và gom nhóm
Có yêu cầu cài đặt một số thuật toán
Thời gian nộp qua website môn học theo thông báo của
GV HDTH.
14
Câu hỏi và đề nghị ?
Chia sẻ câu hỏi, thắc mắc với cả lớp – có
thể có những bạn khác cũng quan tâm.
Bỏ vào càng nhiều công sức, các em sẽ đạt
được kết quả càng cao
Điểm của các em tỷ lệ thuận với các nỗ
lực đã bỏ ra.
Trang 8TÀI LIỆU THAM KHẢO
J.Han, M.Kamber, “Data mining : Concepts & Technique”
(ppt) – http://www.cs.sfu.ca/~han/dmbook
P.Tan, M Steinbach, V Kumar, “Introduction to data
Mining”, 2006, -
http://www-users.cs.umn.edu/~kumar/dmbook/index.php
Phần mềm WEKA - http://www.cs.waikato.ac.nz/ml/weka/
Trang web đầu ngành về KTDL - Kdnuggets :
www.kdnuggets.com
16
NỘI DUNG
dữ liệu (DM)
Trang 9VÍ DỤ : Tập Dữ liệu
age income student credit_rating buys_computer
<=30 medium yes excellent yes
31…40 medium no excellent yes
>40 medium no excellent no
18
THẾ NÀO LÀ KHAI THÁC DL
Là quá trình lặp, không phải plug - and – play
“Khai thác dữ liệu là quá trình không tầm
thường của việc xác định các mẫu tiềm ẩn có
tính hợp lệ, mới lạ, có ích và có thể hiểu được tối
đa trong CSDL” –
- Fayyad, Piatetsky-Shapiro & Smyth, 1996
Trang 10 Phân khúc thị trường : Ai mua sản phẩm
của công ty?
Mục tiêu hướng khách hàng (customer
targeting): Làm thế nào để tăng số mail trả
lời? Nên quảng cáo cái gì trên web site ?
Những mặt hàng nào thường được khách
hàng mua cùng với nhau?
Ví dụ ứng dụng
Quản lý rủi ro -Risk Management
Khách hàng nào có thể sẽ chuyển sang nhà
cung cấp dịch vụ khác?
Khách hàng nào có mức độ rủi ro tín dụng tốt?
Giao dịch thẻ tín dụng nào bị lỗi hoặc gian
lận ?
Ví dụ ứng dụng
Trang 11 Có phải tế bào ung thư ?
Nếu đúng thì mức độ phát triển như thế nào ?
Ví dụ ứng dụng
22
THẾ NÀO LÀ KHAI THÁC DL
Tại sao cần Khai thác dữ liệu (KTDL)?
Những đối tượng nào sử dụng KTDL ?
Sử dụng KTDL ở đâu và khi nào?
Sử dụng KTDL như thế nào ?
Tại sao cần nghiên cứu KTDL?
Lịch sử phát triển KTDL ?
….
Xem bài 1 : Tổng quan
Trang 12CÁC CÔNG VIỆC CẦN LÀM
1 Đăng nhập vào Moodle
Để đăng ký tham gia vào lớp, thảo luận và lấy tài liệu
Hạn chót : 16/9/2009
Sau ngày 16/9/09, Website môn học sẽ khoá lại
2. Đăng ký nhóm
Hạn chót đăng ký nhóm cho bài tập nhóm /xemina
(4Sv/nhóm) và cho bài tập Thực hành (2Sv/nhóm) qua
Moodle : 15/09/2009
Chuẩn bị sẵn BẢNG TÊN NHÓM và mang theo khi đến lớp
và tất cả các buổi học tiếp theo.
24
CÁC CÔNG VIỆC CẦN LÀM
Xem nội dung bài tập nhóm số 1
liệu: nên chọn lựa một lĩnh vực nhỏ, một sản
phẩm cụ thể.
Cách thực hiện :
Đọc slide, xem các ví dụ
Tham khảo trên Internet các ví dụ về KTDL.