Giới thiệu về khai thác dữ liệu DM
Trang 1KHAI THÁC DỮ LIỆU
& ỨNG DỤNG
(DATA MINING)
GV : ThS NGUYỄN HOÀNG TÚ ANH
NỘI DUNG
dữ liệu (DM)
Trang 2GIỚI THIỆU MÔN HỌC
Tai sao chọn môn học này ?
Thế mạnh và nền tảng kiến thức :
TTNT, hệ QTCSDL, thống kê, kinh tế,…
Sự quan tâm đến kiến thức, vấn đề mới
Mục tiêu môn học :
Cung cấp các khái niệm và kỹ thuật cơ bản của khai thác dữ liệu (DM)
Chuyển dữ liệu về dạng phù hợp
Tìm tri thức từ dữ liệu
Biểu diễn, đánh giá tri thức
Ứng dụng của DM
Các kỹ năng giải quyết vấn đề và một số kỹ năng mềm
Thông tin liên lạc
Giảng viên lý thuyết :
Th.s Nguyễn Hoàng Tú Anh
nhtanh@fit.hcmuns.edu.vn
Tel : 8354266 – 508 hoặc 803
Trang 3CHƯƠNG TRÌNH
30 tiết lý thuyết
Tổng quan
Chuẩn bị dữ liệu
Tập phổ biến và luật kết hợp
Bài toán phân lớp
Bài toán gom nhóm
Các nghiên cứu xa hơn
Hình thức học
Lý thuyết:
Bài giảng : nghiên cứu trước slide
Tự tìm hiểu, tổng hợp kiến thức
Bài tập nhóm : thảo luận, chuẩn bị bài tập
Trang 4HÌNH THỨC KIỂM TRA VÀ
ĐÁNH GIÁ
Hệ thống thang điểm :
Bài thi lý thuyết : 7 điểm
Bài tập theo nhóm : 1.5 điểm
Bài kiểm tra giữa kỳ : 1.5 điểm
HÌNH THỨC KIỂM TRA VÀ
ĐÁNH GIÁ
Thi viết, đựơc sử dụng tài liệu, KHÔNG sử dụng laptop, mang theo máy tính : thời gian 120’
Bài kiểm tra làm cá nhân
Trang 5HÌNH THỨC KIỂM TRA VÀ
ĐÁNH GIÁ
Bài tập làm theo nhóm trên lớp và qua Moodle hằng tuần
Tối đa 7 SV/nhóm
Đánh giá sự tham gia lớp học và sự chuẩn bị bài
Sau khi thảo luận, các nhóm sẽ trình bày ý kiến, kết quả trước lớp hoặc sẽ trình bày trên giấy, nộp cho GV ngay tại lớp hoặc gửi bài qua Moodle.
Để có thể đạt kết quả tốt, các nhóm cần xem trước bài giảng
để chuẩn bị
Các mức đánh giá :
A – Xuất sắc 100% số điểm
B - Đạt yêu cầu ~70% số điểm
C - Không đạt yêu cầu ~30% số điểm
F - Không làm hoặc giống bài của nhóm khác 0% số điểm
Câu hỏi và đề nghị ?
Rất mong nhận được các ý kiến phản hồi từ các em.
Cô cần điều chỉnh nội dung cho phù hợp với nhu cầu của các em.
Có thể gửi ý kiến cho Cô bất cứ lúc nào
Chia sẻ câu hỏi, thắc mắc với cả lớp – có thể có những bạn khác cũng quan tâm.
Bỏ vào càng nhiều công sức, các em sẽ đạt được kết quả càng cao
Trang 6TÀI LIỆU THAM KHẢO
J.Han, M.Kamber, “Data mining : Concepts & Technique” (ppt) – http://www.cs.sfu.ca/~han/dmbook hoặc ebook
P.Tan, M Steinbach, V Kumar, “Introduction to data Mining”, 2006, -
http://www-users.cs.umn.edu/~kumar/dmbook/index.php
Phần mềm WEKA - http://www.cs.waikato.ac.nz/ml/weka/
Trang web đầu ngành về KTDL - Kdnuggets :
www.kdnuggets.com
NỘI DUNG
Trang 7VÍ DỤ : Tập Dữ liệu
age income student credit_rating buys_computer
<=30 medium yes excellent yes
31…40 medium no excellent yes
>40 medium no excellent no
THẾ NÀO LÀ KHAI THÁC DL
Là quá trình lặp, không phải plug - and – play
của việc xác định các mẫu tiềm ẩn có tính hợp lệ,
mới lạ, có ích và có thể hiểu được tối đa trong
Một vài ví dụ minh họa ứng dụng KTDL
doanh thu
Trang 8THẾ NÀO LÀ KHAI THÁC DL
Tại sao cần Khai thác dữ liệu (KTDL)?
Những đối tượng nào sử dụng KTDL ?
Sử dụng KTDL ở đâu và khi nào?
Sử dụng KTDL như thế nào ?
Tại sao cần nghiên cứu KTDL?
Lịch sử phát triển KTDL ?
….
Xem bài 1 : Tổng quan.
CÁC CÔNG VIỆC CẦN LÀM
Trang 9CÁC CÔNG VIỆC CẦN LÀM
Xem nội dung bài tập nhóm số 1
khai thác dữ liệu : nên chọn lựa một lĩnh vực nhỏ, một sản phẩm cụ thể
Cách thực hiện :