Tổng quanChương 1 Các kỹ thuật khai phá 4 Các khái niệm cơ bản 1 Các giai đoạn khai phá tri thức 2 Ứng dụng của khai phá dữ liệu 3 Nội dung... Chương 1 Tổng quan Dữ liệu Data: có thể xe
Trang 1Khai phá dữ liệu (Datamining)
Phan Mạnh Thường
Trang 27/12/2014 www.l hu.edu.vn
Thông tin về môn học
• Số tiết lý thuyết : 45
• Số tiết thực hành : 30
Thời lượng
• Nắm vững kiến thức cơ sở dữ liệu
• SQL Server và ngôn ngữ T-SQL
• Lập trình Visual.NET
Điều kiện
Cung cấp các kiến thức về
• Các phương pháp khai phá dữ liệu
• Nhà kho dữ liệu
Mục tiêu
Trang 3Thông tin về môn học
1 Đỗ Phúc, Giáo trình Khai thác dữ liệu, ĐHQG TPHCM, 2005
2 Hồ Tú Bảo, Introduction to knowledge discovery and data mining, IOIT, 2001.
3 Morgan Kaufman, Data Mining: Concepts and Techniques, Morgan
Kaufmann Publishers, 2002
4 Jiawei Han and Micheline Kamber, Data Mining Concepts and Techniques,
University of Illinois, Morgan Kaufmann Publishers, 2002
5 John Wang, Data mining: opportunities and challenges, Idea Group, 2003
6 ZhaoHui Tang & Jamie MacLennan, Data Mining with SQL Server 2005,
Wiley Publishing, 2005
Tài liệu tham khảo
Trang 47/12/2014 www.l hu.edu.vn
Nội dung môn học
Chương 1: Tổng quan về khai phá dữ liệu
Chương 2: Luật kết hợp
2
Chương 3: Phân lớp dữ liệu
3
Chương 4: Chuỗi phổ biến
4
Chương 5: Gom cụm dữ liệu
5
Chương 6: Nhà kho dữ liệu
5
Trang 5Thông tin về môn học
Gồm 3 cột điểm:
• Điểm chuyên cần (10%): điểm danh buổi học
(Lưu ý: nghỉ quá 30% số tiết bị cấm thi)
• Điểm kiểm tra (30%): bài tập, seminar
• Điểm thi (60%): làm bài thi trên máy
Đánh giá
Trang 6Tổng quan
Chương 1
Các kỹ thuật khai phá
4
Các khái niệm cơ bản
1
Các giai đoạn khai phá tri thức
2
Ứng dụng của khai phá dữ liệu
3
Nội dung
Trang 7Chương 1 Tổng quan
Dữ liệu (Data): có thể xem là chuỗi các bit,
là số, ký tự…mà chúng ta tập hợp hàng
ngày trong công việc
Thông tin (Information): là tập hợp của
những mảnh dữ liệu đã được chắt lọc dùng
mô tả, giải thích đặc tính của một đối tượng
nào đó
Tri thức (Knowledge): là tập hợp những
thông tin có liên hệ với nhau, có thể xem tri
thức là sự kết tinh từ dữ liệu Tri thức thể
hiện tư duy của con người về một vấn đề
Các khái niệm cơ bản
Trang 87/12/2014 www.l hu.edu.vn
Chương 1 Tổng quan
Khám phá tri thức từ cơ sở dữ liệu:
(Knowledge Discovery in Databases – KDD)
Fayyad, Platetsky-Shapiro, Smyth (1996)
gồm nhiều công đoạn như: xác định vấn đề, tập hợp
và chọn lọc dữ liệu, khai thác dữ liệu, đánh giá kết quả, giải thích dữ liệu, áp dụng tri thức vào thực tế
http://www.kdnuggets.com/
Các khái niệm cơ bản
Trang 9Chương 1 Tổng quan
“Chúng ta đang ngập chìm trong biển thông tin nhưng lại đang khát tri thức”
ngày là rất lớn
Các CSDL khổng lồ
Dữ liệu từ Internet
chỉ có 80% dữ liệu được
khai thác, 20% còn lại ẩn
trong các Database là những
tri thức quý giá
Tại sao phải khai phá dữ liệu ?
Trang 107/12/2014 www.l hu.edu.vn
Chương 1 Tổng quan
Khai phá dữ liệu là gì?
Khai phá dữ liệu (Datamining) là một bước trong quy trình khám phá tri thức, nhằm:
khối dữ liệu lớn
Trang 11Chương 1 Tổng quan
Lợi ích của khai phá dữ liệu
EDP: Electronic Data Processing MIS: Management Information Systems
Số lượng
Giá trị
MIS DSS EDP
Trang 127/12/2014 www.l hu.edu.vn
Chương 1 Tổng quan
Quy trình khai phá dữ liệu
Nghi ên cứu lĩnh vực
Rút gọn / chiều
Tạo tập dữ liệu đầu vào Tiền xử lý/ làm sạch, mã hóa
Chọn tác vụ Khai thác dữ liệu
Nghi ên cứu lĩnh vực Tạo tập dữ liệu đầu vào Tiền xử lý/ làm sạch, mã hóa
Nghi ên cứu lĩnh vực Tạo tập dữ liệu đầu vào
Rút gọn / chiều Tiền xử lý/ làm sạch, mã hóa
Nghi ên cứu lĩnh vực Tạo tập dữ liệu đầu vào
Chọn tác vụ Khai thác dữ liệu
Rút gọn / chiều
Tiền xử lý/ làm sạch, mã hóa
Nghiên cứu lĩnh vực
Tạo tập dữ liệu đầu vào
Trang 13Chương 1 Tổng quan
Quy trình khai phá dữ liệu
Chọn các thuật giải KTDL
Biểu diễn tri thức
KTDL: Tìm kiếm tri thức Đánh giá mẫu tìm được
Sử dụng các tri thức vừa khám phá
Sử dụng các tri thức vừa khám phá
Trang 147/12/2014 www.l hu.edu.vn
Chương 1 Tổng quan
Quy trình khai phá dữ liệu
Increasing potential
to support
business decisions End User
Business Analyst
Data Analyst
DBA
Making Decisions
Data Presentation
Visualization Techniques
Data Mining
Information Discovery
Data Exploration
OLAP, MDA
Statistical Analysis, Querying and Reporting
Data Warehouses / Data Marts
Data Sources
Paper, Files, Information Providers, Database Systems, OLTP
Trang 15Chương 1 Tổng quan
Từ dữ liệu đến quyết định
D ữ liệu
• Store data
• Demographical Data
• Geographical data
Th ông tin
• X lives in Z
• S is Y years old
• X and S moved
• W has money in Z
Tri th ức
• A quantity Y of product A is used in region Z
• Customers of class Y use x% of C during period D
Quy ết định
• Mail ads to families of profile P
• Cross-sell service B to clients C
Trang 167/12/2014 www.l hu.edu.vn
Chương 1 Tổng quan
Các ứng dụng
Kinh doanh
- Phân tích dữ liệu bán hàng và tiếp thị
- Phân tích đầu tư
- Chứng khoán
- Xác định gian lận
Sản xuất
- Điều khiển và lập lịch
- Quản trị mạng lưới
- Phân tích kết quả thử nghiệm Khoa học - Không gian
- Sinh học
- Địa lý
- etc.
Y học
- Bệnh lý
- Sinh học
Trang 17Chương 1 Tổng quan
Các kỹ thuật sử dụng
Phân lớp
Mẫu tuần tự
?
Nhà kho- OLAP
Gom cụm
Luật kết hợp
Dự đoán
Tìm các đặc trưng của lớp các đối tượng và sử dụng
để phân lớp dữ liệu mới.
Dữ đoán dữ liệu tương lai dựa trên dữ liệu quá khứ.
Xác định các cụm tiềm ẩn trong các tập đối tượng chưa
được xếp lớp.
Xác định trật tự dữ liệu, cấu trúc lưu trữ phù hợp với tác vụ
khai phá
Tìm các mẫu phổ biến
từ dữ liệu và mối quan
hệ của các đối tượng
dữ liệu.
Khám phá các mẫu tín hiệu phổ biến nhất từ dữ liệu các sự kiện
Trang 187/12/2014 www.l hu.edu.vn
Chương 1 Tổng quan
Kết luận
KPDL: tiến trình khám phá bán tự động các thông
tin, mẫu có ích từ CSDL lớn
Tiền xử lý
KTDL( data mining tasks)
Hậu xử lý
CSDL (quan hệ, hướng đối tượng, không gian, WWW, …)
Tri thức (đặc trưng, gom cụm, kết hợp, …)
Kỹ thuật (máy học, thống kê, trực quan hóa, …)
Ứng dụng (bán lẻ, điện thoại, khai thác Web …)