Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn i LỜI CAM ĐOAN Tôi xin cam đoan Luận văn “ Phương pháp khai phá dữ liệu dạng đóng và ứng dụng” là công trìn
Trang 1Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ
Trang 2ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ
Thái Nguyên - 2011
Trang 3Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
i
LỜI CAM ĐOAN
Tôi xin cam đoan Luận văn “ Phương pháp khai phá dữ liệu dạng đóng
và ứng dụng” là công trình nghiên cứu của riêng tôi dưới sự hướng dẫn của
PGS.TS Ngô Quốc Tạo Toàn bộ phần mềm do chính tôi lập trình và kiểm
thử Tôi xin chịu trách nhiệm về lời cam đoan của mình
Các số liệu và thông tin sử dụng trong luận văn này là trung thực
Tác giả
Nguyễn Hồng Hải
Trang 4MỤC LỤC
MỤC LỤC i
DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT iv
DANH MỤC CÁC BẢNG v
DANH MỤC HÌNH VẼ vi
MỞ ĐẦU 1
Chương 1: TÌM HIỂU PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU 3
1.2 Khai phá dữ liệu là gì 3
1.2 Ứng dụng của việc khai phá dữ liệu 3
1.3 Qui trình khai phá tri thức 4
1.3.1 Qui trình khai phá tri thức 4
1.3.2 Kiến trúc hệ thống khai phá dữ liệu 5
1.4 Các nhiệm vụ chính của khai phá tri thức 5
1.4.1 Dự đoán (predictive) 5
1.4.2 Mô tả (discriptive) 6
1.5 Ý tưởng kĩ thuật khai phá tri thức 7
1.6 Các thách thức của khai phá tri thức 7
1.7 Qui trình chuẩn bị dữ liệu 7
1.7.1 Tại sao cần chuẩn bị dữ liệu 7
1.7.2 Làm sạch dữ liệu 8
1.7.3 Chọn lọc dữ liệu 9
1.7.4 Rút gọn dữ liệu 9
1.7.5 Mã hóa dữ liệu 11
1.8 Tập phổ biến 11
1.8.1 Giới thiệu tập phổ biến 11
1.8.2 Các khái niệm cơ bản 12
1.8.2.1 Cho cơ sở dữ liệu giao dịch 12
Trang 5Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
ii
1.8.2.2 Độ phổ biến và tập phổ biến 13
1.8.2.3 Tính chất của tập phổ biến 14
1.8.2.4 Tập phổ biến tối đại 14
1.8.2.5 Tập phổ biến đóng 14
1.8.2.6 Luật kết hợp 15
1.8.2.7 Mô tả bài toán luật kết hợp 15
1.9 Phân lớp dữ liệu 16
1.9.1 Định nghĩa thông qua ví dụ 16
1.9.2 Quy trình phân lớp 16
1.10 Phân cụm dữ liệu 17
1.10.1 Phân cụm là gì? 17
1.10.2 Phân biệt phân lớp và phân cụm 17
1.10.3 Ứng dụng phân cụm 18
1.10.4 Ví dụ 19
Chương 2: KHAI PHÁ TẬP PHỔ BIẾN ĐÓNG TRONG KHÔNG GIAN 2 CHIỀU VÀ KHAI PHÁ KHỐI ĐÓNG TRONG KHÔNG GIAN 3 CHIỀU 20 2.1 Tổng quan khai phá tập phổ biến đóng FCP trong không gian 2 chiều20 2.2 Mở đầu khai phá tập phổ biến đóng FCP trong không gian 2 chiều 20
2.3 Tiến hành khai phá tập phổ biến đóng FCP 22
2.3.1 Sơ lược về quá trình khai phá tập phổ biến đóng 22
2.3.2 Thuật toán C-Miner 23
2.3.2.1 Thuật toán phân cụm (thuật toán increamental k-mean) 23
2.3.2.2 Quá trình chia không gian khai phá 25
2.3.2.3 Khai phá không gian con để tìm ra tập phổ biến đóng FCPs 29 2.4 Tổng quan khai phá khối phổ biến đóng FCC trong không gian 3 chiều 32 2.5 Mở đầu khai phá khối phổ biến đóng FCC trong không gian 3 chiều 33
Trang 62.6 Khai phá các lát cắt đại diện 36
2.6.1 Tạo ra các dàn đại diện 38
2.6.2 Tạo ra các tập phổ biến đóng FCP 39
2.6.3 3D FCC generation by post-pruning (Chiến lược lược bỏ các khối được sinh ra không thỏa mãn) 39
2.6.4 Tính đúng đắn 41
Chương 3: CÀI ĐẶT THUẬT TOÁN VÀ ỨNG DỤNG 43
3.1 Cài đặt thuật toán trong không gian 2 chiều 43
3.2 Cài đặt ứng dụng trong không gian 2 chiều 46
3.2.1 Cơ sở dữ liệu 47
3.2.2 Các bước thực hiện 47
3.3 Cài đặt thuật toán trong không gian 3 chiều 50
3.4 Cài đặt ứng dụng trong không gian 3 chiều 55
3.4.1 Cơ sở dữ liệu 55
3.4.2 Các bước thực hiện 55
KẾT LUẬN 59
TÀI LIỆU THAM KHẢO 61
Trang 7Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
iv
DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT
Các từ viết tắt Nghĩa tiếng anh Nghĩa tiếng việt
EnumerateSubset Liệt kê các tập con
Slices
Dàn tương đương với 1 tập các mặt cắt kết hợp với nhau
CP Closed pattern Tập đóng
CS Compact subspace
Không gian con đặc (trong bài toán đang xét: là không gian con mà tất cả các ô có giá trị là “1”
FCC Frequent closed cube Khổi phổ biến đóng
FCP Frequent closed pattern Tập phổ biến đóng
Minlen
Là ngưỡng giá trị Pattern length mà các pattern phải thỏa mãn
Minsup
Là ngưỡng giá trị support
mà các pattern phải thỏa mãn
RS Representative slices Dàn đại diện
RSM Representative slice Mining Khai phá lát cắt đại diện
Trang 8DANH MỤC CÁC BẢNG
Bảng 2.1 Bảng cơ sở dữ liệu 21
Bảng 2.2 Ma trận rút gọn O‟ 26
Bảng 2.3 Lát cắt 27
Bảng 2.4 Kết quả các không gian rút gọn và không gian con 27
(minsup=3, minlen=2) 27
Bảng 2.5 FCP (minsup=3, minle=2) 32
Bảng 2.6 Ma trận O trong không gian 3 chiều 34
Bảng 2.7 Khai thác FCC (minH=minR=minC=2) 38
Trang 9Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
vi
DANH MỤC HÌNH VẼ
Hình 1.1 Các bước khai phá tri thức 4
Hình 1.2 Kiến trúc hệ thống khai phá dữ liệu 5
Hình 1.3 Minh họa phân cụm dữ liệu 18
Hình 1.4 Phân cụm các điểm trong không gian 19
Hình 1.5 Phân cụm các ngôi nhà dựa vào khoảng cách địa lý 19
Hình 2.1 Khung khai phá 22
Hình 2.2 Cây phân chia sử dụng lát cắt 28
Hình 2.3 Sai sót và dư thừa 29
Trang 10MỞ ĐẦU
Ngày nay, cuộc cách mạng của kỹ thuật số cho phép số hóa thông tin dễ dàng và chi phí lưu trữ thấp.Với sự phát triển của phần mềm, phần cứng và trang bị nhanh hệ thống máy tính trong kinh doanh Số lượng dữ liệu khổng lồ được tập trung và lưu trữ trong cơ sở dữ liệu trên các thiết bị điện tử như: đĩa cứng, băng từ, đĩa quang, CD-ROM,… Tốc độ tăng dữ liệu quá lớn Từ đó dẫn đến kết quả là sự pha trộn của kỹ thuật thống kê vào các công cụ quản trị
dữ liệu không thể phân tích đầy đủ dữ liệu rộng lớn được nữa
Dữ liệu sau khi phục vụ cho một mục đích nào đó được lưu lại trong kho
dữ liệu và theo ngày tháng khối lượng dữ liệu được lưu trữ ngày càng lớn Trong khối lượng dữ liệu to lớn này có rất nhiều thông tin có ích mang tính tổng quát, thông tin có tính quy luật vẫn còn đang tiềm ẩn mà chúng ta chưa biết Từ khối lượng dữ liệu rất lớn cần có những công cụ tự động rút các thông tin và kiến thức có ích Một hướng tiếp cận có khả năng giúp các công
ty khai thác các thông tin có nhiều ý nghĩa từ các tập dữ liệu lớn đó là khai phá dữ liệu (Data Mining)
Với sự bùng nổ và phát triển của công nghệ thông tin đã mang lại nhiều hiệu quả đối với khoa học cũng như các hoạt động thực tế, trong đó khai phá
dữ liệu là một trong những lĩnh vực mang lại hiệu quả thiết thực cho con người Khai phá dữ liệu đã giúp người sử dụng thu được những tri thức hữu ích từ những cớ sở dữ liệu hoặc các kho dữ liệu khổng lồ khác Luận văn đề cập đến các khái niệm và vấn đề cơ bản trong Khai phá tri thức và Khai phá
dữ liệu, ngoài ra luận văn còn đề cập đến phương pháp khai phá dữ liệu dạng đóng được áp dụng trong nhiều lĩnh vực thực tiễn
Trang 11data error !!! can't not
read
Trang 12data error !!! can't not
read
Trang 13data error !!! can't not
read
Trang 14data error !!! can't not
read
Trang 15data error !!! can't not
read
Trang 17data error !!! can't not
read
Trang 18data error !!! can't not
read
Trang 19data error !!! can't not
read
Trang 20data error !!! can't not
read
Trang 21data error !!! can't not
read
Trang 22data error !!! can't not
read
data error !!! can't not
read
Trang 23data error !!! can't not
read
data error !!! can't not
read
Trang 24data error !!! can't not
read
data error !!! can't not
read
Trang 26read
Trang 27data error !!! can't not
read