Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái nguyên, năm 2011... ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Trang 1Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Thái nguyên, năm 2011
Trang 2ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
NGUYỄN VĂN TƯ
KHAI PHÁ LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU VÀ ỨNG DỤNG
CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH
Trang 3Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
i
LỜI CAM ĐOAN
Tôi xin cam đoan toàn bộ nội dung trong Luận văn là được thực hiện
theo đúng đề cương đã được hội đồng khoa học trường Đại học Thái nguyên-
khoa Công nghệ thông tin phê duyệt, nội dung thực hiện trong đề cương đã
được cán bộ hướng dẫn giao cho và kiểm soát Nội dung luận văn, các phần
trích lục các tài liệu hoàn toàn chính xác Nếu có sai sót tôi hoàn toàn chịu
trách nhiệm
Tác giả luận văn
Nguyễn Văn Tư
Trang 4LỜI CẢM ƠN
Tôi xin chân thành cảm ơn các thầy cô Trường Đại học Công nghệ Thông tin và Truyền thông – Đại học Thái Nguyên, các Thầy cô Viện công nghệ thông tin – Viện Khoa học và Công nghệ Việt Nam, các anh chị lớp Cao học K8 - khóa 2009-2011 đã giúp đỡ tôi trong quá trình nghiên cứu và thực hiện luận văn
Tôi xin trân trọng cảm ơn TS Nguyễn Huy Đức – Khoa Thông tin - Máy tính, Trường Cao đẳng Sư phạm Trung ương, người thầy trực tiếp hướng dẫn, đưa ra ý tưởng, định hướng, đóng góp các ý kiến chuyên môn và tận tình giúp đỡ tôi trong suốt quá trình nghiên cứu và thực hiện luận văn thạc sĩ ngành khoa học máy tính
Tôi xin cảm ơn các bạn bè đồng nghiệp và gia đình đã giúp đỡ, đóng góp ý kiến và động viên tôi trong suốt qua trình học, quá trình nghiên cứu và hoàn thành luận văn
Tác giả
Trang 5Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
iii
MỤC LỤC
Trang
Lời cam đoan……….…….………i
Lời cảm ơn… ……….……….……….ii
Mục lục……… ……….….……… ……iii
DANH MỤC CÁC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT v
DANH MỤC CÁC BẢNG BIỂU vi
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ vii
MỞ ĐẦU 1
Chương 1: TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU 3
1.1 Quá trình phát hiện tri thức từ cơ sở dữ liệu 3
1.2 Kiến trúc của hệ thống khai phá dữ liệu 6
1.3 Quá trình khai phá dữ liệu 8
1.4 Nhiệm vụ của khai phá dữ liệu 10
1.5 Các phương pháp chính trong khai phá dữ liệu 11
1.5.1 Phương pháp luật kết hợp 12
1.5.2 Phương pháp cây quyết định 12
1.5.4 Các phương pháp dựa trên mẫu 14
1.6 Các ứng dụng của khai phá dữ liệu 15
Kết luận chương 1: 16
Chương 2: KHAI PHÁ LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU 17
2.1 Bài toán mở đầu 17
2.2 Các khái niệm cơ sở 18
2.2.1.Cơ sở dữ liệu giao tác 19
2.2.2 Biểu diễn cơ sở dữ liệu giao tác 19
2.2.3 Tập mục thường xuyên 21
2.2.4 Luật kết hợp 22
2.2.5 Độ hỗ trợ và độ tin cậy của luật kết hợp 22
2.3 Khai phá luật kết hợp 24
2.4 Các cách tiếp cận khai phá tập mục thường xuyên 26
2.5 Các thuật toán điển hình khai phá tập mục thường xuyên 27
2.5.1 Thuật toán Apriori 28
2.5.2.Thuật toán FP_growth 33
2.6 Thuật toán sinh luật kết hợp: 41
2.7 Một số mở rộng khai phá luật kết hợp trong cơ sở dữ liệu 44
Kết luận chương 2: 46
Chương 3: KHAI PHÁ LUẬT KẾT HỢP CÓ TRỌNG SỐ 47
3.1 Một số khái niệm về luật kết hợp có trọng số 47
3.2 Khai phá luật kết hợp trọng số không chuẩn hóa 49
3.3 Khai phá luật kết hợp trọng số chuẩn hóa 52
Trang 63.3.1 Một số khái niệm về trọng số chuẩn hóa 52
3.3.2 Thuật toán khai phá luật kết hợp trọng số chuẩn hóa (MINVAL(W)) 54
Kết luận chương 3: 56
Chương 4: THỰC NGHIỆM KHAI PHÁ LUẬT KẾT HỢP 57
4.1 Giới thiệu bài toán 57
4.2 Dữ liệu thực nghiệm 58
4.3 Xây dựng chương trình 60
4.4 Thực nghiệm khai phá 61
4.5 Kết quả thực nghiệm 63
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 63
1 Những kết quả đã đạt được 63
2 Hướng phát triển của đề tài là: 64
TÀI LIỆU THAM KHẢO 65
PHỤ LỤC 67
Trang 7Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
v
DANH MỤC CÁC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT
Trang 8DANH MỤC CÁC BẢNG BIỂU
Bảng 2.1: Danh mục các tập mục trong CSDL 19
Bảng 2.2: Biểu diễn ngang của CSDL giao tác 20
Bảng 2.3: Biểu diễn dọc của CSDL giao tác 20
Bảng 2.4: Ma trận giao tác của CSDL bảng 2.2 21
Bảng 2.5: Cơ sở dữ liệu DB 24
Bảng 2.6: Độ hỗ trợ của các mục 25
Bảng 2.7: Độ hỗ trợ của các tập mục 25
Bảng 2.8: Độ tin cậy của các luật 26
Bảng 2.9: CSDL giao tác minh hoạ cho thuật toán Apriori 31
Bảng 2.10: CSDL giao tác minh hoạ cho thuật toán FP- growth 34
Bảng 3.1.a Tập giao tác DB 48
Bảng 3.1.b Thông tin của cửa hàng 48
Bảng 4.1: Dữ liệu đã trích chọn để khai phá 58
Bảng 4.2: Mã hóa các mặt hàng 59
Trang 9Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
vii
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1.1 Quá trình khám phá tri thức 5
Hình 1.2 Kiến trúc của hệ thống khai phá dữ liệu 7
Hình 1.3: Quá trình khai phá dữ liệu 9
Hình 1.4: Mẫu kết quả với phương pháp cây quyết định 12
Hình 1.5: Phân cụm các đối tượng k-Mean ( + là tâm của cụm) 13
Hình 2.1: Phân loại các thuật toán khai phá tập mục thường xuyên 27
Hình 2.2: Cây FP-tree được xây dựng dần khi thêm các giao tác t1, t2, t3 35
Hình 2.3: Cây FP-tree của CSDL DB trong bảng 2.10 36
Hình 2.4: FP-tree phụ thuộc của m 39
Hình 2.5 : Các FP-tree phụ thuộc của am, cm và cam 39
Hình 4.1: Dữ liệu đã mã hóa chuẩn bị cho khai phá 60
Hình 4.2: Giao diện chương trình 61
Hình 4.3: Giao diện kết quả khai phá tập mục thường xuyên 62
Hình 4.4: Giao diện kết quả khai phá luật kết hợp 62
Trang 10MỞ ĐẦU
Trong những năm qua, việc nắm bắt, xử lý được thông tin được coi là
cơ sở của mọi hoạt động của đời sống xã hội, đặc biệt là trong sản xuất, kinh doanh Những thông tin tiềm ẩn mang tính dự đoán trong các khối dữ liệu là rất lớn Mỗi cá nhân hoặc tổ chức nào thu thập và hiểu được thông tin, hành động dựa trên các thông tin được kết xuất từ các thông tin đã có sẽ đạt được thành công trong mọi hoạt động Chính vì lý do đó, việc tạo ra thông tin, tổ chức lưu trữ và khai phá ngày càng trở nên quan trọng và gia tăng không ngừng
Sự tăng trưởng vượt bậc của các cơ sở dữ liệu (CSDL) trong cuộc sống như: thương mại, quản lý và khoa học …đã làm nảy sinh và thúc đẩy sự phát triển của kỹ thuật thu thập, lưu trữ, phân tích và khai phá dữ liệu không chỉ bằng các phép toán đơn giản thông thường như: phép đếm, thống kê mà đòi hỏi cách xử lý thông minh hơn, hiệu quả hơn Từ đó các nhà quản lý có được thông tin có ích để tác động lại quá trình sản xuất, kinh doanh của mình đó là tri thức Các kỹ thuật cho phép ta khai phá được tri thức hữu dụng từ CSDL (lớn) được gọi là các kỹ thuật khai phá dữ liệu (DM – Data Mining) Khai phá luật kết hợp là một nội dung quan trọng trong khai phá dữ liệu
Một trong những nội dung cơ bản nhất trong khai phá dữ liệu và rất thường xuyên là phát hiện các luật kết hợp trong kho cơ sở dữ liệu khổng lồ, nhằm tìm ra các tập mục thường xuyên thường xuất hiện đồng thời trong cơ
sở dữ liệu và rút ra các luật về ảnh hưởng của tập mục thường xuyên dẫn đến
sự xuất hiện của một (hay một tập) mục thường xuyên khác như thế nào, do vậy khai phá luật kết hợp trong kho cơ sở dữ liệu có ý nghĩa rất quan trọng, có lợi ích to lớn trong việc tổng hợp và cung cấp những thông tin cần thiết trong nguồn cơ sở dữ liệu lớn
Trang 11data error !!! can't not
read
Trang 12data error !!! can't not
read
Trang 13data error !!! can't not
read
Trang 14data error !!! can't not
read
Trang 15data error !!! can't not
read
Trang 17data error !!! can't not
read
Trang 18data error !!! can't not
read
Trang 19data error !!! can't not
read
Trang 20data error !!! can't not
read
Trang 21data error !!! can't not
read
Trang 22data error !!! can't not
read
data error !!! can't not
read
Trang 23data error !!! can't not
read
data error !!! can't not
read
Trang 24data error !!! can't not
read
data error !!! can't not
read
Trang 26read
Trang 27data error !!! can't not
read