1. Trang chủ
  2. » Kinh Doanh - Tiếp Thị

Khai phá luật kết hợp trong cơ sở dữ liệu và ứng dụng

27 226 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 27
Dung lượng 320,34 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái nguyên, năm 2011... ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Trang 1

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Thái nguyên, năm 2011

Trang 2

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

NGUYỄN VĂN TƯ

KHAI PHÁ LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU VÀ ỨNG DỤNG

CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH

Trang 3

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

i

LỜI CAM ĐOAN

Tôi xin cam đoan toàn bộ nội dung trong Luận văn là được thực hiện

theo đúng đề cương đã được hội đồng khoa học trường Đại học Thái nguyên-

khoa Công nghệ thông tin phê duyệt, nội dung thực hiện trong đề cương đã

được cán bộ hướng dẫn giao cho và kiểm soát Nội dung luận văn, các phần

trích lục các tài liệu hoàn toàn chính xác Nếu có sai sót tôi hoàn toàn chịu

trách nhiệm

Tác giả luận văn

Nguyễn Văn Tư

Trang 4

LỜI CẢM ƠN

Tôi xin chân thành cảm ơn các thầy cô Trường Đại học Công nghệ Thông tin và Truyền thông – Đại học Thái Nguyên, các Thầy cô Viện công nghệ thông tin – Viện Khoa học và Công nghệ Việt Nam, các anh chị lớp Cao học K8 - khóa 2009-2011 đã giúp đỡ tôi trong quá trình nghiên cứu và thực hiện luận văn

Tôi xin trân trọng cảm ơn TS Nguyễn Huy Đức – Khoa Thông tin - Máy tính, Trường Cao đẳng Sư phạm Trung ương, người thầy trực tiếp hướng dẫn, đưa ra ý tưởng, định hướng, đóng góp các ý kiến chuyên môn và tận tình giúp đỡ tôi trong suốt quá trình nghiên cứu và thực hiện luận văn thạc sĩ ngành khoa học máy tính

Tôi xin cảm ơn các bạn bè đồng nghiệp và gia đình đã giúp đỡ, đóng góp ý kiến và động viên tôi trong suốt qua trình học, quá trình nghiên cứu và hoàn thành luận văn

Tác giả

Trang 5

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

iii

MỤC LỤC

Trang

Lời cam đoan……….…….………i

Lời cảm ơn… ……….……….……….ii

Mục lục……… ……….….……… ……iii

DANH MỤC CÁC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT v

DANH MỤC CÁC BẢNG BIỂU vi

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ vii

MỞ ĐẦU 1

Chương 1: TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU 3

1.1 Quá trình phát hiện tri thức từ cơ sở dữ liệu 3

1.2 Kiến trúc của hệ thống khai phá dữ liệu 6

1.3 Quá trình khai phá dữ liệu 8

1.4 Nhiệm vụ của khai phá dữ liệu 10

1.5 Các phương pháp chính trong khai phá dữ liệu 11

1.5.1 Phương pháp luật kết hợp 12

1.5.2 Phương pháp cây quyết định 12

1.5.4 Các phương pháp dựa trên mẫu 14

1.6 Các ứng dụng của khai phá dữ liệu 15

Kết luận chương 1: 16

Chương 2: KHAI PHÁ LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU 17

2.1 Bài toán mở đầu 17

2.2 Các khái niệm cơ sở 18

2.2.1.Cơ sở dữ liệu giao tác 19

2.2.2 Biểu diễn cơ sở dữ liệu giao tác 19

2.2.3 Tập mục thường xuyên 21

2.2.4 Luật kết hợp 22

2.2.5 Độ hỗ trợ và độ tin cậy của luật kết hợp 22

2.3 Khai phá luật kết hợp 24

2.4 Các cách tiếp cận khai phá tập mục thường xuyên 26

2.5 Các thuật toán điển hình khai phá tập mục thường xuyên 27

2.5.1 Thuật toán Apriori 28

2.5.2.Thuật toán FP_growth 33

2.6 Thuật toán sinh luật kết hợp: 41

2.7 Một số mở rộng khai phá luật kết hợp trong cơ sở dữ liệu 44

Kết luận chương 2: 46

Chương 3: KHAI PHÁ LUẬT KẾT HỢP CÓ TRỌNG SỐ 47

3.1 Một số khái niệm về luật kết hợp có trọng số 47

3.2 Khai phá luật kết hợp trọng số không chuẩn hóa 49

3.3 Khai phá luật kết hợp trọng số chuẩn hóa 52

Trang 6

3.3.1 Một số khái niệm về trọng số chuẩn hóa 52

3.3.2 Thuật toán khai phá luật kết hợp trọng số chuẩn hóa (MINVAL(W)) 54

Kết luận chương 3: 56

Chương 4: THỰC NGHIỆM KHAI PHÁ LUẬT KẾT HỢP 57

4.1 Giới thiệu bài toán 57

4.2 Dữ liệu thực nghiệm 58

4.3 Xây dựng chương trình 60

4.4 Thực nghiệm khai phá 61

4.5 Kết quả thực nghiệm 63

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 63

1 Những kết quả đã đạt được 63

2 Hướng phát triển của đề tài là: 64

TÀI LIỆU THAM KHẢO 65

PHỤ LỤC 67

Trang 7

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

v

DANH MỤC CÁC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT

Trang 8

DANH MỤC CÁC BẢNG BIỂU

Bảng 2.1: Danh mục các tập mục trong CSDL 19

Bảng 2.2: Biểu diễn ngang của CSDL giao tác 20

Bảng 2.3: Biểu diễn dọc của CSDL giao tác 20

Bảng 2.4: Ma trận giao tác của CSDL bảng 2.2 21

Bảng 2.5: Cơ sở dữ liệu DB 24

Bảng 2.6: Độ hỗ trợ của các mục 25

Bảng 2.7: Độ hỗ trợ của các tập mục 25

Bảng 2.8: Độ tin cậy của các luật 26

Bảng 2.9: CSDL giao tác minh hoạ cho thuật toán Apriori 31

Bảng 2.10: CSDL giao tác minh hoạ cho thuật toán FP- growth 34

Bảng 3.1.a Tập giao tác DB 48

Bảng 3.1.b Thông tin của cửa hàng 48

Bảng 4.1: Dữ liệu đã trích chọn để khai phá 58

Bảng 4.2: Mã hóa các mặt hàng 59

Trang 9

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

vii

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

Hình 1.1 Quá trình khám phá tri thức 5

Hình 1.2 Kiến trúc của hệ thống khai phá dữ liệu 7

Hình 1.3: Quá trình khai phá dữ liệu 9

Hình 1.4: Mẫu kết quả với phương pháp cây quyết định 12

Hình 1.5: Phân cụm các đối tượng k-Mean ( + là tâm của cụm) 13

Hình 2.1: Phân loại các thuật toán khai phá tập mục thường xuyên 27

Hình 2.2: Cây FP-tree được xây dựng dần khi thêm các giao tác t1, t2, t3 35

Hình 2.3: Cây FP-tree của CSDL DB trong bảng 2.10 36

Hình 2.4: FP-tree phụ thuộc của m 39

Hình 2.5 : Các FP-tree phụ thuộc của am, cm và cam 39

Hình 4.1: Dữ liệu đã mã hóa chuẩn bị cho khai phá 60

Hình 4.2: Giao diện chương trình 61

Hình 4.3: Giao diện kết quả khai phá tập mục thường xuyên 62

Hình 4.4: Giao diện kết quả khai phá luật kết hợp 62

Trang 10

MỞ ĐẦU

Trong những năm qua, việc nắm bắt, xử lý được thông tin được coi là

cơ sở của mọi hoạt động của đời sống xã hội, đặc biệt là trong sản xuất, kinh doanh Những thông tin tiềm ẩn mang tính dự đoán trong các khối dữ liệu là rất lớn Mỗi cá nhân hoặc tổ chức nào thu thập và hiểu được thông tin, hành động dựa trên các thông tin được kết xuất từ các thông tin đã có sẽ đạt được thành công trong mọi hoạt động Chính vì lý do đó, việc tạo ra thông tin, tổ chức lưu trữ và khai phá ngày càng trở nên quan trọng và gia tăng không ngừng

Sự tăng trưởng vượt bậc của các cơ sở dữ liệu (CSDL) trong cuộc sống như: thương mại, quản lý và khoa học …đã làm nảy sinh và thúc đẩy sự phát triển của kỹ thuật thu thập, lưu trữ, phân tích và khai phá dữ liệu không chỉ bằng các phép toán đơn giản thông thường như: phép đếm, thống kê mà đòi hỏi cách xử lý thông minh hơn, hiệu quả hơn Từ đó các nhà quản lý có được thông tin có ích để tác động lại quá trình sản xuất, kinh doanh của mình đó là tri thức Các kỹ thuật cho phép ta khai phá được tri thức hữu dụng từ CSDL (lớn) được gọi là các kỹ thuật khai phá dữ liệu (DM – Data Mining) Khai phá luật kết hợp là một nội dung quan trọng trong khai phá dữ liệu

Một trong những nội dung cơ bản nhất trong khai phá dữ liệu và rất thường xuyên là phát hiện các luật kết hợp trong kho cơ sở dữ liệu khổng lồ, nhằm tìm ra các tập mục thường xuyên thường xuất hiện đồng thời trong cơ

sở dữ liệu và rút ra các luật về ảnh hưởng của tập mục thường xuyên dẫn đến

sự xuất hiện của một (hay một tập) mục thường xuyên khác như thế nào, do vậy khai phá luật kết hợp trong kho cơ sở dữ liệu có ý nghĩa rất quan trọng, có lợi ích to lớn trong việc tổng hợp và cung cấp những thông tin cần thiết trong nguồn cơ sở dữ liệu lớn

Trang 11

data error !!! can't not

read

Trang 12

data error !!! can't not

read

Trang 13

data error !!! can't not

read

Trang 14

data error !!! can't not

read

Trang 15

data error !!! can't not

read

Trang 17

data error !!! can't not

read

Trang 18

data error !!! can't not

read

Trang 19

data error !!! can't not

read

Trang 20

data error !!! can't not

read

Trang 21

data error !!! can't not

read

Trang 22

data error !!! can't not

read

data error !!! can't not

read

Trang 23

data error !!! can't not

read

data error !!! can't not

read

Trang 24

data error !!! can't not

read

data error !!! can't not

read

Trang 26

read

Trang 27

data error !!! can't not

read

Ngày đăng: 15/04/2017, 21:35

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w