Một số thuật toán đã được giới thiệu và cho kết quả khá khả quan nhưng vẫn còn nhiều hạn chế như kết quả ảnh hưởng bởi bộ dữ liệu đầu vào… Hai tác giả Hong Yu và Dachun Yan tiếp cận bài
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC NHA TRANG KHOA CÔNG NGHỆ THÔNG TIN
ĐỒ ÁN TỐT NGHIỆP
TÌM HIỂU THUẬT TOÁN PHÂN CỤM BÁN TỰ ĐỘNG DỰA VÀO LÝ THUYẾT TẬP THÔ CỦA HAI TÁC GIẢ
HONG YU VÀ DACHUN YAN
Giảng viên hướng dẫn: TS Nguyễn Đức Thuần
Sinh viên thực hiện: Trần Văn Đức
Khánh Hòa - 2019
Trang 2TRƯỜNG ĐẠI HỌC NHA TRANG
KHOA CÔNG NGHỆ THÔNG TIN
BỘ MÔN HỆ THỐNG THÔNG TIN
ĐỒ ÁN TỐT NGHIỆP
TÌM HIỂU THUẬT TOÁN PHÂN CỤM BÁN TỰ ĐỘNG DỰA VÀO LÝ THUYẾT TẬP THÔ CỦA HAI TÁC GIẢ
HONG YU VÀ DACHUN YAN
Khánh Hòa, tháng 6/2019
Trang 3QUYẾT ĐỊNH GIAO ĐỒ ÁN TỐT NGHIỆP
Trang 4TRƯỜNG ĐẠI HỌC NHA TRANG
Khoa/Viện: Công nghệ thông tin
PHIẾU THEO DÕI TIẾN ĐỘ VÀ ĐÁNH GIÁ ĐỒ ÁN TỐT NGHIỆP
Tên đề tài: Tìm hiểu thuật toán phân cụm bán tự động dựa vào lý thuyết tập thô của
hai tác giả Hong Yu và Dachun Yan Chuyên ngành: Công nghệ thông tin
Họ và tên sinh viên: Trần Văn Đức Mã sinh viên: 57130946
Người hướng dẫn: TS Nguyễn Đức Thuần
Cơ quan công tác: Khoa Công nghệ thông tin – Đại học Nha Trang
Phần đánh giá và cho điểm của người hướng dẫn (tính theo thang điểm 10)
Tiêu chí
đánh giá
Trọng
số (%)
Mô tả chất lượng
Điểm Giỏi Khá Đạt yêu cầu Không đạt
Xây dựng đề
cương nghiên cứu 10
Tinh thần và thái
độ làm việc 10
Kiến thức và kỹ
năng làm việc 10
Nội dung và kết
quả đạt được 40
Kỹ năng viết và
trình bày báo cáo 30
ĐIỂM TỔNG
Ghi chú: Điểm tổng làm tròn đến một chữ số lẻ
Nhận xét chung (sau khi sinh viên hoàn thành ĐA/KLTN):
Đồng ý cho cho sinh viên: Được bảo vệ: Không được bảo vệ: Khánh Hòa, ngày tháng năm
Cán bộ hướng dẫn
Trang 5TRƯỜNG ĐẠI HỌC NHA TRANG
Khoa/Viện: Công nghệ thông tin
PHIẾU CHẤM ĐIỂM ĐỒ ÁN TỐT NGHIỆP
(Dành cho cán bộ chấm phản biện)
Tên đề tài: Tìm hiểu thuật toán phân cụm bán tự động dựa vào lý thuyết tập thô của
hai tác giả Hong Yu và Dachun Yan Chuyên ngành: Công nghệ thông tin
Họ và tên sinh viên: Trần Văn Đức Mã sinh viên: 57130946
Người phản biện:
Cơ quan công tác: Khoa Công nghệ thông tin – Đại học Nha Trang
I Phần đánh giá và cho điểm của người phản biện (tính theo thang điểm 10)
Tiêu chí
đánh giá
Trọng
số (%)
Mô tả chất lượng
Điểm Giỏi Khá Đạt yêu cầu Không đạt
Đồng ý cho cho sinh viên: Được bảo vệ: Không được bảo vệ:
Khánh Hòa, ngày tháng năm
Cán bộ chấm phản biện
(Ký và ghi rõ họ tên)
Trang 6II Phần nhận xét cụ thể
II.1 Hình thức thuyết minh (tỉ trọng 30%)
• Trình bày
• Bố cục và lập luận
• Văn phong
II.2 Nội dung thuyết minh (tỉ trọng 30%)
• Mục tiêu nghiên cứu
• Tổng quan tài liệu
• Phương pháp nghiên cứu
II.3 Kết quả nghiên cứu (tỉ trọng 20%)
• Kết quả đạt được
• Kết luận
Trang 7
CAM ĐOAN CỦA SINH VIÊN
Tôi xin cam đoan về các kết quả và số liệu trình bày trong đồ án “Tìm hiểu thuật
toán phân cụm bán tự động dựa vào lý thuyết tập thô của hai tác giả Hong Yu và Dachun Yan” là trung thực Trong quá trình thực hiện đồ án, tôi có sử dụng một số tài
liệu liên quan đến vấn đề cần nghiên cứu Các tài liệu này đã được phép sử dụng và trích
dẫn đầy đủ ở mục “Tài liệu tham khảo”
Tôi xin chịu hoàn toàn trách nhiệm về tính liêm chính của đồ án
Khánh Hòa, tháng 6 năm 2019
Sinh viên thực hiện Trần Văn Đức
Trang 8LỜI CẢM ƠN
Trải qua hơn ba tháng thực hiện đề tài, bản thân em vấp phải không ít những khó khăn khi vấn đề cần nghiên cứu là hoàn toàn mới mẻ Bài toán phân cụm là một bài toán khó và mở, đây cũng là đề tài được rất nhiều học viên cao học lựa chọn cho luận văn thạc sĩ, tiến sĩ của mình Đặc biệt, hiện nay vẫn chưa có một thuật toán nào là tối ưu để giải quyết hoàn toàn các bộ dữ liệu vốn đa dạng và phức tạp
Để có được kết quả như hôm nay, em xin gửi lời cảm ơn chân thành đến các thầy
cô đã giảng dạy suốt bốn năm qua và đặc biệt là thầy Nguyễn Đức Thuần, thầy hướng
dẫn trực tiếp, nhiệt tình hỗ trợ hết mình cho em về những kiến thức liên quan đến đề tài Những buổi trao đổi với thầy giúp em hiểu hơn về lý thuyết tập thô, cũng như tính rộng lớn của bài toán phân cụm Và em nghĩ đó là kiến thức giá trị mà em có được sau khi hoàn tất đề tài
Tuy kết quả bước đầu đã đáp ứng được mục tiêu của đề tài nhưng vẫn còn nhiều khía cạnh cần phải được làm rõ và phát triển để đề tài có được một kết quả hoàn mỹ hơn, đáp ứng được các bộ dữ liệu đa dạng, hỗ trợ cho việc phát hiện tri thức
Khánh Hòa, tháng 6 năm 2019
Sinh viên thực hiện Trần Văn Đức
Trang 9MỤC LỤC
QUYẾT ĐỊNH GIAO ĐỒ ÁN TỐT NGHIỆP iii
PHIẾU THEO DÕI TIẾN ĐỘ VÀ ĐÁNH GIÁ ĐỒ ÁN TỐT NGHIỆP iv
PHIẾU CHẤM ĐIỂM ĐỒ ÁN TỐT NGHIỆP v
CAM ĐOAN CỦA SINH VIÊN vii
LỜI CẢM ƠN viii
MỤC LỤC ix
DANH SÁCH HÌNH VẼ xi
DANH SÁCH BẢNG xii
DANH SÁCH CÁC TỪ VIẾT TẮT xiii
LỜI MỞ ĐẦU xiv
1 GIỚI THIỆU VỀ ĐỀ TÀI xiv
2 MỤC TIÊU VÀ PHƯƠNG PHÁP NGHIÊN CỨU CỦA ĐỀ TÀI xiv
3 Ý NGHĨA CỦA ĐỀ TÀI xv
4 NỘI DUNG CỦA ĐỀ TÀI xv
CHƯƠNG 1 1
TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC VÀ KHAI PHÁ DỮ LIỆU 1
1.1 GIỚI THIỆU CHUNG VỀ KHÁM PHÁ TRI THỨC VÀ KHAI PHÁ DỮ LIỆU 1
1.2 QUÁ TRÌNH KHÁM PHÁ TRI THỨC 1
1.3 QUÁ TRÌNH KHAI PHÁ DỮ LIỆU 2
1.4 CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU 2
1.5 CÁC HƯỚNG TIẾP CẬN CƠ BẢN TRONG KHAI PHÁ DỮ LIỆU 3
1.6 CÁC LĨNH VỰC ỨNG DỤNG THỰC TIỄN CỦA KHAI PHÁ DỮ LIỆU 4
1.7 NHỮNG THÁCH THỨC TRONG KHAI PHÁ DỮ LIỆU 4
CHƯƠNG 2 6
PHÂN CỤM VÀ CÁC KỸ THUẬT PHÂN CỤM 6
2.1 KHÁI NIỆM VÀ MỤC ĐÍCH CỦA PHÂN CỤM DỮ LIỆU 6
2.2 CÁC ỨNG DỤNG CỦA PHÂN CỤM DỮ LIỆU 6
2.3 CÁC YÊU CẦU CỦA PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU 7
2.4 PHÂN LOẠI CÁC KỸ THUẬT PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU 8
2.4.1 Kỹ thuật phân cụm phân hoạch 8
2.4.2 Kỹ thuật phân cụm phân cấp 9
2.4.3 Kỹ thuật phân cụm dựa trên mật độ 9
2.4.4 Kỹ thuật phân cụm dựa trên lưới 10
2.4.5 Kỹ thuật phân cụm dựa trên mô hình 10
2.4.6 Kỹ thuật phân cụm có dữ liệu ràng buộc 11
Trang 102.5 MỘT SỐ THUẬT TOÁN PHÂN CỤM CỔ ĐIỂN 11
2.5.1 Thuật toán phân cụm K-Means 11
2.5.2 Thuật toán phân cụm K-Medoids 11
2.5.3 Thuật toán phân cụm K-Center 12
CHƯƠNG 3 13
THUẬT TOÁN PHÂN CỤM BÁN TỰ ĐỘNG DỰA VÀO LÝ THUYẾT TẬP THÔ CỦA HAI TÁC GIẢ HONG YU VÀ DACHUN YAN 13
3.1 KHÁI QUÁT VẤN ĐỀ 13
3.2 TỔNG QUAN VỀ LÝ THUYẾT TẬP THÔ 13
3.2.1 Giới thiệu 13
3.2.2 Một số khái niệm 14
3.3 PHÂN CỤM ĐỊNH HƯỚNG TRI THỨC 21
3.3.1 Một số khái niệm cơ bản của thuật toán phân cụm K-O 21
3.3.2 Mô hình lý thuyết quyết định dựa vào lý thuyết tập thô 23
3.4 THUẬT TOÁN PHÂN CỤM BÁN TỰ ĐỘNG DỰA VÀO LÝ THUYẾT TẬP THÔ 25
3.4.1 Chọn các giá trị ngưỡng 𝐓𝐡𝐢 25
3.4.2 Định nghĩa mức độ không phân biệt của các cụm 27
3.4.3 Hiệu chỉnh phân cụm 27
3.4.4 Các bước của thuật toán SAC-DTRSM của hai tác giả Hong Yu và Dachun Yan 28
3.5 ĐÁNH GIÁ HIỆU NĂNG CỦA MỘT PHÂN CỤM DỰA VÀO MA TRẬN NHẦM LẪN 37
CHƯƠNG 4 40
CHƯƠNG TRÌNH THỬ NGHIỆM 40
4.1 GIỚI THIỆU VỀ CHƯƠNG TRÌNH 40
4.2 DỮ LIỆU 40
4.3 TỔ CHỨC XỬ LÝ 40
4.4 MÔ TẢ CHỨC NĂNG CỦA CHƯƠNG TRÌNH 46
4.5 HƯỚNG DẪN CHẠY VÀ KIỂM THỬ 48
4.6 KẾT QUẢ ĐẠT ĐƯỢC 48
4.7 ĐÁNH GIÁ VỀ CHƯƠNG TRÌNH 48
4.8 HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI 49
TỔNG KẾT 50
TÀI LIỆU THAM KHẢO 51
PHỤ LỤC 52
Trang 11DANH SÁCH HÌNH VẼ
Hình 2 1 Minh họa việc phân cụm dữ liệu 6
Hình 2 2 Các chiến lược phân cụm phân cấp 9
Hình 3 1 Minh họa tập thô 18
Hình 3 2 Mô tả sự sắp xếp độ tương tự của các đối tượng đối với xi 26
Hình 4 1 Giao diện nhập liệu dữ liệu và tham số cho thuật toán 46
Hình 4 2 Hiển thị thông tin dữ liệu 46
Hình 4 3 Hiển thị toàn bộ dữ liệu đầu vào 46
Hình 4 4 Hiển thị kết quả phân cụm 47
Hình 4 5 Hiển thị chi tiết các bước xử lý và kết quả của chương trình 47
Hình 4 6 Giao diện chương trình 47
Hình 5 2 Kết quả phân cụm với bộ Test 2 53
Hình 5 3 Kết quả phân cụm với bộ Test 3 53
Hình 5 4 Kết quả phân cụm với bộ Iris 54
Hình 5 5 Kết quả phân cụm với bộ Wine 54
Trang 12DANH SÁCH BẢNG
Bảng 3 1 Bảng hệ thống thông tin minh họa 15
Bảng 3 2 Một hệ quyết định điều tra vấn đề da cháy nắng 16
Bảng 3 3 Bảng kết quả quyết định dựa vào lý thuyết tập thô 17
Bảng 3 4 Một hệ quyết định về vấn đề lựa chọn sản phẩm 19
Bảng 3 5 Bảng dữ liệu minh họa 21
Bảng 3 6 Minh họa sự sắp xếp giảm dần độ tương tự ở hàng i 25
Bảng 3 7 Bảng dữ liệu liệu minh họa của hai tác giả Bean và Kambhampati 28
Bảng 3 8 Bảng kết quả độ tương tự của xi với các đối tượng khác 30
Bảng 3 9 Bảng kết quả sau khi sắp xếp giảm dần sim(xi, xj) của đối tượng xi 30
Bảng 3 10 Bảng ma trận phân biệt ở lần tính 1 32
Bảng 3 11 Bảng ma trận phân biệt ở lần tính 2 34
Bảng 3 12 Bảng ma trận phân biệt ở lần tính 3 34
Bảng 3 13 Bảng ma trận phân biệt ở lần tính 4 35
Bảng 3 14 Bảng ma trận phân biệt ở lần tính 5 35
Bảng 3 15 Bảng ma trận phân biệt ở lần tính 6 36
Bảng 3 16 Bảng ma trận phân biệt ở lần tính 7 36
Bảng 3 17 Bảng ma trận phân biệt ở lần tính 8 37
Bảng 3 18 Bảng một số độ đo hiệu năng phân cụm 38
Bảng 4 1 Kết quả phân cụm với một số bộ dữ liệu 48
Bảng 5 1 Ma trận độ tương tự giữa các đối tượng trong bộ Test 2 52
Trang 13DANH SÁCH CÁC TỪ VIẾT TẮT
K-O Framework Knowledge-Oriented Framework
SAC-DTRSM Semi-Autonomous Clustering based on Decision Theory Rough Set Model
Trang 14LỜI MỞ ĐẦU
1 GIỚI THIỆU VỀ ĐỀ TÀI
Bài toán phân cụm cho đến nay vẫn luôn là một chủ đề được rất nhiều học giả nghiên cứu nhằm tìm ra một thuật toán tối ưu để giải quyết với những bộ dữ liệu khác nhau Một số thuật toán đã được giới thiệu và cho kết quả khá khả quan nhưng vẫn còn nhiều hạn chế như kết quả ảnh hưởng bởi bộ dữ liệu đầu vào…
Hai tác giả Hong Yu và Dachun Yan tiếp cận bài toán phân cụm theo một khía cạnh mới trong việc phân cụm với các dữ liệu có tính mơ hồ, không chắc chắn Các tác giả đặt ra một vấn đề đó là các đối tượng sau khi được phân cụm có thể thuộc về nhiều cụm khác nhau, thay vì chỉ thuộc về một cụm như các thuật toán trước đó Ưu điểm trong đề xuất thuật toán của hai tác giả đó chính là việc khởi tạo được phân cụm ban đầu một cách tự động mà không cần có sự can thiệp từ người dùng, tuy nhiên một điểm hạn chế,
đó là cần phải cung cấp các tham số đầu vào để thuật toán có thể hiệu chỉnh nhằm đạt được một phân cụm cuối cùng Mặc dù vậy, thuật toán được đề xuất của hai tác giả cũng
đã mở ra một hướng mới trong việc giải quyết bài toán phân cụm
Đồ án “Tìm hiểu thuật toán phân cụm bán tự động dựa vào lý thuyết tập thô của
hai tác giả Hong Yu và Dachun Yan” giúp em có thêm hiểu biết liên quan đến bài toán
phân cụm, các kiến thức về lý thuyết tập thô Đó là những kiến thức hữu ích, là nền tảng cho các đề tài nghiên cứu thêm khi học lên cao hơn sau này
2 MỤC TIÊU VÀ PHƯƠNG PHÁP NGHIÊN CỨU CỦA ĐỀ TÀI
Mục tiêu của đề tài:
• Tìm hiểu thuật toán phân cụm bán tự động dựa trên lý thuyết tập thô của hai tác giả Hong Yu và Dachun Yan
• Cài đặt thuật toán và so sánh với các kết quả của tác giả
Phương pháp nghiên cứu của đề tài:
• Đọc các tài liệu có liên quan
• Tìm hiểu tổng quan về khám phá tri thức và khai phá dữ liệu
• Tìm hiểu tổng quan về phân cụm và các kỹ thuật phân cụm
• Tìm hiểu về lý thuyết tập thô
Trang 15• Tìm hiểu về mô hình quyết định dựa vào lý thuyết tập thô
• Trình bày thuật toán SAC-DTRSM của tác giả Hong Yu và Dachun Yan
• Xây dựng chương trình thử nghiệm với thuật toán của hai tác giả
3 Ý NGHĨA CỦA ĐỀ TÀI
Cung cấp một thuật toán mới trong việc giải quyết bài toán phân cụm, đồng thời mang đến một kiến thức mới dựa vào thuật toán của Hong Yu và Dachun Yan
4 NỘI DUNG CỦA ĐỀ TÀI
Nội dung của đề tài được trình bày trong 4 chương
• Chương 1: Tổng quan về khám phá tri thức và khai phá dữ liệu
Chương này giới thiệu một cách tổng quan về khám phá tri thức và khai phá dữ liệu, giúp người đọc nắm được những vấn đề cơ bản
• Chương 2: Phân cụm và các kỹ thuật phân cụm
Trình bày khái quát về phân cụm và các kỹ thuật phân cụm Bên cạnh đó, còn
đề cập đến một số thuật toán phân cụm điển hình
• Chương 3: Thuật toán phân cụm bán tự động dựa trên lý thuyết tập thô của hai tác giả Hong Yu và Dachun Yan
Đây là chương trọng tâm của đồ án Nội dung của chương đi sâu vào các lý thuyết liên quan, làm rõ các vấn đề của thuật toán
• Chương 4: Chương trình thử nghiệm
Giới thiệu về chương trình cài đặt và kết quả đạt được, đưa ra một số đánh giá
về thuật toán và hướng phát triển đề tài
Ngoài ra, đồ án còn có phần tổng kết nhằm trình bày những nhận xét, điều đạt được
và hạn chế qua quá trình thực hiện đề tài
Trang 16CHƯƠNG 1
TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC VÀ KHAI PHÁ DỮ LIỆU
1.1 GIỚI THIỆU CHUNG VỀ KHÁM PHÁ TRI THỨC VÀ KHAI PHÁ
DỮ LIỆU
Trong thời đại ngày nay, cùng với sự phát triển của xã hội, lĩnh vực công nghệ thông tin cũng có nhiều sự tiến bộ như khả năng lưu trữ dữ liệu ngày càng lớn Việc khai thác các dữ liệu này một cách hiệu quả nhằm đáp ứng các nhu cầu về thông tin phục vụ cho các mục đích khác nhau là một mối quan tâm lớn
Khám phá phá tri thức và khai phá dữ liệu đang nổi lên nhanh chóng và trở thành một trong những hướng nghiên cứu chính liên quan đến nhiều lĩnh vực như khoa học máy tính và công nghệ tri thức kết hợp với cơ sở dữ liệu, thống kê, học máy… để trích chọn những thông tin giá trị và tri thức trong khối lượng dữ liệu lớn
Khám phá tri thức trong cơ sở dữ liệu là một quy trình nhận biết các mẫu hoặc các
mô hình trong dữ liệu với các tính năng: phân tích, tổng hợp, khả ích và có thể hiểu Khai phá dữ liệu là một bước trong quá trình khám phá tri thức, gồm các thuật toán khai phá dữ liệu chuyên dùng dưới một số quy định về hiệu quả tính toán chấp nhận được để tìm ra các mẫu hoặc các mô hình trong dữ liệu
Mục đích của khai phá dữ liệu là phát hiện tri thức phục vụ cho các lợi ích trong thực tế và các yêu cầu trong nghiên cứu học thuật Do đó, ta có thể coi mục đích chính của khai phá dữ liệu là mô tả (description) và dự đoán (prediction)
1.2 QUÁ TRÌNH KHÁM PHÁ TRI THỨC
Bước đầu tiên: Tìm hiểu phạm vi ứng dụng và xác định bài toán
Bước thứ hai: Thu thập và tiền xử lý dữ liệu, bao gồm cả việc lựa chọn các nguồn
dữ liệu, loại bỏ nhiễu hoặc ngoại lệ, xử lý các dữ liệu bị thiếu, việc chuyển đổi (phân rã nếu cần thiết), rút gọn dữ liệu…
Bước thứ ba: Khai phá dữ liệu nhằm rút trích các mẫu hoặc các mô hình ẩn trong
dữ liệu
Trang 17Bước thứ tư: Là làm rõ tri thức phát hiện được, đặc biệt là thể hiện mô tả và dự báo Thực tế cho thấy các mẫu được phát hiện hoặc các mô hình có được từ dữ liệu không phải luôn luôn được xem xét hoặc sử dụng ngay, mà cần phải thực hiện một quá trình lặp để đánh giá tri thức phát hiện
Bước cuối: Là đưa tri thức phát hiện được vào sử dụng thực tế
1.3 QUÁ TRÌNH KHAI PHÁ DỮ LIỆU
Khai phá dữ liệu là một giai đoạn quan trọng trong quá trình khám phá tri thức Về bản chất, nó là giai đoạn duy nhất tìm ra được thông tin mới, thông tin tiềm ẩn có trong
cơ sở dữ liệu, chủ yếu phục vụ cho mô tả và dự đoán
Mô tả dữ liệu là tổng kết hoặc diễn tả những đặc điểm chung của thuộc tính dữ liệu trong kho dữ liệu mà con người có thể hiểu được
Dự đoán là dựa trên những dữ liệu hiện thời để dự đoán những quy luật được phát hiện từ các mối liên hệ giữa các thuộc tính của dữ liệu trên cơ sở đó chiết xuất ra các mẫu, dự đoán được những giá trị chưa biết hoặc những giá trị tương lai của các biến quan tâm
Quá trình khai phá dữ liệu bao gồm các bước chính:
• Xác định nhiệm vụ: Xác định chính xác các vấn đề cần giải quyết
• Xác định các dữ liệu liên quan: Dùng để xây dựng giải pháp
• Thu thập và tiền xử lý dữ liệu: Thu thập các dữ liệu liên quan và tiền xử lý chúng sao cho thuật toán khai thác dữ liệu có thể hiểu được Đây là một quá trình rất khó khăn, có thể gặp phải rất nhiều các vướng mắc như: dữ liệu phải được sao
ra nhiều bản (nếu được chiết xuất vào các tệp), quản lý tập các dữ liệu, phải lặp
đi lặp lại nhiều lần toàn bộ quá trình (nếu mô hình dữ liệu thay đổi), v.v…
• Thuật toán khai phá dữ liệu: Lựa chọn thuật toán khai phá dữ liệu và thực hiện việc phân cụm dữ liệu để tìm được các mẫu có ý nghĩa, các mẫu này được biểu diễn dưới dạng luật kết hợp, cây quyết định tương ứng với ý nghĩa của nó
1.4 CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU
Với hai mục đích chính của khai phá dữ liệu là Mô tả và Dự đoán, người ta thường
sử dụng các phương pháp sau cho khai thác dữ liệu:
• Luật kết hợp (Association Rules)
Trang 18• Phân lớp (Classfication)
• Hồi qui (Regression)
• Trực quan hóa (Visualiztion)
• Phân cụm (Clustering)
• Tổng hợp (Summarization)
• Mô hình ràng buộc (Dependency modeling)
• Biểu diễn mô hình (Model Evaluation)
• Phân tích sự phát triển và độ lệch (Evolution and Deviation Analyst)
• Phương pháp tìm kiếm (Search Method)
1.5 CÁC HƯỚNG TIẾP CẬN CƠ BẢN TRONG KHAI PHÁ DỮ LIỆU
Phân lớp và dự đoán (Classification & prediction):
Là quá trình xếp một đối tượng vào một trong những lớp đã biết trước (Ví dụ: phân lớp các bệnh nhân theo dữ liệu hồ sơ bệnh án, phân lớp vùng địa lý theo dữ liệu thời tiết ) Đối với hướng tiếp cận này thường sử dụng một số kỹ thuật của học máy như cây quyết định (decision tree), mạng nơron nhân tạo (neural network), Hay lớp bài toán này còn được gọi là học có giám sát - Học có thầy (supervised learning)
Phân cụm (clustering/segmentation):
Sắp xếp các đối tượng theo từng cụm dữ liệu tự nhiên, tức là số lượng và tên cụm chưa được biết trước Các đối tượng được gom cụm sao cho mức độ tương tự giữa các đối tượng trong cùng một cụm là lớn nhất và mức độ tương tự giữa các đối tượng nằm trong các cụm khác nhau là nhỏ nhất Lớp bài toán này còn được gọi là học không giám sát - Học không thầy (unsupervised learning)
Luật kết hợp (association rules):
Là dạng luật biểu diễn tri thức ở dạng khá đơn giản (Ví dụ: 80% sinh viên đăng ký học cơ sở dữ liệu thì có tới 60% trong số họ đăng ký học Phân tích thiết kế hệ thống thông tin) Hướng tiếp cận này được ứng dụng nhiều trong lĩnh vực kinh doanh, y học, tin sinh học, giáo dục, viễn thông, tài chính và thị trường chứng khoán,
Phân tích chuỗi theo thời gian (sequential/temporal patterns):
Tương tự như khai phá dữ liệu bằng luật kết hợp nhưng có thêm tính thứ tự và tính thời gian Một luật mô tả mẫu tuần tự có dạng tiêu biểu X -> Y, phản ánh sự xuất hiện
Trang 19của biến cố X sẽ dẫn đến việc xuất hiện biến cố Y Hướng tiếp cận này được ứng dụng nhiều trong lĩnh vực tài chính và thị trường chứng khoán bởi chúng có tính dự báo cao
Mô tả khái niệm (concept desccription & summarization):
Lớp bài toán này thiên về mô tả, tổng hợp và tóm tắt khái niệm
Ví dụ: tóm tắt văn bản
1.6 CÁC LĨNH VỰC ỨNG DỤNG THỰC TIỄN CỦA KHAI PHÁ DỮ LIỆU
Ngân hàng: Xây dựng mô hình dự báo rủi ro tín dụng; tìm kiếm tri thức, quy luật của thị trường chứng khoán và đầu tư bất động sản…
Thương mại điện tử: Công cụ tìm hiểu, định hướng, thúc đẩy, giao tiếp với khách hàng; phân tích khách hàng duyệt web; phân tích hành vi mua sắm trên mạng và cho biết thông tin tiếp thị phù hợp với loại khách hàng
Thiên văn học: Hệ thống SKICAT do JPL/Caltech phát triển được sử dụng cho các nhà thiên văn để tự động xác định các vì sao và các dải thiên hà trong một bản khảo sát lớn để có thể phân tích và phân loại (Fayyad, Djorgovski, & Weir)
Sinh học phân tử: Hệ thống tìm kiếm các mẫu trong cấu trúc phân tử (Conklin, Fortier, và Glasgow 1993) và trong các dữ liệu gen (Holder, Cook, và Djoko 1994)
1.7 NHỮNG THÁCH THỨC TRONG KHAI PHÁ DỮ LIỆU
Khối lượng dữ liệu lớn và từ nhiều nguồn khác nhau: CSDL, internet, các loại thiết
bị thu nhận tín hiệu, các loại thiết bị nhận dạng, các loại thiết bị lưu trữ như băng từ,
CD, Số mẫu tin và số các thuộc tính quá lớn làm cho độ phức tạp và thời gian giải quyết bài toán tăng lên rất nhanh Mô hình hay tri thức phát hiện được bị thay đổi theo thời gian tức là mô hình hay tri thức đó phụ thuộc vào thời điểm quan sát, lấy mẫu, thời điểm khai phá, kết quả đạt được sau khai phá cũng gây không ít khó khăn cho khai phá
dữ liệu Dữ liệu bị ảnh hưởng, bị nhiễu bởi tác động của môi trường bên ngoài, hay bộ
dữ liệu không hoàn chỉnh làm cho dữ liệu không phản ánh trung thực, chính xác của các quy luật, tri thức mà ta tìm được Các thuộc tính không phù hợp, các bộ giá trị không đầy đủ, bị thiếu giá trị trong các miền thuộc tính sẽ ảnh hưởng rất lớn đến việc khai phá
dữ liệu Chẳng hạn như khi khai phá dữ liệu, các hệ thống tương tác với nhau, phụ thuộc nhau, chỉ cần thiếu một vài giá trị nào đó sẽ dẫn đến các mẫu thuẫn, không chính xác, không đầy đủ
Trang 20Nội dung của chương này đã trình bày một cách khái quát cho người đọc về khám phá tri thức và khai phá dữ liệu, các hướng tiếp cận cơ bản và kỹ thuật trong khai phá
dữ liệu; cùng những thách thức đối mặt Chương tiếp theo sẽ giới thiệu rõ hơn về phân cụm và các kỹ thuật phân cụm
Trang 21CHƯƠNG 2
PHÂN CỤM VÀ CÁC KỸ THUẬT PHÂN CỤM
2.1 KHÁI NIỆM VÀ MỤC ĐÍCH CỦA PHÂN CỤM DỮ LIỆU
Phân cụm dữ liệu là một kỹ thuật quan trọng trong công nghệ tri thức, nó được ứng dụng rộng rãi và đa dạng trong các ngành khoa học như sinh học, tâm lý học, y học, ngành marketing, thị giác máy tính, điều khiển học …
Phân cụm dữ liệu là một hình thức học không giám sát (unsupervised learning) trong
đó các mẫu học chưa được gán nhãn
Hình 2.1 minh họa cho việc phân cụm dữ liệu
Hình 2 1 Minh họa việc phân cụm dữ liệu
Mục đích của phân cụm dữ liệu là tìm những mẫu đại diện hoặc gom dữ liệu tương
tự nhau (theo một chuẩn đánh giá nào đó) thành những cụm Các điểm dữ liệu nằm trong các cụm khác nhau có độ tương tự thấp hơn các dữ liệu nằm trong một cụm
2.2 CÁC ỨNG DỤNG CỦA PHÂN CỤM DỮ LIỆU
Lĩnh vực kinh tế: tìm quốc gia có nền kinh tế tương đồng hay các công ty có tiềm lực kinh tế như nhau Phân tích cụm có thể giúp các nhà marketing khám phá nhóm khách hàng có cùng thói quen mua sắm
Trong sinh học: giúp phân loại thực vật, động vật, các mẫu gen với các chức năng tương tự nhau
Trong y học: phát hiện các nhóm bệnh nhân có cùng triệu chứng lâm sàng
Thư viện: Phân loại các cụm sách có nội dung và ý nghĩa tương đồng nhau để cung cấp cho độc giả
Trang 22Bảo hiểm: Nhận dạng nhóm tham gia bảo hiểm có chi phí bồi thường cao, gian lận thương mại
Web: gom cụm phân loại các tài liệu trên Web
2.3 CÁC YÊU CẦU CỦA PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU
Có khả năng tương thích, hiệu quả với CSDL dung lượng lớn, số chiều lớn:
Nhiều thuật toán phân cụm làm việc tốt với những tập dữ liệu nhỏ chứa ít hơn 200 đối tượng Tuy nhiên, một cơ sở dữ liệu lớn có thể chứa tới hàng triệu đối tượng Việc phân cụm với một tập dữ liệu lớn có thể làm ảnh hưởng tới kết quả Vậy làm cách nào
để chúng ta có thể phát triển các thuật toán phân cụm có khả năng mở rộng cao đối với các cơ sở dữ liệu lớn ?
Có khả năng xử lý các kiểu dữ liệu khác nhau:
Nhiều thuật toán được thiết kế để xử lý dữ liệu bằng số Tuy nhiên, các ứng dụng
có thể yêu cầu phân cụm các dạng dữ liệu khác nhau như dữ liệu kiểu nhị phân, phân loại, trật tự hay sự trộn lẫn của các kiểu dữ liệu
Có khả năng khám phá ra các cụm với các dạng bất kỳ:
Nhiều thuật toán phân cụm dựa trên các số đo khoảng cách Euclidean hay Manhattan Các thuật toán dựa trên các số đo khoảng cách có xu hướng tìm các cụm hình cầu với kích thước và mật độ tương tự nhau Tuy nhiên, một cụm (cluster) có thể có hình dạng bất kỳ Do đó cần phát triển các thuật toán để tìm ra các cluster hình dạng bất kỳ
Tối thiểu lượng tri thức cần cho xác định các tham số đầu vào:
Nhiều thuật toán phân cụm yêu cầu người dùng đưa vào những tham số nhất định trong phân tích phân cụm (như số lượng các cụm mong muốn) Kết quả của phân cụm thường khá nhạy cảm với các tham số đầu vào Nhiều tham số rất khó để xác định, nhất
là với các tập dữ liệu có lượng các đối tượng lớn Điều này không những gây trở ngại cho người dùng mà còn làm cho khó có thể điều chỉnh được chất lượng của phân cụm
Khả năng thích nghi với dữ liệu nhiễu:
Hầu hết những cơ sở dữ liệu thực đều chứa đựng dữ liệu ngoại lai, dữ liệu lỗi, dữ liệu chưa biết hoặc dữ liệu sai Một số thuật toán phân cụm nhạy cảm với dữ liệu như vậy và có thể dẫn đến chất lượng phân cụm thấp
Trang 23Ít nhạy cảm với thứ tự của các dữ liệu vào:
Một số thuật toán phân cụm nhạy cảm với thứ tự của dữ liệu vào, ví dụ như với cùng một tập dữ liệu, khi được đưa ra với các thứ tự khác nhau thì với cùng một thuật toán có thể sinh ra các cụm rất khác nhau Do đó, việc quan trọng là phát triển các thuật toán mà
ít nhạy cảm với thứ tự vào của dữ liệu
Số chiều lớn:
Một cơ sở dữ liệu hoặc một kho dữ liệu có thể chứa một số chiều hoặc một số các thuộc tính Nhiều thuật toán phân cụm áp dụng tốt cho dữ liệu với số chiều thấp, bao gồm chỉ từ hai đến 3 chiều Người ta đánh giá việc phân cụm là có chất lượng tốt nếu
nó áp dụng được cho dữ liệu có từ 3 chiều trở lên Nó là sự thách thức với các đối tượng
dữ liệu cụm trong không gian với số chiều lớn, đặc biệt vì khi xét những không gian với
số chiều lớn có thể rất thưa
Phân cụm ràng buộc:
Nhiều ứng dụng thực tế có thể cần thực hiện phân cụm dưới các loại ràng buộc khác nhau Một nhiệm vụ đặt ra là đi tìm những nhóm dữ liệu có trạng thái phân cụm tốt và thỏa mãn các ràng buộc
Kỹ thuật này phân hoạch một tập hợp dữ liệu có n phần tử thành k nhóm cho đến
khi xác định số các cụm được thiết lập Số các cụm được thiết lập là các đặc trưng được lựa chọn trước Phương pháp này là tốt cho việc tìm các cụm hình cầu trong không gian Euclidean Ngoài ra, phương pháp này cũng phụ thuộc vào khoảng cách cơ bản giữa các điểm để lựa chọn các đối tượng nào có quan hệ là gần nhau với mỗi điểm khác và các đối tượng nào không có quan hệ hoặc có quan hệ là xa nhau so với mỗi điểm khác Tuy nhiên, phương pháp này không thể xử lí các cụm có hình dạng kỳ quặc hoặc các cụm có mật độ các điểm dầy đặc Các thuật toán phân hoạch dữ liệu có độ phức tạp rất lớn khi xác định nghiệm tối ưu toàn cục cho vấn đề phân cụm dữ liệu, do nó phải tìm kiếm tất cả các cách phân hoạch có thể được Chính vì vậy, trên thực tế thường đi tìm
Trang 24giải pháp tối ưu cục bộ cho vấn đề này bằng cách sử dụng một hàm tiêu chuẩn để đánh giá chất lượng của cụm cũng như để hướng dẫn cho quá trình tìm kiếm phân hoạch dữ liệu Như vậy, ý tưởng chính của thuật toán phân cụm phân hoạch tối ưu cục bộ là sử dụng chiến lược tham lam (Greedy) để tìm kiếm nghiệm
2.4.2 Kỹ thuật phân cụm phân cấp
Phương pháp này xây dựng một phân cấp trên cơ sở các đối tượng dữ liệu đang xem xét Nghĩa là sắp xếp một tập dữ liệu đã cho thành một cấu trúc có dạng hình cây, cây phân cấp này được xây dựng theo kỹ thuật đệ quy Có hai cách tiếp cận phổ biến của kỹ thuật này đó là:
Hòa nhập nhóm, thường được gọi là tiếp cận Bottom-Up
Phân chia nhóm, thường được gọi là tiếp cận Top-Down
Hình 2 2 Các chiến lược phân cụm phân cấp
Thực tế áp dụng, có nhiều trường hợp kết hợp cả hai phương pháp phân cụm phân hoạch và phân cụm phân cấp, nghĩa là kết quả thu được của phương pháp phân cấp có thể cải tiến thông qua bước phân cụm phân hoạch Phân cụm phân hoạch và phân cụm phân cấp là hai phương pháp phân cụm dữ liệu cổ điển, hiện đã có rất nhiều thuật toán cải tiến dựa trên hai phương pháp này đã được áp dụng phổ biến trong khai thác dữ liệu
2.4.3 Kỹ thuật phân cụm dựa trên mật độ
Kỹ thuật này nhóm các đối tượng dữ liệu dựa trên hàm mật độ xác định, mật độ là
số các đối tượng lân cận của một đối tượng dữ liệu theo một nghĩa nào đó Trong cách tiếp cận này, khi một dữ liệu đã xác định thì nó tiếp tục được phát triển thêm các đối tượng dữ liệu mới miễn là số các đối tượng lân cận này phải lớn hơn một ngưỡng đã được xác định trước
Trang 25Phương pháp phân cụm dựa trên mật độ của các đối tượng để xác định các cụm dữ liệu có thể phát hiện ra các cụm dữ liệu với hình thù bất kỳ Kỹ thuật này có thể khắc phục được các phần tử ngoại lai hoặc giá trị nhiễu rất tốt, tuy nhiên việc xác định các tham số mật độ của thuật toán là rất khó khăn, trong khi các tham số này lại có tác động rất lớn đến kết quả phân cụm
2.4.4 Kỹ thuật phân cụm dựa trên lưới
Kỹ thuật phân cụm dựa trên lưới thích hợp với dữ liệu nhiều chiều, dựa trên cấu trúc
dữ liệu lưới để phân cụm, phương pháp này chủ yếu tập trung áp dụng cho lớp dữ liệu không gian Mục tiêu của phương pháp này là lượng hóa dữ liệu thành các ô tạo thành cấu trúc dữ liệu lưới Sau đó, các thao tác phân cụm chỉ cần làm việc với các đối tượng trong từng ô trên lưới chứ không phải các đối tượng dữ liệu Cách tiếp cận dựa trên lưới này không di chuyển các đối tượng trong các ô mà xây dựng nhiều mức phân cấp của nhóm các đối tượng trong một ô
Phương pháp này gần giống với phương pháp phân cụm phân cấp nhưng chúng không trộn các ô, đồng thời giải quyết khắc phục yêu cầu đối với dữ liệu nhiều chiều mà phương pháp phân phân cụm dựa trên mật độ không giải quyết được Ưu điểm của phương pháp phân cụm dựa trên lưới là thời gian xử lí nhanh và độc lập với số đối tượng
dữ liệu trong tập dữ liệu ban đầu, thay vào đó là chúng phụ thuộc vào số ô trong mỗi chiều của không gian lưới
2.4.5 Kỹ thuật phân cụm dựa trên mô hình
Phương này cố gắng khám phá các phép xấp xỉ tốt của các tham số mô hình sao cho khớp với dữ liệu một cách tốt nhất Chúng có thể sử dụng chiến lược phân cụm phân hoạch hoặc phân cụm phân cấp, dựa trên cấu trúc hoặc mô hình mà chúng giả định về tập dữ liệu và cách chúng hiệu chỉnh các mô hình này để nhận dạng ra các phân hoạch Phương pháp phân cụm dựa trên mô hình cố gắng khớp giữa các dữ liệu với mô hình toán học, nó dựa trên giả định rằng dữ liệu được tạo ra bằng hỗn hợp phân phối xác suất
cơ bản Các thuật toán phân cụm dựa trên mô hình có hai cách tiếp cận chính: mô hình thống kê và mạng nơron Phương pháp này gần giống với phương pháp phân cụm dựa trên mật độ, vì chúng phát triển các cụm riêng biệt nhằm cải tiến các mô hình đã được xác định trước đó, nhưng đôi khi nó không bắt đầu với một số cụm cố định và không sử dụng cùng một khái niệm mật độ cho các cụm
Trang 262.4.6 Kỹ thuật phân cụm có dữ liệu ràng buộc
Sự phát triển của phân cụm dữ liệu không gian trên cơ sở dữ liệu lớn đã cung cấp nhiều công cụ tiện lợi cho việc phân tích thông tin địa lí, tuy nhiên hầu hết các thuật toán này cung cấp rất ít cách thức cho người dùng để xác định các ràng buộc trong thế giới thực cần phải được thỏa mãn trong quá trình phân cụm Để phân cụm dữ liệu không gian hiệu quả hơn, các nghiên cứu bổ sung cần được thực hiện để cung cấp cho người dùng khả năng kết hợp các ràng buộc trong thuật toán phân cụm
2.5 MỘT SỐ THUẬT TOÁN PHÂN CỤM CỔ ĐIỂN
2.5.1 Thuật toán phân cụm K-Means
Ý tưởng: Thuật toán K-Means phân hoạch một tập n đối tượng thành k cụm sao cho các đối tượng trong cùng một cụm có độ tương tự cao và các đối tượng trong các cụm khác nhau có độ tương tự thấp hơn Mỗi cụm được đại diện bởi trọng tâm (cluster mean) của nó Một đối tượng được phân vào một cụm nếu khoảng cách từ đối tượng đó đến trọng tâm của cụm đang xét là nhỏ nhất (so với các trọng tâm của các cụm còn lại) Sau
đó trọng tâm của các cụm được cập nhật lại (trung bình cộng các phần tử thuộc cụm)
Quá trình lặp đi lặp lại cho đến hàm mục tiêu bé hơn một ngưỡng cho phép, một hàm mục tiêu (square-error) thường được được sử dụng:
𝐸 = ∑ ∑ |𝑝 − 𝑚𝑖|2
𝑝∉𝐶𝑖
𝑘
𝑖=1
Trong đó, p là đối tượng thuộc cụm 𝐶𝑖, 𝑚𝑖 là trọng tâm của cụm 𝐶𝑖
Trên thực tế chưa có một giải pháp tối ưu nào để chọn các tham số đầu vào, giải pháp thường được sử dụng nhất là thử nghiệm với các giá trị đầu vào k khác nhau rồi sau đó chọn giải pháp tốt nhất
2.5.2 Thuật toán phân cụm K-Medoids
Ý tưởng của K-Medoids cũng khá giống với K-Means, nhưng chỉ khác là trong thuật toán K-Means, mỗi đối tượng đại diện bằng 1 trọng tâm của cụm được tính bằng giá trị trung bình của các đối tượng trong cụm ấy; thì K-Medoids chọn trọng tâm của cụm là một điểm thuộc cụm ấy sao cho tổng khoảng cách từ các điểm còn lại tới trọng tâm của cụm là nhỏ nhất
Trang 272.5.3 Thuật toán phân cụm K-Center
Ý tưởng của thuật toán: Đầu tiên chọn bất kỳ đối tượng như là trọng tâm cụm đầu tiên và gán tất cả các đối tượng cho cụm đầu tiên Tiếp đó chọn trọng tâm cụm thứ hai
là đối tượng xa trọng tâm đầu tiên nhất và tạo ra cụm thứ hai bằng cách giao lại cho nó những đối tượng gần trọng tâm cụm thứ hai nhất, và sau đó chọn trọng tâm cụm thứ ba
đó là đối tượng xa trọng tâm của cụm mà nó thuộc nhất và tạo ra cụm thứ ba như cụm thứ hai, tiếp tục cho đến khi tìm được trọng tâm cụm thứ k và cuối cùng ta thu được k cụm Những lựa chọn k điểm thường được gọi là điểm mốc
Chương 2 đã trình bày cho chúng ta về phân cụm và các kỹ thuật phân cụm Đồng thời, chương này còn đề cập đến các thuật toán phân cụm điển hình mà hầu hết những
ai quan tâm đến bài toán phân cụm đều đã từng nghe đến Trong chương sau, chúng tôi
sẽ tập trung bàn luận đến nội dung trọng tâm của đồ án thông qua việc làm rõ các kiến thức liên quan đến thuật toán phân cụm bán tự động của hai tác giả Hong Yu và Dachun Yan, và thể hiện chi tiết nhất các bước của thuật toán
Trang 28Thuật toán phân cụm bán tự động dựa trên lý thuyết tập thô của hai tác giả Hong Yu
và Dachun Yan mà chúng tôi trình bày trong bài báo cáo này nhằm giới thiệu tới mọi người một khía cạnh mới trong việc giải quyết vấn đề của bài toán phân cụm
Khác với các thuật toán phân cụm cổ điển mà hầu hết chúng ta đã biết, khi mà các đối tượng sau quá trình xử lý thì sẽ thuộc duy nhất về một cụm, nhưng thực tế, trong lĩnh vực khai phá web, hai tác giả nhận thấy, các đối tượng không hoàn toàn thuộc về một cụm mà có thể thuộc về nhiều cụm khác nhau.Mô hình quyết định dựa trên lý thuyết tập thô (Decision-theoretic rough set model) là một mô hình tập thô xác suất điển hình,
có khả năng giải quyết với những thông tin không chính xác, không chắc chắn và mơ
hồ Đó cũng là nền tảng quyết định phân đối tượng vào cụm của thuật toán mà hai tác giả áp dụng
Trong chương này, chúng tôi sẽ trình bày một cách chi tiết nhất về thuật toán cũng như các lý thuyết liên quan
3.2 TỔNG QUAN VỀ LÝ THUYẾT TẬP THÔ
3.2.1 Giới thiệu
Lý thuyết tập thô (Rough Set Theory) do Zdzisaw Pawlak (1926-2006) đề xuất vào năm 1982, đã được ứng dụng ngày càng rộng rãi trong lĩnh vực khoa học máy tính Lý thuyết tập thô được phát triển trên một nền tảng toán học vững chắc, cung cấp các công
cụ hữu ích để giải quyết các bài toán phân tích dữ liệu, phát hiện luật, nhận dạng… Đặc
Trang 29biệt thích hợp với các bài toán phân tích trên khối lượng dữ liệu lớn, chứa đựng thông tin mơ hồ, không chắc chắn
Mục đích chính của phân tích dữ liệu dựa trên lý thuyết tập thô nhằm đưa ra các xấp
xỉ để biểu diễn các đối tượng không thể được phân lớp một cách chắc chắn bằng tri thức
có sẵn Theo quan điểm của lý thuyết tập thô, mọi tập thô đều liên kết với 2 tập “rõ” là xấp xỉ dưới và xấp xỉ trên của nó Xấp xỉ dưới bao gồm các đối tượng chắc chắn thuộc, còn xấp xỉ trên chứa tất cả các đối tượng có khả năng thuộc về tập đó Các tập xấp xỉ là
cơ sở để rút ra các kết luận (tri thức) từ cơ sở dữ liệu
3.2.2 Một số khái niệm
3.2.2.1 Hệ thống thông tin
Một tập dữ liệu có thể biểu diễn dưới dạng một bảng, trên đó mỗi hàng biểu diễn thông tin ứng với một đối tượng, mỗi cột biểu diễn một thuộc tính có thể đo được của mỗi đối tượng (do các chuyên gia hay người sử dụng cung cấp) Bảng này được gọi là một hệ thống thông tin Hình thức hơn, hệ thống thông tin là một cặp S = (U, A), U là một tập hữu hạn khác rỗng các đối tượng gọi là tập vũ trụ hay là tập phổ dụng, A là một tập hữu hạn khác rỗng các thuộc tính Với mỗi u U và a A, ta ký hiệu u(a) là giá trị của đối tượng u tại thuộc tính a Nếu gọi Ia là tập tất cả giá trị của thuộc tính a, thì u(a)
Ia với mọi uU Bây giờ, nếu B = {b1, b2, ,bk} A, ta ký hiệu bộ các giá trị u(bi) bởi u(B) Như vậy, nếu u và v là hai đối tượng, thì ta sẽ viết u(B) = v(B) nếu u(bi) = v(bi), với mọi i =1, 2, …, k
3.2.2.2 Quan hệ không phân biệt
a Quan hệ tương đương – Lớp tương đương
Chúng ta bắt đầu xem xét vấn đề dư thừa thông tin nói trên qua khái niệm quan
hệ tương đương Một quan hệ hai ngôi R X X được gọi là quan hệ tương đương khi
và chỉ khi :
• R là quan hệ phản xạ: xRx, x X
• R là quan hệ đối xứng: xRy → yRx, x, y X
• R là quan hệ bắc cầu: xRy và yRz → xRz, x, y, z X
Một quan hệ tương đương R sẽ phân hoạch tập đối tượng thành các lớp tương đương, trong đó lớp tương đương của một đối tượng x là tập tất cả các đối tượng có quan hệ R với x
Trang 30Tiếp theo, xét hệ thông tin S = (U, A) Khi đó mỗi tập thuộc tính B A đều tạo ra tương ứng một quan hệ tương đương IND(B):
IND(B) = {(x,x’) UU | a B, a(x) = a(x’)}
IND(B) được gọi là quan hệ B - không phân biệt Nếu (x, x’) IND(B) thì các đối tượng x và x’ là không thể phân biệt được với nhau qua tập thuộc tính B
Với mọi đối tượng x U, lớp tương đương của x trong quan hệ IND(B) được kí hiệu bởi [x]B
Cuối cùng, quan hệ B tương đương phân hoạch tập đối tượng U thành các lớp tương đương mà ta kí hiệu là U|IND(B)
Ví dụ 3.1 Xét hệ thống thông tin cho ở bảng 3.1
Bảng 3 1 Bảng hệ thống thông tin minh họa
Trong bảng, các bệnh nhân x2, x3và x5không phân biệt được đối với thuộc tính {Đau đầu}, bệnh nhân x1, x3, x4và x6không phân biệt được đối với thuộc tính {Đau cơ}, và bệnh nhân x2, x5 không phân biệt được đối với thuộc tính {Đau đầu, Đau cơ, Nhiệt độ} Như vậy ta có:
U| IND ({Đau đầu}) = {{x1, x4, x6}, {x2, x3, x5}}
U| IND ({Đau cơ}) = {{x1, x3, x4, x6}, {x2, x5}}
U| IND ({Nhiệt độ}) = {{x1, x2, x5}, {x3, x6}, {x4}}
U| IND ({Đau đầu, đau cơ}) = {{x1, x4, x6}, {x2, x5}, {x3}}
U| IND ({Đau đầu, Đau cơ, Nhiệt độ}) = {{x1}, {x2, x5}, {x3}, {x4}, {x6}}
b Xấp xỉ tập hợp
Như trên đã nói, một quan hệ tương đương cho ta một sự phân hoạch các đối tượng của tập phổ dụng Các lớp tương đương này có thể được sử dụng để tạo nên các tập con
Trang 31của tập vũ trụ Các tập con này thường chứa các đối tượng có cùng giá trị tại tập các thuộc tính quyết định Trong trường hợp này ta nói rằng các khái niệm – hay tập các giá trị tại tập các thuộc tính quyết định có thể được mô tả một cách rõ ràng thông qua tập các giá trị tại tập các thuộc tính điều kiện Để làm rõ ý tưởng quan trọng này ta xét hệ quyết định nhỏ thể hiện ở bảng 3.2 dưới đây:
Bảng 3 2 Một hệ quyết định điều tra vấn đề da cháy nắng
STT Trọng lượng Dùng thuốc Kết quả
Trong hệ quyết định trên, thuộc tính Kết quả là thuộc tính quyết định và hai thuộc
tính giữa là thuộc tính điều kiện Tập thuộc tính điều kiện C = {Trọng lượng, Dùng thuốc} phân hoạch tập các đối tượng thành các lớp tương đương:
• Kết quả là cháy nắng nếu và chỉ nếu trọng lượng là nặng và không dùng thuốc
Ta nói thuộc tính Kết quả có thể được định nghĩa rõ ràng qua 2 thuộc tính Trọng lượng và Dùng thuốc Tuy vậy không phải lúc nào cũng có thể định nghĩa một khái niệm nào đó một cách rõ ràng như vậy Chẳng hạn với bảng quyết định trong bảng 3.3, khái
niệm Walk không thể định nghĩa rõ ràng qua 2 thuộc tính điều kiện Age và LEMS Hai đối tượng x3 và x4 thuộc cùng một lớp tương đương tạo bởi hai thuộc tính điều kiện
nhưng lại có giá trị khác nhau tại thuộc tính Walk, vì vậy nếu một đối tượng nào đó có
(Age, LEMS) = (31 – 45, 1 – 25) thì ta vẫn không thể biết chắc chắn giá trị của nó tại thuộc tính Walk (Yes hay No?), nói cách khác ta sẽ không thể có một luật như sau:
“Walk là Yes nếu Age là 31 – 45 và LEMS là 1 – 25” Và đây chính là nơi mà khái niệm tập thô được sử dụng!
Trang 32Mặc dù không thể mô tả khái niệm Walk một cách rõ ràng nhưng căn cứ vào tập thuộc tính {Age, LEMS} ta vẫn có thể chỉ ra được chắc chắn một số đối tượng có Walk
là Yes, một số đối tượng có Walk là No, còn lại là các đối tượng thuộc về biên giới của
2 giá trị Yes và No, cụ thể:
Nếu đối tượng nào có giá trị tại tập thuộc tính {Age, LEMS} thuộc tập {{16 – 30,
50}, {16 – 30, 26 – 49}} thì nó có Walk là Yes
Nếu đối tượng nào có giá trị tại tập thuộc tính {Age, LEMS} thuộc tập {{16 – 30,
0}, {46 – 60, 26 – 49}} thì nó có Walk là No
Nếu đối tượng nào có giá trị tại tập thuộc tính {Age, LEMS} thuộc tập {{31 – 45, 1
– 25}} thì nó có Walk là Yes hoặc No Những đối tượng này, như nói ở trên thuộc về biên giới của 2 giá trị Yes và No
Bảng 3 3 Bảng kết quả quyết định dựa vào lý thuyết tập thô
Trang 33Hình 3.1 minh họa cho tập thô
Hình 3 1 Minh họa tập thô
Tập R X( )bao gồm tất cả các phần tử của U chắc chắn thuộc vào X
Tập R X( )bao gồm các phần tử của U có khả năng được phân loại vào những phần
tử thuộc X ứng với quan hệ R.
Từ hai tập xấp xỉ người ta định nghĩa các tập:
Rõ ràng POS B( )D là tập tất cả các đối tượng u sao cho với mọi v mà 𝑢(𝐵) = 𝑣(𝐵) U
Trang 34Ví dụ 3.2 Cho bảng dữ liệu:
Bảng 3 4 Một hệ quyết định về vấn đề lựa chọn sản phẩm
POS Nationality (Conclusion) = {x2, x4, x6, x7}
POS Family (Conclusion) = {x5, x7, x8}
POS Size (Conclusion) =
Ví dụ 3.3 Tập mẫu cho ở ví dụ 3.2 là một bảng quyết định với:
U = {x1, x2, , x8}, C = {Size, Nationality, Family}, D = {Conclusion}
Di: là định danh của đối tượng thứ i. i = 1 n