1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Tìm hiểu thuật toán phân cụm bán tự động dựa vào lý thuyết tập thô của hai tác giả hong yu và dachun yan

69 17 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 69
Dung lượng 1,62 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Một số thuật toán đã được giới thiệu và cho kết quả khá khả quan nhưng vẫn còn nhiều hạn chế như kết quả ảnh hưởng bởi bộ dữ liệu đầu vào… Hai tác giả Hong Yu và Dachun Yan tiếp cận bài

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC NHA TRANG KHOA CÔNG NGHỆ THÔNG TIN

ĐỒ ÁN TỐT NGHIỆP

TÌM HIỂU THUẬT TOÁN PHÂN CỤM BÁN TỰ ĐỘNG DỰA VÀO LÝ THUYẾT TẬP THÔ CỦA HAI TÁC GIẢ

HONG YU VÀ DACHUN YAN

Giảng viên hướng dẫn: TS Nguyễn Đức Thuần

Sinh viên thực hiện: Trần Văn Đức

Khánh Hòa - 2019

Trang 2

TRƯỜNG ĐẠI HỌC NHA TRANG

KHOA CÔNG NGHỆ THÔNG TIN

BỘ MÔN HỆ THỐNG THÔNG TIN

ĐỒ ÁN TỐT NGHIỆP

TÌM HIỂU THUẬT TOÁN PHÂN CỤM BÁN TỰ ĐỘNG DỰA VÀO LÝ THUYẾT TẬP THÔ CỦA HAI TÁC GIẢ

HONG YU VÀ DACHUN YAN

Khánh Hòa, tháng 6/2019

Trang 3

QUYẾT ĐỊNH GIAO ĐỒ ÁN TỐT NGHIỆP

Trang 4

TRƯỜNG ĐẠI HỌC NHA TRANG

Khoa/Viện: Công nghệ thông tin

PHIẾU THEO DÕI TIẾN ĐỘ VÀ ĐÁNH GIÁ ĐỒ ÁN TỐT NGHIỆP

Tên đề tài: Tìm hiểu thuật toán phân cụm bán tự động dựa vào lý thuyết tập thô của

hai tác giả Hong Yu và Dachun Yan Chuyên ngành: Công nghệ thông tin

Họ và tên sinh viên: Trần Văn Đức Mã sinh viên: 57130946

Người hướng dẫn: TS Nguyễn Đức Thuần

Cơ quan công tác: Khoa Công nghệ thông tin – Đại học Nha Trang

Phần đánh giá và cho điểm của người hướng dẫn (tính theo thang điểm 10)

Tiêu chí

đánh giá

Trọng

số (%)

Mô tả chất lượng

Điểm Giỏi Khá Đạt yêu cầu Không đạt

Xây dựng đề

cương nghiên cứu 10

Tinh thần và thái

độ làm việc 10

Kiến thức và kỹ

năng làm việc 10

Nội dung và kết

quả đạt được 40

Kỹ năng viết và

trình bày báo cáo 30

ĐIỂM TỔNG

Ghi chú: Điểm tổng làm tròn đến một chữ số lẻ

Nhận xét chung (sau khi sinh viên hoàn thành ĐA/KLTN):

Đồng ý cho cho sinh viên: Được bảo vệ: Không được bảo vệ: Khánh Hòa, ngày tháng năm

Cán bộ hướng dẫn

Trang 5

TRƯỜNG ĐẠI HỌC NHA TRANG

Khoa/Viện: Công nghệ thông tin

PHIẾU CHẤM ĐIỂM ĐỒ ÁN TỐT NGHIỆP

(Dành cho cán bộ chấm phản biện)

Tên đề tài: Tìm hiểu thuật toán phân cụm bán tự động dựa vào lý thuyết tập thô của

hai tác giả Hong Yu và Dachun Yan Chuyên ngành: Công nghệ thông tin

Họ và tên sinh viên: Trần Văn Đức Mã sinh viên: 57130946

Người phản biện:

Cơ quan công tác: Khoa Công nghệ thông tin – Đại học Nha Trang

I Phần đánh giá và cho điểm của người phản biện (tính theo thang điểm 10)

Tiêu chí

đánh giá

Trọng

số (%)

Mô tả chất lượng

Điểm Giỏi Khá Đạt yêu cầu Không đạt

Đồng ý cho cho sinh viên: Được bảo vệ: Không được bảo vệ:

Khánh Hòa, ngày tháng năm

Cán bộ chấm phản biện

(Ký và ghi rõ họ tên)

Trang 6

II Phần nhận xét cụ thể

II.1 Hình thức thuyết minh (tỉ trọng 30%)

• Trình bày

• Bố cục và lập luận

• Văn phong

II.2 Nội dung thuyết minh (tỉ trọng 30%)

• Mục tiêu nghiên cứu

• Tổng quan tài liệu

• Phương pháp nghiên cứu

II.3 Kết quả nghiên cứu (tỉ trọng 20%)

• Kết quả đạt được

• Kết luận

Trang 7

CAM ĐOAN CỦA SINH VIÊN

Tôi xin cam đoan về các kết quả và số liệu trình bày trong đồ án “Tìm hiểu thuật

toán phân cụm bán tự động dựa vào lý thuyết tập thô của hai tác giả Hong Yu và Dachun Yan” là trung thực Trong quá trình thực hiện đồ án, tôi có sử dụng một số tài

liệu liên quan đến vấn đề cần nghiên cứu Các tài liệu này đã được phép sử dụng và trích

dẫn đầy đủ ở mục “Tài liệu tham khảo”

Tôi xin chịu hoàn toàn trách nhiệm về tính liêm chính của đồ án

Khánh Hòa, tháng 6 năm 2019

Sinh viên thực hiện Trần Văn Đức

Trang 8

LỜI CẢM ƠN

Trải qua hơn ba tháng thực hiện đề tài, bản thân em vấp phải không ít những khó khăn khi vấn đề cần nghiên cứu là hoàn toàn mới mẻ Bài toán phân cụm là một bài toán khó và mở, đây cũng là đề tài được rất nhiều học viên cao học lựa chọn cho luận văn thạc sĩ, tiến sĩ của mình Đặc biệt, hiện nay vẫn chưa có một thuật toán nào là tối ưu để giải quyết hoàn toàn các bộ dữ liệu vốn đa dạng và phức tạp

Để có được kết quả như hôm nay, em xin gửi lời cảm ơn chân thành đến các thầy

cô đã giảng dạy suốt bốn năm qua và đặc biệt là thầy Nguyễn Đức Thuần, thầy hướng

dẫn trực tiếp, nhiệt tình hỗ trợ hết mình cho em về những kiến thức liên quan đến đề tài Những buổi trao đổi với thầy giúp em hiểu hơn về lý thuyết tập thô, cũng như tính rộng lớn của bài toán phân cụm Và em nghĩ đó là kiến thức giá trị mà em có được sau khi hoàn tất đề tài

Tuy kết quả bước đầu đã đáp ứng được mục tiêu của đề tài nhưng vẫn còn nhiều khía cạnh cần phải được làm rõ và phát triển để đề tài có được một kết quả hoàn mỹ hơn, đáp ứng được các bộ dữ liệu đa dạng, hỗ trợ cho việc phát hiện tri thức

Khánh Hòa, tháng 6 năm 2019

Sinh viên thực hiện Trần Văn Đức

Trang 9

MỤC LỤC

QUYẾT ĐỊNH GIAO ĐỒ ÁN TỐT NGHIỆP iii

PHIẾU THEO DÕI TIẾN ĐỘ VÀ ĐÁNH GIÁ ĐỒ ÁN TỐT NGHIỆP iv

PHIẾU CHẤM ĐIỂM ĐỒ ÁN TỐT NGHIỆP v

CAM ĐOAN CỦA SINH VIÊN vii

LỜI CẢM ƠN viii

MỤC LỤC ix

DANH SÁCH HÌNH VẼ xi

DANH SÁCH BẢNG xii

DANH SÁCH CÁC TỪ VIẾT TẮT xiii

LỜI MỞ ĐẦU xiv

1 GIỚI THIỆU VỀ ĐỀ TÀI xiv

2 MỤC TIÊU VÀ PHƯƠNG PHÁP NGHIÊN CỨU CỦA ĐỀ TÀI xiv

3 Ý NGHĨA CỦA ĐỀ TÀI xv

4 NỘI DUNG CỦA ĐỀ TÀI xv

CHƯƠNG 1 1

TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC VÀ KHAI PHÁ DỮ LIỆU 1

1.1 GIỚI THIỆU CHUNG VỀ KHÁM PHÁ TRI THỨC VÀ KHAI PHÁ DỮ LIỆU 1

1.2 QUÁ TRÌNH KHÁM PHÁ TRI THỨC 1

1.3 QUÁ TRÌNH KHAI PHÁ DỮ LIỆU 2

1.4 CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU 2

1.5 CÁC HƯỚNG TIẾP CẬN CƠ BẢN TRONG KHAI PHÁ DỮ LIỆU 3

1.6 CÁC LĨNH VỰC ỨNG DỤNG THỰC TIỄN CỦA KHAI PHÁ DỮ LIỆU 4

1.7 NHỮNG THÁCH THỨC TRONG KHAI PHÁ DỮ LIỆU 4

CHƯƠNG 2 6

PHÂN CỤM VÀ CÁC KỸ THUẬT PHÂN CỤM 6

2.1 KHÁI NIỆM VÀ MỤC ĐÍCH CỦA PHÂN CỤM DỮ LIỆU 6

2.2 CÁC ỨNG DỤNG CỦA PHÂN CỤM DỮ LIỆU 6

2.3 CÁC YÊU CẦU CỦA PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU 7

2.4 PHÂN LOẠI CÁC KỸ THUẬT PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU 8

2.4.1 Kỹ thuật phân cụm phân hoạch 8

2.4.2 Kỹ thuật phân cụm phân cấp 9

2.4.3 Kỹ thuật phân cụm dựa trên mật độ 9

2.4.4 Kỹ thuật phân cụm dựa trên lưới 10

2.4.5 Kỹ thuật phân cụm dựa trên mô hình 10

2.4.6 Kỹ thuật phân cụm có dữ liệu ràng buộc 11

Trang 10

2.5 MỘT SỐ THUẬT TOÁN PHÂN CỤM CỔ ĐIỂN 11

2.5.1 Thuật toán phân cụm K-Means 11

2.5.2 Thuật toán phân cụm K-Medoids 11

2.5.3 Thuật toán phân cụm K-Center 12

CHƯƠNG 3 13

THUẬT TOÁN PHÂN CỤM BÁN TỰ ĐỘNG DỰA VÀO LÝ THUYẾT TẬP THÔ CỦA HAI TÁC GIẢ HONG YU VÀ DACHUN YAN 13

3.1 KHÁI QUÁT VẤN ĐỀ 13

3.2 TỔNG QUAN VỀ LÝ THUYẾT TẬP THÔ 13

3.2.1 Giới thiệu 13

3.2.2 Một số khái niệm 14

3.3 PHÂN CỤM ĐỊNH HƯỚNG TRI THỨC 21

3.3.1 Một số khái niệm cơ bản của thuật toán phân cụm K-O 21

3.3.2 Mô hình lý thuyết quyết định dựa vào lý thuyết tập thô 23

3.4 THUẬT TOÁN PHÂN CỤM BÁN TỰ ĐỘNG DỰA VÀO LÝ THUYẾT TẬP THÔ 25

3.4.1 Chọn các giá trị ngưỡng 𝐓𝐡𝐢 25

3.4.2 Định nghĩa mức độ không phân biệt của các cụm 27

3.4.3 Hiệu chỉnh phân cụm 27

3.4.4 Các bước của thuật toán SAC-DTRSM của hai tác giả Hong Yu và Dachun Yan 28

3.5 ĐÁNH GIÁ HIỆU NĂNG CỦA MỘT PHÂN CỤM DỰA VÀO MA TRẬN NHẦM LẪN 37

CHƯƠNG 4 40

CHƯƠNG TRÌNH THỬ NGHIỆM 40

4.1 GIỚI THIỆU VỀ CHƯƠNG TRÌNH 40

4.2 DỮ LIỆU 40

4.3 TỔ CHỨC XỬ LÝ 40

4.4 MÔ TẢ CHỨC NĂNG CỦA CHƯƠNG TRÌNH 46

4.5 HƯỚNG DẪN CHẠY VÀ KIỂM THỬ 48

4.6 KẾT QUẢ ĐẠT ĐƯỢC 48

4.7 ĐÁNH GIÁ VỀ CHƯƠNG TRÌNH 48

4.8 HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI 49

TỔNG KẾT 50

TÀI LIỆU THAM KHẢO 51

PHỤ LỤC 52

Trang 11

DANH SÁCH HÌNH VẼ

Hình 2 1 Minh họa việc phân cụm dữ liệu 6

Hình 2 2 Các chiến lược phân cụm phân cấp 9

Hình 3 1 Minh họa tập thô 18

Hình 3 2 Mô tả sự sắp xếp độ tương tự của các đối tượng đối với xi 26

Hình 4 1 Giao diện nhập liệu dữ liệu và tham số cho thuật toán 46

Hình 4 2 Hiển thị thông tin dữ liệu 46

Hình 4 3 Hiển thị toàn bộ dữ liệu đầu vào 46

Hình 4 4 Hiển thị kết quả phân cụm 47

Hình 4 5 Hiển thị chi tiết các bước xử lý và kết quả của chương trình 47

Hình 4 6 Giao diện chương trình 47

Hình 5 2 Kết quả phân cụm với bộ Test 2 53

Hình 5 3 Kết quả phân cụm với bộ Test 3 53

Hình 5 4 Kết quả phân cụm với bộ Iris 54

Hình 5 5 Kết quả phân cụm với bộ Wine 54

Trang 12

DANH SÁCH BẢNG

Bảng 3 1 Bảng hệ thống thông tin minh họa 15

Bảng 3 2 Một hệ quyết định điều tra vấn đề da cháy nắng 16

Bảng 3 3 Bảng kết quả quyết định dựa vào lý thuyết tập thô 17

Bảng 3 4 Một hệ quyết định về vấn đề lựa chọn sản phẩm 19

Bảng 3 5 Bảng dữ liệu minh họa 21

Bảng 3 6 Minh họa sự sắp xếp giảm dần độ tương tự ở hàng i 25

Bảng 3 7 Bảng dữ liệu liệu minh họa của hai tác giả Bean và Kambhampati 28

Bảng 3 8 Bảng kết quả độ tương tự của xi với các đối tượng khác 30

Bảng 3 9 Bảng kết quả sau khi sắp xếp giảm dần sim(xi, xj) của đối tượng xi 30

Bảng 3 10 Bảng ma trận phân biệt ở lần tính 1 32

Bảng 3 11 Bảng ma trận phân biệt ở lần tính 2 34

Bảng 3 12 Bảng ma trận phân biệt ở lần tính 3 34

Bảng 3 13 Bảng ma trận phân biệt ở lần tính 4 35

Bảng 3 14 Bảng ma trận phân biệt ở lần tính 5 35

Bảng 3 15 Bảng ma trận phân biệt ở lần tính 6 36

Bảng 3 16 Bảng ma trận phân biệt ở lần tính 7 36

Bảng 3 17 Bảng ma trận phân biệt ở lần tính 8 37

Bảng 3 18 Bảng một số độ đo hiệu năng phân cụm 38

Bảng 4 1 Kết quả phân cụm với một số bộ dữ liệu 48

Bảng 5 1 Ma trận độ tương tự giữa các đối tượng trong bộ Test 2 52

Trang 13

DANH SÁCH CÁC TỪ VIẾT TẮT

K-O Framework Knowledge-Oriented Framework

SAC-DTRSM Semi-Autonomous Clustering based on Decision Theory Rough Set Model

Trang 14

LỜI MỞ ĐẦU

1 GIỚI THIỆU VỀ ĐỀ TÀI

Bài toán phân cụm cho đến nay vẫn luôn là một chủ đề được rất nhiều học giả nghiên cứu nhằm tìm ra một thuật toán tối ưu để giải quyết với những bộ dữ liệu khác nhau Một số thuật toán đã được giới thiệu và cho kết quả khá khả quan nhưng vẫn còn nhiều hạn chế như kết quả ảnh hưởng bởi bộ dữ liệu đầu vào…

Hai tác giả Hong Yu và Dachun Yan tiếp cận bài toán phân cụm theo một khía cạnh mới trong việc phân cụm với các dữ liệu có tính mơ hồ, không chắc chắn Các tác giả đặt ra một vấn đề đó là các đối tượng sau khi được phân cụm có thể thuộc về nhiều cụm khác nhau, thay vì chỉ thuộc về một cụm như các thuật toán trước đó Ưu điểm trong đề xuất thuật toán của hai tác giả đó chính là việc khởi tạo được phân cụm ban đầu một cách tự động mà không cần có sự can thiệp từ người dùng, tuy nhiên một điểm hạn chế,

đó là cần phải cung cấp các tham số đầu vào để thuật toán có thể hiệu chỉnh nhằm đạt được một phân cụm cuối cùng Mặc dù vậy, thuật toán được đề xuất của hai tác giả cũng

đã mở ra một hướng mới trong việc giải quyết bài toán phân cụm

Đồ án “Tìm hiểu thuật toán phân cụm bán tự động dựa vào lý thuyết tập thô của

hai tác giả Hong Yu và Dachun Yan” giúp em có thêm hiểu biết liên quan đến bài toán

phân cụm, các kiến thức về lý thuyết tập thô Đó là những kiến thức hữu ích, là nền tảng cho các đề tài nghiên cứu thêm khi học lên cao hơn sau này

2 MỤC TIÊU VÀ PHƯƠNG PHÁP NGHIÊN CỨU CỦA ĐỀ TÀI

Mục tiêu của đề tài:

• Tìm hiểu thuật toán phân cụm bán tự động dựa trên lý thuyết tập thô của hai tác giả Hong Yu và Dachun Yan

• Cài đặt thuật toán và so sánh với các kết quả của tác giả

Phương pháp nghiên cứu của đề tài:

• Đọc các tài liệu có liên quan

• Tìm hiểu tổng quan về khám phá tri thức và khai phá dữ liệu

• Tìm hiểu tổng quan về phân cụm và các kỹ thuật phân cụm

• Tìm hiểu về lý thuyết tập thô

Trang 15

• Tìm hiểu về mô hình quyết định dựa vào lý thuyết tập thô

• Trình bày thuật toán SAC-DTRSM của tác giả Hong Yu và Dachun Yan

• Xây dựng chương trình thử nghiệm với thuật toán của hai tác giả

3 Ý NGHĨA CỦA ĐỀ TÀI

Cung cấp một thuật toán mới trong việc giải quyết bài toán phân cụm, đồng thời mang đến một kiến thức mới dựa vào thuật toán của Hong Yu và Dachun Yan

4 NỘI DUNG CỦA ĐỀ TÀI

Nội dung của đề tài được trình bày trong 4 chương

• Chương 1: Tổng quan về khám phá tri thức và khai phá dữ liệu

Chương này giới thiệu một cách tổng quan về khám phá tri thức và khai phá dữ liệu, giúp người đọc nắm được những vấn đề cơ bản

• Chương 2: Phân cụm và các kỹ thuật phân cụm

Trình bày khái quát về phân cụm và các kỹ thuật phân cụm Bên cạnh đó, còn

đề cập đến một số thuật toán phân cụm điển hình

• Chương 3: Thuật toán phân cụm bán tự động dựa trên lý thuyết tập thô của hai tác giả Hong Yu và Dachun Yan

Đây là chương trọng tâm của đồ án Nội dung của chương đi sâu vào các lý thuyết liên quan, làm rõ các vấn đề của thuật toán

• Chương 4: Chương trình thử nghiệm

Giới thiệu về chương trình cài đặt và kết quả đạt được, đưa ra một số đánh giá

về thuật toán và hướng phát triển đề tài

Ngoài ra, đồ án còn có phần tổng kết nhằm trình bày những nhận xét, điều đạt được

và hạn chế qua quá trình thực hiện đề tài

Trang 16

CHƯƠNG 1

TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC VÀ KHAI PHÁ DỮ LIỆU

1.1 GIỚI THIỆU CHUNG VỀ KHÁM PHÁ TRI THỨC VÀ KHAI PHÁ

DỮ LIỆU

Trong thời đại ngày nay, cùng với sự phát triển của xã hội, lĩnh vực công nghệ thông tin cũng có nhiều sự tiến bộ như khả năng lưu trữ dữ liệu ngày càng lớn Việc khai thác các dữ liệu này một cách hiệu quả nhằm đáp ứng các nhu cầu về thông tin phục vụ cho các mục đích khác nhau là một mối quan tâm lớn

Khám phá phá tri thức và khai phá dữ liệu đang nổi lên nhanh chóng và trở thành một trong những hướng nghiên cứu chính liên quan đến nhiều lĩnh vực như khoa học máy tính và công nghệ tri thức kết hợp với cơ sở dữ liệu, thống kê, học máy… để trích chọn những thông tin giá trị và tri thức trong khối lượng dữ liệu lớn

Khám phá tri thức trong cơ sở dữ liệu là một quy trình nhận biết các mẫu hoặc các

mô hình trong dữ liệu với các tính năng: phân tích, tổng hợp, khả ích và có thể hiểu Khai phá dữ liệu là một bước trong quá trình khám phá tri thức, gồm các thuật toán khai phá dữ liệu chuyên dùng dưới một số quy định về hiệu quả tính toán chấp nhận được để tìm ra các mẫu hoặc các mô hình trong dữ liệu

Mục đích của khai phá dữ liệu là phát hiện tri thức phục vụ cho các lợi ích trong thực tế và các yêu cầu trong nghiên cứu học thuật Do đó, ta có thể coi mục đích chính của khai phá dữ liệu là mô tả (description) và dự đoán (prediction)

1.2 QUÁ TRÌNH KHÁM PHÁ TRI THỨC

Bước đầu tiên: Tìm hiểu phạm vi ứng dụng và xác định bài toán

Bước thứ hai: Thu thập và tiền xử lý dữ liệu, bao gồm cả việc lựa chọn các nguồn

dữ liệu, loại bỏ nhiễu hoặc ngoại lệ, xử lý các dữ liệu bị thiếu, việc chuyển đổi (phân rã nếu cần thiết), rút gọn dữ liệu…

Bước thứ ba: Khai phá dữ liệu nhằm rút trích các mẫu hoặc các mô hình ẩn trong

dữ liệu

Trang 17

Bước thứ tư: Là làm rõ tri thức phát hiện được, đặc biệt là thể hiện mô tả và dự báo Thực tế cho thấy các mẫu được phát hiện hoặc các mô hình có được từ dữ liệu không phải luôn luôn được xem xét hoặc sử dụng ngay, mà cần phải thực hiện một quá trình lặp để đánh giá tri thức phát hiện

Bước cuối: Là đưa tri thức phát hiện được vào sử dụng thực tế

1.3 QUÁ TRÌNH KHAI PHÁ DỮ LIỆU

Khai phá dữ liệu là một giai đoạn quan trọng trong quá trình khám phá tri thức Về bản chất, nó là giai đoạn duy nhất tìm ra được thông tin mới, thông tin tiềm ẩn có trong

cơ sở dữ liệu, chủ yếu phục vụ cho mô tả và dự đoán

Mô tả dữ liệu là tổng kết hoặc diễn tả những đặc điểm chung của thuộc tính dữ liệu trong kho dữ liệu mà con người có thể hiểu được

Dự đoán là dựa trên những dữ liệu hiện thời để dự đoán những quy luật được phát hiện từ các mối liên hệ giữa các thuộc tính của dữ liệu trên cơ sở đó chiết xuất ra các mẫu, dự đoán được những giá trị chưa biết hoặc những giá trị tương lai của các biến quan tâm

Quá trình khai phá dữ liệu bao gồm các bước chính:

• Xác định nhiệm vụ: Xác định chính xác các vấn đề cần giải quyết

• Xác định các dữ liệu liên quan: Dùng để xây dựng giải pháp

• Thu thập và tiền xử lý dữ liệu: Thu thập các dữ liệu liên quan và tiền xử lý chúng sao cho thuật toán khai thác dữ liệu có thể hiểu được Đây là một quá trình rất khó khăn, có thể gặp phải rất nhiều các vướng mắc như: dữ liệu phải được sao

ra nhiều bản (nếu được chiết xuất vào các tệp), quản lý tập các dữ liệu, phải lặp

đi lặp lại nhiều lần toàn bộ quá trình (nếu mô hình dữ liệu thay đổi), v.v…

• Thuật toán khai phá dữ liệu: Lựa chọn thuật toán khai phá dữ liệu và thực hiện việc phân cụm dữ liệu để tìm được các mẫu có ý nghĩa, các mẫu này được biểu diễn dưới dạng luật kết hợp, cây quyết định tương ứng với ý nghĩa của nó

1.4 CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU

Với hai mục đích chính của khai phá dữ liệu là Mô tả và Dự đoán, người ta thường

sử dụng các phương pháp sau cho khai thác dữ liệu:

• Luật kết hợp (Association Rules)

Trang 18

• Phân lớp (Classfication)

• Hồi qui (Regression)

• Trực quan hóa (Visualiztion)

• Phân cụm (Clustering)

• Tổng hợp (Summarization)

• Mô hình ràng buộc (Dependency modeling)

• Biểu diễn mô hình (Model Evaluation)

• Phân tích sự phát triển và độ lệch (Evolution and Deviation Analyst)

• Phương pháp tìm kiếm (Search Method)

1.5 CÁC HƯỚNG TIẾP CẬN CƠ BẢN TRONG KHAI PHÁ DỮ LIỆU

Phân lớp và dự đoán (Classification & prediction):

Là quá trình xếp một đối tượng vào một trong những lớp đã biết trước (Ví dụ: phân lớp các bệnh nhân theo dữ liệu hồ sơ bệnh án, phân lớp vùng địa lý theo dữ liệu thời tiết ) Đối với hướng tiếp cận này thường sử dụng một số kỹ thuật của học máy như cây quyết định (decision tree), mạng nơron nhân tạo (neural network), Hay lớp bài toán này còn được gọi là học có giám sát - Học có thầy (supervised learning)

Phân cụm (clustering/segmentation):

Sắp xếp các đối tượng theo từng cụm dữ liệu tự nhiên, tức là số lượng và tên cụm chưa được biết trước Các đối tượng được gom cụm sao cho mức độ tương tự giữa các đối tượng trong cùng một cụm là lớn nhất và mức độ tương tự giữa các đối tượng nằm trong các cụm khác nhau là nhỏ nhất Lớp bài toán này còn được gọi là học không giám sát - Học không thầy (unsupervised learning)

Luật kết hợp (association rules):

Là dạng luật biểu diễn tri thức ở dạng khá đơn giản (Ví dụ: 80% sinh viên đăng ký học cơ sở dữ liệu thì có tới 60% trong số họ đăng ký học Phân tích thiết kế hệ thống thông tin) Hướng tiếp cận này được ứng dụng nhiều trong lĩnh vực kinh doanh, y học, tin sinh học, giáo dục, viễn thông, tài chính và thị trường chứng khoán,

Phân tích chuỗi theo thời gian (sequential/temporal patterns):

Tương tự như khai phá dữ liệu bằng luật kết hợp nhưng có thêm tính thứ tự và tính thời gian Một luật mô tả mẫu tuần tự có dạng tiêu biểu X -> Y, phản ánh sự xuất hiện

Trang 19

của biến cố X sẽ dẫn đến việc xuất hiện biến cố Y Hướng tiếp cận này được ứng dụng nhiều trong lĩnh vực tài chính và thị trường chứng khoán bởi chúng có tính dự báo cao

Mô tả khái niệm (concept desccription & summarization):

Lớp bài toán này thiên về mô tả, tổng hợp và tóm tắt khái niệm

Ví dụ: tóm tắt văn bản

1.6 CÁC LĨNH VỰC ỨNG DỤNG THỰC TIỄN CỦA KHAI PHÁ DỮ LIỆU

Ngân hàng: Xây dựng mô hình dự báo rủi ro tín dụng; tìm kiếm tri thức, quy luật của thị trường chứng khoán và đầu tư bất động sản…

Thương mại điện tử: Công cụ tìm hiểu, định hướng, thúc đẩy, giao tiếp với khách hàng; phân tích khách hàng duyệt web; phân tích hành vi mua sắm trên mạng và cho biết thông tin tiếp thị phù hợp với loại khách hàng

Thiên văn học: Hệ thống SKICAT do JPL/Caltech phát triển được sử dụng cho các nhà thiên văn để tự động xác định các vì sao và các dải thiên hà trong một bản khảo sát lớn để có thể phân tích và phân loại (Fayyad, Djorgovski, & Weir)

Sinh học phân tử: Hệ thống tìm kiếm các mẫu trong cấu trúc phân tử (Conklin, Fortier, và Glasgow 1993) và trong các dữ liệu gen (Holder, Cook, và Djoko 1994)

1.7 NHỮNG THÁCH THỨC TRONG KHAI PHÁ DỮ LIỆU

Khối lượng dữ liệu lớn và từ nhiều nguồn khác nhau: CSDL, internet, các loại thiết

bị thu nhận tín hiệu, các loại thiết bị nhận dạng, các loại thiết bị lưu trữ như băng từ,

CD, Số mẫu tin và số các thuộc tính quá lớn làm cho độ phức tạp và thời gian giải quyết bài toán tăng lên rất nhanh Mô hình hay tri thức phát hiện được bị thay đổi theo thời gian tức là mô hình hay tri thức đó phụ thuộc vào thời điểm quan sát, lấy mẫu, thời điểm khai phá, kết quả đạt được sau khai phá cũng gây không ít khó khăn cho khai phá

dữ liệu Dữ liệu bị ảnh hưởng, bị nhiễu bởi tác động của môi trường bên ngoài, hay bộ

dữ liệu không hoàn chỉnh làm cho dữ liệu không phản ánh trung thực, chính xác của các quy luật, tri thức mà ta tìm được Các thuộc tính không phù hợp, các bộ giá trị không đầy đủ, bị thiếu giá trị trong các miền thuộc tính sẽ ảnh hưởng rất lớn đến việc khai phá

dữ liệu Chẳng hạn như khi khai phá dữ liệu, các hệ thống tương tác với nhau, phụ thuộc nhau, chỉ cần thiếu một vài giá trị nào đó sẽ dẫn đến các mẫu thuẫn, không chính xác, không đầy đủ

Trang 20

Nội dung của chương này đã trình bày một cách khái quát cho người đọc về khám phá tri thức và khai phá dữ liệu, các hướng tiếp cận cơ bản và kỹ thuật trong khai phá

dữ liệu; cùng những thách thức đối mặt Chương tiếp theo sẽ giới thiệu rõ hơn về phân cụm và các kỹ thuật phân cụm

Trang 21

CHƯƠNG 2

PHÂN CỤM VÀ CÁC KỸ THUẬT PHÂN CỤM

2.1 KHÁI NIỆM VÀ MỤC ĐÍCH CỦA PHÂN CỤM DỮ LIỆU

Phân cụm dữ liệu là một kỹ thuật quan trọng trong công nghệ tri thức, nó được ứng dụng rộng rãi và đa dạng trong các ngành khoa học như sinh học, tâm lý học, y học, ngành marketing, thị giác máy tính, điều khiển học …

Phân cụm dữ liệu là một hình thức học không giám sát (unsupervised learning) trong

đó các mẫu học chưa được gán nhãn

Hình 2.1 minh họa cho việc phân cụm dữ liệu

Hình 2 1 Minh họa việc phân cụm dữ liệu

Mục đích của phân cụm dữ liệu là tìm những mẫu đại diện hoặc gom dữ liệu tương

tự nhau (theo một chuẩn đánh giá nào đó) thành những cụm Các điểm dữ liệu nằm trong các cụm khác nhau có độ tương tự thấp hơn các dữ liệu nằm trong một cụm

2.2 CÁC ỨNG DỤNG CỦA PHÂN CỤM DỮ LIỆU

Lĩnh vực kinh tế: tìm quốc gia có nền kinh tế tương đồng hay các công ty có tiềm lực kinh tế như nhau Phân tích cụm có thể giúp các nhà marketing khám phá nhóm khách hàng có cùng thói quen mua sắm

Trong sinh học: giúp phân loại thực vật, động vật, các mẫu gen với các chức năng tương tự nhau

Trong y học: phát hiện các nhóm bệnh nhân có cùng triệu chứng lâm sàng

Thư viện: Phân loại các cụm sách có nội dung và ý nghĩa tương đồng nhau để cung cấp cho độc giả

Trang 22

Bảo hiểm: Nhận dạng nhóm tham gia bảo hiểm có chi phí bồi thường cao, gian lận thương mại

Web: gom cụm phân loại các tài liệu trên Web

2.3 CÁC YÊU CẦU CỦA PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU

Có khả năng tương thích, hiệu quả với CSDL dung lượng lớn, số chiều lớn:

Nhiều thuật toán phân cụm làm việc tốt với những tập dữ liệu nhỏ chứa ít hơn 200 đối tượng Tuy nhiên, một cơ sở dữ liệu lớn có thể chứa tới hàng triệu đối tượng Việc phân cụm với một tập dữ liệu lớn có thể làm ảnh hưởng tới kết quả Vậy làm cách nào

để chúng ta có thể phát triển các thuật toán phân cụm có khả năng mở rộng cao đối với các cơ sở dữ liệu lớn ?

Có khả năng xử lý các kiểu dữ liệu khác nhau:

Nhiều thuật toán được thiết kế để xử lý dữ liệu bằng số Tuy nhiên, các ứng dụng

có thể yêu cầu phân cụm các dạng dữ liệu khác nhau như dữ liệu kiểu nhị phân, phân loại, trật tự hay sự trộn lẫn của các kiểu dữ liệu

Có khả năng khám phá ra các cụm với các dạng bất kỳ:

Nhiều thuật toán phân cụm dựa trên các số đo khoảng cách Euclidean hay Manhattan Các thuật toán dựa trên các số đo khoảng cách có xu hướng tìm các cụm hình cầu với kích thước và mật độ tương tự nhau Tuy nhiên, một cụm (cluster) có thể có hình dạng bất kỳ Do đó cần phát triển các thuật toán để tìm ra các cluster hình dạng bất kỳ

Tối thiểu lượng tri thức cần cho xác định các tham số đầu vào:

Nhiều thuật toán phân cụm yêu cầu người dùng đưa vào những tham số nhất định trong phân tích phân cụm (như số lượng các cụm mong muốn) Kết quả của phân cụm thường khá nhạy cảm với các tham số đầu vào Nhiều tham số rất khó để xác định, nhất

là với các tập dữ liệu có lượng các đối tượng lớn Điều này không những gây trở ngại cho người dùng mà còn làm cho khó có thể điều chỉnh được chất lượng của phân cụm

Khả năng thích nghi với dữ liệu nhiễu:

Hầu hết những cơ sở dữ liệu thực đều chứa đựng dữ liệu ngoại lai, dữ liệu lỗi, dữ liệu chưa biết hoặc dữ liệu sai Một số thuật toán phân cụm nhạy cảm với dữ liệu như vậy và có thể dẫn đến chất lượng phân cụm thấp

Trang 23

Ít nhạy cảm với thứ tự của các dữ liệu vào:

Một số thuật toán phân cụm nhạy cảm với thứ tự của dữ liệu vào, ví dụ như với cùng một tập dữ liệu, khi được đưa ra với các thứ tự khác nhau thì với cùng một thuật toán có thể sinh ra các cụm rất khác nhau Do đó, việc quan trọng là phát triển các thuật toán mà

ít nhạy cảm với thứ tự vào của dữ liệu

Số chiều lớn:

Một cơ sở dữ liệu hoặc một kho dữ liệu có thể chứa một số chiều hoặc một số các thuộc tính Nhiều thuật toán phân cụm áp dụng tốt cho dữ liệu với số chiều thấp, bao gồm chỉ từ hai đến 3 chiều Người ta đánh giá việc phân cụm là có chất lượng tốt nếu

nó áp dụng được cho dữ liệu có từ 3 chiều trở lên Nó là sự thách thức với các đối tượng

dữ liệu cụm trong không gian với số chiều lớn, đặc biệt vì khi xét những không gian với

số chiều lớn có thể rất thưa

Phân cụm ràng buộc:

Nhiều ứng dụng thực tế có thể cần thực hiện phân cụm dưới các loại ràng buộc khác nhau Một nhiệm vụ đặt ra là đi tìm những nhóm dữ liệu có trạng thái phân cụm tốt và thỏa mãn các ràng buộc

Kỹ thuật này phân hoạch một tập hợp dữ liệu có n phần tử thành k nhóm cho đến

khi xác định số các cụm được thiết lập Số các cụm được thiết lập là các đặc trưng được lựa chọn trước Phương pháp này là tốt cho việc tìm các cụm hình cầu trong không gian Euclidean Ngoài ra, phương pháp này cũng phụ thuộc vào khoảng cách cơ bản giữa các điểm để lựa chọn các đối tượng nào có quan hệ là gần nhau với mỗi điểm khác và các đối tượng nào không có quan hệ hoặc có quan hệ là xa nhau so với mỗi điểm khác Tuy nhiên, phương pháp này không thể xử lí các cụm có hình dạng kỳ quặc hoặc các cụm có mật độ các điểm dầy đặc Các thuật toán phân hoạch dữ liệu có độ phức tạp rất lớn khi xác định nghiệm tối ưu toàn cục cho vấn đề phân cụm dữ liệu, do nó phải tìm kiếm tất cả các cách phân hoạch có thể được Chính vì vậy, trên thực tế thường đi tìm

Trang 24

giải pháp tối ưu cục bộ cho vấn đề này bằng cách sử dụng một hàm tiêu chuẩn để đánh giá chất lượng của cụm cũng như để hướng dẫn cho quá trình tìm kiếm phân hoạch dữ liệu Như vậy, ý tưởng chính của thuật toán phân cụm phân hoạch tối ưu cục bộ là sử dụng chiến lược tham lam (Greedy) để tìm kiếm nghiệm

2.4.2 Kỹ thuật phân cụm phân cấp

Phương pháp này xây dựng một phân cấp trên cơ sở các đối tượng dữ liệu đang xem xét Nghĩa là sắp xếp một tập dữ liệu đã cho thành một cấu trúc có dạng hình cây, cây phân cấp này được xây dựng theo kỹ thuật đệ quy Có hai cách tiếp cận phổ biến của kỹ thuật này đó là:

Hòa nhập nhóm, thường được gọi là tiếp cận Bottom-Up

Phân chia nhóm, thường được gọi là tiếp cận Top-Down

Hình 2 2 Các chiến lược phân cụm phân cấp

Thực tế áp dụng, có nhiều trường hợp kết hợp cả hai phương pháp phân cụm phân hoạch và phân cụm phân cấp, nghĩa là kết quả thu được của phương pháp phân cấp có thể cải tiến thông qua bước phân cụm phân hoạch Phân cụm phân hoạch và phân cụm phân cấp là hai phương pháp phân cụm dữ liệu cổ điển, hiện đã có rất nhiều thuật toán cải tiến dựa trên hai phương pháp này đã được áp dụng phổ biến trong khai thác dữ liệu

2.4.3 Kỹ thuật phân cụm dựa trên mật độ

Kỹ thuật này nhóm các đối tượng dữ liệu dựa trên hàm mật độ xác định, mật độ là

số các đối tượng lân cận của một đối tượng dữ liệu theo một nghĩa nào đó Trong cách tiếp cận này, khi một dữ liệu đã xác định thì nó tiếp tục được phát triển thêm các đối tượng dữ liệu mới miễn là số các đối tượng lân cận này phải lớn hơn một ngưỡng đã được xác định trước

Trang 25

Phương pháp phân cụm dựa trên mật độ của các đối tượng để xác định các cụm dữ liệu có thể phát hiện ra các cụm dữ liệu với hình thù bất kỳ Kỹ thuật này có thể khắc phục được các phần tử ngoại lai hoặc giá trị nhiễu rất tốt, tuy nhiên việc xác định các tham số mật độ của thuật toán là rất khó khăn, trong khi các tham số này lại có tác động rất lớn đến kết quả phân cụm

2.4.4 Kỹ thuật phân cụm dựa trên lưới

Kỹ thuật phân cụm dựa trên lưới thích hợp với dữ liệu nhiều chiều, dựa trên cấu trúc

dữ liệu lưới để phân cụm, phương pháp này chủ yếu tập trung áp dụng cho lớp dữ liệu không gian Mục tiêu của phương pháp này là lượng hóa dữ liệu thành các ô tạo thành cấu trúc dữ liệu lưới Sau đó, các thao tác phân cụm chỉ cần làm việc với các đối tượng trong từng ô trên lưới chứ không phải các đối tượng dữ liệu Cách tiếp cận dựa trên lưới này không di chuyển các đối tượng trong các ô mà xây dựng nhiều mức phân cấp của nhóm các đối tượng trong một ô

Phương pháp này gần giống với phương pháp phân cụm phân cấp nhưng chúng không trộn các ô, đồng thời giải quyết khắc phục yêu cầu đối với dữ liệu nhiều chiều mà phương pháp phân phân cụm dựa trên mật độ không giải quyết được Ưu điểm của phương pháp phân cụm dựa trên lưới là thời gian xử lí nhanh và độc lập với số đối tượng

dữ liệu trong tập dữ liệu ban đầu, thay vào đó là chúng phụ thuộc vào số ô trong mỗi chiều của không gian lưới

2.4.5 Kỹ thuật phân cụm dựa trên mô hình

Phương này cố gắng khám phá các phép xấp xỉ tốt của các tham số mô hình sao cho khớp với dữ liệu một cách tốt nhất Chúng có thể sử dụng chiến lược phân cụm phân hoạch hoặc phân cụm phân cấp, dựa trên cấu trúc hoặc mô hình mà chúng giả định về tập dữ liệu và cách chúng hiệu chỉnh các mô hình này để nhận dạng ra các phân hoạch Phương pháp phân cụm dựa trên mô hình cố gắng khớp giữa các dữ liệu với mô hình toán học, nó dựa trên giả định rằng dữ liệu được tạo ra bằng hỗn hợp phân phối xác suất

cơ bản Các thuật toán phân cụm dựa trên mô hình có hai cách tiếp cận chính: mô hình thống kê và mạng nơron Phương pháp này gần giống với phương pháp phân cụm dựa trên mật độ, vì chúng phát triển các cụm riêng biệt nhằm cải tiến các mô hình đã được xác định trước đó, nhưng đôi khi nó không bắt đầu với một số cụm cố định và không sử dụng cùng một khái niệm mật độ cho các cụm

Trang 26

2.4.6 Kỹ thuật phân cụm có dữ liệu ràng buộc

Sự phát triển của phân cụm dữ liệu không gian trên cơ sở dữ liệu lớn đã cung cấp nhiều công cụ tiện lợi cho việc phân tích thông tin địa lí, tuy nhiên hầu hết các thuật toán này cung cấp rất ít cách thức cho người dùng để xác định các ràng buộc trong thế giới thực cần phải được thỏa mãn trong quá trình phân cụm Để phân cụm dữ liệu không gian hiệu quả hơn, các nghiên cứu bổ sung cần được thực hiện để cung cấp cho người dùng khả năng kết hợp các ràng buộc trong thuật toán phân cụm

2.5 MỘT SỐ THUẬT TOÁN PHÂN CỤM CỔ ĐIỂN

2.5.1 Thuật toán phân cụm K-Means

Ý tưởng: Thuật toán K-Means phân hoạch một tập n đối tượng thành k cụm sao cho các đối tượng trong cùng một cụm có độ tương tự cao và các đối tượng trong các cụm khác nhau có độ tương tự thấp hơn Mỗi cụm được đại diện bởi trọng tâm (cluster mean) của nó Một đối tượng được phân vào một cụm nếu khoảng cách từ đối tượng đó đến trọng tâm của cụm đang xét là nhỏ nhất (so với các trọng tâm của các cụm còn lại) Sau

đó trọng tâm của các cụm được cập nhật lại (trung bình cộng các phần tử thuộc cụm)

Quá trình lặp đi lặp lại cho đến hàm mục tiêu bé hơn một ngưỡng cho phép, một hàm mục tiêu (square-error) thường được được sử dụng:

𝐸 = ∑ ∑ |𝑝 − 𝑚𝑖|2

𝑝∉𝐶𝑖

𝑘

𝑖=1

Trong đó, p là đối tượng thuộc cụm 𝐶𝑖, 𝑚𝑖 là trọng tâm của cụm 𝐶𝑖

Trên thực tế chưa có một giải pháp tối ưu nào để chọn các tham số đầu vào, giải pháp thường được sử dụng nhất là thử nghiệm với các giá trị đầu vào k khác nhau rồi sau đó chọn giải pháp tốt nhất

2.5.2 Thuật toán phân cụm K-Medoids

Ý tưởng của K-Medoids cũng khá giống với K-Means, nhưng chỉ khác là trong thuật toán K-Means, mỗi đối tượng đại diện bằng 1 trọng tâm của cụm được tính bằng giá trị trung bình của các đối tượng trong cụm ấy; thì K-Medoids chọn trọng tâm của cụm là một điểm thuộc cụm ấy sao cho tổng khoảng cách từ các điểm còn lại tới trọng tâm của cụm là nhỏ nhất

Trang 27

2.5.3 Thuật toán phân cụm K-Center

Ý tưởng của thuật toán: Đầu tiên chọn bất kỳ đối tượng như là trọng tâm cụm đầu tiên và gán tất cả các đối tượng cho cụm đầu tiên Tiếp đó chọn trọng tâm cụm thứ hai

là đối tượng xa trọng tâm đầu tiên nhất và tạo ra cụm thứ hai bằng cách giao lại cho nó những đối tượng gần trọng tâm cụm thứ hai nhất, và sau đó chọn trọng tâm cụm thứ ba

đó là đối tượng xa trọng tâm của cụm mà nó thuộc nhất và tạo ra cụm thứ ba như cụm thứ hai, tiếp tục cho đến khi tìm được trọng tâm cụm thứ k và cuối cùng ta thu được k cụm Những lựa chọn k điểm thường được gọi là điểm mốc

Chương 2 đã trình bày cho chúng ta về phân cụm và các kỹ thuật phân cụm Đồng thời, chương này còn đề cập đến các thuật toán phân cụm điển hình mà hầu hết những

ai quan tâm đến bài toán phân cụm đều đã từng nghe đến Trong chương sau, chúng tôi

sẽ tập trung bàn luận đến nội dung trọng tâm của đồ án thông qua việc làm rõ các kiến thức liên quan đến thuật toán phân cụm bán tự động của hai tác giả Hong Yu và Dachun Yan, và thể hiện chi tiết nhất các bước của thuật toán

Trang 28

Thuật toán phân cụm bán tự động dựa trên lý thuyết tập thô của hai tác giả Hong Yu

và Dachun Yan mà chúng tôi trình bày trong bài báo cáo này nhằm giới thiệu tới mọi người một khía cạnh mới trong việc giải quyết vấn đề của bài toán phân cụm

Khác với các thuật toán phân cụm cổ điển mà hầu hết chúng ta đã biết, khi mà các đối tượng sau quá trình xử lý thì sẽ thuộc duy nhất về một cụm, nhưng thực tế, trong lĩnh vực khai phá web, hai tác giả nhận thấy, các đối tượng không hoàn toàn thuộc về một cụm mà có thể thuộc về nhiều cụm khác nhau.Mô hình quyết định dựa trên lý thuyết tập thô (Decision-theoretic rough set model) là một mô hình tập thô xác suất điển hình,

có khả năng giải quyết với những thông tin không chính xác, không chắc chắn và mơ

hồ Đó cũng là nền tảng quyết định phân đối tượng vào cụm của thuật toán mà hai tác giả áp dụng

Trong chương này, chúng tôi sẽ trình bày một cách chi tiết nhất về thuật toán cũng như các lý thuyết liên quan

3.2 TỔNG QUAN VỀ LÝ THUYẾT TẬP THÔ

3.2.1 Giới thiệu

Lý thuyết tập thô (Rough Set Theory) do Zdzisaw Pawlak (1926-2006) đề xuất vào năm 1982, đã được ứng dụng ngày càng rộng rãi trong lĩnh vực khoa học máy tính Lý thuyết tập thô được phát triển trên một nền tảng toán học vững chắc, cung cấp các công

cụ hữu ích để giải quyết các bài toán phân tích dữ liệu, phát hiện luật, nhận dạng… Đặc

Trang 29

biệt thích hợp với các bài toán phân tích trên khối lượng dữ liệu lớn, chứa đựng thông tin mơ hồ, không chắc chắn

Mục đích chính của phân tích dữ liệu dựa trên lý thuyết tập thô nhằm đưa ra các xấp

xỉ để biểu diễn các đối tượng không thể được phân lớp một cách chắc chắn bằng tri thức

có sẵn Theo quan điểm của lý thuyết tập thô, mọi tập thô đều liên kết với 2 tập “rõ” là xấp xỉ dưới và xấp xỉ trên của nó Xấp xỉ dưới bao gồm các đối tượng chắc chắn thuộc, còn xấp xỉ trên chứa tất cả các đối tượng có khả năng thuộc về tập đó Các tập xấp xỉ là

cơ sở để rút ra các kết luận (tri thức) từ cơ sở dữ liệu

3.2.2 Một số khái niệm

3.2.2.1 Hệ thống thông tin

Một tập dữ liệu có thể biểu diễn dưới dạng một bảng, trên đó mỗi hàng biểu diễn thông tin ứng với một đối tượng, mỗi cột biểu diễn một thuộc tính có thể đo được của mỗi đối tượng (do các chuyên gia hay người sử dụng cung cấp) Bảng này được gọi là một hệ thống thông tin Hình thức hơn, hệ thống thông tin là một cặp S = (U, A), U là một tập hữu hạn khác rỗng các đối tượng gọi là tập vũ trụ hay là tập phổ dụng, A là một tập hữu hạn khác rỗng các thuộc tính Với mỗi u  U và a  A, ta ký hiệu u(a) là giá trị của đối tượng u tại thuộc tính a Nếu gọi Ia là tập tất cả giá trị của thuộc tính a, thì u(a)

 Ia với mọi uU Bây giờ, nếu B = {b1, b2, ,bk}  A, ta ký hiệu bộ các giá trị u(bi) bởi u(B) Như vậy, nếu u và v là hai đối tượng, thì ta sẽ viết u(B) = v(B) nếu u(bi) = v(bi), với mọi i =1, 2, …, k

3.2.2.2 Quan hệ không phân biệt

a Quan hệ tương đương – Lớp tương đương

Chúng ta bắt đầu xem xét vấn đề dư thừa thông tin nói trên qua khái niệm quan

hệ tương đương Một quan hệ hai ngôi R  X  X được gọi là quan hệ tương đương khi

và chỉ khi :

• R là quan hệ phản xạ: xRx, x  X

• R là quan hệ đối xứng: xRy → yRx, x, y  X

• R là quan hệ bắc cầu: xRy và yRz → xRz, x, y, z  X

Một quan hệ tương đương R sẽ phân hoạch tập đối tượng thành các lớp tương đương, trong đó lớp tương đương của một đối tượng x là tập tất cả các đối tượng có quan hệ R với x

Trang 30

Tiếp theo, xét hệ thông tin S = (U, A) Khi đó mỗi tập thuộc tính B  A đều tạo ra tương ứng một quan hệ tương đương IND(B):

IND(B) = {(x,x’)  UU | a  B, a(x) = a(x’)}

IND(B) được gọi là quan hệ B - không phân biệt Nếu (x, x’)  IND(B) thì các đối tượng x và x’ là không thể phân biệt được với nhau qua tập thuộc tính B

Với mọi đối tượng x  U, lớp tương đương của x trong quan hệ IND(B) được kí hiệu bởi [x]B

Cuối cùng, quan hệ B tương đương phân hoạch tập đối tượng U thành các lớp tương đương mà ta kí hiệu là U|IND(B)

Ví dụ 3.1 Xét hệ thống thông tin cho ở bảng 3.1

Bảng 3 1 Bảng hệ thống thông tin minh họa

Trong bảng, các bệnh nhân x2, x3và x5không phân biệt được đối với thuộc tính {Đau đầu}, bệnh nhân x1, x3, x4và x6không phân biệt được đối với thuộc tính {Đau cơ}, và bệnh nhân x2, x5 không phân biệt được đối với thuộc tính {Đau đầu, Đau cơ, Nhiệt độ} Như vậy ta có:

U| IND ({Đau đầu}) = {{x1, x4, x6}, {x2, x3, x5}}

U| IND ({Đau cơ}) = {{x1, x3, x4, x6}, {x2, x5}}

U| IND ({Nhiệt độ}) = {{x1, x2, x5}, {x3, x6}, {x4}}

U| IND ({Đau đầu, đau cơ}) = {{x1, x4, x6}, {x2, x5}, {x3}}

U| IND ({Đau đầu, Đau cơ, Nhiệt độ}) = {{x1}, {x2, x5}, {x3}, {x4}, {x6}}

b Xấp xỉ tập hợp

Như trên đã nói, một quan hệ tương đương cho ta một sự phân hoạch các đối tượng của tập phổ dụng Các lớp tương đương này có thể được sử dụng để tạo nên các tập con

Trang 31

của tập vũ trụ Các tập con này thường chứa các đối tượng có cùng giá trị tại tập các thuộc tính quyết định Trong trường hợp này ta nói rằng các khái niệm – hay tập các giá trị tại tập các thuộc tính quyết định có thể được mô tả một cách rõ ràng thông qua tập các giá trị tại tập các thuộc tính điều kiện Để làm rõ ý tưởng quan trọng này ta xét hệ quyết định nhỏ thể hiện ở bảng 3.2 dưới đây:

Bảng 3 2 Một hệ quyết định điều tra vấn đề da cháy nắng

STT Trọng lượng Dùng thuốc Kết quả

Trong hệ quyết định trên, thuộc tính Kết quả là thuộc tính quyết định và hai thuộc

tính giữa là thuộc tính điều kiện Tập thuộc tính điều kiện C = {Trọng lượng, Dùng thuốc} phân hoạch tập các đối tượng thành các lớp tương đương:

• Kết quả là cháy nắng nếu và chỉ nếu trọng lượng là nặng và không dùng thuốc

Ta nói thuộc tính Kết quả có thể được định nghĩa rõ ràng qua 2 thuộc tính Trọng lượng và Dùng thuốc Tuy vậy không phải lúc nào cũng có thể định nghĩa một khái niệm nào đó một cách rõ ràng như vậy Chẳng hạn với bảng quyết định trong bảng 3.3, khái

niệm Walk không thể định nghĩa rõ ràng qua 2 thuộc tính điều kiện Age và LEMS Hai đối tượng x3 và x4 thuộc cùng một lớp tương đương tạo bởi hai thuộc tính điều kiện

nhưng lại có giá trị khác nhau tại thuộc tính Walk, vì vậy nếu một đối tượng nào đó có

(Age, LEMS) = (31 – 45, 1 – 25) thì ta vẫn không thể biết chắc chắn giá trị của nó tại thuộc tính Walk (Yes hay No?), nói cách khác ta sẽ không thể có một luật như sau:

“Walk là Yes nếu Age là 31 – 45 và LEMS là 1 – 25” Và đây chính là nơi mà khái niệm tập thô được sử dụng!

Trang 32

Mặc dù không thể mô tả khái niệm Walk một cách rõ ràng nhưng căn cứ vào tập thuộc tính {Age, LEMS} ta vẫn có thể chỉ ra được chắc chắn một số đối tượng có Walk

là Yes, một số đối tượng có Walk là No, còn lại là các đối tượng thuộc về biên giới của

2 giá trị Yes và No, cụ thể:

Nếu đối tượng nào có giá trị tại tập thuộc tính {Age, LEMS} thuộc tập {{16 – 30,

50}, {16 – 30, 26 – 49}} thì nó có Walk là Yes

Nếu đối tượng nào có giá trị tại tập thuộc tính {Age, LEMS} thuộc tập {{16 – 30,

0}, {46 – 60, 26 – 49}} thì nó có Walk là No

Nếu đối tượng nào có giá trị tại tập thuộc tính {Age, LEMS} thuộc tập {{31 – 45, 1

– 25}} thì nó có Walk là Yes hoặc No Những đối tượng này, như nói ở trên thuộc về biên giới của 2 giá trị Yes và No

Bảng 3 3 Bảng kết quả quyết định dựa vào lý thuyết tập thô

Trang 33

Hình 3.1 minh họa cho tập thô

Hình 3 1 Minh họa tập thô

Tập R X( )bao gồm tất cả các phần tử của U chắc chắn thuộc vào X

Tập R X( )bao gồm các phần tử của U có khả năng được phân loại vào những phần

tử thuộc X ứng với quan hệ R.

Từ hai tập xấp xỉ người ta định nghĩa các tập:

Rõ ràng POS B( )D là tập tất cả các đối tượng u sao cho với mọi v mà 𝑢(𝐵) = 𝑣(𝐵) U

Trang 34

Ví dụ 3.2 Cho bảng dữ liệu:

Bảng 3 4 Một hệ quyết định về vấn đề lựa chọn sản phẩm

POS Nationality (Conclusion) = {x2, x4, x6, x7}

POS Family (Conclusion) = {x5, x7, x8}

POS Size (Conclusion) = 

Ví dụ 3.3 Tập mẫu cho ở ví dụ 3.2 là một bảng quyết định với:

U = {x1, x2, , x8}, C = {Size, Nationality, Family}, D = {Conclusion}

Di: là định danh của đối tượng thứ i. i = 1 n

Ngày đăng: 10/07/2020, 23:17

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w