Phát triển một số mô hình phân cụm mờ cộng tác

 Nghiên cứu và phát triển các kỹ thuật phân cụm mờ cộng tác trên cơ sở ứng dụng tập loại 2 giá trị khoảng, phương pháp nhân, tính toán hạt siêu điểm ảnh và kỹ thuật giảm chiều dữ liệu

Trang 1

ĐẶNG TRỌNG HỢP

PHÁT TRIỂN MỘT SỐ MÔ HÌNH PHÂN CỤM MỜ CỘNG TÁC

LUẬN ÁN TIẾN SĨ TOÁN HỌC

HÀ NỘI –2019

Trang 2

ĐẶNG TRỌNG HỢP

PHÁT TRIỂN MỘT SỐ MÔ HÌNH PHÂN CỤM MỜ CỘNG TÁC

LUẬN ÁN TIẾN SĨ TOÁN HỌC

Chuyên ngành: Cơ sở toán học cho tin học

Mã số: 62.46.01.10

NGƯỜI HƯỚNG DẪN KHOA HỌC PGS TS Ngô Thành Long

HÀ NỘI –2019

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan các kết quả trình bày trong luận án là công trình nghiên cứu của tôi dưới sự giám sát của giảng viên hướng dẫn Các kết quả được viết chung với các tác giả khác đều được sự đồng ý của đồng tác giả trước khi đưa vào luận án Các kết quả trong luận án là trung thực và chưa từng được công

bố trong bất kỳ công trình nào khác

Nghiên cứu sinh

Đặng Trọng Hợp

Trang 4

LỜI CẢM ƠN

Luận án được nghiên cứu sinh hoàn thành dưới sự hướng dẫn tận tình, nghiêm khắc của PGS TS Ngô Thành Long, lời đầu tiên tôi xin bày tỏ lòng kính trọng và sự biết ơn sâu sắc tới Thầy Những định hướng, nhận xét và góp

ý của Thầy trong suốt quá trình nghiên cứulà những bài học vô cùng quý giá đối với tôi không chỉ trong việc hoàn thành luận án mà trong cả các hoạt động chuyên môn sau này

Tôi xin chân thành cảm ơn GS TSKH Phạm Thế Long, PGS TS Bùi Thu Lâm, TS Tống Minh Đức, TS Hoa Tất Thắng, TS Nguyễn Văn Giang và các thầy cô trong Bộ môn Hệ thống thông tin, Khoa Công nghệ thông tin Học viện

Kỹ thuật quân sự đã có những góp ý quý báu trong quá trình nghiên cứu và các hội thảo chuyên môn của Khoa, Bộ môn

Tác giả xin gửi lời cảm ơn chân thành đến Khoa Công nghệ thông tin, Phòng Sau đại học,Học Viện Kỹ Thuật Quân Sự đã tạo điều kiện thuận lợi trong quá trình học tập, nghiên cứu và hoàn thành luận án

Tôi xin cảm ơn Trung tâm Công nghệ thông tin, Phòng Đào tạo và Lãnh đạo Trường Đại học Công nghiệp, nơi tôi công tác đã tạo điều kiện cơ sở vật chất, thời gian, sắp xếp công việc cơ quan hợp lý và thường xuyên động viên, nhắc nhở tôi trong quá trình nghiên cứu

Cuối cùng, tôi xin cảm ơn gia đình, bạn bè và đồng nghiệp những người

đã luôn bên cạnh động viên, chia sẻ và hỗ trợ tôi trong quá trình học tập, nghiên cứu

Trang 5

MỤC LỤC

DANH MỤC CÁC KÍ HIỆU, CÁC CHỮ VIẾT TẮT 5

DANH MỤC CÁC BẢNG BIỂU 7

DANH MỤC CÁC HÌNH VẼ 8

DANH MỤC THUẬT TOÁN 9

MỞ ĐẦU 10

1 Tính cấp thiết của nội dung nghiên cứu 10

2 Mục tiêu nghiên cứu của luận án 11

3 Đối tượng nghiên cứu 11

4 Phạm vi nghiên cứu 12

5 Phương pháp nghiên cứu 12

6 Cấu trúc của luận án 12

CHƯƠNG 1 TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU 14

1.1 Giới thiệu phân cụm mờ cộng tác và một số kiến thức cơ sở 14

1.1.1 Phân cụm mờ 14

1.1.2 Phân cụm mờ cộng tác 16

1.1.3 Tập mờ 19

1.1.4 Khoảng cách trong phân cụm 23

1.1.5 Chỉ số đánh giá chất lượng phân cụm 24

1.2 Tổng quan về phân cụm mờ cộng tác 28

1.2.1 Tổng quan về phân cụm mờ 29

1.2.2 Tổng quan về phân cụm mờ cộng tác 31

1.2.3 Phân cụm dữ liệu lớn 33

1.2.4 Một số kỹ thuật kết hợp nâng cao chất lượng phân cụm 38

1.3 Những hạn chế của các nghiên cứu hiện có và mục tiêu nghiên cứu 43

1.4 Những đóng góp chính của luận án 45

1.5 Kết luận chương 1 45

CHƯƠNG 2 PHÂN CỤM MỜ LOẠI 2 KHOẢNG CỘNG TÁC 46

2.1 Phân cụm mờ loại 2 khoảng cộng tác 46

2.2 Phân cụm mờ loại 2 khoảng cộng tác khi số cụm khác nhau 53

2.3 Thuật toán phân cụm mờ loại 2 khoảng cộng tác (CIVFCM) 56

2.4 Thử nghiệm và đánh giá 57

Trang 6

2.4.1 Thử nghiệm với dữ liệu sinh ngẫu nhiên 58

2.4.2 Thử nghiệm với dữ liệu S1, S4 60

2.4.3 Thử nghiệm với dữ liệu thời tiết Canada 62

2.4.4 Thử nghiệm với dữ liệu ảnh vệ tinh 64

2.4.5 Một số đánh giá 70

CHƯƠNG 3 MỘT SỐ CẢI TIẾN VÀ ỨNG DỤNG THUẬT TOÁN PHÂN CỤM MỜ CỘNG TÁC 73

3.1 Phân cụm mờ cộng tác đa nhân dựa trên tính toán hạt siêu điểm ảnh 74

3.1.1 Phân cụm mờ cộng tác đa nhân 74

3.1.2 Tạo hạt siêu điểm ảnh (Super-pixel granulation) 77

3.1.3 Phân cụm mờ cộng tác đa nhân dựa trên tính toán hạt siêu điểm ảnh có trọng số 78

3.1.4 Thuật toán phân mờ cụm cộng tác đa nhân 84

3.1.5 Thử nghiệm và đánh giá 86

3.2 Phân cụm dữ liệu lớn dựa trên thuật toán phân cụm mờ cộng tác và giảm chiều dữ liệu 96

3.2.1 Kỹ thuật giảm chiều dữ liệu theo định lý Johnson Lindenstrauss 97

3.2.2 Phân cụm dữ liệu lớn dựa trên thuật toán phân cụm cộng tác và giảm chiều dữ liệu 99

3.2.3 Thử nghiệm và đánh giá 101

KẾT LUẬN 107

1 Kết luận chung 107

2 Những đóng góp mới của luận án 108

3 Kiến nghị về một số hướng nghiên cứu tiếp theo 108

DANH MỤC CÔNG TRÌNH ĐÃ CÔNG BỐ 109

TÀI LIỆU THAM KHẢO 110

Trang 7

DANH MỤC CÁC KÍ HIỆU, CÁC CHỮ VIẾT TẮT

IT2FS Interval Type-2 Fuzzy Sets Tập mờ loại 2 khoảng

Expanded

Danh mục trích dẫn khoa học mở rộng

Trang 8

MKFCM Multi Kernel FCM Thuật toán phân cụm mờ đa nhân

nhân sử dụng siêu điểm ảnh

CFSFD Clustering by Fast Search

and Find of Density Peaks

Phân cụm bằng cách tìm kiếm nhanh

extension Fuzzy c-Means

Thuật toán FCM mở rộng lẫu mẫu nhẫu nhiên

Extend Kernel FCM

Thuật toán FCM sử dụng nhân và lẫy mẫu ngẫu nhiên

X X={x 1 , x 2 , , x N}RM là một tập dữ liệu M chiều, xiX là đối tượng

dữ liệu thứ i

Trang 9

DANH MỤC CÁC BẢNG BIỂU

Bảng 1.1 Phân loại dữ liệu lớn 34

Bảng 2.1 Kết quả phân cụm với thử nghiệm 2.1 58

Bảng 2.2 Chỉ số đánh giá với thử nghiệm 2.1 59

Bảng 2.3 Chỉ số đánh giá của các thuật toán với dữ liệu S1 61

Bảng 2.4 Chỉ số đánh giá của các thuật toán với dữ liệu S4 62

Bảng 2.5 Chỉ số đánh giá của các thuật toán với dữ liệu thời thiết Canada 64

Bảng 2.6 Tỉ lệ % diện tích các vùng của Hà Nội 67

Bảng 2.7 Tỉ lệ % diện tích các vùng của Bảo lộc 67

Bảng 2.8 Chỉ số đánh giá chất lượng phân cụm các thuật toán 69

Bảng 2.9 Độ phức tạp tính toán của các thuật toán 71

Bảng 3.1 Kết quả phân cụm từng vùng TP Thanh Hóa 90

Bảng 3.2 Chỉ số đánh giá phân cụm cho TP Thanh Hóa 91

Bảng 3.3 Kết quả phân cụm từng vùng TP Thái Nguyên 92

Bảng 3.4 Chỉ số đánh giá phân cụm cho TP Thái Nguyên 93

Bảng 3.5 Kết quả phân cụm từng vùng H Quỳ Hợp 94

Bảng 3.6 Chỉ số đánh giá phân cụm cho H Quỳ Hợp 94

Bảng 3.7 Thời gian tính của các thuật toán 96

Bảng 3.8 Chỉ số đánh giá và thời gian tính toán với dữ liệu NIPS 102

Bảng 3.9 Chỉ số đánh giá và thời gian tính toán với dữ liệu EEG 103

Bảng 3.10 Chỉ số đánh giá và thời gian tính toán với dữ liệu MNIST 104

Trang 10

DANH MỤC CÁC HÌNH VẼ

Hình 1.1 Kết quả phân cụm (a) trước cộng tác, (b) sau khi cộng tác 17

Hình 1.2 Mô hình phân cụm mờ cộng tác 18

Hình 1.3 Hàm thuộc: (a) loại 1 và (b) loại 2 21

Hình 1.4 Mối liên hệ giữa các loại tập mờ 23

Hình 2.1 Kết quả thử nghiệm 2.2 với thuật toán CIVFCM2 59

Hình 2.2 Kết quả phân cụm dữ liệu S1 61

Hình 2.3 Kết quả phân cụm dữ liệu S4 61

Hình 2.4 Biểu đồ hiển thị giá trị các chỉ số theo tham số mờ hóa m1, m2 64

Hình 2.5 Kết quả phân cụm Hà Nội và Bảo Lộc theo các thuật toán 66

Hình 2.6 Biểu đồ so sánh tỉ lệ % diện tích của Hà Nội 67

Hình 2.7 Biểu đồ so sánh tỉ lệ % diện tích của Bảo lộc 68

Hình 2.8 Đồ thị kết quả các chỉ số với nhiều bộ tham số m1 và m2 69

Hình 3.1: Ảnh vệ tinh kênh 3 và 4 của TP Thanh Hóa 87

Hình 3.2: Ảnh vệ tinh kênh 3 và 4 của TP Thái Nguyên 87

Hình 3.3: Ảnh vệ tinh kênh 3 và 4 của H Quỳ Hợp 88

Hình 3.4 Sơ đồ tính toán thử nghiệm 89

Hình 3.5 Kết quả phân cụm TP Thanh Hóa 90

Hình 3.6 So sánh % diện tích các cụm TP Thanh Hóa 91

Hình 3.7 Kết quả phân cụm TP Thái Nguyên 92

Hình 3.8 So sánh % diện tích các cụm TP Thái Nguyên 93

Hình 3.9 Kết quả phân cụm H Quỳ Hợp 94

Hình 3.10 So sánh % diện tích các cụm H Quỳ Hợp 94

Hình 3.11 Mô hình phân cụm dữ liệu lớn 100

Trang 11

DANH MỤC THUẬT TOÁN

Thuật toán 1.1 Phân cụm mờ FCM 15

Thuật toán 1.2 rseFCM 35

Thuật toán 1.3 wFCM 36

Thuật toán 1.4 spFCM 37

Thuật toán 1.5 rsekFCM 37

Thuật toán 1.6 Tính siêu điểm ảnh SLIC 41

Thuật toán 2.1 Phân cụm mờ loại 2 khoảng cộng tác 56

Thuật toán 3.1 SMKCFCM 84

Thuật toán 3.2 Giảm chiều dữ liệu 99

Thuật toán 3.3 RPFR-CFCM 100

Trang 12

MỞ ĐẦU

1 Tính cấp thiết của nội dung nghiên cứu

Phân cụm là kỹ thuật nhóm các đối tượng vào các cụm dựa trên thông tin của các đối tượng và mối liên hệ của chúng sao cho các đối tượng trong cùng một cụm thì tương tự nhau còn các đối tượng thuộc các cụm khác nhau thì khác nhau Đây là một kỹ thuật học không giám sát trong máy học Phân cụm được ứng dụng rộng rãi trong lĩnh vực khác nhau như: khai phá dữ liệu,

xử lý ảnh, y học, kỹ thuật, phân tích thị trường…

Có nhiều nghiên cứu về các kỹ thuật và cách tiếp cận để giải quyết bài toán phân cụm nhưng chúng đều có mục tiêu là nâng cao chất lượng phân cụm

và tốc độ thực hiện của thuật toán Trong đó các thuật toán phân cụm dữ liệu bằng ứng dụng tập mờ đã nhận được sự quan tâm của nhiều nhà khoa học,đặc biệt là sự phát triển mạnh mẽ của tập mờ loại 2 đã đem lại hiệu quả, độ chính xác cao, khử độ không chắc chắn chắn trong ứng dụng thực tế

Khi chúng ta có nhiều tập dữ liệu có mối liên hệ với nhau thì việc phân cụm trong mỗi tập dữ liệu này sẽ có ảnh hưỏng, tác động đến việc phân cụm trên các tập dữ liệu khác.Tuy nhiên, vì nhiều lý do khác nhau như vấn đề tính riêng tư của dữ liệu, vấn đề bảo mật, vấn đế đường truyền mà các dữ liệu này không thể thực hiện phân cụm một cách tập trung.Khi đó, phương phápphân cụm cộng tác (Collaborative clustering) sẽ giải quyết được vấn đề trên bằng cách phân cụm tại từng tập dữ liệu con, sau đó thực hiện trao đổi thông tin về cấu trúc trên mỗi tập cho các tập dữ liệu còn lại và thực hiện bước phân cụm cộng tác để điều chỉnh kết quả phân cụm trên từng tập nhằm đạt được sự tương đồng về kết quả phân cụm của các tập dữ liệu

Trong thực tế, dữ liệu phân cụm thường có sự không chắc chắn và có nhiễu, nhiều dữ liệu có sự chia tách các cụm là không tuyến tính, nhiều loại dữ liệu có số chiều và kích thước lớn.Hiện nay có nhiều nhà khoa học quan tâm đến bài toán phân cụm cộng tác, tuy nhiên những vấn đề trên vẫn chưa có các

Trang 13

nghiên cứu và giải pháp một cách triệt để Đề tài “Phát triển một số mô hình phân cụm mờ cộng tác” nghiên cứu về mô hình phân cụm cộng tác và đề xuất một số cải tiến, mô hình mới giải quyết các yêu cầu trên

2 Mục tiêu nghiên cứu của luận án

Nghiên cứu bài toán phân cụm mờ cộng tác, các vấn đề còn tồn tại của phân cụm mờ cộng tác khi ứng dụng trong các bài toán thực tế và đề ra các mô hình, giải pháp nâng cao hiệu quả phân cụm, cụ thể là:

 Giải pháp cho vấn đề không rõ ràng, không chắc chắn của dữ liệu thực tế cần phân cụm

 Giải pháp cho vấn đề dữ liệu phức tạp, hình dạng và sự chia tách các cụm không tuyến tính

 Giải pháp cho vấn đề dữ liệu nhiều chiều, kích thước lớn, độ phức tạp tính toán cao thường gặp trong thực tế hiện nay

Các kỹ thuật được nghiên cứu để giải quyết cho các vấn đề trên có thể gồm: ứng dụng của tập mờ loại 2, các kỹ thuật nhân và đa nhân, tính toán hạt

và siêu điểm ảnh, kỹ thuật giảm chiều dữ liệu

Các giải pháp đề xuất cần được mô hình hóa, thuật toán hóa, có sự mô phỏng và thử nghiệm với các bộ dữ liệu thực tế để chứng minh tính hiệu quả

3 Đối tượng nghiên cứu

 Các thuật toán phân cụm mờ, tập mờ loại 1, loại 2 và loại 2 giá trị khoảng

 Mô hình và thuật toán phân cụm cộng tác

 Phương pháp nhân và các thuật toán phân cụm dựa trên phương pháp nhân

và tính toán hạt siêu điểm ảnh

 Phương pháp giảm chiều dựa trên phép chiếu ngẫu nhiên và ứng dụng trong bài toán phân cụm

Trang 14

4 Phạm vi nghiên cứu

 Nghiên cứu lý thuyết tập mờ loại 1, 2và các phương pháp giải mờ

 Nghiên cứu các thuật toán phân cụm dữ liệu và một số vấn đề liên quan trong bài toán phân cụm dữ liệu

 Nghiên cứu mô hình và thuật toán phân cụm mờ cộng tác

 Nghiên cứu và phát triển các kỹ thuật phân cụm mờ cộng tác trên cơ sở ứng dụng tập loại 2 giá trị khoảng, phương pháp nhân, tính toán hạt siêu điểm ảnh và kỹ thuật giảm chiều dữ liệu

 Tìm kiếm và phát triển một số ứng dụng mô hình phân cụm mờ cộng tác

5 Phương pháp nghiên cứu

Luận án sử dụng công cụ giải tích để thiết lập các phương trình tính toán, tìm kiếm lời giải tối ưu và xây dựng, chứng minh các định lý trong hệ mờ Ngoài ra, luận án cũng sử dụng phương pháp lập trình cài đặt các thuật toán với các bộ dữ liệu máy học và chỉ số đánh giá và thực tế nhằm so sánh kết quả nghiên cứu của luận án với các kết quả nghiên cứu khác để khẳng định tính hiệu quả của các giải pháp được đề xuất

Thực hiện nghiên cứu một cách có khoa học từ định hướng của giảng viên hướng dẫn với các công trình nghiên cứu đã công bố cùng lĩnh vực, phát hiện

ra các vấn đề cần giải quyết, đề ra giải pháp khắc phục, có chứng minh và thực nghiệm từ đó công bố kết quả trên các hội thảo và tạp chí có uy tín

6 Cấu trúc của luận án

Chương 1 Tổng quan về phân cụm mờ cộng tác: trình bày các kiến thức

và kết quả nghiên cứu đã được công bố liên quan tới phân cụm mờ cộng tác như bài toán phân cụm dữ liệu, phân cụm dữ liệu cộng tác; các loại thuật toán phân cụm và phân cụm mờ; thước đo khoảng cách; tính toán hat; siêu điểm ảnh; xác định số cụm và tâm cụm; chỉ số đánh giá kết quả phân cụm; kỹ thuật nhân;

kỹ thuật giảm chiều dữ liệu…

Trang 15

Chương 2.Phân cụm mờ loại 2 khoảng cộng tác: trình bày mô hình và thuật toán phân cụm giá trị khoảng cộng tác và các thử nghiệm minh họa tính hiệu quả của thuật toán

Chương 3.Một số cải tiến thuật toán phân cụm mờ cộng tác: trình bày mô hình ứng dụng kỹ thuật đa nhân trong giải quyết vấn đề phức tạp dữ liệu và chia tách cụm không tuyến tính, kết hợp với tính soán hạt siêu điểm ảnh có trọng số, ứng dụng kỹ thuật giảm chiều cho dữ liệu lớn bằng phương pháp chiếu ngẫu nhiên từ đó thực hiện phân cụm mờ cộng tác và các thử nghiệm

Phần kết luận nêu tóm tắt các vấn đề nghiên cứu, các mô hình phân cụm

mờ cộng tác được để xuất trong luận án cũng như các hướng nghiên cứu liên quan có thể mở rộng

Trang 16

CHƯƠNG 1 TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU

Phân tích dữ liệu đóng vai trò quan trọng trong nhiều ứng dụng thực tế hiện nay như y học, quảng cao, phân tích thị trường, trong xử lý ảnh, nhận dạng mẫu Đặc biệt trong kỷ nguyên cách mạng công nghiệp 4.0 và vạn vật kết nối hiện nay, lượng dữ liệu được tạo ra ngày càng nhiều, loại dữ liệu đa dạng thì càng cần có các công cụ tự động phân tích dữ liệu Phân cụm dữ liệu là một công cụ học không giám sát được ứng dụng rất phổ biến trong phân tích dữ liệu Chương này luận án trình bày những khái niệm cơ bản và tình hình nghiên cứu các vấn đề liên quan tới phân cụm dữ liệu, trong đó phân cụm mờ cộng tác được tìm hiểu và trình bày chi tiết

1.1 Giới thiệu phân cụm mờ cộng tác và một số kiến thức cơ sở

1.1.1 Phân cụm mờ

Thuật toán phân cụm sử dụng các lý thuyết tập mờ để phân hoạch các đối tượng vào các cụm được Dunn giới thiệu [2] và Bezdek tổng quát hóa thành thuật toán FCM [3] Thuật toán phân hoạch n đối tượng 𝑋 = {𝑥1, 𝑥2, … , 𝑥𝑛} ∈

𝑅𝑀 vào c cụm dựa trên tối thiểu hàm mục tiêu đo chất lượng phân hoạch và

tâm cụm Một phân hoạch mờ của n đối tượng X vào C cụm được biểu diễn

bằng ma trận 𝑈 = [𝑢𝑖𝑘] với 𝑢𝑖𝑘 là độ thuộc của đối tượng thứ k vào cụm i

𝑈𝑐𝑛 = [

𝑢𝑐1 ⋯ 𝑢𝑐𝑛] Hàm mục tiêu mờ được Dunn định nghĩa như sau:

Min 𝐽𝑚(𝑈, 𝑣) = ∑𝑛𝑘=1∑𝑐𝑖=1𝑢𝑖𝑘𝑑𝑖𝑘2Bezdek khái quát hóa hàm mục tiêu mờ bằng cách đưa ra trọng số mũ m 1,

là số thực như sau :

Min 𝐽𝑚(𝑈, 𝑣) = ∑𝑛𝑘=1∑𝑐𝑖=1𝑢𝑖𝑘𝑚𝑑𝑖𝑘2Trong đó:

Trang 17

1, 

m  là trọng số mũ hay còn gọi là tham số mờ

v là vector tâm cụm với 𝑣𝑖 ∈ 𝑅𝑀là trọng tâm của cụm thứ i

d ik là khoảng cách theo thước đo Euclide giữa mẫu dữ liệu x k với trọng tâm

cụm thứ i là v i và được tính bằng công thức sau:

1/2 2 1

2 𝑚−1 𝑐

𝑗=1

(1.6)

𝑣𝑖 =∑𝑛𝑘=1𝑢𝑖𝑘𝑚𝑥𝑘

∑𝑛𝑘=1𝑢𝑖𝑘𝑚 (1.7) 𝑉ớ𝑖 1 ≤ 𝑖 ≤ 𝑐, 1 ≤ 𝑘 ≤ 𝑛

Thuật toán phân cụm mờ FCM thực hiện việc lặp lại tính toán giá trị u và

v và được mô tả như sau :

Thuật toán 1.1 Phân cụm mờ FCM

số mờ m (1<m<+ ) và sai số , số lần lặp tối đa max

Đầu ra: Kết quả phân cụm

Khởi tạo:

Tâm cụm V;

τ=0 //Đếm số vòng lặp

REPEAT

Tính toán giá trị tâm cụm v theo công thứ (1.7);

Cập nhật giá trị ma trận hàm thộcu ci theo công thức (1.6);

τ=τ+1;

Trang 18

UNTIL (( J( )n J(n1)   ) hoặc ( ≥max))

1.1.2Phân cụm mờ cộng tác

Một hướng của phân cụm dữ liệu nhận được nhiều quan tâm của các nhà nghiên cứu trong thời gian gần đây là bài toán phân cụm cộng tác, trong đó xem xét đến mối liên hệ cấu trúc tương tự của các tập dữ liệu Trước khi xét đến mô hình của bài toán phân cụm cộng tác, ta xét ví dụ sau: các công ty thường thu thập thông tin về khách hàng của mình (ví dụ các cửa hàng hoặc ngân hàng…)

và lưu trữ trong cơ sở dữ liệu Đây là các thông tin nhạy cảm và các công ty này thường không chia sẻ trực tiếp thông tin chi tiết này cho nhau, tuy nhiên họ đều có nhu cầu phân tích để tìm ra điểm chung trong cấu trúc, phân nhóm các khách hàng này Giải pháp cho vấn đề trên là sử dụng thuật toán phân cụm tìm

ra các nhóm khách hàng trong cơ sở dữ liệu của từng công ty, sau đó trao đổi thông tin về cấu trúc hay thông tin về cụm với nhau, cách làm này có thể đảm bảo được vấn đề bảo mật thông tin nhưng vẫn giải quyết được mong muốn chia

sẻ, cộng tác, trao đổi về cấu trúc giữa các cơ sở dữ liệu Ngoài ví dụ trên, còn nhiều tình huống khác như vấn đề đường truyền, sự phức tạp trong tính toán

mà việc phân cụm cần thực hiện tại những tập dữ liệu riêng biệt nhưng cấu trúc, mẫu lại được trao đổi với nhau Một ví dụ về dữ liệu và kết quả của việc phân cụm cộng tác khi có nhiều tập dữ liệu và các tập đó có sự cộng tác trong quá trình phân cụm được mô tả trong Hình 1.1 Theo đó, nếu thực hiện phân cụm riêng lẻ từng tập dữ liệu ta sẽ có kết quả như hình (a), nếu thực hiện quá trình phân cụm cộng tác để điều chỉnh sẽ cho kết quả như hình (b) Rõ ràng nếu nhìn toàn cục dữ liệu của cả 2 tập dữ liệu ta sẽ thấy kết quả hình (b) hợp lý hơn và hình dạng của cấu trúc cụm của 2 tập có sự tương đồng

Trang 19

Hình 1.1 Kết quả phân cụm (a) trước cộng tác, (b) sau khi cộng tác Phân cụm cộng tác là công cụ tìm ra những cấu trúc và đặc điểm tương đồng giữa các dữ liệu nằm trên nhiều khu vực riêng biệt dựa trên cách mở rộng hàm mục tiêu và cách tiếp cận phân cụm mờ của thuật toán FCM Có 2 đặc điểm của phân cụm mờ cộng tác, một là thông tin chi tiết trong các tập dữ liệu không thể trao đổi với nhau mà chỉ có thể trao đổi thông tin về cấu trúc, hai là cần xem xét việc phân cụm mờ ở tập dữ liệu này có tác động tới việc phân cụm

ở các tập dữ liệu khác, thông tin cấu trúc các cụm trong từng tập dữ liệu là có ích trong việc phân cụm tại các tập dữ liệu còn lại [1]

Mô hình trao đổi thông tin cấu trúc hay cộng tác giữa các tập dữ liệu được mô tả như Hình 1.2, trong đó các tập dữ liệu không trực tiếp trao đổi dữ liệu chi tiết mà chỉ chia sẻ thông tin cấu trúc là vector tâm cụm v[ii] Một cách

tự nhiên là khi cộng tác kết quả phân cụm nhìn ở mức tổng thể các tập dữ liệu

sẽ tốt hơn kết quả phân cụm chỉ dựa trên dữ liệu cục bộ tại từng tập dữ liệu

Trang 20

Hình 1.2 Mô hình phân cụm mờ cộng tác

Giả sử có P tập dữ liệu D[1], D[2], ,D[P], trong đó chứa N[1],

N[2], ,N[P] mẫu dữ liệu trong cùng không gian thuộc tính X Trong mỗi tập

dữ liệu D[ii] ta phân thành c cụm Kết quả phân cụm ở mỗi tập dữ liệu lại tác

động tới việc phân cụm ở các khu vực còn lại, chúng ta gọi quá trình này là sự cộng tác giữa và phân cụm mờ cộng tác

Bài toán phân cụm mờ cộng tác có hàm mục tiêu cần tối ưu là:

1 1

2 2 2

2 ]

ii N

k C

i

ik ik

sự sai khác giữa các ma trận phân hoạch giảm dần

Trong hàm mục tiêu trên[𝑢𝑖𝑘[𝑖𝑖]]là ma trận phân hoạch đối tượng k vào cụm i trong tập dữ liệu ii, [ u [ii|jj]] được gọi là ma trận phân hoạch cộng tác

của tập dữ liệu jj lên tập dữ liệu ii và được tính theo công thức [1]:

2

1

= | [ ] [ ] |

| ] [ ] [

|

1

= ]

i k c j ik

(1.2)Min

Trang 21

Tham số 𝛽 thể hiện mức độ cộng tác giữa các tập dữ liệu, giá trị càng lớn thì mức độ cộng tác càng cao, giá trị 𝛽 = 0 thể hiện giữa các tập dữ liệu không

]

| [

~

1)) ( (1

]

| [

~ 1

/

1

= ]

1

= 2

2 1

jj ii u d

d

ii

u

rs P

ii jj jj js

P

ii jj jj c

j js rs c

[ 1

= 1,

= 2

] [ 1

=

2 ]

[ 1

= 1,

= 2

] [ 1

=

])

| [

~ ] [ ( ]

[

])

| [

~ ] [ ( ]

u

x jj ii u ii u x

ii u ii

v

rk rk

ii N

k P

ii jj jj rk

ii N

k

kt rk

rk

ii N

k P

ii jj jj kt rk

ii N

k rt

1.1.3.1 Tập mờ loại 1 (Type 1 Fuzzy Sets - FS)

Trong lý thuyết tập hợp cổ điển (Crisp set), quan hệ thành viên của các

phần tử đối với một tập hợp được đánh giá theo kiểu nhị phân một cách rõ ràng: mỗi phần tử x của tập cơ sở X là chắc chắn thuộc tập A hoặc chắc chắn không thuộc tập A Như vậy, để xem một phần tử có là thành viên của tập A hay không, ta gán cho phần tử đó giá trị 1 nếu phần tử đó chắc chắn thuộc A, và giá trị 0 nếu nó không thuộc về tập hợp A, tức là ta có thể xây dựng một hàm thành viên (hay hàm thuộc) để đánh giá một phần tử có thuộc tập A hay không :

∀𝑥 ∈ 𝑋, 𝜇(𝑥) = {1 𝑖𝑓 𝑥 ∈ 𝐴

0 𝑖𝑓 𝑥 ∉ 𝐴

Rõ ràng, hàm thuộc μ A sẽ xác định tập con cổ điển A trên tập cơ sở X với

μ A chỉ nhận giá trị trong tập hợp {0, 1}

Trang 22

Ngược lại, lý thuyết tập mờ cho phép đánh giá nhiều mức độ khác nhau

về khả năng một phần tử có thể thuộc về một tập hợp Ta cũng dùng một hàm

thành viên (hàm thuộc) để xác định các mức độ mà một phần tử x thuộc về tập

A :∀𝑥 ∈ 𝑋, 0 ≤ 𝜇(𝑥) ≤ 1

Định nghĩa 1.1.Cho X là một tập cơ sở, tập mờ A trên X được xác định bởi

hàm thuộc gán cho mỗi phần tử x của X là μ A (x), với 0 ≤ μ A (x) ≤1, để chỉ mức

độ mà phần tử x thuộc về tập mờ A Nói cách khác, tập con mờ A trên X được xác định bởi ánh xạ :

𝜇𝐴 ∶ 𝑋  [0, 1]

Như vậy định nghĩa của tập mờ là một mở rộng đơn giản của định nghĩa tập cổ điển trong đó hàm thuộc có độ thuộc giữa 0 và 1 Nếu giá trị của hàm thuộc A x được đưa về chỉ có 0 và 1, khi đó A chính là tập cổ điển và A x

 , nếu X là không gian liên tục

Xét tập X gồm 5 người x 1 , x 2 …, x 5 thi toán và có điểm tương ứng là 6, 7…,

10 Gọi A là tập những người giỏi toán, ta có thể xây dựng hàm thuộc cho tập

A như sau:

μ A : μ A (x 1 ) = 0,6; μ A (x 2 ) = 0,7; μ A (x 3 ) = 0,8; μ A (x 4 ) = 0,9; μ A (x 5 ) = 1

Ta có thể biểu diễn tập mờ A như sau:

A = {0,6/x 1 ; 0,7/x 2 ; 0,8/x 3 ; 0,9/x 4 ; 1/x 5 }

Nếu ta gọi B là tập những người có điểm lớn hơn 8 thì ta có B là tập rõ B=

{x 4 , x 5 ) Tuy nhiên ta cũng có thể biểu diễn B dưới dạng tập mờ con trên X như

sau:

B= {0/x 1 ; 0/x 2 ; 0/x 3 ; 1/x 4 ; 1/x 5 }

Trang 23

1.1.3.2 Tập mờ loại 2 (Type 2 Fuzzy Sets - T2FS)

Tập mờ loại 1 có hàm thuộc là một giá trị rõ còn tập mờ loại 2 có hàm thuộc là một giá trị mờ Tập mờ loại 2 được sử dụng khi ta không thể xác định chính xác giá trị hàm thuộc của tập mờ, nó có ưu điểm là cho phép biểu diễn các giá trị độ thuộc bằng các giá trị mờ

Trong hình 1.3 bên dưới, hàm thuộc tam giác loại 1 trong hình (a) được

mờ hóa bằng cách di chuyển các điểm trên nó sang bên trái hoặc bên phải, với

số giá trị mờ hóa khác nhau như hình (b) ta được hàm thuộc loại 2

Hình 1.3 Hàm thuộc: (a) loại 1 và (b) loại 2

thuộc loại hai A( , )x u , trong đó x X và u J x  [0,1]

Trang 24

1.1.3.3 Tập mờ loại 2 khoảng (Interval Type 2 Fuzzy Sets - IT2FS)

Một trường hợp đặc biệt của tập mờ loại hai là tập mờ loại hai khoảng, chúng được sử dụng rộng rãi vì không phức tạp trong tính toán như trong tập

mờ loại hai

loại hai A ở trên được gọi là tập mờ loại hai khoảng:

1.1.3.4 Tập mờ giá trị khoảng (Interval – valued Fuzzy Sets)

Tập mờ giá trị khoảng được Sambuc [97] đưa ra năm 1975 và nhiều tác giả hoàn thiện trong đó Gorzalczany [98] và Turksen [99] đã định nghĩa đầy đủ các khái niệm liên quan tới tập mờ giá trị khoảng như sau:

Định nghĩa 1.4: Tập mờ giá trị khoảng A trên tập cơ sở X được xác định bởi

hàm thuộc gán cho mỗi phần tử x của X là 𝜇𝐴(𝑥) = [𝜇̅ 𝐴(𝑥), 𝜇𝐴(𝑥)], với 0≤

𝜇̅ 𝐴(𝑥), 𝜇𝐴(𝑥) ≤ 1,𝜇̅ 𝐴(𝑥), 𝜇𝐴(𝑥) lần lượt được gọi là độ thuộc trên và độ thuộc

dưới của hàm thuộc 𝜇.

Có thể thấy tập mờ giá trị khoảng là một trường hợp đặc biệt của tập mờ loại 2 khoảng, mối liên hệ giữa các tập mờ được thể hiện trong hình 1.4[5]

Trang 25

Hình 1.4 Mối liên hệ giữa các loại tập mờ

1.1.4 Khoảng cách trong phân cụm

Kỹ thuật phân cụm nhằm nhóm các đối tượng tương tự nhau vào một cụm

và một trong những vấn đề cần xác định là 2 đối tượng như thế nào là tương tự

hoặc không tương tự nhau Giả sử hai đối tượng x i và x j gồm M thuộc tính, được biểu diễn bởi vector x i =(x i1 ,x i2 ,…,x iM ) và x j =(x j1 ,x j2 ,…,x jM ) Có hai cách đo phổ

biến là đo khoảng cách và đo độ tương tự, sau đây là một số độ đo khoảng cách

và tương tự thường được sử dụng

b Độ đo khoảng cách cho thuộc tính có giá trị nhị phân

Công thức trên dễ dàng tính khoảng cách giữa các đối tượng có thuộc tính kiểu số liên tục, khi thuộc tính có giá trị kiểu nhị phân, phân loại, hoặc trộn lẫn của nhiều loại giá trị thì độ đo khoảng cách cần xác định lại

Khi thuộc tính của 2 đối tượng là giá trị nhị phân, khoảng cách giữa các đối tượng có thể xác định như sau:

𝑑(𝑥𝑖, 𝑥𝑗) = 𝑟 + 𝑠

𝑞 + 𝑟 + 𝑠 + 𝑡

Trang 26

Trong đó q là số thuộc tính bằng nhau và bằng 1 của 2 đối tượng, t là số thuộc tính bằng nhau và bằng không của 2 đối tượng, r và s là số thuộc tính

không bằng nhau và bằng 1 và 0 của 2 đối tượng

c Độ đo khoảng cách cho thuộc tính không phải giá trị số

Khi thuộc tính của 2 đối tượng là các giá trị định danh, độ đo khoảng cách giữa 2 đối tượng xác định như sau:

𝑑(𝑥𝑖, 𝑥𝑗) =𝑀 − 𝑚

𝑀

Trong đó M là số thuộc tính của đối tượng, m là số thuộc tính trùng nhau

của 2 đối tượng

1.1.4.2 Độ đo tương tự

a Độ đo Cosine

Khi 2 đối tượng được biểu diễn bằng 2 vector với các giá trị thuộc tính dạng

số, góc giữa 2 vector xác định mức độ tương tự của 2 đối tượng, ta có độ đo tương tự Cosine:

1.1.5 Chỉ số đánh giá chất lượng phân cụm

Đánh giá một kết quả phân cụm là tốt hay xấu là vấn đề rất khó khăn và cũng không có một phương pháp đánh giá tổng quát nào cho chất lượng phân cụm, bên cạnh đó phân cụm thuộc dạng bài toán học không giám sát và thường không có dữ liệu mẫu đã gán nhãn Tuy nhiên cũng đã có nhiều đề xuất về các chỉ số đánh giá phân cụm [6][7][8][9][10][11][12], các chỉ số này thường được chia làm 2 nhóm: chỉ số đánh giá trong (Internal Quality Criteria) và chỉ số

Trang 27

đánh giá ngoài (External Quality Criteria) Chỉ số đánh giá được sử dụng trong việc xem xét chất lượng của kết quả phân cụm, so sánh các cách phân cụm khác nhau, xác định số cụm tối ưu…

1.1.5.1 Chỉ số đánh giá trong (Internal Quality Criteria)

Chỉ số đánh giá bên trong thường đo độ nén của cụm dữ liệu, nó có thể đo tính đồng nhất trong mỗi cụm hoặc độ chia tách giữa các cụm hoặc kết hợp cả hai đặc điểm này Tuy nhiên nó không sử dụng thông tin từ bên ngoài mà chỉ

sử dụng thông tin của dữ liệu dùng phân cụm Một số chỉ số đánh giá trong thường dùng như sau

Giả sử dữ liệu cần phân thành c cụm gồm n đối tượng, số đối tượng trong cụm thứ k là n k , tâm cụm thứ k là v k

a Sum of Squared Error (SSE)

SSE là chỉ số đánh giá đơn giản nhất nhưng cũng thường xuyên được sử dụng, tính toán dựa trên khoảng cách từ các đối tượng tới tâm cụm của nó được định nghĩa như sau:

là ma trận phân hoạch thành viên của đối tượng j trong cụm i

b Dunn’s Index (DI)

Chỉ số này được định nghĩa dựa theo hình dạng của cụm dữ liệu gồm độ nén và chia tách và được tính như sau:

𝐷𝐼 = min

1≤𝑖≤𝑐{ min

1≤𝑗≤𝑐,𝑗#𝑖{ 𝜎(𝐴𝑖, 𝐴𝑗)

max1≤𝑘≤𝑐(∆(𝐴𝑘))}}

Với Ai là tập các phần tử thuộc cụm thứ i:

Trang 28

𝜎(𝐴𝑖, 𝐴𝑗) = min

1≤𝑖≤𝑐{𝑑(𝑥𝑖, 𝑥𝑗|𝑥𝑖 ∈ 𝐴𝑖, 𝑥𝑗 ∈ 𝐴𝑗}

∆(𝐴𝑘) = max{𝑑(𝑥𝑖, 𝑥𝑗|𝑥𝑖, 𝑥𝑗 ∈ 𝐴𝑘}

c Davies-Bouldin’s Index (DBI)

Chỉ số này đo tỉ lệ giữa tổng sự phân tán dữ liệu trong mỗi cụm và phân tán giữa các cụm

Độ phân tán trong mỗi cụm i với |Ai| là số phần tử của cụm i, q là một số nguyên

dương được định nghĩa như sau:

1≤𝑗≤𝑐,𝑗#𝑖{𝑆𝑖,𝑞+𝑆𝑗,𝑞

𝐷𝑖𝑗 } ta có chỉ số DBI được tính như sau:

𝐷𝐵𝐼𝑞 =1

𝑐∑ 𝑅𝑖,𝑞𝑐

𝑖=1

d Partition Coefficient Index (PCI)

Chỉ số PCI phản ánh sự lấn lên nhau của các cụm dữ liệu, được định nghĩa như sau:

Trong đó u ij là độ thuộc của đối tượng j trong cụm i

e Classification Entropy Index (CEI)

Tương tự chỉ số PCI, chỉ số CEI phản ánh sự mờ hóa của ma trận phân hoạch các cụm dữ liệu

Trang 29

f Xie and Beni Index (XBI)

Chỉ số XBI định nghĩa theo hàm mục tiêu trong các thuật toán phân cụm và khoảng cách giữa 2 cụm gần nhất trong tập dữ liệu, chỉ số này có thể áp dụng cho cả các thuật toán phân cụm rõ và mờ:

2‖xj− vi‖2

n j=1

c i=1

khoảng cách trung bình tới các điểm của cụm gần cụm i nhất

Chỉ số SoI của toàn tập dữ liệu sẽ là:

𝑆𝑜𝐼 = 1

𝑛∑ 𝑆𝑜𝐼𝑗𝑛

𝑖=1

Chỉ số SoI dùng cho phân cụm mờ ký hiệu FsoI được định nghĩa như sau:

𝐹𝑆𝑜𝐼 = ∑ (𝑢𝑟𝑗 − 𝑢𝑞𝑗)𝑆𝑜𝐼𝑗

𝑛 𝑖=1

∑𝑛𝑖=1(𝑢𝑟𝑗 − 𝑢𝑞𝑗)

1.1.5.2 Chỉ số đánh giá ngoài (External Quality Criteria)

Chỉ số này dùng để so sánh sự tương đồng giữa 2 ma trận phân hoạch Giả

sử ta có 2 ma trận phân hoạch P1 và P2, chỉ số ngoài sẽ phụ thuộc và việc các

cặp đối tượng thuộc về cùng 1 cụm hay không trên hai phân hoạch trên với 4 khả năng là:

Hai đối tượng thuộc cùng 1 cụm trong cả P1 và P2

Trang 30

Hai đối tượng thuộc cùng 1 cụm trong P1 nhưng không cùng trong P2 Hai đối tượng thuộc cùng 1 cụm trong P2 nhưng không cùng trong P1 Hai đối tượng không cùng 1 cụm trong cả P1 và P2

Ta ký hiệu các khả năng trên tương ứng là yy, yn, ny, nn (y ký hiệu cho yes, n ký hiệu cho no) Một số chỉ số ngoài thường được sử dụng gồm:

a Czekanowski-Dice Index (CDI)

2yy + yn + ny

b Folkes-Mallows Index (FMI)

√(yy + yn)(yy + ny)

c Jaccard Index (JI)

Chỉ số này sử dụng khi ta có dữ liệu đã biết nhãn trước và muốn kiểm tra độ

chính xác của thuật toán phân cụm, nó là tỉ lệ số đối tượng phân cụm đúng m trên tổng số dữ liệu n:

𝑛

1.2 Tổng quan về phân cụm mờ cộng tác

Phần này của luận án trình bày một số khái niệm cơ bản và phân tích tình hình nghiên cứu về phân cụm mờ hiện nay, trong đó tập trungkhảo cứu các kết quả liên quan tới hướng nghiên cứu của luận án là phân cụm mờ cộng tác và

Trang 31

một số kỹ thuật ứng dụng để nâng cao chất lượng và hiệu quả phân cụm như:

kỹ thuật nhân, đa nhân; kỹ thuật tính toán hạt, siêu điểm ảnh; kỹ thuật giảm chiều dữ liệu và phân cụm dữ liệu lớn

1.2.1Tổng quan về phân cụm mờ

Phân cụm là kỹ thuật nhóm các đối tượng vào các cụm dựa trên thông tin của các đối tượng và mối liên hệ của chúng sao cho các đối tượng trong cùng một cụm thì tương tự nhau còn các đối tượng khác thuộc các cụm khác nhau thì khác nhau

Phân tích cụm được trình bày và sử dụng rất sớm trong lĩnh vực nhân học

và sau đó được mở rộng sang lĩnh vực tâm lý học bởi Zubin năm 1938[13],Robert Tryon năm 1939[14] và được sử dụng thường xuyên trong lý thuyết về tính cách

Trong phân tích dữ liệu, phân cụm có thể được sử dụng với nhiều vai trò khác nhau như: hỗ trợ giai đoạn tiền xử lý dữ liệu; mô tả sự phân bố dữ liệu/đối tượng; nhận dạng mẫu; phân tích dữ liệu không gian; xử lý, phân đoạn ảnh; phân mảnh thị trường ; gom cụm tài liệu…

Với tư cách là một chức năng khai phá dữ liệu, phân cụm có thể được sử dụng như một công cụ độc lập để quan sát đặc trưng phân bố của dữ liệu, tìm

ra tập riêng biệt các đối tượng trong cụm để giúp cho việc phân tích đạt kết quả tốt hơn

Tập mờ được L.A Zadeh đề xuất và công bố năm 1965 [15] bằng bài báo

“Fuzzy Sets” trên Tạp chí Information and Control Với ý tưởng dùng khái niệm toán học để mô tả các khái niệm trừu tượng, không rõ ràng về ngữ nghĩa thông tin, không chắc chắn như lớn - bé, gầy - béo, cao-thấp, , được gọi là tập

mờ, đây là một sự khái quát trực tiếp của khái niệm tập hợp kinh điển

Trong các bài toán phân cụm thực tế, sự tách biệt giữa các cụm có thể không rõ ràng, các cụm có thể chồng lên nhau, một số đối tượng dữ liệu có thể

Trang 32

vừa thuộc cụm này vừa thuộc cụm khác Điều này phù hợp với các khái niệm trong lý thuyết tập mờ, vì vậy việc áp dụng lý thuyết về tập mờ trong phân cụm

dữ liệu để giải quyết cho trường hợp này có thể mang lại hiệu quả tốt hơn, đây

là phương phápphân cụm mờ Nói cách khác, phân cụm mờ là phương pháp phân cụm dữ liệu mà cho phép mỗi điểm dữ liệu thuộc về hai hoặc nhiều cụm thông qua hàm thành viên thể hiện độ thuộc Khái niệm về phân hoạch mờ được Ruspini giới thiệu để mô tả cấu trúc cụm của tập dữ liệu và đưa ra thuật toán tính toán tối ưu phân hoạch mờ Dunn mở rộng phương pháp phân cụm này và phát triển thuật toán phân cụm mờ[2] với ý tưởng xây dựng phương pháp phân cụm mờ dựa trên tối thiểu hóa hàm mục tiêu Bezdek [16]cải tiến và tổng quát hóa hàm mục tiêu mờ bằng cách đưa ra trọng số mũ và chứng minh độ hội tụ của các thuật toán là cực tiểu cục bộ

Trong thực tế dữ liệu đầu vào cho bài toán phân cụm thường có nhiễu và không chắc chắn, nhiều tác giả đã nghiên cứu phát triển các thuật toán phân cụm sử dụng tập mờ loại 2 để giải quyết vấn đề trên [17][18] Mendel và Karnik

đã phát triển lý thuyết tập mờ loại 2 và các phép toán trên đó, nó đã khắc phục được những nhược điểm của tập mờ loại 1 trong xử lý những vấn đề không chắc chắn của dữ liệu bằng cách định nghĩa hàm thuộc là một giá trị mờ Một nhánh được nghiên cứu và ứng dụng rộng rãi do tính khả thi và dễ cài đặt của tập mờ loại 2 là tập mờ loại 2 giá trị khoảng[19][20]

Nghiên cứu về tập mờ, hệ mờ và các ứng dụng cũng đã được nhiều nhà nghiên cứu ở Việt Nam thực hiện như nhóm của Giáo sư Nguyễn Cát Hồ [94,96], nhóm của Giáo sư Trần Đình Khang [95,96] Đặc biệt là nhóm của PGS Lê Hoàng Sơn với nhiều công bố liên quan hướng phân cụm mờ sử dụng tập mờ loại 1, loại 2, tập mờ ảnh và tập mờ trực cảm với nhiều ứng dụng trong lĩnh vực ảnh y tế, ảnh vệ tinh , mạng cảm biến [90-93]

Trang 33

có sự chồng lấn giữa các cụm còn tập thô điều chỉnh sự ảnh hưởng của sự không chắc chắn bằng xấp xỉ trên và dưới[21], tuy nhiên các tác giả cũng chỉ ra rằng việc giải quyết vấn đề sự hỗn tạp của dữ liệu và các thuộc tính dữ liệu vẫn là những thách thức cần nghiên cứu thêm

Nhằm nâng cao tốc độ và chất lượng phân cụm, Prasad[22] và Yu [23]

đề xuất bổ sung thêm bước tiền xử lý vào mô hình cộng tác của Pedrycz bằng cách tái sắp xếp lại thứ tự các cụm trong mỗi tập dữ liệu cho thống nhất trên toàn bộ các tập dữ liệu, tuy nhiên cả 2 đề xuất này đều yêu cầu mức độ cộng tác giữa các tập dữ liệu cần được truyền như tham số đầu vào của thuật toán,

sử dụng các giải thuật tiến hóa và bầy đàn là những hướng tiếp cận trong tương lai mà các tác giả đề xuất để xác định tham số đầu vào của thuật toán

Nhóm các nhà khoa học Fusheng Yu, Juan Tang và Ruiqiong Cai tập trung nghiên cứu và đề xuất ứng dụngphân cụm cộng tác theo chiều ngang cho các tập dữ liệu không cùng không gian thuộc tính[24], nhóm cũng mở rộng thuật toán bằng cách sử dụng phương pháp gán nhãn đối tượng theo ngưỡng hoặc theo entropy sau đó sự dụng nhãn này trong quá trình cộng tác gọi là phân cụm cộng tác có giám sát từng phần [25]

Nhóm Sublime đề xuất hướng giải quyết bài toán phân cụm cộng tác theo chiều dọc sử dụng kỹ thuật máy họcsinh bản đồ cấu trúc (Generative

Trang 34

Topographic Map – GTM) trong việc tìm ra các cụm tương tự các từng tập dữ liệu[26]

Nghiên cứu về việc lựa chọn tập dữ liệu và đối tượng nào tham gia vào tính toán cộng tác cũng được nhóm Parisa nghiên cứu trong mô hình phân cụm cộng tác sử dụng mạng nơron[27]

Phân cụm dữ liệu mờ cộng tác cũng được nghiên cứu ứng dụng trong bài toán môi trường mạng phân tán[28], trong đó hàm mục tiêu sử dụng trọng số cho các thuộc tính.Thuật toán không sử dụng 2 pha tính toán như mô hình đề xuất bởi giáo sư Pedrycz mà chỉ gồm 1 pha lặp lại việc tính toán ma trận phân hoạch và điều chỉnh trọng số cho đến khi tối ưu Hàm mục tiêu của thuật toán trong [28]gồm 2 phần, phần đầu tương tự như đề xuất mô hình của Pedrycz giống với thuật toán FCM, phần thứ 2 tỉ lệ ngược với entropy của trọng số thuộc tính và phần này giúp tối ưu sự đóng góp của các thuộc tính quan trọng trong quá trình cộng tác Trong công bố này Zhou cũng đề xuất mô hình nhân cho thuật toán đề xuất trên để giải quyết vấn đề cấu trúc cụm không phải hình cầu Trong kết luận của mình nhóm cũng chỉ ra tồn tại cần giải quyết khi số cụm trong các tập con là bằng nhau và cần tiếp tục nghiên cứu các giải pháp để xác định số cụm trong quá trình khởi tạo cũng như một số giải pháp kết hợp bán giám sát bằng cách sử dụng các kỹ thuật heuristic

Một hướng ứng dụng của phân cụm cộng tác cũng được nhóm Y Jiang

đề xuất là khi dữ liệu có nhiều khung nhìn theo các thuộc tính khác nhau, có thể áp dụng mô hình cộng tác giữa nhiều khung nhìn này [29], nghiên cứu này cũng mở rộng bằng cách đề xuất mô hình trọng số cho từng khung nhìn trong hàm mục tiêu

Thuật toán phân cụm cộng tác lai tính toán hạt cũng được nhóm của Z Han nghiên cứu ứng dụng trong bài toán dự đoán dung lượng thiết bị lưu trữ khí gas trong thời gian dài[30], theo đó không gian chiều ngang mô tả dung lượng thiết bị lưu trữ trong nhiều thời gian khác nhau và không gian chiều dọc

Trang 35

mô tả các yếu tố ảnh hưởng sau đó sử dụng mô hình phân cụm cộng tác để dự đoán các thiết bị lưu trữ cần sử dụng

Yan Liu trình bày phương pháp phân cụm mờ cộng tác cho dữ liệu khoảng có quy mô lớn [31], trong đó phát triển thuật toán phân cụm cộng tác cho tập dữ liệu khoảng gồm các đối tượng được mô tả bằng nhiều thuộc tính khác nhau, tiếp theo nhóm Yan phát đề xuất ứng phân cụm cho tập dữ liệu khoảng quy mô lớn bằng cách chia thành nhiều tập dữ liệu nhỏ hơn để phân cụm và thực hiện tiếp quá trình cộng tác Hai kỹ thuật phân cụm có nhiều điểm tương đồng với phân cụm cộng tác cũng được nghiên cứu nhiều trong thời gian gần đây một là phân cụm tổng hợp (Ensemble Clustering) trong đó dữ liệu được phân cụm theo nhiều cách khác nhau sau đó được các kết quả này được tổng hợp để đạt được chất lượng tốt nhất [32], hai là tìm cách xây dựng một ma trận phân hoạch duy nhất sao cho có sự sai khác ít nhất với các ma trận phân hoạch

đã có của dữ liệu (Fuzzy Consensus Clustering) [33]

Trong nghiên cứu của mình, Zhaohong Deng cũng đưa ra một hướng tương tự phân cụm cộng tác là phân cụm dựa trên trao đổi mẫu [34]

Nhóm Shen cải tiến bằng cách tái sắp xếp ma trận phân hoạch và sử dụng ma trận phân hoạch hạt kết hợp phân tích ảnh hưởng kết nối giữa các tập

dữ liệu cho mô hình phân cụm cộng tác theo chiều dọc[35], tuy nhiên nghiên cứu này dựa trên giả định rằng số cụm trong các tập dữ liệu cũng như mức độ cộng tác giữa các tập là như nhau

1.2.3 Phân cụm dữ liệu lớn

1.2.3.1 Dữ liệu lớn

Trong thời đại số ngày nay, chúng ta đối diện với khối lượng thông tin và

dữ liệu khổng lồ được tạo ra hàng ngày từ rất nhiều nguồn khác nhau bởi con người, internet vạn vật và sự tương tác giữa con người với chúng Việc phân tích các giữ liệu mang lại nhiều thông tin hữu ích từ nguồn như Facebook, Twitter, Google, Wikipedia…hoặc hệ thống các cảm biến trong hầu hết các

Trang 36

thiết bị điện tử Mặc dù vậy, nó cũng là vấn đề cần giải quyết cho các bài toán

xử lý trên đó mà nhiều cách tiếp cận với dữ liệu thông thường trước đây không thể áp dụng được Dữ liệu này cần bộ nhớ lớn hơn, các tính toán xử lý, phân tích và khai phá thông tin đòi hỏi thời gian và tài nguyên khổng lồ Trong bảng 1.1 [36] Bezdek và Hathaway đưa ra cách phân loại dữ liệu lớn, có thể thấy với

lưu trữ sẽ đòi hỏi 40TB bộ nhớ là điều không thể với hầu hết các hệ thống máy tính hiện nay

Bảng 1.1 Phân loại dữ liệu lớn

(medium)

Lớn (large)

Rất lớn (huge)

Khổng lồ (monster)

Siêu lớn (very large)

Các thách thức trong xử lý dữ liệu lớn do chính đặc tính của chúng và được nhiều nhà nghiên cứu dữ liệu chỉ ra, một số cho rằng dữ liệu lớn có 3 đặc điểm gọi là 3V (volume, velocity and variety), trong [37] nhóm Gandomi bổ sung thêm các đặc tính dữ liệu lớn thành 6V (volume, velocity, variety, veracity, variability, value)

Như đã trình bày trên, việc phân tích dữ liệu lớn mang lại nhiều thông tin hữu tích và một trong những kỹ thuật được sử dụng phổ biến là phân cụm dữ liệu, trong [38] chỉ ra có rất nhiều thuật toán phân cụm dữ liệu lớn đã được đề xuất dựa trên nhiều lý thuyết và ứng dụng khác nhau, mỗi thuật toán có những

ưu và nhược điểm và các thuật toán theo mô hình phân hoạch thường được áp dụng do yêu cầu tính toán thấp hơn Có 2 cách tiếp cận để giải quyết bài toán phân cụm dữ liệu lớn: một số thực hiện việc phân cụm trên toàn bộ dữ liệu, ví dụ một số thuật toán cải tiến từ thuật toán FCM như: LFCM/AO (literal Fuzzy c-Means with alternating optimization) [36], thuật toán SPFCM (Single Pass FCM) hay OFCM (Online FCM) các thuật toán này chia dữ liệu thành các tập nhỏ và phân từng tập dữ liệu con thành c cụm, tuy nhiên cách làm này phụ

Trang 37

thuộc nhiều vào việc chia các tập dữ liệu con, có thể xảy ra trường hợp một tập con chỉ chứa các phần tử của một số cụm nào đó; một cách tiếp cận khác là lấy mẫu dữ liệu từ tập dữ liệu lớn và thực hiện phân cụm sau đó kết quả được mở rộng xấp xỉ cho phần dữ liệu còn lại thông qua tâm cụm tìm được, ví dụ thuật toán rseFCM (random sampling plus extension Fuzzy c-Means) [36] hay thuật toán RSIO-FCM (Random Sampling with Iterative Optimization Fuzzy c-Means) [39], cách này cũng phụ thuộc nhiều vào kết quả lấy mẫu dữ liệu và kết quả phân cụm có thể không tốt nếu một mẫu chỉ lấy dữ liệu tử một hoặc vài cụm Sử dụng thuật toán FCM xác suất bậc cao kết hợp với nén thuộc tính mẫu bằng mạng đào tạo tensors để phân cụm dữ liệu lớn trong môi trường IoT với các thiết bị đầu cuối có cấu hình thấp cũng được nghiên cứu và cho kết quả tốt [40]

1.2.3.2 Một số thuật toán phân cụm dữ liệu lớn

Phần này trình bày một số thuật toán phân cụm dữ liệu lớn tiêu biểu theo của hai hướng tiếp cận phân cụm mẫu và phân cụm toàn bộ dữ liệu

a Thuật toán FCM lấy mẫu ngẫu nhiên mở rộng (rseFCM)

Thuật toán rseFCM [36] thực hiện theo cách tiếp cận lấy mẫu, đầu tiên từ tập

dữ liệu lớn X thực hiện lấy ngẫu nhiên ns phần tử đưa vào tập Xs, thực hiện thuật toán phân cụm FCM cho tập Xs sau đó từ các tâm cụm đã tìm được mở rộng tính toán xác định cụm cho các phần tử còn lại của X, cụ thể như sau:

Thuật toán 1.2 rseFCM

lần lặp tối đa max

1 Lấy mẫu ngẫu nhiên tập X s từ X;

2 Us,V=FCM(X,c,m,,max )

3 Tính ma trận U cho toàn bộ tập X bằng công thức (1.4)

4 Tính kết quả phân cụm từ U,V

Trang 38

b Thuật toán FCM có trọng số (Weighted Fuzzy c-Means - wFCM)

Trong thuật toán FCM các phần tử là bình đẳng trong quá trình phân cụm, tuy nhiên trong nhiều trường hợp mỗi phần tử là không bình đẳng và có mức

độ ảnh hưởng hay trọng số khác nhau ta có thuật toán phân cụm có trọng số [16] với hàm mục tiêu như sau:

số mờ m (1<m<+ ) và sai số , số lần lặp tối đa max

2 𝑚−1 𝑐

𝑗=1 Tính ma trận tâm cụm 𝑣𝑖 = ∑𝑛𝑘=1𝑤𝑘𝑢𝑖𝑘𝑚𝑥 𝑘

c cụm này thành ns+c điểm trong đó mỗi cụm lại được coi là 1 điểm với trọng

Trang 39

số được xác định theo tổng độ thuộc của các phần tử trong cụm và thực hiện bước phân cụm tiếp theo Quá trình tiếp tục đến hết tập dữ liệu ta được kết quả phân cụm cho toàn bộ dữ liệu

Thuật toán 1.4 spFCM

số mờ m (1<m<+ ), số phần tử tập con n s và sai số , số lần lặp tối đa max

Đầu ra: Kết quả phân cụm U, V

Nạp ngẫu nhiên X s là tập n s phần tử từ X vào bộ nhớ

phân cụm dữ liệu lớn Ý tưởng ở đây là dùng hàm nhân k để tính khoảng cách

giữa các phần tử thay vì tính khoảng cách trong không gian dữ liệu ban đầu ta

có công thức tính khoảng cách giữa phần tử x và y như sau

𝑑(𝑥, 𝑦) = ‖∅(𝑥) − ∅(𝑦)‖2 = 𝑘(𝑥, 𝑥) + 𝑘(𝑦, 𝑦) − 2𝑘(𝑥, 𝑦) (1.2)

Thuật toán 1.5 rsekFCM

lần lặp tối đa max

Trang 40

1 Lấy mẫu ngẫu nhiên tập X s từ X;

2 Us,V=FCM(X,c,m,,max )

3 Tính ma trận U cho toàn bộ tập X bằng công thức (1.4) với khoảng cách tính theo (1.2)

4 Tính kết quả phân cụm từ U,V

1.2.4 Một số kỹ thuật kết hợp nâng cao chất lượng phân cụm

1.2.4.1 Kỹ thuật nhân trong phân cụm

Một trong những thách thức của bài toán phân cụm là sự phức tạp của dữ liệu, sự phức tạp có thể ở nhiều khía cạnh khác nhau như: kích thước dữ liệu,

sự đa dạng các loại thuộc tính, tính đa dạng của dữ liệu nói chung Các thuật toán truyền thống đã giải quyết rất tốt vấn đề phân cụm dữ liệu trong trường hợp tuyến tính Một trong các cách phổ biến để phân lớp tuyến tính một dữ liệu phi tuyến trong không gian đầu vào là sử dụng một hàm nhân Mercer k để làm phép ánh xạ ẩn

Trong bài toán phân cụm, nhân được áp dụng vào dữ liệu thuộc tính dùng phân cụm Phương pháp nhân sử dụng kỹ thuật chuyển đổi phi tuyến không gian dữ liệu đầu vào sang một không gian dữ liệu khác mà ở đó sự phân tách các cụm dữ liệu được dễ dàng hơn [42][43][44][45][46][47][48] thông qua nhân 𝐾(𝑥, 𝑦) = ∅(𝑥)𝑇∅(𝑦) Nhằm tăng hiệu quả của các thuật toán phân cụm, phương pháp nhân cũng được các nhóm nghiên cứu sử dụng kết hợp với các kỹ thuật khác: nhóm của Dung sử dụng nhân kết hợp giải thuật di truyền [49]; nhóm của Fan sử dụng phân cụm nhân cho bài toán tối ưu đồng tiến hóa cộng tác dữ liệu lớn [50]; Trong [51] Timothy và cộng sự sử dụng nhân kết hợp xác suất vào FCM để phân cụm dữ liệu lớn; Dữ liệu phân cụm thường có nhiều thuộc tính và một trong những cách tiếp cận là sử dụng nhiều nhân kết hợp để chuyển đổi không gian dữ liệu gọi là đa nhân [44][52][53]

Định dạng
Số trang	122
Dung lượng	4,83 MB