1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phát triển một số mô hình phân cụm mờ cộng tác

122 6 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 122
Dung lượng 4,83 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

 Nghiên cứu và phát triển các kỹ thuật phân cụm mờ cộng tác trên cơ sở ứng dụng tập loại 2 giá trị khoảng, phương pháp nhân, tính toán hạt siêu điểm ảnh và kỹ thuật giảm chiều dữ liệu

Trang 1

ĐẶNG TRỌNG HỢP

PHÁT TRIỂN MỘT SỐ MÔ HÌNH PHÂN CỤM MỜ CỘNG TÁC

LUẬN ÁN TIẾN SĨ TOÁN HỌC

HÀ NỘI –2019

Trang 2

ĐẶNG TRỌNG HỢP

PHÁT TRIỂN MỘT SỐ MÔ HÌNH PHÂN CỤM MỜ CỘNG TÁC

LUẬN ÁN TIẾN SĨ TOÁN HỌC

Chuyên ngành: Cơ sở toán học cho tin học

Mã số: 62.46.01.10

NGƯỜI HƯỚNG DẪN KHOA HỌC PGS TS Ngô Thành Long

HÀ NỘI –2019

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan các kết quả trình bày trong luận án là công trình nghiên cứu của tôi dưới sự giám sát của giảng viên hướng dẫn Các kết quả được viết chung với các tác giả khác đều được sự đồng ý của đồng tác giả trước khi đưa vào luận án Các kết quả trong luận án là trung thực và chưa từng được công

bố trong bất kỳ công trình nào khác

Nghiên cứu sinh

Đặng Trọng Hợp

Trang 4

LỜI CẢM ƠN

Luận án được nghiên cứu sinh hoàn thành dưới sự hướng dẫn tận tình, nghiêm khắc của PGS TS Ngô Thành Long, lời đầu tiên tôi xin bày tỏ lòng kính trọng và sự biết ơn sâu sắc tới Thầy Những định hướng, nhận xét và góp

ý của Thầy trong suốt quá trình nghiên cứulà những bài học vô cùng quý giá đối với tôi không chỉ trong việc hoàn thành luận án mà trong cả các hoạt động chuyên môn sau này

Tôi xin chân thành cảm ơn GS TSKH Phạm Thế Long, PGS TS Bùi Thu Lâm, TS Tống Minh Đức, TS Hoa Tất Thắng, TS Nguyễn Văn Giang và các thầy cô trong Bộ môn Hệ thống thông tin, Khoa Công nghệ thông tin Học viện

Kỹ thuật quân sự đã có những góp ý quý báu trong quá trình nghiên cứu và các hội thảo chuyên môn của Khoa, Bộ môn

Tác giả xin gửi lời cảm ơn chân thành đến Khoa Công nghệ thông tin, Phòng Sau đại học,Học Viện Kỹ Thuật Quân Sự đã tạo điều kiện thuận lợi trong quá trình học tập, nghiên cứu và hoàn thành luận án

Tôi xin cảm ơn Trung tâm Công nghệ thông tin, Phòng Đào tạo và Lãnh đạo Trường Đại học Công nghiệp, nơi tôi công tác đã tạo điều kiện cơ sở vật chất, thời gian, sắp xếp công việc cơ quan hợp lý và thường xuyên động viên, nhắc nhở tôi trong quá trình nghiên cứu

Cuối cùng, tôi xin cảm ơn gia đình, bạn bè và đồng nghiệp những người

đã luôn bên cạnh động viên, chia sẻ và hỗ trợ tôi trong quá trình học tập, nghiên cứu

Trang 5

MỤC LỤC

DANH MỤC CÁC KÍ HIỆU, CÁC CHỮ VIẾT TẮT 5

DANH MỤC CÁC BẢNG BIỂU 7

DANH MỤC CÁC HÌNH VẼ 8

DANH MỤC THUẬT TOÁN 9

MỞ ĐẦU 10

1 Tính cấp thiết của nội dung nghiên cứu 10

2 Mục tiêu nghiên cứu của luận án 11

3 Đối tượng nghiên cứu 11

4 Phạm vi nghiên cứu 12

5 Phương pháp nghiên cứu 12

6 Cấu trúc của luận án 12

CHƯƠNG 1 TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU 14

1.1 Giới thiệu phân cụm mờ cộng tác và một số kiến thức cơ sở 14

1.1.1 Phân cụm mờ 14

1.1.2 Phân cụm mờ cộng tác 16

1.1.3 Tập mờ 19

1.1.4 Khoảng cách trong phân cụm 23

1.1.5 Chỉ số đánh giá chất lượng phân cụm 24

1.2 Tổng quan về phân cụm mờ cộng tác 28

1.2.1 Tổng quan về phân cụm mờ 29

1.2.2 Tổng quan về phân cụm mờ cộng tác 31

1.2.3 Phân cụm dữ liệu lớn 33

1.2.4 Một số kỹ thuật kết hợp nâng cao chất lượng phân cụm 38

1.3 Những hạn chế của các nghiên cứu hiện có và mục tiêu nghiên cứu 43

1.4 Những đóng góp chính của luận án 45

1.5 Kết luận chương 1 45

CHƯƠNG 2 PHÂN CỤM MỜ LOẠI 2 KHOẢNG CỘNG TÁC 46

2.1 Phân cụm mờ loại 2 khoảng cộng tác 46

2.2 Phân cụm mờ loại 2 khoảng cộng tác khi số cụm khác nhau 53

2.3 Thuật toán phân cụm mờ loại 2 khoảng cộng tác (CIVFCM) 56

2.4 Thử nghiệm và đánh giá 57

Trang 6

2.4.1 Thử nghiệm với dữ liệu sinh ngẫu nhiên 58

2.4.2 Thử nghiệm với dữ liệu S1, S4 60

2.4.3 Thử nghiệm với dữ liệu thời tiết Canada 62

2.4.4 Thử nghiệm với dữ liệu ảnh vệ tinh 64

2.4.5 Một số đánh giá 70

2.5 Kết luận chương 2 71

CHƯƠNG 3 MỘT SỐ CẢI TIẾN VÀ ỨNG DỤNG THUẬT TOÁN PHÂN CỤM MỜ CỘNG TÁC 73

3.1 Phân cụm mờ cộng tác đa nhân dựa trên tính toán hạt siêu điểm ảnh 74

3.1.1 Phân cụm mờ cộng tác đa nhân 74

3.1.2 Tạo hạt siêu điểm ảnh (Super-pixel granulation) 77

3.1.3 Phân cụm mờ cộng tác đa nhân dựa trên tính toán hạt siêu điểm ảnh có trọng số 78

3.1.4 Thuật toán phân mờ cụm cộng tác đa nhân 84

3.1.5 Thử nghiệm và đánh giá 86

3.2 Phân cụm dữ liệu lớn dựa trên thuật toán phân cụm mờ cộng tác và giảm chiều dữ liệu 96

3.2.1 Kỹ thuật giảm chiều dữ liệu theo định lý Johnson Lindenstrauss 97

3.2.2 Phân cụm dữ liệu lớn dựa trên thuật toán phân cụm cộng tác và giảm chiều dữ liệu 99

3.2.3 Thử nghiệm và đánh giá 101

3.3 Kết luận chương 3 105

KẾT LUẬN 107

1 Kết luận chung 107

2 Những đóng góp mới của luận án 108

3 Kiến nghị về một số hướng nghiên cứu tiếp theo 108

DANH MỤC CÔNG TRÌNH ĐÃ CÔNG BỐ 109

TÀI LIỆU THAM KHẢO 110

Trang 7

DANH MỤC CÁC KÍ HIỆU, CÁC CHỮ VIẾT TẮT

IT2FS Interval Type-2 Fuzzy Sets Tập mờ loại 2 khoảng

Expanded

Danh mục trích dẫn khoa học mở rộng

Trang 8

MKFCM Multi Kernel FCM Thuật toán phân cụm mờ đa nhân

nhân sử dụng siêu điểm ảnh

CFSFD Clustering by Fast Search

and Find of Density Peaks

Phân cụm bằng cách tìm kiếm nhanh

extension Fuzzy c-Means

Thuật toán FCM mở rộng lẫu mẫu nhẫu nhiên

Extend Kernel FCM

Thuật toán FCM sử dụng nhân và lẫy mẫu ngẫu nhiên

X X={x 1 , x 2 , , x N}RM là một tập dữ liệu M chiều, xiX là đối tượng

dữ liệu thứ i

Trang 9

DANH MỤC CÁC BẢNG BIỂU

Bảng 1.1 Phân loại dữ liệu lớn 34

Bảng 2.1 Kết quả phân cụm với thử nghiệm 2.1 58

Bảng 2.2 Chỉ số đánh giá với thử nghiệm 2.1 59

Bảng 2.3 Chỉ số đánh giá của các thuật toán với dữ liệu S1 61

Bảng 2.4 Chỉ số đánh giá của các thuật toán với dữ liệu S4 62

Bảng 2.5 Chỉ số đánh giá của các thuật toán với dữ liệu thời thiết Canada 64

Bảng 2.6 Tỉ lệ % diện tích các vùng của Hà Nội 67

Bảng 2.7 Tỉ lệ % diện tích các vùng của Bảo lộc 67

Bảng 2.8 Chỉ số đánh giá chất lượng phân cụm các thuật toán 69

Bảng 2.9 Độ phức tạp tính toán của các thuật toán 71

Bảng 3.1 Kết quả phân cụm từng vùng TP Thanh Hóa 90

Bảng 3.2 Chỉ số đánh giá phân cụm cho TP Thanh Hóa 91

Bảng 3.3 Kết quả phân cụm từng vùng TP Thái Nguyên 92

Bảng 3.4 Chỉ số đánh giá phân cụm cho TP Thái Nguyên 93

Bảng 3.5 Kết quả phân cụm từng vùng H Quỳ Hợp 94

Bảng 3.6 Chỉ số đánh giá phân cụm cho H Quỳ Hợp 94

Bảng 3.7 Thời gian tính của các thuật toán 96

Bảng 3.8 Chỉ số đánh giá và thời gian tính toán với dữ liệu NIPS 102

Bảng 3.9 Chỉ số đánh giá và thời gian tính toán với dữ liệu EEG 103

Bảng 3.10 Chỉ số đánh giá và thời gian tính toán với dữ liệu MNIST 104

Trang 10

DANH MỤC CÁC HÌNH VẼ

Hình 1.1 Kết quả phân cụm (a) trước cộng tác, (b) sau khi cộng tác 17

Hình 1.2 Mô hình phân cụm mờ cộng tác 18

Hình 1.3 Hàm thuộc: (a) loại 1 và (b) loại 2 21

Hình 1.4 Mối liên hệ giữa các loại tập mờ 23

Hình 2.1 Kết quả thử nghiệm 2.2 với thuật toán CIVFCM2 59

Hình 2.2 Kết quả phân cụm dữ liệu S1 61

Hình 2.3 Kết quả phân cụm dữ liệu S4 61

Hình 2.4 Biểu đồ hiển thị giá trị các chỉ số theo tham số mờ hóa m1, m2 64

Hình 2.5 Kết quả phân cụm Hà Nội và Bảo Lộc theo các thuật toán 66

Hình 2.6 Biểu đồ so sánh tỉ lệ % diện tích của Hà Nội 67

Hình 2.7 Biểu đồ so sánh tỉ lệ % diện tích của Bảo lộc 68

Hình 2.8 Đồ thị kết quả các chỉ số với nhiều bộ tham số m1 và m2 69

Hình 3.1: Ảnh vệ tinh kênh 3 và 4 của TP Thanh Hóa 87

Hình 3.2: Ảnh vệ tinh kênh 3 và 4 của TP Thái Nguyên 87

Hình 3.3: Ảnh vệ tinh kênh 3 và 4 của H Quỳ Hợp 88

Hình 3.4 Sơ đồ tính toán thử nghiệm 89

Hình 3.5 Kết quả phân cụm TP Thanh Hóa 90

Hình 3.6 So sánh % diện tích các cụm TP Thanh Hóa 91

Hình 3.7 Kết quả phân cụm TP Thái Nguyên 92

Hình 3.8 So sánh % diện tích các cụm TP Thái Nguyên 93

Hình 3.9 Kết quả phân cụm H Quỳ Hợp 94

Hình 3.10 So sánh % diện tích các cụm H Quỳ Hợp 94

Hình 3.11 Mô hình phân cụm dữ liệu lớn 100

Trang 11

DANH MỤC THUẬT TOÁN

Thuật toán 1.1 Phân cụm mờ FCM 15

Thuật toán 1.2 rseFCM 35

Thuật toán 1.3 wFCM 36

Thuật toán 1.4 spFCM 37

Thuật toán 1.5 rsekFCM 37

Thuật toán 1.6 Tính siêu điểm ảnh SLIC 41

Thuật toán 2.1 Phân cụm mờ loại 2 khoảng cộng tác 56

Thuật toán 3.1 SMKCFCM 84

Thuật toán 3.2 Giảm chiều dữ liệu 99

Thuật toán 3.3 RPFR-CFCM 100

Trang 12

MỞ ĐẦU

1 Tính cấp thiết của nội dung nghiên cứu

Phân cụm là kỹ thuật nhóm các đối tượng vào các cụm dựa trên thông tin của các đối tượng và mối liên hệ của chúng sao cho các đối tượng trong cùng một cụm thì tương tự nhau còn các đối tượng thuộc các cụm khác nhau thì khác nhau Đây là một kỹ thuật học không giám sát trong máy học Phân cụm được ứng dụng rộng rãi trong lĩnh vực khác nhau như: khai phá dữ liệu,

xử lý ảnh, y học, kỹ thuật, phân tích thị trường…

Có nhiều nghiên cứu về các kỹ thuật và cách tiếp cận để giải quyết bài toán phân cụm nhưng chúng đều có mục tiêu là nâng cao chất lượng phân cụm

và tốc độ thực hiện của thuật toán Trong đó các thuật toán phân cụm dữ liệu bằng ứng dụng tập mờ đã nhận được sự quan tâm của nhiều nhà khoa học,đặc biệt là sự phát triển mạnh mẽ của tập mờ loại 2 đã đem lại hiệu quả, độ chính xác cao, khử độ không chắc chắn chắn trong ứng dụng thực tế

Khi chúng ta có nhiều tập dữ liệu có mối liên hệ với nhau thì việc phân cụm trong mỗi tập dữ liệu này sẽ có ảnh hưỏng, tác động đến việc phân cụm trên các tập dữ liệu khác.Tuy nhiên, vì nhiều lý do khác nhau như vấn đề tính riêng tư của dữ liệu, vấn đề bảo mật, vấn đế đường truyền mà các dữ liệu này không thể thực hiện phân cụm một cách tập trung.Khi đó, phương phápphân cụm cộng tác (Collaborative clustering) sẽ giải quyết được vấn đề trên bằng cách phân cụm tại từng tập dữ liệu con, sau đó thực hiện trao đổi thông tin về cấu trúc trên mỗi tập cho các tập dữ liệu còn lại và thực hiện bước phân cụm cộng tác để điều chỉnh kết quả phân cụm trên từng tập nhằm đạt được sự tương đồng về kết quả phân cụm của các tập dữ liệu

Trong thực tế, dữ liệu phân cụm thường có sự không chắc chắn và có nhiễu, nhiều dữ liệu có sự chia tách các cụm là không tuyến tính, nhiều loại dữ liệu có số chiều và kích thước lớn.Hiện nay có nhiều nhà khoa học quan tâm đến bài toán phân cụm cộng tác, tuy nhiên những vấn đề trên vẫn chưa có các

Trang 13

nghiên cứu và giải pháp một cách triệt để Đề tài “Phát triển một số mô hình phân cụm mờ cộng tác” nghiên cứu về mô hình phân cụm cộng tác và đề xuất một số cải tiến, mô hình mới giải quyết các yêu cầu trên

2 Mục tiêu nghiên cứu của luận án

Nghiên cứu bài toán phân cụm mờ cộng tác, các vấn đề còn tồn tại của phân cụm mờ cộng tác khi ứng dụng trong các bài toán thực tế và đề ra các mô hình, giải pháp nâng cao hiệu quả phân cụm, cụ thể là:

 Giải pháp cho vấn đề không rõ ràng, không chắc chắn của dữ liệu thực tế cần phân cụm

 Giải pháp cho vấn đề dữ liệu phức tạp, hình dạng và sự chia tách các cụm không tuyến tính

 Giải pháp cho vấn đề dữ liệu nhiều chiều, kích thước lớn, độ phức tạp tính toán cao thường gặp trong thực tế hiện nay

Các kỹ thuật được nghiên cứu để giải quyết cho các vấn đề trên có thể gồm: ứng dụng của tập mờ loại 2, các kỹ thuật nhân và đa nhân, tính toán hạt

và siêu điểm ảnh, kỹ thuật giảm chiều dữ liệu

Các giải pháp đề xuất cần được mô hình hóa, thuật toán hóa, có sự mô phỏng và thử nghiệm với các bộ dữ liệu thực tế để chứng minh tính hiệu quả

3 Đối tượng nghiên cứu

 Các thuật toán phân cụm mờ, tập mờ loại 1, loại 2 và loại 2 giá trị khoảng

 Mô hình và thuật toán phân cụm cộng tác

 Phương pháp nhân và các thuật toán phân cụm dựa trên phương pháp nhân

và tính toán hạt siêu điểm ảnh

 Phương pháp giảm chiều dựa trên phép chiếu ngẫu nhiên và ứng dụng trong bài toán phân cụm

Trang 14

4 Phạm vi nghiên cứu

 Nghiên cứu lý thuyết tập mờ loại 1, 2và các phương pháp giải mờ

 Nghiên cứu các thuật toán phân cụm dữ liệu và một số vấn đề liên quan trong bài toán phân cụm dữ liệu

 Nghiên cứu mô hình và thuật toán phân cụm mờ cộng tác

 Nghiên cứu và phát triển các kỹ thuật phân cụm mờ cộng tác trên cơ sở ứng dụng tập loại 2 giá trị khoảng, phương pháp nhân, tính toán hạt siêu điểm ảnh và kỹ thuật giảm chiều dữ liệu

 Tìm kiếm và phát triển một số ứng dụng mô hình phân cụm mờ cộng tác

5 Phương pháp nghiên cứu

Luận án sử dụng công cụ giải tích để thiết lập các phương trình tính toán, tìm kiếm lời giải tối ưu và xây dựng, chứng minh các định lý trong hệ mờ Ngoài ra, luận án cũng sử dụng phương pháp lập trình cài đặt các thuật toán với các bộ dữ liệu máy học và chỉ số đánh giá và thực tế nhằm so sánh kết quả nghiên cứu của luận án với các kết quả nghiên cứu khác để khẳng định tính hiệu quả của các giải pháp được đề xuất

Thực hiện nghiên cứu một cách có khoa học từ định hướng của giảng viên hướng dẫn với các công trình nghiên cứu đã công bố cùng lĩnh vực, phát hiện

ra các vấn đề cần giải quyết, đề ra giải pháp khắc phục, có chứng minh và thực nghiệm từ đó công bố kết quả trên các hội thảo và tạp chí có uy tín

6 Cấu trúc của luận án

Chương 1 Tổng quan về phân cụm mờ cộng tác: trình bày các kiến thức

và kết quả nghiên cứu đã được công bố liên quan tới phân cụm mờ cộng tác như bài toán phân cụm dữ liệu, phân cụm dữ liệu cộng tác; các loại thuật toán phân cụm và phân cụm mờ; thước đo khoảng cách; tính toán hat; siêu điểm ảnh; xác định số cụm và tâm cụm; chỉ số đánh giá kết quả phân cụm; kỹ thuật nhân;

kỹ thuật giảm chiều dữ liệu…

Trang 15

Chương 2.Phân cụm mờ loại 2 khoảng cộng tác: trình bày mô hình và thuật toán phân cụm giá trị khoảng cộng tác và các thử nghiệm minh họa tính hiệu quả của thuật toán

Chương 3.Một số cải tiến thuật toán phân cụm mờ cộng tác: trình bày mô hình ứng dụng kỹ thuật đa nhân trong giải quyết vấn đề phức tạp dữ liệu và chia tách cụm không tuyến tính, kết hợp với tính soán hạt siêu điểm ảnh có trọng số, ứng dụng kỹ thuật giảm chiều cho dữ liệu lớn bằng phương pháp chiếu ngẫu nhiên từ đó thực hiện phân cụm mờ cộng tác và các thử nghiệm

Phần kết luận nêu tóm tắt các vấn đề nghiên cứu, các mô hình phân cụm

mờ cộng tác được để xuất trong luận án cũng như các hướng nghiên cứu liên quan có thể mở rộng

Trang 16

CHƯƠNG 1 TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU

Phân tích dữ liệu đóng vai trò quan trọng trong nhiều ứng dụng thực tế hiện nay như y học, quảng cao, phân tích thị trường, trong xử lý ảnh, nhận dạng mẫu Đặc biệt trong kỷ nguyên cách mạng công nghiệp 4.0 và vạn vật kết nối hiện nay, lượng dữ liệu được tạo ra ngày càng nhiều, loại dữ liệu đa dạng thì càng cần có các công cụ tự động phân tích dữ liệu Phân cụm dữ liệu là một công cụ học không giám sát được ứng dụng rất phổ biến trong phân tích dữ liệu Chương này luận án trình bày những khái niệm cơ bản và tình hình nghiên cứu các vấn đề liên quan tới phân cụm dữ liệu, trong đó phân cụm mờ cộng tác được tìm hiểu và trình bày chi tiết

1.1 Giới thiệu phân cụm mờ cộng tác và một số kiến thức cơ sở

1.1.1 Phân cụm mờ

Thuật toán phân cụm sử dụng các lý thuyết tập mờ để phân hoạch các đối tượng vào các cụm được Dunn giới thiệu [2] và Bezdek tổng quát hóa thành thuật toán FCM [3] Thuật toán phân hoạch n đối tượng 𝑋 = {𝑥1, 𝑥2, … , 𝑥𝑛} ∈

𝑅𝑀 vào c cụm dựa trên tối thiểu hàm mục tiêu đo chất lượng phân hoạch và

tâm cụm Một phân hoạch mờ của n đối tượng X vào C cụm được biểu diễn

bằng ma trận 𝑈 = [𝑢𝑖𝑘] với 𝑢𝑖𝑘 là độ thuộc của đối tượng thứ k vào cụm i

𝑈𝑐𝑛 = [

𝑢𝑐1 ⋯ 𝑢𝑐𝑛] Hàm mục tiêu mờ được Dunn định nghĩa như sau:

Min 𝐽𝑚(𝑈, 𝑣) = ∑𝑛𝑘=1∑𝑐𝑖=1𝑢𝑖𝑘𝑑𝑖𝑘2Bezdek khái quát hóa hàm mục tiêu mờ bằng cách đưa ra trọng số mũ m 1,

là số thực như sau :

Min 𝐽𝑚(𝑈, 𝑣) = ∑𝑛𝑘=1∑𝑐𝑖=1𝑢𝑖𝑘𝑚𝑑𝑖𝑘2Trong đó:

Trang 17

1, 

m  là trọng số mũ hay còn gọi là tham số mờ

v là vector tâm cụm với 𝑣𝑖 ∈ 𝑅𝑀là trọng tâm của cụm thứ i

d ik là khoảng cách theo thước đo Euclide giữa mẫu dữ liệu x k với trọng tâm

cụm thứ i là v i và được tính bằng công thức sau:

1/2 2 1

2 𝑚−1 𝑐

𝑗=1

(1.6)

𝑣𝑖 =∑𝑛𝑘=1𝑢𝑖𝑘𝑚𝑥𝑘

∑𝑛𝑘=1𝑢𝑖𝑘𝑚 (1.7) 𝑉ớ𝑖 1 ≤ 𝑖 ≤ 𝑐, 1 ≤ 𝑘 ≤ 𝑛

Thuật toán phân cụm mờ FCM thực hiện việc lặp lại tính toán giá trị u và

v và được mô tả như sau :

Thuật toán 1.1 Phân cụm mờ FCM

số mờ m (1<m<+ ) và sai số , số lần lặp tối đa max

Đầu ra: Kết quả phân cụm

Khởi tạo:

Tâm cụm V;

τ=0 //Đếm số vòng lặp

REPEAT

Tính toán giá trị tâm cụm v theo công thứ (1.7);

Cập nhật giá trị ma trận hàm thộcu ci theo công thức (1.6);

τ=τ+1;

Trang 18

UNTIL (( J( )nJ(n1)   ) hoặc ( max))

1.1.2Phân cụm mờ cộng tác

Một hướng của phân cụm dữ liệu nhận được nhiều quan tâm của các nhà nghiên cứu trong thời gian gần đây là bài toán phân cụm cộng tác, trong đó xem xét đến mối liên hệ cấu trúc tương tự của các tập dữ liệu Trước khi xét đến mô hình của bài toán phân cụm cộng tác, ta xét ví dụ sau: các công ty thường thu thập thông tin về khách hàng của mình (ví dụ các cửa hàng hoặc ngân hàng…)

và lưu trữ trong cơ sở dữ liệu Đây là các thông tin nhạy cảm và các công ty này thường không chia sẻ trực tiếp thông tin chi tiết này cho nhau, tuy nhiên họ đều có nhu cầu phân tích để tìm ra điểm chung trong cấu trúc, phân nhóm các khách hàng này Giải pháp cho vấn đề trên là sử dụng thuật toán phân cụm tìm

ra các nhóm khách hàng trong cơ sở dữ liệu của từng công ty, sau đó trao đổi thông tin về cấu trúc hay thông tin về cụm với nhau, cách làm này có thể đảm bảo được vấn đề bảo mật thông tin nhưng vẫn giải quyết được mong muốn chia

sẻ, cộng tác, trao đổi về cấu trúc giữa các cơ sở dữ liệu Ngoài ví dụ trên, còn nhiều tình huống khác như vấn đề đường truyền, sự phức tạp trong tính toán

mà việc phân cụm cần thực hiện tại những tập dữ liệu riêng biệt nhưng cấu trúc, mẫu lại được trao đổi với nhau Một ví dụ về dữ liệu và kết quả của việc phân cụm cộng tác khi có nhiều tập dữ liệu và các tập đó có sự cộng tác trong quá trình phân cụm được mô tả trong Hình 1.1 Theo đó, nếu thực hiện phân cụm riêng lẻ từng tập dữ liệu ta sẽ có kết quả như hình (a), nếu thực hiện quá trình phân cụm cộng tác để điều chỉnh sẽ cho kết quả như hình (b) Rõ ràng nếu nhìn toàn cục dữ liệu của cả 2 tập dữ liệu ta sẽ thấy kết quả hình (b) hợp lý hơn và hình dạng của cấu trúc cụm của 2 tập có sự tương đồng

Trang 19

Hình 1.1 Kết quả phân cụm (a) trước cộng tác, (b) sau khi cộng tác Phân cụm cộng tác là công cụ tìm ra những cấu trúc và đặc điểm tương đồng giữa các dữ liệu nằm trên nhiều khu vực riêng biệt dựa trên cách mở rộng hàm mục tiêu và cách tiếp cận phân cụm mờ của thuật toán FCM Có 2 đặc điểm của phân cụm mờ cộng tác, một là thông tin chi tiết trong các tập dữ liệu không thể trao đổi với nhau mà chỉ có thể trao đổi thông tin về cấu trúc, hai là cần xem xét việc phân cụm mờ ở tập dữ liệu này có tác động tới việc phân cụm

ở các tập dữ liệu khác, thông tin cấu trúc các cụm trong từng tập dữ liệu là có ích trong việc phân cụm tại các tập dữ liệu còn lại [1]

Mô hình trao đổi thông tin cấu trúc hay cộng tác giữa các tập dữ liệu được mô tả như Hình 1.2, trong đó các tập dữ liệu không trực tiếp trao đổi dữ liệu chi tiết mà chỉ chia sẻ thông tin cấu trúc là vector tâm cụm v[ii] Một cách

tự nhiên là khi cộng tác kết quả phân cụm nhìn ở mức tổng thể các tập dữ liệu

sẽ tốt hơn kết quả phân cụm chỉ dựa trên dữ liệu cục bộ tại từng tập dữ liệu

Trang 20

Hình 1.2 Mô hình phân cụm mờ cộng tác

Giả sử có P tập dữ liệu D[1], D[2], ,D[P], trong đó chứa N[1],

N[2], ,N[P] mẫu dữ liệu trong cùng không gian thuộc tính X Trong mỗi tập

dữ liệu D[ii] ta phân thành c cụm Kết quả phân cụm ở mỗi tập dữ liệu lại tác

động tới việc phân cụm ở các khu vực còn lại, chúng ta gọi quá trình này là sự cộng tác giữa và phân cụm mờ cộng tác

Bài toán phân cụm mờ cộng tác có hàm mục tiêu cần tối ưu là:

1 1

2 2 2

2 ]

ii N

k C

i

ik ik

ik ik

sự sai khác giữa các ma trận phân hoạch giảm dần

Trong hàm mục tiêu trên[𝑢𝑖𝑘[𝑖𝑖]]là ma trận phân hoạch đối tượng k vào cụm i trong tập dữ liệu ii, [ u [ii|jj]] được gọi là ma trận phân hoạch cộng tác

của tập dữ liệu jj lên tập dữ liệu ii và được tính theo công thức [1]:

2

1

= | [ ] [ ] |

| ] [ ] [

|

1

= ]

i k c j ik

(1.2)Min

Trang 21

Tham số 𝛽 thể hiện mức độ cộng tác giữa các tập dữ liệu, giá trị càng lớn thì mức độ cộng tác càng cao, giá trị 𝛽 = 0 thể hiện giữa các tập dữ liệu không

]

| [

~

1)) ( (1

]

| [

~ 1

/

1

= ]

1

= 2

2 1

jj ii u d

d

ii

u

rs P

ii jj jj js

P

ii jj jj c

j js rs c

[ 1

= 1,

= 2

] [ 1

=

2 ]

[ 1

= 1,

= 2

] [ 1

=

])

| [

~ ] [ ( ]

[

])

| [

~ ] [ ( ]

u

x jj ii u ii u x

ii u ii

v

rk rk

ii N

k P

ii jj jj rk

ii N

k

kt rk

rk

ii N

k P

ii jj jj kt rk

ii N

k rt

1.1.3.1 Tập mờ loại 1 (Type 1 Fuzzy Sets - FS)

Trong lý thuyết tập hợp cổ điển (Crisp set), quan hệ thành viên của các

phần tử đối với một tập hợp được đánh giá theo kiểu nhị phân một cách rõ ràng: mỗi phần tử x của tập cơ sở X là chắc chắn thuộc tập A hoặc chắc chắn không thuộc tập A Như vậy, để xem một phần tử có là thành viên của tập A hay không, ta gán cho phần tử đó giá trị 1 nếu phần tử đó chắc chắn thuộc A, và giá trị 0 nếu nó không thuộc về tập hợp A, tức là ta có thể xây dựng một hàm thành viên (hay hàm thuộc) để đánh giá một phần tử có thuộc tập A hay không :

∀𝑥 ∈ 𝑋, 𝜇(𝑥) = {1 𝑖𝑓 𝑥 ∈ 𝐴

0 𝑖𝑓 𝑥 ∉ 𝐴

Rõ ràng, hàm thuộc μ A sẽ xác định tập con cổ điển A trên tập cơ sở X với

μ A chỉ nhận giá trị trong tập hợp {0, 1}

Trang 22

Ngược lại, lý thuyết tập mờ cho phép đánh giá nhiều mức độ khác nhau

về khả năng một phần tử có thể thuộc về một tập hợp Ta cũng dùng một hàm

thành viên (hàm thuộc) để xác định các mức độ mà một phần tử x thuộc về tập

A :∀𝑥 ∈ 𝑋, 0 ≤ 𝜇(𝑥) ≤ 1

Định nghĩa 1.1.Cho X là một tập cơ sở, tập mờ A trên X được xác định bởi

hàm thuộc gán cho mỗi phần tử x của X là μ A (x), với 0 ≤ μ A (x) ≤1, để chỉ mức

độ mà phần tử x thuộc về tập mờ A Nói cách khác, tập con mờ A trên X được xác định bởi ánh xạ :

𝜇𝐴 ∶ 𝑋  [0, 1]

Như vậy định nghĩa của tập mờ là một mở rộng đơn giản của định nghĩa tập cổ điển trong đó hàm thuộc có độ thuộc giữa 0 và 1 Nếu giá trị của hàm thuộc A x được đưa về chỉ có 0 và 1, khi đó A chính là tập cổ điển và A x

, nếu X là không gian liên tục

Xét tập X gồm 5 người x 1 , x 2 …, x 5 thi toán và có điểm tương ứng là 6, 7…,

10 Gọi A là tập những người giỏi toán, ta có thể xây dựng hàm thuộc cho tập

A như sau:

μ A : μ A (x 1 ) = 0,6; μ A (x 2 ) = 0,7; μ A (x 3 ) = 0,8; μ A (x 4 ) = 0,9; μ A (x 5 ) = 1

Ta có thể biểu diễn tập mờ A như sau:

A = {0,6/x 1 ; 0,7/x 2 ; 0,8/x 3 ; 0,9/x 4 ; 1/x 5 }

Nếu ta gọi B là tập những người có điểm lớn hơn 8 thì ta có B là tập rõ B=

{x 4 , x 5 ) Tuy nhiên ta cũng có thể biểu diễn B dưới dạng tập mờ con trên X như

sau:

B= {0/x 1 ; 0/x 2 ; 0/x 3 ; 1/x 4 ; 1/x 5 }

Trang 23

1.1.3.2 Tập mờ loại 2 (Type 2 Fuzzy Sets - T2FS)

Tập mờ loại 1 có hàm thuộc là một giá trị rõ còn tập mờ loại 2 có hàm thuộc là một giá trị mờ Tập mờ loại 2 được sử dụng khi ta không thể xác định chính xác giá trị hàm thuộc của tập mờ, nó có ưu điểm là cho phép biểu diễn các giá trị độ thuộc bằng các giá trị mờ

Trong hình 1.3 bên dưới, hàm thuộc tam giác loại 1 trong hình (a) được

mờ hóa bằng cách di chuyển các điểm trên nó sang bên trái hoặc bên phải, với

số giá trị mờ hóa khác nhau như hình (b) ta được hàm thuộc loại 2

Hình 1.3 Hàm thuộc: (a) loại 1 và (b) loại 2

thuộc loại hai A( , )x u , trong đó x X và u J x  [0,1]

Trang 24

1.1.3.3 Tập mờ loại 2 khoảng (Interval Type 2 Fuzzy Sets - IT2FS)

Một trường hợp đặc biệt của tập mờ loại hai là tập mờ loại hai khoảng, chúng được sử dụng rộng rãi vì không phức tạp trong tính toán như trong tập

mờ loại hai

loại hai A ở trên được gọi là tập mờ loại hai khoảng:

1.1.3.4 Tập mờ giá trị khoảng (Interval – valued Fuzzy Sets)

Tập mờ giá trị khoảng được Sambuc [97] đưa ra năm 1975 và nhiều tác giả hoàn thiện trong đó Gorzalczany [98] và Turksen [99] đã định nghĩa đầy đủ các khái niệm liên quan tới tập mờ giá trị khoảng như sau:

Định nghĩa 1.4: Tập mờ giá trị khoảng A trên tập cơ sở X được xác định bởi

hàm thuộc gán cho mỗi phần tử x của X là 𝜇𝐴(𝑥) = [𝜇̅ 𝐴(𝑥), 𝜇𝐴(𝑥)], với 0≤

𝜇̅ 𝐴(𝑥), 𝜇𝐴(𝑥) ≤ 1,𝜇̅ 𝐴(𝑥), 𝜇𝐴(𝑥) lần lượt được gọi là độ thuộc trên và độ thuộc

dưới của hàm thuộc 𝜇.

Có thể thấy tập mờ giá trị khoảng là một trường hợp đặc biệt của tập mờ loại 2 khoảng, mối liên hệ giữa các tập mờ được thể hiện trong hình 1.4[5]

Trang 25

Hình 1.4 Mối liên hệ giữa các loại tập mờ

1.1.4 Khoảng cách trong phân cụm

Kỹ thuật phân cụm nhằm nhóm các đối tượng tương tự nhau vào một cụm

và một trong những vấn đề cần xác định là 2 đối tượng như thế nào là tương tự

hoặc không tương tự nhau Giả sử hai đối tượng x i và x j gồm M thuộc tính, được biểu diễn bởi vector x i =(x i1 ,x i2 ,…,x iM ) và x j =(x j1 ,x j2 ,…,x jM ) Có hai cách đo phổ

biến là đo khoảng cách và đo độ tương tự, sau đây là một số độ đo khoảng cách

và tương tự thường được sử dụng

b Độ đo khoảng cách cho thuộc tính có giá trị nhị phân

Công thức trên dễ dàng tính khoảng cách giữa các đối tượng có thuộc tính kiểu số liên tục, khi thuộc tính có giá trị kiểu nhị phân, phân loại, hoặc trộn lẫn của nhiều loại giá trị thì độ đo khoảng cách cần xác định lại

Khi thuộc tính của 2 đối tượng là giá trị nhị phân, khoảng cách giữa các đối tượng có thể xác định như sau:

𝑑(𝑥𝑖, 𝑥𝑗) = 𝑟 + 𝑠

𝑞 + 𝑟 + 𝑠 + 𝑡

Trang 26

Trong đó q là số thuộc tính bằng nhau và bằng 1 của 2 đối tượng, t là số thuộc tính bằng nhau và bằng không của 2 đối tượng, r và s là số thuộc tính

không bằng nhau và bằng 1 và 0 của 2 đối tượng

c Độ đo khoảng cách cho thuộc tính không phải giá trị số

Khi thuộc tính của 2 đối tượng là các giá trị định danh, độ đo khoảng cách giữa 2 đối tượng xác định như sau:

𝑑(𝑥𝑖, 𝑥𝑗) =𝑀 − 𝑚

𝑀

Trong đó M là số thuộc tính của đối tượng, m là số thuộc tính trùng nhau

của 2 đối tượng

1.1.4.2 Độ đo tương tự

a Độ đo Cosine

Khi 2 đối tượng được biểu diễn bằng 2 vector với các giá trị thuộc tính dạng

số, góc giữa 2 vector xác định mức độ tương tự của 2 đối tượng, ta có độ đo tương tự Cosine:

1.1.5 Chỉ số đánh giá chất lượng phân cụm

Đánh giá một kết quả phân cụm là tốt hay xấu là vấn đề rất khó khăn và cũng không có một phương pháp đánh giá tổng quát nào cho chất lượng phân cụm, bên cạnh đó phân cụm thuộc dạng bài toán học không giám sát và thường không có dữ liệu mẫu đã gán nhãn Tuy nhiên cũng đã có nhiều đề xuất về các chỉ số đánh giá phân cụm [6][7][8][9][10][11][12], các chỉ số này thường được chia làm 2 nhóm: chỉ số đánh giá trong (Internal Quality Criteria) và chỉ số

Trang 27

đánh giá ngoài (External Quality Criteria) Chỉ số đánh giá được sử dụng trong việc xem xét chất lượng của kết quả phân cụm, so sánh các cách phân cụm khác nhau, xác định số cụm tối ưu…

1.1.5.1 Chỉ số đánh giá trong (Internal Quality Criteria)

Chỉ số đánh giá bên trong thường đo độ nén của cụm dữ liệu, nó có thể đo tính đồng nhất trong mỗi cụm hoặc độ chia tách giữa các cụm hoặc kết hợp cả hai đặc điểm này Tuy nhiên nó không sử dụng thông tin từ bên ngoài mà chỉ

sử dụng thông tin của dữ liệu dùng phân cụm Một số chỉ số đánh giá trong thường dùng như sau

Giả sử dữ liệu cần phân thành c cụm gồm n đối tượng, số đối tượng trong cụm thứ k là n k , tâm cụm thứ k là v k

a Sum of Squared Error (SSE)

SSE là chỉ số đánh giá đơn giản nhất nhưng cũng thường xuyên được sử dụng, tính toán dựa trên khoảng cách từ các đối tượng tới tâm cụm của nó được định nghĩa như sau:

là ma trận phân hoạch thành viên của đối tượng j trong cụm i

b Dunn’s Index (DI)

Chỉ số này được định nghĩa dựa theo hình dạng của cụm dữ liệu gồm độ nén và chia tách và được tính như sau:

𝐷𝐼 = min

1≤𝑖≤𝑐{ min

1≤𝑗≤𝑐,𝑗#𝑖{ 𝜎(𝐴𝑖, 𝐴𝑗)

max1≤𝑘≤𝑐(∆(𝐴𝑘))}}

Với Ai là tập các phần tử thuộc cụm thứ i:

Trang 28

𝜎(𝐴𝑖, 𝐴𝑗) = min

1≤𝑖≤𝑐{𝑑(𝑥𝑖, 𝑥𝑗|𝑥𝑖 ∈ 𝐴𝑖, 𝑥𝑗 ∈ 𝐴𝑗}

∆(𝐴𝑘) = max{𝑑(𝑥𝑖, 𝑥𝑗|𝑥𝑖, 𝑥𝑗 ∈ 𝐴𝑘}

c Davies-Bouldin’s Index (DBI)

Chỉ số này đo tỉ lệ giữa tổng sự phân tán dữ liệu trong mỗi cụm và phân tán giữa các cụm

Độ phân tán trong mỗi cụm i với |Ai| là số phần tử của cụm i, q là một số nguyên

dương được định nghĩa như sau:

1≤𝑗≤𝑐,𝑗#𝑖{𝑆𝑖,𝑞+𝑆𝑗,𝑞

𝐷𝑖𝑗 } ta có chỉ số DBI được tính như sau:

𝐷𝐵𝐼𝑞 =1

𝑐∑ 𝑅𝑖,𝑞𝑐

𝑖=1

d Partition Coefficient Index (PCI)

Chỉ số PCI phản ánh sự lấn lên nhau của các cụm dữ liệu, được định nghĩa như sau:

Trong đó u ij là độ thuộc của đối tượng j trong cụm i

e Classification Entropy Index (CEI)

Tương tự chỉ số PCI, chỉ số CEI phản ánh sự mờ hóa của ma trận phân hoạch các cụm dữ liệu

Trang 29

f Xie and Beni Index (XBI)

Chỉ số XBI định nghĩa theo hàm mục tiêu trong các thuật toán phân cụm và khoảng cách giữa 2 cụm gần nhất trong tập dữ liệu, chỉ số này có thể áp dụng cho cả các thuật toán phân cụm rõ và mờ:

2‖xj− vi‖2

n j=1

c i=1

khoảng cách trung bình tới các điểm của cụm gần cụm i nhất

Chỉ số SoI của toàn tập dữ liệu sẽ là:

𝑆𝑜𝐼 = 1

𝑛∑ 𝑆𝑜𝐼𝑗𝑛

𝑖=1

Chỉ số SoI dùng cho phân cụm mờ ký hiệu FsoI được định nghĩa như sau:

𝐹𝑆𝑜𝐼 = ∑ (𝑢𝑟𝑗 − 𝑢𝑞𝑗)𝑆𝑜𝐼𝑗

𝑛 𝑖=1

∑𝑛𝑖=1(𝑢𝑟𝑗 − 𝑢𝑞𝑗)

1.1.5.2 Chỉ số đánh giá ngoài (External Quality Criteria)

Chỉ số này dùng để so sánh sự tương đồng giữa 2 ma trận phân hoạch Giả

sử ta có 2 ma trận phân hoạch P1 và P2, chỉ số ngoài sẽ phụ thuộc và việc các

cặp đối tượng thuộc về cùng 1 cụm hay không trên hai phân hoạch trên với 4 khả năng là:

Hai đối tượng thuộc cùng 1 cụm trong cả P1 và P2

Trang 30

Hai đối tượng thuộc cùng 1 cụm trong P1 nhưng không cùng trong P2 Hai đối tượng thuộc cùng 1 cụm trong P2 nhưng không cùng trong P1 Hai đối tượng không cùng 1 cụm trong cả P1 và P2

Ta ký hiệu các khả năng trên tương ứng là yy, yn, ny, nn (y ký hiệu cho yes, n ký hiệu cho no) Một số chỉ số ngoài thường được sử dụng gồm:

a Czekanowski-Dice Index (CDI)

2yy + yn + ny

b Folkes-Mallows Index (FMI)

√(yy + yn)(yy + ny)

c Jaccard Index (JI)

Chỉ số này sử dụng khi ta có dữ liệu đã biết nhãn trước và muốn kiểm tra độ

chính xác của thuật toán phân cụm, nó là tỉ lệ số đối tượng phân cụm đúng m trên tổng số dữ liệu n:

𝑛

1.2 Tổng quan về phân cụm mờ cộng tác

Phần này của luận án trình bày một số khái niệm cơ bản và phân tích tình hình nghiên cứu về phân cụm mờ hiện nay, trong đó tập trungkhảo cứu các kết quả liên quan tới hướng nghiên cứu của luận án là phân cụm mờ cộng tác và

Trang 31

một số kỹ thuật ứng dụng để nâng cao chất lượng và hiệu quả phân cụm như:

kỹ thuật nhân, đa nhân; kỹ thuật tính toán hạt, siêu điểm ảnh; kỹ thuật giảm chiều dữ liệu và phân cụm dữ liệu lớn

1.2.1Tổng quan về phân cụm mờ

Phân cụm là kỹ thuật nhóm các đối tượng vào các cụm dựa trên thông tin của các đối tượng và mối liên hệ của chúng sao cho các đối tượng trong cùng một cụm thì tương tự nhau còn các đối tượng khác thuộc các cụm khác nhau thì khác nhau

Phân tích cụm được trình bày và sử dụng rất sớm trong lĩnh vực nhân học

và sau đó được mở rộng sang lĩnh vực tâm lý học bởi Zubin năm 1938[13],Robert Tryon năm 1939[14] và được sử dụng thường xuyên trong lý thuyết về tính cách

Trong phân tích dữ liệu, phân cụm có thể được sử dụng với nhiều vai trò khác nhau như: hỗ trợ giai đoạn tiền xử lý dữ liệu; mô tả sự phân bố dữ liệu/đối tượng; nhận dạng mẫu; phân tích dữ liệu không gian; xử lý, phân đoạn ảnh; phân mảnh thị trường ; gom cụm tài liệu…

Với tư cách là một chức năng khai phá dữ liệu, phân cụm có thể được sử dụng như một công cụ độc lập để quan sát đặc trưng phân bố của dữ liệu, tìm

ra tập riêng biệt các đối tượng trong cụm để giúp cho việc phân tích đạt kết quả tốt hơn

Tập mờ được L.A Zadeh đề xuất và công bố năm 1965 [15] bằng bài báo

“Fuzzy Sets” trên Tạp chí Information and Control Với ý tưởng dùng khái niệm toán học để mô tả các khái niệm trừu tượng, không rõ ràng về ngữ nghĩa thông tin, không chắc chắn như lớn - bé, gầy - béo, cao-thấp, , được gọi là tập

mờ, đây là một sự khái quát trực tiếp của khái niệm tập hợp kinh điển

Trong các bài toán phân cụm thực tế, sự tách biệt giữa các cụm có thể không rõ ràng, các cụm có thể chồng lên nhau, một số đối tượng dữ liệu có thể

Trang 32

vừa thuộc cụm này vừa thuộc cụm khác Điều này phù hợp với các khái niệm trong lý thuyết tập mờ, vì vậy việc áp dụng lý thuyết về tập mờ trong phân cụm

dữ liệu để giải quyết cho trường hợp này có thể mang lại hiệu quả tốt hơn, đây

là phương phápphân cụm mờ Nói cách khác, phân cụm mờ là phương pháp phân cụm dữ liệu mà cho phép mỗi điểm dữ liệu thuộc về hai hoặc nhiều cụm thông qua hàm thành viên thể hiện độ thuộc Khái niệm về phân hoạch mờ được Ruspini giới thiệu để mô tả cấu trúc cụm của tập dữ liệu và đưa ra thuật toán tính toán tối ưu phân hoạch mờ Dunn mở rộng phương pháp phân cụm này và phát triển thuật toán phân cụm mờ[2] với ý tưởng xây dựng phương pháp phân cụm mờ dựa trên tối thiểu hóa hàm mục tiêu Bezdek [16]cải tiến và tổng quát hóa hàm mục tiêu mờ bằng cách đưa ra trọng số mũ và chứng minh độ hội tụ của các thuật toán là cực tiểu cục bộ

Trong thực tế dữ liệu đầu vào cho bài toán phân cụm thường có nhiễu và không chắc chắn, nhiều tác giả đã nghiên cứu phát triển các thuật toán phân cụm sử dụng tập mờ loại 2 để giải quyết vấn đề trên [17][18] Mendel và Karnik

đã phát triển lý thuyết tập mờ loại 2 và các phép toán trên đó, nó đã khắc phục được những nhược điểm của tập mờ loại 1 trong xử lý những vấn đề không chắc chắn của dữ liệu bằng cách định nghĩa hàm thuộc là một giá trị mờ Một nhánh được nghiên cứu và ứng dụng rộng rãi do tính khả thi và dễ cài đặt của tập mờ loại 2 là tập mờ loại 2 giá trị khoảng[19][20]

Nghiên cứu về tập mờ, hệ mờ và các ứng dụng cũng đã được nhiều nhà nghiên cứu ở Việt Nam thực hiện như nhóm của Giáo sư Nguyễn Cát Hồ [94,96], nhóm của Giáo sư Trần Đình Khang [95,96] Đặc biệt là nhóm của PGS Lê Hoàng Sơn với nhiều công bố liên quan hướng phân cụm mờ sử dụng tập mờ loại 1, loại 2, tập mờ ảnh và tập mờ trực cảm với nhiều ứng dụng trong lĩnh vực ảnh y tế, ảnh vệ tinh , mạng cảm biến [90-93]

Trang 33

có sự chồng lấn giữa các cụm còn tập thô điều chỉnh sự ảnh hưởng của sự không chắc chắn bằng xấp xỉ trên và dưới[21], tuy nhiên các tác giả cũng chỉ ra rằng việc giải quyết vấn đề sự hỗn tạp của dữ liệu và các thuộc tính dữ liệu vẫn là những thách thức cần nghiên cứu thêm

Nhằm nâng cao tốc độ và chất lượng phân cụm, Prasad[22] và Yu [23]

đề xuất bổ sung thêm bước tiền xử lý vào mô hình cộng tác của Pedrycz bằng cách tái sắp xếp lại thứ tự các cụm trong mỗi tập dữ liệu cho thống nhất trên toàn bộ các tập dữ liệu, tuy nhiên cả 2 đề xuất này đều yêu cầu mức độ cộng tác giữa các tập dữ liệu cần được truyền như tham số đầu vào của thuật toán,

sử dụng các giải thuật tiến hóa và bầy đàn là những hướng tiếp cận trong tương lai mà các tác giả đề xuất để xác định tham số đầu vào của thuật toán

Nhóm các nhà khoa học Fusheng Yu, Juan Tang và Ruiqiong Cai tập trung nghiên cứu và đề xuất ứng dụngphân cụm cộng tác theo chiều ngang cho các tập dữ liệu không cùng không gian thuộc tính[24], nhóm cũng mở rộng thuật toán bằng cách sử dụng phương pháp gán nhãn đối tượng theo ngưỡng hoặc theo entropy sau đó sự dụng nhãn này trong quá trình cộng tác gọi là phân cụm cộng tác có giám sát từng phần [25]

Nhóm Sublime đề xuất hướng giải quyết bài toán phân cụm cộng tác theo chiều dọc sử dụng kỹ thuật máy họcsinh bản đồ cấu trúc (Generative

Trang 34

Topographic Map – GTM) trong việc tìm ra các cụm tương tự các từng tập dữ liệu[26]

Nghiên cứu về việc lựa chọn tập dữ liệu và đối tượng nào tham gia vào tính toán cộng tác cũng được nhóm Parisa nghiên cứu trong mô hình phân cụm cộng tác sử dụng mạng nơron[27]

Phân cụm dữ liệu mờ cộng tác cũng được nghiên cứu ứng dụng trong bài toán môi trường mạng phân tán[28], trong đó hàm mục tiêu sử dụng trọng số cho các thuộc tính.Thuật toán không sử dụng 2 pha tính toán như mô hình đề xuất bởi giáo sư Pedrycz mà chỉ gồm 1 pha lặp lại việc tính toán ma trận phân hoạch và điều chỉnh trọng số cho đến khi tối ưu Hàm mục tiêu của thuật toán trong [28]gồm 2 phần, phần đầu tương tự như đề xuất mô hình của Pedrycz giống với thuật toán FCM, phần thứ 2 tỉ lệ ngược với entropy của trọng số thuộc tính và phần này giúp tối ưu sự đóng góp của các thuộc tính quan trọng trong quá trình cộng tác Trong công bố này Zhou cũng đề xuất mô hình nhân cho thuật toán đề xuất trên để giải quyết vấn đề cấu trúc cụm không phải hình cầu Trong kết luận của mình nhóm cũng chỉ ra tồn tại cần giải quyết khi số cụm trong các tập con là bằng nhau và cần tiếp tục nghiên cứu các giải pháp để xác định số cụm trong quá trình khởi tạo cũng như một số giải pháp kết hợp bán giám sát bằng cách sử dụng các kỹ thuật heuristic

Một hướng ứng dụng của phân cụm cộng tác cũng được nhóm Y Jiang

đề xuất là khi dữ liệu có nhiều khung nhìn theo các thuộc tính khác nhau, có thể áp dụng mô hình cộng tác giữa nhiều khung nhìn này [29], nghiên cứu này cũng mở rộng bằng cách đề xuất mô hình trọng số cho từng khung nhìn trong hàm mục tiêu

Thuật toán phân cụm cộng tác lai tính toán hạt cũng được nhóm của Z Han nghiên cứu ứng dụng trong bài toán dự đoán dung lượng thiết bị lưu trữ khí gas trong thời gian dài[30], theo đó không gian chiều ngang mô tả dung lượng thiết bị lưu trữ trong nhiều thời gian khác nhau và không gian chiều dọc

Trang 35

mô tả các yếu tố ảnh hưởng sau đó sử dụng mô hình phân cụm cộng tác để dự đoán các thiết bị lưu trữ cần sử dụng

Yan Liu trình bày phương pháp phân cụm mờ cộng tác cho dữ liệu khoảng có quy mô lớn [31], trong đó phát triển thuật toán phân cụm cộng tác cho tập dữ liệu khoảng gồm các đối tượng được mô tả bằng nhiều thuộc tính khác nhau, tiếp theo nhóm Yan phát đề xuất ứng phân cụm cho tập dữ liệu khoảng quy mô lớn bằng cách chia thành nhiều tập dữ liệu nhỏ hơn để phân cụm và thực hiện tiếp quá trình cộng tác Hai kỹ thuật phân cụm có nhiều điểm tương đồng với phân cụm cộng tác cũng được nghiên cứu nhiều trong thời gian gần đây một là phân cụm tổng hợp (Ensemble Clustering) trong đó dữ liệu được phân cụm theo nhiều cách khác nhau sau đó được các kết quả này được tổng hợp để đạt được chất lượng tốt nhất [32], hai là tìm cách xây dựng một ma trận phân hoạch duy nhất sao cho có sự sai khác ít nhất với các ma trận phân hoạch

đã có của dữ liệu (Fuzzy Consensus Clustering) [33]

Trong nghiên cứu của mình, Zhaohong Deng cũng đưa ra một hướng tương tự phân cụm cộng tác là phân cụm dựa trên trao đổi mẫu [34]

Nhóm Shen cải tiến bằng cách tái sắp xếp ma trận phân hoạch và sử dụng ma trận phân hoạch hạt kết hợp phân tích ảnh hưởng kết nối giữa các tập

dữ liệu cho mô hình phân cụm cộng tác theo chiều dọc[35], tuy nhiên nghiên cứu này dựa trên giả định rằng số cụm trong các tập dữ liệu cũng như mức độ cộng tác giữa các tập là như nhau

1.2.3 Phân cụm dữ liệu lớn

1.2.3.1 Dữ liệu lớn

Trong thời đại số ngày nay, chúng ta đối diện với khối lượng thông tin và

dữ liệu khổng lồ được tạo ra hàng ngày từ rất nhiều nguồn khác nhau bởi con người, internet vạn vật và sự tương tác giữa con người với chúng Việc phân tích các giữ liệu mang lại nhiều thông tin hữu ích từ nguồn như Facebook, Twitter, Google, Wikipedia…hoặc hệ thống các cảm biến trong hầu hết các

Trang 36

thiết bị điện tử Mặc dù vậy, nó cũng là vấn đề cần giải quyết cho các bài toán

xử lý trên đó mà nhiều cách tiếp cận với dữ liệu thông thường trước đây không thể áp dụng được Dữ liệu này cần bộ nhớ lớn hơn, các tính toán xử lý, phân tích và khai phá thông tin đòi hỏi thời gian và tài nguyên khổng lồ Trong bảng 1.1 [36] Bezdek và Hathaway đưa ra cách phân loại dữ liệu lớn, có thể thấy với

lưu trữ sẽ đòi hỏi 40TB bộ nhớ là điều không thể với hầu hết các hệ thống máy tính hiện nay

Bảng 1.1 Phân loại dữ liệu lớn

(medium)

Lớn (large)

Rất lớn (huge)

Khổng lồ (monster)

Siêu lớn (very large)

Các thách thức trong xử lý dữ liệu lớn do chính đặc tính của chúng và được nhiều nhà nghiên cứu dữ liệu chỉ ra, một số cho rằng dữ liệu lớn có 3 đặc điểm gọi là 3V (volume, velocity and variety), trong [37] nhóm Gandomi bổ sung thêm các đặc tính dữ liệu lớn thành 6V (volume, velocity, variety, veracity, variability, value)

Như đã trình bày trên, việc phân tích dữ liệu lớn mang lại nhiều thông tin hữu tích và một trong những kỹ thuật được sử dụng phổ biến là phân cụm dữ liệu, trong [38] chỉ ra có rất nhiều thuật toán phân cụm dữ liệu lớn đã được đề xuất dựa trên nhiều lý thuyết và ứng dụng khác nhau, mỗi thuật toán có những

ưu và nhược điểm và các thuật toán theo mô hình phân hoạch thường được áp dụng do yêu cầu tính toán thấp hơn Có 2 cách tiếp cận để giải quyết bài toán phân cụm dữ liệu lớn: một số thực hiện việc phân cụm trên toàn bộ dữ liệu, ví dụ một số thuật toán cải tiến từ thuật toán FCM như: LFCM/AO (literal Fuzzy c-Means with alternating optimization) [36], thuật toán SPFCM (Single Pass FCM) hay OFCM (Online FCM) các thuật toán này chia dữ liệu thành các tập nhỏ và phân từng tập dữ liệu con thành c cụm, tuy nhiên cách làm này phụ

Trang 37

thuộc nhiều vào việc chia các tập dữ liệu con, có thể xảy ra trường hợp một tập con chỉ chứa các phần tử của một số cụm nào đó; một cách tiếp cận khác là lấy mẫu dữ liệu từ tập dữ liệu lớn và thực hiện phân cụm sau đó kết quả được mở rộng xấp xỉ cho phần dữ liệu còn lại thông qua tâm cụm tìm được, ví dụ thuật toán rseFCM (random sampling plus extension Fuzzy c-Means) [36] hay thuật toán RSIO-FCM (Random Sampling with Iterative Optimization Fuzzy c-Means) [39], cách này cũng phụ thuộc nhiều vào kết quả lấy mẫu dữ liệu và kết quả phân cụm có thể không tốt nếu một mẫu chỉ lấy dữ liệu tử một hoặc vài cụm Sử dụng thuật toán FCM xác suất bậc cao kết hợp với nén thuộc tính mẫu bằng mạng đào tạo tensors để phân cụm dữ liệu lớn trong môi trường IoT với các thiết bị đầu cuối có cấu hình thấp cũng được nghiên cứu và cho kết quả tốt [40]

1.2.3.2 Một số thuật toán phân cụm dữ liệu lớn

Phần này trình bày một số thuật toán phân cụm dữ liệu lớn tiêu biểu theo của hai hướng tiếp cận phân cụm mẫu và phân cụm toàn bộ dữ liệu

a Thuật toán FCM lấy mẫu ngẫu nhiên mở rộng (rseFCM)

Thuật toán rseFCM [36] thực hiện theo cách tiếp cận lấy mẫu, đầu tiên từ tập

dữ liệu lớn X thực hiện lấy ngẫu nhiên ns phần tử đưa vào tập Xs, thực hiện thuật toán phân cụm FCM cho tập Xs sau đó từ các tâm cụm đã tìm được mở rộng tính toán xác định cụm cho các phần tử còn lại của X, cụ thể như sau:

Thuật toán 1.2 rseFCM

lần lặp tối đa max

Đầu ra: Kết quả phân cụm

1 Lấy mẫu ngẫu nhiên tập X s từ X;

2 Us,V=FCM(X,c,m,,max )

3 Tính ma trận U cho toàn bộ tập X bằng công thức (1.4)

4 Tính kết quả phân cụm từ U,V

Trang 38

b Thuật toán FCM có trọng số (Weighted Fuzzy c-Means - wFCM)

Trong thuật toán FCM các phần tử là bình đẳng trong quá trình phân cụm, tuy nhiên trong nhiều trường hợp mỗi phần tử là không bình đẳng và có mức

độ ảnh hưởng hay trọng số khác nhau ta có thuật toán phân cụm có trọng số [16] với hàm mục tiêu như sau:

số mờ m (1<m<+ ) và sai số , số lần lặp tối đa max

Đầu ra: Kết quả phân cụm

2 𝑚−1 𝑐

𝑗=1 Tính ma trận tâm cụm 𝑣𝑖 = ∑𝑛𝑘=1𝑤𝑘𝑢𝑖𝑘𝑚𝑥 𝑘

c cụm này thành ns+c điểm trong đó mỗi cụm lại được coi là 1 điểm với trọng

Trang 39

số được xác định theo tổng độ thuộc của các phần tử trong cụm và thực hiện bước phân cụm tiếp theo Quá trình tiếp tục đến hết tập dữ liệu ta được kết quả phân cụm cho toàn bộ dữ liệu

Thuật toán 1.4 spFCM

số mờ m (1<m<+ ), số phần tử tập con n s và sai số , số lần lặp tối đa max

Đầu ra: Kết quả phân cụm U, V

Nạp ngẫu nhiên X s là tập n s phần tử từ X vào bộ nhớ

phân cụm dữ liệu lớn Ý tưởng ở đây là dùng hàm nhân k để tính khoảng cách

giữa các phần tử thay vì tính khoảng cách trong không gian dữ liệu ban đầu ta

có công thức tính khoảng cách giữa phần tử x và y như sau

𝑑(𝑥, 𝑦) = ‖∅(𝑥) − ∅(𝑦)‖2 = 𝑘(𝑥, 𝑥) + 𝑘(𝑦, 𝑦) − 2𝑘(𝑥, 𝑦) (1.2)

Thuật toán 1.5 rsekFCM

lần lặp tối đa max

Đầu ra: Kết quả phân cụm

Trang 40

1 Lấy mẫu ngẫu nhiên tập X s từ X;

2 Us,V=FCM(X,c,m,,max )

3 Tính ma trận U cho toàn bộ tập X bằng công thức (1.4) với khoảng cách tính theo (1.2)

4 Tính kết quả phân cụm từ U,V

1.2.4 Một số kỹ thuật kết hợp nâng cao chất lượng phân cụm

1.2.4.1 Kỹ thuật nhân trong phân cụm

Một trong những thách thức của bài toán phân cụm là sự phức tạp của dữ liệu, sự phức tạp có thể ở nhiều khía cạnh khác nhau như: kích thước dữ liệu,

sự đa dạng các loại thuộc tính, tính đa dạng của dữ liệu nói chung Các thuật toán truyền thống đã giải quyết rất tốt vấn đề phân cụm dữ liệu trong trường hợp tuyến tính Một trong các cách phổ biến để phân lớp tuyến tính một dữ liệu phi tuyến trong không gian đầu vào là sử dụng một hàm nhân Mercer k để làm phép ánh xạ ẩn

Trong bài toán phân cụm, nhân được áp dụng vào dữ liệu thuộc tính dùng phân cụm Phương pháp nhân sử dụng kỹ thuật chuyển đổi phi tuyến không gian dữ liệu đầu vào sang một không gian dữ liệu khác mà ở đó sự phân tách các cụm dữ liệu được dễ dàng hơn [42][43][44][45][46][47][48] thông qua nhân 𝐾(𝑥, 𝑦) = ∅(𝑥)𝑇∅(𝑦) Nhằm tăng hiệu quả của các thuật toán phân cụm, phương pháp nhân cũng được các nhóm nghiên cứu sử dụng kết hợp với các kỹ thuật khác: nhóm của Dung sử dụng nhân kết hợp giải thuật di truyền [49]; nhóm của Fan sử dụng phân cụm nhân cho bài toán tối ưu đồng tiến hóa cộng tác dữ liệu lớn [50]; Trong [51] Timothy và cộng sự sử dụng nhân kết hợp xác suất vào FCM để phân cụm dữ liệu lớn; Dữ liệu phân cụm thường có nhiều thuộc tính và một trong những cách tiếp cận là sử dụng nhiều nhân kết hợp để chuyển đổi không gian dữ liệu gọi là đa nhân [44][52][53]

Ngày đăng: 09/06/2021, 13:43

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] W. Pedrycz and P. Rai, “Collaborative clustering with the use of Fuzzy C-Means and its quantification,” Fuzzy Sets and Systems, vol. 159, pp.2399–2427, 2008 Sách, tạp chí
Tiêu đề: Collaborative clustering with the use of Fuzzy C-Means and its quantification,” "Fuzzy Sets and Systems
[2] P Taylor and J. Dunn, “A fuzzy relative of the isodata process and its use in detecting compact well-separated clusters.,” Journal of cybernetics, pp. 32–57, 1973 Sách, tạp chí
Tiêu đề: A fuzzy relative of the isodata process and its use in detecting compact well-separated clusters.,” "Journal of cybernetics
[3] W. Peizhuang, “Pattern recognition with fuzzy objective function algorithms,” SIAM Review, 1983 Sách, tạp chí
Tiêu đề: Pattern recognition with fuzzy objective function algorithms,” "SIAM Review
[4] W. Pedrycz, “Collaborative fuzzy clustering,” Pattern Recognition Letters, vol. 23, pp. 1675–1686, 2002 Sách, tạp chí
Tiêu đề: Collaborative fuzzy clustering,” "Pattern Recognition Letters
[5] H. Bustince Sola, J. Fernandez, H. Hagras, F. Herrera, M. Pagola, and E. Barrenechea, “Interval Type-2 Fuzzy Sets are Generalization of Interval- Valued Fuzzy Sets: Toward a Wider View on Their Relationship,” IEEE Transactions on Fuzzy Systems, vol. 23, no. 5, pp. 1876–1882, 2015 Sách, tạp chí
Tiêu đề: Interval Type-2 Fuzzy Sets are Generalization of Interval-Valued Fuzzy Sets: Toward a Wider View on Their Relationship,” "IEEE Transactions on Fuzzy Systems
[6] C. Wu, C. Ouyang, L. Chen, and L. Lu, “A New Fuzzy Clustering Validity Index With a Median Factor for Centroid-Based Clustering,”Transactions on Fuzzy Systems, vol. 23, no. 3, pp. 701–718, 2015 Sách, tạp chí
Tiêu đề: A New Fuzzy Clustering Validity Index With a Median Factor for Centroid-Based Clustering,” "Transactions on Fuzzy Systems
[7] M. R. Niakan and M. H. F. Zarandi, “Interval type-2 credibilistic clustering for pattern recognition,” Pattern Recognition, pp. 1–21, 2015 Sách, tạp chí
Tiêu đề: Interval type-2 credibilistic clustering for pattern recognition,” "Pattern Recognition
[8] Y. Lei et al., “Extending Information-Theoretic Validity Indices for Fuzzy Clustering,” Transactions on Fuzzy Systems, vol. 6706, pp. 1–6, 2016 Sách, tạp chí
Tiêu đề: et al.", “Extending Information-Theoretic Validity Indices for Fuzzy Clustering,” "Transactions on Fuzzy Systems
[9] J. C. Bezdek, L. Fellow, M. Moshtaghi, and T. Runkler, “The Generalized C Index for Internal Fuzzy Cluster Validity,” Transactions on Fuzzy Systems, vol. 646, pp. 1–15, 2016 Sách, tạp chí
Tiêu đề: The Generalized C Index for Internal Fuzzy Cluster Validity,” "Transactions on Fuzzy Systems
[11] J. C. Bezdek and N. R. Pal, “Some new indexes of cluster validity,” IEEE Transactions on Systems, Man, and Cybernetics, Part B: Cybernetics, vol. 28, no. 3, pp. 301–315, 1998 Sách, tạp chí
Tiêu đề: Some new indexes of cluster validity,” "IEEE Transactions on Systems, Man, and Cybernetics, Part B: Cybernetics
[12] R. J. G. B. Campello and E. R. Hruschka, “A fuzzy extension of the silhouette width criterion for cluster analysis,” Fuzzy Sets and Systems, vol. 157, pp. 2858–2875, 2006 Sách, tạp chí
Tiêu đề: A fuzzy extension of the silhouette width criterion for cluster analysis,” "Fuzzy Sets and Systems
[13] J. Zubin, “A technique for measuring like-mindedness,” Journal of Abnormal and Social Psychology, vol. 33, pp. 508–516, 1938 Sách, tạp chí
Tiêu đề: A technique for measuring like-mindedness,” "Journal of Abnormal and Social Psychology
[14] R. C. Tryon, “Cluster analysis; correlation profile and orthometric (factor) analysis for the isolation of unities in mind and personality,”Edwards brother, 1939 Sách, tạp chí
Tiêu đề: Cluster analysis; correlation profile and orthometric (factor) analysis for the isolation of unities in mind and personality,” "Edwards brother
[16] J. C. Bezdek, Pattern Recognition with Fuzzy Objective Function Algoritms. Plenum Press, 1981 Sách, tạp chí
Tiêu đề: Pattern Recognition with Fuzzy Objective Function Algoritms
[17] O. Linda, S. Member, M. Manic, and S. Member, “General Type-2 Fuzzy C-Means Algorithm for Uncertain Fuzzy Clustering,” Transactions on Fuzzy Systems, vol. 20, no. 5, pp. 883–897, 2012 Sách, tạp chí
Tiêu đề: General Type-2 Fuzzy C-Means Algorithm for Uncertain Fuzzy Clustering,” "Transactions on Fuzzy Systems
[18] P. Melin and O. Castillo, “A review on type-2 fuzzy logic applications in clustering , classification and pattern recognition,” Applied Soft Computing Journal, vol. 21, pp. 568–577, 2014 Sách, tạp chí
Tiêu đề: A review on type-2 fuzzy logic applications in clustering , classification and pattern recognition,” "Applied Soft Computing Journal
[19] E. Rubio, O. Castillo, and P. Melin, “Interval Type-2 Fuzzy System Design Based on the Interval Type-2 Fuzzy C-Means Algorithm,” Studies in Fuzziness and Soft Computing, vol. 335, pp. 133–146, 2016 Sách, tạp chí
Tiêu đề: Interval Type-2 Fuzzy System Design Based on the Interval Type-2 Fuzzy C-Means Algorithm,” "Studies in Fuzziness and Soft Computing
[20] Q. Liang and J. M. Mendel, “Interval Type-2 Fuzzy Logic Systems : Theory and Design,” Transactions on Fuzzy Systems, vol. 8, no. 5, pp.535–550, 2000 Sách, tạp chí
Tiêu đề: Interval Type-2 Fuzzy Logic Systems : Theory and Design,” "Transactions on Fuzzy Systems
[22] M. Prasad, L. Siana, “A Preprocessed Induced Partition Matrix Based Collaborative Fuzzy Clustering For Data Analysis,” International Conference on Fuzzy Systems, pp. 1–6, 2014 Sách, tạp chí
Tiêu đề: A Preprocessed Induced Partition Matrix Based Collaborative Fuzzy Clustering For Data Analysis,” "International Conference on Fuzzy Systems
[23] F. Yu, J. Tang, and R. Cai, “A Necessary Preprocessing in Horizontal Collaborative Fuzzy Clustering,” International Conference on Granular Computing, pp. 399–403, 2007 Sách, tạp chí
Tiêu đề: A Necessary Preprocessing in Horizontal Collaborative Fuzzy Clustering,” "International Conference on Granular Computing

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w