Nghiên cứu và phát triển các kỹ thuật phân cụm mờ cộng tác trên cơ sở ứng dụng tập loại 2 giá trị khoảng, phương pháp nhân, tính toán hạt siêu điểm ảnh và kỹ thuật giảm chiều dữ liệu
Trang 1ĐẶNG TRỌNG HỢP
PHÁT TRIỂN MỘT SỐ MÔ HÌNH PHÂN CỤM MỜ CỘNG TÁC
LUẬN ÁN TIẾN SĨ TOÁN HỌC
HÀ NỘI –2019
Trang 2ĐẶNG TRỌNG HỢP
PHÁT TRIỂN MỘT SỐ MÔ HÌNH PHÂN CỤM MỜ CỘNG TÁC
LUẬN ÁN TIẾN SĨ TOÁN HỌC
Chuyên ngành: Cơ sở toán học cho tin học
Mã số: 62.46.01.10
NGƯỜI HƯỚNG DẪN KHOA HỌC PGS TS Ngô Thành Long
HÀ NỘI –2019
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan các kết quả trình bày trong luận án là công trình nghiên cứu của tôi dưới sự giám sát của giảng viên hướng dẫn Các kết quả được viết chung với các tác giả khác đều được sự đồng ý của đồng tác giả trước khi đưa vào luận án Các kết quả trong luận án là trung thực và chưa từng được công
bố trong bất kỳ công trình nào khác
Nghiên cứu sinh
Đặng Trọng Hợp
Trang 4LỜI CẢM ƠN
Luận án được nghiên cứu sinh hoàn thành dưới sự hướng dẫn tận tình, nghiêm khắc của PGS TS Ngô Thành Long, lời đầu tiên tôi xin bày tỏ lòng kính trọng và sự biết ơn sâu sắc tới Thầy Những định hướng, nhận xét và góp
ý của Thầy trong suốt quá trình nghiên cứulà những bài học vô cùng quý giá đối với tôi không chỉ trong việc hoàn thành luận án mà trong cả các hoạt động chuyên môn sau này
Tôi xin chân thành cảm ơn GS TSKH Phạm Thế Long, PGS TS Bùi Thu Lâm, TS Tống Minh Đức, TS Hoa Tất Thắng, TS Nguyễn Văn Giang và các thầy cô trong Bộ môn Hệ thống thông tin, Khoa Công nghệ thông tin Học viện
Kỹ thuật quân sự đã có những góp ý quý báu trong quá trình nghiên cứu và các hội thảo chuyên môn của Khoa, Bộ môn
Tác giả xin gửi lời cảm ơn chân thành đến Khoa Công nghệ thông tin, Phòng Sau đại học,Học Viện Kỹ Thuật Quân Sự đã tạo điều kiện thuận lợi trong quá trình học tập, nghiên cứu và hoàn thành luận án
Tôi xin cảm ơn Trung tâm Công nghệ thông tin, Phòng Đào tạo và Lãnh đạo Trường Đại học Công nghiệp, nơi tôi công tác đã tạo điều kiện cơ sở vật chất, thời gian, sắp xếp công việc cơ quan hợp lý và thường xuyên động viên, nhắc nhở tôi trong quá trình nghiên cứu
Cuối cùng, tôi xin cảm ơn gia đình, bạn bè và đồng nghiệp những người
đã luôn bên cạnh động viên, chia sẻ và hỗ trợ tôi trong quá trình học tập, nghiên cứu
Trang 5MỤC LỤC
DANH MỤC CÁC KÍ HIỆU, CÁC CHỮ VIẾT TẮT 5
DANH MỤC CÁC BẢNG BIỂU 7
DANH MỤC CÁC HÌNH VẼ 8
DANH MỤC THUẬT TOÁN 9
MỞ ĐẦU 10
1 Tính cấp thiết của nội dung nghiên cứu 10
2 Mục tiêu nghiên cứu của luận án 11
3 Đối tượng nghiên cứu 11
4 Phạm vi nghiên cứu 12
5 Phương pháp nghiên cứu 12
6 Cấu trúc của luận án 12
CHƯƠNG 1 TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU 14
1.1 Giới thiệu phân cụm mờ cộng tác và một số kiến thức cơ sở 14
1.1.1 Phân cụm mờ 14
1.1.2 Phân cụm mờ cộng tác 16
1.1.3 Tập mờ 19
1.1.4 Khoảng cách trong phân cụm 23
1.1.5 Chỉ số đánh giá chất lượng phân cụm 24
1.2 Tổng quan về phân cụm mờ cộng tác 28
1.2.1 Tổng quan về phân cụm mờ 29
1.2.2 Tổng quan về phân cụm mờ cộng tác 31
1.2.3 Phân cụm dữ liệu lớn 33
1.2.4 Một số kỹ thuật kết hợp nâng cao chất lượng phân cụm 38
1.3 Những hạn chế của các nghiên cứu hiện có và mục tiêu nghiên cứu 43
1.4 Những đóng góp chính của luận án 45
1.5 Kết luận chương 1 45
CHƯƠNG 2 PHÂN CỤM MỜ LOẠI 2 KHOẢNG CỘNG TÁC 46
2.1 Phân cụm mờ loại 2 khoảng cộng tác 46
2.2 Phân cụm mờ loại 2 khoảng cộng tác khi số cụm khác nhau 53
2.3 Thuật toán phân cụm mờ loại 2 khoảng cộng tác (CIVFCM) 56
2.4 Thử nghiệm và đánh giá 57
Trang 62.4.1 Thử nghiệm với dữ liệu sinh ngẫu nhiên 58
2.4.2 Thử nghiệm với dữ liệu S1, S4 60
2.4.3 Thử nghiệm với dữ liệu thời tiết Canada 62
2.4.4 Thử nghiệm với dữ liệu ảnh vệ tinh 64
2.4.5 Một số đánh giá 70
2.5 Kết luận chương 2 71
CHƯƠNG 3 MỘT SỐ CẢI TIẾN VÀ ỨNG DỤNG THUẬT TOÁN PHÂN CỤM MỜ CỘNG TÁC 73
3.1 Phân cụm mờ cộng tác đa nhân dựa trên tính toán hạt siêu điểm ảnh 74
3.1.1 Phân cụm mờ cộng tác đa nhân 74
3.1.2 Tạo hạt siêu điểm ảnh (Super-pixel granulation) 77
3.1.3 Phân cụm mờ cộng tác đa nhân dựa trên tính toán hạt siêu điểm ảnh có trọng số 78
3.1.4 Thuật toán phân mờ cụm cộng tác đa nhân 84
3.1.5 Thử nghiệm và đánh giá 86
3.2 Phân cụm dữ liệu lớn dựa trên thuật toán phân cụm mờ cộng tác và giảm chiều dữ liệu 96
3.2.1 Kỹ thuật giảm chiều dữ liệu theo định lý Johnson Lindenstrauss 97
3.2.2 Phân cụm dữ liệu lớn dựa trên thuật toán phân cụm cộng tác và giảm chiều dữ liệu 99
3.2.3 Thử nghiệm và đánh giá 101
3.3 Kết luận chương 3 105
KẾT LUẬN 107
1 Kết luận chung 107
2 Những đóng góp mới của luận án 108
3 Kiến nghị về một số hướng nghiên cứu tiếp theo 108
DANH MỤC CÔNG TRÌNH ĐÃ CÔNG BỐ 109
TÀI LIỆU THAM KHẢO 110
Trang 7DANH MỤC CÁC KÍ HIỆU, CÁC CHỮ VIẾT TẮT
IT2FS Interval Type-2 Fuzzy Sets Tập mờ loại 2 khoảng
Expanded
Danh mục trích dẫn khoa học mở rộng
Trang 8MKFCM Multi Kernel FCM Thuật toán phân cụm mờ đa nhân
nhân sử dụng siêu điểm ảnh
CFSFD Clustering by Fast Search
and Find of Density Peaks
Phân cụm bằng cách tìm kiếm nhanh
extension Fuzzy c-Means
Thuật toán FCM mở rộng lẫu mẫu nhẫu nhiên
Extend Kernel FCM
Thuật toán FCM sử dụng nhân và lẫy mẫu ngẫu nhiên
X X={x 1 , x 2 , , x N}RM là một tập dữ liệu M chiều, xiX là đối tượng
dữ liệu thứ i
Trang 9DANH MỤC CÁC BẢNG BIỂU
Bảng 1.1 Phân loại dữ liệu lớn 34
Bảng 2.1 Kết quả phân cụm với thử nghiệm 2.1 58
Bảng 2.2 Chỉ số đánh giá với thử nghiệm 2.1 59
Bảng 2.3 Chỉ số đánh giá của các thuật toán với dữ liệu S1 61
Bảng 2.4 Chỉ số đánh giá của các thuật toán với dữ liệu S4 62
Bảng 2.5 Chỉ số đánh giá của các thuật toán với dữ liệu thời thiết Canada 64
Bảng 2.6 Tỉ lệ % diện tích các vùng của Hà Nội 67
Bảng 2.7 Tỉ lệ % diện tích các vùng của Bảo lộc 67
Bảng 2.8 Chỉ số đánh giá chất lượng phân cụm các thuật toán 69
Bảng 2.9 Độ phức tạp tính toán của các thuật toán 71
Bảng 3.1 Kết quả phân cụm từng vùng TP Thanh Hóa 90
Bảng 3.2 Chỉ số đánh giá phân cụm cho TP Thanh Hóa 91
Bảng 3.3 Kết quả phân cụm từng vùng TP Thái Nguyên 92
Bảng 3.4 Chỉ số đánh giá phân cụm cho TP Thái Nguyên 93
Bảng 3.5 Kết quả phân cụm từng vùng H Quỳ Hợp 94
Bảng 3.6 Chỉ số đánh giá phân cụm cho H Quỳ Hợp 94
Bảng 3.7 Thời gian tính của các thuật toán 96
Bảng 3.8 Chỉ số đánh giá và thời gian tính toán với dữ liệu NIPS 102
Bảng 3.9 Chỉ số đánh giá và thời gian tính toán với dữ liệu EEG 103
Bảng 3.10 Chỉ số đánh giá và thời gian tính toán với dữ liệu MNIST 104
Trang 10DANH MỤC CÁC HÌNH VẼ
Hình 1.1 Kết quả phân cụm (a) trước cộng tác, (b) sau khi cộng tác 17
Hình 1.2 Mô hình phân cụm mờ cộng tác 18
Hình 1.3 Hàm thuộc: (a) loại 1 và (b) loại 2 21
Hình 1.4 Mối liên hệ giữa các loại tập mờ 23
Hình 2.1 Kết quả thử nghiệm 2.2 với thuật toán CIVFCM2 59
Hình 2.2 Kết quả phân cụm dữ liệu S1 61
Hình 2.3 Kết quả phân cụm dữ liệu S4 61
Hình 2.4 Biểu đồ hiển thị giá trị các chỉ số theo tham số mờ hóa m1, m2 64
Hình 2.5 Kết quả phân cụm Hà Nội và Bảo Lộc theo các thuật toán 66
Hình 2.6 Biểu đồ so sánh tỉ lệ % diện tích của Hà Nội 67
Hình 2.7 Biểu đồ so sánh tỉ lệ % diện tích của Bảo lộc 68
Hình 2.8 Đồ thị kết quả các chỉ số với nhiều bộ tham số m1 và m2 69
Hình 3.1: Ảnh vệ tinh kênh 3 và 4 của TP Thanh Hóa 87
Hình 3.2: Ảnh vệ tinh kênh 3 và 4 của TP Thái Nguyên 87
Hình 3.3: Ảnh vệ tinh kênh 3 và 4 của H Quỳ Hợp 88
Hình 3.4 Sơ đồ tính toán thử nghiệm 89
Hình 3.5 Kết quả phân cụm TP Thanh Hóa 90
Hình 3.6 So sánh % diện tích các cụm TP Thanh Hóa 91
Hình 3.7 Kết quả phân cụm TP Thái Nguyên 92
Hình 3.8 So sánh % diện tích các cụm TP Thái Nguyên 93
Hình 3.9 Kết quả phân cụm H Quỳ Hợp 94
Hình 3.10 So sánh % diện tích các cụm H Quỳ Hợp 94
Hình 3.11 Mô hình phân cụm dữ liệu lớn 100
Trang 11DANH MỤC THUẬT TOÁN
Thuật toán 1.1 Phân cụm mờ FCM 15
Thuật toán 1.2 rseFCM 35
Thuật toán 1.3 wFCM 36
Thuật toán 1.4 spFCM 37
Thuật toán 1.5 rsekFCM 37
Thuật toán 1.6 Tính siêu điểm ảnh SLIC 41
Thuật toán 2.1 Phân cụm mờ loại 2 khoảng cộng tác 56
Thuật toán 3.1 SMKCFCM 84
Thuật toán 3.2 Giảm chiều dữ liệu 99
Thuật toán 3.3 RPFR-CFCM 100
Trang 12MỞ ĐẦU
1 Tính cấp thiết của nội dung nghiên cứu
Phân cụm là kỹ thuật nhóm các đối tượng vào các cụm dựa trên thông tin của các đối tượng và mối liên hệ của chúng sao cho các đối tượng trong cùng một cụm thì tương tự nhau còn các đối tượng thuộc các cụm khác nhau thì khác nhau Đây là một kỹ thuật học không giám sát trong máy học Phân cụm được ứng dụng rộng rãi trong lĩnh vực khác nhau như: khai phá dữ liệu,
xử lý ảnh, y học, kỹ thuật, phân tích thị trường…
Có nhiều nghiên cứu về các kỹ thuật và cách tiếp cận để giải quyết bài toán phân cụm nhưng chúng đều có mục tiêu là nâng cao chất lượng phân cụm
và tốc độ thực hiện của thuật toán Trong đó các thuật toán phân cụm dữ liệu bằng ứng dụng tập mờ đã nhận được sự quan tâm của nhiều nhà khoa học,đặc biệt là sự phát triển mạnh mẽ của tập mờ loại 2 đã đem lại hiệu quả, độ chính xác cao, khử độ không chắc chắn chắn trong ứng dụng thực tế
Khi chúng ta có nhiều tập dữ liệu có mối liên hệ với nhau thì việc phân cụm trong mỗi tập dữ liệu này sẽ có ảnh hưỏng, tác động đến việc phân cụm trên các tập dữ liệu khác.Tuy nhiên, vì nhiều lý do khác nhau như vấn đề tính riêng tư của dữ liệu, vấn đề bảo mật, vấn đế đường truyền mà các dữ liệu này không thể thực hiện phân cụm một cách tập trung.Khi đó, phương phápphân cụm cộng tác (Collaborative clustering) sẽ giải quyết được vấn đề trên bằng cách phân cụm tại từng tập dữ liệu con, sau đó thực hiện trao đổi thông tin về cấu trúc trên mỗi tập cho các tập dữ liệu còn lại và thực hiện bước phân cụm cộng tác để điều chỉnh kết quả phân cụm trên từng tập nhằm đạt được sự tương đồng về kết quả phân cụm của các tập dữ liệu
Trong thực tế, dữ liệu phân cụm thường có sự không chắc chắn và có nhiễu, nhiều dữ liệu có sự chia tách các cụm là không tuyến tính, nhiều loại dữ liệu có số chiều và kích thước lớn.Hiện nay có nhiều nhà khoa học quan tâm đến bài toán phân cụm cộng tác, tuy nhiên những vấn đề trên vẫn chưa có các
Trang 13nghiên cứu và giải pháp một cách triệt để Đề tài “Phát triển một số mô hình phân cụm mờ cộng tác” nghiên cứu về mô hình phân cụm cộng tác và đề xuất một số cải tiến, mô hình mới giải quyết các yêu cầu trên
2 Mục tiêu nghiên cứu của luận án
Nghiên cứu bài toán phân cụm mờ cộng tác, các vấn đề còn tồn tại của phân cụm mờ cộng tác khi ứng dụng trong các bài toán thực tế và đề ra các mô hình, giải pháp nâng cao hiệu quả phân cụm, cụ thể là:
Giải pháp cho vấn đề không rõ ràng, không chắc chắn của dữ liệu thực tế cần phân cụm
Giải pháp cho vấn đề dữ liệu phức tạp, hình dạng và sự chia tách các cụm không tuyến tính
Giải pháp cho vấn đề dữ liệu nhiều chiều, kích thước lớn, độ phức tạp tính toán cao thường gặp trong thực tế hiện nay
Các kỹ thuật được nghiên cứu để giải quyết cho các vấn đề trên có thể gồm: ứng dụng của tập mờ loại 2, các kỹ thuật nhân và đa nhân, tính toán hạt
và siêu điểm ảnh, kỹ thuật giảm chiều dữ liệu
Các giải pháp đề xuất cần được mô hình hóa, thuật toán hóa, có sự mô phỏng và thử nghiệm với các bộ dữ liệu thực tế để chứng minh tính hiệu quả
3 Đối tượng nghiên cứu
Các thuật toán phân cụm mờ, tập mờ loại 1, loại 2 và loại 2 giá trị khoảng
Mô hình và thuật toán phân cụm cộng tác
Phương pháp nhân và các thuật toán phân cụm dựa trên phương pháp nhân
và tính toán hạt siêu điểm ảnh
Phương pháp giảm chiều dựa trên phép chiếu ngẫu nhiên và ứng dụng trong bài toán phân cụm
Trang 144 Phạm vi nghiên cứu
Nghiên cứu lý thuyết tập mờ loại 1, 2và các phương pháp giải mờ
Nghiên cứu các thuật toán phân cụm dữ liệu và một số vấn đề liên quan trong bài toán phân cụm dữ liệu
Nghiên cứu mô hình và thuật toán phân cụm mờ cộng tác
Nghiên cứu và phát triển các kỹ thuật phân cụm mờ cộng tác trên cơ sở ứng dụng tập loại 2 giá trị khoảng, phương pháp nhân, tính toán hạt siêu điểm ảnh và kỹ thuật giảm chiều dữ liệu
Tìm kiếm và phát triển một số ứng dụng mô hình phân cụm mờ cộng tác
5 Phương pháp nghiên cứu
Luận án sử dụng công cụ giải tích để thiết lập các phương trình tính toán, tìm kiếm lời giải tối ưu và xây dựng, chứng minh các định lý trong hệ mờ Ngoài ra, luận án cũng sử dụng phương pháp lập trình cài đặt các thuật toán với các bộ dữ liệu máy học và chỉ số đánh giá và thực tế nhằm so sánh kết quả nghiên cứu của luận án với các kết quả nghiên cứu khác để khẳng định tính hiệu quả của các giải pháp được đề xuất
Thực hiện nghiên cứu một cách có khoa học từ định hướng của giảng viên hướng dẫn với các công trình nghiên cứu đã công bố cùng lĩnh vực, phát hiện
ra các vấn đề cần giải quyết, đề ra giải pháp khắc phục, có chứng minh và thực nghiệm từ đó công bố kết quả trên các hội thảo và tạp chí có uy tín
6 Cấu trúc của luận án
Chương 1 Tổng quan về phân cụm mờ cộng tác: trình bày các kiến thức
và kết quả nghiên cứu đã được công bố liên quan tới phân cụm mờ cộng tác như bài toán phân cụm dữ liệu, phân cụm dữ liệu cộng tác; các loại thuật toán phân cụm và phân cụm mờ; thước đo khoảng cách; tính toán hat; siêu điểm ảnh; xác định số cụm và tâm cụm; chỉ số đánh giá kết quả phân cụm; kỹ thuật nhân;
kỹ thuật giảm chiều dữ liệu…
Trang 15Chương 2.Phân cụm mờ loại 2 khoảng cộng tác: trình bày mô hình và thuật toán phân cụm giá trị khoảng cộng tác và các thử nghiệm minh họa tính hiệu quả của thuật toán
Chương 3.Một số cải tiến thuật toán phân cụm mờ cộng tác: trình bày mô hình ứng dụng kỹ thuật đa nhân trong giải quyết vấn đề phức tạp dữ liệu và chia tách cụm không tuyến tính, kết hợp với tính soán hạt siêu điểm ảnh có trọng số, ứng dụng kỹ thuật giảm chiều cho dữ liệu lớn bằng phương pháp chiếu ngẫu nhiên từ đó thực hiện phân cụm mờ cộng tác và các thử nghiệm
Phần kết luận nêu tóm tắt các vấn đề nghiên cứu, các mô hình phân cụm
mờ cộng tác được để xuất trong luận án cũng như các hướng nghiên cứu liên quan có thể mở rộng
Trang 16CHƯƠNG 1 TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU
Phân tích dữ liệu đóng vai trò quan trọng trong nhiều ứng dụng thực tế hiện nay như y học, quảng cao, phân tích thị trường, trong xử lý ảnh, nhận dạng mẫu Đặc biệt trong kỷ nguyên cách mạng công nghiệp 4.0 và vạn vật kết nối hiện nay, lượng dữ liệu được tạo ra ngày càng nhiều, loại dữ liệu đa dạng thì càng cần có các công cụ tự động phân tích dữ liệu Phân cụm dữ liệu là một công cụ học không giám sát được ứng dụng rất phổ biến trong phân tích dữ liệu Chương này luận án trình bày những khái niệm cơ bản và tình hình nghiên cứu các vấn đề liên quan tới phân cụm dữ liệu, trong đó phân cụm mờ cộng tác được tìm hiểu và trình bày chi tiết
1.1 Giới thiệu phân cụm mờ cộng tác và một số kiến thức cơ sở
1.1.1 Phân cụm mờ
Thuật toán phân cụm sử dụng các lý thuyết tập mờ để phân hoạch các đối tượng vào các cụm được Dunn giới thiệu [2] và Bezdek tổng quát hóa thành thuật toán FCM [3] Thuật toán phân hoạch n đối tượng 𝑋 = {𝑥1, 𝑥2, … , 𝑥𝑛} ∈
𝑅𝑀 vào c cụm dựa trên tối thiểu hàm mục tiêu đo chất lượng phân hoạch và
tâm cụm Một phân hoạch mờ của n đối tượng X vào C cụm được biểu diễn
bằng ma trận 𝑈 = [𝑢𝑖𝑘] với 𝑢𝑖𝑘 là độ thuộc của đối tượng thứ k vào cụm i
𝑈𝑐𝑛 = [
𝑢𝑐1 ⋯ 𝑢𝑐𝑛] Hàm mục tiêu mờ được Dunn định nghĩa như sau:
Min 𝐽𝑚(𝑈, 𝑣) = ∑𝑛𝑘=1∑𝑐𝑖=1𝑢𝑖𝑘𝑑𝑖𝑘2Bezdek khái quát hóa hàm mục tiêu mờ bằng cách đưa ra trọng số mũ m 1,
là số thực như sau :
Min 𝐽𝑚(𝑈, 𝑣) = ∑𝑛𝑘=1∑𝑐𝑖=1𝑢𝑖𝑘𝑚𝑑𝑖𝑘2Trong đó:
Trang 171,
m là trọng số mũ hay còn gọi là tham số mờ
v là vector tâm cụm với 𝑣𝑖 ∈ 𝑅𝑀là trọng tâm của cụm thứ i
d ik là khoảng cách theo thước đo Euclide giữa mẫu dữ liệu x k với trọng tâm
cụm thứ i là v i và được tính bằng công thức sau:
1/2 2 1
2 𝑚−1 𝑐
𝑗=1
(1.6)
𝑣𝑖 =∑𝑛𝑘=1𝑢𝑖𝑘𝑚𝑥𝑘
∑𝑛𝑘=1𝑢𝑖𝑘𝑚 (1.7) 𝑉ớ𝑖 1 ≤ 𝑖 ≤ 𝑐, 1 ≤ 𝑘 ≤ 𝑛
Thuật toán phân cụm mờ FCM thực hiện việc lặp lại tính toán giá trị u và
v và được mô tả như sau :
Thuật toán 1.1 Phân cụm mờ FCM
số mờ m (1<m<+ ) và sai số , số lần lặp tối đa max
Đầu ra: Kết quả phân cụm
Khởi tạo:
Tâm cụm V;
τ=0 //Đếm số vòng lặp
REPEAT
Tính toán giá trị tâm cụm v theo công thứ (1.7);
Cập nhật giá trị ma trận hàm thộcu ci theo công thức (1.6);
τ=τ+1;
Trang 18UNTIL (( J( )n J(n1) ) hoặc ( ≥max))
1.1.2Phân cụm mờ cộng tác
Một hướng của phân cụm dữ liệu nhận được nhiều quan tâm của các nhà nghiên cứu trong thời gian gần đây là bài toán phân cụm cộng tác, trong đó xem xét đến mối liên hệ cấu trúc tương tự của các tập dữ liệu Trước khi xét đến mô hình của bài toán phân cụm cộng tác, ta xét ví dụ sau: các công ty thường thu thập thông tin về khách hàng của mình (ví dụ các cửa hàng hoặc ngân hàng…)
và lưu trữ trong cơ sở dữ liệu Đây là các thông tin nhạy cảm và các công ty này thường không chia sẻ trực tiếp thông tin chi tiết này cho nhau, tuy nhiên họ đều có nhu cầu phân tích để tìm ra điểm chung trong cấu trúc, phân nhóm các khách hàng này Giải pháp cho vấn đề trên là sử dụng thuật toán phân cụm tìm
ra các nhóm khách hàng trong cơ sở dữ liệu của từng công ty, sau đó trao đổi thông tin về cấu trúc hay thông tin về cụm với nhau, cách làm này có thể đảm bảo được vấn đề bảo mật thông tin nhưng vẫn giải quyết được mong muốn chia
sẻ, cộng tác, trao đổi về cấu trúc giữa các cơ sở dữ liệu Ngoài ví dụ trên, còn nhiều tình huống khác như vấn đề đường truyền, sự phức tạp trong tính toán
mà việc phân cụm cần thực hiện tại những tập dữ liệu riêng biệt nhưng cấu trúc, mẫu lại được trao đổi với nhau Một ví dụ về dữ liệu và kết quả của việc phân cụm cộng tác khi có nhiều tập dữ liệu và các tập đó có sự cộng tác trong quá trình phân cụm được mô tả trong Hình 1.1 Theo đó, nếu thực hiện phân cụm riêng lẻ từng tập dữ liệu ta sẽ có kết quả như hình (a), nếu thực hiện quá trình phân cụm cộng tác để điều chỉnh sẽ cho kết quả như hình (b) Rõ ràng nếu nhìn toàn cục dữ liệu của cả 2 tập dữ liệu ta sẽ thấy kết quả hình (b) hợp lý hơn và hình dạng của cấu trúc cụm của 2 tập có sự tương đồng
Trang 19Hình 1.1 Kết quả phân cụm (a) trước cộng tác, (b) sau khi cộng tác Phân cụm cộng tác là công cụ tìm ra những cấu trúc và đặc điểm tương đồng giữa các dữ liệu nằm trên nhiều khu vực riêng biệt dựa trên cách mở rộng hàm mục tiêu và cách tiếp cận phân cụm mờ của thuật toán FCM Có 2 đặc điểm của phân cụm mờ cộng tác, một là thông tin chi tiết trong các tập dữ liệu không thể trao đổi với nhau mà chỉ có thể trao đổi thông tin về cấu trúc, hai là cần xem xét việc phân cụm mờ ở tập dữ liệu này có tác động tới việc phân cụm
ở các tập dữ liệu khác, thông tin cấu trúc các cụm trong từng tập dữ liệu là có ích trong việc phân cụm tại các tập dữ liệu còn lại [1]
Mô hình trao đổi thông tin cấu trúc hay cộng tác giữa các tập dữ liệu được mô tả như Hình 1.2, trong đó các tập dữ liệu không trực tiếp trao đổi dữ liệu chi tiết mà chỉ chia sẻ thông tin cấu trúc là vector tâm cụm v[ii] Một cách
tự nhiên là khi cộng tác kết quả phân cụm nhìn ở mức tổng thể các tập dữ liệu
sẽ tốt hơn kết quả phân cụm chỉ dựa trên dữ liệu cục bộ tại từng tập dữ liệu
Trang 20Hình 1.2 Mô hình phân cụm mờ cộng tác
Giả sử có P tập dữ liệu D[1], D[2], ,D[P], trong đó chứa N[1],
N[2], ,N[P] mẫu dữ liệu trong cùng không gian thuộc tính X Trong mỗi tập
dữ liệu D[ii] ta phân thành c cụm Kết quả phân cụm ở mỗi tập dữ liệu lại tác
động tới việc phân cụm ở các khu vực còn lại, chúng ta gọi quá trình này là sự cộng tác giữa và phân cụm mờ cộng tác
Bài toán phân cụm mờ cộng tác có hàm mục tiêu cần tối ưu là:
1 1
2 2 2
2 ]
ii N
k C
i
ik ik
ik ik
sự sai khác giữa các ma trận phân hoạch giảm dần
Trong hàm mục tiêu trên[𝑢𝑖𝑘[𝑖𝑖]]là ma trận phân hoạch đối tượng k vào cụm i trong tập dữ liệu ii, [ u [ii|jj]] được gọi là ma trận phân hoạch cộng tác
của tập dữ liệu jj lên tập dữ liệu ii và được tính theo công thức [1]:
2
1
= | [ ] [ ] |
| ] [ ] [
|
1
= ]
i k c j ik
(1.2)Min
Trang 21Tham số 𝛽 thể hiện mức độ cộng tác giữa các tập dữ liệu, giá trị càng lớn thì mức độ cộng tác càng cao, giá trị 𝛽 = 0 thể hiện giữa các tập dữ liệu không
]
| [
~
1)) ( (1
]
| [
~ 1
/
1
= ]
1
= 2
2 1
jj ii u d
d
ii
u
rs P
ii jj jj js
P
ii jj jj c
j js rs c
[ 1
= 1,
= 2
] [ 1
=
2 ]
[ 1
= 1,
= 2
] [ 1
=
])
| [
~ ] [ ( ]
[
])
| [
~ ] [ ( ]
u
x jj ii u ii u x
ii u ii
v
rk rk
ii N
k P
ii jj jj rk
ii N
k
kt rk
rk
ii N
k P
ii jj jj kt rk
ii N
k rt
1.1.3.1 Tập mờ loại 1 (Type 1 Fuzzy Sets - FS)
Trong lý thuyết tập hợp cổ điển (Crisp set), quan hệ thành viên của các
phần tử đối với một tập hợp được đánh giá theo kiểu nhị phân một cách rõ ràng: mỗi phần tử x của tập cơ sở X là chắc chắn thuộc tập A hoặc chắc chắn không thuộc tập A Như vậy, để xem một phần tử có là thành viên của tập A hay không, ta gán cho phần tử đó giá trị 1 nếu phần tử đó chắc chắn thuộc A, và giá trị 0 nếu nó không thuộc về tập hợp A, tức là ta có thể xây dựng một hàm thành viên (hay hàm thuộc) để đánh giá một phần tử có thuộc tập A hay không :
∀𝑥 ∈ 𝑋, 𝜇(𝑥) = {1 𝑖𝑓 𝑥 ∈ 𝐴
0 𝑖𝑓 𝑥 ∉ 𝐴
Rõ ràng, hàm thuộc μ A sẽ xác định tập con cổ điển A trên tập cơ sở X với
μ A chỉ nhận giá trị trong tập hợp {0, 1}
Trang 22Ngược lại, lý thuyết tập mờ cho phép đánh giá nhiều mức độ khác nhau
về khả năng một phần tử có thể thuộc về một tập hợp Ta cũng dùng một hàm
thành viên (hàm thuộc) để xác định các mức độ mà một phần tử x thuộc về tập
A :∀𝑥 ∈ 𝑋, 0 ≤ 𝜇(𝑥) ≤ 1
Định nghĩa 1.1.Cho X là một tập cơ sở, tập mờ A trên X được xác định bởi
hàm thuộc gán cho mỗi phần tử x của X là μ A (x), với 0 ≤ μ A (x) ≤1, để chỉ mức
độ mà phần tử x thuộc về tập mờ A Nói cách khác, tập con mờ A trên X được xác định bởi ánh xạ :
𝜇𝐴 ∶ 𝑋 [0, 1]
Như vậy định nghĩa của tập mờ là một mở rộng đơn giản của định nghĩa tập cổ điển trong đó hàm thuộc có độ thuộc giữa 0 và 1 Nếu giá trị của hàm thuộc A x được đưa về chỉ có 0 và 1, khi đó A chính là tập cổ điển và A x
, nếu X là không gian liên tục
Xét tập X gồm 5 người x 1 , x 2 …, x 5 thi toán và có điểm tương ứng là 6, 7…,
10 Gọi A là tập những người giỏi toán, ta có thể xây dựng hàm thuộc cho tập
A như sau:
μ A : μ A (x 1 ) = 0,6; μ A (x 2 ) = 0,7; μ A (x 3 ) = 0,8; μ A (x 4 ) = 0,9; μ A (x 5 ) = 1
Ta có thể biểu diễn tập mờ A như sau:
A = {0,6/x 1 ; 0,7/x 2 ; 0,8/x 3 ; 0,9/x 4 ; 1/x 5 }
Nếu ta gọi B là tập những người có điểm lớn hơn 8 thì ta có B là tập rõ B=
{x 4 , x 5 ) Tuy nhiên ta cũng có thể biểu diễn B dưới dạng tập mờ con trên X như
sau:
B= {0/x 1 ; 0/x 2 ; 0/x 3 ; 1/x 4 ; 1/x 5 }
Trang 231.1.3.2 Tập mờ loại 2 (Type 2 Fuzzy Sets - T2FS)
Tập mờ loại 1 có hàm thuộc là một giá trị rõ còn tập mờ loại 2 có hàm thuộc là một giá trị mờ Tập mờ loại 2 được sử dụng khi ta không thể xác định chính xác giá trị hàm thuộc của tập mờ, nó có ưu điểm là cho phép biểu diễn các giá trị độ thuộc bằng các giá trị mờ
Trong hình 1.3 bên dưới, hàm thuộc tam giác loại 1 trong hình (a) được
mờ hóa bằng cách di chuyển các điểm trên nó sang bên trái hoặc bên phải, với
số giá trị mờ hóa khác nhau như hình (b) ta được hàm thuộc loại 2
Hình 1.3 Hàm thuộc: (a) loại 1 và (b) loại 2
thuộc loại hai A( , )x u , trong đó x X và u J x [0,1]
Trang 241.1.3.3 Tập mờ loại 2 khoảng (Interval Type 2 Fuzzy Sets - IT2FS)
Một trường hợp đặc biệt của tập mờ loại hai là tập mờ loại hai khoảng, chúng được sử dụng rộng rãi vì không phức tạp trong tính toán như trong tập
mờ loại hai
loại hai A ở trên được gọi là tập mờ loại hai khoảng:
1.1.3.4 Tập mờ giá trị khoảng (Interval – valued Fuzzy Sets)
Tập mờ giá trị khoảng được Sambuc [97] đưa ra năm 1975 và nhiều tác giả hoàn thiện trong đó Gorzalczany [98] và Turksen [99] đã định nghĩa đầy đủ các khái niệm liên quan tới tập mờ giá trị khoảng như sau:
Định nghĩa 1.4: Tập mờ giá trị khoảng A trên tập cơ sở X được xác định bởi
hàm thuộc gán cho mỗi phần tử x của X là 𝜇𝐴(𝑥) = [𝜇̅ 𝐴(𝑥), 𝜇𝐴(𝑥)], với 0≤
𝜇̅ 𝐴(𝑥), 𝜇𝐴(𝑥) ≤ 1,𝜇̅ 𝐴(𝑥), 𝜇𝐴(𝑥) lần lượt được gọi là độ thuộc trên và độ thuộc
dưới của hàm thuộc 𝜇.
Có thể thấy tập mờ giá trị khoảng là một trường hợp đặc biệt của tập mờ loại 2 khoảng, mối liên hệ giữa các tập mờ được thể hiện trong hình 1.4[5]
Trang 25Hình 1.4 Mối liên hệ giữa các loại tập mờ
1.1.4 Khoảng cách trong phân cụm
Kỹ thuật phân cụm nhằm nhóm các đối tượng tương tự nhau vào một cụm
và một trong những vấn đề cần xác định là 2 đối tượng như thế nào là tương tự
hoặc không tương tự nhau Giả sử hai đối tượng x i và x j gồm M thuộc tính, được biểu diễn bởi vector x i =(x i1 ,x i2 ,…,x iM ) và x j =(x j1 ,x j2 ,…,x jM ) Có hai cách đo phổ
biến là đo khoảng cách và đo độ tương tự, sau đây là một số độ đo khoảng cách
và tương tự thường được sử dụng
b Độ đo khoảng cách cho thuộc tính có giá trị nhị phân
Công thức trên dễ dàng tính khoảng cách giữa các đối tượng có thuộc tính kiểu số liên tục, khi thuộc tính có giá trị kiểu nhị phân, phân loại, hoặc trộn lẫn của nhiều loại giá trị thì độ đo khoảng cách cần xác định lại
Khi thuộc tính của 2 đối tượng là giá trị nhị phân, khoảng cách giữa các đối tượng có thể xác định như sau:
𝑑(𝑥𝑖, 𝑥𝑗) = 𝑟 + 𝑠
𝑞 + 𝑟 + 𝑠 + 𝑡
Trang 26Trong đó q là số thuộc tính bằng nhau và bằng 1 của 2 đối tượng, t là số thuộc tính bằng nhau và bằng không của 2 đối tượng, r và s là số thuộc tính
không bằng nhau và bằng 1 và 0 của 2 đối tượng
c Độ đo khoảng cách cho thuộc tính không phải giá trị số
Khi thuộc tính của 2 đối tượng là các giá trị định danh, độ đo khoảng cách giữa 2 đối tượng xác định như sau:
𝑑(𝑥𝑖, 𝑥𝑗) =𝑀 − 𝑚
𝑀
Trong đó M là số thuộc tính của đối tượng, m là số thuộc tính trùng nhau
của 2 đối tượng
1.1.4.2 Độ đo tương tự
a Độ đo Cosine
Khi 2 đối tượng được biểu diễn bằng 2 vector với các giá trị thuộc tính dạng
số, góc giữa 2 vector xác định mức độ tương tự của 2 đối tượng, ta có độ đo tương tự Cosine:
1.1.5 Chỉ số đánh giá chất lượng phân cụm
Đánh giá một kết quả phân cụm là tốt hay xấu là vấn đề rất khó khăn và cũng không có một phương pháp đánh giá tổng quát nào cho chất lượng phân cụm, bên cạnh đó phân cụm thuộc dạng bài toán học không giám sát và thường không có dữ liệu mẫu đã gán nhãn Tuy nhiên cũng đã có nhiều đề xuất về các chỉ số đánh giá phân cụm [6][7][8][9][10][11][12], các chỉ số này thường được chia làm 2 nhóm: chỉ số đánh giá trong (Internal Quality Criteria) và chỉ số
Trang 27đánh giá ngoài (External Quality Criteria) Chỉ số đánh giá được sử dụng trong việc xem xét chất lượng của kết quả phân cụm, so sánh các cách phân cụm khác nhau, xác định số cụm tối ưu…
1.1.5.1 Chỉ số đánh giá trong (Internal Quality Criteria)
Chỉ số đánh giá bên trong thường đo độ nén của cụm dữ liệu, nó có thể đo tính đồng nhất trong mỗi cụm hoặc độ chia tách giữa các cụm hoặc kết hợp cả hai đặc điểm này Tuy nhiên nó không sử dụng thông tin từ bên ngoài mà chỉ
sử dụng thông tin của dữ liệu dùng phân cụm Một số chỉ số đánh giá trong thường dùng như sau
Giả sử dữ liệu cần phân thành c cụm gồm n đối tượng, số đối tượng trong cụm thứ k là n k , tâm cụm thứ k là v k
a Sum of Squared Error (SSE)
SSE là chỉ số đánh giá đơn giản nhất nhưng cũng thường xuyên được sử dụng, tính toán dựa trên khoảng cách từ các đối tượng tới tâm cụm của nó được định nghĩa như sau:
là ma trận phân hoạch thành viên của đối tượng j trong cụm i
b Dunn’s Index (DI)
Chỉ số này được định nghĩa dựa theo hình dạng của cụm dữ liệu gồm độ nén và chia tách và được tính như sau:
𝐷𝐼 = min
1≤𝑖≤𝑐{ min
1≤𝑗≤𝑐,𝑗#𝑖{ 𝜎(𝐴𝑖, 𝐴𝑗)
max1≤𝑘≤𝑐(∆(𝐴𝑘))}}
Với Ai là tập các phần tử thuộc cụm thứ i:
Trang 28𝜎(𝐴𝑖, 𝐴𝑗) = min
1≤𝑖≤𝑐{𝑑(𝑥𝑖, 𝑥𝑗|𝑥𝑖 ∈ 𝐴𝑖, 𝑥𝑗 ∈ 𝐴𝑗}
∆(𝐴𝑘) = max{𝑑(𝑥𝑖, 𝑥𝑗|𝑥𝑖, 𝑥𝑗 ∈ 𝐴𝑘}
c Davies-Bouldin’s Index (DBI)
Chỉ số này đo tỉ lệ giữa tổng sự phân tán dữ liệu trong mỗi cụm và phân tán giữa các cụm
Độ phân tán trong mỗi cụm i với |Ai| là số phần tử của cụm i, q là một số nguyên
dương được định nghĩa như sau:
1≤𝑗≤𝑐,𝑗#𝑖{𝑆𝑖,𝑞+𝑆𝑗,𝑞
𝐷𝑖𝑗 } ta có chỉ số DBI được tính như sau:
𝐷𝐵𝐼𝑞 =1
𝑐∑ 𝑅𝑖,𝑞𝑐
𝑖=1
d Partition Coefficient Index (PCI)
Chỉ số PCI phản ánh sự lấn lên nhau của các cụm dữ liệu, được định nghĩa như sau:
Trong đó u ij là độ thuộc của đối tượng j trong cụm i
e Classification Entropy Index (CEI)
Tương tự chỉ số PCI, chỉ số CEI phản ánh sự mờ hóa của ma trận phân hoạch các cụm dữ liệu
Trang 29f Xie and Beni Index (XBI)
Chỉ số XBI định nghĩa theo hàm mục tiêu trong các thuật toán phân cụm và khoảng cách giữa 2 cụm gần nhất trong tập dữ liệu, chỉ số này có thể áp dụng cho cả các thuật toán phân cụm rõ và mờ:
2‖xj− vi‖2
n j=1
c i=1
khoảng cách trung bình tới các điểm của cụm gần cụm i nhất
Chỉ số SoI của toàn tập dữ liệu sẽ là:
𝑆𝑜𝐼 = 1
𝑛∑ 𝑆𝑜𝐼𝑗𝑛
𝑖=1
Chỉ số SoI dùng cho phân cụm mờ ký hiệu FsoI được định nghĩa như sau:
𝐹𝑆𝑜𝐼 = ∑ (𝑢𝑟𝑗 − 𝑢𝑞𝑗)𝑆𝑜𝐼𝑗
𝑛 𝑖=1
∑𝑛𝑖=1(𝑢𝑟𝑗 − 𝑢𝑞𝑗)
1.1.5.2 Chỉ số đánh giá ngoài (External Quality Criteria)
Chỉ số này dùng để so sánh sự tương đồng giữa 2 ma trận phân hoạch Giả
sử ta có 2 ma trận phân hoạch P1 và P2, chỉ số ngoài sẽ phụ thuộc và việc các
cặp đối tượng thuộc về cùng 1 cụm hay không trên hai phân hoạch trên với 4 khả năng là:
Hai đối tượng thuộc cùng 1 cụm trong cả P1 và P2
Trang 30Hai đối tượng thuộc cùng 1 cụm trong P1 nhưng không cùng trong P2 Hai đối tượng thuộc cùng 1 cụm trong P2 nhưng không cùng trong P1 Hai đối tượng không cùng 1 cụm trong cả P1 và P2
Ta ký hiệu các khả năng trên tương ứng là yy, yn, ny, nn (y ký hiệu cho yes, n ký hiệu cho no) Một số chỉ số ngoài thường được sử dụng gồm:
a Czekanowski-Dice Index (CDI)
2yy + yn + ny
b Folkes-Mallows Index (FMI)
√(yy + yn)(yy + ny)
c Jaccard Index (JI)
Chỉ số này sử dụng khi ta có dữ liệu đã biết nhãn trước và muốn kiểm tra độ
chính xác của thuật toán phân cụm, nó là tỉ lệ số đối tượng phân cụm đúng m trên tổng số dữ liệu n:
𝑛
1.2 Tổng quan về phân cụm mờ cộng tác
Phần này của luận án trình bày một số khái niệm cơ bản và phân tích tình hình nghiên cứu về phân cụm mờ hiện nay, trong đó tập trungkhảo cứu các kết quả liên quan tới hướng nghiên cứu của luận án là phân cụm mờ cộng tác và
Trang 31một số kỹ thuật ứng dụng để nâng cao chất lượng và hiệu quả phân cụm như:
kỹ thuật nhân, đa nhân; kỹ thuật tính toán hạt, siêu điểm ảnh; kỹ thuật giảm chiều dữ liệu và phân cụm dữ liệu lớn
1.2.1Tổng quan về phân cụm mờ
Phân cụm là kỹ thuật nhóm các đối tượng vào các cụm dựa trên thông tin của các đối tượng và mối liên hệ của chúng sao cho các đối tượng trong cùng một cụm thì tương tự nhau còn các đối tượng khác thuộc các cụm khác nhau thì khác nhau
Phân tích cụm được trình bày và sử dụng rất sớm trong lĩnh vực nhân học
và sau đó được mở rộng sang lĩnh vực tâm lý học bởi Zubin năm 1938[13],Robert Tryon năm 1939[14] và được sử dụng thường xuyên trong lý thuyết về tính cách
Trong phân tích dữ liệu, phân cụm có thể được sử dụng với nhiều vai trò khác nhau như: hỗ trợ giai đoạn tiền xử lý dữ liệu; mô tả sự phân bố dữ liệu/đối tượng; nhận dạng mẫu; phân tích dữ liệu không gian; xử lý, phân đoạn ảnh; phân mảnh thị trường ; gom cụm tài liệu…
Với tư cách là một chức năng khai phá dữ liệu, phân cụm có thể được sử dụng như một công cụ độc lập để quan sát đặc trưng phân bố của dữ liệu, tìm
ra tập riêng biệt các đối tượng trong cụm để giúp cho việc phân tích đạt kết quả tốt hơn
Tập mờ được L.A Zadeh đề xuất và công bố năm 1965 [15] bằng bài báo
“Fuzzy Sets” trên Tạp chí Information and Control Với ý tưởng dùng khái niệm toán học để mô tả các khái niệm trừu tượng, không rõ ràng về ngữ nghĩa thông tin, không chắc chắn như lớn - bé, gầy - béo, cao-thấp, , được gọi là tập
mờ, đây là một sự khái quát trực tiếp của khái niệm tập hợp kinh điển
Trong các bài toán phân cụm thực tế, sự tách biệt giữa các cụm có thể không rõ ràng, các cụm có thể chồng lên nhau, một số đối tượng dữ liệu có thể
Trang 32vừa thuộc cụm này vừa thuộc cụm khác Điều này phù hợp với các khái niệm trong lý thuyết tập mờ, vì vậy việc áp dụng lý thuyết về tập mờ trong phân cụm
dữ liệu để giải quyết cho trường hợp này có thể mang lại hiệu quả tốt hơn, đây
là phương phápphân cụm mờ Nói cách khác, phân cụm mờ là phương pháp phân cụm dữ liệu mà cho phép mỗi điểm dữ liệu thuộc về hai hoặc nhiều cụm thông qua hàm thành viên thể hiện độ thuộc Khái niệm về phân hoạch mờ được Ruspini giới thiệu để mô tả cấu trúc cụm của tập dữ liệu và đưa ra thuật toán tính toán tối ưu phân hoạch mờ Dunn mở rộng phương pháp phân cụm này và phát triển thuật toán phân cụm mờ[2] với ý tưởng xây dựng phương pháp phân cụm mờ dựa trên tối thiểu hóa hàm mục tiêu Bezdek [16]cải tiến và tổng quát hóa hàm mục tiêu mờ bằng cách đưa ra trọng số mũ và chứng minh độ hội tụ của các thuật toán là cực tiểu cục bộ
Trong thực tế dữ liệu đầu vào cho bài toán phân cụm thường có nhiễu và không chắc chắn, nhiều tác giả đã nghiên cứu phát triển các thuật toán phân cụm sử dụng tập mờ loại 2 để giải quyết vấn đề trên [17][18] Mendel và Karnik
đã phát triển lý thuyết tập mờ loại 2 và các phép toán trên đó, nó đã khắc phục được những nhược điểm của tập mờ loại 1 trong xử lý những vấn đề không chắc chắn của dữ liệu bằng cách định nghĩa hàm thuộc là một giá trị mờ Một nhánh được nghiên cứu và ứng dụng rộng rãi do tính khả thi và dễ cài đặt của tập mờ loại 2 là tập mờ loại 2 giá trị khoảng[19][20]
Nghiên cứu về tập mờ, hệ mờ và các ứng dụng cũng đã được nhiều nhà nghiên cứu ở Việt Nam thực hiện như nhóm của Giáo sư Nguyễn Cát Hồ [94,96], nhóm của Giáo sư Trần Đình Khang [95,96] Đặc biệt là nhóm của PGS Lê Hoàng Sơn với nhiều công bố liên quan hướng phân cụm mờ sử dụng tập mờ loại 1, loại 2, tập mờ ảnh và tập mờ trực cảm với nhiều ứng dụng trong lĩnh vực ảnh y tế, ảnh vệ tinh , mạng cảm biến [90-93]
Trang 33có sự chồng lấn giữa các cụm còn tập thô điều chỉnh sự ảnh hưởng của sự không chắc chắn bằng xấp xỉ trên và dưới[21], tuy nhiên các tác giả cũng chỉ ra rằng việc giải quyết vấn đề sự hỗn tạp của dữ liệu và các thuộc tính dữ liệu vẫn là những thách thức cần nghiên cứu thêm
Nhằm nâng cao tốc độ và chất lượng phân cụm, Prasad[22] và Yu [23]
đề xuất bổ sung thêm bước tiền xử lý vào mô hình cộng tác của Pedrycz bằng cách tái sắp xếp lại thứ tự các cụm trong mỗi tập dữ liệu cho thống nhất trên toàn bộ các tập dữ liệu, tuy nhiên cả 2 đề xuất này đều yêu cầu mức độ cộng tác giữa các tập dữ liệu cần được truyền như tham số đầu vào của thuật toán,
sử dụng các giải thuật tiến hóa và bầy đàn là những hướng tiếp cận trong tương lai mà các tác giả đề xuất để xác định tham số đầu vào của thuật toán
Nhóm các nhà khoa học Fusheng Yu, Juan Tang và Ruiqiong Cai tập trung nghiên cứu và đề xuất ứng dụngphân cụm cộng tác theo chiều ngang cho các tập dữ liệu không cùng không gian thuộc tính[24], nhóm cũng mở rộng thuật toán bằng cách sử dụng phương pháp gán nhãn đối tượng theo ngưỡng hoặc theo entropy sau đó sự dụng nhãn này trong quá trình cộng tác gọi là phân cụm cộng tác có giám sát từng phần [25]
Nhóm Sublime đề xuất hướng giải quyết bài toán phân cụm cộng tác theo chiều dọc sử dụng kỹ thuật máy họcsinh bản đồ cấu trúc (Generative
Trang 34Topographic Map – GTM) trong việc tìm ra các cụm tương tự các từng tập dữ liệu[26]
Nghiên cứu về việc lựa chọn tập dữ liệu và đối tượng nào tham gia vào tính toán cộng tác cũng được nhóm Parisa nghiên cứu trong mô hình phân cụm cộng tác sử dụng mạng nơron[27]
Phân cụm dữ liệu mờ cộng tác cũng được nghiên cứu ứng dụng trong bài toán môi trường mạng phân tán[28], trong đó hàm mục tiêu sử dụng trọng số cho các thuộc tính.Thuật toán không sử dụng 2 pha tính toán như mô hình đề xuất bởi giáo sư Pedrycz mà chỉ gồm 1 pha lặp lại việc tính toán ma trận phân hoạch và điều chỉnh trọng số cho đến khi tối ưu Hàm mục tiêu của thuật toán trong [28]gồm 2 phần, phần đầu tương tự như đề xuất mô hình của Pedrycz giống với thuật toán FCM, phần thứ 2 tỉ lệ ngược với entropy của trọng số thuộc tính và phần này giúp tối ưu sự đóng góp của các thuộc tính quan trọng trong quá trình cộng tác Trong công bố này Zhou cũng đề xuất mô hình nhân cho thuật toán đề xuất trên để giải quyết vấn đề cấu trúc cụm không phải hình cầu Trong kết luận của mình nhóm cũng chỉ ra tồn tại cần giải quyết khi số cụm trong các tập con là bằng nhau và cần tiếp tục nghiên cứu các giải pháp để xác định số cụm trong quá trình khởi tạo cũng như một số giải pháp kết hợp bán giám sát bằng cách sử dụng các kỹ thuật heuristic
Một hướng ứng dụng của phân cụm cộng tác cũng được nhóm Y Jiang
đề xuất là khi dữ liệu có nhiều khung nhìn theo các thuộc tính khác nhau, có thể áp dụng mô hình cộng tác giữa nhiều khung nhìn này [29], nghiên cứu này cũng mở rộng bằng cách đề xuất mô hình trọng số cho từng khung nhìn trong hàm mục tiêu
Thuật toán phân cụm cộng tác lai tính toán hạt cũng được nhóm của Z Han nghiên cứu ứng dụng trong bài toán dự đoán dung lượng thiết bị lưu trữ khí gas trong thời gian dài[30], theo đó không gian chiều ngang mô tả dung lượng thiết bị lưu trữ trong nhiều thời gian khác nhau và không gian chiều dọc
Trang 35mô tả các yếu tố ảnh hưởng sau đó sử dụng mô hình phân cụm cộng tác để dự đoán các thiết bị lưu trữ cần sử dụng
Yan Liu trình bày phương pháp phân cụm mờ cộng tác cho dữ liệu khoảng có quy mô lớn [31], trong đó phát triển thuật toán phân cụm cộng tác cho tập dữ liệu khoảng gồm các đối tượng được mô tả bằng nhiều thuộc tính khác nhau, tiếp theo nhóm Yan phát đề xuất ứng phân cụm cho tập dữ liệu khoảng quy mô lớn bằng cách chia thành nhiều tập dữ liệu nhỏ hơn để phân cụm và thực hiện tiếp quá trình cộng tác Hai kỹ thuật phân cụm có nhiều điểm tương đồng với phân cụm cộng tác cũng được nghiên cứu nhiều trong thời gian gần đây một là phân cụm tổng hợp (Ensemble Clustering) trong đó dữ liệu được phân cụm theo nhiều cách khác nhau sau đó được các kết quả này được tổng hợp để đạt được chất lượng tốt nhất [32], hai là tìm cách xây dựng một ma trận phân hoạch duy nhất sao cho có sự sai khác ít nhất với các ma trận phân hoạch
đã có của dữ liệu (Fuzzy Consensus Clustering) [33]
Trong nghiên cứu của mình, Zhaohong Deng cũng đưa ra một hướng tương tự phân cụm cộng tác là phân cụm dựa trên trao đổi mẫu [34]
Nhóm Shen cải tiến bằng cách tái sắp xếp ma trận phân hoạch và sử dụng ma trận phân hoạch hạt kết hợp phân tích ảnh hưởng kết nối giữa các tập
dữ liệu cho mô hình phân cụm cộng tác theo chiều dọc[35], tuy nhiên nghiên cứu này dựa trên giả định rằng số cụm trong các tập dữ liệu cũng như mức độ cộng tác giữa các tập là như nhau
1.2.3 Phân cụm dữ liệu lớn
1.2.3.1 Dữ liệu lớn
Trong thời đại số ngày nay, chúng ta đối diện với khối lượng thông tin và
dữ liệu khổng lồ được tạo ra hàng ngày từ rất nhiều nguồn khác nhau bởi con người, internet vạn vật và sự tương tác giữa con người với chúng Việc phân tích các giữ liệu mang lại nhiều thông tin hữu ích từ nguồn như Facebook, Twitter, Google, Wikipedia…hoặc hệ thống các cảm biến trong hầu hết các
Trang 36thiết bị điện tử Mặc dù vậy, nó cũng là vấn đề cần giải quyết cho các bài toán
xử lý trên đó mà nhiều cách tiếp cận với dữ liệu thông thường trước đây không thể áp dụng được Dữ liệu này cần bộ nhớ lớn hơn, các tính toán xử lý, phân tích và khai phá thông tin đòi hỏi thời gian và tài nguyên khổng lồ Trong bảng 1.1 [36] Bezdek và Hathaway đưa ra cách phân loại dữ liệu lớn, có thể thấy với
lưu trữ sẽ đòi hỏi 40TB bộ nhớ là điều không thể với hầu hết các hệ thống máy tính hiện nay
Bảng 1.1 Phân loại dữ liệu lớn
(medium)
Lớn (large)
Rất lớn (huge)
Khổng lồ (monster)
Siêu lớn (very large)
Các thách thức trong xử lý dữ liệu lớn do chính đặc tính của chúng và được nhiều nhà nghiên cứu dữ liệu chỉ ra, một số cho rằng dữ liệu lớn có 3 đặc điểm gọi là 3V (volume, velocity and variety), trong [37] nhóm Gandomi bổ sung thêm các đặc tính dữ liệu lớn thành 6V (volume, velocity, variety, veracity, variability, value)
Như đã trình bày trên, việc phân tích dữ liệu lớn mang lại nhiều thông tin hữu tích và một trong những kỹ thuật được sử dụng phổ biến là phân cụm dữ liệu, trong [38] chỉ ra có rất nhiều thuật toán phân cụm dữ liệu lớn đã được đề xuất dựa trên nhiều lý thuyết và ứng dụng khác nhau, mỗi thuật toán có những
ưu và nhược điểm và các thuật toán theo mô hình phân hoạch thường được áp dụng do yêu cầu tính toán thấp hơn Có 2 cách tiếp cận để giải quyết bài toán phân cụm dữ liệu lớn: một số thực hiện việc phân cụm trên toàn bộ dữ liệu, ví dụ một số thuật toán cải tiến từ thuật toán FCM như: LFCM/AO (literal Fuzzy c-Means with alternating optimization) [36], thuật toán SPFCM (Single Pass FCM) hay OFCM (Online FCM) các thuật toán này chia dữ liệu thành các tập nhỏ và phân từng tập dữ liệu con thành c cụm, tuy nhiên cách làm này phụ
Trang 37thuộc nhiều vào việc chia các tập dữ liệu con, có thể xảy ra trường hợp một tập con chỉ chứa các phần tử của một số cụm nào đó; một cách tiếp cận khác là lấy mẫu dữ liệu từ tập dữ liệu lớn và thực hiện phân cụm sau đó kết quả được mở rộng xấp xỉ cho phần dữ liệu còn lại thông qua tâm cụm tìm được, ví dụ thuật toán rseFCM (random sampling plus extension Fuzzy c-Means) [36] hay thuật toán RSIO-FCM (Random Sampling with Iterative Optimization Fuzzy c-Means) [39], cách này cũng phụ thuộc nhiều vào kết quả lấy mẫu dữ liệu và kết quả phân cụm có thể không tốt nếu một mẫu chỉ lấy dữ liệu tử một hoặc vài cụm Sử dụng thuật toán FCM xác suất bậc cao kết hợp với nén thuộc tính mẫu bằng mạng đào tạo tensors để phân cụm dữ liệu lớn trong môi trường IoT với các thiết bị đầu cuối có cấu hình thấp cũng được nghiên cứu và cho kết quả tốt [40]
1.2.3.2 Một số thuật toán phân cụm dữ liệu lớn
Phần này trình bày một số thuật toán phân cụm dữ liệu lớn tiêu biểu theo của hai hướng tiếp cận phân cụm mẫu và phân cụm toàn bộ dữ liệu
a Thuật toán FCM lấy mẫu ngẫu nhiên mở rộng (rseFCM)
Thuật toán rseFCM [36] thực hiện theo cách tiếp cận lấy mẫu, đầu tiên từ tập
dữ liệu lớn X thực hiện lấy ngẫu nhiên ns phần tử đưa vào tập Xs, thực hiện thuật toán phân cụm FCM cho tập Xs sau đó từ các tâm cụm đã tìm được mở rộng tính toán xác định cụm cho các phần tử còn lại của X, cụ thể như sau:
Thuật toán 1.2 rseFCM
lần lặp tối đa max
Đầu ra: Kết quả phân cụm
1 Lấy mẫu ngẫu nhiên tập X s từ X;
2 Us,V=FCM(X,c,m,,max )
3 Tính ma trận U cho toàn bộ tập X bằng công thức (1.4)
4 Tính kết quả phân cụm từ U,V
Trang 38b Thuật toán FCM có trọng số (Weighted Fuzzy c-Means - wFCM)
Trong thuật toán FCM các phần tử là bình đẳng trong quá trình phân cụm, tuy nhiên trong nhiều trường hợp mỗi phần tử là không bình đẳng và có mức
độ ảnh hưởng hay trọng số khác nhau ta có thuật toán phân cụm có trọng số [16] với hàm mục tiêu như sau:
số mờ m (1<m<+ ) và sai số , số lần lặp tối đa max
Đầu ra: Kết quả phân cụm
2 𝑚−1 𝑐
𝑗=1 Tính ma trận tâm cụm 𝑣𝑖 = ∑𝑛𝑘=1𝑤𝑘𝑢𝑖𝑘𝑚𝑥 𝑘
c cụm này thành ns+c điểm trong đó mỗi cụm lại được coi là 1 điểm với trọng
Trang 39số được xác định theo tổng độ thuộc của các phần tử trong cụm và thực hiện bước phân cụm tiếp theo Quá trình tiếp tục đến hết tập dữ liệu ta được kết quả phân cụm cho toàn bộ dữ liệu
Thuật toán 1.4 spFCM
số mờ m (1<m<+ ), số phần tử tập con n s và sai số , số lần lặp tối đa max
Đầu ra: Kết quả phân cụm U, V
Nạp ngẫu nhiên X s là tập n s phần tử từ X vào bộ nhớ
phân cụm dữ liệu lớn Ý tưởng ở đây là dùng hàm nhân k để tính khoảng cách
giữa các phần tử thay vì tính khoảng cách trong không gian dữ liệu ban đầu ta
có công thức tính khoảng cách giữa phần tử x và y như sau
𝑑(𝑥, 𝑦) = ‖∅(𝑥) − ∅(𝑦)‖2 = 𝑘(𝑥, 𝑥) + 𝑘(𝑦, 𝑦) − 2𝑘(𝑥, 𝑦) (1.2)
Thuật toán 1.5 rsekFCM
lần lặp tối đa max
Đầu ra: Kết quả phân cụm
Trang 401 Lấy mẫu ngẫu nhiên tập X s từ X;
2 Us,V=FCM(X,c,m,,max )
3 Tính ma trận U cho toàn bộ tập X bằng công thức (1.4) với khoảng cách tính theo (1.2)
4 Tính kết quả phân cụm từ U,V
1.2.4 Một số kỹ thuật kết hợp nâng cao chất lượng phân cụm
1.2.4.1 Kỹ thuật nhân trong phân cụm
Một trong những thách thức của bài toán phân cụm là sự phức tạp của dữ liệu, sự phức tạp có thể ở nhiều khía cạnh khác nhau như: kích thước dữ liệu,
sự đa dạng các loại thuộc tính, tính đa dạng của dữ liệu nói chung Các thuật toán truyền thống đã giải quyết rất tốt vấn đề phân cụm dữ liệu trong trường hợp tuyến tính Một trong các cách phổ biến để phân lớp tuyến tính một dữ liệu phi tuyến trong không gian đầu vào là sử dụng một hàm nhân Mercer k để làm phép ánh xạ ẩn
Trong bài toán phân cụm, nhân được áp dụng vào dữ liệu thuộc tính dùng phân cụm Phương pháp nhân sử dụng kỹ thuật chuyển đổi phi tuyến không gian dữ liệu đầu vào sang một không gian dữ liệu khác mà ở đó sự phân tách các cụm dữ liệu được dễ dàng hơn [42][43][44][45][46][47][48] thông qua nhân 𝐾(𝑥, 𝑦) = ∅(𝑥)𝑇∅(𝑦) Nhằm tăng hiệu quả của các thuật toán phân cụm, phương pháp nhân cũng được các nhóm nghiên cứu sử dụng kết hợp với các kỹ thuật khác: nhóm của Dung sử dụng nhân kết hợp giải thuật di truyền [49]; nhóm của Fan sử dụng phân cụm nhân cho bài toán tối ưu đồng tiến hóa cộng tác dữ liệu lớn [50]; Trong [51] Timothy và cộng sự sử dụng nhân kết hợp xác suất vào FCM để phân cụm dữ liệu lớn; Dữ liệu phân cụm thường có nhiều thuộc tính và một trong những cách tiếp cận là sử dụng nhiều nhân kết hợp để chuyển đổi không gian dữ liệu gọi là đa nhân [44][52][53]