1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Phát triển một số thuật toán phân cụm mờ viễn cảnh và ứng dụng trong dự báo

153 27 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 153
Dung lượng 2,92 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Tuy nhiên, chất lượngphân cụm của FCM thường không đủ tốt do thuật toán này được cài đặt trên cơ cởcủa các tập mờ truyền thống, trong đó vẫn có những giới hạn về độ thuộc, sự do dự và mơ

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

LUẬN ÁN TIẾN SĨ TOÁN HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC:

1 PGS TS Lê Hoàng Sơn

2 PGS TS Nguyễn Thị Hồng Minh

Hà Nội, 2020

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi được hoàn thànhdưới sự hướng dẫn khoa học của PGS TS Lê Hoàng Sơn và PGS TS Nguyễn ThịHồng Minh Các kết quả nghiên cứu của tôi được viết chung với các tác giả khác đãđược sự nhất trí của đồng tác giả khi đưa vào luận án Tôi xin cam đoan các kết quảnêu trong luận án là trung thực và chưa được công bố trong bất cứ công trình nàotrước thời gian công bố

Tác giả luận án

Phạm Huy Thông

i

Trang 4

LỜI CẢM ƠN

Trước hết, tác giả xin được gửi lời cảm ơn chân thành và sâu sắc nhất tới tập thể giáo viên hướng dẫn, PGS TS Lê Hoàng Sơn và PGS TS Nguyễn Thị Hồng Minh Thầy, Cô đã trực tiếp hướng dẫn, định hướng chuyên môn, giúp đỡ tận tình, ân cần chỉ dạy giúp cho tác giả có thể hoàn thành luận án này.

Tôi xin chân thành gửi lời cảm ơn đến quý thầy cô, các anh chị em đồng nghiệp của Trung tâm Tính toán Hiệu Năng Cao và khoa Toán – Cơ – Tin học, Trường Ðại học Khoa học Tự nhiên đã quan tâm giúp đỡ, tạo điều kiện về nhiều mặt, chỉ bảo tận tình trong quá trình tác giả thực hiện luận án này Nhờ đó tác giả đã tiếp thu được nhiều ý kiến đóng góp và nhận xét quí báu thông qua các buổi thảo luận seminar để hoàn chỉnh luận án.

Xin chân thành cảm ơn Viện Công nghệ Thông tin, Đại học Quốc gia

Hà Nội đã hết sức tạo điều kiện về thời gian và công việc để tác giả có thể tập trung hoàn thành quá trình học tập, nghiên cứu và hoàn thiện luận án.

Cuối cùng xin cảm ơn gia đình, bạn bè đã cổ vũ và động viên tác giả trong công việc và học tập cũng như trong quá trình thực hiện luận án này.

Xin chúc mọi người luôn mạnh khoẻ, đạt được nhiều thành tích cao trong công tác, học tập và nghiên cứu khoa học!

Hà Nội, ngày … tháng … năm 2020

Tác giả luận án

Phạm Huy Thông

ii

Trang 5

MỤC LỤC

LỜI CAM ĐOAN i

LỜI CẢM ƠN ii

DANH MỤC THUẬT NGỮ VÀ TỪ VIẾT TẮT 3

DANH MỤC BẢNG BIỂU 5

DANH MỤC HÌNH VẼ 7

MỞ ĐẦU 9

CHƯƠNG 1 CƠ SỞ LÝ THUYẾT 20

Tập mờ 20

Độ đo tương tự và đánh giá chất lượng cụm 21

Thuật toán phân cụm mờ 24

Một số thuật toán khác 27

1.4.1 Thuật toán tối ưu bầy đàn 27

1.4.2 Thuật toán DifFuzzy 28

1.4.3 Thuật toán Dissimilarity 30

1.4.4 Phương pháp FCM-STAR 32

Bộ dữ liệu thực nghiệm 33

Kết luận chương 34

CHƯƠNG 2 THUẬT TOÁN PHÂN CỤM MỜ VIỄN CẢNH 35

2.1 Ý tưởng thuật toán 35

2.2 Thuật toán phân cụm mờ viễn cảnh 35

2.2.1 Hàm mục tiêu 35

2.2.2 Chi tiết thuật toán 39

2.3 Khảo sát tính chất hội tụ của thuật toán 39

2.4 Kết quả thực nghiệm 42

2.4.1 Ví dụ minh họa cho FC-PFS 43

1

Trang 6

2.4.2 So sánh chất lượng phân cụm 46

2.4.3 Đánh giá thuật toán qua các tham số 50

2.5 Kết luận chương 52

CHƯƠNG 3 MỘT SỐ CẢI TIẾN CỦA THUẬT TOÁN PHÂN CỤM MỜ VIỄN CẢNH ……… 53

3.1 Thuật toán phân cụm mờ tự động xác định số cụm 53

3.1.1 Ý tưởng thuật toán 53

3.1.2 Chi tiết thuật toán 54

3.1.3 Kết quả thực nghiệm 62

3.2 Thuật toán phân cụm mờ với dữ liệu phức tạp 72

3.2.1 Độ đo cho thuộc tính kiểu loại 73

3.2.2 Thuật toán phân cụm với dữ liệu phức tạp (PFCA-CD) 73

3.2.3 Kết quả thực nghiệm 77

3.3 Kết luận chương 84

CHƯƠNG 4 ỨNG DỤNG CỦA THUẬT TOÁN PHÂN CỤM MỜ VIỄN CẢNH 86

4.1 Phương pháp PFC-STAR 87

4.2 Phương pháp PFC-PFR 89

4.2.1 Số mờ viễn cảnh tam giác 90

4.2.2 Số mờ viễn cảnh hình thang 91

4.2.3 Chi tiết thuật toán 92

4.3 Kết quả thực nghiệm 99

4.4 Kết luận chương 107

KẾT LUẬN 108

DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ ĐÃ CÔNG BỐ 110

TÀI LIỆU THAM KHẢO 111

Trang 7

2

Trang 8

DANH MỤC THUẬT NGỮ VÀ TỪ VIẾT TẮT

Trang 9

15 PFC-PFR

3

Trang 11

4

Trang 12

DANH MỤC BẢNG BIỂU

Bảng 1.1 Mô tả tập dữ liệu thử nghiệm 33Bảng 2.1 Thuật toán phân cụm mờ viễn cảnh 39Bảng 2.2 So sánh chất lượng cụm và thời gian chạy của các thuật toán ( = 0.6) 46

Bảng 2.3 Các miền phân lớp của thuật toán 49Bảng 2.4 Thống kê các kết quả tốt nhất của các thuật toán với hệ số khác nhau 50Bảng 3.1 Mô tả chi tiết thuật toán AFC-PFS 57Bảng 3.2 Giá trị của các phần tử trong ví dụ 60Bảng 3.3 Giá trị của các phần tử sau khi loại bỏ cụm 3 trong ví dụ 61Bảng 3.4 Số cụm trung bình của thuật toán với các chỉ số đánh giá khác nhau (giá trị

in đậm có nghĩa là một trong những giá trị gần nhất với số các lớp được định sẵntrong cột) 63Bảng 3.5 Giá trị STD của thuật toán nhận được bằng cách sử dụng chỉ số đánh giákhác nhau như giá trị fitness. 63Bảng 3.6 Các giá trị đầu ra trung bình PBM, WGLI và ASWC của các thuật toánbằng cách sử dụng ASWC như giá trị fitness (các giá trị bôi đậm có nghĩa là tốt nhấttrong một hàng) 67Bảng 3.7 Các giá trị đầu ra độ lệch chuẩn (STD) của PBM, WGLI và ASWC của cácthuật toán sử dụng ASWC như giá trị fitness 67Bảng 3.8 Các giá trị trung bình PBM, WGLI và ASWC của các thuật toán sử dụng WGLInhư các giá trị fitness (các giá trị bôi đậm có nghĩa là tốt nhất trong một hàng) 67Bảng 3.9 Các giá trị đầu ra độ lệch chuẩn PBM, WGLI và ASWC của các thuật toán

sử dụng WGLI như các giá trị fitness 68Bảng 3.10 Các giá trị đầu ra trung bình PBM, WGLI và ASWC của của các thuậttoán bằng cách sử dụng PBM như giá trị fitness (các giá trị bôi đậm có nghĩa là tốtnhất trong một hàng) 68Bảng 3.11 Các giá trị đầu ra chuẩn PBM, WGLI và ASWC của của các thuật toán sử dụng PBM như giá trị fitness các giá trị bôi đậm có nghĩa là tốt nhất trong một hàng) 69Bảng 3.12 Thời gian tính toán của các thuật toán (giây) 72

5

Trang 13

Bảng 3.13 Cách chọn tâm cụm 74

Bảng 3.14 Thuật toán phân cụm mờ viễn cảnh cho dữ liệu phức tạp 76

Bảng 3.15 Các giá trị chỉ số đánh giá trung bình của các thuật toán (Giá trị đậm có nghĩa là tốt nhất trong mỗi tập dữ liệu và chỉ số đánh giá) 80

Bảng 3.16 Thời gian để đạt được giá trị tốt nhất của các thuật toán (Giá trị đậm có nghĩa là tốt nhất) 82

Bảng 3.17 Giá trị STD cho các chỉ số đánh giá của các thuật toán 83

Bảng 3.18 Thời gian tính toán (với giá trị STD) của các thuật toán theo giây 84

Bảng 4.1 Thuật toán huấn luyện tham số dựa trên PSO 98

Bảng 4.2 So sánh giá trị RMSE của các thuật toán 100

Bảng 4.3 So sánh giá trị RMSE của các thuật toán 103

Bảng 4.4 STD của giá trị RMSE của các thuật toán 104

6

Trang 14

DANH MỤC HÌNH VẼ

Hình 1.1 Thuật toán phân cụm FCM 25

Hình 1.2 Sơ đồ thuật toán tối ưu PSO 27

Hình 1.3 Ảnh mây vệ tinh của bộ dữ liệu 1 34

Hình 1.4 Ảnh mây vệ tinh của bộ dữ liệu 2 34

Hình 1.5 Ảnh mây vệ tinh của bộ dữ liệu 3 34

Hình 2.1 Các cụm tại bước khởi tạo 44

Hình 2.2 Các cụm sau bước lặp đầu tiên 45

Hình 2.3 Kết quả phân cụm cuối cùng 45

Hình 2.4 Độ chính xác trung bình của các thuật toán 48

Hình 2.5 Thời gian tính toán của các thuật toán 49

Hình 2.6 Giá trị MA của các thuật toán theo hệ số mũ 51

Hình 2.7 Thời gian tính toán của các thuật toán theo hệ số mũ (s) 51

Hình 3.1 Lược đồ của thuật toán AFC-PFS 56

Hình 3.2 Số cụm trung bình của các thuật toán 64

Hình 3.3 Sự tương quan giữa các thành phần với các cụm của dữ liệu GLASS 64

Hình 3.4 Sự tương quan giữa các thành phần đầu tiên và thứ hai với các cụm thực trên tập dữ liệu GLASS 66

Hình 3.5 Giá trị ASWC trung bình của các thuật toán với giá trị sai số 70

Hình 3.6 Giá trị WGLI trung bình của đầu ra các thuật toán với sai số 70

Hình 3.7 Các giá trị trung bình PBM của đầu ra các thuật toán với sai số của tập dữ liệu IRIS, GLASS, IONOSPHERE, HABERMAN và HEART. 71

Hình 3.8 Giá trị PBM trung bình của các đầu ra của các thuật toán với sai số của các tập dữ liệu WINE và WDBC 71

Hình 3.9 Sơ đồ thuật toán PFCA-CD 75

Hình 3.10 Sự phân bố dữ liệu của bộ dữ liệu STATLOG với hai thuộc tính 78

Hình 3.11 Sự phân bố dữ liệu của bộ dữ liệu ABALONE với hai thuộc tính 78

7

Trang 15

Hình 3.12 Sự phân bố dữ liệu của bộ dữ liệu AUTOMOBILE với hai thuộc tính 79

Hình 3.13 Sự phân bố dữ liệu của bộ dữ liệu SERVO với hai thuộc tính 79

Hình 3.14 Biểu đồ biểu diễn các giá trị MA và RI của tất cả các thuật toán với các tập dữ liệu khác nhau 81

Hình 3.15 Biểu đồ biểu diễn các giá trị của ASWC và DB của tất cả các thuật toán với các tập dữ liệu khác nhau 81

Hình 4.1 Thuật toán PFC-STAR 87

Hình 4.2 Ví dụ về tính toán và huấn luyện trọng số của thuật toán STAR 88

Hình 4.3 Sơ đồ PFC-PFR 90

Hình 4.4 Số mờ viễn cảnh tam giác của tập mờ viễn cảnh A 90

Hình 4.5 Số mờ viễn cảnh hình thang của tập mờ viễn cảnh A 91

Hình 4.6 Các bước trong thuật toán PFC-PFR 92

Hình 4.7 RMSE của các thuật toán với dữ liệu trong hình ảnh dự đoán 1 102

Hình 4.8 RMSE của các thuật toán với dữ liệu trong hình ảnh dự đoán 2 102

Hình 4.9 RMSE của các thuật toán với dữ liệu trong hình ảnh dự đoán 3 102

Hình 4.10 Giá trị RMSE của thuật toán PFC-PFR với các cụm khác nhau của dữ liệu 1 .105

Hình 4.11 Giá trị RMSE của thuật toán PFC-PFR với các cụm khác nhau của dữ liệu 2 .105

Hình 4.12 Giá trị RMSE của thuật toán PFC-PFR với các cụm khác nhau của dữ liệu 3 .106

Hình 4.13 Kết quả dự báo của dữ liệu 1 bởi PFC-PFR (A) và PFC-STAR(B) 106

Hình 4.14 Kết quả dự báo của dữ liệu 2 bởi PFC-PFR (A) và PFC-STAR(B) 106

Hình 4.15 Kết quả dự báo của dữ liệu 3 bởi PFC-PFR (A) và PFC-STAR(B) 106

Trang 16

8

Trang 17

MỞ ĐẦU

1 Nhu cầu và ý nghĩa của phân cụm và phân cụm mờ

Ngày nay, với sự phát triển về mọi mặt của đời sống từ kinh tế, văn hóa, giáodục cho đến công nghệ và đặc biệt, lĩnh vực công nghệ thông tin đã có những bướcphát triển chóng mặt Công nghệ thông tin ngày càng khẳng định vai trò quan trọng,làm trung tâm chi phối mọi hoạt động, là cầu nối trao đổi thông tin giữa các thànhphần của xã hội toàn cầu, của mọi vấn đề Như một hệ quả tất nhiên, lượng thôngtin, dữ liệu được được thu thập, lưu trữ cũng ngày một lớn hơn và đang phát triểnmột cách bùng nổ trong những năm gần đây Chính vì vậy, câu hỏi làm thế nào đểtrích xuất ra các thông tin, các tri thức từ lượng dữ liệu khổng lồ đó đang là tháchthức cũng như mang lại cơ hội nghiên cứu, khám phá cho các nhà khoa học

Khai phá dữ liệu là quá trình xử lý dữ liệu và nhận biết các mẫu và các xuhướng trong thông tin để có thể giúp người dùng đưa ra quyết định hoặc đánh giá

Có nhiều bài toán khai phá dữ liệu như phân lớp, phân cụm, hồi quy, v.v., trong đóbài toán phân cụm dữ liệu là bài toán tương đối phổ biến và có nhiều ứng dụng.Phân cụm dữ liệu là việc sắp xếp các đối tượng dữ liệu vào từng cụm sao cho cácphần tử trong cùng một cụm có mức độ tương tự là cao nhất và hai phần tử bất kỳ ởhai cụm khác nhau có mức độ tương tự là thấp nhất Việc phân cụm như vậy giúpcho việc khai phá dữ liệu, đặc biệt là các bài toán dữ liệu lớn trở nên hiệu quả khicác dữ liệu được phân thành các nhóm với các tính chất đặc trưng Việc phân cụmnày đặc biệt hiệu quả khi dữ liệu có phân bố các cụm tách rời nhau và không chứanhiễu Tuy nhiên, với các bộ dữ liệu có sự phân bố các cụm xen kẽ, dữ liệu khôngchắc chắn, dữ liệu chứa nhiễu hoặc thiếu một số thuộc tính thì cách phân cụm nhưvậy không hiệu quả Trên thực tế, mỗi một phần tử trong bộ dữ liệu có thể thuộc vềnhiều cụm dữ liệu với các mức độ khác nhau

Để giải quyết vấn đề này, dựa trên lý thuyết về tập mờ của Zadeh [98], Bezdek[12] đã đưa ra thuật toán phân cụm mờ - Fuzzy C-means (FCM) nhằm giải quyếtcác nhược điểm trên Thuật toán này được xem như một trong những phương pháptrích rút các quy tắc và luật mờ trong khai phá dữ liệu, trong đó các yếu tố mờ thực

sự phổ biến [26, 73, 106] Phân cụm mờ có nhiều ứng dụng trong thực tế cuộc sống

ở nhiều lĩnh vực khác nhau như:

9

Trang 18

- Trong kinh tế: dự báo tỉ giá, dự báo chứng khoán, dự báo tài chính [91-92]

- Trong y khoa: Hỗ trợ chuẩn đoán hình ảnh, hỗ trợ tư vấn khám bệnh

[1,7,15,16,19,47,51,71,74,95]

- Trong thủy văn: dự báo thời tiết ngắn hạn [76]

- Trong xử lý ảnh: Phân đoạn ảnh [50,102]

- Trong hệ tư vấn: hỗ trợ ra quyết định [44,52]

- Trong an ninh: phát hiện lỗi, xâm nhập [46,104]

- Trong mạng không dây: đặt các cảm biến, phương pháp truyền tin [2,61]Trong các ứng dụng của phân cụm mờ, bài toán dự báo thời tiết ngắn hạn nổi bậtbởi việc kết hợp các kết quả của phân cụm với xử lý ảnh để đưa ra ảnh dự báo đầu ra

Dự báo thời tiết là một ứng dụng khoa học và công nghệ để dự đoán trạng thái của bầukhí quyển tại một vị trí nhất định và nó đóng một vai trò quan trọng trong cuộc sốnghàng ngày của con người Các dự báo thời tiết có độ chính xác cao sẽ làm giảm nhữngrủi ro mà con người có thể phải đối mặt Một trong những phần quan trọng nhất của dựbáo thời tiết là dự báo thời tiết ngắn hạn [87] Dự báo thời tiết ngắn hạn kết hợp mô tả

về trạng thái hiện tại của khí quyển và dự báo ngắn hạn về khí quyển sẽ xẩy ra trongvài giờ tiếp theo [33] Điều này cho phép nó có thể dự báo các tính chất thời tiết trongngắn hạn như mưa, mây và các cơn bão với các nguyên nhân rõ ràng trong khoảng thờigian này, theo [58] Các dữ liệu rada mới nhất, dữ liệu vệ tinh và dữ liệu dựa trên quansát được sử dụng để phân tích các biến đổi trong phạm

vi hẹp như một thành phố và thực hiện một dự báo chính xác cho khoảng thời gianvài giờ sau Tuy nhiên, quan sát vệ tinh là sự lựa chọn thích hợp cho tất cả các khuvực trong vùng phủ sóng của nó [57,72]

Một vài phương pháp điển hình được sử dụng rộng rãi trong dự báo thời tiếtdựa theo các quan sát của hình ảnh vệ tinh cụ thể như [29,59,75-76] Đặc biệt,Evans [29] sử dụng mô hình tương quan đa kênh cho việc gán nhãn để phân tíchchuyển động đám mây Melgani [59] xây dựng lại bối cảnh hình ảnh đa thời gian và

đa quang phổ bị nhiễu đám mây Shukla và Pal [75] đề xuất một cách tiếp cận đểnghiên cứu sự tiến hóa của các tế bào đối lưu

10

Trang 19

Shukla, Kishtawal và Pal [76] đề xuất một phương pháp để dự đoán các chuỗihình ảnh vệ tinh kết hợp mô hình hồi quy không thời gian (STAR) với phân cụm mờ(Fuzzy C-Means - FCM) để tăng độ chính xác dự báo Mặc dù kỹ thuật này đã cho kếtquả dự báo tốt hơn so với các phương pháp trong [29,59,75], tuy nhiên nó vẫn không

đủ tốt vì những hạn chế của các tập mờ như độ do dự và mơ hồ Park và Lee

[69] trình bày một cách tiếp cận bằng suy diễn mờ và phương pháp tập hợp để dựbáo thủy triều đỏ Theo cách tiếp cận này, suy diễn mờ là một phương pháp dự đoánxuất phát từ một đề xuất gần đúng từ thông tin mơ hồ và kiến thức dựa trên một môhình mờ Phương pháp tập hợp sau đó đã được sử dụng để giúp cải thiện độ chínhxác của kết quả phân loại và dự đoán Các tác giả trong [62] đã so sánh các mô hìnhmạng neuron nhân tạo riêng lẻ và kết hợp (ANN) cho bài toán dự đoán nhiệt độkhông khí và điểm sương Mô hình này được phát triển theo kiến trúc mạng Ward[90] bao gồm một mạng nơ ron ba lớp với các lớp đầu vào, ẩn và đầu ra Mặc dù dựđoán dựa trên ANN có thể cho độ chính xác cao hơn, nó vẫn có trở ngại bởi một sốtham số như hàm khởi động, số lượng các nút trong lớp ẩn, phân phối các nút giữacác lớp của mô hình theo kiểu Ward phải xác định

2 Các tiếp cận chính đối với phân cụm mờ

Các yêu cầu về hệ thống thông minh và tự động đặt FCM vào thách thức lớntrong các ứng dụng như phân tích dữ liệu, nhận dạng mẫu, phân đoạn ảnh, phân tíchnhóm vị trí, ảnh vệ tinh và phân tích tài chính Một số phương pháp cải tiến hoặc laighép kết hợp FCM với một số thuật toán tối ưu khác được trình bày trong [6, 7, 23,

40, 65, 85, 86, 101] nhằm nâng cao chất lượng phân cụm Tuy nhiên, chất lượngphân cụm của FCM thường không đủ tốt do thuật toán này được cài đặt trên cơ cởcủa các tập mờ truyền thống, trong đó vẫn có những giới hạn về độ thuộc, sự do dự

và mơ hồ của các tham số mẫu Chính vì vậy việc nghiên cứu các thuật toán phâncụm trên các tập mờ nâng cao nhằm mục tiêu giải quyết các nhược điểm này

Đến nay đã có rất nhiều thuật toán phân cụm trên các tập mờ nâng cao như thuậttoán phân cụm trên tập mờ loại 2 (T2FS) [57], tập mờ trực cảm, v.v mang lại chấtlượng phân cụm tốt hơn Nhiều thuật toán phân cụm dựa trên tập mờ loại 2 (T2FS)

[57] được đề xuất như trong [38, 41, 55, 64, 66, 88] Những thuật toán này tập trungvào sự không chắc chắn với bộ mờ hóa mở rộng nhằm điều khiển độ mờ trong FCM

11

Trang 20

Mặc dù chất lượng phân cụm tốt hơn FCM, nhưng thời gian tính toán khá lớn nêncác nghiên cứu thường mở rộng FCM trên tập mờ trực cảm (IFS) [10] Một sốnghiên cứu phát triển FCM trên IFS được đề xuất bởi các tác giả trong [4, 36, 39,

93, 105] Chaira [15] và Chaira & Panwar [16] giới thiệu thuật toán phân cụm mờtrực cảm dựa trên hàm mục tiêu mới để phân cụm các ảnh chụp CT não nhằm pháthiện các vấn đề bất thường trong não Một số nghiên cứu khác được đề xuất pháttriển trên tập thuộc tính mờ và độ đo mờ để đánh giá chất lượng phân cụm[9,14,27,103] Lê Hoàng Sơn và cộng sự [77-84] đã đề xuất thuật toán phân cụm mờtrực cảm để phân tích nhân khẩu học dựa vào các kết quả nghiên cứu gần đây liênquan đến IFS và thuật toán phân cụm mờ xác suất Phân cụm mờ với hàm nhân(KFCM) được áp dụng để nâng cao chất lượng phân cụm của FCM như trong cácnghiên cứu [34, 45, 54] Tổng quan về các thuật toán phân cụm mờ trực cảm đượctổng hợp trong [94] Tuy nhiên, các thuật toán này vẫn cho kết quả vẫn chưa tốt vàkhông phản ánh được nhiều yếu tố như độ “do dự” tồn tại trong nhiều ứng dụng.Vào năm 2014, Bùi Công Cường và cộng sự đã giới thiệu tập mờ viễn cảnh(PFS) [21], là một sự khái quát hóa của tập mờ truyền thống và tập mờ trực cảm.Các mô hình dựa trên PFS có thể được áp dụng cho nhiều tình huống cần ý kiến củacon người liên quan nhiều đến các câu trả lời kiểu: đồng ý, do dự, không đồng ý và

từ chối trả lời Các tình huống này có thể cho kết quả rõ ràng hơn trên các thuật toánphân cụm dựa trên IFS Chính vì vậy việc phát triển thuật toán phân cụm mờ trênPFS sẽ nâng cao độ chính xác phân cụm Hiện nay các thuật toán phân cụm mờ viễncảnh mới chỉ dừng lại ở việc đưa ra một số độ đo kết hợp sử dụng phân cụm phâncấp để thực hiện như trong [57] mà chưa xem xét đến việc phân cụm theo cách tiếpcận phân hoạch

3 Các vấn đề tồn tại của phân cụm mờ

Ngoài các nhược điểm về chất lượng cụm, thuật toán FCM và các thuật toán

phân cụm trên các tập mờ nâng cao còn có một số nhược điểm khác như xác định số

cụm hay xử lý với dữ liệu phức tạp.

Thứ nhất, thuật toán FCM và các thuật toán phân cụm trên các tập mờ nâng cao

phải xác định trước số cụm trước khi thực hiện phân cụm [32] Điều này là khá quantrọng vì hiệu suất của một thuật toán phân cụm phụ thuộc rất nhiều vào số lượng các

12

Trang 21

cụm ban đầu [49, 53] Việc xác định số cụm ban đầu không tốt dẫn đến chất lượngcụm không tốt, chứa nhiễu hoặc các điểm ngoại biên [97] Qua nghiên cứu, có bacách tiếp cận cụ thể là quét, tiền xử lý và cắt tỉa đang được sử dụng nhiều nhất.

chọn một cụm có chất lượng cụm tốt nhất trong các chỉ số có giá trị như số

cụm cuối cùng Cách tiếp cận này được sử dụng trong các nghiên cứu củaAlp Erilli và cộng sự [5], Arima và cộng sự [8], Fang và Wang [30], Fujita vàcộng sự [32], Lee và Olafsson [49], Liang và cộng sự [53] Tuy nhiên, độphức tạp tính toán là nhược điểm chính của cách tiếp cận này vì nó phải quéttất cả các ứng viên để tìm ứng viên tốt nhất Do đó, theo phương pháp này thìthời gian tính toán tỷ lệ thuận với độ lớn của tập dữ liệu và miền ứng viên

- Tiền xử lý: Phương pháp này sử dụng phân tích thống kê để ước tính số lượng

cụm phù hợp nhất theo phân phối dữ liệu Các phương pháp thống kê có thể là

lý thuyết đại số [35] hay đánh giá trực quan của xu hướng cho các cụm dựa trênthuật toán của Pakhira [68] Tuy nhiên, một số nhược điểm của cách tiếp cậnnày vẫn còn tồn tại chính là việc xử lý độc lập với các hoạt động phân cụm, khảnăng xử lý dữ liệu bị chồng chéo và độ phức tạp tính toán cao

quả đầu ra cụm Bắt đầu với một số cố định các cụm, trong mỗi quá trình lặp,

chúng sử dụng các chỉ số có giá trị để kiểm tra chất lượng phân cụm củaphân hoạch hiện tại và cố gắng để tăng cường chất lượng đó bằng cách thayđổi số cụm theo một chiến lược nhất định Bằng tiếp cận đó, cả chất lượngcụm và thời gian tính toán của thuật toán đều được cải thiện Cách tiếp cậnnày được mô tả trong công trình của Bai và cộng sự [11], Cheung và Jia [18],

Le và cộng sự [48], Maraziotis [56], và Yu và cộng sự [97] Các chiến lược

có thể là một phương pháp lai giữa thuật toán di truyền và cụm mờ trừ [48]

và hàm đánh giá chất lượng cụm mới [56, 97] Tuy nhiên, đôi khi chúng tạo

ra số lượng cụm ít hơn mong đợi

Các nghiên cứu đều đã chứng minh được phương pháp cắt tỉa là cách tiếp cậnhiệu quả nhất khi thực hiện phân cụm cả về khía cạnh chất lượng các cụm cũng như

độ phức tạp tính toán

13

Trang 22

Thứ hai, xử lý với dữ liệu phức tạp là vấn đề còn tại đối với FCM và các thuật

toán phân cụm trên tập mờ nâng cao Các phương pháp phân cụm trên tập dữ liệuphức tạp được chia thành hai nhóm: loại dữ liệu hỗn hợp bao gồm dữ liệu kiểu loại,

dữ liệu số và cấu trúc đặc biệt của dữ liệu

- Trong nhóm thứ nhất, đã có nhiều nghiên cứu về phân cụm cho cả hai loại dữ

liệu kiểu loại và số Hwang [37] mở rộng thuật toán K-means để thực hiện phân cụmcho tập dữ liệu lớn bao gồm các giá trị phân loại Yang, Hwang và Chen [96] sử dụngthuật toán phân cụm mờ để phân vùng các biến chức năng hỗn hợp bằng cách đưa ramột độ đo không tương tự cho dữ liệu mang tính biểu tượng và dữ liệu mờ Ji và cộng

sự [42-43] đề xuất các thuật toán phân cụm k-prototype là kết hợp giữa giá trị trung

bình và tâm cụm mờ để làm mẫu của một cụm và sử dụng một độ đo mới dựa trên sựđồng xuất hiện của các giá trị để đánh giá sự không tương tự giữa các đối tượng dữ liệu

và mẫu của cụm Chen, Wang, Wang và Zhu [17] giới thiệu phương pháp phân cụmmềm cho dữ liệu kiểu loại bằng cách sử dụng lược đồ lựa chọn thuộc tính mềm để mỗithuộc tính phân loại được gán tự động một trọng số tương quan với sự phân tán đượclàm mịn trong cụm Nhiều phương thức dựa trên các ma trận không tương tự để xử lýcho dữ liệu kết hợp được giới thiệu bởi De Carvalho, Lechevallier và De Melo [25] Ýtưởng chính của các phương pháp này là kết hợp các ma trận khác nhau để có được mộtphân vùng đồng thuận cuối cùng Mặc dù các phương pháp này có thể phân vùng dữliệu hỗn hợp một cách hiệu quả, nhưng chúng lại gặp khó khăn trong việc giải quyếtvới cấu trúc dữ liệu riêng biệt phức tạp

- Trong nhóm thứ hai, nhiều nhà nghiên cứu đã cố gắng phân vùng cấu trúc phức

tạp của dữ liệu có hình học nội tại của các cụm phi cầu và không lồi Các tác giả trong[20] đề xuất một phương pháp gọi là DifFuzzy kết hợp các ý tưởng từ FCM và khuếchtán trên đồ thị để giải quyết vấn đề của các cụm có cấu trúc hình học phi tuyến phứctạp Phương pháp này được áp dụng cho một lượng lớn các lớp bài toán phân cụm dokhông yêu cầu bất kỳ thông tin trước về số các cụm Ferreira và de Carvalho [31] giớithiệu phương thức phân cụm mờ với hàm nhân dựa trên khoảng cách thích ứng địaphương để phân vùng dữ liệu phức tạp Ý tưởng chính của các phương pháp này đượcdựa trên một khoảng cách thích ứng địa phương, trong đó các độ đo tương tự được tính

là tổng của các khoảng cách Euclidean giữa các mẫu và tâm cụm được tính riêng lẻ chomỗi biến bởi giá trị trung bình và hàm hạt nhân Độ đo

14

Trang 23

tương tự được tối ưu để học các trọng số của các biến trong quá trình phân cụm và

để làm tăng hiệu suất của các thuật toán Tuy nhiên, phương pháp này chỉ có thể xử

lý dữ liệu số Như vậy, thuật toán DifFuzzy [20] và thuật toán phân cụm mờ dựatrên ma trận không tương tự Dissimilarity [25] là hai phương pháp phân cụm điểnhình trong mỗi nhóm

4 Mục tiêu và nội dung nghiên cứu

Với kết quả tổng quan những nghiên cứu liên quan, các mục tiêu của luận ánđược đề xuất như sau:

mờ viễn cảnh Kiểm chứng bằng lý thuyết về sự hội tụ của thuật toán và thực

nghiệm, so sách hiệu quả so với một số thuật toán phân cụm mờ khác

mờ viễn cảnh như: phân cụm với việc xác định số cụm tự động, phân cụmvới dữ liệu phức tạp Kiểm chứng, so sánh hiệu quả so với một số thuật toánliên quan khác

- Mục tiêu 3: Nghiên cứu và phát triển các ứng dụng của thuật toán phân cụm trên

tập mờ viễn cảnh vào các bài toán dự báo thời tiết dựa trên ảnh mây vệ tinh

Nội dung nghiên cứu

Dựa vào mục tiêu nghiên cứu của luận án, các nội dung nghiên cứu của đề tài được trình bày như sau:

viễn cảnh (FC-PFS)

và kiểm chứng về mặt thực nghiệm trên bộ dữ liệu chuẩn UCI

xác định số cụm.

15

Trang 24

- Nội dung 6: Ứng dụng luật mờ viễn cảnh trong bài toán dự báo thời tiết ngắn

hạn dựa trên ảnh mây vệ tinh

Trong hai nội dung nghiên cứu trên, nội dung 1 và nội dung 2 được trình bày

cụ thể trong chương 2, nội dung 3 và nội dung 4 được trình bày chi tiết trongchương 3, nội dung 5 và nội dung 6 được trình bày trong chương 4

5 Dữ liệu nghiên cứu

Tập dữ liệu thực nghiệm trong luận án được lấy từ bộ dữ liệu chuẩn UCIMachine Learning Respository [88] cho các thuật toán phân cụm và bộ dữ liệu ảnhmây vệ tinh được lấy từ [63] với khu vực Đông Nam Á

6 Phương pháp nghiên cứu

Từ sáu nội dung nghiên cứu ở trên, các phương pháp nghiên cứu được đề xuất

và thực hiện để hoàn thiện đề tài nghiên cứu, cụ thể như sau:

liệu không chắc chắn.

tập mờ viễn cảnh

của mô hình đề xuất

đặc biệt

tiết ngắn hạn dựa trên ảnh mây vệ tinh.

7 Phạm vi và giới hạn của đề tài nghiên cứu

Từ các mục tiêu, nội dung và phương pháp nghiên cứu, phạm vi và giới hạn của đề tài nghiên cứu được đề xuất như sau:

vệ tinh với việc sử dụng phương pháp hồi quy không thời gian, suy luận mờ

và sử dụng luật mờ viễn cảnh

16

Trang 25

8 Đóng góp chính của luận án

Luận án có bốn đóng góp chính là:

- Đề xuất một thuật toán phân cụm mờ mới trên tập mờ viễn cảnh (FC-PFS)bằng cách mở rộng hàm mục tiêu của thuật toán phân cụm trên tập mờ trựccảm Đồng thời tính chất hội tụ của thuật toán đề xuất cũng được đánh giá vềmặt lý thuyết, sự cần thiết để đảm bảo tính đúng của thuật toán

- Đưa ra một cải tiến của thuật toán FC-PFS cho việc phân cụm mờ viễn cảnh

tự động xác định số cụm Phương pháp cải tiến là sự kết hợp của FC-PFS vớithuật toán tối ưu bầy đàn PSO [28] để đưa ra số cụm và kết quả phân cụm tối

ưu cho từng bộ dữ liệu

- Đưa ra một cải tiến của thuật toán FC-PFS cho việc xử lý với các dữ liệuphức tạp Phương pháp này kết hợp FC-PFS với thuật toán tối ưu bầy đànPSO và phương pháp phân cụm đa tâm để xử lý hiệu quả với cả dữ liệu số,

dữ liệu kiểu loại và dữ liệu có cấu trúc phức tạp

- Ứng dụng FC-PFS trong bài toán dự báo thời tiết ngắn hạn dựa trên ảnh mây

vệ tinh với hai phương pháp Phương pháp thứ nhất kết hợp FC-PFS vớiphương pháp hồi quy không thời gian Phương pháp thứ hai đề xuất luật mờviễn cảnh mới và phương pháp sinh luật mờ viễn cảnh này từ kết quả củaFC-PFS để dự báo ảnh đầu ra của bài toán

9. Tính mới của luận án

Trong luận án này, thuật toán phân cụm mờ viễn cảnh (FC-PFS) được đề xuất

để khắc phục các nhược điểm của các thuật toán phân cụm trên tập mờ nâng caotrước đây Thuật toán phân cụm trên tập mờ viễn cảnh cung cấp khá đầy đủ thôngtin, đặc biết là sự phù hợp của mô hình với tham số “độ từ chối” Ngoài ra các kếtquả chứng minh tính chất hội tụ bằng lý thuyết và kiểm chứng chất lượng phân cụmcũng cho thấy tính hiệu quả của thuật toán phân cụm mờ này Bên cạnh những ưuđiểm của thuật toán FC-PFS, thuật toán vẫn có một số hạn chế cần khắc phục

- Thứ nhất là làm thế nào để xác định số lượng cụm phù hợp nhất cho mỗi bộ dữ

liệu Vì mỗi tập dữ liệu có các tính năng và phân phối mẫu khác nhau nên số lượngcụm cũng khác nhau Việc xác định số lượng tối ưu như vậy cho thuật toán phân cụm

17

Trang 26

sẽ mang lại chất lượng phân cụm tốt nhất Đồng thời, luận án cũng trình bày mộtphương pháp gọi là Phân cụm mờ viễn cảnh tự động xác định số cụm (AFC-PFS) đểxác định số lượng cụm phù hợp nhất cho FC-PFS Đây là một phương pháp lai giữathuật toán tối ưu hóa bầy đàn (PSO) [28] và FC-PFS trong đó các giải pháp kết hợpbao gồm số cụm, tâm cụm tương đương và ma trận thành viên được đóng gói và tối

ưu hóa trong PSO Các kết quả thực nghiệm cho thấy AFC-PFS có hiệu suất tốt hơncác phương pháp liên quan

tính cũng như cấu trúc của các bộ dữ liệu mà thuật toán FC-PFS cho kết quả không

đủ tốt như các dữ liệu kiểu kết hợp giữa số và kiểu loại, các dữ liệu có cấu trúcvòng, hình cầu và một số cấu trúc phức tạp khác Chính vì vậy luận án cũng đưa ramột thuật toán cải tiến của FC-PFS được gọi là PFCA-CD có khả năng xử lý dữ liệukiểu hỗn hợp (số và kiểu loại) và cấu trúc dữ liệu riêng biệt để xử lý trên các dữ liệuphức tạp Ý tưởng của phương pháp này là sửa đổi FC-PFS, sử dụng phép đo mớicho các thuộc tính phân loại, cho phép một cụm có thể chứa nhiều tâm và một chiếnlược tiến hóa - tối ưu hóa các phương án Các thí nghiệm chỉ ra rằng thuật toán được

đề xuất dẫn đến chất lượng phân cụm hiệu quả hơn các thuật toán khác thông quamột số chỉ số đánh giá chất lượng cụm

ngắn hạn dựa trên ảnh mây vệ tinh Trong luận án này, hai phương pháp dự báo laimới dựa trên phân cụm mờ cho bài toán dự báo thời tiết ngắn hạn được đề xuất.Phương pháp đầu tiên được đặt tên là PFC-STAR sử dụng kết hợp phân cụm mờ cáchình ảnh vệ tinh và hồi quy không thời gian Phương pháp thứ hai có tên là PFC-PFR tích hợp FC-PFS với luật mờ viễn cảnh Những phương pháp này được trang bịcác quy trình huấn luyện giúp nâng cao độ chính xác của kết quả dự báo Thựcnghiệm tính toán cho thấy các phương pháp được đề xuất tốt hơn so với các phươngpháp liên quan khác

10. Bố cục của luận án

bài toán phân cụm mờ; các vấn đề nghiên cứu; mục tiêu nghiên cứu; hướng

18

Trang 27

tiếp cận và phương pháp nghiên cứu; nội dung nghiên cứu; phạm vi và giới hạn nghiên cứu; các đóng góp chính và bố cục của luận án.

khái niệm về tập mờ, các thuật toán phân cụm mờ, các thuật toán phân cụm

mờ mở rộng và ứng dụng trong dự báo thời tiết ngắn hạn Ngoài ra một số độ

đo tiêu chí đánh giá và bộ dữ liệu chuẩn cho thực nghiệm cũng được trìnhbày trong chương này

gồm: ý tưởng thuật toán, cách thức triển khai thuật toán, đánh giá sự hội tụ

bằng lý thuyết và thực nghiệm tính toán

với việc tự động xác định số cụm và xử lý dữ liệu phức tạp, kèm theo cácthực nghiệm kiểm chứng

thời tiết ngắn hạn từ ảnh mây về tinh

tương lai

19

Trang 28

CHƯƠNG 1 CƠ SỞ LÝ THUYẾT

Trong chương này, các kiến thức cơ sở phục vụ cho luận án được trình bày cụ thể làm nền tảng phát triển của các thuật toán ở các chương sau

20

Trang 29

()=1− ()− (),∀ ∈ Khi ( ) = 0, IFS trả về tập mờ thường Độ do dự có thể được tính thông qua hàm thuộc bởi toán tử Yager [13], đó là,

Độ từ chối của một phần tử được tính là ( ) = 1 − ( ) + ( ) +

Rõ ràng, PFS là một sự mở rộng của IFS mà trong đó độ từ chối được thêm vàođịnh nghĩa Đó là lý do tại sao nên sử dụng PFS và ý nghĩa quan trọng của tập nàytrong các ứng dụng thực tế

Độ đo tương tự và đánh giá chất lượng cụm

Trong luận án, các độ đo tương tự được sử dụng để đánh giá chất lượng cụm gồm

có độ đo Mean Accuracy (MA) tính giá trị nhỏ nhất các phần tử thuộc về đúng cụm, chỉ

số Davies-Bouldin (DB) [24], chỉ số Rand [89], chỉ số Alternative Silhouette ( 0) [89],chỉ số WGLI [89] và PBM [100] Trong các chỉ số trên, chỉ số MA và Rand đánh giáchất lượng cụm thông qua các giá trị cụm có sẵn mà bộ dữ liệu cung cấp Chỉ số nàynhằm đánh giá xem các phần tử có được phân vào các cụm chính xác hay không Cácchỉ số còn lại là DB, ASWC, WGLI, PBM là các chỉ số đánh giá nội tại chất lượngcụm Tức là các chỉ số này chỉ đánh giá chất lượng cụm thông qua khoảng cách của cácphần tử đối với tâm cụm hay khoảng cách giữa các cụm Trong

21

Trang 30

luận án, các chỉ số đánh giá chất lượng cụm nội tại lẫn chỉ số ngoài được sử dụng đểđánh giá chất lượng cụm.

Chỉ số MA được tính như sau:

với là số phần tử thuộc về cụm

về cụm Chỉ số MA càng lớn thể hiện chất lượng phân cụm càng tốt

Chỉ số DB được biểu diễn như sau.

=

Trong đó là kích thước của cụm i.

là số đo sự khác biệt giữa cụm i và cụm j Giá trị càng nhỏ cho thấy hiệu suất tốt

hơn cho chỉ số DB Chỉ số Rand được định nghĩa như sau:

thuộc cụmlà khoảng cách trung bình của phần tử tới tất cả các phần tử khác trong

là khoảng cách ngắn nhất của phần tử tới tất cả các phần tử khác không

là một hằng số có giá trị nhỏ (ví dụ: 10-6 đối với dữ liệu chuẩn hoá)

22

Trang 31

được sử dụng để tránh phép chia cho 0 khi , = 0 Giá trị tối đa cho biết hiệu suất tốt hơn đối với chỉ số ASWC.

Chỉ số PBM được trình bày như sau:

trong đó biểu thị tổng khoảng cách giữa các điểm dữ liệu và giá trị trung bình của

dữ liệu, là tổng của các khoảng cách trong của các phần tử trong cùng nhóm, là

khoảng cách tối đa giữa các tâm cụm Phân vùng tốt nhất được tìm thấy khi PBM

đạt giá trị lớn nhất

WGLI là sự kết hợp của mạng lưỡng cực có trọng số ( ) và độ thuộc trung bình

lớn nhất MMD nhằm tránh việc đạt được cực trị địa phương Giá trị tối đa cho biết hiệu suất tốt hơn của chỉ số WGLI.

= ∑

(, )=

ở đây K là giá trị thuộc của phần tử

= 0.7 Nói chung, cần lưu ý là giả định

Trang 32

Thuật toán phân cụm mờ

Bezdek và các cộng sự [12] giới thiệu bài toán phân cụm mờ bằng việc cực tiểu hóa hàm mục tiêu (1).

Trong đó, độ thuộc của dữ liệu X k tới cụm thứ j được biểu diễn bởi q được thêm vào hàm mục tiêu trong công thức (1) Sự khác biệt này so với phân cụm rõ cho thấy một điểm có thể thuộc vào một cụm khác phụ thuộc

vào độ thuộc của nó Chú ý rằng, trong công thức (1.25) N, C, m và V j theo thứ tự là số các điểm dữ liệu, số

cụm, bộ mờ hóa (thường được đặt bằng 2) và điểm tâm cụm j ( =

Phương pháp phân cụm mờ loại 2 khoảng [38] với mục đích tối ưu hóa các hàm dưới đây với [ , ] là bộ mờ khoảng thay vì bộ mờ thô trong các công thức (1.25–1.26).

24

Trang 33

= ∑ ∑

q q

Begin

Khởi tạo

Cập nhật tâm cụm và

độ thuộc

Sai

Điều kiện

dừng

Đún g

E n d Hình 1.1 Thuật toán phân cụm FCM

Các ràng buộc trong (1.25–1.26) được giữ nguyên Bằng các kỹ thuật tương tự

để giải quyết bài toán tối ưu mới, khoảngthuộc

= ,

và các tâm ban đầu củacụm được tính theo công thức (1.31–

1.33) Trong các giá trị này, sau các vòng

Trang 34

lặp, hàm mục tiêu và sẽ đạt

min

q

25

trong đó là một giá trị bất kỳ trong khoảng và

các thuật toán cài đặt FCM trên

T2FS là thiên về tính toán do

đó việc triển khai FCM trên

IFS thường được ưu tiên hơn

IFS [10], bao gồm các yếu tố

đặc trưng bởi cả các giá trị

thuộc và không thuộc, là

phương tiện hữu ích để xử lý dữ liệu mơ

hồ và không chắc chắn

Thuật toán phân cụm mờ trực cảmtrong [15,16] nhằm cực tiểu hóa hàmmục tiêu (1.34) đã tích hợp entropy vớihàm mục tiêu của FCM như sau

q = 1 − q − 1 −

q = q +

Độ thuộc mới được sử dụng để tínhcác tâm cụm trong công thức (1.27) Thuậttoán dừng khi sự khác biệt giữa hai độthuộc liên tiếp không lớn hơn ngưỡng chotrước

26

Trang 35

Một số thuật toán khác

1.4.1 Thuật toán tối ưu bầy đàn

Thuật toán tối ưu hóa bầy đàn (PSO) lần đầu tiên được giới thiệu bởi Eberhart vàKennedy (1995) [28] là một chiến lược tiến hóa nhằm tối ưu hóa một vấn đề bằngphương pháp lặp cố gắng cải thiện một giải pháp ứng viên tới một chất lượng chotrước PSO mô phỏng sự chuyển động của các sinh vật trong một bầy chim hoặc cá

để tìm thức ăn Giả sử rằng có m ® m cá thể trong bầy, mỗi cá thể trong số đóđược trình bày là một giải pháp của bài toán và được mã hóa với vị trí § và vận tốc

Hình 1.2 Sơ đồ thuật toán tối ưu PSO

Trang 36

27

Trang 37

Trước tiên, vị trí và vận tốc của mỗi phương án được khởi tạo ngẫu nhiên Tiếp

theo, mỗi phương án được đánh giá chất lượng bằng giá trị fitness Tùy thuộc vào bài toán cụ thể, giá trị fitness được thiết kế để đánh giá chất lượng của phương án.

Cuối cùng, quá trình cập nhật được mô tả trong phương trình 1.38-1.39.

trong đó, các tham số

được thiết lập là giá trị 1

tại và § ¸ @ là vị trí có giải pháp hiện tại tốt nhất

Toàn bộ quá trình được lặp lại cho đến khi số lần lặp tối đa đã đạt tới hoặc giảipháp tốt nhất tại hai bước liên tiếp không đổi Sơ đồ thuật toán PSO được trình bàytrong hình 1.2

1.4.2 Thuật toán DifFuzzy

Thuật toán phân cụm DifFuzzy [20] dựa trên FCM và các biểu đồ khuếch tán

để phân dữ liệu vào các cụm có cấu trúc hình học phi tuyến phức tạp Trước hết,hàm bổ trợ được định nghĩa như sau:

trong đó ∈ (0, ∞) là một số nguyên dương Các node và được kết nối bằng một

cạnh nếu: − < ( ) bằng với số lượng các thành phần của đồ thị liền kề

sao cho chứa ít nhất M đỉnh, trong đó M là tham số bắt buộc của thuật toán

Trang 38

Có hai giới hạn được xác định rõ:

trong đó tương ứng với số lượng các điểm trong cụm thứ

thực hiện điều này bằng việc tìm kiếm

trong đó là ∈ (0,1) là tham số trong của thuật toán với giá trị mặc định là 0.3 Các ma trận phụ được định nghĩa như sau.

Trang 39

trong đó

giá trị mặc định là 0.1 DifFuzzy cũng tính một tham số nguyên phụ α bởi,

trong đó tương ứng với giá trị riêng thứ hai (lớn nhất) của và

nguyên Để tính khoảng cách khuếch tán giữa điểm mềm

thức sau

trị thuộc của điểm mềm

Quy trình này được áp dụng cho mọi điểm dữ liệu mềm và cho mỗi cụm thứ ∈ {1,2, , } Đầu ra của DifFuzzy là số các cụm ( ) và mỗi điểm dữ liệu

một tập

29

Trang 40

hợp các số đại diện cho mức độ thuộc trong mỗi cụm Giá trị thuộc của , =

1,2, , , trong cụm thứ , = 1, ,

giá trị từ 0 đến 1, trong đó các giá trị gần 1 tương ứng với các điểm có nhiều khảnăng thuộc về cụm đó Tổng các giá trị thuộc của một điểm dữ liệu trong tất cả cáccụm luôn là 1

1.4.3 Thuật toán Dissimilarity

Thuật toán Dissimilarity [25] là giải thuật dựa trên thuật toán phân cụm mờ Medoids với trọng số liên quan cho mỗi ma trận không tương tự bao gồm 5 bướcdưới đây:

Ngày đăng: 13/11/2020, 16:01

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w