1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phát triển một số thuật toán phân cụm mờ viễn cảnh và ứng dụng trong dự báo

124 47 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 124
Dung lượng 2,39 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

DANH MỤC THUẬT NGỮ VÀ TỪ VIẾT TẮT Clustering on Picture Fuzzy Set Thuật toán phân cụm mờ tự động xác định số cụm trên tập mờ viễn cảnh 2 ASWC Alternative Silhouette Chỉ số Silhouette tha

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

LUẬN ÁN TIẾN SĨ TOÁN HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC:

2 PGS TS Nguyễn Thị Hồng Minh

Hà Nội, 2020

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi được hoàn thành dưới sự hướng dẫn khoa học của PGS TS Lê Hoàng Sơn và PGS TS Nguyễn Thị Hồng Minh Các kết quả nghiên cứu của tôi được viết chung với các tác giả khác đã được sự nhất trí của đồng tác giả khi đưa vào luận án Tôi xin cam đoan các kết quả nêu trong luận án là trung thực và chưa được công bố trong bất cứ công trình nào trước thời gian công bố

Tác giả luận án

Phạm Huy Thông

Trang 4

LỜI CẢM ƠN

Trước hết, tác giả xin được gửi lời cảm ơn chân thành và sâu sắc nhất tới tập thể giáo viên hướng dẫn, PGS TS Lê Hoàng Sơn và PGS TS Nguyễn Thị Hồng Minh Thầy, Cô đã trực tiếp hướng dẫn, định hướng chuyên môn, giúp đỡ tận tình, ân cần chỉ dạy giúp cho tác giả có thể hoàn thành luận án này

Tôi xin chân thành gửi lời cảm ơn đến quý thầy cô, các anh chị em đồng nghiệp của Trung tâm Tính toán Hiệu Năng Cao và khoa Toán – Cơ – Tin học, Trường Ðại học Khoa học Tự nhiên đã quan tâm giúp đỡ, tạo điều kiện về nhiều mặt, chỉ bảo tận tình trong quá trình tác giả thực hiện luận án này Nhờ đó tác giả đã tiếp thu được nhiều ý kiến đóng góp và nhận xét quí báu thông qua các buổi thảo luận seminar để hoàn chỉnh luận án

Xin chân thành cảm ơn Viện Công nghệ Thông tin, Đại học Quốc gia Hà Nội đã hết sức tạo điều kiện về thời gian và công việc để tác giả có thể tập trung hoàn thành quá trình học tập, nghiên cứu và hoàn thiện luận án

Cuối cùng xin cảm ơn gia đình, bạn bè đã cổ vũ và động viên tác giả trong công việc và học tập cũng như trong quá trình thực hiện luận án này

Xin chúc mọi người luôn mạnh khoẻ, đạt được nhiều thành tích cao trong công tác, học tập và nghiên cứu khoa học!

Hà Nội, ngày … tháng … năm 2020

Tác giả luận án

Phạm Huy Thông

Trang 5

MỤC LỤC

LỜI CAM ĐOAN i

LỜI CẢM ƠN ii

DANH MỤC THUẬT NGỮ VÀ TỪ VIẾT TẮT 3

DANH MỤC BẢNG BIỂU 5

DANH MỤC HÌNH VẼ 7

MỞ ĐẦU 9

CHƯƠNG 1 CƠ SỞ LÝ THUYẾT 20

Tập mờ 20

Độ đo tương tự và đánh giá chất lượng cụm 21

Thuật toán phân cụm mờ 24

Một số thuật toán khác 27

1.4.1 Thuật toán tối ưu bầy đàn 27

1.4.2 Thuật toán DifFuzzy 28

1.4.3 Thuật toán Dissimilarity 30

1.4.4 Phương pháp FCM-STAR 32

Bộ dữ liệu thực nghiệm 33

Kết luận chương 34

CHƯƠNG 2 THUẬT TOÁN PHÂN CỤM MỜ VIỄN CẢNH 35

2.1 Ý tưởng thuật toán 35

2.2 Thuật toán phân cụm mờ viễn cảnh 35

2.2.1 Hàm mục tiêu 35

2.2.2 Chi tiết thuật toán 39

2.3 Khảo sát tính chất hội tụ của thuật toán 39

2.4 Kết quả thực nghiệm 42

Trang 6

2.4.2 So sánh chất lượng phân cụm 46

2.4.3 Đánh giá thuật toán qua các tham số 50

2.5 Kết luận chương 52

CHƯƠNG 3 MỘT SỐ CẢI TIẾN CỦA THUẬT TOÁN PHÂN CỤM MỜ VIỄN CẢNH ……… 53

3.1 Thuật toán phân cụm mờ tự động xác định số cụm 53

3.1.1 Ý tưởng thuật toán 53

3.1.2 Chi tiết thuật toán 54

3.1.3 Kết quả thực nghiệm 62

3.2 Thuật toán phân cụm mờ với dữ liệu phức tạp 72

3.2.1 Độ đo cho thuộc tính kiểu loại 73

3.2.2 Thuật toán phân cụm với dữ liệu phức tạp (PFCA-CD) 73

3.2.3 Kết quả thực nghiệm 77

3.3 Kết luận chương 84

CHƯƠNG 4 ỨNG DỤNG CỦA THUẬT TOÁN PHÂN CỤM MỜ VIỄN CẢNH 86

4.1 Phương pháp PFC-STAR 87

4.2 Phương pháp PFC-PFR 89

4.2.1 Số mờ viễn cảnh tam giác 90

4.2.2 Số mờ viễn cảnh hình thang 91

4.2.3 Chi tiết thuật toán 92

4.3 Kết quả thực nghiệm 99

4.4 Kết luận chương 107

KẾT LUẬN 108

DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ ĐÃ CÔNG BỐ 110

TÀI LIỆU THAM KHẢO 111

Trang 7

DANH MỤC THUẬT NGỮ VÀ TỪ VIẾT TẮT

Clustering on Picture Fuzzy Set

Thuật toán phân cụm mờ tự động xác định số cụm trên tập

mờ viễn cảnh

2 ASWC Alternative Silhouette Chỉ số Silhouette thay thế

3 CCE Cluster Count Extraction Phương pháp ước lượng số

Picture Fuzzy Set

Thuật toán phân cụm mờ viễn cảnh

8 IFS Intuitionistics Fuzzy Set Tập mờ trực cảm

Fuzzy C-means

Phân cụm mờ trực cảm với hàm nhân

Thuật toán phân cụm mờ viễn cảnh cho dữ liệu phức tạp

15 PFC-PFR Picture Fuzzy Clustering

with Picture Fuzzy Rule

Phân cụm mờ viễn cảnh kết hợp luật mờ viễn cảnh

Trang 8

16 PFC-STAR

Picture Fuzzy Clustering with Spatio-temporal Autoregressive

Phân cụm mờ viễn cảnh kết hợp hồi quy không-thời gian

20 TPFN Triangular Picture Fuzzy

21 TpPFN Trapezoidal Picture Fuzzy

22 WGLI Weighted Global – Local

validity-based index

Chỉ số dựa trên giá trị trọng số toàn cục – địa phương

Trang 9

DANH MỤC BẢNG BIỂU Bảng 1.1 Mô tả tập dữ liệu thử nghiệm 33

Bảng 2.1 Thuật toán phân cụm mờ viễn cảnh 39

Bảng 2.2 So sánh chất lượng cụm và thời gian chạy của các thuật toán ( = 0.6) 46Bảng 2.3 Các miền phân lớp của thuật toán 49

Bảng 2.4 Thống kê các kết quả tốt nhất của các thuật toán với hệ số khác nhau 50

Bảng 3.1 Mô tả chi tiết thuật toán AFC-PFS 57

Bảng 3.2 Giá trị của các phần tử trong ví dụ 60

Bảng 3.3 Giá trị của các phần tử sau khi loại bỏ cụm 3 trong ví dụ 61

Bảng 3.4 Số cụm trung bình của thuật toán với các chỉ số đánh giá khác nhau (giá trị

in đậm có nghĩa là một trong những giá trị gần nhất với số các lớp được định sẵn trong cột) 63

Bảng 3.5 Giá trị STD của thuật toán nhận được bằng cách sử dụng chỉ số đánh giá khác nhau như giá trị fitness 63

Bảng 3.6 Các giá trị đầu ra trung bình PBM, WGLI và ASWC của các thuật toán bằng cách sử dụng ASWC như giá trị fitness (các giá trị bôi đậm có nghĩa là tốt nhất trong một hàng) 67

Bảng 3.7 Các giá trị đầu ra độ lệch chuẩn (STD) của PBM, WGLI và ASWC của các thuật toán sử dụng ASWC như giá trị fitness 67

Bảng 3.8 Các giá trị trung bình PBM, WGLI và ASWC của các thuật toán sử dụng WGLI như các giá trị fitness (các giá trị bôi đậm có nghĩa là tốt nhất trong một hàng) 67

Bảng 3.9 Các giá trị đầu ra độ lệch chuẩn PBM, WGLI và ASWC của các thuật toán

sử dụng WGLI như các giá trị fitness 68

Bảng 3.10 Các giá trị đầu ra trung bình PBM, WGLI và ASWC của của các thuật toán bằng cách sử dụng PBM như giá trị fitness (các giá trị bôi đậm có nghĩa là tốt nhất trong một hàng) 68

Bảng 3.11 Các giá trị đầu ra chuẩn PBM, WGLI và ASWC của của các thuật toán sử dụng PBM như giá trị fitness các giá trị bôi đậm có nghĩa là tốt nhất trong một hàng) 69

Trang 10

Bảng 3.13 Cách chọn tâm cụm 74

Bảng 3.14 Thuật toán phân cụm mờ viễn cảnh cho dữ liệu phức tạp 76

Bảng 3.15 Các giá trị chỉ số đánh giá trung bình của các thuật toán (Giá trị đậm có nghĩa là tốt nhất trong mỗi tập dữ liệu và chỉ số đánh giá) 80

Bảng 3.16 Thời gian để đạt được giá trị tốt nhất của các thuật toán (Giá trị đậm có nghĩa là tốt nhất) 82

Bảng 3.17 Giá trị STD cho các chỉ số đánh giá của các thuật toán 83

Bảng 3.18 Thời gian tính toán (với giá trị STD) của các thuật toán theo giây 84

Bảng 4.1 Thuật toán huấn luyện tham số dựa trên PSO 98

Bảng 4.2 So sánh giá trị RMSE của các thuật toán 100

Bảng 4.3 So sánh giá trị RMSE của các thuật toán 103

Bảng 4.4 STD của giá trị RMSE của các thuật toán 104

Trang 11

DANH MỤC HÌNH VẼ

Hình 1.1 Thuật toán phân cụm FCM 25

Hình 1.2 Sơ đồ thuật toán tối ưu PSO 27

Hình 1.3 Ảnh mây vệ tinh của bộ dữ liệu 1 34

Hình 1.4 Ảnh mây vệ tinh của bộ dữ liệu 2 34

Hình 1.5 Ảnh mây vệ tinh của bộ dữ liệu 3 34

Hình 2.1 Các cụm tại bước khởi tạo 44

Hình 2.2 Các cụm sau bước lặp đầu tiên 45

Hình 2.3 Kết quả phân cụm cuối cùng 45

Hình 2.4 Độ chính xác trung bình của các thuật toán 48

Hình 2.5 Thời gian tính toán của các thuật toán 49

Hình 2.6 Giá trị MA của các thuật toán theo hệ số mũ 51

Hình 2.7 Thời gian tính toán của các thuật toán theo hệ số mũ (s) 51

Hình 3.1 Lược đồ của thuật toán AFC-PFS 56

Hình 3.2 Số cụm trung bình của các thuật toán 64

Hình 3.3 Sự tương quan giữa các thành phần với các cụm của dữ liệu GLASS 64

Hình 3.4 Sự tương quan giữa các thành phần đầu tiên và thứ hai với các cụm thực trên tập dữ liệu GLASS 66

Hình 3.5 Giá trị ASWC trung bình của các thuật toán với giá trị sai số 70

Hình 3.6 Giá trị WGLI trung bình của đầu ra các thuật toán với sai số 70

Hình 3.7 Các giá trị trung bình PBM của đầu ra các thuật toán với sai số của tập dữ liệu IRIS, GLASS, IONOSPHERE, HABERMAN và HEART 71

Hình 3.8 Giá trị PBM trung bình của các đầu ra của các thuật toán với sai số của các tập dữ liệu WINE và WDBC 71

Hình 3.9 Sơ đồ thuật toán PFCA-CD 75

Hình 3.10 Sự phân bố dữ liệu của bộ dữ liệu STATLOG với hai thuộc tính 78

Trang 12

Hình 3.12 Sự phân bố dữ liệu của bộ dữ liệu AUTOMOBILE với hai thuộc tính 79

Hình 3.13 Sự phân bố dữ liệu của bộ dữ liệu SERVO với hai thuộc tính 79

Hình 3.14 Biểu đồ biểu diễn các giá trị MA và RI của tất cả các thuật toán với các tập dữ liệu khác nhau 81

Hình 3.15 Biểu đồ biểu diễn các giá trị của ASWC và DB của tất cả các thuật toán với các tập dữ liệu khác nhau 81

Hình 4.1 Thuật toán PFC-STAR 87

Hình 4.2 Ví dụ về tính toán và huấn luyện trọng số của thuật toán STAR 88

Hình 4.3 Sơ đồ PFC-PFR 90

Hình 4.4 Số mờ viễn cảnh tam giác của tập mờ viễn cảnh A 90

Hình 4.5 Số mờ viễn cảnh hình thang của tập mờ viễn cảnh A 91

Hình 4.6 Các bước trong thuật toán PFC-PFR 92

Hình 4.7 RMSE của các thuật toán với dữ liệu trong hình ảnh dự đoán 1 102

Hình 4.8 RMSE của các thuật toán với dữ liệu trong hình ảnh dự đoán 2 102

Hình 4.9 RMSE của các thuật toán với dữ liệu trong hình ảnh dự đoán 3 102

Hình 4.10 Giá trị RMSE của thuật toán PFC-PFR với các cụm khác nhau của dữ liệu 1 105

Hình 4.11 Giá trị RMSE của thuật toán PFC-PFR với các cụm khác nhau của dữ liệu 2 105

Hình 4.12 Giá trị RMSE của thuật toán PFC-PFR với các cụm khác nhau của dữ liệu 3 106

Hình 4.13 Kết quả dự báo của dữ liệu 1 bởi PFC-PFR (A) và PFC-STAR(B) 106

Hình 4.14 Kết quả dự báo của dữ liệu 2 bởi PFC-PFR (A) và PFC-STAR(B) 106

Hình 4.15 Kết quả dự báo của dữ liệu 3 bởi PFC-PFR (A) và PFC-STAR(B) 106

Trang 13

MỞ ĐẦU

1 Nhu cầu và ý nghĩa của phân cụm và phân cụm mờ

Ngày nay, với sự phát triển về mọi mặt của đời sống từ kinh tế, văn hóa, giáo dục cho đến công nghệ và đặc biệt, lĩnh vực công nghệ thông tin đã có những bước phát triển chóng mặt Công nghệ thông tin ngày càng khẳng định vai trò quan trọng, làm trung tâm chi phối mọi hoạt động, là cầu nối trao đổi thông tin giữa các thành phần của xã hội toàn cầu, của mọi vấn đề Như một hệ quả tất nhiên, lượng thông tin,

dữ liệu được được thu thập, lưu trữ cũng ngày một lớn hơn và đang phát triển một cách bùng nổ trong những năm gần đây Chính vì vậy, câu hỏi làm thế nào để trích xuất ra các thông tin, các tri thức từ lượng dữ liệu khổng lồ đó đang là thách thức cũng như mang lại cơ hội nghiên cứu, khám phá cho các nhà khoa học

Khai phá dữ liệu là quá trình xử lý dữ liệu và nhận biết các mẫu và các xu hướng trong thông tin để có thể giúp người dùng đưa ra quyết định hoặc đánh giá Có nhiều bài toán khai phá dữ liệu như phân lớp, phân cụm, hồi quy, v.v., trong đó bài toán phân cụm dữ liệu là bài toán tương đối phổ biến và có nhiều ứng dụng Phân cụm dữ liệu là việc sắp xếp các đối tượng dữ liệu vào từng cụm sao cho các phần tử trong cùng một cụm có mức độ tương tự là cao nhất và hai phần tử bất kỳ ở hai cụm khác nhau có mức độ tương tự là thấp nhất Việc phân cụm như vậy giúp cho việc khai phá

dữ liệu, đặc biệt là các bài toán dữ liệu lớn trở nên hiệu quả khi các dữ liệu được phân thành các nhóm với các tính chất đặc trưng Việc phân cụm này đặc biệt hiệu quả khi

dữ liệu có phân bố các cụm tách rời nhau và không chứa nhiễu Tuy nhiên, với các

bộ dữ liệu có sự phân bố các cụm xen kẽ, dữ liệu không chắc chắn, dữ liệu chứa nhiễu hoặc thiếu một số thuộc tính thì cách phân cụm như vậy không hiệu quả Trên thực

tế, mỗi một phần tử trong bộ dữ liệu có thể thuộc về nhiều cụm dữ liệu với các mức

độ khác nhau

Để giải quyết vấn đề này, dựa trên lý thuyết về tập mờ của Zadeh [98], Bezdek [12] đã đưa ra thuật toán phân cụm mờ - Fuzzy C-means (FCM) nhằm giải quyết các nhược điểm trên Thuật toán này được xem như một trong những phương pháp trích rút các quy tắc và luật mờ trong khai phá dữ liệu, trong đó các yếu tố mờ thực sự phổ biến [26, 73, 106] Phân cụm mờ có nhiều ứng dụng trong thực tế cuộc sống ở nhiều

Trang 14

- Trong kinh tế: dự báo tỉ giá, dự báo chứng khoán, dự báo tài chính [91-92]

- Trong y khoa: Hỗ trợ chuẩn đoán hình ảnh, hỗ trợ tư vấn khám bệnh [1,7,15,16,19,47,51,71,74,95]

- Trong thủy văn: dự báo thời tiết ngắn hạn [76]

- Trong xử lý ảnh: Phân đoạn ảnh [50,102]

- Trong hệ tư vấn: hỗ trợ ra quyết định [44,52]

- Trong an ninh: phát hiện lỗi, xâm nhập [46,104]

- Trong mạng không dây: đặt các cảm biến, phương pháp truyền tin [2,61]

Trong các ứng dụng của phân cụm mờ, bài toán dự báo thời tiết ngắn hạn nổi bật bởi việc kết hợp các kết quả của phân cụm với xử lý ảnh để đưa ra ảnh dự báo đầu ra Dự báo thời tiết là một ứng dụng khoa học và công nghệ để dự đoán trạng thái của bầu khí quyển tại một vị trí nhất định và nó đóng một vai trò quan trọng trong cuộc sống hàng ngày của con người Các dự báo thời tiết có độ chính xác cao sẽ làm giảm những rủi ro mà con người có thể phải đối mặt Một trong những phần quan trọng nhất của dự báo thời tiết là dự báo thời tiết ngắn hạn [87] Dự báo thời tiết ngắn hạn kết hợp mô tả về trạng thái hiện tại của khí quyển và dự báo ngắn hạn về khí quyển sẽ xẩy ra trong vài giờ tiếp theo [33] Điều này cho phép nó có thể dự báo các

tính chất thời tiết trong ngắn hạn như mưa, mây và các cơn bão với các nguyên nhân

rõ ràng trong khoảng thời gian này, theo [58] Các dữ liệu rada mới nhất, dữ liệu vệ tinh và dữ liệu dựa trên quan sát được sử dụng để phân tích các biến đổi trong phạm

vi hẹp như một thành phố và thực hiện một dự báo chính xác cho khoảng thời gian vài giờ sau Tuy nhiên, quan sát vệ tinh là sự lựa chọn thích hợp cho tất cả các khu vực trong vùng phủ sóng của nó [57,72]

Một vài phương pháp điển hình được sử dụng rộng rãi trong dự báo thời tiết dựa theo các quan sát của hình ảnh vệ tinh cụ thể như [29,59,75-76] Đặc biệt, Evans [29]

sử dụng mô hình tương quan đa kênh cho việc gán nhãn để phân tích chuyển động đám mây Melgani [59] xây dựng lại bối cảnh hình ảnh đa thời gian và đa quang phổ

bị nhiễu đám mây Shukla và Pal [75] đề xuất một cách tiếp cận để nghiên cứu sự tiến

hóa của các tế bào đối lưu

Trang 15

Shukla, Kishtawal và Pal [76] đề xuất một phương pháp để dự đoán các chuỗi hình ảnh vệ tinh kết hợp mô hình hồi quy không thời gian (STAR) với phân cụm mờ (Fuzzy C-Means - FCM) để tăng độ chính xác dự báo Mặc dù kỹ thuật này đã cho kết quả dự báo tốt hơn so với các phương pháp trong [29,59,75], tuy nhiên nó vẫn không đủ tốt vì những hạn chế của các tập mờ như độ do dự và mơ hồ Park và Lee [69] trình bày một cách tiếp cận bằng suy diễn mờ và phương pháp tập hợp để dự báo thủy triều đỏ Theo cách tiếp cận này, suy diễn mờ là một phương pháp dự đoán xuất phát từ một đề xuất gần đúng từ thông tin mơ hồ và kiến thức dựa trên một mô hình

mờ Phương pháp tập hợp sau đó đã được sử dụng để giúp cải thiện độ chính xác của kết quả phân loại và dự đoán Các tác giả trong [62] đã so sánh các mô hình mạng neuron nhân tạo riêng lẻ và kết hợp (ANN) cho bài toán dự đoán nhiệt độ không khí

và điểm sương Mô hình này được phát triển theo kiến trúc mạng Ward [90] bao gồm một mạng nơ ron ba lớp với các lớp đầu vào, ẩn và đầu ra Mặc dù dự đoán dựa trên ANN có thể cho độ chính xác cao hơn, nó vẫn có trở ngại bởi một số tham số như hàm khởi động, số lượng các nút trong lớp ẩn, phân phối các nút giữa các lớp của mô hình theo kiểu Ward phải xác định

2 Các tiếp cận chính đối với phân cụm mờ

Các yêu cầu về hệ thống thông minh và tự động đặt FCM vào thách thức lớn trong các ứng dụng như phân tích dữ liệu, nhận dạng mẫu, phân đoạn ảnh, phân tích nhóm vị trí, ảnh vệ tinh và phân tích tài chính Một số phương pháp cải tiến hoặc lai ghép kết hợp FCM với một số thuật toán tối ưu khác được trình bày trong [6, 7, 23,

40, 65, 85, 86, 101] nhằm nâng cao chất lượng phân cụm Tuy nhiên, chất lượng phân cụm của FCM thường không đủ tốt do thuật toán này được cài đặt trên cơ cở của các tập mờ truyền thống, trong đó vẫn có những giới hạn về độ thuộc, sự do dự và mơ hồ của các tham số mẫu Chính vì vậy việc nghiên cứu các thuật toán phân cụm trên các tập mờ nâng cao nhằm mục tiêu giải quyết các nhược điểm này

Đến nay đã có rất nhiều thuật toán phân cụm trên các tập mờ nâng cao như thuật toán phân cụm trên tập mờ loại 2 (T2FS) [57], tập mờ trực cảm, v.v mang lại chất lượng phân cụm tốt hơn Nhiều thuật toán phân cụm dựa trên tập mờ loại 2 (T2FS) [57] được đề xuất như trong [38, 41, 55, 64, 66, 88] Những thuật toán này tập trung vào sự không chắc chắn với bộ mờ hóa mở rộng nhằm điều khiển độ mờ trong FCM

Trang 16

Mặc dù chất lượng phân cụm tốt hơn FCM, nhưng thời gian tính toán khá lớn nên các nghiên cứu thường mở rộng FCM trên tập mờ trực cảm (IFS) [10] Một số nghiên cứu phát triển FCM trên IFS được đề xuất bởi các tác giả trong [4, 36, 39, 93, 105] Chaira [15] và Chaira & Panwar [16] giới thiệu thuật toán phân cụm mờ trực cảm dựa trên hàm mục tiêu mới để phân cụm các ảnh chụp CT não nhằm phát hiện các vấn đề bất thường trong não Một số nghiên cứu khác được đề xuất phát triển trên tập thuộc tính mờ và độ đo mờ để đánh giá chất lượng phân cụm [9,14,27,103] Lê Hoàng Sơn và cộng sự [77-84] đã đề xuất thuật toán phân cụm mờ trực cảm để phân tích nhân khẩu học dựa vào các kết quả nghiên cứu gần đây liên quan đến IFS và thuật toán phân cụm mờ xác suất Phân cụm mờ với hàm nhân (KFCM) được áp dụng để nâng cao chất lượng phân cụm của FCM như trong các nghiên cứu [34, 45, 54] Tổng quan về các thuật toán phân cụm mờ trực cảm được tổng hợp trong [94] Tuy nhiên, các thuật toán này vẫn cho kết quả vẫn chưa tốt và không phản ánh được nhiều yếu

tố như độ “do dự” tồn tại trong nhiều ứng dụng

Vào năm 2014, Bùi Công Cường và cộng sự đã giới thiệu tập mờ viễn cảnh (PFS) [21], là một sự khái quát hóa của tập mờ truyền thống và tập mờ trực cảm Các

mô hình dựa trên PFS có thể được áp dụng cho nhiều tình huống cần ý kiến của con người liên quan nhiều đến các câu trả lời kiểu: đồng ý, do dự, không đồng ý và từ chối trả lời Các tình huống này có thể cho kết quả rõ ràng hơn trên các thuật toán phân cụm dựa trên IFS Chính vì vậy việc phát triển thuật toán phân cụm mờ trên PFS

sẽ nâng cao độ chính xác phân cụm Hiện nay các thuật toán phân cụm mờ viễn cảnh mới chỉ dừng lại ở việc đưa ra một số độ đo kết hợp sử dụng phân cụm phân cấp để thực hiện như trong [57] mà chưa xem xét đến việc phân cụm theo cách tiếp cận phân hoạch

3 Các vấn đề tồn tại của phân cụm mờ

Ngoài các nhược điểm về chất lượng cụm, thuật toán FCM và các thuật toán

phân cụm trên các tập mờ nâng cao còn có một số nhược điểm khác như xác định số cụm hay xử lý với dữ liệu phức tạp

Thứ nhất, thuật toán FCM và các thuật toán phân cụm trên các tập mờ nâng cao

phải xác định trước số cụm trước khi thực hiện phân cụm [32] Điều này là khá quan trọng vì hiệu suất của một thuật toán phân cụm phụ thuộc rất nhiều vào số lượng các

Trang 17

cụm ban đầu [49, 53] Việc xác định số cụm ban đầu không tốt dẫn đến chất lượng cụm không tốt, chứa nhiễu hoặc các điểm ngoại biên [97] Qua nghiên cứu, có ba cách tiếp cận cụ thể là quét, tiền xử lý và cắt tỉa đang được sử dụng nhiều nhất

- Quét: Là cách đơn giản nhất mà trong đó số cụm trong miền cho trước và chọn

một cụm có chất lượng cụm tốt nhất trong các chỉ số có giá trị như số cụm cuối cùng Cách tiếp cận này được sử dụng trong các nghiên cứu của Alp Erilli và cộng sự [5], Arima và cộng sự [8], Fang và Wang [30], Fujita và cộng sự [32], Lee và Olafsson [49], Liang và cộng sự [53] Tuy nhiên, độ phức tạp tính toán

là nhược điểm chính của cách tiếp cận này vì nó phải quét tất cả các ứng viên

để tìm ứng viên tốt nhất Do đó, theo phương pháp này thì thời gian tính toán

tỷ lệ thuận với độ lớn của tập dữ liệu và miền ứng viên

- Tiền xử lý: Phương pháp này sử dụng phân tích thống kê để ước tính số lượng

cụm phù hợp nhất theo phân phối dữ liệu Các phương pháp thống kê có thể là

lý thuyết đại số [35] hay đánh giá trực quan của xu hướng cho các cụm dựa trên thuật toán của Pakhira [68] Tuy nhiên, một số nhược điểm của cách tiếp cận này vẫn còn tồn tại chính là việc xử lý độc lập với các hoạt động phân cụm, khả năng xử lý dữ liệu bị chồng chéo và độ phức tạp tính toán cao

- Cắt tỉa: cách tiếp cận này ước tính cả số cụm phù hợp nhất và xác định kết quả

đầu ra cụm Bắt đầu với một số cố định các cụm, trong mỗi quá trình lặp, chúng

sử dụng các chỉ số có giá trị để kiểm tra chất lượng phân cụm của phân hoạch hiện tại và cố gắng để tăng cường chất lượng đó bằng cách thay đổi số cụm theo một chiến lược nhất định Bằng tiếp cận đó, cả chất lượng cụm và thời gian tính toán của thuật toán đều được cải thiện Cách tiếp cận này được mô tả trong công trình của Bai và cộng sự [11], Cheung và Jia [18], Le và cộng sự [48], Maraziotis [56], và Yu và cộng sự [97] Các chiến lược có thể là một phương pháp lai giữa thuật toán di truyền và cụm mờ trừ [48] và hàm đánh giá chất lượng cụm mới [56, 97] Tuy nhiên, đôi khi chúng tạo ra số lượng cụm ít hơn mong đợi

Các nghiên cứu đều đã chứng minh được phương pháp cắt tỉa là cách tiếp cận hiệu quả nhất khi thực hiện phân cụm cả về khía cạnh chất lượng các cụm cũng như

độ phức tạp tính toán

Trang 18

Thứ hai, xử lý với dữ liệu phức tạp là vấn đề còn tại đối với FCM và các thuật

toán phân cụm trên tập mờ nâng cao Các phương pháp phân cụm trên tập dữ liệu phức tạp được chia thành hai nhóm: loại dữ liệu hỗn hợp bao gồm dữ liệu kiểu loại,

dữ liệu số và cấu trúc đặc biệt của dữ liệu

- Trong nhóm thứ nhất, đã có nhiều nghiên cứu về phân cụm cho cả hai loại dữ

liệu kiểu loại và số Hwang [37] mở rộng thuật toán K-means để thực hiện phân cụm cho tập dữ liệu lớn bao gồm các giá trị phân loại Yang, Hwang và Chen [96] sử dụng thuật toán phân cụm mờ để phân vùng các biến chức năng hỗn hợp bằng cách đưa ra một độ đo không tương tự cho dữ liệu mang tính biểu tượng và dữ liệu mờ Ji và cộng

sự [42-43] đề xuất các thuật toán phân cụm k-prototype là kết hợp giữa giá trị trung

bình và tâm cụm mờ để làm mẫu của một cụm và sử dụng một độ đo mới dựa trên sự đồng xuất hiện của các giá trị để đánh giá sự không tương tự giữa các đối tượng dữ liệu và mẫu của cụm Chen, Wang, Wang và Zhu [17] giới thiệu phương pháp phân cụm mềm cho dữ liệu kiểu loại bằng cách sử dụng lược đồ lựa chọn thuộc tính mềm

để mỗi thuộc tính phân loại được gán tự động một trọng số tương quan với sự phân tán được làm mịn trong cụm Nhiều phương thức dựa trên các ma trận không tương

tự để xử lý cho dữ liệu kết hợp được giới thiệu bởi De Carvalho, Lechevallier và De Melo [25] Ý tưởng chính của các phương pháp này là kết hợp các ma trận khác nhau

để có được một phân vùng đồng thuận cuối cùng Mặc dù các phương pháp này có thể phân vùng dữ liệu hỗn hợp một cách hiệu quả, nhưng chúng lại gặp khó khăn trong việc giải quyết với cấu trúc dữ liệu riêng biệt phức tạp

- Trong nhóm thứ hai, nhiều nhà nghiên cứu đã cố gắng phân vùng cấu trúc

phức tạp của dữ liệu có hình học nội tại của các cụm phi cầu và không lồi Các tác giả trong [20] đề xuất một phương pháp gọi là DifFuzzy kết hợp các ý tưởng từ FCM

và khuếch tán trên đồ thị để giải quyết vấn đề của các cụm có cấu trúc hình học phi tuyến phức tạp Phương pháp này được áp dụng cho một lượng lớn các lớp bài toán phân cụm do không yêu cầu bất kỳ thông tin trước về số các cụm Ferreira và de Carvalho [31] giới thiệu phương thức phân cụm mờ với hàm nhân dựa trên khoảng cách thích ứng địa phương để phân vùng dữ liệu phức tạp Ý tưởng chính của các phương pháp này được dựa trên một khoảng cách thích ứng địa phương, trong đó các

độ đo tương tự được tính là tổng của các khoảng cách Euclidean giữa các mẫu và tâm cụm được tính riêng lẻ cho mỗi biến bởi giá trị trung bình và hàm hạt nhân Độ đo

Trang 19

tương tự được tối ưu để học các trọng số của các biến trong quá trình phân cụm và để làm tăng hiệu suất của các thuật toán Tuy nhiên, phương pháp này chỉ có thể xử lý

dữ liệu số Như vậy, thuật toán DifFuzzy [20] và thuật toán phân cụm mờ dựa trên

ma trận không tương tự Dissimilarity [25] là hai phương pháp phân cụm điển hình trong mỗi nhóm

4 Mục tiêu và nội dung nghiên cứu

Với kết quả tổng quan những nghiên cứu liên quan, các mục tiêu của luận án được đề xuất như sau:

- Mục tiêu 1: Nghiên cứu, tổng hợp, phân tích và đề xuất thuật toán phân cụm mờ

viễn cảnh Kiểm chứng bằng lý thuyết về sự hội tụ của thuật toán và thực nghiệm,

so sách hiệu quả so với một số thuật toán phân cụm mờ khác

- Mục tiêu 2: Nghiên cứu, phát triển các thuật toán phân cụm mở rộng trên tập

mờ viễn cảnh như: phân cụm với việc xác định số cụm tự động, phân cụm với

dữ liệu phức tạp Kiểm chứng, so sánh hiệu quả so với một số thuật toán liên quan khác

- Mục tiêu 3: Nghiên cứu và phát triển các ứng dụng của thuật toán phân cụm trên

tập mờ viễn cảnh vào các bài toán dự báo thời tiết dựa trên ảnh mây vệ tinh

Nội dung nghiên cứu

Dựa vào mục tiêu nghiên cứu của luận án, các nội dung nghiên cứu của đề tài được trình bày như sau:

- Nội dung 1: Nghiên cứu phát triển thuật toán phân cụm mờ mới trên tập mờ

viễn cảnh (FC-PFS)

- Nội dung 2: Khảo sát tính chất hội tụ của thuật toán FC-PFS về mặt lý thuyết

và kiểm chứng về mặt thực nghiệm trên bộ dữ liệu chuẩn UCI

- Nội dung 3: Đề xuất mở rộng của FC-PFS cho việc phân cụm mờ tự động xác

định số cụm

- Nội dung 4: Đề xuất mở rộng của FC-PFS trong xử lý các dữ liệu phức tạp

- Nội dung 5: Xây dựng luật mờ viễn cảnh từ FC-PFS

Trang 20

- Nội dung 6: Ứng dụng luật mờ viễn cảnh trong bài toán dự báo thời tiết ngắn

hạn dựa trên ảnh mây vệ tinh

Trong hai nội dung nghiên cứu trên, nội dung 1 và nội dung 2 được trình bày cụ thể trong chương 2, nội dung 3 và nội dung 4 được trình bày chi tiết trong chương 3, nội dung 5 và nội dung 6 được trình bày trong chương 4

5 Dữ liệu nghiên cứu

Tập dữ liệu thực nghiệm trong luận án được lấy từ bộ dữ liệu chuẩn UCI Machine Learning Respository [88] cho các thuật toán phân cụm và bộ dữ liệu ảnh mây vệ tinh được lấy từ [63] với khu vực Đông Nam Á

6 Phương pháp nghiên cứu

Từ sáu nội dung nghiên cứu ở trên, các phương pháp nghiên cứu được đề xuất

và thực hiện để hoàn thiện đề tài nghiên cứu, cụ thể như sau:

- Khảo cứu: Khảo sát các phương pháp liên quan về phân cụm mờ, xử lý dữ liệu

không chắc chắn

- Nghiên cứu gia tăng: Cải tiến, mở rộng thuật toán phân cụm mờ (FCM) trên

tập mờ viễn cảnh

- Nghiên cứu lý thuyết: Phân tích và chứng minh một số tính chất về sự hội tụ

của mô hình đề xuất

- Nghiên cứu mở rộng: Mở rộng thuật toán FC-PFS trong một số trường hợp

đặc biệt

- Nghiên cứu ứng dụng: Ứng dụng mô hình đề xuất cho bài toán dự báo thời tiết

ngắn hạn dựa trên ảnh mây vệ tinh

7 Phạm vi và giới hạn của đề tài nghiên cứu

Từ các mục tiêu, nội dung và phương pháp nghiên cứu, phạm vi và giới hạn của

đề tài nghiên cứu được đề xuất như sau:

- Lý thuyết: Phát triển phân cụm mờ viễn cảnh theo tiếp cận phân hoạch

- Ứng dụng: Áp dụng cho bài toán dự báo thời tiết ngắn hạn dựa trên ảnh mây

vệ tinh với việc sử dụng phương pháp hồi quy không thời gian, suy luận mờ

và sử dụng luật mờ viễn cảnh

Trang 21

8 Đóng góp chính của luận án

Luận án có bốn đóng góp chính là:

- Đề xuất một thuật toán phân cụm mờ mới trên tập mờ viễn cảnh (FC-PFS) bằng cách mở rộng hàm mục tiêu của thuật toán phân cụm trên tập mờ trực cảm Đồng thời tính chất hội tụ của thuật toán đề xuất cũng được đánh giá về mặt lý thuyết, sự cần thiết để đảm bảo tính đúng của thuật toán

- Đưa ra một cải tiến của thuật toán FC-PFS cho việc phân cụm mờ viễn cảnh

tự động xác định số cụm Phương pháp cải tiến là sự kết hợp của FC-PFS với thuật toán tối ưu bầy đàn PSO [28] để đưa ra số cụm và kết quả phân cụm tối

ưu cho từng bộ dữ liệu

- Đưa ra một cải tiến của thuật toán FC-PFS cho việc xử lý với các dữ liệu phức tạp Phương pháp này kết hợp FC-PFS với thuật toán tối ưu bầy đàn PSO và phương pháp phân cụm đa tâm để xử lý hiệu quả với cả dữ liệu số, dữ liệu kiểu loại và dữ liệu có cấu trúc phức tạp

- Ứng dụng FC-PFS trong bài toán dự báo thời tiết ngắn hạn dựa trên ảnh mây

vệ tinh với hai phương pháp Phương pháp thứ nhất kết hợp FC-PFS với phương pháp hồi quy không thời gian Phương pháp thứ hai đề xuất luật mờ viễn cảnh mới và phương pháp sinh luật mờ viễn cảnh này từ kết quả của FC-PFS để dự báo ảnh đầu ra của bài toán

9 Tính mới của luận án

Trong luận án này, thuật toán phân cụm mờ viễn cảnh (FC-PFS) được đề xuất

để khắc phục các nhược điểm của các thuật toán phân cụm trên tập mờ nâng cao trước đây Thuật toán phân cụm trên tập mờ viễn cảnh cung cấp khá đầy đủ thông tin, đặc biết là sự phù hợp của mô hình với tham số “độ từ chối” Ngoài ra các kết quả chứng minh tính chất hội tụ bằng lý thuyết và kiểm chứng chất lượng phân cụm cũng cho thấy tính hiệu quả của thuật toán phân cụm mờ này Bên cạnh những ưu điểm của thuật toán FC-PFS, thuật toán vẫn có một số hạn chế cần khắc phục

- Thứ nhất là làm thế nào để xác định số lượng cụm phù hợp nhất cho mỗi bộ

dữ liệu Vì mỗi tập dữ liệu có các tính năng và phân phối mẫu khác nhau nên số lượng cụm cũng khác nhau Việc xác định số lượng tối ưu như vậy cho thuật toán phân cụm

Trang 22

sẽ mang lại chất lượng phân cụm tốt nhất Đồng thời, luận án cũng trình bày một phương pháp gọi là Phân cụm mờ viễn cảnh tự động xác định số cụm (AFC-PFS) để xác định số lượng cụm phù hợp nhất cho FC-PFS Đây là một phương pháp lai giữa thuật toán tối ưu hóa bầy đàn (PSO) [28] và FC-PFS trong đó các giải pháp kết hợp bao gồm số cụm, tâm cụm tương đương và ma trận thành viên được đóng gói và tối

ưu hóa trong PSO Các kết quả thực nghiệm cho thấy AFC-PFS có hiệu suất tốt hơn các phương pháp liên quan

- Thứ hai, cũng bởi sự phức tạp và khác nhau về thành phần các trường thuộc

tính cũng như cấu trúc của các bộ dữ liệu mà thuật toán FC-PFS cho kết quả không

đủ tốt như các dữ liệu kiểu kết hợp giữa số và kiểu loại, các dữ liệu có cấu trúc vòng, hình cầu và một số cấu trúc phức tạp khác Chính vì vậy luận án cũng đưa ra một thuật toán cải tiến của FC-PFS được gọi là PFCA-CD có khả năng xử lý dữ liệu kiểu hỗn hợp (số và kiểu loại) và cấu trúc dữ liệu riêng biệt để xử lý trên các dữ liệu phức tạp Ý tưởng của phương pháp này là sửa đổi FC-PFS, sử dụng phép đo mới cho các thuộc tính phân loại, cho phép một cụm có thể chứa nhiều tâm và một chiến lược tiến hóa - tối ưu hóa các phương án Các thí nghiệm chỉ ra rằng thuật toán được đề xuất dẫn đến chất lượng phân cụm hiệu quả hơn các thuật toán khác thông qua một số chỉ

số đánh giá chất lượng cụm

- Thứ ba, thuật toán FC-PFS còn được ứng dụng trong bài toán dự báo thời tiết

ngắn hạn dựa trên ảnh mây vệ tinh Trong luận án này, hai phương pháp dự báo lai mới dựa trên phân cụm mờ cho bài toán dự báo thời tiết ngắn hạn được đề xuất Phương pháp đầu tiên được đặt tên là PFC-STAR sử dụng kết hợp phân cụm mờ các hình ảnh vệ tinh và hồi quy không thời gian Phương pháp thứ hai có tên là PFC-PFR tích hợp FC-PFS với luật mờ viễn cảnh Những phương pháp này được trang bị các quy trình huấn luyện giúp nâng cao độ chính xác của kết quả dự báo Thực nghiệm tính toán cho thấy các phương pháp được đề xuất tốt hơn so với các phương pháp liên quan khác

10 Bố cục của luận án

- Mở đầu: Trình bày bối cảnh nghiên cứu; tổng quan nhanh và các hạn chế về

bài toán phân cụm mờ; các vấn đề nghiên cứu; mục tiêu nghiên cứu; hướng

Trang 23

tiếp cận và phương pháp nghiên cứu; nội dung nghiên cứu; phạm vi và giới hạn nghiên cứu; các đóng góp chính và bố cục của luận án

- Chương 1: Trình bày một số kiến thức cơ sở cho đề tài nghiên cứu, bao gồm:

khái niệm về tập mờ, các thuật toán phân cụm mờ, các thuật toán phân cụm

mờ mở rộng và ứng dụng trong dự báo thời tiết ngắn hạn Ngoài ra một số độ

đo tiêu chí đánh giá và bộ dữ liệu chuẩn cho thực nghiệm cũng được trình bày trong chương này

- Chương 2: Trình bày về thuật toán phân cụm trên tập mờ viễn cảnh, bao gồm:

ý tưởng thuật toán, cách thức triển khai thuật toán, đánh giá sự hội tụ bằng lý thuyết và thực nghiệm tính toán

- Chương 3: Trình bày cải tiến của thuật toán phân cụm trên tập mờ viễn cảnh

với việc tự động xác định số cụm và xử lý dữ liệu phức tạp, kèm theo các thực nghiệm kiểm chứng

- Chương 4: Áp dụng thuật toán phân cụm mờ viễn cảnh cho bài toán dự báo

thời tiết ngắn hạn từ ảnh mây về tinh

- Kết luận: Nêu kết quả thu được, hạn chế của đề tài và các hướng nghiên cứu

tương lai

Trang 24

CHƯƠNG 1 CƠ SỞ LÝ THUYẾT

Trong chương này, các kiến thức cơ sở phục vụ cho luận án được trình bày cụ thể làm nền tảng phát triển của các thuật toán ở các chương sau

trong đó ̇( ) là độ thuộc của ∈

Một mở rộng trực tiếp của tập mờ FS chính là tập mờ loại 2 (T2FS) [60] được định nghĩa:

Định nghĩa 1.2 Một tập mờ loại 2 (T2FS) [60] trong tập nền không rỗng là,

ở đây là tập con của , ( , ) là độ mờ của độ thuộc ( ), ∀ ∈ Khi ( , ) =

1, được gọi là T2FS khoảng Tương tự, khi ( , ) = 0, trả về tập FS

Một mở rộng khác của FS chính là tập mờ trực cảm (IFS) [10] Tập mờ này được đưa ra bởi Atanassov vào năm 1986 như sau:

Định nghĩa 1.3 Một tập mờ trực cảm (IFS) [10] trong một tập nền không rỗng

Trang 25

( ) = 1 − ( ) − ( ), ∀ ∈ (1.6) Khi ( ) = 0, IFS trả về tập mờ thường Độ do dự có thể được tính thông qua hàm thuộc bởi toán tử Yager [13], đó là,

Độ đo tương tự và đánh giá chất lượng cụm

Trong luận án, các độ đo tương tự được sử dụng để đánh giá chất lượng cụm gồm có độ đo Mean Accuracy (MA) tính giá trị nhỏ nhất các phần tử thuộc về đúng cụm, chỉ số Davies-Bouldin (DB) [24], chỉ số Rand [89], chỉ số Alternative Silhouette ( ) [89], chỉ số WGLI [89] và PBM [100] Trong các chỉ số trên, chỉ số MA và Rand đánh giá chất lượng cụm thông qua các giá trị cụm có sẵn mà bộ dữ liệu cung cấp Chỉ số này nhằm đánh giá xem các phần tử có được phân vào các cụm chính xác hay không Các chỉ số còn lại là DB, ASWC, WGLI, PBM là các chỉ số đánh giá nội tại chất lượng cụm Tức là các chỉ số này chỉ đánh giá chất lượng cụm thông qua khoảng cách của các phần tử đối với tâm cụm hay khoảng cách giữa các cụm Trong

Trang 26

luận án, các chỉ số đánh giá chất lượng cụm nội tại lẫn chỉ số ngoài được sử dụng để đánh giá chất lượng cụm

Chỉ số MA được tính như sau:

MA = 100% × min

với là số phần tử thuộc về cụm sau khi phân cụm, là số phần tử thực tế thuộc

về cụm Chỉ số MA càng lớn thể hiện chất lượng phân cụm càng tốt

Chỉ số DB được biểu diễn như sau

= − , ( , = 1, , , ≠ ), (1.14)

Trong đó là kích thước của cụm i là số đo độ phân tán trong cụm, và

là số đo sự khác biệt giữa cụm i và cụm j Giá trị càng nhỏ cho thấy hiệu suất tốt hơn

cho chỉ số DB Chỉ số Rand được định nghĩa như sau:

Trang 27

được sử dụng để tránh phép chia cho 0 khi , = 0 Giá trị tối đa cho biết hiệu suất tốt hơn đối với chỉ số ASWC

Chỉ số PBM được trình bày như sau:

trong đó biểu thị tổng khoảng cách giữa các điểm dữ liệu và giá trị trung bình của

dữ liệu, là tổng của các khoảng cách trong của các phần tử trong cùng nhóm, là

khoảng cách tối đa giữa các tâm cụm Phân vùng tốt nhất được tìm thấy khi PBM đạt

giá trị lớn nhất

WGLI là sự kết hợp của mạng lưỡng cực có trọng số ( ) và độ thuộc trung bình lớn nhất MMD nhằm tránh việc đạt được cực trị địa phương Giá trị tối đa cho biết hiệu suất tốt hơn của chỉ số WGLI

ở đây là giá trị thuộc của phần tử thuộc cụm Theo Zhang và cộng sự [100] thì

= 0.7 Nói chung, cần lưu ý là giả định > 0.5 Giả sử là một mạng lưỡng cực

có trọng số mà tập đỉnh được chia thành hai tập và , tất cả các cạnh trong mạng là một kết nối từ một đỉnh trong và tương ứng Giả sử và là tập các đỉnh khác nhau thuộc và thì là thương của các cạnh nối các đỉnh trong tới các đỉnh trong và là tổng của các hàng

Trang 28

Thuật toán phân cụm mờ

Bezdek và các cộng sự [12] giới thiệu bài toán phân cụm mờ bằng việc cực tiểu

hóa hàm mục tiêu (1) Trong đó, độ thuộc của dữ liệu X k tới cụm thứ j được biểu diễn

bởi được thêm vào hàm mục tiêu trong công thức (1) Sự khác biệt này so với phân cụm rõ cho thấy một điểm có thể thuộc vào một cụm khác phụ thuộc vào độ

thuộc của nó Chú ý rằng, trong công thức (1.25) N, C, m và V j theo thứ tự là số các

điểm dữ liệu, số cụm, bộ mờ hóa (thường được đặt bằng 2) và điểm tâm cụm j ( =

Phương pháp phân cụm mờ loại 2 khoảng [38] với mục đích tối ưu hóa các hàm dưới đây với [ , ] là bộ mờ khoảng thay vì bộ mờ thô trong các công thức (1.25–1.26)

Trang 29

= ∑ ∑ − → , (1.29)

Hình 1.1 Thuật toán phân cụm FCM

Các ràng buộc trong (1.25–1.26) được giữ nguyên Bằng các kỹ thuật tương tự

để giải quyết bài toán tối ưu mới, khoảng thuộc = , và các tâm ban đầu của cụm được tính theo công thức (1.31–1.33) Trong các giá trị này, sau các vòng lặp, hàm mục tiêu và sẽ đạt min

Begin

Khởi tạo

Cập nhật tâm cụm và độ thuộc

Điều kiện dừng

End

Trang 30

Thuật toán phân cụm mờ trực cảm trong [15,16] nhằm cực tiểu hóa hàm mục tiêu (1.34) đã tích hợp entropy với hàm mục tiêu của FCM như sau

Độ thuộc mới được sử dụng để tính các tâm cụm trong công thức (1.27) Thuật toán dừng khi sự khác biệt giữa hai độ thuộc liên tiếp không lớn hơn ngưỡng cho trước

Trang 31

Một số thuật toán khác

1.4.1 Thuật toán tối ưu bầy đàn

Thuật toán tối ưu hóa bầy đàn (PSO) lần đầu tiên được giới thiệu bởi Eberhart

và Kennedy (1995) [28] là một chiến lược tiến hóa nhằm tối ưu hóa một vấn đề bằng phương pháp lặp cố gắng cải thiện một giải pháp ứng viên tới một chất lượng cho trước PSO mô phỏng sự chuyển động của các sinh vật trong một bầy chim hoặc cá

để tìm thức ăn Giả sử rằng có cá thể trong bầy, mỗi cá thể trong số đó được trình bày là một giải pháp của bài toán và được mã hóa với vị trí và vận tốc

Thuật toán PSO gồm các bước sau: khởi tạo bầy, tính toán các giá trị fitness và cập

Điều kiện dừng

Trang 32

Trước tiên, vị trí và vận tốc của mỗi phương án được khởi tạo ngẫu nhiên Tiếp

theo, mỗi phương án được đánh giá chất lượng bằng giá trị fitness Tùy thuộc vào bài toán cụ thể, giá trị fitness được thiết kế để đánh giá chất lượng của phương án Cuối cùng, quá trình cập nhật được mô tả trong phương trình 1.38-1.39

trong đó, các tham số , ≥ 0 là các tham số của thuật toán PSO Thường thì ,được thiết lập là giá trị 1 là vị trí mà phương án có giá trị tốt nhất ở hiện tại và là vị trí có giải pháp hiện tại tốt nhất

Toàn bộ quá trình được lặp lại cho đến khi số lần lặp tối đa đã đạt tới hoặc giải pháp tốt nhất tại hai bước liên tiếp không đổi Sơ đồ thuật toán PSO được trình bày trong hình 1.2

1.4.2 Thuật toán DifFuzzy

Thuật toán phân cụm DifFuzzy [20] dựa trên FCM và các biểu đồ khuếch tán

để phân dữ liệu vào các cụm có cấu trúc hình học phi tuyến phức tạp Trước hết, hàm

bổ trợ được định nghĩa như sau:

trong đó ∈ (0, ∞) là một số nguyên dương Các node và được kết nối bằng một cạnh nếu: − < ( ) bằng với số lượng các thành phần của đồ thị liền kề

sao cho chứa ít nhất M đỉnh, trong đó M là tham số bắt buộc của thuật toán

DifFuzzy Hàm ( ) ban đầu nhận giá trị không, và sau đó tăng lên đến giá trị tối đa của nó sau đó quay trở lại giá trị 1

=

∧ , ( ) =

Trang 33

Có hai giới hạn được xác định rõ:

trong đó là ∈ (0,1) là tham số trong của thuật toán với giá trị mặc định là 0.3 Các

ma trận phụ được định nghĩa như sau

W I P

,

1 ,

trong đó ∈ × là ma trận xác định và là một tham số trong của DifFuzzy với

giá trị mặc định là 0.1 DifFuzzy cũng tính một tham số nguyên phụ α bởi,

trong đó tương ứng với giá trị riêng thứ hai (lớn nhất) của và ⌊ ⌋ biểu thị phần nguyên Để tính khoảng cách khuếch tán giữa điểm mềm và cụm , sử dụng công thức sau

Quy trình này được áp dụng cho mọi điểm dữ liệu mềm và cho mỗi cụm thứ

∈ {1,2, , } Đầu ra của DifFuzzy là số các cụm ( ) và mỗi điểm dữ liệu một tập

Trang 34

hợp các số đại diện cho mức độ thuộc trong mỗi cụm Giá trị thuộc của , =1,2, , , trong cụm thứ , = 1, , được biểu thị bằng ( ) Độ thuộc là một giá trị từ 0 đến 1, trong đó các giá trị gần 1 tương ứng với các điểm có nhiều khả năng thuộc về cụm đó Tổng các giá trị thuộc của một điểm dữ liệu trong tất cả các cụm luôn là 1

1.4.3 Thuật toán Dissimilarity

Thuật toán Dissimilarity [25] là giải thuật dựa trên thuật toán phân cụm mờ Medoids với trọng số liên quan cho mỗi ma trận không tương tự bao gồm 5 bước dưới đây:

K Khởi tạo

Cố định (số lượng các cụm) , 2 ≤ << ; Cố định m, 1 < < +∞; Cố định , 1 ≤ < +∞; Cố định (số lần lặp); Cố định > 0 và << 1 Cố định số yếu tố

1 ≤ << của các nguyên mẫu ( = 1, , ) Thiết lập = 0 Thiết lập ( ) =( )

, , ( ) = (1, ,1) hoặc thiết lập ( ) = ( ), , ( ) = , , , =

1, , Chọn ngẫu nhiên các nguyên mẫu khác nhau ( ) ∈ ( )( = 1, , ) Cho mỗi đối tượng ( = 1, , ) tính toán mức độ thuộc của ( )( = 1 , ) trên cụm mờ :

Trang 35

Thiết lập = + 1 Vector của các trọng số có liên quan ( )=

, , ( ) và phân cụm mờ được đại diện bởi ( ) = ( ), , ( )

là cố định Nguyên mẫu ( ) = ∗ ∈ ( ) của cụm mờ ( = 1, , ) được tính theo thủ tục được mô tả trong mệnh đề: nguyên mẫu = ∗ ∈ ( ) của cụm mờ

( = 1, , ) được chọn để giảm thiểu tiêu chí phân cụm J:

- Tính toán trọng số liên quan tốt nhất

Khi vector của nguyên mẫu ( ) = ( ), , ( ) và các phân cụm mờ được đại diện bởi ( ) = ( ), , ( ) là cố định, các thành phần ( )( = 1, , ) của vector trọng số ( )( = 1, , ) tương ứng được tính như trong phương trình (1.54) hoặc (1.56) nếu hàm matching được đưa ra trong công thức (1.55) hoặc (1.57), tương ứng

Trang 36

Các vector của nguyên mẫu ( ) = ( ), , ( ) và vector của trọng số liên quan ( ) = ( ), , ( ) được cố định Độ thuộc ( ) của ( = 1, , ) trong cụm mờ ( = 1, , ) được tính như trong phương trình (1.58)

trong đó ( , , ) là vùng bao phủ lân cận theo không gian và thời gian với < 0 Phương trình (1.60) được sửa lại cho việc phân cụm dựa vào thuật toán STAR theo Shukla, Kishtawal và Pal [76] như sau

Trang 37

trong đó, 2 + 1, 2 + 1và tương ứng với tổng số hàng, cột và khung theo thứ tự,

và , , là trọng số tương ứng biểu thị trọng số cho cụm , = 0, , , = 0, … , Trọng số được tính bằng cách tối thiểu hàm,

trong đó ‖ ‖biểu diễn khoảng cách Euclide Phương trình (1.61) được giải bằng phương pháp bình phương tối thiểu sử dụng nhân tố QR [67] Sau khi tìm ra trọng số, tất cả các điểm ảnh trong hình dự đoán sẽ được tính bằng phương trình (1.62)

Bộ dữ liệu thực nghiệm

Tập dữ liệu thử nghiệm cho thuật toán phân cụm mờ viễn cảnh và thuật toán mở rộng được lấy trên kho dữ liệu học máy chuẩn UCI [88] như IRIS, WINE, WDBC, GLASS, IONOSPHERE, HABERMAN, HEART, CMC, ABALONE, SERVO, AUTOMOBILE và STATLOG Đây là các tập dữ liệu chuẩn được sử dụng cho các bài toán phân cụm, phân lớp Bảng 1.1 thể hiện mô tả chi tiết về bộ dữ liệu thử nghiệm

Bảng 1.1 Mô tả tập dữ liệu thử nghiệm

Dữ liệu Số bản

ghi

Số thuộc tính số

Số thuộc tính kiểu loại

Trang 38

bao gồm ba bộ hình ảnh: Malaysia (dữ liệu 1, hình 1.3), Luzon – Philippines (dữ liệu

2, hình 1.4) và Jakarta – Indonesia (dữ liệu 3, hình 1.5) Các ảnh vệ tinh thể hiện màu sắc là các đám mây với màu càng đậm thể hiện mây càng dày Các ảnh liên tiếp thể hiện sự chuyển động của mây trong một khu vực Mỗi tập dữ liệu chứa 7 ảnh liên tiếp

từ 7.30 sáng đến 13.30 chiều từ 28/11/2014 Tất cả các hình ảnh có cùng kích thước (100x100 pixel) Những hình này được đưa ra trong các hình từ 1.3 – 1.5 Mỗi tập ảnh được chia thành các tập con là tập huấn luyện và tập kiểm tra mà trong đó, 3 ảnh cuối là 3 ảnh giả sử đã được dự đoán

Trang 39

CHƯƠNG 2 THUẬT TOÁN PHÂN CỤM MỜ VIỄN CẢNH

Chương này trình bày một thuật toán phân cụm mờ viễn cảnh mới, được đề xuất dựa trên tính chất của tập mờ viễn cảnh Kết quả này được thể hiện chi tiết trong [CT1] Những khảo sát về tính chất hội tụ của thuật toán ở góc độ lý thuyết cũng như kiểm chứng thuật toán thông qua thực nghiệm số được thực hiện đảm bảo tính đúng

và hiệu quả của thuật toán Kết quả này được thể hiện trong [CT2]

2.1 Ý tưởng thuật toán

Thuật toán phân cụm mờ viễn cảnh được đưa ra dựa trên ý tưởng của thuật toán phân cụm mờ mờ trực cảm và áp dụng trên tập mờ viễn cảnh Ý tưởng của thuật toán

là thiết kế hàm mục tiêu là tổng của hai thành phần là tổng khoảng cách của các điểm

dữ liệu đến các tâm cụm và đại lượng entropy Thành phần thứ nhất được cải tiến từ hàm mục tiêu của thuật toán phân cụm mờ thường [12] với mục tiêu cực tiểu hóa đại lượng (2 − ) ‖ − ‖ Cũng giống với thuật toán FCM, một điểm dữ liệu nếu thuộc về một cụm thì khoảng cách từ điểm đó tới tâm cụm phải nhỏ nên do đó độ thuộc của điểm dữ liệu vào cụm sẽ lớn Với việc thay thế thành phần độ thuộc trong FCM bằng đại lượng (2 − ) , điều này càng thể hiện rõ hơn khi một điểm dữ liệu nếu càng gần tâm cụm thì không những giá trị độ khẳng định phải lớn và giá trị độ

từ chối phải nhỏ Ở đây, tác giả sử dụng giá trị (2 − ) trong mô hình để chắc chắn với giá trị (2 − ) ≤ 1 thì ≤ 1, thỏa mãn điều kiện của PFS

Thành phần thứ hai trong hàm mục tiêu chính là đại lượng entropy ( + ) Bằng việc cực tiểu hóa đại lượng này, các điểm dữ liệu sẽ giảm giá trị

và , với mục tiêu cực tiểu nhanh hơn so với Điều này sẽ giúp cực tiểu độ từ chối của mô hình, giúp việc phân cụm cụm cải tiến được độ chính xác hơn

2.2 Thuật toán phân cụm mờ viễn cảnh

2.2.1 Hàm mục tiêu

Trong phần này, một mô hình thuật toán phân cụm mờ viễn cảnh mới dựa trên

lý thuyết của tập mờ viễn cảnh đã được trình bày Giả sử có một tập X chứa N điểm

dữ liệu trong không gian đa chiều Bài toán đặt ra là phải chia tập dữ liệu thành C

nhóm bằng việc cực tiểu hóa hàm mục tiêu (2.1)

Trang 40

= ∑ ∑ 2 − − + ∑ ∑ + (2.1) Các ràng buộc được định nghĩa như sau:

Tiếp theo, phương pháp Lagrange được sử dụng để xác định các giải pháp tối

ưu của mô hình (2.1–2.4)

Định lý 1 Nghiệm tối ưu của bài toán trong (2.1–2.4) là:

Ngày đăng: 26/05/2020, 11:13

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1]. Abdullah, M., Al-Anzi, F., &amp; Al-Sharhan, S. (2018, March), “Hybrid Multistage Fuzzy Clustering System for Medical Data Classification”, In 2018 International Conference on Computing Sciences and Engineering (ICCSE), 1-6 Sách, tạp chí
Tiêu đề: Hybrid Multistage Fuzzy Clustering System for Medical Data Classification”, "In 2018 International Conference on Computing Sciences and Engineering
Tác giả: Abdullah, M., Al-Anzi, F., &amp; Al-Sharhan, S
Năm: 2018
[2]. Agrawal, D., &amp; Pandey, S. (2018), “FUCA: Fuzzy‐based unequal clustering algorithm to prolong the lifetime of wireless sensor networks”, International Journal of Communication Systems 31(2), e3448 Sách, tạp chí
Tiêu đề: FUCA: Fuzzy‐based unequal clustering algorithm to prolong the lifetime of wireless sensor networks”, "International Journal of Communication Systems
Tác giả: Agrawal, D., &amp; Pandey, S
Năm: 2018
[3]. Al-amri, S. S., Kalyankar, N. V., &amp; Khamitkar, S. D. (2010), “A comparative study of removal noise from remote sensing image”, arXiv preprint arXiv:1002.1148 Sách, tạp chí
Tiêu đề: A comparative study of removal noise from remote sensing image
Tác giả: Al-amri, S. S., Kalyankar, N. V., &amp; Khamitkar, S. D
Năm: 2010
[4]. Aliahmadipour, L. T. (2017), “On hesitant fuzzy clustering and clustering of hesitant fuzzy data”, Fuzzy sets, rough sets, multisets and clustering, 157-168 Sách, tạp chí
Tiêu đề: On hesitant fuzzy clustering and clustering of hesitant fuzzy data”, "Fuzzy sets, rough sets, multisets and clustering
Tác giả: Aliahmadipour, L. T
Năm: 2017
[5]. Alp Erilli, N., Yolcu, U., Eğrioğlu, E., Hakan Aladağ, ầ., &amp; ệner, Y. (2011), “Determining the most proper number of cluster in fuzzy clustering by using artificial neural networks”, Expert Systems with Applications 38(3), 2248-2252 Sách, tạp chí
Tiêu đề: Determining the most proper number of cluster in fuzzy clustering by using artificial neural networks”, "Expert Systems with Applications
Tác giả: Alp Erilli, N., Yolcu, U., Eğrioğlu, E., Hakan Aladağ, ầ., &amp; ệner, Y
Năm: 2011
[6]. Amiri, E., &amp; Dehkordi, M. N. (2018), “Dynamic data clustering by combining improved discrete artificial bee colony algorithm with fuzzy logic”, International Journal of Bio-Inspired Computation 12(3), 164-172 Sách, tạp chí
Tiêu đề: Dynamic data clustering by combining improved discrete artificial bee colony algorithm with fuzzy logic”, "International Journal of Bio-Inspired Computation
Tác giả: Amiri, E., &amp; Dehkordi, M. N
Năm: 2018
[7]. Amirkhani, A., Mosavi, M. R., Mohammadi, K., &amp; Papageorgiou, E. I. (2018), “A novel hybrid method based on fuzzy cognitive maps and fuzzy clustering algorithms for grading celiac disease”, Neural Computing and Applications 30(5), 1573-1588 Sách, tạp chí
Tiêu đề: A novel hybrid method based on fuzzy cognitive maps and fuzzy clustering algorithms for grading celiac disease”, "Neural Computing and Applications
Tác giả: Amirkhani, A., Mosavi, M. R., Mohammadi, K., &amp; Papageorgiou, E. I
Năm: 2018
[8]. Arima, C., Hakamada, K., Okamoto, M., &amp; Hanai, T. (2008), “Modified Fuzzy Gap statistic for estimating preferable number of clusters in Fuzzy k-means clustering”, Journal of bioscience and bioengineering 105(3), 273-281 Sách, tạp chí
Tiêu đề: Modified Fuzzy Gap statistic for estimating preferable number of clusters in Fuzzy k-means clustering”, "Journal of bioscience and bioengineering
Tác giả: Arima, C., Hakamada, K., Okamoto, M., &amp; Hanai, T
Năm: 2008
[9]. Arora, J., Khatter, K., &amp; Tushir, M. (2019), “Fuzzy c-means clustering strategies: A review of distance measures”, In Software Engineering, 153-162 Sách, tạp chí
Tiêu đề: Fuzzy c-means clustering strategies: A review of distance measures”, "In Software Engineering
Tác giả: Arora, J., Khatter, K., &amp; Tushir, M
Năm: 2019
[10]. Atanassov, K. (1986), “Intuitionistic fuzzy sets”, Fuzzy Sets and Systems 20, 87–96 Sách, tạp chí
Tiêu đề: Intuitionistic fuzzy sets”, "Fuzzy Sets and Systems
Tác giả: Atanassov, K
Năm: 1986
[11]. Bai, L., Liang, J., &amp; Dang, C. (2011), “An initialization method to simultaneously find initial cluster centers and the number of clusters for clustering categorical data”, Knowledge-Based Systems 24(6), 785-795 Sách, tạp chí
Tiêu đề: An initialization method to simultaneously find initial cluster centers and the number of clusters for clustering categorical data”, "Knowledge-Based Systems
Tác giả: Bai, L., Liang, J., &amp; Dang, C
Năm: 2011
[12]. Bezdek, J. E. (1984), “FCM: The fuzzy c-means clustering algorithm”, Computers &amp; Geosciences 10(2), 191-203 Sách, tạp chí
Tiêu đề: FCM: The fuzzy c-means clustering algorithm”, "Computers & Geosciences
Tác giả: Bezdek, J. E
Năm: 1984
[13]. Burillo, P., Bustince, H. (1996), “Entropy on intuitionistic fuzzy set and on interval-valued fuzzy set”, Fuzzy Sets and Systems 78, 305–316 Sách, tạp chí
Tiêu đề: Entropy on intuitionistic fuzzy set and on interval-valued fuzzy set”, "Fuzzy Sets and Systems
Tác giả: Burillo, P., Bustince, H
Năm: 1996
[14]. Butkiewicz, B.S. (2012), "Fuzzy clustering of intuitionistic fuzzy data", In International Conference on Artificial Intelligence and Soft Computing, 213-220 Sách, tạp chí
Tiêu đề: Fuzzy clustering of intuitionistic fuzzy data
Tác giả: Butkiewicz, B.S
Năm: 2012
[15]. Chaira, T. (2011), “A novel intuitionistic fuzzy C means clustering algorithm and its application to medical images”, Applied Soft Computing 11(2), 1711-1717 Sách, tạp chí
Tiêu đề: A novel intuitionistic fuzzy C means clustering algorithm and its application to medical images”, "Applied Soft Computing
Tác giả: Chaira, T
Năm: 2011
[16]. Chaira, T. P. (2013), “An Atanassov's intuitionistic Fuzzy Kernel Clustering for Medical Image segmentation”, International Journal of Computational Intelligence Systems, 1-11 Sách, tạp chí
Tiêu đề: An Atanassov's intuitionistic Fuzzy Kernel Clustering for Medical Image segmentation”, "International Journal of Computational Intelligence Systems
Tác giả: Chaira, T. P
Năm: 2013
[17]. Chen, L., Wang, S., Wang, K., &amp; Zhu, J. (2016), “Soft subspace clustering of categorical data with probabilistic distance”, Pattern Recognition 51, 322-332 Sách, tạp chí
Tiêu đề: Soft subspace clustering of categorical data with probabilistic distance”, "Pattern Recognition
Tác giả: Chen, L., Wang, S., Wang, K., &amp; Zhu, J
Năm: 2016
[18]. Cheung, Y. M., &amp; Jia, H. (2013), “Categorical-and-numerical-attribute data clustering based on a unified similarity metric without knowing cluster number”, Pattern Recognition 46(8), 2228-2238 Sách, tạp chí
Tiêu đề: Categorical-and-numerical-attribute data clustering based on a unified similarity metric without knowing cluster number”, "Pattern Recognition
Tác giả: Cheung, Y. M., &amp; Jia, H
Năm: 2013
[19]. Chowdhary, C. L., &amp; Acharjya, D. P. (2018), “Segmentation of mammograms using a novel intuitionistic possibilistic fuzzy c-mean clustering algorithm”, In Nature Inspired Computing, 75-82 Sách, tạp chí
Tiêu đề: Segmentation of mammograms using a novel intuitionistic possibilistic fuzzy c-mean clustering algorithm”, "In Nature Inspired Computing
Tác giả: Chowdhary, C. L., &amp; Acharjya, D. P
Năm: 2018
[88]. UCI Repository of Machine Learning Databases, Irvine, University of California, 2007. URL: http://archive.ics.uci.edu/ml/ Link

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w