Mục tiêu nghiên cứu của luận án là nghiên cứu, phát triển các thuật toán phân cụm mở rộng trên tập mờ viễn cảnh như: phân cụm xác định số cụm tự động, phân cụm với dữ liệu phức tạp. Kiểm chứng, so sách với các thuật toán liên quan khác. Nghiên cứu, phát triển ứng dụng của thuật toán phân cụm trên tập mờ viễn cảnh vào bài toán dự báo thời tiết dựa trên ảnh mây vệ tinh.
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
PHẠM HUY THÔNG
PHÁT TRIỂN MỘT SỐ THUẬT TOÁN
PHÂN CỤM MỜ TRÊN TẬP MỜ VIỄN CẢNH VÀ
Trang 2Công trình đƣợc hoàn thành tại:
Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội
Người hướng dẫn khoa học: 1 PGS TS Lê Hoàng Sơn
2 PGS TS Nguyễn Thị Hồng Minh
vào hồi giờ , ngày tháng năm 20
Có thể tìm hiểu luận án tại:
- Thư viện Quốc gia Việt Nam,
- Trung tâm thông tin - Thư viện, Đại học Quốc gia Hà Nội
Trang 3dữ liệu, đặc biệt là các bài toán dữ liệu lớn trở nên hiệu quả khi các
dữ liệu được phân thành các nhóm với các tính chất đặc trưng Tuy nhiên, việc các phân cụm này cũng có một số nhược điểm là mỗi một phần tử chỉ thuộc về một cụm dữ liệu hay một số dữ liệu có thể bị thiếu thông tin hoặc thông tin không chắc chắn Để giải quyết vấn đề này, dựa trên lý thuyết về tập mờ của Zadeh, Bezdek đã đưa ra thuật toán phân cụm mờ Fuzzy C-mean (FCM) nhằm giải quyết các nhược điểm trên Thuật toán này được biết đến như một phương thức chính trong phân cụm mờ
Tuy nhiên, chất lượng phân cụm của FCM thường không cao
do thuật toán này được cài đặt trên cơ cở của các tập mờ truyền thống, ở đó vẫn có những giới hạn về độ thuộc, sự do dự và mơ hồ của các tham số mẫu Chính vì vậy việc nghiên cứu các thuật toán phân cụm trên các tập mờ nâng cao nhằm mục tiêu giải quyết các nhược điểm này Đến nay đã có rất nhiều các thuật toán phân cụm trên các tập mờ nâng cao như thuật toán phân cụm trên tập mờ loại 2 (T2FS), tập mờ trực cảm, … mang lại chất lượng phân cụm tốt hơn Tuy nhiên các thuật toán này khi phân cụm cho kết quả vẫn chưa đưa
ra được các thông tin đầy đủ, đặc biệt là sự phù hợp của mô hình Vào năm 2014, tác giả Bùi Công Cường giới thiệu tập mờ viễn cảnh (PFS), là một sự khái quát hóa của tập mờ truyền thống và tập
mờ trực cảm Các mô hình dựa trên PFS có thể được áp dụng cho nhiều tình huống cần ý kiến của con người liên quan nhiều đến các câu trả lời kiểu: đồng ý, do dự, không đồng ý và từ chối trả lời Các tình huống này có thể cho kết quả rõ ràng hơn trên các thuật toán phân cụm dựa trên PFS Chính vì vậy việc phát triển thuật toán phân
Trang 4cụm mờ trên PFS sẽ nâng cao độ chính xác phân cụm Hiện nay các thuật toán phân cụm mờ trên tập mờ viễn cảnh mới chỉ dừng lại ở việc đưa ra một số độ đo kết hợp sử dụng phân cụm phân cấp để thực hiện mà chưa xem xét đến việc phân cụm theo cách tiếp cận phân hoạch
Ngoài các nhược điểm về chất lượng cụm, thuật toán FCM và các thuật toán phân cụm trên các tập mờ nâng cao còn có một số nhược điểm khác như xác định số cụm hay xử lý với dữ liệu phức tạp Thứ nhất, thuật toán FCM và các thuật toán phân cụm trên các tập mờ nâng cao phải xác định trước số cụm trước khi thực hiện phân cụm Việc xác định số cụm ban đầu không tốt dẫn đến chất lượng cụm không tốt, chứa nhiễu hoặc các điểm ngoại biên Có ba cách tiếp cận cụ thể là quét, tiền xử lý và cắt tỉa đang được sử dụng nhiều nhất Các nghiên cứu đã chứng minh được phương pháp cắt tỉa là cách tiếp cận hiệu quả nhất Thứ hai, xử lý với dữ liệu phức tạp là không dễ với FCM và các thuật toán phân cụm trẻn tập mờ nâng cao Các phương pháp phân cụm trên tập dữ liệu phức tạp được chia thành hai nhóm: loại dữ liệu hỗn hợp bao gồm dữ liệu kiểu loại, dữ liệu số và cấu trúc đặc biệt của dữ liệu
Phân cụm mờ có rất nhiều ứng dụng trong thực tế cuộc sống ở rất nhiều lĩnh vực khác nhau như: trong kinh tế với dự báo tỉ giá, dự báo chứng khoán, dự báo tài chính, …; trong y khoa: Hỗ trợ chuẩn đoán hình ảnh, hỗ trợ tư vấn khám bệnh, …; trong thủy văn: dự báo thời tiết ngắn hạn, …; trong xử lý ảnh: Phân đoạn ảnh, …; trong hệ
tư vấn: hỗ trợ ra quyết định, …
Đề tài nghiên cứu tập trung vào ứng dụng của phân cụm mờ trong bài toán dự báo thời tiết ngắn hạn Dự báo thời tiết ngắn hạn kết hợp mô tả về trạng thái hiện tại của khí quyển và dự báo ngắn hạn
về khí quyển sẽ xẩy ra trong vài giờ tiếp theo Điều này cho phép nó
có thể dự báo các tính chất thời tiết trong ngắn hạn như mưa, mây và
các cơn bão với các nguyên nhân rõ ràng khoảng thời gian này Các
Trang 5dữ liệu rada mới nhất, dữ liệu vệ tinh và dữ liệu dựa trên quan sát được sử dụng để phân tích các biến đổi trong phạm vi hẹp như một thành phố và thực hiện một dự báo chính xác cho khoảng thời gian vài giờ sau Tuy nhiên, quan sát vệ tinh là sự lựa chọn thích hợp cho các khu vực trong vùng phủ sóng của nó
Mục tiêu nghiên cứu
- Mục tiêu 1: Nghiên cứu, tổng hợp, phân tích và đề xuất thuật toán phân cụm mờ trên tập mờ viễn cảnh Kiểm chứng bằng
lý thuyết sự hội tụ của thuật toán và thực nghiệm, so sách với các thuật toán phân cụm mờ khác
- Mục tiêu 2: Nghiên cứu, phát triển các thuật toán phân cụm
mở rộng trên tập mờ viễn cảnh như: phân cụm xác định số cụm tự động, phân cụm với dữ liệu phức tạp Kiểm chứng, so sách với các thuật toán liên quan khác
- Mục tiêu 3: Nghiên cứu, phát triển ứng dụng của thuật toán phân cụm trên tập mờ viễn cảnh vào bài toán dự báo thời tiết dựa trên ảnh mây vệ tinh
Nội dung nghiên cứu
- Nội dung 1: Nghiên cứu phát triển thuật toán phân cụm mờ mới trên tập mờ viễn cảnh (FC-PFS)
- Nội dung 2: Khảo sát tính chất hội tụ của thuật toán FC-PFS
về mặt lý thuyết và kiểm chứng về mặt thực nghiệm trên bộ
dữ liệu chuẩn UCI
- Nội dung 3: Đề xuất mở rộng của FC-PFS cho việc phân cụm mờ tự động xác định số cụm
- Nội dung 4: Đề xuất mở rộng của FC-PFS trong xử lý các dữ liệu phức tạp
- Nội dung 5: Xây dựng luật mờ viễn cảnh từ FC-PFS
- Nội dung 6: Ứng dụng luật mờ viễn cảnh trong bài toán dự báo thời tiết ngắn hạn dựa trên ảnh mây vệ tinh
Trang 6Phương pháp nghiên cứu
- Khảo cứu: Khảo sát các phương pháp liên quan về phân cụm
Phạm vi và giới hạn của đề tài nghiên cứu
- Phát triển thuật toán phân cụm mờ trên tập mờ viễn cảnh với phân cụm phân hoạch
- Ứng dụng: Áp dụng cho bài toán dự báo thời tiết ngắn hạn dựa trên ảnh mây vệ tinh với việc sử dụng phương pháp hồi quy không thời gian, suy luận mờ và sử dụng luật mờ viễn cảnh
Bố cục của luận án
- Chương mở đầu: trình bày bối cảnh nghiên cứu; tổng quan nhanh và các hạn chế về bài toán phân cụm mờ; các vấn đề nghiên cứu; mục tiêu nghiên cứu; hướng tiếp cận và phương pháp nghiên cứu; nội dung nghiên cứu; phạm vi và giới hạn nghiên cứu; các đóng góp chính và bố cục của luận án
- Chương 1: Giới thiệu một số kiến thức cơ sở chuẩn bị về đề tài nghiên cứu Chương này trình bày giới thiệu sơ lược về tập mờ, các thuật toán phân cụm mờ, các thuật toán phân cụm mờ mở rộng cho việc tự động xác định số cụm, xử lý với dữ liệu phức tạp và ứng dụng trong dự báo thời tiết ngắn hạn Một số độ đo tiêu chí đánh giá và bộ dữ liệu cũng được trình bày
Trang 7- Chương 2: Giới thiệu về thuật toán phân cụm trên tập mờ viễn cảnh từ ý tưởng thuật toán, cách thức triển khai thuật toán, đánh giá lý thuyết về sự hội tụ và thực nghiệm tính toán
- Chương 3: Đề xuất cải tiến của thuật toán phân cụm trên tập
mờ viễn cảnh với việc tự động xác định số cụm và xử lý dữ liệu phức tạp, có các thực nghiệm kiểm chứng kèm theo
- Chương 4: Áp dụng thuật toán phân cụm mờ trên tập mờ viễn cảnh cho bài toán dự báo ảnh mây về tinh
CHƯƠNG 1 CƠ SỞ LÝ THUYẾT Tập mờ
Độ đo tương tự và đánh giá chất lượng cụm
1.2.
Các độ đo tương tự đánh giá chất lượng cụm gồm có chỉ số Mean Accuracy (MA), chỉ số Davies-Bouldin (DB), chỉ số Rand, chỉ
số Alternative Silhouette ( ), chỉ số WGLI [64] và PBM [72]
Thuật toán phân cụm mờ
1.4.1 Thuật toán tối ưu bầy đàn (PSO)
Thuật toán tối ưu hóa bầy đàn (PSO) là một chiến lược tiến hóa nhằm tối ưu hóa một vấn đề bằng phương pháp lặp cố gắng cải thiện một giải pháp ứng viên tới một chất lượng cho trước Thuật toán PSO gồm các bước sau: khởi tạo bầy, tính toán các giá trị fitness
và cập nhật các phương án
Trang 81.4.2 Thuật toán DifFuzzy
Thuật toán phân cụm DifFuzzy dựa trên FCM và các biểu đồ khuếch tán để phân dữ liệu vào các cụm có cấu trúc hình học phi tuyến phức tạp
1.4.3 Thuật toán Dissimilarity
Thuật toán Dissimilarity là dựa trên thuật toán phân cụm mờ K-Medoids với trọng số liên quan cho mỗi ma trận không tương tự bao
gồm 5 bước: khởi tạo, tính toán giá trị tốt nhất, tính toán trọng số liên quan
tốt nhất, định nghĩa phân hoạch mờ tốt nhất, và điều kiện dừng
Bộ dữ liệu thực nghiệm
1.5.
Tập dữ liệu thử nghiệm cho FC-PFS và các thuật toán cải tiến được lấy trên kho dữ liệu học máy chuẩn UCI với những bộ dữ liệu hoàn toàn là số như IRIS, WINE, WDBC, GLASS, IONOSPHERE, HABERMAN, HEART and CMC Các dữ liệu đầu vào cho bài toán
dự báo thời tiết ngắn hạn là các ảnh vệ tinh được lấy ở cùng một vị trí
và cùng khoảng thời gian Bộ sưu tập hình ảnh bao gồm ba bộ hình ảnh: Malaysia (dữ liệu 1), Luzon – Philippines (dữ liệu 2) và Jakarta – Indonesia (Dữ liệu 3) Mỗi tập dữ liệu chứa 7 ảnh liên tiếp từ 7.30 sáng đến 13.30 chiều ngày 28/11/2014 Các hình ảnh có cùng kích thước (100x100 pixel)
Kết luận chương
1.6.
Trong chương này, các kiến thức cơ sở về tập mờ, các độ đo đánh giá chất lượng cụm, các thuật toán phân cụm và các thuật toán liên quan khác đã được trình bày Các kiến thức cơ sở này sẽ là nền tảng cho việc giải quyết các bài toán ở các chương sau
Trang 9CHƯƠNG 2 THUẬT TOÁN PHÂN CỤM TRÊN TẬP MỜ
VIỄN CẢNH 2.1 Ý tưởng thuật toán
Ý tưởng của thuật toán là thiết kế hàm mục tiêu gồm hai thành phần như của thuật toán phân cụm trên tập mờ trực cảm Với thành phần thứ nhất được cải tiến từ hàm mục tiêu của thuật toán phân cụm
mờ thường nhưng thành phần độ thuộc được thay thế bằng đại lượng ( ( )) Đại lượng này thể hiện cho việc một điểm dữ liệu nếu thuộc về một cụm thì giá trị phải lớn và phải càng nhỏ Thành phần thứ hai trong hàm mục tiêu chính là đại lượng entropy ( ) Bằng việc cực tiểu hóa đại lượng này, các điểm dữ liệu
sẽ có giá trị và nhỏ, giúp giảm đi các giá trị trung lập và từ chối của mô hình, giúp mô hình phân cụm cải tiến được độ chính xác hơn
2.2 Thuật toán phân cụm trên tập mờ viễn cảnh
2.2.1 Hàm mục tiêu
Giả sử có một tập X chứa N điểm trong không gian đa chiều
Hãy chia tập dữ liệu thành C nhóm thỏa mãn hàm mục tiêu sau
∑ ∑ ( )/ ‖ ‖ ∑ ∑ ( ) , (1) Các ràng buộc được định nghĩa như sau:
Mô hình đề xuất là khái quát hóa của mô hình phân cụm
mờ trên tập mờ viễn cảnh trong công thức (1-4) khi
và điều kiện (4) không tồn tại, mô hình đề xuất là mô hình phân cụm mờ trực cảm
Trang 10 Khi và , điều kiện (4) không tồn tại, các điều kiện khác thỏa mãn, mô hình đề xuất là mô hình phân cụm mờ
Công thức (3) chỉ ra độ thuộc của điểm tới tâm cụm
là ( ) thỏa mãn các ràng buộc trong mô hình phân cụm mờ truyền thống
Công thức (4) đảm bảo trên tập PFS vì ít nhất một trong hai nhân tố không chắc chắn là độ trung lập và độ từ chối luôn tồn tại trong mô hình
Một ràng buộc khác trong (2) phản ảnh định nghĩa của các tập PFS
Định lý 1 Các giải pháp tối ưu của hàm mục tiêu trong (1-4)
(7)
∑ ( )/
∑ ( )/ , ( )
(8)
2.2.2 Chi tiết thuật toán
Thuật toán FC-PFS có cấu trúc lắp giống với thuật toán FCM với việc khởi tạo ngẫu nhiên tham số , Quá trình lặp bắt đầu bằng việc tính , sau đó tính lại các giá trị mới của , và dừng khi các giá trị , gần như không đổi
Trang 112.3 Khảo sát tính chất hội tụ của thuật toán
Trong phần này, một số mệnh đề dẫn đến sự hội tụ của PFS được trình bày với ý tưởng sử dụng định lý Zangwill để chứng minh hàm mục tiêu của thuật toán sẽ hội tụ với các nghiệm là các giá trị được tính theo công thức (1-4)
FC-2.4 Thực nghiệm số
Môi trường thử nghiệm thuật toán được mô tả như sau: thuật
toán đề xuất FC-PFS, thuật toán FCM [7], IFCM [10], KFCM [25] và KIFCM [38] sử dụng ngôn ngữ lập trình Kết quả thử nghiệm là kết quả trung bình sau 50 lần chạy
2.4.1 Ví dụ minh họa cho FC-PFS
Phần này sẽ minh họa chi tiết các bước thực hiện với ví dụ số của thuật toán FC-PFS với tập dữ liệu IRIS
2.4.2 So sánh chất lượng phân cụm
Qua kết quả nhận được, rõ ràng nhận thấy FC-PFS cho kết quả phân cụm tốt hơn các thuật toán phân cụm khác trong nhiều trường hợp
2.4.3 Đánh giá thuật toán qua các tham số
FC-PFS được thử nghiệm với hệ số mũ nhằm xác định sự ảnh hưởng của hệ số này với hiệu năng của hệ thống Kết quả cho thấy khi giá trị hệ số mũ nhỏ, số lần thuật toán FC-PFS đạt giá trị Mean Accuracy (MA) tốt nhất ít hơn so với một số thuật toán khác Tuy nhiên, khi tăng giá trị , FC-PFS cho kết quả phân cụm tốt hơn Giá trị cho chất lượng cụm tốt nhất ở chỉ số MA, RI và DB
2.5 Kết luận chương
Trong chương này, thuật toán phân cụm mờ trên tập mờ viễn cảnh được đề xuất Bằng cách kết hợp các thành phần của PFS và mô hình phân cụm, FC-PFS cho kết quả phân cụm tốt hơn một số thuật toán phân cụm khác như FCM, IFCM, KFCM và KIFCM Kết quả này là cơ sở để cho các nghiên cứu, cải tiến tiếp theo của thuật toán trên các bài toán mở rộng như tự động xác định số cụm, xử lý dữ liệu phức tạp và áp dụng cho một số ứng dụng dự báo trong tương lai
Trang 12CHƯƠNG 3 MỘT SỐ CẢI TIẾN CỦA THUẬT TOÁN PHÂN CỤM MỜ TRÊN TẬP MỜ VIỄN CẢNH
3.1 Thuật toán phân cụm mờ tự động xác định số cụm
3.1.1 Ý Tưởng thuật toán
Trong phần này, luận án đã đề xuất thiết kế một phương thức lai giữa thuật toán tối ưu hóa bầy đàn PSO và FC-PFS, được đặt tên
là AFC-PFS Ở đó các giá trị ngưỡng, số cụm, tâm cụm tương ứng và
ma trận độ thuộc được đóng gói và tối ưu bởi chiến lược của thuật toán PSO Thuật toán mới AFC-PFS sử dụng lược đồ tối ưu PSO, mỗi cá thể hay mỗi phương án trong PSO khởi tạo ngẫu nhiên giá trị các tham số và sau đó lặp giảm số lượng cụm cho đến khi chỉ số chất lượng cụm Picture Composite Cardinality ( ) liên quan đến số lượng các cụm trong phạm vi chấp nhận được theo một ngưỡng
Số lượng các cụm đã đạt được bây giờ được coi là một giá trị tối ưu trong sự kết hợp với các giá trị hiện tại của các tham số của ( ( ), ( ), ( )và ) Để đánh giá độ tốt của mỗi phương án, giá trị
fitness của PSO được tính bằng giá trị Alternative Silhouette
( )
3.1.2 Chi tiết thuật toán
Khởi tạo ban đầu số lượng phương án của PSO là { }, ở đó mỗi phương án gồm các thành phần sau:
( ( ), ( ), ( )): là ma trận độ thuộc, trung lập và từ chối của phương án
( ): Các tâm cụm tương ứng với ( , , )
: một ngưỡng để xác định số lượng các cụm của phương án
: vận tốc dich chuyển ngưỡng của phương án
: số lượng các cụm của phương án
Một phương án bắt đầu từ một số cụm nhất định được biểu thị bằng , là căn bậc hai của số phần tử trong tập dữ liệu, và cố gắng để thay đổi nó theo các giá trị hiện tại của ( ( ), ( ), ( )) và
Trang 13Để làm được điều này, giá trị được đề xuất và giá trị này càng nhỏ thì chất lượng cụm càng tốt
∑ ( ), ( ), (13)
ở đó c là số cụm cho trước Tiêu chí cho việc lựa chọn số lượng cụm
phụ thuộc vào ngưỡng của phương án Khi tìm thấy số cụm tối ưu cho phương án này, áp dụng FC-PFS để có được các giải pháp mới ( ( ), ( ), ( ), ( )) Một trong những chỉ số đánh giá ổn định nhất cho việc phân cụm, được sử dụng để đo chất lượng cụm Nếu giải pháp đạt được các kết quả là tốt hơn so với những giải pháp trước đó, các giải pháp ngày được ghi nhận là giải pháp tối ưu cục bộ
địa phương Pbest-( ( ) , ( ) , ( ) , ( ) ) của phương án Sau
đó, phương án được cập nhật bằng cách thay đổi ngưỡng như sau () ( ) ()
( ),
(14) , ( ), (15)
ở đây , là các tham số PSO để cập nhật (một cách tổng quát ) Định nghĩa một giá trị mới, khi đó các giải pháp khác nhau ( ( ), ( ), ( ), ) có thể nhận được kết quả tốt hơn so với các giải pháp tối ưu cục bộ địa phương Pbest
( ( ) , ( ) , ( ) , ( ) ) Sự cập nhật của tất cả các phương án được tiếp tục lặp lại cho đến khi tất cả các bước lặp được thực hiện Các giải pháp cuối cùng cho kết quả số lượng các cụm là phù hợp nhất, các tâm cụm và ma trận thuộc của nó được xác định từ tất cả các phương án thông qua các giá trị tốt nhất của các giá trị cục bộ từng phương án ( ) và tổng thể tất cả các phương án ( ) Thuật toán AFC-PFS có những lợi thế như sau:
- Tổng kết hợp chiến lược PSO và các hoạt động chính của FC-PFS nâng cao hiệu năng của thuật toán