Dự thảo tóm tắt Luận án Tiến sĩ Toán học: Phát triển một số thuật toán phân cụm mờ trên tập mờ viễn cảnh và ứng dụng trong dự báo

Mục tiêu nghiên cứu của luận án là nghiên cứu, phát triển các thuật toán phân cụm mở rộng trên tập mờ viễn cảnh như: phân cụm xác định số cụm tự động, phân cụm với dữ liệu phức tạp. Kiểm chứng, so sách với các thuật toán liên quan khác. Nghiên cứu, phát triển ứng dụng của thuật toán phân cụm trên tập mờ viễn cảnh vào bài toán dự báo thời tiết dựa trên ảnh mây vệ tinh.

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

PHẠM HUY THÔNG

PHÁT TRIỂN MỘT SỐ THUẬT TOÁN

PHÂN CỤM MỜ TRÊN TẬP MỜ VIỄN CẢNH VÀ

Trang 2

Công trình đƣợc hoàn thành tại:

Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội

Người hướng dẫn khoa học: 1 PGS TS Lê Hoàng Sơn

2 PGS TS Nguyễn Thị Hồng Minh

vào hồi giờ , ngày tháng năm 20

Có thể tìm hiểu luận án tại:

- Thư viện Quốc gia Việt Nam,

- Trung tâm thông tin - Thư viện, Đại học Quốc gia Hà Nội

Trang 3

dữ liệu, đặc biệt là các bài toán dữ liệu lớn trở nên hiệu quả khi các

dữ liệu được phân thành các nhóm với các tính chất đặc trưng Tuy nhiên, việc các phân cụm này cũng có một số nhược điểm là mỗi một phần tử chỉ thuộc về một cụm dữ liệu hay một số dữ liệu có thể bị thiếu thông tin hoặc thông tin không chắc chắn Để giải quyết vấn đề này, dựa trên lý thuyết về tập mờ của Zadeh, Bezdek đã đưa ra thuật toán phân cụm mờ Fuzzy C-mean (FCM) nhằm giải quyết các nhược điểm trên Thuật toán này được biết đến như một phương thức chính trong phân cụm mờ

Tuy nhiên, chất lượng phân cụm của FCM thường không cao

do thuật toán này được cài đặt trên cơ cở của các tập mờ truyền thống, ở đó vẫn có những giới hạn về độ thuộc, sự do dự và mơ hồ của các tham số mẫu Chính vì vậy việc nghiên cứu các thuật toán phân cụm trên các tập mờ nâng cao nhằm mục tiêu giải quyết các nhược điểm này Đến nay đã có rất nhiều các thuật toán phân cụm trên các tập mờ nâng cao như thuật toán phân cụm trên tập mờ loại 2 (T2FS), tập mờ trực cảm, … mang lại chất lượng phân cụm tốt hơn Tuy nhiên các thuật toán này khi phân cụm cho kết quả vẫn chưa đưa

ra được các thông tin đầy đủ, đặc biệt là sự phù hợp của mô hình Vào năm 2014, tác giả Bùi Công Cường giới thiệu tập mờ viễn cảnh (PFS), là một sự khái quát hóa của tập mờ truyền thống và tập

mờ trực cảm Các mô hình dựa trên PFS có thể được áp dụng cho nhiều tình huống cần ý kiến của con người liên quan nhiều đến các câu trả lời kiểu: đồng ý, do dự, không đồng ý và từ chối trả lời Các tình huống này có thể cho kết quả rõ ràng hơn trên các thuật toán phân cụm dựa trên PFS Chính vì vậy việc phát triển thuật toán phân

Trang 4

cụm mờ trên PFS sẽ nâng cao độ chính xác phân cụm Hiện nay các thuật toán phân cụm mờ trên tập mờ viễn cảnh mới chỉ dừng lại ở việc đưa ra một số độ đo kết hợp sử dụng phân cụm phân cấp để thực hiện mà chưa xem xét đến việc phân cụm theo cách tiếp cận phân hoạch

Ngoài các nhược điểm về chất lượng cụm, thuật toán FCM và các thuật toán phân cụm trên các tập mờ nâng cao còn có một số nhược điểm khác như xác định số cụm hay xử lý với dữ liệu phức tạp Thứ nhất, thuật toán FCM và các thuật toán phân cụm trên các tập mờ nâng cao phải xác định trước số cụm trước khi thực hiện phân cụm Việc xác định số cụm ban đầu không tốt dẫn đến chất lượng cụm không tốt, chứa nhiễu hoặc các điểm ngoại biên Có ba cách tiếp cận cụ thể là quét, tiền xử lý và cắt tỉa đang được sử dụng nhiều nhất Các nghiên cứu đã chứng minh được phương pháp cắt tỉa là cách tiếp cận hiệu quả nhất Thứ hai, xử lý với dữ liệu phức tạp là không dễ với FCM và các thuật toán phân cụm trẻn tập mờ nâng cao Các phương pháp phân cụm trên tập dữ liệu phức tạp được chia thành hai nhóm: loại dữ liệu hỗn hợp bao gồm dữ liệu kiểu loại, dữ liệu số và cấu trúc đặc biệt của dữ liệu

Phân cụm mờ có rất nhiều ứng dụng trong thực tế cuộc sống ở rất nhiều lĩnh vực khác nhau như: trong kinh tế với dự báo tỉ giá, dự báo chứng khoán, dự báo tài chính, …; trong y khoa: Hỗ trợ chuẩn đoán hình ảnh, hỗ trợ tư vấn khám bệnh, …; trong thủy văn: dự báo thời tiết ngắn hạn, …; trong xử lý ảnh: Phân đoạn ảnh, …; trong hệ

tư vấn: hỗ trợ ra quyết định, …

Đề tài nghiên cứu tập trung vào ứng dụng của phân cụm mờ trong bài toán dự báo thời tiết ngắn hạn Dự báo thời tiết ngắn hạn kết hợp mô tả về trạng thái hiện tại của khí quyển và dự báo ngắn hạn

về khí quyển sẽ xẩy ra trong vài giờ tiếp theo Điều này cho phép nó

có thể dự báo các tính chất thời tiết trong ngắn hạn như mưa, mây và

các cơn bão với các nguyên nhân rõ ràng khoảng thời gian này Các

Trang 5

dữ liệu rada mới nhất, dữ liệu vệ tinh và dữ liệu dựa trên quan sát được sử dụng để phân tích các biến đổi trong phạm vi hẹp như một thành phố và thực hiện một dự báo chính xác cho khoảng thời gian vài giờ sau Tuy nhiên, quan sát vệ tinh là sự lựa chọn thích hợp cho các khu vực trong vùng phủ sóng của nó

Mục tiêu nghiên cứu

- Mục tiêu 1: Nghiên cứu, tổng hợp, phân tích và đề xuất thuật toán phân cụm mờ trên tập mờ viễn cảnh Kiểm chứng bằng

lý thuyết sự hội tụ của thuật toán và thực nghiệm, so sách với các thuật toán phân cụm mờ khác

- Mục tiêu 2: Nghiên cứu, phát triển các thuật toán phân cụm

mở rộng trên tập mờ viễn cảnh như: phân cụm xác định số cụm tự động, phân cụm với dữ liệu phức tạp Kiểm chứng, so sách với các thuật toán liên quan khác

- Mục tiêu 3: Nghiên cứu, phát triển ứng dụng của thuật toán phân cụm trên tập mờ viễn cảnh vào bài toán dự báo thời tiết dựa trên ảnh mây vệ tinh

Nội dung nghiên cứu

- Nội dung 1: Nghiên cứu phát triển thuật toán phân cụm mờ mới trên tập mờ viễn cảnh (FC-PFS)

- Nội dung 2: Khảo sát tính chất hội tụ của thuật toán FC-PFS

về mặt lý thuyết và kiểm chứng về mặt thực nghiệm trên bộ

dữ liệu chuẩn UCI

- Nội dung 3: Đề xuất mở rộng của FC-PFS cho việc phân cụm mờ tự động xác định số cụm

- Nội dung 4: Đề xuất mở rộng của FC-PFS trong xử lý các dữ liệu phức tạp

- Nội dung 5: Xây dựng luật mờ viễn cảnh từ FC-PFS

- Nội dung 6: Ứng dụng luật mờ viễn cảnh trong bài toán dự báo thời tiết ngắn hạn dựa trên ảnh mây vệ tinh

Trang 6

Phương pháp nghiên cứu

- Khảo cứu: Khảo sát các phương pháp liên quan về phân cụm

Phạm vi và giới hạn của đề tài nghiên cứu

- Phát triển thuật toán phân cụm mờ trên tập mờ viễn cảnh với phân cụm phân hoạch

- Ứng dụng: Áp dụng cho bài toán dự báo thời tiết ngắn hạn dựa trên ảnh mây vệ tinh với việc sử dụng phương pháp hồi quy không thời gian, suy luận mờ và sử dụng luật mờ viễn cảnh

Bố cục của luận án

- Chương mở đầu: trình bày bối cảnh nghiên cứu; tổng quan nhanh và các hạn chế về bài toán phân cụm mờ; các vấn đề nghiên cứu; mục tiêu nghiên cứu; hướng tiếp cận và phương pháp nghiên cứu; nội dung nghiên cứu; phạm vi và giới hạn nghiên cứu; các đóng góp chính và bố cục của luận án

- Chương 1: Giới thiệu một số kiến thức cơ sở chuẩn bị về đề tài nghiên cứu Chương này trình bày giới thiệu sơ lược về tập mờ, các thuật toán phân cụm mờ, các thuật toán phân cụm mờ mở rộng cho việc tự động xác định số cụm, xử lý với dữ liệu phức tạp và ứng dụng trong dự báo thời tiết ngắn hạn Một số độ đo tiêu chí đánh giá và bộ dữ liệu cũng được trình bày

Trang 7

- Chương 2: Giới thiệu về thuật toán phân cụm trên tập mờ viễn cảnh từ ý tưởng thuật toán, cách thức triển khai thuật toán, đánh giá lý thuyết về sự hội tụ và thực nghiệm tính toán

- Chương 3: Đề xuất cải tiến của thuật toán phân cụm trên tập

mờ viễn cảnh với việc tự động xác định số cụm và xử lý dữ liệu phức tạp, có các thực nghiệm kiểm chứng kèm theo

- Chương 4: Áp dụng thuật toán phân cụm mờ trên tập mờ viễn cảnh cho bài toán dự báo ảnh mây về tinh

CHƯƠNG 1 CƠ SỞ LÝ THUYẾT Tập mờ

Độ đo tương tự và đánh giá chất lượng cụm

1.2.

Các độ đo tương tự đánh giá chất lượng cụm gồm có chỉ số Mean Accuracy (MA), chỉ số Davies-Bouldin (DB), chỉ số Rand, chỉ

số Alternative Silhouette ( ), chỉ số WGLI [64] và PBM [72]

Thuật toán phân cụm mờ

1.4.1 Thuật toán tối ưu bầy đàn (PSO)

Thuật toán tối ưu hóa bầy đàn (PSO) là một chiến lược tiến hóa nhằm tối ưu hóa một vấn đề bằng phương pháp lặp cố gắng cải thiện một giải pháp ứng viên tới một chất lượng cho trước Thuật toán PSO gồm các bước sau: khởi tạo bầy, tính toán các giá trị fitness

và cập nhật các phương án

Trang 8

1.4.2 Thuật toán DifFuzzy

Thuật toán phân cụm DifFuzzy dựa trên FCM và các biểu đồ khuếch tán để phân dữ liệu vào các cụm có cấu trúc hình học phi tuyến phức tạp

1.4.3 Thuật toán Dissimilarity

Thuật toán Dissimilarity là dựa trên thuật toán phân cụm mờ K-Medoids với trọng số liên quan cho mỗi ma trận không tương tự bao

gồm 5 bước: khởi tạo, tính toán giá trị tốt nhất, tính toán trọng số liên quan

tốt nhất, định nghĩa phân hoạch mờ tốt nhất, và điều kiện dừng

Bộ dữ liệu thực nghiệm

1.5.

Tập dữ liệu thử nghiệm cho FC-PFS và các thuật toán cải tiến được lấy trên kho dữ liệu học máy chuẩn UCI với những bộ dữ liệu hoàn toàn là số như IRIS, WINE, WDBC, GLASS, IONOSPHERE, HABERMAN, HEART and CMC Các dữ liệu đầu vào cho bài toán

dự báo thời tiết ngắn hạn là các ảnh vệ tinh được lấy ở cùng một vị trí

và cùng khoảng thời gian Bộ sưu tập hình ảnh bao gồm ba bộ hình ảnh: Malaysia (dữ liệu 1), Luzon – Philippines (dữ liệu 2) và Jakarta – Indonesia (Dữ liệu 3) Mỗi tập dữ liệu chứa 7 ảnh liên tiếp từ 7.30 sáng đến 13.30 chiều ngày 28/11/2014 Các hình ảnh có cùng kích thước (100x100 pixel)

Kết luận chương

1.6.

Trong chương này, các kiến thức cơ sở về tập mờ, các độ đo đánh giá chất lượng cụm, các thuật toán phân cụm và các thuật toán liên quan khác đã được trình bày Các kiến thức cơ sở này sẽ là nền tảng cho việc giải quyết các bài toán ở các chương sau

Trang 9

CHƯƠNG 2 THUẬT TOÁN PHÂN CỤM TRÊN TẬP MỜ

VIỄN CẢNH 2.1 Ý tưởng thuật toán

Ý tưởng của thuật toán là thiết kế hàm mục tiêu gồm hai thành phần như của thuật toán phân cụm trên tập mờ trực cảm Với thành phần thứ nhất được cải tiến từ hàm mục tiêu của thuật toán phân cụm

mờ thường nhưng thành phần độ thuộc được thay thế bằng đại lượng ( ( )) Đại lượng này thể hiện cho việc một điểm dữ liệu nếu thuộc về một cụm thì giá trị phải lớn và phải càng nhỏ Thành phần thứ hai trong hàm mục tiêu chính là đại lượng entropy ( ) Bằng việc cực tiểu hóa đại lượng này, các điểm dữ liệu

sẽ có giá trị và nhỏ, giúp giảm đi các giá trị trung lập và từ chối của mô hình, giúp mô hình phân cụm cải tiến được độ chính xác hơn

2.2 Thuật toán phân cụm trên tập mờ viễn cảnh

2.2.1 Hàm mục tiêu

Giả sử có một tập X chứa N điểm trong không gian đa chiều

Hãy chia tập dữ liệu thành C nhóm thỏa mãn hàm mục tiêu sau

∑ ∑ ( )/ ‖ ‖ ∑ ∑ ( ) , (1) Các ràng buộc được định nghĩa như sau:

 Mô hình đề xuất là khái quát hóa của mô hình phân cụm

mờ trên tập mờ viễn cảnh trong công thức (1-4) khi

và điều kiện (4) không tồn tại, mô hình đề xuất là mô hình phân cụm mờ trực cảm

Trang 10

 Khi và , điều kiện (4) không tồn tại, các điều kiện khác thỏa mãn, mô hình đề xuất là mô hình phân cụm mờ

 Công thức (3) chỉ ra độ thuộc của điểm tới tâm cụm

là ( ) thỏa mãn các ràng buộc trong mô hình phân cụm mờ truyền thống

 Công thức (4) đảm bảo trên tập PFS vì ít nhất một trong hai nhân tố không chắc chắn là độ trung lập và độ từ chối luôn tồn tại trong mô hình

 Một ràng buộc khác trong (2) phản ảnh định nghĩa của các tập PFS

Định lý 1 Các giải pháp tối ưu của hàm mục tiêu trong (1-4)

(7)

∑ ( )/

∑ ( )/ , ( )

(8)

2.2.2 Chi tiết thuật toán

Thuật toán FC-PFS có cấu trúc lắp giống với thuật toán FCM với việc khởi tạo ngẫu nhiên tham số , Quá trình lặp bắt đầu bằng việc tính , sau đó tính lại các giá trị mới của , và dừng khi các giá trị , gần như không đổi

Trang 11

2.3 Khảo sát tính chất hội tụ của thuật toán

Trong phần này, một số mệnh đề dẫn đến sự hội tụ của PFS được trình bày với ý tưởng sử dụng định lý Zangwill để chứng minh hàm mục tiêu của thuật toán sẽ hội tụ với các nghiệm là các giá trị được tính theo công thức (1-4)

FC-2.4 Thực nghiệm số

Môi trường thử nghiệm thuật toán được mô tả như sau: thuật

toán đề xuất FC-PFS, thuật toán FCM [7], IFCM [10], KFCM [25] và KIFCM [38] sử dụng ngôn ngữ lập trình Kết quả thử nghiệm là kết quả trung bình sau 50 lần chạy

2.4.1 Ví dụ minh họa cho FC-PFS

Phần này sẽ minh họa chi tiết các bước thực hiện với ví dụ số của thuật toán FC-PFS với tập dữ liệu IRIS

2.4.2 So sánh chất lượng phân cụm

Qua kết quả nhận được, rõ ràng nhận thấy FC-PFS cho kết quả phân cụm tốt hơn các thuật toán phân cụm khác trong nhiều trường hợp

2.4.3 Đánh giá thuật toán qua các tham số

FC-PFS được thử nghiệm với hệ số mũ nhằm xác định sự ảnh hưởng của hệ số này với hiệu năng của hệ thống Kết quả cho thấy khi giá trị hệ số mũ nhỏ, số lần thuật toán FC-PFS đạt giá trị Mean Accuracy (MA) tốt nhất ít hơn so với một số thuật toán khác Tuy nhiên, khi tăng giá trị , FC-PFS cho kết quả phân cụm tốt hơn Giá trị cho chất lượng cụm tốt nhất ở chỉ số MA, RI và DB

2.5 Kết luận chương

Trong chương này, thuật toán phân cụm mờ trên tập mờ viễn cảnh được đề xuất Bằng cách kết hợp các thành phần của PFS và mô hình phân cụm, FC-PFS cho kết quả phân cụm tốt hơn một số thuật toán phân cụm khác như FCM, IFCM, KFCM và KIFCM Kết quả này là cơ sở để cho các nghiên cứu, cải tiến tiếp theo của thuật toán trên các bài toán mở rộng như tự động xác định số cụm, xử lý dữ liệu phức tạp và áp dụng cho một số ứng dụng dự báo trong tương lai

Trang 12

CHƯƠNG 3 MỘT SỐ CẢI TIẾN CỦA THUẬT TOÁN PHÂN CỤM MỜ TRÊN TẬP MỜ VIỄN CẢNH

3.1 Thuật toán phân cụm mờ tự động xác định số cụm

3.1.1 Ý Tưởng thuật toán

Trong phần này, luận án đã đề xuất thiết kế một phương thức lai giữa thuật toán tối ưu hóa bầy đàn PSO và FC-PFS, được đặt tên

là AFC-PFS Ở đó các giá trị ngưỡng, số cụm, tâm cụm tương ứng và

ma trận độ thuộc được đóng gói và tối ưu bởi chiến lược của thuật toán PSO Thuật toán mới AFC-PFS sử dụng lược đồ tối ưu PSO, mỗi cá thể hay mỗi phương án trong PSO khởi tạo ngẫu nhiên giá trị các tham số và sau đó lặp giảm số lượng cụm cho đến khi chỉ số chất lượng cụm Picture Composite Cardinality ( ) liên quan đến số lượng các cụm trong phạm vi chấp nhận được theo một ngưỡng

Số lượng các cụm đã đạt được bây giờ được coi là một giá trị tối ưu trong sự kết hợp với các giá trị hiện tại của các tham số của ( ( ), ( ), ( )và ) Để đánh giá độ tốt của mỗi phương án, giá trị

fitness của PSO được tính bằng giá trị Alternative Silhouette

( )

3.1.2 Chi tiết thuật toán

Khởi tạo ban đầu số lượng phương án của PSO là { }, ở đó mỗi phương án gồm các thành phần sau:

 ( ( ), ( ), ( )): là ma trận độ thuộc, trung lập và từ chối của phương án

 ( ): Các tâm cụm tương ứng với ( , , )

 : một ngưỡng để xác định số lượng các cụm của phương án

 : vận tốc dich chuyển ngưỡng của phương án

 : số lượng các cụm của phương án

Một phương án bắt đầu từ một số cụm nhất định được biểu thị bằng , là căn bậc hai của số phần tử trong tập dữ liệu, và cố gắng để thay đổi nó theo các giá trị hiện tại của ( ( ), ( ), ( )) và

Trang 13

Để làm được điều này, giá trị được đề xuất và giá trị này càng nhỏ thì chất lượng cụm càng tốt

∑ ( ), ( ), (13)

ở đó c là số cụm cho trước Tiêu chí cho việc lựa chọn số lượng cụm

phụ thuộc vào ngưỡng của phương án Khi tìm thấy số cụm tối ưu cho phương án này, áp dụng FC-PFS để có được các giải pháp mới ( ( ), ( ), ( ), ( )) Một trong những chỉ số đánh giá ổn định nhất cho việc phân cụm, được sử dụng để đo chất lượng cụm Nếu giải pháp đạt được các kết quả là tốt hơn so với những giải pháp trước đó, các giải pháp ngày được ghi nhận là giải pháp tối ưu cục bộ

địa phương Pbest-( ( ) , ( ) , ( ) , ( ) ) của phương án Sau

đó, phương án được cập nhật bằng cách thay đổi ngưỡng như sau () ( ) ()

( ),

(14) , ( ), (15)

ở đây , là các tham số PSO để cập nhật (một cách tổng quát ) Định nghĩa một giá trị mới, khi đó các giải pháp khác nhau ( ( ), ( ), ( ), ) có thể nhận được kết quả tốt hơn so với các giải pháp tối ưu cục bộ địa phương Pbest

( ( ) , ( ) , ( ) , ( ) ) Sự cập nhật của tất cả các phương án được tiếp tục lặp lại cho đến khi tất cả các bước lặp được thực hiện Các giải pháp cuối cùng cho kết quả số lượng các cụm là phù hợp nhất, các tâm cụm và ma trận thuộc của nó được xác định từ tất cả các phương án thông qua các giá trị tốt nhất của các giá trị cục bộ từng phương án ( ) và tổng thể tất cả các phương án ( ) Thuật toán AFC-PFS có những lợi thế như sau:

- Tổng kết hợp chiến lược PSO và các hoạt động chính của FC-PFS nâng cao hiệu năng của thuật toán

Định dạng
Số trang	27
Dung lượng	540,57 KB