1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phát triển một số mô hình phân cụm mờ cộng tác tt

27 14 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 27
Dung lượng 1,54 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Mục tiêu nghiên cứu của luận án Nghiên cứu bài toán phân cụm mờ cộng tác, các vấn đề còn tồn tại của phân cụm mờ cộng tác khi ứng dụng trong các bài toán thực tế và đề ra các mô hình

Trang 1

HỌC VIỆN KỸ THUẬT QUÂN SỰ

ĐẶNG TRỌNG HỢP

PHÁT TRIỂN MỘT SỐ MÔ HÌNH PHÂN CỤM MỜ CỘNG TÁC

Chuyên ngành: Cơ sở toán học cho tin học

Mã số: 9460110

TÓM TẮT LUẬN ÁN TIẾN SĨ TOÁN HỌC

HÀ NỘI - 2019

Trang 2

HỌC VIỆN KỸ THUẬT QUÂN SỰ

Người hướng dẫn khoa học PGS TS Ngô Thành Long

ĐH KHTN - ĐH QUỐC GIA HÀ NỘI

Luận án được bảo vệ tại Hội đồng đánh giá luận án cấp Học viện theo

quyết định số 2110/QĐ-HV, ngày 14 tháng 06 năm 2019 của Giám đốc

Học viện Kỹ thuật Quân sự, họp tại Học viện Kỹ thuật Quân sự vào hồi

giờ ngày tháng năm 2019

Có thể tìm hiểu luận án tại:

- Thư viện Học viện Kỹ thuật Quân sự

- Thư viện Quốc gia

Trang 3

MỞ ĐẦU

1 Tính cấp thiết của nội dung nghiên cứu

Trong thực tế, dữ liệu phân cụm thường có sự không chắc chắn

và có nhiễu, nhiều dữ liệu có sự chia tách các cụm không tuyến tính, nhiều loại dữ liệu có số chiều và kích thước lớn Hiện nay có nhiều nhà khoa học quan tâm đến bài toán phân cụm cộng tác, tuy nhiên những vấn đề trên vẫn chưa có các nghiên cứu và giải pháp một cách triệt để

2 Mục tiêu nghiên cứu của luận án

Nghiên cứu bài toán phân cụm mờ cộng tác, các vấn đề còn tồn tại của phân cụm mờ cộng tác khi ứng dụng trong các bài toán thực

tế và đề ra các mô hình, giải pháp nâng cao hiệu quả phân cụm:

- Giải pháp cho vấn đề không rõ ràng, không chắc chắn của dữ liệu thực tế cần phân cụm

- Giải pháp cho vấn đề dữ liệu phức tạp, hình dạng và sự chia tách các cụm không tuyến tính

- Giải pháp cho vấn đề dữ liệu nhiều chiều, kích thước lớn, độ phức tạp tính toán cao thường gặp trong thực tế hiện nay

3 Đối tượng nghiên cứu

Các thuật toán phân cụm mờ, tập mờ loại 1, loại 2 và loại 2 giá trị khoảng; Mô hình và thuật toán phân cụm cộng tác; Phương pháp nhân và các thuật toán phân cụm dựa trên phương pháp nhân và tính toán hạt siêu điểm ảnh; Phương pháp giảm chiều dựa trên phép chiếu ngẫu nhiên và ứng dụng trong bài toán phân cụm

4 Phạm vi nghiên cứu

- Nghiên cứu lý thuyết tập mờ loại 1, 2

- Nghiên cứu các thuật toán phân cụm dữ liệu và một số vấn đề

Trang 4

liên quan trong bài toán phân cụm dữ liệu

- Nghiên cứu mô hình và thuật toán phân cụm mờ cộng tác

- Nghiên cứu và phát triển các kỹ thuật phân cụm mờ cộng tác trên

cơ sở ứng dụng tập loại 2 giá trị khoảng, phương pháp nhân, tính toán hạt siêu điểm ảnh và kỹ thuật giảm chiều dữ liệu

5 Cấu trúc của luận án

Chương 1 Tổng quan về phân cụm mờ cộng tác

Chương 2 Phân cụm mờ giá trị khoảng cộng tác

Chương 3 Một số cải tiến thuật toán phân cụm mờ cộng tác Kết luận nêu tóm tắt vấn đề nghiên cứu, các mô hình phân cụm

mờ cộng tác được để xuất cũng như các hướng nghiên cứu mở rộng

CHƯƠNG 1 TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU 1.1 Giới thiệu phân cụm mờ cộng tác và một số kiến thức cơ sở

1.1.1 Phân cụm mờ FCM (Fuzzy C – Means)

Hàm mục tiêu mờ được Dunn định nghĩa như sau:

𝐽𝑚(𝑈, 𝑣) = ∑𝑛𝑘=1∑𝑐𝑖=1𝑢𝑖𝑘𝑑𝑖𝑘2 Bezdek khái quát hóa hàm mục tiêu mờ bằng cách đưa ra trọng số

m  1, là số thực như sau :

𝐽𝑚(𝑈, 𝑣) = ∑𝑛𝑘=1∑𝑐𝑖=1𝑢𝑖𝑘𝑚𝑑𝑖𝑘2 Bezdek chứng minh hàm mục tiêu đạt giá trị tối thiểu cục bộ khi:

∑ ( 𝑑𝑖𝑘 𝑑𝑗𝑘)

2 𝑚−1 𝑐

𝑗=1

𝑣𝑖 =∑𝑛𝑘=1𝑢𝑖𝑘 𝑥𝑘

∑𝑛𝑘=1𝑢𝑖𝑘 (1.5) 𝑉ớ𝑖 1 ≤ 𝑖 ≤ 𝑐, 1 ≤ 𝑘 ≤ 𝑛

Thuật toán phân cụm mờ FCM được mô tả như sau :

Thuật toán 1.6 Phân cụm mờ FCM

hệ số mờ m (1<m<+ ) và sai số , số lần lặp tối đa max

Đầu ra: Kết quả phân cụm

Khởi tạo:

Trang 5

Tâm cụm V;

τ=0 //Đếm số vòng lặp

REPEAT

Tính toán giá trị tâm cụm v theo công thứ (1.5);

Cập nhật giá trị ma trận hàm thộcu ci theo công thức

=

] [

1

= 2 1

=

] [

ii N k ik m ik c i

Sử dụng phương pháp Lagrange để tối ưu hàm mục tiêu trên sẽ

được công thức tính ma trận phân hoạch và tâm cụm như sau:

1)) ( (1

]

| [

~ 1))

( (1

]

| [

~ 1

jj ii u d

d

ii

u

rs P

ii jj jj js

P

ii jj jj c

j js rs

1

= 1,

= 2

]

1

=

2 ]

1

= 1,

= 2

~ ] [ ( ]

[

])

| [

~ ] [ ( ]

u

x jj ii u ii u x

k P

ii jj jj rk

ii

N

k

kt rk

rk ii N

k P

ii jj jj kt rk

1.1.3.1 Tập mờ loại 1 (Type 1 Fuzzy Sets - FS)

1.1.2.2 Tập mờ loại 2 (Type 2 Fuzzy Sets - T2FS)

1.1.2.3 Tập mờ loại 2 khoảng (Interval Type 2 Fuzzy Sets - IT2FS)

1.1.2.4 Tập mờ giá trị khoảng (Interval – valued Fuzzy Sets)

1.1.4 Khoảng cách trong phân cụm

Có hai cách đo phổ biến là đo khoảng cách và do độ tương tự

1.1.4.1 Độ đo khoảng cách

Trang 6

1.1.4.2 Độ tương tự

1.1.5 Chỉ số đánh giá chất lượng phân cụm

Các chỉ số đánh giá được chia làm 2 nhóm: chỉ số đánh giá trong

và chỉ số đánh giá ngoài

1.1.5.1 Chỉ số đánh giá trong (Internal Quality Criteria)

1.1.5.2 Chỉ số đánh giá ngoài (External Quality Criteria)

1.2 Tổng quan các nghiên cứu liên quan

1.2.1 Tổng quan về phân cụmmờ

Phân cụm là kỹ thuật nhóm các đối tượng vào các cụm dựa trên thông tin của các đối tượng và mối liên hệ của chúng sao cho các đối tượng trong cùng một cụm thì tương tự nhau còn các đối tượng khác thuộc các cụm khác nhau thì khác nhau

Phân cụm mờ là phương pháp phân cụm dữ liệu mà cho phép mỗi điểm dữ liệu thuộc về hai hoặc nhiều cụm thông qua hàm thành viên thể hiện độ thuộc

Trong thực tế dữ liệu đầu vào cho bài toán phân cụm thường có nhiễu và không chắc chắn, nhiều tác giả đã nghiên cứu phát triển các thuật toán phân cụm sử dụng tập mờ loại 2 để giải quyết vấn đề hoặc kết hợp tập mờ loại 2 với giải thuật di truyền và phương pháp nhân và các phương pháp lai khác

1.2.2Tổng quan về phân cụm mờ cộng tác

Phân cụm mờ cộng tác được Pedrycz giới thiệu như là công cụ tìm ra những cấu trúc và đặc điểm tương đồng giữa các dữ liệu nằm trên nhiều khu vực riêng biệt dựa trên cách mở rộng hàm mục tiêu và cách tiếp cận phân cụm mờ của thuật toán FCM Có 2 đặc điểm của phân cụm mờ cộng tác, một là thông tin chi tiết trong các tập dữ liệu không thể trao đổi với nhau mà chỉ có thể trao đổi thông tin về cấu

Trang 7

trúc, hai là cần xem xét việc phân cụm mờ ở tập dữ liệu này có tác động tới việc phân cụm ở các tập dữ liệu khác, thông tin cấu trúc các cụm trong từng tập dữ liệu là có ích trong việc phân cụm tại các tập

dữ liệu từ tập dữ liệu lớn để thực hiện phân cụm sau đó kết quả được

mở rộng xấp xỉ cho phần dữ liệu còn lại, ví dụ thuật toán rseFCM hay thuật toán RSIO-FCM

1.2.3.2 Một số thuật toán phân cụm dữ liệu lớn

a Thuật toán FCM lấy mẫu ngẫu nhiên mở rộng

b Thuật toán FCM có trọng số

c Thuật toán spFCM

d Thuật toán rseFCM sử dụng nhân

1.2.4 Một số kỹ thuật kết hợp nâng cao chất lượng phân cụm

1.2.4.1 Kỹ thuật nhân trong phân cụm

Một trong những thách thức của bài toán phân cụm là sự phức tạp của dữ liệu, sự phức tạp có thể ở nhiều khía cạnh khác nhau như: kích thước dữ liệu, sự đa dạng các loại thuộc tính, tính đa dạng của

dữ liệu nói chung Một trong các cách phổ biến để phân lớp tuyến tính một dữ liệu phi tuyến trong không gian đầu vào là sử dụng một hàm nhân Mercer để làm phép ánh xạ ẩn

Trang 8

1.2.4.2 Kỹ thuật siêu điểm ảnh trong phân cụm dữ liệu

Khái niệm về siêu điểm ảnh được Ren giới thiệu như là một tập các điểm gần nhau có sự tương tự về màu hoặc mức xám Bằng cách chia ảnh cần phân đoạn thành các siêu điểm ảnh (super pixels) không chồng nhau, thay vì thực hiện phân đoạn ảnh dựa trên các điểm ảnh

ta phân đoạn ảnh dựa trên các siêu điểm ảnh

1.2.4.3 Tính toán hạt trong phân cụm

Tính toán hạt (Granular Computing – GrC) được đề xuất bởi Zadeh, là một khái niệm bao gồm lý thuyết, phương pháp, kỹ thuật

và công cụ sử dụng hạt để giải quyết những vấn đề phức tạp trong xử

lý thông tin, thông tin cần xử lý trong tính toán hạt ta gọi là “hạt thông tin” (Information Granules - IG), IG thường được tạo thành từ các thực thể gồm các thông tin số tương tự nhau

1.3 Những hạn chế của các nghiên cứu hiện có và mục tiêu nghiên cứu

Khi giải quyết các bài toán phân cụm trong thực tế, ta thường gặp những vấn đề như: vấn đề nhiễu, sự không chắc chắn của dữ liệu; sự phức tạp trong cấu trúc cụm, cụm không có dạng khối cầu, sự chia tách cụm không tuyến tính; dữ liệu lớn nhiều chiều và nhiều đối tượng cần phân cụm Những vấn đề này trong phân cụm mờ cộng tác vẫn là một bài toán chưa có các nghiên cứu giải quyết, do đó mục tiêu của luận án là nghiên cứu và đề xuất mô hình ứng dụng các kỹ thuật này vào lớp bài toán phân cụm mờ cộng tác để giải quyết những vấn đề trên Cụ thể là:

- Nghiên cứu đề xuất mô hình ứng dụng tập mờ giá trị khoảng để nâng cao chất lượng phân cụm mờ cộng tác khi dữ liệu đầu vào không rõ ràng, không chắc chắn

Trang 9

- Nghiên cứu đề xuất mô hình ứng dụng kỹ thuật đa nhân trong phân cụm mờ cộng tác để nâng cao chất lượng phân cụm dữ liệu có cấu trúc phức tạp và sự chia tách các cụm không tuyến tính

- Nghiên cứu kỹ thuật gom điểm ảnh thành các hạt siêu điểm ảnh

và ứng dụng trong mô mình phân mờ cụm cộng tác đa nhân để giảm

độ phức tạp tính toán

- Nghiên cứu đề xuất giải pháp giảm chiều dữ liệu bằng định lý Johnson- Lindenstrauss và phân cụm mờ cộng tác cho bài toán phân cụm dữ liệu nhiều chiều, kích thước lớn, độ phức tạp tính toán cao

1.4 Những đóng góp chính của luận án

Luận án đã đề xuất ra hai thuật toán phân cụm mờ giá trị khoảng cộng tác để nâng cao chất lượng phân cụm khi dữ liệu có nhiễu và không chắc chắn của dữ liệu

Luận án đề xuất được thuật toán phân cụm mờ cộng tác sử dụng

kỹ thuật đa nhân và tính toán hạt siêu điểm ảnh có trọng số để giải quyết vấn đề nâng cao chất lượng phân cụm khi dữ liệu có sự phân tách cụm không tuyến tính và giảm độ phức tạp trong tính toán khi phân cụm ảnh bằng kỹ thuật tính toán hạt siêu điểm ảnh có trọng số Luận án cũng đã đưa ra một Framework ứng dụng thuật toán phân cụm mờ cộng tác cho phân cụm dữ liệu lớn kết hợp giảm chiều bằng phép chiếu ngẫu nhiên

Các kết quả của luận án đã được công bố trong 5 công trình gồm

1 bài báo trong danh mục SCI Q1, một bài báo trong danh mục được hội đồng chức danh giáo sư nhà nước tính điểm, 3 bài hội thảo quốc gia và quốc tế (và 1 bài chờ duyệt tạp chí trong danh mục SCI Q1)

1.5 Kết luận chương 1

Chương này luận án tổng hợp lại các lý thuyết và kết quả nghiên

Trang 10

cứu về phân cụm dữ liệu gồm: phân cụm dữ liệu, phân cụm dữ liệu

mờ loại 1, mờ loại 2 và phân cụm mờ cộng tác

Luận án đưa ra các câu hỏi cần nghiên cứu, các giải pháp cho các câu hỏi đó sẽ được nghiên cứu và trình bày trong luận án

Phần cuối chương trình bày tổng hợp các kiến thức cơ sở phục vụ cho luận án như: tập mờ, phân cụm mờ, phân cụm mờ cộng tác Nhiều phương pháp xác định khoảng cách, độ đo tương tự và chỉ số đánh giá chất lượng phân cụm cũng được tổng hợp và trình bày

CHƯƠNG 2 PHÂN CỤM MỜ LOẠI 2 KHOẢNG CỘNG TÁC

Dữ liệu phân cụm thường có nhiễu và không chắc chắn mà phân cụm mờ loại 1 thường không giải quyết tốt, chương này luận án

đề xuất sử dụng tập mờ giá trị khoảng để giải quyết vấn đề trên

2.1 Phân cụm mờ loại 2 khoảng cộng tác

Hàm mục tiêu như sau:

Giá trị ma trận phân hoạch và tâm cụm xác định như sau:

) 1 1/(

2 1

= 1,

=

2 1

= 2 1

= 1,

= 2

1

]) [ ]

| [ (

1 ])

[ ]

| [ (

k P

ii jj jj js

c

j ks c

k P

ii jj jj

rs

m

rs

jj d jj ii d

jj d jj ii d

2 1

1,

=

2 1 2 1

| [ (

1 ])

[ ]

| [ (

k P

ii jj js

c

j ks c

k P

ii jj jj

rs

m

rs

jj d jj ii d

jj d jj ii d

| [ ]

[

1

= 1,

= ]

1

=

2 2 1

ii jj jj

ii N

k ik m ik c

| [ ]

[

1

= 1,

= ]

1

=

2 1 1

i P

ii jj jj

ii N

k ik m ik c

Trang 11

] [ ]

| [ ] [

] [ ]

| [ ]

1

= 1 ]

1

=

1 ]

1

= 1

u

jj v u jj ii x

ii u

ii

v

m rk ii

N

k

m rk ii

N

k

rt m rk ii

N

k kt m

| [ ] [

] [ ]

| [ ]

1

= 2 ]

1

=

2 ]

1

= 2

u

jj v u jj ii x

ii u

ii

v

m rk ii

N

k

m rk ii

N

k

rt m rk ii

N

k kt m

2.2 Phân cụm mờ loại 2 khoảng cộng tác khi số cụm khác nhau

Hàm mục tiêu đề xuất như sau:

2 1

]

1

= ]

1

=

2 1

i

ii N

k ik m

]

1

= ]

1

=

2 2 ]

i

ii N

k ik m

]

1

= 2 2

1

) ]) [

~ ] [ ( (

1 ])

[

~ ] [ (

ii c

j r r rs

m

rs

ii v ii v d ii

v ii v d

]

1

2 2

2

) ]) [

~ ] [ ( (

1 ])

[

~ ] [ (

ii c

j r r rs

m

rs

ii v ii v d ii v ii v d

] [

~ ]

1

=

1 ]

1

= 1

ii v u x

ii u

ii

v

m rk ii N

k

rt m rk ii N

k kt m

] [

~ ]

1

=

2 ]

1

= 2

ii v u x

ii u

ii

v

m rk ii N

k

rt m rk ii N

k kt m

2.3 Thuật toán phân cụm mờ loại 2 khoảng cộng tác (CIVFCM)

Thuật toán 2.1 Phân cụm mờ loại 2 khoảng cộng tác Đầu vào: số tập dữ liệu P, số phần tử trong tập dữ liệu

thứ ii là N[ii], số cụm trong tập dữ liệu thứ ii là

Trang 12

c[ii], số thuộc tính của dữ liệu là M, dữ liệu trong tập

dữ liệu thứ ii là X[ii], số lần lặp tối đa 𝑡𝑚𝑎𝑥, thay đổi

ma trận phân hoạch sau 2 lần chạy tối thiểu 𝜀 và thay đổi ma trận tâm cụm sau 2 lần chạy tối thiểu 𝜀1

Đầu ra: Kết quả phân cụm

Begin

Pha 1: Phân cụm trong từng datasite (Locally Clustering)

Chạy các thuật toán phân cụm mờ với từng tập dữ liệu

Pha 2: Quá trình phân cụm cộng tác (Collaboration)

Repeat

Trao đổi tâm cụm tới tất cả các tập dữ liệu

For each data site D[ii]

2.4 Thử nghiệm và đánh giá

Để đánh giá kết quả hoạt động của thuật toán CIVFCM, thuật toán phân cụm mờ cộng tác CFCM, thuật toán phân cụm mờ dựa trên mật độ CFSFD được sử dụng để so sánh bằng các chỉ số đánh giá

2.4.1 Thử nghiệm với dữ liệu sinh ngẫu nhiên

Bảng 2.2 Chỉ số đánh giá với thử nghiệm 2.1

Trang 13

2.4.2 Thử nghiệm với dữ liệu S1, S4 1

Các chỉ số đánh giá trình bày trong bảng 1 và 2 cho thấy thuật toán đề xuất có kết quả tốt hơn trong hầu hết các trường hợp

Bảng 2.3 Chỉ số đánh giá của các thuật toán với dữ liệu S1

2.4.3 Thử nghiệm với dữ liệu thời tiết Canada 2

Giá trị chỉ số đánh giá phân cụm tốt nhất của các thuật toán được thể hiện trong bảng 2.5 cho thấy các thuật toán đề xuất cho kết quả tốt hơn, tốt nhất là CIVFCM1

1 https://cs.joensuu.fi/sipu/datasets/

2 http://climate.weather.gc.ca/

Trang 14

Bảng 2.5 Chỉ số đánh giá của các thuật toán với dữ liệu thời thiết

CFCM CFSFD CIVFCM1

(m 1 , m 2 )

CIVFCM2 (m 1 , m 2 )

(1.8,3)

12.7577 (2,2.8)

2.4.4 Thử nghiệm với dữ liệu ảnh vệ tinh

Dữ liệu ảnh vệ tinh khu vực Hà Nội và Bảo lộc Sử dụng dữ liệu 2 ảnh này như tập dữ liệu cho thuật toán phân cụm cộng tác để chia làm 6 cụm tương ứng với 06 vùng bề mặt trái đất.Kết quả cho thấy tỷ

lệ sai khác của thuật toán CFCM, CFSFD, CIVFCM1,2 với dữ liệu DNRS vùng Hà Nội lần lượt là 8,30%; 8,68%; 4.75% và 7,16%, tương tự với vùng Bảo lộc là 13.94%, 14.46%, 8.45% và 2.53% Thuật toán CIVFCM1 là tốt nhất về chỉ số đánh giá và sự sai khác nhỏ nhất so với dữ liệu gốc

Trang 16

vệ tinh thì thuật toán đề xuất cho kết quả tốt hơn hẳn

Thử nghiệm với dữ liệu ảnh vệ tinh cho ta một hướng ứng dụng hợp lý của phân cụm cộng tác

Độ phức tạp tính toán trình bày trong bảng 2.8 cho thấy các thuật toán sử dụng tập mờ loại 2 nói chung cũng như thuật toán đề xuất CIVFCM có độ phức tạp tính toán cao hơn các thuật toán sử dụng tập mờ loại 2 Tuy nhiên các thuật toán này sẽ cho chất lượng tốt hơn khi giải quyết dữ liệu có nhiễu và không chắc chắn

Bảng 2.9 Độ phức tạp tính toán của các thuật toán

2.5 Kết luận chương 2

Trong chương này, luận án đã đề xuất ra thuật phân cụm mờ loại

2 khoảng cộng tác trong đó sử dụng tập mờ giá trị khoảng để tăng chất lượng phân cụm khi dữ liệu đầu vào có nhiễu, không chắc chắn Thuật toán đề xuất đặc biệt tốt hơn hẳn trong với các dữ liệu thời tiết và dữ liệu ảnh vệ tinh, đây là các dữ liệu thực tế và chịu ảnh

Ngày đăng: 09/06/2021, 13:43

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm