1. Trang chủ
  2. » Luận Văn - Báo Cáo

NGHIÊN cứu một số PHƯƠNG PHÁP PHÂN cụm mờ và ỨNG DỤNG

81 256 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 81
Dung lượng 917,51 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

, nếu U là tập hữu hạn hay đếm được , nếu U là tập vô hạn liên tục Ở đây , là tổng và tích số học ii Lực lượng mờ fuzzy cardinality: Lực lượng hay bản số mờ của tập là một tập mờ trên tậ

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

LUẬN VĂN THẠC SĨ KHOA HỌC

ĐỊNH HƯỚNG NGHIÊN CỨU

NGƯỜI HƯỚNG DẪN KHOA HỌC

TS NGUYỄN CÔNG HÀO

Thừa Thiên Huế, 2018

Trang 2

LỜI CAM ĐOAN

Tôi xin cam đoan: Luận văn thạc sĩ khoa học định hướng nghiên cứu với đề

tài “Nghiên cứu một số phương pháp phân cụm mờ và ứng dụng” là công trình

nghiên cứu của cá nhân tôi Các kết quả nêu trong luận văn là trung thực, đảm bảo

độ chuẩn xác cao nhất có thể Các tài liệu tham khảo, trích dẫn có xuất xứ rõ ràng

Tôi xin chịu mọi trách nhiệm về công trình nghiên cứu của riêng mình!

Thừa Thiên Huế, tháng 7 năm 2018

Tác giả luận văn

Nguyễn Thị Nga

Trang 3

LỜI CẢM ƠN

Để hoàn thành luận văn “Nghiên cứu một số phương pháp phân cụm mờ

và ứng dụng”, tôi đã nhận được nhiều sự giúp đỡ hết sức quý báu của các tập thể

và cá nhân

Trước hết, tôi xin bày tỏ lòng biết ơn sâu sắc đến TS Nguyễn Công Hào

-người Thầy đã tận tâm hướng dẫn khoa học trong quá trình học tập, nghiên cứu vàtriển khai luận văn

Tôi xin chân thành cảm ơn tập thể quý thầy cô Khoa Công nghệ Thông tin,Phòng Sau Đại học thuộc trường Đại học Khoa học, Đại học Huế; Sở Giáo dục vàĐào tạo tỉnh Kon Tum; Trường THPT Duy Tân tỉnh Kon Tum đã tạo mọi điều kiệnthuận lợi cho tôi trong suốt quá trình học tập, nghiên cứu và thực hiện luận văn

Xin được biết ơn gia đình, những người thân, bạn bè đồng nghiệp đã luôn làđiểm tựa vững chắc để tôi hoàn thành luận văn này

Thừa Thiên Huế, tháng 7 năm 2018

Tác giả luận văn

Nguyễn Thị Nga

Trang 4

MỤC LỤC

Trang

Lời cam đoan

Lời cảm ơn

Mục lục

Danh mục các bảng

Danh mục các hình

Danh mục các chữ viết tắt

PHẦN MỞ ĐẦU 1

PHẦN NỘI DUNG 4

CHƯƠNG 1: MỘT SỐ KIẾN THỨC CƠ SỞ CỦA LÝ THUYẾT TẬP MỜ 4

1.1.TẬP MỜ VÀ THÔNG TIN KHÔNG CHẮC CHẮN 4

1.1.1 Khái niệm tập mờ 4

1.1.2 Tập lát cắt của tập mờ 5

1.1.3 Một số khái niệm đặc trưng của tập mờ 6

1.2.BIẾN NGÔN NGỮ 7

1.2.1 Định nghĩa 7

1.2.2 Các đặc trưng của biến ngôn ngữ 7

1.3.CÁC PHÉP TÍNH TRÊN TẬP MỜ 8

1.3.1 Phép hợp mờ 8

1.3.2 Phép giao mờ 9

1.3.3 Phép lấy phần bù 10

1.3.4 Phép tổng và tích đại số các tập mờ 10

1.3.5 Phép tích Descartes các tập mờ 11

1.3.6 Phép tập trung 11

1.3.7 Phép dãn 12

1.3.8 Phép tổ hợp lồi 12

1.4.MỜ HÓA VÀ KHỬ MỜ 13

1.4.1 Phương pháp mờ hóa 13

1.4.2 Phương pháp khử mờ 14

1.5.TIỂU KẾT CHƯƠNG 1 16

Trang 5

CHƯƠNG 2: MỘT SỐ PHƯƠNG PHÁP PHÂN CỤM MỜ 17

2.1.TỔNG QUAN VỀ PHÂN CỤM 17

2.1.1.Khái niệm phân cụm dữ liệu 17

2.1.2 Mục tiêu của phân cụm dữ liệu 19

2.1.3 Quy trình phân cụm dữ liệu 19

2.1.4 Yêu cầu trong phân cụm dữ liệu 20

2.1.5 Vấn đề còn tồn tại trong phân cụm dữ liệu 21

2.1.6 Phân loại các kiểu dữ liệu 22

2.1.7 Độ đo tương tự và phi tương tự 23

2.2.MỘT SỐ KỸ THUẬT PHÂN CỤM DỮ LIỆU 24

2.2.1 Phân cụm phân hoạch 26

2.2.2 Phân cụm phân cấp 30

2.2.3 Phân cụm dựa trên mật độ 35

2.2.4 Phân cụm dựa trên mô hình 40

2.2.5 Phân cụm dựa trên ràng buộc 41

2.3 PHÂN CỤM DỮ LIỆU MỜ 43

2.3.1 Giới thiệu về phân cụm dữ liệu mờ 43

2.3.2 Một số thuật toán phân cụm mờ 44

2.4 TIỂU KẾT CHƯƠNG 2 51

CHƯƠNG 3: ỨNG DỤNG PHÂN CỤM DỮ LIỆU MỜ CHO BÀI TOÁN PHÂN LOẠI BỆNH ĐỘNG KINH VÀ VIÊM GAN 52

3.1.ĐẶT VẤN ĐỀ 52

3.1.1 Hiện trạng và phương pháp chuẩn đoán viêm gan 52

3.1.2 Hiện trạng và phương pháp chuẩn đoán động kinh 53

3.2.PHÁT BIỂU BÀI TOÁN 55

3.2.1 Bài toán bệnh động kinh 55

3.3.PHƯƠNG PHÁP GIẢI QUYẾT BÀI TOÁN 59

3.4.CÁC BƯỚC THU THẬP VÀ XỬ LÝ DỮ LIỆU 60

3.4.1 Nguồn dữ liệu 60

3.4.2 Chuẩn bị dữ liệu 60

Trang 6

3.5.MÔ PHỎNG 60

3.5.1 Các bước mô phỏng 60

3.5.2 Kết quả đạt được 61

3.6 NHẬN XÉT KẾT QUẢ 69

KẾT LUẬN 70

TÀI LIỆU THAM KHẢO 71

DANH MỤC CÁC BẢN

Trang 7

Bảng 3.1: Bộ dữ liệu động kinh 55

Bảng 3.2: Năm cụm dữ liệu sau khi phân cụm 55

Bảng 3.3: Bộ dữ liệu phân lớp “viêm gan” của UCI 58

Bảng 3.4: Danh sách hàm chức năng 59

Bảng 3.5: Tham số đầu vào bài toán phân loại bệnh động kinh 61

Bảng 3.6: Kết quả phân cụm thuật toán FCM 62

Bảng 3.7: Kết quả phân cụm thuật toán KFCM 63

Bảng 3.8: Kết quả phân cụm thuật toán PFCM 63

Bảng 3.9: Kết quả phân cụm thuật toán QPSO_FCM 63

Bảng 3.10: So sánh kết quả phân cụm giữa các thuật toán phân cụm mờ 64

Bảng 3.11: Thống kê trung bình giá trị 65

Bảng 3.12: Kết quả chỉ số đánh giá chất lượng phân cụm 65

Bảng 3.13: Giá trị đầu vào cho bài toán phân cụm viêm gan 66

Bảng 3.14: Kết quả đánh giá “entropy và purity” 67

Bảng 3.15: Chất lượng phân cụm giữa các thuật toán phân cụm rõ và mờ 68

Bảng 3.16: Khoảng cách trung bình đến tâm cụm 68

Trang 8

DANH MỤC CÁC HÌNH

Hình 1.1: Phép tập trung 12

Hình 2.1: Hình dạng các loại cụm 17

Hình 2.2: Sự thay đổi tâm cụm trong k-means khi có phần tử ngoại lai 28

Hình 2.3: Phân cụm phân cấp Top-down và Bottom-up 30

Hình 2.5: Liên kết đôi 31

Hình 3.1: Các bước mô phỏng thực nghiệm 60

Hình 3.2: Hình ảnh phân cụm trên bộ tham số đầu vào options 1 62

Hình 3.3: Tỉ lệ phân cụm đúng FCM 62

Hình 3.4: So sánh thuật toán phân cụm mờ 65

Hình 3.5: So sánh Purity và MI của thuật toán phân cụm mờ 66

Hình 3.6: So sánh Dunn và Davie của thuật toán phân cụm mờ 66

Hình 3.7: Đánh giá Entropy và Purity các thuật toán phân cụm rõ và mờ 68

Trang 9

DANH MỤC CÁC CHỮ VIẾT TẮT

CURE Clustering using representatives Phân cụm sử dụng đại diện

KFCM Kernel fuzzy clustering means Phân cụm mờ Kernel

PAM Partitioning around methoids Phân hoạch quanh đốitượng đại diện

Phân cụm mờ dựa vào tối

ưu hóa quần thể

STING Statistical information grid approach Phân cụm dựa trên lưới dữ

liệu

Trang 10

PHẦN MỞ ĐẦU

Hơn một thập niên trở lại đây, lượng thông tin được lưu trữ trên các thiết bị điện

tử (đĩa cứng, CD-ROM, băng từ, v.v.) không ngừng tăng lên Sự tích lũy dữ liệu nàyxảy ra với một tốc độ bùng nổ Thống kê sơ bộ cho thấy, lượng thông tin trên các hệthống tin học cứ sau 20 tháng lại tăng gấp đôi Cuối thập kỷ 80 của thế kỷ 20 sự pháttriển rộng khắp của các cơ sở dữ liệu ở mọi quy mô đã tạo ra sự bùng nổ thông tin trêntoàn cầu Vào thời gian này, người ta bắt đầu đề cập đến khái niệm khủng hoảng phântích dữ liệu tác nghiệp để cung cấp thông tin với yêu cầu chất lượng ngày càng cao chongười làm quyết định trong các tổ chức tài chính, thương mại, khoa học,…

Đúng như John Naisbett đã cảnh báo “Chúng ta đang chìm ngập trong dữ

liệu mà vẫn đói tri thức” Lượng dữ liệu khổng lồ này thực sự là một nguồn “tài

nguyên” rất giá trị bởi thông tin là yếu tố then chốt trong hoạt động kinh doanh.Khai phá dữ liệu là một hướng tiếp cận mới với khả năng giúp các công ty chútrọng vào những thông tin có nhiều ý nghĩa từ những tập hợp dữ liệu lớn (databases,data warehouses, data repositories) mang tính lịch sử Với những ưu thế của mình,khai phá dữ liệu đã chứng tỏ được tính hữu dụng của nó trong môi trường kinhdoanh đầy tính cạnh tranh ngày nay

Khai phá dữ liệu bao hàm rất nhiều hướng tiếp cận Các kỹ thuật chính được

áp dụng trong lĩnh vực này phần lớn được thừa kế từ lĩnh vực cơ sở dữ liệu, họcmáy, trí tuệ nhân tạo, lý thuyết thông tin, xác suất thống kê, và tính toán hiệu năngcao Các bài toán chủ yếu trong khai phá dữ liệu là phân lớp/dự đoán(classification/prediction), khai phá luật kết hợp (association rules mining), khai pháchuỗi (sequence mining), và phân cụm (Clustering) - một trong những hướngnghiên cứu chính của khai phá dữ liệu, là kĩ thuật nhằm tìm kiếm, phát hiện cáccụm, các mẫu dữ liệu tự nhiên, tiềm ẩn trong tập dữ liệu lớn, từ đó cung cấp thôngtin, tri thức hữu ích cho việc ra quyết định

Một vài ví dụ về ý nghĩa thực tiễn của phân cụm dữ liệu như sau:

 Khai thác thông tin từ văn bản sử dụng các kỹ thuật phân cụm để phân tíchcác loại văn bản và để truyền đạt thông tin cho người sử dụng một cách trực

Trang 11

quan như nghiên cứu Text Mining with the WEBSOM (Lagus and others2000), (Lin, Soergel, and Marchionini 1991), biểu diễn từ văn bản(Subramanian and Vora 2016), phân tích các tài liệu y học (Skupin,Biberstine, and Börner 2013), Phân lớp thông tin sáng chế (Choi et al 2013),phân cụm dữ liệu văn bản về sức khỏe (Yoo et al 2012)

 Marketing các kỹ thuật phân cụm giúp xác định các nhóm khách hàng (kháchhàng tiềm năng, khách hàng giá trị, phân loại và dự đoán hành vi kháchhàng,…) sử dụng sản phẩm hay dịch vụ của công ty để giúp công ty có chiếnlược kinh doanh hiệu quả hơn như các nghiên cứu: (Gull et al 2014),(AleEbrahim and Fathian 2013)

 Biology: Phân nhóm động vật và thực vật dựa vào các thuộc tính của chúng.Đây là một lĩnh vực mới đang được thu hút sự quan tâm như các nghiên cứu(Rebholz-Schuhmann, Oellrich, and Hoehndorf 2012), (Dash et al 2012)

 Libraries: Theo dõi độc giả, sách, dự đoán nhu cầu của độc giả như (Fox andSornil 2003), (Chang and Chen 2006),

 Insurance, Finance: Phân nhóm các đối tượng sử dụng bảo hiểm và các dịch

vụ tài chính (Mosley Jr 2012), dự đoán xu hướng (trend) của khách hàng,phát hiện gian lận tài chính của Holton 2009; dự đoán xu hướng công nghệcủa Yoon and Park 2004…

 Phân tích các dữ liệu word wide web là một mảng ứng dụng rất lớn của các kỹthuật phân cụm văn bản như các nghiên cứu của Kaur 2013, Hu et al 2008…Trong phân cụm ta có hai hướng đó là phân cụm rõ và phân cụm mờ Một ví

dụ cho dễ hình dung việc phân cụm rõ là phân cụm học sinh tiểu học theo khối lớp:

1, 2, 3, 4, 5, mỗi học sinh chỉ thuộc về một khối lớp Nhưng trong thực tế có nhiềutrường hợp không thể tách biệt một cách rõ ràng ví dụ hãy phân loại sách, tài liệutham khảo theo các chủ đề thì một tài liệu có thể có nhiều chủ đề khác nhau Vì vậyngười ta đã áp dụng lý thuyết về tập mờ để giải quyết cho trường hợp này Cách

thức kết hợp này được gọi là Phân cụm mờ

Trang 12

Luận văn này trình bày các nghiên cứu về phân cụm dữ liệu mờ, các thuậttoán phân cụm dữ liệu mờ làm tăng tính ổn định, chính xác của kết quả phân cụm

dữ liệu và ứng dụng vào bài toán phân cụm trên bộ dữ liệu động kinh và viêm gan

Bố cục luận văn như sau:

» Phần mở đầu:

» Phần nội dung

 Chương 1: Trình bày một cách tổng quan các kiến thức cơ bản về tập mờ

 Chương 2: Giới thiệu tổng quan về phân cụm, một số kỹ thuật phâncụm dữ liệu phổ biến, thuật toán phân cụm mờ FCM và một vài thuậttoán cải tiến của FCM

 Chương 3: Mô phỏng một số thuật toán phân cụm dữ liệu trên hai bộ

dữ liệu viêm gan và động kinh nguồn từ UCI

» Phần kết luận: Tổng kết lại những vấn đề đã nghiên cứu, đánh giá kết quảnghiên cứu và hướng phát triển của đề tài

Trang 13

nó bằng một khái niệm toán học, được gọi là tập mờ, như là một sự khái quát trựctiếp của khái niệm tập hợp kinh điển.

1.1.1 Khái niệm tập mờ

Định nghĩa 1.1 Cho một tập vũ trụ U Tập hợp được xác định bởi đẳng thức: được gọi là một tập hợp mờ trên tập U.

Biến u lấy giá trị trong U được gọi là biến cơ sở và vì vậy tập U còn

được gọi là tập tham chiếu hay miền cơ sở.

Hàm : U  [0 1] được gọi là hàm thuộc (membership function) và giá trị

tại u được gọi là độ thuộc của phần tử u thuộc về tập hợp mờ

Họ tất cả các tập mờ trên miền cơ sở U được ký hiệu là F (U)

F (U) = {: U  [0, 1] = [0, 1]U }

Có nhiều cách biểu diễn hình thức một tập mờ Trong trường hợp U là một

tập hữu hạn, đếm được hay vô hạn liên tục, tập mờ có thể được biểu diễn bằng

các biểu thức hình thức như sau:

Trong trường hợp U hữu hạn, U = {}, ta có thể viết:

+

Hay

Trong trường hợp này tập mờ được gọi là tập mờ rời rạc (discrete fuzzy)

Trang 14

Trong trường hợp U là vô hạn đếm được, U = {ui: i = 1, 2, …}, ta có thể

viết:

Trong trường hợp U là vô hạn liên tục, U = [a, b], ta có thể viết:

Định nghĩa 1.2 Tập mờ có dạng hình thang xác định bởi bộ 4 giá trị (a, b,

c, d), ký hiệu = (a, b, c, d) và được xác định:

1.1.2 Tập lát cắt của tập mờ

Định nghĩa 1.3: Cho một tập mờ trên tập vũ trụ U và Tập lát cắt (hoặc +)

của tập là một tập kinh điển, ký hiệu là (hoặc ), được xác định bằng đẳng thức sau:(hoặc )

Như vậy, mỗi tập mờ sẽ cảm sinh một họ các tập kinh điển, ta có ánh xạ(1*)

Để đơn giản ký hiệu, ta viết họ các tập kinh điển như vậy bằng

Họ các tập như vậy có tính chất sau:

Định lý 1.1: Cho , là ánh xạ được cho trong (1*) và , Khi đó

(i) Mỗi họ như vậy là dãy đơn điệu giảm, nếu , thì ;

Trang 15

1.1.3 Một số khái niệm đặc trưng của tập mờ

Định nghĩa 1.4 (i) Giá của tập mờ: Giá của tập mờ , ký hiệu là Support(), là tập con của U trên đó

(ii) Độ cao của tập mờ: Độ cao của tập mờ , ký hiệu là , là cận trên đúng

của hàm thuộc

(iii) Tập mờ chuẩn (normal): Tập mờ được gọi là chuẩn nếu hight() = 1 Trái lại, tập mờ được gọi là dưới chuẩn (subnormal).

(iv) Lõi của tập mờ: Lõi của tập mờ , ký hiệu là Core(), là một tập con của

U được xác định như sau:

Định nghĩa 1.5 Lực lượng của tập mờ

Cho là một tập mờ trên U

(i) Lực lượng vô hướng (scalar cardinality): Lực lượng hay bản số thực

của tập , ký hiệu là Count(), được tính theo công thức đếm sau (đôi khi được gọi

là sigma count)

, nếu U là tập hữu hạn hay đếm được

, nếu U là tập vô hạn liên tục

Ở đây , là tổng và tích số học

(ii) Lực lượng mờ (fuzzy cardinality): Lực lượng hay bản số mờ của tập

là một tập mờ trên tập các số nguyên không âm N được định nghĩa như sau:

Trong đó được xác định theo công thức sau, với là lực lượng của tập mức

Có thể xem công thức tính ở trên là công thức “đếm” số phần tử trong U.Thực vậy, nếu tập ở trên về tập kinh điển thì trên U và do đó công thức trên chính là

bộ đếm số phần tử Khi, thì u chỉ thuộc về tập với tỉ lệ phần trăm bằng và do đó phần

tử u chỉ được “đếm” vào số lượng các phần tử một đại lượng bằng

Lưu ý rằng, khác với trường hợp tập kinh điển, dù tập U là vô hạn đếm

Trang 16

được hay vô hạn liên tục, thì lực lượng của tập mờ vẫn có thể là hữu hạn, tùytheo dáng điệu của hàm

1.2 BIẾN NGÔN NGỮ

1.2.1 Định nghĩa

Biến ngôn ngữ là một bộ năm (X, T(X), U, R, M ), trong đó X là tên biến, T(X) là tập các giá trị ngôn ngữ của biến X, U là không gian tham chiếu của biến

cơ sở u, mỗi giá trị ngôn ngữ xem như là một biến mờ trên U kết hợp với biến

cơ sở u, R là một qui tắc cú pháp sinh các giá trị ngôn ngữ của T(X), M là qui tắc ngữ nghĩa gán mỗi giá trị ngôn ngữ trong T(X) với một tập mờ trên U.

1.2.2 Các đặc trưng của biến ngôn ngữ

Trong thực tế có rất nhiều biến ngôn ngữ khác nhau về các giá trị nguyên

thuỷ, chẳng hạn như biến ngôn ngữ SỐ NGÀY LÀM VIỆC có giá trị nguyên thuỷ là ít, nhiều, biến ngôn ngữ LƯƠNG có giá trị nguyên thuỷ là thấp, cao… Tuy

nhiên, những kết quả nghiên cứu đối với một miền trị của một biến ngôn ngữ cụthể vẫn giữ được ý nghĩa về mặt cấu trúc đối với miền giá trị của các biến còn

lại Đặc trưng này được gọi là tính phổ quát của biến ngôn ngữ.

Ngữ nghĩa của các gia tử và các liên từ hoàn toàn độc lập với ngữ cảnh,điều này khác với giá trị nguyên thủy của các biến ngôn ngữ lại phụ thuộc vào ngữcảnh Dó đó khi tìm kiếm mô hình cho các gia tử và các liên từ chúng ta khôngquan tâm đến giá trị nguyên thuỷ của biến ngôn ngữ đang xét Đặc trưng này

được gọi là tính độc lập ngữ cảnh của gia tử và liên từ.

1.3 CÁC PHÉP TÍNH TRÊN TẬP MỜ

Trước khi định nghĩa các phép tính trong F(U, [0, 1]), chúng ta hãy xem đoạn [0, 1] như là một cấu trúc dàn L[0, 1] = ([0, 1], , , –) với thứ tự tự nhiên trên

đoạn [0, 1] Khi đó, với mọi a, b [0, 1], ta có:

a b = max {a, b}, a b = min {a, b} và – a = 1 b.

Chúng ta có thể kiểm chứng rằng L[0,1] = ([0, 1], , , –) là một đại số

DeMorgan, hơn nữa nó có các tính chất sau:

Trang 17

Tính chất đơn điệu giảm : a b –a b

Tính chất De Morgan : –(a b)= –a –b; –(a b) = –a –b.

1.3.1 Phép hợp mờ

Cho hai tập mờ trên tập vũ trụ U Hợp của hai tập mờ này là một tập mờ

ký hiệu là mà hàm thuộc được định nghĩa theo điểm (pointwise) như sau: hay,trong trường hợp U là hữu hạn hay đếm được:

hay, trong trường hợp U là tập liên tục:

Một cách tổng quát, cho với I là tập chỉ số hữu hạn hay vô hạn nào đó Khi

đó hợp của các tập mờ như vậy, ký hiệu là , được định nghĩa bằng hàm thuộc nhưsau: )(u)=

Một cách tổng quát, nếu cho trước các tập mờ , i=1, 2, m thì hợp các tập mờnày là tập mờ được định nghĩa mở rộng bằng quy nạp và được ký hiệu là:

Nhận xét 1.1: Các hạng thức dạng có thể xem là một tập mờ mà giá của nó

chỉ chứa duy nhất một phần tử , hàm thuộc của nó bằng 0 tại mọi u và bằng tại mọi

phần tử Kí hiệu tập mờ này là , tích của số vô hướng của với tập kinh điển 1-phần

tử {u i} Khi đó, với định nghĩa phép hợp như trên, các phép cộng hình thức “+” cóthể được biểu thị bằng phép hợp

1.3.2 Phép giao mờ

Cho hai tập mờ trên tập vũ trụ U Hợp của hai tập mờ này là một tập mờ

Trang 18

ký hiệu là , mà hàm thuộc của nó được định nghĩa theo điểm (pointwise) như sau:hay, trong trường hợp U là hữu hạn hay đếm được:

hay, trong trường hợp U là tập liên tục:

Một cách tổng quát, cho với I là tập chỉ số hữu hạn hay vô hạn nào đó Khi

đó giao của các tập mờ như vậy, ký hiệu là , được định nghĩa bằng hàm thuộc nhưsau

, (u)=

1.3.3 Phép lấy phần bù

Xét một tập mờ A~ trên tập vũ trụ U Phép lấy bù của tập , ký hiệu là ~, là

tập mờ với hàm thuộc được xác định bằng đẳng thức sau:

Tập mờ biểu diễn ở dạng công thức hình thức có dạng sau:

Trường hợp U là hữu hạn hay vô hạn đếm được

Trường hợp U là vô hạn liên tục

1.3.4 Phép tổng và tích đại số các tập mờ

Phép cộng đại số hai tập mờ: Cho hai tập mờ trên tập vũ trụ U

Tổng đại số của hai tập mờ này là một tập mờ, ký hiệu là , được định nghĩabởi đẳng thức sau:

Trong trường hợp U là hữu hạn hay vô hạn đếm được,

Trong trường hợp U là vô hạn liên tục,

Trang 19

Lưu ý rằng giá trị biểu thức luôn luôn thuộc [0, 1] và do đó các định nghĩacủa phép tính trên là đúng đắn.

Phép nhân đại số hai tập mờ: Nhân đại số hai tập mờ là một tập mờ, ký hiệu

là , được xác định như sau:

Trong trường hợp U là hữu hạn hay vô hạn đếm được,

Trong trường hợp U là vô hạn liên tục,

1.3.5 Phép tích Descartes các tập mờ

Cho hai tập mờ và xác định trên tập vũ trụ tương ứng U và V Tích

Descartes của và được kí hiệu , là một tập mờ trên tập vũ trụ U V với hàm thuộc

được xác định như sau:

.Cho , i= 1, 2, …, n, được kí hiệu , là một tập mờ trên tập vũ trụ với hàmthuộc được xác định như sau:

Trang 20

1.3.7 Phép dãn

Ngược với phép tập trung là phép dãn Phép dãn khi tác động vào một tập

mờ , ký hiệu là DIL(), được xác định bởi đẳng

thức sau:

Trong Trường hợp này ta thấy và do đó

phép dãn sẽ làm hàm thuộc của tập mờ đó dãn

nở ra, hàm thuộc của tập mờ thu được sẽ xác định một miền thực sự bao hàm

miền giới hạn bởi hàm thuộc của tập mờ gốc

Hình 1.1, ta thấy đường cong nết chấm biểu thị hàm thuộc còn đường congnét liền biểu thị hàm thuộc Ngữ nghĩa của khái niệm mờ biểu thị bởi tập mờ kếtquả ít đặc tả hơn hay ngữ nghĩa của nó càng mờ hơn

Ngược với hay đối ngẫu với việc sử dụng phép CON, phép DIL được sử

dụng dể biểu thị ngữ nghĩa của gia tử có thể hay xấp xỉ vì ngữ nghĩa của khái niệm có thể trẻ ít đặc tả hơn hay tính mờ của nó lớn hơn.

1.3.8 Phép tổ hợp lồi

Cho là tập mờ của tập vũ trụ tương ứng với biến ngôn ngữ Xi, i= 1, 2,

…, n, và wi là các trọng số về mức độ quan trọng tương đối của biến Xi so với

các biến khác, i = 1, 2, …, n, và thỏa ràng buộc

Khi đó tổ hợp lồi của các tập mờ i=1, 2, n, là một tập mờ xác định trên U

= , hàm thuộc của nó được định nghĩa như sau:

Trong đó là tổng số học (chứ không phải là tổng hình thức)

Phép tổ hợp lồi thường được sử dụng để biểu thị ngữ nghĩa của gia tử kiểu

“cốt yếu” (essentially) hay “đặc trưng” hay “đặc tính tiêu biểu” (typically)

Hình 1.1: Phép tập trung

Trang 21

1.4 MỜ HÓA VÀ KHỬ MỜ

1.4.1 Phương pháp mờ hóa

Việc mờ hóa có hai bài toán:

(i) Tìm tập mờ biểu thị một tập kinh điển hay, một cách tổng quát

hơn, hãy mờ hóa một tập mờ đã cho ;(ii) Tìm độ thuộc của giá trị ngôn ngữ của một biến ngôn ngữ tương

ứng với một dữ liệu đầu vào là thực hoặc mờ

Theo nghĩa thứ nhất ta định nghĩa phép mờ hóa như sau:

Phép mờ hóa F của một tập mờ trên tập vũ trụ U sẽ cho ta một tập mờ

được xác định theo công thức sau:

.Trong đó là một tập mờ trên , , được gọi là nhân (kernel) của F

Nếu là hàm thuộc của tập kinh điển 1-phần tử {u}, chỉ bằng 1 tại phần tử ucòn lại là bằng 0 hay ta có tập “mờ” {1/u}, thì ta có:

Cụ thể bài toán mờ hóa trong trường hợp này như sau: Giả sử T là tập các

giá trị ngôn ngữ của một biến ngôn ngữ X nào đó với miền cơ sở U Cho một tập

kinh điển hoặc tập mờ trên U Hãy tìm tập mờ trên miền T biểu thị tập mờ hay,

một cách tương đương, hãy tìm độ thuộc của giá trị trong T tương ứng với dữ

liệu đầu vào

1.4.2 Phương pháp khử mờ

Về trực quan chúng ta có thể đưa ra những yêu cầu để một phương pháp

Trang 22

khử mờ được xem là tốt Hellendoorn, H and C Thomas năm 1993 đã đưa ra 5tiêu chuẩn trực quan sau.

(i) Tính liên tục, nghĩa là một sự thay đổi nhỏ của dữ liệu đầu vào của

phương pháp nó cũng chỉ tạo ra những thay đổi nhỏ ở dữ liệu đầu ra;

(ii) Tính không nhập nhằng (disambiguity), nghĩa là phương pháp chỉ sinh

ra một giá trị đầu ra duy nhất;

(iii) Tính hợp lý (plausibility) đòi hỏi rằng giá trị đầu ra phải nằm ở vùng

trung tâm của tập mờ và độ thuộc hay giá trị hàm thuộc tại đó phải lớn (khôngnhất thiết lớn nhất);

(iv) Độ phức tạp tính đơn giản (computational simplicity), một đòi hỏi tự nhiên (v) Tính trọng số của phương pháp (weighting method) đòi hỏi phương

pháp tính đến trọng số hay “sự ưu tiên” của các tập mờ kết quả đầu ra (đối vớitrường hợp bài toán cho nhiều kết quả đầu ra như đối với một số phương pháp lậpluận mờ đa điều kiện)

Nói chung, chúng ta có thể hiểu các tiêu chuẩn cần bảo đảm giá trị khử mờ

của tập mờ là phần tử thực đại diện một cách hợp lý của

Sau đây chúng ta nghiên cứu một vài phương pháp khử mờ

1.4.2.1 Phương pháp cực đại trung bình (average maximum)

Cho tập mờ với hàm thuộc Gọi tương ứng là hai giá trị nhỏ nhất và lớnnhất của miền cơ sở U mà tại đó hàm thuộc nhận giá trị lớn nhất (cực đại toànphần) Ký hiệu giá trị khử ở của theo phương pháp cực đại trung bình là Khi đóđược định nghĩa như sau:

Ý tưởng của phương pháp này là chúng ta chỉ quan tâm đến các giá trị của U

mà tại đó nó phù hợp hay tương thích với ngữ nghĩa của tập mờ nhất, tại đó độ thuộc

là cực đại toàn phần Những giá trị khác của U mà tại đó độ thuộc nhỏ hơn 1 đều bị

bỏ qua Vì vậy, một khả năng lựa chọn giá trị khử mờ là giá trị trung bình của giá trịnhỏ nhất và giá trị lớn nhất tại đó độ thuộc vào tập mờ là lớn nhất Đó chính là lý do

Trang 23

người ta gọi phương pháp khử mờ này là phương pháp cực đại trung bình.

1.4.2.2 Phương pháp cực đại trung bình có trọng số

Ý tưởng của phương pháp này là tìm những đoạn tại đó hàm thuộc đạt cựcđại địa phương Nghĩa là tại các giá trị của miền cơ sở mờ độ thuộc của chúng đạtcực đại địa phương Nói khác đi các giá trị đó của U thuộc về tập mờ với độ tin cậy

có độ trội nhất Các giá trị như vậy cần được tham gia “đóng góp” vào việc xác địnhgiá trị khử mở của tập với trọng số đóng góp chính là độ thuộc của chúng vào tập Chúng ta chọn cách đóng góp như vậy bằng phương pháp lấy trung bình có trọng số(weighted average maxima method) Vì vậy cách tính giá trị khử mờ của tập mờnhư sau:

Xác định các giá trị của U mà tại đó hàm thuộc đạt giá trị cực đại địaphương Ký hiệu là giá trị lớn nhất và nhỏ nhất trong các giá trị của U mà tại đóhàm thuộc đạt cực đại địa phương Giá trị trung bình cộng của sẽ được ký hiệu là ,trong đó, chỉ số i chỉ nó là giá trị tương ứng với giá trị cực đại địa phương thứ i

Giả sử hàm thuộc có m giá trị cực đại địa phương, i = 1, 2, …, m Khi đó giátrị khử mờ của tập mờ được tính theo công thức trung bình cộng có trọng số nhưsau:

Trang 24

Chương 2: MỘT SỐ PHƯƠNG PHÁP PHÂN CỤM MỜ

Trang 25

Định nghĩa 2.2:

Một sự phân cụm mờ tập X thành m cụm được mô tả bởi m hàm

Mỗi cụm trong trường hợp này có thể không được định nghĩa chính xác.Nghĩa là mỗi vector x thuộc về nhiều hơn một cụm, với mỗi cụm nó lại thuộc về với

độ thuộc :

 gần 1: mức độ thuộc của x vào cụm thứ j cao;

 gần 0: mức độ thuộc của x vào cụm thứ j thấp

Nếu một hàm thuộc có giá trị gần 1 với hai vector thì hai vector này được coi

là tương tự nhau Điều kiện (2.3) đảm bảo rằng không tồn tại một cụm mà không

chứa bất kỳ vector nào Định nghĩa 2.1 là một trường hợp riêng của định nghĩa 2.2

khi hàm thuộc chỉ nhận hai giá trị 0 và 1, lúc này nó được gọi là hàm đặc trưng

Để tối ưu hóa, các thuật giải phân cụm, dữ liệu yêu cầu phải được chuẩn hóa

Có 2 dạng chuẩn hóa dữ liệu phổ biến:

(i) Min-max normalization: khi muốn giá trị chuẩn hóa nằm trong đoạn 0 1

(ii) Z-score standardization: Giá trị chuẩn hóa trong đoạn -3…3

Ngoài phương pháp sử dụng khoảng cách để tính độ “tương tự”, phân cụm

dữ liệu còn tính độ “tương tự” dựa vào khái niệm: hai hay nhiều đối tượng thuộc

cùng nhóm nếu có một định nghĩa khái niệm chung cho tất cả các đối tượng trong

đó Nói cách khác, đối tượng của nhóm phải phù hợp với nhau theo miêu tả các kháiniệm đã được định nghĩa, không phải theo những biện pháp đơn giản tương tự

2.1.2 Mục tiêu của phân cụm dữ liệu

Mục tiêu của phân cụm dữ liệu là để xác định các nhóm nội tại bên trong một

Trang 26

ĐẶT TẢ BÀI TOÁN CHỌN ĐỘ ĐO KHOẢNG CÁCH CHỌN THỦ THỤC PHÂN CỤM QUYẾT ĐỊNH SỐ CỤM

MÔ TẢ SƠ LƯỢC VÀ TRÌNH BÀY CÁC CỤM ĐÁNH GIÁ TÍNH HỢP LỆ CỦA CÁC CỤM

bộ dữ liệu không có nhãn Nhưng để có thể quyết định được cái gì tạo thành mộtcụm tốt Nhưng làm thế nào để quyết định cái gì đã tạo nên một phân cụm dữ liệutốt? Nó có thể được hiển thị rằng không có tiêu chuẩn tuyệt đối “tốt nhất” mà sẽ làđộc lập với mục đích cuối cùng của phân cụm dữ liệu Do đó, mà người sử dụngphải cung cấp tiêu chuẩn, theo cách như vậy mà kết quả của phân cụm dữ liệu sẽphù hợp với nhu cầu của họ cần

Một vấn đề thường gặp trong phân cụm là hầu hết các dữ liệu cần cho phân cụmđều có chứa dữ liệu nhiễu do quá trình thu thập thiếu chính xác hoặc thiếu đầy đủ, vìvậy cần phải xây dựng chiến lược cho bước tiền xử lí dữ liệu nhằm khắc phục hoặc loại

bỏ nhiễu trước khi chuyển sang giai đoạn phân tích cụm dữ liệu Nhiễu ở đây đượchiểu là các đối tượng dữ liệu không chính xác, không tường minh hoặc là các đối tượng

dữ liệu khuyết thiếu thông tin về một số thuộc tính Một trong các kỹ thuật xử lí nhiễuphổ biến là việc thay thế giá trị các thuộc tính của đối tượng nhiễu bằng giá trị thuộctính tương ứng Ngoài ra, dò tìm đối tượng ngoại lai cũng là một trong những hướngnghiên cứu quan trọng trong phân cụm, chức năng của nó là xác định một nhóm nhỏcác đối tượng dữ liệu khác thường so với các dữ liệu trong cơ sở dữ liệu

2.1.3 Quy trình phân cụm dữ liệu

Để giải bài toán phân cụm, ta cần thực hiện theo quy trình sau:

2.1.4 Yêu cầu trong phân cụm dữ liệu

Phân cụm là một thách thức trong lĩnh vực nghiên cứu ở chỗ những ứng

Trang 27

dụng tiềm năng của chúng được đưa ra ngay chính trong những yêu cầu đặc biệt củachúng Sau đây là những yêu cầu cơ bản của phân cụm trong khai phá dữ liệu:

 Có khả năng mở rộng: nhiều thuật toán phân cụm làm việc tốt với những tập

dữ liệu nhỏ chứa ít hơn 200 đối tượng, tuy nhiên, một cơ sở dữ liệu lớn cóthể chứa tới hàng triệu đối tượng Việc phân cụm với một tập dữ liệu lớn cóthể làm ảnh hưởng tới kết quả Vậy làm cách nào để chúng ta có thể pháttriển các thuật toán phân cụm có khả năng mở rộng cao đối với các cơ sở dữliệu lớn?

 Khả năng thích nghi với các kiểu thuộc tính khác nhau: nhiều thuật toánđược thiết kế cho việc phân cụm dữ liệu có kiểu khoảng (kiểu số) Tuy nhiên,nhiều ứng dụng có thể đòi hỏi việc phân cụm với nhiều kiểu dữ liệu khácnhau, như kiểu nhị phân, kiểu tường minh (định danh - không thứ tự), và dữliệu có thứ tự hay dạng hỗn hợp của những kiểu dữ liệu này

 Khám phá các cụm với hình dạng bất kỳ: nhiều thuật toán phân cụm xác địnhcác cụm dựa trên các phép đo khoảng cách Euclidean và khoảng cáchManhattan Các thuật toán dựa trên các phép đo như vậy hướng tới việc tìmkiếm các cụm hình cầu với mật độ và kích cỡ tương tự nhau Tuy nhiên, mộtcụm có thể có bất cứ một hình dạng nào

 Tối thiểu lượng tri thức cần cho xác định các tham số đầu vào

 Kết quả của phân cụm thường khá nhạy cảm với các tham số đầu vào Nhiềutham số rất khó để xác định, nhất là với các tập dữ liệu có lượng các đốitượng lớn

 Khả năng thích nghi với dữ liệu nhiễu: hầu hết những cơ sở dữ liệu thực đềuchứa đựng dữ liệu ngoại lai, dữ liệu lỗi, dữ liệu chưa biết hoặc dữ liệu sai

 Ít nhạy cảm với thứ tự của các dữ liệu vào: một số thuật toán phân cụm nhạycảm với thứ tự của dữ liệu vào

 Số chiều lớn: một cơ sở dữ liệu hoặc một kho dữ liệu có thể chứa một sốchiều hoặc một số các thuộc tính

Trang 28

 Phân cụm ràng buộc: nhiều ứng dụng thực tế có thể cần thực hiện phân cụmdưới các loại ràng buộc khác nhau

 Dễ hiểu và dễ sử dụng: Nghĩa là, sự phân cụm có thể cần được giải thích ýnghĩa và ứng dụng rõ ràng

Với những yêu cầu đáng lưu ý này, nghiên cứu của ta về phân tích phân cụmdiễn ra như sau:

 Đầu tiên, ta nghiên cứu các kiểu dữ liệu khác nhau và cách chúng có thể gâyảnh hưởng tới các phương pháp phân cụm

 Thứ hai, ta đưa ra một cách phân loại chung trong các phương pháp phân cụm Sau đó, ta nghiên cứu chi tiết mỗi phương pháp phân cụm, bao gồm cácphương pháp phân hoạch, phân cấp, dựa trên mật độ,

2.1.5 Vấn đề còn tồn tại trong phân cụm dữ liệu

Có một số vấn đề với phân cụm dữ liệu Một trong số đó là:

 Kỹ thuật phân cụm hiện nay không trình bày được tất cả các yêu cầu đầy đủ(và đồng thời);

 Giao dịch với số lượng lớn các mẫu và số lượng lớn các mẫu tin của dữ liệu

có thể gặp vấn đề phức tạp về thời gian;

 Hiệu quả của phương pháp phụ thuộc vào định nghĩa của “khoảng cách” (đốivới phân cụm dữ liệu dựa trên khoảng cách) Nếu không tồn tại một thước đókhoảng cách rõ ràng chúng ta “phải tự xác định”, một điều mà không thật sự

dễ dàng chút nào, nhất là trong không gian đa chiều;

Kết quả của thuật toán phân cụm dữ liệu có thể được giải thích theo nhiềucách khác nhau (mà trong nhiều trường hợp chỉ có thể được giải thích theo ý riêngcủa mỗi người)

2.1.6 Phân loại các kiểu dữ liệu

2.1.6.1 Phân loại các kiểu dữ liệu dựa trên kích thước miền

Trang 29

 Thuộc tính liên tục (Continuous Attribute): nếu miền giá trị của nó là vô hạnkhông đếm được

 Thuộc tính rời rạc (DiscretteAttribute): Nếu miền giá trị của nó là tập hữuhạn, đếm được

 Lớp các thuộc tính nhị phân: là trường hợp đặc biệt của thuộc tính rời rạc màmiền giá trị của nó chỉ có 2 phần tử được diễn tả như: Yes / No hoặcNam/Nữ, False/true,…

2.1.6.2 Phân loại các kiểu dữ liệu dựa trên hệ đo

Giả sử rằng chúng ta có hai đối tượng x, y và các thuộc tính tương ứng vớithuộc tính thứ i của chúng Chúng ta có các lớp kiểu dữ liệu như sau:

 Thuộc tính định danh (Nominal Scale): đây là dạng thuộc tính khái quát hoácủa thuộc tính nhị phân, trong đó miền giá trị là rời rạc không phân biệt thứ

tự và có nhiều hơn hai phần tử - nghĩa là nếu x và y là hai đối tượng thuộctính thì chỉ có thể xác định là x ≠ y hoặc x = y

 Thuộc tính có thứ tự (Ordinal Scale): là thuộc tính định danh có thêm tínhthứ tự, nhưng chúng không được định lượng Nếu x và y là hai thuộc tính thứ

tự thì ta có thể xác định là

 Thuộc tính khoảng (Interval Scale): Với thuộc tính khoảng, chúng ta có thểxác định một thuộc tính là đứng trước hoặc đứng sau thuộc tính khác với mộtkhoảng là bao nhiêu Nếu thì ta nói x cách y một khoảng tương ứng vớithuộc tính thứ i

 Thuộc tính tỉ lệ (Ratio Scale): là thuộc tính khoảng nhưng được xác định mộtcách tương đối so với điểm mốc, thí dụ như thuộc tính chiều cao hoặc cânnặng lấy điểm 0 làm mốc Trong các thuộc tính dữ liệu trình bày ở trên,thuộc tính định danh và thuộc tính có thứ tự gọi chung là thuộc tính hạngmục (Categorical), thuộc tính khoảng và thuộc tính tỉ lệ được gọi là thuộctính số (Numeric)

Trang 30

2.1.7 Độ đo tương tự và phi tương tự

Để phân cụm, người ta phải đi tìm cách thích hợp để xác định “khoảng cách”giữa các đối tượng, hay là phép đo tương tự dữ liệu Đây là các hàm để đó sự giốngnhau giữa các cặp đối tượng dữ liệu, thông thường các hàm này hoặc là để tính độtương tự (Similar) hoặc là tính độ phi tương tự (Dissimilar) giữa các đối tượng dữ liệu

2.1.7.1 Không gian metric

Tất cả các độ đo dưới đây được xác định trong không gian độ đo metric Mộtkhông gian metric là một tập trong đó có xác định các “khoảng cách” giữa từng cặpphần tử, với những tính chất thông thường của khoảng cách hình học Nghĩa là, mộttập X (các phần tử của nó có thể là những đối tượng bất kỳ) các đối tượng dữ liệutrong cơ sở dữ liệu D như đã đề cập ở trên được gọi là một không gian metric nếu:

 Với mỗi cặp phần tử x, y thuộc X đều có xác định, theo một quy tắc nào đó,một số thực δ(x, y), được gọi là khoảng cách giữa x và y

 Quy tắc nói trên thoả mãn hệ tính chất sau:

 δ(x, y) > 0 nếu x ≠ y ;

 δ(x, y)=0 nếu x =y;

 δ(x, y) = δ(y, x) với mọi x, y;

Trang 31

 Khoảng cách Euclidean (đây là trường hợp đặc biệt của khoảng cáchMinskowski trong trường hợp q=2.):

 Khoảng cách Manhattan (đây là trường hợp đặc biệt của khoảng cáchMinskowski trong trường hợp q=1.):

 Khoảng cách cực đại (đây là trường hợp đặc biệt của khoảng cáchMinskowski trong trường hợp

b) Một độ đo tương tự (Similarity Measure - SM) s trên X là một hàm:

Trang 32

thì s được gọi là một SM metric.

c) Tiếp theo ta sẽ mở rộng định nghĩa trên để có thể đo độ gần gũi giữa các tậpcon của X

Cho U là một lớp các tập con của X, nghĩa là các và

Một độ đo tương tự trên U là một hàm:

Các công thức (2.4) – (2.8) cho độ đo không tương tự và (2.9) - (2.13) cho độ đotương tự được lặp lại với việc thay thế x, y, X lần lượt bởi

Thông thường, các độ đo tương tự giữa hai tập được định nghĩa thông qua

độ đo gần gũi giữa các phần tử của chúng

Ví dụ: Cho

và hàm không tương tự: Với là khoảng cách Euclid giữa hai vector

Giá trị nhỏ nhất có thể của là 0 Vì khoảng cách Euclid giữa một vector vớibản thân nó bằng 0 nên và

Vì vậy hàm này là một độ đo không tương tự nhưng nó không phải là một độ

đo không tương tự metric vì (2.7) không thoả mãn Thật vậy, hãy xét các vector cóphần tử chung, chẳng hạn: và thì trong khi chúng là hai tập khác nhau

Một cách trực giác thì các định nghĩa trên cho thấy các DM là “ngược” vớicác SM Chẳng hạn, nếu d là một DM (metric) với thì với là một SM (metric);cũng là một SM (metric), với là khoảng cách lớn nhất trong mọi cặp phần tử của X.Các nhận xét tương tự cũng đúng cho độ đo tương tự và không tương tự giữa cáctập vector

Trang 33

Trong phần tiếp theo, ta sẽ kí hiệu và lần lượt là các giá trị max và min của tập

dữ liệu X (khoảng cách lớn nhất và nhỏ nhất trong mọi cặp phần tử của X )

2.2 MỘT SỐ KỸ THUẬT PHÂN CỤM DỮ LIỆU

Các kỹ thuật phân cụm có rất nhiều cách tiếp cận và các ứng dụng trong thực

tế, nó đều hướng tới hai mục tiêu chung đó là chất lượng của các cụm khám pháđược và tốc độ thực hiện của thuật toán Hiện nay, các kỹ thuật phân cụm có thểphân loại theo các phương pháp tiếp cận chính như sau: phân cụm phân hoạch(Partitioning Methods); phân cụm phân cấp (Hierarchical Methods); phân cụm dựatrên mật độ (Density-Based Methods); phân cụm dựa trên lưới (Grid-BasedMethods); phân cụm dựa trên mô hình phân cụm (Model-Based Phân cụmMethods) và phân cụm có dữ liệu ràng buộc (Binding data Phân cụm Methods)

2.2.1 Phân cụm phân hoạch

2.2.1.1 Giới thiệu

Kỹ thuật này phân hoạch một tập hợp dữ liệu có n phần tử thành k phần mỗiphần đại diện cho một cụm k ≤ n thỏa các yêu cầu sau:

 Mỗi nhóm phải chứa ít nhất một đối tượng;

 Mỗi đối tượng phải thuộc về chính xác một nhóm (yêu cầu thứ 2 được nớilỏng trong kỹ thuật phân chia cụm mờ)

Số các cụm được thiết lập là các đặc trưng được lựa chọn trước Phươngpháp này là tốt cho việc tìm các cụm hình cầu trong không gian Euclidean Ngoài

ra, phương pháp này cũng phụ thuộc vào khoảng cách cơ bản giữa các điểm để lựachọn các điểm dữ liệu nào có quan hệ là gần nhau với mỗi điểm khác và các điểm

dữ liệu nào không có quan hệ hoặc có quan hệ là xa nhau so với mỗi điểm khác.Tuy nhiên, phương pháp này không thể xử lí các cụm có hình dạng kỳ quặc hoặccác cụm có mật độ các điểm dày đặc Các thuật toán phân hoạch dữ liệu có độ phứctạp rất lớn khi xác định nghiệm tối ưu toàn cục cho vấn đề phân cụm dữ liệu, do nóphải tìm kiếm tất cả các cách phân hoạch có thể được Chính vì vậy, trên thực tếthường đi tìm giải pháp tối ưu cục bộ cho vấn đề này bằng cách sử dụng một hàm

Trang 34

tiêu chuẩn để đánh giá chất lượng của cụm cũng như để hướng dẫn cho quá trìnhtìm kiếm phân hoạch dữ liệu Như vậy, ý tưởng chính của thuật toán phân cụm phânhoạch tối ưu cục bộ là sử dụng chiến lược tham lam (Greedy) để tìm kiếm nghiệm

Điển hình trong phương pháp tiếp cận theo phân cụm phân hoạch là các thuậttoán như: K_means (MacQueen 1967), K-medoids (Kaufman và Rousseew 1987),PAM (Partition Around Medoids), CLASA (Clustering Large Applications based onSimulated Annealing), CLARANS (Clustering Large Applications based on

RAndomized Search)

2.2.1.2 Một số thuật toán cơ bản

a) Thuật toán KMEANS

Thuật toán này dựa trên độ đo khoảng cách của các đối tượng dữ liệu trong

cụm Mục đích của thuật toán k-means là sinh k cụm dữ liệu từ một tập dữ liệu chứa n đối tượng trong không gian d chiều , , sao cho tối thiểu hàm tiêu chuẩn:

Trang 35

Bước 2: Lặp cho đến khi các trọng tâm của cụm không thay đổi.

 Tính toán khoảng cách: Đối với mỗi điểm xi tính toán khoảng cáchcủa nó tới mỗi trọng tâm Sau đó tìm trọng tâm gần nhất đối với mỗiđiểm

 Cập nhật lại trọng tâm

 Đối với mỗi , cập nhật trọng tâm cụm bằng cách xác định trung bìnhcộng các vector đối tượng dữ liệu

- Đánh giá thuật toán:

Độ phức tạp tính toán là Trong đó, n là số đối tượng dữ liệu, k là số cụm dữliệu, d là số chiều, là số vòng lặp, là thời gian để thực hiện một phép tính cơ sởnhư phép tính nhân, chia

+ Ưu điểm: K-means phân tích phân cụm đơn giản nên có thể áp dụng đốivới tập dữ liệu lớn

+ Nhược điểm: K-means không khắc phục được nhiễu và giá trị k phải đượccho bởi người dùng, chỉ thích hợp áp dụng với dữ liệu có thuộc tính số và khám racác cụm có dạng hình cầu

b) Thuật toán K_METHOID (PAM)

Giải thuật k-means rất nhạy với các phần tử ngoại lai, do vậy một đối tượng giátrị cực lớn về cơ bản sẽ làm thay đổi tâm cụm và có thể bóp méo phân bổ của dữ liệu

Hình 2.2: Sự thay đổi tâm cụm trong k-means khi có phần tử ngoại lai

Trang 36

Ý tưởng của k-medoids thay vì lấy giá trị trung bình của các đối tượng trongcụm như một điểm tham khảo, k-medoids lấy một đối tượng đại diện trong cụm, gọi

là medoid, nó là điểm đại diện được định vị trung tâm nhất trong cụm Do vậy,phương pháp phân chia vẫn được thực hiện dựa trên nguyên tắc tối thiểu hoá tổngcác độ không tương đồng giữa mỗi đối tượng với điểm tham khảo tương ứng của

nó, điểm này thiết lập nên cơ sở của phương pháp k-mediods

Giải thuật PAM, đây là giải thuật phân cụm kiểu k-mediods Nó tìm k cụmtrong n đối tượng bằng cách trước tiên tìm một số đối tượng đại diện (medoid) chomỗi cụm Tập các medoid ban đầu được lựa chọn tuỳ ý Sau đó nó lặp lại các thaymột trong số các medoid bằng một trong số những cái không phải medoid miễn làtổng khoảng cách của kết quả phân cụm được cải thiện

Giải thuật thử xác định k phần phân chia cho n đối tượng Sau khi lựa chọnđược k-medoids ban đầu, giải thuật lặp lại việc thử để có một sự lựa chọn cácmedoid tốt hơn bằng cách phân tích tất cả các cặp đối tượng có thể để một đốitượng là medoid và đối tượng kia thì không phải Phép đo chất lượng phân cụmđược tính cho mỗi sự kết hợp như vậy Lựa chọn các điểm tốt nhất trong một lần lặpđược chọn với tư cách là các medoid cho lần lặp tiếp theo

Input: Số cụm k và một cơ sở dữ liệu chứa n đối tượng

Output: Một tập k cụm đã tối thiểu hoá tổng các độ đo không tương đồng

của tất cả các đối tượng tới medoid gần nhất của chúng

Thuật toán:

Bước 1. Chọn tuỳ ý k đối tượng giữ vai trò là các medoid ban đầu;

Bước 2. Lặp cho đến khi không có sự thay đổi nào

 Ấn định mỗi đối tượng vào cụm có medoid gần nó nhất;

 Tính hàm mục tiêu (tổng các độ đo tương đồng của tất cả các đối tượngtới medoid gần nhất cùa chúng);

 Đổi medoid x bằng một đối tượng y nếu như việc thay đổi này làm giảm

hàm mục tiêu;

Trang 37

- Đánh giá thuật toán:

+ Độ phức tạp cho một lần lặp đơn là O(k(n - k)2)

+ Ưu điểm: có thể xác định đối tượng ngoại lai

+ Nhược điểm: không thích hợp cho phân cụm dữ liệu có số lượng n lớn và

Hình 2.3: Phân cụm phân cấp Top-down và Bottom-up

Phương pháp “dưới lên” (Bottom up): Phương pháp này bắt đầu với mỗi đối

tượng được khởi tạo tương ứng với các cụm riêng biệt, sau đó tiến hànhnhóm các đối tượng theo một độ đo tương tự (như khoảng cách giữa haitrung tâm của hai nhóm), quá trình này được thực hiện cho đến khi tất cả cácnhóm được hòa nhập vào một nhóm (mức cao nhất của cây phân cấp) hoặccho đến khi các điều kiện kết thúc thỏa mãn Như vậy, cách tiếp cận này sửdụng chiến lược tham lam trong quá trình phân cụm

Trang 38

Phương pháp “trên xuống” (Top_Down): Bắt đầu với trạng thái là tất cả các

đối tượng được xếp trong cùng một cụm Mỗi vòng lặp thành công, một cụmđược tách thành các cụm nhỏ hơn theo giá trị của một phép đo độ tương tựnào đó cho đến khi mỗi đối tượng là một cụm, hoặc cho đến khi điều kiệndừng thỏa mãn Cách tiếp cận này sử dụng chiến lược chia để trị trong quátrình phân cụm

Điển hình trong phương pháp tiếp cận theo phân cụm phân cấp là các thuậttoán như: AGNES (Agglomerative Nesting), DIANA (Divisive Analysis), BIRCH

Trang 39

 Average Link: khoảng cách trung bình 2 nhóm

a) Thuật toán CURE

Trong khi hầu hết các thuật toán thực hiện phân cụm với các cụm hình cầu vàkích thước tương tự, như vậy là không hiệu quả khi xuất hiện các phần tử ngoại lai.Thuật toán Cure khắc phục được vấn đề này và tốt hơn với các phần tử ngoại lai

Cure là thuật toán sử dụng chiến lược bottom-up của phương pháp phân cụmphân cấp Khác với các thuật toán phân cụm phân hoạch, thuật toán Cure sử dụngnhiều đối tượng để biểu diễn cho một cụm thay vì sử dụng các trọng tâm hay đốitượng tâm Các đối tượng đại diện của một cụm ban đầu được chọn rải rác đều ởcác vị trí khác nhau, sau đó chúng được di chuyển bằng cách co lại theo một tỉ lệnhất định nào đó, quá trình này được lặp lại và nhờ vậy trong quá trình này, có thể

đo tỉ lệ gia tăng của cụm Tại mỗi bước của thuật toán, hai cụm có cặp các điểm đạidiện gần nhau (mỗi điểm trong cặp thuộc về mỗi cụm khác nhau) được hòa nhập haiđối tượng đại diện gần nhất sẽ được trộn lại thành một cụm

Để xử lí được các cơ sở dữ liệu lớn, Cure sử dụng mẫu ngẫu nhiên và phânhoạch, một mẫu là được xác định ngẫu nhiên trước khi được phân hoạch và sau đótiến hành phân cụm trên mỗi phân hoạch, như vậy mỗi phân hoạch là từng phần đãđược phân cụm, các cụm thu được lại được phân cụm lần thứ hai để thu được cáccụm con mong muốn, nhưng mẫu ngẫu nhiên không nhất thiết đưa ra một mô tả tốtcho toàn bộ tập dữ liệu Chọn một mẫu ngẫu nhiên S từ tập dữ liệu ban đầu

Input: Tập dữ liệu với n đối tượng

Output: Các cụm C[i] (1 i k)

Thuật toán:

Bước 1 Phân hoạch mẫu S thành các nhóm dữ liệu có kích thước bằng nhau Bước 2 Tiến hành phân cụm riêng rẽ cho mỗi nhóm

Trang 40

Bước 3 Loại bỏ các đối tượng ngoại lai bằng việc lấy mẫu ngẫu nhiên Nếu

một cụm tăng trưởng quá chậm thì loại bỏ nó

Bước 4 Phân cụm cho các cụm riêng biệt: Các đối tượng đại diện được di

chuyển về phía tâm của cụm mới hình thành Các đối tượng này sẽ mô tảhình dạng cụm đó

Bước 5 Đánh dấu dữ liệu với các nhãn cụm tương ứng.

- Đánh giá thuật toán:

Độ phức tạp tính toán của thuật toán Cure là

+ Ưu điểm: Cure là thuật toán tin cậy trong việc khám phá ra các cụm vớihình thù bất kỳ và có thể áp dụng tốt đối với dữ liệu có phần tử ngoại lai và trên cáctập dữ liệu hai chiều

+ Nhược điểm: Cure là dễ bị ảnh hưởng bởi các tham số cho bởi người dùngnhư cỡ mẫu, số cụm mong muốn, tỉ lệ co của các phần tử đại điện

b) Thuật toán CHAMELEON

Phương pháp Chameleon một cách tiếp cận khác trong việc phân cụm đượcphát triển bởi Karypis, Han và Kumar năm 1999, sử dụng mô hình động trong phâncụm phân cấp

Chameleon có được dựa trên quan sát các yếu điểm của giải thuật phân cụmphân cấp Cure, ở đó Cure và các lược đồ đã bỏ qua thông tin về liên kết của các đốitượng trong hai cụm khác nhau

Trước đầu tiên của Chameleon là xây dựng một đồ thị mật độ thưa và sau đóứng dụng một thuật toán phân vùng đồ thị để phân cụm dữ liệu với số lớn của cáccụm con Tiếp theo, Chameleon thực hiện tích tụ phân cụm phân cấp như Agnes,bằng hòa nhập các cụm con nhỏ theo hai phép đo, mối quan hệ kết nối và mối quan

hệ gần gũi của các nhóm con

Thuật toán này dựa trên tiếp cận đồ thị k-láng giềng gần nhất Chameleon chỉ ra

sự tương đồng giữa mỗi cặp các cụm và theo liên kết tương đối và độ chặt tươngđối của chúng Liên kết tương đối giữa hai cụm và Cj được định nghĩa như liên kết

Ngày đăng: 16/10/2018, 07:59

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[2]. Vũ Thị Lành (2014), Một số độ đo mức tương tự giữa các tập mờ trực cảm (Vague sets), thử nghiệm phân cụm dữ liệu, Luận văn tốt nghiệp chuyên nghành khoa học máy tính, đại học Thái Nguyên Sách, tạp chí
Tiêu đề: Một số độ đo mức tương tự giữa các tập mờ trực cảm(Vague sets), thử nghiệm phân cụm dữ liệu
Tác giả: Vũ Thị Lành
Năm: 2014
[3]. Trần Tuấn Minh (2009), Nghiên cứu một số phương pháp khai thác dữ liệu và ứng dụng, Báo cáo đề tài khoa học cấp bộ, trường đại học Đà Lạt Sách, tạp chí
Tiêu đề: Nghiên cứu một số phương pháp khai thác dữ liệu vàứng dụng
Tác giả: Trần Tuấn Minh
Năm: 2009
[4]. An Hồng Sơn (2008), Nghiên cứu một số phương pháp phân cụm mờ và ứng dụng, Luận văn thạc sĩ khoa học, đại học Thái Nguyên Sách, tạp chí
Tiêu đề: Nghiên cứu một số phương pháp phân cụm mờ và ứngdụng
Tác giả: An Hồng Sơn
Năm: 2008
[5]. Trần Mạnh Tuấn (2016), Nghiên cứu một số phương pháp phân cụm bán giám sát mờ trong phân đoạn ảnh nha khoa, Luận án tiến sĩ toán học, Viện Hàn Lâm Khoa Học và Công Nghệ Việt Nam.Tài liệu tiếng anh Sách, tạp chí
Tiêu đề: Nghiên cứu một số phương pháp phân cụm bán giámsát mờ trong phân đoạn ảnh nha khoa
Tác giả: Trần Mạnh Tuấn
Năm: 2016
[6]. A.Safana, J.S.Leena Jasmine (2014), Possibilistic Fuzzy C Means Algorithm For Mass classificaion In Digital Mammogram, Senior Grade Assistant professor, PG Velammal Engineering College, Chennai Sách, tạp chí
Tiêu đề: Possibilistic Fuzzy C Means AlgorithmFor Mass classificaion In Digital Mammogram
Tác giả: A.Safana, J.S.Leena Jasmine
Năm: 2014
[7]. A.K. Jain, R.C. Dubes (1998), Algorithms for clustering data, Ptentice Hall, Englewood Cliffs, NJ Sách, tạp chí
Tiêu đề: Algorithms for clustering data
Tác giả: A.K. Jain, R.C. Dubes
Năm: 1998
[8]. D. Gibson, J. Kleinberg, P. Raghavan (2000), Clustering Categorical Data: An Approach Based on Dynamical Systems, VLDB Journal 8 (3-4) pp. 222-236 Sách, tạp chí
Tiêu đề: Clustering Categorical Data: AnApproach Based on Dynamical Systems
Tác giả: D. Gibson, J. Kleinberg, P. Raghavan
Năm: 2000
[9]. D.Vanisri (2014), “A Novel Kernel Based Fuzzy C Means Clustering With Cluster Validity Measures”, International Journal of Computer Science and Mobile Computing, Vol.3 Issue.12, pg. 254-260 Sách, tạp chí
Tiêu đề: A Novel Kernel Based Fuzzy C Means Clustering WithCluster Validity Measures”, "International Journal of Computer Science andMobile Computing
Tác giả: D.Vanisri
Năm: 2014
[10]. Eui-Hong (Sam) Han, George Karypis, Vipin Kumar (2000), CHAMELEON:A Hierarchical Clustering Algorithm Using Dynamic Modeling, Glaros.dtc.umn.edu/gkhome/fetch/papers/chameleon.pdf, Wednesday, July 25, 2018, 10:45:46 AM Sách, tạp chí
Tiêu đề: CHAMELEON:"A Hierarchical Clustering Algorithm Using Dynamic Modeling
Tác giả: Eui-Hong (Sam) Han, George Karypis, Vipin Kumar
Năm: 2000
[11]. G.Gong (1998), Hepatitis Data Set, https://archive.ics.uci.edu/ml/machine-learning-databases/hepatitis, Friday, August 3, 2018, 9:04:47 PM Sách, tạp chí
Tiêu đề: Hepatitis Data Set
Tác giả: G.Gong
Năm: 1998
[12]. Martin Theus – Lehrstuhl fur Rechner (2004), Fuzzy Clustering, Martin Theus – Lehrstuhl fur Rechner orientierte Statistik und Datenanalse Multivariate Statistische erfahrn-ss2004+E8 Sách, tạp chí
Tiêu đề: Fuzzy Clustering
Tác giả: Martin Theus – Lehrstuhl fur Rechner
Năm: 2004
[13]. Jon Garibaldi, Turhan Ozen, Xiao Ying Wang (2003), “Application of the Fuzzy C-Means Clustering Method on the Analysis of non-Preprocessed FTIR Data for Cancer Diagnosis”, Department of Computer Science and Information Technology The University of Nottingham, United Kingdom Sách, tạp chí
Tiêu đề: Application of theFuzzy C-Means Clustering Method on the Analysis of non-Preprocessed FTIRData for Cancer Diagnosis
Tác giả: Jon Garibaldi, Turhan Ozen, Xiao Ying Wang
Năm: 2003
[14]. J. Han, M. Kamber (2001), “Data Mining Concepts and Techniques”, Morgan Kaufmann Publishers Sách, tạp chí
Tiêu đề: Data Mining Concepts and Techniques
Tác giả: J. Han, M. Kamber
Năm: 2001
[15]. Qiuyi Wu (2017), “Epileptic Seizure Recognition Data Set”, https://archive.ics.uci.edu/ml/machine-learning-databases/ Epileptic, Thursday, March 22, 2018, 10:03:22 AM Sách, tạp chí
Tiêu đề: Epileptic Seizure Recognition Data Set
Tác giả: Qiuyi Wu
Năm: 2017
[16]. TSUEN-HO HSU (1999), “An Application of Fuzzy Clustering in Group- Positioning Analysis”, Proc. Natl. Sci, Counc. ROC© Vol. 10, No. 2, 2000.pp. 157-167 Sách, tạp chí
Tiêu đề: An Application of Fuzzy Clustering in Group-Positioning Analysis"”
Tác giả: TSUEN-HO HSU
Năm: 1999
[17]. Shiqin Yang (2017), Research on Homogeneous and Heterogeneous Particle Swarm Optimization for Global Optimization Problems, Hosei University Sách, tạp chí
Tiêu đề: Research on Homogeneous and Heterogeneous ParticleSwarm Optimization for Global Optimization Problems
Tác giả: Shiqin Yang
Năm: 2017

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w