Tiểu luận công nghệ tri thức và ứng dụng THUẬT TOÁN K-MEAN TRONG PHÂN CỤM DỮ LIỆU VÀ ỨNG DỤNG

thuật toán phân cụm, có những thuật toán phù hợp với dữ liệu số, có những thuật toán khi áp dụng cho loại dữ liệu nhị phân hay dữ liệu ảnh …  Nhận biết đƣợc các cụm với hình thù bất kỳ:

Trang 1

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA: KHOA HỌC MÁY TÍNH



TIỂU LUẬN

CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG

THUẬT TOÁN K-MEAN TRONG PHÂN CỤM DỮ LIỆU VÀ ỨNG DỤNG

Giảng viên hướng dẫn : GS.TSKH HOÀNG KIẾM

- NGUYỄN KHẮC MẪN _ CH1101102

Lớp : CH06

TP Hồ Chí Minh, tháng 5 năm 2012

Trang 2

Lời cảm ơn

Trước tiên, nhóm chúng em xin cảm ơn thầy GS TSKH Hoàng Kiếm đã tạo điều kiện cho nhóm tiếp xúc một lĩnh vực quan trọng của trí tuệ nhân tạo – “Công nghệ tri thức” Cùng với sự phát triển nhanh chóng, vượt bậc của ngành công nghiệp máy tính, nhu cầu của người dùng đối với máy tính ngày một cao hơn: không chỉ giải quyết những công việc lưu trữ, tính toán bình thường, người dùng còn mong đợi máy tính có khả năng thông minh hơn, có thể giải quyết vấn đề như con người Và từ đó trí tuệ nhân tạo nói chung và đặc biệt là công nghệ tri thức ra đời và phát triển Những kiến thức đó hết sức cần thiết khi các thành viên lớp chuẩn bị quá trình làm tốt nghiệp, cũng như sau này khi làm việc trong môi trường khoa học

Nhóm cũng dành sự cảm ơn đến các thành viên trong lớpđã tạo ra môi trường học thuận lợi trong quá trình tiếp thu các bài giảng

Một lần nữa, nhóm chúng em xin chân thành cảm ơn sự tận tình truyền đạt kiến thức của thầy Kính chúc thầy mạnh khỏe, tiếp tục đạt được nhiều thắng lợi trong nghiên cứu khoa học và công cuộc giảng dạy

Học viên: Ngô Ngọc Thơ - Nguyễn Khắc Mẫn

Trang 3

NHẬN XÉT

………

……….………

…….……….……

……….………

….……….………

……….………

………….………

……….………

………

Trang 4

Mục lục

CHƯƠNG 1: PH N CỤM D LIỆU 4

I CƠ S L THUY T 4

1.1 Khái niệm 4

1.2 Bài toán phân cụm nói chung 4

1.2.1 Các kiểu biễu diễn dữ liệu 5

1.2.2 Đo độ tương tự và khoảng cách 6

1.2.3 Tiêu chuẩn phân cụm 10

1.3 Đặc điểm phân cụm 11

1.3.1 Yêu cầu 11

1.3.2 Một số vấn đề trong phân cụm dữ liệu 12

1.4 Các phương pháp phân cụm dữ liệu 13

1.4.1 Phân hoạch theo tập thô 13

1.4.1.1 Các hệ thông tin 13

1.4.1.2 Quan hệ bất khả phân 15

1.4.1.3 Xấp xỉ tập hợp 16

1.4.2 Phân hoạch theo độ hội tụ 17

1.4.3 Phân hoạch theo trọng số 19

1.5 Các k thuật tiếp cận trong phân cụm dữ liệu 19

1.5.1 Phương pháp phân cụm phân hoạch 19

1.5.2 Phương pháp phân cụm phân cấp 20

1.5.3 Phương pháp phân cụm dựa trên mật độ 21

1.5.4 Phương pháp phân cụm dựa trên lưới 21

1.5.5 Phương pháp phân cụm dựa trên mô hình 22

1.5.6 Phương pháp phân cụm có dữ liệu ràng buộc 23

II Các thuật toán phân cụm dữ liệu 24

2.1 Thuật toán phân cum dữ liệu dựa vào phân cụm phân cấp 24

2.1.1 Thuật toán BIRCH 24

2.1.2 Thuật toán CURE 27

2.1.3 Thuật toán ANGNES 29

2.1.4 Thuật toán DIANA 30

2.1.5 Thuật toán ROCK 30

Trang 5

2.1.6 Thuật toán Chameleon 31

2.2 Thuật toán phân cụm dữ liệu dựa vào cụm trung tâm 32

2.2.1 Thuật toán PAM 32

2.2.2 Thuật toán CLARA 34

2.2.3 Thuật toán CLARANS 35

2.3 Thuật toán phân cụm dữ liệu dựa vào tìm kiếm 37

2.3.1 Thuật toán di truyền (GAS) 37

2.3.2 J- Means 40

2.4 Thuật toán phân cụm dữ liệu dựa vào lưới 41

2.4.1 STING 41

2.4.2 Thuật toán CLIQUE 43

2.4.3 Thuật toán WaveCluster 44

CHƯƠNG 2: THU T TO N K-MEANS 46

I CƠ S L THUY T 46

1.1 Khái niệm 46

1.2 Thuật toán 47

1.3 Thời gian và độ phức tạp của thuật toán K-means 49

1.4 Ưu điểm 49

1.5 Một số hạn chế của thuật toán k-means 50

II M H NH L TENT SEM NTIC INDEX (LSI) 52

2.1 Giới thiệu 52

2.2 Phân tích Singular Value Decomposition (SVD) của ma trận từ chỉ mục (term document A) 53 2.3 Truy vấn trong mô hình LSI 56

2.4 Cập Nhật Singular Value Decomposition (SVD) 58

2.4.1 Cập Nhật Văn Bản (SVD- Updating document): 58

2.4.2 Cập Nhật từ chỉ mục (terms): 60

2.4.3 Loại bỏ từ chỉ mục (Downdating) Trong Mô Hình LSI 61

2.5 Chọn hệ số k trong mô hình LSI 61

III C I TI N THU T TO N K-MEANS 64

3.1 Tiền xử lý tập dữ liệu vào 64

3.2 Chọn độ đo khoảng cách thích hợp 66

3.3 Chọn số cụm cho thuật toán K-means 68

Trang 6

CHƯƠNG 3: M T S ỨNG DỤNG 71

I TRUY HỒI THÔNG TIN 71

1.1 Biểu diễn mẫu 72

1.2 Phép đo tương tự 74

1.3 Một giải thuật cho phân cụm dữ liệu sách 75

II KHAI PHÁ D LIỆU 76

2.1 Khai phá dữ liệu bằng phương pháp tiếp cận 77

2.2 Khai phá dữ liệu có cấu trúc lớn 78

2.3 Khai phá dữ liệu trong Cơ sở dữ liệu địa chất 80

2.4 Tóm tắt 82

Trang 7

tự thấp hơn so với các đối tượng trong cùng một cụm Có nhiều phương pháp gom cụm như:

1.2 Bài toán phân cụm nói chung

Bài toán phân cụm thường được thực hiện khi chúng ta không biết được nội dung thông tin của các thành phần thuộc cụm để định nghĩa trước các lớp Vì lý do này mà công việc phân cụm thường được truyền thống nhìn nhận dưới con mắt của học máy không giám sát, phương pháp học mà khi ta cho trước một mẫu chỉ gồm các đối tượng cần tìm một cấu trúc đáng quan tâm của dữ liệu và nhóm lại các dữ liệu giống nhau Quy trình phân cụm được thể hiện như Hình 1

Trang 8

Hình 1 Qui trình phân cụm tổng quát

1.2.1 Các kiểu biễu diễn dữ liệu

Dựa trên kích thước miền ta có thể phân dữ liệu thành hai loại là thuộc tính liên tục và thuộc tính rời rạc Bên cạnh đó, nếu phân loại dựa trên hệ đo thì có một số kiểu dữ liệu thông dụng như thuộc tính định danh, thuộc tính có thứ tự, thuộc tính khoảng, thuộc tính tỉ lệ Các đơn vị đo có ảnh hưởng trực tiếp đến kết quả phân cụm Vì thế người ta phải chuẩn hóa dữ liệu để khắc phục yếu điểm này Từ những yêu cầu trên và việc phân tích đặc trưng dữ liệu chúng ta cần tìm hiểu về các kiểu biểu diễn dữ liệu Có hai kiểu biểu diễn dữ liệu phổ biến là:

đối tượng Ví dụ đối tượng người sẽ có các thuộc tính là tên, tuổi, chiều cao, cân nặng, màu mắt, … Nếu ta có n đối tượng, mỗi đối tượng có p thuộc tính thì sẽ có một ma trận với n dòng, p cột

Hình 2 Ma trận thuộc tính biểu diễn dữ liệu

Trang 9

 Biểu diễn dữ liệu dưới dạng độ đo khoảng cách giữa đôi một các cặp đối tượng Nếu ta có n đối tượng, chúng sẽ được biểu diễn bằng một ma trận với n hàng và n cột như sau:

Hình 3 Ma trận khoảng cách biểu diễn dữ liệu

Trong đó: d(i,j) là độ đo khoảng cách giữa hai đối tượng i và j Nói chung, d(i,j) gần bằng 0 khi hai đối tượng i và j là gần nhau hay có nội dung gần giống nhau, và d càng tăng khi các đối tượng có nội dung càng khác nhau Hình 7 biểu diễn ma trận khoảng cách của tập dữ liệu có d(i, j) = d(j, i) và d(i, i) = 0

1.2.2 Đo độ tương tự và khoảng cách

Để đánh giá độ tương tự các đối tượng hay các điểm dữ liệu cần có một độ đo khoảng cách được định nghĩa trong không gian dữ liệu đang xét Không có một độ

đo nào có thể dùng chung cho mọi trường hợp vì chúng ta biết rằng, một cơ sở dữ liệu có thể chứa nhiều kiểu dữ liệu thuộc tính khác nhau Một đối tượng được đặc trưng bằng nhiều thuộc tính có kiểu cơ sở Các kiểu cơ sở bao gồm giá trị khoảng (interval-valued), nhị phân đối xứng (symmetric binary), nhị phân bất đối xứng (asymmetric binary), định danh (nominal), thứ tự (ordinal) và tỉ lệ khoảng (ratio-scaled) Tùy theo mục tiêu khảo sát và bản chất dữ liệu người dùng chọn độ

đo khoảng cách cho phù hợp với ứng dụng của mình Giả sử có hai đối tượng x và

y Khi đó, độ tương tự giữa x và y được ký hiệu là d(x, y)

1 Biến trị khoảng

Trang 10

Biến trị khoảng là độ đo liên tục của các đại lượng tuyến tính đơn giản như

trọng lượng, chiều cao, tuổi, v.v Một số độ đo thông dụng của biến trị khoảng:

Khoảng cách có trọng là cải tiến của khoảng cách Minkowski, trong đó có tính

đến ảnh hưởng của từng thuộc tính đến khoảng cách giữa hai đối tượng Thuộc

tính có trọng số w càng lớn thì ảnh hưởng càng nhiều đến khoảng cách d Việc

chọn trọng số tùy thuộc vào ứng dụng và mục tiêu cụ thể

2 Biến nhị phân đối xứng

Là biến chỉ có 2 trạng thái 0, 1 và các trạng thái tương đương nhau

Trang 11

Khi đó, khoảng cách:

3 Biến nhị phân bất đối xứng

Biến nhị phân là bất đối xứng nếu có một trạng thái nào đó có ý nghĩa quan trọng hơn (thường được mã là 1) Do đó, thường có xu hướng thiên vị trạng thái

ưu tiên hơn Ví dụ trong lĩnh vực Y khoa, khi bắt gặp một triệu chứng bệnh chưa

rõ ràng thì người ta thường ưu tiên kết luận là 1 để thuận tiện cho bước chẩn đoán chuyên sâu và cách ly theo dõi

Khoảng cách được tính bởi công thức

Trang 12

với m là số thuộc tính có giá trị trùng khớp giữa 2 đối tƣợng x, y và p là tổng

 Thay thế xi bởi hạng của chúng xi∈ {1,2,…,k};

7 Biến có kiểu hỗn hợp

Trang 13

Một cơ sở dữ liệu có thể chứa cả 6 kiểu dữ liệu cơ bảng trên Ta có thể dùng công thức đƣợc gán trọng số để kết hợp tính hiệu quả của các biến thành phần

1.2.3 Tiêu chuẩn phân cụm

Sau đây chúng ta sẽ tìm hiểu một số tính chất của dữ liệu và yêu cầu của một thuật toán phân cụm Hầu hết các nghiên cứu và phát triển các thuật toán phân cụm dữ liệu nói chung đều nhằm thỏa mãn các yêu cầu cơ bản sau:

tăng, mở rộng Rất nhiều thuật toán phân cụm có thể làm việc tốt với lƣợng

dữ liệu nhỏ, ít hơn 100 đối tƣợng dữ liệu mà chƣa làm tốt với lƣợng dữ liệu lớn, trong khi đó cơ sở dữ liệu lớn chứa hàng triệu đối tƣợng vì vậy ta cần

mở rộng bộ phân cụm đó để bao trùm cả tập dữ liệu lớn

thuật toán phân cụm, có những thuật toán phù hợp với dữ liệu số, có những thuật toán khi áp dụng cho loại dữ liệu nhị phân hay dữ liệu ảnh …

 Nhận biết đƣợc các cụm với hình thù bất kỳ: một số thuật toán xác định cụm dựa vào việc tính khoảng cách Euclidean hay Manhattan với mục đích nhận biết độ dày và giống nhau của các tài liệu trong cụm Tuy nhiên, một cụm có thể có hình dạng bất kỳ vì vậy mà việc phát triển thuật toán có khả năng xác định các cụm với hình thù bất kỳ là quan trọng và cần thiết

vào cần thiết cho một thuật toán phân cụm càng ít, chi phí cho việc phân cụm càng giảm và nó càng khả thi hơn

Trang 14

 Khả năng thích nghi với dữ liệu nhiễu: Phần lớn các cơ sở dữ liệu thực tế chứa đựng ngoại lệ hoặc thiếu, không xác định hay không đúng Các thuật toán nhạy cảm với nhiễu là nguyên nhân dẫn đến việc tạo ra một bộ phân cụm kém chất lượng

 Không nhạy cảm với thứ tự của bản ghi đầu vào: Một số thuật toán phân cụm không thể sát nhập thêm dữ liệu mới vào trong bộ phân cụm, thêm tài liệu vào cụm có sẵn hoặc tạo thêm cụm mới Bên cạnh đó, một thuật toán phân cụm tốt không tạo ra các bộ phân cụm khác nhau từ cùng một bộ dữ liệu nhưng thứ tự sắp xếp khác nhau Những thuật toán này gọi là nhạy cảm với thứ tự dữ liệu

ít, từ hai đến ba chiều mà một số thuật toán phân cụm đưa ra kết quả rất tốt Bên cạnh đó, dữ liệu đa chiều (nhiều hơn ba chiều) cũng rất đa dạng và cần thiết được phân nhóm cho nhiều ứng dụng thực tế Với loại dữ liệu này, việc phân loại dựa vào kiến thức con người tỏ ra có hiệu quả, tuy nhiên với khối lượng dữ liệu lớn như vậy, việc sử dụng kiến thức chuyên gia là tốn kém nên chúng ta cần tìm các thuật toán phân cụm để giải quyết được vấn

đề này

 Phân cụm trên một số ràng buộc: Trong một số ứng dụng, chúng ta cần phân cụm trên cơ sở dữ liệu chứa các liên kết bắt buộc giữa hai hay nhiều đối tượng Việc phân cụm cần đảm bảo các đối tượng này thỏa mãn các ràng buộc đó

 Dễ hiểu, dễ cài đặt và khả thi: một thuật toán càng dễ hiểu và dễ cài đặt và mang tính khả thi cao sẽ được người dung tin cậy và sử dụng rộng rãi

1.3 Đặc điểm phân cụm

1.3.1 Yêu cầu

Phân cụm nói chung cần quan tâm đến một số đặc điểm sau:

Trang 15

 Mục đích của việc phân cụm: Bài toán phân cụm có mục đích tìm kiếm các tài liệu và phân chúng vào các cụm khác nhau Tuy nhiên, tùy thuộc vào mục đích người dùng mà người lập trình sẽ quyết định số lượng cụm, hay chất lượng cụm ở mức nào Một cách phân chia dữ liệu với số lượng cụm linh hoạt được thực hiện bằng cách cắt cây ở mực phù hợp ví dụ như sử dụng thuật toán phân cụm cây phân cấp

 Bản chất của dữ liệu: Phần lớn các phương pháp phân cụm đã được phát triển cho dữ liệu số, nhưng một số có thể giải quyết bài toán với dữ liệu văn bản hoặc với cả dữ liệu số và dữ liệu văn bản

liệu như định nghĩa nguyên mẫu, phân bố dữ liệu, số chiều … bên cạnh việc tính toán độ tương tự Một số phương thức khác chỉ yêu cầu đánh giá từng đôi một độ tương tự hoặc khoảng cách giữa các thành phần dữ liệu

1.3.2 Một số vấn đề trong phân cụm dữ liệu

 Xử lý nhiễu: Dữ liệu bị nhiễu là dữ liệu không chính xác hay là dữ liệu khuyết thiếu thông tin về một số thuộc tính Hầu hết các dữ liệu sử dụng để phân cụm đều bị nhiễu do quá trình thu thập thiếu chính xác hay thiếu đầy

đủ Vì vậy cần phải thực hiện bước tiền xử lý dữ liệu nhằm khắc phục hoặc loại bỏ nhiễu trước khi chuyển sang giai đoạn phân tích cụm dữ liệu Một trong các k thuật xử lý nhiễu hiện nay là thay thế các giá trị các thuộc tính của đối trượng nhiễu bằng các giá trị thuộc tính tương ứng

Trang 16

 Dò tìm phần tử ngoại lai Phần tử ngoại lai là một nhóm nhỏ các đối tượng

dữ liệu khá thường so với các dữ liệu trong cơ sở dữ liệu Loại bỏ những dữ liệu này để tránh ảnh hưởng đến kết quả phân cụm

giải quyết một số vấn đề cơ bản: Xây dựng hàm tính độ tương tự, xây dựng các tiêu chuẩn phân cụm, xây dựng mô hình cho cấu trúc dữ liệu, xây dựng các thuật toán phân cụm và xác lập các điều kiện khởi tạo, xây dựng các thủ tục biểu diễn và đánh giá kết quả phân cụm Hiện nay chưa có một phương pháp phân cụm tổng quát nào có thể giải quyết trọn vẹn cho tất cả các dạng cấu trúc dữ liệu Với những dữ liệu hỗn hợp thì việc phân cụm càng khó khăn hơn và đây đang là một thách thức trong ngành khai phá dữ liệu

1.4 Các phương pháp phân cụm dữ liệu

1.4.1 Phân hoạch theo tập thô

Lý thuyết tập thô được Z Pawlak phát triển vào đầu thập niên 1980 Lý thuyết tập thô rất hiệu quả trong khai thác dữ liệu, tìm kiếm thông tin, hỗ trợ quyết định, máy học, các hệ cơ sở tri thức

a Hệ thông tin

Một tập cơ sở dữ liệu được mô tả dưới dạng bảng, trong đó mỗi dòng miêu tả một sự kiện, một trường hợp, một thành phần hay đơn giản đó là một đối tượng Mỗi cột là một thuộc tính (một biến đổi, một quan sát, một đặc tính, …) mà có thể đo được cho mỗi đối tượng; nó cũng có thể được cung cấp bởi những người có chuyên môn hoặc người dùng Bảng này được gọi là một hệ thống thông tin (information system) Cụ thể hơn, nó là một cặp U = (I, ) trong đó I là tập đối tượng, hữu hạn, khác rỗng và A là tập thuộc tính, hữu hạn, khác rỗng sao cho A a V I a a ∈∀ → , :

Trang 17

Tập Va được gọi là tập giá trị của a

Ví dụ 1.1: Giả sử sau đây là một hệ thống thông tin đơn giản được thể hiện qua bảng 1.1

Bảng 1.1 Hệ thống thông tin

b Hệ quyết định

Dễ dàng nhận thấy từng cặp (x3, x4) và (x5, x7) có cùng giá trị thuộc tính Trong trường hợp này gọi là bất khả phân (indiscernible), nghĩa là ta sẽ không phân biệt được đâu là x3 và đâu là x4 dựa vào hai thuộc tính này Trong nhiều ứng dụng, ta thấy có một sự phân loại kết quả Đó là sự mô tả tri thức bởi một thuộc tính đặc trưng phân biệt được gọi là thuộc tính quyết định Đây là hình thức học có giám sát Các hệ thống thông tin dạng này được gọi là các hệ quyết định (decision

gọi là các thuộc tính điều kiện Thuộc tính quyết định d có thể có nhiều hơn hai giá trị mặc dù thường gặp là thuộc tính nhị phân

Ví dụ 1.2 Hệ quyết định gồm 7 đối tượng và 3 thuộc tính Trong đó Walk là thuộc tính quyết định

Trang 18

Bảng 1.2 Hệ quyết định

Với hệ quyết định này, chúng ta thấy rằng từng cặp (x3, x4) và (x5, x7) có cùng giá trị thuộc tính điều kiện nhưng cặp thứ nhất thì phân biệt được dựa vào thuộc tính quyết định Walk trong khi cặp thứ hai thì không

Từ bảng 1.2 có thể tổng hợp thành một số định nghĩa hay còn gọi là luật như sau:

“Nếu Age = 16 – 30 và LEMS = 50 thì Walk = Yes”; hay

“Nếu Age = 46 – 60 và LEMS = 26 - 49 thì Walk = No”

Một hệ quyết định (bảng quyết định) biểu diễn tất cả các tri thức về

mô hình Bảng này có thể có kích thước lớn vì nó có thể dư thừa dữ liệu theo hai mặt: (1) các đối tượng giống nhau hoàn toàn hay bất khả phân biệt có thể được mô tả nhiều lần; (2) các thuộc tính có thể dư thừa Ta sẽ xem xét vấn đề này ngay sau đây

Xét quan hệ nhị phân X X R × ⊆ có tính chất phản xạ (nghĩa là xRx X x , ∈∀ ), đối xứng (nếu xRy thì yRx ) và bắc cầu (nếu xRy và yRz thì xRz) được gọi là quan hệ tương đương Lớp tương đương của

Trang 19

một phần tử X x∈ , ký hiệu [x]R là tập hợp chứa mọi đối tượng y ∈ X, sao cho xRy

Cho hệ thông tin U = (I, A), với tập thuộc tính B ⊆ ta định nghĩa

relation) Nếu (x,x’) ∈ indU(B) thì đối tượng x và x’ không thể phân biệt theo tập thuộc tính B Lớp tương đương của quan hệ bất khả phân

định nghĩa phân hoạch Để đơn giản ta ký hiệu ind(B) thay cho ký hiệu indU(B)

Ví dụ 1.3 Xét bảng quyết định như trong bảng 1.1 Các tập thuộc tính con điều kiện

Quan hệ tương đương trên một hệ thống thông tin sẽ phân hoạch tập đối tượng U thành những tập đối tượng con Các tập con thường được quan tâm là các tập con có cùng giá trị của thuộc tính quyết định Tuy nhiên, không thể định nghĩa rõ ràng một số khái niệm Ví dụ, ta không

Trang 20

thể định nghĩa rõ ràng tập các khách hàng có thuộc tính quyết định Walk = Yes dựa vào thuộc tính điều kiện trong bảng 1.2 Những khách hàng gặp khó khăn là x3 và x4 Nói cách khác, không thể kết luận chính xác những thành phần như vậy từ bảng 1.2 Từ đây phát sinh khái niệm tập thô Mặt dù, chúng ta không thể định nghĩa các đối tượng một cách

rõ ràng nhưng có thể chỉ ra các đối tượng mà chắc chắn có giá trị dương, những giá trị chắc chắn không có giá trị dương và cuối cùng là đối tượng nào thuộc vào vùng biên giữa hai trường hợp chắc chắn Nếu vùng biên này khác rỗng thì tập đang xét là tập thô

Cho hệ thông tin U = (I, A) và B ⊆A, X ⊆I Nếu có thể xấp xỉ tập đối tượng X chỉ vớithông tin chứa trong B bằng cách xây dựng các xấp

xỉ B-dưới và B-trên của tập X, ký hiệu tương ứng là BX, BX ; trong đó:

1.4.2 hân hoạch theo độ hội tụ

Phương pháp dựa trên độ hội tụ là thuật toán phân cấp hội tụ Ta thiết kế thuật toán bằng cách cải tiến k thuật gom cụm “Chameleon” [11] Thuật toán này được phát triển để khám phá các luật cầu theo lớp trong CSDL quan hệ

Chameleon là thuật toán gom cụm phân cấp Thuật toán dùng kết nối nội của gom cụm cũng như tính gần gũi của các item trong cụm

Cho D là CSDL quan hệ chứa T dòng và k thuộc tính Chameleon tìm các cụm thỏa các ràng buộc: kết nối nội quan hệ RI(Ci,Cj) và độ gần gũi quan hệ RC(Ci,Cj) như sau:

Trang 21

Kết nối nội giữa hai cụm Ci và Cj gọi là EC(CiCj) là tổng trọng số của các cung nối các đỉnh trong Ci đến các đỉnh trong Cj ECCi là tổng trọng số các cung phân đồ thị thành 2phần bằng nhau Hàm này liên quan đến các bài toán về sự phân biệt trong các hình của các cụm cũng như sự phân biệt trong kết nối của các cụm khác nhau

S EC(Ci ,C j ) là trọng số trung bình của các cung nối các đỉnh trong Ci đến các đỉnh trong Cj Để tìm sự tương tác giữa các lớp khái niệm, ta dựa trên phương thức sau Đối với các ngưỡng do người dùng xác định: T1RI, T2RI, T1RC và T2RC

Sự cải tiến của thuật toán Chameleon như sau:

Dùng các ngưỡng mới: T1RI, T2RI, T1RC và T2RC để đo độ hội tụ khi trộn 2 nhóm (cụmcon) Ci và Cj trong bước (3), với T1RI >T2RI, T1RC >T2RC

Ghi lại độ tương tự giữa 2 đối tượng bất kì qua các lớp theo từng cặp, sao cho xác định sự tương tác thú vị giữa các đối tượng Các sự tương tác này là các luật bắt cầu giữa các lớp mà ta mong muốn

Trang 22

1.4.3 hân hoạch theo t ọng ố

Chiến lược này là hậu xử lý được thiết kế nhằm khai thác các luật bắt cầu giữa các lớp trong cơ sở dữ liệu giao tác Chiến lược dựa trên trọng số liên quan đến một số tính chất của thuật toán priori và các đặc trưng của luật bắt cầu giữa các lớp Thuật toán gồm 3 bước chính như sau:

1 Xác định các itemset phổ biến trên các lớp;

2 Tìm các itemset tương quan trên cơ sở các itemset phổ biến;

3 Tính độ quan trọng của các itemset vừa tìm được

Chiến lược dựa vào trọng số dùng các kiểm tra Chi-squared (χ2) để xét sự tương quan giữa các itemset Ta xác định luật bắt cầu thú vị dựa trên độ quan trọng của các itemsetmà nó sinh ra các luật cầu giữa các lớp này Độ quan trọng được định nghĩa như sau:

Giả sử supp(S) là độ hỗ trợ của itemset S, giá trị Chi-squared χ2(S), với S = {i1,i2,…,im} và trọng số của ij là wj Ta định nghĩa:

Trọng số của 1 item có thể được xác định bằng một giá trị nào đó do người dùng chọn

1.5 Các th ật tiếp cận t ong phân cụ dữ iệ

Các k thuật phân cụm có rất nhiều cách tiếp cận và các ứng dụng trong thực

tế, nó đều hướng tới hai mục tiêu chung đó là chất lượng của các cụm khám phá được và tốc độ thực hiện của thuật toán Hiện nay, các k thuật phân cụm có thể phân loại theo các cách tiếp cận chính sau :

1.5.1 hương pháp phân cụm phân hoạch

K thuật này phân hoạch một tập hợp dữ liệu có n phần tử thành knhóm cho

đến khi xác định số các cụm được thiết lập Số các cụm được thiếtlập là các đặc trưng được lựa chọn trước Phương pháp này là tốt cho việc tìmcác cụm hình cầu

Trang 23

trong không gian Euclidean Ngoài ra, phương pháp nàycũng phụ thuộc vào khoảng cách cơ bản giữa các điểm để lựa chọn các điểmdữ liệu nào có quan hệ là gần nhau với mỗi điểm khác và các điểm dữ liệunào không có quan hệ hoặc có quan hệ là xa nhau so với mỗi điểm khác Tuynhiên, phương pháp này không thể

xử lí các cụm có hình dạng kỳ quặc hoặccác cụm có mật độ các điểm dầy đặc Các thuật toán phân hoạch dữ liệu có độphức tạp rất lớn khi xác định nghiệm tối ưu toàn cục cho vấn đề PCDL, do nóphải tìm kiếm tất cả các cách phân hoạch có thể được Chính vì vậy, trên thựctế thường đi tìm giải pháp tối ưu cục bộ cho vấn đề này bằng cách sử dụngmột hàm tiêu chuẩn để đánh giá chất lượng của cụm cũng như để hướng dẫncho quá trình tìm kiếm phân hoạch dữ liệu Như vậy, ý tưởng chính của thuậttoán phân cụm phân hoạch tối ưu cục bộ là sử dụng chiến lược ăn tham(Greedy) để tìm kiếm nghiệm

1.5.2 hương pháp phân cụm phân cấp

Phương pháp này xây dựng một phân cấp trên cơ sở các đối tượng dữliệu đang xem xét Nghĩa là sắp xếp một tập dữ liệu đã cho thành một cấu trúccó dạng hình cây, cây phân cấp này được xây dựng theo k thuật đệ quy Cóhai cách tiếp cận phổ biến của k thuật này đó là:

Hình 1 Chiến lược phân cụm phân cấp

Trang 24

Thực tế áp dụng, có nhiều trường hợp kết hợp cả hai phương pháp phân cụm phân hoạch và phân cụm phân cấp, nghĩa là kết quả thu được của phương pháp phân cấp có thể cải tiến thông qua bước phân cụm phân hoạch Phân cụm phân hoạch và phân cụm phân cấp là hai phương pháp PCDL cổ điển, hiện đã có rất nhiều thuật toán cải tiến dựa trên hai phương pháp này đã được áp dụng phổ biến trong KPDL

1.5.3 hương pháp phân cụm dựa trên mật độ

K thuật này nhóm các đối tượng dữ liệu dựa trên hàm mật độ xác định, mật

độ là số các đối tượng lân cận của một đối tượng dữ liệu theo một nghĩa nào đó Trong cách tiếp cận này, khi một dữ liệu đã xác định thì nó tiếp tục được phát triển thêm các đối tượng dữ liệu mới miễn là số các đối tượng lân cận này phải lớn hơn một ngưỡng đã được xác định trước Phương pháp phân cụm dựa trên mật độ của các đối tượng để xác định các cụm dữ liệu có thể phát hiện ra các cụm dữ liệu với hình thù bất kỳ K thuật này có thể khắc phục được các phần tử ngoại lai hoặc giá trị nhiễu rất tốt, tuy nhiên việc xác định các tham số mật độ của thuật toán là rất khó khăn, trong khi các tham số này lại có tác động rất lớn đến kết quả phân cụm

1.5.4 hương pháp phân cụm dựa t ên ưới

K thuật phân cụm dựa trên lưới thích hợp với dữ liệu nhiều chiều, dựa trên cấu trúc dữ liệu lưới để phân cụm, phương pháp này chủ yếu tập trung áp dụng cho lớp dữ liệu không gian Mục tiêu của phương pháp này là lượng hóa dữ liệu thành các ô tạo thành cấu trúc dữ liệu lưới Sau đó, các thao tác phân cụm chỉ cần làm việc với các đối tượng trong từng ô trên lưới chứ không phải các đối tượng dữ liệu Cách tiếp cận dựa trên lưới này không di chuyển các đối tượng trong các ô

mà xây dựng nhiều mức phân cấp của nhóm các đối tượng trong một ô Phương pháp này gần giống với phương pháp phân cụm phân cấp nhưng chúng không trộn các ô, đồng thời giải quyết khắc phục yêu cầu đối với dữ liệu nhiều chiều mà phương pháp phân phân cụm dựa trên mật độ không giải quyết được Ưu điểm của phương pháp phân cụm dựa trên lưới là thời gian xử lí nhanh và độc lập với số đối

Trang 25

tượng dữ liệu trong tập dữ liệu ban đầu, thay vào đó là chúng phụ thuộc vào số ô trong mỗi chiều của không gian lưới

Hình 2 Cấu trúc phân cấp

1.5.5 hương pháp phân cụm dựa trên mô hình

Phương này cố gắng khám phá các phép xấp xỉ tốt của các tham số mô hình sao cho khớp với dữ liệu một cách tốt nhất Chúng có thể sử dụng chiến lược phân cụm phân hoạch hoặc phân cụm phân cấp, dựa trên cấu trúc hoặc mô hình mà chúng giả định về tập dữ liệu và cách chúng hiệu chỉnh các mô hình này để nhận dạng ra các phân hoạch Phương pháp phân cụm dựa trên mô hình cố gắng khớp giữa các dữ liệu với mô hình toán học, nó dựa trên giả định rằng dữ liệu được tạo

ra bằng hỗn hợp phân phối xác suất cơ bản Các thuật toán phân cụm dựa trên mô

hình có hai cách tiếp cận chính: mô hình thống kê và mạng nơron Phương pháp

này gần giống với phương pháp phân cụm dựa trên mật độ, vì chúng phát triển các cụm riêng biệt nhằm cải tiến các mô hình đã được xác định trước đó, nhưng đôi khi nó không bắt đầu với một số cụm cố định và không sử dụng cùng một khái niệm mật độ cho các cụm

Trang 26

1.5.6 hương pháp phân cụm có dữ liệu ràng buộc

Sự phát triển của PCDL không gian trên CSDL lớn đã cung cấp nhiều công cụ tiện lợi cho việc phân tích thông tin địa lí, tuy nhiên hầu hết các thuật toán này cung cấp rất ít cách thức cho người dùng để xác định các ràng buộc trong thế giới thực cần phải được thỏa mãn trong quá trình phân cụm Để PCDL không gian hiệu quả hơn, các nghiên cứu bổ sung cần được thực hiện để cung cấp cho người dùng khả năng kết hợp các ràng buộc trong thuật toán phân cụm

Hình 3 Các cách mà các cụm có thể đưa ra Hiện nay, các phương pháp phân cụm trên đã và đang được phát triển và áp dụng nhiều trong các lĩnh vực khác nhau và đã có một số nhánh nghiên cứu được phát triển trên cơ sở của các phương pháp đó như:

Phân cụm thống kê: Dựa trên các khái niệm phân tích hệ thống, nhánh nghiên

cứu này sử dụng các độ đo tương tự để phân hoạch các đối tượng, nhưng chúng chỉ áp dụng cho các dữ liệu có thuộc tính số

Trang 27

Phân cụm khái niệm: K thuật này được phát triển áp dụng cho dữ liệu hạng

mục, chúng phân cụm các đối tượng theo các khái niệm mà chúng xử lí

Phân cụm mờ: Sử đụng k thuật mờ để PCDL Các thuật toán thuộc loại này

chỉ ra lược đồ phân cụm thích hợp với tất cả các hoạt động đời sống hàng ngày, chúng chỉ xử lí các dữ liệu thực không chắc chắn

Phân cụm mạng Kohonen: Loại phân cụm này dựa trên khái niệm của các

mạng nơron Mạng Kohonen có tầng nơron vào và các tầng nơron ra Mỗi nơron của tầng vào tương ứng với mỗi thuộc tính của bản ghi, mỗi một nơron vào kết nối với tất cả các nơron của tầng ra Mỗi liên kết được gắn liền với một trọng số nhằm xác định vị trí của nơron ra tương ứng

II Các th ật toán phân cụ dữ iệ

2.1 Thuật toán phân cum dữ liệu dựa vào phân cụm phân cấp

2.1.1 Thuật toán BIRCH

Thuật toán phân cụm khác cho tập dữ liệu lớn, được gọi là BIRCH tưởng của thuật toán là không cần lưu toàn bộ các đối tượng dữ liệu của cáccụm trong bộ nhớ mà chỉ lưu các đại lượng thống kê Thuật toán đưa ra haikhái niệm mới để theo dõi các cụm hình thành , phân cụm đặc trưng là tóm tắtthông tin về một cụm

và cây phân cụm đặc trưng(cây CF) là cây cân bằngđược sử dụng lưu trữ cụm đặc trưng( được sử dụng để mô tả cụm tóm tắt)

Trước tiên được gọi là cụm đặc trưng, là một bộ ba(n, LS, SS), trong đó n làsố các điểm trong phân hoạch cụm con, LS là tổng số các giá trị thuộc tích vàSS là tổng bình phương của các điểm đó Đặc trưng tiếp theo là cây CF, màđơn giản là cây cân bằng mà lưu bộ ba này Có thể chứng mình rằng, các đạilượng thống kê chuẩn, như là độ đo khoảng cách, có thể xác định từ cây CF

Hình 4.10 dưới đây biểu thị một ví dụ về cây CF Có thể thấy rừng, tất cả cácnút trong cây lưu tổng các đặc trưng cụm CF, các nút con, trong khi đó cácnút

là lưu trữ các đặc trưng của các cụm dữ liệu

Trang 28

Cây CF chứa các nút trong và nút là, nút trong là nút chứa các nút convà nút lá thì không có con Nút trong lưu trữ các tổng đặc trưng cụm(CF) củacác nút con của nó Một cây (CF) được đặc trưng bởi hai tham số :

- Yếu tố nhánh (Braching Factor – B) : Nhằm xác định tối đa các nútcon của một nút lá trong của cây

- Ngưỡng(Threshold – T) : khoảng cách tối đa giữa bất kỳ một cặp đốitượng trong nút lá của cây, khoảng cách này còn gọi là đường kính của cáccụm con được lưu tại các nút lá

Hai tham số này có ảnh hưởng đến kích thước của cây CF thuật toán BIRCH thực hiện gồm hai giai đoạn:

2 Giai đoạn 1 : BIRCH quét tất cả các đối tượng trong CSDL để xây dựng

cây CF khởi tọa, mà được lưu trữ trong bộ nhớ Trong giai đoạn này ,các đối tượng lần lượt được chèn vào nút lá gần nhất của cây CF(nút lá củacây đóng vai trò là cụm con), sau khi chèn xong thì tất cả các nút trong cây CF được cập nhật thông tin Nếu đường kính của cụm con sau khi chèn là lớn hơn ngưỡng T, thì nút lá được tách Quá trình lặp lại cho đến khi tất cả các đối tượng trong cây chỉ được đọc một lần, để lưu toàn bộ cây CF trong bộ nhớ thìcần phải điều chỉnh kích thước của cây CF thông qua điều chỉnh ngưỡng T

3 Giai đoạn 2 : BIRCH lựa chọn một thuật toán phân cụm (như thuật toán

phân cụm phân hoạch) để thực hiện phân cụm cho các nút lá của cây CF hơn ngưỡng T, thì nút lá được tách Quá trình lặp lại cho đến khi tất cả các đốitượng trong cây chỉ được đọc một lần, để lưu toàn bộ cây CF trong bộ nhớ thì cần phải điều chỉnh kích thước của cây CF thông qua điều chỉnh ngưỡng T

4 Giai đoạn 3 : BIRCH lựa chọn một thuật toán phân cụm (như thuật toán

phân cụm phân hoạch) để thực hiện phân cụm cho các nút lá của cây CF

Trang 29

Hình 4 : Cây CF sử dụng trong BIRCH

Thuật toán BIRCH thực hiện qua các bước cơ bản như sau :

1 Các đối tượng dữ liệu lần lượt được chèn vào cây C, sau khi chèn hết các đối tượng thì thu được cây CF khởi tạo Một đối tượng được chèn vào nút

là gần nhất tạo thành cụm con Nếu đường kính của cụm con này lớn hơn Tthì nút lá được tách ra Khi một đối tượng thích hợp được chèn vào nút lá,tất cả các nút trỏ tới gốc của cây được cập nhật với thông tin cần thiết

2 Nếu cây CF hiện thời không có đủ bộ nhớ trong khi tiến hành xây dựng một cây CF nhỏ hơn: Kích thước của cây CF được điều khiển bởi tham số F và

vì vậy việc chọn một giá trị lớn hơn cho nó sẽ hòa nhập một số cụm con thành một cụm, điều này làm cho cây CF nhỏ hơn Bước này không cần yêu cầu đọc dữ liệu lại từ đầu nhưng vẫn đảm bảo hiệu chỉnh cây dữ liệu nhỏ hơn

3 Thực hiện phân cụm: Các nút lá cây CF lưu trữ các đại lượng thống kê của các cụm con Trong bước này, BIRCH sử dụng các đại lượng thống kê này

Trang 30

để áp dụng một số k thuật phân cụm, ví dụ K-means và tạo ra một khởi tạo cho phân cụm

4 Phân phối lại các đối tượng dữ liệu bằng cách dùng các đối tượng trọng tâm cho các cụm được khám phá từ bước 3: Đây là một bước tùy chọn để duyệt lại tập dữ liệu và gán lại nhãn cho các đối tượng dữ liệu tới các trọng tâm gần nhất Bước này nhằm để gán nhãn cho các dữ liệu khởi tạo và loại bỏ các đối tượng ngoại lai Với cấu trúc cây CF được sử dụng, BIRCH có tốc

độ thực hiện PCDL nhanh và có thể áp dụng đối với tập CDSL lớn, BIRCH cũng có hiệu quả khi áp dụng với tập dữ liệu tăng trưởng theo thời gian BIRCH thực hiện tính toán khá tốt, độ phức tạp tính toán của BIRCH là tuyến tính tỷ lệ với số các đối tượng, do BIRCH chỉ duyệt toàn bộ dữ liệu một lần với một lần quét thêm tùy chọn( thực hiện phân cụm lại các nút lá cây của CF), có thể được đo trong thời gian O(n) với n là số đối tượng dữ liệu thuật toán này kết hợp các cụm gần nhau và xây dựng lại cây CF, tuy nhiên mỗi nút trong cây CF có thể chỉ lưu trữ một số hữu hạn bởi kích thước của nó BIRCH vẫn có một hạn chê :thuật toán này có thể không xử

lý tốt nếu các cụm không có hình dạng cầu, bởi vì nó sử dụng khái niệm bán kính hoặc đường kính để kiểm soát ranh giới các cụm và chất lượng của các cụm được khám phá không được tốt Nếu BIRCH sử dụng khoảng cách Eucle, nó thực hiện tốt chỉ với các dữ liệu số,mặt khác tham số vào T

có ảnh hưởng rất lớn tới kích thước tự nhiên của cụm Việc ép các đối tượng dữ liệu làm cho các đối tượng của cụm có thể là đối tượng kết thúc của cụm khác, trong khi các đối tượng gần nhau có thể bị hút bởi các cụm khác nếu chúng được biểu diễn cho thuật toán theo một thứ tự khác BIRCH không thích hợp với dữ liệu đa chiều

2.1.2 Thuật toán CURE

Trong khi hầu hết các thuật toán thực hiện phân cụm với các cụm hìnhcầu và kích thước tương tự, như vậy là không hiệu quả khi xuất hiện các phần tử ngoại

Trang 31

lai Thuật toán này định nghĩa một số cố định các điểm đại diễn nằm rải rác trong toàn bộ không gian dữ liệu và được chọn để mô tả các cụm được hình thành Các điểm này được tạo ra bởi trước hết lựa chọn các đối tượng nằm rải rác trong cụm

và sau đó “ co lại” hoặc di chuyển chúng về trung tâm cụm bằng nhân tố co cụm Quá trình này được lặp lại và như vậy trong quá trình này, có thể đo tỷ lệ gia tăng của cụm Tại mỗi bước của thuật toán, hai cụm có cặp các điểm đại diện gần nhau(mỗi điểm trong cặp thuộc về mỗi cụm khác nhau) được hòa nhập Như vậy,

có nhiều hơn một điểm đại diện mỗi cụm cho phép CURE khám phá được các cụm có hình dạng không phải là hình cầu Việc co lại các cụm có tác dụng làm giảm tác động của các phần tử ngoại lai Như vậy, thuật toán này có khả năng xử

lý tốt trong trường hợp có các phần tử ngoại lại và làm cho hiệu quả với những hình dạng không phải là hình cầu và kích thước độ rộng biến đổi Hơn nữa, nó tỷ

lệ tốt với CSDL lớn mà không làm giảm chất lượng phân cụm Hình 5 dưới đây là

ví dụ về quá trình xử lý củaCURE

Hình 5 : ụm liệu k ai p i t u t toán CURE

Để xử lý được các CSDL lớn, CURE sử dụng ngẫu nhiên và phân hoạch, một mẫu là được xác định ngẫu nhiên trước khi được phân hoạch, và sau đó được tiến hành phân cụm trên mỗi phân hoạch, như vậy mỗi phân hoạch là từng phần đã được phân cụm, các cụm thu hoạch, như vậy mỗi phân hoạch là từng phần đã được

Trang 32

phân cụm, các cụm thu được lại được phân cụm lần thứ hai để thu được các cụm con mong muốn, nhưng mẫu ngẫu nhiên không nhất thiết đưa ra một mô tả tốt cho toàn bộ tập dữ liệu

Thuật toán C RE được thực hiện qua các bước cơ bản sau :

1 Chọn một mẫu ngẫu nhiên từ tập dữ liệu ban đầu

2 Phân hoạch mẫu này thành nhiều nhóm dữ liệu có kích thước bằng nhau : ý tưởng ở đây là phân hoạch mẫu thành p nhóm dữliệu bằng nhau, kích thước của mỗi phân hoạch là n’/p(n’ là kíchthước mẫu)

3 Phân cụm các điểm của mỗi nhóm : Thực hiện PCDL cho các nhóm cho đến khi mỗi nhóm được phân thành n’/pq(với q>1)

4 Loại bỏ các phần tử ngoại lai : Trước hết, khi các cụm được hình thành cho đến khi số các cụm giảm xuống một phần so với số các cụm ban đầu Sau

đó, trong trường hợp các phần tử ngoại lai được lấy mẫu cùng với quá trình pha khởi tạo mẫu dữ liệu, thuật toán sẽ tự động loại bỏ các nhóm nhỏ

5 Phân cụm các cụm không gian : các đối tượng đại diện cho cáccụm di chuyển về hướng trung tâm cụm, nghĩa là chúng được thay thế bởi các đối tượng gần trung tâm hơn

6 Đánh dấu dữ liệu với các nhãn tương ứng Độ phức tạp tính toán của thuật toán CURE là O(n2log(n)) CURE là thuật toán tin cậy trong việc khám phá ra các cụm với hình thù bất kỳ và có thể áp dụng tốt đối với dữ liệu có phần tử ngoại lai và trên các tập dữ liệu hai chiều Tuy nhiên, nó lại rất nhạy cảm với các tham số như số các đối tượng đại diện, tỉ lệ co của các phần tử đại diện

2.1.3 Thuật toán ANGNES

Phương pháp phân hoạch ANGNES là k thuật kiểu tích tụ ANGNES bắt đầu

ở ngoài với mỗi đối tượng dữ liệu trong các cụm riêng lẻ Các cụm được hòa nhập theo một số loại của cơ sở luật, cho đến khi chỉ có một cụm ở đỉnh của phân cấp, hoặc gặp điều kiện dừng Hình dạng này của phân cụm phân cấp cũng liên quan

Trang 33

đến tiếp cận bottom-up bắt đầu ở dưới với các nút lá trong mỗi cụm riêng lẻ và duyệt lên trên phân cấp tới nút gốc, nơi tìm thấy cụm đơn cuối cùng với tất cả các đối tượng dữ liệu được chứa trong cụm đó

2.1.4 Thuật toán DIANA

DIANA thực hiện đối lập với AGNES DIANA bắt đầu với tất cả các đối tượng dữ liệu được chứa trong một cụm lớn và chia tách lặp lại, theo phân loại giống nhau dựa trên luật, cho đến khi mỗi đối tượng dữ liệu của cụm lớn được chia tách hết Hình dang của cụm phân cấp cùng liên quan đế tiếp cận top-down bắt đầu tại mức đỉnh nút gốc, với tất cả các đối tượng dữ liệu, trong một cụm, và duyệt xuống các nút lá dưới cùng nơi tất cả các đối tượng dữ liệu từng cái được chứa trong cụm của chính mình

Trong mỗi phương pháp của hai phương pháp, có thể số các cụm dẫn tới các mức khác nhau trong phân cấp bằng cách duyệt lên hoặc xuống cây.Mỗi mức có thể khác nhau số các cụm và tất nhiên kết quả cũng khác nhau.Một hạn chế lớn của cách tiếp cận này là các cụm được hòa nhập hoặc phânchia một lần, không thể quay lại quyết định đó, cho dù hòa nhập hoặc phân chia không phải là thích hợp ở mức đó

2.1.5 Thuật toán ROCK

Trang 34

8 delete(Q, v)

9 w:= merge(u,v)

11 link[x, w]:=link[x, u]+ link[x, v]

12 delete(q[x], u); delete(q[x], v)

1 Compute nbrlist[i] for every point i in S

2 Set link[i,j] to be zero all i,j

2.1.6 Thuật toán Chameleon

Phương pháp Chameleon một cách tiếp cận khác trong việc sử dụng môhình động để xác định các cụm nào được hình thành Bước đầu tiên củaChameleon là xây dựng một đồ thị mật độ thưa và sau đó ứng dụng một thuậttoán phân hoạch đồ

Trang 35

thị để PCDL với số lớn của các cụm con Tiếp theo,Chameleon thực hiện tích tụ phân cụm phân cấp, như GNES, bằng hòa nhập các cụm con nhỏ theo hai phép

đo, mối quan hệ liên thông và mối quan hệ gần nhau của các nhóm con Do đó, thuật toán không phụ thuộc vào người sử dụng các tham số như K-means và có thể thích nghi.Thuật toán này khảo sát mô hình động trong phân cụm phân cấp Trongđó, hai cụm được hòa nhập nêu giữa hai cụm có liên quan mật thiết tới quanhệ kết và gần nhau của các đối tượng trong các cụm Quá trình hòa nhập dễ dàng khám phá các cụm tự nhiên và đồng nhất, ứng dụng cho tất cả các kiểu dữ liệu miễn là hàm tương tự được xác định

Nó khắc phục được nhược điểm các phương pháp CURE và ROCK Lý do là CURE và lược đồ liên quan lờ đi thông tin về liên kết của các đối tượng trong hai cụm khác nhau, trong khi ROCK lược đồ liên quan lờ đi thông tin về gần nhau của hai cụm mà lại chú trọng quá về liên kết

CURE sử dụng thuật toán phân hoạch đồ thị để phân cụm các đối tượng dữ liệu vào trong một số lớn một cách tương đối nhỏ của các cụm con.Chameleon sử dụng thuật toán phân cụm phân cấp để tìm các cụm xác thực bằng cách lặp nhiều lần kết hợp hoặc hòa nhập các cụm con Để xác định các cặp của nhiều cụm con tương tự, phải tính toán cả hai liên kết và gần nhau của các cụm, đặc biệt các đặc trưng bên trong của các cụm đang được hòa nhập.Như vậy, nó không phụ thuộc vào mô hình tĩnh và có thể từ động thíchnghi với đặc trưng bên trong của các cụm đang được hòa nhập Nó có khả năng hơn để khám phá các cụm có hình thù bất kỳ có chất lượng cao hơnCURE và DBSC N nhưng chi phí xử lý dữ liệu đa chiều phụ thuộc vào O(n2) thời gian cho n các đối tượng trong trường hợp xấu nhất

2.2 Thuật toán phân cụm dữ liệu dựa vào cụm trung tâm

2.2.1 Thuật toán PAM

Thuật toán PAM là thuật toán mở rộng của thuật toán K-means nhằm có khả năng xử lý hiệu quả đối với dữ liệu nhiễu hoặc phần tử ngoại lai, PAM sử dụng các đối tượng medoid để biểu diễn cho các cụm dữ liệu, một đối tượng medoid là

Trang 36

đối tượng đặt tại vị trí trung tâm nhất bên trong mỗi cụm.Vì vậy, đối tượng medoid ít bị ảnh hưởng của các đối tượng ở rất xa trung tâm, trong khi đó các trọng tâm của thuật toán K – means lại rất bị tác động bởi các điểm xa trung tâm này Ban đầu, PAM khởi tạo k đối tượng medoid và phân phối các đối tượng còn lại vào các cụm với đối tượng medoid đại diện tương ứng sao cho chúng tương tự đối với medoid trong cụm nhất.Giả sử Oj là đối tượng không phải medoid mà Om

là một đối tượng medoid, khi đó ta nói Oj thuộc về cụm có đối tượng medoid là

Om làm đại diện nếu d(Oj, Om) = minOe(Oj, Oe); trong đó d(Oj, Om) là độ phi tương tự giữa Oj và Oe, minOe là giá trị nhỏ nhất của độ phi tương tự giữa Oj và tất cả các đối tượng medoid của các cụm dữ liệu chất lượng của mỗi cụm được khám phá được đánh giá thông qua độ phi tương tự trung bình giữa một đối tượngvà đối tượng medoid tương ứng với cụm của nó, nghĩa là chất lượng phân cụm được đánh giá thông qua chất lượng của tất cả các đối tượng medoid Độ phi tương tự được xác định bằng độ đo khoảng cách, thuật toán P M được áp dụng cho dữ liệu không gian Để xác định các medoid, P M được áp dụng cho dữ liệu không gian Để xác định các medoid, PAM bắt đầu bằng cách lựa chọn k đối tượng medoid bất kỳ Sau mỗi bước thực hiện , PAM cố gắng hoán chuyển giữa đối tượng Medoid Om và một đối tượng Op, không phải là medoid, miễn là sự hoán chuyển này nhằm cải tiến chất lượng của phân cụm,quá trình này kết thúc khi chất lượng phân cụm không thay đổi Chất lượngphân cụm được đánh giá thông qua hàm tiêu chuẩn, chất lượng phân cụm tốt nhất khi hàm tiêu chuẩn đạt giá trị tối thiểu

PAM tính giá trị Cjmp cho tất cả các đối tượng Oj để làm căn cứ cho việc hoán chuyển giữa Om và Op

Om : là đối tượng medoid hiện thời cần được thay thế :

Op : là đối tượng medoid mới thay thế cho Om;

Oj : Là đối tượng dữ liệu ( Không phải medoid) có thể được di chuyểnsang cụm khác;

Oj,2 : Là đối tượng medoid hiện thời gần đối tượng Oj nhất

Trang 37

Các bước thực hiện thuật toán PAM

3 Chọn cặp đối tượng Om và Op Tính MinOm, MinOp, TCmp, nếu TCmp là

âm thay thế Om bởi Op và quay lại bước 2 Nếu TCmp dương,chuyển sang bước 4;

4 Với mỗi đối tượng không phải medoid, xác định đối tượng medoidtương tự với nó nhất đồng thời gán nhãn cụm cho chúng

END

2.2.2 Thuật toán CLARA

Thuật toán CL R được đưa ra nhằm khắc phục nhược điểm của thuật toán

P M trong trường hợp giá trị k và n là lớn CLARA tiến hành trích mẫu cho tập

dữ liệu có n phần tử, nó áp dụng thuật toán PAM cho mẫu này và tìm ra các đối tượng trung tâm medoid cho mẫu được trích ra từ dữ liệu này Nếu mẫu dữ liệu được trích theo một cách ngẫu nhiên, thì các medoid của nó xấp xỉ với các medoid của toàn bộ tập dữ liệu ban đầu Để tiến tới một xấp xỉ tốt hơn, CL R đưa ra nhiều cách lấy mẫu và thực hiện phân cụm cho mỗi trường hợp, sau đó tiến hành chọn kết quả phân cụm tốt nhất khi thực hiện phân cụm trên mẫu này Để đo chính xác, chất lượng của các cụm được đánh giá thông qua độ phi tương tự trung bình của toàn bộ các đối tượng dữ liệu trong tập đối tượng dữ liệu ban đầu Kết quả thực nghiệm chỉ ra rằng, 5 mẫu dữ liệu có kích thước 40 +2k cho kết quả tốt Các bước thực hiện của thuật toán CLARA :

CLARA (5);

Trang 38

BEGIN

1 For i = 1 to 5 do

2 Lấy một mẫu có 40 + 2k đối tượng dữ liệu ngẫu nhiên từ tập dữ liệu

và áp dụng thuật toán PAM cho mẫu dữ liệu này nhằm để tìm các đối tượng medoid đại diện cho các cụm

3 Đối với mỗi tượng Oj trong tập dữ liệu ban đầu, xác định đối tượng medoid tương tự nhất trong số k đối tượng medoid

4 Tính đố phi tương tự trung bình cho phân hoạch các đối tượng thu được

ở bước trước, nếu giá rị này bé hơn giá trị tối thiểu hiện thời thì

sử dụng giá trị này thay cho giá trị tối thiểu ở trạng thái trước, như vậy, tập

k đối tượng medoid xác định ở bước này là tốt nhất cho đến thời điểm này

5 Quay về bước 1

END

Phương pháp medoid không hiệu quả với trường hợp tập dữ liệu lớn,như vậy, phương pháp dựa trên mẫu được gọi là CLARA đây, một phầnnhỏ dữ liệu hiện thời được chọn như một đại diện của dữ liệu thay vì sử dụngtoàn bộ dữ liệu và sau

đó medoid được chọn từ mẫu sử dụng PAM Nếu mẫuđược chọn theo cách ngẫu nhiên thì nó có thể cần phải đại diện tập dữ liệugốc Các đối tượng đại diện (medoids) được chọn là tương tự mà đã được chọn từ tập dữ liệu Nó đưa ra nhiều mẫu của tập dữ liệu, áp dụng PAM trên mỗi mẫu, và trả lại cụm tốt nhất ở đầu ra, như vậy, CLARA có thể xử lý với tập dữ liệu lớn hơn PAM

2.2.3 Thuật toán CLARANS

CL R NS cũng sử dụng kiểu k-medoids , nó kết hợp thuật toán PAMvới chiến lược tìm kiếm kinh nghiệm mới tưởng cơ bản của CLARANS là không xem xét tất cả các khả năng có thể thay thế các đối tượng tâm medoids bới một đối tượng khác, nó ngay lập tức thay thế các đối tượng tâm này nếu việc thay thế này

Trang 39

có tác động tốt đến chất lượng phân cụm chứ không cần xác định cách thay thế tối

ưu nhất

CLARANS lấy ngẫu nhiên một đối tượng của k đối tượng medoid trong tâm cụm và cố gắng thay thế nó với một đối tượng chọn ngẫu nhiên trong (n-k) đối tượng còn lại Cụm thu được sau khi thay thế đối tượng trung tâm được gọi là một láng giềng của phân hoạch cụm trước đó Số các láng giềng được hạn chế bởi tham số do người dùng đưa vào là Maxneighbor, quá trình lựa chọn các láng giềng này hoàn toàn ngẫu nhiên Tham số Numlocal cho phép người dùng xác định số vòng lặp tối ưu cục bộ được tìm kiếm.Không phải tất cả các láng giếng được duyệt

mà chỉ có Maxneighbor số láng giềng được duyệt Nếu một láng giềng tốt hơn được tìm thấy, thì CLARANS di chuyển láng giềng đó tới nút và quá trình bắt đầu lặp lại; nếu không kết quả cụm hiện thời là tối ưu cục bộ Nếu tối ưu cục bộ được tìm thấy, thì CLARANS bắt đầu với lựa chọn nút ngẫu nhiên mới trong tìm kiếm tối ưu cục bộ mới

CLARANS không thích hợp với tập dữ liệu lớn bởi vì nó lấy phần nhỏ của toàn bộ tập dữ liệu và phần này được chọn để đại diện toàn bộ tập dữ liệu và thực hiện sau đó CL R NS không bị giới hạn không gian tìm kiếm như đối với CLARA, và trong cùng một lượng thời gian thì chất lượng của các cụm phân được

là lớn hơn CL R

Một số khái niệm sử dụng trong thuật toán CL R NS được định nghĩa như sau:

Giả sử O là một tập có n đối tượng và M O là tập các đối tượng tâm mediod,

NM = O- M là tập các đố tượng không phải tâm Các đối tượng dữ liệu sử dụng trong thuật toán CLARANS là các khối đa diện Mỗi đối tượng được diễn tả bằng một tập các cạnh, mỗi cạnh được xác định bằng hai điểm

Thuật toán chi tiết CLARANS :

Input : O,k, dist, numlocal và maxneighbor;’

Output : k cụm dữ liệu;

CLARANS(int k, function dist, int numlocal, int maxneighbor)

Trang 40

END

2.3 Thuật toán phân cụm dữ liệu dựa vào tìm kiếm

2.3.1 Thuật toán di truyền (GAS)

Thuật toán di truyền GAS lần đầu tiên được đề xuất bởi Holland (1975) là một

họ tính toán mô hình lấy cảm hứng từ tương tự của sự tiến hóa và di truyền dân số Gas vốn song song và đặc biệt thích hợp cho việc giải quyếtvấn đề tối ưu hóa phức tạp.Filho et al (1994) trình bày một cuộc khảo sát của khí cùng với một G đơn giản viết bằng C ngôn ngữ

Định dạng
Số trang	90
Dung lượng	1,48 MB

Tiểu luận công nghệ tri thức và ứng dụng THUẬT TOÁN K-MEAN TRONG PHÂN CỤM DỮ LIỆU VÀ ỨNG DỤNG

Chọn số cụm cho thuậttoán K-means

Khai phá dữliệu có cấu trúc lớn