Phân cụm dữ liệu dựa trên đồ thị sử dụng cây khung cự tiểu

Khai phá dữ liệu có thể ược xem như l một kết quả của sự tiến hóa tự nhiên của công nghệ thông tin Khái niệm KDD Knowledge Discovery in Databases ược ịnh ngh l quá trình trích chọn các m

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ -

TRẦN QUANG HÀO

PHÂN CỤM DỮ LIỆU DỰA TRÊN ĐỒ THỊ

SỬ DỤNG CÂY KHUNG CỰC TIỂU

LUẬN VĂN THẠC SỸ C NG NGHỆ TH NG TIN

Hà Nội – 2014

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

-

TRẦN QUANG HÀO

PHÂN CỤM DỮ LIỆU DỰA TrRÊN ĐỒ THỊ

SỬ DỤNG CÂY KHUNG CỰC TIỂU

Ngành: Công Nghệ Thông Tin

Chuyên ngành: Kỹ thuật Phần mềm (Software Engineering)

Mã số: 60480103

LUẬN VĂN THẠC SỸ C NG NGHỆ TH NG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS HOÀNG XUÂN HUẤN

Hà Nội – 2014

Trang 3

1

LỜI CẢM ƠN

Điều ầu ti n tôi xin gửi lời cảm ơn sâu sắc nhất ến PGS.TS Hoàng Xuân Huấn Thầy ã cung cấp cho tôi những kiến thức, tài liệu, phương pháp khi nghi n cứu v l m luận v n Tôi xin cảm ơn thầy về sự hỗ trợ chân thành và nhiệt tình trong suốt thời gian qua Đối với t i thầy l một người thầy áng k nh v lu n hết l ng v học vi n

T i xin gửi lời cảm ơn chân th nh ến các thầy c ộ ã giảng y các cán ộ trong kho c ng nghệ th ng tin kho s u i học ph ng t chức h nh ch nh

T i xin gửi lời cảm ơn ến gi nh ng nghiệp v n những người ã ộng vi n t i rất nhiều trong quá tr nh học tập

Hà Nội, ngày 2 tháng 12 n m 2014

Học viên

Trần Quang Hào

Trang 4

2

LỜI CAM ĐOAN

T i xin c m o n những kiến thức trình bày trong luận v n n y l o t i t m hiểu,

nghiên cứu và trình bày theo cách hiểu của bản thân ưới sự hướng dẫn trực tiếp của PGS.TS Hoàng Xuân Huấn Trong quá trình làm luận v n t i có th m khảo các tài liệu

có li n qu n v ã ghi rõ ngu n gốc tham khảo tài liệu ó Mọi sao chép không hợp lệ,

vi ph m quy chế o t o tôi xin chịu hoàn toàn trách nhiệm

Hà Nội, ngày 2 tháng 12 n m 2014 Học viên

Trần Quang Hào

Trang 5

3

MỤC LỤC

LỜI CẢM ƠN 1

LỜI CAM ĐOAN 2

MỤC LỤC 3

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT 5

DANH MỤC HÌNH VẼ 6

LỜI MỞ ĐẦU 7

CHƯƠNG 1: GIỚI THIỆU VỀ KH M PH TRI TH C V PH N CỤM Ữ LIỆU 8

1.1 Khám phá tri thức 8

1.2 Vai trò và các mục tiêu chính của KDD 9

1.3 Khái niệm phân cụm ữ liệu: 10

1.4 Các ứng dụng của phân cụm 11

1 5 Một số phương pháp phân cụm iển h nh 12

1 5 1 Phương pháp phân cụm phân ho ch 12

1 5 2 Phương pháp phân cụm phân cấp 13

1 5 3 Phương pháp phân cụm dựa trên mật ộ 16

1 5 4 Phương pháp phân cụm dự tr n lưới 17

1.6 Một số vấn ề li n qu n ến phân cụm 18

1.6.1 Mêtric trên dữ liệu hỗn hợp 18

1.6.2.Độ tương ng 20

1.6.3 Entropy 23

CHƯƠNG 2: THU T TO N PH N CỤM S ỤNG C Y KHUNG CỰC TIỂU 24

2.1.Cây khung cực tiểu 24

2 1 1 Đ nh ngh cây khung cực tiểu 24

2 1 2 Thuật toán xây ựng cây khung cực tiểu 24

2.2 Một số khái niệm cần dùng 26

2.3 Cụm ược mô tả bởi Zahn v H n l 27

2.4 Thiết lập i toán phân cụm ng thị: 28

2 5 Độ phức t p củ thuật toán 2-MSTs 35

Trang 6

4

CHƯƠNG 3: THỰC NGHIỆM NG ỤNG 37

3 1 Giới thiệu 37

3.2 Chương tr nh v kết quả thử nghiệm 37

3 2 1 Chương tr nh 37

3.2.2 Kết quả thử nghiệm 38

KẾT LU N 48

TÀI LIỆU THAM KHẢO 49

Trang 7

5

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

CLS ConceptLearning System Hệ thống học khái niệm

KDD Knowledge Discovery in Data Khám phá tri thức trong dữ liệu

MDL Minimum Description Length Chiều dài tối thiểu

MST Minimum spanning tree Cây khung cực tiểu

Trang 8

6

DANH MỤC HÌNH VẼ

Hình 1.1 Quá trình phát hiện tri thức trong CSDL 9

Hình 1.2: Mô phỏng vấn ề PCDL 10

Hình 1.3: Phân cụm tập S = { c e} theo phương pháp “ ưới l n” 15

Hình 1.4: Hai cụm ược tìm bởi thuật toán DBSCAN 17

Hình 1.5: Hai cụm dữ liệu có thể t m ược nhờ DBSCAN 17

Hình 1.6: Ba tầng liên tiếp nhau của cấu trúc STING 18

Hình 2.1: Một số hình minh họa phân cụm bởi Zahn 27

Hình 2.2 Một số hình minh họa phân cụm bởi Handl 27

Hình 2.3 Minh họa MSTs hai vòng 30

Hình 2.4 Minh họa cụm tách về mật ộ 32

Hình 2.5 Minh họa cụm không thể t ch ược hơn nữa 32

Hình 2.6 Minh họa cụm với tỉ lệ cut khác nhau 33

Hình 3.1 Giao diện co e chương tr nh 38

Hình 3.2 Giao diện khi ch y chương tr nh 38

H nh 3 3 ảng kế ho ch khai thác bay 39

H nh 3 4 ảng s u khi t nh toán T1 v T2 nhận ng tách cụm 39

Hình3.5: Bảng Gain của các thuộc tính 40

Hình 3.5 : Bảng với f10 nhận giá trị 0 40

Hình 3.6: Bảng với f10 nhận giá trị 1 41

Hình 3.7: Bảng t nh G in củ các thuộc t nh lần 2 41

Hình 3.8: Bảng f13 nhận giá trị b ng 0 42

Hình 3.9: Bảng f13 nhận giá trị b ng 1 42

Hình 3.10 Bảng kết quả phân cụm s u khi t nh entropy lần 1 43

Trang 9

7

H nh 3 14 ảng dữ liệu thử nghiệm lần 2 46

H nh 3 15 ảng s u khi t nh toán T1 v T2 nhận ng tách cụm 46

Hình 3.16 Bảng kết quả phân cụm s u khi t nh enropy lần 1 47

Hình 3.17 Bảng kết quả phân cụm s u khi t nh enropy lần 2 47

Trang 10

Trong luận v n n y em tr nh y khảo cứu của tác giả về tiếp cận phân cụm dữ liệu sử dụng cây khung cực tiểu Đặc biệt i sâu v o kỹ thuật phân cụm của thuật toán 2-MSTs

Ngo i phần mở ầu và kết luận, cấu trúc luận v n có 3 chương:

 Chương 1: Gi i thi u về h m ph tr th c v ph n cụm ữ i u

Chương n y sẽ tr nh y các khái niệm cơ ản về khám phá tri thức v phân cụm ữ liệu tóm tắt một số phương pháp phân cụm ữ liệu iển h nh

 Chương 2: Thuật to n ph n cụm sử ụng c hung cực tiểu

Trong chương n y ể l m rõ hơn kỹ thuật phân cụm dữ liệu dựa trên đồ thị sử

dụng cây khung cực tiểu , một số vấn ề li n qu n ến cây khung cực tiểu ược tr nh

y ngoài ra sẽ phân tích kỹ thuật phân cụm cây khung cực tiểu, tìm hiểu thuật toán phân cụm 2-MSTs

Trang 11

8

CHƯƠNG 1: GIỚI THIỆU VỀ H M PH TRI TH C V

PH N CỤM DỮ IỆU 1.1 Khám phá tri th c

Khám phá tri thức trong các cơ sở dữ liệu là một quy trình nhận biết các mẫu hoặc các mô hình trong dữ liệu với những t nh n ng: hợp thức, mới, khả ích và có thể hiểu ược Đây l một quá trình nghiên cứu một khối lượng dữ liệu lớn b ng các phương tiện tự ộng Mục ch của sự phát hiện tri thức và khai phá dữ liệu chính là tìm ra các mẫu v các m h nh ng t n t i trong các cơ sở dữ liệu nhưng vẫn còn bị che khuất bởi hàng núi dữ liệu

Các thông tin và kiến thức thu ược có thể ược sử dụng cho các ứng dụng khác nhau, ví dụ như phân t ch thị trường, phát hiện gian lận v uy tr khách h ng ể kiểm soát sản xuất và khoa học th m dò Khai phá dữ liệu có thể ược xem như l một kết quả của sự tiến hóa tự nhiên của công nghệ thông tin

Khái niệm KDD (Knowledge Discovery in Databases) ược ịnh ngh l quá trình trích chọn các mẫu hoặc tri thức hấp dẫn, Quá trình KDD có thể phân thành các

gi i o n sau:

1 Lựa chọn dữ liệu: L ước ta lựa chọn tập dữ liệu n ầu theo một số tiêu chí nhất

ịnh từ tập dữ liệu lớn như: t se t w rehouses h y t repositories

2 Tiền xử lý dữ liệu: ước này làm s ch dữ liệu (xử lý với dữ liệu kh ng ầy ủ, dữ liệu

nhiễu, dữ liệu không nhất quán …) rút gọn dữ liệu (sử dụng hàm nhóm và tính t ng, các phương pháp nén ữ liệu, sử dụng histograms, lấy mẫu … ) rời r c hóa dữ liệu (rời

r c hóa dựa vào histograms, dựa vào entropy, dựa vào phân khoảng ) Qu ước này,

dữ liệu sẽ nhất quán ầy ủ ược rút gọn v ược rời r c hóa

3 Đổi dạng: L ước chuẩn hóa và làm mịn dữ liệu ể ư ữ liệu về d ng phù hợp

nhất nh m phục vụ cho các kỹ thuật khai phá ở ước sau

4 Khai phá dữ liệu (Data mining): Đây l ước áp dụng những kỹ thuật phân tích (phần

nhiều là các kỹ thuật của học máy) nh m ể khai thác dữ liệu, trích chọn ược những mẫu thông tin, những mối liên hệ ặc biệt trong dữ liệu Đây ược xem l ước quan trọng và tốn nhiều thời gian nhất của toàn quá trình KDD

5 Biểu diễn: Các mẫu thông tin và mối liên hệ trong dữ liệu ã ược khám phá ở ước

tr n ược chuyển d ng và biểu diễn ở một d ng gần gũi với người sử dụng như thị,

Trang 12

9

cây, bảng biểu, luật Đ ng thời ước n y cũng ánh giá những tri thức khám phá ược theo những tiêu chí nhất ịnh [7,12,13]

Các ước thực hiện trong quá tr nh khám phá tri thức

Hình 1.1 Quá trình phát hiện tri thức trong CSDL

1.2 Vai trò và các mục tiêu chính của KDD

 Thu thập các tri thức từ dữ liệu có sẵn

- Nhiều cơ qu n ã thu nhập ược nhiều n m một khối lượng lớn các dữ liệu họ

sẽ phải làm gì và có thể làm gì với chúng?

- Người t lưu trữ các dữ liệu vì họ ngh r ng có thể có những của cải áng quý

n o nó ng tiềm ẩn trong chúng Về ý ngh kho học thì dữ liệu chính là những quan sát ã ược tập hợp l i một cách cẩn thận và công phu về một hiện tượng tự nhiên hay

xã hội n o ó cần phải ược nghiên cứu

- Trong kinh doanh, dữ liệu hàm chứa các thông tin về thị trường, về các ối thủ và về các khách hàng Trong kỹ nghệ, dữ liệu chứa các thông tin về sản xuất, về vận hành và các khả n ng tối ưu cũng như các giải pháp chủ yếu ể cải tiến các quy trình và giải quyết các sự cố

- Chỉ có một lượng khá nhỏ (th ng thường vào khoảng 5% ến 10%) dữ liệu ã ược thu thập lu n lu n ược phân tích

- Các dữ liệu có thể chư o giờ ược phân tích vẫn tiếp tục ược thu thập rất tốn kém với ý ngh lo x r ng sau này sẽ có một cái g ó rất quan trọng có thể bỏ qua

- Lượng dữ liệu quá lớn ối với cách thức phân tích c iển Đ i khi t kh ng thể xem ược hoặc chứ ược tất cả trong bộ nhớ.[9]

Đ nh gi v giải thíchBiến đổi dữ li u Biến đổi dữ

li u

Biểu diễn tri Tri thức

Trang 13

10

1.3 Khái ni m phân cụm ữ i u:

Phân cụm dữ liệu (Data clustering) là quá trình phân chia một tập dữ liệu n ầu thành các cụm dữ liệu sao cho các phần tử trong một cụm "tương tự" với nhau và các phần tử trong các cụm khác nhau sẽ "kém tương tự " với nhau Số các cụm dữ liệu ược phân ở

ây có thể ược xác ịnh trước hoặc có thể ược tự ộng xác ịnh theo phương pháp

phân cụm [6]

Trong học máy PC L ược xem là vấn ề học không có giám sát (unsupervised learning), vì nó phải giải quyết vấn ề tìm một cấu trúc trong tập hợp dữ liệu chư iết trước các thông tin về cụm hay các thông tin về tập huấn luyện mà chỉ ơn thuần dựa

v o t nh tương ng củ các ối tượng dữ liệu Trong nhiều trường hợp, nếu phân lớp ược xem là vấn ề học có giám sát thì PCDL là một ước trong phân lớp dữ liệu, nó sẽ khởi t o các lớp cho phân lớp b ng cách xác ịnh các nhãn cho các nhóm dữ liệu [6]

V ụ minh họ về phân cụm ữ liệu:

Hình 1.2: Mô phỏng vấn đề PCDL

Các yêu cầu của phân cụm trong khai phá dữ liệu

Hầu hết các nghiên cứu và phát triển thuật toán PC L ều nh m thỏa mãn các yêu cầu

cơ ản sau:

 Giảm dữ liệu: Giả sử ta có một lượng lớn dữ liệu (N) Phân cụm sẽ nhóm các dữ liệu

này thành m cụm dữ liệu dễ nhận thấy và m << N

 Có tính mở rộng

 Thích nghi với các kiểu dữ liệu khác nhau

 Tối thiểu lượng tri thức cần cho xác ịnh các tham số vào

 Thích nghi với dữ liệu nhiễu

Trang 14

từ các mẫu mu án trong cơ sở dữ liệu khách hàng

 Sinh học: Trong sinh học, phân cụm ược sử dụng ể xác ịnh các lo i sinh vật, phân lo i các Gen với chức n ng tương ng v thu ược các cấu trúc trong các mẫu

 Phân tích dữ liệu không gian: Do sự sộ của dữ liệu kh ng gi n như ữ liệu thu ược từ các hình ảnh chụp từ vệ tinh các thiết bị y học hoặc hệ thống th ng tin ịa lý (GIS) …l m cho người dùng rất khó ể kiểm tra các dữ liệu không gian một cách chi tiết Phân cụm có thể trợ giúp người dùng tự ộng phân tích và xử lý các dữ liệu không

gi n như nhận d ng và chiết xuất các ặc tính hoặc các mẫu dữ liệu quan tâm có thể t n

t i trong cơ sở dữ liệu không gian

 Lập quy ho ch thị: Nhận d ng các nhóm nhà theo kiểu và vị tr ị lý …

nh m cung cấp thông tin cho quy ho ch thị

 Nghiên cứu trái ất: Phân cụm ể theo õi các tâm ộng ất nh m cung cấp thông tin cho nhận d ng các vùng nguy hiểm

 Tóm tắt và giải thích dữ liệu bài toán: Nhiều bài toán, dữ liệu có thể ược tóm tắt nhờ xem xét thuộc tính của các cụm dữ liệu mà không cần thiết xem xét thuộc tính của từng mẫu Trong nhiều lý thuyết khoa học, việc giải thích theo cụm cũng rất có ý ngh chẳng h n việc phân tích tiến hóa sinh học có thể thực hiện theo loài và nhóm

 T o mẫu cho tiếp cận phân lớp thống kê: Trong nhiều bài toán phân lớp, việc thu thập dữ liệu mất nhiều thời gian và chi phí lớn Việc phân cụm dữ liệu ược thực hiện ở

gi i o n ầu ể ước lượng phân phối lớp cho các tập mẫu nhỏ

 Để t o tâm cho các nơron nhân t o trong các bộ phân lớp lo i này: Khi dùng

m ng nơron nhân t o ể phân lớp người t thường dùng vector trung bình của các

Trang 15

12

vector ặc trưng trong cụm làm tâm củ các nơron ể nhận biết các mẫu có ặc trưng gần ó

 Thư viện: Theo õi ộc giả, sách, dự oán nhu cầu củ ộc giả…

 Bảo hiểm: Phân nhóm các ối tượng sử dụng bảo hiểm và các dịch vụ tài chính,

dự oán xu hướng của khách hàng, phát hiện gian lận tài chính;

 Địa lý: Phân lớp các ộng vật và thực vật ư r ặc trưng của chúng

 Web Mining: Phân cụm có thể khám phá các nhóm tài liệu quan trọng, có nhiều ý ngh trong m i trường Web Các lớp tài liệu này trợ giúp cho việc khám phá tri thức

từ dữ liệu … [1,6]

1.5.M t s phương ph p ph n cụm điển h nh

1.5.1.Phương ph p ph n cụm phân hoạch

Với số lượng cụm ã ịnh, phương pháp phân ho ch sẽ lần lượt phân các ối tượng

dữ liệu vào các cụm s u ó thực hiện lặp quá tr nh iều chỉnh ể cực tiểu hàm mục

ti u ược chọn Thuật toán k-mean l thuật toán thông dụng nhất trong phương pháp

n y Trong các thuật toán này, số lượng cụm k thường ược xác ịnh trước hoặc ặt

ưới d ng tham số Với tập dữ liệu D g m n ối tượng trong không gian s chiều, các

ối tượng ược phân thành c cụm sao cho t ng nh phương ộ lệch của mỗi mẫu tới

tâm của nó là nhỏ nhất

S u ây l thuật toán k-means, thuật toán iển hình củ phương pháp n y

Thuật toán k-means

Thuật toán k-means (MacQueue, 1967) chia tập dữ liệu cho trước thành c cụm

{ }, sao cho t ng nh phương khoảng cách của mỗi ối tượng dữ liệu tới tâm cụm chứ nó t cực tiểu Như vậy, hàm mục tiêu của thuật toán này là:

(1.1) Trong ó: l tâm củ cụm tương ứng

Thuật toán n y thực hiện như s u:

ước 0: Xác ịnh trước số lượng cụm c v iều kiện ừng;

ước 1: Khởi t o ngẫu nhi n c iểm l m các tâm cụm;

ước 2: Lặp khi iều kiện ừng chư thỏ mãn:

Trang 16

13

2 1 Phân ho ch th nh c cụm ng cách gán mỗi ối tượng v o cụm m nó

gần tâm nhất;

2 2 T nh l i các tâm theo các ối tượng ã ược phân ho ch ở ước 2 1

Điều kiện ừng củ thuật toán thường chọn từ các iều kiện s u:

- Số lần lặp t = trong ó l số cho trước;

- Giá trị củ h m E nhỏ hơn một ngưỡng n o ó ( ảm ảo chất lượng củ các cụm ủ tốt h y nó ã ch y ược ủ số v ng lặp cần thiết)

- Tới khi các cụm kh ng i

Khi tập dữ liệu không quá lớn th người t ùng iều kiện dừng 3

Nếu tập dữ liệu D g m n mẫu với số thuộc tính là s, phân thành c cụm và số lần lặp ở ước 2 là t th ộ phức t p của thuật toán chỉ là O(tnsc) [14] nên rất thích hợp khi

tập D g m lượng dữ liệu lớn

1.5.2 Phương ph p ph n cụm phân cấp

Trong phương pháp n y tập dữ liệu ược sắp xếp thành một cấu trúc có d ng hình cây gọi là cây phân cụm Cây này có thể ược xây dựng nhờ kỹ thuật ệ quy theo hai phương pháp t ng quát: phương pháp ưới l n ( ottom up) v phương pháp tr n xuống (top down)

 Phương pháp ưới lên (bottom up)

Các thuật toán theo phương pháp ưới lên còn gọi là các thuật toán trộn n ầu, người ta khởi t o mỗi ối tượng làm một cụm và dùng thủ tục ệ quy ể trộn hai cụm gần nhất với nhau trong mỗi ước ể có kết quả chia cụm mới Thủ tục ệ quy kết thúc

ta có tập duy nhất là toàn bộ dữ liệu Các thuật toán phân biệt với nhau ở tiêu chuẩn ánh giá h i cụm nào là gần nhất dựa trên khoảng cách các cụm chọn trước Quy tắc ể

chọn các cụm trộn n y ược gọi là quy tắc liên kết Quá trình thực hiện thuật toán ược

biểu diễn thành cây và quyết ịnh phân dữ liệu thành bao nhiêu cụm sẽ o người dùng quyết ịnh Người ùng cũng ự tr n cây n y ể nhận ược kết quả phân cụm

Cụ thể, với cách tính khoảng cách ể chọn cặp cụm trộn với nh u cho trước, các thuật toán trộn bao g m các ước sau:

Trang 17

Phương pháp tr n xuống (top down)

Phương pháp tr n xuống còn gọi l phương pháp tách ược thực hiện theo trình tự ngược với phương pháp trộn Trong mỗi ước người ta chọn một cụm ể tách thành cụm con theo quy tắc ánh giá v tách cụm cho trước Phương pháp n y phức t p và lâu hơn phương pháp ưới l n v thường chỉ ược áp dụng khi người ta có thêm thông tin

về phân bố cụm ể có phương pháp tách phù hợp

Ví dụ:

Trong ví dụ này, ta giải thiết ã có quy tắc liên kết và không bàn cụ thể tới cách chọn cụm trộn Quá trình thực hiện phương pháp “ ưới l n” phân cụm tập dữ liệu S = {a,

c e} ược mô tả trong ph ưới cụ thể như s u:

ước 0: Mỗi ối tượng dữ liệu ược gán cho mỗi cụm như vậy các cụm n ầu

là: {a},{b},{c},{d},{e}

ước 1: { } v { } l ược gộp vào thành một cụm lớn hơn l { } v các cụm

thu ược là: {a,b},{c},{d},{e}

ước 2: Gộp cụm {d},{e} thành {d,e}, các cụm thu ược là {a,b},{c},{d,e}

ước 3: Gộp cụm {c} với {d,e} thành {c,d,e}, các cụm thu ược là {a,b}, {c,d,e} ước 4: Gộp cụm hai cụm {c,d,e} với {a,b} thành {a,b,c,d,e}

Trang 18

Với m tric trong kh ng gi n ặc trưng xác ịnh ởi một chuẩn ã có s u ây

l một số quy tắc li n kết th ng ụng

a) Liên kết đơn

Ký hiệu l NN (Ne rest Neigh our) Trong quy tắc n y khoảng cách giữ h i cụm ược xác ịnh nhờ khoảng cách nhỏ nhất giữ h i mẫu ( ối tượng) tương ứng với h i cụm:

c) Liên kết trung bình giữa các nhóm

Ký hiệu l UPGMA (Un-Weighted Pair-Group Method using Arithmetic averages) Như t n gọi củ nó khoảng cách l trung nh củ khoảng cách giữ các cặp

ối tượng thuộc h i cụm tương ứng:

(1.2c) Trong ó: và l số phần tử củ các cụm tương ứng

Bước 1 Bước 2 Bước 3 Bước 4Bước 0

a

a b

d e

c d e

Trang 19

16

Một số thuật toán phân cụm phân cấp iển h nh như CURE IRCH AGNES…

1.5.3 Phương ph p ph n cụm dựa trên mật đ

Phương pháp phân cụm dựa vào mật ộ xem các cụm như l các vùng có mật ộ các ối tượng lớn trong không gian dữ liệu Các phương pháp ựa vào mật ộ có thể sử dụng ể lo i bỏ nhiễu và phát hiện ra các cụm có hình d ng tự nhiên

Thuật toán dựa vào mật ộ ầu tiên là thuật toán DBSCAN (Ester et al, 1996), thuật toán này xem xét mật ộ theo lân cận của mỗi ối tượng, nếu số lượng các ối tượng trong khoảng cách của một ối tượng lớn hơn ngưỡng MinPts th ối tượng ó ược xem là n m trong một cụm

Thuật toán DBSCAN (Density – Based Spatial Clustering of Applications with Noise)

Thuật toan DBSCAN nhóm các vùng có mật ộ ủ cao vào trong một cụm và thác triển

dự tr n các ối tượng lõi ể có các cụm với hình d ng tự nhiên trong các tập không

gi n ặc trưng Thuật toán yêu cầu xác ịnh trước hai tham số ầu vào là và Minpts Phân cụm dữ liệu theo thuật toán DBSCAN áp dụng các luật s u ây:

Các ối tượng n m trong hình cầu bán kính ε (ε–lân cận) của một ối tượng ược gọi là ε–láng giềng củ ối tượng ó Đối tượng có ít nhất l Minpts ối tượng khác là ε–láng giềng th ược gọi l ối tượng nhân

Một ối tượng có thể n m trong một cụm khi và chỉ khi nó n m trong ε –lân cận của một ối tượng nhân thuộc cụm ó

Một ối tượng lõi o là ε–láng giềng của một ối tượng nhân p thì o thuộc cùng cụm với

Trang 20

17

Hình 1.4: Hai cụm được tìm bởi thuật toán DBSCAN

Hình sau minh họa một ví dụ về tập dữ liệu g m hai cụm ược nhận biết nhờ phương pháp n y m kh ng ùng phương pháp phân ho ch ược

Hình 1.5: Hai cụm dữ liệu có thể tìm được nhờ DBSCAN

1.5.4 Phương ph p ph n cụm dựa trên ư i

Để nâng c o hiệu quả củ phân cụm một cách tiếp cận l phân chi miền kh ng

gi n ặc trưng chứ ữ liệu th nh một số hữu h n các t o n n ng h nh lưới v sử ụng các ặc trưng thống k ể phân t ch các ữ liệu trong mỗi v quyết ịnh tách h y nhập chúng T l m quen với thuật toán STING ể hiểu cách tiếp cận n y

Thuật to n STING (A STatistical INformation Grid approach)

STING o W W ng v các cộng sự (1997) ề xuất phương pháp n y t chức miền kh ng gi n chứ ữ liệu th nh lưới h nh hộp mức ể phân t ch cụm theo thống

k phân cấp tr n từng n ầu t chi miền ữ liệu th nh các h nh chữ nhật (hoặc

h nh hộp khi kh ng gi n có số chiều c o) với chiều i các c nh ở mức 1 Việc phân t ch

th ng tin ự tr n các ặc iểm thống k củ tập ữ liệu trong mỗi như:

 Count: số ối tượng trong

 M: vectơ trung nh củ ữ liệu trong

 S: ộ lệch chuẩn củ mọi giá trị thuộc t nh trong

 Min: giá trị cực tiểu củ các thuộc t nh trong

 M x: giá trị cực i củ các thuộc t nh trong

 istri ution: kiểu phân phối củ các giá trị thuộc t nh trong

Trang 21

18

Việc phân t ch n y giúp t quyết ịnh có chi ng xét ở mức mịn hơn kh ng

h y l ã ủ ể phân cụm trong từng hoặc kết hợp với các cụm ở liền kề Cách phân chi như vậy t o r một cấu trúc phân cấp: mỗi ở mức c o ược phân chi th nh một

số ở mức thấp hơn trong ước tiếp theo

Hình 1.6 m tả 3 mức lưới li n tiếp nh u trong cấu trúc STING mỗi ở mức tr n ược phân th nh ốn ở mức tiếp theo Các th m số thống k ở mức c o khi chư xác ịnh ược sẽ ược t nh toán từ các th m số trong các ở mức thấp hơn

Kiểu phân ố ở mức c o ược t nh toán ự tr n các kiểu phân ố ở các tương ứng ở mức thấp Nếu các phân ố ở mức thấp kh ng cho iết phân ố mức c o th phân

ố ở mức c o sẽ l kh ng xác ịnh ( ược ặt l none)

Hình 1.6: Ba tầng liên tiếp nhau của cấu trúc STING

Việc phân tích thống kê thực hiện phân cấp theo các ô từ tầng trên Tầng này bao

g m một số lượng nhỏ các ô Với mỗi ô trong tầng, tính khoảng chắc chắn mà các ô trong ó sẽ trở thành một cụm ể quyết ịnh Các ô không chắc chắn sẽ phân chia tiếp hoặc lo i bỏ Tiến tr nh n y ược lặp l i cho ến khi tính chất cụm của dữ liệu trong mỗi xác ịnh rõ Việc phân cụm sẽ hoàn tất khi xác ịnh ược quan hệ cụm giữa dữ liệu trong các ô [1,6]

1.6 M t s vấn đề iên quan đến ph n cụm

1.6.1 Mêtric trên dữ li u hỗn hợp

Trong phân cụm các ối tượng dữ liệu thường ược diễn tả ưới d ng các ặc tính hay còn gọi là thuộc tính, các thuộc tính này là các tham số ể giải quyết vấn ề phân cụm

và sự lựa chọn chúng có tác ộng áng kể ến kết quả phân cụm

Phân lo i các kiểu thuộc tính khác nhau là vấn ề cần giải quyết ối với hầu hết các tập

dữ liệu nh m cung cấp các phương tiện thuận lợi ể nhận d ng sự khác nhau của các phần tử dữ liệu Các thuật toán phân cụm thường sử dụng một trong hai cấu trúc dữ liệu sau:

Trang 22

19

Ma trận dữ liệu (Data matrix, object-by-variable structure): Là mảng n hàng, p

cột trong ó p l số thuộc tính của mỗi ối tượng Mỗi hàng biểu diễn một ối tượng, các phần tử trong mỗi hàng chỉ giá trị thuộc t nh tương ứng củ ối tượng ó Mảng ược cho như s u:

Ma trận phi tương tự (Dissimilarity matrix, object-by-object structure): Là mảng

n hàng, n cột Phần tử d(i,j) chứa khoảng cách h y ộ khác biệt giữ các ối tượng i và

ối tượng j, d(i,j) là một số kh ng âm trong ó nếu d(i,j) xấp xỉ 0 th h i ối tượng i và j

là khá "gần" nhau, nếu d(i,j) càng lớn th h i ối tượng i, j khá khác nhau Do d(i,j) = d(j,i) = 0 nên ta có thể biểu diễn ma trận phi tương tự như s u:

0(2,1) 0(3,1) (3, 2) 0

d ng ma trận phi tương tự trước khi tiến hành phân cụm [11]

Trong lược quan hệ R, miền giá trị của các thuộc tính Aj có thể là tập số thực, giả sử DOM(Aj) là miền giá trị của thuộc tính Aj Ta có các khái niệm sau

 Thuộc tính định danh Đây l ng thuộc tính khái quát hoá của thuộc tính nhị

phân, Aj ượcgọi là thuộc t nh ịnh danh nếu DOM(Aj) là rời r c không phân biệt thứ

tự và có nhiều hơn hai phần tử, tức là  a,b  DOM(Aj), hoặc a = b hay ab Chẳng

h n như thuộc tính nơi sinh hoặc thuộc tính tên gọi của người

 Thuộc tính số Aj ượcgọi là thuộctính số nếu DOM(Aj) là tập số thực

 Thuộc tính thứ tự: Là thuộc t nh ịnh nh nhưng có th m t nh thứ tự nhưng

chúng kh ng ược ịnh lượng Nếu DOM(Aj) là tập hữu h n và có thứ tự hoàn

Trang 23

20

toàn thì Aj ƣợc gọi là thuộc tính có thứ tự, chẳng h n: DOM(Aj) = { kh ng u

hơi u u v rất u}

Trên miền giá trị DOM(Aj) của một thuộc tính Aj t xác ịnh các khoảng cách nhƣ s u

 Thuộc tính nhị phân là thuộc tính có hai giá trị là 0 và 1

Định nghĩa 1.1 x,y DOM(Aj) ta hàm dj(x y) xác ịnh bởi :

i) Nếu Aj là thuộc tính số thì dj(x,y) = xy (1.3a)

ii) Nếu Aj là thuộc tính thứ tự và DOM(Aj) = k

j

a , ,1 với k

j j

a1  2   , ta lấy một

h m ơn iệu fj: DOM(Aj)→ [0 1] s o cho ( 1)0; ( k)1

j j j

f j i j ) Khi ó j(x,y) = │fj(x)-fj(y) │ (1.3b)

iii) Nếu Aj là thuộc t nh ịnh danh thì dj(x,y) =

y x khi

:1

:0

(1.3c)

Bây giờ t ịnh ngh khoảng cách trên

Định nghĩa 1.2 Giả sử x = (x1, ,xn) và y = (y1, ,yn) l h i ối tƣợng dữ liệu hỗn hợp trên D, khoảng cách (x y) ƣợc tính bởi công thức:

),()

,

trong ó các j(xj,yj) ƣợc tính theo các công thức (1.3a -1.3c) vàjlà các trọng số ƣơng cho ởi các chuyên gia tuỳ theo mức quan trọng của thuộc tính

Với ịnh ngh tr n t lu n có thể xem các thuộc tính thứ tự có miền giá trị là

o n [0 1] ể tìm mode (các giá trị trên thuộc tính này của D là tập con) và nó cũng ƣợc xem là thuộc tính số khi không xảy ra nhầm lẫn [1, 7]

Trang 24

i) d(i, i) = 0 với mọi i

ii) (i k) = (k i) với mọi cặp (i k)

iii) d(i, k)  0 với mọi cặp (i k)

Một số phép o ộ tương ng áp ụng cho các kiểu thuộc t nh

 Thuộc t nh khoảng: S u khi chuẩn hó ộ o phi tương tự củ h i ối tượng ữ liệu x y ược xác ịnh ng các m tric khoảng cách như s u:

/ 1

1

2

) (

),

khoảng cách Minskowski trong trường hợp q = 2

1

|

| ) ,

củ khoảng cách Minskowski trong trường hợp q = 1

n i

y x

cách Minskowski trong trường hợp q  

Trang 25

Trong ó :  =+ ++ các ối tượng x y m tất cả các thuộc t nh t nh củ

nó ều l nhị phân iểu thị ng 0 v 1 ảng tr n cho t các th ng tin s u :

  l t ng số các thuộc t nh có giá trị l 1 trong cả h i ối tượng x y

  l t ng số các giá trị thuộc t nh có giá trị l 1 trong x v 0 trong y

  l t ng số các giá trị thuộc t nh có giá trị l 0 trong x và 1 trong y

  l t ng số các giá trị thuộc t nh có giá trị l 0 trong x v y Các phép o ộ tương tương ng ối với ữ liệu thuộc t nh nhị phân ược ịnh ngh như s u :

o Hệ số đối sánh đơn giản:

d chú ý r ng th m số n y ỏ qu số các

ối sánh giữ 0 - 0 C ng thức t nh n y ược sử ụng trong trường hợp m trọng số

củ các thuộc t nh có giá trị 1 củ ối tượng ữ liệu có c o hơn nhiều so với các thuộc t nh có giá trị 0 như vậy các thuộc t nh nhị phân ở ây l kh ng ối xứng

 Thuộc t nh ịnh nh: Độ o phi tương tự giữ h i ối tượng x v y ược ịnh ngh như s u: d(x, y) p m

Trang 26

Entropy cho chúng ta biết sự ng nhất của một phân cụm Một phân cụm càng

ng nhất thì entropy của nó càng giảm v ngƣợc l i Entropy của một phân cụm mà chỉ chứa một ối tƣợng (cân b ng hoàn hảo) là 0

Coi P là một kết quả phân chia của một thuật toán phân cụm bao g m m phân

cụm Với tất cả phân cụm j trong P, chúng ta cần tính toán pij, với pij là khả n ng một thành viên của phân cụm j thuộc vào lớp i

Entropy của mỗi phân cụm j ƣợc tính toán sử dụng công thức chuẩn:E j   p ij log(p ij)

,trong ó việc tính t ng ƣợc thực hiện với tất cả các lớp

T ng entropy của một tập các phân cụm ƣợc t nh toán nhƣ l t ng cộng entropy của mỗi phân cụm ƣợc tính toán dựa theo kích cỡ của mỗi phân cụm:

)(

m

j

j j

Định dạng
Số trang	53
Dung lượng	1,63 MB