Nghiên cứu mô hình phân cụm có thứ bậc các đồ thị dữ liệu

Phương pháp luận và phương pháp nghiên cứu Kết hợp lý thuyết được thu nhận từ nhiều nguồn như các bài báo, tài liệu, các công trình nghiên cứu liên quan đến các độ đo trong phân cụm, ph

Trang 1

ĐẠI HỌC THÁI NGUYÊN

TRƯỜNG ĐẠI HỌC CNTT & TT THÁI NGUYÊN

Trang 2

ĐẠI HỌC THÁI NGUYÊN

TRƯỜNG ĐẠI HỌC CNTT & TT THÁI NGUYÊN

LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS ĐOÀN VĂN BAN

Thái Nguyên – 2017

Trang 3

Tên tôi là: Nguyễn Thế Đạt

Sinh ngày: 09/01/1979

Học viên lớp cao học CK14 - Trường Đại học Công nghệ thông tin và Truyền thông - Đại học Thái Nguyên

Hiện đang công tác tại: Trường THCS Hạp Lĩnh – TP Bắc Ninh – Bắc Ninh

Xin cam đoan: Đề tài “Nghiên cứu mô hình phân cụm có thứ bậc các đồ thị

dữ liệu” do Thầy giáo PGS.TS Đoàn Văn Ban hướng dẫn là công trình nghiên cứu

của riêng tôi Tất cả tài liệu tham khảo đều có nguồn gốc, xuất xứ rõ ràng

Tác giả xin cam đoan tất cả những nội dung trong luận văn đúng như nội dung trong đề cương và yêu cầu của thầy giáo hướng dẫn Nếu sai tôi hoàn toàn chịu trách nhiệm trước hội đồng khoa học và trước pháp luật

Thái Nguyên, ngày 15 tháng 5 năm 2017

Tác giả luận văn

Nguyễn Thế Đạt

Trang 4

LỜI CẢM ƠN

Sau một thời gian nghiên cứu và làm việc nghiêm túc, được sự động viên, giúp

đỡ và hướng dẫn tận tình của Thầy giáo hướng dẫn PGS.TS Đoàn Văn Ban, luận văn

với đề tài “Nghiên cứu mô hình phân cụm có thứ bậc các đồ thị dữ liệu”đã hoàn

thành

Tôi xin bày tỏ lòng biết ơn sâu sắc đến:

Thầy giáo hướng dẫn PGS.TS Đoàn Văn Ban đã tận tình chỉ dẫn, giúp đỡ tôi

hoàn thành luận văn này

Khoa sau Đại học Trường Đại học công nghệ thông tin và truyền thông đã giúp đỡ tôi trong quá trình học tập cũng như thực hiện luận văn

Tôi xin chân thành cảm ơn bạn bè, đồng nghiệp và gia đình đã động viên, khích lệ, tạo điều kiện giúp đỡ tôi trong suốt quá trình học tập, thực hiện và hoàn thành luận văn này

Thái Nguyên, ngày 15 tháng 5 năm 2017

Tác giả luận văn

Nguyễn Thế Đạt

Trang 5

MỤC LỤC

LỜI CAM ĐOAN i

LỜI CẢM ƠN ii

MỤC LỤC iii

DANH MỤC BẢNG v

DANH MỤC CÁC TỪ VIẾT TẮT vi

DANH MỤC CÁC HÌNH VẼ vii

MỞ ĐẦU 1

CHƯƠNG 1: PHÂN CỤM DỮ LIỆU VÀ PHÂN CỤM ĐỒ THỊ DỮ LIỆU 4

1.1 Phân cụm dữ liệu 4

1.1.1 Khái niệm và mục tiêu của phân cụm dữ liệu 4

1.1.2 Một số khái niệm cần thiết khi tiếp cận phân cụm dữ liệu 7

1.1.3 Một số kỹ thuật trong phân cụm dữ liệu 10

1.1.4 Các ứng dụng của phân cụm dữ liệu 16

1.2 Phân cụm đồ thị dữ liệu 17

1.2.1 Mô hình đồ thị dữ liệu 17

1.2.2 Các loại độ đo 18

1.2.3 Một số kỹ thuật phân cụm đồ thị dữ liệu 23

1.3 Kết luận chương 1 28

CHƯƠNG 2: PHÂN CỤM CÓ THỨ BẬC CÁC ĐỒ THỊ DỮ LIỆU 29

2.1 Thuật toán CHAMELEON 29

2.2 Thuật toán CURE 31

2.3 Thuật toán Girvan-Newman 34

2.3.1 Giới thiệu về độ đo modularity 34

2.3.2 Độ đo trung gian 35

2.3.3 Thuật toán phân cụm Girvan-Newman 36

2.4 Thuật toán CNM (Clauset-Newman-Moore) 39

2.5 Thuật toán Rosvall-Bergstrom 42

Trang 6

2.6 Thuật toán INC (Incre-Comm-Extraction) 47

2.6.1 Nội dung thuật toán 47

2.6.2 Độ phức tạp của thuật toán 49

2.6.3 Độ đo chất lượng phân cụm của thuật toán 50

CHƯƠNG 3: ỨNG DỤNG THUẬT TOÁN PHÂN CỤM CÓ THỨ BẬC TRONG PHÂN CỤM ĐỒ THỊ DỮ LIỆU CÁC MẠNG XÃ HỘI 52

3.1 Bài toán phân cụm mạng xã hội 52

3.2 Xây dựng chương trình ứng dụng phân cụm đồ thị các mạng xã hội 53

3.2.1 Giai đoạn 1: Thu thập dữ liệu 53

3.2.2 Giai đoạn 2: Xử lý dữ liệu 54

3.2.3 Giai đoạn 3: Xây dựng ứng dụng phân cụm có thứ bậc đồ thị các mạng xã hội 55

3.3 Các kết quả thực nghiệm và đánh giá 56

3.3.1 Thời gian thực thi thuật toán 57

3.3.2 Số cụm được phân chia 58

3.3.3 Chất lượng phân cụm 58

3.4 Phân cụm đồ thị mạng xã hội dựa trên mối quan tâm của người dùng 58

3.4.1 Giới thiệu 58

3.4.2 Mô hình hóa dữ liệu 60

3.4.3 Xây dựng dữ liệu 62

3.4.4 Xây dựng ứng dụng 66

3.4.5 Thực nghiệm và đánh giá INC 69

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 75

TÀI LIỆU THAM KHẢO 76

Trang 7

DANH MỤC BẢNG

Bảng 3.1: Kết quả thực thi các thuật toán………57 Bảng 3.2: Kết quả thực thi 2 thuật toán INC và CNM……….69

Trang 8

CURE Clustering Using

Representatives Phân cụm dữ liệu sử dụng điểm đại diện

GN Girvan-Newman Phân cụm phân chia

INC Incre-Comm-Extraction

MCL Markov Clustering Phân cụm theo mô hình Markov

RB Rosvall-Bergstrom

Trang 9

DANH MỤC CÁC HÌNH VẼ

Hình 1.1: Ví dụ về phân cụm dữ liệu 4

Hình 1.2: Ví dụ phân cụm các ngôi nhà dựa trên khoảng cách 5

Hình 1.3: Ví dụ phân cụm các ngôi nhà dựa trên kích cỡ 6

Hình 1.4: Các chiến lược phân cụm có thứ bậc 11

Hình 1.5: Ví dụ về phân cụm dựa theo mật độ 12

Hình 1.6: Cấu trúc phân cụm dựa trên lưới 13

Hình 1.7: Ví dụ về phân cụm dựa trên mô hình 14

Hình 1.8: Các cách mà các cụm có thể đưa ra 16

Hình 1.9: (a) Tối ưu đường kính cực tiểu hoặc tổng cực tiểu tạo ra cụm B nhưng A lại tốt hơn trên thực tế (b) Tối ưu K-means tạo ra cụm B nhưng A lại tốt hơn 20

Hình 1.10: Minh họa mô hình đồ thị cho bước đi ngẫu nhiên ……….25

Hình 2.1: Phân cụm Chameleon 31

Hình 2.2: Sự di chuyển về trung tâm cụm 32

Hình 2.3: Sự sáp nhập của các cụm 32

Hình 2.4: Cụm dữ liệu khai phá bởi thuật toán CURE 33

Hình 2.5: Ví dụ phát hiện cụm sử dụng thuật toán Girvan - Newman 38

Hình 2.6: Khung làm việc cơ sở để phân cụm đồ thị như quá trình truyền thông…42 Hình 2.7: Ví dụ về mã Huffman 43

Hình 2.8: Phân hoạch vào một lượng tối ưu các modul 45

Hình 3.1: Các bước thực hiện chương trình 53

Hình 3.2: Ví dụ về tập dữ liệu Dolphins.gml 54

Hình 3.3: Tập dữ liệu Dolphins.txt 54

Hình 3.4: Nạp file dữ liệu đầu vào 55

Hình 3.5: Kết quả chạy thuật toán phân cụm CNM cho bộ dữ liệu dolphins.txt 56

Hình 3.6: Kết quả chạy thuật toán Girvan-Newman cho bộ dữ liệu dolphins.txt 56

Hình 3.7: Biểu đồ so sánh thời gian thực thi thuật toán 57

Hình 3.8: Biểu đồ so sánh số lượng cụm 58

Trang 10

Hình 3.9:Biểu đồ so sánh chất lượng phân cụm 58

Hình 3.10:Đăng tin và bình luận trên Facebook 60

Hình 3.11: Một phần danh sách tài khoản Facebook 62

Hình 3.12: Giao diện đăng ký một ứng dụng trên Facebook API 63

Hình 3.13:Thu thập dữ liệu thủ công với Graph API Explorer 63

Hình 3.14:Thu thập dữ liệu tự động với Facebook API 64

Hình 3.15: Một phần dữ liệu thu thập được cập nhật trên SQL Server 64

Hình 3.16: Một phần dữ liệu về danh sách và số lượng ID người dùng đã bình luận trên các tường Facebook tương ứng 65

Hình 3.17: Một phần dữ liệu mạng xã hội dựa trên mối quan tâm của người dùng 66 Hình 3.18: Giao diện tự động thu thập bộ dữ liệu 67

Hình 3.19: Kết quả chạy chương trình phân cụm với INC và CNM 68

Hình 3.20: Một phần biểu đồ dendrogram kết quả phân cụm với INC 68

Hình 3.21: Đồ thị so sánh thời gian thực thi INC và CNM 69

Hình 3.22: Đồ thị so sánh số lượng cụm theo INC và CNM 70

Hình 3.23: Đồ thị tương quan số lượng cụm với giá trị s 70

Hình 3.24: Đồ thị so sánh chất lượng phân cụm theo INC và CNM 70

Hình 3.25: Đồ thị tương quan chất lượng cụm với giá trị s 71

Hình 3.2.6: Kết quả phân chia cụm lớn thành các cụm con (bất động sản, chứng khoán, ô tô, xe máy ) 72

Hình 3.27: Kết quả phân chia cụm lớn yêu thích đồ nội thất, lưu niệm, thời trang thành các cụm con (giày dép, đồng hồ,hoa tươi, quà lưu niệm, ngân hàng ) 72

Hình 3.28: Kết quả phân cộng động quan tâm tới Phật giáo 73

Hình 3.29: Kết quả phân cộng động quan tâm tới mỹ phẩm, thẩm mỹ, bệnh viện thẩm mỹ đã được phân chia theo INC 73

Trang 11

MỞ ĐẦU

1 Lý do chọn đề tài

Trong những năm gần đây, cùng với sự phát triển vượt bậc của công nghệ thông tin, khả năng thu thập và lưu trữ thông tin của các hệ thống thông tin không ngừng được nâng cao Theo đó, lượng thông tin được lưu trữ trên các thiết bị nhớ không ngừng tăng lên

Khai phá dữ liệu là quá trình khám phá các tri thức mới có ích ở dạng tiềm năng trong nguồn dữ liệu đã có Quá trình khám phá tri thức là một chuỗi lặp gồm các bước: làm sạch dữ liệu, tích hợp dữ liệu, chọn lựa dữ liệu, đánh giá mẫu, biểu diễn tri thức Khai phá dữ liệu liên quan đến nhiều lĩnh vực khác nhau như: công nghệ

cơ sở dữ liệu, lý thuyết thống kê, học máy, khoa học thông tin, trực quan hóa,

Những đồ thị lớn và mạng (networks) là những mô hình toán học tự nhiên cho những đối tượng tương tác với nhau như mối quan hệ giữa con người trong mạng xã hội, các cấu trúc phân tử trong mạng sinh học, mạng biểu diễn gene, Trong thực

tế, cỡ của các mạng như thế khá lớn mà khả năng phân tích, khai thác các tính chất của chúng lại rất hạn chế

Hiện nay, các mạng xã hội ngày càng phát triển và trở nên vô cùng phổ biến Trên thế giới hiện có hàng trăm trang mạng xã hội trực tuyến khác nhau, tiêu biểu như Facebook, Google+, Twitter, MySpace, YouTube, Instagram hay ở Việt Nam như Zing Me, Tamtay kết nối hàng trăm triệu người trên toàn thế giới Các mạng xã hội này được người dùng sử dụng để giải trí, kinh doanh, chia sẻ thông tin, bày tỏ các quan điểm, mối quan tâm đến các lĩnh vực khác nhau cũng như để giao lưu, kết bạn,

mở rộng các mối quan hệ Việc phân cụm người dùng trong mạng có ý nghĩa vô cùng to lớn trong thực tế như: giúp cho việc truyền tải thông tin, tiếp thị bán hàng cũng như các hoạt động kinh doanh nhắm đến một lượng đông đảo các đối tượng quan tâm (thuộc cùng một cộng đồng) một cách dễ dàng hơn, [12]

Đã có nhiều thuật toán phân cụm khác nhau được đề xuất để phân cụm các đồ thị dữ liệu nói chung và đồ thị mạng xã hội nói riêng, trong đó các thuật toán phân cụm có thứ bậc tỏ ra rất hiệu quả với lớp bài toán này Chính vì vậy, tôi đã chọn đề

Trang 12

tài "Nghiên cứu mô hình phân cụm có thứ bậc các đồ thị dữ liệu" với mục đích

tìm hiểu sâu hơn về phương pháp phân cụm có thứ bậc áp dụng cho các đồ thị dữ liệu, mà cụ thể trong luận văn là đồ thị dữ liệu các mạng xã hội

2 Mục tiêu của đề tài

• Tìm hiểu sâu về các thuật toán phân cụm có thứ bậc các đồ thị dữ liệu

• Cài đặt các thuật toán phân cụm có thứ bậc đã nghiên cứu, tiến hành thực nghiệm trên các bộ dữ liệu chuẩn (các mạng xã hội) nhằm đánh giá kết quả của từng thuật toán, qua đó lựa chọn thuật toán phù hợp cho việc phân cụm các mạng xã hội

3 Đối tượng và phạm vi nghiên cứu

▪ Đối tượng nghiên cứu:

 Tập đồ thị dữ liệu

 Các cụm trên đồ thị

 Các mạng xã hội

▪ Phạm vi nghiên cứu

 Phân cụm có thứ bậc trên đồ thị dữ liệu

 Nắm bắt và vận dụng lý thuyết đồ thị để biểu diễn mạng xã hội

 Tìm hiểu các độ đo trên đồ thị

 Nghiên cứu một số kỹ thuật phân cụm có thứ bậc trong khai phá đồ thị dữ liệu nói chung và đồ thị mạng xã hội nói riêng

4 Phương pháp luận và phương pháp nghiên cứu

Kết hợp lý thuyết được thu nhận từ nhiều nguồn như các bài báo, tài liệu, các công trình nghiên cứu liên quan đến các độ đo trong phân cụm, phân cụm có thứ bậc các đồ thị dữ liệu và các kỹ thuật phân cụm đồ thị dữ liệu, tiến hành xây dựng ứng dụng thử nghiệm đánh giá hiệu quả của các thuật toán, làm nổi bật kết quả nghiên cứu của luận văn

Trang 13

5 Ý nghĩa khoa học của đề tài

Phân cụm có thứ bậc đồ thị dữ liệu nhằm tìm kiếm, phát hiện các cụm, các mẫu

dữ liệu tự nhiên tiềm ẩn và quan trọng trong tập đồ thị dữ liệu lớn để từ đó cung cấp thông tin, tri thức cho việc ra quyết định

Ngoài ra, phân cụm có thứ bậc đồ thị dữ liệu còn có thể được sử dụng như một bước tiền xử lí cho các thuật toán khai phá dữ liệu đồ thị khác như là phân loại và mô

tả đặc điểm, có tác dụng trong việc phát hiện ra các cụm, các mẫu theo yêu cầu

Luận văn gồm có phần mở đầu, kết luận và 03 chương, cụ thể như sau:

Chương I Phân cụm dữ liệu và phân cụm đồ thị dữ liệu

Nghiên cứu tổng quan về các kỹ thuật phân cụm dữ liệu nói chung, ứng dụng của phân cụm dữ liệu Qua đó làm tiền đề để nghiên cứu sâu hơn về phân cụm đồ thị

dữ liệu: khái niệm đồ thị dữ liệu, các độ đo trong phân cụm dữ liệu nói chung và đồ thị dữ liệu nói riêng, các kỹ thuật phân cụm đồ thị

Chương II: Phân cụm có thứ bậc các đồ thị dữ liệu

Nghiên cứu, trình bày một số thuật toán phổ biến sử dụng kỹ thuật phân cụm

có thứ bậc trong phân cụm đồ thị dữ liệu như: thuật toán Chameleon, CURE, Newman, CNM (Clauset Newmen Moore), Rosvall Bergtrom và INC (Incre-Comm-Extraction), đánh giá sơ bộ các ưu, nhược điểm của từng thuật toán

Girvan-Chương III Ứng dụng thuật toán phân cụm có thứ bậc trong phân cụm đồ thị

dữ liệu các mạng xã hội

Giới thiệu tổng quan về bài toán phân cụm mạng xã hội, các bộ dữ liệu mạng

xã hội được sử dụng trong thực nghiệm Tiến hành cài đặt các thuật toán đã nghiên cứu ở chương 2 và thực nghiệm trên các bộ dữ liệu chuẩn để đánh giá các kết quả đạt được, so sánh các thuật toán về thời gian thực thi, chất lượng phân cụm

Trang 14

CHƯƠNG 1: PHÂN CỤM DỮ LIỆU VÀ PHÂN CỤM ĐỒ THỊ DỮ LIỆU

1.1 Phân cụm dữ liệu

1.1.1 Khái niệm và mục tiêu của phân cụm dữ liệu

1.1.1.1 Khái niệm phân cụm dữ liệu

Phân cụm dữ liệu là một kỹ thuật trong Data mining nhằm tìm kiếm, phát hiện các cụm, các mẫu dữ liệu tự nhiên tiềm ẩn và quan trọng trong tập dữ liệu lớn để từ

đó cung cấp thông tin, tri thức cho việc ra quyết định

Phân cụm dữ liệu là sự phân chia một cơ sở dữ liệu lớn thành các nhóm dữ liệu với trong đó các đối tượng tương tự như nhau Trong mỗi nhóm, một số chi tiết

có thể không quan tâm đến để đổi lấy dữ liệu đơn giản hóa Hay ta có thể hiểu “Phân cụm dữ liệu là quá trình tổ chức các đối tượng thành từng nhóm mà các đối tượng ở mỗi nhóm đều tương tự nhau theo một tính chất nào đó, những đối tượng không tương

tự tính chất sẽ ở nhóm khác” [3]

Phân cụm dữ liệu là một ví dụ của phương pháp học không có thầy Không giống như phân lớp dữ liệu, phân cụm dữ liệu không đòi hỏi phải định nghĩa trước các mẫu dữ liệu huấn luyện Vì thế, có thể coi phân cụm dữ liệu là một cách học bằng quan sát, trong khi phân lớp dữ liệu là học bằng ví dụ, Ngoài ra phân cụm dữ liệu còn có thể được sử dụng như một bước tiền xử lí cho các thuật toán khai phá dữ liệu khác như là phân loại và mô tả đặc điểm, có tác dụng trong việc phát hiện ra các cụm

Chúng ta có thể thấy điều này với một ví dụ đơn giản như sau:

Hình 1.1: Ví dụ về phân cụm dữ liệu [3]

Trang 15

Trong trường hợp này, chúng ta dễ dàng xác định được 4 cụm dựa vào các dữ liệu đã cho; các tiêu chí “tương tự” để phân cụm trong trường hợp này là khoảng cách: hai hoặc nhiều đối tượng thuộc nhóm của chúng được “đóng gói” theo một khoảng cách nhất định Điều này được gọi là phân cụm dựa trên khoảng cách

Một kiểu khác của phân cụm dữ liệu là phân cụm dữ liệu dựa vào khái niệm: hai hay nhiều đối tượng thuộc cùng nhóm nếu có một định nghĩa khái niệm chung cho tất cả các đối tượng trong đó Nói cách khác, đối tượng của nhóm phải phù hợp với nhau theo miêu tả các khái niệm đã được định nghĩa, không phải theo những biện pháp đơn giản tương tự

1.1.1.2 Mục tiêu của phân cụm dữ liệu

Mục tiêu của phân cụm dữ liệu là để xác định các nhóm nội tại bên trong một

bộ dữ liệu không có nhãn Nhưng để có thể quyết định được cái gì tạo thành một cụm tốt Nhưng làm thế nào để quyết định cái gì đã tạo nên một phân cụm dữ liệu tốt ? Nó

có thể được hiển thị rằng không có tiêu chuẩn tuyệt đối “tốt nhất” mà sẽ là độc lập với mục đích cuối cùng của phân cụm dữ liệu Do đó, mà người sử dụng phải cung cấp tiêu chuẩn, theo cách như vậy mà kết quả của phân cụm dữ liệu sẽ phù hợp với nhu cầu của họ cần

Ví dụ, chúng ta có thể quan tâm đến việc tìm kiếm đối tượng đại diện cho các nhóm đồng nhất trong “các cụm tự nhiên” và mô tả thuộc tính không biết của chúng trong việc tìm kiếm các nhóm hữu ích và phù hợp hoặc trong việc tìm kiếm các đối tượng bất thường trong dữ liệu (cá biệt, ngoại lệ, nhiễu)

Hình 1.2: Ví dụ phân cụm các ngôi nhà dựa trên khoảng cách [3]

Trang 16

Một vấn đề thường gặp trong phân cụm là hầu hết các dữ liệu cần cho phân cụm đều có chứa dữ liệu nhiễu do quá trình thu thập thiếu chính xác hoặc thiếu đầy

đủ, vì vậy cần phải xây dựng chiến lược cho bước tiền xử lí dữ liệu nhằm khắc phục hoặc loại bỏ nhiễu trước khi chuyển sang giai đoạn phân tích cụm dữ liệu Nhiễu ở đây được hiểu là các đối tượng dữ liệu không chính xác, không tường minh hoặc là các đối tượng dữ liệu khuyết thiếu thông tin về một số thuộc tính, Một trong các

kỹ thuật xử lí nhiễu phổ biến là việc thay thế giá trị các thuộc tính của đối tượng nhiễu bằng giá trị thuộc tính tương ứng Ngoài ra, dò tìm đối tượng ngoại lai cũng là một trong những hướng nghiên cứu quan trọng trong phân cụm, chức năng của nó là xác định một nhóm nhỏ các đối tượng dữ liệu khác thường so với các dữ liệu trong cơ sở

dữ liệu, tức là các đối tượng dữ liệu không tuân theo các hành vi hoặc mô hình dữ liệu nhằm tránh sự ảnh hưởng của chúng tới quá trình và kết quả của phân cụm

Hình 1.3: Ví dụ phân cụm các ngôi nhà dựa trên kích cỡ [3]

Theo các nghiên cứu đến thời điểm hiện nay thì chưa có một phương pháp phân cụm tổng quát nào có thể giải quyết trọn vẹn cho tất cả các dạng cấu trúc cơ sở

dữ liệu Hơn nữa, đối với các phương pháp phân cụm cần có cách thức biểu diễn cấu trúc của cơ sở dữ liệu, với mỗi cách thức biểu diễn khác nhau sẽ có tương ứng một thuật toán phân cụm phù hợp Vì vậy phân cụm dữ liệu vẫn đang là một vấn đề khó

và mở, vì phải giải quyết nhiều vấn đề cơ bản một cách trọn vẹn và phù hợp với nhiều dạng dữ liệu khác nhau, đặc biệt là đối với dữ liệu hỗn hợp đang ngày càng tăng trong các hệ quản trị dữ liệu và đây cũng là một trong những thách thức lớn trong lĩnh vực khai phá dữ liệu

Trang 17

1.1.2 Một số khái niệm cần thiết khi tiếp cận phân cụm dữ liệu

1.1.2.1 Phân loại các kiểu dữ liệu

Cho một CSDL D chứa n đối tượng trong không gian k chiều trong đó x, y, z

là các đối tượng thuộc D : x = (x1,x2, ,xk ); y = (y1,y2, ,yk); z = (z1,z2, ,zk), trong đó

xi, yi, zi với i = 1…k là các đặc trưng hoặc thuộc tính tương ứng của các đối tượng x,

y, z

Sau đây là các kiểu dữ liệu:

a Phân loại các kiểu dữ liệu dựa trên kích thước miền

- Thuộc tính liên tục (Continuous Attribute) : nếu miền giá trị của nó là vô hạn không đếm được

- Thuộc tính rời rạc (DiscretteAttribute): Nếu miền giá trị của nó là tập hữu hạn, đếm được

- Lớp các thuộc tính nhị phân: là trường hợp đặc biệt của thuộc tính rời rạc mà miền giá trị của nó chỉ có 2 phần tử được diễn tả như : Yes/No hoặc Nam/Nữ, False/true,…

b Phân loại các kiểu dữ liệu dựa trên hệ đo

Giả sử rằng chúng ta có hai đối tượng x, y và các thuộc tính xi, yi tương ứng với thuộc tính thứ i của chúng Chúng ta có các lớp kiểu dữ liệu như sau :

- Thuộc tính định danh (Nominal Scale): đây là dạng thuộc tính khái quát hoá của thuộc tính nhị phân, trong đó miền giá trị là rời rạc không phân biệt thứ tự và có nhiều hơn hai phần tử -nghĩa là nếu x và y là hai đối tượng thuộc tính thì chỉ có thể xác định là x ≠ y hoặc x = y

- Thuộc tính có thứ tự (Ordinal Scale): là thuộc tính định danh có thêm tính thứ tự, nhưng chúng không được định lượng Nếu x và y là hai thuộc tính thứ tự thì

ta có thể xác định là x ≠ y hoặc x = y hoặc x > y hoặc x < y

- Thuộc tính khoảng (Interval Scale): Với thuộc tính khoảng, chúng ta có thể xác định một thuộc tính là đứng trước hoặc đứng sau thuộc tính khác với một khoảng

là bao nhiêu Nếu xi > yi thì ta nói x cách y một khoảng xi - yi tương ứng với thuộc tính thứ i

Trang 18

- Thuộc tính tỉ lệ (Ratio Scale): là thuộc tính khoảng nhưng được xác định một cách tương đối so với điểm mốc, thí dụ như thuộc tính chiều cao hoặc cân nặng lấy điểm 0 làm mốc Trong các thuộc tính dữ liệu trình bày ở trên, thuộc tính định danh

và thuộc tính có thứ tự gọi chung là thuộc tính hạng mục (Categorical), thuộc tính khoảng và thuộc tính tỉ lệ được gọi là thuộc tính số (Numeric)

1.1.2.2 Độ đo tương tự và phi tương tự

Để phân cụm, người ta phải đi tìm cách thích hợp để xác định “khoảng cách” giữa các đối tượng, hay là phép đo tương tự dữ liệu Đây là các hàm để đo sự giống nhau giữa các cặp đối tượng dữ liệu, thông thường các hàm này hoặc là để tính độ tương tự (Similar) hoặc là tính độ phi tương tự (Dissimilar) giữa các đối tượng dữ liệu

1 Không gian metric

Tất cả các độ đo dưới đây được xác định trong không gian độ đo metric Một không gian metric là một tập trong đó có xác định các “khoảng cách” giữa từng cặp phần tử, với những tính chất thông thường của khoảng cách hình học Nghĩa là, một tập X (các phần tử của nó có thể là những đối tượng bất kỳ) các đối tượng dữ liệu trong CSDL D như đã đề cập ở trên được gọi là một không gian metric nếu:

- Với mỗi cặp phần tử x, y thuộc X đều xác định, theo một quy tắc nào đó, một

số thực δ(x,y), được gọi là khoảng cách giữa x và y

- Quy tắc nói trên thoả mãn hệ tính chất sau : δ(x,y) > 0 nếu x ≠ y ; (ii) δ(x, y)

= 0 nếu x = y; (iii) δ(x,y) = δ(y,x) với mọi x,y; (iv) δ(x,y) ≤ δ(x,z) + δ(z,y)

Hàm δ(x,y) được gọi là một metric của không gian Các phần tử của X được gọi là các điểm của không gian này

q n

q

i i i

Trang 19

- Khoảng cách Euclide: Đây là trường hợp đặc biệt của khoảng cách Minskowski trong trường hợp q = 2

Giả sử i là thuộc tính thứ tự có Mi giá trị (Mi kích thước miền giá trị):

Các trạng thái Mi được sắp thứ tự như sau : [1…Mi], chúng ta có thể thay thế mỗi giá trị của thuộc tính bằng giá trị cùng loại ri, với ri ∈{1…Mi}

Mỗi một thuộc tính có thứ tự có các miền giá trị khác nhau, vì vậy chúng ta chuyển đổi chúng về cùng miền giá trị [0,1] bằng cách thực hiện phép biến đổi sau cho mỗi thuộc tính:

Trang 20

𝑑(𝑥, 𝑦) = √∑ 𝑤𝑖(𝑥𝑖− 𝑦𝑖)2

𝑛

𝑖=1

1.1.3 Một số kỹ thuật trong phân cụm dữ liệu

Các kỹ thuật phân cụm có rất nhiều cách tiếp cận và các ứng dụng trong thực

tế, nó đều hướng tới hai mục tiêu chung đó là chất lượng của các cụm khám phá được

và tốc độ thực hiện của thuật toán Hiện nay, các kỹ thuật phân cụm có thể phân loại theo các phương pháp tiếp cận chính như sau: phân cụm phân họach (Partitioning Methods); phân cụm có thứ bậc (Hierarchical Methods); phân cụm dựa trên mật độ (Density-Based Methods); phân cụm dựa trên lưới (Grid-Based Methods); phân cụm dựa trên mô hình phân cụm (Model-Based Clustering Methods) và phân cụm có dữ liệu ràng buộc (Binding data Clustering Methods) [5]

1.1.3.1 Phương pháp phân cụm phân hoạch

Kỹ thuật này phân hoạch một tập hợp dữ liệu có n phần tử thành k nhóm cho đến khi xác định số các cụm được thiết lập Số các cụm được thiết lập là các đặc trưng được lựa chọn trước Phương pháp này là tốt cho việc tìm các cụm hình cầu trong không gian Euclidean Ngoài ra, phương pháp này cũng phụ thuộc vào khoảng cách

cơ bản giữa các điểm để lựa chọn các điểm dữ liệu nào có quan hệ là gần nhau với mỗi điểm khác và các điểm dữ liệu nào không có quan hệ hoặc có quan hệ là xa nhau

so với mỗi điểm khác Tuy nhiên, phương pháp này không thể xử lí các cụm có hình dạng kỳ quặc hoặc các cụm có mật độ các điểm dầy đặc Các thuật toán phân hoạch

dữ liệu có độ phức tạp rất lớn khi xác định nghiệm tối ưu toàn cục cho vấn đề phân cụm dữ liệu, do nó phải tìm kiếm tất cả các cách phân hoạch có thể được Chính vì vậy, trên thực tế thường đi tìm giải pháp tối ưu cục bộ cho vấn đề này bằng cách sử dụng một hàm tiêu chuẩn để đánh giá chất lượng của cụm cũng như để hướng dẫn cho quá trình tìm kiếm phân hoạch dữ liệu Như vậy, ý tưởng chính của thuật toán phân cụm phân hoạch tối ưu cục bộ là sử dụng chiến lược ăn tham (Greedy) để tìm kiếm nghiệm

Trang 21

Điển hình trong phương pháp tiếp cận theo phân cụm phân hoạch là các thuật toán như: K_means, K - medoids, CLARA (Clustering Large Applications), CLARANS (Clustering Large Applications based on RAndomized Search), [3]

1.1.3.2 Phương pháp phân cụm có thứ bậc

Phương pháp này xây dựng một có thứ bậc trên cơ sở các đối tượng dữ liệu đang xem xét Nghĩa là sắp xếp một tập dữ liệu đã cho thành một cấu trúc có dạng hình cây, cây có thứ bậc này được xây dựng theo kỹ thuật đệ quy Có hai cách tiếp cận phổ biến của kỹ thuật này đó là: hòa nhập nhóm, thường được gọi là tiếp cận (Bottom-Up); phân chia nhóm, thường được gọi là tiếp cận (Top-Down):

- Phương pháp “dưới lên” (Bottom up): Phương pháp này bắt đầu với mỗi đối tượng được khởi tạo tương ứng với các cụm riêng biệt, sau đó tiến hành nhóm các đối tượng theo một độ đo tương tự (như khoảng cách giữa hai trung tâm của hai nhóm), quá trình này được thực hiện cho đến khi tất cả các nhóm được hòa nhập vào một nhóm (mức cao nhất của cây có thứ bậc) hoặc cho đến khi các điều kiện kết thúc thỏa mãn Như vậy, cách tiếp cận này sử dụng chiến lược ăn tham trong quá trình phân cụm

Hình 1.4: Các chiến lược phân cụm phân cấp [3]

- Phương pháp “trên xuống” (Top Down): Bắt đầu với trạng thái là tất cả các đối tượng được xếp trong cùng một cụm Mỗi vòng lặp thành công, một cụm được tách thành các cụm nhỏ hơn theo giá trị của một phép đo độ tương tự nào đó cho đến khi mỗi đối tượng là một cụm, hoặc cho đến khi điều kiện dừng thỏa mãn Cách tiếp cận này sử dụng chiến lược chia để trị trong quá trình phân cụm

Trang 22

Điển hình trong phương pháp tiếp cận theo phân cụm phân cấp là các thuật toán như: AGNES (Agglomerative Nesting), DIANA (Divisive Analysis), BIRCH (1996), CURE (1998), CHAMELEON (1999), [3]

Thực tế áp dụng, có nhiều trường hợp kết hợp cả hai phương pháp phân cụm phân hoạch và phân cụm phân cấp, nghĩa là kết quả thu được của phương pháp phân cấp có thể cải tiến thông qua bước phân cụm phân hoạch Phân cụm phân hoạch và phân cụm phân cấp là hai phương pháp phân cụm dữ liệu cổ điển, hiện đã có rất nhiều thuật toán cải tiến dựa trên hai phương pháp này đã được áp dụng phổ biến trong khai phá dữ liệu

1.1.3.3 Phương pháp phân cụm dựa trên mật độ

Kỹ thuật này nhóm các đối tượng dữ liệu dựa trên hàm mật độ xác định, mật

độ là số các đối tượng lân cận của một đối tượng dữ liệu theo một nghĩa nào đó Trong cách tiếp cận này, khi một dữ liệu đã xác định thì nó tiếp tục được phát triển thêm các đối tượng dữ liệu mới miễn là số các đối tượng lân cận này phải lớn hơn một ngưỡng

đã được xác định trước Phương pháp phân cụm dựa trên mật độ của các đối tượng

để xác định các cụm dữ liệu có thể phát hiện ra các cụm dữliệu với hình thù bất kỳ

Kỹ thuật này có thể khắc phục được các phần tử ngoại lai hoặc giá trị nhiễu rất tốt, tuy nhiên việc xác định các tham số mật độ của thuật toán là rất khó khăn, trong khi các tham số này lại có tác động rất lớn đến kết quả phân cụm

Hình 1.5: Ví dụ về phân cụm dựa theo mật độ [3]

Trang 23

Điển hình trong phương pháp tiếp cận theo phân cụm dựa trên mật độ là các thuật toán như: DBSCAN(KDD’96), DENCLUE (KDD’98), CLIQUE (SIGMOD’98)), OPTICS (SIGMOD’99), [3]

1.1.3.4 Phương pháp phân cụm dựa trên lưới

Kỹ thuật phân cụm dựa trên lưới thích hợp với dữ liệu nhiều chiều, dựa trên cấu trúc dữ liệu lưới để phân cụm, phương pháp này chủ yếu tập trung áp dụng cho lớp dữ liệu không gian Mục tiêu của phương pháp này là lượng hóa dữ liệu thành các ô tạo thành cấu trúc dữ liệu lưới Sau đó, các thao tác phân cụm chỉ cần làm việc với các đối tượng trong từng ô trên lưới chứ không phải các đối tượng dữ liệu Cách tiếp cận dựa trên lưới này không di chuyển các đối tượng trong các ô mà xây dựng nhiều mức phân cấp của nhóm các đối tượng trong một ô Phương pháp này gần giống với phương pháp phân cụm phân cấp nhưng chúng không trộn các ô, đồng thời giải quyết khắc phục yêu cầu đối với dữ liệu nhiều chiều mà phương pháp phân phân cụm dựa trên mật độ không giải quyết được ưu điểm của phương pháp phân cụm dựa trên lưới là thời gian xử lí nhanh và độc lập với số đối tượng dữ liệu trong tập dữ liệu ban đầu, thay vào đó là chúng phụ thuộc vào số ô trong mỗi chiều của không gian lưới

Hình 1.6: Cấu trúc phân cụm dựa trên lưới Điển hình trong phương pháp tiếp cận theo phân cụm dựa trên lưới là các thuật toán như: STING (a STatistical INformation Grid approach) bởi Wang, Yang và Muntz (1997), WAVECLUSTER bởi Sheikholeslami, Chatterjee và Zhang (1998), CLIQUE (Clustering In QUEst) bởi Agrawal, Gehrke, Gunopulos, Raghavan (1998), [3]

Trang 24

1.1.3.5 Phương pháp phân cụm dựa trên mô hình

Phương pháp này cố gắng khám phá các phép xấp xỉ tốt của các tham số mô hình sao cho khớp với dữ liệu một cách tốt nhất Chúng có thể sử dụng chiến lược phân cụm phân hoạch hoặc phân cụm phân cấp, dựa trên cấu trúc hoặc mô hình mà chúng giả định về tập dữ liệu và cách chúng hiệu chỉnh các mô hình này để nhận dạng

ra các phân hoạch

Hình 1.7: Ví dụ về phân cụm dựa trên mô hình [3]

Phương pháp phân cụm dựa trên mô hình cố gắng khớp giữa các dữ liệu với

mô hình toán học, nó dựa trên giả định rằng dữ liệu được tạo ra bằng hỗn hợp phân phối xác suất cơ bản Các thuật toán phân cụm dựa trên mô hình có hai cách tiếp cận chính: mô hình thống kê và mạng nơron Phương pháp này gần giống với phương pháp phân cụm dựa trên mật độ, vì chúng phát triển các cụm riêng biệt nhằm cải tiến các mô hình đã được xác định trước đó, nhưng đôi khi nó không bắt đầu với một số cụm cố định và không sử dụng cùng một khái niệm mật độ cho các cụm

Điển hình trong phương pháp tiếp cận theo phân cụm dựa trên mô hình là các thuật toán như: EM, COBWEB, CLASSIT, AutoClass (Cheeseman and Stutz, 1996), [3]

Trang 25

1.1.3.6 Phương pháp phân cụm có dữ liệu ràng buộc

Sự phát triển của phân cụm dữ liệu không gian trên cơ sở dữ liệu lớn đã cung cấp nhiều công cụ tiện lợi cho việc phân tích thông tin địa lí, tuy nhiên hầu hết các thuật toán này cung cấp rất ít cách thức cho người dùng để xác định các ràng buộc trong thế giới thực cần phải được thỏa mãn trong quá trình phân cụm Để phân cụm

dữ liệu không gian hiệu quả hơn, các nghiên cứu bổ sung cần được thực hiện để cung cấp cho người dùng khả năng kết hợp các ràng buộc trong thuật toán phân cụm

Hiện nay, các phương pháp phân cụm trên đã và đang được phát triển và áp dụng nhiều trong các lĩnh vực khác nhau và đã có một số nhánh nghiên cứu được phát triển trên cơ sở của các phương pháp đó như:

• Phân cụm thống kê: Dựa trên các khái niệm phân tích hệ thống, nhánh nghiên cứu này sử dụng các độ đo tương tự để phân hoạch các đối tượng, nhưng chúng chỉ áp dụng cho các dữ liệu có thuộc tính số

• Phân cụm khái niệm: Kỹ thuật này được phát triển áp dụng cho dữ liệu hạng mục, chúng phân cụm các đối tượng theo các khái niệm mà chúng xử lí

• Phân cụm mờ: Sử đụng kỹ thuật mờ để phân cụm dữ liệu Các thuật toán thuộc loại này chỉ ra lược đồ phân cụm thích hợp với tất cả các hoạt động đời sống hàng ngày, chúng chỉ xử lí các dữ liệu thực không chắc chắn

• Phân cụm mạng Kohonen: Loại phân cụm này dựa trên khái niệm của các mạng nơron Mạng Kohonen có tầng nơron vào và các tầng nơron ra Mỗi nơron của tầng vào tương ứng với mỗi thuộc tính của bản ghi, mỗi một nơron vào kết nối với tất cả các nơron của tầng ra Mỗi liên kết được gắn liền với một trọng số nhằm xác định vị trí của nơron ra tương ứng

Trang 26

Hình 1.8: Các cách mà các cụm có thể đưa ra [3]

1.1.4 Các ứng dụng của phân cụm dữ liệu

Phân cụm dữ liệu có thể ứng dụng trong nhiều lĩnh vực như [3]:

- Thương mại: tìm kiếm nhóm các khách hàng quan trọng dựa vào các thuộc tính đặc trưng tương đồng và những đặc tả của họ trong các bản ghi mua bán của cơ

sở dữ liệu;

- Sinh học: phân loại động, thực vật qua các chức năng gen tương đồng của chúng;

- Thư viện: phân loại các cụm sách có nội dung và ý nghĩa tương đồng nhau

để cung cấp cho độc giả, cũng như đặt hàng với nhà cung cấp;

- Bảo hiểm: nhận dạng nhóm tham gia bảo hiểm có chi phí yêu cầu bồi thường trung bình cao, xác định gian lận trong bảo hiểm thông qua các mẫu cá biệt;

- Quy hoạch đô thị: nhận dạng các nhóm nhà theo kiểu, vị trí địa lí, giá trị nhằm cung cấp thông tin cho quy hoạch đô thị;

- Nghiên cứu địa chấn : phân cụm để theo dõi các tâm động đất nhằm cung cấp thông tin cho việc nhận dạng các vùng nguy hiểm;

- WWW: tài liệu phân loại, phân nhóm dữ liệu weblog để khám phá các nhóm

về các hình thức tiếp cận tương tự trợ giúp cho việc khai phá thông tin từ dữ liệu

Trang 27

1.2 Phân cụm đồ thị dữ liệu

Phân cụm đồ thị là phân chia đồ thị lớn thành các đồ thị con Mỗi đồ thị con

là một cụm Các đối tượng trong cụm là các đỉnh biểu diễn cho các phần tử dữ liệu tương đồng về tính chất và trọng số trên các cạnh biểu diễn cho độ tương tự (khoảng cách) giữa các cặp dữ liệu

1.2.1 Mô hình đồ thị dữ liệu

Đồ thị có trọng số được ký hiệu là G = (V, E, W), với V là tập đỉnh, E  V 

V là tập cạnh và W= (wij)i,j = 1, …N là tập các trọng số trên các cạnh của đồ thị, chính

là ma trận trọng số (ma trận liền kề) với N = |V| Giữa hai đỉnh vi và vj ∈ V có cạnh nối với nhau với trọng số wij > 0 nếu (vi, vj) ∈ E, ngược lại wij = 0, nghĩa là vi và vj ∈

V không có cạnh nối với nhau Nếu W là ma trận đối xứng, nghĩa là wij = wji thì G là

đồ thị vô hướng, ngược lại, G là có hướng Khi wij = 1 với mọi (vi, vj) ∈ E thì đồ thị

G được gọi là đồ thị không có trọng số

Ma trận liền kề chứa các thông tin về trọng số của sự liên kết giữa các đỉnh trong đồ thị Những thông tin khác có thể nhận được thông qua bậc của các đỉnh Bậc của đỉnh vi được ký hiệu là deg(vi) là tổng trọng số của các đỉnh có cạnh nối với vi

deg(vi) = 



N

j ij w

Trang 28

Bên cạnh việc xác định ngữ nghĩa của việc sử dụng các đỉnh, cạnh của đồ thị thì một vấn đề quan trọng nữa là việc tính độ tương tự (similarity) hoặc khoảng cách (distance) giữa các đỉnh để xây dựng đồ thị Cách tính độ tương tự cũng có thể thay đổi và phụ thuộc vào các ứng dụng Nhưng về nguyên tắc phải đảm bảo rằng, nếu hai đỉnh có độ tương tự cao thì trong thực tế ứng dụng chúng phải gần nhau theo một nghĩa nào đó

Một số phương pháp mô hình đồ thị dữ liệu phổ biến [11]:

▪ 𝜺–đồ thị láng giềng (𝜺 -neighborhood graph): đồ thị được xây dựng bằng cách kết nối những đỉnh mà khoảng cách từng cặp nhỏ hơn ε Tương tự, δ- đồ thị láng giềng (δ- neighborhood graph) là đồ thị được xây dựng bằng cách kết nối những đỉnh mà khoảng cách từng cặp lớn hơn δ

▪ 𝒌-đồ thị láng giềng gần nhất (k-nearest neighbor graph): đồ thị được xây dựng

bằng cách kết nối đỉnh vi với vj nếu vi là một trong số 𝑘 - láng giềng gần nhất của vj hoặc vj là một trong số 𝑘 - láng giềng gần nhất của vi Nói một cách khác, để kết nối vi với vj nếu cả hai vi và vj là 𝑘 - láng giềng gần nhất của nhau

Đồ thị liên thông mạnh: đồ thị được xây dựng bằng cách kết nối tất cả các đỉnh với các đỉnh khác với độ tương tự dương

1.2.2 Các loại độ đo

Một câu hỏi đặt ra là một kỹ thuật (thuật toán) phân cụm như thế nào được gọi

là tốt, tối ưu? Để có câu trả lời chúng ta phải xác định được các tiêu chí, hay độ đo (measure) để đánh giá được một thuật toán phân cụm là tối ưu

Trang 29

1.2.2.1 Độ đo cho phân cụm dữ liệu tổng quát

Một số độ đo độ tương tự phổ biến của phân cụm dữ liệu nói chung [23]:

(1) Đường kính cực tiểu (Minimum diameter - Charikar et al., 1997) Đường kính

của cụm được định nghĩa là khoảng cách cực đại giữa các cặp phần tử dữ liệu trong cụm Mục tiêu của phân cụm là cực tiểu hóa các đường kính của cụm, nghĩa là

𝑚𝑖𝑛𝑖𝑚𝑖𝑧𝑒 𝑚𝑎𝑥1≤𝑖≤𝑘𝑑𝑖𝑎𝑚𝑒𝑡𝑒𝑟(𝐶𝑖) (1.9) 𝑑𝑖𝑎𝑚𝑒𝑡𝑒𝑟(𝐶𝑖) = 𝑚𝑎𝑥{|𝑥𝑗𝑥𝑖||𝑥𝑗, 𝑥𝑖𝜖𝑐𝑖} (1.10)

(2) K-means (K-median - Charikar et al., 1999) Độ đo này được xác định thông

qua việc chọn nhiều nhất K phần tử dữ liệu như là các tâm của các cụm và gán dữ liệu j vào tâm i với trọng số (phí tổn) wij Mục đích của phân cụm dữ liệu là cực tiểu hóa tổng của các phí tổn, nghĩa là:

𝑚𝑖𝑛𝑖𝑚𝑖𝑧𝑒 ∑ 𝑤𝑖𝑗𝑥𝑖𝑗

𝑖,𝑗𝜖𝑁

(1.11)

Theo các điều kiện:

Điều kiện ràng buộc (1.15) đảm bảo rằng mọi phần tử dữ liệu j ∈ 𝑁 đều được gán cho một phần tử tâm 𝑖 ∈ 𝑁, (1.16) đảm bảo không có phần tử j ∈ 𝑁 mà lại được gán vào cụm không có tâm 𝑖 ∈ 𝑁, và (1.17) đảm bảo rằng có nhiều nhất K phần tử dữ liệu được chọn làm tâm của cụm

(3) Tổng cực tiểu (Minimum Sum – Indyk 1999) Mục tiêu là cực tiểu hóa khoảng

cách giữa các điểm trong tất cả các cụm

Trang 30

Mặc dù các độ đo ở trên được xây dựng trên nền tảng toán học hợp lý và đơn giản, tuy nhiên chúng lại dễ gây ra các lỗi Hình 1.10 dưới đây minh chứng rằng việc tối ưu các độ đo ở trên có thể tạo ra các cụm tồi trên thực tế Hình 1.10 (a): mặc dù việc phân cụm A tuân theo đường kính cực đại lớn hơn, nó vẫn tốt hơn so với B Điều này cũng xảy ra khi sử dụng độ đo tổng cực tiểu với hình 1.10 (a) và độ đo K-means cho hình 1.10 (b)

Hình 1.9: (a) Tối ưu đường kính cực tiểu hoặc tổng cực tiểu tạo ra cụm B nhưng A lại tốt hơn trên thực tế (b) Tối ưu K-means tạo ra cụm B nhưng A lại tốt hơn [1]

1.2.2.2 Độ đo cho phân cụm đồ thị

Phân cụm đồ thị là tìm cách xác định các đồ thị con liên thông mạnh (cụm) trong các đồ thị cho trước và mục tiêu cần đạt được là tối ưu hóa hàm đo chất lượng của kỹ thuật phân cụm đồ thị Một số độ đo phổ biến được sử dụng để phân cụm như sau:

(i) Mật độ của cụm (intra-cluster density): Mật độ của cụm Ci được xác định bằng tỷ số giữa tổng các trọng số của cạnh bên trong của Ci trên tổng các trọng số của đồ thị

Trang 31

(ii) Mật độ giữa các cụm (inter-cluster density): Mật độ của cụm Ci và Cj được xác định bằng tỷ số giữa tổng các trọng số của cạnh nối giữa Ci và Cj trên tổng các trọng số của đồ thị

𝑐𝑢𝑡(𝑆, 𝑉\𝑆) = ∑ 𝑊𝑢𝑣

𝑢𝜖𝑆,𝑣𝜖𝑉\𝑆

Một lát cắt thỏa mãn điều kiện (1.18) được gọi là lát cắt cực tiểu

(iii) Lát cắt tỷ lệ (ratio cut- Hagan and Kahng, 1992): được xác định như sau:

𝑟𝑎𝑡𝑖𝑜𝑐𝑢𝑡(𝐶𝑖, 𝑉\𝐶𝑖) = 𝑐𝑢𝑡(𝐶𝑖, 𝑉\𝐶𝑖

trong đó |𝐸𝐶𝑖| là số lượng cạnh của cụm Ci

Mục tiêu là cực tiểu hóa tổng ratiocut cho tất cả các cụm:

(iv) Lát cắt chuẩn (Normalized cut- Shi and Malik 2000): được xác định như sau:

𝑛𝑐𝑢𝑡(𝐶𝑖, 𝑉\𝐶𝑖) = 𝑐𝑢𝑡(𝐶𝑖, 𝑉\𝐶𝑖

𝑣𝑜𝑙(𝐶𝑖)

(1.22)

Trong đó, 𝑣𝑜𝑙(𝐶𝑖) = ∑𝑢𝜖𝐶𝑖,𝑣𝜖𝑉𝑊𝑢𝑣

Trang 32

Mục tiêu là cực tiểu hóa tổng ncut() của tất cả cụm:

Bài toán cực đại hóa tiêu chuẩn hai chiều đòi hỏi: 1) các cụm phải có một số

độ dẫn cực tiểu α; 2) Tổng trọng số các cạnh giữa các cụm tối đa là ε phần của tổng trọng số cạnh

Mục tiêu là với giá trị α cho trước, tìm một cách phân cụm làm cực tiểu hóa giá trị ε hoặc với giá trị ε cho trước, tìm một cách phân cụm mà làm cực đại hóa giá trị α

(vi) Độ đo đơn thể (modularity- Girvan và Newman, 2002) được xác định như

e

Trong đó, eii là phân số của các cạnh trong cụm Ci, eij (i  j) là phân số của các cạnh nối đỉnh của cụm i sang cụm j

Độ đo đơn thể được thể hiện như sau: mật độ của cạnh hiện thời trong cụm 𝐶𝑖

trừ đi giá trị kỳ vọng bên trong cụm Ci khi tất cả các đỉnh của đồ thị được kết nối theo các bậc đã được xác định Độ đo đơn thể của phân cụm là tổng của độ đo đơn thể của các cụm

𝑄 = ∑ 𝑚𝑜𝑑𝑢𝑙𝑎𝑟𝑖𝑡𝑦(𝐶𝑖)

𝐾

𝑗=1

(1.25)

Mục tiêu là cực đại hóa độ đo đơn thể của phân cụm Q

Hiện nay độ đo đơn thể của phân cụm được sử dụng khá hiệu quả trong nhiều ứng dụng khác nhau

Trang 33

1.2.3 Một số kỹ thuật phân cụm đồ thị dữ liệu

1.2.3.1 Thuật toán phân cụm quang phổ

Thuật toán phân cụm quang phổ (Spectral Clustering Algorithm) [6] là thuật toán phân cụm đồ thị dữ liệu quan trọng bởi lẽ, nó dựa vào cơ sở đại số tuyến tính và

dễ cài đặt để giải rất hiệu quả, giống như đối với các thuật toán phân cụm dữ liệu truyền thống, như thuật toán K-means Công cụ được sử dụng chính trong thuật toán phân cụm quang phổ là ma trận Laplacian

Dựa vào các ma trận trên để định nghĩa độ tương tự hoặc khoảng cách giữa các đồ thị Ma trận đồ thị Laplacian phi chuẩn [6] được ký hiệu là L, là ma trận biểu diễn cho đồ thị thông qua ma trận liền kề W và ma trận D, được định nghĩa như sau:

Lý thuyết đồ thị quang phổ (spectral graph theory) dựa vào ma trận Laplacian

đã chỉ ra rằng một số cấu trúc cơ bản có thể có cùng tính chất Laplacian Ma trận và các giá trị véc tơ đặc trưng (eigenvectors) có thể được sử dụng để mô tả nhiều tính chất của đồ thị [6]

Dựa vào lý thuyết đồ thị quang phổ, chúng ta chọn k (k < N) giá trị đặc trưng nhỏ nhất X = e1, …, ek (∀i = [1, , k], ei ∈ RN ) của ma trận Laplacian Thay vì xét trong không gian N × N chiều, chúng ta chỉ cần xét N đối tượng trong không gian con

k × k chiều Hàng xi ∈ X sẽ biểu diễn cho vi ∈ V Bằng cách đó chúng ta rút gọn được ánh xạ đồ thị G vào X, trong đó độ tương tự của hai đỉnh vi và vj được xác định là khoảng cách giữa hai giá trị đặc trưng tương ứng của chúng Do vậy, chúng ta có thể đồng nhất ba ký hiệu: đối tượng i, vector xi và đỉnh vi là tương đương với nhau theo nghĩa biểu diễn cho cùng một thực thể dữ liệu

Trang 34

Thuật toán phân cụm quang phổ phi chuẩn

Input: + Ma trận liền kề W ∈ Rn×n của đồ thị G = (V, E)

5 yi ∈ RK là vector ứng với hàng thứ i của U

6 Gọi thuật toán K-means đối với các tâm cụm y1, …, yK để phân V thành K cụm

Thuật toán phân cụm quang phổ chuẩn hóa

Input: + Ma trận liền kề W ∈ Rn×n của đồ thị G = (V, E)

+ Ma trận D của đồ thị G

+ Số cụm K

Output: Các cụm C1, …, CK

1 Tính ma trận Laplacian chuẩn hóa Lsym = D-1/2LD-1/2

2 Tính K vector giá trị đặc trưng đầu u1, …, uK của Lsym

3 Đặt U∈ Rn×K là ma trận có các cột là các vector giá trị đặc trưng u1, …, uK

4 Tạo ra ma trận T ∈ Rn×K từ U bằng cách chuẩn hóa các hàng theo chuẩn 1

𝑡𝑖𝑗 = 𝑢𝑖𝑗

5 for i = 1 to n do

6 yi ∈ RK là vector ứng với hàng thứ i của T

7 Gọi thuật toán K-means đối với các tâm cụm y1, …, yK để phân V thành K cụm

Cả hai thuật toán trên đều có độ phức tạp tính toán là (nK)

Trang 35

1.2.3.2 Thuật toán phân cụm Markov

Một họ thuật toán khác cho phân cụm đồ thị là dựa trên các bước đi ngẫu nhiên trên đồ thị Ý tưởng của phương pháp “bước đi ngẫu nhiên” được sử dụng ở đây là nếu chúng ta bắt đầu xuất phát tại một đỉnh bất kỳ của đồ thị và thực hiện “bước đi ngẫu nhiên” - chọn ngẫu nhiên tới một đỉnh khác thông qua cạnh liên kết giữa chúng thì dường như chúng ta đi qua chủ yếu các cạnh giữa các đỉnh cùng thuộc một nhóm nhiều hơn là đi qua các cạnh nối giữa các nhóm với nhau Từ đặc điểm này có thể tiến hành gom cụm dữ liệu với độ chính xác cao Ví dụ từ hình 1.11: cạnh nối đỉnh 2

và đỉnh 5, có mật độ di chuyển qua lại ít hơn các cạnh khác, do nó là cạnh nối liền 2 nhóm đỉnh

Hình 1.10: Minh họa mô hình đồ thị cho bước đi ngẫu nhiên [1]

Thuật toán thành công nhất trong họ thuật toán này chính là thuật toán phân cụm Markov (MCL) được đề xuất bởi Dongen (2000)

Tương tự như ma trận Laplacian trong thuật toán phân cụm quang phổ, MCL định nghĩa ma trận riêng của nó với tên gọi là ma trận Markov Ma trận Markov 𝒯𝐺

nhận được bằng việc chuẩn hóa cột thứ q của ma trận trọng số W (gọi là ℳ𝐺) và nhân với nghịch đảo bậc của ma trận có giá trị các đường chéo là tổng của các trọng số cột của ma trận W (gọi là 𝒟𝐺-1), tức là 𝒯𝐺 = ℳ𝐺𝒟𝐺-1 MCL đưa ra hai phép toán mở rộng

và thổi phồng, trong đó phép toán mở rộng là việc lấy hàm mũ của một ma trận ngẫu nhiên, còn phép thổi phồng là việc lấy hàm mũ Hadamard của một ma trận

Phép toán mở rộng tương ứng với việc tính các bước đi ngẫu nhiên của chiều dài lớn hơn, tức là các bước đi ngẫu nhiên với nhiều bước Do các đường đi với chiều dài lớn hơn là phổ biến hơn bên trong các cụm so với giữa các cụm khác nhau, tức là

có nhiều cách để đi từ một nút tới các nút khác

Trang 36

Phép toán thổi phồng sau đó sẽ giúp tăng xác suất của các bước đi bên trong cụm và giảm bước đi giữa các cụm

Kết quả của việc lặp lại phép mở rộng và thổi phồng là một phân hoạch của

đồ thị Thuật toán được thể hiện dưới đây:

Input: một đồ thị có cấu trúc G = (V,E) với ma trận Markov ℳ𝐺 và bậc ma trận 𝒟𝐺 , tham số mở rộng e và tham số thổi phồng r

Output: Kết quả phân cụm đồ thị

1 Tính ma trận Markov 𝒯𝐺 = ℳ𝐺𝒟𝐺-1

2 Khi 𝒯𝐺 chưa phải là điểm cố định:

𝒯𝐺 = 𝒯𝐺 e // phép toán mở rộng for all 𝑢 ∈ 𝑉 do // phép toán thổi phồng

for all 𝑣 ∈ 𝑉 do 𝒯𝑢𝑣 = 𝒯𝑢𝑣𝑟

for all 𝑣 ∈ 𝑉 do 𝒯𝑢𝑣 = 𝒯𝑢𝑣

∑ 𝑤∈𝑉 𝒯 𝑢𝑤

3 H: đồ thị tạo ra bởi các giá trị khác không của 𝒯𝐺

4 C: phép phân cụm tạo ra bởi các thành phần liên thông của H

Thuật toán MCL có một số đặc điểm hấp dẫn như sau:

- Nó thực hiện đơn giản với hai phép toán mở rộng và thổi phồng

- Nó có tính thích nghi Với việc điều chỉnh tham số mở rộng và thổi phồng, các phép phân cụm trên các tỷ lệ khác nhau có thể được tìm thấy

MCL đã được áp dụng trong một số các lĩnh vực khác nhau với các thành công vang dội, đặc biệt là trong lĩnh vực tin sinh và tin hóa

1.2.3.3 Thuật toán pha tạp khác

a Một trong số các thuật toán phân cụm đồ thị sớm nhất đó là thuật toán Kerninghan-Lin (1970) Mục đích là để phân hoạch đồ thị thành hai phần với kích thước bằng nhau với số lượng các cạnh bị cắt là nhỏ nhất Thuật toán hoạt động với việc lặp cải tiến, bắt đầu từ việc chia làm hai phần tùy ý và đổi chỗ các cặp nút để cải thiện giá trị của việc phân hoạch Độ phức tạp của thuật toán là O(n3) với n là số đỉnh của đồ thị Độ phức tạp cao khiến thuật toán không được áp dụng nhiều trong thực

tế Tuy nhiên thuật toán này được nghiên cứu, mở rộng bởi các nhà nghiên cứu khác

Trang 37

b Karypis và Kumar (1999) đề xuất một tiếp cận đa mức cho việc phân chia

đồ thị thành hai cụm Ý tưởng cơ bản đó là rút gọn đồ thị bằng cách giảm bớt các đỉnh và cạnh (pha thô), phân hoạch đồ thị nhỏ hơn (pha phân hoạch) và sau đó là tinh chỉnh để cấu trúc một phân hoạch cho đồ thị gốc (pha tinh chỉnh) Thuật toán được

mô tả như sau:

Pha phân hoạch:

Một phân hoạch 2 chiều Pm của đồ thị Gm = (Vm, Em) được tính bằng cách phân hoạch Vm thành hai phần, mỗi phần chứa một nửa số đỉnh của đồ thị G0

so với các thuật toán phân hoạch quang phổ, dựa trên việc thực nghiệm trên một lượng lớn các đồ thị dữ liệu Vấn đề của METIS đó là nó chỉ tạo ra được hai cụm và Dhilon

et al (2005) đã mở rộng thuật toán cho K cụm

c Aksoy và Haralick (1999) đề xuất một thuật toán phân cụm bắt đầu với việc tìm kiếm các vùng dày trong đồ thị và sau đó trộn các vùng dày này theo một số tiêu chí Bởi thế, điểm mấu chốt trong thuật toán này là cách tìm các vùng dày của đồ thị Thuật toán được miêu tả như sau:

Input: Đồ thị G = (V, E) với ma trận kề 𝑊 ∈ ℝ𝑛×𝑛

Output: Kết quả phân cụm đồ thị G

Bước 1: Tìm tất cả các vùng dày của đồ thị

Trang 38

Bước 2: Trộn các vùng dày nếu thỏa mãn một số tiêu chí

Mặc dù các tác giả không đề cập đến độ phức tạp khi thực hiện thuật toán, một phân tích đơn giản chỉ ra rằng độ phức tạp phụ thuộc chủ yếu vào việc tìm kiếm các vùng dày trên một đồ thị thưa với độ phức tạp O(nm2) trong trường hợp xấu nhất Một vấn đề khác đó là thuật toán chỉ làm việc trên các đồ thị không có trọng số, tuy nhiên nó có thể được mở rộng để làm việc trên các đồ thị có trọng số

d) Newman (2004) đề xuất thuật toán phân cụm phân cấp tích tụ để nhận được giá trị độ đo đơn thể tối ưu theo phương pháp tham lam Bắt đầu với mỗi đỉnh như là các cụm, thuật toán lặp lại việc hòa các cặp cụm, việc lựa chọn ở mỗi bước để hòa nhập các cụm phải làm cho giá trị độ đo đơn thể tăng lên giá trị lớn nhất có thể Tiến trình của thuật toán sẽ tạo ra một "dendrogram" và số lượng các cụm thay đổi từ lớn nhất thành nhỏ nhất Ta có thể lựa chọn một phép phân cụm tốt nhất bởi việc tìm kiếm giá trị đơn thể tối ưu Dưới đây là miêu tả của thuật toán:

Input: Đồ thị G = (V, E) với ma trận kề 𝑊 ∈ ℝ𝑛×𝑛

Output: Kết quả phân cụm đồ thị G

Bước 1 Khởi tạo phân cụm bằng cách gán mỗi đỉnh là một cụm

Bước 2 Hòa nhập cặp cụm làm tăng giá trị độ đo đơn thể lên lớn nhất (hoặc làm giảm ít nhất)

Bước 3 Lặp lại bước 2 cho tới khi phép phân cụm chỉ còn lại một cụm Bước 4 Tìm phép phân cụm cho độ đo đơn thể lớn nhất

Thành công của thuật toán này đó là độ phức tạp của thuật toán chỉ là O(n(m+n)) trong trường hợp xấu nhất và là O(n2) trên đồ thị thưa [12]

1.3 Kết luận chương 1

Chương này đã trình bày tổng quan về các kỹ thuật phân cụm dữ liệu nói chung, ứng dụng của phân cụm dữ liệu Qua đó làm tiền đề để nghiên cứu sâu hơn về phân cụm đồ thị dữ liệu: khái niệm dữ liệu đồ thị, các độ đo trong phân cụm dữ liệu nói chung và dữ liệu đồ thị nói riêng, các kỹ thuật phân cụm dữ liệu đồ thị Với các kiến thức đã nghiên cứu về phân cụm dữ liệu đồ thị tổng quát, trong chương tiếp theo sẽ tập trung trình bày kỹ hơn về các kỹ thuật phân cụm có thứ bậc dữ liệu đồ thị

Trang 39

CHƯƠNG 2: PHÂN CỤM CÓ THỨ BẬC CÁC ĐỒ THỊ DỮ LIỆU

Trong phân cụm có thứ bậc, đồ thị được tổ chức thành các mức, từ mức cao (mức tổng quát) và đồ thị được chi tiết dần theo các mức từ trên xuống (top down) để giảm độ phân cấp [3, 7] Các phương pháp phân cụm có thứ bậc đều dựa trên một nguyên lý chung là dựa vào độ tương tự giữa các cặp đối tượng, những đối tượng có quan hệ nhiều hơn với nhau sẽ gần nhau hơn những đối tượng có ít mối quan hệ hơn

Hiện nay có nhiều phương pháp phân cụm có thứ bậc đã được phát triển và chúng có những ưu, nhược điểm riêng, song trong luận văn này chỉ tập trung vào

một số thuật toán chính:

2.1 Thuật toán CHAMELEON

Thuật toán phân cụm CHAMELEON sử dụng mô hình động trong phân cụm

có thứ bậc, được phát triển bởi Karypis, Han và Kumar (1999) Khi xử lý phân cụm, hai cụm được hoà nhập nếu liên kết nối và độ chặt (độ gần) giữa hai cụm được liên kết cao với liên kết nối và độ chặt nội tại của các đối tượng nằm trong phạm vi các cụm Xử lý hoà nhập dựa trên mô hình động tạo điều kiện thuận lợi cho sự khám phá

ra các cụm tự nhiên và đồng nhất, nó áp dụng cho tất cả các kiểu dữ liệu miễn là hàm tương đồng được chỉ định [1, 3]

CHAMELEON có được dựa trên quan sát các yếu điểm của hai thuật toán phân cụm có thứ bậc: CURE và ROCK CURE và các lược đồ quan hệ bỏ qua thông tin về liên kết nối tổng thể của các đối tượng trong hai cụm; ngược lại, ở ROCK, các lược đồ quan hệ lờ đi thông tin về độ chặt của hai cụm trong khi nhấn mạnh liên kết nối của chúng

Input: Cơ sở dữ liệu với n bộ, số lượng cụm con K

Output: Các cụm dữ liệu Ci (0 < i <K)

CHAMELEON trước tiên sử dụng một thuật toán phân chia đồ thị để phân cụm các mục dữ liệu vào trong một số lượng lớn các cụm con tương đối nhỏ Sau đó dùng giải thuật phân cụm có thứ bậc tập hợp để tìm ra các cụm xác thực bằng cách lặp lại việc kết hợp các cụm này với nhau Để xác định các cặp cụm con giống nhau

Trang 40

nhất, cần đánh giá cả liên kết nối cũng như độ chặt của các cụm, đặc biệt là các đặc tính nội tại của bản thân các cụm Do vậy nó không tuỳ thuộc vào một mô hình tĩnh được cung cấp bởi người dùng và có thể tự động thích ứng với các đặc tính nội tại của các cụm đang được hoà nhập

Chameleon miêu tả các đối tượng dựa trên tiếp cận đồ thị được dùng phổ biến: k-láng giềng gần nhất Mỗi đỉnh của đồ thị k-láng giềng gần nhất đại diện cho một đối tượng dữ liệu, tại đó tồn tại một cạnh giữa hai đỉnh (đối tượng), nếu một đối tượng

là giữa k đối tượng giống nhau so với các đối tượng khác Đồ thị k-láng giềng gần nhất Gk có được khái niệm láng giềng động: Bán kính láng giềng của một điểm dữ liệu được xác định bởi mật độ của miền mà trong đó các đối tượng cư trú Trong một miền dày đặc, láng giềng được định nghĩa hẹp, và trong một miền thưa thớt, láng giềng được định rộng hơn Chameleon chỉ rõ sự tương đồng giữa mỗi cặp các cụm Ci

và Cj theo liên kết nối tương đối RI (Ci ,Cj) và độ chặt tương đối RC(Ci ,Cj) của chúng

Liên kết nối tương đối RI(Ci,Cj) giữa hai cụm Ci và Cj được định nghĩa như liên kết nối tuyệt đối giữa Ci và Cj đã tiêu chuẩn hoá đối với liên kết nối nội tại của hai cụm Ci và Cj Đó là:

𝑅𝐼(𝐶𝑖, 𝐶𝑗) =1 |𝐸𝐶𝐶𝑖,𝐶𝑗|

2|𝐸𝐶𝐶𝑖| + |𝐸𝐶𝐶𝑗|

(2.1)

với 𝐸𝐶{𝐶𝑖,𝐶𝑗} là cạnh cắt của cụm chứa cả Ci và Cj để cụm này được rơi vào trong Ci

và Cj, và tương tự như vậy, 𝐸𝐶𝐶𝑖 (hay 𝐸𝐶𝐶𝑖) là kích thước của min-cut bisector (tức

là trọng số của các cạnh mà chia đồ thị thành hai phần thô bằng nhau)

Độ chặt tương đối giữa một cặp các cụm Ci và Cj là RC(Ci,Cj) được định nghĩa như là độ chặt tuyệt đối giữa Ci và Cj được tiêu chuẩn hóa đối với liên kết nối nội tại của hai cụm Ci và Cj Đó là:

Định dạng
Số trang	87
Dung lượng	3,83 MB