Tìm hiểu các phương pháp phân cụm dữ liệu ứng dụng xây dựng bản đồ phân bố bệnh trên địa bàn tỉnh thái nguyên

Lavrac [4] đề xuất một số kỹ thuật khai thác dữ liệu có thể được áp dụng trong y học, và đặc biệt là một số kỹ thuật máy học bao gồm các cơ chế mà làm cho chúng phù hợp hơn cho việc phân

Trang 1

Em cũng xin gửi lời cảm ơn tới các thầy, cô đã có những ý kiến đóng góp bổ ích và đã tạo mọi điều kiện tốt nhất cho em trong suốt thời gian thực hiện luận văn Xin cảm ơn các bạn học đồng khóa đã thường xuyên động viên, giúp đỡ tôi trong quá trình học tập

Cuối cùng, em xin gửi lời cảm ơn đến gia đình và đồng nghiệp vì sự ủng hộ

và động viên đã dành cho em trong suốt quá trình học tập cũng như thực hiện luận văn này

Thái Nguyên, tháng 11 năm 2015

Học viên

Nguyễn Minh Tú

Trang 2

LỜI CAM ĐOAN

Em xin cam đoan về nội dung đồ án tốt nghiệp với tên đề tài “Tìm hiểu các phương pháp phân cụm dữ liệu ứng dụng xây dựng bản đồ phân bố bệnh trên địa bàn tỉnh Thái Nguyên” không sao chép nội dung từ các luận văn khác,

hay các sản phẩm tương tự mà không phải do em làm ra Sản phẩm luận văn là do chính bản thân em tìm hiểu và xây dựng nên

Nếu có gì sai em xin chịu mọi hình thức kỷ luật của Trường Đại học Công nghệ Thông tin và Truyền thông – Đại học Thái Nguyên

Thái Nguyên, tháng 11 năm 2015

Học viên

Nguyễn Minh Tú

Trang 3

MỤC LỤC

LỜI CẢM ƠN i

LỜI CAM ĐOAN ii

MỤC LỤC iii

DANH MỤC BẢNG v

DANH MỤC CÁC HÌNH VẼ vi

MỞ ĐẦU 1

MỘT SỐ KẾT QUẢ NGHIÊN CỨU KHÁC 2

CHƯƠNG I KHAI PHÁ DỮ LIỆU 3

1.1 Tổng quan khai phá dữ liệu 3

1.2 Quá trình khám phá tri thức và khai phá dữ liệu 3

1.2.1 Quá trình khám phá tri thức 3

1.2.2 Quá trình khai phá dữ liệu 6

1.3 Các kỹ thuật trong khai phá dữ liệu 7

1.4 Một số thách thức trong khai phá dữ liệu 10

CHƯƠNG II PHÂN CỤM DỮ LIỆU VÀ CÁC THUẬT TOÁNPHÂN CỤM 12

2.1 Khái niệm phân cụm dữ liệu 13

2.1.1 Một số định nghĩa 13

2.1.2 Dữ liệu và độ đo 13

2.2 Các yêu cầu đối với phương pháp phân cụm dữ liệu 14

2.3 Các kỹ thuật phân cụm 16

2.3.1 Các kỹ thuật phân cụm cơ bản 16

2.3.2 Các kỹ thuật phân cụm khác 17

2.3.3 Một số tiêu chuẩn đánh giá hiệu quả phân cụm 22

2.4 Một số thuật toán trong phân cụm dữ liệu 23

2.4.1 Các thuật toán phân cụm phân hoạch 23

2.4.2 Các thuật toán phân cụm phân cấp 31

2.4.3 Các thuật toán phân cụm dựa trên mật độ 37

2.4.3 Các thuật toán phân cụm dựa vào lưới 41

Trang 4

2.4.4 Các thuật toán phân cụm dựa trên mô hình 43

CHƯƠNG 3: XÂY DỰNG BẢN ĐỒ PHÂN BỐ BỆNH 45

3.1 Bài toán phân cụm dữ liệu hồ sơ bệnh án 45

3.2 Dữ liệu và tiêu chí xác định 45

3.2.1 Một số đặc điểm tập dữ liệu gốc 45

3.2.2 Tiền xử lý dữ liệu gốc 47

3.3 Lựa chọn phương pháp phân cụm 53

3.4 Kết quả phân cụm dữ liệu mẫu 54

3.5 Biểu điễn kết quả phân bố bệnh trên bản đồ 60

KẾT LUẬN 62

TÀI LIỆU THAM KHẢO 64

Trang 5

DANH MỤC BẢNG

Bảng 3.1: Các loại bệnh và ký hiệu 54

Bảng 3.2: Các khu vực hành chính và ký hiệu 55

Bảng 3.3: Dữ liệu đầu vào cho phân cụm phân cấp 55

Bảng 3.4: Biểu diễn kết quả phân cụm chi tiết 58

Bảng 3.5: Biểu diễn kết quả phân cụm theo tiêu chí bệnh 60

Trang 6

DANH MỤC CÁC HÌNH VẼ

Hình 1.1: Các giai đoạn trong quá trình khám phá tri thức 4

Hình 1.2: Quá trình khai phá dữ liệu 7

Hình 2.1: Ví dụ về phân cụm theo mật độ[4] 18

Hình 2.2: Cấu trúc phân cụm dựa trên lưới[4] 19

Hình 2.3: Ví dụ về phân cụm dựa trên mô hình[4] 20

Hình 2.4: Cách mà các cụm có thể đưa ra 21

Hình 2.5: Thuật toán k-means 24

Hình 2.6: Sự thay đổi tâm cụm trong k-means khi có phần tử ngoại lai 27

Hình 2.7: Phân cụm phân cấp tập theo phương pháp “dưới lên” [4] 32

Hình 2.8: Single link 32

Hình 2.9: Complete link 32

Hình 2.10: Các bước cơ bản của AGNES[4] 34

Hình 2.11: Các bước cơ bản của DIANA[4] 35

Hình 2.12: Cấu trúc cây CF 36

Hình 2.13: Hình dạng các cụm được khám phá bởi thuật toán DBSCAN 39

Hình 2.14: Sắp xếp cụm trong OPTICS phụ thuộc vào [4] 40

Hình 3.1: Sơ đồ khối giải quyết bài toán 45

Hình 3.2: Phân tích dữ liệu gốc, thuộc tính “HO TEN” 48

Hình 3.3: Dữ liệu gốc sau khi loại bỏ thuộc tính thừa và dữ liệu trùng lặp 49

Hình 3.4: Phân tích dữ liệu gốc, thuộc tính “QUAN HUYEN” 50

Hình 3.5: Loại bỏ một số giá trị của thuộc tính “QUAN HUYEN” 51

Hình 3.6: Dữ liệu trước và sau khi lọc thuộc tính “CHUAN DOAN DAU RA” 52

Hình 3.7: Cấu và phân bố dữ liệu mẫu 56

Hình 3.8: Thiết lập tham số thuật toán K-means 57

Hình 3.9: Kết quả phân cụm chi tiết 57

Hình 3.10: Kết quả phân cụm dựa trên loại bệnh 59

Hình 3.11: Bản đồ phân bố bệnh các khu vực 61

Trang 7

MỞ ĐẦU

Đề tài tìm hiểu các phương pháp phân cụm dữ liệu, đánh giá ưu nhược điểm của mỗi phương pháp để tìm ra phương pháp phù hợp áp dụng trên tập dữ liệu mẫu Kết quả sẽ được dùng để xây dựng bản đồ phân bố bệnh trên địa bàn tỉnh Thái Nguyên nhằm hỗ trợ công tác lên kế hoạch dự trù cơ sở vật chất, thuốc và các trang thiết bị khác cho các trung tâm y tế của Tỉnh

Thái Nguyên là một tỉnh trung du miền núi thuộc vùng Đông Bắc của Việt Nam với diện tích hơn 3500 km2 và dân số khoảng hơn một triệu người; bao gồm 9 đơn vị hành chính: Thành phố Thái Nguyên; Thị xã Sông Công và 7 huyện: Phổ Yên, Phú Bình, Đồng Hỷ, Võ Nhai, Định Hóa, Đại Từ, Phú Lương Trong đó, tổng số gồm

180 xã, trong đó có 125 xã vùng cao và miền núi, còn lại là các xã đồng bằng và trung du.Tỉnh Thái Nguyên có nhiều dân tộc anh em sinh sống Tuy nhiên, dân cư phân bố không đều, vùng cao và vùng núi dân cư rất thưa thớt, trong khi đó ở thành thị và đồng bằng dân cư lại dày đặc Mật độ dân số thấp nhất là huyện Võ Nhai 72 người/ km2, cao nhất là Thành phố Thái Nguyên với mật độ 1.260 người/ km2

Do sự khác biệt lớn trong cơ cấu dân số, lối sống, trình độ dân trí nên có những sự khác biệt đáng kể trong các hình thức bệnh trong các khu vực hành chính khác nhau Nếu các thông tin về hình thức bệnh và các vấn đề sức khỏe trong mỗi khu vực hành chính được thu thập đầy đủ, nó sẽ có thể sẽ giúp việc phân bổ nguồn lực hiệu quả để phát triển các chính sách y tế công cộng cho các khu vực khác nhau

Luận văn sử dụng các kỹ thuật khai thác dữ liệu để phân tích dữ liệu y tế thuộc Đại học Y Dược Thái Nguyên trongbốn tháng đầu năm 2015 Hy vọng rằng việc sử dụng các công cụ này một cách hiệu quả có thể phân tích và điều tra hình thức bệnh trong khu vực hành chính khác nhau của Thái Nguyên để tiếp tục xây dựng một bản đồ y tế cho tỉnh Thái Nguyên

Trang 8

MỘT SỐ KẾT QUẢ NGHIÊN CỨU KHÁC

Ching-Kuo Wei et al [2] Nghiên cứu này sử dụng các kỹ thuật khai phá dữ liệu điều tra các loại bệnh trong các khu vực hành chính khác nhau và phân tích sự khác nhau giữa các khu vực hành chính để tiếp tục xây dựng một bản đồ phân bố bệnh

Nghiên cứu hy vọng sẽ giúp xây dựng trong tương lai các chiến lược y tế và phân bố các nguồn lực một cách thích hợp

Lavrac [4] đề xuất một số kỹ thuật khai thác dữ liệu có thể được áp dụng trong y học, và đặc biệt là một số kỹ thuật máy học bao gồm các cơ chế mà làm cho chúng phù hợp hơn cho việc phân tích cơ sở dữ liệu y tế (nguồn gốc của các quy tắc mang tính biểu tượng, sử dụng các kiến thức nền, độ nhạy và độ đặc hiệu của giới thiệu gây ra) Tầm quan trọng của thông dịch các kết quả phân tích dữ liệu là thảo luận và minh họa trên các ứng dụng y tế đã chọn

Lavrac et al [5] đề xuất một phương pháp khai thác dữ liệu và công nghệ trực quan được sử dụng để hỗ trợ việc ra quyết định liên quan đến sức khỏe cộng đồng tại Slovenia.Mục đích nhằm khai thác cơ sở dữ liệu y tế công cộng để xác định khả năng đáp ứng của các dịch vụ y tế công cộng đối với các khu vực Các kết quả có thể sử dụng để phát triển các chính sách chăm sóc sức khỏe cơ quan y tế

Trang 9

CHƯƠNG I KHAI PHÁ DỮ LIỆU

1.1 Tổng quan khai phá dữ liệu

Cùng với sự phát triển mạnh mẽ của công nghệthông tin,lượng thông tin của nhân loại đượclưu trữ trên các thiết bị điện tử, các hệ thống thông tin ngày một tăng Việc ứng dựng công nghệ thông tin mạnh mẽ, sâu rộng trong nhiều lĩnh vực: khoa học, kinh doanh, chứng khoán, thương mại, giao dịch,… đã tích lũy nên nguồn dữ liệu khổng lồ.Sự bùng nổ này đãdẫn tới một yêu cầu cấp thiết là cần có những kỹ thuật và công cụ mới để tựđộng chuyển đổi lượng dữ liệu khổng lồ kia thành các tri thức có ích Do đó, khai phá dữ liệu (Data Mining) và các kỹ thuật phai phá dữ liệu

ra đời đã phần nào giải quyết được được yêu cầu trên

Trithức được xem như là các thông tin tích hợp, bao gồm các sự kiện và mốiquan hệ giữa chúng, đã được nhận thức, khám phá, hoặc nghiên cứu Nói cáchkhác, tri thức có thể được coi là dữ liệu ở mức độ cao của sự trừu tượng vàtổng quát

Khám phá tri thức là quá trình tìm ra những tri thức, đó là những mẫu tìm ẩn, trước đó chưa biết và là thông tin hữu ích đáng tin cậy.Khai phá dữ liệu là một bước trong quá trình khám phá tri thức, gồmcác thuật toán khai thác dữ liệu chuyên dùng dưới một số qui định về hiệu quảtính toán chấp nhận được để tìm ra các mẫu hoặc các mô hình trong dữ liệu.Nói cách khác, mục tiêu của khai phá dữ liệu là tìm kiếm các mẫu hoặc môhình tồn tại trong cơ sở dữ liệu (CSDL) nhưng ẩn trong khối lượng lớn dữ liệu

Khám phá tri thức từ CSDL là một quá trình sử dụng các phương pháp và công

cụ tin học để khám phá,lựa chọn được tập con dữ liệu tốt, từ đó phát hiện các mẫu phù hợp với mục tiêu đề ra Đó chính là tri thức, được rút ra từ CSDL, thường để phục vụ cho việc giải quyết một loạt nhiệm vụ nhất định trong một lĩnh vực nhất định

1.2 Quá trình khám phá tri thức vàkhai phá dữ liệu

1.2.1 Quá trình khám phá tri thức

Trang 10

Quá trình khám phá tri th

nhiều hoạt động tương tác gi

phương pháp, thuật toán

CSDL để phục vụ cho việc giải quyết một loạt nhiệm vụ nhất định trong một lĩnh vực nào đó Do đó quá tr

vụ, không phải phát hiện mọi tri thức đ

quyết tốt vấn đề đặt ra

Hình 1.1: Các giai đo

Quá trình khám phá tri th

quá trình là kho dữ liệu thô v

quátrình rất khó khăn gặp phải rất nhiều v

đi lặp lại toàn bộ quá trình,

1 Gom dữ liệu: Tập hợp dữ liệu l

liệu Đây là bước được khai thác trong một c

thông tin Internet

2 Trích lọc dữ liệu

theomột số tiêu chuẩn nào đó ph

3 Làm sạch, tiền xử lý v

để khắc phục đối với trư

Quá trình khám phá tri thức là một quá trình bao gồm nhiều

ương tác giữa con người và CSDL thông qua việc hỗ trợ của các

ật toán cũng như các công cụ tin học Tri thức được rút ra từ các

ể phục vụ cho việc giải quyết một loạt nhiệm vụ nhất định trong một lĩnh

Do đó quá trình khám phá tri thức cũng mang tính chất h

ải phát hiện mọi tri thức được bất kỳ mà phát hiện tri thức nhằm giải

Các giai đoạn trong quá trình khám phá tri th

Quá trình khám phá tri thức gồm sáu giai đoạn[1] như hình 1.1

ữ liệu thô và kết thúc với tri thức đượcchiết xuất ra

ất khó khăn gặp phải rất nhiều vướng mắc: quản lý các tập dữ liệu,phải lặp

ình,

ữ liệu: Tập hợp dữ liệu là bước đầu tiên trong quá trình

ợc khai thác trong một cơ sở dữliệu, một kho dữ liệu

Trích lọc dữ liệu: Ở giai đoạn này dữ liệu được lựa chọn hoặcphân chia

ào đó phục vụ mục đích khaithác

ạch, tiền xử lý và chuẩn bị trước dữ liệu: Dữ liệu cần đ

ường dữ liệu rỗng, dư thừa hoặc dữ liệu không hợp lệ

ều giai đoạnvới

ệc hỗ trợ của các

ợc rút ra từ các

ể phục vụ cho việc giải quyết một loạt nhiệm vụ nhất định trong một lĩnh

ức cũng mang tính chất hướng nhiệm

ện tri thức nhằm giải

ình khám phá tri thức

ình 1.1 Bắt đầu của ợcchiết xuất ra Đây là một ớng mắc: quản lý các tập dữ liệu,phải lặp

ên trong quá trìnhkhai phá dữ

ột kho dữ liệu nguồn

ợc lựa chọn hoặcphân chia

ữ liệu cần được làm sạch

ừa hoặc dữ liệu không hợp lệ Giai

Trang 11

đoạn này là một bước rấtquan trọng trong quá trình khai phá dữ liệu Một số lỗi thườngmắc phải trong khi gom dữ liệu là tính không đủ chặt chẽ.Vì vậy, dữ liệu thường chứa các giá trị vô nghĩa và không có khảnăng kết nối dữ liệu Giai đoạnnày sẽ tiến hành xử lý những dạng dữ liệu không chặt chẽ nóitrên Những dữ liệu dạng được xem như thông tin dư thừa,không có giá trị sẽ được loại bỏ Dữ liệu này nếu không được “làm sạch - tiền xử lý - chuẩn bịtrước” thì sẽ gây nên những kết quả sai lệch nghiêm trọng Các công việc tiền xử lý dữ liệu bao gồm:

- Xử lý dữ liệu bị mất, thiếu: Các dữ liệu thiếu sẽ được thay thế bằng các giá trị thích hợp

- Khử bỏ trùng lặp: các đối tượng dữ liệu trùng lặp sẽ bị loại bỏ

- Giảm nhiễu: dữ liệu nhiễu và các đối tượng tách rời khỏi phân bố chung sẽ

bị loại bỏ khỏi tập dữ liệu

- Chuẩn hóa: thông thường là chuẩn hóa miền giá trị của dữ liệu cho phù hợp

- Rời rạc hóa: chính là việc biến đổi dữ liệu dạng số về dữ liệu với các giá trị rời rạc

- Trích rút và xây dựng các đặc trưng mới từ các thuộc tính đã có

- Giảm chiều không gian thuộc tính: là loại bỏ bớt các thuộc tính có chứa ít thông tin

4 Chuyển đổi dữ liệu: Tiếp theo là giai đoạn chuyển đổi dữ liệu, dữliệu đưa

ra có thể sử dụng và điều khiển được bởi việc tổ chức lạinó, tức là dữ liệu sẽ được chuyển đổi về dạng phù hợp với mục đíchkhai phá dữ liệu

5 Khai phá dữ liệu (KPDL): Đây là bước quan trọng nhất trong tiến trình phát hiện tri thức, là bước mang tính tư duy trong khai phádữ liệu Ở giai đoạn này nhiều thuật toán khác nhau đã được sử dụng để trích ra các mẫu từ dữ liệu Thuật toán thường dùng làm nguyên tắc phân loại, nguyên tắc liên kết, Kết quả quả giai đoạn này là trích chọn được các mẫu hoặc các mô hình ẩn dưới một khối lượng lớn dữ liệu

6 Đánh giá các luật và biểu diễn tri thức: Ở giai đoạn này, các mẫu dữ liệu được chiết xuất ra bởi phần mềm KPDL Không phải bất cứ mẫu dữ liệu nào cũng đều hữu ích, đôi khi nó còn bị sai lệch Vì vậy, cần phải ưu tiên những tiêu chuẩn

Trang 12

đánh giá để chiết xuất ra các tri thức (Knowlege) cần chiết xuất ra Đánh giá sự hữu ích của các mẫu biểu diễn tri thức dựa trên một số phép đo Sau đó sử dụng các kỹ thuật trình diễn và trực quan hoá dữ liệu để biểu diễn tri thức khai phá được cho người sử dụng

Biểu diễn tri thức bao bao gồm việc hiển thị kết quả hoặc dịch kết quả để hiểu và trình diễn Trong bước này các tri thức vừa mới khám phá sẽ được củng cố, kết hợp lại thành một hệ thống, đồng thời giải quyết các xung đột tiềm năng trong các tri thức trước đó Các mô hình rút ra được đưa vào những hệ thống thông tin thực tế dưới dạng các mô-đun hỗ trợ việc đưa ra quyết định

Các giai đoạn (bước) của quá trình phát triển tri thức có mỗi quan hệ chặt chẽ với nhau trong bối cảnh chung của hệ thống Các kỹ thuật trong bước trước có thể ảnh hưởng đến hiệu quả của các giải thuật trong nhưỡng bước tiếp theo Các bước của quá trình khám phá tri thức có thể lặp đi lặp lại một số lần, kết quả thu được có thể được lấy trung bình trên tất cả các lần thực hiện

1.2.2 Quá trình khai phá dữ liệu

KPDL là giai đoạn quan trọng nhất trong quá trình khám phátri thức Về cơ bản, KPDL là về xử lý dữ liệu và nhận biết các mẫu và các xu hướng trong thông tin đó để bạn có thể quyết định hoặc đánh giá Các nguyên tắc KPDL đã được dùng nhiều năm, nhưng với sự ra đời của big data (dữ liệu lớn), nó lại càng phổ biến hơn Big data gây ra một sự bùng nổ về sử dụng nhiều kỹ thuật KPDL hơn, một phần vì kích thước thông tin lớn hơn rất nhiều và vì thông tin có xu hướng đa dạng và mở rộng hơn về chính bản chất và nội dung của nó Với các tập hợp dữ liệu lớn, để nhận được số liệu thống kê tương đối đơn giản và dễ dàng trong hệ thống vẫn chưa đủ[6]

Với 30 hoặc 40 triệu bản ghi thông tin khách hàng chi tiết, việc biết rằng 2 triệu khách hàng trong số đó sống tại một địa điểm vẫn chưa đủ Bạn muốn biết liệu

2 triệu khách hàng đó có thuộc về một nhóm tuổi cụ thể không và bạn cũng muốn biết thu nhập trung bình của họ để bạn có thể tập trung vào các nhu cầu của khách hàng của mình tốt hơn

Trang 13

Những nhu cầu đa d

- Thu thập và tiền xử lý dữ liệu: Thu thập các dữ liệu li

chúng sao cho thuật toán KPDL có thể hiểu đ

khăn, có thể gặp phải rất nhiều các v

bản (nếu được chiết xuất v

nhiều lần toàn bộ quá trình (n

- Thuật toán KPDL

khai phá dữ liệu để tìm đư

dạng luật kết hợp, cây quyết

1.3 Các kỹ thuật trong khai phá d

Có nhiều kỹ thuật khác nhau đ

chức năng mô tả và dự đoán Với mỗi chức năng th

ứng với nó Không có kỹ thuật n

Kỹ thuật KPDL mô tả có nhiệm vụ mô tả tính chất hoặc các đặc tính chung của dữ liệu trong CSDL hiện có

cụm dữ liệu, tổng hợp, trực quan hóa, phân tích sự phát triển v

đa dạng đã thay đổi cách lấy ra và thống kê d

ức tạp hơn Vấn đề hướng tới việc xem xét dữ liệu để giúp xây

ể mô tả các thông tin mà cuối cùng sẽ dẫn đến việc tạo ra báo

Hình 1.2: Quá trình khai phá dữ liệu

ịnh nhiệm vụ: Xác định chính xác các vấn đề cần giải quyết

ịnh các dữ liệu liên quan: Dùng để xây dựng giải pháp

ền xử lý dữ liệu: Thu thập các dữ liệu liên quan và ti

ật toán KPDL có thể hiểu được Đây là một quá tr

ể gặp phải rất nhiều các vướng mắc như: dữ liệu phải đư

ợc chiết xuất vào các tệp), quản lý tập các dữ liệu, phải lặp đi lặp lại

ình (nếu mô hình dữ liệu thay đổi),

KPDL: Lựa chọn thuật toán khai phá dữ liệu vàđược các mẫu có ý nghĩa, các mẫu này được biểu diễn ạng luật kết hợp, cây quyết định tương ứng mục đích đề ra

t trong khai phá dữ liệu

ều kỹ thuật khác nhau được sử dụng để KPDL nhằm thực hiện hai

ự đoán Với mỗi chức năng thì có các kỹ thuật KPDL t

ỹ thuật nào tốt để có thể áp dụng cho mọi trường hợp

ỹ thuật KPDL mô tả có nhiệm vụ mô tả tính chất hoặc các đặc tính chung

ủa dữ liệu trong CSDL hiện có Một số kỹ thuật khai phá trong nhóm n

ụm dữ liệu, tổng hợp, trực quan hóa, phân tích sự phát triển và độ lệch,…

ê dữ liệu đơn giản ớng tới việc xem xét dữ liệu để giúp xây

ẽ dẫn đến việc tạo ra báo

ịnh nhiệm vụ: Xác định chính xác các vấn đề cần giải quyết

ể xây dựng giải pháp

ên quan và tiền xử lý

ột quá trình rất khó ược sao ra nhiều ệp), quản lý tập các dữ liệu, phải lặp đi lặp lại

à thực hiện việc

ợc biểu diễn dưới

ợc sử dụng để KPDL nhằm thực hiện hai

ỹ thuật KPDL tương ờng hợp [1]

ỹ thuật KPDL mô tả có nhiệm vụ mô tả tính chất hoặc các đặc tính chung

ột số kỹ thuật khai phá trong nhóm này là: phân

ộ lệch,…

Trang 14

Kỹ thuật KPDL dự đoán có nhiệm vụ đưa ra các dự đoán vào việc suy diễn trên CSDL hiện thời Một số kỹ thuật khai phá trong nhóm này là: phân lớp, hồi quy, cây quyết định, thống kê, mạng nơ-ron, luật kết hợp,…

Trang 15

a Cây quyết định

Kỹ thuật cây quyết định là một công cụ mạnh và hiệu quả trong việc phân lớp và dự báo Các đối tượng dữ liệu được phân thành các lớp Các giá trị của đối tượng dữ liệu chưa biết sẽ được dự báo, dự đoán Tri thức được rút ra dưới kỹ thuật

này thường ở dưới dạng tường minh, đơn giản, trực quan đối với người sử dụng

b Phân lớp dữ liệu và hồi quy

Mục tiêu của phân lớp dữ liệu là dự đoán nhãn lớp cho các mẫu dữ liệu Quá trình gồm hai bước: xây dựng mô hình, dử dụng mô hình để phân lớp dữ liệu Mô hình được sử dụng để dự đoán nhãn lớp khi mà độ chính xác của mô hình chấp nhận được

Phương pháp hồi quy tương tự như phân lớp dữ liệu Nhưng khác ở chỗ nó dùng để dự đoán trước các giá trị liên tục, còn phân lớp dữ liệu dùng để dự đoán các giá trị rời rạc

c Phân cụm dữ liệu

Phân cụm dữ liệu là một kỹ thuật trong Data mining nhằm tìm kiếm, phát hiện các cụm, các mẫu dữ liệu tự nhiên tiềm ẩn và quan trọng trong tập dữ liệu lớn

để từ đó cung cấp thông tin, tri thức cho việc ra quyết định

Mục tiêu của phân cụm dữ liệu là nhóm các đối tượng tương tự nhau trong tập dữ liệu vào các cụm, sao cho những đối tượng thuộc cùng một lớp là tương đồng nhau

d Khai phá luật kết hợp

Mục tiêu của phương pháp này là phát hiện và đưa ra mỗi liên hệ giữa các giá trị dữ liệu trong CSDL Đầu ra của giải thuật luật kết hợp là tập luật kết hợp tìm được Phương pháp khai phá luật kết hợp gồm có hai bước:

- Bước một: Tìm ra tất cả các tập mục phổ biến Một tập mục phổ biến được xác định thông qua việc tính độ hỗ trợ và thỏa mãn độ hỗ trợ cực tiểu

- Bước hai: Sinh ra các luật kết hợp mạnh từ tập mục phổ biến, luật phải thỏa mãn độ hỗ trợ và độ tin cậy cực tiểu

Trang 16

e Giải thuật di truyền

Giải thuật di truyền là quá trình mô phỏng theo tiến hóa của tự nhiên Ý tưởng chính của giai đoạn này là dựa vào quy luật di truyền trong biến đổi, chọn lọc

tự nhiên và tiến hóa trong sinh học

f Mạng nơ-ron

Đây là một trong những kỹ thuật KPDL được sử dụng phổ biển hiện nay Kỹ thuật này phát triển dựa trên nền tảng toán học vững vàng, khả năng huấn luyện trong kỹ thật này mô phỏng hệ thần kinh trung ương của con người

Kết quả mà mạng nơ-ron học được có khả năng tạo ra các mô hình dự báo, dự đoán với độ chính xác và độ tin cậy cao Nó có khả năng phát hiện ra các xu hướng phức tạp mà các kỹ thuật thông thường khác khó có thể phát hiện ra được Tuy nhiên đây là kỹ thuật tương đối phức tạp và quá trình thực hiện nó gặp rất nhiều khó khăn, đòi hỏi tốn nhiều thời gian, nhiều dữ liệu, nhiều lần kiểm tra thử nghiệm

1.4 Một số thách thức trong khai phá dữ liệu

Khám phá tri thức và khai phá dữ liệu liên quan đến nhiều ngành, nhiều lĩnh vực, do đó cũng tồn tại nhiều thách thức và khó khăn:

- Các cơ sở dữ liệu lớn hơn rất nhiều: cơ sở dữ liệu với hàng trăm trường và bảng, hàng triệu bản ghi và kích thước lên tới nhiều gigabyte là vấn đề hoàn toàn bình thường

- Số chiều cao : không chỉ thường có một số lượng rất lớn các bản ghi trong

cơ sở dữ liệu mà còn có một số lượng rất lớn các trường (các thuộc tính, các biến) làm cho số chiều của bài toán trở nên cao Thêm vào đó, nó tăng thêm cơ hội cho một giải thuật khai phá dữ liệu tìm ra các mẫu không hợp lệ

- Thay đổi dữ liệu và tri thức: thay đổi nhanh chóng dữ liệu có thể làm cho các mẫu phát hiện trước đó không hợp lệ Thêm vào đó, các biến đã đo trong một cơ

sở dữ liệu ứng dụng cho trước có thể bị sửa đổi, xóa bỏ hay tăng thêm các phép đo mới Các giải pháp hợp lý bao gồm các phương pháp tăng trưởng để cập nhật các mẫu và xử lý thay đổi

Trang 17

- Dữ liệu thiếu và bị nhiễu: bài toán này đặc biệt nhạy trong các cơ sở dữ liệu thương mại Các thuộc tính quan trọng có thể bị mất nếu cơ sở dữ liệu không được thiết kế với sự khám phá bằng trí tuệ Các giải pháp có thể gồm nhiều chiến lược thống kê phức tạp để nhận biết các biến ẩn và các biến phụ thuộc

- Mối quan hệ phức tạp giữa các trường: các thuộc tính hay giá các giá trị có cấu trúc phân cấp, các quan hệ giữa các thuộc tính và các phương tiện tinh vi hơn cho việc biểu diễn tri thức về nội dung của một cơ sở dữ liệu sẽ đòi hỏi các giải thuật phải

có khả năng sử dụng hiệu quả các thông tin này Về mặt lịch sử, các giải thuật khai phá dữ liệu được phát triển cho các bản ghi có giá trị thuộc tính đơn giản, mặc dù các

kỹ thuật mới bắt nguồn từ mối quan hệ giữa các biến đang được phát triển

- Tính dễ hiểu của các mẫu: trong nhiều ứng dụng, điều quan trọng là những

gì khai thác được phải càng dễ hiểu đối với con người thì càng tốt Các giải pháp có thể thực hiện được bao gồm cả việc biểu diễn được minh họa bằng đồ thị, cấu trúc luật với các đồ thị có hướng, biểu diễn bằng ngôn ngữ tự nhiên và các kỹ thuật hình dung ra dữ liệu và tri thức

- Người dùng tương tác và tri thức sẵn có: nhiều phương pháp khám phá tri thức và các công cụ không tương tác thực sự với người dùng và không thể dễ dàng kết hợp chặt chẽ với tri thức có sẵn về một bài toán loại trừ theo các cách đơn giản Việc sử dụng của miền tri thức là quan trọng trong toàn bộ các bước của xử lý khám phá tri thức

Kết luận

Khai phá dữ liệu là lĩnh vực đã và đang trở thành một trong những hướng nghiên cứu thu hút được sự quan tâm của nhiều chuyên gia về công nghệ thông tin Gần đây, rất nhiều phương pháp và thuật toán mới liên tục được công bố Điều này chứng tỏ những lợi ích và khả năng ứng dụng thực tế của khai phá dữ liệu Chương này đã trình bày một số kiến thức tổng quan về khám phá tri thức, những khái niệm

và kiến thức cơ bản nhất về khai phá dữ liệu

Trang 18

CHƯƠNG II PHÂN CỤM DỮ LIỆU VÀ CÁC THUẬT TOÁN

PHÂN CỤM

Phân cụm là một trong những chủ đề được quan tâm nhiều trong các nghiên cứu KPDL Phân cụm là quá trình nhóm một tập các đối tượng thành các nhóm hay các lớp đối tượng “tương tự” nhau Một cụm là tập các đối tượng “giống nhau” hay tương tự nhau Các đối tượng khác cụm là ít hoặc không tương tự nhau Không giống như quá trình phân loại, ta thường biết trước tính chất hay đặc điểm của đối tượng trong cùng một cụm và dựa vào đó để ấn định một đối tượng vào cụm của nó, trong quá trình phân cụm ta không hề biết trước các tính chất của cụm mà dựa vào các mỗi quan hệ của các đối tượng để tìm ra sự giống nhau giữa các đối tượng dựa vào một độ đo nào đó đặc trưng cho mỗi cụm

Việc phân cụm dữ liệu không thực hiện độc lập mà thường kết hợp với các phương pháp khác Một cách phân cụm đưa ra cũng phải có một phương pháp áp dụng trên các lớp đó để đưa ra được ý nghĩa của cụm

Trong lĩnh vực KPDL, các vấn đề nghiên cứu trong phân cụm chủ yếu tập trung vào tìm kiếm các phương pháp phân cụm hiệu quả và tin cậy trong CSDL lớn

Một vấn đề thường gặp trong phân cụm dữ liệu (PCDL) là hầu hết các dữ liệu cần cho PCDL đều có chứa dữ liệu “nhiễu” do nhiều nguyên nhân khác nhau,

vì vậy cần xây dựng chiến lược cho bước tiền xử lý nhằm loại bỏ những dữ liệu

“nhiễu” trước khi bước vào giai đoạn phân tích PCDL

Ngoài ra, dò tìm phần tử ngoại lai là một trong những hướng nghiên cứu quan trọng trong PCDL, chức năng của nó là xác định một nhóm nhỏ các đối tượng

dữ liệu “khác thường” so với các dữ liệu khác trong CSDL nhằm tránh sự ảnh hướng của chúng tới quá trình cũng như kết quả PCDL

PCDL là một bài toán không hề đơn giản và phải giải quyết nhiều vấn đề cơ bản như sau:

- Biểu diễn dữ liệu

- Xây dựng hàm tính độ tương tự

Trang 19

- Xây dựng các tiêu chuẩn phân cụm

- Xây dựng mô hình cho cấu trúc cụm dữ liệu

- Xây dựng thuật toán phân cụm và xác lập các điều kiện khởi tạo

- Xây dựng các thủ tục biểu diễn và đánh giá kết quả phân cụm

2.1 Khái niệm phân cụm dữ liệu

2.1.1 Một số định nghĩa

Phân cụm là kỹ thuật rất quan trọng trong khai phá dữ liệu, nó thuộc lớp các phương pháp “Unsupervised Learning” trong “Machine Learning” Có rất nhiều định nghĩa khác nhau về kỹ thuật này, nhưng về bản chất phân cụm là các qui trình tìm cách nhóm các đối tượng đã cho vào các cụm (clusters), sao cho các đối tượng trong cùng một cụm tương tự (similar) nhau và các đối tượng khác cụm thì không tương tự (Dissimilar) nhau

Mục đích của phân cụm là tìm ra bản chất bên trong các nhóm của dữ liệu Các thuật toán phân cụm (Clustering Algorithms) đều sinh ra các cụm (clusters) Tuy nhiên, không có tiêu chí nào là được xem là tốt nhất để đánh hiệu của của phân tích phân cụm, điều này phụ thuộc vào mục đích của phân cụm như: data reduction,

“natural clusters”, “useful” clusters, outlier detection

2.1.2 Dữ liệu và độ đo

Trong phân cụm, các đối tượng phân tích này phải được biểu diễn chặt chẽ thông qua các đặc điểm của đối tượng đó Những đặc điểm này có ý nghĩa quyết định đến kết quả của thuật toán phân cụm Các loại dữ liệu được tìm hiểu theo hai hướng tiếp cận: tiếp cận dựa trên kích thước miền và tiếp cận theo tỷ lệ đo

a Phân loại dựa trên kích thước miền

Cách phân loại này phân biệt các đối tượng dữ liệu dựa trên kích thước miền của đối tượng đó, tức là số giá trị khác nhau của vùng đó Giả sử có CSDL D và n đối tượng Nếu x, y, z là ba đối tượng của D thì chúng sẽ có dạng:

x = (x1, x2,…,xk), y = (y1, y2,…,yk) , z = (z1, z2,…,zk) Với k là số chiều và xi, yi, zi với 1 ≤ i ≤ k là các thuộc tính tương ứng của các đối tượng Vì vậy, thuật ngữ “loại dữ liệu” là chỉ “loại thuộc tính dữ liệu”

Trang 20

b Phân loại dựa vào phép đo

Giả sử có hai đối tượng x,y và giá trị thuộc tính i của mỗi đối tượng tương ứng là xi và yi Ta có các thuộc tính sau:

- Định danh: các giá trị ở lớp này chỉ có phép toán só sánh bằng (xi = yi) hoặc không bằng (xi # yi)

- Có thứ tự: ngoài các phép toán dữ liệu định danh các giá trị thuộc lớp này còn là các phép so sánh lớn hơn (xi> yi) và nhỏ hơn (xi< yi)

- Có khoảng cách: các giá trị ở lớp này có phép toán tính được độ lệch giữa hai giá trị xi - yi

2.2 Các yêu cầu đối với phương pháp phân cụm dữ liệu

Đến nay chưa có một phương pháp phân cụm tổng quát nào có thể giải quyết trọn vẹn tất cả các dạng cấu trúc cụm dữ liệu Hơn nữa, các phương pháp phân cụm cần có cách thức biểu diễn cấu trúc các cụm dữ liệu khác nhau, với mỗi cách thức biểu diễn khác nhau sẽ có một phương pháp phân cụm phù hợp

Việc lựa chọn một thuật toán phân cụm là vấn đề then chốt để giải quyết bài toán phân cụm dữ liệu, lựa chọn này phụ thuộc vào đặc tính dữ liệu cần phân cụm, mục đích của các bài toán thực tế là xác định độ ưu tiên giữa chất lượng phân cụm

và tốc độ thực hiện của thuật toán

Thông thường các nghiên cứu để xây dựng và phát triển thuật toán phân cụm

dữ liệu đều nằm đáp ứng yêu cầu sau [1]:

Trang 21

- Có khả năng mở rộng: Một số thuật toán áp dụng cho tập dữ liệu nhỏ (khoảng 200 bản ghi) Nhưng không hiệu quả khi áp dụng cho tập dữ liệu lớn (khoảng 1 triệu bản ghi)

-Thích nghi với các kiểu dữ liệu khác nhau: thuật toán có thể áp dụng phân cụm với nhiều kiểu dữ liệu khác nhau như dữ liệu kiểu số, kiểu nhị phân, … và thích nghi với kiểu dữ liệu hỗn hợp

-Khám phá ra các cụm với hình thù bất kỳ: Hầu hết các CSDL chứa nhiều cụm dữ liệu với nhiều hình thù khác nhau: hình lõm, hình cầu, hình que,… Vì vậy,

để các cụm dữ liệu được khám phá ra có tính tự nhiên thì các thuật toán phân cụm

dữ liệu phải có khả năng khám phá ra các cụm dữ liệu có hình thù khác nhau

- Tối thiểu lượng tri thức cần cho tham số đầu vào: Do các giá trị đầu vào của thuật toán có ảnh hướng rất lớn đến độ phức tạp, tốc độ của thuật toán Do đó cần xác định giá trị đầu vào của thuật toán một cách tối ưu đặc biệt với những CSDL lớn

- Ít nhạy cảm đối với thứ tự của dữ liệu vào: Cùng một tập dữ liệu khi đưa vào xử lý bằng các thuật toán PCDL, thứ tự vào của các đối tượng dữ liệu ở các lần thực hiện khác nhau không ảnh hưởng đến kết quả của phân cụm dữ liệu

- Khả năng thích nghi với dữ liệu nhiễu cao: Hầu hết các dữ liệu phân cụm trong KPDL đều có chứa các dữ liệu lỗi, dữ liệu không đầy đủ, dữ liệu rác được gọi chung là dữ liệu nhiễu Bởi vậy các thuật toán phân cụm không có những hiệu quả với những dữ liệu nhiễu mà còn chất dẫn đến chất lượng phân cụm thấp do nhạy cảm với những dữ liệu nhiễu

- Thích nghi với dữ liệu đa chiều: Thuật toán áp dụng có hiệu quả đối với các

dữ liệu đa chiều

- Dễ hiểu, dễ cài đặt và khả thi: Đây là yêu cầu đồng thời là tiêu chí để đánh giá hiệu quả của các thuật toán phân cụm

Trang 22

2.3.Các kỹ thuật phân cụm

2.3.1 Các kỹ thuật phân cụm cơ bản

Các kỹ thuật phân cụm được chia thành hai loại chính: phân hoạch

(partitional) và phân cấp (hierarchical)

Phân hoạch: Kỹ thuật này phân hoạch một tập hợp dữ liệu có n phần tử thành k nhóm cho đến khi xác định số các cụm được thiết lập Số các cụm được thiết lập là các đặc trưng được lựa chọn trước Phương pháp này là tốt cho việc tìm các cụm hình cầu trong không gian Euclidean Ngoài ra, phương pháp này cũng phụ thuộc vào khoảng cách cơ bản giữa các điểm để lựa chọn các điểm dữ liệu nào có quan hệ là gần nhau với mỗi điểm khác và các điểm dữ liệu nào không có quan hệ hoặc có quan hệ là xa nhau so với mỗi điểm khác Tuy nhiên, phương pháp này không thể xử lí các cụm có hình dạng kỳ quặc hoặc các cụm có mật độ các điểm dầy đặc Các thuật toán phân hoạch dữ liệu có độ phức tạp rất lớn khi xác định nghiệm tối ưu toàn cục cho vấn đề phân cụm dữ liệu, do nó phải tìm kiếm tất cả các cách phân hoạch có thể được Chính vì vậy, trên thực tế thường đi tìm giải pháp tối

ưu cục bộ cho vấn đề này bằng cách sử dụng một hàm tiêu chuẩn để đánh giá chất lượng của cụm cũng như để hướng dẫn cho quá trình tìm kiếm phân hoạch dữ liệu Như vậy, ý tưởng chính của thuật toán phân cụm phân hoạch tối ưu cục bộ là sử dụng chiến lược ăn tham (Greedy) để tìm kiếm nghiệm

Điển hình trong phương pháp tiếp cận theo phân cụm phân họach là các thuật toán như : K-means, K-medoids, CLARA (Clustering Large Applications), CLARANS (Clustering Large Applications based on RAndomized Search) …

Phân cấp: Phương pháp này xây dựng một phân cấp trên cơ sở các đối tượng

dữ liệu đang xem xét Nghĩa là sắp xếp một tập dữ liệu đã cho thành một cấu trúc có dạng hình cây, cây phân cấp này được xây dựng theo kỹ thuật đệ quy Có hai cách tiếp cận phổ biến của kỹ thuật này đó là: hòa nhập nhóm, thường được gọi là tiếp cận (Bottom-Up); phân chia nhóm, thường được gọi là tiếp cận (Top-Down)

Phương pháp “dưới lên” (Bottom up) : Phương pháp này bắt đầu với mỗi đối tượng được khởi tạo tương ứng với các cụm riêng biệt, sau đó tiến hành nhóm các

Trang 23

đối tượng theo một độ đo tương tự (như khoảng cách giữa hai trung tâm của hai nhóm), quá trình này được thực hiện cho đến khi tất cả các nhóm được hòa nhập vào một nhóm (mức cao nhất của cây phân cấp) hoặc cho đến khi các điều kiện kết thúc thỏa mãn Như vậy, cách tiếp cận này sử dụng chiến lược ăn tham trong quá trình phân cụm

Phương pháp “trên xuống” (Top Down) : Bắt đầu với trạng thái là tất cả các đối tượng được xếp trong cùng một cụm Mỗi vòng lặp thành công, một cụm được tách thành các cụm nhỏ hơn theo giá trị của một phép đo độ tương tự nào đó cho đến khi mỗi đối tượng là một cụm, hoặc cho đến khi điều kiện dừng thỏa mãn Cách tiếp cận này sử dụng chiến lược chia để trị trong quá trình phân cụm

Điển hình trong phương pháp tiếp cận theo phân cụm phân cấp là các thuật toán như : AGNES (Agglomerative Nesting), DIANA (Divisive Analysis), BIRCH (1996), CURE (1998), CHAMELEON (1999)

Thực tế áp dụng, có nhiều trường hợp kết hợp cả hai phương pháp phân cụm phân hoạch và phân cụm phân cấp, nghĩa là kết quả thu được của phương pháp phân cấp có thể cải tiến thông qua bước phân cụm phân hoạch Phân cụm phân hoạch và phân cụm phân cấp là hai phương pháp phân cụm dữ liệu cổ điển, hiện đã có rất nhiều thuật toán cải tiến dựa trên hai phương pháp này đã được áp dụng phổ biến trong khai phá dữ liệu

2.3.2 Các kỹ thuật phân cụm khác

Phân cụm dựa trên mật độ (Density-Based Methods): Kỹ thuật này nhóm các đối tượng dữ liệu dựa trên hàm mật độ xác định, mật độ là số các đối tượng lân cận của một đối tượng dữ liệu theo một nghĩa nào đó Trong cách tiếp cận này, khi một

dữ liệu đã xác định thì nó tiếp tục được phát triển thêm các đối tượng dữ liệu mới miễn là số các đối tượng lân cận này phải lớn hơn một ngưỡng đã được xác định trước Phương pháp phân cụm dựa trên mật độ của các đối tượng để xác định các cụm dữ liệu có thể phát hiện ra các cụm dữ liệu với hình thù bất kỳ Kỹ thuật này có thể khắc phục được các phần tử ngoại lai hoặc giá trị nhiễu rất tốt, tuy nhiên việc

Trang 24

xác định các tham số mật độ của thuật toán là rất khó khăn, trong khi các tham số này lại có tác động rất lớn đến kết quả phân cụm

Hình 2.1: Ví dụ về phân cụm theo mật độ[4]

Điển hình trong phương pháp tiếp cận theo phân cụm dựa trên mật độ là các thuật toán như : DBSCAN(KDD’96), DENCLUE (KDD’98), CLIQUE(SIGMOD’98)), OPTICS (SIGMOD’99) …

Phân cụm dựa trên lưới (Grid-Based Methods): Kỹ thuật phân cụm dựa trên lưới thích hợp với dữ liệu nhiều chiều, dựa trên cấu trúc dữ liệu lưới để phân cụm, phương pháp này chủ yếu tập trung áp dụng cho lớp dữ liệu không gian Mục tiêu của phương pháp này là lượng hóa dữ liệu thành các ô tạo thành cấu trúc dữ liệu

Trang 25

lưới Sau đó, các thao tác phân cụm chỉ cần l

trên lưới chứ không phải các đối t

không di chuyển các đối t

nhóm các đối tượng trong một ô Ph

phân cụm phân cấp nhưng chúng không tr

yêu cầu đối với dữ liệu nhiều chiều m

độ không giải quyết được

Ưu điểm của phương pháp phân c

độc lập với số đối tượng dữ liệu trong tập dữ liệu ban đầu, thay v

phụthuộc vào số ô trong mỗi chiều của không gian l

Phân cụm dựa trên mô hình (Model

cố gắng khám phá các phép xấp xỉ tốt của các tham số mô h

liệu một cách tốt nhất Chúng có thể sử dụng chiến l

phân cụm phân cấp, dựa tr

liệu và cách chúng hiệu chỉnh các mô h

ới Sau đó, các thao tác phân cụm chỉ cần làm việc với các đối tượng trong từng ô

ới chứ không phải các đối tượng dữ liệu Cách tiếp cận dựa tr

ển các đối tượng trong các ô mà xây dựng nhiều mức phân cấp củaợng trong một ô Phương pháp này gần giống với ph

ưng chúng không trộn các ô, đồng thời giải quyết khắc phục

ầu đối với dữ liệu nhiều chiều mà phương pháp phân phân cụm dựa tr

ợc

ương pháp phân cụm dựa trên lưới là thời gian xử lí nhanh vợng dữ liệu trong tập dữ liệu ban đầu, thay vào đó là chúng

ố ô trong mỗi chiều của không gian lưới

2.2: Cấu trúc phân cụm dựa trên lưới[4]

ình trong phương pháp tiếp cận theo phân cụm dựa tr

ư : STING (a STatistical INformation Grid approach) b

và Muntz (1997), WAVECLUSTER bởi Sheikholeslami, Chatterjee v

(1998), CLIQUE (Clustering In QUEst) bởi Agrawal, Gehrke, Gunopulos,

ên mô hình (Model-Based Clustering Methods)

ố gắng khám phá các phép xấp xỉ tốt của các tham số mô hình sao cho kh

ốt nhất Chúng có thể sử dụng chiến lược phân cụm phân hoạch hoặc

ụm phân cấp, dựa trên cấu trúc hoặc mô hình mà chúng giả định về tập dữ

ệu chỉnh các mô hình này để nhận dạng ra các phân hoạch

ợng trong từng ô ợng dữ liệu Cách tiếp cận dựa trên lưới này

ựng nhiều mức phân cấp của

ần giống với phương pháp

ộn các ô, đồng thời giải quyết khắc phục

ụm dựa trên mật

ời gian xử lí nhanh và

ào đó là chúng

ếp cận theo phân cụm dựa trên lưới là các

ư : STING (a STatistical INformation Grid approach) bởi Wang, Yang

ởi Sheikholeslami, Chatterjee và Zhang

ởi Agrawal, Gehrke, Gunopulos,

Based Clustering Methods): Phương này

ình sao cho khớp với dữ

ợc phân cụm phân hoạch hoặc

ả định về tập dữ

ể nhận dạng ra các phân hoạch

Trang 26

Hình 2.3

Phương pháp phân c

mô hình toán học, nó dựa tr

phối xác suất cơ bản Các thuật toán phân cụm dựa tr

triển của phân cụm dữ liệu không gian tr

công cụ tiện lợi cho việc phân tích thông tin địa lí, tuy nhi

này cung cấp rất ít cách thức cho ng

giới thực cần phải được thỏa m

không gian hiệu quả hơn, các nghiên c

cho người dùng khả năng kết hợp các r

3: Ví dụ về phân cụm dựa trên mô hình[4]

Phương pháp phân cụm dựa trên mô hình cố gắng khớp giữa các dữ liệu với

ọc, nó dựa trên giả định rằng dữ liệu được tạo ra bằng hỗn hợp phân

ản Các thuật toán phân cụm dựa trên mô hình có hai cách ti

ê và mạng nơron Phương pháp này gần giống với ph

ên mật độ, vì chúng phát triển các cụm riêng biệt nhằm cải tiến

ợc xác định trước đó, nhưng đôi khi nó không bắt đầ

ử dụng cùng một khái niệm mật độ cho các cụm

ình trong phương pháp tiếp cận theo phân cụm dựa trên mô hình là các

ư : EM, COBWEB, CLASSIT, AutoClass (Cheeseman and Stutz, 1996)

ụm có dữ liệu ràng buộc (Binding data Clustering Methods)

ển của phân cụm dữ liệu không gian trên cơ sở dữ liệu lớn đã cung c

ụ tiện lợi cho việc phân tích thông tin địa lí, tuy nhiên hầu hết các thuật toán

ấp rất ít cách thức cho người dùng để xác định các ràng bu

ợc thỏa mãn trong quá trình phân cụm Để phân cụm dữ liệu

ơn, các nghiên cứu bổ sung cần được thực hiện để cung cấp

ả năng kết hợp các ràng buộc trong thuật toán phân cụm

ố gắng khớp giữa các dữ liệu với

ư : EM, COBWEB, CLASSIT, AutoClass (Cheeseman and Stutz, 1996)

ộc (Binding data Clustering Methods): Sự phát

Trang 27

Hiện nay, các phương pháp phân c

dụng nhiều trong các lĩnh vực khác nhau v

phát triển trên cơ sở của các ph

- Phân cụm thống k

nghiên cứu này sử dụng các độ đo t

chúng chỉ áp dụng cho các dữ liệu có thuộc tính số

- Phân cụm khái niệm: Kỹ thuật n

hạng mục, chúng phân cụm các đối t

- Phân cụm mờ: Sử đụng kỹ thuật mờ để phân cụm dữ liệu Các thuật toán thuộc loại này chỉ ra lược đồ phân cụm thích hợp với tất cả các hoạt động đời sống hàng ngày, chúng chỉ xử lí các dữ liệu thực không

- Phân cụm mạng Kohonen: Loại phân cụm n

mạng nơron Mạng Kohonen có tầng n

của tầng vào tương ứng với mỗi thuộc tính của bản ghi, mỗi một n

với tất cả các nơron của tầng ra Mỗi li

xác định vị trí của nơron ra tương

Hình

ương pháp phân cụm trên đã và đang được phát triển vụng nhiều trong các lĩnh vực khác nhau và đã có một số nhánh nghi

ở của các phương pháp đó như:

ụm thống kê: Dựa trên các khái niệm phân tích hệ thống, nhánh

ử dụng các độ đo tương tự để phân hoạch các đối t

ỉ áp dụng cho các dữ liệu có thuộc tính số

ụm khái niệm: Kỹ thuật này được phát triển áp dụng cho dữ liệu

ụm các đối tượng theo các khái niệm mà chúng x

ụm mờ: Sử đụng kỹ thuật mờ để phân cụm dữ liệu Các thuật toán

ợc đồ phân cụm thích hợp với tất cả các hoạt động đời sống

ỉ xử lí các dữ liệu thực không chắc chắn

ụm mạng Kohonen: Loại phân cụm này dựa trên khái niạng Kohonen có tầng nơron vào và các tầng nơron ra Mứng với mỗi thuộc tính của bản ghi, mỗi một nơron vào k

ủa tầng ra Mỗi liên kết được gắn liền với một trọng số nhằm ơron ra tương ứng

Hình 2.4: Cách mà các cụm có thể đưa ra

ợc phát triển và áp

ột số nhánh nghiên cứu được

ệm phân tích hệ thống, nhánh

ự để phân hoạch các đối tượng, nhưng

ợc phát triển áp dụng cho dữ liệu

à chúng xử lí

ụm mờ: Sử đụng kỹ thuật mờ để phân cụm dữ liệu Các thuật toán

ợc đồ phân cụm thích hợp với tất cả các hoạt động đời sống

ên khái niệm của các ơron ra Mỗi nơron ơron vào kết nối

ợc gắn liền với một trọng số nhằm

Trang 28

2.3.3 Một số tiêu chuẩn đánh giá hiệu quả phân cụm

Một số tiêu chuẩn thường đề cập đến khi đánh giá hiệu quả phân cụm gồm [1]:

- Tính tuyến tính: Khả năng thuật toán có thể thực hiện tốt với khối lượng lớn dữ liệu

- Khả năng phân tích được nhiều loại dữ liệu khác nhau: có thể phân tích được một loại cũng như nhiều loại thuộc tính khác nhau

- Khả năng phát hiện được các lớp có hình dạng bất kỳ: hình dạng thường tương ứng với các loại lớp mà một thuât toán có thể tìm được Đây là điều quan trọng khi quyết định chọn một phương pháp để sử dụng vì thông thường chúng ta muốn thuật toán xử lý được càng tổng quát càng tốt Các thuật toán thường có định hướng trước là sẽ làm việc tốt đối với loại lớp có hình dáng đó Đặc biệt trong trường hợp các thuộc tính rời rạc thì chúng thường không biết được cấu trúc của các lớp đối tượng thuộc loại này

- Giảm thiểu yêu cầu về tham số đầu vào: Nhiều thuật toán yêu cầu một tham

số do người dùng xác định Việc tham số sẽ tạo khó khăn cho người sử dụng vì:

+ Có thể người dùng không đủ kiến thức để tìm ra tham số chính xác

+ Có thể không tồn tại tham số cho toàn bộ CSDL mà đối với mỗi phần của CSDL chúng ta cần có một tham số

- Khả năng làm việc được với dữ liệu nhiễu: Vấn đề dữ liệu “nhiễu” là khá phổ biến và thuật toán phân cụm phải có khả năng làm việc với loại dữ liệu này, phải xử lý được “độ lệch” để cải tiến chất lượng lớp

- Không phụ thuộc vào thứ tự của dữ liệu vào: Với cùng một loại dữ liệu, chạy với một thuật toán nhưng với thứ tự khác nhau có thể đưa ra những kết quả khác nhau Thứ tự dữ liệu vào ảnh hưởng rất lớn đến các loại thuật toán mà chỉ quét qua một lần tập dữ liệu

- Xử lý được với dữ liệu đa chiều: Số chiều lớn tức là số thuộc tính tập dữ liệu khá lớn gây ra nhiều khó khăn, có nhiều thuật toán không thể chạy với cả dữ liệu có

số chiều nhỏ (< 10) Đây là một thách thức với việc phân cụm có số chiều lớn

Trang 29

- Tính có thể hiểu được và khả năng sử dụng: đối với một số thuật toán khi thực hiện và so sánh với kết quả thực tế thì lại không phù hợp Do đó kết quả ứng dụng của kỹ thuật là vấn đề rất quan trọng của thuật toán

2.4 Một số thuật toán trong phân cụm dữ liệu

2.4.1 Các thuật toán phân cụm phân hoạch

Cho trước một cơ sở dữ liệu với n đối tượng hay các bộ dữ liệu, một phương pháp phân chia được xây dựng để chia dữ liệu thành k phần, mỗi phần đại diện cho một cụm k ≤ n

Đó là phân loại dữ liệu vào trong k nhóm, chúng thoả các yêu cầu sau :

- Mỗi nhóm phải chứa ít nhất một đối tượng

- Mỗi đối tượng phải thuộc về chính xác một nhóm (yêu cầu thứ 2 được nới lỏng trong kỹ thuật phân chia cụm mờ)

Có rất nhiều thuật toán phân hoạch như : means (MacQueen 1967), medoids (Kaufman và Rousseew 1987), PAM (Partition Around Medoids), CLARA (Clustering Large Applications), CLARANS (Clustering Large Applications based

k-on RAndomized Search), CLASA (Clustering Large Applicatik-ons based k-on Simulated Annealing)

a Thuật toán k-means

Đây là thuật toán rất quan trọng và được sử dụng phổ biến trong kỹ thuật phân cụm Tư tưởng chính của thuật toán k-means là tìm cách phân nhóm các đối tượng đã cho vào k cụm (k là số cụm được xác định trước, k nguyên dương) sao cho tổng bình phương khoảng cách từ các nhóm đến tâm cụm là nhỏ nhất

Trang 30

Thuật toán k-means được mô tả như sau:

Hình 2.5: Thuật toán k-means

Thuật toán k-means lấy tham số đầu vào là k và phân chia một tập n đối tượng vào trong k cụm để cho kết quả độ tương đồng trong cụm là cao trong khi độ tương đồng ngoài cụm là thấp Độ tương đồng cụm được đo khi đánh giá giá trị trung bình của các đối tượng trong cụm, nó có thể được quan sát như là “trọng tâm” của cụm Giải thuật xử lý như sau: trước tiên nó lựa chọn ngẫu nhiên k đối tượng, mỗi đối tượng đại diện cho một trung bình cụm hay tâm cụm Đối với những đối tượng còn lại, mỗi đối tượng sẽ được ấn định vào một cụm mà nó giống nhất dựa trên khoảng cách giữa đối tượng và trung bình cụm Sau đó sẽ tính lại trung bình cụm mới cho mỗi cụm Xử lý này sẽ được lặp lại cho tới khi hàm tiêu chuẩn hội tụ Bình phương sai số thường dùng làm hàm tiêu chuẩn hội tụ, định nghĩa như sau :

Kết thúc false

true

Trang 31

Với x là điểm trong không gian đại diện cho đối tượng cho trước, mi là trung bình cụm Ci (cả x và mi đều là đa chiều) Tiêu chuẩn này cố gắng cho kết quả k cụm càng đặc, càng riêng biệt càng tốt

Thuật toán k-means thực hiện các bước chính sau :

Đầu vào : Số cụm k và hàm E

∈Đầu ra : Các cụm C[i](1 ≤ i ≤ k) với hàm tiêu chuẩn E đạt giá trị tối thiểu Begin

Bước 1 : Khởi tạo

Chọn ngẫu nhiên k tâm m , ban đầu trong không gian Rd (d là sốchiều của dữ liệu) Mỗi cụm được đại diện bằng các tâm của cụm

Bước 2: Tính toán khoảng cách

Đối với mỗi điểm xi(1 ≤ i ≤ n), tính toán khoảng cách của nó tới mỗi trọng tâm mj(1 ≤ j ≤ k) Sau đó tìm trọng tâm gần nhất đối với mỗi điểm và nhóm chúng vào các nhóm gần nhất

Bước 3: Cập nhật lại trọng tâm

Đối với mỗi 1≤ j ≤ k, cập nhật trọng tâm cụm mj bằng cách xác định trung bình cộng các vectơ đối tượng dữ liệu

Bước 4: Gán lại các điểm gần trung tâm nhóm mới

Nhóm các đối tượng vào nhóm gần nhất dựa trên trọng tâm của nhóm

Bước 5: Điều kiện dừng:

Lặp lại các bước 2 và 3 cho đến khi các trọng tâm của cụm không thay đổi End

Trang 32

Thuật toán k-means được chứng minh là hội tụ và có độ phức tạp tính toán là O(tkn) với t là số lần lặp, k là số cụm, n là số đối tượng của tập dữ liệu vào Thông thường k<<n và t<<n thường kết thúc tại một điểm tối ưu cục bộ

Tuy nhiên, nhược điểm của k-means là còn rất nhạy cảm với nhiễu và các phần tử ngoại lai trong dữ liệu Hơn nữa, chất lượng phân cụm dữ liệu của thuật toán k-means phụ thuộc nhiều vào các tham số đầu vào như: số cụm k và k trọng tâm khởi tạo ban đầu Trong trường hợp các trọng tâm khởi tạo ban đầu mà quá lệch

so với các trọng tâm cụm tự nhiên thì kết quả phân cụm của k-means là rất thấp, nghĩa là các cụm dữ liệu được khám phá rất lệch so với các cụm trong thực tế Trên thực tế chưa có một giải pháp tối ưu nào để chọn các tham số đầu vào, giải pháp thường được sử dụng nhất là thử nghiệm với các giá trị đầu vào k khác nhau rồi sau

đó chọn giải pháp tốt nhất

Đánh giá thuật toán K-Means

 Ưu điểm :

- k-means là có độ phức tạp tính toán O(tkn)

- k-means phân tích phân cụm đơn giản nên có thể áp dụng đối với tập

b Thuật toán PAM

Giải thuật k-means rất nhạy với các phần tử ngoại lai, do vậy một đối tượng giá trị cực lớn về cơ bản sẽ làm thay đổi tâm cụm và có thể bóp méo phân bố của dữ liệu

Trang 33

Hình 2.6: Sự thay đổi tâm cụm trong k-means khi có phần tử ngoại lai

Ý tưởng của k-medodis thay vì lấy giá trị trung bình của các đối tượng trong cụm như một điểm tham khảo, k-medoids lấy một đối tượng đại diện trong cụm, gọi

là medoid, nó là điểm đại diện được định vị trung tâm nhất trong cụm Do vậy, phương pháp phân chia vẫn được thực hiện dựa trên nguyên tắc tối thiểu hoá tổng các độ không tương động giữa mỗi đối tượng với điểm tham khảo tương ứng của

nó, điểm này thiết lập nên cơ sở của phương pháp k-mediods

Giải thuật PAM, đây là giải thuật phân cụm kiểu k-mediods Nó tìm k cụm trong n đối tượng bằng cách trước tiên tìm một số đối tượng đại diện (medoid) cho mỗi cụm Tập các medoid ban đầu được lựa chọn tuỳ ý Sau đó nó lặp lại các thay một trong số các medoid bằng một trong số những cái không phải medoid miễn là tổng khoảng cách của kết quả phân cụm được cải thiện

Giải thuật thử xác định k phần phân chia cho n đối tượng sau khi lựa chọn được k-medoids ban đầu, giải thuật lặp lại việc thử để có một sự lựa chọn các medoid tốt hơn bằng cách phân tích tất cả các cặp đối tượng có thể để một đối tượng là medoid và đối tượng kia thì không phải Phép đo chất lượng phân cụm được tính cho mỗi sự kết hợp như vậy Lựa chọn các điểm tốt nhất trong một lần lặp được chọn với tư cách là các medoid cho lần lặp tiếp theo Độ phức tạp cho một lần lặp đơn là O(k(n - k)2), với độ phức tạp như trên không thích hợp cho phân cụm dữ liệu có số lượng n lớn và số cụm cần chia là nhiều

Thuật toán PAM bao gồm các bước cơ bản sau :

Đầu vào : Số cụm k và một cơ sở dữ liệu chứa n đối tượng

Trang 34

Đầu ra : Một tập k cụm đã tối thiểu hoá tổng các độ đo không tương đồng của tất cả các đối tượng tới medoid gần nhất của chúng

Bắt đầu

1 Chọn tuỳ ý k đối tượng giữ vai trò là các medoid ban đầu;

2 Repeat

3 Ấn định mỗi đối tượng vào cụm có medoid gần nó nhất;

4 Tính hàm mục tiêu (tổng các độ đo tương đồng của tất cả các đối tượng tới medoid gần nhất của chúng);

5 Đổi medoid x bằng một đối tượng y nếu như việc thay đổi này làm giảm hàm mục tiêu;

6 Until : không có sự thay đổi nào

Kết thúc

Khi có sự hiện diện của nhiễu và các phần tử ngoại lai, phương pháp medoids mạnh hơn k-means bởi so với giá trị trung bình (mean), medoid ít bị ảnh hưởng hơn bởi các phần tử ngoại lai hay các giá trị ở rất xa khác nữa Tuy nhiên, xử

m-lý nó tốn thời gian hơn so với k-means

c Thuật toán CLARA

Thuật toán PAM làm việc hiệu quả đối với các tập dữ liệu nhỏ nhưng không

có khả năng mở rộng tốt đối với các tập dữ liệu lớn, trong trường hợp giá trị k và n

là lớn Để giải quyết các dữ liệu lớn, một phương pháp dựa trên việc lấy mẫu gọi là CLARA (Clustering large applications ) được phát triển bởi Kaufman và Rousseeuw năm 1990

Ý tưởng của CLARA như sau : thay vì lấy toàn bộ dữ liệu vào xem xét, chỉ một phần nhỏ dữ liệu được chọn với vai trò là một đại diện của dữ liệu, và các medoid được chọn từ mẫu này bằng cách sử dụng PAM Nếu như mẫu được chọn lựa khá ngẫu nhiên, nó đại diện phù hợp cho toàn bộ tập dữ liệu và các đối tượng đại diện (các medoid) được chọn do vậy sẽ giống với những cái được chọn lựa từ toàn bộ tập dữ liệu CLARA đưa ra nhiều mẫu của tập dữ liệu, áp dụng PAM trên từng mẫu và mang lại phân cụm tốt cho đầu ra Đúng như trông chờ, CLARA có thể

Trang 35

giải quyết với các tập dữ liệu lớn hơn PAM Độ phức tạp của mỗi lần lặp bây giờ trở thành O(kS2+k(n – k)) với S là kích thước mẫu, k là số cụm, n là tổng số các phần tử

Hiệu quả của CLARA tuỳ thuộc vào kích thước mẫu Lưu ý rằng PAM tìm kiếm cho k medoids tốt nhất giữa một tập dữ liệu cho trước, trong khi đó CLARA tìm kiếm cho k medoids tốt nhất giữa các mẫu đã lựa chọn của tập dữ liệu CLARA không thể tìm được phân cụm tốt nhất nếu như bất kỳ một medoid được lấy mẫu không nằm trong k medoids tốt nhất

Ví dụ, nếu một đối tượng Oi là một trong k medoids tốt nhất nhưng nó không được chọn trong suốt quá trình lấy mẫu, CLARA sẽ không bao giờ tìm thấy phân cụm tốt nhất Một phân cụm tốt dựa trên các mẫu chưa chắc đã địa diện cho một phân cụm tốt cho toàn bộ dữ liệu nếu mẫu bị lệch (bias)

d Thuật toán CLARANS

Để cải thiện chất lượng và khả năng mở rộng của CLARA, một giải thuật phân cụm khác gọi là CLARANS (Clustering Large Applications based upon RANdomized Search) giới thiệu bởi Ng và Han năm 1994 Nó cũng là một giải thuật kiểu k-medoids và kết hợp kỹ thuật lấy mẫu với PAM Tuy vậy, không giống như CLARA, CLARANS không hạn chế bản thân nó cho bất kỳ một mẫu nào tại bất kỳ thời điểm nào cho trước Trong khi đó CLARA lại có một mẫu được ấn định tại mọi giai đoạn tìm kiếm, CLARANS đưa ra một mẫu một cách ngẫu nhiên trong mỗi bước tìm kiếm Xử lý phân cụm được thực hiện như tìm kiếm một đồ thị tại mọi nút là giải pháp tiềm năng, tức là một tập k-medoids Phân cụm có được sau khi thay thế một medoid được gọi là láng giềng của phân cụm hiện thời Số lượng các láng giềng được thử ngẫu nhiên bị hạn chế bởi một tham số Nếu như một láng giềng tốt hơn được tìm thấy CLARANS di chuyển tới láng giềng đó và bắt đầu xử

lý lại; ngược lại, phân cụm hiện thời đưa ra một tối ưu cục bộ Nếu như tối ưu cục

bộ được tìm thấy, CLARANS bắt đầu với các nút được lựa chọn ngẫu nhiên mới để tìm kiếm một tối ưu cục bộ mới Bằng thực nghiệm, CLARANS đã chỉ ra là hiệu quả hơn PAM và CLARA Độ phức tạp tính toán của mỗi lần lặp trong CLARANS

Định dạng
Số trang	70
Dung lượng	1,8 MB