Kỹ thuật phân cụm dữ liệu không gian có ràng buộc

Khai phá dữ liệu với GIS hay còn gọi là khai phá dữ liệu không gian, mở rộng khai phá dữ liệu trong các CSDL quan hệ, xét thêm các thuộc tính của dữ liệu không gian được phản ánh trong h

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

CHU THỊ HẢO

KỸ THUẬT PHÂN CỤM DỮ LIỆU

KHÔNG GIAN CÓ RÀNG BUỘC

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

THÁI NGUYÊN, 2017

Trang 2

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

CHU THỊ HẢO

KỸ THUẬT PHÂN CỤM DỮ LIỆU

KHÔNG GIAN CÓ RÀNG BUỘC

Chuyên ngành: Khoa học máy tính

Mã số: 60 48 01 01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Người hướng dẫn khoa học: PGS.TS ĐẶNG VĂN ĐỨC

THÁI NGUYÊN, 2017

Trang 3

MỤC LỤC

MỞ ĐẦU 1

Chương 1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ DỮ LIỆU KHÔNG GIAN 4

1.1 Khai phá dữ liệu 4

1.1.1 Một số khái niệm 4

1.1.2 Quá trình khai phá dữ liệu 4

1.1.3 Các kỹ thuật khai phá dữ liệu 7

1.2 Dữ liệu không gian địa lý 9

1.3 Hệ thống thông tin địa lý và ứng dụng 10

1.3.1 Một số định nghĩa về hệ thông tin địa lý 11

1.3.2 Mô hình biểu diễn dữ liệu địa lý không gian 14

1.3.3 Quan hệ không gian giữa các đối tượng địa lý 20

1.4 Khái niệm và mục tiêu của Phân cụm dữ liệu 20

1.5 Kết luận 23

Chương 2 MỘT SỐ KỸ THUẬT PHÂN CỤM DỮ LIỆU KHÔNG GIAN 24

2.1 Phương pháp phân cụm theo phân hoạch 24

2.2 Phương pháp phân cụm dựa trên mật độ 26

2.3 Phương pháp phân cụm dựa trên lưới 32

2.4 Phương pháp phân cụm dữ liệu ràng buộc 35

2.4.1 Thuật toán phân cụm dữ liệu không gian 37

2.4.2 Thuật toán 45

2.5 Kết luận 48

Chương 3 CÀI ĐẶT VÀ THỬ NGHIỆM 49

3.1 Phân tích bài toán 49

3.1.1 Nguồn dữ liệu đầu vào và phạm vi bài toán 49

3.1.2 Phương pháp kỹ thuật giải quyết bài toán 50

Trang 4

3.2 Xây dựng chương trình ứng dụng 51

3.2.1 Phân tích thiết kế hệ thống 51

3.2.2 Cài đặt chương trình 52

3.3 Thử nghiệm và đánh giá các thuật toán phân cụm 54

KẾT LUẬN VÀ KIẾN NGHỊ 61

TÀI LIỆU THAM KHẢO 62

Trang 6

DANH MỤC CÁC HÌNH

Hình 1.1: Khai phá dữ liệu trong tập dữ liệu 4

Hình 1.2: Tiến trình khám phá tri thức từ cơ sở dữ liệu 5

Hình 1.3: Kiến trúc điển hình của một hệ khai phá dữ liệu 6

Hình 1.4 Ví dụ biểu diễn vị trí trước bị ô nhiễm 13

Hình 1.5 Ví dụ biểu diễn đường xác định bởi ranh giới các đường, có điểm đầu trùng với điểm cuối 13

Hình 1.6: Ví dụ biểu diễn khu vực hành chính 14

Hình 1.7: Biểu diễn vector của đối tượng địa lý 18

Hình 1.8: Biểu diễn thế giới bằng mô hình raster 19

Hình 1.9: Mô tả tập dữ liệu được phân thành 3 cụm 21

Hình 2.1: Minh họa thuật toán k-means 25

Hình 2.2: Kề mật độ 27

Hình 2.3: Kết nối theo mật độ 27

Hình 2.4: Hình dạng các cụm được khám phá bởi thuật toán DBSCAN 28

Hình 2.5: Cấu trúc phân cấp 32

Hình 2.3: Các cách mà các cụm có thể đưa ra 36

Hình 2.6: Phân cụm các đối tượng dữ liệu ràng buộc 37

Hình 2.7: Phân cụm các đối tượng dữ liệu ràng buộc 40

Hình 2.8: Các đa giác đơn giản và tạo ra các đường cản trở 44

Hình 2.9: Thuật toán 1: phân cụm có các ràng buộc 47

Hình 2.10: Thuật toán 2: Mở rộng một cụm 47

Hình 2.11: Tìm các điểm láng giềng 47

Hình 3.1: Phân cu ̣m lớp dữ liê ̣u "Khách sa ̣n-Trường học trong nô ̣i thành Hà Nô ̣i, các vùng màu vàng là các cu ̣m tìm được 53

Trang 7

Hình 3.2: Hình ảnh chồng phủ (vùng màu vàng) của các cụm “Siêu thị”

(màu xanh) và các cu ̣m “Khách sa ̣n- Trường học” (màu đỏ) Vùng màu vàng có thể coi là vị trí tối ưu cho việc đặt địa điểm Nhà hàng 53 Hình 3.3: Kết quả phân cụm DBSCAN đối với dữ liệu thử nghiệm tự tạo 54 Hình 3.4: Khả năng phát hiện nhiễu và cụm có hình dạng bất kỳ của K-

means (trái) và DBSCAN (phải), đường bao màu xanh là đường biên cụm 55 Hình 3.5: Khả năng phân cụm theo thuộc tính của DBSCAN (trái) và

DBRS (phải) 55 Hình 3.5: Đồ thị so thời gian thực hiện phân cụm của các thuật toán K-

measn, DBSCAN và DBRS với cùng một tập dữ liệu đầu vào 57 Hình 3.6: Phân cụm tập dữ liệu DS1 59 Hình 3.7: Phân cụm DS2 60

Trang 8

MỞ ĐẦU

Hệ thống thông tin địa lý (GIS) được ứng dụng ngày càng phổ biến, không chỉ trong lĩnh vực giám sát, quản lý, lập kế hoạch về tài nguyên môi trường mà còn trong nhiều bài toán kinh tế xã hội khác Kết quả là, khối lượng dữ liệu liên quan đến địa lý, còn gọi là dữ liệu không gian thu thập được tăng lên nhanh chóng Một câu hỏi đặt ra là làm thế nào để tận dụng, khai thác, khám phá, phát hiện những tri thức hữu ích từ kho dữ liệu này?

Khai phá dữ liệu là áp dụng các kỹ thuật và công cụ để trích rút các tri thức có ích từ nguồn dữ liệu về một lĩnh vực nào đó mà ta quan tâm Khai phá

dữ liệu với GIS hay còn gọi là khai phá dữ liệu không gian, mở rộng khai phá

dữ liệu trong các CSDL quan hệ, xét thêm các thuộc tính của dữ liệu không gian được phản ánh trong hệ thông tin địa lý, ví dụ khoảng cách (gần kề hay cách xa), điều kiện môi trường tự nhiên hay kinh tế xã hội (rừng núi, đồng bằng, ven biển, đô thị, v.v…)

Các bài toán truyền thống của một hệ thông tin địa lý có thể trả lời các câu hỏi kiểu như:

- Những con phố nào dẫn đến sân bay Tân Sân Nhất ?

- Những căn nhà nào nằm trong vùng quy hoạch mở rộng phố?

Khai phá dữ liệu không gian có thể giúp trả lời cho các câu hỏi dạng:

- Xu hướng của các dòng chảy, các đứt gãy địa tầng ?

- Nên bố trí các trạm tiếp sóng điện thoại di động như thế nào?

- Những vị trí nào là tối ưu để đặt các máy ATM, xăng dầu, nhà hàng,…? Một trong những bài toán liên quan đến dữ liệu không gian, cụ thể là

dữ liệu địa lý có ý nghĩa thực tế cao là bài toán xác định vị trí tối ưu cho việc đặt các cây xăng Cả nước hiện có 374 tổng đại lý và hơn 14.000 cửa hàng bản lẻ xăng dầu Để xác định được vị trí đặt các trạm bán lẻ xăng dầu cần

Trang 9

phải tuân theo các quy định của Bộ Công thương, nhất là các quy định về an toàn, phòng chống cháy nổ Ngoài ra, cây xăng cũng phải đặt ở vị trí thuận lợi cho việc kinh doanh đạt doanh số cao Hoặc một bài toán khác cũng có ý nghĩa thực tiễn rất lớn đó là xác định vị trí tối ưu để mở một nhà hàng Hiện nay trên địa bàn thành phố Hà Nội cũng đã có rất nhiều nhà hàng, quán ăn

đã được mở ra Nhưng không phải tất cả các nhà hàng, quán ăn đó đều có thể cho doanh thu tốt Có khi có nhà hàng mới mở ra được một thời gian ngắn đã phải đóng cửa vì không có khách dẫn đến chủ đầu tư phải chịu thua

lỗ nặng Một trong những nguyên nhân chính dẫn đến thất bại đó là địa điểm kinh doanh chưa hợp lý Một vị trí tối ưu cho việc mở nhà hàng, quán ăn thì

vị trí đó phải thỏa mãn một số yếu tố sau: nằm trong khu vực đông dân cư, gần nhiều cơ quan công sở hay trường học, có khu vực để xe, có quang cảnh xung quanh thoáng mát các vấn đề này đã được rất nhiều các đề tài nghiên cứu tuy nhiên với những vị trí phức tạp có các ngăn cách con sông hay cây cầu v.v… thì cần phải có những đánh giá chính xác hơn nữa

Xuất phát từ nhu cầu thực tế đó và do đặc thù, khả năng ứng dụng rất phong phú của kỹ thuật phân cụm dữ liệu trong không gian nên em đã chọn nghiên cứu đề tài kỹ thuật phân cụm dữ liệu không gian có ràng buộc làm luận văn tốt nghiệp cao học

Trên cơ sở đó cài đặt thử nghiệm một ứng dụng sử dụng kỹ thuật phân cụm dữ liệu không gian, trong đó khai thác thông tin địa lý của các đối tượng

để hỗ trợ giải quyết bài toán ví dụ như tìm vị trí tối ưu đặt nhà hàng

Luận văn được chia thành các chương mục sau

- Chương 1: Tổng quan về khai phá dữ liệu và dữ liệu không gian

- Chương 2: Một số kỹ thuật phân cụm dữ liệu không gian

- Chương 3: Xây dựng chương trình thử nghiệm, kết luận, đánh giá

Trang 10

Luận văn này được hoàn thành dưới sự hướng dẫn tận tình của PGS.TS Đặng Văn Đức, em xin bày tỏ lòng biết ơn chân thành của mình đối với thầy

Em xin chân thành cảm ơn các thầy, cô giáo Viện Công nghệ thông tin,

Trường Đại học Công nghệ thông tin và Truyền thông - Đại học Thái Nguyên đã tham gia giảng dạy, giúp đỡ em trong suốt qúa trình học tập nâng cao trình độ kiến thức Tuy nhiên vì điều kiện thời gian và khả năng có hạn nên luận văn không thể tránh khỏi những thiếu sót Em kính mong các thầy cô giáo và các bạn đóng góp ý kiến để đề tài được hoàn thiện hơn

Trang 11

Chương 1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ DỮ LIỆU KHÔNG GIAN

1.1 Khai phá dữ liệu

1.1.1 Một số khái niệm

Khai phá dữ liệu được dùng để mô tả quá trình phát hiện ra tri thức trong CSDL Khai phá dữ liệu làm giảm chi phí về thời gian so với phương pháp truyền thống trước kia (ví dụ như phương pháp thống kê)

Hình 1.1 minh họa đơn giản và trực quan cho khái niệm này

Hình 1.1: Khai phá dữ liệu trong tập dữ liệu [5]

Khám phá tri thức trong CSDL là lĩnh vực liên quan đến nhiều ngành như:

Tổ chức dữ liệu, xác suất, thống kê, lý thuyết thông tin, học máy, CSDL, thuật toán, trí tuệ nhân tạo, tính toán song song và hiệu năng cao Các kỹ thuật chính

áp dụng trong khám phá tri thức phần lớn được thừa kế từ các ngành này

1.1.2 Quá trình khai phá dữ liệu

Một số nhà khoa học xem khai phá dữ liệu là một cách gọi khác của một thuật ngữ rất thông dụng: Khám phá tri thức từ cơ sở dữ liệu (Knowledge Discovery in Database- KDD) Mặt khác, khi chia các bước trong quá trình khám phá tri thức, một số nhà nghiên cứu lại cho rằng, KPDL chỉ là một bước trong quá trình khám phá tri thức [5]

Trang 12

Như vậy, khi xét ở mức tổng quan thì hai thuật ngữ này là tương đương nhau, nhưng khi xét cụ thể thì KPDL được xem là một bước trong quá trình khám phá tri thức

Nhìn chung, khai phá dữ liệu hay khám phá tri thức từ cơ sở dữ liệu bao gồm các bước sau [4]:

Hình 1.2: Tiến trình khám phá tri thức từ cơ sở dữ liệu

Trích chọn dữ liệu: Là quá trình trích lọc một lượng dữ liệu phù hợp, cần thiết từ tập dữ liệu lớn (cơ sở dữ liệu tác nghiệp, kho dữ liệu)…

Tiền xử lý dữ liệu: Là bước làm sạch dữ liệu (xử lý dữ liệu không đầy

đủ, dữ liệu nhiễu, ngoại lai, dữ liệu không nhất quán…), rút gọn dữ liệu (lấy mẫu dữ liệu, lượng tử hóa…), rời rạc hóa dữ liệu Kết quả sau bước này là dữ liệu có tính nhất quán, đầy đủ, được rút gọn và được rời rạc hóa

Chuyển đổi dữ liệu: Là bước chuẩn hóa khuôn dạng và làm mịn dữ liệu, nhằm đưa dữ liệu về dạng thuận lợi nhất để phục vụ cho việc áp dụng các giải thuật khai phá dữ liệu ở bước sau

Khai phá dữ liệu: Sử dụng các phương pháp, kỹ thuật, các thuật toán để trích lọc ra mẫu có ý nghĩa cùng với các tri thức, quy luật, biểu thức mô tả mối quan hệ của dữ liệu trong một khía cạnh nào đó Đây là bước quan trọng

và tốn nhiều thời gian nhất của toàn bộ tiến trình KDD

Trang 13

Đánh giá và biểu diễn tri thức: Trình bày các tri thức, quy luật, biểu thức

có ý nghĩa đã tìm được ở bước trước dưới các dạng thức gần gũi, dễ hiểu đối với người sử dụng như đồ thị, biểu đồ, cây, bảng biểu, luật…Đồng thời đưa ra những đánh giá về tri thức khám phá được theo những tiêu chí nhất định

Trong giai đoạn khai phá dữ liệu, có thể cần sự tương tác của con người

để điều chỉnh cách thức và kỹ thuật sử dụng trong khai phá, nhằm thu được tri thức phù hợp nhất

Dựa trên các bước của quá trình khai phá dữ liệu như trên, kiến trúc điển hình của một hệ khai phá dữ liệu có thể bao gồm các thành phần như sau:

Hình 1.3: Kiến trúc điển hình của một hệ khai phá dữ liệu

Trang 14

1.1.3 Các kỹ thuật khai phá dữ liệu

Trong thực tế có nhiều kỹ thuật khai phá dữ liệu khác nhau nhằm thực hiện hai chức năng mô tả và dự đoán

Kỹ thuật khai phá dữ liệu mô tả: có nhiệm vụ mô tả các tính chất hoặc các đặc tính chung của dữ liệu trong CSDL hiện có Một số kỹ thuật khai phá trong nhóm này là: phân cụm dữ liệu (Clustering), tổng hợp (Summarisation), trực quan hoá (Visualization), phân tích sự tiến hóa (Evolution and deviation analyst),…

Kỹ thuật khai phá dữ liệu dự đoán: có nhiệm vụ đưa ra các dự đoán dựa vào các suy diễn trên cơ sở dữ liệu hiện thời Một số kỹ thuật khai phá trong nhóm này là: phân lớp (Classification), hồi quy (Regression), cây quyết định (Decision tree), thống kê (statictics), mạng nơron (neural network), luật kết hợp,…

Một số kỹ thuật phổ biến [1],[3],[5] thường được sử dụng để khai phá

dữ liệu hiện nay là:

1.1.3.1 Phân lớp dữ liệu

Mục tiêu của phân lớp dữ liệu đó là dự đoán nhãn lớp cho các mẫu dữ liệu Quá trình gồm hai bước: xây dựng mô hình, sử dụng mô hình để phân lớp dữ liệu (mỗi mẫu 1 lớp) Mô hình được sử dụng để dự đoán nhãn lớp khi

mà độ chính xác của mô hình chấp nhận được

1.1.3.2 Phân cụm dữ liệu

Mục tiêu của phân cụm dữ liệu là nhóm các đối tượng tương tự nhau trong tập dữ liệu vào các cụm, sao cho các đối tượng thuộc cùng một cụm là tương đồng

Trong luận này tác giả đã sử dụng kỹ thuật phân cụm và thuật toán DBSCAN DBCLUC tìm vị trí thích hợp để đặt nhà hàng Vì vậy kỹ thuật này và các thuật toán có liên quan sẽ được trình bày trong chương II

Trang 15

1.1.3.3 Khai phá luật kết hợp

Mục tiêu của phương pháp này là phát hiện và đưa ra các mối liên hệ giữa các giá trị dữ liệu trong cơ sở dữ liệu Đầu ra của giải thuật luật kết hợp là tập luật kết hợp tìm được Phương pháp khai phá luật kết hợp gồm

1.1.3.5 Mạng nơ-ron (neural network)

Đây là một trong những kỹ thuật KPDL được ứng dụng phổ biến hiện nay Kỹ thuật này phát triển dựa trên một nền tảng toán học vững vàng, khả năng huấn luyện trong kỹ thuật này dựa trên mô hình thần kinh trung ương của con người

Kết quả mà mạng nơ-ron học được có khả năng tạo ra các mô hình dự báo, dự đoán với độ chính xác và độ tin cậy cao Nó có khả năng phát hiện ra được các xu hướng phức tạp mà kỹ thuật thông thường khác khó có thể phát hiện ra được Tuy nhiên phương pháp neural network rất phức tạp và quá trình tiến hành nó gặp rất nhiều khó khăn: đòi hỏi mất nhiều thời gian, nhiều DL, nhiều lần kiểm tra thử nghiệm

1.1.3.6 Cây quyết định

Kỹ thuật cây quyết định là một công cụ mạnh và hiệu quả trong việc phân lớp và dự báo Các đối tượng DL được phân thành các lớp Các giá trị của đối tượng DL chưa biết sẽ được dự đoán, dự báo Tri thức được rút ra

Trang 16

trong kỹ thuật này thường được mô tả dưới dạng tường minh, đơn giản, trực quan, dễ hiểu đối với người sử dụng Trong những năm qua, nhiều mô hình phân lớp DL đã được các nhà khoa học trong nhiều lĩnh vực khác nhau đề xuất, nhưng kỹ thuật cây quyết định với những ưu điểm của mình được đánh giá là một công cụ mạnh, phổ biến và đặc biệt thích hợp cho DM nói chung

và phân lớp dữ liệu nói riêng

1.2 Dữ liệu không gian địa lý

Khái niệm

- Đối tượng địa lý: Trên bản đồ, các đối tượng như trạm xe bus, bến tàu, trạm xăng là các thực thể dữ liệu quản lý, còn được gọi là đối tượng địa lý Một trạm xăng trên bản đồ là một thể hiện cụ thể của đối tượng địa lý trạm xăng

- Dữ liệu địa lý và cơ sở dữ liệu địa lý: Dữ liệu địa lý là thông tin về các đối tượng địa lý được mã hóa trong máy tính Cơ sở dữ liệu địa lý là một tập hợp các

dữ liệu địa lý có chuẩn cấu trúc được lưu trữ trên máy tính và các thiết bị lưu trữ thông tin khác, có thể thỏa mãn yêu cầu khai thác thông tin đồng thời của nhiều người sử dụng hay nhiều chương trình ứng dụng với nhiều mục đích khác nhau

- Dữ liệu không gian và dữ liệu phi không gian: Một đối tượng địa lý chứa các thông tin dữ liệu không gian và dữ liệu phi không gian

+ Dữ liệu không gian: Dữ liệu không gian được sử dụng theo nghĩa rộng bao gồm các điểm đa chiều, các đường thẳng, hình khối, và các đối tượng hình học nói chung Mỗi đối tượng này chiếm một vùng không gian được đặc trưng bởi hai thuộc tính vị trí và biên Trong luận văn, khái niệm dữ liệu không gian được hiểu đơn giản hơn, dữ liệu không gian mô tả các đối tượng địa lý được thể hiện dưới dạng hình học, được quản lý bằng hình thể và được biểu diễn dưới ba dạng đối tượng cơ bản là điểm, đường, vùng

+ Dữ liệu phi không gian: Một đối tượng địa lý ngoài các thuộc tính không gian còn có các thông tin thuộc tính khác Ví dụ con đường có thể có

Trang 17

các thông tin như tên đường, độ rộng, chất liệu làm đường, đơn vị quản lý, thời gian đưa vào sử dụng, Các thuộc tính này gọi là các thông tin thuộc tính phi không gian (dữ liệu phi không gian) Dữ liệu phi không gian đôi khi gọi tắt là dữ liệu thuộc tính

- Hệ thống GIS: Khi đề cập đến dữ liệu địa lý, hệ thống thông tin địa lý (Geographic Information System - gọi tắt là GIS) thường được nhắc đến bởi GIS sử dụng dữ liệu địa lý GIS được hình thành vào những năm 1960 và phát triển mạnh trong 10 năm lại đây Xét dưới góc độ hệ thống, GIS có thể được hiểu như một hệ thống gồm các thành phần: phần cứng, phần mềm, dữ liệu và con người (người dùng và các quy định, chính sách liên quan đến duy trì, phát triển hệ thống)

Một cách đơn giản, có thể hiểu GIS như một sự kết hợp giữa bản đồ (map) và cơ sở dữ liệu (database)

GIS = Bản đồ + Cơ sở dữ liệu Bản đồ trong GIS là một công cụ hữu ích cho phép chỉ ra vị trí của từng địa điểm Với sự kết hợp giữa bản đồ và cơ sở dữ liệu, người dùng có thể xem thông tin chi tiết về từng đối tượng/thành phần tương ứng với địa điểm trên bản đồ thông qua các dữ liệu đã được lưu trữ trong cơ sở dữ liệu Ví dụ, khi xem bản đồ về các thành phố, người dùng có thể chọn một thành phố để xem thông tin về thành phố đó như diện tích, số dân, thu nhập bình quân, số quận/huyện của thành phố,

1.3 Hệ thống thông tin địa lý và ứng dụng

Khái niệm Địa lý (Geography) đề cập lĩnh vực nghiên cứu mô tả Trái đất (Geo-Earth) Ngày nay, khái niệm này và khái niệm Không gian (Space) được sử dụng thay thế nhau trong một số trường hợp Tuy nhiên, về mặt bản chất thì Địa lý là tập các mô tả về không gian (hai chiều), khí quyển (ba chiều), … của Trái đất Còn không gian cho phép mô tả bất kỳ cấu trúc đa chiều nào, không quan tâm đến vị trí địa lý của nó Như vậy có thể coi Địa lý như là một phần cấu trúc nhỏ trong tập cấu trúc Không gian

Trang 18

Khi mô tả Trái đất, các nhà địa lý luôn đề cập đến quan hệ không gian (spatial relationship) của các đối tượng trong thế giới thực Mối quan hệ này được thể hiện thông qua các bản đồ (map) trong đó biểu diễn đồ họa của tập các đặc trưng trừu tượng và quan hệ không gian tương ứng trên bề mặt trái đất, ví dụ: bản đồ dân số biểu diễn dân số tại từng vùng địa lý

Dữ liệu bản đồ còn là loại dữ liệu có thể được số hóa Để lưu trữ và phân tích các số liệu thu thập được, cần có sự trợ giúp của hệ thông tin địa lý (Geographic Information System-GIS)

1.3.1 Một số định nghĩa về hệ thông tin địa lý

Có nhiều cách diễn giải khác nhau cho từ viết tắt GIS, tuy nhiên các cách diễn giải đó đều mô tả việc nghiên cứu các thông tin địa lý và các khía cạnh khác liên quan

GIS cũng giống như các hệ thống thông tin khác, có khả năng nhập, tìm kiếm và quản lý các dữ liệu lưu trữ, để từ đó đưa ra các thông tin cần thiết cho người sử dụng Ngoài ra, GIS còn cho phép lập bản đồ với sự trợ giúp của máy tính, giúp cho việc biểu diễn dữ liệu bản đồ tốt hơn so với cách truyền thống Dưới đây là một số định nghĩa GIS hay dùng [1]:

Định nghĩa của dự án The Geographer's Craft, Khoa Địa lý, Trường Đại học Texas: GIS là cơ sở dữ liệu số chuyên dụng trong đó hệ trục tọa độ không gian là phương tiện tham chiếu chính GIS bao gồm các công cụ để thực hiện những công việc sau:

- Nhập dữ liệu từ bản đồ giấy, ảnh vệ tinh, ảnh máy bay, số liệu điều tra

và các nguồn khác

- Lưu trữ dữ liệu, khai thác, truy vấn cơ sở dữ liệu

- Biến đổi dữ liệu, phân tích, mô hình hóa, bao gồm cả dữ liệu thống kê

và dữ liệu không gian

- Lập báo cáo, bao gồm bản đồ chuyên đề, bảng biểu, biểu đồ và kế hoạch

Từ định nghĩa trên, ta thấy: Thứ nhất, GIS có quan hệ với ứng dụng cơ

sở dữ liệu Thông tin trong GIS đều liên kết với tham chiếu không gian và GIS sử dụng tham chiếu không gian như phương tiện chính để lưu trữ và truy nhập thông tin Thứ hai, GIS là công nghệ tích hợp, cung cấp các khả năng

Trang 19

phân tích như phân tích ảnh máy bay, ảnh vệ tinh hay tạo lập mô hình thống

kê, vẽ bản đồ Cuối cùng, GIS có thể được xem như một hệ thống cho phép trợ giúp quyết định Cách thức nhập, lưu trữ, phân tích dữ liệu trong GIS phải phản ánh đúng cách thức thông tin sẽ được sử dụng trong công việc lập quyết định hay nghiên cứu cụ thể

Định nghĩa của David Cowen, NCGIA, Mỹ

GIS là hệ thống phần cứng, phần mềm và các thủ tục được thiết kế để thu thập, quản lý, xử lý, phân tích, mô hình hóa và hiển thị các dữ liệu qui chiếu không gian để giải quyết các vấn đề quản lý và lập kế hoạch phức tạp

Một cách đơn giản, có thể hiểu GIS như một sự kết hợp giữa bản đồ (map) và cơ sở dữ liệu (database)

GIS = Bản đồ + Cơ sở dữ liệu Bản đồ trong GIS là một công cụ hữu ích cho phép chỉ ra vị trí của từng địa điểm Với sự kết hợp giữa bản đồ và cơ sở dữ liệu, người dùng có thể xem thông tin chi tiết về từng đối tượng/thành phần tương ứng với địa điểm trên bản đồ thông qua các dữ liệu đã được lưu trữ trong cơ sở dữ liệu Ví dụ, khi xem bản đồ về các thành phố, người dùng có thể chọn một thành phố để xem thông tin về thành phố đó như diện tích, số dân, thu nhập bình quân, số quận/huyện của thành phố,

đồ, các vị trícủa bệnh viện, các trạm rút tiền tự động ATM, các cây xăng,

… có thể được biểu diễn bởi các điểm

Hình 1.1 là ví dụ về vị trí nước bị ô nhiễm Mỗi vị trí được biểu diễn bởi 1 điểm gồm cặp tọa độ (x, y) và tương ứng với mỗi vị trí đó có thuộc tính độ sâu và tổng số nước bị nhiễm bẩn Các vị trí này được biểu diễn trên bản đồ và lưu trữ trong các bảng dữ liệu

Trang 20

Hình 1.4 Ví dụ biểu diễn vị trí trước bị ô nhiễm Ðường - Cung (Line - Arc)

Đường được xác định bởi dãy các điểm hoặc bởi 2 điểm đầu và điểm cuối Đường dùng để mô tả các đối tượng địa lý dạng tuyến như đường giao thông, sông ngòi, tuyến cấp điện, cấp nước…

Các đối tượng được biểu diễn bằng kiểu đường thường mang đặc điểm là

có dãy các cặp tọa độ, các đường bắt đầu và kết thúc hoặc cắt nhau bởi điểm, độ dài đường bằng chính khoảng cách của các điểm Ví dụ, bản đồ hệ thống đường

bộ, sông, đường biên giới hành chính, … thường được biểu diễn bởi đường và

trên đường có các điểm (vertex) để xác định vị trí và hình dáng của đường

● Vùng (Polygon)

Hình 1.5: Ví dụ biểu diễn đường xác định bởi ranh giới các đường,

có điểm đầu trùng với điểm cuối

Trang 21

Các đối tượng địa lý có diện tích và được bao quanh bởi đường thường được biểu diễn bởi vùng

Các đối tượng biểu diễn bởi vùng có đặc điểm là được mô tả bằng tập các đường bao quanh vùng và điểm nhãn (label point) thuộc vùng để mô tả, xác định cho mỗi vùng Ví dụ, các khu vực hành chính, hình dạng các công viên,… được mô tả bởi kiểu dữ liệu vùng Hình 1.3 mô tả ví dụ cách lưu trữ một đối tượng vùng

Hình 1.6: Ví dụ biểu diễn khu vực hành chính

Một đối tượng có thể biểu diễn bởi các kiểu khác nhau tùy thuộc vào tỷ

lệ của bản đồ đó Ví dụ, đối tượng công viên có thể được biểu diễn bởi điểm trong bản đồ có tỷ lệ nhỏ, và bởi vùng trong bản đồ có tỷ lệ lớn

1.3.2 Mô hình biểu diễn dữ liệu địa lý không gian

Như đã đề cập ở trên, dữ liệu địa lý bao gồm thành phần dữ liệu không gian và thành phần dữ liệu thuộc tính Ở phần này, chúng ta sẽ xem xét cách thức biểu diễn thành phần dữ liệu không gian trong hệ thông tin địa lý

- Mô hình khái niệm

Đây là mức trừu tượng đầu tiên trong tiến trình biểu diễn các thực thể địa lý Là tập các thành phần và các quan hệ giữa chúng liên quan đến hiện tượng tự nhiên nào đó Mô hình này độc lập lập với hệ thống, độc lập với cấu trúc, tổ chức và quản lý dữ liệu Một số mô hình quan niệm thường được sử dụng trong GIS là:

Trang 22

- Mô hình không gian trên cơ sở đối tượng:

Mô hình này tập trung vào các hiện tượng, thực thể riêng rẽ được xem xét độc lập hay cùng với quan hệ của chúng với thực thể khác Bất kỳ thực thể lớn hay nhỏ đều được xem như một đối tượng và có thể độc lập với các thực thể láng giềng Đối tượng này lại có thể bao gồm các đối tượng khác và chúng cũng có thể có quan hệ với các đối tượng khác Ví dụ các đối tượng kiểu thửa đất và hồ sơ là tách biệt với các đối tượng khác về không gian và thuộc tính

Mô hình hướng đối tượng phù hợp với các thực thể do con người tạo ra như nhà cửa, đường quốc lộ, các điểm tiện ích hay các vùng hành chính Một

số thực thể tự nhiên như sông hồ, đảo… cũng thường được biểu diễn bằng mô hình đối tượng do chúng cần được xử lý như các đối tượng rời rạc Mô hình

dữ liệu kiểu vector (sẽ đề cập đến ở phần sau) là một ví dụ của mô hình không gian trên cơ sở đối tượng

- Mô hình không gian trên cơ sở mạng:

Mô hình này có một vài khía cạnh tương đồng với mô hình hướng đối tượng, nhưng mở rộng xem xét cả mối quan hệ tương tác giữa các đối tượng không gian Mô hình này thường quan tâm đến tính liên thông, hay đường đi giữa các đối tượng không gian, ví dụ mô hình mạng lưới giao thông, mạng lưới cấp điện, cấp thoát nước…Trong mô hình này, hình dạng chính xác của đối tượng thường không được quan tâm nhiều Mô hình topo là một ví dụ về

mô hình không gian trên cơ sở mạng

- Mô hình quan sát trên cơ sở nền:

Mô hình này quan tâm đến tính liên tục, trải dài về mặt không gian của thực thể địa lý, ví dụ các thực thể như thảm thực vật, vùng mây bao phủ, vùng

ô nhiễm khí quyển, nhiệt độ bề mặt đại dương…thích hợp khi sử dụng mô hình này Mô hình dữ liệu kiểu raster (sẽ đề cập ở phần sau) là một ví dụ về

mô hình quan sát trên cơ sở nền

Trang 23

- Mô hình logic

Sau khi biểu diễn các thực thể ở mức mô hình quan niệm, bước tiếp theo là cụ thể hóa mô hình quan niệm của các thực thể địa lý thành các cách thức tổ chức hay còn gọi là cấu trúc dữ liệu cụ thể để có thể được xử lý bởi hệ thông tin địa lý Ở mô hình logic, các thành phần biểu diễn thực thể và quan

hệ giữa chúng được chỉ rõ dưới dạng các cấu trúc dữ liệu Một số cấu trúc dữ liệu được sử dụng trong GIS là:

- Cấu trúc dữ liệu toàn đa giác:

Mỗi tầng trong cơ sở dữ liệu của cấu trúc này được chia thành tập các đa giác Mỗi đa giác được mã hóa thành trật tự các vị trí hình thành đường biên của vùng khép kín theo hệ trục tọa độ nào đó Mỗi đa giác được lưu trữ như một đặc trưng độc lập, do vậy không thể biết được đối tượng kề của một đối tượng địa lý Như vậy quan hệ topo (thể hiện mối quan hệ không gian giữa các đối tượng địa lý như quan hệ kề nhau, bao hàm nhau, giao cắt nhau…) không thể hiện được trong cấu trúc dữ liệu này Nhược điểm của cấu trúc dữ liệu này là một số đường biên chung giữa hai đa giác kề nhau sẽ được lưu hai lần, và như vậy, việc cập nhật, sửa đổi dữ liệu thường gặp nhiều khó khăn

- Cấu trúc dữ liệu cung nút:

Cấu trúc dữ liệu cung nút mô tả các thực thể địa lý dưới dạng các điểm (nút) và các đường (cung) Như vậy, có thể biểu diễn được quan hệ topo giữa các đối tượng địa lý Trong cấu trúc dữ liệu này, các phần đối tượng không gian kề nhau sẽ được lưu trữ một lần, ngoài ra, các đối tượng lân cận của một đối tượng địa lý cũng được chỉ rõ, điều này giúp dễ dàng thực hiện các phép phân tích không gian, đồng thời cũng tối ưu được dung lượng lưu trữ dữ liệu

Trang 24

- Cấu trúc dữ liệu dạng cây:

Trong một số mô hình dữ liệu như mô hình raster, dữ liệu có thể được phân hoạch thành các đối tượng nhỏ hơn với nhiều mức khác nhau để giảm thiểu dung lượng lưu trữ và tăng tốc độ truy vấn Ví dụ cấu trúc cây tứ phân chia một vùng dữ liệu làm 4 phần, trong mỗi phần này lại có thể được chia tiếp thành 4 phần con

- Mô hình dữ liệu vật lý

Dữ liệu địa lý cần được lưu trữ vật lý trên máy tính theo một cách thức nhất định, tùy theo các hệ thống thông tin địa lý cụ thể mà cách thức lưu trữ, cài đặt dữ liệu khác nhau Mô hình dữ liệu vật lý thường khá khác nhau đối với từng

hệ thống GIS cụ thể Một số hệ GIS thương mại có thể kể đến như: Arc/Info, ERDAS, Geovision, Grass, Caris, Intergres, Oracle, Postgres…

Như vậy, từ một thực thể địa lý, thông qua 3 mức mô hình biểu diễn mà được cụ thể hóa thành dữ liệu trên máy tính sẽ có dạng thể hiện rất khác nhau đối với từng hệ GIS cụ thể Mỗi hệ thông tin địa lý đều sử dụng mô hình dữ liệu quan niệm riêng để biểu diễn mô hình dữ liệu vật lý duy nhất Hệ thông tin địa lý cung cấp các phương pháp để người sử dụng làm theo các mô hình quan niệm tương tự ba lớp mô hình mô tả trên

Hai nhóm mô hình dữ liệu không gian thường gặp trong các hệ GIS thương mại là mô hình dữ liệu vector và mô hình dữ liệu raster

- Mô hình vector

Mô hình vector sử dụng tọa độ 2 chiều (x, y) để lưu trữ hình khối của các thực thể không gian trên bản đồ 2D Mô hình này sử dụng các đặc tính rời rạc như điểm, đường, vùng để mô tả không gian, đồng thời cấu trúc topo của các đối tượng cũng cần được mô tả chính xác và lưu trữ trong hệ thống

Trang 25

Hình 1.7: Biểu diễn vector của đối tượng địa lý

Theo Hình 1.7 các đối tượng không gian được lưu trữ dưới dạng vertor, đồng thời các thuộc tính liên quan đến lĩnh vực cần quản lý (dữ liệu chuyên

đề - thematic data) của đối tượng đó cũng cần kết hợp với dữ liệu trên Các nhân tố chỉ ra sự tác động qua lại lẫn nhau giữa các đối tượng cũng được quản

lý, các nhân tố đó có thể là quan hệ topo (giao/ không giao nhau, phủ, tiếp xúc, bằng nhau, chứa, …), khoảng cách và hướng (láng giềng về hướng nào)

- Mô hình raster

Mô hình raster hay còn gọi mô hình dạng ảnh (image) biểu diễn các đặc tính

dữ liệu bởi ma trận các ô (cell) trong không gian liên tục Mỗi ô có chỉ số tọa độ (coordinate) và các thuộc tính liên quan Mỗi vùng được chia thành các hàng và cột, mỗi ô có thể là hình vuông hoặc hình chữ nhật và chỉ có duy nhất một giá trị

Trang 26

Hình 1.8: Biểu diễn thế giới bằng mô hình raster

Trên thực tế, chọn kiểu mô hình nào để biểu diễn bản đồ là câu hỏi luôn đặt ra với người sử dụng Việc lưu trữ kiểu đối tượng nào sẽ quyết định mô hình sử dụng Ví dụ nếu lưu vị trí của các khách hàng, các trạm rút tiền hoặc

dữ liệu cần tổng hợp theo từng vùng như vùng theo mã bưu điện, các hồ chứa nước, … thì sử dụng mô hình vector Nếu đối tượng quản lý được phân loại liên tục như loại đất, mức nước hay độ cao của núi, … thì thường dùng mô hình raster Đồng thời, nếu dữ liệu thu thập từ các nguồn khác nhau được dùng một mô hình nào đó thì có thể chuyển đổi từ mô hình này sang mô hình khác để phục vụ tốt cho việc xử lý của người dùng

Mỗi mô hình có ưu điểm và nhược điểm khác nhau Về mặt lưu trữ, việc lưu trữ giá trị của tất cả các ô/điểm ảnh trong mô hình raster đòi hỏi không gian nhớ lớn hơn so với việc chỉ lưu các giá trị khi cần trong mô hình vector Cấu trúc dữ liệu lưu trữ của raster đơn giản, trong khi vector dùng các cấu trúc phức tạp hơn Dung lượng lưu trữ trong mô hình raster có thể lớn hơn gấp 10 đến 100 lần so với mô hình vector Đối với thao tác chồng phủ (xem mục 1.3.4), mô hình raster cho phép thực hiện một cách dễ dàng, trong khi

mô hình vector lại phức tạp và khó khăn hơn

Về mặt hiển thị, mô hình vector có thể hiển thị đồ họa vector giống như bản đồ truyền thống, còn mô hình raster chỉ hiển thị ảnh nên có thể xuất hiện hình răng cưa tại đường biên của các đối tượng tùy theo độ phân giải của tệp

Trang 27

raster Với dữ liệu vector, người dùng có thể bổ sung, co dãn hoặc chiếu bản

đồ, thậm chí có thể kết hợp với các tầng bản đồ khác thuộc các nguồn khác nhau Hiện nay, mô hình vector được sử dụng nhiều trong các hệ thống GIS bởi các lý do trên, ngoài ra mô hình này cho phép cập nhật và duy trì đơn giản, dễ truy vấn dữ liệu

1.3.3 Quan hệ không gian giữa các đối tượng địa lý

Có ba kiểu quan hệ không gian chính là: quan hệ khoảng cách, quan hệ hướng và quan hệ Topo

Quan hệ khoảng cách dựa trên khoảng cách Euclid giữa 2 đối tượng địa lý Quan hệ hướng thể hiện vị trí của đối tượng này so với các đối tượng

khác trong quan hệ không gian

Quan hệ Topo có kiểu đặc trưng điển hình là giao giữa hai đối tượng

địa lý và chúng bất biến trên các phép biến đổi hình học như quay và co giãn

Có nhiều phương pháp để xác định các quan hệ Topo giữa các điểm, đường, vùng Hầu như, chúng đều dựa trên mô hình giao nhau như: bên trong và đường bao hoặc bên trong, bên ngoài và đường bao Phép giao là sự phối hợp

của các toán tử logic và( ) và hoặc( ) Các mô hình giao nhau xác định 8 quan hệ Topo nhị phân là: cắt(crosses), chứa(contains), trong(within),

bao(covers), bao bở(-coveredBy), trùng(equals), không nối(disjoint), chồng(overlaps)

1.4 Khái niệm và mục tiêu của Phân cụm dữ liệu

1.4.1 Một số Khái niệm

- Phân cụm dữ liệu là quá trình nhóm một tập các đối tượng tương tự nhau trong tập dữ liệu vào các cụm sao cho các đối tượng thuộc cùng một cụm là tương đồng còn các đối tượng thuộc các cụm khác nhau sẽ không tương đồng Phân cụm dữ liệu là một ví dụ của phương pháp học không có thầy Không giống như phân lớp dữ liệu, phân cụm dữ liệu không đòi hỏi phải định nghĩa trước các mẫu dữ liệu huấn luyện Vì thế, có thể coi phân cụm dữ

Trang 28

liệu là một cách học bằng quan sát, trong khi phân lớp dữ liệu là học bằng ví dụ Ngoài ra phân cụm dữ liệu còn có thể được sử dụng như một bước tiền

xử lí cho các thuật toán khai phá dữ liệu khác như là phân loại và mô tả đặc điểm, có tác dụng trong việc phát hiện ra các cụm

Hình 1.9: Mô tả tập dữ liệu được phân thành 3 cụm

- Ràng buộc cản trở: Một ràng buộc cản trở là một đa giác được biểu

thị bởi P(V, E) ở đây V là tập k điểm từ ràng buộc cản trở V v1, v2, v3,, vk

và E là tập k đoạn đường thẳng E  e1, e2, e3,, e k  ở đây e i là một đoạn

đường thẳng kết nối v i và v i+1 , 1 i k, i1 1 nếu i+1 > k.

Có hai loại đa giác biểu diễn ràng buộc cản trở: đa gác lồi và đa giác lõm

- Tầm nhìn: Tầm nhìn thể hiện sự kết nối giữa hai điểm dữ liệu, nếu

đoạn đường thẳng nối từ một điểm tới điểm khác không cắt với đa giác P(V,

E) biểu diễn ràng buộc cản trở Cho tập D gồm n điểm dữ liệu D d1, d2,

d3,, dn, đoạn l nối d i và d j , đây d i , d jD, i j, 1i, jn, và đoạn e k E,

không tồn tại một điểm cắt p giữa hai đoạn đường thẳng l và e k thì khi đó d i nhìn thấy d j

- Không gian tầm nhìn

Cho tập D gồm n điểm dữ liệu D  d1, d2, d3,, dn , không gian tầm

nhìn là tập S gồm k điểm S  s1, s2, s3,, s k d  S, s i và s j nhìn thấy nhau,

S  D, i  j và 1  i, j  n S ={  d| s i và s j nhìn thấy nhau}.

Trang 29

- Cụm

Cho tập D gồm n điểm dữ liệu D  d1, d2, d3, , dn , cụm là một tập

C gồm c điểm C c1, c2, c3, , c c thỏa mãn các điều kiện dưới đây, ở đây

C  D, i  j, và 1  i, j  n.

- Tối đa hóa: d i , d j , nếu d i C và d j là mật độ có thể đạt được từ d i

với Eps và MinPts, khi đó d jC.

- Sự kết nối: c i , c jC, c i là mật độ kết nối với c j theo Eps và MinPts

- c i, c jC, c i và c j nhìn thấy nhau

- Điểm đi vào – Entry point: Entry point là điểm nằm trên chu vi của

đa giác miêu tả ràng buộc cắt ngang, nghĩa là khi mật đo có thể đạt được từ

điểm p với Eps thi p trở thành có thể đạt được bởi điểm x bất kỳ từ entry point khác trong cùng đa giác biểu diễn ràng buộc cắt ngang với Eps Nói cách khác, hai entry point khác nhau p 1 và p 2, tại hai đầu của ràng buộc cắt ngang,

nếu a là mật độ có thể đạt được tới p 1 với Eps và b là mật độ có thể đạt với p 2

với Eps, khi đó a và b có thể đến được với nhau

- Cạnh đi vào – Entry edge: là cạnh của đa giác miêu tả ràng buộc cắt

ngang với tập các entry point bắt đầu từ một entry point cuối của entry edge

tới entry point khác được tách biệt bởi một giá trị khoảng i e , ( i e  Eps)

- Ràng buộc cắt ngang: Ràng buộc cắt ngang (hoặc cây cầu) là tập B gồm m điểm dữ liệu B  b1 , b2, b3,, bn  đã sinh ra từ tất cả các entry edge

Bằng cách định nghĩa một điểm bất kỳ b a  B có thể đạt được bởi tất cả các điểm khác trong B Cây cầu B được biểu thị bởi B(P,E), ở đây P là tập các entry point được tạo sinh ra từ tập entry edge E Do vậy một cây cầu “kết nối” tập các

điểm dữ liệu tối đa cũng như là tạo ra các cụm, nếu các điểm dữ liệu hoặc các cụm có thể bị phân cụm bởi tất cả các entry point từ cây cầu

Trang 31

Chương 2 MỘT SỐ KỸ THUẬT PHÂN CỤM DỮ LIỆU KHÔNG GIAN

Các kỹ thuật Phân cụm dữ liệu có rất nhiều cách tiếp cận và ứng dụng trong thực tế, nó hướng tới hai mục tiêu chung đó là chất lượng của các cụm khám phá được và tốc độ thực hiện của thuật toán Hiện nay, các kỹ thuật Phân cụm dữ liệu có thể phân loại theo các cách tiếp cận chính sau

2.1 Phương pháp phân cụm theo phân hoạch

Kỹ thuật này phân hoạch một tập hợp dữ liệu có n phần tử thành k nhóm cho đến khi xác định số các cụm được thiết lập Số các cụm được thiết lập là các đặc trưng được lựa chọn trước Phương pháp này tốt cho việc tìm các cụm hình cầu trong không gian Euclidean Ngoài ra, phương pháp này cũng phụ thuộc vào khoảng cách cơ bản giữa các điểm để lựa chọn các điểm dữ liệu nào có quan hệ là gần nhau với mỗi điểm khác và các điểm dữ liệu nào không

có quan hệ hoặc có quan hệ là xa nhau so với mỗi điểm khác Tuy nhiên, phương pháp này không thể xử lí các cụm có hình dạng kỳ quặc hoặc các cụm

có mật độ các điểm dầy đặc Các thuật toán phân hoạch dữ liệu có độ phức tạp rất lớn khi xác định nghiệm tối ưu toàn cục cho vấn đề PCDL, do nó phải tìm kiếm tất cả các cách phân hoạch có thể được Chính vì vậy, trên thực tế thường

đi tìm giải pháp tối ưu cục bộ cho vấn đề này bằng cách sử dụng một hàm tiêu chuẩn để đánh giá chất lượng của cụm cũng như để hướng dẫn cho quá trình tìm kiếm phân hoạch dữ liệu Như vậy, ý tưởng chính của thuật toán phân cụm phân hoạch tối ưu cục bộ là sử dụng chiến lược ăn tham (Greedy) để tìm kiếm nghiệm [1] Dưới đây chúng tôi trình bày chi tiết một thuật toán đại diện cho kỹ thuật phân cụm dữ liệu phân hoạch là thuật toán K- means

Thuật toán k-means

Thuật toán k-means được mô tả cụ thể như sau:

Input: K, và dữ liệu về n mẫu của 1 CSDL

Output: Một tập gồm K cluster sao cho cực tiểu về tổng sai-số vuông Thuật toán:

Trang 32

Bước 1: Chọn ngẫu nhiên K mẫu vào K cluster Coi tâm của cluster chính là mẫu có trong cluster

Bước 2: Tìm tâm mới của cluster

Bước 3: Gán (gán lại) các mẫu vào từng cluster sao cho khoảng cách từ mẫu đó đến tâm của cluster đó là nhỏ nhất

Bước 4: Nếu các cluster không có sự thay đổi nào sau khi thực hiện bước 3 thì chuyển sang bước 5, ngược lại sang bước 2

Bước 5: Dừng thuật toán

Ví dụ: Giả sử trong không gian hai chiều, cho 12 điểm (n = 12) cần phân 12 điểm này thành hai cluster (k=2).Đầu tiên chọn hai điểm ngẫu nhiên vào hai cluster, giả sử chọn điểm (1,3) và điểm (9,4) (điểm có màu đỏ trên hình 2.3a) Coi điểm (1,3) là tâm của cluster 1 và điểm (9,4) là tâm của cluster hai Tính toán khoảng cách từ các điểm khác đến hai điểm này và ta gán được các điểm còn lại này vào một trong hai cluster, những điểm có màu xanh lơ vào cluster 1, những điểm có màu xanh đậm vào cluster 2 (hình 2.3b) Hiệu chỉnh lại tâm của hai cluster, điểm màu đỏ trên hình 2.3c là tâm mới của hai cluster Tính lại các khoảng cách các điểm đến tâm mới và gán lại các điểm này, hình 2.3d Tiếp tục hiệu chỉnh lại tâm của hai cluster Cứ như thế lặp lại cho đến khi không còn sự thay đổi nữa thì dừng Khi đó ta thu được output của bài toán

Hình 2.1: Minh họa thuật toán k-means

Trang 33

Đánh giá ưu nhược điểm của Thuật toán K-means

Ưu điểm:

Do K-means đơn giản nên có thể áp dụng đối với tập dữ liệu lớn Bảo đảm hội tụ sau 1 số bước lặp hữu hạn

Luôn có k cụm dữ liệu

Luôn có ít nhất 1 điểm dữ liệu trong 1 cụm dữ liệu

Các cụm không phân cấp và không bị chồng chéo dữ liệu lên nhau

Nhược điểm:

Chất lượng của thuật toán K-means phụ thuộc nhiều vào các tham số đầu vào như: số cụm k và k trọng tâm khởi tạo ban đầu Trong trường hợp các trọng tâm khởi tạo ban đầu mà quá lệch so với các trọng tâm cụm tự nhiên thì kết quả phân cụm của k-means là rất thấp

Khó để chọn ra được số lượng cụm tối ưu ngay từ đầu, mà phải qua nhiều lần thử để tìm ra được số lượng cụm tối ưu

Không có khả năng tìm ra các cụm không lồi hoặc các cụm có hình dạng phức tạp

Rất nhạy cảm với nhiễu và các phần tử ngoại lai trong dữ liệu

2.2 Phương pháp phân cụm dựa trên mật độ

Kỹ thuật này nhóm các đối tượng dữ liệu dựa trên hàm mật độ xác định, mật độ là số các đối tượng lân cận của một đối tượng dữ liệu theo một nghĩa nào đó Trong cách tiếp cận này, khi một dữ liệu đã xác định thì nó tiếp tục được phát triển thêm các đối tượng dữ liệu mới miễn là số các đối tượng lân cận này phải lớn hơn một ngưỡng đã được xác định trước Phương pháp phân cụm dựa trên mật độ của các đối tượng để xác định các cụm dữ liệu có thể phát hiện ra các cụm dữ liệu với hình thù bất kỳ Kỹ thuật này có thể khắc phục được các phần tử ngoại lai hoặc giá trị nhiễu rất tốt, tuy nhiên việc xác định các tham số mật độ của thuật toán là rất khó khăn, trong khi các tham số này lại có tác động rất lớn đến kết quả phân cụm Dưới đây tôi sẽ trình bày thuật toán đại diện cho kỹ thuật phân cụm dựa trên mật đó, đó là thuật toán DBSCAN [5]

Trang 34

Thuật toán DBSCAN

DBSCAN là một phương pháp dựa trên mật độ điển hình, nó tăng trưởng các cụm theo một ngưỡng mật độ.Thuật toán DBSCAN được Ester giới thiệu vào năm 1996, khi nghiên cứu các thuật toán phân cụm dữ liệu không gian DBSCAN được khẳng định qua thực nghiệm là tốt hơn các thuật toán khác

Định nghĩa 1: Đối tượng p là “kề mật độ” (density-reachable) từ đối tượng q nếu tồn tại một dãy p1, p2, , pn (p1 =q, pn= p) sao cho pi+1 là kề mật độ trực tiếp từ pi

2 p,qЄC: nếu pЄC và p kết nối theo mật độ với q

Trong phần này chúng ta mô tả giải thuật DBSCAN để phát hiện ra các cụm và nhiễu theo định nghĩa 2 và 3 Như đã biết, các thuật toán theo hướng mật độ đều có hai tham số là Eps và MinPts, việc xác định giá trị của hai tham

Định dạng
Số trang	69
Dung lượng	3,22 MB