1. Trang chủ
  2. » Luận Văn - Báo Cáo

Thuật toán chia lớp trong cơ sở dữ liệu không gian ba tầng

92 853 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 92
Dung lượng 101,99 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Ỉ/Iíc dù có nhiều thuật toán chia lớp đáp ứng được yêu cầu về thời gian, yêu cầu về bộ nhớ, yêu cầu vể hình dạng của lớp nhưng hầu hết các thuật toán đều không áp dụig được lên cơ sở dữ

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI KHOA CỒNG NGHỆ

LÊ Sỉ QUANG

THUẬT TOÁN CHIA LỚP TRONG c ơ SỞ

D ữ LIỆU KHÔNG GIAN ĐA TANG

Chuyên ngành: Công Nghệ Thông tin

Trang 2

L)ị giới thiệu 3

Chương 1. (ỉỉói thiệu vể khám phá tri thức trong co sớ dữ liệu không gian 6

/ / Giới thiệu 6

1 1 1 G iới th iệu c h u n g 6

1 1.2 N h ữ n g phư ơ ng p h áp khai thác củ a dĩr liệu k h ôn g g ia n 8

1 1.3 Khái n iệm c ơ bản trong khám phá dữ liệu k h ôn g g i a n 9

1.1 4 Cấu trúc d ữ liệ u , c á c p hép toán và truy vấn k h ô n e g i a n 1 i 12 Những phương pháp khám phá tri thức trong cơ sở dữ liệu không giun ¡3

1.2 1 K hám phá tri thức dựa trên tổ n g quát h o á 14

1.2 2 Phương pháp phái hiện luật kết họp k h ôn g g ia n 16

1.2.3 Phương pháp c h ia lớp (clusterìng) 17

1.2 4 K hám phá (ri thức trong c ơ s ớ dữ liệu ảnh và c ơ sở dĩr liệu r a s te r 17

13 Cấu trúc (lữ liệu dùng trong cơ sở dữ liệu không ỊỊÌan 19

1 3 1 Cấu trúc d ữ liệu c h o phân h o ạ ch k h ôn g gian v e c to r 19

1.3 2 Cấu trúc d ữ liệu c h o k h ôn g g ia n m e t r ic 23

1.3 3 N h ữ n g cấu trúc d ữ liệu k h ác trong khai thác d ữ liệu k h ô n g g ia n 26

/ 4 Cúc hướnsị phát triển của khám phá tri thức trong (lữ liệu không gian 27

Cttơng 2 Chia lớp trong cơ sớ dữ liệu không gian 30

2 1 Giới thiệu chung 30

22 Các yêu cầu vê thuật toán chia ìớp trong cơ sở dữ liệu kliông gian 32

23 Các hướng tiếp cận của bài toán chia lớp trong cơ sờ dữ liệu không gian 33

2 3 1 Phương pháp c h ia iớp phân h o ạ c h 33

2 3 2 P hương pháp c h ia lớp c ó cấu tr ú c 34

2 3 3 P hương pháp c h ia lớp dựa v à o vị trí đ ịa p h ư ơ n g 3 6 2.3 4 Đ á n h g iá tổ n g q u á t 37

Mục lục 1

Trang 3

3 9 4 2 4 4 4 6 4 8 5 0 5 2 5 5 5 7

61

63

63

.6 3 6 4

66

7 2

7 2

7 3

7 5

8 0 81

84

86

2.4 Một sô thuật toán chia lớp thông (lụng

2 4 1 C L A R A N S

2 4 2 D B S C A N

2 4 3 D B C L A S D

2 4 4 S T I N G

2 4 5 B IR C H

2 4 6 W A V E C lu s te r

2 4 7 D E N C L U E

2 4 8 C L I Q U E

2.4.9. C U R E

2.5 Tòng kết các thuật toán chia lóp

C h u ong 3 T h u ậ t t o á n c h i a l ó p đ a t a n g v à ứ n g d ụ n g

3.1 Thuật toán chia lóp da tầng

3.1 1 G iớ i thiệu v ề thuật toán c h ia lớp đa tầ n g

3 1.2 Khái n iệm về c ơ sờ dữ liệu đa tẩng v à phương pháp c h ia lớp đa tầng 3 1 3 T huật toán c h ia lớp đa tầng M D B S C A N

3.2 Bài toán chia IỚỊ) bản đồ Việt N a m

3 2 1 G iớ i ih iệ ti

3 2 2 Phát biểu bài t o á n

3.2.3 N hữ ng kĩ thuật x ử lý dữ liệ u

3.2.4 ứ n g dụng c ù a M D B S C A N

3.2.5 Kết quả ứng d ụ n g củ a M D B S C A N

ĩ.ĩ Kết luận

T à i liệ u T h a m k h ả o

Trang 4

Cách mạng khoa học kỹ thuật đã giúp CO I 1người có thể thu thập và lưu trữ một lượng

cữ liệu khổng lổ Đặc biệt với kích tlurớc của những cơ sờ dữ liệu không gian như

cơ sở dữ liệu ảnh vệ tinh, ảnh y học, thiên tai, về bệnh viện tăng rất nhanh Trong rhững cơ sở dữ liệu đó tìm ẩn nhiều tri thức có ích mà con người chưa biết Do đó,

có một nhu cầu tìm kiếm những tri thức trong những núi dữ liệu đó Nhu cầu này rgày càng cấp thiết và đã dẫn tới sự hình thành của một lĩnh vực mới — lĩnh vực

Uiám phá dữ liệu trong cơ sở dữ liệu không gian (data milling in spatial databases) hay khám phá tri thức trong cơ sở dữ liệu không gian (Knowledge Discovery in

bìatiưì DatabaseS-KDSD).

Glia lớp trong cơ sở dữ liệu không gian là một trong những phương pháp quan trong

t ong quá trình tìm kiếm tri thức Chia lớp là phương pháp học từ quan sát (learning

t'ơn obversation) hay còn gọi là học không (háy (unsupervisecl learning or aromatic classfication) tronc trí tuệ nhân lạo Chia lớp đặc biệt hiệu quả khi ta

Uvìng biết về thông tin của các lớp, hoặc khi ta quan tâm tới những thuộc tính của

1 Vị inà ta chưa biết hoặc biết rất ít về những thông tin đó

Hièn tại có nhiều thuật toán chia lớp đã được đưa ra Những thuật toán này thường ciực chia vào 3 loại thuật toán chia lớp là chia lớp phân hoạch, chia lớp có cấu trúc 'à chia lớp dựa trên vị trí địa phương hoặc là sự kết hợp của các loại chia lớp trên Ngoài ra, một số kĩ thuật như chia lưới, thống kè cũng được sử dụng dể nàng cao chít lượng của thuật toán chia lớp Những thuật toán chia lóp áp dụng cho cơ sờ dữ

Lệ 1 không gian phải đáp ứng được các yêu cầu về thời gian chạy, bộ nhớ yêu cầu, Hrh dạng các lớp đỏi tượng

Ỉ/Iíc dù có nhiều thuật toán chia lớp đáp ứng được yêu cầu về thời gian, yêu cầu về

bộ nhớ, yêu cầu vể hình dạng của lớp nhưng hầu hết các thuật toán đều không áp dụig được lên cơ sở dữ liệu không gian gồm nhiều loại lớp đối tượng dữ liệu Điều là/ uiàt phát từ thực tế là các lớp đưa ra khi áp dụng một thuật toán chia lớp lên cơ 5Ởdĩ liệu không gian đều phải thoã mãn một số điều kiện của thuật toán Điều này

Trang 5

Trang 4!91

đã khiến cho những thuật loán chia lớp hiện có chỉ có thể tìm ra nhũng lớp đối tượng

dữ liệu khi mà các lớp đối t ượng đó có một số tính chất chung

Đé khắc phục được điểm yếu của các thuật toán chia lớp hiện tại, tôi đưa ra một khái niệm về thuật toán chia lớp đa tầng Dựa trên khái niệm này, chúng ta có thể xây ding lên những thuât toán chia lớp đáp ứng được cho cơ sở dữ liệu gồm nhiều loại lớ[ đối tượng với tính chất khác nhau

Trong phạm vi luận văn cao học này, tôi sẽ đi trình bày về tìm kiếm tri thức trong cơ

sở dữ liệu không gian, bài toán chia lớp trong cơ sở dữ liệu không gian và thuật toán chia lớp đa tầng và ứng dụng Toàn bộ nội dung của luận văn gồm:

Chương 1 Giới thiệu chung về khám phá tri thức trong dữ liệu không gian

Clương này trình bày 4 phần cơ bản là: Giới thiệu chung về khám phá tri thức, các plương pháp khám phá tri thức trong cơ sở dữ liệu không gian, những cấu trúc dữ liệu sử dụng và hướng phát triển kế tiếp của khám phá tri thức trong cơ sở dữ liệu khòng gian

Chương 2: Giới thiệu về chia lóp trong cơ sở dữ liệu không gian

Chương này trình bày 3 phần cơ bản trình bày về bài toán chia lớp, những hướng giải quyết của bài toán (phân hoạch, chia lớp có cấu trúc và chia lớp dựa vào mật độ địa phíơng), những thuật toán hiện đang sử dụng và đánh giá tổng quan về các thuật toán đó

Chương 3 Thuật toán chia lớp đa tầng và ứng dụng

Chương này trình bày về thuật toán chia lớp đa tầng và ứng dụng của thuật toán chia lớf đa tầng Trong chương này chúng ta đi vào hai phần chính là : 1) Thuật toán chia lớ[ đa tầng 2) ứ ig dụng cụ thể của thuật toán chia lớp đa tầng lên bài toán chia lớp bản đồ Việt Nam dựa trên mức độ chăm sóc y tế của các vùng

Cuối cùng, t ô i xin chân ihành cảm Ư I1các t h ầ y cô khoa Công nghệ- Đại học Quốc gic, Hà Nội đã tạo điều kiện và giúp đỡ tỏi trong quá trình làm khoá luận

Cuối cùng, em xin cảm ơn sự hướng dẫn tận tình tiến sĩ Lương Chi Mai-Viện Cóng ngiệ Thông tin và giáo sư Hồ Tú Bảo-Viện Công nghệ tiên tiến Nhật Bản- JAIST,

Trang 6

En xin chân thành chị Huỳnh Thanh Bình -Đại học bách khoa Hà Nội đã giúp đỡ và cùig làm việc trong bài toán chia lớp bản đổ Việt Nam dựa trên mức độ chăm sóc sứ( khoẻ.

Xii cám ơn sự giúp đỡ của các bạn lớp 7KT - Khoa Công Nghệ trong suốt quá trình họ: tập và làm khoá luận

Hà Nội, ngày 20 tháng 08 năm 2002

Học viên

Lê Sĩ Quang

Trang 7

Trang 6/91

SỞ D ữ LIỆU KHÒNG GIAN.

l.L G iới thiệu

1.1.1 Giới thiệu chung

CiDc cách mạng khoa học kỹ thuật lần thứ 3 đã tạo ra những bước nhảy vọt trong tất

cả ;ác lĩnh vực Một trong nhũng thành công của cuộc cách mạng lần này là sự bùng

rổ thông tin và sự phát triển đến chóng mặt của cư sở dữ liệu trên phạm vi toàn cầu

Cìng với quá trình đó, những tiến bộ của kĩ thuật thu thập dữ liệu như mã vạch

Ụưcode reading), bộ cảm biến từ xa, ảnh vệ tinh đã giúp con người thu thập được

mờ lượng lớn dữ liệu và tạo nên những cơ sở dữ liệu khổng lổ Đứng trước “núi” dữ

lệt thu thập được, việc khám phá tri thức và thông tin trở nên rất khó khăn Nhu cầu khá thác tri thức trong cơ sở dữ liệu ngày càng lớn đã dãn tới sự hình thành của một

CJ ;ở dữ liệu {Knowledge Discovery in databases-KDD) Khám phá tri thức trong cơ

Sĩ iữ liệu có thè được coi như quá trình tìm tri thức cán có ích cán thiết, tiểm ấn và

cua được biết trước trong cơ sở dữ liệu lớn {discovery o f interesting, implicit, and

ptviously unknown knowledge from large databases) [WGÇ92, CPG93Ị Tuy mới

n ¿ời nhưng khám phá tri thức không phải là một lĩnh vực riêng rẽ và hoàn toàn độc

Up mà có sự kết hợp của nhiều lĩnh vực khác bao gồm học máy (machine learning), liỉ ;ơ sở dữ liệu (database systems), hiển thị dữ liệu (data visualization), thống kê (.'tctistics) và lý thuyết thông tin (information theory).

Mịc dù đã có nhiều nghiên cứu vể khám phá tri thức trong cơ sở dữ liệu quan hệ và

c 1 ;ờ dữ liệu giao dịch (relational and transaction databases) ÍRR94 JYKGWQ95I

ming khám phá tri thức vẫn CÒI1 là một vấn để mờ khi áp dụne vào những cơ sờ dữ

liệi ứng dụng như cơ sờ dữ liệu không gian (spatial databases), cơ sờ dữ liệu thời

Clươriĩị I Giới thiệu vê Khám phá tri thức trong cơ sở dữ liệu không gian

Trang 8

gai ( te m p o ra l d a tư b a se s), cơ sờ dữ liệu hướng đối tượng (O b je ct-O rie n te d

d/t/bases), cơ sở dữ liệu đa phương tiện ( m u ltim é d ia d a ta bases)

Eểtìm hiểu cơ sờ dữ liệu không gian, trước hết phải có khái niệm cơ bản về dữ liệu

knng gian Dữ liệu không gian là những dữ liệu mà một đối tượng dữ liệu mang các

tkinc tính không gian Như vậy, cơ sở dữ liệu không gian là tập các đối tượng không gai, trong đó mỏi đối tượng được biểu diễn bằng các kiểu dữ liệu không gian cũng

nn mối quan hệ giữa các đối tượng Dữ liệu không gian thường là những dữ liệu về

hm dạng (topological) hoặc thông tin khoảng cách (distance).

Cơ;ờ dữ liệu không gian có đặc thù riêng và thường được tổ chức theo cấu trúc đánh

ciisố không gian (spatial index structures) và được truy cập bằng các phương pháp

Í1U' cập không gian [PK| Sự đặc biệt của các thuộc tính của dữ liệu không gian đưa đínnhững thách thức và cơ hội cho việc tìm kiếm tri thức trong dữ liệu Người ta đã dĩ; ra định nghĩa về tìm kiếm tri thức trong cơ sờ dữ liệu không gian:

Khan phú (lữ liệu không giun, hay còn 1ịỌ Ì là klúun phú tri thức trong cơ sở dữ liệu kiòìg gian có thể coi nlìi/ là việc trích lọc những thông tin tiềm ẩn, những mỗi quan

lù ¡hông lỊÌan hoặc những mẫu met không được lưu trữ trong cơ sỏ (lữ liệu.

Nhing phương pháp khai thác dữ liệu không gian được dùng để tìm kiếm những tri thí! mà người sử dụng quan tâm trong các cơ sở dữ liệu không gian và tạo nẻn nũng hệ tri Ihức không gian Hệ cơ sờ tri thức này giúp người sử dụng hiểu được dữ liìi khống gian mà họ có hoặc phát hiện mối quan lìệ giữa dữ liệu khống gian và dữ

liịtphi không gian (nơn-spatiaì data) Những phương pháp này đã được sử dụng niitu trong các hệ thông như hệ thống thông tin địa lý (GỈS-Geographic Information

S'sem.s), hệ thống cảm nhận từ xa, hệ thống khám phá cơ sở dữ liệu ánh, hệ thống

kián pha cơ sở dữ liệu ảnh y tế, hệ thống điều khiên robot và những rình vực khác

co ử dung cơ sở dữ liệu không gian

T i hức nhận được trong quá trình khám phá tri thức trong cơ sở dữ liệu không gian

co tiê nhiều dạng khác nhau Ví dụ dạng luật liên quan tới thuộc tính của dữ liệu,

chrụ cấu trúc và mô tả của các lớp (clnsters) liên quan đến các đối tượng Những

Chtơnạ ì Giới thiệu về Khám phá tri thức trong cơ sở dữ liệu không gian

Trang 9

Trang (*?/91

tr thức này được sử dụng trong từng ứng dụng cụ thể và dược tìm ra bởi những piương pháp khác nhau

1 1.2 Những phương pháp khai thác của dữ liệu không gian

c» rất nhiều phương pháp khai thác dữ liệu nhu phương pháp phân tích thống kê kiông gian, phương pháp đường hồi quy, học máy Tuy nhiên, mỗi phương pháp đtu có điểm mạnh điểm yếu và chi' thích ứng với từng ứng dụng cụ thể

1 Phương pháp phàn tích thống kê không gian:

Piương pháp phân tích thống kê không gian | KJ961 đã từng là một hirớns; chủ đạo tnng các phương pháp phàn tích dữ liệu không gian Các nhà khoa học đã tiến hành njhiên cứu phương pháp này tương đối kỹ và đưa ra được nhiều thuật toán cũng như nlững giải pháp tối ưu hoá cho khám phá tri thức trong cơ sở dữ liệu không gian Tiy vậy, những phương pháp thống kê vẫn còn một số hạn chế như sau:

Phương pháp thống kê chì được thực hiện tốt trên dữ liệu số, và chỉ có thể đưa

ra được kết quả hoàn toàn độc lập với phân bố khổng gian của các điểm dữ liệu Yêu cầu thứ hai của phương pháp thống kế đã khiến cho phương pháp

này không áp dụng lên được cơ sở dữ liệu không gian lớn trong thực tế vì

những điểm dữ liệu không gian có quan hệ và ánh hưởng lẫn nhau theo vị trí không gian của chúng

Phương pháp thống kê không thê mô hình hoá được những luật phi tuyến và không giải quyết được những thuộc tính dạng phi số

Phương pháp thống kê còn không thể áp dụng lên cơ sờ dữ liệu không đủ hoặc không liên lục

Độ phức tạp tính toán của phương pháp thống kê là lớn Do đó, phương pháp thống kê không áp dụng được lên những cơ sở dữ liệu không gian lớn

2.Píiương pháp Kriging và phương pháp hồi quy

Đ: khắc phục những điểm yếu của phương pháp thống kê, người ta đã đưa ra phương pláp Kriging và phuơng pháp hổi quy Tuy nhiên, hai phương pháp này lại làm quá

Cnưinị I Giới thiện về Khám phá tri thức trong cơ sỏ dữ liệu khôn ^ gian

Trang 10

trnh khám phá tri thức trờ nên phức tạp vì chúng chi có thể được thực hiện bời nhũng chuyển gia trong cả lĩnh vực thống kê và lĩnh vực đang dược khám phá Nói cich khác, đây không phải là những kĩ thuật hoặc phương pháp mà người sử dụng irong muốn để đánh giá dữ liệu không gian một cách hiệu quả.

3 Những phương pháp mới

Những plurơng pháp truyền thống đều tò ra không hiệu quả khi được áp dụng đê tìm kem tri thức trong cơ sờ dữ liệu có quy mô lớn Để khắc phục hạn chế này, trong nlũng năm gần đây, các nhà nghiên cứu đã đưa ra nhiều phương pháp mới Háu hết

C1C phương pháp này đều xuất phái từ các phương pháp cũ như học máy, cơ sở dữ

litu và thống kê [JYKGWQ95I nhưng lại dựa trên cơ sở dữ liệu quan hệ (1 'liitionưl databases) hoặc cư sở dữ liệu giao dịch (transaction databases) Những

nịhiên cứu nhu về khám phá tri thức trong cơ sờ dữ liệu quan hệ lớn như 1JYN93 MJP94] đã đưa ra những nền tảng cho khám phá dữ liệu không gian Những kĩ thuật

I kc máy như học từ ví dụ mẫu (learning from examples) và lổng quan hoá và đặc biìt hoá (generalization and specialization) cũng được sử đụng rộng rãi trong khám

phí dữ liệu không gian

1.1.3 Khái niệm cơ bản trong khám phá dữ liệu không gian

Tiong khám phá tri thức trong cơ sờ dữ liệu không gian chúng ta thường hay gập nlững khái niệm cơ bản sau:

- Luật (rules): Có rất nhiều kiểu luật có thể được phát hiện từ cơ sờ dữ liệu nói

dung Ví dụ như luật đặc chưng (characteristic rule), luật biệt số (discriminant

nies), luật kết hợp (association rules), luật về sự lệch hướng và sự phát triển (dniaíion and evolution rules).

o Luật dật trưng là luật mô tả những đặc trưng chung của dữ liệu không gian

Ví dụ như luật biểu diễn giá nhà của một miền nào đó trong một thành phố là một luật đặc trưng

Cnưiiií I Giới thiệu về Khám phá tri thức nong cơ sở dữ liệu không gian

Trang 11

Trang /0/91

o Luật biệt sô' không gian là mỏ tả của các thuộc tính mang tính đặc trưng hoặc tương phản cho một lớp của các đối tượng không gian so với các đối tượng của các lớp khác Ví dụ như luật cho biết sự khác nhau về giá nhà giữa các miền khác nhau

o Luật kết hợp là luật mô tả sự phụ thuộc của một thuộc tính hoặc một tập thuộc tính bởi một thuộc tính hoặc một tập thuộc tính khác Ví dụ luật phụ thuôc giữa giá nhà và vị trí địa lý của nhà so với bãi biển, trung tâm thành phô' là luật kếl hợp không gian

o Luật vể sự lệch lurớng và phát triển là luật dự đoán sự phát triển của và hướng phát triển trong cơ sở dữ liệu Ví dụ, luật dự đoán sự táng dàn sô trong một vùng dựa trên những trục đường, trung tàm thành phố của vùng dó có thê được xem như luật về sự lệch hướng và phát triển

- Bán đổ chuyên dê (thematic maps): Bản đồ chuyên đé là bản đổ thê hiện những

phân bô không gian cùa một hoặc một vài thuộc tính Mục đích của bản dổ chuyên

đề thể là thê hiện mối quan hệ giữa các đối tượng hoặc sự thê hiện một vài thuộc tính củi các đối tirợng trên bản đổ đó Bản đồ chuyên để có thể được sử dụng đc phát hitn các luật Ví dụ, để đánh giá kiểu thời tiết của một vùng chúng ta có thể theo dõi bin đồ chuyên (lổ nhiệt độ dể đưa ra được một sô' luật liên quan giữa vị trí địa lý và nhệt độ

C( hai cách để thể hiện bản đổ chuyên đề là kiểu raster và kiểu vector

- Trong ảnh raster, bản đồ đặc trưng là một tập các điểm được liên kết với các thuộc tính của từng điểm Ví dụ trong một bản đồ, độ cao của các điểm so với mặt nước biển có thể được biểu diễn bời mầu sắc

- Trong biểu diễn vector, mỏi đối tượng không gian được thể hiện bằng cấu trúc hình học và giá trị các tình chất chủ đề cần biểu diễn Để biểu diễn cấu trúc hình học của một đối tượng dữ liệu, người ta thường biểu diễn bằng đường biên của đối tượng đó Ví dụ: một vùng điều tra dân số có thể được thê hiện bởi biên của vùng và dân số của vùng đó

ChưniỊ I Giới tliiệu về Khám phá tri thức trong cơ sở dữ liệu không gian

Trang 12

2ơ sở dữ liệu ảnh {Image databases): Có rất nhiều cơ sờ dữ liệu không gian mà

dữ iệu thòng thường chỉ là ảnh Cơ sở dữ liệu ảnh đirợc sử dụng trong cảm biến từ

xa, iữ liệu y học Những cơ sở dữ liệu này được lưu trữ dưới nhiều loại hình thức khá: nhau như ma trận lưới, ma trận mật độ

1.14 Cấu trúc dữ liệu, các phép toán và truy vấn không gian:

I Cấu trúc dữ liệu

Troig các thuật toán được áp dụng để khám phá dữ liệu không gian, người ta thường

sử (ụng nhiều lần các phép toán không gian như phép toán kết hợp không gian

(spưial joins), phủ bản đổ (map overlay), điểm láng giềng gần nhất Do đó, để có

đưạ: những thuật toán khám phá tri thức hiệu quả đòi hỏi phải có phép toán không

giai hiệu quả Những phương pháp truy nhập không gian (SAM-Spatial Access

Metioiỉ) và cấu trúc dữ liệu cho những phép tính đó là vấn dề quan tâm trong khám

phádữ liệu không gian Chúnu ta sẽ giới thiệu ngắn gọn một vài cấu trúc dữ liệu và nhCne tính toán không gian

Cấu trúc dữ liệu không gian: đối tượng dữ liệu không gian gồm: điểm ÌỊìoints), đưòìg (line), hình chữ nhật {rectangle) Đế xây dựng cấu trúc cho các dữ liệu khỏig gian, nhiều cây đã được đề xuất: Cây tứ phân {quadtree) IFB74K k-d tree

[DEM981, R-tree IAG85] R*-tree , trong đó một trong những cáu trúc thường hay đượ: dùng nhất là cấu trúc R-tree và những biến đổi của nó (R*-tree, R‘-Tree) Cấu trúc R-tree là một cây mà tại mỗi nút lưu trữ một tập các hình chữ nhật Tại lá của:ây là biểu diễn một đối tượng dữ liệu bằng đường biên của đôi tượng dữ liệu đó

và hnh chữ nhật biên nhỏ nhất của điểm dữ liệu Đối tượng được lưu giữ trong một

cây R-Tree dược xấp xỉ bởi một hình chữ nhật biên nhỏ nhất (MBR-minimum

bouiíling rectangle) Những đối tượng dữ liệu bên trong của mỏi hình chữ nhật là

nhữie COI1 trỏ thì trỏ đến nút con và hình chữ nhật biên nhò nhất chứa tất cả các hình chữihật chứa trong nó tất cả các nút con

I Các phép toán không gian

ClnơiHỊ I Giới thiệu về Khám phá tri thức tì ong cơ sở dữ liệu khôni> gian

Trang 13

Trang / 2/91

Cc phép toán không gian là các phép toán dùng để áp dụng lên các đối urựng không gun như phép toán kết hợp không gian, phép toán xấp xi đỏi tượng không gian, phép tán tìm kiếm, Trong các phép toán đó thì 3 phép toán sau là 3 phép toán thông ding và tlnrờng được sử đụng nhiều nhất

- Phép toán xấp xi đối tượng không gian: đối tượng không gian có thể rất phức tạp

vi có hình dạng bất kì Do đó, việc xử lý các đối tượng không gian đó thường đòi hỏi nlững cách làm phức tạp đòi hỏi nhiều thời gian và chi phí tốn kém Để giảm thời gitn tính toán và đơn giản hoá quá trình xử lý đối tượng không gian, thông thường ta x;p xỉ đối tượng về một dạng đối tượnc; đơn giản hơn Ví dụ như xấp xỉ một đa giác

lổ bằng một hình tròn, xấp xi một đa giác bất kì bằng một đa giác có các đường bin song song với các trục,

- Phép kết hợp không gian (spatiaì join) là một trong những phép toán không gian

vá độ phức tạp lớn nhất Thông thường các truy vấn trên cơ sở dữ liệu không gian thrc hiện dựa trên phép kết hợp không gian Do đó, các truy vấn không gian chi có thi có hiệu quả nếu phép kết hợp không gian được thực hiện hiệu quả Brinkhoff đã duì ra một quá trình nhiều bước để tăng sự hiệu quả của phép toán kết hợp dựa trên

CcV R*-Tree và nhiều phép xấp xí đối tượng không gian

- Một phép toán quan thường được dùng trong hệ thống thông tin địa lý G1S là phép tan phú bản đồ

c Truy vấn không gian

Tuy vấn không gian chính là quá trình tìm kiếm các đối lượng dữ liệu không gian th>ả mãn nhu cầu của người dùng Khác với phép truy vàn cơ sờ dữ liệu quan hệ, tny vấn không gian phức tạp hơn do tính chất phức tạp đặc thù của các đối tượng klàng gian Thóng thường các phép truy vấn không gian gắn liền với các phép toán triy câp cơ sờ dữ liệu khỏng gian, tìm kiếm dôi tượng không gian, ghép các đối tưnig không gian (phép kết hợp không gian),

Đi truy vấn không gian hiệu quả, Aref và Samet đã đưa ra một cấu trúc cho cơ sở dữ

liei không gian gọi là SAND (spatiưl aml nonspatiaI databưses) và chiến lược tối ưu

Ctươììg / Giới thiệu vé Khảm phá tri thức trong cơ sà dữ liệu kliôtHỊ lỊÌaiì

Trang 14

ch) quá trình truy vân không gian trên câu trúc cơ sờ dữ liệu đó Cấu trúc này là mở rộig của cấu trúc cơ sở dữ liệu quan hệ bằng cách thêm vào các cấu trúc cho thuộc tím không gian và với các phép toán không gian trên những thuộc tính đó.

12 Những phương pháp khám phá tri thức trong cơ sở dữ liệu không gian.

ĨYmg thời đại bùng nổ thông tin như hiện nay, thông tin không chỉ được biểu hiện bằig các hình thức thông tlnrờng mà được lưu trữ da dạng hơn với nhiều loại hình cơ

iứ Jữ liệu khác như cơ sờ dữ liệu không gian Cơ sở dữ liệu không gian gồm các đối ưoig không gian và cả những mô tả phi không gian của đối tượng đó Những mô tả

ih không gian của các đối tượng khôn" gian được lưu trữ trong cơ sở dữ liệu quan

hệ truyền thống như cơ sở dữ liệu dạng bảng, cơ sỏ' dữ liệu danh sách liên kết Nílĩĩng thuộc tính không gian được lưu trữ trong những cơ sở dữ liệu dặc trưng cho

lô tượng dữ liệu không gian

Dì liệu khổng gian về một đối tượng không gian có thể ỏ' hai dạng:

1 Dạng hình học: ví dụ như vị trí không gian của đôi tượng, miền mà đối tượng phú, bán kính của đối tượng,

2 Các thuộc tính quan hệ: là quan hệ vị trí của các đối tượng dừ liệu không gian Quan hệ đó có thể là có thể là liền ké (dôi tượng A là hàng xóm của đối tirợng B), bao gổm (đối tượng A nằm trong đối tượng B) và những quan hệkhác

Vhìng thuật toán được áp dụng trong lĩnh vực khám phá tri thức gồm những phương

>h.p tổng quát hoá cho các đặc trưng không gian và những luật đặc biệt [JYN93, vVi93 RTJ941 những phương pháp tính toán không gian hai bước cho tìm kiếm luật

<ếihợp không gian, kĩ thuật xấp xỉ kết hợp dê tìm ra những đặc trưng của lớp không giai

clương / Giới thiệu vè Khám phá tri thức trong cơ sở dữ liệu klìôntị gian

Trang 15

Trang 14/9 \

1.1.1 Khám phá tri thức dựa trên tổng quát hoá

Klám phá tri thức dựa trên tổng quát hoá là phưcmg pháp kháp phá tri thức dựa trên

ihmg tri thức cơ sờ trong hệ thống cấp bậc khái niệm (concept hierarchies) Với hệ

h<ng tri thức khái niệm có được, ta có thè thu được những tri thức từ cơ sờ dữ liệu bằig cách áp dụng những đối tượng dữ liệu lên hệ thống khái niệm đó

Vá cơ sở dữ liệu không gian thì có thể có 2 loại hệ thống cấp bậc khái niệm: 1) hệ hcng cấp bậc khái niệm cho thuộc tính phi không gian và 2) hệ thống cấp bậc khái lien cho thuộc tính không gian Những hệ thống cấp bậc khái niệm này có thể được

iưi ra bởi các chuyên gia hoặc trong một sô' trường hợp được xây đựng một cách tự íộig dựa vào việc đánh giá dữ liệu [JY941

lunhững hệ thông cấp bậc khái niệm, ta đi xây dựng cây khái niệm sao cho những

<h.i niệm tổng quát hơn ờ lớp trên và phù hợp với các khái niệm ở lớp dưới

Tnng khám phá tri thức trong cơ sở dữ liệu không gian dựa trên tổng quát hoá dựa và« hệ thống cấp bậc khái niệm tlurờng sử dụng phương pháp đệ quy hướng thuộc ÍI1I đi theo hệ thống cấp bậc tổng quan đế đưa ra được mối quan hộ giữa dữ liệu dung gian và dữ liệu phi khổng gian ở mức khái niệm cao hơn

Oệquy hirớng thuộc lính có thể được thực hiện bằng cách: 1) di ngược lèn hệ thống

•ấ| bậc khái niệm cho đến khi những giá trị thuộc tính trong đường đi {tuple) đó đến

n<t giá trị tổng quát, 2) loại bỏ những thuộc tính mà nếu giữ lại những thuộc tính đó hìkhông thể đưa đến được các tổng quát hơn Quá trình trên dược thực hiện quy nạp

111 đến khi giá trị của mọi thuộc tính được tổng quát hoá ở một mức độ yêu cầu Mic độ này thông thường thoả được khi mà số giá trị khác cho những thuộc tính lư<c tổng quát hoá trong bảng dữ liệu nhò hơn một ngưỡng tống quát hoá cho thuộc

ím đó

5híơng pháp tổng quái hoá thường được áp dụng cùng với phương pháp học từ ví dụ

nải (learning from example) IWJB931 Tuy nhiên, phương pháp học từ ví dụ mẫu cổ

liéi khó có thể áp dụng trực tiếp cho cơ sở dữ liệu không gian vì: 1) thuật toán yêu

;ầi sô' ví dụ mẫu lớn (thường là yêu cầu đến một hàm số mũ các ví dụ mẫu), 2)

Chrơiig ỉ Giới thiệu về Khám phá tri thức trong cơ sở (lữ liệu khôniỊ gian

Trang 16

khỏg đưa ra được kết quả chính xác khi dữ liệu có nhiễu hoặc dữ liệu không chắc chá Để khác phục hai điểu trên Han et al đã đưa ra phươtig pháp quy nạp hướng

thuc tính (Attribitte-oriented induction algorithms) đê khám phá tri thức trong cơ sờ

dữ ệu quan hệ lớn Kế tiếp, Lu et al | WJB931 mở rộng kĩ thuật trên cho cơ sờ dữ liệiKhông gian

1 Ting quát hoá dựa trên dữ liệu không gian.

Tốn quát hoá dựa trên dữ liệu không gian bắt đầu bằng việc thu thập toàn bộ dữ liệu

mà gười sử đụng quan tâm Từ một hệ thống cấp bậc không gian, tổng quát hoá có thể ược thực hiện bằng cách ghép các miền đã thu thập được dựa vào mô tả thuộc tínlcúa các miền và mô tả trong hệ thống cấp bậc khái niệm không gian Quá trình tổn; quát hoá các đối tượng không gian được tiếp tục thực hiện cho đến khi một ngưng về tổng quát hoá không gian được íhoả mãn (thường ngưởng tổng quát hoá khóg gian dược thoả mãn khi số miền trong vùng chưa vượt qua một giá trị ngưng) Sau khi quá trình tổng quát hoá không gian được thực hiện, những dữ liệu phi hòng gian được thu thập và đánh giá cho mỗi đối tượng không gian bằng kĩ thui quy nạp hướng thuộc tính như đã trình bày ở trên

2 'líng quát hoá dựa trén dữ liệu phỉ không gian.

Phưng pháp này bắt đầu với việc thu thập những đối tượng dữ liệu thoả mãn yêu cầu ủa người sử dụng Trong bước kế tiếp thuật toán thực hiện quy nạp hướng thuộc tínhrên những thuộc tính phi không gian, tổng quát hoá đến mức khái niệm cao nhá Những con trỏ trỏ đến những miền không gian thoa mãn sẽ được lưu trữ lại Troe quá trình tổng quát hoá, ngưỡng tổng quát hoá dùng để quyết định có tiếp tục hay:ết thúc quá trình tổng quát hoá Ớ bước cuối cùng, những đối tirợiig không gian đưọtlui thập trong bước thứ hai sẽ được kết hợp với nhau dựa vào hàm đánh giá liên kết hông gian Ở bước này, quá trình gần đúng được áp dụng để bỏ qua những miền

có cện tích nhỏ hoặc những miền mà người sử dụng không quan tâm tới

Để ưa ra kết quả, hai thuật toán tổng quát hoá trên đểu dựa vào một hệ thống phàn cấp hái niệm đã có sẵn hoặc được tạo ra một cách tự động Chính vì thế, hệ thống

Chung ỉ Giới thiệu về Khám phá tri thức trong cơ sở dữ liệu không IỊÌan

Trang 17

lự vào hệ thống phân cấp khái niệm.

1.22 Phương pháp phát hiện luật kết hợp không gian

ĩirmg tự như trong khám phá tri thức tổng quát, phương pháp pháp hiện luật kết hợp ching gian cũng là một phương pháp quan trọng trong khám phá tri thức trong cơ sở iữliệu không gian Phương pháp phát hiện luật kết hợp không gian đưa ra những

uậ về sự kết hợp giữa một hoặc nhiều thuộc tính không gian hoặc phi khổng gian lốivới một hoặc nhiều thuộc tính không gian hoặc phi không gian khác

Chú niệm về luật kết hợp lần đầu tiên được đưa ra bởi Agrawal et al ỊRTA93Ị trong

hì nhóm của Agrawal tiên hành nghiên cứu khám phá tri thức trong cơ sờ dữ liêu

;ia> dịch lớn Sau đó, Koperski và Han ỊK.I95I đã mở lông khái niệm này cho cơ sớ

lữ iệu không gian Khái niệm về luật kết hợp được phát biểu như sau: một luật có lạig X-> Y(c%) với X và Y là tập các thuộc tính không gian hoặc phi không gian

ớiđộ tin cậy là c% được coi là luật kết hợp không gian nếu có ít nhất c% đối tượng

Jioig gian trong trong cơ sờ dữ liệu không gian đang xét thoả mãn: nếu điều kiện X ỉưc thoà mãn thì điểu kiện Y cũng thoá mãn

/ í lụ lu ật sau là lu ật kết h ợ p k h ô n g g ian : is _ a (x , s c h o o l) - ỳ c lo s e (x , p a rk ) (80%)

Al t trê n th ể h iệ n là: 80% trư ờ n g h ọ c g ầ n với c ô n g viên.

'ỉhr vậy, có rất nhiều kiểu thuộc tính không gian có thể tạo thành những luật kết hợp h<ng gian Điều này khiến cho trong nhiều trường hợp sổ luật kết hợp tìm được

ưc quá nhu cầu Đê’ hạn chế số luật kết hợp tìm được, người ta sử dụng khái niệm

iỗ rợ tối thiểu a (minimum support) và độ tin cậy tối thiểu ỗ (minimum confidence)

ỉa tham số sẽ giúp loại bớt các luật tìm thấy và chí để lại những luật thực sự có ích h< người sử dụng:

7rong I Giới thiệu vé Khúm phá tri thức trong cơ sở dữ liệu không gian

Trang 18

i Fỗ trọ tối thiểu:

Yoig cơ sở dữ liệu lớn, có thể có rất nhiều luật giữa các đối tượng nhưng phần lớn ủaluật đó chỉ có thể áp dụng vào một số nhỏ các đối tượng hoặc độ tin cậy của luật

i nt thấp Chính vì thế mà phẩn lớn các luật không có ích với người sử dụng Ví dụ

giơi sử dụng có thể khóng quan tâm nhiều tới mối quan hệ giữa nhà ờ và trường

bcnếu luật đó chỉ áp dụng cho 5% số nhà ở trong khi người ta muốn ít nhất luật đó

ùn; phải được áp dụng cho trên 50% các ngôi nhà Do đó, chúng ta có thể lọc bỏ hũig luật kết họp mà chỉ có thể áp dụng được cho một số nhỏ các đối tượng mà chỉ

,iữ ại những luật có thể áp dụng cho a% đối tượng trong cơ sở dữ liệu.

ỉộ tin cậy tối thiểu:

ỉếi một luật được đưa ra với mức độ tin cậy (độ tin cậy là tỉ lệ số đối tượng dữ liệu

no mãn X và thoả mãn Y so với tổng số các đối tượng thoả mãn X) thấp thì cũng hôig có nhiều ý nghĩa ứng dụng Ví dụ như luật: số người bị bệnh tim do ăn cá

ỉiểi chi đúng 1% thì gần như không có ý nghĩa trong y học khi chẩn đoán nguyên

ìhậi bị bệnh tim của một bệnh nhân Do đó, chúng ta sẽ loại bỏ những luật có độ tin

ặythấp mà chỉ lại luật có độ tin cậy cao tỷ lệ đúng tối thiểu Ô%.

.23 Phương pháp chia lớp (clustering)

Chú lớp và đánh giá lớp là một nhánh của thống kê và đã được nghiên cứu nhiều roig nhiều năm Điểm mạnh của phương pháp này là đưa ra được những cấu trúc có :hioặc những lớp các đối tượng tìm thấy trực tiếp từ dữ liệu mà không cần bất kì

nộ tri thức cơ sỏ' nào Giống như cách tiếp cận học máy, chia lóp được hiểu như là

hẹ không có thầy” (unsupervised learning) Toàn bộ pturơng pháp chia lớp sẽ được

ùm bày ở chương 2 và chương 3 của luận văn

.24 Khám phá tri thức trong cơ sở dữ liệu ảnh và cơ sở dữ liệu raster

vhm phá tri thức trong cơ sở dữ liệu ảnh và cơ sở dữ liệu raster có thể xem như một

■há của khám phá tri thức trong cơ sở dữ liệu không gian Khám phá tri thức trong

ơ ở dữ liệu ảnh có thể xem như một quá trình xử lý ảnh duy chi khác ở điểm: quá ỉhiơn iỊ 1 ■ Giới thiệu về Khám phá tri thức trong cơ sở dữ liệu không gian

Trang 19

đ ã d ự a v à o b a t h à n h p h ẩ n c ơ b ả n : t ậ p t r u n g v à o d ữ liệ u {data focusing), c h i ế t x u ấ t

{classification) g iả i t h i ê n h à , c á c n g ô i s a o và c á c vật t h ể k h ô n g g i a n k h á c vớ i đ ộ

c h í n h x á c k h o ả n g 7 5 % K h á m p h á tri t h ứ c t r o n g c ơ s ờ d ữ liệ u r a s t e r c ủ a S to l o r z et aỉ

ChươtHỊ I Giới thiệu về Khám phá tri thức trong cơ s à (lữ liệu klìôntị ỊỊÍCIII

Trang 20

IP 9 5 1 v à S h e k et al IE R E K 9 6 1 c ũ n g đ ư ợ c á p d ụ n g c h o c ơ s ở d ữ l i ệ u đ ị a lý th ờ i g i a n

M ỗ i đ ố i tư ợ n g d ữ liệ u k h ô n g g i a n t r o n g c ơ s ở d ĩr liệu k h ô n g g i a n đ ư ợ c b i ể u d i ễ n

1.3.1 Cấu trúc dữ liệu cho phân hoạch không gian vector

1 Cây tứ phân (qu ad-tree)

Chương ì Giới thiệu vé Khám phá tri thức rroiiiỊ cơ sở dữ liệu khôniỊ gian

Trang 21

Trang 20/91

C â y t ứ p h â n | K J J 9 8 Ị t h ư ờ n g đ ư ợ c s ử d ụ n g t r o n g k h ô n g g i a n 2 c h i ề u M ỗ i m ộ t nú t

t r o n g c â y s ẽ c h i a k h ô n g g i a n t h à n h 4 k h ô n g g i a n c o n M ỗ i m ộ t k h ô n g g i a n c o n đ ó lại đ ư ợ c t i ế p t ụ c c h i a d ê q u y đ ế n k h i c ó k h ô n g q u á m ộ t đ ố i t ư ợ n g t r o n g m ỗ i n ú t , ví

P h é p c h è n v à tì m k i ế m t r ê n c â y k - d tr e e g i ố n g n h ư c â y n h ị p h â n T u y n h i ê n , t h ứ tự

c á c đ i ể m v à o ả n h h ư ở n g r ấ t n h i ề u đ ế n c ấ u t r ú c c ủ a c â y

Chương I Giới thiệu về Khám phá tri thức trong cơ sở dữ liệu không gian

Trang 23

Trang 22/91

n h á t c ó t h ể P h é p t o á n c h è n v à o d ư ợ c th ự c h i ệ n d ự a v à o n h ũ n g th u ậ t t o á n h e u r i s t i c với m ụ c đ í c h t ì m r a n ú t là s a o c h o v iệ c c h è n đ i ể m m ớ i v à o s ẽ là m c h o s ự th a y đ ổ i

Trang 25

Trang 2419 1

ỉf d(Ọ, pv) - r < M then tìm kiếm trên cây trái

7 M - w a y v p - tr e e

M-way vp-tree (multi-way vp-tree) [TM97Ị là một mở rộng của vp-tree với mục đích

làm giảm dộ cao của cây Cấu trúc của M-way vp-tree cũng tương tự như vp-tree nhưng khác một điểm là: những đối tượng dữ liệu tại một nút sẽ được chia thành m nhóm dựa vào khoảng cách của chúng tới Py Giá trị để chia thành m nhóm được gọi

là giá trị cát: cutoff và được lưu giữ tại các nút

Thời gian để tính toán trên M-way vp-tree là 0(nlogmn) tốt hơn 0(nlog2n) với vp- tree Tuy nhiên, khi áp dụng với không gian nhiều chiều, những vết cắt hình cầu có thể tạo ra những lớp nhỏ và phép toán tìm kiếm có thể phái duyệt một nhánh rất nhiều lần

8 Multi-vantage-point tree

Một thay đổi khác của vp-tree là mvp-tree (Multi-vantage-point tree) ỊTM97Ị Mvp-

tree sử dụng hai vantage point PV1 và pv2 đế chia dữ liệu trong mỗi nút Mỗi một nút bên trong có thể được xem như hai tầng của vp-tree Ở tổng đầu tiên, dữ liệu được chia dựa vào PV| và những điểm con của PV| lại dược chia một lần nữa dựa vào PV2-

Mỗi nút lưu trữ các đối tượng dữ liệu và khoảng cách cùa đối tượng dữ liệu đó đến

cả hai vantage point Đổng thời, mỗi nút sẽ lưu trữ thêm những thống tin về khoảng cách đến điểm p - điểm đầu tiên trên đường đến nút đó Thông tin này được sử dụng

đc giảm thời gian tính loán về khoảng cách trong quá trình tìm kiếm

Trang 26

M-tree là câu trúc cây phàn hoạch các đối tượng phụ thuộc vào mối quan hệ khoáng cách M-tree IPMP97I được thiết kế đê phân hoạch không gian metric với hàm khoảng cách d (phương pháp này cũng có thể áp dụng cho khóng gian vector) Hàm khoảng cách phải có những tính chất sau:

- Đói xứng: d(x, y) = d(y, x)

- Không âm: d(x, y) > 0 nếu X * y và d(x, x) = Ü

- Thoả mãn tính chất tam giác: d(x, y) < d(x, z) + d(z, y)

Mục đích của M-tree là không những giảm sự truy nhập vào các nút trong quá trình tìm kiếm mà còn giảm sô' bước tính toán khoảng cách

Nút trong cày có cùng một độ lớn Những đối tượng được đánh thứ tự và được lưu trữ tại lá Mỗi nút chứa những thông tin sau:

- Đối tượng ọ

- Con trỏ đến cây con ptr

Miền phủ với bán kính r Khoảng cách từ Or đến nút cha

Đối tượng t| được sử dụng để phân hoạch không gian: Mọi đôi tượng trong cây con của o , (được chiếu đến bởi ptr) phải nằm trong bán kính r (r>0) lừ 0, Khoảng cách

từ o, đến nút cha của o, là khoảng cách từ đối tượng mà chiếu đến Or Những thông tin này dùng đê’ giảm thời gian tính toán khoảng cách trong quá trình duyệt cây

Chương J Giới thiệu vẽ Khám phá tri thức trong cơ sỏ dữ liệu không gian

Trang 27

Trang 26/91

1.3.3 Những câu trúc dữ liệu khác trong khai thác dử liệu không gian.

Trong khai thác d ữ liệu trong cơ sở d ữ liệu khóng gian người ta thưòng sử d ụ n ơ cấu trúc d ữ liệu sau:

1 Đổ thị láng giềng

Đổ thị láng giềng G IMHJ971 cho quan hệ láng giềng giữa các đối tượng là G(U, H)

với u là tập các đinh và H là tập các cạnh Mỗi một đính thể hiện một đối tượng và hai nút N| N2 được nối với nhau tạo ra một cạnh nếu N| và N, có mối quan hệ láng giềng

Mối quan hệ láng gicng có thê’ là:

- Ọuan hệ hình học: ví dụ như hai đối tượng chạm nhau, phủ lẻn nhau, bằng nhau

- Quan hộ metric: ví dụ khoảng cách giữa hai đôi tưựng nhỏ hơn d

- Quan hệ hướng: đông, tày, nam, bắc

- Quan hệ tách biệt hoặc liên kếto

Đồ thị láng giềng có thể vô hướng hoặc có hướng phụ thuộc vào từng ứng dụng

2 Đường đi láng giểng:

Đường đi láng giềng trong một đồ thị láng giểng là một dãy các đinh V | , V i l ,vn trong

G sao cho V, và vi+| là điểm láng giềng

Những phép toán trong đồ thị láng giềng

a get_Graph(data, neighbor)- Trả ra đồ thị láng giềng G thể hiện cho mối quan

hệ láng giềng neighbor trong dữ liệu data

b Gct_Neighborhood(G, o, pred)- Đưa ra tẠp các đối tượng nối với đối tượng o bằng các cạnh trong đổ thị G Sau đó, sử dụng điều kiện pred để chọn ra những đối tượng cho mục đích của người dùng

c Creat_Path(G, pred, i): Trả ra tập đường đi trong G với độ dài nhỏ hơn hoặc bằng i thoả mãn điều kiện pred Các đường đi không được phép có chu trình

CliươHiỊ ì Giới thiệu vê Khám phá tri thức trong cơ sở dữ liệu không gian

Trang 28

1.4 Các hướng phát triển của khám phá tri thức trong dữ liệu không gian.

Khám phá tri thức là một lĩnh vực chỉ mới được đề cập đến từ những năm 1980 Khám phá tri thức trong cơ sờ dữ liệu không gian lại còn là ngành trẻ hơn và ra đời sau rất nhiều so với khám phá tri thức trong cơ sở dữ liệu quan hệ Trên cơ sờ tiếp thu và phát triển, rất nhiều phương pháp khám phá tri thức trong cơ sờ dữ liệu không gian đã được mở rộng từ phương pháp dùng cho cơ sở dữ liệu quan hệ Tuy vậy, có thể dể dàng nhận thấy cơ sờ dữ liệu không gian gần như khác xa so với cơ sở dữ liệu quan hệ Ngoài ra, một hệ cơ sở dữ liệu mới được đưa ra trong những năm gán đây là

cơ sở dữ liệu hướng đối tượng cũng được mở rộng từ cơ sở dữ liệu quan hệ Do đó, những phương pháp khám phá tri thức có thể sẽ được nghiên cứu với những mô hình như sau IEKI:

- Khám phá tri thức Irong cơ sờ dữ liệu hướng đối tượng (object-oriented

dưtưbasesỴ Làm thế nào để sử dụng thiết kế hướng đối tượng cho cơ sở dữ liệu

không gian và khám phá tri thức trone những cơ sở d ữ liệu hirớnq đối tượng là một câu hỏi lớn cần dược giải đáp Những nhà nghiên cứu đã chí ra là: để xử lý d ữ liệu không gian, cơ sớ d ữ liệu hướng đối tirợng có thể là lựa chọn tốt hơn so với cơ sở d ữ

liệu quan hệ truyển thống hoặc các mở rộng của cơ sờ d ữ liệu quan hệ Ví dụ như những đôi tượng như hình chữ nhật, đa giác và những đối tượng phức tạp khác có thể được biểu diễn một cách dễ dàng dưới cơ sờ d ữ liệu hướng đối tượng Những kỹ thuật Mohan và Kashyap, SAM hoặc R-Tree có thể làm cho cơ sở dữ liệu hướng đối tượng hiệu quả hơn trong truy vấn dữ liệu

- Khám phá dưới mức dộ không chắc chắn {minmì’ under uncertaintỵ): Các lý do

bằng chứng có thể được sử dụng khi mô hình không chắc chắn được áp dụng cho quá trình khai phá cho cơ sở dữ liệu ảnh và những cơ sở dữ liệu khác Bell et ai IDSC941 đã chứng minh rằng lý thuyết bằng chứng có thể mỏ tá sự không chắc chắn tốt hơn nhiều so với các mô hình thống kê truyền thống như phương pháp Bayess Tập mờ có thể được áp dụng và mờ rộng cho khám phá tri thức trong cơ sở dữ liệu không gian

Chương 1 ■ Giới thiện về Khám phá tri thức trong cơ sở dữ liệu không iỊÌan

Trang 29

Trang 28/91

- Những kĩ thuật chia lớp mới: Những hướng tương lai cho bài toán chia lớp có thể được phát triển để áp dụng cho những đối tượng thậm chí cùng phủ clning một miền

(overtap) Lóp dược chia có thê chứa đụng thêm những lliông tin về các đôi tượng

nằm trong lớp ví dụ như mức độ thuộc lớp của một đối tượng Để giải quyết vấn đề này, kĩ thuật chia lớp mờ có thể được áp dụng để làm phù hợp cho những đối tượng

có thể nằm trong cả hai lớp

- Khám phá luật độ lệch và phát triển không gian: Một I11Ở rộng so với các nghiên cứu hiện nay là nghiên cứu luật độ lệch và phát triển không gian Ví dụ ta có thể tìm những luật phát triển tính chất để tổng quát hoá lên sự thay đổi của dữ liệu Trong quá trình khám phá, ta có thể tìm ra được các thuộc tính hoặc tính chất của một vùng không gian nào đó Mộ» luật không gian biệt thức có thể mô tả dược tính chất của các đối tượng trong một lớp khác so với các đối tượng không thuộc lớp

- Sử dụng bản đổ nhiều chủ đề: Nhiều ứng dụng dòi hòi quá trình khám phá dữ liệu phải được thể hiện trên bàn đổ nhiều chuyên đề thay vì một chuyên đề được áp dụng trong quá trình tổng quát hoá Yêu cầu này không chi đơn giản là chia lớp mà là tính toán những phủ bản đổ, phép hợp không gian

- Mở rộng tổng quát: đê mở rộng các phương pháp dựa trên tổng quát hoá, ta có thê thêm vào các tính chất không gian hoặc phi không gian vào kết quả nhận được để được những kết quả lốt hơn

- Tổng quát hoá dựa vào dữ liệu không gian thời gian thực: Quá trình tổng quát hoá dược thực hiện trẽn dữ liệu được thu thập trong những khoảng thời gian khác nhau, sau đó so sánh, tổng kết dữ liệu để đưa ra dược những quy luật biến đổi của dữ liệu

- Song song hoá khám phá tri thức: Do cơ sờ dữ liệu không gian thường là rất lón nên việc song song hoá hoặc phân tán công việc trên nhiều trạm làm việc sẽ đưa ra được kết quả nhanh hơn

- Sự kết hựp giữa nhà phân tích thống kê và quá trình khám phá tri thức: Những kĩ thuật khám phá tri thức kết hợp với các phương pháp thống kê có thể đưa ra những kĩ thuật mới trong khám phá tri thức K7 thuật mới này có Ihể giải C]uyết được nhiều bài toán trên nhiều cơ sở dữ liệu khác nhau Những kì thuật thống kê có thể giúp cho quá trình đánh giá độ chính xác của những luật hoặc tri thức tìm được

Chương I Giới thiện về Khám phá tri thức trong cơ sở (lữ liệu không gian

Trang 30

- Ngôn ngữ truy vấn cho khám phá tri thức khống gian: Thiết kế giao diện người dùng có thê là chìa khoá đẻ mờ rộng kĩ thuật khám phá tri thức Một ngôn ngữ truy vấn có thể dược tạo ra ctê phục vụ cho những người không phải là chuyên gia cơ sở

dữ liệu Những đánh giá từ kết quả truy vấn có thể cung cấp thêm cho hệ thống các ihỏng tin phục vụ cho quá trình truy vấn sau

- Khám phá tri thức trong cơ sờ dữ liệu không gian chứa dữ liệu lỗi Cơ sở dữ liệu không gian thườnc được số hoá với một độ chính xác cho phép Do vậy, có thể đường bicn của các bản đồ chuyên để đề có thể khác nhau Những phương pháp tốt

là những phương pháp có thể đưa ra được kết quả với những vấn đề về lỗi trong cơ sở

dữ liệu hoặc cơ sở dữ liệu không sạch

- Biểu diễn luật đa chiều: khám phá tri thức sẽ không đem lại lợi ích cho người sử dụng nếu như người sử dụng không hiểu được những tri thức mà hệ thống đưa ra Vì thè việc biểu diễn để người sứ dụng có thể hiệu được những tri thức đó là rất quan trọng Một cách tốt nhất là biểu diễn trên đồ hoạ Biểu diễn dữ liệu đa chiều đã được nghiên cứu nhiều [ KDH96Ị nhưng biểu diễn luật đa chiều vẫn là một rỉnh vực rất ít

được nghiên cứu

- CiIS thòng minh: những phương pháp khám phá tri thức dữ liệu không gian nên kết hựp với những điểm mạnh của cơ sở dĩr liệu khône gian như cơ sờ dữ liệu Inrớng dối tượng, cơ sở dữ liệu không gian thời gian thực, phán tích thống kê để tạo ra một

hệ GiS thông minh phục vụ tốt hơn cho người sử dựng

Chương ì Giới thiệu về Khám phủ tri thức trong cơ SỞ dữ liệu không gian

Trang 31

Trang 30/91

2.1 Giới thiệu chung

Chia lớp là quá trình chia các điểm dữ liệu trong cơ sờ dữ liệu thành các lớp sao cho những điểm dữ liệu trong cùng một lớp có độ tương đổng lớn và những điểm dữ liệu không cùng một lớp có sự tương đồng là rất nhỏ, ví dụ:

Hình X Mỏ hình \>ê chia ÌỚỊ) cúc trường hợp dựa trên tiêu chuẩn vê thu nhập

và số nợ Lóp ì là lớp những người thu nhập cao sô nợ nliiêu, IỚỊ) 2 ỊỊồm sô' người thu nliập cao nhưng nợ ít và lớp 3 ìà lóp đôi tượng thu nhập thấp nhưng nợ nhiều.

Quá trình chia lớp là quá trình tìm ra những lớp đối tượng trong cơ sở dữ liệu một

cách tự động Không giông như phân lớp (clasì/ication), chia lớp không cần những

thông tin được xác định trước của lớp Nói cách khác chia lớp là phương pháp học từ

quan sát (leanùng Ịrotn ohversation) hay còn gọi là học không thầy (unsuperviseil

ìeaminỉỊ or uutomatic dassỷication) trong trí tuệ nhân tạo Chia lớp đặc biệt hiệu quả

khi ta không biết về thông tin của các lớp, hoặc khi ta quan tâm tới những thuộc tính của lớp mà ta chưa biết hoặc biết rất ít về nhữrm thông tin đó

Đã có rất nhiều thuật toán cũng như hệ thống đirợc phát triển cho bài toán chia lớp trong cơ sờ dữ liệu lớn kể từ khi CLARAN ỊNH94I được đưa ra Sự phát triển của lĩnh vực này đã được áp dụng vào nhiều lĩnh vực ứng dụng khác như xử lý ảnh, nhận dạng, đánh giá kinh doanh Sự đa dạng của thuật toán chia lớp là do sự khác nhau

Chưưm> 2 CIÙ(I ló p ỉro/iị’ c ơ s ờ d ữ liệ u k h ôn g g ia n

Trang 32

cùa những ứng dụng thực tế cũng đẫn tới những yêu cầu về dữ liệu khác nhau và đòi hỏi những thuật toán chia lớp khác nhau.

Một trong những câu hỏi lớn đặt ra tronc bài toán chia lớp là do độ tương đồna

không gian giữa các dối tượng dữ liệu (spatial similarity) Tron2 dữ liệu không gian thì độ đo tương đổng được xem như sự quan hệ về vị trí khống gian giữa các đối tượng dữ liệu Nói cách khác là hai đối tượng dữ liệu được gọi là tương đổng nếu

“khoảng cách không gian” giữa chúng là nhỏ

Để xác định được quan hệ vị trí không gian của hai đổi tượng dữ liệu trong cơ sở dữ liệu không gian, chúng ta cần quan tâm tới giá trị thuộc tính không gian của các đối tượng dữ liệu Trong cơ sớ dữ liệu không gian, những giá trị này thường được biểu diễn bởi kiểu số và là kiêu đo được liên tục Ví dụ nhu vị trí của một ngôi nhà so với một hệ trục toạ độ có thè được biểu diễn bằng góc mà nhà dó tạo với trục và khoảna cách từ ngôi nhà đến gốc toạ độ

Một trong những plurơng pháp đo độ tương đồng giữa hai đối tượng là bằng nghịch

đào của hàm không tương đồng {dissimilarity function) Hàm không tương đồng

hàm dựa trên những thuộc tính không gian của các đối tượng dữ liệu như: toạ độ của các đối tượng, độ cao của các đối tirợng, Trong nhiều trường hợp thì hàm không tương đồng dược xem như là hàm khoảng cách không gian giữa các đối tượng như hàm khoảng cách Euclid, hàm khoảníĩ cách Manhattan, hàm khoảng cách Minkowski

Bài toán chia lớp là quá trình chia một cơ sớ dữ liệu thành những nhóm đối tượng dữ liệu phục vụ cho mục đích cụ thể của từng ứng dụng thực tế Không có một thuật toán chia lớp nào là tốt nhất và thích hợp cho tất cả mọi ứng dụng mà với mỗi ứng dụng khác nhau thì người sử dụng phải lựa chọn ra một thuật toán chia lớp cụ thê thích ứng với ứng dụng đó Kết quả đánh giá cho từng thuật toán cũng phụ thuộc vào những yêu cầu của từng ứng dụng

Chư ơH iỊ 2 C h ia lớ p trong c ơ s ỏ d ữ liệ u không gian.

Trang 33

1 Thuật toán phái liiệu quả và thời gian chạy phải là tăng tuyến tính theo kích thước của dữ liệu

2 Thuật toán phải có khả năng xác định được những lớp với hình dáng bất kì bao gồm cả những lớp có hình dạng lồng nhau, lớp có có hình dạng lõm

3 Thuật toán phái xử lý và áp dụng được với cơ sờ dir liệu nhiều nhiễu, phức tạp

gổm cả dữ liệu khống gian, phi không gian, dữ liệu số, dữ liệu phi số

4 Thuật toán phải thực hiện với mọi thứ tự đáu vào dữ liệu Nói cách khác, kết quả của thuật toán nên độc lập với dữ liệu đầu vào

5 Thuật toán không đòi hỏi nhĩrng tri thức về cơ sờ dữ liệu từ người dùng

6 Thuật toán phải làm việc được với cơ sở dữ liệu chứa nhiều lớp đối lượng dữ liệu phức tạp và có tính chất rất khác nhau

Hiện tại có rất nhiều thuật toán chia lớp trong cư sở dữ liệu không gian đã được đưa

ra Mộl số trong những thuật toán đó đã được đánh giá và thử nghiệm trên cơ sở dữ liệu không gian thực tế Một sỏ' khác mới được hình thành trên mức khái niệm và cơ

cờ lý luận Tuy nhiên, các thuật toán hiện có thì không một thuật toán nào có thể đáp ứng dược đủ các yêu cầu đé ra

C hư ơn t» 2 C lúci lớ p tro n iị c ơ s ớ (lữ liệ u k h ô n g gian.

Trang 34

2.3 Các hướng tiếp cận của bài toán chia lớp trong cơ sỏ dữ liệu không gian.

2.3.1 Phương pháp chia lớp phàn hoạch.

Chia lớp khống thứ bậc hoặc chia lớp theo phản hoạch (nonhierarchy or partition

clustering) chia cơ sở dữ liệu dữ liệu bằng cách xác định trước các đối tượng đại diện

(đối tượng nhân) của các lớp Kế tiếp, với mỗi đối tượng dữ liệu sẽ được đưa vào lóp

mà khoảng cách từ đối tượng dữ liệu đến đối tượng đại diện của lớp là nhỏ nhất Sau mỗi hước thì đối tượng đại diện của mỗi lớp có thể được xác định lại dựa vào các đối lượng dữ liệu thuộc lớp đó

Phương pháp chia lớp phan hoạch có thể được mô tả như sau:

Với tham số đầu vào k là số lớp đã được xác định bởi người dùng, thuật toán phân

hoạch sẽ chọn Ả' đối tượng đại diên cho k lớp (k dối tượng đại diện cổ thể được chọn

ngẫu nhiên hoặc theo một tiêu chuẩn của người sử dụng) Với mỗi một đối tượng dữ liệu q sẽ được đưa vào lớp có đối tượng đại diện gần với LỊnhát Sau đó, đối tượng đại diện của mỗi lớp sẽ được tính lại dựa vào những điểm dữ liệu thuộc lớp đó Thõng tiurờng thì đối tượng đại diện được xác định sao cho sự khoảng cách từ đối tượng đại diện đến điểm xa nhất là nhò nhất có thể được Ví dụ vé quá trình phân

hoạch với k - 3

C h ươm; 2 C h ia lớ p tro n iỊ ( ơ s ờ (lữ liệ u khóm» giu n.

Trang 35

Mô hình thuật toán chia lớp phân hoạch

Input Số lớp k và cơ sở dữ liệu D gồm /I đôi tượng

2.3.2 Phương pháp chia lớp có cấu trúc

Phương pháp chia lớp có cấu trúc (hierarchical clustering) thực hiện việc chia lớp cơ

sờ dữ liệu bằng cách xây dựns một cây mà mỗi nút là một nhóm đối tượng dữ liệu

Chươ/ìiỊ 2 Chia lớp tron ¡Ị cơ sở dữ liệu không gian.

Trang 36

Có hai cách xây dựng cây là: phương pháp ghép nút và phương pháp tách nút Trong phương pháp ghép nút thi mỗi nút cha nhân được bằng cách ghép các nút con lại Trong phương pháp tách nút thì các nút con được sinh ra bằng cách tách nút cha Hai phương pháp chia lớp có thứ bậc tương ứng với hai tư tườnỉĩ đó: Chia lớp có thứ bậc

từ dưới lên và chia lớp có thứ bậc từ trên xuống

Phương pháp chia lớp có thứ bậc xây dựng cây dựa trên khái niệm độ tương đồng

g i ữ a các nhóm đối tượng Trong phương pháp chia ló’p từ dưới lên thì việc ghép lên nút cha sẽ được thực hiện với hai nút mà độ tương đồng giữa 2 tập đối tượng tại hai nút đó là lón nhất Trong phương pháp chia lớp từ trên xuống, ta sẽ tách nhóm đối tượng ở tại nút cha thành 2 hoặc nhiều nhóm đối tượng ở các nút con sao cho độ tương đồng giữa các đối tượng là nhỏ nhất

Việc đo độ tương đổng giữa hai nhóm đối tượng là rất khó và không thể làm chính xác được Thông thường độ tương đồng được đo bởi những hàm cụ thể trong từng ứng dụng bằng những phương pháp xấp xỉ gần đúng

Để chọn được các lớp trong cây mới xây dựng, chúng ta còn cần một tham số điểu

kiện kết thúc (terminal condition) Đây chính là điều kiện để xác định một tập các

đối tượng tại một nút có phải là một lớp hay không Điều kiện kết thúc được đưa vào

từ người sử dụng

1 Chia lớp theo phưưng pháp dưới lẻn.

Khởi tạo mỗi một nút lá ban đầu chỉ chứa duy nhất một điểm dữ liệu (nếu cơ sở dữ

liệu có N điểm dữ liệu thì ban đầu sẽ có N nút) Kế tiếp, tại một bước ghép hai nút

mà độ tương đồng giữa hai tập đối tượng dữ liệu tại hai nút đó lớn nhất Thực hiện

như vậy N- 1 bước, chúng ta được nút góc chứa toàn bộ cơ sờ dữ liệu.

Từ cây mới tạo được, chúng ta đưa ra các lớp bằng cách chọn các tập đối tượng tại các nút thoả mãn điều kiện kết thúc

2 Chia lớp theo phương pháp trẽn xuống.

Xuất phát từ gốc là một lớp với tất cả các điểm dữ liệu trong cơ sở dữ liệu, chúng ta tìm cách chia tập đối tượng tại mỗi nút cha thành hai hoặc nhiều nhóm đối tượng sao

Chương 2 Chia lớp troiìíỊ cơ sở chì liệu klìôiìíỊ íỊÌan.

Trang 37

Trang 36/91

cho sự tương đồng giữa các nhóm đối tượng được chia đó là nhỏ Sau hữu hạn bước

ta sẽ xây dựng được một cây với mỗi nút chứa một tập các đối tượng

Tương tự như phương pháp chia lớp dưới lên, từ cây mới tạo được, chúng ta đưa ra các lớp bằng cách chọn các tập đối tượng tại các nút thoả mãn điều kiện kết thúc

Ví dụ: thuật toán ADNES là thuật toán thuộc phương pháp chia lớp từ dưới lên và thuật toán DIANA là thuật toán thuộc phương pháp chia lớp từ trên xuống ta có thuật toán DIANA,

2.3.3 Phương pháp chia lớp dựa vào vị trí địa phương.

Phương pháp dựa vào vị trí địa phương chia lớp các đối tượng dữ liệu dựa trên mối quan hệ của các đối tượng dữ liệu với những điểm lân cận của của các điểm dữ liệu

đó Trong phương pháp này thì các đối tượng dữ liệu được đưa vào các lớp dựa trên các đối tượng dữ liệu lân cận đối tượng dữ liệu đó Ví dụ trong thuật toán chia lớp DBSCAN, ta chỉ đưa một đối tượng dữ liệu p vào một lớp nếu như số điểm lân cận

của p trong khoảng Eps là lớn hơn Minpts Điều kiện này được gọi là điều kiện thuộc

lôfp của một đối tượng dữ liệu p.Trong thuật toán DBSCAN ỊEKSX96L lớp là một tập các đối tượng dữ liệu liên thông thoả mãn điều kiện thuộc lớp Thuật toánDENCLUE IHK98Ị xây dựng mội lớp bằng cách xây dựng một hàm ảnh hưởng từmột đối tượng dữ liệu lên một đối tượng dữ liệu khác và xác định lóp cho một đối

Chương 2 Chia IỚỊ) trong cơ sỏ dữ liệu khôn tị gian.

Trang 38

tượng dữ liệu dựa trên tổng ảnh hưởng của các đối tượng của các đối trong miền lân cận lên điểm đó DBCLASD rXEKS98l thì chia lớp dựa vào phân bố khoảng cách từ một điểm đến những điểm lân cận Tư tưởng chia lớp của DBCLASD dựa vào quan sát thực tế là: phân bố khoảng cách từ một điểm đến các điểm thuộc cùng một lớp thường xấp xỉ một hàm toán học.

2.3.4 Đánh giá tổng quát

Mỗi một phương pháp chia lớp đều có điểm mạnh điểm yếu và thích hợp cho từng ứng dụng cụ thể

I ) Phương pháp chia lớp phân hoạch:

Phương pháp chia lớp phân hoạch thì đơn giản, dễ áp dụng và hiệu quả đối với inột vài cơ sở dữ liệu nhỏ với các lớp đưa ra có hình dạng lồi Tuy nhiên, do các lớp trong phương pháp chia lóp phân hoạch dược biểu diễn bởi các tâm của lớp và mỗi một điểm dữ liệu được đưa vào một lóp dựa vào khoảng cách từ điểm đó tới tâm của lớp Chính vì thế phương pháp phân hoạch chỉ có thể dưa ra được các lớp có hình dạng là

đa giác lồi mà không thể đưa ra được lớp có dạng lõm, phủ lên nhau hoặc lồng nhau Ngoài ra, nếu cơ sở dữ liệu có nhiễu hoặc có đối tượng quá xa tâm (outlier) thì phương pháp chia lớp phân hoạch cùng không áp cỉụng được vì trong các trường hợp

đó, các đối tượng dữ liệu nhiễu hoặc các đối tượng cỉĩr liệu xa tâm (outlier) sẽ làm tâm của lớp bị lệch đi Do đó, không đưa ra được các lớp chính xác, ví dụ:

Hình 11 Ví dụ về cơ sở dữ liệu và các lớp khi áp dụng thuật toán chia lớp phân hoạch

Chương 2 Chia lớp trong cơ sở (lữ liệu kliông gian.

Trang 39

Trang 38/91

- Cơ sở dữ liệu 1 : Do mỗi đối tượng dữ liệu được đưa vào lớp có tâm gần đối tượng

dữ liệu đó nhất nên các đối tượng nằm về biên của lớp 1 sẽ bị hút về lớp 2, lớp 3 và lớp 4

- Cơ sở dữ liệu 2: Do phương pháp phân hoạch chỉ có thể tạo ra được lớp với hình dạng lồi nên không thể áp dụng cho cơ sở dữ liệu có các lớp hình dạng không lồi

- Cơ sở dữ liệu 3: Khi có điểm dữ liệu nhiều và outlier thì phương pháp phân hoạch cũng không đưa ra được kết quả chính xác

2) Phương pháp chia lớp có cấu trúc thực hiện việc chia lớp bằng các tách hoặc ghép các nhóm đối tượng dựa vào độ tương đồng của các nhóm đối tượng đó Cũng như phương pháp chia lớp không có khả năng chia lớp với hình dạng bất kì Ngoài ra, việc xây dựng lên cây cấu trúc khá phức tạp và phải duyệt cơ sở dữ liệu nhiều lần Điều này dẫn tới có thời gian chạy của các thuật toán chia lớp có cấu trúc lớn Ngoài

ra, các phương pháp chia lớp có cấu trúc đòi hỏi một không gian bộ nhớ để lưu giữ cây trong quá trình xây dựng Do đó, plurơng pháp này cũng không thích hợp với cơ

Hình 12 DBSCAN khi áp dụng lên các cơ sở dữ liệu sau đã tìm ra được chính xác các lóp đối tượng

Chương 2 Chia lớp trong cơ sà dữ liệu không gian.

Trang 40

Hình 13 DBCLASD chia cơ sở dữ liệu sau thành 3 lớp tương ứng.

Mồi phương pháp chia lớp thì thích ứng với một loại ứng dụng và trong những trường hợp cụ thể, người sử dụng sẽ lựa chọn phương pháp chia lớp thích hợp nhất cho yêu cầu ứng dụng của mình Trong một số trường hợp, người ta có thể kết hợp các phương pháp khác nhau để đưa ra một thuật toán chia lớp hiệu quả hơn hoặc thích hợp hơn cho ứng dụng cụ thể

Tuy nhiên, những phương pháp và thuật toán chia lớp hiện tại đều không thê áp dụng

và chia lớp được cơ sở dữ liệu hỗn hợp gồm nhiều lớp đối tượng dữ liệu với tính chất

khác nhau nhưng trong thực tế, cơ sờ dữ liệu không gian ihường chứa nhiều đối tượng dữ liệu hỗn hợp Điều này đã dẫn tới một yêu cầu tìm ra những phương pháp

và thuật toán mới để chia lớp cho cơ sờ dữ liệu không gian hồn hợp cơ sở dữ liệu lớp

đôi tượng Một s ố thuật toán chia l ớ p điển hình cho cơ s ở CỈỮ liệu không gian

2.4 Một sỏ thuật toán chia lớp thông dụng

2.4.1 CLARAN S

CLARANS (Clustei ing Large Application Baseil on RAN DOM Search) [NH941 ỉà

thuật toán chia lớp phân hoạch k-medoid Thuật toán này dựa trên việc tìm kiếm ngẫu nhiên trên đồ thị tập các đối tượng nhân của lớp để tìm ra tập các đối tượng

nhân thể hiện cho các lớp Đối tượng dữ liệu nhân {medoid) là đôi tượng dữ liệu thể

Chương 2 Chia lớp troniỊ cơ sà (lữ liệu khôiiiỊ {ỊÌan.

Ngày đăng: 27/03/2015, 13:21

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
1. INHTL02] Nguyễn Xuân My, Hồ Sĩ Đàm, Trần Đỗ Hùng, Lê Sĩ Quang, Một số vấn dê chọn lọc trong môn tin học, Nhà Xuất bản Giáo dục, 2002, Trang 73- 108Tiếng Anh Sách, tạp chí
Tiêu đề: Một số vấn dê chọn lọc trong môn tin học
Tác giả: Nguyễn Xuân My, Hồ Sĩ Đàm, Trần Đỗ Hùng, Lê Sĩ Quang
Nhà XB: Nhà Xuất bản Giáo dục
Năm: 2002
2. |AG85] Antonin Gunman, R-Trees: A Dynamic index Structure for Spatial Searc hing, Proc. 1984 ACM-SIGMOD Conference on Management of Data, pp47-57, 1985 Sách, tạp chí
Tiêu đề: R-Trees: A Dynamic index Structure for Spatial Searching
Tác giả: Antonin Gunman
Nhà XB: Proc. 1984 ACM-SIGMOD Conference on Management of Data
Năm: 1985
3. IAGGR98] Agrawal, Rakesh, Johannes Gehrke, Dimitrios Gunopulos and Prahhakar Raghavan. Automatic Subspace Clustering o f High Dimensional Data for Data Mining Applications. Proceedings of the 199X ACM-SIGMOD International Conference on Management of Data, Seattle, Washington, June1998 Sách, tạp chí
Tiêu đề: Automatic Subspace Clustering o f High Dimensional Data for Data Mining Applications
4. lAPYYOO] Ada Wai-Chee Fu and Polly Mei-shuen Chan and Yin-Ling Cheung and Yin Sang Moon, Dynamic vp-Tree Indexing for ¡¡-Nearest Neighbor Search Given Pair-Wise Distances, VLDB Journal, volume 9. number 2, ppl54- Sách, tạp chí
Tiêu đề: Dynamic vp-Tree Indexing for ¡¡-Nearest Neighbor Search Given Pair-Wise Distances
Tác giả: Ada Wai-Chee Fu, Polly Mei-shuen Chan, Yin-Ling Cheung, Yin Sang Moon
Nhà XB: VLDB Journal
5. [BHRB9Ớ] Beckmann, H.-P. Kriegel, R. Schneider, and B. Seeger, The R*-tree: An efficient and robust access method for points and rectangles, Proceedings of ACM SIGMOD Int'l. Conf. on Management of Data, pp 322-331, 1990 Sách, tạp chí
Tiêu đề: The R*-tree: An efficient and robust access method for points and rectangles
Tác giả: H.-P. Beckmann, R. Kriegel, B. Schneider, B. Seeger
Nhà XB: Proceedings of ACM SIGMOD Int'l. Conf. on Management of Data
Năm: 1990
6. ỊCPG93] c . J. Matheus and p. K. Chan and G. Piatetsky-Shapiro, Systems for knowledge discovery ill databases, Ieee Trans. On Knowledge And DataEngineering, vol 5, pp 9 0 3 -9 1 3 , 1993url=lntp.y/citeseer. Ill- nec.com/177052.hlinl Tiếng Việt Sách, tạp chí
Tiêu đề: Systems for knowledge discovery in databases
Tác giả: C. J. Matheus, P. K. Chan, G. Piatetsky-Shapiro
Nhà XB: IEEE Transactions on Knowledge and Data Engineering
Năm: 1993

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w