Nghiên cứu khai phá luật kết hợp trong cơ sở dữ liệu địa lý

Trong quá trình khai phá luật kết hợp giao dịch mỗi dòng trong tập dữ liệu là một giao tác và các cột là các mục, còn trong khai phá luật kết hợp không gian thì mỗi dòng là một trường hợ

Trang 1

ĐẠI HỌC THÁI NGUYÊN

TRƯỜNG CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG

LÊ THỊ HỒNG

NGHIÊN CỨU KHAI PHÁ LUẬT KẾT HỢP

TRONG CƠ SỞ DỮ LIỆU ĐỊA LÝ

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Thái Nguyên - 2011

Trang 2

ĐẠI HỌC THÁI NGUYÊN

TRƯỜNG CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG

LÊ THỊ HỒNG

NGHIÊN CỨU KHAI PHÁ LUẬT KẾT HỢP

TRONG CƠ SỞ DỮ LIỆU ĐỊA LÝ

Chuyên ngành: Khoa học máy tính

Mã số: 60 48 01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS ĐẶNG VĂN ĐỨC

Thái Nguyên – 2011

Trang 3

LỜI CẢM ƠN

Tôi xin gửi lời cảm ơn chân thành nhất tới PGS TS Đặng Văn Đức - người

thầy đã tận tình hướng dẫn tôi trong suốt thời gian hoàn thành luận văn, đồng thời cũng là người đã cho tôi những định hướng và ý kiến quý báu về lĩnh vực nghiên cứu này

Tôi xin bày tỏ lòng cảm ơn sâu sắc tới thầy cô, bạn bè cùng khóa, cùng lớp

đã giúp đỡ tôi trong suốt những năm học qua

Xin cảm ơn gia đình, bạn bè, những người luôn khuyến khích, động viên và giúp đỡ tôi trong mọi hoàn cảnh khó khăn

Tôi xin cảm ơn các thầy cô trong trường Đại học Công nghệ thông tin & truyền thông, Đại học Thái Nguyên, các thầy cô và đồng nghiệp trong khoa Công nghệ thông tin & truyền thông, trường Đại học Hồng Đức, Thanh Hóa đã hết sức tạo điều kiện cho tôi trong quá trình học và làm luận văn này

Luận văn được hoàn thành trong thời gian hạn hẹp nên không thể tránh được những thiếu sót Tôi xin cảm ơn thầy cô, bạn bè, đồng nghiệp đã và sẽ có những ý kiến đóng góp chân thành cho nội dung của luận văn, để tôi có thể tiếp tục

đi sâu tìm hiểu về lĩnh vực này trong tương lai

Thái Nguyên, 9/2011

Lê Thị Hồng honglt_hd@yahoo.com.vn

Trang 4

LỜI CAM ĐOAN

Tôi xin cam đoan kết quả đạt được trong luận văn là sản phẩm của riêng cá nhân tôi, không sao chép lại của người khác Trong toàn bộ nội dung luận văn, những điều đã được trình bày hoặc là của riêng cá nhân tôi, hoặc là được tổng hợp

từ nhiều nguồn tài liệu Tất cả các nguồn tài liệu tham khảo được dùng đều có xuất

Trang 5

MỤC LỤC

TRANG Trang phụ bìa

Lời cảm ơn i

Lời cam đoan ii

Mục lục iii

Danh mục các ký hiệu, các chữ viết tắt iv

Danh mục các bảng vi

Danh mục các hình (hình vẽ, ảnh chụp, đồ thị ) vii

MỞ ĐẦU 1

CHƯƠNG 1: TỔNG QUAN VỀ DỮ LIỆU KHÔNG GIAN VÀ KHAI PHÁ DỮ LIỆU KHÔNG GIAN 4

1.1 Cơ sở dữ liệu địa lý 4

1.1.1 Quan hệ không gian và ràng buộc toàn vẹn không gian 6

1.1.2 Phụ thuộc địa lý 8

1.1.3 Geo-Ontology và ràng buộc toàn vẹn không gian 10

1.2 Luật kết hợp 11

1.3 Luật kết hợp không gian 17

1.4 Tình hình nghiên cứu về khai phá luật kết hợp không gian 18

1.5 Khai phá luật kết hợp trong cơ sở dữ liệu địa lý 21

1.5.1 Phụ thuộc địa lý giữa đối tượng đích và đối tượng liên quan 21

1.5.1.1 Phụ thuộc địa lý và luật không đáng quan tâm 21

1.5.1.2 Phụ thuộc địa lý và kết nối không gian 24

1.5.2 Phụ thuộc địa lý giữa các đối tượng liên quan 26

1.5.3 Phụ thuộc địa lý giữa các đối tượng liên quan ở các mức khác nhau 28

CHƯƠNG 2: MỘT SỐ THUẬT TOÁN KHAI PHÁ LUẬT KẾT HỢP KHÔNG GIAN 34

Giới thiệu 34

Trang 6

2.2 Tiền xử lý dữ liệu không gian phục vụ cho khai phá dữ liệu 36

2.2.1 Tiền xử lý dữ liệu, thuật toán cắt tỉa dữ liệu không gian đầu vào 37

2.2.2 Đánh giá thuật toán cắt tỉa dữ liệu không gian đầu vào 40

2.3 Các thuật toán khai phá luật kết hợp không gian 41

2.3.1 Thuật toán tạo tập thường xuyên 41

2.3.1.1 Thuật toán Apriori – KC 42

2.3.1.2 Đánh giá thuật toán Apriori – KC 46

2.3.2 Thuật toán tạo tập thường xuyên không dư thừa cực đại 47

2.3.2.1 Phụ thuộc địa lý và tập thường xuyên đóng 48

2.3.2.2 Thuật toán Max-FGP 50

CHƯƠNG 3: CÀI ĐẶT CHƯƠNG TRÌNH THỬ NGHIỆM 53

3.1 Giới thiệu 53

3.2 Lựa chọn công nghệ 53

3.2.1 Công cụ biên tập, lưu trữ và thể hiện các tầng dữ liệu bản đồ 53

3.2.2 Ngôn ngữ lập trình và hệ quản trị CSDL 55

3.3 Thiết kế chương trình 56

3.4 Dữ liệu thử nghiệm 58

3.5 Cài đặt chương trình 59

3.5.1 Dữ liệu đầu vào 60

3.5.2 Mô đun tiền xử lý dữ liệu không gian 61

3.5.3 Các thuật toán khai phá luật kết hợp không gian 65

3.6 Đánh giá kết quả thử nghiệm 67

KẾT LUẬN 67

TÀI LIỆU THAM KHẢO 70

PHỤ LỤC 73

Trang 7

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

CSDL Cơ sở dữ liệu

GKB Geographic Knowledge Base

OGC Open Gis Consortium

GIS Geographic information system

GeoARM Geographic Association Rule Miner

SQL Structured Query Language

JDBC Java Database Connectivity

ODBC Open Database Connectivity

GUI Graphical User Interface

ER Entity Relationship

OO Object Oriented

GPS Global Positioning System

Max-FGP Maximal Frequent Geographic Patterns

Trang 8

DANH MỤC CÁC BẢNG

Bảng 1.1: Tập dữ liệu đã được tiền xử lý cho khai phá tập thường xuyên và luật

kết hợp không gian 22

Bảng 1.2: Các tập thường xuyên có độ hỗ trợ 50% 22

Bảng 1.3: Các tập thường xuyên và các luật có các phụ thuộc 23

Bảng 1.4: Các tập thường xuyên đóng 24

Bảng 1.5:Các quan hệ topo theo ngữ cảnh của các đối tượng địa lý 24

Bảng 1.6: Các quan hệ topo khả năng sử dụng trong khai phá dữ liệu 25

Bảng 1.7: Các tập thường xuyên có độ hỗ trợ = 50% 27

Bảng 1.8: Các luật kết hợp tạo ra từ các tập thường xuyên có kích thước 2,3,4 có chứa phụ thuộc 28

Trang 9

DANH MỤC CÁC HÌNH

Hình 1.1: Lưu trữ dữ liệu địa lý trong các CSDL quan hệ 4

Hình 1.2: Quan hệ không gian tiềm ẩn 5

Hình 1.3: Quan hệ không gian có các phụ thuộc địa lý đã biết 6

Hình 1.4: Các quan hệ không gian 7

Hình 1.5: Một phần lược đồ CSDL địa lý mức khái niệm và logic 9

Hình 1.6: Thể hiện của geo-ontology 11

Hình 1.7: Tập dữ liệu có 6 bộ và các tập thường xuyên với minsup = 50% 13

Hình 1.8: Tập dữ liệu có 6 bộ và các tập thường xuyên đóng có minsup=50% 15

Hình 1.9: Quan hệ khoảng cách trong thực tế và quan hệ giữa các điểm trung tâm 19

Hình 1.10: Phân cấp khái niệm của nguồn nước 29

Hình 1.11: a) Tập dữ liệu có nguồn nước ở mức 2 và b) Các tập thường xuyên với minsup=30% 31

Hình 1.12: a) Tập dữ liệu có nguồn nước ở mức 3 và b) Các tập thường xuyên với minsup 30% 33

Hình 2.1 Sơ đồ khai phá luật kết hợp không gian từ các CSDL địa lý 25

Hình 2.2: Giả mã của thuật toán trích chọn các phụ thuộc từ lược đồ CSDL 36

Hình 2.3: Giả mã của thuật toán tiền xử lý dữ liệu 38

Hình 2.4 Tập dữ liệu có 6 bộ và các tập thường xuyên với minsnup= 50% 40

Hình 2.5: Đồ thị thể hiện các tập thường xuyên có phụ thuộc {D} (trái) và các tập thường xuyên không có phụ thuộc {D} (phải) 41

Hình 2.6: Thuật toán Apriori – KC tạo các tập thường xuyên không có các phụ thuộc đã biết 43

Hình 2.7: Đồ thị thể hiện các tập thường xuyên có phụ thuộc {A, W} (trái) và các tập thường xuyên không có phụ thuộc {A, W} (phải) 46

Trang 10

Hình 2.8: Đồ thị thể hiện các tập thường xuyên có phụ thuộc {D} và {A, W} (trái)

và các tập thường xuyên không có phụ thuộc {D} và {A, W} (phải) 47

Hình 2.9: Các tập thường xuyên và các tập thường xuyên đóng 48

Hình 2.10: Đồ thị thể hiện các tập thường xuyên đóng có các phụ thuộc đã biết (trái) và các tập thường xuyên đóng không có các phụ thuộc đã biết (phải) 49

Hình 2.11: Đồ thị thể hiện các tập thường xuyên không có phụ thuộc đã biết và các tập thường xuyên không dư thừa cực đại không có các phụ thuộc đã biết (phải) 51

Hình 2.12: Giả mã của thuật toán Max-FGP 52

Hình 3.1: Quá trình khai phá luật kết hợp từ CSDL địa lý của chương trình Weka-geo 57

Hình 3.2: Một lược đồ CSDL địa lý 58

Hình 3.3: Cấu trúc lưu trữ dữ liệu dịa lý trong OGC 61

Hình 3.4: Giao diện kết nối CSDL 61

Hình 3.5: Giao diện tiền xử lý dữ liệu địa lý 62

Hình 3.6: Giao diện tạo các cặp phụ thuộc địa lý 63

Hình 3.7: Message khi không tìm thấy quan hệ không gian 64

Hình 3.8: Message khi file arff đã được tạo ra 65

Hình 3.9: Giao diện thẻ Association các thuật toán khai phá luật kết hợp 66

Hình 3.10: Giao diện xuất kết quả của thuật toán khai phá luật kết hợp không gian 66

Trang 11

MỞ ĐẦU

1 Đặt vấn đề

Những tiến bộ trong các công nghệ CSDL và các kỹ thuật thu thập dữ liệu như đọc mã số mã vạch, viễn thám, ghi nhận thông tin từ các vệ tinh,… đã thu gom được một lượng lớn dữ liệu trong các CSDL khổng lồ Việc dữ liệu tăng lên một cách dữ dội đòi hỏi phải được khai phá để trích chọn ra các tri thức hữa ích phục vụ cho công tác chuyên môn Chính điều này đã dẫn đến sự ra đời của một lĩnh vực mới đầy hứa hẹn gọi là khai phá dữ liệu hay khai phá tri thức trong các CSDL Khai phá tri thức trong các CSDL có thể được định nghĩa là khai phá tri thức đáng quan tâm, tiềm ẩn và chưa biết trước trong các CSDL lớn [21] Khai phá dữ liệu là sự kết hợp của một số lĩnh vực bao gồm học máy, các hệ thống CSDL, thể hiện dữ liệu, thống kê và lý thuyết thông tin

Đã có nhiều nghiên cứu về khai phá dữ liệu trong các CSDL quan hệ và giao dịch, nhưng đối với các CSDL không gian vấn đề khai phá dữ liệu vẫn còn là những thách thức cần được giải quyết

Dữ liệu không gian là dữ liệu liên quan đến các đối tượng trong không gian Một CSDL không gian lưu trữ các đối tượng không gian bao gồm các kiểu dữ liệu không gian và các quan hệ không gian giữa các đối tượng Dữ liệu không gian mang thông tin hình học và khoảng cách thường được tổ chức theo các cấu trúc chỉ mục không gian và truy cập bằng các phương pháp truy cập không gian Chính các đặc trưng khác biệt này của các CSDL không gian đã đặt ra nhiều trở ngại nhưng cũng mang đến nhiều cơ hội cho khai phá tri thức từ CSDL không gian Khai phá dữ liệu không gian hay khai phá tri thức trong CSDL không gian là trích trọn ra các tri thức tiềm ẩn, các quan hệ không gian hay các mẫu chưa rõ lưu trữ trong các CSDL không gian [21]

Trang 12

Các nghiên cứu trước đây về học máy, các hệ thống CSDL và thống kê đã đặt nền móng cho nghiên cứu khai phá tri thức trong các CSDL Và những tiến bộ của các CSDL không gian như cấu trúc dữ liệu không gian, lập luận không gian, tính toán hình học,… đã mở đường cho khai phá dữ liệu không gian Trở ngại lớn nhất trong khai phá dữ liệu không gian là hiệu quả của các thuật toán khai phá dữ liệu không gian do lượng dữ liệu không gian khổng lồ, các kiểu dữ liệu không gian

và các phương pháp truy cập không gian phức tạp

Các phương pháp khai phá dữ liệu không gian tập trung theo ba hướng chính

là khai phá luật kết hợp không gian, phân lớp không gian và phân cụm không gian Với mong muốn nghiên cứu về khai phá luật kết hợp không gian, luận văn đi sâu tìm hiểu một lĩnh vực nhỏ trong không gian đó là không gian địa lý

2 Mục tiêu của luận văn

Luận văn tập trung nghiên cứu về các kỹ thuật khai phá luật kết hợp không gian trong CSDL địa lý nhằm trích rút ra các dữ liệu địa lý có ích tiềm ẩn bên trong các kho tri thức địa lý khổng lồ Cụ thể luận văn hướng vào các công việc:

- Thu thập một số lớp dữ liệu bản đồ (bao gồm cả dữ liệu hình học và dữ liệu thuộc tính) để thử nghiệm với thuật toán khai phá luật kết hợp không gian

- Nghiên cứu một vài thuật toán tiền xử lý dữ liệu phục vụ cho khai phá dữ liệu không gian và một vài thuật toán khai phá luật kết hợp truyền thống

để mở rộng áp dụng trên dữ liệu địa lý

- Cài đặt chương trình thử nghiệm thuật toán lựa chọn nhằm khai phá luật kết hợp với dữ liệu hình họcvà dữ liệu thuộc tính của một số lớp bản đồ

3 Tóm tắt nội dung luận văn

Phần còn lại của luận văn được tổ chức như sau:

Chương 1: Tổng quan về dữ liệu không gian và khai phá luật kết hợp không

gian Bao gồm các phần như: Giới thiệu khái quát về dữ liệu địa lý, luật kết hợp,

Trang 13

luật kết hợp không gian, những vấn đề khó khăn trong khai phá luật kết hợp không gian

Chương 2: Một số thuật toán khai phá luật kết hợp không gian Bao gồm:

các phương pháp tiền xử lý dữ liệu không gian phục vụ khai phá dữ liệu và các phương pháp khai phá luật kết hợp không gian trên cả dữ liệu hình học và dữ liệu

thuộc tính

Chương 3: Cài đặt chương trình thử nghiệm Bao gồm mô tả bài toán, xây

dựng dữ liệu thử nghiệm, thiết kế chương trình, cài đặt thuật toán và đánh giá kết quả thử nghiệm

Kết luận trình bày những nghiên cứu về khai phá luật kết hợp không gian,

những đóng góp của luận văn và những định hướng nghiên cứu sắp tới

Trang 14

CHƯƠNG 1: TỔNG QUAN VỀ DỮ LIỆU KHÔNG GIAN

VÀ KHAI PHÁ DỮ LIỆU KHÔNG GIAN

1.1 Cơ sở dữ liệu địa lý

CSDL địa lý lưu trữ các thực thể trong thế giới thực hay còn gọi là các đối tượng địa lý thuộc một vùng nghiên cứu nào đó Các đối tượng địa lý chứa cả các thuộc tính không gian (tọa độ địa lý x,y) và các thuộc tính phi không gian (tên, dân số,…) Đó là hai thành phần chính của dữ liệu không gian

Dữ liệu địa lý của các đối tượng địa lý thường được lưu trữ trong các CSDL quan hệ hoặc CSDL quan hệ đối tượng Hình 1.1 thể hiện dữ liệu địa lý được lưu trữ trong CSDL quan hệ, trong đó các đối tượng địa lý như đường, nguồn nước và siêu thị là các quan hệ khác nhau (các bảng CSDL), chúng có cả các thuộc tính không gian (dữ liệu hình học) và các thuộc tính phi không gian (dữ liệu thuộc tính)

Hình 1.1: Lưu trữ dữ liệu địa lý trong các CSDL quan hệ

Ví dụ đặc trưng không gian Siêu thị Big C Thăng Long có dữ liệu hình học

là điểm được biểu diễn trong CSDL là cặp tọa độ, dữ liệu thuộc tính có thể là số loại mặt hàng kinh doanh, doanh thu hàng ngày của cửa hàng

a) Duong

Gid Name Shape

1 Trần Duy Hưng Multiline[(x1,y1),(x2,y2), ]

2 Bưởi Multiline[(x1,y1),(x2,y2), ]

b) NguonNuoc

Gid Name Shape

1 Hồ Hoàn Kiếm Multiline[(x1,y1),(x2,y2), ]

2 Sông Tô Lịch Multiline[(x1,y1),(x2,y2), ]

c) SieuThi

Gid Name Shape

1 Big C Thăng Long Point[(x1,y1)]

2 Plaza Tràng Tiền Point[(x1,y1)]

Trang 15

Ví dụ khác là đặc trưng không gian đường phố Trần Duy Hưng (Hà Nội), có

dữ liệu hình học là tập các điểm để tạo nên đường gấp khúc, dữ liệu thuộc tính có thể là số làn xe, chiều dài của đường phố

Các thuộc tính không gian của các đối tượng địa lý (hình 1.1) có các quan hệ

không gian: gần (close), xa (far), chứa (contains), cắt (intersects) Do đó, các đối

tượng gần nhau trong thế giới thực thường có ảnh hưởng lẫn nhau hay phụ thuộc lẫn nhau Đây chính là đặc trưng của dữ liệu địa lý trong khai phá dữ liệu và cũng là sự khác biệt của việc khai phá dữ liệu không gian so với các phương pháp khai phá dữ liệu truyền thống

Quá trình trích chọn quan hệ không gian sẽ tạo ra rất nhiều kết hợp không gian mà có thể được người sử dụng quan tâm hoặc không quan tâm Hình 1.2 là ví

dụ về các quan hệ không gian tiềm ẩn giữa các siêu thị, các trạm ATM và các đường phố, không có một mối quan hệ rõ ràng nào giữa các dữ liệu này Tuy nhiên, trong thực tế những người đi mua hàng ở siêu thị hay tìm đến các các trạm ATM gần đó để rút tiền nên việc trích chọn ra các quan hệ không gian giữa các trạm ATM, các siêu thị và đường sẽ được quan tâm trong quá trình khai phá dữ liệu Nói cách khác, chúng có sự phụ thuộc địa lý giữa các đối tượng không gian

Hình 1.2: Quan hệ không gian tiềm ẩn

Trang 16

Hình 1.3 là hai ví dụ về các quan hệ không gian trong đó thể hiện các phụ thuộc địa lý đã biết Hình 1.3 (trái) cho thấy cầu vượt luôn cắt đường còn cầu luôn cắt các sông, trong đó cả cầu vượt và cầu đều có cùng ngữ nghĩa là nối các đường Hình 1.3 (phải) có một phụ thuộc địa lý đã biết là mỗi siêu thị đều nằm trên ít nhất một đường

Hình 1.3: Quan hệ không gian có các phụ thuộc địa lý đã biết

Khác biệt chính giữa các ví dụ ở hình 1.2 và hình 1.3 là: hình 1.3 chứa các

quan hệ không gian đã biết Ví dụ: is_a(Cau_vuot)intersects(Duong) hoặc is_a(Sieu_thi)intersects(Duong) Còn hình 1.2 chứa các quan hệ không gian tiềm

ẩn có thể được quan tâm trong quá trình khai phá dữ liệu

Các phụ thuộc địa lý đã biết là các quan hệ không gian bắt buộc thể hiện các ràng buộc toàn vẹn không gian được sử dụng để đảm bảo sự thống nhất của dữ liệu Chúng thường được thể hiện rõ trong các lược đồ CSDL địa lý

1.1.1 Quan hệ không gian và ràng buộc toàn vẹn không gian

Có ba kiểu quan hệ không gian chính là: quan hệ khoảng cách, quan hệ hướng và quan hệ topo

Quan hệ khoảng cách dựa trên khoảng cách Euclid giữa 2 đối tượng địa lý

(hình 1.4a) Đặt dist là hàm khoảng cách, operator là toán tử thuộc tập {<, >,<=, >=,

Trang 17

=}, d là một số thực, A và B là hai đối tượng địa lý Khi đó khoảng cách giữa A và

B được biểu diễn bởi hàm dist(A,B) có giá trị là d

Quan hệ hướng thể hiện vị trí của đối tượng này so với các đối tượng khác

trong quan hệ không gian (hình 1.4b)

Quan hệ topo có kiểu đặc trưng điển hình là giao giữa hai đối tượng địa lý và

chúng bất biến trên các phép biến đổi hình học như quay và co giãn Có nhiều phương pháp để xác định các quan hệ topo giữa các điểm, đường, vùng Hầu như, chúng đều dựa trên mô hình giao nhau như: bên trong và đường bao hoặc bên trong,

bên ngoài và đường bao [15] Phép giao là sự phối hợp của các toán tử logic và()

và or() Các mô hình giao nhau xác định 8 quan hệ topo nhị phân là: cắt (crosses), chứa (contains), trong (within), bao (covers), bao bở (-coveredBy), trùng (equals), không nối (disjoint), chồng (overlaps) [28]

Quan hệ topo cũng có thể được xác định theo phương pháp tích phân hoặc phương pháp mở rộng chiều Các phương pháp này xác định 6 quan hệ không gian

là: crosses, contains, within, equals, disjoint, overlaps (hình 1.4c)

Quan hệ topo mức cao là không nối (disjoint) và nối (connected) Khi các đối tượng được nối với nhau thì chúng chỉ có các quan hệ là: crosses, contains, within, covers, coveredBy, equals, overlaps

Hình 1.4: Các quan hệ không gian

Quan hệ không gian giữa hai đối tượng địa lý có thể thuộc một trong các

Trang 18

năng là quan hệ có thể tồn tại hoặc không tồn tại trong CSDL (Ví dụ: đường cắt sông, thành phố có các nhà máy) Quan hệ bắt buộc và quan hệ cấm thể hiện ràng buộc toàn vẹn không gian trong CSDL nhất quán[p37.45]

Ràng buộc toàn vẹn không gian chứa các tính chất riêng của dữ liệu địa lý và các quan hệ không gian để đảm bảo cũng như duy trì chất lượng và sự nhất quán của các đối tượng địa lý trong CSDL địa lý Ràng buộc toàn vẹn không gian giữa hai đối tượng địa lý A và B có thể được xác định bởi các quan hệ thông qua các ràng buộc toán học Ví dụ, quan hệ bắt buộc giữa siêu thị và đường có thể được thể hiện bởi quan hệ 1-1 (một-một) hoặc 1-n (một-nhiều) có nghĩa là mỗi siêu thị phải liên quan đến ít nhất một đường Quan hệ bắt buộc thể hiện phụ thuộc địa lý đã biết,

mà phụ thuộc địa lý đã biết lại tạo ra các mẫu đã biết, chúng không được quan tâm trong khai phá luật kết hợp không gian

1.1.2 Phụ thuộc địa lý

Trong không gian địa lý, ”mỗi đối tượng đều có quan hệ đến các đối tượng khác nhưng những đối tượng gần thì có quan hệ mật thiết hơn những đối tượng xa”[p186, 29] Tuy nhiên có một số đối tượng luôn có quan hệ với các đối tượng khác không phụ thuộc vào khoảng cách Khi đó, chúng được gọi là một phụ thuộc địa lý

Định nghĩa 1 (Phụ thuộc địa lý): là quan hệ không gian bắt buộc giữa hai

đối tượng địa lý A và B, trong đó mỗi trường hợp của A phải liên quan với ít nhất một trường hợp của B

Phụ thuộc địa lý gọi là đã biết khi chúng được thể hiện rõ ràng trong lược đồ CSDL địa lý để đảm bảo sự toàn vẹn không gian của dữ liệu địa lý Lược đồ CSDL địa lý là sự mở rộng của lược đồ quan hệ thực thể (ER) hoặc lược đồ hướng đối tượng (OO) để xử lý các kiểu dữ liệu địa lý Trong các lược đồ CSDL địa lý, các phụ thuộc địa lý là quan hệ không gian (Ví dụ: giáp, chứa) hoặc là quan hệ 1-1 hay 1-n giữa các bảng dữ liệu

Trang 19

Hình 1.5 là ví dụ thể hiện một phần của lược đồ CSDL địa lý mức khái niệm

và một phần của lược đồ mức logic tương ứng cho CSDL quan hệ và CSDL hướng đối tượng Trong lược đồ thể hiện các quan hệ bắt buộc (ví dụ: siêu thị và đường, đường và thành phố, nguồn nước và thành phố), còn các quan hệ khả năng không thể hiện các phụ thuộc đã biết nhưng có thể là đáng được quan tâm trong khai phá tri thức thì không được thể hiện (ví dụ: siêu thị và nguồn nước)

Ở mức logic quan hệ bắt buộc thể hiện bởi quan hệ 1-1 hoặc 1-n của các khóa ngoại trong CSDL địa lý quan hệ hoặc thể hiện bởi con trỏ trỏ tới các lớp trong CSDL địa lý hướng đối tượng

Primary Key (duongid))

Creat Table SieuThi

(sieuthiid integer,

ten varchar(30),

diachi varchar(30),

geometry integer,

Primary Key (sieuthiid)

Foriegn Key (duongid) reference Duong)

Một phần của lược đồ OO

Public class Duong{

private varchar(30) ten;

private integer geometry;

public Duong() { } }

Public class SieuThi{

private varchar(30) tene;

private varchar(30) diachi;

private integer geometry;

Duong Duong

public SieuThi() { } }

Hình 1.5: Một phần lược đồ CSDL địa lý mức khái niệm và logic

Trang 20

1.1.3 Geo-Ontology và ràng buộc toàn vẹn không gian

Năm 1993, Gruber [24] đưa ra một định nghĩa về ontology: “Một ontology là một đặc tả rõ ràng, mang tính hình thức của một khái niệm có thể chia sẻ” Định

nghĩa của Gruber về ontology là một định nghĩa chung của ontology, ontology có thể được định nghĩa theo những ngữ cảnh cụ thể và có những đặc điểm sau:

 Các ontology được dùng để miêu tả một miền xác định

 Các thuật ngữ và các quan hệ của các thuật ngữ được miêu tả rõ ràng trong miền dữ liệu đó

 Tồn tại một cơ chế để tổ chức các thuật ngữ (ví dụ cấu trúc phân cấp)

 Có sự thống nhất giữa những người dùng về ý nghĩa của các thuật ngữ được sử dụng trong miền

Gần đây, khái niệm ontology đã được sử dụng nhiều trong các lĩnh vực khác nhau như: khoa học máy tính, trí tuệ nhân tạo, CSDL, mô hình khái niệm, Do đó,

có nhiều ontology được đưa ra và cũng nhiều mô hình, ngôn ngữ, công cụ được phát triển Chaves đã định nghĩa được một geo-ontology cho quản trị dữ liệu của nước Bồ Đào Nha và một siêu mô hình (meta-model) tên là GKB, đây chính là điểm khởi đầu cho việc định nghĩa một ontology cho dữ liệu địa lý[14]

Trong geo-ontology, các ràng buộc toàn vẹn không gian được thể hiện bởi các thuộc tính của dữ liệu địa lý Chúng được xem như là các thuộc tính giới hạn và được xác định như một quan hệ không gian và phi không gian với các ràng buộc

nhỏ nhất và lớn nhất tương ứng, Ví dụ: khái niệm đảo là một khu đất có nước bao quanh, có quan hệ 1-1 với khái niệm nước

Hình 1.6 là ví dụ của một geo-ontology định nghĩa về các quan hệ topo khác nhau để minh họa xem các ràng buộc ngữ nghĩa bắt buộc được thể hiện như thế nào

Trong ví dụ ở hình 1.6 bus stop (trạm xe buýt) và gas station (trạm xăng) có một ràng buộc bắt buộc với road (đường) vì mỗi trạm xe buýt và mỗi trạm xăng phải nằm trên (touch) ít nhất một đường nào đó Tuy nhiên, đường không nhất thiết

Trang 21

phải có trạm xe buýt hay trạm xăng Sự kết hợp một chiều thể hiện quan hệ bắt buộc

mà các trạm xe buýt và trạm xăng phải có với đường

Để đánh giá số lượng các phụ thuộc đã biết trong các geo-ontology, chúng ta phân tích geo-ontology đầu tiên của Bồ Đào Nha tên là geo-net-pt01 [14] Mặc dù, không phải tất cả các thành phần của miền địa lý được định nghĩa trong geo-net-pt01 nhưng ở đây cũng có nhiều phụ thuộc 1-1 và 1-n

Kho geo-ontology lưu trữ tại 3 mức thông tin: mức quản trị administrative), mức vật lý (geo-physical) và mức mạng (network) Mức quản trị

(geo-lưu trữ thông tin quản trị về phân chia phạm vi và gồm các đối tượng địa lý như các

đô thị (municipality), các đường (road), Mức vật lý lưu trữ các đối tượng như các lục địa (continent), các đại dương (ocean), các hồ (lake), các vịnh (bay), Mức mạng lưu trữ các dữ liệu phi không gian và các quan hệ của tầng quản trị như dân số của một thành phố

Geo-net-pt01 có 58 đối tượng địa lý và 55 quan hệ 1-1

Hình 1.6: Thể hiện của geo-ontology

1.2 Luật kết hợp

Luật kết hợp là một biểu thức có dạng: XY, trong đó X và Y là tập các

Trang 22

Bài toán luật kết hợp thông thường được đặc tả hình thức như sau:

- Cho một tập mục F = {f1, f2, , fk,…, fn} và bộ dữ liệu  là tập các dòng (còn gọi là các giao tác) W, trong đó W là một tập mục (bộ) và thỏa mãn

WF; W là một véc tơ nhị phân mà phần tử w[k]=1 nếu W chứa thuộc tính fk và w[k]=0 trong trường hợp ngược lại

- Trong mỗi giao tác sẽ có đúng một dòng trong tập dữ liệu được khai phá Xét X là một tập của F, W chứa X nếu với fkX đều có w[k]=1 Tương

tự Y là một tập của F, W chứa Y nếu với fkY đều có w[k]=1

- Luật kết hợp là một biểu thức có dạng XY, trong đó X, YF; X, Y≠ Ø

và XY=Ø

- Độ hỗ trợ (support) s của một tập mục X là phần trăm số dòng X xuất hiện như là một tập con so với số dòng của tập mục Độ hỗ trợ của luật XY được ký hiệu là s(XY)

- Luật XY thỏa mãn tập  với độ tin cậy 0c1 nếu có ít nhất c% các trường hợp của  thỏa mãn cả X và Y, được ký hiệu là c(XY)=s(XY)/s(X)

Bài toán khai phá luật kết hợp được thực hiện qua hai bước [3]:

- Bước 1 Tìm tất cả các tập mục thường xuyên: một tập mục là thường

xuyên nếu độ hỗ trợ của nó lớn hơn hoặc bằng một ngưỡng nào đó gọi là

minsup

- Bước 2 Tạo luật mạnh (luật có độ tin cậy cao): luật là mạnh nếu độ hỗ

trợ của nó lớn hơn hoặc bằng độ hỗ trợ nhỏ nhất minsup và độ tin cậy của

nó thì lớn hơn hoặc bằng một ngưỡng nào đó gọi là minconf

Nếu tập thuộc tính Z là tập thường xuyên thì tất cả các tập con của nó đều là tập thường xuyên Nếu tập thuộc tính Z không phải là tập thường xuyên thì tất cả các tập chứa nó cũng không phải là tập thường xuyên Nếu tập Z thỏa mãn ràng

Trang 23

buộc về độ hỗ trợ thì tất cả các luật được tạo ra từ tập Z cũng thỏa mãn ràng buộc về

độ hỗ trợ [3]

Thuật toán khai phá luật kết hợp Apriori tạo ra các tập ứng viên và sau đó tính mức độ thường xuyên của chúng để tạo ra các tập thường xuyên Việc tạo ra các tập ứng viên được thực hiện bằng cách duyệt đa cấp trên tập dữ liệu

Đầu tiên, tính độ hỗ trợ của các phần tử riêng lẻ để xác định các tập thường xuyên (gọi là tập mục k thường xuyên) Các bước con, nhóm các tập thường xuyên

Lk-1 vào các tập Ck có k phần tử Tính độ hỗ trợ của từng tập ứng viên, nếu độ hỗ trợ

lớn hơn hoặc bằng minsup thì tập đó được coi là tập thường xuyên Lặp lại quá trình

trên cho đến khi tập thường xuyên trong kết quả của bước duyệt là tập rỗng, Các

luật kết hợp được tạo ra từ các tập thường xuyên kết quả đạt minsup

a) Tập dữ liệu b) Các tập thường xuyên với minsup = 50%

Hình 1.7: Tập dữ liệu có 6 bộ và các tập thường xuyên với minsup = 50%

Đã có nhiều thuật toán áp dụng cho dữ liệu phi không gian được đưa ra nhằm giảm thiểu thời gian tính toán, số lượng các tập thường xuyên và các luật kết hợp Các thuật toán giảm thiểu cả số lượng các tập thường xuyên và các luật kết hợp được phân làm hai loại: các thuật toán Apriori-like tạo ra các tập thường xuyên và

sử dụng các độ đo khác nhau để giảm thiểu các luật kết hợp; và các thuật toán tạo các tập thường xuyên đóng nhằm giảm thiểu các tập thường xuyên và các luật dư thừa

Trang 24

Các thuật toán Apriori-like đều tập trung vào các luật đáng quan tâm Một số

đại lượng đã được đưa ra sử dụng như độ hỗ trợ, độ tin cậy, entropy gain, gini, độ cải tiến, độ chắc chắn, Tuy nhiên, theo Bayardo khó có thể có được một đại lượng đơn giản để xác định mức độ đáng quan tâm hay mức độ tốt của một luật kết hợp [6] Trong hầu hết các thuật toán này, các luật không đáng quan tâm thường bị khử trong quá trình tạo luật – bước cuối cùng trong khai phá dữ liệu

Các ngưỡng và các ràng buộc khác nhau đã được áp dụng, chỉ có các luật thỏa mãn các ràng buộc đó mới được tạo ra Các phương pháp xem xét độ mong đợi

và tin cậy yêu cầu xác định các thông tin đáng tin cậy phức tạp như các khả năng phụ thuộc vào điều kiện cụ thể mà trong thực tế chúng khó có thể đạt được [23] Srikant đã sử dụng phân cấp khái niệm để khử các tập ứng viên chứa mức cha (ví dụ: cloth) và mức con (ví dụ: jacket, dress) của một phân cấp trong cùng một tập [30] Trong thực tế khai phá dữ liệu ở các mức khác nhau trong một quá trình khai phá không phải là phổ biến Phương pháp này giảm thiểu các luật nên tránh trong

quá trình tiền xử lý dữ liệu, ví dụ: jacket=yesclothes=yes Vì vậy, không nên xét

đồng thời các loại dữ liệu này trong cùng một quá trình khai phá

Định nghĩa 2 (tập thường xuyên đóng): tập thường xuyên L là tập thường

xuyên đóng nếu (L)=L [28]

Trong đó, (L) là tập cực đại trong tất cả các tập ở giao tác có chứa tập thường xuyên L Toán tử  cho phép xác định tất cả các tập thường xuyên đóng (các tập thường xuyên không dư thừa nhỏ nhất) Mà các tập thường xuyên không đóng lại có cùng độ hỗ trợ với tập thường xuyên đóng tương ứng của nó nên tập thường xuyên cực đại là tập thường xuyên đóng Tính chất này đảm bảo không bị mất mát thông tin và các luật được tạo ra từ các tập thường xuyên không đóng sẽ là

dư thừa so với các luật được tạo ra từ các tập thường xuyên đóng tương ứng

Các phương pháp tạo các tập thường xuyên đóng thực hiện tìm các tập thường xuyên sau đó loại bỏ đi các tập thường xuyên không phải là đóng Để hiểu được khái niệm tập thường xuyên đóng chúng ta xét ví dụ ở hình 1.8

Trang 25

Tập {A,D,W} là tập thường xuyên vì nó đạt được minsup=50% Nó cũng là tập thường xuyên đóng vì trong tập giao tác (1345) không có tập nào lớn hơn tập {A,D,W} (lớn hơn theo nghĩa số lượng các phần tử) đạt được minsup Tập thường xuyên {A,D,T} xuất hiện trong giao tác (135), nhưng trong cùng giao tác này tập thường xuyên {A,D,T,W} cũng được tạo ra Trong trường hợp này tidset(A,D,T)=135, tidset(A,D,T,W)=135 và (A,D,T)(A,D,T,W) nên tập thường xuyên {A,D,T} không phải là đóng

145 {A,C}, {A,C,W}, {A,C,D}, {A,C,D,W}

135 {T,W}, {A,T}, {A,D,T}, {D,T,W}, {A,D,T,W}

Trang 26

Trong hình 1.8c các tập thường xuyên đóng trong các giao tác được in đậm

Ví dụ:

- Trong giao tác 12345 tập thường xuyên cực đại của là {D,W} vì {W}{D,W}

- Trong giao tác 1245 tập thường xuyên cực đại là {C,D,W} vì {C,W}{C,D,W}

- Trong giao tác 145 tập thường xuyên cực đại là {A,C,D,W} vì {A,C}{A,C,D,W}, {A,C,W}{A,C,D,W} và {A,C,D}{A,C,D,W}

- Trong giao tác 135 tập thường xuyên cực đại là {A,D,T,W} vì {T,W}{A,D,T,W}, {A,T}{A,D,T,W}, {A,D,T}{A,D,T,W}, {A,T,W}{A,D,T,W} và {D,T,W}{A,D,T,W}

Theo Pasquier tất cả các tập thường xuyên L trong cùng một giao tác sẽ tạo

ra các luật có cùng độ hỗ trợ và độ tin cậy Khi L là tập thường xuyên cực đại thì các tập thường xuyên còn lại trong cùng giao tác đó sẽ là các tập dư thừa [40]

Định nghĩa 3 (luật không dư thừa nhỏ nhất): luật r:l1l2 là luật kết hợp không dư thừa nhỏ nhất nếu không có luật r’:l’1l’2 mà support(r)=support(r’), confidence(r)= confidence(r’), l’1 l1 và l’2 l2 [5]

Theo định nghĩa 3, luật AW được tạo từ tập {A,W} là dư thừa trong quan

hệ với luật ADW tạo từ tập thường xuyên đóng {A,D,W} Việc tạo tập thường xuyên đóng khử được các tập thường xuyên dư thừa nhưng không đảm bảo khử được tất cả các luật dư thừa Đã có nhiều bài viết đề cập đến các phương pháp giảm thiểu các luật dư thừa trích chọn từ các tập thường xuyên đóng Tuy nhiên, các luật

dư thừa có thể được xác định theo nhiều cách khác nhau

Ví dụ theo Zaki trong các luật kết hợp được tạo ra từ một tập thường xuyên đóng có cùng độ hỗ trợ và độ tin cậy thì chỉ có luật nhỏ nhất là không dư thừa (nhỏ

nhất theo nghĩa có ít phần tử nhất) [31] Vì vậy, có thể thấy ngay luật AB là luật

không dư thừa nhỏ nhất được tạo ra từ tập thường xuyên {A,B,C,D} Theo Pasquier các luật không dư thừa nhỏ nhất là các luật có cùng độ hỗ trợ, độ tin cậy và có tập bên trái nhỏ hơn còn tập bên phải lớn hơn [28] Ví dụ: ABCD

Trang 27

1.3 Luật kết hợp không gian

Luật kết hợp không gian có dạng XY, với X và Y là tập các thuộc tính trong đó có ít nhất một thuộc tính là thuộc tính không gian [21]

Trong quá trình khai phá luật kết hợp giao dịch mỗi dòng trong tập dữ liệu là một giao tác và các cột là các mục, còn trong khai phá luật kết hợp không gian thì mỗi dòng là một trường hợp (ví dụ: Hà Nội) của một đối tượng địa lý nào đó (ví dụ: thành phố) gọi là đối tượng đích và các cột là các thuộc tính Mỗi thuộc tính có thể

là một thuộc tính phi không gian (ví dụ: dân số) của đối tượng đích hoặc một quan

hệ không gian với một đối tượng địa lý khác (gọi là đối tượng liên quan) Đối tượng liên quan có quan hệ không gian với các trường hợp của đối tượng đích (ví dụ:

contains(SieuThi))

Bài toán khai phá luật kết hợp truyền thống áp dụng cho dữ liệu phi không gian được thực hiện qua hai bước như đã trình bày ở mục 1.2, còn bài toán khai phá luật kết hợp không gian được soạn lại qua ít nhất ba bước ngoài bước đầu tiên là bước tiền xử lý dữ liệu:

a) Trích chọn thuộc tính không gian: thuộc tính không gian là một quan hệ

không gian (ví dụ: khoảng cách, hướng, hình học) giữa một đối tượng nào đó và một tập các đối tượng liên quan;

b) Tìm tất cả các tập/thuộc tính/mẫu thường xuyên: tập các thuộc tính là tập

thường xuyên nếu độ hỗ trợ của nó lớn hơn hoặc bằng một ngưỡng nào

đó gọi là minsup;

c) Tạo các luật mạnh: luật là mạnh nếu nó đạt được minsup và độ tin cậy của nó lớn hơn hoặc bằng một ngưỡng nào đó gọi là minconf

Bước kết nối không gian thực hiện trích chọn các thuộc tính không gian để

có được dữ liệu đầu vào thích hợp cho các thuật toán khai phá dữ liệu Đây là một bước xử lý khó trong quá trình khai phá dữ liệu không gian sẽ được trình bày chi tiết ở chương 2

Trang 28

Các quan hệ không gian được tính bằng cách thực hiện các kết nối không gian giữa tất cả các trường hợp của một đối tượng đích T và tất cả các trường hợp o của từng đối tượng liên quan O trong một tập các đối tượng liên quan S Trong đó: T={t1, t2,…, tn}, S={O1, O2,…, Om} và Oi={o1, o2,…, oq} Việc trích chọn các thuộc tính không gian nhằm so sánh từng trường hợp của T với từng trường hợp của các

O, với OS

Các thuật toán khai phá luật kết hợp không gian là các phương pháp like tạo ra các tập thường xuyên và sau đó trích chọn ra các luật kết hợp Trong khai phá luật kết hợp không gian việc tạo các ứng viên không khó khăn như trong các CSDL giao dịch vì trong CSDL giao dịch số lượng các thuộc tính thường ít hơn nhiều so với số lượng các mục Do đó, giá thành tính toán của các thuật toán chủ yếu dựa vào việc trích chọn thuộc tính không gian (bước a), số lượng các trường hợp của đối tượng đích và số lượng của các đối tượng liên quan cũng như biểu diễn hình học tương ứng của chúng

Apriori-1.4 Tình hình nghiên cứu về khai phá luật kết hợp không gian

Trong khi có khá nhiều thuật toán khai phá luật kết hợp áp dụng cho các CSDL quan hệ và CSDL giao dịch thì các thuật toán khai phá luật kết hợp áp dụng cho CSDL địa lý lại rất ít và có thể được phân thành hai loại chính:

Loại thứ nhất: lập luận định lượng được Yoo đưa ra năm 2006chủ yếu dựa trên việc tính các quan hệ khoảng cách trong quá trình tạo tập thường xuyên Phương pháp này có ưu điểm là không cần xác định đối tượng, nhưng lại có nhược điểm là thường chỉ áp dụng với dữ liệu dạng điểm (tọa độ x, y), chỉ xét các quan hệ định lượng và không xét các thuộc tính phi không gian của dữ liệu địa lý, mà dữ liệu này lại rất quan trọng trong khai phá tri thức Với các đối tượng không gian dạng đường hoặc vùng chỉ có điểm trung tâm của chúng được quan tâm Tọa độ địa

lý được biến đổi thành các giá trị nguyên đã làm giảm đi mức độ chính xác của chúng dẫn đến mất mát thông tin và tạo ra các mẫu không thực Hình 1.9 là ví dụ về

Trang 29

sự khác biệt lớn của quan hệ khoảng cách giữa hai đối tượng địa lý đường và vùng khi xét chúng trong quan hệ thực tế và trong quan hệ giữa các điểm trung tâm

Hình 1.9: Quan hệ khoảng cách trong thực tế và quan hệ giữa các điểm trung tâm Loại thứ hai: lập luận định tính dựa trên các quan hệ topo và khoảng cách

giữa một đối tượng địa lý nào đó và các đối tượng liên quan có dạng điểm, đường, vùng Các quan hệ này thường được trích chọn ở bước đầu tiên (bước tiền xử lý dữ liệu) còn các tập thường xuyên lại được tạo ra ở bước sau

Trong cả hai phương pháp lập luận định tính và định lượng, tri thức có sẵn rất ít khi được sử dụng để khử các mẫu địa lý không liên quan và để tạo ra các luật đáng quan tâm hơn Năm 1995, Kopersky đã đưa ra phương pháp khai phá luật kết hợp không gian ở các mức khác nhau sử dụng độ hỗ trợ nhỏ nhất và độ tin cậy nhỏ nhất để trích chọn ra các tập thường xuyên và các luật kết hợp không gian [21] Năm 2000, Clementini đã mở rộng phương pháp này để áp dụng cho khai phá luật kết hợp không gian đa cấp đối với các đối tượng địa lý có các đường bao rộng [13]

Năm 2004, Lisi đã đưa ra phương pháp cho phép người dùng có thể xác định một ràng buộc mẫu và cho biết một thuộc tính sẽ xuất hiện bao nhiêu lần trong các tập thường xuyên hoặc trong các luật kết hợp [22] Ví dụ: ràng buộc mẫu

pattern_constraint[[intersects(x,Duong,5)]] sẽ loại bỏ các tập thường xuyên khi các

thuộc tính cho trước xuất hiện trong ít hơn 5 tập Bước này được thực hiện sau khi tất cả các tập thường xuyên đã được tạo ra Một ràng buộc luật

pattern_constraint[[intersects(x,Duong), contains(x,SieuThi)],10]] chỉ cho ra các

Trang 30

luật có các thuộc tính cho trước xuất hiện ít nhất ở 10 luật kết hợp, ngược lại chúng

sẽ bị loại bỏ Năm 2005, Appice đã mở rộng phương pháp này áp dụng cho nhiều ràng buộc để khử các tập thường xuyên và luật kết hợp đã biết [4] Ví dụ: ràng buộc

pattern_constraint[[intersects(TramXang), (intersects(Duong)],0,0)] loại bỏ tất cả

các tập thường xuyên chứa có cặp thuộc tính này

Phương pháp mà Lisi đưa ra có một số hạn chế nên ít được áp dụng trong các

CSDL thực Thứ nhất, trong quá trình tiền xử lý phải tính tất cả các quan hệ không

gian từ các CSDL địa lý và chuyển đổi thành mức logic Trong các CSDL lớn việc trích chọn tất cả các quan hệ không phải dễ thực hiện và nhiều quan hệ cũng có thể

không cần thiết phải tính Thứ hai, bước cắt tỉa dữ liệu là sẽ rất khó khăn khi mỗi

thành phần địa lý và mỗi quan hệ địa lý khác nhau đều đòi hỏi phải có một ràng

buộc địa lý để khử các luật không đáng quan tâm Thứ ba, trong khai phá dữ liệu

không gian rất khó biết trước tất cả các tập thường xuyên và các luật có chứa luật hoặc mẫu không đáng quan tâm Khi phân cấp khái niệm được áp dụng thì khó khăn

sẽ tăng lên khi phải chỉ ra các ràng buộc khác nhau cho từng đặc trưng và quan hệ

khác nhau ở từng mức khái niệm khác nhau Ví dụ: để khử một phụ thuộc giữa trạm xăng và đường, một số ràng buộc phải được chỉ ra như:

pattern_constraint([contains(X,TramXang), crossed_by(X,Duong)],0,0),

pattern_constraint([contains(X,TramXang), contains(X,Duong)],0,0),

pattern_constraint([contains(X,TramXang), touchs(X,Duong)],0,0),

pattern_constraint([contains(X,Large_TramXang), crossed_by(X,Duong_QuocLo)],0,0), pattern_constraint([contains(X, Large_TramXang), contains(X, Duong_QuocLo)],0,0), pattern_constraint([contains(X, Large_TramXang), contains(X,Duong_QuocLo_1A)],0,0)

Năm 2006, Bogorny đã đưa ra phương pháp lập luận định tính dựa trên tri thức có sẵn là các phụ thuộc địa lý để loại bỏ toàn bộ các mẫu đã biết (các mẫu có chứa phụ thuộc địa lý) trong cả quá trình tiền xử lý dữ liệu đầu vào và trong quá trình tạo tập thường xuyên

Trang 31

1.5 Khai phá luật kết hợp trong cơ sở dữ liệu địa lý

Như đã trình bày ở phần trước, cần ít nhất ba bước để trích chọn ra các mẫu

từ CSDL địa lý là: xác định các quan hệ không gian, tạo các tập thường xuyên và tạo các luật kết hợp Trong bước đầu tiên, đối tượng đích được so sánh với tất cả các đối tượng liên quan để trích chọn ra các thuộc tính không gian Bước thứ hai, các thuộc tính được so sánh với từng thuộc tính khác để tạo ra các tập thuộc tính thường xuyên Từ các tập thường xuyên này sẽ tạo ra các luật kết hợp trong bước thứ ba Các phụ thuộc địa lý đã biết xuất hiện trong tất cả các bước và theo các cách khác nhau Các phần tiếp theo sẽ trình bày rõ các phụ thuộc địa lý xuất hiện trong các bước này như thế nào

1.5.1 Phụ thuộc địa lý giữa đối tượng đích và đối tượng liên quan

Bước tiền xử lý trích chọn ra các quan hệ không gian và biến đổi các dữ liệu địa lý thành một bảng đơn hoặc một file theo đúng định dạng yêu cầu với dữ liệu đầu vào của các thuật toán khai phá luật kết hợp không gian

Các phụ thuộc gây ra hai vấn đề chính trong quá trình khai phá luật kết hợp là: tạo ra một lượng lớn các luật kết hợp không đáng quan tâm và yêu cầu thực hiện các kết nối không gian không cần thiết

1.5.1.1 Phụ thuộc địa lý và luật không đáng quan tâm

Bảng 1.1 là ví dụ về một tập dữ liệu không gian ở mức chung sẽ được sử

dụng trong tất cả các phần sau Mỗi dòng là một thành phố và các thuộc tính là các đối tượng địa lý khác nhau (cầu, nguồn nước, siêu thị, đường và nhà máy) có quan

hệ không gian với thành phố Chúng ta xét hai phụ thuộc địa lý: thành phố và đường, cầu và nguồn nước thì quan hệ thứ nhất là quan hệ giữa đối tượng đích và

một đối tượng liên quan, quan hệ thứ hai là quan hệ giữa hai đối tượng liên quan

Trang 32

Bảng 1.1: Tập dữ liệu đã được tiền xử lý cho khai phá tập thường xuyên và luật kết

hợp không gian

Bộ

(TP) Các thuộc tính không gian

1 contains(Cau), contains(SieuThi), contains(Duong), contains(NhaMay), crosses(NguonNuoc)

2 contains(SieuThi), contains(Duong), crosses(NguonNuoc)

3 contains(Cau), contains(Duong), contains(NhaMay), crosses(NguonNuoc)

4 contains(Cau), contains(SieuThi), contains(Duong), crosses(NguonNuoc)

5 contains(Cau), contains(SieuThi), contains(Duong), contains(NhaMay), crosses(NguonNuoc)

6 contains(SieuThi), contains(Duong), contains(NhaMay),

Trong tập dữ liệu ở Bảng 1.1, phụ thuộc giữa đối tượng đích (thành phố) và

đối tượng liên quan (đường) được thể hiện bởi thuộc tính contains(Duong) có độ hỗ

3 {contains(Cau), contains(SieuThi), contains(Duong)},

{contains(Cau), contains(SieuThi), crosses(NguonNuoc)},

{contains(Cau), contains(Duong),crosses(NguonNuoc)},

{contains(Cau), contains(NhaMay), crosses(NguonNuoc)},

{contains(Cau), contains(Duong), contains(NhaMay)},

{contains(SieuThi), contains(Duong), contains(NhaMay)},

{contains(SieuThi), contains(Duong), crosses(NguonNuoc)},

Trang 33

Ở bảng 1.2 trong 25 tập thường xuyên có 13 tập chứa phụ thuộc Từ các tập thường xuyên này sẽ tạo ra rất nhiều luật không đáng quan tâm Ví dụ: luật

contains(NhaMay)contains(Duong) có nghĩa là các thành phố có các nhà máy thì

cũng có đường Dường như luật đó là đáng quan tâm, tuy nhiên trong thực tế tất cả các thành phố đều có đường nhưng có thể có nhà máy hoặc không Thuộc tính

contains(Duong) có thể kết hợp với tất cả các thuộc tính khác để tạo ra cùng một kiểu luật đạt được các ràng buộc minsup và minconf

Để đánh giá số lượng các tập thường xuyên và các luật kết hợp được tạo ra với phụ thuộc giữa đối tượng đích và một đối tượng liên quan xem bảng 1.3

Bảng 1.3 tổng hợp các luật và các tập thường xuyên được tạo ra từ tập dữ

liệu ở Bảng 1.1 với các minsup khác nhau và minconf=70% Với minsup=20% có

31 tập thường xuyên và 180 luật được tạo ra, trong đó có 16 tập thường xuyên và

130 luật có phụ thuộc contains(Duong) Khi tăng minsup=50% thì số lượng các tập

thường xuyên đã giảm xuống còn 25 và số lượng các luật đã giảm còn 96 nhưng vẫn không khử được các phụ thuộc địa lý vẫn còn 13 tập thường xuyên và 72 luật

Các tập thường xuyên có phụ thuộc/ các tập thường xuyên không chứa phụ thuộc

Chúng ta hãy xét các tập thường xuyên đóng trích chọn từ bảng 1.2 Số lượng các tập đã giảm đáng kể như ở bảng 1.4, tuy nhiên các phụ thuộc lại không bị loại bỏ hết bằng cách giảm thiểu các tập thường xuyên Phụ thuộc địa lý

contains(Duong) có độ hỗ trợ 100% xuất hiện trong tất cả các tập thường xuyên

đóng

Trang 34

{contains(SieuThi), contains(Duong), contains(NhaMay)},

{contains(SieuThi), contains(Duong), crosses(NguonNuoc)}

4 {contains(Cau),contains(SieuThi), contains(Duong), contains(NhaMay)},

{contains(Cau), contains(Duong), contains(NhaMay), crosses(NguonNuoc)}

Từ các tổng hợp ở bảng 1.3 và bảng 1.4 chúng ta có thể thấy việc đưa ra

ngưỡng minsup hay phương pháp tạo các tập thường xuyên đóng đều không đảm

bảo loại bỏ hết được các phụ thuộc địa lý giữa đối tượng đích và các đối tượng liên quan

1.5.1.2 Phụ thuộc địa lý và kết nối không gian

Phụ thuộc địa lý giữa đối tượng đích và các đối tượng liên quan ngoài việc tạo ra số lượng lớn các luật kết hợp và các mẫu đã biết còn yêu cầu các kết nối không gian không cần thiết Xét các quan hệ topo theo chuẩn OGC của đối tượng đích và các đối tượng liên quan trong quá trình tính các thuộc tính không gian, số lượng các kết nối không gian có thể giảm như trong bảng 1.5 OGC được xây dựng

để chỉ ra các chuẩn cho tích hợp dữ liệu không gian và các thao tác không gian Có rất nhiều chuẩn được xác định trong OGC, tuy nhiên có hai thao tác quan trọng nhất là: thao tác tạo lược đồ CSDL và thao tác xác định các quan hệ không gian

Bảng 1.5:Các quan hệ topo theo ngữ cảnh của các đối tượng địa lý

Disjoint Overlaps Touchs Contains Within Crosses Equal

Tất cả các quan hệ topo giữa đối tượng đích và một đối tượng liên quan được

đánh dấu + Chỉ có ít quan hệ được đánh dấu Ví dụ: giữa hai đối tượng trạm xăng

Trang 35

và đường chỉ có quan hệ tiếp giáp (touchs) Ủy ban thì nằm trong (within) thành phố, còn nguồn nước và đường có thể có các quan hệ disjoint, touchs, crosses

Mặc dù, các quan hệ topo ở bảng 1.5 có thể xảy ra theo từng ngữ cảnh nhưng không phải tất cả chúng đều đáng quan tâm khi khai phá tri thức Vì vậy ngoài việc xét các ngữ cảnh của các đối tượng địa lý chúng ta còn phải xét đến các ràng buộc toàn vẹn không gian, Nếu chúng có quan hệ bắt buộc thì có thể tiếp tục giảm số lượng các quan hệ topo Hơn nữa, còn có thể xác định các quan hệ topo cho quá trình khai phá dữ liệu

Các quan hệ topo cung cấp các mẫu đã biết và chỉ có các quan hệ khả năng là đáng quan tâm trong khai phá tri thức Bảng 1.6 thể hiện các quan hệ khả năng được quan tâm trong khai phá tri thức với cùng các cặp đối tượng như bảng 1.5 Các cặp

trạm xăng và đường, cầu và nguồn nước, ủy ban và thành phố, mạng lưới nước sạch và thành phố đều có các ràng buộc 1-1 hoặc 1-n nhưng không có quan hệ cần thiết cho quá trình khai phá tri thức Chỉ có các quan hệ topo giữa nguồn nước và đường được quan tâm trong ví dụ này

Trong phần này chúng ta thấy có rất nhiều luật và mẫu có thể được tạo ra có chứa các phụ thuộc địa lý giữa đối tượng đích và một đối tượng liên quan Như vậy, các phụ thuộc có thể bị khử bởi việc trích chọn không gian dữ liệu đầu vào Xét các ngữ cảnh, chúng ta đưa ra thuật toán tiền xử lý dữ liệu địa lý sử dụng các geo-ontology như là tri thức biết trước để trích chọn các thuộc tính không gian phụ thuộc cho quá trình khai phá luật kết hợp không gian (sẽ được trình bày chi tiết trong chương 2)

Bảng 1.6: Các quan hệ topo khả năng sử dụng trong khai phá dữ liệu

Disjoint Overlaps Touchs Contains Within Crosses Equal Trạm xăng và Đường

Trang 36

Tuy nhiên, các phụ thuộc địa lý có thể tồn tại giữa các đặc trưng liên quan Trong tập dữ liệu ở Bảng 1.1 có một phụ thuộc khác giữa hai đối tượng liên quan

(cầu và nguồn nước), trong đó tất cả các thành phố có các cầu thì cũng có các nguồn nước vì mỗi cầu có quan hệ với ít nhất một nguồn nước Trong trường hợp này, không thể loại bỏ phụ thuộc giữa cầu và nguồn nước trong bước tiền xử lý dữ liệu đầu vào vì nguồn nước hoặc cầu có thể có một kết hợp đáng quan tâm với một

đối tượng liên quan khác (ví dụ: siêu thị, nhà máy)

1.5.2 Phụ thuộc địa lý giữa các đối tượng liên quan

Phụ thuộc địa lý giữa đối tượng đích và một đối tượng liên quan là một thuộc tính đơn, còn phụ thuộc địa lý giữa các đối tượng liên quan là cặp các thuộc tính của

một tập thường xuyên trong tập dữ liệu

Xét ví dụ ở bảng 1.7 ({contains(Cau), crosses(NguonNuoc)}) là phụ thuộc giữa hai đối tượng liên quan cầu và nguồn nước trong bảng 1.7 (phần in đậm) khi xét cùng tập dữ liệu ở Bảng 1.1 Phụ thuộc này xuất hiện lần đầu tiên trong các tập thường xuyên có hai phần tử (k=2) Vì phụ thuộc đạt minsup là một tập thường

xuyên nên phụ thuộc này còn xuất hiện lặp lại ở các tập thường xuyên có nhiều hơn

hai phần tử (k>2) Với minsup=50%, phụ thuộc này xuất hiện trong 6 tập thường

xuyên (chiến 30% tổng số các tập thường xuyên có k2) Mà số lượng các luật chứa phụ thuộc địa lý sẽ lớn hơn nhiều so với số lượng các tập thường xuyên và phần lớn các tập thường xuyên lớn nhất (tập thường xuyên có 4 phần tử) đều chứa phụ thuộc

Việc cắt tỉa các tập thường xuyên bằng phương pháp tạo tập thường xuyên đóng không khử được các phụ thuộc địa lý giữa hai đối tượng liên quan, cặp phụ

thuộc ({contains(Cau), crosses(NguonNuoc)}) có mặt trong ba tập thường xuyên

đóng 18, 24, 25 trong bảng 1.7

Trang 37

3 {contains(Cau), contains(SieuThi), contains(Duong)},

{contains(Cau), contains(SieuThi), crosses(NguonNuoc) },

{contains(Cau) , contains(Duong),crosses(NguonNuoc) },

{contains(Cau) , contains(NhaMay), crosses(NguonNuoc) },

{contains(Cau), contains(Duong), contains(NhaMay)},

{contains(SieuThi), contains(Duong), contains(NhaMay)},

{contains(SieuThi), contains(Duong), crosses(NguonNuoc)},

2 được tạo từ tập có 2 phần tử và thể hiện một phụ thuộc địa lý hai chiều Các luật

3, 4, 5 và 6 mô phỏng lại các luật 1 và 2 bằng cách thêm vào phía phải hoặc phía

trái của luật một phần tử nữa (Contains(SieuThi)) Quá trình lặp lại với các tập

thường xuyên có 4 phần tử Các luật 7, 8 và 9 giống các luật 1 và 2 nhưng thêm vào

hai phần tử có phụ thuộc đạt được ràng buộc minconf =70%

Trang 38

Bảng 1.8: Các luật kết hợp tạo ra từ các tập thường xuyên có kích thước 2,3,4 có

chứa phụ thuộc

Tập Luật Các luật với minsup=50%

k=2 1 contains(Cau) → crosses(NguonNuoc)

k=2 2 crosses(NguonNuoc) → contains(Cau)

k=3 3 contains(SieuThi) ^contains(Cau) → crosses(NguonNuoc)

k=3 4 contains(SieuThi) ^crosses (NguonNuoc) → contains(Cau)

k=3 5 contains(SieuThi) → contains(Cau) ^crosses(NguonNuoc)

k=3 6 contains(Cau) ^crosses(NguonNuoc) → contains(SieuThi)

1.5.3 Phụ thuộc địa lý giữa các đối tượng liên quan ở các mức khác nhau

Quá trình khai phá luật kết hợp có thể được trích chọn từ các dữ liệu ở mức thấp nhất hoặc ở các mức cao [26] Ví dụ: có một số vùng trong trung tâm thành phố bị ảnh hưởng ô nhiểm khí hậu, các thuộc tính không gian được quan tâm là các

nhà máy ở mức chung như intersects(NhaMay) Ở mức chi tiết hơn có thể xét đến

các thuộc tính không gian đáng quan tâm là các kiểu nhà máy khác nhau như

intersects(NhaMay_HoaChat), intersects(NhaMay_ThucPham) Ở mức chi tiết hơn

nữa, các thuộc tính không gian đáng quan tâm là các trường hợp khác nhau của các kiểu nhà máy khác nhau như intersects(NhaMay_HoaChat_X), intersects(NhaMay_ThucPham_Y)

Ví dụ:

 Luật ở mức chung là: intersects(Duong) intersects(NhaMay)

Trang 39

 Luật ở mức thấp hơn là: intersects(Duong) intersects(NhaMay_HoaChat)

 Luật ở mức thấp hơn nữa là:

intersects(Duong) intersects(NhaMay_HoaChat_X)

Năm 2005, Han đã đưa ra thuật toán trích chọn luật kết hợp đa cấp áp dụng cho các CSDL truyền thống [25] Sau đó Koperski mở rộng thuật toán này để áp dụng cho các CSDL địa lý bằng cách sử dụng các phân cấp khái niệm để khai phá luật kết hợp không gian ở các mức khác nhau [28]

Phân cấp khái niệm còn được sử dụng để biểu diễn dữ liệu ở các mức khác nhau trong quá trình khai phá sàng lọc để trích chọn tri thức ở mức chung và các mức chi tiết Cùng một dữ liệu ở các mức khác nhau (ví dụ: nguồn nước, sông, sông

Tô Lịch, hồ, ) trong quá trình khai phá sẽ tạo ra các luật dư thừa và tầm thường được kết hợp từ một phân cấp (ví dụ: nguồn nước) với một phân cấp khác (ví dụ: sông) nếu chúng đạt được minsup Các luật như contains(Ho)

contains(NguonNuoc) sẽ được tạo ra Nhiều phương pháp khác nhau đã được đưa ra

để khử các luật được tạo ra bằng sự kết hợp của cùng một dữ liệu ở các mức khác nhau Do đó, các mức khác nhau của cùng một dữ liệu sẽ được sử dụng trong các bước khai phá sàng lọc trong khi các dữ liệu khác (ví dụ: nguồn nước, đường) có thể được khai phá ở các mức khác nhau trong cùng một bước

Hình 1.10: Phân cấp khái niệm của nguồn nước

Nguồn nước

Sông Hồ Biển Suối Kênh

Tô Lịch Hoàn Kiếm

g=1

g=2

g=3

Trang 40

Phân cấp khái niệm có thể được cung cấp bởi các kỹ sư tri thức, các chuyên gia lĩnh vực, các hệ thống khai phá dữ liệu hoặc được tạo tự động từ các CSDL Một số trường hợp phân cấp khái niệm được mã hóa trong một lược đồ CSDL và có thể được tạo theo kiểu động cho khai phá tri thức

Các phụ thuộc đại lý tồn tại độc lập giữa các dữ liệu địa lý ở cùng mức Xét

một phân cấp is_a và một phụ thuộc địa lý ở một mức nào đó, phụ thuộc này kế

thừa từ tất cả các mức con như trong các CSDL hướng đối tượng Ví dụ: cho một

phân cấp khái niệm đường, một phụ thuộc giữa trạm xăng và đường được thừa kế

từ tất cả các mức chi tiết của đường Chẳng hạn một luật kết hợp ở mức 2 intersects(TramXang)intersects(Duong_QuocLo) mã hóa một phụ thuộc giữa trạm xăng và đường xác định ở mức 1 Ở mức chi tiết hơn có các luật như intersects(TramXang) intersects(Duong_QuocLo_1A)

Chúng ta xét phân cấp khái niệm ở hình 1.10, các đảo phải nằm trong (within) nguồn nước (có thể là sông, hồ, biển) Phụ thuộc giữa đảo và nguồn nước được xác định ở mức cao nhất khi đảo có quan hệ với nguồn nước theo một kiểu

nào đó ở mức thấp hơn Phụ thuộc địa lý thuộc mức cao có thể được kế thừa ở tất cả các mức thấp hơn Khi khai phá dữ liệu ở mức cao, phụ thuộc sẽ tạo các luật như

is_a(Dao)within(NguonNuoc) Ở mức thứ hai các luật is_a(Dao)within(Song) và/hoặc is_a(Dao)within(Ho) sẽ được tạo ra

Ở mức thấp hơn độ hỗ trợ của các tập thuộc tính là thấp hơn nên độ hỗ trợ nhỏ nhất cũng phải thấp hơn để tránh việc loại bỏ đi các luật kết hợp đáng quan tâm

Xét một phụ thuộc giữa cầu và nguồn nước, trong đó nguồn nước ở mức thứ hai (ví

dụ: sông, hồ, biển) như ở hình 1.11a Với minsup=30% sẽ có 29 tập thường xuyên được tạo ra với kích thước k2 (hình 1.11b) Trong 29 tập thường xuyên tạo ra các luật kết hợp, có 10 tập vẫn còn chứa phụ thuộc địa lý (tương ứng với 35% tổng số tập)

Định dạng
Số trang	88
Dung lượng	1,86 MB