PHÁT HIỆN PHỤ THUỘC HÀM VÀ PHỤ THUỘC HÀM SUY RỘNG TRONG CƠ SỞ DỮ LIỆU

Và cho đến thời điểm hiện tại, vấn đề phát hiện phụ thuộc từ các tập dữ liệu lớn big data càng trở nên quan trọng vì trong các tập dữ liệu lớn này chứa rất nhiều tri thức quý giá.. Bài t

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC

VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ

-

VŨ QUỐC TUẤN

HÀM SUY RỘNG TRONG CƠ SỞ DỮ LIỆU

Chuyên ngành: Cơ sở Toán học cho Tin học

Mã số: 9 46 01 10

TÓM TẮT LUẬN ÁN TIẾN SĨ TOÁN HỌC

Hà Nội - 2019

Trang 2

Công trình được hoàn thành tại:

Học viện Khoa học và Công nghệ - Viện Hàn lâm Khoa học và

Công nghệ Việt Nam

Người hướng dẫn khoa học 1: PGS TS Hồ Thuần

Người hướng dẫn khoa học 2: PGS TS Nguyễn Thanh Tùng

… năm 201…

Có thể tìm hiểu luận án tại:

- Thư viện Học viện Khoa học và Công nghệ

- Thư viện Quốc gia Việt Nam

Trang 3

MỞ ĐẦU Các phụ thuộc dữ liệu có vai trò quan trọng trong thiết kế cơ sở

dữ liệu, quản lý chất lượng dữ liệu và biểu diễn tri thức Các phụ thuộc trong phát hiện tri thức được trích xuất từ dữ liệu hiện có của

cơ sở dữ liệu Quá trình trích xuất này được gọi là phát hiện phụ

thuộc

Mục đích của việc phát hiện phụ thuộc là tìm các phụ thuộc quan trọng đúng (thỏa mãn) trên dữ liệu của cơ sở dữ liệu Các phụ thuộc (được phát hiện) biểu diễn tri thức và có thể được dùng để kiểm tra thiết kế cơ sở dữ liệu, đánh giá chất lượng dữ liệu

Từ những năm đầu thập kỷ 80 của thế kỷ 20, bài toán phát hiện phụ thuộc đã thu hút được đông đảo các nhà khoa học Và cho đến thời điểm hiện tại, vấn đề phát hiện phụ thuộc từ các tập dữ liệu lớn (big data) càng trở nên quan trọng vì trong các tập dữ liệu lớn này chứa rất nhiều tri thức quý giá

Hiện nay, với sự phát triển của các thiết bị số, đặc biệt là các ứng dụng mạng xã hội và điện thoại thông minh, lượng dữ liệu trong các ứng dụng tăng rất nhanh làm nảy sinh vấn đề lưu trữ, quản lý, đặc biệt là vấn đề phát hiện tri thức từ các tập dữ liệu lớn đó Bài toán phát hiện FD và RFD trong cơ sở dữ liệu là một trong những vấn đề quan trọng của phát hiện tri thức Ba loại phụ thuộc điển hình được chú ý phát hiện là FD, AFD và CFD AFD là sự mở rộng của FD,

tính chất "xấp xỉ" dựa trên độ thỏa hoặc độ đo lỗi; CFD là sự mở

rộng của FD, nhằm nắm bắt những yếu tố không nhất quán trong dữ liệu

Các hướng nghiên cứu giải quyết bài toán phát hiện RFD trong cơ

sở dữ liệu, trước hết tập trung vào phát hiện FD do FD là trường hợp riêng của tất cả các loại RFD, các kết quả về phát hiện FD có thể

Trang 4

được thích nghi để phát hiện các loại phụ thuộc khác (chẳng hạn AFD) Mô hình chung của bài toán phát hiện FD là xây dựng không gian tìm kiếm các FD, kiểm tra sự thỏa mãn của từng FD, tỉa không gian tìm kiếm, xuất ra tập FD đã phát hiện được và làm gọn tập FD này (giảm bớt sự dư thừa) Trong bài toán phát hiện FD, phát hiện

khóa là trường hợp đặc biệt và cũng là bài toán quan trọng trong

chuẩn hóa cơ sở dữ liệu quan hệ

Độ phức tạp thời gian tổng quát của bài toán phát hiện FD là đa

thức theo số bản ghi trong cơ sở dữ liệu nhưng là hàm mũ theo số

thuộc tính của cơ sở dữ liệu đó Do đó, để giảm thời gian xử lý, cần xây dựng các luật tỉa hiệu quả Trong số các luật tỉa đã được đề xuất, tỉa khóa là rất quan trọng, khi phát hiện được khóa thì có thể tỉa (xóa) mọi nút chứa khóa trong không gian tìm kiếm Tuy nhiên, các luật tỉa khóa hiện có vẫn còn nhược điểm là tìm khóa trên toàn bộ tập thuộc tính  của cơ sở dữ liệu (đây thực sự là vấn đề rất khó vì độ phức tạp thời gian có thể là hàm mũ theo số thuộc tính của ), vậy có cách nào phát hiện được khóa trong một tập con thực sự của  hay không? Câu hỏi trên chính là một trong những động lực cơ bản của luận án này

Sau khi đã phát hiện được tập các phụ thuộc, tập này có thể rất lớn và gây khó khăn cho việc sử dụng vì chứa những dư thừa không cần thiết Vấn đề quan trọng đặt ra là làm thế nào để loại bỏ được (càng nhiều càng tốt) sự dư thừa trong tập phụ thuộc đã được phát hiện Đây cũng là bài toán được quan tâm trong luận án

Một hướng nghiên cứu nữa trong luận án là tập trung nghiên cứu, phát hiện hai loại RFD điển hình, đó là AFD và CFD Cả AFD và CFD đều có nhiều ứng dụng và xuất hiện nhiều trong các cơ sở dữ liệu quan hệ, đặc biệt CFD còn là công cụ mạnh khi giải quyết bài

Trang 5

toán làm sạch dữ liệu Với AFD, vấn đề quan trọng nhất là cải tiến và

phát triển các kỹ thuật tính toán các độ thỏa hoặc độ đo lỗi; với CFD,

ngoài việc phát hiện, thì việc tìm hiểu về một thứ tự phân cấp giữa CFD và một số loại phụ thuộc khác cũng là vấn đề rất đáng quan tâm

Nội dung nghiên cứu trong luận án là những vấn đề thời sự, được xới lại, làm mới với hàng loạt các công trình của các tác giả nước ngoài; trong khi ở trong nước, có nhiều công trình được công bố liên quan tới các phương pháp và thuật toán xác định các tập rút gọn (reduct) của một bảng quyết định theo nhiều tiếp cận khác nhau Mục tiêu của luận án là nghiên cứu một số vấn đề như đã phân

tích ở trên trong phạm vi cơ sở dữ liệu quan hệ Để thực hiện các

mục tiêu trên, chúng tôi tập trung vào các nội dung sau:

Chương 1 Trình bày tổng quan về mô hình dữ liệu quan hệ, các khái niệm FD, bao đóng của một tập thuộc tính, khóa của lược đồ quan hệ,…Đồng thời tập trung trình bày về RFD và khát quát các phương pháp đã được sử dụng để phát hiện FD và RFD

Chương 2 Trình bày về AFD và CFD (hai loại FD suy rộng điển hình) và một số kết quả liên quan

Chương 3 Trình bày các thuật toán tính bao đóng của một tập thuộc tính đối với một tập FD, vấn đề rút gọn cho bài toán xác định khóa của lược đồ quan hệ và một số kết quả liên quan

Chương 4 Trình bày một phép biến đổi tiền xử lý hiệu quả các tập FD (nhằm hạn chế sự dư thừa trong một tập FD cho trước) và một số kết quả liên quan

Trang 6

Chương 1 PHỤ THUỘC HÀM VÀ PHỤ THUỘC HÀM SUY RỘNG

TRONG MÔ HÌNH DỮ LIỆU QUAN HỆ

1.1 Nhắc lại một số khái niệm cơ bản

Một quan hệ r trên tập thuộc tính Ω = {A 1 , A 2 ,…,A n}

r  {(a 1 , a 2 ,…,a n ) | a i  Dom(A i ), i = 1, 2,…, n}

trong đó Dom(A i ) là miền trị của thuộc tính A i , i = 1, 2,…, n

Một lược đồ quan hệ S là một cặp có thứ tự S = <Ω, F>, trong đó

Ω là tập hữu hạn các thuộc tính, F là tập các FD

1.2 Phụ thuộc hàm

Phụ thuộc hàm Giả sử X, Y   Khi đó X  Y nếu với mọi quan

hệ r trên lược đồ S(), t 1 , t 2  r mà t 1 [X] = t 2 [X] thì t 1 [Y] = t 2 [Y]

Hệ quy tắc suy diễn Armstrong Với mọi X, Y, Z  , ta có

Khóa của lược đồ quan hệ Cho S = <, F> và K   Ta nói K

là một khóa của S nếu hai điều kiện sau đồng thời được thỏa mãn:

AFD là các FD được thỏa mãn với phần lớn các bộ trong quan hệ

Để xác định mức độ vi phạm của X  Y trên quan hệ r, một độ đo lỗi

Trang 7

nào đó, ký hiệu là e X( Y r, ), sẽ được sử dụng Cho trước một

ngưỡng lỗi , 0    1 Ta nói X  Y là AFD nếu và chỉ nếu

Cho r là một quan hệ trên Ω = {A 1 , A 2 ,…,A n } và X, Y   Với A i

 Ω, mức độ bằng nhau của các giá trị dữ liệu trong Dom(A i) được

xác định bởi quan hệ (hàm) R i

Cho trước tham số  (0 ≤  ≤ 1), ta nói hai bộ t 1 [X] và t 2 [X] bằng nhau với mức , kí hiệu t 1 [X] E() t 2 [X], nếu R k (t 1 [A k ], t 2 [A k])  

với mọi A k  X Khi đó, X  Y được gọi là FFD mức  nếu t 1 , t 2 

r, t 1 [X] E() t 2 [X]  t 1 [Y] E() t 2 [Y]

1.3.5 Phụ thuộc sai phân (DD)

DD mở rộng quan hệ bằng nhau trong FD X  Y trên quan hệ r Điều kiện t 1 , t 2 bằng nhau trên X và bằng nhau trên Y tương ứng được

thay thế bằng điều kiện hai bộ này thỏa mãn hàm L và hàm R Thực

chất, các hàm sai phân sử dụng khoảng cách mêtric để mở rộng các

quan hệ bằng nhau được sử dụng trong FD

Trang 8

FD là trường hợp đặc biệt của DD khi L [t 1 [X], t 2 [X]) = 0 và

R [t 1 [Y], t 2 [Y]) = 0 Ngoài ra, DD còn là sự mở rộng của MFD khi

L [t 1 [X], t 2 [X]) = 0 và R [t 1 [Y], t 2 [Y]) ≤ 

1.3.6 Các loại RFD khác

Còn có nhiều loại RFD khác nữa Xuất phát từ các ứng dụng thực

tế, mỗi loại RFD là kết quả của sự mở rộng (nới lỏng) quan hệ bằng nhau trong khái niệm FD truyền thống theo một cách thức hay một nghĩa nào đó

1.4 Phát hiện FD

Phương pháp top-down Phương pháp này sinh các FD ứng viên

dựa trên một dàn thuộc tính, kiểm tra sự thỏa mãn của các FD ứng viên và sau đó sử dụng các FD đã được phát hiện là đúng để tỉa các

FD ứng viên ở các mức thấp hơn trong dàn nhằm thu hẹp không gian

tìm kiếm Một vấn đề quan trọng là làm thế nào để kiểm tra một FD

ứng viên có được thỏa mãn hay không Một số phương pháp tính

toán đã được sử dụng là phương pháp phân hoạch và phương pháp

tập tự do Hai thuật toán nổi tiếng sử dụng phương pháp phân hoạch

là TANE và FD_Mine Thuật toán cài đặt phương pháp tập tự do là

FUN

Phương pháp bottom-up Khác với phương pháp top-down ở trên,

phương pháp bottom-up so sánh các bộ của quan hệ để tính các tập

bằng nhau hoặc các tập khác nhau Các tập này sau đó được sử dụng

để có được các FD đúng trên quan hệ đang xét Đặc trưng của kỹ thuật bottom-up là chúng kiểm tra các FD ứng viên dựa trên các tập bằng nhau hoặc khác nhau đã được tính Hai thuật toán điển hình sử

dụng phương pháp này là Dep-Miner và FastFDs

Độ phức tạp trong trường hợp xấu nhất của bài toán phát hiện FD

là hàm mũ theo số thuộc tính của 

Trang 9

Có một số chủ đề liên quan đến phát hiện FD như lấy mẫu, duy trì

các FD đã được phát hiện, phát hiện khóa,

số thuộc tính Mặt khác, bài toán phát hiện bảng mẫu tối ưu là NP-C

Ba thuật toán điển hình để phát hiện CFD là CFDMiner, CTANE

và FastCFD

1.6 Tổng kết chương 1

Chương này đã trình bày khái quát về FD và RFD trong mô hình

dữ liệu quan hệ Bài toán phát hiện phụ thuộc dữ liệu có không gian tìm kiếm là hàm mũ theo số thuộc tính

Các phương pháp phát hiện FD có thể được thích nghi để phát hiện các RFD Chẳng hạn, có thể bổ sung phần tính độ đo lỗi hoặc độ thỏa vào thuật toán phát hiện FD để phát hiện các AFD

Đã có một số thuật toán được đề xuất để giải quyết bài toán phát hiện FD và RFD

Trang 10

Chương 2

PHỤ THUỘC HÀM XẤP XỈ

VÀ PHỤ THUỘC HÀM ĐIỀU KIỆN

2.1 Về một số kết quả liên quan đến FD và AFD

Phần này chỉ rõ mối quan hệ giữa các kết quả của hai bài báo thuộc hai nhóm tác giả ([Y Huhtala et al., 1999] và [S King et al., 2003]) và chứng minh một số bổ đề quan trọng, là nền tảng để phát hiện FD và AFD (chưa được chứng minh)

Định lý 2.1 FD X  A thoả mãn nếu và chỉ nếu  X mịn hơn A

Định lý 2.2 FD X  A thoả mãn nếu và chỉ nếu | X| = |X{A}|

Định lý 2.3 FD X  A thỏa mãn nếu và chỉ nếu g3(X) = g3(X  {A})

Định lý 2.4 Ta có  X  Y = X  Y

Định lý 2.5 Giả sử B  X và X - {B}  B Khi đó, nếu X  A thì X -

{B}  A Nếu X là một siêu khoá thì X - {B} cũng là một siêu khoá

Định lý 2.6 C+(X) = {A  R | B  X, X - {A, B}  B không thoả

mãn}

Định lý 2.7 Giả sử A  X và X - {A}  A FD X - {A}  A tối tiểu

nếu và chỉ nếu với mọi B  X, ta có A  C+(X - {B})

Trang 11

2.2 Phát hiện FD và AFD

Một số độ đo xấp xỉ đã được đề xuất và thường xuyên được sử

dụng khi phát hiện AFD là TRUTH r (X  Y), g 1 (X  Y, r), g 2 (X  Y,

r) và g 3 (X  Y, r) Việc lựa chọn các độ đo khác nhau có ảnh hưởng

đến kết quả phát hiện các phụ thuộc Luận án đã chỉ ra được các quan hệ mới giữa các độ đo như sau:

Cho quan hệ r trên lược đồ S() Với mỗi X  , ta xây dựng

một quan hệ tương đương X như sau:

t  X u khi và chỉ khi t[X] = u[X] với mọi t, u  r

Giả sử rt t1, , ,2 t m Mỗi quan hệ X trên r có thể được biểu

diễn dưới dạng một ma trận (gọi là ma trận tương đương) với

Sử dụng ma trận tương đương (ma trận thuộc tính), trong luận án

đã xây dựng được các thuật toán (có độ phức tạp thời gian O(m2)) để

Trang 12

phát hiện FD (kiểm tra tính đúng của FD) và AFD (tính các độ đo

TRUTH r (X  Y), g 1 (X  Y, r), g 2 (X  Y, r))

2.3 Phụ thuộc hàm điều kiện (CFD)

Định nghĩa Một CFD  xác định trên lược đồ quan hệ R là một

cặp  = (X  Y, T p ), trong đó X  Y là một FD (được gọi là FD

nhúng trong ) và T p là một bảng mẫu với các thuộc tính trong X 

Y Bảng mẫu T p chứa các bộ mẫu, mỗi bộ mẫu t p  T p chứa các giá trị

hằng và biến không tên "" Biến không tên "" lấy giá trị trong

miền thuộc tính tương ứng

Ngữ nghĩa của CFD Bảng mẫu T p trong CFD  = (X  Y, T p)

xác định các bộ của quan hệ phải thỏa FD X  Y Một cách trực quan, bảng mẫu T p của  làm mịn FD X  Y được nhúng trong bằng việc áp đặt mối liên kết của các giá trị dữ liệu có liên quan về mặt ngữ nghĩa

Bài toán quyết định xem một tập CFD cho trước có nhất quán hay

không là NP-đầy đủ Đã có hệ quy tắc suy diễn  xác đáng và đầy đủ

đối với CFD Đã có các thuật toán phát hiện CFD là CFDMiner, CTANE và FastCFD

Dưới đây là một số nhận xét và kết quả bước đầu sau khi nghiên cứu công trình của [R.Medina et al., 2009]:

Trang 13

Nhận xét 2.1 Khác với hầu hết các tác giả nghiên cứu về CFD,

[R.Medina et al., 2009] đã mở rộng các bộ mẫu t p, xác định trên toàn

bộ Attr(R), trong đó t p [A] =  với A  X  Y

Nhận xét 2.2 Thay cho đối sánh một bộ t  r với một bộ mẫu t p 

T p (t p đã được mở rộng, xác định trên toàn bộ Attr(R)), ta đối sánh

t(X) với t p (X), t(Y) với t p (Y) Về thực chất t(X) và t p (X) (tương tự cho

t(Y) và t p (Y)) là sánh hợp nếu

A  X: t(X)[A] = t p (X)[A] = a  Dom(A)

hoặc t(X)[A] = a và t p (X)[A] = 

Nhận xét 2.3 Xét định nghĩa một bộ mẫu t p xác định một quan hệ con (mảnh ngang) của [R.Medina et al., 2009] như sau:

p

t

r = {t  r | t p  t} (*) Biểu thức (*) rõ ràng là không chỉnh vì hầu hết các trường hợp đều

cho kết quả là tập rỗng Thực vậy, trường hợp t p có chứa ít nhất một

thành phần là  thì rõ ràng không tồn tại t  r để cho t p  t Trường hợp ngược lại, với giả thiết X  Y  Attr(R), ta có

t p [A] =  và t[A] = a với A  X  Y

Do đó cũng không thể tồn tại t  r để cho t p  t Như vậy,

p

t

r được

xác định bởi (*) cho kết quả khác rỗng khi X  Y = Attr(R) và t p

trùng với một bộ nào đó của r Do đó, biểu thức (*) phải được sửa lại

như sau:

p

t

r = {t  r | t(X  Y)  t p (X  Y)}

[R.Medina et al., 2009] đã sử dụng các định nghĩa sau:

 Tính chất X-đầy đủ Quan hệ r được gọi là X-đầy đủ nếu và chỉ nếu  t 1 , t 2  r ta có t 1 [X] = t 2 [X]

 Bộ mẫu X-đầy đủ: (X, r) =  {t  r}

 Phân tách ngang X-đầy đủ: R X (r) = {r'  r | r' là X-đầy đủ}

Trang 14

chất, ta chỉ cần so sánh các thành phần tương ứng của hai bộ t 1 và t 2

để biết chúng bằng nhau hay khác nhau Do đó, thay cho phép toán

, ta sẽ dùng phép toán  đơn giản hơn:

Mệnh đề Cho r là một thể hiện của lược đồ R xác đinh trên tập

thuộc tính Attr(R), X  Attr(R), và r thỏa một tập phụ thuộc hàm F Khi đó: (X, r) = {A  Attr(R) | t p  (X, r), t p [A]  }

= X F = {A  Attr(R) | (X  A)  F +}

2.5 Kết luận chương 2

Chương này trình bày về một số kết quả liên quan đến FD và AFD, phương pháp ma trận để phát hiện FD và CFD và một số kết quả bước đầu liên quan đến thứ tự phân cấp giữa FD, CFD và AR

FD, AFD và CFD là ba loại phụ thuộc dữ liệu quan trọng Nghiên cứu và tiếp tục giải quyết các bài toán liên quan đến ba loại phụ thuộc này là một hướng mới và rất đáng quan tâm

Các kết quả chính trong chương này được công bố trong [CT1, CT2, CT8, CT9]

Định dạng
Số trang	26
Dung lượng	769,23 KB