1. Trang chủ
  2. » Cao đẳng - Đại học

Về các phụ thuộc hàm xấp xỉ trong mô hình dữ liệu dạng khối

76 147 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 76
Dung lượng 1,33 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI 2 NGUYỄN NĂNG HƯNG VỀ CÁC PHỤ THUỘC HÀM XẤP XỈ TRONG MÔ HÌNH DỮ LIỆU DẠNG KHỐI LUẬN VĂN THẠC SĨ MÁY TÍNH HÀ NỘI, 2014... Với mong m

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI 2

NGUYỄN NĂNG HƯNG

VỀ CÁC PHỤ THUỘC HÀM XẤP XỈ TRONG MÔ HÌNH DỮ LIỆU DẠNG KHỐI

LUẬN VĂN THẠC SĨ MÁY TÍNH

HÀ NỘI, 2014

Trang 2

LỜI CẢM ƠN

Tôi xin chân thành cảm ơn và tri ân sâu sắc đến PGS.TS Trịnh Đình Thắng

đã tận tình hướng dẫn, giúp đỡ tôi trong quá trình nghiên cứu, hoàn thành luận văn

Tôi xin chân thành cảm ơn Trường Đại học Sư phạm Hà Nội 2 quý Thầy Cô giáo Lãnh đạo và các giảng viên, cán bộ của trường đã tạo điều kiện thuận lợi cho tôi học tập, nghiên cứu và bảo vệ luận văn

Cảm ơn gia đình và những người thân đã ủng hộ, động viên, khích lệ, chia sẻ với tôi trong suốt quá trình học tập, nghiên cứu

TÁC GIẢ LUẬN VĂN

NGUYỄN NĂNG HƢNG

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan Luận văn: “Về các phụ thuộc hàm xấp xỉ

trong mô hình dữ liệu dạng khối” là công trình nghiên cứu của riêng

bản thân

Các số liệu trong luận văn là trung thực, được trích dẫn và có tính

kế thừa, phát triển từ các tài liệu, tạp chí, các công trình đã nghiên cứu, ở trong nước và trên thế giới

Xây dựng chương trình tính toán phụ thuộc hàm xấp xỉ trong mô hình dữ liệu dạng khối là chương trình do tôi tự viết Không sử dụng một

mã nguồn mở nào có sẵn

TÁC GIẢ

NGUYỄN NĂNG HƢNG

Trang 4

MỤC LỤC Trang phụ bìa

Lời cảm ơn i

Lời cam đoan ii

Mục lục iii

Danh mục các ký hiệu, các chữ viết tắt vi

Danh mục các bảng vii

Danh mục các hình vẽ, đồ thị viii

MỞ ĐẦU i

CHƯƠNG 1: MÔ HÌNH CƠ SỞ DỮ LIỆU QUAN HỆ xiv

1.1 Thuộc tính, quan hệ, đại số quan hệ xiv

1.1.1 Thuộc tính và miền thuộc tính xiv

1.1.2 Quan hệ, lược đồ quan hệ xiv

1.2 Các phép toán đại số quan hệ xvi

1.2.1 Phép hợp xvi

1.2.2 Phép giao xvi

1.2.3 Phép trừ xvii

1.2.4 Tích Đề-các xvii

1.2.5 Phép chiếu xviii

1.2.6 Phép chọn xix

1.2.7 Phép kết nối xx

1.2.8 Phép chia xxi

1.3 Phụ thuộc hàm xxi

1.4 Bao đóng xxiii

1.4.1 Bao đóng của tập phụ thuộc hàm xxiii

1.4.2 Bao đóng của tập thuộc tính đối với tập các phụ thuộc hàm xxiii

1.5 Khoá của quan hệ xxiii

Trang 5

1.6 Phụ thuộc hàm và lớp tương đương xxiv

1.6.1 Sự phân hoạch xxiv

1.6.2 Phân hoạch mịn hơn xxvi

1.6.3 Một số tính chất của phụ thuộc hàm và lớp tương đương xxvii

1.7 Phụ thuộc hàm xấp xỉ xxviii

1.8 Bao đóng của tập phụ thuộc hàm xấp xỉ xxxiii

1.9 Khoá xấp xỉ xxxiii

1.10 Một số Tính chất của phụ thuộc hàm xấp xỉ trên lược đồ quan hệ [9] xxxv CHƯƠNG 2: MÔ HÌNH CƠ SỞ DỮ LIỆU DẠNG KHỐI xxxviii

2.1 Khối, lược đồ khối xxxviii

2.2 Lát cắt xxxix 2.3 Đại số quan hệ trên khối xl

2.3.1 Phép hợp xl 2.3.2 Phép giao xli 2.3.3 Phép trừ xli 2.3.4 Tích Đề các xli 2.3.5 Tích Đề các theo tập chỉ số xli 2.3.6 Phép chiếu xlii 2.3.7 Phép chọn xlii 2.3.8 Phép kết nối xliii 2.3.9 Phép chia xliv

2.4 Phụ thuộc hàm xliv 2.5 Các tính chất của phụ thuộc hàm trên lược đồ khối xlv CHƯƠNG 3: PHỤ THUỘC HÀM XẤP XỈ TRONGMÔ HÌNH DỮ LIỆU DẠNG KHỐI xlix 3.1 Phụ thuộc hàm xấp xỉ trong mô hình dữ liệu khối xlix

Trang 6

3.2 Mối quan hệ giữa phụ thuộc hàm xấp xỉ trên khối và phụ thuộc hàm xấp xỉ trên lát cắt liii 3.4 Một số tính chất lvi 3.5 Cài đặt lx KẾT LUẬN 54 TÀI LIỆU THAM KHẢO 55 PHỤ LỤC 58

Trang 7

DANH MỤC CÁC CHỮ VIẾT TẮT

FDs Functional Dependencies Các phụ thuộc hàm

Dependencies Các phụ thuộc hàm xấp xỉ

Trang 8

DANH MỤC CÁC BẢNG

3 Bảng 1.3: Biểu diễn các quan hệ r, s và quan hệ r× s 9

5 Bảng 1.5: Bảng dữ liệu thuộc tính giá trị số 21

5 Bảng 3.1: Bảng biểu diễn khối dữ liệu 48

Trang 9

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

1 Hình 2.1: Biểu diễn khối nhân viên NV(R) 30

2 HHình 3.1: Biểu diễn khối sinhviên1 41

Trang 10

MỞ ĐẦU

1 Lý do chọn đề tài

Để xây dựng được một hệ thống cơ sở dữ liệu tốt, người ta thường sử dụng các mô hình dữ liệu thích hợp Đã có một số mô hình được sử dụng trong các hệ thống cở sở dữ liệu như: mô hình thực thể - liên kết, mô hình mạng, mô hình phân cấp, mô hình hướng đối tượng, mô hình dữ liệu datalog

và mô hình quan hệ Trong số các mô hình này, có ba mô hình dữ liệu hay được sử dụng là mô hình phân cấp, mô hình mạng và mô hình quan hệ Đối với ba mô hình này, mô hình quan hệ được quan tâm hơn cả, bởi vì nó được xây dựng trên cơ sở toán học chặt chẽ Tuy nhiên, do các quan hệ có cấu trúc phẳng (tuyến tính) nên mô hình này chưa đủ đáp ứng đối với các ứng dụng phức tạp, các cơ sở dữ liệu có cấu trúc phi tuyến tính

Trong những năm gần đây, việc nghiên cứu nhằm mở rộng mô hình dữ liệu quan hệ đã được nhiều nhà khoa học quan tâm Theo hướng nghiên cứu này một mô hình được xem là mở rộng của mô hình dữ liệu quan hệ đã được

đề xuất đó là mô hình dữ liệu dạng khối Tuy nhiên mô hình này mới xây dựng nên chưa hoàn thiện và hiện đang được quan tâm nghiên cứu, xem [7], [8], [9], [12] và các tài liệu dẫn trong đó

Với mong muốn tìm hiểu sâu hơn về những kiến thức đã học, mối quan

hệ và những ứng dụng của mô hình dữ liệu dạng khối, đặc biệt là các phụ

thuộc hàm xấp xỉ, tôi chọn đề tài “Về các phụ thuộc hàm xấp xỉ trong mô

hình dữ liệu dạng khối” để nghiên cứu

2 Mục đích nghiên cứu

Nghiên cứu các tính chất của phụ thuộc hàm xấp xỉ trong mô hình

dữ liệu dạng khối nhằm góp phần hoàn chỉnh lý thuyết mô hình dữ liệu dạng khối

Trang 11

3 Nhiệm vụ nghiên cứu

Tìm hiểu về phụ thuộc hàm xấp xỉ, nghiên cứu các tính chất của phụ thuộc hàm xấp xỉ trong mô hình dữ liệu dạng khối Đồng thời nghiên cứu mối quan hệ giữa phụ thuộc xấp xỉ trên khối và trên lát cắt

4 Đối tượng và phạm vi nghiên cứu

Phụ thuộc hàm xấp xỉ trong mô hình dữ liệu dạng khối

5 Phương pháp nghiên cứu

- Tìm hiểu tài liệu: Các bài báo đã được đăng và sách đã in liên quan mật thiết đến phụ thuộc hàm xấp xỉ trong mô hình dữ liệu dạng khối

- Sử dụng các phương pháp phân tích tổng hợp các tài liệu và những thông tin liên quan đến đề tài, kết hợp các nghiên cứu đã có trước đây của tác giả trong nước cùng với sự chỉ bảo, góp ý của thầy hướng dẫn để hoàn thành nội dung nghiên cứu

6 Những đóng góp mới của đề tài

7 Cấu trúc của luận văn

Luận văn gồm: Lời mở đầu, ba chương nội dung, phần kết luận và tài liệu tham khảo

Chương 1 Trình bày các khái niệm cơ bản nhất về mô hình quan hệ

Trình bày các phép toán đại số trên mô hình quan hệ Phụ thuộc hàm xấp xỉ, một số tinh chất của phụ thuộc hàm xấp xỉ trên lược đồ quan hệ

Chương 2 Giới thiệu tổng quan về mô hình khối: Phụ thuộc hàm trên

khối, phụ thuộc hàm xấp xỉ trên khối

Chương 3 Phát biểu và chứng minh các tính chất của phụ thuộc hàm,

xấp xỉ trên khối Mối quan hệ giữa phụ thuộc hàm xấp xỉ trên khối và trên lát cắt Phụ thuộc hàm xấp xỉ trên khối và phụ thuộc hàm xấp xỉ trên quan hệ trong mô hình dữ liệu quan hệ (khi khối suy biến thành quan hệ)

Trang 12

GIỚI THIỆU

Cơ sở dữ liệu là một trong những lĩnh vực quan trọng của công nghệ thông tin Cơ sở dữ liệu đã được nghiên cứu, ứng dụng thành công trong nhiều lĩnh vực và đem lại hiệu quả kinh tế cao cho đời sống và xã hội Đã có rất nhiều bài báo nghiên cứu về cơ sở dữ liệu và mô hình cơ sở dữ liệu Có 3

mô hình thường được sử dụng: mô hình phân cấp, mô hình mạng và mô hình quan hệ Trong đó mô hình quan hệ được quan tâm hơn cả Do các quan hệ có cấu trúc phẳng (tuyến tính) nên mô hình này chưa đủ đáp ứng đối với các ứng dụng phức tạp, các cơ sở dữ liệu có cấu trúc phi tuyến,….Do đó việc mở rộng

mô hình dữ liệu quan hệ thành mô hình dữ liệu dạng khối nhằm mở ra khả năng quản lý dữ liệu, đáp ứng nhu cầu thực tế tốt hơn [2]

Phụ thuộc hàm là một loại ràng buộc dữ liệu giữa các thuộc tính trong một cơ sở dữ liệu quan hệ, góp phần vào việc đảm bảo tính nhất quán của dữ liệu, loại bỏ bớt dữ liệu dư thừa Phụ thuộc hàm cũng thể hiện tính chất ngữ nghĩa giữa các thuộc tính và có thể tồn tại trong một tập dữ liệu độc lập với

mô hình quan hệ Nghiên cứu về các phụ thuộc hàm là một hướng quan trọng trong thiết kế cơ sở dữ liệu quan hệ và đã đạt được nhiều thành tựu [11, 12,

13, 20] bên cạnh đó nghiên cứu về phụ thuộc hàm trong mô hình dữ liệu dạng khối [2] đã có những kết quả [2, 5] để tăng cường hơn nữa khả năng đảm bảo ngữ nghĩa, góp phần hoàn chỉnh thêm về mô hình dữ liệu dạng khối

Cho lược đồ khối R = (id; A1,A2, ,An), r(R) là một khối trên R,

Từ định nghĩa phụ thuộc hàm ở trên, ta nhận thấy: nếu tồn tại t t1, 2 r

sao cho t X1   t X2 và t Y1   t Y2 thì có thể kết luận rằng r không thỏa

phụ thuộc hàm XY (hay phụ thuộc hàm XY không đúng trên r)

Trang 13

Trong thực hành, điều này tỏ ra quá chặt và cứng nhắc khi ta hình

dung quan hệ r có hàng nghìn bộ, trong đó chỉ có một vài bộ vi phạm phụ

thuộc hàm XY do có một số dữ liệu bị sai lệch hoặc ngoại lệ Do đó việc

mở rộng khái niệm phụ thuộc hàm (kinh điển) thành phụ thuộc hàm xấp xỉ (trong mô hình dữ liệu quan hệ, mô hình dữ liệu dạng khối) theo một cách thức, một nghĩa nào đó là nhu cầu tất yếu và tự nhiên

Các phụ thuộc hàm xấp xỉ khai phá được từ mô hình cơ sở dữ liệu quan

hệ, mô hình dữ liệu dạng khối là các mẫu quan trọng, là những tri thức có giá trị về cấu trúc của các bộ dữ liệu

Trang 14

CHƯƠNG 1

MÔ HÌNH CƠ SỞ DỮ LIỆU QUAN HỆ

1.1 Thuộc tính, quan hệ, đại số quan hệ

1.1.1 Thuộc tính và miền thuộc tính

Định nghĩa 1.1 [4], [6]

- Thuộc tính là đặc trưng của đối tượng

- Tập tất cả các giá trị có thể có của thuộc tính Ai gọi là miền giá trị của thuộc tính đó, ký hiệu: Dom(Ai) hay viết tắt là DAi

hj:U →

i i

A

A U

D

 sao cho hj(Ai)DAi(i=1, 2, ,n)

Ta có thể xem một quan hệ như một bảng, trong đó mỗi hàng (phần tử)

là một bộ và mỗi cột tương ứng với một thành phần gọi là thuộc tính Biểu diễn quan hệ r thành bảng như sau:

Trang 15

Bảng 1.2 :Bảng dữ liệu sinh viên

Trong đó các thuộc tính là MaSV: mã sinh viên; HOTEN: họ tên; NS: ngày sinh; DC: địa chỉ; KHOA: khoa

Bộ giá trị: (SV01, A, 24/01/92, HN, TOAN) là một bộ

Nếu có một bộ t = (d1, d2, d3, , dm)  r, r xác định trên U, X  U thì

t(X) (hoặc t.X) được gọi là giá trị của tập thuộc tính X trên bộ t

Định nghĩa 1.3 [4], [6]

Tập tất cả các thuộc tính trong một quan hệ cùng với mối liên hệ giữa

chúng được gọi là lược đồ quan hệ

Lược đồ quan hệ R với tập thuộc tính U={A1, A2, , An} được viết là R(U) hoặc R(A1, A2, , An)

Trang 16

1.2 Các phép toán đại số quan hệ

Trang 17

s kí hiệu là r × s, là tập tất cả các (m+n) - bộ có n thành phần đầu tiên là một

bộ thuộc r và m thành phần sau là một bộ thuộc s Ta có:

Trang 19

Biểu thức chọn F được định nghĩa là một tổ hợp logic của các toán hạng, mỗi toán hạng là một phép so sánh đơn giản giữa hai biến là hai thuộc tính hoặc giữa một biến là một thuộc tính và một giá trị hằng Biểu thức chọn

F cho giá trị đúng hoặc sai đối với mỗi bộ đã cho của quan hệ khi kiểm tra riêng bộ đó

- Các phép toán so sánh trong biểu thức F: >, <, =, ≥, ≠, ≤

- Các phép toán logic trong biểu thức F: ∧ (và), ∨ (hoặc),  (phủ định) Cho r là một quan hệ và F là một biểu thức logic trên các thuộc tính của

r Phép chọn trên quan hệ r với biểu thức chọn F, kí hiệu là F(r), là tập tất cả các bộ của r thoả mãn F Ta có: F(r) = {t│ t ∈ r  F(t)}

Trang 20

P(UV)= r*s= {u*v│u∈ r, v∈ s, u.M=v.M}

Nếu M= U∩V=Ф, r*s sẽ cho ta tích Đề- các, trong đó mỗi bộ của quan

hệ r sẽ được ghép với mọi bộ của quan hệ s

Trang 21

bộ v ∈ s thì khi ghép bộ t với bộ v ta được một bộ thuộc r

Trang 22

như loại bỏ đi những dư thừa dữ liệu trong một CSDL

Phụ thuộc hàm là những mối quan hệ giữa các thuộc tính trong CSDL quan hệ Khái niệm về phụ thuộc hàm có một vai trò rất quan trọng trong việc thiết kế mô hình dữ liệu Một trạng thái phụ thuộc hàm chỉ ra rằng giá trị của một thuộc tính được quyết định một cách duy nhất bởi giá trị của thuộc tính khác Sử dụng các phụ thuộc hàm để chuẩn hóa lược đồ quan hệ về dạng chuẩn 3 hoặc chuẩn Boye-Codd

Định nghĩa 1.5 [3], [4],[6]

Cho lược đồ quan hệ R xác định trên tập thuộc tính U, và X, Y ⊆ U Nói rằng, X xác định hàm Y hay Y phụ thuộc hàm vào X và kí hiệu X → Y nếu với mọi quan hệ r xác định trên R và với hai bộ bất kỳ t1, t2 ∈ R mà

t1(X) = t2(X) thì t1(Y) = t2(Y)

Các tính chất của phụ thuộc hàm

Cho lược đồ quan hệ R xác định trên tập thuộc tính U = {A1, A2, .,

An}, cho X, Y, Z, W ⊆ U thì ta có một số tính chất cơ bản của các phụ thuộc hàm như sau:

Trang 23

1.4 Bao đóng

1.4.1 Bao đóng của tập phụ thuộc hàm

Định nghĩa 1.6 [1]

Cho tập phụ thuộc hàm F, bao đóng của tập phụ thuộc hàm F kí hiệu F+

là tập lớn nhất chứa các phụ thuộc hàm được suy diễn từ các phụ thuộc hàm thuộc F Vậy F+

X+ = {A│ X → A ∈ F+

}

Đôi khi ta kí hiệu XF+để chỉ lấy bao đóng của X theo tập phụ thuộc hàm F

1.5 Khoá của quan hệ

(i) K xác định được giá trị của Aj với mọi j = 1, 2, , n

(ii) Không tồn tại K' ⊆K mà K' có thể xác định được giá trị của Aj với mọi j = 1,2, , n

Nghĩa là K là tập con nhỏ nhất mà giá trị của nó có thể xác định duy nhất một bộ giá trị của quan hệ

Trang 24

Cho lược đồ quan hệ R(A1, A2, ,An) và tập phụ thuộc hàm F, X  A1,

A2, ,An Ta nói X là một khoá của R khi và chỉ khi X -> A1, A2, ,An F+(tất cả các thuộc tính phụ thuộc vào tập thuộc tính X),

YX | X-> A1A2 An F+

Siêu khoá(Supper key): K là siêu khóa của quan hệ R nếu K' K là một khóa của quan hệ

Một lược đồ quan hệ Q của quan hệ R luôn luôn có ít nhất một siêu khóa

và có thể có nhiều siêu khóa

Ví dụ: Cho lược đồ quan hệ R = (ABCD) và tập phụ thuộc hàm

F = { A → C, AB → DC}, khoá là {AB} Khi đó thuộc tính A, B gọi là thuộc tính khoá, còn thuộc tính D, C gọi là thuộc tính không khóa

1.6 Phụ thuộc hàm và lớp tương đương

Các phương pháp tiếp cận mở rộng cho các phụ thuộc xấp xỉ được nghiên cứu và phát triển Một trong những cách tiếp cận là sử dụng các lớp tương đương và các phân hoạch

Chúng ta dùng phương pháp phân hoạch chia các bộ dữ liệu thành các nhóm dựa trên những giá trị khác nhau của mỗi cột (thuộc tính) Với mỗi thuộc tính, số các nhóm bằng với số các giá trị khác nhau của mỗi thuộc tính

đó Mỗi nhóm được gọi là một lớp tương đương

Trang 25

Hai bộ t và u là tương đương đối với một tập X các thuộc tính cho trước nếu t[A] = u[A] với mọi A trong X Mỗi tập thuộc tính bất kỳ X phân hoạch các bộ của quan hệ thành các lớp tương đương Chúng ta biểu thị lớp tương đương của một bộ t  r với một tập cho trước X  R bởi [t]X, tức là: [t]X = {ur| t[A] = u[A]  A X} Tập X = {[t]X | t  r} của các lớp tương đương là một phân hoạch của r theo X Như vậy mỗi lớp tương đương ứng với một giá trị duy nhất cho tập thuộc tính X và hợp của các lớp tương đương bằng với quan hệ r Bậc || của phân hoạch  là số lớp tương đương trong 

Trang 26

8}} Các lớp tương đương với tổ hợp các thuộc tính {B, C} là {B, C} = {{1}, {2}, {3, 4}, {5}, {6}, {7}, {8}}

Phân hoạch của các thuộc tính:

{A} = {{1, 2}, {3, 4, 5}, {6, 7, 8}}

{B} = {{1}, {2, 3, 4}, {5, 6}, {7, 8}}

{C} = {{1, 3, 4, 6}, {2, 5, 7}, {8}}

{D} = {{1, 4, 7}, {2}, {3}, {5}, {6}, {8}}

1.6.2 Phân hoạch mịn hơn

Khái niệm phân hoạch mịn hơn liên quan trực tiếp với các phụ thuộc hàm Một phân hoạch  mịn hơn một phân hoạch ‟ khác nếu mỗi lớp tương đương trong  là tập con của một lớp tương đương nào đó của ‟

Một phụ thuộc hàm X  A đúng nếu và chỉ nếu X mịn hơn {A} Để kiểm tra X  A đúng hay không chúng ta kiểm tra |X | có bằng với |X

 {A}| hay không Nếu X mịn hơn {A} thì X  {A} có cùng số lớp tương đương với X

Trang 27

Các lớp tương đương đối với thuộc tính A: {{1, 2}, {3, 4, 5}, {6, 7, 8}}, các lớp tương đương đối với thuộc tính E: {{1, 2}, {3, 4, 5}, {6, 7, 8}} Vì các lớp tương đương của thuộc tính A mịn hơn các lớp tương đương của thuộc tính E, nên qua đó có thể phát hiện phụ thuộc hàm A  E

Do đó u[X] = t[X] u[Y] = t[Y]  XY đúng (1)

Mặt khác ta đi chứng minh XY là phụ thuộc hàm thì Xmịn hơn Y

Thật vậy

Cho : C XD X Y  C D

Ta có XY t[X] = u[X] t[Y] = u[Y]

Trang 28

Vì thế t[X] = u[X] t[Y] = u[Y] Suy ra XY (2)

Từ (1) và (2) suy ra điều phải chứng minh

Sử dụng tính chất 2 để định nghĩa phụ thuộc hàm xấp xỉ trong cơ sở dữ

liệu quan hệ r

1.7 Phụ thuộc hàm xấp xỉ

Các phụ thuộc hàm rất hữu ích trong việc phân tích và thiết kế cơ sở dữ liệu quan hệ như xác định khóa, xác định các dạng chuẩn, các vấn đề về nhất

Trang 29

quán dữ liệu…Tuy nhiên trong thực tế do có một số giá trị dữ liệu không chính xác hoặc một số ngoại lệ nào đó làm cho các phụ thuộc hàm không thỏa Sự phụ thuộc tuyệt đối này dường như quá nghiêm ngặt khi ta hình dung tới một quan hệ có hàng nghìn bộ, trong khi đó chỉ có khoảng vài bộ vi phạm phụ thuộc hàm Điều này làm mất tính chất phụ thuộc vốn có giữa các thuộc tính Ví dụ về những xe ô tô, nhãn mác xe được xác định bởi mô-đen Dựa vào điều đó, với mô-đen 323, chúng ta biết với xác suất cao nhãn mác xe là Mazda, nhưng cũng có một xác suất nhỏ rằng nhãn mác xe là BMW Phụ thuộc hàm xấp xỉ được mong đợi đó được xác định bởi Mô-đen  Nhãn mác xe.Vì vậy các nhà nghiên cứu đã mở rộng khái niệm phụ thuộc hàm thành phụ thuộc hàm xấp xỉ theo một cách thức, một nghĩa nào đó, các phụ thuộc hàm xấp xỉ này cho phép có một số lượng lỗi nhất định của các bộ dữ liệu đối với phụ thuộc hàm

Dưới đây, ta xem xét một số cách mở rộng

Cách 1 [16]: Cho quan hệ r và phụ thuộc hàm XY Ba độ đo lỗi của

Y

X  trong r được đề xuất như sau:

.

| ]}

[ ] [ ], [ ] [ , ,

| ) , {(

| ) , (

1 X Y r u v u v r u X v X u Y v Y

2 1

1(X Y,r) G (X Y,r)/|r|

| ]}

[ ] [ ], [ ] [ : ,

| {

| ) , (

2 X Y r u u r v R u X v X u Y v Y

|

| / ) , (

) ,

|

| ) , (

3 X Y r r s s r s X Y

|

| / ) , (

) ,

Trang 30

Đối với những thuộc tính định danh, ta tiến hành thực hiện ánh xạ tất cả các giá trị có thể tới một tập các số nguyên dương liên kề

Định nghĩa khoảng cách giữa hai bộ giá trị trên tập thuộc tính: Với hai

bộ t1, t2 r, ta kí hiệu  ( t1( X ), t2( X ))là khoảng cách giữa t1 và t2trên tập thuộc tính XR được xác định như sau:

)

|), ) ( ), ( max(|

/

|) ) ( ) ( max(|

)) ( ), (

( t1 X t2 Xt1 Ait2 Ai t1 Ai t2 Ai AiX

- Hàm max( y x , ) là hàm chọn số lớn nhất trong hai số x, y

- Trường hợp max(| t1( Ai), t2( Ai) |)  0, tức t1( Ai)  t2( Ai)  0 ta qui ước:

0

|) ) ( ), ( max(|

/

|) ) ( ) (

| t1 Ait2 Ai t1 Ai t2 Ai

Khoảng cách giữa hai bộ giá trị trên tập thuộc tính có thể coi là hàm số của các đối số là các bộ giá trị của quan hệ và tập các thuộc tính

Định nghĩa phụ thuộc hàm xấp xỉ loại 2: Giả sử X,YR và với một

số  cho trước, 0 1, ta nói rằng X xác định hàm Y mức  (hoặc nói rằng X , Y có phụ thuộc hàm xấp xỉ loại hai mức  ), ký hiệu là X  Ynếu với mọi cặp bộ t1, t2 r, mà  ( t1( X ), t2( X ))   thì ta cũng có

Trang 31

Ta thấy giữa các cột A, B có mối tương quan với cột C Với  0.05 ta kiểm tra điều kiện phụ thuộc hàm xấp xỉ loại 2: AB0.05C

Với cặp hàng 1, 2 ta có:

)) ( ),

(

( t1 AB t2 AB

|) ) (

|

|, ) ( max(|

/

| ) ( ) (

|

|), ) (

|

|, ) ( max(|

/

| ) ( )

XY là phụ thuộc hàm khi và chỉ khi g3 = 0

Một lớp tương đương c của X là hợp của một hoặc nhiều lớp tương đương c1‟, c2

‟, … của X  {A}, và các hàng của tất cả các ci‟ trừ ra một lớp phải

Trang 32

được loại bỏ để XA đúng Số tối thiểu các hàng cần loại bỏ là kích thước của c trừ đi kích thước của lớp ci‟ lớn nhất Lấy trên tất cả các lớp tương đương c của X cho tổng số các bộ cần loại bỏ Như vậy chúng ta có:

} { '

Để kiểm tra AB thỏa hoặc không, chúng ta tìm các lớp tương đương

của A={{1, 2}, {3, 4, 5}, {6, 7, 8}} và các lớp tương đương của B= {{1}, {2, 3, 4}, {5, 6}, {7, 8}} Vì lớp tương đương {1, 2} trong A không mịn hơn bất kỳ lớp nào trong B, và tương tự như vậy đối với các lớp khác của A Do

Trang 33

bằng {1} {2} lấy từ A  {B} , có kích thước lớn nhất của {1} và {2} là 1 Lớp tương đương {3, 4, 5} trong A bằng {3, 4} {5} lấy từ A  {B}, có kích thước lớn nhất của {3, 4} và {5} là 2 Cuối cùng lớp tương đương {6, 7, 8} của A bằng {6} {7, 8} lấy từA  {B} , có kích thước lớn nhất của {6} và {7, 8} là 2

Cho tập phụ thuộc hàm xấp xỉ F, bao đóng của tập phụ thuộc hàm xấp

xỉ với độ lỗi 0  1 kí hiệu F là tập lớn nhất chứa các phụ thuộc hàm xấp

xỉ được suy diễn từ các phụ thuộc hàm xấp xỉ thuộc F Vậy

'

F  f X  Y   Ff

Định nghĩa : Đặt A+

= { a: A  {a}  F+ } được gọi là bao đóng xấp xỉ của

A trên s Có thể thấy rằng A B  F+ nếu và chỉ nếu B  A+

Trang 34

một tập thuộc tính, R (U )là một lược đồ quan hệ trên U Cho một ngưỡng lỗi

 , 0  1, độ đo lỗi xấp xỉ của khóa X ký hiệu

g3(X) được xác định như sau: g3(X) = 1 - X /r

Thuật toán tìm khoá xấp xỉ của sơ đồ quan hệ

Thuật toán thực hiện như sau:

Tính liên tiếp các tập thuộc tính K0, K1 ,Kn như sau:

Ta có thể thấy rằng R là hữu hạn các thuộc tính, F là hữu hạn nên sau

n bước liên tiếp sẽ tồn tại Ki = Ki+1 Khi đó tồn tại một tập Ki sao cho: Ki R

 F+ và bất kì một tập con nào của Ki đều không xác định R

Ví dụ:

Cho sơ dồ quan hệ < R, F> với tập thuộc tính là R= {A, B, C, D, E}

và tập phụ thuộc xâp xỉ F={AB ~>0.05 C, AB ~>0.05 E, E ~>0.05 D} với mức xấp xỉ của  = 0.05

Áp dụng thuật toán trên ta có:

Trang 35

Do vậy, khoá xấp xỉ K của sơ đồ quan hệ s= <R, F> là K= K5= {A, B}

1.10 Một số Tính chất của phụ thuộc hàm xấp xỉ trên lƣợc đồ quan hệ [9]

Theo định nghĩa khóa xấp xỉ, độ đo lỗi được xác định như sau:

Theo định nghĩa độ đo lỗi của khóa xấp xỉ được xác định

Ta có | X |là số phân hoạch theo giá trị của xiXdo đó|  X | r

Trang 37

Chứng minh

Ta có g3(X Y) là độ đo xấp xỉ của phụ thuộc hàm XY (X  Y)

g3(Y Z) là độ đo xấp xỉ của phụ thuộc hàm YZ (Y   Z)

Cho D1X Y , t u D ,  1 t[X] = u[X] và t[Y] = u[Y]

Cho D2Y Z , t u ,  D2 t[Y] = u[Y] và t[Z] = u[Z]

t[X] = u[X] thì t[Z] = u[Z] XZ với độ lỗi  (đpcm)

Cho D1X Y , t u D ,  1 t[X] = u[X] và t[Y] = u[Y]

 t[XZ] = u[XZ] và t[YZ] = u[YZ]

XZYZ với độ lỗi  (đpcm)

Trang 38

Định nghĩa 2.1:

Gọi R = (id; A1, A2, , An) là một bộ hữu hạn các phần tử, trong đó id

là tập chỉ số hữu hạn khác rỗng, Ai (i=1,n) là các thuộc tính Mỗi thuộc tính

Ai (i=1,n) có miền giá trị tương ứng là dom(Ai) Một khối r trên tập R, kí hiệu r(R) gồm một số hữu hạn phần tử mà mỗi phần tử là một họ các ánh xạ từ tập chỉ số id đến các miền trị của các thuộc tính Ai, (i=1,n) Nói một cách khác : t

 r (R)  t = {ti : id  dom(Ai)} i =1,n

Ta kí hiệu khối đó là r(R) hoặc r (id; A1, A2, , An), hoặc kí hiệu đơn giản là r

Khi đó khối r(R) được gọi là có lƣợc đồ khối R Như vậy trên cùng

một lược đồ khối R ta có thể xây dựng được nhiều khối khác nhau

Ví dụ 2.1: Ta xây dựng khối nhân viên (ký hiệu NV(R)) (hình 2.1) để

quản lý nhân viên trong một cơ quan như sau:

Cho lược đồ khối R = (id; A1, A2, A3, A4), trong đó: id = {1/2009, 2/2009, 3/2009, , 12/2009,và các thuộc tính là A1 = ma (mã), A2 = ten (tên),

A3 = luong (lương), A4 = trinh_do (trình độ)

Với khối NV(R) ở hình 2.1, ta thấy nó gồm 3 phần tử: t1, t2, t3

Ngày đăng: 05/01/2018, 17:42

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
1. Nguyễn Xuân Huy (2006), Các phụ thuộc logic trong cơ sở dữ liệu, Nhà xuất bản Thống kê, Hà Nội Sách, tạp chí
Tiêu đề: Các phụ thuộc logic trong cơ sở dữ liệu
Tác giả: Nguyễn Xuân Huy
Nhà XB: Nhà xuất bản Thống kê
Năm: 2006
2. Trịnh Đình Thắng (2011), Mô hình dữ liệu dạng khối, Nhà xuất bản Lao động Sách, tạp chí
Tiêu đề: Mô hình dữ liệu dạng khối
Tác giả: Trịnh Đình Thắng
Nhà XB: Nhà xuất bản Lao động
Năm: 2011
3. Vũ Đức Thi (1997), Cơ sở dữ liệu- Kiến thức và thực hành, Nhà xuất bản Thống kê, Hà Nội Sách, tạp chí
Tiêu đề: Cơ sở dữ liệu- Kiến thức và thực hành
Tác giả: Vũ Đức Thi
Nhà XB: Nhà xuất bản Thống kê
Năm: 1997
4. Nguyễn Tuệ (2008), Giáo trình cơ sở dữ liệu, Nhà xuất bản Đại học Quốc gia Hà Nội Sách, tạp chí
Tiêu đề: Giáo trình cơ sở dữ liệu
Tác giả: Nguyễn Tuệ
Nhà XB: Nhà xuất bản Đại học Quốc gia Hà Nội
Năm: 2008
5. Trịnh Đình Vinh (2011), Một số phụ thuộc dữ liệu trong cơ sở dữ liệu dạng khối, Luận án Tiến sĩ Toán học Sách, tạp chí
Tiêu đề: Một số phụ thuộc dữ liệu trong cơ sở dữ liệu dạng khối
Tác giả: Trịnh Đình Vinh
Năm: 2011
6. Lê Tiến Vương (1997), Nhập môn Cơ sở dữ liệu quan hệ, Nhà xuất bản Khoa học và kỹ thuật, Hà Nội Sách, tạp chí
Tiêu đề: Nhập môn Cơ sở dữ liệu quan hệ
Tác giả: Lê Tiến Vương
Nhà XB: Nhà xuất bản Khoa học và kỹ thuật
Năm: 1997
7. Nguyễn Đăng Khoa, Vũ Huy Hoàng (2004), “Phụ thuộc hàm suy rộng trên cơ sở lý thuyết tập thô”, Tạp chí Tin học và Điều khiển học, T. 20, S. 1, tr. 91 - 98 Sách, tạp chí
Tiêu đề: Phụ thuộc hàm suy rộng trên cơ sở lý thuyết tập thô”, "Tạp chí Tin học và Điều khiển học
Tác giả: Nguyễn Đăng Khoa, Vũ Huy Hoàng
Năm: 2004
8. Nguyễn Minh Huy (2011), “Phụ thuộc hàm xấp xỉ và ứng dụng trong khai phá dữ liệu”, Luận văn thạc sĩ Sách, tạp chí
Tiêu đề: Phụ thuộc hàm xấp xỉ và ứng dụng trong khai phá dữ liệu”
Tác giả: Nguyễn Minh Huy
Năm: 2011
9. Ronald S.King, “Discovery of Functional and Approximate Functional Dependencies in Relational Databases”, Journal of applied mathematics and decision sciences, pp.49-59 Sách, tạp chí
Tiêu đề: Discovery of Functional and Approximate Functional Dependencies in Relational Databases”, "Journal of applied mathematics and decision sciences
10. Aravind Krishna Kalavagattu, MiningApproximate Functional Dependencies as Condensed Representations of Association Rules, Arizona State University, 2008 Sách, tạp chí
Tiêu đề: MiningApproximate Functional Dependencies as Condensed Representations of Association Rules
11. Dalkilic, M.M., Robertson, E.L.: Information Dependencies, Proceedings of ACM PODS. (2000), pp. 245–253 Sách, tạp chí
Tiêu đề: Proceedings of ACM PODS
Tác giả: Dalkilic, M.M., Robertson, E.L.: Information Dependencies, Proceedings of ACM PODS
Năm: 2000
13. Han J., and Kamber M., Data Mining Concepts and Techniques, Morgan Kanuf- mann, 2000 Sách, tạp chí
Tiêu đề: Data Mining Concepts and Techniques
14. Hong Yao, Howard J. Hamilton, Cory J. Butz, FD_Mine: Discovering Functional Dependencies in a Database Using Equivalences, Second IEEE International Conference on Data Mining, 2002 Sách, tạp chí
Tiêu đề: Second IEEE International Conference on Data Mining
15. Hector Garcia-Molina, Jeffrey D. Ullman, and Jennifer Widom, Database Systems: The Complete Book, Prentice Hall Publisher, 2000 Sách, tạp chí
Tiêu đề: Database Systems: The Complete Book
16. Huhtala, Y., Karkkainen, J., Porkka P., and Toivonen, H., TANE: An Efficient Algorithm for Discovering Functional and Approximate Dependencies, The Com-puter Journal, 42(2), pp. 100-111, 1999 Sách, tạp chí
Tiêu đề: The Com-puter Journal
17. Jalal Atoum, Mining Approximate Functional Dependencies from Databases Based on Minimal Cover and Equivalent Classes, European journal of scientific research, 33 (2), pp. 338 – 346, 2009 Sách, tạp chí
Tiêu đề: European journal of scientific research
18. Kivinen, J., and Mannila, H. Approximate Inference of Functional Dependencies From Relations. Theoretical Computer Science, 149, pp.129-149, 1995 Sách, tạp chí
Tiêu đề: Theoretical Computer Science
17. Kwok-Wa Lam, Victor C.S.Lee, Building Decision Trees Using Functional Dependencies, Processdings, of the International Conference on Information Technology: Coding and Computing (ITCC’04), 2004 Sách, tạp chí
Tiêu đề: Processdings, of the International Conference on Information Technology: Coding and Computing (ITCC’04
18. L.B. Cristofor, A Rough Sets Based Generalization of Functional Dependencies, Umass/Boston, Dept. of Mathand Comp. Sci. Technical Sách, tạp chí
Tiêu đề: A Rough Sets Based Generalization of Functional Dependencies
19. Q. Wei, GQ. Chen, Efficient Discovery of Functional Dependencies with Degrees of Satisfaction, International journal of intelligent systems, Vol. 19, 2004 Sách, tạp chí
Tiêu đề: International journal of intelligent systems

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w