Lý do chọn đề tài Để xây dựng được một hệ thống cở sở dữ liệu tốt, người ta thường sử dụng các mô hình dữ liệu thích hợp đã có một số mô hình được sử dụng trong các hệ thống cở sở dữ li
Trang 1LUẬN VĂN THẠC SỸ MÁY TÍNH
Người hướng dẫn khoa học:
TS TRỊNH ĐÌNH VINH
HÀ NỘI, 2013
Trang 2Hà Nội,ngày 16 tháng 12 năm 2013
Tác giả
Nguyễn Năng An
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan: đây là công trình nghiên cứu của riêng tôi Các kết quả nghiên cứu trong luận văn chưa từng được công bố trên bất cứ tài liệu hay công trình khoa học nào!
Tác giả
Nguyễn Năng An
Trang 4MỤC LỤC LỜI CÁM ƠN
LỜI CAM ĐOAN
MỞ ĐẦU 1
Chương 1: LÝ THUYẾT TẬP THÔ VÀ CÁCH TIẾP CẬN TẬP THÔ THEO MÔ HÌNH QUAN HỆ 3
1.1 Giới thiệu 3
1.2 Hệ thông tin 4
1.3 Quan hệ bất khả phân biệt 4
1.3.1 Sự dư thừa thông tin 4
1.3.2 Quan hệ tương đương – Lớp tương đương 4
1.4 Xấp xỉ tập hợp 5
1.5 Sự không chắc chắn và hàm thuộc 8
1.6 Sự phụ thuộc giữa các tập thuộc tính 9
1.7 Rút gọn thuộc tính 10
1.7.1 Khái niệm 10
1.7.2 Ma trận phân biệt và hàm phân biệt 12
1.8 Cơ sở dữ liệu quan hệ theo cách tiếp cận tập thô 12
Chương 2: MÔ HÌNH DỮ LIỆU DẠNG KHỐI 21
2.1 Khối, lược đồ khối 21
2.2 Lát cắt 22
2.3 Khóa của khối 24
2.4 Đại số quan hệ trên khối 27
2.4.1 Phép hợp 27
2.4.2 Phép giao 27
2.4.3 Phép trừ 27
2.4.4 Tích Đề các 28
2.4.5 Tích Đề các theo tập chỉ số 28
2.4.6 Phép chiếu 29
2.4.7 Phép chọn 29
2.4.8 Phép kết nối 30
2.4.9 Phép chia 31
Trang 52.5 Phụ thuộc hàm 31
2.6 Bao đóng của tập thuộc tính chỉ số 33
2.7 Khóa của lược đồ khối r với các tập phụ thuộc hàm F trên R 36
2.8 Dạng chuẩn của khối 39
Chương 3: MÔ HÌNH DỮ LIỆU DẠNG KHỐI THEO CÁCH TIẾP CẬN TẬP THÔ42 3.1 Định nghĩa mô hình dữ liệu dạng khối theo cách tiếp cận tập thô 42
3.2 Các phép toán đại số quan hệ ở dạng tập thô 43
3.2.1 Định nghĩa 3.2 43
3.2.2 Định nghĩa 3.3 44
3.2.3 Định nghĩa 3.4 44
3.2.4 Định nghĩa 3.5 45
3.2.5 Hiệu của hai khối thô 45
3.2.6 Hợp của hai khối thô 46
3.2.7 Giao của hai khối thô 47
3.2.8 Phép chọn trên một khối thô 47
3.2.9 Phép chiếu 47
3.2.10 Phép kết nối bằng trên các thuộc tính giống nhau 48
3.3 Một số tính chất của toán tử khối thô 49
3.3.1 Tính chất đóng của các toán tử khối thô 49
3.3.2 Tính chất của một dãy liên tiếp các phép chiếu một khối thô trên các thuộc tính lồng nhau 49
3.3.3 Tính chất của phép chọn theo một điều kiện hội 50
3.3.4 Phép chọn trên một số kết nối bằng của hai khối thô 50
KẾT LUẬN 52
TÀI LIỆU THAM KHẢO 54
Trang 6MỞ ĐẦU
1 Lý do chọn đề tài
Để xây dựng được một hệ thống cở sở dữ liệu tốt, người ta thường sử dụng các mô hình dữ liệu thích hợp đã có một số mô hình được sử dụng trong các hệ thống cở sở dữ liệu như: mô hình thực thể - liên kết, mô hình mạng,
mô hình phân cấp, mô hình hướng đối tượng, mô hình dữ liệu datalog và mô hình quan hệ Trong số các mô hình này thì có ba mô hình dữ liệu thường được sử dụng là mô hình phân cấp, mô hình mạng và mô hình quan hệ Đối với ba mô hình này thì mô hình quan hệ được quan tâm hơn cả Mô hình này được E Codd đề xuất năm 1970 Tuy nhiên do các quan hệ có cấu trúc phẳng (tuyến tính) nên mô hình này chưa đủ đáp ứng đối với các ứng dụng phức tạp, các cơ sở dữ liệu có cấu trúc phi tuyến tính,…
Trong những năm gần đây, việc nghiên cứu nhằm mở rộng mô hình dữ liệu quan hệ đã được nhiều nhà khoa học quan tâm Theo hướng nghiên cứu này một mô hình dữ liệu mới đã được đề xuất đó là mô hình dữ liệu dạng khối Mô hình dữ liệu này được xem là một mở rộng của mô hình dữ liệu quan hệ
Để hoàn thiện cho lý thuyết về mô hình dữ liệu dạng khối em đã chọn
đề tài “Mô hình dữ liệu dạng khối theo cách tiếp cận tập thô” Nhằm trình
bày các Mô hình dạng khối theo cách tiếp cận tập thô, các phép tính trên khối, đại số quan hệ trên khối và phụ thuộc hàm trên khối cũng theo cách tiếp cận tập thô
2 Mục đích nghiên cứu
Nghiên cứu một số cách tiếp cận tập thô, cụ thể là tập trung nghiên cứu vào mô hình dữ liệu dạng khối theo cách tiếp cận tập thô để hoàn chỉnh lý thuyết mô hình dữ liệu dạng khối
Trang 73 Nhiệm vụ nghiên cứu
Tìm hiểu về tập thô và mô hình quan hệ theo cách tiếp cận tập thô
Tìm hiểu về mô hình dữ liệu dang khối
Nghiên cứu về mô hình dữ liệu dạng khối theo cách tiếp cận tập thô
4 Đối tượng và phạm vi nghiên cứu
Đối tượng, phạm vi nghiên cứu về tập thô, mô hình dữ liệu dạng khối,
và mô hình dữ liệu dạng khối theo cách tiếp cận tập thô
5 Những đóng góp mới của đề tài
Luận văn bước đầu hoàn thiện về các vấn đề của cơ sở dữ liệu dạng khối ở dạng tập thô như định nghĩa mô hình dạng khối theo cách tiếp cận tập thô, các phép toán đại số ở dạng tập thô là đóng góp cho hoàn thiện về mô hình cơ sở dữ liệu dạng khối
6 Phương pháp nghiên cứu
Luận văn được thực hiện bằng phương pháp nghiên cứu lý thuyết: thu thập tài liệu, phân tích các tài liệu và những thông tin liên quan đến đề tài, kết hợp các nghiên cứu đã có trước đây của tác giả trong nước cùng với sự chỉ bảo, góp ý của thầy hướng dẫn để hoàn thành nội dung nghiên cứu
Trang 8CHƯƠNG 1: LÝ THUYẾT TẬP THÔ
VÀ MÔ HÌNH QUAN HỆ THEO CÁCH TIẾP CẬN TẬP THÔ 1.1 Giới thiệu
Lý thuyết tập thô (rough set theory) lần đầu tiên được đề xuất bởi Z Pawlak và nhanh chóng được xem như một công cụ xử lý các thông tin mơ hồ
và không chắc chắn Phương pháp này đóng vai trò hết sức quan trọng trong lĩnh vực trí tuệ nhận tạo và các ngành khoa học khác liên quan đến nhận thức, đặc biệt là lĩnh vực máy học, thu nhận tri thức, phân tích quyết định, phát hiện
và khám phá tri thức từ cơ sở dữ liệu, các hệ chuyên gia, các hệ hỗ trợ quyết định, lập luận dựa trên quy nạp và nhận dạng
Lý thuyết tập thô dựa trên giả thiết rằng để định nghĩa một tập hợp, chúng ta cần phải có thông tin về mọi đối tượng trong tập vũ trụ Ví dụ, nếu các đối tượng là những bệnh nhân bị một bệnh nhất định thì các triệu chứng của bệnh tạo thành thông tin về bệnh nhân Như vậy tập thô có quan điểm hoàn toàn khác với quan điểm truyền thống của tập hợp, trong đó mọi tập hợp đều được định nghĩa duy nhất bởi các phần tử của nó mà không cần biết bất
kỳ thông tin nào về các phần tử của tập hợp Rõ ràng, có thể tồn tại một số đối tượng giống nhau ở một số thông tin nào đó, và ta nói chúng có quan hệ bất khả phân biệt với nhau Đây chính là quan hệ mấu chốt và là điểm xuất phát của lý thuyết tập thô: biên giới của tập thô là không rõ ràng, và để xác định nó chúng ta phải đi xấp xỉ nó bằng các tập hợp khác nhằm mục đích cuối cùng là trả lời được(tất nhiên càng chính xác càng tốt) rằng một đối tượng nào đó có thuộc tập hợp hay không Lý thuyết tập thô với cách tiếp cận như vậy đã được ứng dụng trong rất nhiều lĩnh vực của đời sống xã hội Trong chương này chúng ta sẽ nghiên cứu các khái niệm và ý nghĩa cơ bản của lý thuyết tập thô Đây là những kiến thức quan trọng cho việc áp dụng tập thô vào mô hình dữ liệu dạng khối
Trang 91.2 Hệ thông tin
Một tập dữ liệu thể hiện dưới dạng bảng, trong đó mỗi dòng thể hiện cho một trường hợp, một sự kiện, một bệnh nhân hay đơn giản là một đối tượng Mỗi cột của bảng thể hiện một thuộc tính(là một giá trị, một quan sát, một đặc điểm,…) được “đo lường” cho từng đối tượng Ngoài ra giá trị của thuộc tính cũng có thể được cung cấp bởi chuyên gia hay bởi người sử dụng
Một bảng như vậy được gọi là một hệ thông tin(information system)
Một cách hình thức, hệ thông tin là một cặp S = (U, A) trong đó U là tập hữu hạn không rỗng các đối tượng và được gọi là tập vũ trụ, A là tập hữu
được gọi là tập giá trị của thuộc tính a
1.3 Quan hệ bất khả phân biệt
1.3.1 Sự dư thừa thông tin
Một hệ quyết định (hay một bảng quyết định) thể hiện tri thức về các đối tượng trong thế giới thực Tuy nhiên trong nhiều trường hợp bảng này có thể được tinh giảm do tồn tại ít nhất hai khả năng dư thừa thông tin sau đây:
• Nhiều đối tượng giống nhau, hay không thể phân biệt với nhau lại được thể hiện lặp lại nhiều lần
• Một số thuộc tính có thể là dư thừa, theo nghĩa khi bỏ đi các thuộc tính này thì thông tin do bảng quyết định cung cấp mà chúng ta quan tâm sẽ không bị mất mát
1.3.2 Quan hệ tương đương - Lớp tương đương
niệm quan hệ tương đương Một quan hệ hai ngôi R ⊆ XxX được gọi là quan
hệ tương đương khi và chỉ khi:
• R là quan hệ phản xạ: xRx, ∀x ∈ X
• R là quan hệ đối xứng: xRy ⇒ yRx, ∀x, y ∈ X
Trang 10• R là quan hệ bắc cầu: xRy và yRz ⇒ xRz, ∀x, y, z ∈ X
Một quan hệ tương đương R sẽ phân hoạch tập đối tượng thành các lớp
tương đương, trong đó lớp tương đương của một đối tượng x là tập tất cả các
đối tượng có quan hệ R với x
Tiếp theo, xét hệ thông tin A = (U , A) Khi đó mỗi tập thuộc tính B ⊆
trên tập thuộc tính B Với mọi đối tượng x ∈ U, lớp tương đương của x trong
hoạch tập đối tượng U thành các lớp tương đương mà ta kí hiệu là U | IND(B)
ta nói rằng các khái niệm, hay tập các giá trị tại tập các thuộc tính quyết định,
có thể được mô tả một cách rõ ràng thông qua tập các giá trị tại tập các thuộc tính điều kiện
Những khái niệm trên được thể hiện một cách hình thức như sau:
Cho hệ thông tin S = (U, A) , tập thuộc tính B ⊆ A, tập đối tượng X ⊆ U Chúng ta có thể xấp xỉ tập hợp X bằng cách chỉ sử dụng các thuộc tính trong
B từ việc xây dựng các tập hợp B - xấp xỉ dưới và B - xấp xỉ trên được định nghĩa như sau :
Trang 11những đối tượng mà sử dụng các thuộc tính của B ta không thể xác định được chúng có thuộc tập X hay không
mà sử dụng tập thuộc tính B ta biết chắc chắn chúng không thuộc tập X
ngược lại ta nói tập này là rõ Lưu ý rằng do khái niệm biên của một tập đối tượng gắn liền với một tập thuộc tính nào đó nên khái niệm thô hay rõ ở đây cũng gắn liền với tập thuộc tính đó Trong đa số trường hợp, người ta luôn muốn hình thành các định nghĩa của các lớp quyết định từ các thuộc tính điều kiện
Trang 12(b) X được gọi là B - không định nghĩa được một cách nội vi (internally
B - undefinable) nếu và chỉ nếu ( ) B X = ∅ và B (X) ≠ U
(c) X được gọi là B - không định nghĩa được một cách ngoại vi (externally B - undefinable) nếu và chỉ nếu (X) B ≠ ∅ và ( )B X = U
(d) X được gọi là B -không định nghĩa được một cách hoàn toàn (totally B - undefinable) nếu và chỉ nếu ( ) B X = ∅ và ( )B X = U
Các khái niệm trên có thể diễn tả như sau :
• X là B - định nghĩa được một cách thô nghĩa là: với sự giúp đỡ của tập thuộc tính B ta có thể chỉ ra một số đối tượng của U thuộc về tập X và một
số đối tượng của U thuộc về U \ X
• X là B - không định nghĩa được một cách nội vi nghĩa là: sử dụng tập thuộc tính B ta có thể chỉ ra một số đối tượng của U thuộc về U \ X, nhưng lại không thể chỉ ra được các đối tượng thuộc về X
• X là B - không được định nghĩa một cách ngoại vi nghĩa là: sử dụng tập thuộc tính B ta có thể chỉ ra một số đối tượng thuộc về X, nhưng không chỉ ra các đối tượng thuộc về U \ X
• X là B - không định nghĩa được một cách hoàn toàn nghĩa là: sử dụng tập thuộc tính B ta không thể chỉ ra bất kỳ đối tượng nào của U thuộc về
Trang 13X hay thuộc về U \ X
Cuối cùng, một tập thô có thể được định lượng bởi hệ số
( )( )
( )
B
B X X
B X
được gọi là độ chính xác của xấp xỉ, trong đó |X| chỉ số phần tử của tập X Rõ ràng 0 < αB( )X < 1 Nếu αB( )X = 1 thì X là rõ(chính xác) đối với tập thuộc tính B Ngược lại, nếu α B ( X ) < 1 thì X là thô (mơ hồ) đối với tập thuộc tính B
Chúng ta kết thúc mục này với thuật toán xác định các xấp xỉ trên và xấp xỉ dưới của một tập đối tượng theo một tập thuộc tính cho trước
1.5 Sự không chắc chắn và hàm thuộc
Chúng ta đã biết BNB(X) là tập các đối tượng trong tập vũ trụ U mà bằng cách sử dụng tập thuộc tính B ta không thể xác định được chắc chắn chúng có thuộc tập đối tượng X hay không Do đó, sự không chắc chắn trong ngữ cảnh này gắn với một câu hỏi về độ thuộc (membership) của các phần tử vào một tập hợp
Trong lý thuyết tập hợp cổ điển, một phần tử hoặc là thuộc vào tập hợp hoặc không Như vậy hàm thuộc tương ứng là một hàm đặc trưng cho tập hợp, nghĩa là hàm sẽ nhận giá trị 0 và 1 tương ứng
Trong lý thuyết tập thô, hàm thuộc thô B
B B
U
X
∩Một số tính chất của hàm thuộc thô
Trang 141.6 Sự phụ thuộc giữa các tập thuộc tính
Một vấn đề quan trọng trong phân tích dữ liệu là khám phá sự phụ thuộc giữa các thuộc tính Một cách trực giác, một tập thuộc tính D được cho
giá trị của các thuộc tính trong D có thể được xác định duy nhất bởi các giá trị của các thuộc tính trong C Nói cách khác, D phụ thuộc hoàn toàn vào C nếu tồn tại một ánh xạ từ các giá trị của tập C tới các giá trị của tập D Khái niệm phụ thuộc thuộc tính được thể hiện dưới dạng hình thức như sau:
Cho C và D là các tập con của tập thuộc tính A Ta nói D phụ thuộc C với độ
phụ thuộc k (0 ≤ k ≤ 1), kí hiệu C⇒k D nếu :
được gọi là C - vùng dương của D Đây là tập các đối tượng của U mà bằng
cách sử dụng tập thuộc tính C ta có thể phân chúng một cách duy nhất vào các phân hoạch của U theo tập thuộc tính D
Trang 15∈
Nếu k = 1 thì ta nói D phụ thuộc hoàn toàn vào C, ngược lại nếu k < 1
thì ta nói D phụ thuộc một phần vào C với độ phụ thuộc k
Có thể nhận thấy rằng nếu D phụ thuộc hoàn toàn vào C thì
tính C mịn hơn các phân hoạch tạo ra bởi D
được gọi là có thể bỏ được (dispensible) trong P nếu IND(P) = IND(P - {a}), ngược lại ta nói a là không thể bỏ được(indispensible) trong P Rõ ràng thuộc
tính có thể bỏ được không làm tăng / giảm khả năng phân loại khi có/ không
có mặt thuộc tính đó trong P Tập tất cả các thuộc tính không thể bỏ được
Trang 16trong P được gọi là lõi(core) của P, ký hiệu CORE(P) Lưu ý rằng lõi có thể là
tập rỗng, khi đó mọi tập con của P với lực lượng bằng card(P) - 1 đều giữ
nguyên khả năng phân loại của P
Khi loại ra khỏi P một số thuộc tính có thể bỏ được thì ta được một tập
rút gọn của P Nói cách khác, rút gọn của một tập thuộc tính P là tập thuộc
dàng thấy rằng, vì lõi của P là tập các thuộc tính không thể bỏ được của P nên tất cả các rút gọn của P đều chứa tập thuộc tính lõi
Một rút gọn B của tập thuộc tính P được gọi là rút gọn hoàn toàn nếu
hoàn toàn là tập thuộc tính nhỏ nhất trong tất cả các rút gọn có thể có của P và được ký hiệu là RED(P)
Tính chất: Tập thuộc tính lõi của P là giao của tất cả các rút gọn hoàn
Thuộc tính a được gọi là Q - có thể bỏ được (Q – dispensible) trong P
indispensible) Tập tất cả các thuộc tính Q - không thể bỏ được trong P được gọi là Q - lõi tương đối (Q – relative core) của P hay Q - lõi (Q – core) của P
vậy, Q - rút gọn hoàn toàn của P là tập thuộc tính nhỏ nhất trong tất cả các Q -
Tính chất: Tập thuộc tính Q - lõi của P là giao của tất cả các tập thuộc tính Q -
Trang 171.7.2 Ma trận phân biệt và hàm phân biệt
Phần trên cung cấp các khái niệm về rút gọn thuộc tính trong một hệ thông tin, tuy nhiên chúng chưa thật sự rõ nét và trực quan Trong phần này chúng ta sẽ thấy được bản chất của một rút gọn của tập thuộc tính
Xét hệ thông tin A = (U, A) có n đối tượng Ma trận phân biệt của A là
cij = {a ∈ A| a( xi) ≠ a( xj)} với i, j = 1,2, , n
phân biệt hai đối tượng xi và xj
1.8 Cơ sở dữ liệu quan hệ theo cách tiếp cận của lý thuyết tập thô
Mô hình cơ sở dữ liệu quan hệ thô là một mở rộng của mô hình cơ sở
dữ liệu quan hệ kinh điển của codd Lý thuyết tập thô ngày càng chứng tỏ là một công cụ tốt cho việc quản lý tính không chắc chắn trong rất nhiều ứng dụng rộng rãi, trong đó có các cơ sở dữ liệu thô Vậy cơ sở dữ liệu quan hệ thô khác cơ sở dữ liệu thông thường ở những điểm nào, các phép toán của đại
số quan hệ (các toán tử quan hệ) được mở rộng như thế nào trong cơ sở dữ liệu quan hệ thô, dưới đây là một số giới thiệu ngắn gọn về mô hình cơ sở dữ liệu quan hệ thô Nó giữ được tất cả các tính chất thiết yếu của lý thuyết tập thô bao gồm tính không phân biệt được của các phần tử, được ký hiệu bởi các lớp tương đương và các miền xấp xỉ trên và dưới đối với tập định nghĩa, không định nghĩa được theo tính không phân biệt được
Năm 1994 Beaubouef, T Và Petry, F E trên cơ sở sử dụng các khái niệm quan hệ không phân biệt được(quan hệ tương đương) và không gian xấp
xỉ của lý thuyết tập thô đã mở rộng cơ sở dữ liệu quan hệ kinh điển thành cơ
sở dữ liệu quan hệ thô
Cơ sở dữ liệu quan hệ thô có nhiều đặc điểm chung với cơ sở dữ liệu quan hệ thông thường: cả hai mô hình đều biểu diễn dữ liệu dưới dạng môt tập các quan hệ chứa các bộ Các bộ trong một quan hệ là không có thứ tự và không được giống nhau:
Trang 18Trong cơ sở dữ liệu quan hệ thô, một bộ thô Ti ∈ R(A1,A2, A3…An) có dạng Ti= (di1,di2,di3,…din) với dij⊆ Dom(Aj), dịj≠ ∅ ∀ j= 1,2,3 n
Gọi Dj là Dom(Aj), và ký hiệu P(Dj)= 2D j−∅
trong đó 2D j
là tập lũy thừa của
Dj( là họ tất cả các tập con của Dj)
Từ đó ta có thể định nghĩa các khái niệm: quan hệ thô, một thể hiện của một
bộ thô, các bộ dư thừa của nhau và các phép toán của đại số quan hệ thô
1.8.1 Các phép toán đại số trên quan hệ thô
đương (được chỉ định bởi người thiết kế cơ sở dữ liệu hay người dùng) Như vậy, trong mỗi miền trị, các giá trị thuộc cùng một lớp tương đương là không phân biệt được và trong tìm kiếm cơ chế hỏi sẽ sử dụng lớp tương đương thay cho sự bằng nhau của các giá trị như đã dùng trong cơ sở dữ liệu quan hệ thông thường
[ ] [ ] [ ]
ij 1 2 m
{1,2, , }
Trang 19Định nghĩa 3
Hai bộ Ti=(di1, di2, ,din) và Tk=(dk1, dk2, ,dkn) được gọi là dư thừa của nhau nếu [dij]=[dkj] và với mọi j = 1, 2, 3 n
Trong một quan hệ thô không có các bộ dư thừa của nhau Quá trình trộn các
bộ dư thừa của nhau thành một bộ sẽ tiến hành xóa các bộ dư thừa vì các bộ
dư thừa không được phép tồn tại trong tập Tuy nhiên, cũng có thể có nhiều hơn một bộ cùng một thể hiện
Hiệu của hai quan hệ thô
Cho X và Y là hai quan hệ khả hợp được hiểu theo nghĩa của mô hình
dữ liệu Hiệu giữa X và Y, ký hiệu X – Y là một quan hệ T, trong đó
RT = t t RX∈ và (t RY∉ ) } , trong đó RT là xấp xỉ dưới của T
RT = t t RX∈ và (t RY∉ ) } , trong đó RT là xấp xỉ trên của T
nào xấp xỉ dưới của Y
Ví dụ : cho các quan hệ X và Y chứa các bộ thuộc tính ngày tháng, thời tiết và lượng mây, trong đó ký hiệu các bộ của miền xấp xỉ dưới bằng dấu *
Hợp của hai quan hệ thô
Cho X và Y là hai quan hệ thô khả hợp
Trang 20{ | ( )
RT = t t RX∈ hoặc t RY∈ )},
và RT ={t| (t∈RX) hoặc t RY∈ )}
Giao của hai quan hệ thô
Cho X và Y là hai quan hệ thô khả hợp
RT = t t RX∈ hoặc t RY∈ )},
và RT ={t| (t∈RX) hoặc t RY∈ )}
Phép chọn trên một quan hệ thô
Cho X là một quan hệ xác định trên một tập thuộc tính có chứa A,
a={ai} trong đó a i∈Dom A( )
cùng lược đồ như X, trong đó:
Phép kết nối bằng trên các thuộc tính giống nhau
Cho X(A1, A2, A3 ,Am) và Y(B1, B2, ,Bn) là hai quan hệ, với A={A1,
A2, A3 ,Am} và B={B1, B2, ,Bn}
Trang 21Kết nối bằng của hai quan hệ X và Y, ký hiệu là X Y là quan hệ
ghép cặp với một định danh tùy ý của tính không phân biệt được và là duy nhất với mọi lớp tương đương
2 Với mỗi quan hệ, cần có một cơ chế đánh dấu để phân biệt các bộ thuộc xấp xỉ dưới với các bộ thuộc xấp xỉ trên
1.8.2 Một số tính chất của các toán tử quan hệ thô
Tính chất đóng của các toán tử quan hệ thô
Theo định nghĩa của các toán tử quan hệ thô (các toán tử một ngôi và
các toán tử hai ngôi) đều cho kết quả là một quan hệ
Tính chất phân bố của phép chọn đối với các phép hợp, giao và
Trang 22Với θ∈ ∪ ∩ −{ , , };Aj0∈{A , A }1 n
Trang 23Định lý: cho Cho r (A1, A2, A3 ,An) là một quan hệ
Và X1⊆ X2 ⊆ X3⊆ ⊆ X m là một dãy các tập con của {A1, A2,
Chứng minh: ta chứng minh theo quy nạp
Trước hết ta chứng minh cho trường hợp m=2
r} Đồng thời, sau khi loại bỏ khỏi r các thuộc tính(cột) không thuộc s, nếu có hai bộ t1∈Rr t, 2∈Rr sao cho t1[X2] và t2[X2] là các bộ dư thừa của nhau thì
bộ t1[X2] được giữ lại trong hình chiếu
Với các thao tác như vậy, rõ ràng vế trái và vế phải của
Trang 241( 2( )) 1( )
Là hai quan hệ sao cho mỗi bộ của vế trái là dư thừa với một và chỉ một
bộ của vế phải và ngược lại Ngoài ra, vết của các bộ thuộc xấp xỉ dưới của r vẫn được bảo toàn Như vậy đẳng thức trên được chứng minh Việc mở rộng đẳng thức trên với m=3 m để có định lý là khá hiển nhiên
Tính chất của phép chọn theo một điều kiện hội
Định lý: Cho r (A1, A2, A3 ,An) là một quan hệ Khi đó:
Phép chọn trên một số kết nối bằng của hai quan hệ
Định lý: Cho r (A1, A2, A3 ,An) và s(B1, B2, B3 ,Bn) là các quan hệ với A={A1, A2, A3 ,Am} và B= {B1, B2, B3 ,Bm} Khi đó
Trang 25Ở đây sự bằng nhau của hai quan hệ thô được hiểu theo nghĩa mỗi bộ của quan hệ thứ nhất dư thừa với một và chỉ một bộ của quan hệ thứ hai và ngược lại
Định lý được chứng minh
Trang 26CH¦¥NG 2: M¤ H×NH C¥ Së D÷ LIÖU D¹NG KHèI
2.1 Khối, lược đồ khối
Khái niệm toán học làm nền tảng cho mô hình cơ sở dữ liệu dạng khối (gọi tắt là mô hình khối) là các khối hiểu theo nghĩa của lý thuyết tập hợp Khối được định nghĩa như sau:
Định nghĩa 2.1:
Gọi R = ( id; A1, A2, , An ) là một bộ hữu hạn các phần tử, trong đó
kí hiệu r(R) gồm một số hữu hạn phần tử mà mỗi phần tử là một họ các ánh
một cách khác : t ∈ r(R) ⇔ t = { ti : id → dom(Ai) } i =1,n
không sợ nhầm lẫn ta kí hiệu đơn giản là r
một lược đồ khối R ta có thể xây dựng được nhiều khối khác nhau
Ví dụ 2.1: Ta xây dựng khối nhân viên ( ký hiệu NV(R)) để quản lý nhân
viên trong một cơ quan như sau:
Cho R = ( id; A1, A2, A3, A4 ) ,
trong đó : id = {1/2009, 2/2009, 3/2009, , 12/2009},
và các thuộc tính là A1 = ma (mã), A2 = ten (tên),
A3 = luong (lương), A4 = trinh_do (trình độ)
Với khối NV(R) như ở dưới đây, ta thấy nó gồm 3 phần tử: t1 , t2 , t3
Trang 27ma ten luong trinh_do
A01 A 500 TS A01 A 350 ThS
ta kí hiệu r(Rx) là một khối với Rx = ({x}; A1, A2, , An) sao cho :
tx ∈ r(Rx ) ⇔ tx = { tix = ti }i =1,n với t ∈ r(R) ,
x và t = { ti : id → dom(Ai) } i =1,n
ở đây tix(x) = ti(x) với i=1,n
Ví dụ 2.2: Với khối NV(R) đã cho ở trên , R = ( id; A1, A2, A3, A4 )
Trang 28gồm một phần tử thì r(R) trở thành một quan hệ
của khối, đó chính là khối r(R) với R = ( {x}; A1, A2, , An ).
Mệnh đề 2.2
Cho R = ( id; A1, A2, , An ), r(R) là một khối trên R, khi đó tồn tại
Ngược lại không đúng, nghĩa là với một họ quan hệ cho trước biểu diễn họ
Chứng minh :
- Với khối r(R) cho trước thì họ quan hệ phải tìm chính là họ {r(Rx)}x∈id các lát cắt của khối r(R)
- Điều ngược lại không đúng, để khẳng định ta xét trường hợp sau :
Khi đó ta có chẳng hạn các khối sau đây nhận họ hai quan hệ {
r1, r2 } nói trên là họ các lát cắt của nó :
Trang 29nói trên là không duy nhất
2.3 Khóa của khối
mỗi x ∈ id, t ∈ r(R), t = ( t1, t2, , tn), ta kí hiệu t(x;Ai), ( i =1 n), là giá trị của phần tử t ở thuộc tính Ai tại chỉ số x
Để thuận lợi cho việc trình bày , ta đặt xi = ( x; Ai ), x ∈ id và như vậy :
t(xi ) = t( x; Ai ) = ti (x), ( i = 1 n ) Từ đó, ta kí hiệu :
idi = { xi } x ∈ id , như vậy idi = {(x; Ai )} x ∈ id
Với Xi ⊆ idi thì ta kí hiệu : t(Xi ) = {t(yi )| yi ∈ Xi }
Giả sử t1 , t2 ∈ r(R) với t1 = { ti1 : id → dom(Ai) } i =1 n ,
t2 = { ti2 : id → dom(Ai) } i =1 n ,
Trang 30khi đó ta định nghĩa khóa của khối r(R) như sau :
Định nghĩa 2.2 :
Khóa của khối r trên lược đồ khối R = ( id; A1, A2, , An ) là một tập K = { Xi1, Xi2, , Xih }, trong đó Xik ≠ ∅, Xik ⊆ idik , (k = 1 h) , thỏa mãn hai tính chất :
a Với bất kì 2 phần tử t1, t2 ∈ r đều tồn tại một Xik ∈ K sao cho :
- t1ik (Xik ) ≠ t2ik(Xik ) Nói một cách khác, không tồn tại 2 phần tử mà :
- t1ik (Xik ) = t2ik(Xik ) , ∀ k = 1 h
b Với bất kì tập K’ nào, K’ = { X’i1, X’i2, , X’ih }, với X’ik ⊆ Xik
không có tính chất a) nói trên
K” = { X’’i1 ,X’’i2 , , X’’ih }, trong đó Xik ⊆ X’’ik , (∀ k = 1 h), được gọi là một siêu khóa của khối r
Mệnh đề 2.3
Cho R = (id; A1, A2, ,An), r(R) là một khối trên R Khi đó với
x ∈ id mà ta có { xi1, xi2, ,xik } là khóa của lát cắt r(Rx ) thì ta cũng có với mọi y ∈ id , { yi1, yi2, ,yik } là khóa của lát cắt r(Ry )