1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn các kỹ thuật phân tán dữ liệu trong cơ sở dữ liệu phân tán

88 1 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Các Kỹ Thuật Phân Tán Dữ Liệu Trong Cơ Sở Dữ Liệu Phân Tán
Tác giả Koeu Sokmeak
Người hướng dẫn GS.TS Nguyễn Thức Hải
Trường học Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành Công Nghệ Thông Tin
Thể loại Luận văn thạc sĩ
Năm xuất bản 2008
Thành phố Hà Nội
Định dạng
Số trang 88
Dung lượng 1,2 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

‘frong CSDL phân tản ý tướng diểu khiển tập trung phan nao dé it dược nhân mạnh so với CSDL tập trung, điều này phụ thuộc vào kiên trúc của hệ thông Nội chúng, trong địa phương xác định

Trang 1

LUAN VAN THAC SI KHOA HOC

NGANH : CONG NGHE THONG TIN

CAC KY THUAT PHAN TAN DU LIEU

TRONG CO SO DU LIEU PHAN TAN

KOEU SOKMEAK

GV HUONG DAN KHOA HOC: GS.TS NGUYEN THUC HAI

HÀ NỘI-2008

Trang 3

ding Su ra đời của hệ thông mạng LAN tốc độ cao vào những thế kỷ 70s đã tác động đến sự phát triển của hệ phần tán Các trạm làm việc cũng như các hệ thông

Hệ cơ sở dữ liệu phân tản dược xây dụng dựa trên 2 công nghệ cơ bản: (1)

cơ sở đữ liệu, và (2) mạng máy tính Hệ cơ sở đữ liệu phân tán được mô tả như là

tập hợp nhiều cơ sở đữ liệu có liên quan logic đến nhau và được phan bé trén mang xmáy tỉnh Cơ sở dữ liệu phân tán giám được chỉ phí truyền thông, thời gian đáp ứng,

nhanh, đầm bão tỉnh độc lập dữ liệu „ tránh dư thừa dữ liệu và chia sẻ tải ng uyên

Trong Khuôn khổ luận văn này, em đã đề cập đến các cơ sở lý thuyết cũng,

ahư các phương pháp, thuật toán sử dụng trong quá trình phân tản dữ liệu

Tuận văn được hoàn thành nhờ vào sự hướng din tan tỉnh cla GSTS Nguyễn Thúc Hiái, Khoa CN'LT, Trường DHKIN

Em xin tran trọng cam ơn Thầy GŸ 79 Nguyên Thức Hải đã hưởng dẫn chỉ

ảo và luôn tạo điêu kiện thuận lợi cho em hoàn hành luận văn này

Một lần nữa em xin câm ơn các thay cé tong Khoa CNTT, TTSDH,

Trường ĐHBKNN đã giảng dạy trong suốt thời gian qua, đặc biệt xin cân ơn Chính

phú Cộng hỏa Xã hội Chú nghĩa Việt Nam đã tạo điều kiện và cơ hội tốt cho em

hoành thành học lập của mình

Hà Nội :Tháng 11 Năm 2008

Học viên: Koeu 8okmtcak

Trang 4

PHAN 1: GIOT THIEU CSDL PHAN TAN VA SU PHAN TAN DU

4 XU THẺ PHÁT TRIEN CSDL PHAN TAI 18 CHƯƠNG 2 : CÁC KHÁI NIỆM PHAN TAN DU LIEU: 20

PUAN I: CAC KY TOUAT PITAN TAN DU LIEU 28

3.1.1 YÊU CAU THONG TIN VE PHAN DOAN

Trang 5

1

42 MÔ HÌNH ¥A MOT SO VAN ĐỀ CƠ BẢN LIÊN QUAN a

DEN PHAN BO DU LIEU

4.2.2 YEU CAU THONG TIN 69 4.2.2.1 THONG TIN VE CSDL 69

4.2.2.2 THONG TIN VE UNG DỤNG “9 4.2.2.3 THONG TIN VE CAC TRAM 79

4.2.2.4 THONG TIN VE MANG: 79

4.2.3 MÔ HÌNH PHẪN BỘ DỮ LIỆU 79

Trang 6

4.3 PHƯƠNG PHÁP HEURISTIC ĐÓI VỚI PHÂN BÓ DỮ LIỆU

Trang 7

Tình 1 Mô hình hệ CSDI, phân tân thuần nhất đơn giản 9

Hình 2: Kiển trúc hệ CSDL phân tán thuần nhất 10

Hình 3: Phân doan quan hé tang thé R 11

Hình 4: Phân loại các hệ CSDL phân tản theo kiến trúc 12

Hình 5 : 8o sánh các lựa chọn nhên bản 19

1Iinh 7 : Biểu điễn môi liên hệ giữa các quan hệ nhờ các đường nói 23

Linh 8: Mé ta BYP 46

Linh 9: Cay phan doan PT 51

Bang | : Tân xuât đề truy xuất các đoạn của các truy vẫn 52

Hình 10: Xây đựng cây PT s3

Bang 2: Các lợi nhuận trong bước 0 của cây PT hình 9 54

Tình 11: Tuge dé Verm 54

Tình 13: Đoạm ¡ trong thuật toàn lỗi trà 69

Bang 3: Lick ké xde sual Iruy cập íL nhật một lần 73

Tình 13: Biểu diễn đoạn ¡ với bộ đếm 72

Tình 14: Ös hàm cửa xã trong hệ thống có 5 trạm T5

Hinh 15 : £8 thi dường cong khi thay dỗi ngưỡng, 16

Trang 8

BANG CAC TU VIET TẮT& TỪ KHÓA

Simple Predicate Vị từ đơn giản

‘Minterm Predicate Vị tí hội sơ cập

Miniterm selectivity bà Jong các bộ được truy xuât bởi một cầu truy

Access Frequency Tân số truy xuất

Completeness Tỉnh dây đủ øủa vi Uy don gid

Minimality Tỉnh tiêu cực của vị từ đơn giản

Nourelevant Liên đới

Atribule Usage Value Giá trì sử dụng của các thuộc tính

ate Chỉ phí để lưu trữ đoạn lại trạm

Dala Allocation Problan |, „; 7

Trenmision Dt Chip uyên dã ệo

Access Cust, &

Ae Chỉ phí truy nhập

Integrity Enforcoment

Cost Chi phi dim bao tinh toàn vẹn

TU

Ti He HC Control Gost | (¡bị diều khiển tương tranh

Attribute Affinity Matrix | Ma trận ái lực thuộc tính

Partition Phân hoạch

Trang 10

Học viên: Kozn Sokmeak -1- Ky thnat Phan tan đữ liệu

PHAN 1: GIỚI THIỆU CSDL PHÂN TAN

VA SU PHAN TAN DU LIEU

'phân bể trên một mạng máy tỉnh Liệ quản trị CSIDL phân tán là hệ thông phần mềm

cho phép quản trị CSDL phân tán va lam cho su phan tan do 14 tréng suốt đổi với

người sử dụng [1|

Đình nghĩa này nhân ranh hai khía cạnh quan trọng của OSDT, phân tán 1- Tỉnh phân tán, thực tế đữ liệu không cư trú ở cùng một trạm, vì vậy

cling ta co thé phan bit m4i CSDL phan tin với CSD1, tập trung,

2- Sự tương quan légic, cac dif ligu cé mét sé tinh chat rang buộc lần nhau

và như vậy có thế phân biệt CSDI, phân tán với tập cáo CSDL, địa phương hoặc với

các tốp cư trú ở các trạm khác nhau trên mạng,

2 CAC DAC DIEM CSDL PHAN TAN SO VOI CSDL

'Viện Sau Dạt Học, Khoa CNTT, Trưởng Dại Học Bách Khoa Hà nội

GY Muang Dn Khoa Moc: G8.TS Nguyễn Thúc Hải

Trang 11

Điều khiển tập trung các nguồn tài tguyền thông tin cia mal hang hoặc một

tổ chức được xem như động cơ thúc đây mạnh mẽ nhất của việc đưa vào sử dụng, CSDL Chúng phát triển như sự tiến hoa của các hệ thông tin, trong đó mỗi ứng,

dung có các lập riêng của nó Chức năng cơ số của người quận trị cơ sỡ đữ liệu là

đạt dược sự an toàn dit Leu

‘frong CSDL phân tản ý tướng diểu khiển tập trung phan nao dé it dược

nhân mạnh so với CSDL tập trung, điều này phụ thuộc vào kiên trúc của hệ thông

Nội chúng, trong địa phương xác định một câu trúc điều khiến phân cấp trên cơ sở người quản trị cơ sở đữ liêu tổng thể có trách nhiệm trung tâm của toàn

bộ CSDL, những người quán trị cơ sở dữ liệu địa phương có trách nhiệm với các CSDL địa phương của họ Tuy nhiên, nhân mạnh răng người quản trị eơ sở đữ liệu

địa phương có thể có một sự tự trí cao hơn tới mức là phối hợp giữa cáo trạm được thực hiện bởi chỉnh người quản trị địa phương mà không cẩn tới người quản trị CSDL tổng thể Đặc diém nay được gọi là sự tự trị của các trạm Các CSDL phân tan có thể không giống nhau về mức độ tự trị: lừ tự trị hoàn toàn không có người quân trị cơ sở đữ liệu tập trung nào, đến hầu như hoàn toàn điều khiên tập trưng

« Tỉnh độc lập dữ liệu

Dộc lập đữ liệu có nghĩa là một tổ chúc dữ liệu thực sự là trông suốt với người lập trình ứng dung Cac chương trinh được viết có cách nhìn quan niệm về đít

liện gọi là sơ đỗ quan miệm: Thuận lợi chính của sự dộ

trình không ảnh hưởng khi có thay đối trong tổ chức vật lý của đữ liệu

dữ liệu là các chương

Trong CSDL phân tản sự độc lập dữ liệu có tầm quan trọng như trong

CSDE truyền thống và bỗ xưng một hướng mới vào khái niệm độc lập đữ Hiệu là sự trồng suốt trong phản tán

‘Tinh trong suốt (ransparency) của một hệ CSÐL, phân tán biểu thị sự tách biệt những ngữ nghĩa ở mức cao với những vân đề thực hiện ở mức thấp, Nói một

cách khác, một hệ thông trong suối đấu di nhưng cá tết thể liện với người dùng

'Viện Sau Dạt Học, Khoa CNTT, Trưởng Dại Học Bách Khoa Hà nội

GY Muang Din Khoa Học: G5.TS Nguyễn Thức Hai

Trang 12

Học viên: Kozn Sokmeak -3- Ky thnat Phan tan đữ liệu

Thế lợi của mội CSDI trong suốt hoàu toàn là mức hỗ trợ cao để phát triển những từng dụng phúc tạp Liiễn nhiên là chúng ta muốn tạo ra những CSDL trong suốt hoàn toàn Sự trang suốt phân tán được hiểu: Các chương trình được viết như với CSDL khéng phân tám Như vậy sự đúng đẫn của cáo chương trình không thay đối

khi đữ liệu từ trạm nảy sang trạm khác, mặc du tốc dé thực hiện có thể bị ảnh

hướng,

Độc lập đữ liệu được đáp ng trong các CSDI, tập trung quá kiến trúc nhiều

mức có các mô tả dữ liệu khác nhau và các bản sao của chúng, Xuất hiện các khái

niệm: sơ đồ quan niệm, sơ đồ lưu trữ, sơ đồ ngoài

«+ Giảm sự du thừa

'Trong CSDL tập trung việc giảm dư thừa đã được giải quyết vì hai lý do: Thủ nhất các mâu thuần giữa các bản sao của cúng uuội dữ liệu được ngần ngừa Lự

động bằng cách chỉ có một bàn sao Thứ hai, giảm không gian lưu trữ

Giảm đự thừa đạt được bằng cách dùng chung đữ liệu, túc là cho phép một

vải ứng dụng cùng truy nhập đền một số tệp và bản ghi

Mặc dù vậy, trong CSDL phân tản có một số lý do đề quan tâm đến sự giảm

đư thừa đữ liệu Thứ nhất, tính địa phương của các tìng dụng có thẻ tăng lên nêu đữ liệu được sao lại ở tật cáo Irạm mà ở đó ede img dụng cần đến Thứ lai, tỉnh sẵn đùng của hệ thống có thể tăng lên vi sai ở một trạm không làm dừng việc thực hiện các ứng dụng tại các trạm nếu đữ liện được sao lại

Nhìn chúng, những lý do hạ chế sự dư thừa vẫn có giá tri trong CSD phan

tán, dơ dó việc đánh giá nức đư thửa dỏi hỏi sự cân nhắc phức tap

Có thể nói rằng: sự thuận lợi của bản dữ liệu tăng theo tỷ số các truy nhập

tim kiếm trên cóc tuy nhập cập nhật được thực hiện bởi các ủng dụng tới nó Sở dĩ

cỏ vận đề Irên là vị la có nhiều bản sao của một cá thể dữ liệu thì việc tìm kiếm có thể thực hiện trên một bán sao bất kỷ trong khi việc cập nhật dữ liệu phải dược thực biện một cách nhất quán trên tất cả các bản sao

'Viện Sau Dạt Học, Khoa CNTT, Trưởng Dại Học Bách Khoa Hà nội

GV Tiưởng Dẫn Khoa Học: G5.TS Nguyễn Thúc Hi

Trang 13

«_ Câu trúc vặt lý phức tạp vả sự truy nhập hiệu quả:

Các cầu trúc Iruy nhập phức lạp, như các chỉ dẫn thứ cấp, các dây truyền

giữa các tập là vân để quan trọng của CSDL truyền thông vá thưởng do hệ quản trị CSDL dam nhận Việc cung cấp oác cấu trúc truy nhập phúc tạp này làm tăng hiệu quả truy nhập dữ hiệu

Trong CSDI, phân lần các cấu trúc truy thập phức lạp này không phải là công cụ thích hợp chơ sự truy nhập hiệu quả Việc truy nhập hiệu quá các CSDL

phan tan không thể được cung cập bằng các câu trúc vật lý bởi vi việc xây đụng và

duy trì các cấu trúc như vậy đối với hệ phân tán là khó khăn và các ứng dụng thực hign 6 unte ban ghi trong CSDL phan tan lả không phủ hợp

Để truy nhập CSDL, có hai thủ tạc cải đặt cho hệ phân tản:

ˆ Thủ tục cho phép tray nhập bin ghi từ xa, mỗi tray nhập tới một ban ghi thi

+khâng chỉ bắn ghí đó được truyền đi mà cả nhiều thông báo khác cũng phải được trao đổi

⁄“ Một thủ tục hiệu qủa hơn cho phép nhóm càng nhiều cảng tốt tất cả các truy

nhập được thực hiện tại củng một trạm Thủ tục nảy gồm hai kiểu thao tác: thực

hiện các chương trình cục bộ tại từng trạm và truyên các tệp giữa các trạm Thú

tục như vậy gọi là phương án truy nhập phần tản (Distribuled Access Plan)

Phương án truy nhập phân tán có thể được viết bởi người lập trình hay được sắn

smh tự động bởi mội bộ lỗi ưa hoá

« Tinh toan ven, phục hỏi và điều khiển tương tranh

‘Trong các CSDL, các vẫn đề về tỉnh toàn vẹn, phục héi va điều khiển tương, tranh quan hệ rất chặt chẽ với nhau Giải pháp của các vẫn dé nảy bao hàm việc cung cap các giao tác Một giao lác là ruột don vị nguyên tố, nghữa là một dãy các

giao tác, hoặc được thực hiện hoàn toàn, hoặc không được thực hiện Rõ rèng các

'Viện Sau Dạt Học, Khoa CNTT, Trưởng Dại Học Bách Khoa Hà nội

GV Tlưởng Dẫn Khoa Học: G5.TS Nguyễn Thức Hải

Trang 14

Học viên: Kozn Sokmeak -§- Ky thnat Phan tan đữ liệu

giao tác nguyên lỗ là các phương tiện để đại được tính loàn vẹn CSDI, bởi vì chúng đảm báo hoặc tắt cá các thao tác biển đổi CSDL từ một trạng thái toàn vẹn nảy sang xnột trạng thái toàn vẹn khác, hoặc trạng thái ban đâu được giữ nguyên như cũ

Tai tác động ảnh hưởng tới tính nguyên tổ của giao táo đó là hông hóc và

tương ranh Hồng húc có thể làm hệ thống dừng giữa lác thực hiện giao tác, đo đó

vi phạm sự dòi hỏi của tính nguyên tố Sự tương tranh của nhiều thao tác có thể cho phép một giao tác quan sát một trạng thái chuyển tiếp không toàn vẹn tạo ra bởi một

giao lác khác trong quá trình thực hiện nó

Sự phục hẻi có liên quan tới vẫn dẻ đảm bảo tỉnh nguyên tô của giao tác khú

có hỏng hóc Trong CSDL phân tản đây là một khía cạnh quan trọng bối vì một số trạm tham gia thực hiện giao tác có thẻ bị hỏng

Điều khiển trong tranh liên quan đến sự đảm bảo tính nguyên tố của giao tác khi có sự tương tranh của cdc giao lac Van đề này có thể xem như một vẫn để đồng bộ hoá điển hình Dếi với CSDL phân tán vẫn để này khó hơn so với CSDL tập trung,

« Tinhrièng tưvàan toàn

Trong CSDL tập trung đo điền khiến tập trung nẻn có thế chắc chắn ring xnợi truy nhập đữ liệu đều được thực hiện Điều này CSDI, tập trung ar dal được không cần đến các thủ tục điều khiễn đặc biệt nào

'Trong CBDL phân tán, những người quãn trị địa phương cũng phái xứ lý bài luân như những người quân trị dữ liệu trong 8DI, lập tung Mặc đà vậy, có thai đặc diễm dặc thủ cho CSDL phan tin

*⁄ Thử nhất trong CSDL phân tản với múc tự trị cao nhát, những người quản trị

địa phương cảm thấy báo vệ hơn, bởi vị nó có thể áp đặt các biện pháp bảo vệ

của mình (hay vì phụ thuộc vào người quần trị dít liệu CSDT, tập trung,

x Thứ hai, vấn đẻ bão mật là vấn để cỗ hữu với hệ phản tán, bởi vì vấn đề bảo mật và an toán cho mạng truyền thông lá rất khó thực hiện

'Viện Sau Dạt Học, Khoa CNTT, Trưởng Dại Học Bách Khoa Hà nội

GV Tiưởng Dẫn Khoa Học: G5.TS Nguyễn Thúc Hải

Trang 15

3 PHAN LOAI CSDL PHAN TAN:

Dựa vào kiến trúc, các hệ CSDT, phân tán có thể phân làm bai loai|5]

¥ Cae hé CSDT phân tân thuần nhất

*ˆ Các hệ CSDI, phân tân không thuần nhất

Tỉnh thuận nhất và không thuần nhất ở đây được xi xẻi dưới góc độ các

hệ C8DL cục bộ tại các trạm Với hệ CSDL phân tan thuận nhất thí các hệ CSDL cục bộ tại các trạm đồng nhất cản với hệ CSDL phân tán không thuận nhất thì các

hệ C8DL cục bộ tại các tram có thẻ khác nhau

C8DLL phân tán thuận nhất hơi giống với CSDT, tập rung chỉ khác ở điểm

đữ liệu được phản tân tại một số trạm trên mạng Một CSDL phân tán thuần nhất đơn giản có thế được biển điển như trong [hình 1] Hệ quản trị CSDL phân tán thuần nhất bao gồm nhiều bộ sưu lập dữ liệu Tùy ruức tự trị, hệ số nảy có thể phân

thành các loại tự trị và không tự trị

Trong mỗ hùnh này không cỏ các người sử đụng cục bộ, các người sứ dụng,

truy nhập các CSDL thông qua một giao diện tổng thể Lược đỏ tổng thế là hợp của

tắt cả các mô tã dữ liệu cục bộ và các khung nhìn của người sử dụng dược định

nha trên lược đỏ tổng thể Trong hình 1 đã không xem xét đến các lược đề cục bộ

cho các CSDI, cục bộ Nêu ta muốn đưa ra lược đồ quan niệm chuẩn cho CSDT,

phân tán theo kiểu ANSI — SPARC thị thêm vào các hệ CSDL cục bộ và các lược

để cục bộ Lhực tế bấu hết các hệ thuần nhất không có các lược đỗ cục bộ và chí có một phân mềm quản trị đữ liệu hạn chế ở mức cục bộ Kiển trúc 3 tang ANSI —

SPARC của các hệ quản trị CSDL tập trưng thực hiện dang dược đúng trong phần lén các hệ quản trị CSDL thương mai

'Viện Sau Dạt Học, Khoa CNTT, Trưởng Dại Học Bách Khoa Hà nội

GY Muang Din Khoa Moc: G8.TS Nguyễn Thúc Hải

Trang 16

Học viên: Kozn Sokmeak -7- Ky thnat Phan tan đữ liệu

Phan mém Phan mém quân trị Phần mềm quản trị đữ

liệu

CSDL 1

Tồầnh 1 Mô hình hệ CSDL phân tán thuần nhất đơn giản

'Viện Sau Dạt Học, Khoa CNTT, Trưởng Dại Học Bách Khoa Hà nội

GV Tiưởng Dẫn Khoa Học: G5.TS Nguyễn Thức Hi

Trang 17

Lược đồ quan Luge dé quan

mém cuc bé 1 Tiện cụe bộ n

'Viện Sau Dạt Học, Khoa CNTT, Trưởng Dại Học Bách Khoa Hà nội

GV Tiưởng Dẫn Khoa Học: G5.TS Nguyễn Thúc Hi

Trang 18

Học viên: Kozn Sokmeak -9- Ky thnat Phan tan đữ liệu

Tuược đã phân đoạn giải quyết vấn dé phan chia gác quan hệ tổng thể thành

sác đoạn như thế nào đễ thực hiện các thao tác với CSDL dược tốt nhất [Hình 3]

cho một vi dụ phân đoạn quan hé R Quan hé nay được chia thánh 5 đoạn tách biệt

và dược lưu trữ tại cáo trạin khá nhau

Hình 3: Phân đoạn quan hệ tổng thể R

Quan hệ R có thể được tái thiết lại từ các đoạn như sau:

R= (A join B) union (C join D) union E

'Trong đó Joi và union là các phép toán qua hệ thống thưởng, Tất nhiên để

có được biểu thức lrên tủ trong quá trình phân đoạn cần phải tuân theo ruội số quy tắc nhát định Chẳng bạn, khi thực hiện phân doan dọc thì khoá chính của quan hệ R phải được đưa vào trong tất cá các đoạn

Cac hé CSDL phan tan không thuần nhất lại có thể phân ra làm hai lớp con

chính tuỳ theo cách thức thích hợp các hệ CSDL cục bộ vào hệ thông:

¥ Tich hợp hoàn toàn vào hệ thông

*“_ Cung cấp những “hook” đơn giản thường được gọi là cổng nối (Gateway) để

thực hiện liên kết với các hệ thống bên ngoài

'Viện Sau Dạt Học, Khoa CNTT, Trưởng Dại Học Bách Khoa Hà nội

GV Tiưởng Dẫn Khoa Học: G5.TS Nguyễn Thúc Hi

Trang 19

Cac Hé CSDL Phan lan

Tình 4: Phân lowi cic hé CSDI phan tin theo kién trúc

Ta lai 06 thé tiếp tục chỉa các lớp con tuỳ theo kiến trúc bệ thông của chúng Hầu hết các nghiên cứu vẻ CSDL phản tán chơ đến nay hầu hết tập trung vào các hệ thuân nhật Tuy vay, trong tương lai các hệ không thuận nhất sẽ được quan tam thuộc lớp này Ở đây chúng ta sẽ tập trung chủ yêu vào các hệ CSDT phan Lan thuan

nhất,

Sự phát triển của công nghệ CSDL, cổng nghệ máy tính vả công nghệ

truyền thông cho phép khắc phục các nhược điểm của các ng đựng xử lý CSDL tập

trung bằng việc xây dựng các hệ CSDI, phản lân Mặc dù công nghệ phân tán mới

chỉ phát triển trong khoảng 15 năm trở lại đây, nhưng những sản phẩm thẻ hệ đầu của hệ phản tán đã xuất hiện trên thị trường và từng bước chứng mình tỉnh ưu việt của nó so với hệ tập trung truyền thông, Theo dự doán của Tamer Ozsu va Patrik

Valduriez là chuyên gia trong lĩnh vực CSDL phân tán thử trong một tương lai

không xa, CSDL phan tan sé thay thé CSDL tập trung Vân đề thiết kế CSDL phan

tan là công việc dầu liền và rất quan trọng trong quá trinh xây dựng một CSDI phân

Tán

'Viện Sau Dạt Học, Khoa CNTT, Trưởng Dại Học Bách Khoa Hà nội

GV Tiưởng Dẫn Khoa Học: G5.TS Nguyễn Thúc Hải

Trang 20

Học viên: Koeu Sokmeak -11- Kỹ thuật Phân tán đữ liệu

4 XU THE PHAT TRIEN CSDL PHAN TAN

'Trong những năm gần đây, CSDL phân tan đã trở thành một lĩnh vực quan trọng của công nghệ thông tín, tầm quan trọng cửa nỗ ngày một nâng cao theo siz phát triển của công nghệ thông tín Có nhiều nguyên nhân dẫn đến sự phát triển của các hệ CSIL phân tán Chúng ta có thể kế sau đây một số động cơ thúc đây sự phat

triển

tổ chức và kinh tế

tổ chức gó eơ cầu lễ chức không tập trung Đối với góc lỗ chức nay thị việc xây dựng một CSDL phân tán là phủ hợp một cách tự nhiên với cấu trúc của tổ chức đó Cùng với sự phát triển của công nghệ máy tính, động cơ thúc đây về

kinh

lộc lỗ chức các rung lâm may tinh lon và lập trưng trở thành vẫn dễ được đặc biệt quan tim

«- Xây dựng môi quan hệ giữa các C8DL đã tổn tại

Các CSDL phân tán là giải pháp tự nhiên khi một số các C8DL đã tốn tai trong tổ chức và xuất hiện sự cần thiết thực hiện các ứng dụng tổng thể Trong

trường hợp các CSDL phân tán dược xây đựng tử dưới lên từ các CSDL địa phương,

hiện có Quả trình này có thể đói hỏi phải xây dựng lại câu trúc địa phương Chị phí cho việc xây dung lại câu trúc này sẽ nhỏ hơn nhiễu so với chỉ phí để tạo sinh ra

một CSDL tập trung mới hoàn toàn

« Sựtăng trưởng

Trong qúa trình phát triển của mình, một tổ chức có thể thêm một số thành viên mới, khi đỏ CSDL phân tản cho phép ánh hướng tới mite thấp nhất đền sự va chạm liên quan đến các thành viên đã tồn tại Với CSDL tập trung điều này gây mỏ rộng hệ thông là việc khỏ dự đoán trước vả chỉ phí cao hoặc gia tăng sự va cham không chỉ với các ứng đụng mới mà cả với các ủng đụng đã tổn tại

'Viện Sau Dạt Học, Khoa CNTT, Trưởng Dại Học Bách Khoa Hà nội

GV Tiưởng Dẫn Khoa Học: G5.TS Nguyễn Thúc Hi

Trang 21

«Giảm chỉ phí truyền thông:

'Thực tế một số ứng, dụng mang tính địa phương sẽ lắm giảm chỉ phi truyền thang Do dé van dé cue dai hoa tính địa phương của các img đựng là một trong những các mục tiêu chính của việc thiết kế CSDL phân tan

«_ Hiệu quả công việc

Sự tổn tại một số bộ xử lý địa phương dat dược thông qua việc sử lý song song Vẫn để này có thể thích hợp với bắt kỳ hệ đa xứ lý nao chữ không chỉ với

CSDL phân tán Mặc đủ vậy CSDL phân tán có thuận lợi trong phân tích dữ liệu

phan ảnh điêu kiện phụ thưộc của ửng dụng cu dai hoa tinh dia phương của ứng, dụng; theo cách này tác động qua lại giùa các bộ xử lý được làm cực tiểu Công việc được phân chia giữa các bộ xú lý khác nhau, và tránh được những tắc nghẽn nguy hiểm trong mạng truyền thông hoặc các dịch vụ chung của toàn hệ thống, Sự

phân tán dữ liệu phân ánh hiệu quả làm tăng tính địa phương của các ứng dụng

e_ Dộtin cậy và tính sẵn dùng,

Cách tiếp cận CSDL phân tán, đặc biệt với các đữ liệu đu thừa, cũng được

sử dụng để có độ lin cày và sự sẵn dùng cao hơn Tuy nhiên, đại được mục đích đó

là vẫn để không đơn giản và đói hói sit dung các kỹ thuật phức tạp

Những hồng hóc trong CSDL phản tản có thể xây ra nhiều hơn vì có số các Thành phần câu thành lớn hơn, nhưng ánh hướng của mỗi hàng hóc đó chỉ giới hạn

ở những ứng đụng có dùng dữ liệu của trạm hư hồng, còn sự bồng hóc của toàn bộ

hệ thống là hiếm khi xây ra

CSDL phân tản là sự tập hợp các dữ liệu thuộc củng một hệ thống vẻ mặt

légic nhumg trai ra ở các trạm của mạng máy tính

'Viện Sau Dạt Học, Khoa CNTT, Trưởng Dại Học Bách Khoa Hà nội

GV Tiưởng Dẫn Khoa Moc: G8.TS Nguyễn Thúc Hi

Trang 22

Học viên: Koeu Sokmeak -13- Kỹ thuật Phân tán đữ liệu

tẳng việc cấp phát các tập tin cho các nút trên một mạng máy linh

của quan hệ Vì thể đơn vị truy xuất không phải là toàn bộ quan hệ nhưng chỉ là lập

cơn của quan hệ Kết quả là xét tập con của quan hệ lả đơn vị phân tán sẽ lá điều

thích hợp đuy nhất

Thử hai là nêu các img dụng có các khung nhìn được định nghĩa trên một

quan hệ cho trước lạt nhằm tại vị trí khác nhấn thì có hai cách chon lựa với đơn vị

phân tán lá toàn bộ quan hệ Thử nhất quan hệ không được nhân bản mà được lưu ở

mot vị trí và thứ lai là quan hệ được nhân bản cho lât cả hoặc rnột số vị trí có chạy

tứng dụng Nếu lựa chọn cách thứ nhất sẽ gây ra một số lượng lớn các truy xuất không cân thiết đến đữ liệu từ xa Ngược lại, nêu chọn cách thử hai, có thể gây ra nhân bản không cân thiết, gây ra nhiều vẫn để khi cập nhật và có thể làm lãng phí nhiều không gian lưu trữ

Cuối cùng việc phân rã raột quan hệ thánh nhiều doạn, một đoạn sẽ dược xứ

ly như một đơn vị, sẽ cho phép thực hiện nhiều giao dịch đẳng thời Ngoài ra, việc phan doan các quan hệ sẽ cho phép thực hiện song song một câu truy vân bằng cách

chữa cho Khành mội tập các câu Iray văn con hoại tác trên các đoạn Vì thê việc phân

đoạn sẽ làm tăng mức đồ hoạt động đồng thời và như thể làm tăng hưu lượng hoạt

'Viện Sau Dạt Học, Khoa CNTT, Trưởng Dại Học Bách Khoa Hà nội

GV Tiưởng Dẫn Khoa Học: G5.TS Nguyễn Thức Hải

Trang 23

động của hệ thông Kiểu hoạt đồng thời này mà chỉng (a gọi là đồng thời nội vấn

tin

Để cho dây đủ, chúng ta cũng sẽ chỉ rõ nhting khiém khuyết của việc phân đoạn Nếu ứng đụng só những yêu câu xung đột ngăn cản việc phân rã thành cáo

đoạn được sữ đụng độc quyền, những ứng dụng có các khưng nhìn được định nghữa

trên trên nhiều doan sẽ dược giảm hiệu xuất hoạt động, Chẳng hạn, nó cỏ thể cần phải truy xuất đữ liên từ hai đoạn rỗi nối hoặc hợp chứng lại với chỉ phí rất cao Tránh dược điều này là một vấn đề cơ bản của kỹ thuật phân đoạn

Van dẻ thứ hai là liên quan đến ván đẻ kiểm soát dữ liệu ngữ ngÌữa, đặc biệt

là vấn đề kiểm tra tính toán vẹn lo kết quá của phân đoạn, các thuộc tỉnh tham gia vào một phụ thuộc có thể bị phân rã vào các mãnh khảo nhau và được cắp phát cho

vị trí khảe nhau Trong trường hợp mày, một nhiệm vụ đơn giản như kiểm tra các 'phụ thuộc cũng phải thực biện truy tim dữ liệu ở nhiều vị trí

2 CÁC KIỂU PHÂN ĐOẠN:

Thể hiện của một quan hệ chính là các bàng, vì thế vẫn đẻ là tìm cách khảo nhau để chia mét bang thành nhiều bảng nhỏ, Liiện tại, có hai phương pháp khác xhan:(1) chữa bang theo chiêu dọc và (2) chia bang theo chiều ngang, Chúa bằng theo chiêu đọc, chúng ta được các quan hệ con mả mỗi quan hệ chứa một tập con

cáo thuộc tính của quan hộ gồo, đỏ gọi là phân đoạn dọc Phân chia ngang, thì một

quan hệ chúng ta dược các quan hộ con mà mỗi quan hệ chứa một số bộ của quan hệ

gốo, đỏ gọi là phân đoạn ngang

Ngoài hai phương pháp trên, còn có một phương pháp hỗn hợp, đó là phân

doan kết hợp hai phương, pháp trên Tắt nhiên quả trình phân doạn gắn liên với vẫn

để phân bá và bài toán cụ thể

'Viện Sau Dạt Học, Khoa CNTT, Trưởng Dại Học Bách Khoa Hà nội

GV Tiưởng Dẫn Khoa Moc: G8.TS Nguyễn Thúc Hi

Trang 24

Học viên: Koeu Sokmeak -lã- Kỹ thuật Phân tán đữ liệu

ảo đến trạng thải phân đoạn thành tùng bộ, trưởng hợp phản đoạn ngang, hoặc

thành từng thuộc tính, trường hợp phân đoạn đọc

Điều chúng ta cần là tìm ra được một mức độ phân đoạn thích hợp Một

mite độ nửuư thể chỉ được đình nghĩa ủng với các ứng dụng sẽ chạy lrên cơ sở đữ

liệu Vẫn dễ là sẽ thực hiện như thể nảo ? Nói chủng, các ứng dụng cần dược đặc trưng qua một số tham số Theo giá trị của các tham số này mả chúng ta có thế xác

định được lừng đoạn

4 CAC QUY TAC PHAN DOAN DUNG DAN:

hi xem xét về quá trình chuẩn hóa, thường dé cập đến một số quy tắc để đâm báo tính nhất quán của cơ sở đữ liệu Điều quan trọng ở dây là cân nhận ra được điểm giống nhau giữa việc phân đoạn đủ liệu trong trường hợp phân tán và việc chuẩn hỏa các quan hệ Do vậy, chứng ta có thế định nghĩa các quy tắc phân đoạn, tương tự trong, việc chuẩn hỏa quan hệ

Chúng ta sẽ tuân thủ 3 quy tắc trong khi phân doạn mả chúng đảm bảo rằng,

eo sở đữ liệu sẽ không thay đối nào về ngữ nghĩa khi phân đoạn Đó là:

Y Tinh đây đủ: Nếu thể biện mội quan hệ R được phân rã thành các đoạn Ra,

Rạ, Rạ Rạ, thi mỗi mục đữ liệu có thế gấp trong R, hoặc cũng có thế

ip trong mét hay nhiều trong doạn Ri Dac tinh nay giống như tính chất phân rã nổi không mắt trong chuẩn hóa Tỉnh chất này rất quan trong trong phân rã bởi vì nó

dâm bảo rằng đữ liêu trong quan hệ R được ảnh xạ vào các đoạn và dâm bảo

không mắt mát thông tin

'Viện Sau Dạt Học, Khoa CNTT, Trưởng Dại Học Bách Khoa Hà nội

GV Tiưởng Dẫn Khoa Moc: G8.TS Nguyễn Thúc Hi

Trang 25

⁄“ Tính lái sử dụng: Nếu mội quan hệ R được phân ra thành các mảnh Rị, Rạ,

Rạ, Ra thì cần phải định nghĩa một toán lử quan hệ V sao cho R— Vị, V

ịcE, Toán tứ V thay đổi theo từng loại phân đoạn Tuy nhiên điểu quan trọng

là phải xác định được nó Khá năng tải thiết một quan hệ tử các đoạn của nó

đảm bảo rằng các ràng buộc được định nghĩa trên đữ liệu đưới đạng các phụ

thuộc sẽ dược bão toàn

*ˆ Tính tách tiệt: Nếu quan hệ R được phân rã ngang thành các đoạm Ri, Ra, Ry, Ra va mục đữ liệu đi nm trong doan Rj, thì nó sẽ không nằm trong đoạn ¿ nảo khác(kzj) Tiêu chuẩn này bảo dam ring các đoạn ngang sẽ tách biệt Nếu quan hệ được phân rã dọc, các thuộc tỉnh khóa chữ phải được lập lại trong mỗi đoạn Vì thé trong phân đoạn đọc, tính tách biệt chỉ được định nghĩa trên các trường hợp không phải là khóa chính của một quan hệ

5, CÁC KIỂU CAP PHAT:

Chíng ta giả sử rằng cơ sở đữ liệu đã được phân đoạn tích hợp và cẩn phải quyết định cấp phát các đoạn cho các vi trí trên mạng Khi đữ liêu được phát, nó có thể được nhân bản hoặc chỉ duy trì một bản duy nhất Lý do cẩn phái nhân bản là

nằm đảm bảo được đê tin cậy và hiệu quả cha các câu truy vấn chỉ đọc Nếu có

xrhiển bản sao của một mục đữ liệu thì chúng ta vẫn có cơ hội truy xuất được đữ liệu

đó ngay cả khi hệ thông xảy ra sự cố llơn nữa các câu truy vấn chi đọc truy xuất đến củng một mục đữ liệu có thẻ cho thực hiên song sang bởi vi các bản sao có mặt tại nhiều vị trí Ngược lại câu vấn tín cập nhật có thể gây ra nhiều rắc rỗi bởi vì hệ thống phải báo dam rằng tất cá các bản sao phải dược cập nhật chính xác Vi vậy quyết định nhân bân cản phải được cân nhắc vả phụ thuộc vào tỷ lệ giữa câu truy vấn chỉ dọc và câu truy vấn cập nhật Quyết định này hấu như đều có ảnh hưởng đến tất cá các thuật toán của hệ quan wi co sé dữ liệu(3BMS) phân tán và chức

Tiãng kiêm soát khác Sơ đồ mô tả các lựa chợn nhân bãn:

'Viện Sau Dạt Học, Khoa CNTT, Trưởng Dại Học Bách Khoa Hà nội

GV Tiưởng Dẫn Khoa Học: G5.TS Nguyễn Thúc Hi

Trang 26

Học vién: Koeu Sokmeak -17- Kỹ thuật Phân tân dữ liệu

Một cơ sở dữ liệu không nhân bản, thường gọi là cơ sở dữ liệu phân hoạch,

cỏ chứa các mảnh được cập phát cho các vị trí, trong đỏ chỉ tôn tại một bản sao duy

nhất cho mỗi mảnh trên mạng Trong trường hợp nhân bản, hoặc toàn bộ cơ sở dữ

liệu đều tại ở mỗi vị tri-cơ sở dữ liệu nhân bàn hoàn toản, hoặc các mãnh được phân

tán đến các vị trí, trong đó một mảnh có thể cỏ nhiều bản sao nằm tại nhiều vị trí-cơ

sở đữ liêu nhân bản một phân Trong trường hợp sau, số lượng các bản sao của một mảnh có thể lả thông tin đầu vào cho thuật toản cập phát, hoặc lả một biến quyết định mà giá trị của nó được xác định bằng thuật toán này

Viện Sau Dai Hoc, Khoa CNTT, Trường Đại Học Bach Khoa Hà noi

GV Hướng Dẫn Khoa Học: GS/T§ Nguyễn Thúc Hải

Trang 27

« Thời gian dáp ứng

« Sự lưu trữ

«Cáp ràng buộc xử lý

Các kỹ thuật phân tán đữ liệu có thể dược áp dụng trong nhiều lĩnh vực tại

đó mỗi liên hệ giữa đữ liệu vã vẫn tin có ảnh hưởng đến hiệu năng Các lĩnh vực

này bao gồm: Phân đoạn các lệp trong mỗi Irường lập trung, phân tán dứ liệu trong,

các CSDL phân tán, Phân doạn dữ liệu cỏ thẻ được phân chia thành bai nhóm phân đoạn đọc và phân đoạn ngang|Ozsu and Valduriez| Phân đoạn đọc là kiếu phân đoạn gộp các thuộc tĩnh đũ liêu thành các nhóm, rong các nhóm này được lạo

ra từ một số thuộc tính Côn phân doạn ngang lá phân đoạn trong dó các bản phí của quan hệ sẽ được tổ chức thành các nhóm

'Viện Sau Dạt Học, Khoa CNTT, Trưởng Dại Học Bách Khoa Hà nội

GV Tiưởng Dẫn Khoa Học: G5.TS Nguyễn Thúc Hi

Trang 28

Học viên: Koeu Sokmeak -19- Kỹ thuật Phân tán đữ liệu

3.1 PHAN ĐOẠN NGANG:

Thư chứng ta đã nên ở chương 2 trong luận văn này, phân đoạn ngang chia một quan hệ theo các hộ Vĩ vậy, mỗi đoạn là một lập cơn của quan hệ Có lui loại phân đoạn ngang,

*/ (1) Phân đoạn ngang nguyén thuy-Primary Horizontal Fragmentation: Cua một quan hệ được thực hiện đựa trên các vị từ được định nghĩa trên quan hệ[1]

xˆ (2) Phân đoạn ngang đẫn xuảt-Derived Ilorizontal Fragmentation: La phan ra

một quan hệ dựa trên các vị từ được dịnh nghĩa trên một quan hẻ khảc]1]

Chương 3 này, chủng ta sẽ xem xét một thuật toán để thực hiện cả hai kiểu

phân đoạn Tuy nhiên, trước tiên chúng ta phải thu thập thông tin cần thiết để thục

hiện phân đoạn ngang

3.1.1 YEU CAU THONG TIN VE PHAN DOAN NGANG :

Déi voi phan đoạn ngang, yêu cầu thông tin quan trong nhất bao gồm: (1) thông tin về cơ sở đữ liệu và (2) thông tìn về ứng dung

3.1.1.1: THONG TIN VE CO SO DỮ LIỆU :

Thông tím về cơ sở dữ liệu muốn nói dên lược đỏ khái rúệm toàn cục Trong, ngữ cảnh này, chúng ta cân biết được các quan hệ sẽ kết lại với nhau như thê nao đặc biệt bằng phép nổi Trong mô hình quan hệ, các môi liên hệ này cũng được biểu thị bằng các quan hệ Tuy nhiên, trong những, mô lủnh khác như mô hình thực thể

'Viện Sau Dạt Học, Khoa CNTT, Trưởng Dại Học Bách Khoa Hà nội

GV Tiưởng Dẫn Khoa Học: G5.TS Nguyễn Thúc Hải

Trang 29

liên kết, các mỏi liên hệ được biểu thì tưởng mình Với mục đích thiết kế phân tán,

các mối liên hệ cũng được mô hình hỏa trong bộ khung quan hệ Theo cách nay,

chúng ta sẽ vẽ các đường nồi có hướng giữa các quan hệ có liên hệ với nhau qua một nồi bằng

Ví dụ: Một cơ sở dữ liệu gồm có các quan hệ: PAY, EMP, PROJ, và ASG

Mỗi liên hệ giữa các quan hệ nảy được biểu diễn bởi các đường nói Trong đó

hưởng của các đường nói cho biết mối liên hệ một-nhiều Chẳng hạn, với mỗi chức

vụ-Title cỏ nhiều nhân viên giữ chức vụ đó Vì thế, chúng ta vẽ một đường nỏi giữa

các quan hệ PAY và EMP Đẻng thoi moi lién hé nhieu-nhiéu gitta EMP va PROJ được biểu diễn bằng hai đường nói đến quan hệ ASG

Duong noi giữa các đối tượng cơ sở dữ liệu, trường hợp nay lả các quan hệ, được biểu diễn dưới dạng đỏ thị nói Quan hệ nằm tại đuôi của đường nổi được gọi

là chủ nhân-owner của đường nỏi và quan hệ tại đầu đường nói gọi là thành viên-

member của đường nói Một số thuật ngữ được sử dụng thông dung trong mô hình

mạng là quan hệ nguồn cho chủ nhân vả quan hệ đích cho thành viên Chúng ta sẽ

định nghĩa hai hảm:owner, member, chúng là các ảnh xạ tử tập các đường nói đến

các tập quan hệ Khi cho trước một đường nỏi, chúng sẽ trả vẻ quan hệ thành viên hoặc quan hệ chủ nhân của đường nỗi

Pl Camshin Phase9 100000 Hã nội

z2 Viettel 200000 Ho Chi Minh PS) Star-Cell 350000 Ho Chi Minh P4 Mobitel 500000 Da Nang

Vien Sau Đại Học, Khoa CNTT, Truong Đại Học Bách Khoa Hà nột

GV Hưởng Dẫn Khoa Học: GS.T§ Nguyễn Thúc Hải

Trang 30

Học viên: Koeu Sokmeak -21- Kỹ thuật Phân tản dữ liệu

EMP:

Cho trước đường nổi L1, trong hình biểu điên mỏi liên hệ các quan hệ, thi

cac ham owner va memer sé tra ve ket qua sau:

© Owner(L1)=PAY

® AMember(LI)=EMP

Viện Sau Đại Học, Khoa CNTT, Trường Đại Học Bách Khoa Hà nột

GV Hưởng Dẫn Khoa Học: GS.T§ Nguyễn Thúc Hải

Trang 31

EMP “T

PROS ENO, ENAME, TITLE PNO, PRAME, BUDGET LOC

TRình 7 : Biêu diễn mỗi liên hệ giãa các quan hệ nhờ cdc dudng nồi

3.1.1.2 THONG TIN UNG DỤNG:

'Trong quả trình phan doan, ngodi yêu cầu thông tin về cơ sở dữ liệu, thông,

tiu về ứng đụng cũng là yêu cầu không thể thiêu Thông tin về ứng dụng gồm hai

loại: thông tin định tính và thông tin dịnh lượng[2] Thông tin dịnh tính hưởng din

che hoạt động phân đoạn, còn thông tin định lượng chú yêu được sử dụng trong mô tình cấp phát[2]

Những thông tin định tính cơ bản gồm có các vị từ được sử đụng trong các

câu tray vẫn Nếu không thể phản tích được hết lấL cả các ứng dụng để xác định những vị từ này thì ít nhất cũng phải nghiên cửu được các ứng dụng quan trong

nhật

Cho đến này, chúng ta đang tìm cách xác định các vị từ đơn giân Cho quan

hệ RCM, Aa, Ấn), trong đó Á¡ là một thuộc tính được định nghĩa trên một miễn biến thiên Dị, một vị từ đơn giản pị được định nghĩa trên R có dạng,

PẸAi © value, trong dó Ốc {=, <, 2, S

'Viện Sau Dạt Học, Khoa CNTT, Trưởng Dại Học Bách Khoa Hà nội

GY Muang Din Khoa Moc: G8.TS Nguyễn Thúc Hai

Trang 32

Học viên: Koeu Sokmeak -23- Kỹ thuật Phân tán đữ liệu

và valne được chọn là miền biên thiên của A,-ValueeD Chúng ta ký hiệu

Pr để biểu thị tập tất cả các vị từ đơn giãn được định nghĩa trên quan hệ Ri Các

phan tử của Prị ký hiệu là Dự

Vi du: Cho quan hé PROT nhw trong Aint 6

000 : là các vị từ đơn giản

Mặc đủ các vị từ đơn giân rất dễ xử lý, các câu truy vấn rất thường chứa nhiều vị từ phức tạp, lá tổ hợp các vị từ đơn gián Một tổ hợp cần đặc biệt chủ ý,

được gọi là vị từ hội sơ cấp, gọi là hội của các vị từ đơn giản Hỏi vị chúng ta hiện

có thể biến đối một biểu thức boolean thành đang chuẩn hội, việc sử dụng vị từ hội

sơ cấp tron một thuật toán thiết kết không làm mắt di tính tổng quát [1,page 121]

Cho một tập Pu—{Pa, Pa, Pø, Pa} là các vị từ dơn giản trên quan hệ Rị,

tập các vị từ hội sơ cấp Mi= (mir, ma, mas, mis} được định nghĩa là :

Mi fing my A pix, pike Pri} voi 1eken, 152)

Trong đỏ p*j=pw hoặc p*ix= “pik

Vi thê mỗi vị từ đơn giản có thẻ xuất hiện trong vị từ hội sơ cấp dưới đạng,

tự nhiền hoặc dạng nhũ định

Một điểm quan trọng cần chủ ý ở đây: tham chiếu đến phố đmh của vi từ sẽ

có nghĩa dói với các vị từ dẳng tức dạng,

Attribute= Value Đôi với vị từ bất đẳng thức, phú định được xứ lý như phân bủ, chẳng han, phủ định của vị từ đơn gián

Atiribute< Value sẽ là Attribute > Value Ngoài cáo vẫn để lý thuyết của phép lây phân bủ trong các tập vô hạn cũng, còn có một vấn đề liên quan đến thực hành, đó là phần bù có thế rất khỏ định nghĩa

'Viện Sau Dạt Học, Khoa CNTT, Trưởng Dại Học Bách Khoa Hà nội

GV Tiưởng Dẫn Khoa Học: G5.TS Nguyễn Thức Hải

Trang 33

Vi du: néu bai vi tir don giản

ói phân bù của nó —( Cận dưới<Adribrme 1<Cận trên)

Không để gì dịnh nghĩa được Vi vậy, nghiên cửu trong lĩnh vực nảy vẫn chỉ xem xét cáo vị từ đẳng thức đơn giản

lự : Chứng ta xem quan hệ PAY Dưới đây là cáo vị từ đơn giản có thể định nghĩa được trên PA:

nay

Py: TITLE ‘Lap trình viên"

Py: TITLE —‘K§ si hd thang?

Py: THLE ‘ky su didn’

Py: SAL < 30000

Ðy : SAI, > 30000

Dưới dây là các vị từ hội sơ cấp dược dịnh nghĩa dựa trên các vị từ dơn giản

mi: TITLE=’ Lap trinh vin’ A SALS 30000

mạ : TITLE= 'Lập trình viên A SAL, > 30000

ma: '{LITLB= 'Lập trinh vién’) A SALS 30000

mu: —( TITLLE “Lập trình viên) A SAL > 30000

ms: ‘ITIL = 'Kỹ sư hệ thống' A SAL< 30000

mg: TITLE = ‘Ky su hé théng’ A SAL > 30000

'Viện Sau Dạt Học, Khoa CNTT, Trưởng Dại Học Bách Khoa Hà nội

GV Tiưởng Dẫn Khoa Moc: G8.TS Nguyễn Thúc Hai

Trang 34

Học viên: Koeu Sokmeak -28- Kỹ thuật Phân tán đữ liệu

Ở đây có 2 điểm chúng la cần chú ý: (1) không phải tắt cả các vị từ hội sơ cấp đều có thể định nghĩa được, thay vào đó chúng ta chỉ trinh bảy một mẫu đại điện (2) một số trong chứng có thể vả nghĩa đổi với ngi? nghĩa của quan hệ PAY

Theo những thông tin định tính vẻ các ứng dụng, chúng ta cân biết hai tập

3.1.2, PHAN LOAI PHAN DOAN NGANG:

Chimg ta phiin chia phin doan ngang thánh hai loại

¥ (Phan dean ngang nguyén thủy, và

¥ (2)Phan dean ngang đẫn xuất

3.1.2.1 PIÂN ĐOẠN NGANG NGUYÊN THỦY:

"Trước khi trình bảy thuật toán hình thức cho kỹ thuật phân đoạn ngang,

chúng ta cân thảo luận một cách trực quan về quá trình phân đoạn cho cả phân đoạn

ngang nguyên thủy vả phân doạn ngang dẫn xuất Phân đoạn ngang nguyên thủy được định nghĩa bằng một phép toán chọn trên các quan hệ chủ nhân của một hưọc

đổ cơ sở dữ liệu Cho quan hệ R, thi các đoạn ngàng của Bị là

Rim o wl), 1SiS

'Viện Sau Dạt Học, Khoa CNTT, Trưởng Dại Học Bách Khoa Hà nội

GY Muang Din Khoa Moc: G8.TS Nguyễn Thức Hải

Trang 35

Trong đó Eì là công thức chọn được sử đụng để có được đoạn Rị Chú ý

rằng nêu l có dạng chuẩn hội, nó là một vị từ hội sơ cấp (m¡) Thục sự thuật toán

ama chúng ta sẽ thão luận khẳng định rằng E; là một vị từ hội sơ cấp

khó định nghĩa tập các công thức F={F, F›, F;, Fa} thích hợp cho phân đoạn quan

hệ Một phương ản lá định nghĩa cáo khoảng như dã nẻu ở trên Tuy nhiên, chứng,

†a luôn phải xủ lý các vấn dé ở hai đầu Chẳng hạn, nếu mệt bộ mới với giá trị

'BUDGET là 500000 được chén vao PROJ, thi ching ta can phải xem lại việc phân

đoạn để quyết định xem bộ mới sẽ được đặt vào PRO12 hoặc các đoạn cần phải sửa

dụ: Xét quan hệ PROI, tú chúng 1á có thể định nghĩa các đoạn ngang

dưới đây dựa vào vi tri dy an:

¥ PRON a Loco ssin(PROT)

¥ PROR zLecmckausr(PROI)

¥ PRO = ZLoo>pisany(PROJ)

'Viện Sau Dạt Học, Khoa CNTT, Trưởng Dại Học Bách Khoa Hà nội

GV Tiưởng Dẫn Khoa Học: G5.TS Nguyễn Thúc Hi

Trang 36

Học viên: Koeu Sokmeak -27- Kỹ thuật Phân tán đữ liệu

Bay giờ chủng ta có thẻ dịnh nghĩa một doạn ngang, chặt chế hơn Một doạn ngang B¡ của quan hệ R có chứa tất cả các bộ R thỏa vị từ hội sơ cấp mi Vì vậy, cho một tập các vị từ hội sơ cấp ML số lượng các ngang cũng bằng số lượng các vị

từ hội sơ cấp Tập các đoạn ngang nảy cũng thường được gọi là tập các đoạn hội sơ câp-rninterm fragement

Theo như thảo luận trước, thì rõ rảng việc định nghĩa các đoạn ngang phụ thuộc vào các vị từ hội sơ cấp Vì thể bước đầu tiên cửa mượi thuật toán phân đoạn

là xác định tập cdc vi tit don gin sẽ tạo ra các vị từ hội sơ cấp

Một đặc tỉnh quan trọng của các vị từ đơn giãn là tỉnh dây đủ-completeness

Một đặc tính khác là tính tiểu cục Tập các vị từ đơn gián Pr được gọi lả đây đủ nếu

và chỉ nêu xác suất mỗi ứng dụng truy xuất đến một bộ bái kỳ Huộc về một đoạn hội sơ cấp nào dé được dinh nghĩa theo Pr déu bang nhau|2]

Vidu:

Ching ta xem xét sự phản doan quan hệ PROJ Nếu ứng dụng duy nhất truy xuất PROT muốn truy xuất các bộ theo vị trí, tập vị từ này là đầy đủ bởi vì mỗi bộ

cửa mỗt đoạn PROG déu co xae sual truy cập như nhan Tuy nhiền nếu có ứng dụng,

thử 2 chí truy xuất các bộ dự án có ngân sách trên 3009008 thi Pr khỏng đầy đủ Một số bộ trong mỗi đoạn PROI: cẻ xác suất được truy xuất cao hơn đo img dung thứ 2 này, Để cho tập vị từ day đủ, chúng ta cần phải thêm ede vi th (BUDGETS

300000, J5UDGHT > 300000) vao Pr

P={LOC="Lá nội”, LOC=”LHễ Chi Minh”, LOC="Da ning", BUDGLT<

300000, BUDGET > 300000}

Lý do cần phải đảm bảo tình đây đủ là vì các đoạn thu được theo tập vị từ

day đũ sẽ nhật quản về mặt logic do tất cả chúng đều thỏa mãn vị Lừ hội sơ cấp Chúng cũng dồng nhất vẻ mặt thông kê theo cách mà ửng, dụng truy xuất chúng, Vì thể chủng ta sẽ đủng một tập vị từ đây đủ làm cơ sở của phân đoạn ngang nguyên

thủy,

'Viện Sau Dạt Học, Khoa CNTT, Trưởng Dại Học Bách Khoa Hà nội

GV Tiưởng Dẫn Khoa Học: G5.TS Nguyễn Thúc Hải

Trang 37

Ching ta cũng có thể định nghĩa tính đây đủ một cách hình thức để có thể thu được lập các vị từ đầy đũ một cách tự động Tuy nhiên, điều nảy đòi hỏi người thiết kê phải xác định xác suất truy xuất cho mỗi bộ của một quan hệ đổi với mỗi

ứng dung dang được xern xói, và như thế lên nhiều công sức hơn xo với việu sử

dụng kinh nghiệm của người thiết kế dễ tìm ra một tập dày đủ Tiếp theo, xin phép trình bày một phương pháp tự động có hệ thống để thu được tập này

Đặc tính ma chúng †a mong đợi của tập các vị từ hôi sơ cấp, đó là tính tiến cực No chỉ khẳng định rằng: nếu một vị từ ảnh hưởng đến cách thực hiện phân

đoạn, nghĩa là làm cho đoạn f bi phan chia nhé hon thanb fi va fj, thí phải có ít nhất

xnột img đụng truy xuất đến ñ và fj theo những cách khác nhau Nói cách khác, vị từ đơn giản phải có liên dới trong việc xác định một phân doạn Miếu tất cả các vị từ của tập Pr đều có liên đới thi Pr lá Cục tiểu

Goi mw; va mj la hai vi tir héi so cấp đồng nhất về định nghĩa, ngoại trừ m¡ chữa các vị từ đơn giản pi 6 dang tr nbién, con mj chia pi 6 dang phú định pi Cũng gọi fi va fj [a hai doan trong ung được định nghia theo mi va mj Thé thi pi là

có liên đổi nêu và chỉ nếu:

iảo truy xuâi khác nhau đên các đoạn được tạo Ta

'Viện Sau Dạt Học, Khoa CNTT, Trưởng Dại Học Bách Khoa Hà nội

GV Tiưởng Dẫn Khoa Học: G5.TS Nguyễn Thúc Hải

Trang 38

Học viên: Koeu Sokmeak -29- Kỹ thuật Phân tán đữ liệu

3.1.2.1 THUẬT TOÁN COM-MIN:

Mục dịch của thuật toản lả sinh ra một tập dây dủ và cực tiểu cae vi tu Pr’ khi cho trước một tập các vị từ đơn giản Pr Dễ tránh phải giải thích đài dòng, chúng ta sẽ thừa nhận các quy tắc và ký hiệu sau:

Quy tắc 1: quy tắc cơ bản về tính đây đủ và cực tiểu, nó khẳng định rằng, xuột quan hệ hoặc một doạn dược phân hoạch thành íL nhất 2 phần và chúng dược truy xuất khác nhau bởi it nhất một ng dung[1, chapter 5]

là của Pr: đoạn fi được định nghĩa theo một vị từ hội sơ cấp trên các vị by

Pr

Dau vào:

RIA quan hé

T, là tập cáo vị từ đơn giản

Đầu ra : P, tập các vị từ đơn giản

Khai báo : Tĩ là tập các đoạn hội sơ cập

'Viện Sau Dạt Học, Khoa CNTT, Trưởng Dại Học Bách Khoa Hà nội

GY Muang Din Khoa Moc: G8.TS Nguyễn Thúc Hi

Trang 39

'Thuật toàn bắt dầu băng cách tìm một vị từ có liên dới và phân hoạch quan

hệ đã cho Vòng lặp đo-until thêm các vị từ vào tập này, bào đảm tính cực tiểu tại

rỗi bước Vi thế vào cuồi vòng lặp, tập J,` là đầy đủ và cực tiểu

Bước thứ 2 trong quá trinh thiết kế phân đoạn ngang nguyên thủy là suy dẫn 1a tập các vị từ hội sơ cắp có thể dược định nghãa trên các vị từ trong tập P;” Các vị

từ hội sơ cắp này xác định các đoạn ưu tiền nhất cho bước cân phát Việc xác định các vị Lù hội sơ cấp là tầm thường, khó khăn chính là lập các lập các vị lừ hội sơ cần

có thể rất lớn Bước kế Hếp chúng ta sẽ tìm cách làm giảm số lượng vị từ hội sơ cấp

cân được định nghĩa trong quả trinh phản đoạn

ước thứ 3 của quá trình thiết kế là loại bó một số đoạn vô nghĩa, Diễu nay

được thực hiện bằng cách xác định thững vị từ mâu thuẩn với tập các phép kéo

theo Chẳng hạn, nêu cho P;° = {p1, ps}, trong do

pr: att=value 1 pr: att—valuc 2

va mién bién thién cuia att la fvalue_1, valua_2} 16 rang J chtta 2 phép kéo theo với khẳng định:

ia: (alt vahae 1) =>— (4L value 2) ia: (att =value_1) =>(att=value 2)

4 vị tử hội sơ cấp sau dây dược dịnh nghĩa theo Py’:

mx: (att=value 1) (att=value 2)

any (all value Ï)A ¬(aH value 2)

my: a(att= value I)A (at=value 2)

ma sath value t) ^ ¬(nH value 2}

Trong trường hợp này các vị Lừ hội sơ cấp tị, mạ mâu thuần với các phóp

kéo theo I va vi thé bj loại khối M

'Viện Sau Dạt Học, Khoa CNTT, Trưởng Dại Học Bách Khoa Hà nội

GV Tiưởng Dẫn Khoa Học: G5.TS Nguyễn Thức Hi

Trang 40

Học viên: Koeu Sokmeak -31- Kỹ thuật Phân tán đữ liệu

Af mà mẫu thuẫn với l then

Me Mai End-if

và (2) nơi khác xử lý các mẫu thông tin của những nhân viên có lương cao hơn 300$ Vậy, câu truy vân sẽ được đưa ra ở 2 nơi

'Tập vị từ đơn giản được sứ dụng để phân hoạch quan hệ PA Y là:

¥ pi : SAL <300

Y pi: SAL > 300

'Viện Sau Dạt Học, Khoa CNTT, Trưởng Dại Học Bách Khoa Hà nội

GV Tiưởng Dẫn Khoa Học: G5.TS Nguyễn Thúc Hi

Ngày đăng: 09/06/2025, 12:57

HÌNH ẢNH LIÊN QUAN

Hình  2:  Kiển  trúc  hệ  CSDL  phân  tán  thuần  nhất  10 - Luận văn các kỹ thuật phân tán dữ liệu trong cơ sở dữ liệu phân tán
nh 2: Kiển trúc hệ CSDL phân tán thuần nhất 10 (Trang 7)
Hình  3:  Phân  đoạn  quan  hệ  tổng  thể  R - Luận văn các kỹ thuật phân tán dữ liệu trong cơ sở dữ liệu phân tán
nh 3: Phân đoạn quan hệ tổng thể R (Trang 18)
Hình  S  :  So  sánh  các  lựa  chọn  nhân  bản - Luận văn các kỹ thuật phân tán dữ liệu trong cơ sở dữ liệu phân tán
nh S : So sánh các lựa chọn nhân bản (Trang 26)
Hình  6:  CSDL  mẫu - Luận văn các kỹ thuật phân tán dữ liệu trong cơ sở dữ liệu phân tán
nh 6: CSDL mẫu (Trang 30)
Hình  8:  Mô  tả  BVP - Luận văn các kỹ thuật phân tán dữ liệu trong cơ sở dữ liệu phân tán
nh 8: Mô tả BVP (Trang 54)
Bảng  1  :  Tân  xuất  đễ  truy  xuất  các  đoạn  của  các  truy  vẫn. - Luận văn các kỹ thuật phân tán dữ liệu trong cơ sở dữ liệu phân tán
ng 1 : Tân xuất đễ truy xuất các đoạn của các truy vẫn (Trang 59)
Hình  15  :  Đề  thị  đường  cong  khi  thay  đỗi  ngưỡng - Luận văn các kỹ thuật phân tán dữ liệu trong cơ sở dữ liệu phân tán
nh 15 : Đề thị đường cong khi thay đỗi ngưỡng (Trang 84)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm