‘frong CSDL phân tản ý tướng diểu khiển tập trung phan nao dé it dược nhân mạnh so với CSDL tập trung, điều này phụ thuộc vào kiên trúc của hệ thông Nội chúng, trong địa phương xác định
Trang 1LUAN VAN THAC SI KHOA HOC
NGANH : CONG NGHE THONG TIN
CAC KY THUAT PHAN TAN DU LIEU
TRONG CO SO DU LIEU PHAN TAN
KOEU SOKMEAK
GV HUONG DAN KHOA HOC: GS.TS NGUYEN THUC HAI
HÀ NỘI-2008
Trang 3
ding Su ra đời của hệ thông mạng LAN tốc độ cao vào những thế kỷ 70s đã tác động đến sự phát triển của hệ phần tán Các trạm làm việc cũng như các hệ thông
Hệ cơ sở dữ liệu phân tản dược xây dụng dựa trên 2 công nghệ cơ bản: (1)
cơ sở đữ liệu, và (2) mạng máy tính Hệ cơ sở đữ liệu phân tán được mô tả như là
tập hợp nhiều cơ sở đữ liệu có liên quan logic đến nhau và được phan bé trén mang xmáy tỉnh Cơ sở dữ liệu phân tán giám được chỉ phí truyền thông, thời gian đáp ứng,
nhanh, đầm bão tỉnh độc lập dữ liệu „ tránh dư thừa dữ liệu và chia sẻ tải ng uyên
Trong Khuôn khổ luận văn này, em đã đề cập đến các cơ sở lý thuyết cũng,
ahư các phương pháp, thuật toán sử dụng trong quá trình phân tản dữ liệu
Tuận văn được hoàn thành nhờ vào sự hướng din tan tỉnh cla GSTS Nguyễn Thúc Hiái, Khoa CN'LT, Trường DHKIN
Em xin tran trọng cam ơn Thầy GŸ 79 Nguyên Thức Hải đã hưởng dẫn chỉ
ảo và luôn tạo điêu kiện thuận lợi cho em hoàn hành luận văn này
Một lần nữa em xin câm ơn các thay cé tong Khoa CNTT, TTSDH,
Trường ĐHBKNN đã giảng dạy trong suốt thời gian qua, đặc biệt xin cân ơn Chính
phú Cộng hỏa Xã hội Chú nghĩa Việt Nam đã tạo điều kiện và cơ hội tốt cho em
hoành thành học lập của mình
Hà Nội :Tháng 11 Năm 2008
Học viên: Koeu 8okmtcak
Trang 4
PHAN 1: GIOT THIEU CSDL PHAN TAN VA SU PHAN TAN DU
4 XU THẺ PHÁT TRIEN CSDL PHAN TAI 18 CHƯƠNG 2 : CÁC KHÁI NIỆM PHAN TAN DU LIEU: 20
PUAN I: CAC KY TOUAT PITAN TAN DU LIEU 28
3.1.1 YÊU CAU THONG TIN VE PHAN DOAN
Trang 5
1
42 MÔ HÌNH ¥A MOT SO VAN ĐỀ CƠ BẢN LIÊN QUAN a
DEN PHAN BO DU LIEU
4.2.2 YEU CAU THONG TIN 69 4.2.2.1 THONG TIN VE CSDL 69
4.2.2.2 THONG TIN VE UNG DỤNG “9 4.2.2.3 THONG TIN VE CAC TRAM 79
4.2.2.4 THONG TIN VE MANG: 79
4.2.3 MÔ HÌNH PHẪN BỘ DỮ LIỆU 79
Trang 6
4.3 PHƯƠNG PHÁP HEURISTIC ĐÓI VỚI PHÂN BÓ DỮ LIỆU
Trang 7
Tình 1 Mô hình hệ CSDI, phân tân thuần nhất đơn giản 9
Hình 2: Kiển trúc hệ CSDL phân tán thuần nhất 10
Hình 3: Phân doan quan hé tang thé R 11
Hình 4: Phân loại các hệ CSDL phân tản theo kiến trúc 12
Hình 5 : 8o sánh các lựa chọn nhên bản 19
1Iinh 7 : Biểu điễn môi liên hệ giữa các quan hệ nhờ các đường nói 23
Linh 8: Mé ta BYP 46
Linh 9: Cay phan doan PT 51
Bang | : Tân xuât đề truy xuất các đoạn của các truy vẫn 52
Hình 10: Xây đựng cây PT s3
Bang 2: Các lợi nhuận trong bước 0 của cây PT hình 9 54
Tình 11: Tuge dé Verm 54
Tình 13: Đoạm ¡ trong thuật toàn lỗi trà 69
Bang 3: Lick ké xde sual Iruy cập íL nhật một lần 73
Tình 13: Biểu diễn đoạn ¡ với bộ đếm 72
Tình 14: Ös hàm cửa xã trong hệ thống có 5 trạm T5
Hinh 15 : £8 thi dường cong khi thay dỗi ngưỡng, 16
Trang 8BANG CAC TU VIET TẮT& TỪ KHÓA
Simple Predicate Vị từ đơn giản
‘Minterm Predicate Vị tí hội sơ cập
Miniterm selectivity bà Jong các bộ được truy xuât bởi một cầu truy
Access Frequency Tân số truy xuất
Completeness Tỉnh dây đủ øủa vi Uy don gid
Minimality Tỉnh tiêu cực của vị từ đơn giản
Nourelevant Liên đới
Atribule Usage Value Giá trì sử dụng của các thuộc tính
ate Chỉ phí để lưu trữ đoạn lại trạm
Dala Allocation Problan |, „; 7
Trenmision Dt Chip uyên dã ệo
Access Cust, &
Ae Chỉ phí truy nhập
Integrity Enforcoment
Cost Chi phi dim bao tinh toàn vẹn
TU
Ti He HC Control Gost | (¡bị diều khiển tương tranh
Attribute Affinity Matrix | Ma trận ái lực thuộc tính
Partition Phân hoạch
Trang 10
Học viên: Kozn Sokmeak -1- Ky thnat Phan tan đữ liệu
PHAN 1: GIỚI THIỆU CSDL PHÂN TAN
VA SU PHAN TAN DU LIEU
'phân bể trên một mạng máy tỉnh Liệ quản trị CSIDL phân tán là hệ thông phần mềm
cho phép quản trị CSDL phân tán va lam cho su phan tan do 14 tréng suốt đổi với
người sử dụng [1|
Đình nghĩa này nhân ranh hai khía cạnh quan trọng của OSDT, phân tán 1- Tỉnh phân tán, thực tế đữ liệu không cư trú ở cùng một trạm, vì vậy
cling ta co thé phan bit m4i CSDL phan tin với CSD1, tập trung,
2- Sự tương quan légic, cac dif ligu cé mét sé tinh chat rang buộc lần nhau
và như vậy có thế phân biệt CSDI, phân tán với tập cáo CSDL, địa phương hoặc với
các tốp cư trú ở các trạm khác nhau trên mạng,
2 CAC DAC DIEM CSDL PHAN TAN SO VOI CSDL
'Viện Sau Dạt Học, Khoa CNTT, Trưởng Dại Học Bách Khoa Hà nội
GY Muang Dn Khoa Moc: G8.TS Nguyễn Thúc Hải
Trang 11Điều khiển tập trung các nguồn tài tguyền thông tin cia mal hang hoặc một
tổ chức được xem như động cơ thúc đây mạnh mẽ nhất của việc đưa vào sử dụng, CSDL Chúng phát triển như sự tiến hoa của các hệ thông tin, trong đó mỗi ứng,
dung có các lập riêng của nó Chức năng cơ số của người quận trị cơ sỡ đữ liệu là
đạt dược sự an toàn dit Leu
‘frong CSDL phân tản ý tướng diểu khiển tập trung phan nao dé it dược
nhân mạnh so với CSDL tập trung, điều này phụ thuộc vào kiên trúc của hệ thông
Nội chúng, trong địa phương xác định một câu trúc điều khiến phân cấp trên cơ sở người quản trị cơ sở đữ liêu tổng thể có trách nhiệm trung tâm của toàn
bộ CSDL, những người quán trị cơ sở dữ liệu địa phương có trách nhiệm với các CSDL địa phương của họ Tuy nhiên, nhân mạnh răng người quản trị eơ sở đữ liệu
địa phương có thể có một sự tự trí cao hơn tới mức là phối hợp giữa cáo trạm được thực hiện bởi chỉnh người quản trị địa phương mà không cẩn tới người quản trị CSDL tổng thể Đặc diém nay được gọi là sự tự trị của các trạm Các CSDL phân tan có thể không giống nhau về mức độ tự trị: lừ tự trị hoàn toàn không có người quân trị cơ sở đữ liệu tập trung nào, đến hầu như hoàn toàn điều khiên tập trưng
« Tỉnh độc lập dữ liệu
Dộc lập đữ liệu có nghĩa là một tổ chúc dữ liệu thực sự là trông suốt với người lập trình ứng dung Cac chương trinh được viết có cách nhìn quan niệm về đít
liện gọi là sơ đỗ quan miệm: Thuận lợi chính của sự dộ
trình không ảnh hưởng khi có thay đối trong tổ chức vật lý của đữ liệu
dữ liệu là các chương
Trong CSDL phân tản sự độc lập dữ liệu có tầm quan trọng như trong
CSDE truyền thống và bỗ xưng một hướng mới vào khái niệm độc lập đữ Hiệu là sự trồng suốt trong phản tán
‘Tinh trong suốt (ransparency) của một hệ CSÐL, phân tán biểu thị sự tách biệt những ngữ nghĩa ở mức cao với những vân đề thực hiện ở mức thấp, Nói một
cách khác, một hệ thông trong suối đấu di nhưng cá tết thể liện với người dùng
'Viện Sau Dạt Học, Khoa CNTT, Trưởng Dại Học Bách Khoa Hà nội
GY Muang Din Khoa Học: G5.TS Nguyễn Thức Hai
Trang 12Học viên: Kozn Sokmeak -3- Ky thnat Phan tan đữ liệu
Thế lợi của mội CSDI trong suốt hoàu toàn là mức hỗ trợ cao để phát triển những từng dụng phúc tạp Liiễn nhiên là chúng ta muốn tạo ra những CSDL trong suốt hoàn toàn Sự trang suốt phân tán được hiểu: Các chương trình được viết như với CSDL khéng phân tám Như vậy sự đúng đẫn của cáo chương trình không thay đối
khi đữ liệu từ trạm nảy sang trạm khác, mặc du tốc dé thực hiện có thể bị ảnh
hướng,
Độc lập đữ liệu được đáp ng trong các CSDI, tập trung quá kiến trúc nhiều
mức có các mô tả dữ liệu khác nhau và các bản sao của chúng, Xuất hiện các khái
niệm: sơ đồ quan niệm, sơ đồ lưu trữ, sơ đồ ngoài
«+ Giảm sự du thừa
'Trong CSDL tập trung việc giảm dư thừa đã được giải quyết vì hai lý do: Thủ nhất các mâu thuần giữa các bản sao của cúng uuội dữ liệu được ngần ngừa Lự
động bằng cách chỉ có một bàn sao Thứ hai, giảm không gian lưu trữ
Giảm đự thừa đạt được bằng cách dùng chung đữ liệu, túc là cho phép một
vải ứng dụng cùng truy nhập đền một số tệp và bản ghi
Mặc dù vậy, trong CSDL phân tản có một số lý do đề quan tâm đến sự giảm
đư thừa đữ liệu Thứ nhất, tính địa phương của các tìng dụng có thẻ tăng lên nêu đữ liệu được sao lại ở tật cáo Irạm mà ở đó ede img dụng cần đến Thứ lai, tỉnh sẵn đùng của hệ thống có thể tăng lên vi sai ở một trạm không làm dừng việc thực hiện các ứng dụng tại các trạm nếu đữ liện được sao lại
Nhìn chúng, những lý do hạ chế sự dư thừa vẫn có giá tri trong CSD phan
tán, dơ dó việc đánh giá nức đư thửa dỏi hỏi sự cân nhắc phức tap
Có thể nói rằng: sự thuận lợi của bản dữ liệu tăng theo tỷ số các truy nhập
tim kiếm trên cóc tuy nhập cập nhật được thực hiện bởi các ủng dụng tới nó Sở dĩ
cỏ vận đề Irên là vị la có nhiều bản sao của một cá thể dữ liệu thì việc tìm kiếm có thể thực hiện trên một bán sao bất kỷ trong khi việc cập nhật dữ liệu phải dược thực biện một cách nhất quán trên tất cả các bản sao
'Viện Sau Dạt Học, Khoa CNTT, Trưởng Dại Học Bách Khoa Hà nội
GV Tiưởng Dẫn Khoa Học: G5.TS Nguyễn Thúc Hi
Trang 13«_ Câu trúc vặt lý phức tạp vả sự truy nhập hiệu quả:
Các cầu trúc Iruy nhập phức lạp, như các chỉ dẫn thứ cấp, các dây truyền
giữa các tập là vân để quan trọng của CSDL truyền thông vá thưởng do hệ quản trị CSDL dam nhận Việc cung cấp oác cấu trúc truy nhập phúc tạp này làm tăng hiệu quả truy nhập dữ hiệu
Trong CSDI, phân lần các cấu trúc truy thập phức lạp này không phải là công cụ thích hợp chơ sự truy nhập hiệu quả Việc truy nhập hiệu quá các CSDL
phan tan không thể được cung cập bằng các câu trúc vật lý bởi vi việc xây đụng và
duy trì các cấu trúc như vậy đối với hệ phân tán là khó khăn và các ứng dụng thực hign 6 unte ban ghi trong CSDL phan tan lả không phủ hợp
Để truy nhập CSDL, có hai thủ tạc cải đặt cho hệ phân tản:
ˆ Thủ tục cho phép tray nhập bin ghi từ xa, mỗi tray nhập tới một ban ghi thi
+khâng chỉ bắn ghí đó được truyền đi mà cả nhiều thông báo khác cũng phải được trao đổi
⁄“ Một thủ tục hiệu qủa hơn cho phép nhóm càng nhiều cảng tốt tất cả các truy
nhập được thực hiện tại củng một trạm Thủ tục nảy gồm hai kiểu thao tác: thực
hiện các chương trình cục bộ tại từng trạm và truyên các tệp giữa các trạm Thú
tục như vậy gọi là phương án truy nhập phần tản (Distribuled Access Plan)
Phương án truy nhập phân tán có thể được viết bởi người lập trình hay được sắn
smh tự động bởi mội bộ lỗi ưa hoá
« Tinh toan ven, phục hỏi và điều khiển tương tranh
‘Trong các CSDL, các vẫn đề về tỉnh toàn vẹn, phục héi va điều khiển tương, tranh quan hệ rất chặt chẽ với nhau Giải pháp của các vẫn dé nảy bao hàm việc cung cap các giao tác Một giao lác là ruột don vị nguyên tố, nghữa là một dãy các
giao tác, hoặc được thực hiện hoàn toàn, hoặc không được thực hiện Rõ rèng các
'Viện Sau Dạt Học, Khoa CNTT, Trưởng Dại Học Bách Khoa Hà nội
GV Tlưởng Dẫn Khoa Học: G5.TS Nguyễn Thức Hải
Trang 14Học viên: Kozn Sokmeak -§- Ky thnat Phan tan đữ liệu
giao tác nguyên lỗ là các phương tiện để đại được tính loàn vẹn CSDI, bởi vì chúng đảm báo hoặc tắt cá các thao tác biển đổi CSDL từ một trạng thái toàn vẹn nảy sang xnột trạng thái toàn vẹn khác, hoặc trạng thái ban đâu được giữ nguyên như cũ
Tai tác động ảnh hưởng tới tính nguyên tổ của giao táo đó là hông hóc và
tương ranh Hồng húc có thể làm hệ thống dừng giữa lác thực hiện giao tác, đo đó
vi phạm sự dòi hỏi của tính nguyên tố Sự tương tranh của nhiều thao tác có thể cho phép một giao tác quan sát một trạng thái chuyển tiếp không toàn vẹn tạo ra bởi một
giao lác khác trong quá trình thực hiện nó
Sự phục hẻi có liên quan tới vẫn dẻ đảm bảo tỉnh nguyên tô của giao tác khú
có hỏng hóc Trong CSDL phân tản đây là một khía cạnh quan trọng bối vì một số trạm tham gia thực hiện giao tác có thẻ bị hỏng
Điều khiển trong tranh liên quan đến sự đảm bảo tính nguyên tố của giao tác khi có sự tương tranh của cdc giao lac Van đề này có thể xem như một vẫn để đồng bộ hoá điển hình Dếi với CSDL phân tán vẫn để này khó hơn so với CSDL tập trung,
« Tinhrièng tưvàan toàn
Trong CSDL tập trung đo điền khiến tập trung nẻn có thế chắc chắn ring xnợi truy nhập đữ liệu đều được thực hiện Điều này CSDI, tập trung ar dal được không cần đến các thủ tục điều khiễn đặc biệt nào
'Trong CBDL phân tán, những người quãn trị địa phương cũng phái xứ lý bài luân như những người quân trị dữ liệu trong 8DI, lập tung Mặc đà vậy, có thai đặc diễm dặc thủ cho CSDL phan tin
*⁄ Thử nhất trong CSDL phân tản với múc tự trị cao nhát, những người quản trị
địa phương cảm thấy báo vệ hơn, bởi vị nó có thể áp đặt các biện pháp bảo vệ
của mình (hay vì phụ thuộc vào người quần trị dít liệu CSDT, tập trung,
x Thứ hai, vấn đẻ bão mật là vấn để cỗ hữu với hệ phản tán, bởi vì vấn đề bảo mật và an toán cho mạng truyền thông lá rất khó thực hiện
'Viện Sau Dạt Học, Khoa CNTT, Trưởng Dại Học Bách Khoa Hà nội
GV Tiưởng Dẫn Khoa Học: G5.TS Nguyễn Thúc Hải
Trang 153 PHAN LOAI CSDL PHAN TAN:
Dựa vào kiến trúc, các hệ CSDT, phân tán có thể phân làm bai loai|5]
¥ Cae hé CSDT phân tân thuần nhất
*ˆ Các hệ CSDI, phân tân không thuần nhất
Tỉnh thuận nhất và không thuần nhất ở đây được xi xẻi dưới góc độ các
hệ C8DL cục bộ tại các trạm Với hệ CSDL phân tan thuận nhất thí các hệ CSDL cục bộ tại các trạm đồng nhất cản với hệ CSDL phân tán không thuận nhất thì các
hệ C8DL cục bộ tại các tram có thẻ khác nhau
C8DLL phân tán thuận nhất hơi giống với CSDT, tập rung chỉ khác ở điểm
đữ liệu được phản tân tại một số trạm trên mạng Một CSDL phân tán thuần nhất đơn giản có thế được biển điển như trong [hình 1] Hệ quản trị CSDL phân tán thuần nhất bao gồm nhiều bộ sưu lập dữ liệu Tùy ruức tự trị, hệ số nảy có thể phân
thành các loại tự trị và không tự trị
Trong mỗ hùnh này không cỏ các người sử đụng cục bộ, các người sứ dụng,
truy nhập các CSDL thông qua một giao diện tổng thể Lược đỏ tổng thế là hợp của
tắt cả các mô tã dữ liệu cục bộ và các khung nhìn của người sử dụng dược định
nha trên lược đỏ tổng thể Trong hình 1 đã không xem xét đến các lược đề cục bộ
cho các CSDI, cục bộ Nêu ta muốn đưa ra lược đồ quan niệm chuẩn cho CSDT,
phân tán theo kiểu ANSI — SPARC thị thêm vào các hệ CSDL cục bộ và các lược
để cục bộ Lhực tế bấu hết các hệ thuần nhất không có các lược đỗ cục bộ và chí có một phân mềm quản trị đữ liệu hạn chế ở mức cục bộ Kiển trúc 3 tang ANSI —
SPARC của các hệ quản trị CSDL tập trưng thực hiện dang dược đúng trong phần lén các hệ quản trị CSDL thương mai
'Viện Sau Dạt Học, Khoa CNTT, Trưởng Dại Học Bách Khoa Hà nội
GY Muang Din Khoa Moc: G8.TS Nguyễn Thúc Hải
Trang 16Học viên: Kozn Sokmeak -7- Ky thnat Phan tan đữ liệu
Phan mém Phan mém quân trị Phần mềm quản trị đữ
liệu
CSDL 1
Tồầnh 1 Mô hình hệ CSDL phân tán thuần nhất đơn giản
'Viện Sau Dạt Học, Khoa CNTT, Trưởng Dại Học Bách Khoa Hà nội
GV Tiưởng Dẫn Khoa Học: G5.TS Nguyễn Thức Hi
Trang 17Lược đồ quan Luge dé quan
mém cuc bé 1 Tiện cụe bộ n
'Viện Sau Dạt Học, Khoa CNTT, Trưởng Dại Học Bách Khoa Hà nội
GV Tiưởng Dẫn Khoa Học: G5.TS Nguyễn Thúc Hi
Trang 18Học viên: Kozn Sokmeak -9- Ky thnat Phan tan đữ liệu
Tuược đã phân đoạn giải quyết vấn dé phan chia gác quan hệ tổng thể thành
sác đoạn như thế nào đễ thực hiện các thao tác với CSDL dược tốt nhất [Hình 3]
cho một vi dụ phân đoạn quan hé R Quan hé nay được chia thánh 5 đoạn tách biệt
và dược lưu trữ tại cáo trạin khá nhau
Hình 3: Phân đoạn quan hệ tổng thể R
Quan hệ R có thể được tái thiết lại từ các đoạn như sau:
R= (A join B) union (C join D) union E
'Trong đó Joi và union là các phép toán qua hệ thống thưởng, Tất nhiên để
có được biểu thức lrên tủ trong quá trình phân đoạn cần phải tuân theo ruội số quy tắc nhát định Chẳng bạn, khi thực hiện phân doan dọc thì khoá chính của quan hệ R phải được đưa vào trong tất cá các đoạn
Cac hé CSDL phan tan không thuần nhất lại có thể phân ra làm hai lớp con
chính tuỳ theo cách thức thích hợp các hệ CSDL cục bộ vào hệ thông:
¥ Tich hợp hoàn toàn vào hệ thông
*“_ Cung cấp những “hook” đơn giản thường được gọi là cổng nối (Gateway) để
thực hiện liên kết với các hệ thống bên ngoài
'Viện Sau Dạt Học, Khoa CNTT, Trưởng Dại Học Bách Khoa Hà nội
GV Tiưởng Dẫn Khoa Học: G5.TS Nguyễn Thúc Hi
Trang 19
Cac Hé CSDL Phan lan
Tình 4: Phân lowi cic hé CSDI phan tin theo kién trúc
Ta lai 06 thé tiếp tục chỉa các lớp con tuỳ theo kiến trúc bệ thông của chúng Hầu hết các nghiên cứu vẻ CSDL phản tán chơ đến nay hầu hết tập trung vào các hệ thuân nhật Tuy vay, trong tương lai các hệ không thuận nhất sẽ được quan tam thuộc lớp này Ở đây chúng ta sẽ tập trung chủ yêu vào các hệ CSDT phan Lan thuan
nhất,
Sự phát triển của công nghệ CSDL, cổng nghệ máy tính vả công nghệ
truyền thông cho phép khắc phục các nhược điểm của các ng đựng xử lý CSDL tập
trung bằng việc xây dựng các hệ CSDI, phản lân Mặc dù công nghệ phân tán mới
chỉ phát triển trong khoảng 15 năm trở lại đây, nhưng những sản phẩm thẻ hệ đầu của hệ phản tán đã xuất hiện trên thị trường và từng bước chứng mình tỉnh ưu việt của nó so với hệ tập trung truyền thông, Theo dự doán của Tamer Ozsu va Patrik
Valduriez là chuyên gia trong lĩnh vực CSDL phân tán thử trong một tương lai
không xa, CSDL phan tan sé thay thé CSDL tập trung Vân đề thiết kế CSDL phan
tan là công việc dầu liền và rất quan trọng trong quá trinh xây dựng một CSDI phân
Tán
'Viện Sau Dạt Học, Khoa CNTT, Trưởng Dại Học Bách Khoa Hà nội
GV Tiưởng Dẫn Khoa Học: G5.TS Nguyễn Thúc Hải
Trang 20Học viên: Koeu Sokmeak -11- Kỹ thuật Phân tán đữ liệu
4 XU THE PHAT TRIEN CSDL PHAN TAN
'Trong những năm gần đây, CSDL phân tan đã trở thành một lĩnh vực quan trọng của công nghệ thông tín, tầm quan trọng cửa nỗ ngày một nâng cao theo siz phát triển của công nghệ thông tín Có nhiều nguyên nhân dẫn đến sự phát triển của các hệ CSIL phân tán Chúng ta có thể kế sau đây một số động cơ thúc đây sự phat
triển
tổ chức và kinh tế
tổ chức gó eơ cầu lễ chức không tập trung Đối với góc lỗ chức nay thị việc xây dựng một CSDL phân tán là phủ hợp một cách tự nhiên với cấu trúc của tổ chức đó Cùng với sự phát triển của công nghệ máy tính, động cơ thúc đây về
kinh
lộc lỗ chức các rung lâm may tinh lon và lập trưng trở thành vẫn dễ được đặc biệt quan tim
«- Xây dựng môi quan hệ giữa các C8DL đã tổn tại
Các CSDL phân tán là giải pháp tự nhiên khi một số các C8DL đã tốn tai trong tổ chức và xuất hiện sự cần thiết thực hiện các ứng dụng tổng thể Trong
trường hợp các CSDL phân tán dược xây đựng tử dưới lên từ các CSDL địa phương,
hiện có Quả trình này có thể đói hỏi phải xây dựng lại câu trúc địa phương Chị phí cho việc xây dung lại câu trúc này sẽ nhỏ hơn nhiễu so với chỉ phí để tạo sinh ra
một CSDL tập trung mới hoàn toàn
« Sựtăng trưởng
Trong qúa trình phát triển của mình, một tổ chức có thể thêm một số thành viên mới, khi đỏ CSDL phân tản cho phép ánh hướng tới mite thấp nhất đền sự va chạm liên quan đến các thành viên đã tồn tại Với CSDL tập trung điều này gây mỏ rộng hệ thông là việc khỏ dự đoán trước vả chỉ phí cao hoặc gia tăng sự va cham không chỉ với các ứng đụng mới mà cả với các ủng đụng đã tổn tại
'Viện Sau Dạt Học, Khoa CNTT, Trưởng Dại Học Bách Khoa Hà nội
GV Tiưởng Dẫn Khoa Học: G5.TS Nguyễn Thúc Hi
Trang 21«Giảm chỉ phí truyền thông:
'Thực tế một số ứng, dụng mang tính địa phương sẽ lắm giảm chỉ phi truyền thang Do dé van dé cue dai hoa tính địa phương của các img đựng là một trong những các mục tiêu chính của việc thiết kế CSDL phân tan
«_ Hiệu quả công việc
Sự tổn tại một số bộ xử lý địa phương dat dược thông qua việc sử lý song song Vẫn để này có thể thích hợp với bắt kỳ hệ đa xứ lý nao chữ không chỉ với
CSDL phân tán Mặc đủ vậy CSDL phân tán có thuận lợi trong phân tích dữ liệu
phan ảnh điêu kiện phụ thưộc của ửng dụng cu dai hoa tinh dia phương của ứng, dụng; theo cách này tác động qua lại giùa các bộ xử lý được làm cực tiểu Công việc được phân chia giữa các bộ xú lý khác nhau, và tránh được những tắc nghẽn nguy hiểm trong mạng truyền thông hoặc các dịch vụ chung của toàn hệ thống, Sự
phân tán dữ liệu phân ánh hiệu quả làm tăng tính địa phương của các ứng dụng
e_ Dộtin cậy và tính sẵn dùng,
Cách tiếp cận CSDL phân tán, đặc biệt với các đữ liệu đu thừa, cũng được
sử dụng để có độ lin cày và sự sẵn dùng cao hơn Tuy nhiên, đại được mục đích đó
là vẫn để không đơn giản và đói hói sit dung các kỹ thuật phức tạp
Những hồng hóc trong CSDL phản tản có thể xây ra nhiều hơn vì có số các Thành phần câu thành lớn hơn, nhưng ánh hướng của mỗi hàng hóc đó chỉ giới hạn
ở những ứng đụng có dùng dữ liệu của trạm hư hồng, còn sự bồng hóc của toàn bộ
hệ thống là hiếm khi xây ra
CSDL phân tản là sự tập hợp các dữ liệu thuộc củng một hệ thống vẻ mặt
légic nhumg trai ra ở các trạm của mạng máy tính
'Viện Sau Dạt Học, Khoa CNTT, Trưởng Dại Học Bách Khoa Hà nội
GV Tiưởng Dẫn Khoa Moc: G8.TS Nguyễn Thúc Hi
Trang 22Học viên: Koeu Sokmeak -13- Kỹ thuật Phân tán đữ liệu
tẳng việc cấp phát các tập tin cho các nút trên một mạng máy linh
của quan hệ Vì thể đơn vị truy xuất không phải là toàn bộ quan hệ nhưng chỉ là lập
cơn của quan hệ Kết quả là xét tập con của quan hệ lả đơn vị phân tán sẽ lá điều
thích hợp đuy nhất
Thử hai là nêu các img dụng có các khung nhìn được định nghĩa trên một
quan hệ cho trước lạt nhằm tại vị trí khác nhấn thì có hai cách chon lựa với đơn vị
phân tán lá toàn bộ quan hệ Thử nhất quan hệ không được nhân bản mà được lưu ở
mot vị trí và thứ lai là quan hệ được nhân bản cho lât cả hoặc rnột số vị trí có chạy
tứng dụng Nếu lựa chọn cách thứ nhất sẽ gây ra một số lượng lớn các truy xuất không cân thiết đến đữ liệu từ xa Ngược lại, nêu chọn cách thử hai, có thể gây ra nhân bản không cân thiết, gây ra nhiều vẫn để khi cập nhật và có thể làm lãng phí nhiều không gian lưu trữ
Cuối cùng việc phân rã raột quan hệ thánh nhiều doạn, một đoạn sẽ dược xứ
ly như một đơn vị, sẽ cho phép thực hiện nhiều giao dịch đẳng thời Ngoài ra, việc phan doan các quan hệ sẽ cho phép thực hiện song song một câu truy vân bằng cách
chữa cho Khành mội tập các câu Iray văn con hoại tác trên các đoạn Vì thê việc phân
đoạn sẽ làm tăng mức đồ hoạt động đồng thời và như thể làm tăng hưu lượng hoạt
'Viện Sau Dạt Học, Khoa CNTT, Trưởng Dại Học Bách Khoa Hà nội
GV Tiưởng Dẫn Khoa Học: G5.TS Nguyễn Thức Hải
Trang 23động của hệ thông Kiểu hoạt đồng thời này mà chỉng (a gọi là đồng thời nội vấn
tin
Để cho dây đủ, chúng ta cũng sẽ chỉ rõ nhting khiém khuyết của việc phân đoạn Nếu ứng đụng só những yêu câu xung đột ngăn cản việc phân rã thành cáo
đoạn được sữ đụng độc quyền, những ứng dụng có các khưng nhìn được định nghữa
trên trên nhiều doan sẽ dược giảm hiệu xuất hoạt động, Chẳng hạn, nó cỏ thể cần phải truy xuất đữ liên từ hai đoạn rỗi nối hoặc hợp chứng lại với chỉ phí rất cao Tránh dược điều này là một vấn đề cơ bản của kỹ thuật phân đoạn
Van dẻ thứ hai là liên quan đến ván đẻ kiểm soát dữ liệu ngữ ngÌữa, đặc biệt
là vấn đề kiểm tra tính toán vẹn lo kết quá của phân đoạn, các thuộc tỉnh tham gia vào một phụ thuộc có thể bị phân rã vào các mãnh khảo nhau và được cắp phát cho
vị trí khảe nhau Trong trường hợp mày, một nhiệm vụ đơn giản như kiểm tra các 'phụ thuộc cũng phải thực biện truy tim dữ liệu ở nhiều vị trí
2 CÁC KIỂU PHÂN ĐOẠN:
Thể hiện của một quan hệ chính là các bàng, vì thế vẫn đẻ là tìm cách khảo nhau để chia mét bang thành nhiều bảng nhỏ, Liiện tại, có hai phương pháp khác xhan:(1) chữa bang theo chiêu dọc và (2) chia bang theo chiều ngang, Chúa bằng theo chiêu đọc, chúng ta được các quan hệ con mả mỗi quan hệ chứa một tập con
cáo thuộc tính của quan hộ gồo, đỏ gọi là phân đoạn dọc Phân chia ngang, thì một
quan hệ chúng ta dược các quan hộ con mà mỗi quan hệ chứa một số bộ của quan hệ
gốo, đỏ gọi là phân đoạn ngang
Ngoài hai phương pháp trên, còn có một phương pháp hỗn hợp, đó là phân
doan kết hợp hai phương, pháp trên Tắt nhiên quả trình phân doạn gắn liên với vẫn
để phân bá và bài toán cụ thể
'Viện Sau Dạt Học, Khoa CNTT, Trưởng Dại Học Bách Khoa Hà nội
GV Tiưởng Dẫn Khoa Moc: G8.TS Nguyễn Thúc Hi
Trang 24Học viên: Koeu Sokmeak -lã- Kỹ thuật Phân tán đữ liệu
ảo đến trạng thải phân đoạn thành tùng bộ, trưởng hợp phản đoạn ngang, hoặc
thành từng thuộc tính, trường hợp phân đoạn đọc
Điều chúng ta cần là tìm ra được một mức độ phân đoạn thích hợp Một
mite độ nửuư thể chỉ được đình nghĩa ủng với các ứng dụng sẽ chạy lrên cơ sở đữ
liệu Vẫn dễ là sẽ thực hiện như thể nảo ? Nói chủng, các ứng dụng cần dược đặc trưng qua một số tham số Theo giá trị của các tham số này mả chúng ta có thế xác
định được lừng đoạn
4 CAC QUY TAC PHAN DOAN DUNG DAN:
hi xem xét về quá trình chuẩn hóa, thường dé cập đến một số quy tắc để đâm báo tính nhất quán của cơ sở đữ liệu Điều quan trọng ở dây là cân nhận ra được điểm giống nhau giữa việc phân đoạn đủ liệu trong trường hợp phân tán và việc chuẩn hỏa các quan hệ Do vậy, chứng ta có thế định nghĩa các quy tắc phân đoạn, tương tự trong, việc chuẩn hỏa quan hệ
Chúng ta sẽ tuân thủ 3 quy tắc trong khi phân doạn mả chúng đảm bảo rằng,
eo sở đữ liệu sẽ không thay đối nào về ngữ nghĩa khi phân đoạn Đó là:
Y Tinh đây đủ: Nếu thể biện mội quan hệ R được phân rã thành các đoạn Ra,
Rạ, Rạ Rạ, thi mỗi mục đữ liệu có thế gấp trong R, hoặc cũng có thế
ip trong mét hay nhiều trong doạn Ri Dac tinh nay giống như tính chất phân rã nổi không mắt trong chuẩn hóa Tỉnh chất này rất quan trong trong phân rã bởi vì nó
dâm bảo rằng đữ liêu trong quan hệ R được ảnh xạ vào các đoạn và dâm bảo
không mắt mát thông tin
'Viện Sau Dạt Học, Khoa CNTT, Trưởng Dại Học Bách Khoa Hà nội
GV Tiưởng Dẫn Khoa Moc: G8.TS Nguyễn Thúc Hi
Trang 25⁄“ Tính lái sử dụng: Nếu mội quan hệ R được phân ra thành các mảnh Rị, Rạ,
Rạ, Ra thì cần phải định nghĩa một toán lử quan hệ V sao cho R— Vị, V
ịcE, Toán tứ V thay đổi theo từng loại phân đoạn Tuy nhiên điểu quan trọng
là phải xác định được nó Khá năng tải thiết một quan hệ tử các đoạn của nó
đảm bảo rằng các ràng buộc được định nghĩa trên đữ liệu đưới đạng các phụ
thuộc sẽ dược bão toàn
*ˆ Tính tách tiệt: Nếu quan hệ R được phân rã ngang thành các đoạm Ri, Ra, Ry, Ra va mục đữ liệu đi nm trong doan Rj, thì nó sẽ không nằm trong đoạn ¿ nảo khác(kzj) Tiêu chuẩn này bảo dam ring các đoạn ngang sẽ tách biệt Nếu quan hệ được phân rã dọc, các thuộc tỉnh khóa chữ phải được lập lại trong mỗi đoạn Vì thé trong phân đoạn đọc, tính tách biệt chỉ được định nghĩa trên các trường hợp không phải là khóa chính của một quan hệ
5, CÁC KIỂU CAP PHAT:
Chíng ta giả sử rằng cơ sở đữ liệu đã được phân đoạn tích hợp và cẩn phải quyết định cấp phát các đoạn cho các vi trí trên mạng Khi đữ liêu được phát, nó có thể được nhân bản hoặc chỉ duy trì một bản duy nhất Lý do cẩn phái nhân bản là
nằm đảm bảo được đê tin cậy và hiệu quả cha các câu truy vấn chỉ đọc Nếu có
xrhiển bản sao của một mục đữ liệu thì chúng ta vẫn có cơ hội truy xuất được đữ liệu
đó ngay cả khi hệ thông xảy ra sự cố llơn nữa các câu truy vấn chi đọc truy xuất đến củng một mục đữ liệu có thẻ cho thực hiên song sang bởi vi các bản sao có mặt tại nhiều vị trí Ngược lại câu vấn tín cập nhật có thể gây ra nhiều rắc rỗi bởi vì hệ thống phải báo dam rằng tất cá các bản sao phải dược cập nhật chính xác Vi vậy quyết định nhân bân cản phải được cân nhắc vả phụ thuộc vào tỷ lệ giữa câu truy vấn chỉ dọc và câu truy vấn cập nhật Quyết định này hấu như đều có ảnh hưởng đến tất cá các thuật toán của hệ quan wi co sé dữ liệu(3BMS) phân tán và chức
Tiãng kiêm soát khác Sơ đồ mô tả các lựa chợn nhân bãn:
'Viện Sau Dạt Học, Khoa CNTT, Trưởng Dại Học Bách Khoa Hà nội
GV Tiưởng Dẫn Khoa Học: G5.TS Nguyễn Thúc Hi
Trang 26Học vién: Koeu Sokmeak -17- Kỹ thuật Phân tân dữ liệu
Một cơ sở dữ liệu không nhân bản, thường gọi là cơ sở dữ liệu phân hoạch,
cỏ chứa các mảnh được cập phát cho các vị trí, trong đỏ chỉ tôn tại một bản sao duy
nhất cho mỗi mảnh trên mạng Trong trường hợp nhân bản, hoặc toàn bộ cơ sở dữ
liệu đều tại ở mỗi vị tri-cơ sở dữ liệu nhân bàn hoàn toản, hoặc các mãnh được phân
tán đến các vị trí, trong đó một mảnh có thể cỏ nhiều bản sao nằm tại nhiều vị trí-cơ
sở đữ liêu nhân bản một phân Trong trường hợp sau, số lượng các bản sao của một mảnh có thể lả thông tin đầu vào cho thuật toản cập phát, hoặc lả một biến quyết định mà giá trị của nó được xác định bằng thuật toán này
Viện Sau Dai Hoc, Khoa CNTT, Trường Đại Học Bach Khoa Hà noi
GV Hướng Dẫn Khoa Học: GS/T§ Nguyễn Thúc Hải
Trang 27« Thời gian dáp ứng
« Sự lưu trữ
«Cáp ràng buộc xử lý
Các kỹ thuật phân tán đữ liệu có thể dược áp dụng trong nhiều lĩnh vực tại
đó mỗi liên hệ giữa đữ liệu vã vẫn tin có ảnh hưởng đến hiệu năng Các lĩnh vực
này bao gồm: Phân đoạn các lệp trong mỗi Irường lập trung, phân tán dứ liệu trong,
các CSDL phân tán, Phân doạn dữ liệu cỏ thẻ được phân chia thành bai nhóm phân đoạn đọc và phân đoạn ngang|Ozsu and Valduriez| Phân đoạn đọc là kiếu phân đoạn gộp các thuộc tĩnh đũ liêu thành các nhóm, rong các nhóm này được lạo
ra từ một số thuộc tính Côn phân doạn ngang lá phân đoạn trong dó các bản phí của quan hệ sẽ được tổ chức thành các nhóm
'Viện Sau Dạt Học, Khoa CNTT, Trưởng Dại Học Bách Khoa Hà nội
GV Tiưởng Dẫn Khoa Học: G5.TS Nguyễn Thúc Hi
Trang 28Học viên: Koeu Sokmeak -19- Kỹ thuật Phân tán đữ liệu
3.1 PHAN ĐOẠN NGANG:
Thư chứng ta đã nên ở chương 2 trong luận văn này, phân đoạn ngang chia một quan hệ theo các hộ Vĩ vậy, mỗi đoạn là một lập cơn của quan hệ Có lui loại phân đoạn ngang,
*/ (1) Phân đoạn ngang nguyén thuy-Primary Horizontal Fragmentation: Cua một quan hệ được thực hiện đựa trên các vị từ được định nghĩa trên quan hệ[1]
xˆ (2) Phân đoạn ngang đẫn xuảt-Derived Ilorizontal Fragmentation: La phan ra
một quan hệ dựa trên các vị từ được dịnh nghĩa trên một quan hẻ khảc]1]
Chương 3 này, chủng ta sẽ xem xét một thuật toán để thực hiện cả hai kiểu
phân đoạn Tuy nhiên, trước tiên chúng ta phải thu thập thông tin cần thiết để thục
hiện phân đoạn ngang
3.1.1 YEU CAU THONG TIN VE PHAN DOAN NGANG :
Déi voi phan đoạn ngang, yêu cầu thông tin quan trong nhất bao gồm: (1) thông tin về cơ sở đữ liệu và (2) thông tìn về ứng dung
3.1.1.1: THONG TIN VE CO SO DỮ LIỆU :
Thông tím về cơ sở dữ liệu muốn nói dên lược đỏ khái rúệm toàn cục Trong, ngữ cảnh này, chúng ta cân biết được các quan hệ sẽ kết lại với nhau như thê nao đặc biệt bằng phép nổi Trong mô hình quan hệ, các môi liên hệ này cũng được biểu thị bằng các quan hệ Tuy nhiên, trong những, mô lủnh khác như mô hình thực thể
'Viện Sau Dạt Học, Khoa CNTT, Trưởng Dại Học Bách Khoa Hà nội
GV Tiưởng Dẫn Khoa Học: G5.TS Nguyễn Thúc Hải
Trang 29liên kết, các mỏi liên hệ được biểu thì tưởng mình Với mục đích thiết kế phân tán,
các mối liên hệ cũng được mô hình hỏa trong bộ khung quan hệ Theo cách nay,
chúng ta sẽ vẽ các đường nồi có hướng giữa các quan hệ có liên hệ với nhau qua một nồi bằng
Ví dụ: Một cơ sở dữ liệu gồm có các quan hệ: PAY, EMP, PROJ, và ASG
Mỗi liên hệ giữa các quan hệ nảy được biểu diễn bởi các đường nói Trong đó
hưởng của các đường nói cho biết mối liên hệ một-nhiều Chẳng hạn, với mỗi chức
vụ-Title cỏ nhiều nhân viên giữ chức vụ đó Vì thế, chúng ta vẽ một đường nỏi giữa
các quan hệ PAY và EMP Đẻng thoi moi lién hé nhieu-nhiéu gitta EMP va PROJ được biểu diễn bằng hai đường nói đến quan hệ ASG
Duong noi giữa các đối tượng cơ sở dữ liệu, trường hợp nay lả các quan hệ, được biểu diễn dưới dạng đỏ thị nói Quan hệ nằm tại đuôi của đường nổi được gọi
là chủ nhân-owner của đường nỏi và quan hệ tại đầu đường nói gọi là thành viên-
member của đường nói Một số thuật ngữ được sử dụng thông dung trong mô hình
mạng là quan hệ nguồn cho chủ nhân vả quan hệ đích cho thành viên Chúng ta sẽ
định nghĩa hai hảm:owner, member, chúng là các ảnh xạ tử tập các đường nói đến
các tập quan hệ Khi cho trước một đường nỏi, chúng sẽ trả vẻ quan hệ thành viên hoặc quan hệ chủ nhân của đường nỗi
Pl Camshin Phase9 100000 Hã nội
z2 Viettel 200000 Ho Chi Minh PS) Star-Cell 350000 Ho Chi Minh P4 Mobitel 500000 Da Nang
Vien Sau Đại Học, Khoa CNTT, Truong Đại Học Bách Khoa Hà nột
GV Hưởng Dẫn Khoa Học: GS.T§ Nguyễn Thúc Hải
Trang 30
Học viên: Koeu Sokmeak -21- Kỹ thuật Phân tản dữ liệu
EMP:
Cho trước đường nổi L1, trong hình biểu điên mỏi liên hệ các quan hệ, thi
cac ham owner va memer sé tra ve ket qua sau:
© Owner(L1)=PAY
® AMember(LI)=EMP
Viện Sau Đại Học, Khoa CNTT, Trường Đại Học Bách Khoa Hà nột
GV Hưởng Dẫn Khoa Học: GS.T§ Nguyễn Thúc Hải
Trang 31EMP “T
PROS ENO, ENAME, TITLE PNO, PRAME, BUDGET LOC
TRình 7 : Biêu diễn mỗi liên hệ giãa các quan hệ nhờ cdc dudng nồi
3.1.1.2 THONG TIN UNG DỤNG:
'Trong quả trình phan doan, ngodi yêu cầu thông tin về cơ sở dữ liệu, thông,
tiu về ứng đụng cũng là yêu cầu không thể thiêu Thông tin về ứng dụng gồm hai
loại: thông tin định tính và thông tin dịnh lượng[2] Thông tin dịnh tính hưởng din
che hoạt động phân đoạn, còn thông tin định lượng chú yêu được sử dụng trong mô tình cấp phát[2]
Những thông tin định tính cơ bản gồm có các vị từ được sử đụng trong các
câu tray vẫn Nếu không thể phản tích được hết lấL cả các ứng dụng để xác định những vị từ này thì ít nhất cũng phải nghiên cửu được các ứng dụng quan trong
nhật
Cho đến này, chúng ta đang tìm cách xác định các vị từ đơn giân Cho quan
hệ RCM, Aa, Ấn), trong đó Á¡ là một thuộc tính được định nghĩa trên một miễn biến thiên Dị, một vị từ đơn giản pị được định nghĩa trên R có dạng,
PẸAi © value, trong dó Ốc {=, <, 2, S
'Viện Sau Dạt Học, Khoa CNTT, Trưởng Dại Học Bách Khoa Hà nội
GY Muang Din Khoa Moc: G8.TS Nguyễn Thúc Hai
Trang 32Học viên: Koeu Sokmeak -23- Kỹ thuật Phân tán đữ liệu
và valne được chọn là miền biên thiên của A,-ValueeD Chúng ta ký hiệu
Pr để biểu thị tập tất cả các vị từ đơn giãn được định nghĩa trên quan hệ Ri Các
phan tử của Prị ký hiệu là Dự
Vi du: Cho quan hé PROT nhw trong Aint 6
000 : là các vị từ đơn giản
Mặc đủ các vị từ đơn giân rất dễ xử lý, các câu truy vấn rất thường chứa nhiều vị từ phức tạp, lá tổ hợp các vị từ đơn gián Một tổ hợp cần đặc biệt chủ ý,
được gọi là vị từ hội sơ cấp, gọi là hội của các vị từ đơn giản Hỏi vị chúng ta hiện
có thể biến đối một biểu thức boolean thành đang chuẩn hội, việc sử dụng vị từ hội
sơ cấp tron một thuật toán thiết kết không làm mắt di tính tổng quát [1,page 121]
Cho một tập Pu—{Pa, Pa, Pø, Pa} là các vị từ dơn giản trên quan hệ Rị,
tập các vị từ hội sơ cấp Mi= (mir, ma, mas, mis} được định nghĩa là :
Mi fing my A pix, pike Pri} voi 1eken, 152)
Trong đỏ p*j=pw hoặc p*ix= “pik
Vi thê mỗi vị từ đơn giản có thẻ xuất hiện trong vị từ hội sơ cấp dưới đạng,
tự nhiền hoặc dạng nhũ định
Một điểm quan trọng cần chủ ý ở đây: tham chiếu đến phố đmh của vi từ sẽ
có nghĩa dói với các vị từ dẳng tức dạng,
Attribute= Value Đôi với vị từ bất đẳng thức, phú định được xứ lý như phân bủ, chẳng han, phủ định của vị từ đơn gián
Atiribute< Value sẽ là Attribute > Value Ngoài cáo vẫn để lý thuyết của phép lây phân bủ trong các tập vô hạn cũng, còn có một vấn đề liên quan đến thực hành, đó là phần bù có thế rất khỏ định nghĩa
'Viện Sau Dạt Học, Khoa CNTT, Trưởng Dại Học Bách Khoa Hà nội
GV Tiưởng Dẫn Khoa Học: G5.TS Nguyễn Thức Hải
Trang 33Vi du: néu bai vi tir don giản
ói phân bù của nó —( Cận dưới<Adribrme 1<Cận trên)
Không để gì dịnh nghĩa được Vi vậy, nghiên cửu trong lĩnh vực nảy vẫn chỉ xem xét cáo vị từ đẳng thức đơn giản
lự : Chứng ta xem quan hệ PAY Dưới đây là cáo vị từ đơn giản có thể định nghĩa được trên PA:
nay
Py: TITLE ‘Lap trình viên"
Py: TITLE —‘K§ si hd thang?
Py: THLE ‘ky su didn’
Py: SAL < 30000
Ðy : SAI, > 30000
Dưới dây là các vị từ hội sơ cấp dược dịnh nghĩa dựa trên các vị từ dơn giản
mi: TITLE=’ Lap trinh vin’ A SALS 30000
mạ : TITLE= 'Lập trình viên A SAL, > 30000
ma: '{LITLB= 'Lập trinh vién’) A SALS 30000
mu: —( TITLLE “Lập trình viên) A SAL > 30000
ms: ‘ITIL = 'Kỹ sư hệ thống' A SAL< 30000
mg: TITLE = ‘Ky su hé théng’ A SAL > 30000
'Viện Sau Dạt Học, Khoa CNTT, Trưởng Dại Học Bách Khoa Hà nội
GV Tiưởng Dẫn Khoa Moc: G8.TS Nguyễn Thúc Hai
Trang 34Học viên: Koeu Sokmeak -28- Kỹ thuật Phân tán đữ liệu
Ở đây có 2 điểm chúng la cần chú ý: (1) không phải tắt cả các vị từ hội sơ cấp đều có thể định nghĩa được, thay vào đó chúng ta chỉ trinh bảy một mẫu đại điện (2) một số trong chứng có thể vả nghĩa đổi với ngi? nghĩa của quan hệ PAY
Theo những thông tin định tính vẻ các ứng dụng, chúng ta cân biết hai tập
3.1.2, PHAN LOAI PHAN DOAN NGANG:
Chimg ta phiin chia phin doan ngang thánh hai loại
¥ (Phan dean ngang nguyén thủy, và
¥ (2)Phan dean ngang đẫn xuất
3.1.2.1 PIÂN ĐOẠN NGANG NGUYÊN THỦY:
"Trước khi trình bảy thuật toán hình thức cho kỹ thuật phân đoạn ngang,
chúng ta cân thảo luận một cách trực quan về quá trình phân đoạn cho cả phân đoạn
ngang nguyên thủy vả phân doạn ngang dẫn xuất Phân đoạn ngang nguyên thủy được định nghĩa bằng một phép toán chọn trên các quan hệ chủ nhân của một hưọc
đổ cơ sở dữ liệu Cho quan hệ R, thi các đoạn ngàng của Bị là
Rim o wl), 1SiS
'Viện Sau Dạt Học, Khoa CNTT, Trưởng Dại Học Bách Khoa Hà nội
GY Muang Din Khoa Moc: G8.TS Nguyễn Thức Hải
Trang 35Trong đó Eì là công thức chọn được sử đụng để có được đoạn Rị Chú ý
rằng nêu l có dạng chuẩn hội, nó là một vị từ hội sơ cấp (m¡) Thục sự thuật toán
ama chúng ta sẽ thão luận khẳng định rằng E; là một vị từ hội sơ cấp
khó định nghĩa tập các công thức F={F, F›, F;, Fa} thích hợp cho phân đoạn quan
hệ Một phương ản lá định nghĩa cáo khoảng như dã nẻu ở trên Tuy nhiên, chứng,
†a luôn phải xủ lý các vấn dé ở hai đầu Chẳng hạn, nếu mệt bộ mới với giá trị
'BUDGET là 500000 được chén vao PROJ, thi ching ta can phải xem lại việc phân
đoạn để quyết định xem bộ mới sẽ được đặt vào PRO12 hoặc các đoạn cần phải sửa
dụ: Xét quan hệ PROI, tú chúng 1á có thể định nghĩa các đoạn ngang
dưới đây dựa vào vi tri dy an:
¥ PRON a Loco ssin(PROT)
¥ PROR zLecmckausr(PROI)
¥ PRO = ZLoo>pisany(PROJ)
'Viện Sau Dạt Học, Khoa CNTT, Trưởng Dại Học Bách Khoa Hà nội
GV Tiưởng Dẫn Khoa Học: G5.TS Nguyễn Thúc Hi
Trang 36Học viên: Koeu Sokmeak -27- Kỹ thuật Phân tán đữ liệu
Bay giờ chủng ta có thẻ dịnh nghĩa một doạn ngang, chặt chế hơn Một doạn ngang B¡ của quan hệ R có chứa tất cả các bộ R thỏa vị từ hội sơ cấp mi Vì vậy, cho một tập các vị từ hội sơ cấp ML số lượng các ngang cũng bằng số lượng các vị
từ hội sơ cấp Tập các đoạn ngang nảy cũng thường được gọi là tập các đoạn hội sơ câp-rninterm fragement
Theo như thảo luận trước, thì rõ rảng việc định nghĩa các đoạn ngang phụ thuộc vào các vị từ hội sơ cấp Vì thể bước đầu tiên cửa mượi thuật toán phân đoạn
là xác định tập cdc vi tit don gin sẽ tạo ra các vị từ hội sơ cấp
Một đặc tỉnh quan trọng của các vị từ đơn giãn là tỉnh dây đủ-completeness
Một đặc tính khác là tính tiểu cục Tập các vị từ đơn gián Pr được gọi lả đây đủ nếu
và chỉ nêu xác suất mỗi ứng dụng truy xuất đến một bộ bái kỳ Huộc về một đoạn hội sơ cấp nào dé được dinh nghĩa theo Pr déu bang nhau|2]
Vidu:
Ching ta xem xét sự phản doan quan hệ PROJ Nếu ứng dụng duy nhất truy xuất PROT muốn truy xuất các bộ theo vị trí, tập vị từ này là đầy đủ bởi vì mỗi bộ
cửa mỗt đoạn PROG déu co xae sual truy cập như nhan Tuy nhiền nếu có ứng dụng,
thử 2 chí truy xuất các bộ dự án có ngân sách trên 3009008 thi Pr khỏng đầy đủ Một số bộ trong mỗi đoạn PROI: cẻ xác suất được truy xuất cao hơn đo img dung thứ 2 này, Để cho tập vị từ day đủ, chúng ta cần phải thêm ede vi th (BUDGETS
300000, J5UDGHT > 300000) vao Pr
P={LOC="Lá nội”, LOC=”LHễ Chi Minh”, LOC="Da ning", BUDGLT<
300000, BUDGET > 300000}
Lý do cần phải đảm bảo tình đây đủ là vì các đoạn thu được theo tập vị từ
day đũ sẽ nhật quản về mặt logic do tất cả chúng đều thỏa mãn vị Lừ hội sơ cấp Chúng cũng dồng nhất vẻ mặt thông kê theo cách mà ửng, dụng truy xuất chúng, Vì thể chủng ta sẽ đủng một tập vị từ đây đủ làm cơ sở của phân đoạn ngang nguyên
thủy,
'Viện Sau Dạt Học, Khoa CNTT, Trưởng Dại Học Bách Khoa Hà nội
GV Tiưởng Dẫn Khoa Học: G5.TS Nguyễn Thúc Hải
Trang 37Ching ta cũng có thể định nghĩa tính đây đủ một cách hình thức để có thể thu được lập các vị từ đầy đũ một cách tự động Tuy nhiên, điều nảy đòi hỏi người thiết kê phải xác định xác suất truy xuất cho mỗi bộ của một quan hệ đổi với mỗi
ứng dung dang được xern xói, và như thế lên nhiều công sức hơn xo với việu sử
dụng kinh nghiệm của người thiết kế dễ tìm ra một tập dày đủ Tiếp theo, xin phép trình bày một phương pháp tự động có hệ thống để thu được tập này
Đặc tính ma chúng †a mong đợi của tập các vị từ hôi sơ cấp, đó là tính tiến cực No chỉ khẳng định rằng: nếu một vị từ ảnh hưởng đến cách thực hiện phân
đoạn, nghĩa là làm cho đoạn f bi phan chia nhé hon thanb fi va fj, thí phải có ít nhất
xnột img đụng truy xuất đến ñ và fj theo những cách khác nhau Nói cách khác, vị từ đơn giản phải có liên dới trong việc xác định một phân doạn Miếu tất cả các vị từ của tập Pr đều có liên đới thi Pr lá Cục tiểu
Goi mw; va mj la hai vi tir héi so cấp đồng nhất về định nghĩa, ngoại trừ m¡ chữa các vị từ đơn giản pi 6 dang tr nbién, con mj chia pi 6 dang phú định pi Cũng gọi fi va fj [a hai doan trong ung được định nghia theo mi va mj Thé thi pi là
có liên đổi nêu và chỉ nếu:
iảo truy xuâi khác nhau đên các đoạn được tạo Ta
'Viện Sau Dạt Học, Khoa CNTT, Trưởng Dại Học Bách Khoa Hà nội
GV Tiưởng Dẫn Khoa Học: G5.TS Nguyễn Thúc Hải
Trang 38Học viên: Koeu Sokmeak -29- Kỹ thuật Phân tán đữ liệu
3.1.2.1 THUẬT TOÁN COM-MIN:
Mục dịch của thuật toản lả sinh ra một tập dây dủ và cực tiểu cae vi tu Pr’ khi cho trước một tập các vị từ đơn giản Pr Dễ tránh phải giải thích đài dòng, chúng ta sẽ thừa nhận các quy tắc và ký hiệu sau:
Quy tắc 1: quy tắc cơ bản về tính đây đủ và cực tiểu, nó khẳng định rằng, xuột quan hệ hoặc một doạn dược phân hoạch thành íL nhất 2 phần và chúng dược truy xuất khác nhau bởi it nhất một ng dung[1, chapter 5]
là của Pr: đoạn fi được định nghĩa theo một vị từ hội sơ cấp trên các vị by
Pr
Dau vào:
RIA quan hé
T, là tập cáo vị từ đơn giản
Đầu ra : P, tập các vị từ đơn giản
Khai báo : Tĩ là tập các đoạn hội sơ cập
'Viện Sau Dạt Học, Khoa CNTT, Trưởng Dại Học Bách Khoa Hà nội
GY Muang Din Khoa Moc: G8.TS Nguyễn Thúc Hi
Trang 39'Thuật toàn bắt dầu băng cách tìm một vị từ có liên dới và phân hoạch quan
hệ đã cho Vòng lặp đo-until thêm các vị từ vào tập này, bào đảm tính cực tiểu tại
rỗi bước Vi thế vào cuồi vòng lặp, tập J,` là đầy đủ và cực tiểu
Bước thứ 2 trong quá trinh thiết kế phân đoạn ngang nguyên thủy là suy dẫn 1a tập các vị từ hội sơ cắp có thể dược định nghãa trên các vị từ trong tập P;” Các vị
từ hội sơ cắp này xác định các đoạn ưu tiền nhất cho bước cân phát Việc xác định các vị Lù hội sơ cấp là tầm thường, khó khăn chính là lập các lập các vị lừ hội sơ cần
có thể rất lớn Bước kế Hếp chúng ta sẽ tìm cách làm giảm số lượng vị từ hội sơ cấp
cân được định nghĩa trong quả trinh phản đoạn
ước thứ 3 của quá trình thiết kế là loại bó một số đoạn vô nghĩa, Diễu nay
được thực hiện bằng cách xác định thững vị từ mâu thuẩn với tập các phép kéo
theo Chẳng hạn, nêu cho P;° = {p1, ps}, trong do
pr: att=value 1 pr: att—valuc 2
va mién bién thién cuia att la fvalue_1, valua_2} 16 rang J chtta 2 phép kéo theo với khẳng định:
ia: (alt vahae 1) =>— (4L value 2) ia: (att =value_1) =>(att=value 2)
4 vị tử hội sơ cấp sau dây dược dịnh nghĩa theo Py’:
mx: (att=value 1) (att=value 2)
any (all value Ï)A ¬(aH value 2)
my: a(att= value I)A (at=value 2)
ma sath value t) ^ ¬(nH value 2}
Trong trường hợp này các vị Lừ hội sơ cấp tị, mạ mâu thuần với các phóp
kéo theo I va vi thé bj loại khối M
'Viện Sau Dạt Học, Khoa CNTT, Trưởng Dại Học Bách Khoa Hà nội
GV Tiưởng Dẫn Khoa Học: G5.TS Nguyễn Thức Hi
Trang 40Học viên: Koeu Sokmeak -31- Kỹ thuật Phân tán đữ liệu
Af mà mẫu thuẫn với l then
Me Mai End-if
và (2) nơi khác xử lý các mẫu thông tin của những nhân viên có lương cao hơn 300$ Vậy, câu truy vân sẽ được đưa ra ở 2 nơi
'Tập vị từ đơn giản được sứ dụng để phân hoạch quan hệ PA Y là:
¥ pi : SAL <300
Y pi: SAL > 300
'Viện Sau Dạt Học, Khoa CNTT, Trưởng Dại Học Bách Khoa Hà nội
GV Tiưởng Dẫn Khoa Học: G5.TS Nguyễn Thúc Hi