1. Trang chủ
  2. » Giáo Dục - Đào Tạo

LUẬN văn THẠC sĩ HAY thuật toán tụ năng lượng BEA (bond energy algorithm) trong thiết kế cơ sở dữ liệu phân tán tuyển sinh trung học phổ thông tỉnh thái nguyên​

82 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Thuật toán Tụ năng lượng BEA trong thiết kế cơ sở dữ liệu phân tán tuyển sinh trung học phổ thông tỉnh Thái Nguyên
Tác giả Dương Văn Lương
Người hướng dẫn PGS. TS. Đỗ Trung Tuấn
Trường học Trường Đại Học Công Nghệ Thông Tin Và Truyền Thông Thái Nguyên
Chuyên ngành Khoa học máy tính
Thể loại Luận văn Thạc sĩ
Năm xuất bản 2016
Thành phố Thái Nguyên
Định dạng
Số trang 82
Dung lượng 2,36 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Việc xây dựng dữ liệu tuyển sinh như trên không thể đáp ứng nhu cầu đó, cho nên thực trạng hiện nay, cùng một đối tượng nhưng các nhà trường phải quản lý ở ba lĩnh vực và ba cơ sở dữ liệ

Trang 1

DƯƠNG VĂN LƯƠNG

THUẬT TOÁN TỤ NĂNG LƯỢNG BEA (BOND ENERGY ALGORITHM) TRONG THIẾT KẾ CƠ SỞ DỮ LIỆU PHÂN TÁN

TUYỂN SINH TRUNG HỌC PHỔ THÔNG

TỈNH THÁI NGUYÊN

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Trang 2

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

DƯƠNG VĂN LƯƠNG

THUẬT TOÁN TỤ NĂNG LƯỢNG BEA (BOND ENERGY ALGORITHM) TRONG THIẾT KẾ CƠ SỞ DỮ LIỆU PHÂN TÁN

TUYỂN SINH TRUNG HỌC PHỔ THÔNG

TỈNH THÁI NGUYÊN

Chuyên ngành: Khoa học máy tính

Mã số: 60 48 01 01LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNHNGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS Đỗ Trung Tuấn

Trang 3

Lời cam đoan

Tôi cam đoan những kết quả trong luận văn là của viê ̣c tìm hiểu, có

tri ́ch dẫn và tham chiếu đến các nguồn tư liệu tin cậy Nội dung luận văn không sao che ́ p từ các kết quả của các luận văn, luận án khác

Trang 4

Lời ca ̉ m ơn

Trước tiên, tôi xin gửi lời cảm ơn đến trường Đại học Công nghệ thông tin và truyền thông Thái Nguyên, đã tạo điều kiện và tổ chức khóa học này để tôi có thể có điều kiện tiếp thu những kiến thức mới, có thời gian học tập và hoàn thành luận văn cao học này

Tôi xin chân thành cảm ơn các thầy cô đã truyền đạt cho chúng tôi những kiến thức quý báu trong quá trình học tập và làm luận văn

Tôi chân thành cảm ơn ta bè cùng lớp đã giúp đỡ, động viên tôi trong quá trình học tập cũng như thực hiện luận văn

Cuối cùng, tôi xin gửi thành quả này tới gia đình và người thân của tôi, những người đã hết lòng tạo điều kiện và động viên tôi để tôi có được kết quả ngày hôm nay

Trang 5

Mục lục

Lời cam đoan iii

Lời cảm ơn iv

Mục lục v

DANH MỤC CÁC TỪ VIẾT TẮT viii

CÁC BẢNG, HÌNH VẼ ix

MỞ ĐẦU 1

1 Lý do chọn đề tài 1

2 Cấu trú c luận văn 5

Chương 1 7

KHÁI NIỆM VỀ CƠ SỞ DỮ LIỆU PHÂN TÁN 7

1.1 Hệ thống cơ sở dữ liệu tập trung 7

1.2 Giới thiệu hệ thống cơ sở dữ liệu phân tán 8

1.3 Ưu điểm, nhược điểm hệ thống cơ sở dữ liệu phân tán 9

1.3.1 Ưu điểm 9

1.3.2 Khuyết điểm 10

1.4 Các đặc điểm của hệ thống xử lý phân tán 10

1.5 Kiến trúc của một hệ CSDL phân tán 11

1.6 Các hệ thống phân tán 13

1.6.1 Mô hình khách chủ 13

1.6.2 Mô hình phân tán ngang hàng 14

1.6.3 Mô hình nhân bản chính - phụ 15

Trang 6

1.7 Nhu cầu về cơ sở dữ liệu phân tán 16

1.7.1 Công tác tuyển sinh THPT tỉnh Thái Nguyên 16

1.7.2 Hạ tầng cơ sở dữ liệu về giáo dục Thái Nguyên 19

1.7.3 Hạ tầng dịch vụ Internet tại Thái Nguyên và ứng dụng cho giáo dục 20

1.7.4 Nhu cầu thiết kế cơ sở dữ liệu phân tán phục vụ công tác tuyển sinh THPT 22

1.8 Kết luận chương 24

Chương 2 25

CƠ SỞ LÍ THUYẾT LIÊN QUAN 25

2.1 Phân đoạn dữ liệu 25

2.1.1 Giới thiệu 25

2.1.2 Nhu cầu phân đoạn dữ liệu 26

2.1.3 Các điều kiện ràng buộc trong thiết kế phân đoạn 27

2.2 Phân đoạn ngang 28

2.3 Phân đoạn dọc 28

2.3.1 Giới thiệu 28

2.3.2 Quá trình phân đoạn 29

2.3.4 Thuật toán tụ năng lượng BEA và ứng du ̣ng 30

2.3.5 Xác định ma trận sử du ̣ng các thuộc tính 35

2.3.6 Xây dựng ma trận hấp dẫn xếp cụm 36

2.3.7 Phân đoạn ma trận hấp dẫn 43

2.4 Kết luận chương 50

Chương 3 51

Trang 7

THỬ NGHIỆM VÀ ỨNG DỤNG THỰC TẾ 51

3.1 Hệ thống cơ sở dữ liệu phục vụ tuyển sinh THPT tại Sở 51

3.1.1 Sơ đồ cơ sở dữ liệu phân tán 51

3.1.2 Các truy cập dữ liệu từ các trường 52

3.2 Phân đoạn dọc 52

3.2.1 Đặt vấn đề 52

3.2.2 Áp dụng thuật toán tụ năng lượng BEA 53

3.2.3 Thực hiện với dữ liệu cụ thể 56

3.3 Các sơ đồ thuật toán 58

3.3.1 Chương trình chính 58

3.3.2 Thuật toán phân đoạn ma trận hấp dẫn phân cụm 58

3.3.3 Thuật toán tìm phần trên, phần dưới trong ma trận hấp dẫn59 3.4 Kết luận chương 61

KẾT LUẬN 62

Kết quả luận văn đạt được 62

Phương hướng tìm hiểu và thực nghiệm tiếp theo của luận văn 63

TÀI LIỆU THAM KHẢO 64

Tiếng Việt 64

Tiếng Anh 64

PHỤ LỤC 65

Trang 8

DANH MỤC CÁC TỪ VIẾT TẮT

Multitier Client – Server

Mô hình đa khách - chủ

Peer - to - Peer Mô hình nhóm làm việc

Trang 9

CÁC BẢNG, HÌNH VẼ

Hình 1.1: Môi trường CSDL tập trung 7

Hình 1.2 Hệ thống cơ sở dữ liệu phân tán 8

Hình 1.3: Môi trường CSDL phân tán 9

Hình 1.4: Sơ đồ tạo CSDL phân tán 11

Hình 1.5: Sơ đồ quá trình tạo CSDL phân tán 12

Hình 1.6 Hệ thống khách/ chủ 14

Hình 1.7 Mô phỏng hệ thống Khách/ chủ 15

Bảng 1.1: So sánh các mô hình phân tán 16

Hình 1.8 Trang Web của Sở GDDT Thái Nguyên 16

Hình 1.8 Một số trang Web của các trường 17

Bảng 1.2 Các trường THPT trong mạng lưới phân tán tại tỉnh Thái Nguyên 17 Hình 1.10 Cổng thông tin điện tử liên quan đến cơ sở dữ liệu văn bản 19

Hình 1.11 Cơ sở dữ liệu tập trung 23

Hình 1.12 Hình dạng thí dụ về cơ sở dữ liệu phân tán đối với công tác tuyển sinh 24

Hình 2.1 Minh họa về sự phân đoạn trên ổ đĩa 25

Hình 2.2 Phân đoạn dữ liệu 26

Hình 2.3 Minh họa tách bảng 29

Hình 2.4 Bảng dữ liệu biết được khi thiết kế cơ sở dữ liệu 30

Bảng 2.1 Dữ liệu từ hình trên 30

Trang 10

Hình 2.6 Chương trình SQL để khai báo lược đồ 35

Bảng 2.2 Quá trình Pk truy cập Ci 35

Hình 2.7 Ma trận sử du ̣ng các thuộc tính 35

Hình 2.8 Các tần suất truy cập của các quá trình Pj 36

Bảng 2.3 Các AFF tính được dựa trên các ACC, như kết quả trong hình 5 36

Hình 2.9 Ma trận hấp dẫn xếp cụm 37

Hình 2.10 Ma trận hấp dẫn xếp cụm với đường chéo được tính lại 37

Hình 2.11 Thí dụ tính BOND (C1, C3) 38

Hình 2.12 Xét C3 đối với cặp C1, Cp đã hình thành 38

Hình 2.13 Thuộc tính C3 được đặt giữa C1, Cp do CONT (C1, C3, Cp) đạt max 39

Hình 2.14 Vị trí tương đối trước khi xét C4 40

Hình 2.15 Kết quả xếp cột C4 41

Hình 2.16 Cột C5 cần xếp đối với bốn cột đã có 41

Hình 2.17 Ma trận hấp dẫn cuối cùng 43

Hình 2.18 Ma trận hấp dẫn cuối cùng đã sắp xếp 43

Hình 2.19 Ma trận sử du ̣ng các thuộc tính, như hình 4, nhưng cho T truy cập nhiều Ai 44

Hình 2.20 Chọn điểm x 45

Hình 2.21 Ma trận đầu vào cho việc tìm x lần đầu 46

Hình 2.22 Ma trận đầu vào đối với C5, C5 47

Hình 2.23 Chuyển vị sau một lần tính giá trị cực đại 47

Trang 11

Hình 2.24 Ma trận chuyển vị, là cuối của bước này, đầu vào cho bước chọn x tiếp theo 48Hình 2.25 Chuyển vị, nhưng không cần thiết 49Hình 2.26 Phân đoạn trên ma trận ban đầu, tức ma trận hấp dẫn xếp cụm 49Hình 3.1 Hệ thống cơ sở dữ liệu phân tán 51Hình 3.2 Các trạm phân tán được xét trong bài toán tuyển sinh 56Hình 3.3 Các thuộc tính của dữ liệu trong bảng cơ sở dữ liệu sẽ phân rã 56Hình 3.4 Tác động của 8 câu hỏi thông thường trên các thuộc tính cơ sở dữ liệu 56Hình 3.5 Tần suất truy cập đến cơ sở dữ liệu từ 4 trạm theo 8 dạng câu hỏi 57Hình 3.6 Ma trận hấp dẫn cụm trước khi tính toán phân đoạn 57Hình 3.7 Chương trình chính của bài toán phân đoạn quan hệ 58Hình 3.8 Thuật toán tụ năng lượng BEA theo [6 10], dùng trong phân đoạn dọc 59Hình 3.9 Thuật toán tìm các phần, dùng để phân đoạn dọc 60Hình 3.10 Minh họa hình của chương 2 61

Trang 12

MỞ ĐẦU

1 Lý do chọn đề tài

Cùng với cả nước, tuyển sinh Trung học phổ thông (THPT) là kỳ thi cấp tỉnh diễn ra hàng năm của tỉnh Thái Nguyên Đây là một trong những kỳ thi nhận được nhiều sự quan tâm của xã hội, cũng như các cấp quản lý, các nhà trường trong tỉnh

Đối với mỗi trường THPT về hoạt động tuyển sinh, bên cạnh việc đảm bảo chất lượng khách quan, công bằng đầu vào, thì các thông tin liên quan tới thí sinh là rất cần thiết cho việc biên chế lớp, thống kê, báo cáo các đợt trong năm học, cũng như việc quản lý học sinh sau này

Căn cứ vào hướng dẫn của Bộ Giáo dục và Đào tạo, hàng năm Sở Giáo dục và Đào tạo Thái Nguyên xây dựng kế hoạch và ban hành các văn bản hướng dẫn tuyển sinh vào lớp 10, đồng thời tổ chức các hội nghị tập huấn cho các lãnh đạo, cho các cán bộ phụ trách xây dựng cơ sở dữ liệu tuyển sinh của các nhà trường

Những năm qua, việc ứng dụng công nghệ thông tin trong quản lý thi tuyển sinh THPT tại tỉnh Thái Nguyên mới chỉ ở mức độ “thủ công”, chưa tận dụng được nhiều từ khả năng của lĩnh vực đó mang lại Cụ thể:

Trong nhiều năm qua kỳ thi sử dụng phần mềm Demo do người quản trị cơ sở dữ liệu viết trên hệ quản trị Virual FoxPro Bên cạnh ưu điểm là người quản trị dễ dàng thực hiện thao tác trực tiếp trên dữ liệu như: ghép nối

dữ liệu, sắp xếp, lọc, thống kê, báo cáo… thì nhiều hạn chế vẫn chưa được cải thiện Đơn cử như, sau khi được tập huấn, cán bộ phụ trách máy tính các trường về triển khai nhập dữ liệu Sau khi nhập xong, các trường ghi dữ liệu

ra đĩa CD và nộp về máy tính của Sở (máy trung tâm) Từ máy trung tâm tiến

Trang 13

các trường Từ đây dữ liệu tuyển sinh cơ sở từ các trường (sau khi đã nộp sở)

sẽ không còn giá trị sử dụng Việc sửa chữa thông tin, nhập điểm, xử lý điểm thi diễn ra tại máy trung tâm và kết quả thi cũng in ra giấy gửi cho các trường

Đối với mỗi nhà trường, thông tin của học sinh từ dữ liệu tuyển sinh sẽ rất cần thiết trong suốt quá trình ba năm học THPT nếu như thí sinh đó trúng tuyển Việc xây dựng dữ liệu tuyển sinh như trên không thể đáp ứng nhu cầu

đó, cho nên thực trạng hiện nay, cùng một đối tượng nhưng các nhà trường phải quản lý ở ba lĩnh vực và ba cơ sở dữ liệu khác nhau trong ba năm học THPT, đó là: quản lý tuyển sinh – quản lý học sinh trong nhà trường – thí sinh thi tốt nghiệp THPT Điều đó không chỉ tính nhất quán cơ sở dữ liệu không được đảm bảo mà còn gây lãng phí, tốn nhiều công sức và rất khó quản

Ngay nay cùng với sự phát triển mạnh mẽ về công nghệ, cơ sở hạ tầng thiết bị công nghệ thông tin và viễn thông cũng được đầu tư khá đầy đủ Cụ thể các trường THPT trong tỉnh được trang bị nhiều máy tính với cấu hình cao, 100% được kết nối mạng Internet với đường truyền băng thông rộng, đội ngũ cán bộ phụ trách máy tính tại các đơn vị được đào tạo cơ bản, trình độ tin học ngày càng nâng cao

Một vấn đề cần quan tâm trong ứng dụng công nghệ thông tin trong ngành giáo dục quê hương Thái Nguyên là phân tích, thiết kế và xây dựng hệ thống thông tin nói chung, cơ sở dữ liệu giáo dục nói riêng Cơ sở dữ liệu được hiểu theo cách định nghĩa kiểu kĩ thuật thì nó là một tập hợp thông tin có cấu trúc Tuy nhiên, thuật ngữ này thường dùng trong công nghệ thông tin và nó thường được hiểu rõ hơn dưới dạng một tập hợp liên kết các dữ liệu, thường đủ lớn để lưu trên một thiết bị lưu trữ như đĩa hay băng Dữ liệu này

Trang 14

được duy trì dưới dạng một tập hợp các tập tin trong hệ điều hành hay được lưu trữ trong các hệ quản trị cơ sở dữ liệu

Một khâu quan trọng trong phân tích phần mềm đó là việc phân tích và thiết kế cơ sở dữ liệu Tất cả mọi hệ thống đều phải sử dụng một cơ sở dữ liệu của mình, đó có thể là một cơ sở dữ liệu đã có hoặc một cơ sở dữ liệu được xây dựng mới Cũng có những hệ thống sử dụng cả cơ sở dữ liệu cũ và mới

Việc phân tích và thiết kế cơ sở dữ liệu cho một hệ thống có thể tiến hành đồng thời với việc phân tích và thiết kế hệ thống hoặc có thể tiến hành riêng

Vấn đề đặt ra là cần xây dựng một cơ sở dữ liệu giảm được tối đa sự dư thừa

dữ liệu đồng thời phải dễ khôi phục và bảo trì

Như chúng ta đã biết, cơ sở dữ liệu là một tập hợp các dữ liệu có liên quan đến nhau dưới dạng các bản ghi trong các bảng Khi phát triển các hệ thống tin học hóa người phát triển không chỉ cần thiết kế các tiến trình xử lý của hệ thống mà còn phải quan tâm đến cách tổ chức dữ liệu Quá trình này chính là thiết kế cơ sở dữ liệu trong đó chỉ ra các loại dữ liệu được lưu trữ, lượng dữ liệu lưu trữ và cách tổ chức dữ liệu, v.v Quá trình thiết kế cơ sở dữ liệu chính là quá trình lập kế hoạch và đưa ra cấu trúc của dữ liệu Vậy tại sao lại cần phải thiết kế cơ sở dữ liệu? Câu trả lời là để có được một dự án hay một hệ thống thành công thì chúng ta không chỉ phải đảm bảo các tiến trình thực thi chính xác mà còn phải đảm bảo một cấu trúc dữ liệu hợp lý Với việc xác định trước các yếu tố liên quan đến dữ liệu của môi trường xung quanh, chúng ta có thể tránh được các sai sót hay xung đột về sau

Khi thiết kế một cơ sở dữ liệu, chúng ta có thể phải dựa vào một hệ thống thực để mô hình hóa trong cơ sở dữ liệu Quá trình này bao gồm việc quyết định các bảng cần tạo, các trường dữ liệu cũng như mối quan hệ giữa các bảng Nếu quá trình này được thực hiện một cách rõ ràng, tự nhiên và tự

Trang 15

động thì rất tốt, nhưng thường thì không phải như vậy Một cơ sở dữ liệu được thiết kế tốt cần phải có thời gian, công sức để chuẩn bị, xây dựng và cải tiến

Một cơ sở dữ liệu được thiết kế theo mô hình quan hệ mang lại rất nhiều lợi ích Dưới đây liệt kê một số lợi ích này:

 Giúp thêm mới, cập nhật, xóa dữ liệu hiệu quả hơn;

 Việc truy xuất tổng hợp dữ liệu và chiết xuất báo cáo hiệu quả hơn;

 Do cơ sở dữ liệu tuân theo mô hình đã được thiết kế tốt, chúng ta

có thể biết trước hoạt động của chúng;

 Với hầu hết dữ liệu được lưu trữ trong cơ sở dữ liệu mà không phải trong ứng dụng, bản thân cơ sở dữ liệu đã chứa đầy đủ thông tin;

 Dễ dàng thay đổi cấu trúc cơ sở dữ liệu

Như đề cập ở trên, thiết kế cơ sở dữ liệu rất cần sự linh hoạt và sáng tạo Dù là việc thiết kế cơ sở dữ liệu cần phải theo đúng các mô hình chuẩn hóa và mô hình quan hệ, cuối cùng chúng ta vẫn phải đưa ra một thiết kế thể hiện được nghiệp vụ của doanh nghiệp Lý thuyết thiết kế cơ sở dữ liệu quan

hệ thường đề cập đến những vấn đề cần tránh khi thiết kế nhưng lại không hướng dẫn chúng ta bắt đầu từ đâu và cách quản lý nghiệp vụ Chính vì vậy ta cần phải hiểu rõ nghiệp vụ của tổ chức đó (hay hoàn cảnh nghiệp vụ) mà chúng ta đang mô hình hóa Một cơ sở dữ liệu thiết kế tốt đòi hỏi người thiết

kế phải hiểu rõ nghiệp vụ, cần có thời gian và kinh nghiệm

Là một giáo viên tin học công tác trong ngành giáo dục và đào tạo Thái Nguyên, học viên nhận thấy đây là một kỳ thi quan trọng, việc xây dựng một

Trang 16

cơ sở dữ liệu phù hợp với tình hình thực tế là rất cần thiết, đáp ứng nhu cầu quản lý, khai thác thông tin và sử dụng nguồn dữ liệu tại các đơn vị

Khi thiết kế cơ sở dữ liệu phân tán, đặc biệt trong phân đoạn dọc, người

ta cần tính đến việc tụ năng lượng, ứng với việc xếp sắp các thuộc tính gần nhau Người ta đã sử dụng thuật toán tụ năng lượng BEA để thực hiện việc này Thuật toán được sử dụng trong một pha nhỏ của thiết kế phân đoạn dọc

cơ sở dữ liệu phân tán Vì vậy, học viên đã chọn đề tài: “Thuật toán tụ năng

lượng BEA (Bond Energy Algorithm) trong thiết kế Cơ sở dữ liệu phân tán tuyển sinh Trung học phổ thông tỉnh Thái Nguyên” nhằm đưa ra giải pháp

mới trong hoạt động quản lý thi tuyển sinh và đây cũng là nội dung nghiên cứu cho luận văn của mình

2 Cấu tru ́ c luận văn

Luận văn được chia thành các chương, với phần mở đầu và kết luận

Cuối luận văn là danh sách các tài liệu tham khảo và trích dẫn trong luận văn

 Chương 1 đề cập khái niệm về cơ sở dữ liệu phân tán, những đặc

tính của cơ sở dữ liệu phân tán và những thách thức xử lí dữ liệu trong cơ sở dữ liệu so với cơ sở dữ liệu tập trung truyền thống

Ngoài ra chương 1 còn đề cập nhu cầu về cơ sở dữ liệu phân tán trên địa bàn công tác của học viên, tại Thái Nguyên;

 Chương 2 đề cập cơ sở lí thuyết của vấn đề liên quan đến luận văn, tức việc thiết kế cơ sở dữ liệu phân tán, tập trung vào các kĩ

thuật phân rã dữ liệu Hai kiểu phân rã dữ liệu (i) phân đoạn ngang; (ii) phân đoạn dọc và phân đoạn hỗn hợp được nêu ra, như kiến thức tìm hiểu thêm về hệ thống cơ sở dữ liệu phân tán

Chương 2 tập trung vào phân đoạn dọc, nên thuâ ̣t toán tụ năng

Trang 17

lượng BEA trong thiết kế cơ sở dữ liệu phân tán dọc có ý nghĩa, được luận văn nghiên cứu và thử nghiệm;

 Chương 3 trình bày thực nghiệm của luận văn, về thuâ ̣t toán tụ

năng lượng và phân đoạn dọc, trong quá trình thiết kế cơ sở dữ liệu phân tán tại Thái Nguyên Các kết quả này được ứng du ̣ng trong phân tích, thiết kế và xây dựng cơ sở dữ liệu phân tán, phục vụ công tác tuyển sinh tại các trường Trung học Phổ thông của Sở GDDT Thái Nguyên

Cuối luận văn là kết luận, với (i) kết quả luận văn đạt được; (ii) phương hướng tiếp tục tìm hiểu về lí thuyết và ứng du ̣ng

Trang 18

Chương 1 KHÁI NIỆM VỀ CƠ SỞ DỮ LIỆU PHÂN TÁN

1.1 Hệ thống cơ sở dữ liệu tập trung

Theo [2], hệ cơ sở dữ liệu tập trung là tất cả dữ liệu đều nằm tại một vị trí, không có sự phân tán dữ liệu Mạng máy tính mang tính cục bộ, dữ liệu không có tính sẵn sàng như cơ sở dữ liệu phân tán

Nút 1

Nút 4

Nút 3 Nút 2

Nút 5

Giao tiếp mạng

Hình 1.1: Môi trường CSDL tập trung

Hình trên cho thấy có tồn tại môi trường mạng lưới, nhưng chỉ có duy nhất nút 3 lưu trữ và quản lý dữ liệu, những nút còn lại không đảm nhiệm chức năng đó

Ưu điểm:

 Dữ liệu được tập trung một nơi, dễ dàng cho việc xây dựng, bảo trì

 Dự phòng dữ liệu được loại bỏ, không phải lặp lại các phiên bản

dữ liệu giống nhau cùng tồn tại trên các trạm

Trang 19

 Tiết kiệm chi phí, không phải xây dựng thêm Server để lưu trữ

1.2 Giới thiệu hệ thống cơ sở dữ liệu phân tán

Theo [1], cơ sở dữ liệu phân tán là tập hợp các cơ sở dữ liệu liên quan với nhau về mặt ngữ nghĩa được phân bố trên các máy tính của một mạng máy

Hệ quản trị cơ sở dữ liệu phân tán (DDBS – Distributed Database System) là hệ thống phần mềm cho phép quản lý CSDL phân tán và đảm bảo các tính minh bạch trong CSDL phân tán đối với người dùng

Trang 20

1 Ứng dụng cục bộ: là ứng dụng giao tiếp giữa người dùng và dữ liệu trên một nút trong hệ CSDL phân tán và chỉ liên quan đến CSDL tại nút đó

2 Ứng dụng toàn cục: yêu cầu truy cập dữ liệu ở nhiều nút thông qua

hệ thống mạng máy tính

Nút 1

Nút 4

Nút 3 Nút 2

 Dễ dàng co dãn dữ liệu

 Phản ánh cấu trúc của tổ chức: các phân đoạn dữ liệu được đặt ở những chi nhánh của tổ chức mà nó liên quan đến tạo ra hệ thống

dữ liệu có cấu trúc tương ứng với tổ chức công ty đó

 Có thể tự trị dữ liệu tại điạ phương của mình: một chi nhánh tổ chức có thể quản lý, điều khiển dữ liệu của họ một cách độc lập

Trang 21

 Bảo vệ dữ liệu tốt: nếu có thảm họa xảy ra như cháy nổ, dữ liệu

có thể được bảo vệ vì dữ liệu không ở một nơi mà được phân tán tại nhiều nơi

 Tăng hiệu suất thực thi: dữ liệu được đặt gần nút mà có yêu cầu truy xuất cao nhất, và hệ thống có thể xử lý truy xuất song song (bằng cách phân nhỏ truy vấn và xử lý song song các truy vấn)

 Hệ thống có thể được sửa, thêm hoặc gỡ bỏ các nút khỏi CSDL phân tán mà không cần dùng hệ thống nào tương tác đến

 Các giao tác hoạt động tin cậy hơn: vì CSDL có tính bản sao

1.3.2 Khuyết điểm

 Thiết kế cơ sở dữ liệu phức tạp

 Khó điều khiển tính nhất quán dữ liệu

 Khó phát triển và sửa lỗi

 Thiếu chuẩn mực

 Vấn đề bảo mật

 Giá thành cao

1.4 Các đặc điểm của hệ thống xử lý phân tán

Hai tính chất quan trọng trong CSDL phân tán: (i) Các dữ liệu ở các nút phải liên quan với nhau về mặt ngữ nghĩa; (ii) Các dữ liệu được phân tán trên các nút qua môi trường mạng máy tính, mỗi dữ liệu trên một nút là một đơn vị trong CSDL phân tán

Hình 1.1 không được xem là mô hình cơ sở dữ liệu phân tán vì chỉ có duy nhất nút 3 có lưu trữ và quản lý dữ liệu, những nút còn lại không đảm nhiệm chức năng đó, đây không được xem là DDBS Hình 1.3 thỏa DDBS vì

Trang 22

CSDL được phân tán quản lý bởi các nút ở địa lý khác nhau qua môi trường mạng

1.5 Kiến trúc của một hệ CSDL phân tán

Theo [2, 5], do sự đa dạng, và không có kiến trúc nào được công nhận chính thức Sơ đồ dưới đây cho ta kiến trúc cơ bản để tổ chức cho một CSDL phân tán Để dễ hình dung, ta sẽ dùng CSDL quan hệ quen thuộc làm minh họa trong CSDL phân tán trong mục này

Lược đồ tổng thể

Lược đồ phân mảnh

Sơ đồ định vị

Sơ đồ ánh xạ địa phương 2

Sơ đồ ánh xạ địa phương 1

DBMS của vị trí 2 DBMS của vị trí 1

CSDL địa phương tại

vị trí 1

CSDL địa phương tại

vị trí 2

(Các vị trí khác)

Hình 1.4: Sơ đồ tạo CSDL phân tán

1 Lược đồ tổng thể: lược đồ này bao gồm tất cả dữ liệu được lưu trữ trong CSDL phân tán Ở đây sẽ sử dụng mô hình quan hệ để hình thành nên lược đồ này Sử dụng mô hình này, lược đồ tổng thể bao gồm định nghĩa của một tập các quan hệ tổng thể

2 Lược đồ phân mảnh: Mỗi quan hệ tổng thể có thể chia thành các phần dữ liệu được gọi là mảnh (fragments) Có nhiều cách khác nhau để thực hiện việc phân chia này Lược đồ tổng thể mô tả các ánh xạ giữa các quan hệ tổng thể và các phân đoạn được định nghĩa

Trang 23

trong lược đồ phân đoạn Ánh xạ này là một- nhiều Có thể có nhiều phân đoạn liên kết tới một quan hệ tổng thể, nhưng mỗi phân đoạn chỉ liên kết tới nhiều nhất là một quan hệ tổng thể Các mảnh được chỉ ra bằng tên của quan hệ tổng thể cùng với tên của chỉ mục phân đoạn

3 Sơ đồ định vị: Các phân đoạn là các phần mang ngữ nghĩa của một quan hệ tổng thể được định vị trên một hoặc nhiều vị trí vật lý trên mạng Sơ đồ định vị xác định phân đoạn nào ở các trạm nào Lưu ý rằng, kiểu ánh xạ được định nghĩa trong sơ đồ định vị quyết định CSDL phân tán là dư thừa hay không Tất cả các mảnh liên kết với cùng một quan hệ tổng thể R và được định vị tại cùng một trạm j cấu thành ảnh vật lý của quan hệ tổng thể R tại trạm j Bởi vậy, có thể ánh xạ một-một giữa một ảnh vật lý và một cặp (quan hệ tổng thể, trạm) Các ảnh vật lý có thể được chỉ ra bằng tên của một quan

hệ tổng thể và một chỉ mục trạm

Hình 1.5: Sơ đồ quá trình tạo CSDL phân tán

Trang 24

4 Sơ đồ ánh xạ địa phương: Ánh xạ các ảnh vật lý tới các đối tượng được các hệ quản trị CSDL địa phương thao tác tại các trạm Ánh xạ này phụ thuộc vào các hệ quản trị

5 CSDL địa phương Do vậy, trong một hệ thống không đồng nhất, phải có các kiểu ánh xạ địa phương khác nhau tại các trạm khác nhau

Máy chủ thực hiện hầu hết các công việc quản lý dữ liệu Nghĩa là tất

cả mọi xử lý và tối ưu hoá truy vấn, quản lý giao dịch và quản lý lưu trữ đều được thực hiện trên máy chủ Máy khách, ngoài ứng dụng và giao diện người

sử dụng, có một module hệ quản trị CSDL máy khách trách nhiệm quản lý dữ liệu và khóa giao dịch được gửi đến máy khách Máy khách và máy chủ trao đổi với nhau bởi các câu lệnh SQL Loại kiến trúc khách-chủ đơn giản chỉ có một máy chủ được truy nhập bởi nhiều máy khách, gọi là đa khách-một chủ

Việc quản lý dữ liệu không khác so với CSDL tập trung CSDL được lưu chỉ trên máy chủ và có phần mềm quản lý nó Tuy nhiên, sự khác biệt quan trọng

so với các hệ thống tập trung là cách thực thi giao dịch và quản lý bộ nhớ đệm (cache)

Trang 25

Hình 1.6 Hệ thống khách/ chủ

Loại kiến trúc có nhiều máy chủ trong hệ thống, được gọi là đa

khách-đa chủ Có 2 chiến lược quản lý: hoặc máy khách quản lý kết nối của nó tới máy chủ hoặc máy khách chỉ biết máy chủ của nó và liên lạc với các máy khác qua máy chủ khi có yêu cầu

Mô hình CSDL logic khách-chủ là duy nhất Mô hình mức vật lý của

nó có thể phân tán

1.6.2 Mô hình phân tán ngang hàng

Trong mô hình xử lý ngang hàng, các hệ thống tham gia có vai trò như nhau Chúng có thể vừa yêu cầu dịch vụ từ một hệ thống khác hoặc vừa trở thành nơi cung cấp dịch vụ Một cách lý tưởng, mô hình tính toán ngang hàng cung cấp cho xử lý hợp tác giữa các ứng dụng có thể nằm trên các phần cứng hoặc hệ điều hành khác nhau Mục đích của môi trường xử lý ngang hàng là

để hỗ trợ các CSDL được nối mạng Như vậy người sử dụng hệ quản trị CSDL sẽ có thể truy cập tới nhiều CSDL không đồng nhất

Ngày nay, CSDL phân tán được hầu hết các hệ quản trị CSDL lớn hỗ trợ như Microsoft SQL Server, Oracle, DB2 … và được ứng dụng trong hầu hết các hệ thống thông tin phân tán

Trang 26

1.6.3 Mô hình nhân bản chính - phụ

Theo [1, 2], để hiểu được mô hình này trước tiên ta phải hiểu khái niệm

“Replication” là gì Replication có ý nghĩa là “nhân bản”, là có một phiên bản giống hệt phiên bản đang tồn tại, đang sử dụng

Với cơ sở dữ liệu, nhu cầu lưu trữ lớn, đòi hỏi cơ sở dữ liệu toàn vẹn, không bị mất mát trước những sự cố ngoài dự đoán là rất cao Vì vậy, người

ta nghĩ ra khái niệm “nhân bản”, tạo một phiên bản cơ sở dữ liệu giống hệt cơ

sở dữ liệu đang tồn tại, và lưu trữ ở một nơi khác, đề phòng có sự cố

Phiên bản cơ sở dữ liệu phục vụ ứng dụng được lưu trữ trên bản chỉnh

Phiên bản cơ sở dữ liệu “nhân bản” được lưu trữ trên bản phụ Quá trình nhân bản từ bản chính sang bản phụ gọi là replication

Khi có một thay đổi trên cơ sở dữ liệu bản chính, bản chính sẽ ghi xuống log file (log ở dạng nhị phân) Bản phụ đọc log file, thực hiện những thao tác trong log file Việc ghi, đọc log theo dạng nhị phân được thực hiện rất nhanh

Tại thời điểm hoạt động bình thường mọi request sẽ được đưa đến bản chính Khi bản chính gặp sự cố, request sẽ được đẩy qua bản phụ xử lí Khi bản chính hoạt động lại bình thường, request sẽ được trả về cho bản chính Cơ chế chuyển đổi request giữa các bản chính-phụ khi một trong số chúng gặp sự

cố nhưng không làm ảnh hưởng gì đến hệ thống được gọi là quá trình chuyển đổi dự phòng (failover)

Replication

Hình 1.7 Mô phỏng hệ thống Khách/ chủ

Trang 27

Đòi hỏi máy chủ đủ mạnh để tiếp nhận nhiều request từ phía người dung

Hệ ngang hàng

CSDL không cần đồng nhất;

Có thể xử lý tính toán, request trên các nền tảng khác nhau

Khó xây dựng

Hệ nhân bản chính - phụ

Dữ liệu được backup thường xuyên;

Hỗ trợ quá trình chuyển đổi dự phòng

Cần có khoảng thời gian để dữ liệu giữa các bản đồng nhất với nhau

1.7 Nhu cầu về cơ sở dữ liệu phân tán

1.7.1 Công tác tuyển sinh THPT tỉnh Thái Nguyên

Theo trang tin [4], nhà nước đã có kế hoạch tuyển sinh chung Đối với tỉnh Thái Nguyên, có danh sách các trường THPT Mọi thông tin liên quan đến tuyển sinh THPT đã được thể hiện trên trang Web của Sở

Hình 1.8 Trang Web của Sở GDDT Thái Nguyên

Thông tin về tuyển sinh còn có trong nhiều trang Web của các đơn vị giáo dục thuộc Sở

Trang 28

Hình 1.8 Một số trang Web của các trường

THPT Chuyên (Năng khiếu) P Quang Trung, Tp Thái Nguyên

Trang 29

THPT Chu Văn An P Hương Sơn, Tp Thái Nguyên

PT Dân tộc Nội trú tỉnh TN P Tân Lập, Tp Thái Nguyên

Phổ thong Vùng Cao Việt Bắc Xã Quyết Thắng, Tp Thái Nguyên

Trang 30

THPT Lương Phú Xã Lương Phú, H Phú Bình

Trường Văn hoá I Bộ Công An P Lương Sơn, TP Thái Nguyên

THPT Lưu Nhân Chú, Đại Từ Xã Ký Phú, H Đại từ

Trường TC nghề Thái Nguyên Ph Trưng Vương, thành phố Thái Nguyên

THPT Điềm Thuỵ, Phú Bình Xã Điềm Thuỵ, H Phú Bình, Thái Nguyên

1.7.2 Hạ tầng cơ sở dữ liệu về giáo dục Thái Nguyên

Theo [3], Thái Nguyênlàthành phốtỉnh lỵ của tỉnhThái Nguyên, là một trong những thành phố lớn ở miền Bắc, trung tâmvùng trung du và miền núi phía Bắc Thành phố Thái Nguyên được thành lập vào năm 1962 và là một thành phố công nghiệp Thành phố Thái Nguyên nằm bên bờ sông Cầu

Diện tích 170, 7 km2và dân số 306.842 người (năm 2015) Thành phố Thái Nguyên từng là thủ phủ củaKhu tự trị Việt Bắctrong suốt thời kỳ tồn tại của khu tự trị này (1956 - 1965) Ngoài ra, thành phố Thái Nguyên được cả nước biết đến là một trung tâm đào tạo nguồn nhân lực lớn

Hình 1.10 Cổng thông tin điện tử liên quan đến cơ sở dữ liệu văn bản

Trang 31

Trên trang cổng thông tin điện tử tại tỉnh, không có dữ liệu chi tiết liên quan đến công tác tuyển sinh THPT Thái Nguyên Các kho dữ liệu hay các cơ

sở dữ liệu chuyên về giáo dục và đào tạo mới chỉ lưu trữ và xử lí dữ liệu đối với các trường cao đẳng và đại học trên địa bàn tỉnh

Do vậy, việc tổ chức dữ liệu về giáo dục phổ thông để phục vụ công tác quản lý giáo dục và trợ giúp công tác tuyển sinh, quản lý nguồn học sinh là nhu cầu cấp thiết Là giáo viên THPT của tỉnh, học viên nhận thức được vai trò của (i) công nghệ thông tin và truyền thông; (ii) hệ thống thông tin và hệ thống cơ sở dữ liệu, nhằm làm tốt và đổi mới công cuộc giáo dục Thái Nguyên

1.7.3 Hạ tầng dịch vụ Internet tại Thái Nguyên và ứng dụng cho giáo dục

1.7.3.1 Nhu cầu về dịch vụ mạng

Hệ thống mạng máy tính và mạng truy cập Internet là một phần trong

hệ thống cơ sở dữ liệu phân tán mà luận văn đề cập

Các đơn vị giáo dục THPT nối Trung tâm công nghệ thông tin của Sở qua hệ thống mạng Trước đây, việc truyền dữ liệu thực hiện thủ công; nay được chuyển qua hệ thống số hóa, trên mạng máy tính và mạng Internet

Tập đoàn bưu chính viễn thông tại Thái Nguyên, VNPT Thái Nguyên,

đã có nhiều dịch vụ cho các ngành kinh tế khác Chẳng hạn VNPT cung cấp dịch vụ MegaWAN

1.7.3.2 Về dịch vụ MegaWAN Thái Nguyên

MegaWAN là dịch vụ kết nối mạng máy tính tại nhiều điểm cố định khác nhau trên diện rộng của các tổ chức, doanh nghiệp Đây là mạng riêng

ảo kết nối mạng riêng nội hạt, liên tỉnh, quốc tế để truyền số liệu, truyền dữ liệu thông tin rất tiện lợi và đáng tin cậy cho doanh nghiệp trong kinh doanh

Trang 32

nhiều điểm giao dịch cần phải kết nối truyền dữ liệu như: Ngân hàng, Bảo hiểm, Hàng không, Cty chứng khoán

MegaWan kết nối các mạng máy tính trong nước và quốc tế bằng đường dây thuê bao SHDSL (công nghệ đường dây thuê bao số đối xứng) hoặc ADSL (công nghệ đường dây thuê bao số bất đối xứng) kết hợp với công nghệ MPLS/VPN

Chuyển mạch nhãn đa giao thức MPLS thay đổi các thiết bị lớp 2 trong mạng như các thiết bị chuyển mạch ATM thành các Bộ định tuyến chuyển mạch nhãn LSR (label-switching router) LSR có thể được xem như một sự kết hợp giữa hệ thống chuyển mạch ATM với các bộ định tuyến truyền thống

1.7.3.3 Đặc tính kĩ thuật

Dịch vụ MegaWAN đáp ứng kết nối các mạng máy tính của khách hàng thông qua Modem, bộ định tuyến với tốc độ từ 64 kbps - 2Mbps, tối đa cho phép là 2.3 Mbps theo công nghệ SHDSL

Tốc độ cổng thực tế phụ thuộc vào yêu cầu của khách hàng và chất lượng đường truyền của đường dây thuê bao xDSL được xác định trong quá trình khảo sát, lắp đặt

 Mega WAN cung cấp cho khách hàng 2 khả năng kết nối các mạng máy tính thông qua cáp truyền dẫn đến nhà khách hàng;

 Sử dụng công nghệ đường dây thuê bao đối xứng SHDSL, đáp ứng tốc độ từ 64 kbps - 2, 3 Mbps

 Công nghệ đường dây thuê bao bất đối xứng ADSL, trên lý thuyết lớn nhất có thể là 8Mbps/640 kbps

 Khách hàng đăng ký sử dụng dịch vụ MegaWAN được cung cấp dịch vụ truy nhập Internet đồng thời trên đường dây thuê bao số

Trang 33

phụ thuộc vào tốc độ lớn nhất mà đường dây xDSL thực tế có thể cung cấp và tốc độ MegaWAN mà khách hàng đã yêu cầu

1.7.3.4 Ích lợi đối với ư ́ ng dụng giáo dục

 Kết nối đơn giản với chi phí thấp

 Mềm dẻo, linh hoạt: có thể vừa kết nối mạng riêng ảo vừa truy cập Internet (nếu khách hàng có nhu cầu)

 Cung cấp cho khách hàng các kênh thuê riêng ảo có độ tin cậy cao

Đối với những nơi chưa phát triển tuyến cáp quang thì sử dụng Mega-WAN là giải pháp hiệu quả nhất cho các doanh nghiệp có nhiều trụ sở trú đóng tại nhiều khu vực khác nhau

 Xem phim theo yêu cầu (Video on Demand)

 Hội nghị truyền hình (Video Conferencing)

 Đào tạo/học từ xa qua mạng (Tele learning)

Nhìn tổng thể, cơ sở dữ liệu phân tán liên quan đến luận văn trình bày

có hình dạng như nêu trong hình sau

Trang 34

Máy chủ xử lí dữ liệu tại Sở GDDT Thái Nguyên

Cơ sở dữ liệu tuyển sinh THPT

Máy trạm, tại trường THPT Lương Phú, quản lý và truy cập thông tin tuyển sinh theo kiến trúc khách / chủ

Máy trạm, tại trường THPT chuyên

Máy trạm, tại trường dân tộc nội trú

Hình 1.11 Cơ sở dữ liệu tập trung

Phương án sử du ̣ng cơ sở dữ liệu tập trung, với kho dữ liệu đặt tại Sở

đã được sử du ̣ng nhiều năm, cũng có nhiều ưu điểm Tuy nhiên nó bộc lộ các nhược điểm, trước tình hình và trình độ ứng du ̣ng công nghệ thông tin tại các trường THPT

Các trường có yêu cầu về:

1 Tự các trường thu thập dữ liệu về công tác tuyển sinh Mỗi trường đều có đặc thù Chẳng hạn trường THPT chuyên có yêu cầu khác với trường bình thường; trường dân tộc nội trú đặt ra các chỉ tiêu khác với các trường khác; trường THPT Lương Phú có đặc tính liên quan đến dân tộc và địa lí khác với trường THPT Đồng Hỷ…;

2 Các trường muốn tự xử lí dữ liệu liên quan đến đặc tính của riêng mình;

3 Trung tâm công nghệ thông tin tại Sở chứa tất cả những dữ liệu mà các trường lưu trữ, và quản trị chung về cơ sở dữ liệu phân tán

Trang 35

Máy chủ cơ sở dữ liệu phân tán tại Sở GDDT Thái Nguyên, chức năng quản trị chung

Cơ sở dữ liệu :

-R1,… Rn dữ liệu về các trường : Lương Phú, Đồng Hỷ, Đại từ…

- Dữ liệu C1 : dữ liệu về thí sinh dự thi chuyên

- Dữ liệu D1 : dữ liệu về thí sinh dự thi dân tộc nội trú

- Dữ liệu K : liên quan đến khu công nghiệp

Máy THPT Lương Phú, lưu trữ và xử lí dữ liệu cục bộ

Máy THPT chuyên, lưu trữ

và xử lí dữ liệu cục bộ

Máy Dân tộc nội trú, lưu trữ và

xử lí dữ liệu cục bộ

Máy THPT Sông Công, lưu trữ và

xử lí dữ liệu cục bộ

Dữ liệu về các trường bình thường R1,…, Rn

Dữ liệu về thí sinh chuyên C1

Dữ liệu về thí sinh dân tộc D1

Dữ liệu về các trường công nghiệp K

1.8 Kết luận chương

Qua chương này luận văn trình bày khung nhìn tổng quát hơn về hệ thống cơ sở dữ liệu phân tán Từ đó để người đọc có thể hình dung được và dễ dàng so sánh hệ thống cơ sở dữ liệu tập trung và phân tán Dễ dàng hơn trong việc lựa chọn sử dụng mô hình nào tốt trong ứng dụng của mình

Chương 1 của luận văn đã nêu hiện trạng về xử lí dữ liệu, tổ chức cơ sở

dữ liệu tập trung và phân tán tại Thái Nguyên, rồi cho thấy nhu cầu của phân tích, thiết kế, xây dựng cơ sở dữ liệu phân tán, đáp ứng nhu cầu xử lí dữ liệu

về công tác tuyển sinh học sinh THPT tại Thái Nguyên

Trang 36

Chương 2

CƠ SỞ LÍ THUYẾT LIÊN QUAN

2.1 Phân đoạn dữ liệu

Theo [1, 2, 5], phân đoạn trong cơ sở dữ liệu phân tán được quan tâm theo (i) phân đoạn ngang; (ii) phân đoạn dọc; và (iii) phân đoạn hỗn hợp Chủ

đề thứ ba ứng với việc phân đoạn cả dọc lẫn ngang

Nói trong mô hình dữ liệu quan hệ, phân đoạn ngang cho phép tách các bảng dữ liệu thành các bảng dữ liệu nhỏ hơn, không thay đổi lược đồ dữ liệu

Mỗi quan hệ nhỏ ứng với tập con của các dòng dữ liệu Việc khôi phục bảng

dữ liệu ban đầu được thực hiện nhờ phép hợp của đại số quan hệ

2.1.1 Giới thiệu

Phân đoạn là kỹ thuật quan trọng trong cơ sở dữ liệu phân tán Nó quyết định tính sẵn sàng và hiệu suất truy vấn của cơ sở dữ liệu phân tán Các phần dưới đây sẽ dùng cơ sở dữ liệu quan hệ để minh họa cách phân đoạn dữ liệu

Hình 2.1 Minh họa về sự phân đoạn trên ổ đĩa

Trang 37

Phân hoạch cơ sở dữ liệu thành các mảnh (fragments): sự phân đoạn cho phép phân chia một đối tượng đơn lẻ thành hai hay nhiều mảnh Việc chia quan hệ tổng thể thành các mảnh có thể thực hiện bằng cách áp dụng các kiểu phân đoạn sau:

 Phân đoạn ngang;

 Phân đoạn dọc;

 Phân đoạn hỗn hợp: là sự kết hợp giữa phân đoạn ngang và phân đoạn dọc

2.1.2 Nhu cầu phân đoạn dữ liệu

Trong thiết kế cơ sở dữ liệu phân tán, việc phân đoạn dữ liệu là vô cùng quan trọng vì các lý do sau đây:

Dữ liệu được lưu theo dạng bảng hai chiều, chiều ngang và chiều dọc, các thao tác trên cơ sở dữ liệu thực chất là thao tác trên các bảng dữ liệu Nếu không phân đoạn dữ liệu, các truy vấn và xử lý sẽ phải quét toàn bộ dữ liệu trên bảng để đưa ra được một kết quả đúng Nếu dữ liệu bảng rất lớn thì việc

xử lý và truy vấn sẽ rất lâu

Hình 2.2 Phân đoạn dữ liệu

Việc phân đoạn dữ liệu giúp cho quá trình truy vấn và xử lý dữ liệu

Trang 38

được xử lý như một đơn vị dữ liệu Sẽ cho phép thực hiện các giao dịch đồng thời Các xử lý không phải quét toàn bộ dữ liệu của bảng mà chỉ cần quét trên các mảnh dữ liệu đúng với điều kiện truy vấn Đồng thời việc phân đoạn các quan hệ cũng cho phép thực hiện song song một câu truy vấn bằng cách chia

nó thành một tập các truy vấn con thực hiện trên các mảnh Vì vậy việc phân đoạn sẽ làm tăng mức hoạt động đồng thời và tăng lưu lượng hoạt động của

hệ thống

Tuy nhiên việc phân đoạn dữ liệu không được tối ưu hoàn toàn mà nó

có một số hạn chế như sau:

1 Nếu ứng dụng có các khung nhìn được định nghĩa trên nhiều mảnh

dữ liệu khác nhau sẽ làm giảm hiệu suất hoạt động của hệ thống, làm tăng truy xuất dữ liệu đến các mảnh và tăng chi phí kết nối các mảnh

2 Việc kiểm soát ngữ nghĩa và tính toàn vẹn sẽ khó khăn hơn

2.1.3 Các điều kiện ràng buộc trong thiết kế phân đoạn

Một phương pháp thiết kế phân đoạn đúng đắn phải thoải mãn ba ràng buộc sau:

 Tính đầy đủ: Toàn bộ dữ liệu của quan hệ tổng thể phải được ánh xạ vào các phân đoạn quan hệ và ngược lại Điều này có nghĩa là, không tồn tại một mục dữ liệu nào thuộc vào quan hệ tổng thể mà không thuộc vào bất kỳ một phân đoạn nào

 Xây dựng lại: Quan hệ tổng thể có thể được xây dựng lại từ các phân đoạn mà nó đã tách ra Điều kiện này là hiển nhiên, bởi vì trong thực tế chỉ có các phân đoạn được lưu trữ trong CSDL phân tán, và quan hệ tổng thể phải được xây dựng lại thông qua các phân đoạn khi cần thiết

Trang 39

 Tính rời nhau: các phân đoạn được tách ra từ quan hệ tổng thể phải

là rời nhau Tuy nhiên, điều kiện này chỉ áp dụng chính vào việc phân đoạn ngang, trong khi việc phân đoạn dọc nhiều khi vẫn được phép vi phạm điều kiện này

2.2 Phân đoạn ngang

Theo [2, 5], phân đoạn ngang cho phép tách quan hệ tổng thể R thành các tập con R1, Rp, …, Rn Mỗi tập con chứa một số n-bộ của R, điều này rất hữu ích trong CSDL phân tán, nơi mỗi tập con bao gồm các dữ liệu có các thuộc tính địa lý chung Mỗi n-bộ thuộc vào một trong các thành phần để có thể khôi phục được quan hệ tổng thể R khi cần thiết Việc khôi phục quan hệ

R được thực hiện bằng phép hợp các quan hệ: RR1 R2 R3 R n

2.3 Phân đoạn dọc

2.3.1 Giới thiệu

Theo [1, 2, 5], phân đoạn dọc một quan hệ tổng thể là việc chia các thuộc tính của nó thành các nhóm Điều này là hữu ích trong các CSDL phân tán, khi mà mỗi nhóm các thuộc tính có thể chứa dữ liệu có chung những thuộc tính địa lý

Việc phân đoạn là đúng đắn nếu như mỗi thuộc tính của quan hệ tổng thể được ánh xạ thành thuộc tính của ít nhất một đoạn con, và phải đảm bảo điều kiện là quan hệ tổng thể được xây dựng lại từ các phân đoạn mà nó chia

ra bằng các phép kết nối

Phân rã theo chiều dọc quan hệ tổng thể R thành các quan hệ Ri: Ri = chiếu của quan hệ R trên các thuộc tính Ai, …, Aj Quan hệ ban đầu được khôi phục nhờ các phép kết nối tự nhiên

Bài toán được phát biểu trong mô hình dữ liệu quan hê ̣ Giả sử có cơ sở

Trang 40

Sau phân đoạn dọc, cơ sở dữ liệu mới sẽ gồm nhiều bảng dữ liệu nhỏ, ứng với các Ri

Bài toán phân đoạn dọc được phát biểu trong bài năm 1984 [10]

Tuy nhiên việc phân đoạn đối với Ri là như nhau với mọi i, nên có thể xét bài toán rút gọn, tức phân đoạn dọc với quan hê ̣ R

Theo [10], giả sử có quan hệ R(A1, …, An), phân đoạn dọc yêu cầu tách

R thành các Rj, chẳng hạn R(A1, …, A8) được tách ra R1 (A1, …, A4), Rp (A5,

…, A8), tức tách theo các thuộc tính của bảng quan hệ Điều kiện của việc tách phải là (i) khôi phục được bảng R ban đầu, mà không mất thông tin; (ii) đáp ứng nhu cầu truy cập R của các quá trình trong hệ thống cơ sở dữ liệu, tức đáp ứng các nhu cầu truy cập của các giao tác Tp đến các thuộc tính, hay cột,

Ai

Hình 2.3 Minh họa tách bảng

Khi có thuộc tính khóa trong bảng, thuộc tính này cần nằm trong các quan hệ nhỏ, để bảo đảm khôi phục bảng quan hê ̣ ban đầu, mà không mất thông tin, nhờ phép nối của đại số quan hệ

2.3.2 Quá trình phân đoạn

Phân đoạn bảng quan hê ̣ thuộc quá trình thiết kế cơ sở dữ liệu Bắt đầu

từ bảng dữ liệu phổ quát, ngườ i ta tách ra các bảng quan hê ̣ nhỏ Yêu cầu không mất thông tin

Ngày đăng: 20/12/2022, 19:40

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1]. Đỗ Trung Tuấn, Cơ sở dữ liệu nâng cao, NXB. Đại học Quốc gia Hà Nội, 2015 Sách, tạp chí
Tiêu đề: Cơ sở dữ liệu nâng cao
Tác giả: Đỗ Trung Tuấn
Nhà XB: NXB. Đại học Quốc gia Hà Nội
Năm: 2015
[2]. Phạm Thế Quế, “Giáo trình Cơ sở dữ liệu: Lý thuyết và thực hành”, Nhà xuất bản Bưu điện, Hà Nội, 2004 Sách, tạp chí
Tiêu đề: Giáo trình Cơ sở dữ liệu: Lý thuyết và thực hành
Tác giả: Phạm Thế Quế
Nhà XB: Nhà xuất bản Bưu điện
Năm: 2004
[4]. Website Sở GD-ĐT Thái Nguyên, http://thainguyen.edu.vn/ Tiếng Anh Sách, tạp chí
Tiêu đề: Tiếng Anh
Tác giả: Website Sở GD-ĐT Thái Nguyên
[5]. Abram Siberschatz, Henry F.Korth, S.Sudarshan “Database Systems Concepts”, Published by McGaw-Hill/ Irwin, New York, 2002 Sách, tạp chí
Tiêu đề: Database Systems Concepts
Tác giả: Abram Siberschatz, Henry F.Korth, S.Sudarshan
Nhà XB: McGaw-Hill/ Irwin, New York
Năm: 2002
[6]. Angelo R. Bobak, Distributed and Multi-Database Systems, Ed. Artech House, 1998 Sách, tạp chí
Tiêu đề: Distributed and Multi-Database Systems
Tác giả: Angelo R. Bobak
Nhà XB: Artech House
Năm: 1998
[7]. Donald Knuth, The Art of Computer Programming Volumes 1, 2, 3, NXB. Addison Wesley, 1968 Sách, tạp chí
Tiêu đề: The Art of Computer Programming Volumes 1, 2, 3
Tác giả: Donald Knuth
Nhà XB: Addison Wesley
Năm: 1968
[8]. M. Tamer Ozsu And Patricle Valduriez, “Principles of Distributed Database Systems”, Second Edition, Prentive Hall Upper Saddle River, New Jersy, 1999 Sách, tạp chí
Tiêu đề: Principles of Distributed Database Systems
Tác giả: M. Tamer Ozsu, Patricle Valduriez
Nhà XB: Prentice Hall
Năm: 1999
[9]. Michanel V.Mannino, “Database Application Development & Design”, Published by McGraw-Hill/ Irwin, New York, 2001 Sách, tạp chí
Tiêu đề: Database Application Development & Design
Tác giả: Michanel V.Mannino
Nhà XB: McGraw-Hill/ Irwin
Năm: 2001
[3]. Website Cổng thông tin điện tử tỉnh Thái Nguyên, http://www.thainguyen.gov.vn/wps/portal/vb1 Link
[10]. W. T. McCormick Jr., P. J. Schweitzer, T. W. White, Problem Decoposition and Data Reorganization by a Clustering technique Khác

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm