Trong suốt quá trình học tập và thực hiện đề tài “Phân tích, thiết kế và cài đặt cơ sở dữ liệu phân tán cho hệ thống quản lý đội bóng”, Thầy đã tận tình hướng dẫn, cung cấp tài liệu tham
Trang 1TRƯỜNG ĐẠI HỌC NGOẠI NGỮ - TIN HỌC
THÀNH PHỐ HỒ CHÍ MINH KHOA NGOẠI NGỮ
🙡🙡🙡
BÀI BÁO CÁO KẾT THÚC HỌC PHẦN
CỞ SỞ DỮ LIỆU PHÂN TÁN
HK 1 2025 – 2026 PHÂN TÍCH, THIẾT KẾ VÀ CÀI
ĐẶT CSDL PHÂN TÁN CHO HỆ THỐNG
QUẢN LÝ GIẢI ĐẤU BÓNG ĐÁ
Giảng viên hướng dẫn: ThS Phạm Đức Thành
Sinh viên thực hiện:
1.Trần Văn Tú 23DH114680 2.Trần Chí Vĩ 23DH114701
3.Nguyễn Thanh Hồ 23DH111147
Thành phố Hồ Chí Minh, tháng 12 năm 2025
Trang 2LỜI CẢM ƠN
Để hoàn thành được bài báo cáo này, chúng em xin bày tỏ lòng biết ơn sâu sắc đến Thầy Phạm Đức Thành, giảng viên môn Cơ sở dữ liệu phân tán tại Trường Đại học Ngoại ngữ - Tin học TP Hồ Chí Minh Trong suốt quá trình học tập và thực hiện đề tài “Phân tích, thiết kế và cài đặt cơ sở dữ liệu phân tán cho hệ thống quản
lý đội bóng”, Thầy đã tận tình hướng dẫn, cung cấp tài liệu tham khảo, và luôn sẵn sàng giải đáp những thắc mắc của chúng em Sự tận tâm, nhiệt huyết và tinh thần trách nhiệm của Thầy là nguồn động lực to lớn giúp chúng em hoàn thành tốt bài báo cáo này
Chúng em cũng xin gửi lời cảm ơn chân thành đến Ban Giám hiệu cùng Khoa Công nghệ Thông tin của Trường Đại học Ngoại ngữ - Tin học TP Hồ Chí Minh đã tạo điều kiện thuận lợi cho chúng em được học tập trong một môi trường hiện đại, năng động và sáng tạo Với chương trình học thiết thực cùng sự hỗ trợ của nhà trường, chúng em đã có cơ hội phát triển kiến thức chuyên môn cũng như kỹ năng ứng dụng công nghệ thông tin vào thực tế
Chúng em nhận thấy rằng, việc thực hiện đề tài này không chỉ là một bài tập học phần mà còn là một trải nghiệm quý báu giúp chúng em hiểu rõ hơn về quy trình làm việc của một dự án thực tế
Bên cạnh đó, việc ứng dụng lý thuyết vào mô hình “quản lý đội bóng” cũng giúp chúng em nhận ra vai trò của cơ sở dữ liệu trong việc hỗ trợ ra quyết định và quản lý thông tin hiệu quả trong các tổ chức
Mặc dù đã nỗ lực hoàn thành bài báo cáo một cách tốt nhất, tuy nhiên do kiến thức và kinh nghiệm thực tế còn hạn chế, bài làm của chúng em khó tránh khỏi những thiếu sót Chúng em rất mong nhận được sự góp ý quý báu của Thầy để bài báo cáo được hoàn thiện hơn trong tương lai
Một lần nữa, chúng em xin chân thành cảm ơn và kính chúc Thầy Phạm Đức Thành cùng toàn thể quý Thầy, Cô trong khoa luôn mạnh khỏe, hạnh phúc và thành công trong sự nghiệp giảng dạy và nghiên cứu
Trang 3Trân trọng.
MỤC LỤC
MỤC LỤC 3
CHƯƠNG 1: GIỚI THIỆU 4
1.1 Lý do chọn đề tài 4
1.2 Mục tiêu ứng dụng 4
1.3 Phạm vi nghiên cứu / ứng dụng 5
1.4 Cấu trúc báo cáo 6
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 7
2.1 Tổng quan về Cơ sở dữ liệu (CSDL) Phân tán 7
2.2 Các mức trong suốt trong phân tán 8
2.3: Thiết kế CSDLPT - Quản lý giao dịch 10
2.4 Xử lý truy vấn trong cơ sở dữ liệu phân tán 13
Trang 4CHƯƠNG 1: GIỚI THIỆU 1.1 Lý do chọn đề tài
Trong bối cảnh chuyển đổi số mạnh mẽ hiện nay, dữ liệu đóng vai trò trung tâm trong mọi hoạt động của tổ chức, doanh nghiệp và cơ quan nhà nước Khi khối lượng
dữ liệu ngày càng lớn và được phân bố tại nhiều vị trí khác nhau, việc thiết kế và triển khai các hệ thống cơ sở dữ liệu phân tán trở thành xu thế tất yếu Cơ sở dữ liệu phân tán cho phép dữ liệu được lưu trữ tại nhiều nút khác nhau nhưng vẫn đảm bảo khả năng truy cập thống nhất, minh bạch và an toàn Điều này giúp nâng cao hiệu quả xử
lý, giảm độ trễ truy vấn, đồng thời gia tăng tính sẵn sàng và khả năng chịu lỗi của hệ thống
Đề tài “Phân tích, thiết kế và cài đặt CSDL phân tán cho hệ thống quản lý giải đấu bóng đá” được lựa chọn nhằm giúp sinh viên vận dụng kiến thức lý thuyết về phân mảnh dữ liệu, ánh xạ, và tối ưu truy vấn trong môi trường phân tán vào một bài toán thực tiễn Thông qua việc thiết kế lược đồ toàn cục, định nghĩa các biểu thức phân mảnh và xây dựng ứng dụng thử nghiệm, sinh viên có cơ hội hiểu rõ hơn về cách
dữ liệu được tổ chức và truy xuất trong hệ thống phân tán Bài toán quản lý giải đấu bóng đá là ví dụ gần gũi, có cấu trúc dữ liệu rõ ràng với các thực thể như đội bóng, cầu thủ, trận đấu và tham gia, giúp dễ dàng triển khai và đánh giá kết quả
Ngoài ra, việc thực hiện đề tài còn giúp sinh viên rèn luyện kỹ năng làm việc nhóm, tư duy logic trong thiết kế hệ thống, khả năng lập trình, xử lý truy vấn và tối ưu hóa dữ liệu Đây là bước chuẩn bị quan trọng để sinh viên có thể tiếp cận các dự án lớn hơn trong thực tế, nơi mà dữ liệu được phân bố trên nhiều máy chủ hoặc khu vực địa lý khác nhau
1.2 Mục tiêu ứng dụng
Mục tiêu của đề tài được chia thành hai nhóm: mục tiêu tổng quát và mục tiêu cụ thể nhằm đảm bảo tính toàn diện trong quá trình nghiên cứu và triển khai
Mục tiêu tổng quát:
Trang 5Thiết kế, cài đặt và trình bày một hệ thống CSDL phân tán cho bài toán quản lý giải đấu bóng đá - thể hiện rõ các kỹ thuật phân mảnh, ánh xạ và truy vấn phân tán; đảm bảo tính minh bạch cho người dùng
Mục tiêu cụ thể:
1 Phân tích và thiết kế lược đồ toàn cục theo đề bài (doibong, cauthu, tranđau, thamgia) và xây dựng các biểu thức phân mảnh như yêu cầu:
doibong phân mảnh ngang theo CLB
cauthu phân mảnh ngang theo đội
tranđau phân mảnh ngang theo sân
thamgia phân mảnh theo trận
2 Xây dựng các biểu thức phân mảnh ngang cho từng bảng theo yêu cầu đề tài, đảm bảo các phân mảnh thỏa mãn các điều kiện: toàn vẹn, đầy đủ và không trùng lặp
dữ liệu
3 Triển khai môi trường mô phỏng các nút dữ liệu phân tán (site), có thể là nhiều cơ sở dữ liệu hoặc nhiều schema trên cùng hệ quản trị, nhằm chứng minh hoạt động của hệ thống khi dữ liệu được phân tán tại nhiều vị trí khác nhau
4 Xây dựng ứng dụng giao diện (form) cho phép người dùng thực hiện các thao tác thêm, sửa, xóa bản ghi; đồng thời thực thi các truy vấn đề bài với hai mức minh bạch: minh bạch phân mảnh và minh bạch vị trí
5 Thực hiện kiểm thử và đánh giá hệ thống thông qua việc thực thi truy vấn phân tán, so sánh kết quả và thời gian đáp ứng giữa các mức minh bạch, từ đó rút ra nhận xét và đề xuất hướng tối ưu
6 Viết báo cáo tổng hợp kết quả, đảm bảo nội dung trình bày rõ ràng, mạch lạc
và tuân thủ đúng yêu cầu về hình thức của môn học
1.3 Phạm vi nghiên cứu / ứng dụng
Do giới hạn về thời gian và phạm vi môn học, đề tài tập trung vào việc mô phỏng và chứng minh nguyên lý hoạt động của cơ sở dữ liệu phân tán thay vì triển khai trên hệ thống thực tế
Trang 6 Phạm vi nghiên cứu bao gồm:
– Áp dụng lược đồ toàn cục và các bài toán truy vấn đúng theo mô tả của phân tích, thiết kế và cái đặt CSDL phân tán cho hệ thống quản lý giải đấu bóng đá, bao gồm các bảng doibong, cauthu, trandau và thamgia, cùng những truy vấn mẫu theo yêu cầu đề tài
– Thiết lập các biểu thức phân mảnh ngang dựa trên tiêu chí câu lạc bộ, đội bóng, sân đấu và mã trận; thực hiện mô phỏng lưu trữ các phân mảnh trên nhiều site khác nhau để kiểm chứng khả năng truy cập phân tán
– Xây dựng ứng dụng mô phỏng giao diện người dùng, cung cấp các chức năng CRUD và truy vấn dữ liệu, đồng thời thể hiện rõ sự khác biệt giữa hai mức minh bạch (fragmentation transparency và location transparency)
Giới hạn của đề tài:
– Không triển khai hệ thống phân tán trên nhiều máy vật lý hoặc môi trường mạng thực tế; các site được mô phỏng trong cùng máy chủ hoặc trên nhiều cơ sở dữ liệu cục bộ
– Không tập trung vào các vấn đề phức tạp như bảo mật, đồng bộ hóa, phục hồi lỗi hoặc cân bằng tải giữa các site; thay vào đó, tập trung vào phần thiết kế, phân mảnh và truy vấn dữ liệu
– Không mở rộng sang phần giao diện web hoặc tích hợp dịch vụ ngoài; ứng dụng chỉ cần đáp ứng được yêu cầu minh họa các thao tác và truy vấn trong môi trường demo
1.4 Cấu trúc báo cáo
Báo cáo được trình bày theo cấu trúc tiêu chuẩn của môn học, đảm bảo tính logic
và khoa học trong trình bày, bao gồm các phần sau:
• CHƯƠNG 1: Giới thiệu — Trình bày lý do chọn đề tài, mục tiêu, phạm vi và cấu trúc của báo cáo
• CHƯƠNG 2: Tổng quan về cơ sở dữ liệu phân tán — Trình bày cơ sở lý thuyết, khái niệm phân mảnh, minh bạch dữ liệu và các kỹ thuật phân bố dữ liệu
Trang 7• CHƯƠNG 3: Phân tích và thiết kế hệ thống — Mô tả chi tiết lược đồ toàn cục, các biểu thức phân mảnh, sơ đồ phân bố dữ liệu và ánh xạ giữa các site
• CHƯƠNG 4: Triển khai và xây dựng ứng dụng — Trình bày các bước cài đặt
cơ sở dữ liệu, dữ liệu mẫu, cùng phần giao diện ứng dụng và thao tác người dùng
• CHƯƠNG 5: Kết quả và đánh giá — Trình bày kết quả kiểm thử, đánh giá mức độ minh bạch và hiệu quả của truy vấn phân tán
• CHƯƠNG 6: Kết luận và hướng phát triển — Tổng kết kết quả đạt được, rút
ra bài học kinh nghiệm và đề xuất hướng nghiên cứu mở rộng trong tương lai
Trang 8CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 2.1 Tổng quan về Cơ sở dữ liệu (CSDL) Phân tán
Cơ sở dữ liệu phân tán (Distributed Database – DDB) là một tập hợp các cơ sở
dữ liệu có mối liên hệ logic với nhau nhưng được phân bố tại nhiều vị trí địa lý khác nhau, kết nối thông qua một hệ thống mạng máy tính Mỗi trạm trong hệ thống có khả năng lưu trữ, xử lý dữ liệu và giao tiếp với các trạm khác để đảm bảo tính thống nhất của toàn hệ thống
Khác với cơ sở dữ liệu tập trung, nơi toàn bộ dữ liệu được lưu trữ tại một máy chủ duy nhất, cơ sở dữ liệu phân tán cho phép dữ liệu được lưu trữ tại nhiều vị trí khác nhau, giúp tăng khả năng mở rộng, nâng cao hiệu năng truy cập và tính sẵn sàng của
hệ thống Đồng thời, CSDL phân tán cũng khác với hệ thống xử lý phân tán, vì trong CSDL phân tán, dữ liệu vẫn được quản lý thống nhất và nhất quán thông qua một hệ quản trị cơ sở dữ liệu phân tán (DDBMS)
Các thành phần của một hệ cơ sở dữ liệu phân tán:
Phần cứng (Hardware): Bao gồm nhiều máy tính (site hoặc node) được kết nối với nhau thông qua mạng máy tính Mỗi site có thể hoạt động độc lập nhưng vẫn liên kết logic trong toàn hệ thống
Trang 9 Phần mềm (Software): Gồm hệ điều hành mạng và hệ quản trị cơ sở dữ liệu phân tán (DDBMS) – thành phần chịu trách nhiệm điều phối, lưu trữ, truy xuất, đồng bộ và đảm bảo tính nhất quán dữ liệu giữa các trạm
Dữ liệu (Data): Dữ liệu trong hệ thống được phân mảnh (fragmented) và lưu trữ tại các trạm khác nhau tùy theo mục tiêu tối ưu hiệu năng, giảm tải hoặc tăng độ tin cậy
Mạng truyền thông (Communication Network): Là kênh kết nối giúp các trạm truyền tải dữ liệu, truy vấn và thông tin điều khiển một cách nhanh chóng và chính xác
Các mô hình kiến trúc của hệ cơ sở dữ liệu phân tán:
- Mô hình Client–Server: Là mô hình phổ biến nhất, trong đó các máy khách (client) gửi yêu cầu truy vấn hoặc cập nhật dữ liệu đến máy chủ (server), nơi lưu trữ
và xử lý chính dữ liệu Mô hình này dễ triển khai, dễ bảo trì và phù hợp cho các ứng dụng có khối lượng dữ liệu tập trung lớn
- Mô hình Peer-to-Peer (Ngang hàng): Trong mô hình này, mỗi trạm (node) vừa đóng vai trò là client vừa là server Các trạm có thể chia sẻ và truy cập tài nguyên
Trang 10của nhau một cách linh hoạt Ưu điểm là tăng khả năng chịu lỗi và mở rộng hệ thống, tuy nhiên việc đồng bộ dữ liệu và duy trì nhất quán phức tạp hơn
- Mô hình Multi-Database (Đa cơ sở dữ liệu): Là mô hình trong đó nhiều hệ CSDL độc lập, có thể khác nhau về hệ quản trị hoặc cấu trúc dữ liệu (heterogeneous databases), được tích hợp lại để tạo thành một hệ thống thống nhất Mô hình này cho phép các tổ chức kết hợp nhiều nguồn dữ liệu sẵn có mà không cần hợp nhất vật lý
2.2 Các mức trong suốt trong phân tán
Một trong những mục tiêu quan trọng nhất của hệ cơ sở dữ liệu phân tán là che giấu sự phân tán dữ liệu đối với người dùng, giúp họ làm việc với hệ thống như thể đang thao tác trên một cơ sở dữ liệu tập trung duy nhất
Đặc điểm này được gọi là tính trong suốt (Transparency) Nhờ tính trong suốt, người dùng không cần quan tâm dữ liệu được lưu ở đâu, phân mảnh thế nào, hay xử lý
ra sao – tất cả được hệ quản trị cơ sở dữ liệu phân tán (DDBMS) đảm nhiệm
* Định nghĩa tính trong suốt (Transparency):
- Tính trong suốt trong cơ sở dữ liệu phân tán là khả năng che giấu sự phức tạp của việc phân tán dữ liệu, giúp người dùng cuối, lập trình viên hoặc các ứng dụng truy cập dữ liệu như thể toàn bộ dữ liệu nằm trên một vị trí duy nhất
- Mục tiêu của nó là đảm bảo rằng mọi thao tác truy vấn, cập nhật, hoặc giao dịch đều có thể thực hiện thống nhất mà không cần quan tâm đến vị trí vật lý của dữ liệu
- Nói cách khác, nhờ tính trong suốt, người dùng làm việc với khái niệm logic của dữ liệu, còn DDBMS chịu trách nhiệm tìm kiếm, kết nối và xử lý dữ liệu ở các vị trí khác nhau trong hệ thống mạng
Trang 11* Trong suốt phân mảnh (Fragmentation Transparency)
- Trong suốt phân mảnh là mức độ che giấu việc dữ liệu trong hệ thống được chia nhỏ và phân tán thành nhiều phần (fragment) tại các trạm khác nhau
- Trong thực tế, dữ liệu có thể được phân mảnh ngang, phân mảnh dọc, hoặc phân mảnh hỗn hợp, tùy theo cấu trúc bảng và yêu cầu truy cập
Khái niệm: Người dùng không cần biết dữ liệu được chia thành bao nhiêu phần hay nằm ở trạm nào; họ chỉ thao tác trên bảng logic toàn cục (global table) như thể dữ liệu không bị chia cắt
Lợi ích: Tính trong suốt phân mảnh giúp đơn giản hóa quá trình truy vấn, đồng thời cho phép quản trị viên tối ưu hóa việc lưu trữ và xử lý dữ liệu
mà không ảnh hưởng đến người dùng hoặc ứng dụng
Ví dụ: Bảng DOIBONG có thể được chia làm hai phần theo giá trị của thuộc tính CLB (“CLB1” và “CLB2”) và lưu tại hai trạm khác nhau, nhưng người dùng vẫn
có thể thực hiện truy vấn trên DOIBONG như bình thường mà không cần biết dữ liệu nằm ở đâu
* Trong suốt vị trí (Location Transparency)
- Trong suốt vị trí là khả năng cho phép người dùng không cần biết dữ liệu thực
tế được lưu trữ tại trạm nào trong mạng Khi người dùng gửi một truy vấn, hệ thống DDBMS sẽ tự động xác định vị trí của các mảnh dữ liệu cần thiết, truy xuất chúng, và hợp nhất kết quả trả về
Khái niệm: Người dùng chỉ cần biết tên logic của bảng hoặc quan hệ, không cần biết địa chỉ vật lý của nó
Trang 12 Lợi ích: Tính trong suốt vị trí cho phép di chuyển dữ liệu giữa các trạm
mà không làm ảnh hưởng đến các ứng dụng đang sử dụng Điều này hỗ trợ việc cân bằng tải, sao lưu, bảo trì hệ thống, và đặc biệt hữu ích khi mở rộng quy mô cơ sở dữ liệu
Ví dụ: Bảng TRANDAU có thể được lưu tại hai trạm khác nhau tương ứng với hai sân đấu “SD1” và “SD2” Khi người dùng truy vấn danh sách các trận đấu, hệ thống sẽ tự động lấy dữ liệu từ cả hai trạm và trả về kết quả thống nhất, mà không yêu cầu người dùng biết vị trí cụ thể của từng mảnh dữ liệu
* Vai trò của tính trong suốt trong hệ thống quản lý giải đấu bóng đá
- Trong phạm vi đề tài “Phân tích, thiết kế và cài đặt CSDL phân tán cho hệ thống quản lý giải đấu bóng đá”, việc áp dụng các mức trong suốt giúp cho hệ thống:
Người quản lý có thể truy vấn dữ liệu cầu thủ, đội bóng và trận đấu một cách thống nhất, dù dữ liệu thực tế được lưu tại các trạm khác nhau (ví
dụ, mỗi sân vận động là một trạm dữ liệu riêng)
Các thao tác thống kê, thêm, xóa, sửa dữ liệu đều được xử lý như trên một
cơ sở dữ liệu duy nhất, đảm bảo sự thuận tiện và tính nhất quán cao
Khi cần mở rộng hệ thống (thêm trạm hoặc chuyển dữ liệu sang máy khác), ứng dụng vẫn hoạt động bình thường mà không cần thay đổi mã nguồn hay cấu trúc truy vấn
2.3: Thiết kế CSDLPT - Quản lý giao dịch
Trong một hệ cơ sở dữ liệu tập trung, các giao dịch được xử lý trên một máy chủ duy nhất, nên việc đảm bảo tính toàn vẹn dữ liệu thường khá đơn giản
Tuy nhiên, trong môi trường cơ sở dữ liệu phân tán (CSDLPT), dữ liệu được lưu trữ và xử lý trên nhiều trạm khác nhau, khiến việc đảm bảo tính chính xác, nhất quán
và an toàn của các giao dịch trở nên phức tạp hơn
Vì vậy, quản lý giao dịch trong CSDL phân tán là một thành phần quan trọng giúp hệ thống hoạt động tin cậy và đảm bảo tính toàn vẹn dữ liệu trên toàn mạng