ỨNG DỤNG CƠ SỞ DỮ LIỆU PHÂN TÁN TRONG HỆ THỐNG QUẢN LÍ BẢO HIỂM NHÂN THỌ Ngành Công nghệ thông tin NGƯỜI HƯỚNG DẪN 1. Th.S Nguyễn Văn Thẩm HÀ NỘI, 2021 TÊN ĐỀ TÀI: Ứng dụng mô hình cơ sở dữ liệu phân tán trong hệ thống quản lí bảo hiểm nhân thọ Sinh viên thực hiện: Lớp: 58 TH3 Giáo viên hướng dẫn: Nguyễn Văn Thẩm TÓM TẮT ĐỀ TÀI 1. Bài toán cần giải quyết Ngày nay, ngày càng có nhiều các mô hình hệ thống bảo hiểm nhân thọ nhiều cơ sở do nhu cầu mua bảo hiểm của người tiêu dùng, nhu cầu mở rộng của các nhà kinh doanh nên cần có một hệ thống phần mềm quản lý phù hợp cho mô hình đó. Bây giờ người ta cần một hệ thống để đồng bộ dữ liệu bảo hiểm nhân thọ của người dùng ở các cơ sở, các chi nhánh trong hệ thống bảo hiểm nhân thọ. Trang web của công ty bảo hiểm nhân thọ thiết kế sử dụng cơ sở dữ liệu phân tán cho một hệ thống các chi nhánh. Các chi nhánh con sẽ có một cơ sở dữ liệu nhỏ và mọi hoạt động của các cơ sở bảo hiểm sẽ được nhân viên và người quản lý của chi nhánh đó cập nhật vào cơ sở dữ liệu địa phương. Dữ liệu đó sẽ được tải lên một cơ sở dữ liệu tổng để lên các sao kê, báo cáo tài chính phục vụ cho các nhà quản lý nắm được tình hình kinh doanh của hệ thống cũng như điều phối hợp lý các chiến lược kinh doanh cho từng chi nhánh, vùng miền. Từ đó tăng hiệu quả quản lí bảo hiểm nhân thọ 2. Giải pháp công nghệ - Ứng dụng khả năng quản trị CSDL phân tán của SQL Server vào hệ thống - Hệ quản trị cơ sở dữ liệu: SQL Server - Công nghệ web: Java serlvet, JSF - Ngôn ngữ lập trình: + Java + HTML, CSS, JavaScript, … - Framework: Java/Spring framework, Hibernate,… - VMware Workstation CÁC MỤC TIÊU CHÍNH - Nghiên cứu tổng quan về CSDL phân tán, giải pháp đồng bộ hóa dữ liệu trên SQL Server - Tìm hiểu về cơ sở dữ liệu quản lí bảo hiểm nhân thọ - Tìm hiểu hệ điều hành Server - Xây dựng mô hình phân tán dữ liệu cho hệ thống quản lí bảo hiểm nhân thọ - Thiết kế website thử nghiệm mô hình Server- clients phân tán dữ liệu bảo hiểm nhân thọ. KẾT QUẢ DỰ KIẾN - Các báo cáo theo yêu cầu - Mô hình cơ sở dữ liệu phân tán quản lí bảo hiểm nhân thọ - Website đảm bảo các chức năng cơ bản cho việc quản lí bảo hiểm nhân thọ - Mô hình thực nghiệm: Server-Clients - Các tệp dữ liệu, các giao diện và báo cáo. LỜI CAM ĐOAN Tác giả xin cam đoan đây là Đồ án tốt nghiệp của bản thân tác giả. Các kết quả trong Đồ án tốt nghiệp này là trung thực, và không sao chép từ bất kỳ một nguồn nào và dưới bất kỳ hình thức nào.Việc tham khảo các nguồn tài liệu (nếu có) đã được thực hiện trích dẫn và ghi nguồn tài liệu tham khảo đúng quy định. Tác giả ĐATN/KLTN Chữ ký LỜI CẢM ƠN “Quá trình thực hiện luận văn tốt nghiệp là giai đoạn quan trọng nhất trong quãng đời mỗi sinh viên. Đồ án tốt nghiệp là tiền đề nhằm trang bị cho chúng em những kỹ năng nghiên cứu, những kiến thức quý báu trước khi lập nghiệp. Trước hết, em xin chân thành cảm ơn Thầy Nguyễn Văn Thẩm khoa Công Nghệ Thông Tin. Thầy đã tận tình chỉ dạy và trang bị cho em những kiến thức cần thiết trong suốt thời gian ngồi trên ghế giảng đường, Làm nền tảng cho em có thể hoàn thành được bài luận văn này. Em xin trân trọng cảm ơn thầy Nguyễn Văn Thẩm đã tận tình giúp đỡ, định hướng cách tư duy và cách làm việc khoa học. Đó là những góp ý hết sức quý báu không chỉ trong quá trình thực hiện luận văn này mà còn là hành trang tiếp bước cho em trong quá trình học tập và lập nghiệp sau này. Và cuối cùng, xin gửi lời cảm ơn đến gia đình, bạn bè, tập thể lớp 58TH3 khoa công nghệ thông tin, những người luôn sẵn sàng sẻ chia và giúp đỡ trong học tập và cuộc sống. Mong rằng, chúng ta sẽ mãi mãi gắn bó với nhau. Xin chúc những điều tốt đẹp nhất sẽ luôn đồng hành cùng mọi người. ”. Em xin chân thành cảm ơn! Chương 1. Cơ sở lí thuyết 1.1. Bài toán quản lí bảo hiểm nhân thọ Ngày nay, ngày càng có nhiều các mô hình hệ thống bảo hiểm nhân thọ nhiều cơ sở do nhu cầu mua bảo hiểm của người tiêu dùng, nhu cầu mở rộng của các nhà kinh doanh nên cần có một hệ thống phần mềm quản lý phù hợp cho mô hình đó. Bây giờ người ta cần một hệ thống để đồng bộ dữ liệu bảo hiểm nhân thọ của người dùng ở các cơ sở, các chi nhánh trong hệ thống bảo hiểm nhân thọ. Công ty Cổ phần Bảo hiểm nhân thọ Thu Thủy (TTSS) được thành lập theo Giấy phép của Bộ Tài chính và hoạt động theo Luật doanh nghiệp, Luật Kinh doanh bảo hiểm và các văn bản pháp luật có liên quan của Nhà nước. Đây là doanh nghiệp tư nhân tại Việt Nam hoạt động trong lĩnh vực bảo hiểm nhân thọ với sự hội tụ của các cổ đông là các tổ chức thương mại, tài chính Ngân hàng có tiềm năng và uy tín tại Việt Nam. TTSS luôn chú trọng việc nâng cao khả năng trình độ nghiệp vụ bảo hiểm toàn hệ thống, xây dựng, cải tiến và phát triển hệ thống sản phẩm bảo hiểm đa dạng, tạo sự khác biệt. Để tăng tốc độ xử lý thông tin trong hệ thống chúng ta phải nghĩ tới việc phân tán dữ liệu như thế nào trong hệ thống bởi nó quyết định rất lớn đến kết quả xử lí thông tin. Do vậy với cùng một hạ tầng mạng có tốc độ đường truyền như nhau nếu hệ thống đặt CSDL phân tán thành nhiều nơi thì quá trình thành nhiều nơi thì quá trình xử lí thông tin cho kết quả nhanh hơn quá trình xử lí thông tin mà hệ thống CSDL đặt ở 1 nơi. Trang web của công ty bảo hiểm nhân thọ thiết kế sử dụng cơ sở dữ liệu phân tán cho một hệ thống các chi nhánh. Các chi nhánh con sẽ có một cơ sở dữ liệu nhỏ và mọi hoạt động của các cơ sở bảo hiểm sẽ được nhân viên và người quản lý của chi nhánh đó cập nhật vào cơ sở dữ liệu địa phương. Dữ liệu đó sẽ được tải lên một cơ sở dữ liệu tổng để lên các sao kê, báo cáo tài chính phục vụ cho các nhà quản lý nắm được tình hình kinh doanh của hệ thống cũng như điều phối hợp lý các chiến lược kinh doanh cho từng chi nhánh, vùng miền. Từ đó tăng hiệu quả quản lí bảo hiểm nhân thọ 1.2. Thiết kế cơ sở dữ liệu phân tán quản lí bảo hiểm nhân thọ 1.2.1. Lí thuyết thiết kế cơ sở dữ liệu phân tán 1.2.1.1 Công việc thiết kế CSDL phân tán Hiện nay chưa có một kỹ thuật cụ thể nào nói một cách chi tiết việc thiết kế CSDLPT, tuy nhiên một cách tổng quát chúng ta có thể thiết kế CSDLPT theo các bước sau: Hình 3: Sơ đồ thiết kế CSDLPT Bước 1: Thiết kế lược đồ toàn cục - Thiết kế các quan hệ toàn cục - Mô tả toàn bộ dữ liệu sẽ được dùng trong hệ thống Bước 2: Thiết kế phân mảnh Phân chia quan hệ toàn cục thành các mảnh ngang, dọc hoặc hỗn hợp Bước 3: Thiết kế định vị mảnh - Xác định các mảnh được ánh xạ vào các hình ảnh vật lý như thế nào - Tạo các hình ảnh vật lý tại các trạm - Xác định việc nhân bản các mảnh - Các đoạn dữ liệu được đưa vào các vị trí lưu trữ thích hợp với yêu cầu hoạt động thực tế của hệ thống Bước 4: Thiết kế các CSDL vật lý cục bộ tại mỗi nơi Thiết kế cơ sở dữ liệu vật lý cho các quan hệ tại các trạm Các yêu cầu của ứng dụng khi thiết kế CSDLPT - Các yêu cầu của ứng dụng ảnh hưởng đến thiết kế các lược đồ vì các lược đồ phải có khả năng hỗ trợ ứng dụng một cách hiệu quả. - Khi thiết kế CSDL phân tán cần phải hiểu biết thật chính xác về các yêu cầu của ứng dụng, nhất là đối với: + các ứng dụng được thực hiện một cách thường xuyên + các ứng dụng cần phải được chạy một cách có hiệu quả - Cần quan tâm đến: + Nơi chạy ứng dụng (còn được gọi là nơi gốc của ứng dụng). + Tần suất chạy ứng dụng: số lần chạy trong một đơn vị thời gian. Nếu các ứng dụng được chạy tại nhiều nơi thì cần biết tần suất chạy của mỗi ứng dụng tại mỗi nơi. + Số lượng, loại và sự phân tán của các truy xuất trong mỗi ứng dụng đến mỗi đối tượng dữ liệu cần thiết. 1. Các mục tiêu thiết kế phân tán dữ liệu Tính cục bộ xử lý (processing locality) - Khái niệm: Tính cục bộ xử lý là đặt dữ liệu càng gần các ứng dụng sử dụng các dữ liệu này càng tốt - Thiết kế dữ liệu phân tán để làm cực đại hoá tính cục bộ xử lý - Việc xác định đơn vị phân tán (unit of distribution) thích hợp trong quá trình phân mảnh là quan trọng - Một quan hệ không là một đơn vị phân tán thích hợp vì: + Các khung hình ứng dụng thông thường là các tập con của các quan hệ. Do đó: tính cục bộ xử lý của các ứng dụng không được xác định trên các quan hệ mà trên các tập con của các quan hệ này chỉ có thể xem các tập con của các quan hệ này là các đơn vị phân tán + Nếu các ứng dụng có các khung nhìn được định nghĩa trên một quan hệ cho trước đặt tại các nơi khác nhau, thì có thể có hai cách khác nhau để xem lại toàn bộ quan hệ là một đơn vị phân tán: Quan hệ không được nhân bản và được lưu trữ chỉ tại một nơi: dẫn đến một số lượng lớn không cần thiết các truy xuất dữ liệu từ xa Quan hệ được nhân bản tại tất cả hoặc một số nơi có chạy các ứng dụng: có sự nhân bản không cần thiết gây ra các vấn đề không mong muốn trong việc thực hiện cập nhật khi vùng lưu trữ bị giới hạn - Cách xác định tính cục bộ xử lý: dựa vào + các tham chiếu cục bộ (local reference) + các tham chiếu từ xa (remote reference) - Khi biết nơi chạy ứng dụng thì tính cục bộ và tính từ xa của các tham chiếu chỉ phụ thuộc vào sự phân tán dữ liệu. - Cách làm cực đại hóa tính cục bộ xử lý (làm cực tiểu hoá các tham chiếu từ xa) + xét các tham chiếu cục bộ và các tham chiếu từ xa tương ứng với mỗi cách phân mảnh dự kiến (candidate fragmentation) + chọn giải pháp tốt nhất giữa các phân mảnh này - Tính cục bộ hoàn toàn (complete locality): + Một ứng dụng có tính cục bộ hoàn toàn là ứng dụng mà chúng có thể được thực hiện hoàn toàn tại nơi gốc của chúng + Ưu điểm: giảm bớt các truy xuất từ xa làm tăng tính đơn giản trong việc kiểm soát việc thực hiện các ứng dụng Tính sẵn sàng và độ tin cậy của dữ liệu phân tán - Tính sẵn sàng và độ tin cậy là ưu điểm của các hệ thống phân tán đối với các hệ thống không phân tán
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ NÔNG NGHIỆP VÀ PTNT
ĐẠI HỌC THỦY LỢI
ỨNG DỤNG CƠ SỞ DỮ LIỆU PHÂN TÁN TRONG HỆ THỐNG QUẢN LÍ
BẢO HIỂM NHÂN THỌ
ĐỒ ÁN TỐT NGHIỆP
HÀ NỘI, 2021
Trang 2BỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ NÔNG NGHIỆP VÀ PTNT
ĐẠI HỌC THỦY LỢI
ỨNG DỤNG CƠ SỞ DỮ LIỆU PHÂN TÁN TRONG HỆ THỐNG QUẢN LÍ
BẢO HIỂM NHÂN THỌ
Ngành Công nghệ thông tin
NGƯỜI HƯỚNG DẪN 1 Th.S Nguyễn Văn Thẩm
HÀ NỘI, 2021
Trang 3CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc
NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP
Khoa: Công nghệ thông tin
Trang 43 NỘI DUNG CÁC PHẦN THUYẾT MINH VÀ TÍNH TOÁN
Chương 1: Cơ sở lý thuyết
● Thiết kế cơ sở dữ liệu phân tán quản lí bảo hiểm nhân thọ
● Mô hình đồng bộ hóa dữ liệu trong SQL Server
● Mô hình Client-Server
25%
Chương 2: Mô hình phân tán dữ liệu
● Mô hình Client-Server cho hệ thống quản lí tài khoản
● Mô hình dữ liệu
● Đồng bộ hóa dữ liệu
60%
4 GIÁO VIÊN HƯỚNG DẪN TỪNG PHẦN
hướng dẫn
Chương 1: Cơ sở lý thuyết
● Thiết kế cơ sở dữ liệu phân tán
● Mô hình đồng bộ hóa dữ liệu trong SQL Server
● Mô hình Client-Server
Th.S Nguyễn Văn Thẩm
Chương 2: Mô hình phân tán dữ liệu
● Mô hình Client-Server cho hệ thống quản lí
● Mô hình dữ liệu
● Đồng bộ hóa dữ liệu
Th.S Nguyễn Văn Thẩm
Trang 5Chương 3: Cài đặt ứng dụng Th.S Nguyễn Văn Thẩm
Trang 65 NGÀY GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP
Trang 7TRƯỜNG ĐẠI HỌC THUỶ LỢI
KHOA CÔNG NGHỆ THÔNG TIN
1 Bài toán cần giải quyết
Ngày nay, ngày càng có nhiều các mô hình hệ thống bảo hiểm nhân thọ nhiều cơ sở
do nhu cầu mua bảo hiểm của người tiêu dùng, nhu cầu mở rộng của các nhà kinh doanhnên cần có một hệ thống phần mềm quản lý phù hợp cho mô hình đó Bây giờ người tacần một hệ thống để đồng bộ dữ liệu bảo hiểm nhân thọ của người dùng ở các cơ sở, cácchi nhánh trong hệ thống bảo hiểm nhân thọ
Trang web của công ty bảo hiểm nhân thọ thiết kế sử dụng cơ sở dữ liệu phân tán chomột hệ thống các chi nhánh Các chi nhánh con sẽ có một cơ sở dữ liệu nhỏ và mọi hoạtđộng của các cơ sở bảo hiểm sẽ được nhân viên và người quản lý của chi nhánh đó cậpnhật vào cơ sở dữ liệu địa phương Dữ liệu đó sẽ được tải lên một cơ sở dữ liệu tổng đểlên các sao kê, báo cáo tài chính phục vụ cho các nhà quản lý nắm được tình hình kinhdoanh của hệ thống cũng như điều phối hợp lý các chiến lược kinh doanh cho từng chinhánh, vùng miền Từ đó tăng hiệu quả quản lí bảo hiểm nhân thọ
Trang 82 Giải pháp công nghệ
- Ứng dụng khả năng quản trị CSDL phân tán của SQL Server vào hệ thống
- Hệ quản trị cơ sở dữ liệu: SQL Server
- Công nghệ web: Java serlvet, JSF
- Nghiên cứu tổng quan về CSDL phân tán, giải pháp đồng bộ hóa dữ liệu trên SQL Server
- Tìm hiểu về cơ sở dữ liệu quản lí bảo hiểm nhân thọ
- Tìm hiểu hệ điều hành Server
- Xây dựng mô hình phân tán dữ liệu cho hệ thống quản lí bảo hiểm nhân thọ
- Thiết kế website thử nghiệm mô hình Server- clients phân tán dữ liệu bảo hiểm nhân thọ
KẾT QUẢ DỰ KIẾN
- Các báo cáo theo yêu cầu
- Mô hình cơ sở dữ liệu phân tán quản lí bảo hiểm nhân thọ
- Website đảm bảo các chức năng cơ bản cho việc quản lí bảo hiểm nhân thọ
- Mô hình thực nghiệm: Server-Clients
Trang 9- Các tệp dữ liệu, các giao diện và báo cáo.
Trang 10LỜI CAM ĐOAN
Tác giả xin cam đoan đây là Đồ án tốt nghiệp của bản thân tác giả Các kết quả trong Đồ
án tốt nghiệp này là trung thực, và không sao chép từ bất kỳ một nguồn nào và dưới bất
kỳ hình thức nào.Việc tham khảo các nguồn tài liệu (nếu có) đã được thực hiện trích dẫn
và ghi nguồn tài liệu tham khảo đúng quy định
Tác giả ĐATN/KLTN
Chữ ký
Trang 11LỜI CẢM ƠN
“Quá trình thực hiện luận văn tốt nghiệp là giai đoạn quan trọng nhất trong quãng đờimỗi sinh viên Đồ án tốt nghiệp là tiền đề nhằm trang bị cho chúng em những kỹ năngnghiên cứu, những kiến thức quý báu trước khi lập nghiệp
Trước hết, em xin chân thành cảm ơn Thầy Nguyễn Văn Thẩm khoa Công Nghệ ThôngTin Thầy đã tận tình chỉ dạy và trang bị cho em những kiến thức cần thiết trong suốt thờigian ngồi trên ghế giảng đường, Làm nền tảng cho em có thể hoàn thành được bài luậnvăn này
Em xin trân trọng cảm ơn thầy Nguyễn Văn Thẩm đã tận tình giúp đỡ, định hướng cách
tư duy và cách làm việc khoa học Đó là những góp ý hết sức quý báu không chỉ trongquá trình thực hiện luận văn này mà còn là hành trang tiếp bước cho em trong quá trìnhhọc tập và lập nghiệp sau này
Và cuối cùng, xin gửi lời cảm ơn đến gia đình, bạn bè, tập thể lớp 58TH3 khoa công nghệthông tin, những người luôn sẵn sàng sẻ chia và giúp đỡ trong học tập và cuộc sống.Mong rằng, chúng ta sẽ mãi mãi gắn bó với nhau
Xin chúc những điều tốt đẹp nhất sẽ luôn đồng hành cùng mọi người ”
Em xin chân thành cảm ơn!
Trang 12Chương 1 Cơ sở lí thuyết
1.1 Bài toán quản lí bảo hiểm nhân thọ
Ngày nay, ngày càng có nhiều các mô hình hệ thống bảo hiểm nhân thọ nhiều cơ sở donhu cầu mua bảo hiểm của người tiêu dùng, nhu cầu mở rộng của các nhà kinh doanh nêncần có một hệ thống phần mềm quản lý phù hợp cho mô hình đó Bây giờ người ta cần một
hệ thống để đồng bộ dữ liệu bảo hiểm nhân thọ của người dùng ở các cơ sở, các chi nhánhtrong hệ thống bảo hiểm nhân thọ
Công ty Cổ phần Bảo hiểm nhân thọ Thu Thủy (TTSS) được thành lập theo Giấy phépcủa Bộ Tài chính và hoạt động theo Luật doanh nghiệp, Luật Kinh doanh bảo hiểm và cácvăn bản pháp luật có liên quan của Nhà nước Đây là doanh nghiệp tư nhân tại Việt Namhoạt động trong lĩnh vực bảo hiểm nhân thọ với sự hội tụ của các cổ đông là các tổ chứcthương mại, tài chính Ngân hàng có tiềm năng và uy tín tại Việt Nam
TTSS luôn chú trọng việc nâng cao khả năng trình độ nghiệp vụ bảo hiểm toàn hệ thống,xây dựng, cải tiến và phát triển hệ thống sản phẩm bảo hiểm đa dạng, tạo sự khác biệt Đểtăng tốc độ xử lý thông tin trong hệ thống chúng ta phải nghĩ tới việc phân tán dữ liệu nhưthế nào trong hệ thống bởi nó quyết định rất lớn đến kết quả xử lí thông tin Do vậy vớicùng một hạ tầng mạng có tốc độ đường truyền như nhau nếu hệ thống đặt CSDL phân tánthành nhiều nơi thì quá trình thành nhiều nơi thì quá trình xử lí thông tin cho kết quả nhanhhơn quá trình xử lí thông tin mà hệ thống CSDL đặt ở 1 nơi
Trang web của công ty bảo hiểm nhân thọ thiết kế sử dụng cơ sở dữ liệu phân tán chomột hệ thống các chi nhánh Các chi nhánh con sẽ có một cơ sở dữ liệu nhỏ và mọi hoạtđộng của các cơ sở bảo hiểm sẽ được nhân viên và người quản lý của chi nhánh đó cập nhậtvào cơ sở dữ liệu địa phương Dữ liệu đó sẽ được tải lên một cơ sở dữ liệu tổng để lên cácsao kê, báo cáo tài chính phục vụ cho các nhà quản lý nắm được tình hình kinh doanh của
hệ thống cũng như điều phối hợp lý các chiến lược kinh doanh cho từng chi nhánh, vùngmiền Từ đó tăng hiệu quả quản lí bảo hiểm nhân thọ
Trang 13Thiết kế lược đồ toàn cục
Thiết kế phân mảnh
Thiết kế định vị các mảnh
Thiết kế CSDL vật lý
1.2 Thiết kế cơ sở dữ liệu phân tán quản lí bảo hiểm nhân thọ
1.2.1 Lí thuyết thiết kế cơ sở dữ liệu phân tán
1.2.1.1 Công vi cệc thi t k CSDL phân tánết kế CSDL phân tán ết kế CSDL phân tán
Hiện nay chưa có một kỹ thuật cụ thể nào nói một cách chi tiết việc thiết kế CSDLPT, tuy nhiên một cách tổng quát chúng ta có thể thiết kế CSDLPT theo các bước sau:
Hình 3: Sơ đồ thiết kế CSDLPTBước 1: Thiết kế lược đồ toàn cục
- Thiết kế các quan hệ toàn cục
- Mô tả toàn bộ dữ liệu sẽ được dùng trong hệ thống
Bước 2: Thiết kế phân mảnh
Phân chia quan hệ toàn cục thành các mảnh ngang, dọc hoặc hỗn hợp
Bước 3: Thiết kế định vị mảnh
- Xác định các mảnh được ánh xạ vào các hình ảnh vật lý như thế nào
- Tạo các hình ảnh vật lý tại các trạm
Trang 14- Xác định việc nhân bản các mảnh
- Các đoạn dữ liệu được đưa vào các vị trí lưu trữ thích hợp với yêu cầu hoạt động thực tế của hệ thống
Bước 4: Thiết kế các CSDL vật lý cục bộ tại mỗi nơi
Thiết kế cơ sở dữ liệu vật lý cho các quan hệ tại các trạm
Các yêu cầu của ứng dụng khi thiết kế CSDLPT
- Các yêu cầu của ứng dụng ảnh hưởng đến thiết kế các lược đồ vì các lược đồ phải có khả năng hỗ trợ ứng dụng một cách hiệu quả
- Khi thiết kế CSDL phân tán cần phải hiểu biết thật chính xác về các yêu cầu của ứng dụng, nhất là đối với:
+ các ứng dụng được thực hiện một cách thường xuyên
+ các ứng dụng cần phải được chạy một cách có hiệu quả
- Cần quan tâm đến:
+ Nơi chạy ứng dụng (còn được gọi là nơi gốc của ứng dụng).
+ Tần suất chạy ứng dụng: số lần chạy trong một đơn vị thời gian Nếu các ứng dụng được chạy tại nhiều nơi thì cần biết tần suất chạy của mỗi ứng dụng tại mỗi nơi
+ Số lượng, loại và sự phân tán của các truy xuất trong mỗi ứng dụng đến mỗi đối tượng dữ liệu cần thiết
1 Các mục tiêu thiết kế phân tán dữ liệu
Tính cục bộ xử lý (processing locality)
- Khái niệm: Tính cục bộ xử lý là đặt dữ liệu càng gần các ứng dụng sử dụng các dữ liệu nàycàng tốt
- Thiết kế dữ liệu phân tán để làm cực đại hoá tính cục bộ xử lý
- Việc xác định đơn vị phân tán (unit of distribution) thích hợp trong quá trình phân mảnh là quan trọng
- Một quan hệ không là một đơn vị phân tán thích hợp vì:
+ Các khung hình ứng dụng thông thường là các tập con của các quan hệ Do đó:
tính cục bộ xử lý của các ứng dụng không được xác định trên các quan hệ mà trên các tập con của các quan hệ này
Trang 15 chỉ có thể xem các tập con của các quan hệ này là các đơn vị phân tán
+ Nếu các ứng dụng có các khung nhìn được định nghĩa trên một quan hệ cho trước đặt tại các nơi khác nhau, thì có thể có hai cách khác nhau để xem lại toàn bộ quan hệ là một đơn vị phân tán:
Quan hệ không được nhân bản và được lưu trữ chỉ tại một nơi: dẫn đến một số lượng lớn không cần thiết các truy xuất dữ liệu từ xa
Quan hệ được nhân bản tại tất cả hoặc một số nơi có chạy các ứng dụng:
có sự nhân bản không cần thiết
gây ra các vấn đề không mong muốn trong việc thực hiện cập nhật khi vùng lưu trữ bị giới hạn
- Cách xác định tính cục bộ xử lý: dựa vào
+ các tham chiếu cục bộ (local reference)
+ các tham chiếu từ xa (remote reference)
- Khi biết nơi chạy ứng dụng thì tính cục bộ và tính từ xa của các tham chiếu chỉ phụ thuộc vào sự phân tán dữ liệu
- Cách làm cực đại hóa tính cục bộ xử lý (làm cực tiểu hoá các tham chiếu từ xa)
+ xét các tham chiếu cục bộ và các tham chiếu từ xa tương ứng với mỗi cách phân
mảnh dự kiến (candidate fragmentation)
+ chọn giải pháp tốt nhất giữa các phân mảnh này
- Tính cục bộ hoàn toàn (complete locality):
+ Một ứng dụng có tính cục bộ hoàn toàn là ứng dụng mà chúng có thể được thực hiện hoàn toàn tại nơi gốc của chúng
+ Ưu điểm:
giảm bớt các truy xuất từ xa
làm tăng tính đơn giản trong việc kiểm soát việc thực hiện các ứng dụng
Tính sẵn sàng và độ tin cậy của dữ liệu phân tán
- Tính sẵn sàng và độ tin cậy là ưu điểm của các hệ thống phân tán đối với các hệ thống không phân tán
Trang 16- Mức độ sẵn sàng cao đối với các ứng dụng chỉ đọc sẽ đạt được bằng cách lưu trữ nhiều bảnnhân của cùng một thông tin
- Độ tin cậy cũng đạt được bằng cách lưu trữ nhiều bản nhân của cùng một thông tin vì có thể được phục hồi khi máy tính bị ngừng hoặc có hư hỏng vật lý (như lửa, động đất, phá hoại…) của một trong các bản nhân bằng cách sử dụng các bản nhân khác vẫn còn hiệu lực
Điều phối tải làm việc
- Điều phối tải làm việc tại các nơi là một đặc điểm quan trọng của các hệ thống máy tính phân tán
- Thực hiện điều phối tải làm việc để:
+ tận dụng ưu điểm của các nguồn lực khác nhau
+ tận dụng tính năng của các máy tính tại mỗi nơi
+ cực đại hoá mức độ thực hiện song song các ứng dụng
- Điều phối tải làm việc có thể ảnh hưởng ngược lại với tính cục bộ xử lý
- Ưu điểm của phân mảnh đối với điều phối tải làm việc: vì mỗi mảnh được xử lý như là mộtđơn vị nên cho phép nhiều giao dịch được thực hiện đồng thời
- Tính đồng thời nội truy vấn (intraquery concurrency): là việc phân mảnh các quan hệ dẫn đến việc thực hiện đồng thời một truy vấn đơn bằng cách chia truy vấn này thành các truy vấn con để thực hiện trên các mảnh
sự phân mảnh
làm tăng mức độ đồng thời
làm tăng thông lượng của hệ thống
Các chi phí lưu trữ và khả năng lưu trữ có sẵn
- Sự phân tán CSDL nên phản ánh chi phí và khả năng lưu trữ tại các nơi khác nhau
- Trên mạng
+ có nơi trên mạng cho phép lưu trữ dữ liệu lớn
+ có nơi không hỗ trợ vùng lưu trữ lớn
- Chi phí lưu trữ dữ liệu là không thích đáng so với các chi phí của ứng dụng như:
+ các chi phí CPU
Trang 17+ chi phí nhập/xuất
+ chi phí truyền thông
- Phải xét giới hạn lưu trữ có sẵn tại mỗi nơi
2 Các phương pháp tiếp cận để thiết kế phân tán dữ liệu
a) Phương pháp tiếp cận từ trên xuống (top – down approach)
Quá trình thiết kế từ trên xuống được chỉ ra trong hình 4.1
Giai đoạn phân tích các yêu cầu:
Đầu ra:
- Các yêu cầu hệ thống như:
+ môi trường của hệ thống
+ các nhu cầu về dữ liệu
+ các nhu cầu xử lý của người sử dụng CSDL
- Các mục tiêu của một DBMS mà thống cuối cùng sẽ thoả mãn như
- thông tin truy xuất
- các định nghĩa lược đồ ngoài (định nghĩa các giao diện cho những người sử dụng cuối cùng)
Các bước thực hiện:
Trang 18- Xác định các thông tin truy xuất
- Định nghĩa các giao diện cho những người sử dụng cuối cùng
Giai đoạn thiết kế khái niệm (conceptual design):
- Xem xét tổng thể cơ quan, tổ chức đang xét
- Phân tích thực thể (entity analysis)
+ xác định các thực thể
+ xác định các thuộc tính của các tập thực thể
+ xác định các mối liên hệ giữa các tập thực thể
- Phân tích chức năng (functional analysis ): xác định các chức năng cơ bản trong hệ thống
cần mô hình hóa
Mối quan hệ giữa thiết kế khái niệm và thiết kế khung nhìn.
- Thiết kế khái niệm là sự tích hợp các khung hình của người sử dụng
- Tích hợp khung nhìn nên được sử dụng để bảo đảm rằng các yêu cầu thực thể và mối liên hệ
cho tất cả các khung nhìn đã được đưa vào trong lược đồ khái niệm
- Người sử dụng cần phải
+ chỉ rõ các thực thể dữ liệu
+ phải xác định các ứng dụng sẽ chạy trên CSDL
+ phải xác định thông tin thống kê về các ứng dụng như
Trang 19- Thông tin truy xuất
- Các lược đồ ngoài
- Các yêu cầu từ người dùng
Đầu ra: lược đồ khái niệm cục bộ (LCS: Local-Conceptual-Schema)
- Các lược đồ khái niệm cục bộ
- Thông tin kiểu truy xuất các mảnh trong các lược đồ
Đầu ra: lược đồ vật lý
Các bước thực hiện: ánh xạ các lược đồ khái niệm cục bộ vào các thiết bị lưu trữ vật lý
(physical storage device) có sẵn tại các nơi tương ứng
Theo dõi và kiểm tra
Đầu vào: lược đồ vật lý
Phương pháp thiết kế từ trên xuống:
- thích hợp với những CSDL được thiết kế từ đầu
- không hiệu quả khi CSDL phân tán được phát triển từ CSDL hiện tại
Trang 20Phân tích các yêu cầu
Các yêu cầu hệ thống (các mức tiêu)
Lược đồ khái niệm toàn cục Truy xuất thông tin Lược đồ khái niệmtoàn cục
Hình 4: Quá trình thiết kế từ trên xuống
b) Phương pháp tiếp cận từ dưới lên (Bottom-up)
Nhận xét
- Trong thực tế, một số CSDL đã tồn tại trước và được tổ chức trong môi trường tập trung
- Khi đó, CSDL phân tán được phát triển bằng cách liên kết các CSDL thành một CSDL mới
Cách thiết kế từ dưới lên một CSDL phân tán:
Trang 21- Chọn một mô hình cơ sở dữ liệu chung để mô tả lược đồ toàn cục của CSDL
- Chuyển đổi mỗi lược đồ cục bộ thành mô hình dữ liệu chung
- Tích hợp các lược đồ cục bộ thành một lược đồ toàn cục chung
Kết luận
Phương pháp thiết kế từ dưới lên thích hợp với việc thiết kế CSDLPT dựa trên CSDL đã có sẵn do đó đòi hỏi phải giải quyết ba vấn đề mà không phải của riêng CSDL phân tán, mà chúng cũng có trong các hệ thống tập trung
3 Các yêu cầu về thông tin
- Các yếu tố ảnh hưởng đến quá trình thiết kế CSDLPT:
+ tổ chức luận lý của CSDL
+ vị trí của các ứng dụng
+ các đặc điểm truy xuất CSDL của các ứng dụng
+ các đặc tính của các hệ thống máy tính ở mỗi nơi
- Các loại thông tin dùng để thiết kế phân tán:
+ thông tin về CSDL
+ thông tin về ứng dụng
+ thông tin về mạng truyền thông
+ thông tin về hệ thống máy tính
Nhận xét
Hai vấn đề cơ bản theo cách tiếp cận từ trên xuống:
+ Thiết kế phân mảnh
+ Thiết kế định vị
- Mục đích của thiết kế phân mảnh: xác định các mảnh không giao nhau
- Thiết kế các mảnh bao gồm việc gom nhóm các bộ (trong trường hợp phân mảnh ngang) hoặc các thuộc tính (trong trường hợp phân mảnh dọc) mà chúng có cùng các đặc tính theo quan điểm định vị của chúng
Phân mảnh ngang
Trang 22Quan hệ S
Quan hệ R
- Mỗi mảnh là một tập hợp con gồm các bộ của quan hệ
- Phân mảnh ngang chính là phân chia một quan hệ dựa vào các vị từ định tính vị từ được định nghĩa trên quan hệ đó
- Phân mảnh ngang dẫn xuất là phân chia một quan hệ dựa vào các vị từ được định nghĩa trên một quan hệ khác
- Để phục vụ cho hoạt động phân mảnh ngang cần có các loại thông tin sau:
1 Các yêu cầu thông tin của phân mảnh ngang
a) Các thông tin về cơ sở dữ liệu
- Thông tin về CSDL liên quan đến lược đồ khái niệm toàn cục, chỉ ra mối liên kết giữa các quan hệ
- Mô hình hóa các mối liên kết giữa các quan hệ bằng đồ thị
- Thông tin định lượng cần có về CSDL là số bộ của mỗi quan hệ R, ký hiệu
card(R)
- Quy ước:
+ Mối liên hệ: biểu diễn bằng cung có hướng
+ Mỗi nút là một lược đồ quan hệ: biểu diễn bằng hình chữ nhật
+ Trong đó:
S gọi là quan hệ chủ (owner)
R gọi là quan hệ bộ phận (member)
L gọi là đường liên hệ
+ Định nghĩa các hàm:
Owner(tên đường liên hệ): trả về quan hệ chủ của đường kết nối
Member(tên đường liên hệ): trả về quan hệ bộ phận của đường kết nối
b) Thông tin về ứng dụng
- Thông tin về ứng dụng có hai loại
+ Thông tin định tính: dùng để phân mảnh