Nghiên cứu áp dụng mô hình đồng bộ trong cơ sở dữ liệu phân tán (tt)Nghiên cứu áp dụng mô hình đồng bộ trong cơ sở dữ liệu phân tán (tt)Nghiên cứu áp dụng mô hình đồng bộ trong cơ sở dữ liệu phân tán (tt)Nghiên cứu áp dụng mô hình đồng bộ trong cơ sở dữ liệu phân tán (tt)Nghiên cứu áp dụng mô hình đồng bộ trong cơ sở dữ liệu phân tán (tt)Nghiên cứu áp dụng mô hình đồng bộ trong cơ sở dữ liệu phân tán (tt)Nghiên cứu áp dụng mô hình đồng bộ trong cơ sở dữ liệu phân tán (tt)Nghiên cứu áp dụng mô hình đồng bộ trong cơ sở dữ liệu phân tán (tt)Nghiên cứu áp dụng mô hình đồng bộ trong cơ sở dữ liệu phân tán (tt)Nghiên cứu áp dụng mô hình đồng bộ trong cơ sở dữ liệu phân tán (tt)Nghiên cứu áp dụng mô hình đồng bộ trong cơ sở dữ liệu phân tán (tt)Nghiên cứu áp dụng mô hình đồng bộ trong cơ sở dữ liệu phân tán (tt)Nghiên cứu áp dụng mô hình đồng bộ trong cơ sở dữ liệu phân tán (tt)Nghiên cứu áp dụng mô hình đồng bộ trong cơ sở dữ liệu phân tán (tt)
Trang 1TRẦN VĂN HIỂN
LUẬN VĂN THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)
HÀ NỘI - 2016
Trang 2TRẦN VĂN HIỂN
NGHIÊN CỨU ÁP DỤNG MÔ HÌNH ĐỒNG BỘ
Chuyên ngành : KHOA HỌC MÁY TÍNH
Mã số: 60.48.01.01
TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS HÀ HẢI NAM
HÀ NỘI - 2016
Trang 3LỜI CAM ĐOAN
Tôi cam đoan đây là nghiên cứu riêng của tôi dưới sự hướng dẫn khoa học của PGS.TS Hà Hải Nam
Các số liệu và kết quả nêu trong luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác
Tôi xin chịu trách nhiệm về công trình nghiên cứu của mình
HỌC VIÊN
Trần Văn Hiển
Trang 4Luận văn được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Người hướng dẫn khoa học: PGS TS HÀ HẢI NAM
Phản biện 1: ……… Phản biện 2: ………
Luận văn đã được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Công nghệ Bưu chính Viễn thông
Vào lúc: giờ ngày tháng năm 2017
Có thể tìm hiểu luận văn tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn thông
Trang 5DANH MỤC KÝ HIỆU CÁC CHỮ VIẾT TẮT
Information System
Phần mềm hệ thống thông tin địa lý
System
Hệ thống giám sát tài nguyên rừng
Reporting Tools
Kinh doanh thông minh
và công cụ báo cáo
Trang 6diễn biến tài nguyên rừng
26
Trang 7LỜI CẢM ƠN
Lời đầu tiên, tôi xin chân thành gửi cảm ơn đến PGS.TS Hà Hải Nam, người
đã trực tiếp hướng dẫn và giúp tôi hoàn thành luận văn Với sự nhiệt tình và kiến thức sâu rộng của thầy đã giúp tôi vượt qua những hạn chế về kiến thức chuyên môn để tập trung hoàn thành tốt luận văn của mình
Tôi xin chân thành cảm ơn Ban Giám đốc, Ban Chủ nhiệm Khoa sau Đại học
và các thầy, cô đã giảng dạy trong suốt thời gian tôi theo học tại Học viên Công nghệ Bưu chính Viễn thông
Tôi xin chân thành cảm ơn Hội đồng chấm đề cương đã có nhiều góp ý quý báu cho đề cương luận văn ngay từ bước đầu hình thành ý tưởng xây dựng
Cuối cùng, tôi xin cảm ơn cơ quan đã tạo điều kiện thuận lợi cho tôi trong suốt quá trình học tập và nghiên cứu làm luận văn
Xin chân thành cảm ơn!
Trang 8MỞ ĐẦU
1 Tính cấp thiết của đề tài:
Với sự phát triển của ngành công nghệ thông tin, các giao dịch điện tử ngày càng tăng về số lượng và đòi hỏi đảm bảo về chất lượng, đặc biệt trong các lĩnh vực quan trọng như tài chính ngân hàng, chứng khoán, thương mại điện tử, đấu giá Việc xử lý thông tin của người dùng từ những dịch vụ trên phải đảm bảo thời gian thực và không chấp nhận cho việc gián đoạn, có độ trễ cao hoặc thời gian chết
Từ những yêu cầu thực tế, tính cấp thiết về một giải pháp đồng bộ dữ liệu Các giải pháp này phải đảm bảo đáp ứng yêu cầu của người dùng, của doanh nghiệp về mặt
kỹ thuật, dễ dàng triển khai và giá thành hợp lý
Với mục đích, ý nghĩa nêu trên, tôi xin chọn Đề tài “Nghiên cứu áp dụng mô
hình đồng bộ trong cơ sở dữ liệu phân tán” để làm luận văn tốt nghiệp
Nội dung của luận văn gồm có ba phần: Mở đầu, Nội dung và Kết luận Trong phần Nội dung có ba chương:
Chương 1: Tổng quan về cơ sở dữ liệu phân tán
Chương 2: Vai trò của đồng bộ cơ sở dữ liệu phân tán và các mô hình
Chương 3: Thử nghiệm và đánh giá
2 Mục đích nghiên cứu:
Nghiên cứu các mô hình đồng bộ cơ sở dữ liệu phân tán, từ đó đề xuất mô hình
áp dụng trong thực tiễn và tiến hành cài đặt, thử nghiệm và đánh giá
3 Đối tượng và phạm vi nghiên cứu:
Luận văn tập trung vào nghiên cứu mô hình đồng bộ trong cơ sở dữ liệu phân tán Giới hạn trong phạm vi nghiên cứu mô hình đồng bộ cơ sở dữ liệu phân tán
4 Phương pháp nghiên cứu:
Tìm hiểu về cơ sở dữ liệu phân tán, nghiên cứu mô hình đồng bộ cơ sở dữ liệu phân tán về mặt lý thuyết kết hợp với thử nghiệm và đánh giá kết quả thông qua mô hình thử nghiệm
Trang 9II NỘI DUNG
Luận văn được cấu trúc với các chương như sau:
Chương I: Tổng quan về cơ sở dữ liệu phân tán
Chương I, trình bày các khái niệm về cơ sở dữ liệu phân tán, hệ quản trị cơ sở dữ liệu phân tán, hệ cơ sở dữ liệu phân tán và lý do để sử dụng cơ sở dữ liệu phân tán Sau khi đưa ra các vấn đề cơ bản về cơ sở dữ liệu phân tán, chương I đã đưa ra các vấn đề trong thiết kế hệ cơ sở dữ liệu phân tán
Chương II: Vai trò của đồng bộ cơ sở dữ liệu phân tán và các mô hình ứng
dụng
Chương II, tập trung giới thiệu bài toán đồng bộ, các vấn đề liên quan đến phân mảnh dữ liệu như phân mảnh ngang, phân mảnh dọc và đưa ra mô hình triển khai đồng bộ dữ liệu
Chương III: Thử nghiệm và đánh giá
Chương III, trình bày vào kiến trúc đề xuất để thử nghiệm, mô hình triển khai SymmetricDS và các kịch bản kiểm thử đồng bộ Trong luận văn mô tả Hệ thống theo dõi diễn biến tài nguyên rừng tại Việt Nam
III KẾT LUẬN
Trang 10CHƯƠNG I TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU PHÂN TÁN
1.1 Giới thiệu về cơ sở dữ liệu (CSDL) phân tán
1.1 1 Các khái niệm về CSDL phân tán
Cơ sở dữ liệu phân tán là một tập hợp nhiều cơ sở dữ liệu có liên đới logic và được phân bổ trên một mạng máy tính Trong khái niệm này có hai thuật ngữ quan trọng trong các định nghĩa này là “liên đới logic” và “phân bố trên một mạng máy tính”
- Liên đới logic: Toàn bộ dữ liệu của cơ sở dữ liệu phân tán có một số các thuộc tính ràng buộc chúng với nhau, điều này giúp chúng ta có thể phân biệt một
cơ sở dữ liệu phân tán với một tập hợp cơ sở dữ liệu cục bộ hoặc các tập tin lưu trữ tại các vị trí khác nhau trong một mạng máy tính
- Phân bổ trên một mạng máy tính: Toàn bộ dữ liệu của cơ sở dữ liệu phân tán không được lưu trữ ở một nơi mà lưu trữ trên trạm thuộc mạng máy tính, điều này giúp chúng ta phân biệt cơ sở dữ liệu phân tán và cơ sở dữ liệu tập trung đơn lẻ
- Hệ quản trị cơ sở dữ liệu phân tán: Một hệ thống phần mềm cho phép quản
lý các hệ cơ sở dữ liệu phân tán và làm cho sự phân tán trở nên “trong suốt” đối với người dùng
- Hệ cơ sở dữ liệu phân tán: Được xây dựng dựa trên hai công nghệ cơ bản là Ccơ sở dữ liệu và mạng máy tính Một hệ cơ sở dữ liệu phân tán không phải là một “tập hợp các tập tin” được lưu trữ riêng rẽ tại mỗi nút của một mạng máy tính Để tạo ra một hệ Ccơ sở dữ liệu phân tán các tập tin không chỉ có liên đới logic mà chúng còn phải có cấu trúc và được truy xuất qua một giao diện chung
- Hệ cơ sở dữ liệu phân tán thuần nhất: Các cơ sở dữ liệu cục bộ ở tất cả các nơi (Site) đều dùng chung một hệ quản trị cơ sở dữ liệu
- Hệ CSDL phân tán không thuần nhất: Các cơ sở dữ liệu cục bộ ở các nơi (Site) không dùng chung một hệ quản trị cơ sở dữ liệu
Trang 11Hình 1.1: Mô hình hệ cơ sở dữ liệu phân tán
1.1.2 Các lý do để sử dụng cơ sở dữ liệu phân tán?
- Các tổ chức có cấu trúc phân tán;
- Cần kết nối các cơ sở dữ liệu có sẵn;
- Sự lớn mạnh của tổ chức;
- Giảm chi phí truyền thông;
- Tăng độ tin cậy và tính sẵn sàng
1.2 Các vấn đề cơ bản của cơ sở dữ liệu phân tán
Phần này so sánh cơ sở dữ liệu phân tán với cơ sở dữ liệu tập trung ở một số đặc điểm: điều khiển tập trung, sự độc lập dữ liệu, sự giảm dư thừa dữ liệu, các cấu trúc vật lý phức tạp để truy xuất hiệu quả
1.2.1 Điều khiển tập trung
1.2.2 Độc lập dữ liệu
1.2.3 Giảm dư thừa dữ liệu
1.2.4 Độ tin cậy qua các giao dịch phân tán
1.2.5 Cải thiện hiệu năng
Trang 121.2.6 Dễ dàng mở rộng hệ thống
1.2.7 Tính toàn vẹn, phục hồi và điều khiển tương tranh
1.3 Các vấn đề trong thiết kế hệ cơ sở dữ liệu phân tán
Thiết kế một hệ cơ sở dữ liệu phân tán cần phải chọn những vị trí đặt dữ liệu
và các chương trình trên một mạng máy tính Đối với hệ quản trị cơ sở dữ liệu phân
tán, việc phân tán các ứng dụng đòi hỏi hai điều:
- Phân tán hệ quản trị cơ sở dữ liệu;
- Phân tán các chương trình ứng dụng chạy trên hệ quản trị cơ sở dữ liệu đó
Trong phần này, chúng ta thảo luận ngắn gọn hai phương pháp thiết kế cơ sở
dữ liệu phân tán: Phương pháp thiết kế từ trên xuống và từ dưới lên
1.3.1 Quá trình thiết kế từ trên xuống (top-down)
Hình 1.2: Lược đồ quá trình thiết kế từ trên xuống
Trang 13CHƯƠNG II VAI TRÒ CỦA ĐỒNG BỘ CƠ SỞ DỮ LIỆU PHÂN TÁN VÀ
CÁC MÔ HÌNH ỨNG DỤNG
2.1 Giới thiệu bài toán đồng bộ
Đồng bộ hóa dữ liệu là một quá trình của việc thiết lập sự thống nhất giữa các
hệ thống và cập nhật liên tục duy trì tính nhất quán trong hệ thống
Có hai kịch bản đưa ra cho việc đồng bộ hóa dữ liệu đối với một doanh nghiệp:
Một là, thường việc chia sẻ cùng một dữ liệu: Dữ liệu khách hàng, dữ liệu sản
phẩm, dữ liệu nhân viên, hệ thống hỗ trợ khách hàng, hệ thống thanh toán và hóa đơn Để đảm bảo cho quá trình sản xuất của công ty có thể kiểm tra, mỗi hoạt động cần phải đăng nhập đúng Mặc dù một số ứng dụng trên hệ thống sử dụng cùng dữ liệu, các dữ liệu đó cần phải được đồng bộ với các hệ thống khác
Hai là, với sự phát triển của Internet và gia tăng việc kinh doanh quốc tế,
nhiều doanh nghiệp lựa chọn để phân phối các hệ thống của họ về mặt địa lý nhằm giảm độ trễ và chi phí của việc sử dụng mạng lưới và tăng độ tin cậy (giảm nguy cơ như thiên tai ảnh hưởng đến vị trí) Các hệ thống ở tất cả các điểm địa điểm cần phải có một dữ liệu mặc dù dữ liệu tại mỗi địa điểm đó được sửa đổi nhưng dữ liệu cần phải được đồng bộ trên tất cả các địa điểm
2.2 Các mô hình đồng bộ CSDL phân tán
2.2.1 Các vấn đề về phân mảnh dữ liệu
Mục đích của việc phân mảnh dữ liệu là tạo ra các đơn vị cấp phát logic, sao cho chi phí để thực hiện truy vấn thông tin là thấp nhất Các bộ hoặc các thuộc tính của quan hệ không thể được xem như một đơn vị cấp phát, vì sẽ làm cho việc cấp phát trở nên phức tạp hơn
2.2.2 Lý do phân mảnh dữ liệu
Trong thiết kế cơ sở dữ liệu phân tán cần phải thực hiện phân mảnh dữ liệu vì:
Trang 14- Trong các hệ quản trị cơ sở dữ liệu, các quan hệ được lưu trữ dưới dạng bảng
2 chiều Các thao tác đối với cơ sở dữ liệu được thực hiện trên các bảng
- Việc phân rã một quan hệ thành nhiều mảnh, mỗi mảnh được xử lý như một đơn vị dữ liệu, sẽ cho phép thực hiện nhiều giao dịch đồng thời
2.2.5 Các phương án phân phối
Giả sử cơ sở dữ liệu được phân mảnh, người ta cần phải quyết định sự phân phối các phân mảnh này tới các trạm khác nhau trên mạng Khi dữ liệu được phân phối, có thể không nhân bản hoặc có thể được nhân bản
Việc cấp phát dữ liệu phải được thực hiện sao cho thỏa mãn hai yêu cầu sau:
- Chi phí thấp nhất;
- Hiệu năng lớn nhất: Giảm thiểu thời gian đáp ứng và tăng tối đa lưu lượng hệ thống tại mỗi vị trí
2.2.6 Thông tin yêu cầu
Thông tin cần cho thiết kế phân tán có thể được chia làm 4 mục:
- Thông tin cơ sở dữ liệu
- Thông tin ứng dụng
- Thông tin mạng truyền thông
Trang 15- Thông tin hệ thống máy tính
2.2.7 Phân mảnh ngang
Phân mảnh ngang: Là cơ sở dữ liệu được phân hoạch thành các cơ sở dữ liệu con, mỗi cơ sở dữ liệu còn là một tập hợp các bộ thỏa mãn một số tính chất nào đó (cho trước)
Có hai loại phân mảnh ngang là:
- Phân mảnh nganh nguyên thủy: Là phân mảnh ngang được thực hiện trên các vị từ của chính quan hệ đó
- Phân mảnh ngang dẫn xuất: Là phân rã một quan hệ dựa trên các vị từ của quan hệ khác
2.2.8 Phân mảnh dọc
Là chia cơ sở dữ liệu thành các cơ sở dữ liệu con gồm một tập hợp các thuộc tính cùng với các giá trị của chúng có trong tập các thuộc tính của cơ sở dữ liệu đã cho
2.2.9 Đồng bộ phân mảnh ngang/dọc
Giả sử R là một quan hệ được phân mảnh thành các mảnh:
{ F1, F2 ,Fi} i=1, n
Giả sử Fi được triển khai tại các vị trí Si; R được triển khai tại vị trí S0, T1 có
mô hình triển khai như sau:
Trang 16S0
Hình 2.3: Mô hình triển khai đồng bộ
Các mô hình đồng bộ được phân loại như sau:
các thay đổi đó phải được đồng bộ tới các mảnh Fk tại vị trí Sk tương ứng
thay đổi này phải được đồng bộ tới R tại S0
đồng bộ tới Fk và ngược lại
2.2.11 Phân mảnh hỗn hợp
Trong đa số các trưởng hợp, phân mảnh ngang hoặc phân mảnh dọc đơn giản cho một lược đồ cơ sở dữ liệu không đủ đáp ứng các yêu cầu từ ứng dụng
2.2.12 Nhân bản dữ liệu
Trong hệ quản trị cơ sở dữ liệu phân tán nhiều bản sao phân biệt hai trường hợp:
- Một bản duy nhất của đối tượng là một đặc quyền
- Tất cả các bản sao đóng vai trò đối xứng
R
F1 F2 Fi Fn
N
Trang 17CHƯƠNG III THỬ NGHIỆM VÀ ĐÁNH GIÁ
3.1 Kiến trúc đề xuất đề xuất thử nghiệm
Hình 3.1: Miêu tả kiến trúc khái niệm đối với Hệ thống theo dõi diễn biến tài nguyên rừng, gồm 3 hợp phần chính: Ứng dụng Desktop, Ứng dụng Web và Bộ cơ
sở dữ liệu trung tâm
Mô hình Hệ thống theo dõi diễn biến tài nguyên rừng được áp dụng theo phân mảnh ngang
Hình 3.1: Kiến trúc khái niệm của Hệ thống theo dõi diễn biến tài nguyên rừng
Ứng dụng Desktop
Bộ cơ sở dữ liệu trung tâm
Mạng nội bộ
MẠNG INTERNET Đồng bộ hóa
Ứng dụng Web
Trang 183.2 Các chức năng chính của Ứng dụng Desktop
- Biên tập thay đổi dữ liệu bản đồ
3.3 Các chức năng chính của Ứng dụng Web
- Hiển thị dữ liệu bản đồ
3.4 Các chức năng chính của hệ thống cơ sở dữ liệu trung tâm
Lưu trữ dữ liệu toàn quốc về ĐTKKR và các dữ liệu theo dõi diễn biến tài nguyên rừng ở cấp Trung ương Các Ứng dụng Desktop sẽ được cài đặt trong các máy tính đặt tại các cấp xã, huyện, tỉnh và Trung ương
Hệ thống dựa trên phần mềm mã nguồn mở
3.5 Máy chủ
Thành phần máy chủ của Hệ thống sẽ vận hành trên các máy chủ ảo với hiệu năng cao Hệ điều hành được hỗ trợ gồm có: Ubuntu Server và Microsoft Windows Server 2008 Các máy chủ ứng dụng gồm có: Apache Tomcat
Cấu hình đưa ra: Hiện tại có 02 máy chủ với hiệu năng cao (mỗi máy có 8 vi xữ lý) Trên máy chủ thực hiện ảo hóa hạ tầng máy chủ Ngoài ra, có các hệ thống lưu trữ đặc chủng như hệ thống SAN
3.6 Môi trường người dùng
duyệt Web Thành phần Desktop của hệ thống sẽ chạy tốt trên các máy tính bình thường có cài đặt hệ điều hành Microsoft Windows XP hay phiên bản OS mới hơn Trong trường hợp sử dụng Ứng dụng Web thì hệ thống cần hỗ trợ công cụ lướt web phổ thông nhất như: Internet Explorer, Firefox and Google Chrome, các phiên bản đều được lưu hành từ năm 2010
Thành phần ứng dụng desktop bao gồm ứng dụng QGIS được tùy biến và Ứng dụng báo cáo được cài đặt trên máy tính của cán bộ kiểm lâm cấp huyện; thành
Trang 19phần ứng dụng Web được cài đặt trên máy chủ đặt tại TCLN Cơ sở dữ liệu được dóng gói kèm theo Thành phần ứng dụng desktop được gọi là cơ sở dữ liệu CỤC
BỘ và cơ sở dữ liệu cài đặt trên máy chủ đặt tại TCLN được gọi là CSDL trung tâm Cơ chế đồng bộ dữ liệu đảm bảo dữ liệu lưu trữ trong cơ sở dữ liệu CỤC BỘ nhất quán với dữ liệu lư trữ trong cơ sở dữ liệu TRUNG TÂM Việc đồng bộ dữ liệu được thực hiện thông qua thành phần đồng bộ dữ liệu
Hình 3.2 minh họa việc triển khai thành phần đồng bộ
Hình 3.2: Mô hình triển khai SymmetricDS
Thành phần đồng bộ dữ liệu phía ứng dụng khách, có tên là Client, được tích hợp với ứng dụng Báo cáo của Thành phần ứng dụng desktop Chức năng quan lý quá trình đồng bộ là một phần của ứng dụng Báo cáo chạy trên máy tính cục bộ
Thành phần đồng bộ dữ liệu phía ứng dụng chủ, có tên là Server, được cài đặt trên máy chủ trung tâm và được kết nối với SymmetricDS-Client thông qua mạng Internet để đồng bộ dữ liệu
SymmetricDS-Có 2 hướng đồng bộ:
1) từ cơ sở dữ liệu trung tâm đến cơ sở dữ liệu cục bộ;
2) Từ các cơ sở dữ liệu cục bộ đến cơ sở dữ liệu trung tâm: