Nghiên cứu một số vấn đề về tích hợp dữ liệu

Thực thi truy vấn trên kho dữ liệua Kho dữ liệu Data Warehouse Các công cụ ETL lấy dữ liệu theo định kỳ Hệ quản trị CSDL Warehouse Các bảng DL Warehouse Truy vấn trên lược đồ Warehouse D

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Trang 2

MỤC LỤC

CHƯƠNG 1 - GIỚI THIỆU 6

1.1 Định nghĩa tích hợp dữ liệu 6

1.2 Tích hợp dữ liệu – Xu hướng thời đại Động lực cho việc phát triển các hệ thống tích hợp dữ liệu 8

1.3 Tình hình nghiên cứu về tích hợp dữ liệu 12

1.4 Mục tiêu của luận văn 14

1.5 Giới thiệu các phần của luận văn 14

CHƯƠNG 2 - MỘT SỐ VẤN ĐỀ CƠ BẢN CỦA TÍCH HỢP DỮ LIỆU 16

2.1 Những đặc trưng của nguồn dữ liệu trong tích hợp dữ liệu 16

2.1.1 Tính hỗn tạp 16

2.1.2 Tính phân tán 18

2.1.3 Tính tự trị 21

2.2 Kiến trúc hệ thống tích hợp dữ liệu 22

2.3 Khuôn mẫu và mô hình dữ liệu 29

2.3.1 Các nguồn dữ liệu 29

2.3.2 Chuẩn trao đổi dữ liệu XML 32

2.4 Truy vấn trong tích hợp dữ liệu 41

2.4.1 Mô hình và ánh xạ dữ liệu 43

2.4.1.1 Datalog 46

2.4.1.2 Mô hình ánh xạ các nguồn dữ liệu 46

2.4.1.3 Sử dụng thông tin dựa trên xác suất 50

2.4.2 Viết lại câu truy vấn 51

2.4.2.1 Trả lời truy vấn dựa trên các khung nhìn 52

2.4.2.2 Tính đầy đủ và phức tạp trong việc tìm câu truy vấn viết lại 53

2.4.2.3 Các thuật toán tính toán lại 54

2.4.3 Bộ đánh giá và bộ thực thi truy vấn 59

2.4.4 Trình bao bọc 61

Trang 3

CHƯƠNG 3 - KHẢO SÁT MỘT SỐ HỆ THỐNG TÍCH HỢP DỮ LIỆU 63

3.1 XQuare Bridge/Fusion 63

3.2 DB2 Information Integrator (IBM) 67

3.3 Tukwila (University of Washington) 70

CHƯƠNG 4 - QUI TRÌNH PHÁT TRIỂN HỆ THỐNG TÍCH HỢP DỮ LIỆU 76

KẾT LUẬN 93

TÀI LIỆU THAM KHẢO 95

Trang 4

DANH MỤC HÌNH ẢNH

Hình 1.1: Kho dữ liệu (a) là bản sao dữ liệu tất cả các nguồn (offline) và quá trình thực thi truy vấn trên kho dữ liệu Hệ thống tích hợp dữ liệu ảo (b) thể hiện một lược đồ trung gian ảo có thể lấy dữ liệu thực tế từ các nguồn dữ liệu

10

Hình 2.1 Lược đồ kiến trúc tích hợp dữ liệu Ứng dụng và giao diện người dùng cho truy vấn dưới dạng lược đồ trung gian Bộ tính toán lại sử dụng dữ liệu từ nhiều nguồn và viết lại câu truy vấn này để liên hệ với các nguồn dữ liệu thật Bộ xử lý truy vấn sẽ tìm một kế hoạch tối ưu nhất để thực thi câu truy vấn này Sau đó lấy dữ liệu từ các nguồn (trong một số trường hợp thông qua các bộ chuyển hoặc các điểm lưu trữ) và chúng được kết hợp trả về câu trả lời toàn diện nhất 23

Hình 2.2: Một tài liệu XML mẫu thể hiện dữ liệu book và publisher 33

Hình 2.3: Đồ thị XML-QL cho hình 2.2 Các cạnh nét gạch nối thể hiện IDREFS; Các cạnh nét chấm điểm thể hiện PCDATA 34

Hình 2.4: Thể hiện mô hình dữ liệu XQuery đơn giản cho hình 2.2 Các cạnh nét gạch nối thể hiện mối liên hệ định nghĩa bằng IDREFS; các cạnh nét chấm điểm chỉ tới các điểm văn bản 36

Hình 2.5: Câu truy vấn XQuery tìm tên những nguời có tài liệu xuất bản Lệnh FOR xác định Xpath duyệt trên cây XML, và trả về giá trị cây con trong các biến (có tiền tố là dấu $) 38

Hình 2.6: Kết quả của việc truy vấn từ hình 2.5 với dữ liệu XML trong hình 2.2 Kết quả là một tập giá trị person-publisher, kết quả đó được nằm trong một thành phần gốc ”result” 39

Hình 2.7: Lược đồ ánh xạ trong hệ tích hợp dữ liệu 42

Hình 2.8: Kiến trúc lược đồ toàn cục và bộ trung gian 43

Hình 2.9: Các bước trong xử lý câu truy vấn 44

Hình 2.10: Ví dụ về viết lại truy vấn 51

Hình 3.1: Kiến trúc của XQuare Bridge 64

Trang 5

Hình 3.2: Kiến trúc của XQuare Fusion 65

Hình 3.3: Quá trình thực hiện XQuery 66

Hình 3.4: Công nghệ tích hợp dữ liệu trong DB2 II 68

Hình 3.5: DB2 Information Integrator sử dụng wrapper 69

Hình 3.6: Kiến trúc của hệ thống tích hợp thông tin Tukwila 71

Hình 3.7: Kiến trúc của phần thực thi truy vấn Tukwila Sau khi bản đồ truy vấn đến từ bộ đánh giá, dữ liệu được đọc từ các nguồn XML và chuyển thành các bộ kết quả nhờ phép toán x-scan Các cây con được lưu trữ trong một phần quản lý cây, và các bộ kết quả chứa các liên hệ tới các cây này Phép toán truy vấn kết nối các cây và thêm các thẻ thông tin, sau đó chúng được đưa vào một bộ sinh XML và trả về một chuỗi kết quả XML 73

Hình 4.1 Các bước phát triển một hệ thống tích hợp dữ liệu 76

Hình 4.2: Ví dụ một hệ thống tích hợp dữ liệu 80

Hình 4.3: Các tình huống lấy thông tin từ 2 nguồn dữ liệu 82

Hình 4.4: Tình huống lấy giao và hợp từ 2 nguồn dữ liệu 82

Hình 4.5: Tình huống lấy giao dữ liệu toàn bộ trong B 83

Hình 4.6: Qúa trình truy vấn thông tin 84

Trang 6

CHƯƠNG 1 - GIỚI THIỆU

Tiếp cận thông tin chính xác một cách nhanh chóng trong thời đại ngày nay

là một thử thách lớn mà các tổ chức phải đương đầu VD: một nhân viên cảnh sát cấn biết liệu anh ta có quyền thực thi luật pháp trong khi nảy sinh một tình huống mới hay không, một nhân viên xã hội cần phải chắc chắn rằng những người xin trợ cấp liệu đã được hưởng một trợ cấp nào khác chưa, một thẩm phán cần nhận biết kịp thời tất cả những thông tin quan trọng chống lại bị cáo

Những trường hợp trên và vô số những tình huống khác đặt ra yêu cầu phải tiếp cận nhanh chóng với nguồn thông tin phong phú một cách chính xác mà thông thường chúng ta phải thu thập qua rất nhiều những nguồn tin khác nhau Tuy nhiên, vấn đề nảy sinh ra là: có rất nhiều nguồn cung cấp thông tin thường chỉ cho phép chúng ta có được những thông tin đặc thù của riêng các tổ chức của họ mà bỏ qua những thông tin liên quan từ nguồn bên ngoài những tổ chức ấy Bên cạnh đó, nhiều dịch vụ tin có vẻ như có những ác cảm cố hữu bởi lí do chính trị hay văn hoá trong việc chia sẻ, hợp tác và khai thác thông tin với nhau, họ thường hoạt động riêng lẻ

và tách biệt hoặc đôi khi trở thành đối thủ của nhau

Vì vậy, xảy ra một sự bùng nổ lớn về lượng dữ liệu sẵn có trên các phiên bản tin trong một vài thập kỉ gần đây Một lượng lớn các dữ liệu trên nhiều vấn đề được thu thập, tồ chức lại và lưu giữ bởi số lượng ít các cá nhân làm việc trong các tổ chức khác nhau Trong mối quan hệ với sự tăng lên mạnh mẽ về số lượng dữ liệu và những lợi ích của tích hợp dữ liệu, một hệ thống khung để thực hiện tích hợp dữ liệu từ nhiều nguồn là hết sức cần thiết

1.1 Định nghĩa tích hợp dữ liệu

Đến nay, đã có rất nhiều định nghĩa về tích hợp dữ liệu, sau đây là một trong các định nghĩa đó:

Trang 7

Theo Heimbigner, McLeod, Litwin và một số tác giả khác (tại trang 1 tài liệu [21]) thì tích hợp dữ liệu quá trình chuẩn hoá các định nghĩa dữ liệu và cấu trúc dữ liệu bằng việc sử dụng một giản đồ định nghĩa chung trên tập các nguồn dữ liệu

Theo AFT (Advanced Forest Technologies, 1997) thì mục đích của việc tích hợp dữ liệu là kết nối các dữ liệu từ các nguồn thông tin liên quan với nhau và lấy thông tin theo mục đích của người sử dụng

Theo Aurora (trang 2 tài liệu [22]), quá trình tính hợp là quá trình nối kết các

dữ liệu, thiết bị, hệ thống không đồng dạng và phân tán phục vụ cho việc tính toán dưới một khung làm việc hợp nhất Tích hợp dữ liệu được thực thi do nhiều lý do: tăng năng lực tính toán, giảm thiểu các yêu cầu bảo trì từ các hệ thống không đồng dạng, và cung cấp dữ liệu tới người dùng thông qua một giao diện duy nhất

ARF (một công ty tại NewYork, tháng 11 năm 2003 – tài liệu [15]) định nghĩa tích hợp dữ liệu là một quá trình kết nối thông tin từ hai hoặc nhiều nguồn dữ liệu khác nhau, và sử dụng các thông tin từ các nguồn dữ liệu đó tạo ra các thông tin mới phù hợp với yêu cầu của người sử dụng

Như vậy, một cách đơn giản thì việc tích hợp dữ liệu là vấn đề kết nối nhiều

nguồn dữ liệu khác nhau, và cung cấp cho người dùng một khung nhìn chung thống nhất trên tất cả các nguồn dữ liệu đó

Qua hệ thống tích hợp dữ liệu chúng ta có thể lấy thông tin từ tất cả các nguồn dữ liệu mà chúng ta mong muốn Có nghĩa là chúng ta thao tác với các nguồn

dữ liệu, lấy thông tin từ các nguồn dữ liệu với những ràng buộc giữa các nguồn dữ liệu và kết nối câu trả lời từ các nguồn dữ liệu lại với nhau rồi đưa ra câu trả lời thống nhất phù hợp với yêu cầu người sử dụng Các nguồn dữ liệu đó không có thể không nằm tập trung tại một địa điểm và cũng có thể không đồng nhất về mặt kiến trúc cũng như ngữ nghĩa của thông tin dữ liệu nằm trong đó

Trang 8

1.2 Tích hợp dữ liệu – Xu hướng thời đại Động lực cho việc phát triển các hệ thống tích hợp dữ liệu

Hơn 20 năm qua, các mô hình tính toán cơ bản cho việc xử lý dữ liệu đã tiến triển như chính sự phát triển của công nghệ tính toán luôn có sự đổi thay Chúng ta

đã dần đi từ các các máy tính cỡ lớn mainframe, đến các hệ điều hành dữ liệu của máy tính cá nhân, tới các nhóm máy chủ, tới mạng Internet Xu hướng gần đây, các nghiên cứu đã chỉ ra chúng ta có thể đi đến những cái đích xa hơn nữa thậm chí có thể vượt qua cả tầm tưởng tượng, các mô hình dựa trên tính ngang hàng trong đó tất

cả các máy cùng đồng thời sử dụng và cung cấp dữ liệu cũng như tính toán trong một mô hình phân cấp đầy đủ theo thời gian thực (tài liệu [17])

Động cơ thúc đẩy các thay đổi này không chỉ đến từ sự phát triển của phần cứng và các công nghệ mạng, mà còn đến từ một mong muốn tự nhiên là khả năng điều khiển sự phân cấp và quản trị đối với liệu và các dịch vụ máy tính Không chỉ các hệ thống tập trung thông thường có mô hình điều hành là dạng cổ chai mà các

mô hình tính toán tập trung cũng cần phải được quản trị theo mô hình này Khi dữ liệu được sở hữu và quản trị bởi các nhóm không đồng nhất và với các mục đích khác nhau, thực sự khó khăn khi chúng ta thiết kế một mô hình tập trung, các đặc trưng của nó dựa trên sự thể hiện các tiêu chuẩn trước khi nó có thể đựơc xây dựng,

và rất khó khăn có thể cập nhật theo yêu cầu của tất cả các nhân tố mới – bên ngoài Tuy nhiên, một tập hợp phân quyền của các hệ thống tự trị có thể trở nên năng động hơn, có nghĩa như một thành phần độc lập có thể được thiết kế độc tập và thiết kế lại để phù hợp với yêu cầu của các nhóm người dùng

Hiện tại, hầu hết các hãng, các viện, các cơ quan (tập hợp các thành phần, bộ phận mà chúng có tính độc lập tương đối với nhau) thông thường hoạt động không chỉ với các hệ thống dữ liệu tập trung Các thành phần con độc lập đó có thể tạo các

hệ thống các dữ liệu riêng rẽ, mỗi một lược đồ và các dữ liệu chỉ liên quan đến những gì họ cần Các nghiên cứu mới nhất chỉ ra rằng thông thường các hàng lớn có trung bình khoảng 49 cơ sở dữ liệu (trang 3, tài liệu [17]) Hơn nữa, một tổ chức dữ

Trang 9

liệu hiếm khi mô tả hết được tất cả các dữ liệu mà nó sở hữu hoặc đã thực thi, trong một số tình huống các dữ liệu thêm vào được mã hoá dưới các đinh dạng khác như: văn bản, các ứng dụng người dùng Ngày nay, các tổ chức thường phải cộng tác với nhiều các thực thể bên ngoài để nhận được sự chia sẻ thông tin một cách chính xác

Các mô hình quản trị dữ liệu thông thường cho hệ thống tập hợp phân quyền

tự trị và không đồng nhất phải chấp nhận một vấn đề sau: không còn một điểm duy nhất để truy cập các dữ liệu mà tại đó dữ liệu được truy vấn và phân tích Phải kết hợp tính mềm dẻo và tính hỗ trợ một phối cảnh chung và duy nhất để xây dựng hệ truy vấn trên nhiều nguồn dữ liệu

Trong tích hợp dữ liệu đưa ra 2 cách giải quyết vấn đề này, đó là: phương pháp kho dữ liệu (data warehousing) và phương pháp tích hợp dữ liệu ảo (virtual data integration) Cả hai phương pháp này đều làm việc trên một tập các nguồn dữ liệu phi tập trung liên quan cùng đến một lĩnh vực, và phát triển chúng thành một lược đồ duy nhất (trung gian) cho lĩnh vực đó Trong quá trình trên, tập các kết quả biển đổi hoặc các ánh xạ nguồn dữ liệu được xác định để mô tả mối liên hệ giữa nguồn dữ liệu và lược đồ trung gian

So sánh giữa tích hợp dữ liệu ảo và kho dữ liệu

Sự khác biệt mang tính cơ bản giữa phương pháp tích hợp dữ liệu và kho dữ liệu là giữa tính “năng động” và sự “lười nhác” Trong kho dữ liệu, điều mong muốn nhất là các dữ liệu ít thay đổi hoặc các khung nhìn tích hợp không cần thiết là

dữ liệu hiện tại ở các nguồn và hầu hết các câu hỏi quan trọng được đặt ra trên khung nhìn tích hợp dữ liệu này Vì thế, tất cả nội dung của lược đồ toàn cục được tính toán trước (bằng các định lượng tất cả các ánh xạ nguồn), chúng được lưu trữ trong một cơ sở dữ liệu riêng biệt “Warehouse” và sau đó được sử dụng để truy vấn

Trang 10

Thực thi truy vấn trên kho dữ liệu

a) Kho dữ liệu (Data Warehouse)

Các công cụ ETL lấy dữ liệu theo định kỳ

Hệ quản trị CSDL Warehouse

Các bảng

DL Warehouse

Truy vấn trên lược đồ Warehouse

Dữ liệu trong Định dạng chung

Hệ thống tích hợp dữ liêu

Truy vấn trên lược đồ trung gian

Kết quả

Lược đồ trung gian ảo

Thực thi truy vấn trực tiếp trên trình bao bọc nguồn dữ liệu

On Demand

b) Hệ thống tích hợp dữ liệu ảo (Virtual Data Integration System)

Hình 1.1: Kho dữ liệu (a) là bản sao dữ liệu tất cả các nguồn (offline) và quá trình thực thi truy vấn trên kho dữ liệu Hệ thống tích hợp dữ liệu ảo (b)

Trang 11

thể hiện một lƣợc đồ trung gian ảo có thể lấy dữ liệu thực tế từ các nguồn dữ liệu

Sự tập trung của phương pháp kho dữ liệu nhằm vào cách thiết kế, bảo trì và đánh chỉ số vật lý của kho chứa, làm thế nào để chúng ta thực thi các câu truy vấn

dữ liệu một cách hợp lý nhất Quá trình cập nhật, làm mới kho chứa thông thường là đắt và làm thủ công ở dạng offline - sử dụng các công cụ ETL (chiết xuất, biến đổi,

và chất chở)

Phương pháp tích hợp dữ liệu ảo thay thế trong các tình huống kho dữ liệu không có tính thực tế, quá đắt, hoặc không khả thi: ví dụ, khi truy vấn chỉ yêu cầu một phần dữ liệu rất nhỏ, dữ liệu thay đổi nhanh, dữ liệu thời gian thực được yêu cầu, các đối tác cung cấp dữ liệu chỉ sẵn sàng cho quyền giới hạn để truy nhập dữ liệu, hoặc bản thân lược đồ toàn cục thay đổi thường xuyên Trong khung nhìn tích hợp dữ liệu, lược đồ toàn cục thực ra là một thực thể logic, ảo (các truy vấn đặt ra

và được viết lại một cách tự động và chuyển đến các nguồn dữ liệu thực tế) và dữ liệu được lấy từ các nguồn (thông qua các trình bao bọc) rồi kết hợp với nhau Tích hợp dữ liệu ảo ngày càng được quan tâm và nghiên cứu trong các năm gần đây, bởi

vì nó có rất nhiều ích lợi: nó có khả năng hỗ trợ các nguồn dữ liệu cho phép ít quyền truy nhập, hỗ trợ một khung nhìn sống (live) của môi trường dữ liệu, nó có thể thể hiện nhiều phiên bản của lược đồ trung gian tại cùng 1 thời điểm (ví dụ: khả năng duy trì tương thích với các các câu truy vấn)

Một điều trở ngại tiềm tàng của phương pháp tích hợp dữ liệu là việc kiểm tra sự đúng đắn của dữ liệu và các phép toán đối sánh ngữ nghĩa giữa các nguồn dữ liệu là rất khó khăn để thực thi một cách trực tiếp trong quá trình; một lý do nữa là tích hợp dữ liệu có thể gặp khó khăn trong việc chất chở dữ liệu từ các nguồn dữ liệu – đó là vấn đề truyền thông trong mạng Đối với các vấn đề này, một thể hiện là

sự kết hợp giữa khả năng tính toán trước của mô hình kho dữ liệu và khả năng của tích hợp dữ liệu ảo là điều mong muốn

Trang 12

1.3 Tình hình nghiên cứu về tích hợp dữ liệu

Tích hợp dữ liệu là một chủ đề được nghiên cứu từ những thập niên 80 John Miles Smith (trang 145 và 185 tài liệu [17]) và các tác giả khác đã đưa ra vấn đề

“Tích hợp các hệ thống cơ sở dữ liệu phân tán và hỗn tạp” tại hội thảo quốc gia về máy tính năm 1981 Thời điểm này việc tích hợp dựa trên các hệ thống cơ sở dữ liệu, đây là những bước đi đầu tiên trong lĩnh vực này Tuy nhiên, điểm khác biệt lớn nhất của hệ thống tích hợp dữ liệu là khả năng làm việc với các nguồn dữ liệu không phải là cơ sở dữ liệu (ví dụ: các trang web, các file văn bản …)

Sự phát triển của World Wide Web và Internet đã đưa tích hợp dữ liệu thành một trong những nội dung nghiên cứu phổ biến vào giữa thập niên 90 Trong thực

tế, tích hợp dữ liệu không chỉ là vấn đề quan tâm của các nhà nghiên cứu về cơ sở

dữ liệu mà bên cạnh đó các cộng đồng trí tuệ nhân tạo cũng tham gia vào lĩnh vực này Cụ thể là các tác giả như Oren Etzioni, Daniel Weld, Yigal Arens, Craig A Knoblock, … đều đến từ lĩnh vực AI Các tác giả này chủ yếu tập trung vào việc lập

kế hoạch định hướng cho tích hợp dữ liệu, ví dụ như tìm các bản đồ truy vấn thích hợp (đưa ra các giới hạn trên đầu vào tại các nguồn dữ liệu), và tối ưu hoá bản đồ truy vấn đó Một số tài liệu đã đề cập tới việc ánh xạ các nguồn tới lược đồ trung gian, sử dụng kỹ thuật lập kế hoạch và suy diễn để dịch các câu truy vấn

Một chủ đề khác được tập trung là việc phát triển các trình bao bọc, trình bao bọc có khả năng biến đổi dữ liệu và các câu truy vấn giữa định dạng các nguồn dữ liệu và hệ thống tích hợp dữ liệu Các kỹ thuật được tập trung cho việc phát triển khả năng học tự động của trình bao bọc Tuy nhiên, các yêu cầu trong trình bao bọc ngày nay được giảm thiểu do sự ra đời của chuẩn trao đổi dữ liệu XML

Các nhà nghiên cứu về cơ sở dữ liệu cũng đã mất nhiều năm tập trung vào việc nghiên cứu vấn đề liên kết các cơ sở dữ liệu phân tán trước khi hiện tượng Web phát triển mạnh Các kết quả đầu tiên của những nỗ lực này là hệ thống System-R

và Distributed INGRES, cả hai hệ thống này thực hiện cho các cơ sở dữ liệu phân

Trang 13

tán nằm trong mạng cục bộ LAN Đã có nhiều nghiên cứu để tăng cường khả năng của 2 hệ thống này như hệ thống Mariposa, Stonebraker song chúng đều không thành công Cùng thời điểm này, các hệ cơ sở dữ liệu phân tán đơn giản ra đời như Oracle, DB2, Informix… Bên cạnh đó các chuẩn như ODBC và OLE-DB được công bố làm thay đổi một phần khả năng trao đổi dữ liệu giữa các cơ sở dữ liệu với nhau Chính những nghiên cứu này cũng đã tạo ra những nền tảng để phát triển hơn nữa hệ thống tích hợp dữ liệu sau này

Hệ thống Stanford TSIMMIS (năm 1997) là một trong những hệ thống đầu tiên hỗ trợ mô hình dữ liệu bán cấu trúc Các hệ thống khác như Hermes, IPRODB, Carnot … đều cố gắng sử dụng khung nhìn toàn cục để tiếp cận lược đồ trung gian: một lược đồ trung gian được định nghĩa như một khung nhìn trên các nguồn dữ liệu

Hệ thống Information Manifold (năm 1996) ra đời đóng một vai trò rất ý nghĩa, nó đã truyền bá khuôn dạng khung nhìn cục bộ Với cách tiếp cận này hệ thống đã tạo ra một khẳ năng xử lý mềm dẻo trong việc thực hiện tính toán lại truy vấn (việc thêm vào các nguồn dữ liệu rất đơn giản, và các nguồn dữ liệu không đầy

đủ cũng có thể đưa vào mô hình …)

Ngày nay, việc nghiên cứu tích hợp dữ liệu tập trung nhiều vào lĩnh vực thương mại điện tử Các hệ thống tích hợp dữ liệu ngày một mạnh mẽ và linh hoạt hơn Các trường đại học lớn như Washington, nhiều hãng lớn như IBM, Oracle … cũng đã và đang có những bước nghiên cứu mạnh mẽ trong lĩnh vực này

Ở Việt Nam vấn đề nghiên cứu tích hợp dữ liệu đang là một trong những nội dung mới Các lĩnh vực như ngân hàng, địa lý, quân đội … cũng đang quan tâm đến các sản phẩm trong lĩnh vực tích hợp dữ liệu, song việc phát triển nghiên cứu trong lĩch vực này chưa được tập trung

Trang 14

1.4 Mục tiêu của luận văn

Tích hợp dữ liệu là một lĩnh vực trong công nghệ thông tin đang được nghiên cứu rất nhiều trên thế giới Qua luận văn này, tác giả mong muốn đưa ra một cái nhìn tổng quan về nội dung này Từ đó chúng ta nhìn thấy sự cần thiết của tích hợp

dữ liệu và khả năng ứng dụng tích hợp dữ liệu cho các hệ thống thực tế tại Việt Nam Trong luận văn này, tác giả cũng đưa ra các bước chính trong việc xây dựng một hệ thống tích hợp dữ liệu

Trong luận văn tác giả tập trung giải quyết tích hợp dữ liệu theo phương pháp tích hợp dữ liệu ảo Phương pháp này cho phép truy vấn và lấy thông tin trên nhiều nguồn dữ liệu hỗn tạp và tự trị theo thời gian thực

1.5 Giới thiệu các phần của luận văn

Luận văn được chia thành làm 4 chương

Các thông tin, định nghĩa về tích hợp dữ liệu, tầm quan trọng cũng như tình

hình nghiên cứu về tích hợp dữ liệu hiện nay được mô tả trong CHƯƠNG 1

Trong CHƯƠNG 2 là các nội dung cơ bản của tích hợp dữ liệu Kiến trúc

một hệ thống tích hợp dữ liệu nói chung, các vấn đề về khuôn mẫu và các mô hình trong tích hợp dữ liệu, các vấn đề về truy vấn dữ liệu trong hệ thống như thế nào sẽ được làm rõ trong chương này Phần khuôn mẫu trong chương sẽ đề cập tới chuẩn trao đổi dữ liệu XML Đây là một chuẩn được sử dụng phổ biến hiện nay và cũng là một chuẩn trao đổi dữ liệu chính của các hệ thống tích hợp dữ liệu Trong chương này, các lược đồ hệ thống tích hợp dữ liệu cũng được phân tích và trình bày kỹ

CHƯƠNG 3 là giới thiệu, mô tả các một số hệ thống tích hợp hiện có như

là XQuare, DB2 II, Tukwila

Trang 15

Trong CHƯƠNG 4 tác giả đề xuất và đưa ra các bước cơ bản để xây dựng

một hệ thống tích hợp dữ liệu đơn giản Đây là quá trình kết hợp nghiên cứu từ việc quản lý dự án và các kiến trúc của hệ tích hợp dữ liệu

Tiếp theo của luận văn là phần KẾT LUẬN Phần này điểm lại một số kết

quả đạt được và các vấn đề cần giải quyết tiếp trong lĩnh vực tích hợp dữ liệu Cuối cùng là đầu mục các tài liệu tham khảo, các tài liệu được xếp theo thứ tự tên tác giả

Trang 16

CHƯƠNG 2 - MỘT SỐ VẤN ĐỀ CƠ BẢN CỦA TÍCH HỢP DỮ LIỆU

Chương này bao gồm 4 phần, phần đầu là những đặc trưng của nguồn dữ liệu trong tích hợp dữ liệu Phần thứ hai là kiến trúc của hệ tích hợp dữ liệu Phần thứ ba

là khuôn mẫu và mô hình dữ liệu Phần cuối là vấn đề truy vấn trong tích hợp dữ liệu

2.1 Những đặc trưng của nguồn dữ liệu trong tích hợp dữ liệu

Để làm rõ nét đặc trưng của nguồn dữ liệu trong hệ pháp tích hợp dữ liệu chúng ta sẽ phân tích theo ba hướng: tính phân tán, tính hỗn tạp và tính tự trị của các nguồn dữ liệu (theo tài liệu [9])

2.1.1 Tính hỗn tạp

Tính hỗn tạp (không đồng nhất) của các nguồn dữ liệu được tích hợp là một trong những nội dung quan trọng cần giải quyết trong tích hợp dữ liệu Vấn đề mà chúng ta cần vượt qua nhất là làm thế nào hỗ trợ khả năng tích hợp từ các nguồn,

mà trong đó các dữ liệu được tích hợp có các mức khác biệt về cấu trúc, về ngữ nghĩa Chúng ta có thể phân loại tính hỗn tạp này theo các đặc tả sau:

+ Sự hỗn tạp về hệ thống, kỹ thuật, bao gồm cơ sở hạ tầng của phần cứng và phần mềm trong các hệ thống nguồn dữ liệu

 Phần cứng

 Mạng và cơ sở hạ tầng của nó

 Các giao thức và các phần mềm trung gian

 Hệ thống cơ sở dữ liệu và các hình thái lưu trữ khác

 Mô hình dữ liệu

 Ngôn ngữ và giao diện

Trang 17

Các nội dung này có thể được sắp xếp và phân chia dựa trên các chuẩn giao thức và giao diện Việc ánh xạ giữa các ngôn ngữ và giao diện khác nhau là một vấn

đề khó khăn, thậm chí ngay cả với những miền hẹp, miền cụ thể như chỉ đối với việc truy cập các cơ sở dữ liệu thông qua giao diện Web

+ Sự hỗn tạp về lược đồ: vấn đề này nảy sinh từ việc thiết kế độc lập các mô hình các hệ thống dữ liệu khác nhau Dựa trên các yêu cầu riêng của các hệ thống các mô hình dữ liệu được thiết kế theo các cách khác nhau mặc dù chúng cùng mô

tả một nội dung nào đó của thế giới thực

+ Sự hỗn tạp về ngữ nghĩa: Tính hỗn tạp về ngữ nghĩa bắt nguồn từ việc sử dụng hệ thống Nó bao gồm sự khác nhau về việc giải thích và nghĩa của các giá trị

dữ liệu, đối tượng, các phần tử lược đồ và bao gồm cả phạm vi dữ liệu trong nhiều

hệ thống khác nhau có mối liên hệ kết nối

Sự hỗn tạp về lược đồ đang là một trong những nội dung nghiên cứu rộng rãi hiện nay Sự hỗn tạp về lược đồ được phát sinh từ các kỹ thuật tích hợp lược đồ và trong các quá trình xử lý để thiết kế các lược đồ tích hợp Kỹ thuật tích hợp lược đồ

có thể được xem như là việc xác nhận giữa các lược đồ và dựa trên các định nghĩa khung nhìn, hay cao hơn nữa là các mô hình dữ liệu khác nhau Việc tích hợp lược

đồ giống như việc thiết kế lược đồ thông thường với các cấp độ tự do khác nhau, tính tiêu chuẩn cho tích hợp lược đồ là tính toàn vẹn, tính chính xác, tính tối thiểu

Trang 18

Một trong những phương pháp phân loại thô sơ cho quá trình tích hợp lược

đồ được đưa ra thông qua sự khác biệt giữa việc tích hợp lược đồ theo hướng top

down và tích hợp lược đồ theo hướng bottom up Sự khác biệt được tạo ra trong việc

phân chia này là dựa trên lược đồ mục tiêu được thiết kế để thỏa mãn các yêu cầu của ứng dụng tổng thể

Một trong những nội dung liên quan mật thiết tới tính hỗn tạp là nhu cầu về tính trong suốt trong kết quả của hệ thống tích hợp Tính trong suốt của hệ thống của hệ thống là khả năng cung cấp một giao diện thống nhất cho người dùng và ẩn tất cả các nội dung hỗn tạp trên Đối với người dùng, khi sử dụng hệ thống họ không cần quan tâm đến:

 Dữ liệu nguồn ban đầu

 Các mối liên hệ để lấy thông tin

 Các sự biến đổi hoặc cô đọng dữ liệu

 Điều hoà các xung đột dữ liệu và các xung đột hệ thống …

Đối lập với yêu cầu tính trong suốt trong các ứng dụng tích hợp là yêu cầu về tính lần vết của dữ liệu Ví dụ một người sử dụng quan tâm đến các vấn đề như: dữ liệu được đến từ đâu, chi phí và thời gian để chiết xuất dữ liệu, làm thế nào dữ liệu

có khả năng thêm các thông tin khi truy cập từ nhiều hệ thống riêng biệt nhau

2.1.2 Tính phân tán

Một trong các đặc trưng của tích hợp dữ liệu là các dữ liệu được lưu trữ ở các địa điểm khác nhau và hoạt động trên các hệ quản trị khác nhau Sự phân tán của dữ liệu trong hệ tích hợp dữ liệu khác với sự phân tán trong cơ sở dữ liệu phân tán (tổng thể được thiết kế từ ban đầu, trong hệ cơ sở dữ liệu phân tán thì vai trò của tĩnh hỗn tạp và tự trị không quan trọng), các nguồn dữ liệu được thiết kế độc lập và phục vụ cho các ứng dụng cụ thể khác nhau Các phương pháp tiếp cận để giải quyết vấn đề phân tán đều có những điểm chung sau:

Trang 19

 Phải tạo ra một khung nhìn trong suốt đối với vị trí vật lý của dữ liệu

 Chấp nhận và đối mặt với tính tự trị của nguồn dữ liệu

 Xử lý truy vấn phân tán kèm theo các ràng buộc khác nhau

 Độc lập về phần cứng, phần mềm và truyền thông mạng, …

Đối mặt với vấn đề phân tán dữ liệu và dựa trên vị trí vật lý của tập dữ liệu kết quả được tích hợp có hai phương pháp tiếp cận chính trong tích hợp dữ liệu được xây dựng ( trang 16 tài liệu [9])

Phương pháp tích hợp cụ thể (materialised integration) Phương pháp này

sao chép các dữ liệu từ các nguồn và lưu trữ chúng tại một kho chứa (warehouse) Phương pháp này còn gọi là phương pháp kho dữ liệu (Data Warehouse), vì nó là đại diện đặc trưng nhất cho phương pháp này Ích lợi của phương pháp kho dữ liệu

là có thể thực hiện truy vấn trực tiếp trên nguồn dữ liệu đã được tích hợp bởi nó đã nằm trong kho chứa Điểm bất lợi của phương pháp này đến cùng với tính tự trị của nguồn dữ liệu, phương pháp này không thích hợp với các dữ liệu có tính thay đổi liên tục và cần truy vấn theo thời gian thực Có 3 bước quan trọng trong việc xây dựng và bảo trì một kho chứa dữ liệu là: (1) mô hình và thiết kế Trong bước thiết

kế kho dữ liệu những người phát triển cần xác định thông tin nào từ mỗi nguồn sẽ được sử dụng trong kho chứa và khung nhìn nào (truy vấn) trên các nguồn sẽ được thực thi, và lược đồ toàn cục nào trong kho chứa được xác định sẵn; (2) vấn đề bảo trì (làm mới dữ liệu) Làm thế nào để khởi tạo kho dữ liệu và làm thế nào để làm mới kho dữ liệu khi dữ liệu tại một nguồn nào đó được cập nhật (3) các phép toán Các phép toán trong phương pháp kho dữ liệu bao gồm xử lý truy vấn, lưu trữ và đánh chỉ mục

Phương pháp tích hợp ảo (Virtual integration) Trong phương pháp này dữ

liệu được truy cập từ các nguồn theo yêu cầu khi chúng ta đưa một truy vấn và hệ thống tích hợp dữ liệu Có hai kiến trúc trong việc tích hợp các nguồn dữ liệu sử dụng phương pháp tích hợp ảo đó là: hệ thống kết hợp cơ sở dữ liệu và hệ thống

Trang 20

trung gian Hệ thống kết hợp cơ sở dữ liệu là một trong những hệ thống đầu tiên trong lĩnh vực tích hợp dữ liệu, nó bao gồm các khả năng: tích hợp lược đồ; ngôn ngữ truy vấn đa cơ sở dữ liệu; xử lý và đánh giá truy vấn trong hệ đa cơ sở dữ liệu;

xử lý giao dịch giữa các thành phần của hệ thống; có khả năng tích hợp các hệ

thống không phải là hệ thống cơ sở dữ liệu Hệ thống trung gian có khả năng tích

hợp các nguồn dữ liệu hỗn tạp (có thể là cơ sở dữ liệu, các dịch vụ hệ thống, các nguồn dữ liệu Web, …) bằng cách cung cấp một khung nhìn ảo trên tất cả những dữ liệu này Người dùng có thể hỏi một câu truy vấn tới hệ thống trung gian mà không cần phải biết về trị trí các nguồn dữ liệu cụ thể, các lược đồ hay các phương pháp truy cập, bởi vì hệ thống đã cung cấp một lược đồ toàn cục tới người sử dụng Các thành phần chính của một hệ thống trung gian bao gồm bộ trung gian (mediator) và các trình bao bọc (wrapper) cho mỗi một nguồn dữ liệu Bộ trung gian (đôi khi còn gọi là bộ tích hợp) thực hiện các chức năng sau trong hệ thống: (1) nhận câu truy vấn ban đầu từ hệ thống; (2) chia câu truy vấn thành các câu truy vấn con độc lập dựa trên mô tả các nguồn dữ liệu; (3) đánh giá và thực thi bản đồ truy vấn dựa trên

mô tả nguồn dữ liệu; (4) gửi câu truy vấn con tới trình bao bọc Trình bao bọc sẽ thực thi câu truy vấn trên các nguồn dữ liệu cụ thể và lấy kết quả trả về cho bộ trung gian Bộ trung gian kết nối tất cả các câu trả lời cho bản đồ truy vấn thành kết quả cuối cùng và trả lời câu truy vấn ban đầu cho hệ thống

Do tính phân tán của dữ liệu nên quá trình xử lý truy vấn là phức tạp và khó khăn Đã có rất nhiều các đề tài nghiên cúu về nội dung xử lý truy vấn này, tất cả các nghiên cứu đều gặp phải các điểm sau:

 Việc viết lại truy vấn giống như việc biến đổi truy vấn dựa trên các ánh

xạ lược đồ Các phép biến đổi này là rất phức tạp và có thể không dựa trên các phép toán chuẩn (như của ngôn ngữ SQL)

 Trong quá trình kết hợp các mô hình dữ liệu, các ngôn ngữ và các giao diện tự trị và hỗn tạp thì khả năng truy vấn của các nguồn dữ liệu được tích hợp có thể khác nhau

Trang 21

 Việc ước tính truy vấn và kết quả của biến đổi truy vấn có thể khác nhau giữa các hệ thống

 Quá trình truyền dữ liệu thông qua mạng giống như các đường ống dạng thắt nút cổ chai Do đó, tính tổi thiểu của giao thông mạng trở thành một trong những điểm chính trong quá trình đánh giá truy vấn, và các thuật toán riêng biệt để giải quyết việc xử lý dữ liệu theo đường ống và song song được yêu cầu

 Sự thiếu thông tin về thống kê dữ liệu cho việc đánh giá truy vấn đã trở thành một vấn đề của đánh giá truy vấn

 Trong quá trình truyền thông các cơ sở dữ liệu tự trị, các thành phần hệ thống có thể có hoặc không cho phép việc xử lý truy vấn, thậm chí có những trường hợp mất kết nối trong quá trình thực thi một câu truy vấn

2.1.3 Tính tự trị

Đặc điểm quan trọng thứ ba, đó là các nguồn dữ liệu có tính tự trị Tính tự trị liên quan đến mặt điều khiển và phản ánh tính độc lập giữa các nguồn hệ thống dữ liệu Sự khác nhau giữa các hệ thống đó như việc thiết kế, việc thực hiện, và các toán tử

Tự trị về thiết kế: phản ánh tính độc lập trong việc thiết kế hệ thống Đó là độc lập về:

 Hệ thống quản trị dữ liệu và các mô hình dữ liệu

 Các lược đồ và các ràng buộc

 Các toán tử kèm theo

 Không gian bao hàm và ngữ nghĩa của dữ liệu

Tự trị về truyền thông: liên quan đến khả năng các hệ thống nguồn dữ liệu truyền thông với các hệ thống khác, ví dụ như khi nào và như thế nào để đáp ứng

Trang 22

các yêu cầu Điều này cũng có thể hiểu theo khả năng của các hệ thống nguồn dữ liệu lúc nào thì kết nối hoặc cắt kết nối với hệ thống tích hợp

Tự trị về thực thi: Các hệ thống được thực thi một cách độc lập với nhau

Tự trị về kết hợp: Thể hiện khả năng hệ thống độc lập quyết định mức độ cũng như các chức năng chia sẻ với các hệ thống khác Điều này bao gồm dữ liệu được quản lý bởi hệ thống, một phần của lược đồ hay một tập con của nội dung sẽ được chia sẻ

Tính tự trị nói chung đã tạo nên những thách thức làm cho tích hợp dữ liệu trở thành một nhiệm vụ phức tạp Tính tự trị thiết kế tạo ra sự hỗn tạp của hệ thống

và lược đồ Tính tự trị về truyền thông, thực thi, kết hợp làm cho quá trình xử lý các toán tử toàn cục trở nên khó khăn

2.2 Kiến trúc hệ thống tích hợp dữ liệu

Như đã trình bày trước đây, các thuộc tính trọng tâm của hệ tích hợp dữ liệu

đó là khả năng tích hợp, tạo ra một lược đồ trung gian cho người dùng truy vấn, khả năng biên dịch, tính toán lại câu truy vấn ban đầu để lấy thông tin từ các nguồn dữ liệu dựa trên mối liên hệ của chúng với lược đồ dữ liệu trung gian, và khả năng thực hiện các truy vấn và điều khiển tại các nguồn cơ sở dữ liệu Một hệ thống tích hợp

dữ liệu là sự biến đổi và mang hầu hết các tính chất của hệ cơ sở dữ liệu tiêu chuẩn:

nó có hoặc rất ít các hệ thống lưu trữ vật lý con, và thường không chứa các cập nhật nhanh, nhưng nó cần khả năng biên dịch truy vấn và khả năng lấy dữ liệu từ các nguồn dữ liệu từ xa Các thành phần chính của hệ tích hợp dữ liệu được thể hiện như hình 2.1, chúng gồm có những nội dung sau:

Trang 23

Ứng dụng hoặc các giao diện người dùng

Bộ tính toán lại truy vấn

(Viết lại và lựa chọn nguồn dữ liệu)

Kết quả Danh sách

Tính toán lại câu truy vấn

Điểm chứa

Hình 2.1 Lược đồ kiến trúc tích hợp dữ liệu Ứng dụng và giao diện người dùng cho truy vấn dưới dạng lược đồ trung gian Bộ tính toán lại sử dụng dữ liệu từ nhiều nguồn và viết lại câu truy vấn này để liên hệ với các

Trang 24

nguồn dữ liệu thật Bộ xử lý truy vấn sẽ tìm một kế hoạch tối ưu nhất để thực thi câu truy vấn này Sau đó lấy dữ liệu từ các nguồn (trong một số trường hợp thông qua các bộ chuyển hoặc các điểm lưu trữ) và chúng được kết hợp trả về câu trả lời toàn diện nhất

Ứng dụng hoặc các giao diện người dùng

Thông thường, hệ thống gồm một giao diện có khả năng khởi tạo truy vấn và tổng kết các thông tin trả về một cách linh động, giao diện người dùng dựa trên chuẩn GUI, ứng dụng người dùng hợp lý, hoặc một ứng dụng dựa trên nền Web Thông thường thì các dữ liệu yêu cầu được khởi tạo trước khi có câu trả lời do đó

nó có thể cung cấp thông tin phản hồi nhanh hơn tới người dùng Hơn nữa, nhiều ứng dụng được đặt ở chế độ đặc biệt, các câu truy vấn con có thể kết thúc trước khi chúng hoàn thành

Bộ tính toán lại câu truy vấn

Câu truy vấn ban đầu được viết dưới dạng một lược đồ gián tiếp, một lược đồ đơn thống nhất Lược đồ sẽ được điều chỉnh dựa trên các mối quan hệ giữa lược đồ chung và các nguồn dữ liệu trên cơ sở định nghĩa khung nhìn

Có hai loại công nghệ được đề cập (xem thêm tại tài liệu [13]): local-as-view (khung nhìn cục bộ) định nghĩa nguồn dữ liệu như là khung nhìn trên lược đồ trung gian, global-as-view (khung nhìn toàn cục) định nghĩa lược đồ trung gian như là khung nhìn dựa trên các nguồn dữ liệu Lược đồ khung nhìn toàn cục có ưu điểm là các câu truy vấn lược đồ trung gian có thể dễ dàng kết hợp với định nghĩa khung nhìn (”trải ra”) để có được câu truy vấn đầy đủ Khung nhìn cục bộ yêu cầu sự phức tạp nhiều hơn trong vấn đề tính toán lại câu truy vấn, nhưng nó có khả năng thể hiện một cách có ý nghĩa hơn – và hầu hết các hệ tích hợp hiện đại đều sử dụng nó (hoặc một mô hình lai giữa hai công nghệ)

Trang 25

Hiện nay, vấn đề thuật toán tính toán lại truy vấn là một trong những nội dung nghiên cứu chính tại đại học Washington Các thuật toán phổ biến ra đời tại đại học này là thuật toán Bucket và thuật toán Minicon

Vấn đề tính toán lại truy vấn hiện nay được thực hiện trên truy vấn liên kết

và hầu hết trong dữ liệu quan hệ Tuy nhiên, hầu như các mô hình dữ liệu tự nhiên đều phù hợp với chuẩn trao đổi dữ liệu XML, kể từ khi chuẩn dữ liệu này đủ thông dụng để hoà hợp với các nguồn dữ liệu như hướng đối tượng, văn bản, và dữ liệu quan hệ XQuery là chuẩn ngôn ngữ được phát triển bởi XML, ngôn ngữ này được xây dựng để thực hiện truy vấn trong các tài liệu XML và nó đang được nghiên cứu

và xác định là có thể thể hiện câu truy vấn trong hệ tích hợp dữ liệu bằng ngôn ngữ này Trong thực tế, các nghiên cứu gần đây của dự án Piazza (trang 14 tài liệu [17])

đã bắt đầu sử dụng thuật toán Minicom để làm việc với tập con liên kết của XQuery

Danh mục các nguồn dữ liệu

Danh mục các nguồn dữ liệu chứa một vài dạng kiểu siêu dữ liệu về mỗi một nguồn dữ liệu Đầu tiên là mô tả ngữ nghĩa nội dung của nguồn dữ liệu Một lượng lớn các dự án, đã từng thảo luận về việc phát triển công nghệ cho việc tự động hoặc bán tự động tạo ra các ánh xạ giữa các nguồn dữ liệu và lược đồ trung gian của hệ tích hợp dữ liệu

Kích cỡ của các nguồn dữ liệu và mặt khác là tính phân tán của dữ liệu cũng

có thể được ghi chú vào cùng với các thông tin về các ánh xạ, nhưng điều này chỉ có tính khả thi nếu như các nguồn dữ liệu hiếm khi thay đổi và nó có thể được khảo sát nhanh chóng; chúng ta thực sự không thể trông đợi đây là một tình huống thông thường được Trong một vài tình huống, hệ thống thậm chí phải có nhiều thông tin

mô tả hơn về tính gối chồng giữa các giá trị dữ liệu tại các nguồn dữ liệu khác nhau

Một mô hình cho vấn đề gối chồng mô tả khả năng rằng một giá trị dữ liệu d xuất hiện trong nguồn S1 và nó cũng được xuất hiện trong nguồn S2 Điều này có thể

Trang 26

được sử dụng như giá trị thông tin cận biên để đánh giá dữ liệu từ các nguồn dữ liệu chắc chắn

Chúng ta cần xây dựng mô tả nguồn dữ liệu và uớc tính sự phát triển giá trị

dữ liệu đối với quá trình thực thi song song với thời gian, và cung cấp một mô hình

mở rộng cho vấn đề xác định khả năng của các nguồn dữ liệu

Bộ xử lý truy vấn

Bộ xử lý truy vấn nhận được đầu ra của bộ tính toán lại truy vấn - một truy vấn trên các nguồn dữ liệu thực (có thể bao gồm các mô tả của các nguồn dữ liệu dự khuyết) – và cố gắng đánh giá và thực thi nó (trang 6 tài liệu [4]) Các bộ đánh giá truy vấn tìm kiếm cây ước lượng phép toán tốt nhất cho việc thực thi truy vấn (theo các thuộc tính cá biệt của đối tượng, ví dụ, lượng công việc, thời gian để hoàn thành), và bộ thực thi truy vấn có thể tuỳ ý ghi lại các thông tin các hồ sơ được thống kê trong danh mục các nguồn dữ liệu Chúng ta cần quan tâm đến vấn đề làm thế nào để các kỹ thuật và kênh liên lạc có thể được sử dụng để làm tăng hiệu năng cho bộ xử lý truy vấn đối với dữ liệu XML trên mạng

Trình bao bọc

Ban đầu công việc trên tích hợp dữ liệu là cố gắng để chuẩn hoá các dữ liệu trao đổi Mỗi một nguồn dữ liệu có thể có các định dạng riêng để thể hiện dữ liệu (ví dụ: ODBC từ CSDL quan hệ, HTML từ máy chủ Web, dữ liệu nhị phân từ cơ sở

dữ liệu hướng đối tượng ) Một nhiệm vụ chúng ta cần quan tâm trong hệ tích hợp

dữ liệu là làm thế nào tạo ra được trình bao bọc Một trình bao bọc là một chức năng phần mềm chấp nhận các yêu cầu dữ liệu từ hệ tích hợp dữ liệu (hoặc dữ liệu trung gian) và trả về các dữ liệu đã yêu cầu từ các nguồn; sau đó chuyển đổi từ nguồn dữ liệu dưới dạng trình bày của định dạng dữ liệu thường dùng trong lược đồ trung gian Các nghiên cứu gần đây đã thành công trong việc tạo ra các trình bọc nhanh chóng, bao gồm các công cụ cho việc tự động tạo ra trình bao bọc cho các

Trang 27

nguồn dữ liệu dạng Web dựa trên những ví dụ huấn luyện, cũng như có các bộ công

cụ dễ dàng cho việc lập trình các trình bao bọc cho các dịch vụ thông tin trên Web Ngày nay, các yêu cầu đối với trình bao bọc đã giảm đi, XML phát triển đã nhanh chóng như một định dạng chuyển đổi các nguồn dữ liệu

Nguồn dữ liệu

Nguồn dữ liệu (Data Source) là nơi chứa dữ liệu và chúng ta có thể lấy thông tin tại đó Nguồn dữ liệu có thể là một cớ sở dữ liệu, các tệp XML, các định dạng bảng tính, các file văn bản, các thông tin kết nối dữ liệu, các cấu trúc định dạng tệp tin khác … hoặc có thể là sự kết hợp của những loại trên

Trong xây dựng hệ thống, thành phần nguồn dữ liệu được sử dụng cho nhiều mục đích như trong việc xây dựng các trang web động hoặc các phần mềm quản trị nội dung… Điều này có nghĩa là, các thông tin chi tiết và loại dữ liệu trong nguồn

dữ liệu cho phép phân trang nội dung, ví dụ: tập các bảng có khả năng truy vấn Trong thực tế, nguồn dữ liệu cho phép chúng ta làm đơn giản quá trình phát sinh tự động và khai thác truy vấn dữ liệu

Thông tin trong nguồn dữ liệu thông thường được lưu trữ trong các hàng và các cột hay còn được gọi là các trường Những thông tin được sử dụng cho việc kết hợp cùng với các văn bản, các nhãn, hoặc các cấu trúc để tạo ra các trang tin phù hợp với yêu cầu của người thiết kế và người sử dụng Các trường thông tin có thể là: Họ tên, Ngày sinh, Điểm số,

Với sự phát triển dần theo thời gian, các kiểu dữ liệu không chỉ dừng lại các dạng văn bản thông thường Hiện nay có rất nhiều kiểu dữ liệu được nghiên cứu và đưa vào ứng dụng một cách mạnh mẽ Như là: kiểu dữ liệu âm thanh, kiểu dữ liệu hình ảnh, kiểu dữ liệu video, kiểu dữ liệu không gian … Trong thế giới tràn ngập thông tin như vậy, chúng ta cần phải xây dựng những công cụ thích hợp cho phép chúng ta lấy được các tri thức cần thiết để quyết định các hành động của mình

Trang 28

Các nguồn dữ liệu trong một môi trường tích hợp giống như là kết hợp các nguồn dữ liệu hiện tại, hỗn tạp và tự trị Sự chênh lệch sẽ tăng cao nếu như không một hệ thống nào được thiết kế hỗ trợ việc tích hợp, vì các điều kiện thuận lợi cho việc đánh đổi siêu dữ liệu và số liệu thống kê, đánh giá chi phí sẽ không xác định được ngay tức thời Đôi khi một số nguồn dữ liệu thậm chí sẽ không có khả năng truy vấn chính xác, ví dụ như dữ liệu XML hoặc các bảng tính Hơn nữa, trong một

số tình huống các nguồn dữ liệu có thể được điều khiển từ các thực thể bên ngoài,

mà họ lại chỉ muốn cho phép việc truy nhập một cách giới hạn về lưu lượng, và các tính toán trên nguồn đữ liệu Những hạn chế của khả năng truy cập này có thể bao gồm cả các mô hình mẫu liên kết, nơi mà các nguồn dữ liệu lấy các thông tin thường gắn với các thông tin cá nhân mang theo

Các hệ thống tích hợp dữ liệu sẽ thường xuyên nhận dữ liệu từ các nguồn với

tỷ lệ không đồng đều và có trường hợp là vô định về mặt thời gian Hệ tích hợp dữ liệu phải có khả năng hỗ trợ giải quyết các vấn đề này, có thể hệ thống sẽ phải sử dụng một địa điểm làm bộ nhớ lưu tạm thời các thông tin

Một nội dung quan trọng liên quan là các nguồn dữ liệu bên ngoài có quan

hệ ngữ nghĩa với các thực thể Dữ liệu đa nguồn có thể có cùng các thực thể (một người dùng có thể là thành viên của nhiều dịch vụ Web) Thông thường những nguồn dữ liệu khác nhau này sẽ có cách thể hiện các định danh khác nhau, và một trong những vấn đề quan trọng là xác định khi nào hai thực thể là trùng nhau hay khác nhau Vấn đề này vẫn còn chưa giải quyết được, nhưng một vài nghiên cứu ban đầu đã hoàn thành bằng cách sử dụng kỹ nghệ chiết xuất thông tin cho việc tìm kiếm sự tương tự và xác suất Tuy nhiên trong một số trường hợp, việc đối sánh ngữ nghĩa cần phải sử dụng các công thức toán để đánh giá hoặc dựa trên sự đánh giá thủ công của người sử dụng Trong những tình huống này, điều quan trọng là chúng

ta cần một định dạng dữ liệu thông dụng

Trang 29

XML đã phát triển và đóng vai trò như là một nhân tố chuẩn trong việc trao đổi thông tin, việc điều hướng tích hợp dữ liệu dựa trên nền dữ liệu XML thông qua HTTP Hầu hết các ứng dụng đều hỗ trợ các form có thể xuất định dạng XML, song các ứng dụng kế thừa có thể yêu cầu các trình bọc để xuất dữ liệu ra định dạng XML Đặc trưng của XML là khả năng mã hoá cấu trúc hoặc bán cấu trúc thông tin hầu hết các định dạng: dữ liệu quan hệ, dữ liệu hướng đối tượng, dữ liệu văn bản, thậm chí cả các dữ liệu hình ảnh

2.3 Khuôn mẫu và mô hình dữ liệu

Những năm 60 của thế kỷ 20, người ta đã bắt đầu sử dụng các công cụ tin học để tổ chức lưu trữ và khai thác các CSDL Cùng với sự phát triển vượt bậc của các công nghệ điện tử và truyền thông, khả năng thu thập, lưu trữ và xử lý dữ liệu không ngừng được nâng cao, theo đó, lượng thông tin được lưu trữ không ngừng tăng lên Theo thống kê sơ bộ cho thấy, lượng thông tin trên các hệ thống tin học cứ sau 20 tháng lại tăng gấp đôi Sự phát triển rộng khắp của các CSDL ở mọi cấp độ

đã tạo ra sự bùng nổ thông tin trên toàn cầu, và dẫn tới người ta bắt đầu đề cập đến khái niệm khủng hoảng phân tích dữ liệu Các tổ chức dữ liệu được cài đặt trên các

cơ sở dữ liệu khác nhau và có cấu trúc khác nhau lại càng làm vấn đề truy xuất các thông tin trên nhiều nguồn dữ liệu trở nên khó khăn hơn

2.3.1 Các nguồn dữ liệu

Để xây dựng được một hệ thống tích hợp dữ liệu tốt, chúng ta cần hiểu rõ chúng ta sẽ lấy thông tin từ đâu Hiện tại có rất nhiều kiểu dữ cơ sở dữ liệu:

 Cơ sở dữ liệu quan hệ

Cơ sở dữ liệu quan hệ là một trong các chuẩn kỹ thuật tiêu biểu cho các ứng dụng dùng cơ sở dữ liệu Cơ sở dữ liệu quan hệ ra đời vào những năm 1970, trọng tâm của nó là mô hình dữ liệu quan hệ Sau đó vào những năm 1976, mô hình thực thể quan hệ được đề xuất, nó đã trở thành một mô hình thuận tiện, mạnh mẽ và đơn

Trang 30

giản của lược đồ cơ sở dữ liệu quan hệ Hầu hết các hệ quản trị CSDL hiện nay đều

hỗ trợ dạng CSDL quan hệ như: SQL Server, Oracle, DB2, MySQL, MS Access,…

 Cơ sở dữ liệu hướng đối tuợng

Cơ sở dữ liệu hướng đối tượng (Object Oriented Database) là một kiểu cơ sở

dữ liệu, mà trong đó, các dữ liệu được lưu trữ dưới dạng các đối tượng Hay cơ sở

dữ liệu hướng đối tượng được xây dựng bằng cách kết hợp các yếu tố của cơ sở dữ liệu và kỹ thuật lập trình hướng đối tượng nhằm mục đích lưu trữ các đối tượng dữ liệu Từ đó, có thể tận dụng, phát huy được những ưu điểm, lợi ích, và thế mạnh của các kỹ thuật, công nghệ được sử dụng, đồng thời khắc phục những yếu điểm, khó khăn của các kiểu cơ sở dữ liệu khác

Một hệ quản trị cơ sở dữ liệu hướng đối tượng (Object Database ManagementSystem - ODBMS) là kết quả của sự kết hợp các nguyên lý của lập trình hướng đối tượng và các nguyên lý của hệ quản trị cơ sở dữ liệu Các thuật ngữ khác như OODBMS (Object Oriented Database Management System), ODB (Object Database), OODMS (Object - Oriented Database Management System), … cũng được dùng và gọi chung là ODBMS – Hệ quản trị cơ sở dữ liệu hướng đối tượng

 Cơ sở dữ liệu đa phương tiện

Cơ sở dữ liệu đa phương tiện là một tập các loại dữ liệu đa phương tiên như văn bản, hình ảnh, video, âm thanh, các đối tượng đồ hoạ….Một hệ quản trị CSDL

đa phương tiện (MDBMS) cung cấp và hỗ trợ các loại dữ liệu đa phương tiện trong việc tạo lập, lưu trữ, truy cập, truy vấn và kiểm soát

Sự khác nhau của các kiểu dữ liệu trong CSDL MULTIMEDIA có thể đòi hỏi các phương thức đặc biệt để tối ưu hoá việc lưu trữ, truy cập, chỉ số hoá và khai thác MDBMS cần phải cung cấp các yêu cầu đặc biệt này bằng cách cung cấp các

Trang 31

cơ chế tóm tắt bậc cao để quản lý các kiểu dữ liệu khác nhau cũng như các giao diện thích hợp để thể hiện chúng

 Cơ sở dữ liệu không gian

Hệ thống CSDL không gian là một tập các dữ liệu không gian Hệ thống CSDL được thiết kế để xử lý dữ liệu không gian Hệ thống CSDL không gian được

sử dụng trong nhiều lĩnh vực, từ dữ liệu không gian địa lý tới tri thức y học Khai phá dữ liệu không gian đóng một vai trò quan trọng trong việc rút ra những mô hình

và các đặc tính không gian hữu ích; nắm bắt được bản chất các mối quan hệ giữa dữ liệu không gian và dữ liệu phi không gian; biểu thị các quy tắc dữ liệu một cách chuẩn mực và ở mức khái niệm cao hơn; giúp tổ chức lại các CSDL không gian để điều chỉnh các ngữ nghĩa dữ liệu cũng như để nhận được những biểu diễn tốt hơn

Dữ liệu không gian mô tả thông tin liên quan tới không gian bao trùm bởi các đối tượng Dữ liệu bao gồm thông tin hình học (có thể là dữ liệu liên tục hoặc rời rạc) Dữ liệu rời rạc là những điểm đơn lẻ trong không gian nhiều chiều, tuy nhiên dữ liệu không gian rời rạc không giống dữ liệu phi không gian vì nó sử dụng một thuộc tính khoảng cách để định vị dữ liệu trong không gian Dữ liệu liên tục mở rộng ra một miền không gian Dữ liệu này có thể bao gồm các hình ảnh y học, miền ánh xạ hoặc các dải sao, …

Hiện nay có rất nhiều các hệ thống tích hợp dữ liệu nghiên cứu việc áp dụng

nó trong cơ sở dữ liệu không gian

 Một số loại nguồn dữ liệu khác

 CSDL quan hệ - hướng đối tượng ( object - related databases): là

một kiểu cơ sở dữ liệu lai giữa dạng quan hệ và dạng đối tượng

Trang 32

 CSDL thời gian ( temporal, and time-series data): là dạng dữ liệu

có tích hợp thuộc tính về thời gian (ví dụ: dữ liệu về thị trường chứng khoán)

 CSDL giao dịch (transaction databases): đây là cũng là một dạng

CSDL tác nghiệp, nhưng các bản ghi thường là các giao dịch Dạng dữ liệu này phổ biến trong lĩnh vực thương mại và tài chính ngân hàng

 CSDL đa chiều (Multidimentional structures, data warehouses, data smart ): là các kho dữ liệu được tập hợp, chọn lọc từ nhiều

nguồn khác nhau Dạng dữ liệu này có mang tính lịch sử (mang tính thời gian) và chủ yếu phục vụ cho quá trình phân tích cũng

như khai phá tri thức nhằm hỗ trợ quá trình ra quyết định

 Dữ liệu là các tệp tin có cấu trúc: các tệp dữ liệu cũng có thể cung

cấp dữ liệu và cho phép hệ thống lấy thông tin trên đó

 Dữ liệu trên các dịch vụ Web: chúng ta có thể truy vấn và lấy

thông tin từ các dịch vụ cung cấp thông tin trên Web thậm chí ngay cả thông tin trên trang Web

2.3.2 Chuẩn trao đổi dữ liệu XML

XML là một văn bản tài liệu, trên thực tế nó là một tập con của ngôn ngữ SGML sử dụng cho đánh dấu văn bản (xem thêm thông tin tại [17]) Ở mức cao hơn, XML là một định dạng cấu trúc dữ liệu đơn giản, bao gồm cặp thẻ mở, thẻ đóng và các đơn vị định dạng dữ liệu Trong một đơn vị, một đơn vị có không hoặc nhiều các thuộc tính Từ khía cạnh cơ sở dữ liệu, sự khác biệt giữa một thuộc tính

và một dơn vị là rất nhỏ Các thuộc tính có thể chứa các giá trị vô hướng, một thuộc tính có thể chỉ đại diện cho một đơn vị, thông thường thì các thuộc tính không có tính sắp thứ tự đối với các thuộc tính khác Các phần tử (đơn vị) có thể lặp lại nhiều

Trang 33

lần, nó chứa dữ liệu phần tử hoặc các dữ liệu vô hướng, và có tính sắp thứ tự Một

ví dụ của XML được thể hiện trong hình 2.2

Hình 2.2: Một tài liệu XML mẫu thể hiện dữ liệu book và publisher

Một tài liệu XML luôn có cú pháp đầy đủ và được định dạng tốt, tất cả các thẻ mở đều có 1 thẻ đóng tương ứng và các chi tiết cấu trúc XML đi kèm Tuy nhiên, cấu trúc một tài liệu XML thông thường luôn phải được thể hiện bằng 1 lược

đồ Có hai phương pháp chuẩn để xác định lược đồ trong XML: DTD và XML Schema

DTD (Document Type Definition) thiết lập các ràng buộc trong các thẻ XML Về bản chất DTD là một ngữ pháp EBNF nhằm giới hạn tập các hệ thống thuộc tính và thành phần XML DTD còn dùng để nhận biết 2 kiểu thuộc tính đặc biệt: ID và IDREF Thuộc tính ID xác định tính duy nhất của mỗi một phần tử trong tài liệu, trong trường hợp này có thể coi nó là khoá của tài liệu Còn kiểu thuộc tính IDREF, IDREFS nhằm để thiết lập các mối quan hệ liên quan đến ID trong tài liệu

Trang 34

Một IDREF chứa một ánh xạ tới một ID; một IDREFS chứa một tập các ánh xạ của

ID

XML Schema là một tiêu chuẩn mới và đang cạnh tranh mạnh mẽ với DTD Ích lợi quan trọng của XML Schema là cho phép hỗ trợ các kiểu thành phần và phân lớp thành phần, hỗ trợ các kiểu thông tin giá trị một cách phong phú hơn (ví dụ: kiểu số, kiểu ngày tháng ), hỗ trợ khoá chính lẫn khoá ngoại XML Schema là một tiêu chuẩn khá phức tạp với nhiều ràng buộc khác nhau

Princples

Of Transaction Processing 235-711-Y

Hình 2.3: Đồ thị XML-QL cho hình 2.2 Các cạnh nét gạch nối thể hiện IDREFS; Các cạnh nét chấm điểm thể hiện PCDATA

Đã có rất nhiều các đề xuất cho mô hình XML, nhưng có 2 mô hình được quan tâm nhiều hơn cả Đề xuất đầu tiên, đó là ánh xạ từ XML vào mô hình dữ liệu

Trang 35

bán cấu trúc truyền thống Mô hình này được quan tâm bởi nó có khả năng hỗ trợ cầu trúc biểu đồ cho tài liệu XML nhưng nó lại không thể hiện hết được tất cả các thành phần đặc tả của XML Đề xuất thứ hai là mô hình dữ liệu W3C XML Query Đây là mô hình dựa trên cấu trúc cây Nó thể hiện đựoc tất cả các chi tiết và đặc tính của các đặc tả XML, bao gồm cả những chỉ dẫn, ghi chú, Mô hình dữ liệu W3C XML Query cố gắng định nghĩa một cách rõ ràng các tính năng chính của XML Schema

Mô hình dữ liệu XML-QL

Ngày nay, đứng trước sự xuất hiện của nhiều tiêu chuẩn mới được đề xuất, ngôn ngữ truy vấn XML-QL ngày ít được quan tâm hơn bởi một thực tế rằng mô hình này dần dần đã không thích hợp nữa Tuy nhiên, mô hình dữ liệu này là một ánh xạ từ XML tới mô hình dữ liệu bán cấu trúc Đó là một thế mạnh đang thiếu trong các phương pháp tiêu chuẩn mới gần đây

Trong mô hình dữ liệu XML-QL, mỗi một nút nhận một nhãn duy nhất (hoặc

là thuộc tính ID có sẵn hoặc là ID do hệ thống sinh ra) Một nút thành phần được đưa vào có thể được chú giải bởi cặp thuộc tính – giá trị Chú giải đó được được gán nhãn theo cạnh có hướng tới các thành phần con và các thành phần khác liên quan thông qua thuộc tính IDREF Hình 2.3 là đồ thị miêu tả ví dụ dữ liệu XML của Hình 2.2 Trong đồ thị, các IDREF được biểu diễn bằng các đường nét đứt và nhãn trên các cạnh là tên thuộc tính của IDREF Các cạnh này có hướng tới các nút phần

tử liên quan Chúng ta tạo các cạnh PCDATA tới từng dữ liệu được gắn trong tài liệu XML với mục đích cho phép việc trộn lẫn dữ liệu chuỗi với các thông tin xếp vào trong cùng một thành phần Các cạnh này được thể hiện trong hình 2.3 dưới dạng các đường mũi tên nét chấm chỉ tới các nút lá

Mô hình dữ liệu XML-QL rất hạn chế trong việc hỗ trợ xác định thứ tự Các nút anh em có xác định mối quan hệ thứ tự nhưng lại không thể hiện vị trí chính xác trong mô hình, do đó việc so sánh thứ tự các nút bất kì là rất khó khăn Việc so sánh

Trang 36

này yêu cầu phép so sánh đệ qui lần ngược các nút cha Bên cạnh đó, mô hình XML-QL không phân biệt các cạnh con và các cạnh IDREF – vì vậy khi 1 đồ thị được đưa ra sẽ có nhiều hơn 1 mô hình XML thoả mãn đồ thị đó

Mô hình dữ liệu W3C XML Query

Mô hình World Wide Web Consortium’s XML Query (XQuery) dựa trên dạng cây gán nhãn tại các nút nơi IDREF tồn tại Mô hình đầy đủ của XQuery nhận được từ XML Schema

name name

123-456-X Readings

Hình 2.4: Thể hiện mô hình dữ liệu XQuery đơn giản cho hình 2.2 Các cạnh nét gạch nối thể hiện mối liên hệ định nghĩa bằng IDREFS; các cạnh nét chấm điểm chỉ tới các điểm văn bản

Trang 37

Mô hình này tồn tại một vài điều phức tạp: các thành phần phải được định kiểu như một dạng kiểu hệ thống cấp bậc; các kiểu có thể chia sẻ các cấu trúc hạ tầng (nhóm các thành phần); các thành phần có thể là khoá chính hoặc khoá ngoại; các giá trị vô hướng có thể có giới hạn theo việc xác định kiểu dữ liệu; và mô hình còn hỗ trợ các khái niệm XML như là thực thể, các chỉ dẫn quá trình, thậm chí cả những lời chú thích Hơn nữa, bất kỳ nút nào trong mô hình XQuery đều có các liên kết ẩn tới các nút con, nút anh em, nút cha Vì vậy, tại một nút chúng ta có thể di chuyển lên trên, xuống dưới và đi ngang trong cây

Hình 2.4 là một thể hiện đơn giản của tài liệu XML sử dụng mô hình này

có 1 mệnh đề Return để tạo chuỗi đầu ra Ngoài ra, XQuery còn hỗ trợ các tính năng vượt trội hơn so với SQL, như là việc hỗ trợ chức năng đệ qui tuỳ ý

XQuery được xếp vào nhóm các phép toán trong SQL, và quá trình thực hiện truy vấn trong XQuery là tương đối giống với SQL Song trong XQuery có một số điểm khác biệt chính như sau

Trang 38

<result> { FOR $b IN document("books.xml")/db/book,

$t IN $b/title/data(),

$n IN $b/(editor|author)/data() RETURN <item>

Nhập các ánh xạ mẫu (có tính lặp lại)

Các bộ truy vấn XQuery bắt đầu bằng trạng thái biến ràng buộc: Các biểu thức XPath For và Let được xem như những con đường thông qua cây mô hình dữ liệu và bắt đầu từ gốc Điểm cuối của XPath trong cây kết gắn được giới hạn bởi các biến mệnh đề trong For và Let Nếu một XPath có nhiều mô hình phù hợp, một mệnh đề For sẽ tự động lặp và đưa các giá trị biến vào nó, quá trình thực thi trong câu truy vấn của mệnh đề Where and Return sẽ thực hiện cho từng giá trị biến này Mệnh đề Let sẽ trả về tập hợp tất cả các biến liên kết phù hợp Một câu truy vấn thông thường có thể có nhiều chỉ định For và Let, và mỗi một kết hợp chỉ định đó dựa trên tính lặp lại trên giá trị đánh giá của câu truy vấn

Một ví dụ XQuery được thể hiện trong hình 2.5 Chúng ta có thể nhận thấy biến $b được gán với mỗi phần tử con book nằm dưới thành phần db trong tài liệu book.xml; $t được gán với tiêu đề trong quyển sách được đưa ra $b

Trong ví dụ này, việc phối kết hợp nhiều đối tượng phù hợp là thoả mãn, vì vậy quá trình ràng buộc các biến cũng được thực thi theo cách này Đầu tiên, biến

$b được gán cho quyển sách (book) đầu tiên được tìm thấy Sau đó các biến $t, $n được gán theo thứ tự các thành phần con tiêu đề (title) và editor hoặc author Mỗi

Trang 39

một cặp thoả mãn của $t và $n cho bởi $b được đánh giá một cách riêng biệt và có tính lặp lại; sau đó quá trình này sẽ lặp lại cho giá trị tiếp theo của $b

Chúng ta nhận thấy rằng quá trình này giống như một truy vấn trong mô hình quan hệ trong trường hợp chúng ta nối những cuốn sách với tiêu đề và tác giả - chúng ta sẽ có 1 bộ <title, editor|author> đỗi với mỗi cuốn sách Điều khác biệt lớn nhất ở đây là nằm trong các thuật ngữ; đối với XQuery chúng ta có một sự lặp lại để gắn kết các biến, và trong hệ thống quan hệ chúng ta có 1 bộ các giá trị tương ứng với các thuộc tính

Bộ xây dựng kết quả XML

Mệnh đề Return xác định một bộ cấu trúc cây XML dựa trên đầu ra của mỗi kết quả trả về, các biến sẽ thay thế bởi các giá trị Chú ý rằng các biến trong

Trang 40

XQuery thường là các cây con XML hơn là các giá trị vô hướng Kết quả của ví dụ truy vấn được thể hiện trong hình 2.6

Một trong những đặc điểm chính được sử dụng trong XQuery liên quan đến biểu thức nằm trong mệnh đề Return Biểu thức con trả về một tập thành phần XML thoả mãn sự tương quan của mỗi một kết quả đệ qui của truy vấn Đây là mối liên

hệ ”1- nhiều” giữa phần tử cha và các phần tử con trong kết quả Các kiểu đặc biệt của truy vấn sẽ không có tính chính xác tương đương như trong cơ sở dữ liệu quan

hệ, nhưng nó có nhiều sự tương quan với các truy vấn con trong SQL

Cấu trúc đồ hoạ của đường đi

Một số dữ liệu XML sử dụng thuộc tính IDREF để thể hiện kết nối giữa các thành phần (đường nét chấm trong hình 2.3) Các IDREF cho phép XML mã hoá cấu trúc đồ thị giống như cấu trúc cây dữ liệu Tuy nhiên, các khả năng hỗ trợ trong XML là hạn chế: trong XQuery có các xác định ”con cháu” và ”thẻ tự do” cho việc chọn lựa các phần tử con Những hạn chế này có lẽ được thiết kế để làm đơn giản quá trình truy vấn của các câu truy vấn phức tạp

Việc truy vấn XML trong tích hợp dữ liệu

Đôi khi dữ liệu XML chỉ có thể truy cập bằng các truy vấn động riêng biệt, giống như việc phải có một ”khung nhìn XML ảo” phủ trên các nguồn dữ liệu ( ví

dụ một hệ thống chuyển XML cho các cơ sở dữ liệu quan hệ, hoặc các dữ liệu từ giao diện web ) Các truy vấn này có thể yêu cầu nội dung từ các nguồn dữ liệu theo các giá trị xác định trước (ví dụ: các cuốn sách cần kèm theo phần tác giả ) Mặt khác, một hệ thống tích hợp dữ liệu có thể cần biết tập giá trị từ một hoặc nhiều nguồn, sau đó sử dụng chúng để sinh ra các câu truy vấn động phụ thuộc các nguồn

dữ liệu, và tiếp theo kết hợp các kết quả đẻ tạo nên câu trả lời truy vấn Hiện nay XQuery chỉ hỗ trợ giới hạn một số định dạng các câu truy vấn động

Định dạng
Số trang	98
Dung lượng	1,85 MB