1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu giải pháp tích hợp CSDL các phần mềm Bưu chính hỗ trợ thống kê, báo cáo tại Bưu điện Quảng Bình

89 446 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 89
Dung lượng 4,54 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Từ viết tắt Giải ThíchOLTP OnLine Transaction Processing Xử lý giao dịch trực tuyến OLAP OnLine Analytical Processing Phân tích trực tuyến SSIS SQL Server Integration Services Dịch vụ tí

Trang 1

Tôi xin cam đoan:

a Những nội dung trong luận văn này là do tôi thực hiện dưới sự hướng dẫn trực tiếp của PGS TS Nguyễn Thanh Bình

b Mọi tham khảo dùng trong luận văn đều được trích dẫn rõ ràng và trung thực tên tác giả, tên công trình, thời gian, địa điểm công bố

c Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tôi xin chịu hoàn toàn trách nhiệm

Tác giả

Hoàng Công Tiến

Trang 2

MỞ ĐẦU 1

1 Lý do chọn đề tài 1

2 Mục đích nghiên cứu 2

3 Đối tượng và phạm vi nghiên cứu 2

4 Phương pháp nghiên cứu 3

5 Ý nghĩa khoa học và thực tiễn của đề tài 3

6 Bố cục của luận văn 3

CHƯƠNG 1 5CƠ SỞ LÝ THUYẾT 5

1.1 KHO DỮ LIỆU 5

1.1.1 Khái niệm 6

1.1.2 Cách thức xây dựng kho dữ liệu 8

1.1.3 Các vấn đề liên quan đến kho dữ liệu 12

1.2 TÍCH HỢP DỮ LIỆU 14

1.2.1 Khái niệm 14

1.2.2 Các phương pháp tích hợp dữ liệu 15

1.3 XÂY DỰNG KHO DỮ LIỆU, TÍCH HỢP DỮ LIỆU TRONG SQL SERVER 20

1.3.1 Tổng quan về hệ quản trị cơ sở dữ liệu Microsoft SQL Server 20

1.3.2 Xây dựng kho dữ liệu trong SQL Server để lưu trữ thông tin 22

1.3.3 Tích hợp dữ liệu trong SQL Server 23

1.4 MÃ ĐỊA CHỈ BƯU CHÍNH 32

1.4.1 Khái niệm 32

1.4.2 Phân cấp và phân loại địa chỉ 32

Trang 3

1.5 TỔNG KẾT CHƯƠNG 1 37

CHƯƠNG 2 GIẢI PHÁP TÍCH HỢP CÁC CSDL TẠI BƯU ĐIỆN QUẢNG BÌNH 39

2.1 TRỰC TRẠNG CÁCH TỔ CHỨC CSDL TẠI BƯU ĐIỆN QUẢNG BÌNH 39

2.1.1 Giới thiệu về Bưu điện Quảng Bình 39

2.1.2 Các CSDL hiện đang ứng dụng tại Bưu điện tỉnh Quảng Bình 39

2.2 MÔ TẢ BÀI TOÁN TÍCH HỢP 41

2.3 ĐỀ XUẤT GIẢI PHÁP TÍCH HỢP 41

2.4 PHÂN TÍCH VÀ THIẾT KẾ GIẢI PHÁP TÍCH HỢP 43

2.4.1 Phân tích các CSDL cần tích hợp 43

2.4.2 Tổ chức CSDL tại kho dữ liệu 49

2.4.3 Xây dựng quy trình tích hợp 51

2.5 TẠI KHO DỮ LIỆU, CSDL ĐƯỢC CÀI ĐẶT NHƯ SAU: 53

2.6 TỔNG KẾT CHƯƠNG 2 54

CHƯƠNG 3 PHÁT TRIỂN ỨNG DỤNG 55

3.1 MÔ TẢ HỆ THỐNG ỨNG DỤNG 55

3.1.1 Mô tả bài toán 55

3.1.2 Xác định yêu cầu của hệ thống 55

3.2 PHÂN TÍCH THIẾT KẾ HỆ THỐNG 56

3.3 THỬ NGHIỆM 60

3.3.1 Thử nghiệm chương trình 60

3.3.2 Đánh giá kết quả 64

Trang 4

QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN THẠC SĨ (BẢN SAO)

PHỤ LỤC.

Trang 5

Từ viết tắt Giải Thích

OLTP OnLine Transaction Processing Xử lý giao dịch trực tuyến OLAP OnLine Analytical Processing Phân tích trực tuyến

SSIS SQL Server Integration Services Dịch vụ tích hợp SQL Server

DBA DataBase Administrator Quản trị cơ sở dữ liệu

DBMS Database Management System Hệ thống quản lý CSDL DCE Data Conversion and Extraction Chuyển đổi và xuất ra dữ liệu

DOA Decision Oriented Analysis Phân tích hướng quyết định DSS Decision Support System Hệ hỗ trợ quyết định

ETL Extract Transformation Load Trích xuất, chuyển và nạp dữ

liệu MSS Management Support System Hệ hỗ trợ quản lý

DANH MỤC CÁC BẢNG

Trang 6

Bảng 2-2 Các trường cần thiết trích rút đối với dịch vụ

Bảng 2-3 Cấu trúc bảng dữ liệu khách hàng phát sinh tại các

64

Trang 7

Số hình Tên hình Trang

Hình 1.5 Tích hợp dữ liệu do query-điều khiển 16Hình 1.6 Mô hình tích hợp dữ liệu theo phương pháp ETL 17Hình 1.7 Mô hình các kỹ thuật trích xuất dữ liệu trong phương

Hình 1.12 Kiến trúc của Reporting Services 30Hình 2.1 Mô hình CSDL hiện tại của Bưu điện Quảng Bình 40Hình 2.2 Mô hình tổng thể tích hợp các CSDL 42Hình 2.3 Mô hình ứng dụng của chương trình tin học dịch vụ

Hình 2.4 Cấu trúc bảng dữ liệu dịch vụ EMS đi 44Hình 2.5 Cấu trúc bảng dữ liệu dịch vụ EMS đến 45Hình 2.6 Mô hình ứng dụng của chương trình tin học dịch vụ

Trang 8

Hình 3.3 Biểu đồ ca sử dụng kết xuất báo cáo 59

Trang 9

Việc ứng dụng công nghệ thông tin nói chung và việc ứng dụng kho dữliệu nói riêng vào hoạt động của các doanh nghiệp đã góp phần thành côngtrong sự phát triển của họ Các ngành đã áp dụng rộng rãi công nghệ thông tincũng như việc áp dụng kho dữ liệu ngày càng nhiều Ví dụ như: Hàng không,ngân hàng, viễn thông, đầu tư, bảo hiểm, bán lẻ, chăm sóc sức khỏe,… ứngdụng kho dữ liệu để thống kê, báo cáo và hỗ trợ để phân tích và đưa ra quyếtđịnh, định hướng kinh doanh,… vì vậy đã phần nào đã đạt được những thànhcông nhất định của riêng mình

Đối với Bưu chính Việt Nam nói chung và Bưu điện Quảng Bình nóiriêng đã áp dụng hầu hết hệ thống tin học vào quy trình sản xuất Nhưng dođặc trưng riêng của từng chương trình vì vậy cơ sở dữ liệu không đồng nhấtvới nhau, do đó tạo nên sự rời rạc có sở dữ liệu của các chương trình Do đórất khó khăn khi tập hợp dữ liệu để báo cáo, tổng hợp, thống kê hàng thángcũng như hàng năm Do đó, cần phải có một hệ thống nhằm tích hợp dữ liệu

từ các phần mềm đó tạo thành một cơ sở dữ liệu “đồng nhất”, nhằm xây dựngchương trình tổng hợp số liệu để báo cáo, thống kê giúp cho những ngườiquản lý thấy được tình hình sản xuất, kinh doanh của đơn vị diễn ra nhằm cónhững điều chỉnh về chính sách, phương hướng, kế hoạch để đạt hiệu quả caotrong hoạt động sản xuất, kinh doanh của đơn vị

Trang 10

Trước thực tế đó và được sự đồng ý của PGS TS Nguyễn Thanh Bình,

tôi chọn đề tài “Nghiên cứu giải pháp tích hợp CSDL các phần mềm Bưu chính hỗ trợ thống kê, báo cáo tại Bưu điện Quảng Bình” và mục đích đầu

tiên là sử dụng tại Bưu điện Quảng Bình

2 Mục đích nghiên cứu

- Xây dựng kho dữ liệu tổng hợp của các phần mềm bưu chính nhằm báocáo, thống kê hiệu quả sản xuất kinh doanh (số lượng, doanh thu,…), để kịpthời điều chỉnh nhanh chóng phương pháp làm việc và chăm sóc khách hàng

để đạt hiệu quả

- Nâng cao hiệu quả kinh doanh, đủ sức cạnh tranh với các doanh nghiệpkhác

- Tạo tiền đề để phát triển để phát triển các ứng dụng khác

3 Đối tượng và phạm vi nghiên cứu

- Đối tượng nghiên cứu của đề tài

+ Các CSDL, quy trình sản xuất đang thực hiện tại Bưu điện QuảngBình

+ Các công cụ lập trình, các hệ cơ sở dữ liệu liên quan đến đề tài (Kho

Trang 11

4 Phương pháp nghiên cứu

- Phương pháp nghiên cứu lý luận: Các nội dung, văn bản quy trình

báo cáo, thống kê Phân tích các nội dung văn bản, quy trình để xây dựng kho

dữ liệu, tích hợp dữ liệu

- Phương pháp nghiên cứu thực tiễn Tìm hiểu các CSDL của các phần

mềm bưu chính hiện sử dụng tại Bưu điện Quảng Bình

- Phương pháp nghiên cứu tài liệu: Tìm hiểu ngôn ngữ lập trình, hệ

quản trị Cơ sở dữ liệu; Xây dựng ứng dụng

5 Ý nghĩa khoa học và thực tiễn của đề tài

Bưu điện Quảng Bình là đơn vị doanh nghiệp ứng dụng hầu hết côngnghệ thông tin vào khai thác, sản xuất dịch vụ Bưu chính tại tỉnh Quảng Bình

Do vậy, việc xây dựng, ứng dụng kho dữ liệu để phục vụ công việc tổng hợp,thống kê báo cáo hiệu suất của công tác sản xuất tại đơn vị giúp cho nhữngngười quản lý thấy được tình hình sản xuất, kinh doanh của đơn vị diễn ranhằm có những điều chỉnh về chính sách, phương hướng, kế hoạch để đạthiệu quả cao trong hoạt động sản xuất, kinh doanh của đơn vị

6 Bố cục của luận văn

Báo cáo của luận văn được được tổ chức thành ba chương chính

Chương 1 Cơ sở lý thuyết Chúng tôi trình bày lý thuyết tổng quan về

kho dữ liệu, lý thuyết về tích hợp dữ liệu và khái niệm và cách tổ chức mã địachỉ Bưu chính

Chương 2 Giải pháp tích hợp các CSDL tại Bưu điện Quảng Bình.

Chúng tôi trình bày thực trạng các CSDL đang ứng dụng tại Bưu điện QuảngBình và mô tả bài toán tích hợp dữ liệu, từ đó đề xuất và phân tích thiết kếgiải phát tích hợp các CSDL thành một kho dữ liệu thống nhất để phục vụ

Trang 12

mục đích tổng hợp, thống kê sản lượng kinh doanh các dịch vụ Bưu chínhnhằm điều chỉnh và đưa ra chiến lược kinh doanh

Chương 3 Phát triển ứng dụng Trên cơ sở kho dữ liệu đã được tích

hợp ở chương 2, chúng tôi tiếp tục trình bày các bước phân tích thiết kế, xây

dựng ứng dụng “Thống kê và báo cáo sản lượng dịch vụ Bưu chính”, và đánh

giá kết quả đạt được

Trang 13

CHƯƠNG 1

CƠ SỞ LÝ THUYẾT

Trong chương này, chúng tôi trình bày lý thuyết tổng quan về khái niệm,đặt tính, cấu trúc, các công cụ xây dựng kho dữ liệu, trình bày lý thuyết tổngquan về khái niệm, các phương pháp tích hợp dữ liệu Các dữ liệu khách hàngđược tích hợp sau này sẽ được gán mã Bưu chính do đó trong chương nàychúng tôi cũng trình bày khái niệm và các tổ chức mã địa chỉ Bưu chính

1 KHO DỮ LIỆU

Những nghiên cứu và phát triển trong các hệ thống cơ sở dữ liệu từnhững năm 1970 đã là động lực cho việc phát triển các hệ thống cơ sở dữ liệuquan hệ tinh vi từ những hệ thống xử lý file đơn giản Việc giảm chi phí, tăngtốc độ của các bộ vi xử lý đã cho phép những loại dữ liệu khác nhau như các

“tài liệu” đa truyền thông, hình ảnh, chuỗi thời gian, thủ tục hoặc những dữliệu “hoạt động”, và những hình thức dữ liệu phức tạp khác được lưu trữ trongcác cấu trúc bảng quan hệ Kết quả là, nhiều công ty trong thế giới kinh doanh

đã lưu trữ, tổ chức và cập nhật các bảng kiểm kê hàng hoá, lịch sử bán hàng,thông tin khách hàng,… trong một tập hợp các cơ sở dữ liệu lớn Ví dụ, mộttrong những cơ sở dữ liệu lớn nhất trên thế giới đã được tạo bởi WalMart(một nhà bán lẻ ở Hoa Kỳ), đã xử lý hơn 20 triệu giao dịch một ngày Những

tổ chức phi kinh doanh khác cũng đã thu thập những lượng dữ liệu khổng lồ.Ngày nay, hầu như những giao dịch đều được lưu vào máy tính và kết quả lànhững cơ sở dữ liệu lên đến hàng Gigabyte [3]

Nếu dữ liệu tích luỹ được phân tích chính xác, nó có thể trở thành nhữngphương tiện cạnh tranh hiệu quả Thật không may, sự phát triển nhanh chóng,lượng dữ liệu sưu tập khổng lồ đã vượt xa khả năng hiểu biết và đánh giá củacon người Chúng rõ ràng đã làm tràn ngập những phương pháp phân tích dữ

Trang 14

liệu truyền thống chẳng hạn như bảng tính và câu truy vấn Vì thế, nhiềuquyết định quan trọng đã được đưa ra dựa trên những chủ quan, kinh nghiệm,

sự thông thạo của người ra quyết định hơn là trên những thông tin được lưutrữ trong cơ sở dữ liệu Và kết quả là những cơ sở dữ liệu lớn đã trở thành các

“mồ dữ liệu” (data tombs) và điều này đã được mô tả như là vấn đề “giàu dữliệu nhưng nghèo thông tin”

Trong môi trường cạnh tranh ngày nay cùng với sự phát triển nhanhchóng của thế giới, những nhà ra quyết định xác định rõ cần phải có một thế

hệ các kỹ thuật và công cụ tính toán mới nhằm hỗ trợ họ trong việc trích xuấtcác thông tin hữu ích (tri thức) được nhúng bên trong các dữ liệu thu thập vàtích luỹ Họ mong muốn có những công cụ hỗ trợ quyết định trong một môitrường tích hợp để họ có thể tự tạo những tiêu chuẩn của riêng mình hoặcnhững báo biểu đặc biệt cho phân tích các dữ liệu phức tạp Nắm được lợi íchcủa lượng dữ liệu lớn, họ có thể xác định được những thông tin tiềm ẩn,chẳng hạn nhờ đó có thể tiết kiệm chi phí, vươn tới những thị trường mới vàtheo vết tổng thu nhập một cách hiệu quả

Một loại hệ thống hỗ trợ quyết định tinh vi mới – data warehouse – đã

bắt đầu xuất hiện Chúng là những công cụ có giá trị đối với nhiều tổ chức bởi

vì chúng cung cấp một tập hợp các kỹ thuật hỗ trợ quyết định để cho phépthực hiện, quản lý, phân tích,… nhằm thực hiện những quyết định nhanh hơn

và chính xác hơn

1.1 Khái niệm

Thông thường, một kho dữ liệu được xem như một cơ sở dữ liệu màđược duy trì tách biệt từ những cơ sở dữ liệu tác nghiệp (operational database)của tổ chức Nó thường được tích hợp với một hệ thống ứng dụng đa dạng để

hỗ trợ xử lý thông tin và phân tích dữ liệu bằng cách cung cấp một nền tảng

Trang 15

đồng nhất cho việc hợp nhất, lịch sử hoá dữ liệu Theo W.H.Inmon, một nhàkiến trúc hàng đầu của việc xây dựng kho dữ liệu, thì kho dữ liệu được định

nghĩa như một “tập hợp dữ liệu định hướng theo chủ đề, tích hợp, có tính ổn định, thay đổi theo thời gian hỗ trợ cho xử lý thực hiện quyết định quản trị”

[1], [11]

Thuật ngữ tạo kho dữ liệu (data warehousing) được xem như quá trình

xây dựng và sử dụng kho dữ liệu Những công cụ hỗ trợ quyết định thườngyêu cầu hợp nhất dữ liệu từ nhiều nguồn không đồng nhất, mà có thể bao gồmnhiều nguồn bên ngoài như dữ liệu thị trường chứng khoán Những nguồn dữliệu này bắt buộc phải làm cho tương thích, vì chúng có thể chứa dữ liệu khácnhau về chất lượng, hình thức sử dụng, mã và định dạng Do đó, xây dựngmột kho dữ liệu đòi hỏi phải tích hợp dữ liệu, làm sạch dữ liệu, và hợp nhất

dữ liệu

Các đặc tính của kho dữ liệu

Một kho dữ liệu có thể được coi là một hệ thống thông tin với những đặctính:

- Là một cơ sở dữ liệu được thiết kế có nhiệm vụ phân tích, sử dụng các

Trang 16

- Một câu hỏi thường trả về một tập kết quả liên quan đến toàn bộ bảng

và các liên kết nhiều bảng [1]

1.2 Cách thức xây dựng kho dữ liệu

a Thiết kế kho dữ liệu

Lược đồ thực thể kết hợp và kỹ thuật dạng chuẩn được sử dụng phổ biếncho thiết kế cơ sở dữ liệu trong môi trường xử lý giao dịch trực tuyến – OLTP(On-Line Transaction Processing) Do đó, cơ sở dữ liệu được thiết kế bởi lược

đồ thực thể liên kết – ER (Entity Relationship Diagram) không thích hợp chocác hệ thống hỗ trợ quyết định vì chúng chủ yếu cần hiệu quả trong truy vấn

Căn cứ vào đó, các cơ sở dữ liệu tác nghiệp được làm cho phù hợp tốt để

hỗ trợ các tác vụ OLTP, còn kho dữ liệu được thiết kế để phục vụ tốt cho vấn

đề truy vấn và khai thác dữ liệu Vì thế, nếu cố gắng thực thi các truy vấnphức tạp đối với các cơ sở dữ liệu tác nghiệp sẽ có kết quả là hiệu quả thựchiện không thể chấp nhận được

Trang 17

Cách đơn giản nhất để mô tả một kho dữ liệu là chuyển nó thành cáclược đồ sao (star schema) để thể hiện mô hình dữ liệu Cơ sở dữ liệu bao gồmmột bảng chi phối lớn ở giữa, được gọi là bảng sự kiện (fact table), mà chỉ làbao gồm nhiều kết nối đến các bảng còn lại Các bảng còn lại, được gọi là cácbảng chiều (dimension table), mỗi bảng chỉ có một liên kết đến bảng sự kiện.Mỗi dòng trong bảng sự kiện bao gồm một con trỏ đến một bảng chiều đểcung cấp toạ độ đa chiều của nó, và lưu trữ các độ đo cho các toạ độ này Mỗibảng chiều bao gồm các cột tương đương với các thuộc tính của chiều Cácbảng chiều mô tả và bổ sung thông tin cho bảng sự kiện.

Hình 1-1: Lược đồ hình sao

Lược đồ hình sao rõ ràng là không hỗ trợ cho phân cấp thuộc tính Lược

đồ bông tuyết (Snowflake schema) là một cải tiến của lược đồ hình sao trong

đó một số chiều được phân cấp để thể hiện rõ ràng dạng chuẩn của bảngchiều Điều này dẫn đến nhiều lợi ích trong việc duy trì các bảng chiều Tuynhiên cấu trúc phi dạng chuẩn của các bảng chiều trong lược đồ hình sao cóthể thích hợp hơn cho việc duyệt các chiều

Trang 18

Hình 1-2: Lược đồ hình bông tuyết

b Cấu trúc kho dữ liệu

Cấu trúc kho dữ liệu được xây dựng dựa trên các hệ quản trị cơ sở dữliệu quan hệ, có chức năng giống như một kho lưu trữ thông tin trung tâm.Trong đó, dữ liệu tác nghiệp và phần xử lý được tách riêng khỏi quá trình xử

lý kho dữ liệu Kho lưu trữ trung tâm được bao quanh bởi các thành phầnđược thiết kế để làm cho kho dữ liệu có thể hoạt động, quản lý và truy nhậpđược từ người dùng đầu cuối cũng như từ các nguồn dữ liệu [3]

Chiều khách hàng

Bảng sự kiện bán hàng

Loại sản phẩm

Trang 19

Hình 1-3: Kiến trúc kho dữ liệu

Như hình trên cho thấy, kho dữ liệu bao gồm bảy phần:

- Dữ liệu nguồn (là các ứng dụng tác nghiệp hoặc các cơ sở dữliệu tác nghiệp) và các công cụ chiết xuất, làm sạch và chuyển đổi dữ liệu

- Kho dữ liệu về dữ liệu (Metadata)

- Các kỹ thuật xây kho

- Kho dữ liệu theo chủ đề (Data mart), là nơi các dữ liệu đượckhoanh vùng theo chủ đề tới một giới hạn nào đó và có thể được thay đổi chophù hợp với nhu cầu của từng bộ phận người dùng Một kho dữ liệu có thểđược phân tích thành nhiều kho dữ liệu chủ đề và ngược lại một tập hợp cáckho dữ liệu theo chủ đề có thể tạo thành một kho dữ liệu

+ Các công cụ truy vấn (query), báo cáo (reporting), phân tích trực tuyến(OLAP) và khai phá dữ liệu (data mining) Đây chính là các cách khai tháckho dữ liệu để đem lại những “tri thức” hơn là đem lại chính những dữ liệuthô

Trang 20

+ Quản trị kho dữ liệu.

+ Hệ thống phân phối thông tin

Kho dữ liệu theo chủ đề (Data Mart)

Kho dữ liệu chủ đề là một dạng thu nhỏ của kho dữ liệu, nếu kho dữliệu mô tả thông tin của một tổ chức thương mại thì kho dữ liệu chủ đề mô tảthông tin cho từng phòng ban của tổ chức đó (như phòng kinh doanh, phòngnhân sự,…) hoặc chứa thông tin cho mỗi chi nhánh của tổ chức

Kho dữ liệu chủ đề thì không cần thiết, vì chúng có thể làm tốn thêmthời gian xử lý cho việc cập nhật dữ liệu mới cho một số lượng lớn kho dữliệu chủ đề Tuy nhiên, sử dụng kho dữ liệu chủ đề cho phép thực thi các truyvấn nhanh hơn vì dữ liệu của chúng ít hơn so với kho dữ liệu

1.3 Các vấn đề liên quan đến kho dữ liệu

Các ứng dụng của kho dữ liệu: Một kho dữ liệu bình thường chưa đủ để

có các tri thức Để có tri thức, kho dữ liệu cần phải được sử dụng đúng cách,

có thể sử dụng theo 3 cách chính:

Theo cách khai thác truyền thống, kho dữ liệu được sử dụng để khai tháccác thông tin bằng các công cụ truy vấn và báo cáo Tuy nhiên, nhờ có việcchiết xuất, tổng hợp và chuyển đổi từ các dữ liệu thô sang dạng các dữ liệuchất lượng cao và có tính ổn định, kho dữ liệu đã giúp cho việc nâng cao các

kỹ thuật biểu diễn thông tin truyền thống (truy vấn và báo cáo) Bằng cách tạo

ra một tầng ẩn giữa người dùng và cơ sở dữ liệu, các dữ liệu đầu vào của các

kỹ thuật này được đặt vào một nguồn duy nhất Việc hợp nhất này loại bỏđược rất nhiều lỗi sinh ra do việc phải thu thập và biểu diễn thông tin từ rấtnhiều nguồn khác nhau cũng như giảm bớt được sự chậm trễ do phải lấy các

dữ liệu bị phân đoạn trong các cơ sở dữ liệu khác nhau, tránh cho người dùng

Trang 21

gặp phải những câu lệnh SQL phức tạp Tuy nhiên, đây mới chỉ là cách khaithác với kỹ thuật cao để đưa ra các dữ liệu tinh và chính xác hơn chứ chưađưa ra được dữ liệu “tri thức”.

Thứ hai là các kho dữ liệu được sử dụng để hỗ trợ cho phân tích trựctuyến (OLAP) Trong khi ngôn ngữ vấn đáp chuẩn SQL và các công cụ làmbáo cáo truyền thống chỉ có thể miêu tả những gì có trong cơ sở dữ liệu, thìphân tích trực tuyến có khả năng phân tích dữ liệu, xác định xem giả thuyếtđúng hay sai Tuy nhiên, phân tích trực tuyến lại không có khả năng đưa rađược các giả thuyết

Hơn nữa, kích thước quá lớn và tính chất phức tạp của kho dữ liệu làmcho nó rất khó có thể được sử dụng cho những mục đích như đưa ra các giảthuyết từ các thông tin mà chương trình ứng dụng cung cấp (Ví dụ như khó

có thể đưa ra được giả thuyết giải thích được hành vi của một nhóm kháchhàng)

Trước đây, kỹ thuật máy học thường được sử dụng để tìm ra những giảthuyết từ các thông tin dữ liệu thu thập được Tuy nhiên, thực nghiệm chothấy chúng thể hiện khả năng rất kém khi áp dụng với các tập dữ liệu lớntrong kho dữ liệu này Phương pháp thống kê tuy ra đời đã lâu nhưng không

có gì cải tiến để phù hợp với sự phát triển của dữ liệu Đây chính là lý do tạisao một khối lượng lớn dữ liệu vẫn chưa được khai thác và thậm chí được lưuchủ yếu trong các kho dữ liệu không trực tuyến (off-line) Điều này đã tạo nênmột lỗ hổng lớn trong việc hỗ trợ phân tích và tìm hiểu dữ liệu, tạo ra khoảngcách giữa việc tạo ra dữ liệu và việc khai thác các dữ liệu đó Trong khi đó,càng ngày người ta càng nhận thấy rằng nếu được phân tích thông minh thì dữliệu sẽ là một nguồn tài nguyên quý giá trong cạnh tranh trên thương trường

Trang 22

Giới tin học đã đáp lại những thách thức trong thực tiễn cũng như trongnghiên cứu khoa học bằng cách đưa ra một phương pháp mới đáp ứng cả nhucầu trong khoa học cũng như trong hoạt động thực tiễn, đó chính là công nghệtích hợp và khai phá dữ liệu Đây chính là ứng dụng chính thứ ba của kho dữliệu.

2 TÍCH HỢP DỮ LIỆU

Trong những năm gần đây, sự phát triển mạnh mẽ của CNTT và ngànhcông nghiệp phần cứng đã làm cho khả năng thu thập và lưu trữ thông tin củacác hệ thống thông tin tăng rất nhanh Bên cạnh đó, việc tin học hoá một cách

ồ ạt và nhanh chóng các hoạt động sản xuất, kinh doanh cũng như nhiều lĩnhvực hoạt động khác đã tạo ra cho chúng ta một lượng dữ liệu lưu trữ khổng lồ.Hàng triệu CSDL đã được sử dụng trong các hoạt động sản xuất, kinh doanh,quản lí Trong đó, có nhiều CSDL cực lớn cỡ Gigabyte, thậm chí làTerabyte Chúng được chứa trong nhiều CSDL khác nhau, do đó nhu cầu cấpthiết là cần có những kĩ thuật và công cụ mới để tự động chuyển đổi lượng dữliệu khổng lồ kia thành các tri thức có ích và tích hợp nó lại thành một mốithống nhất Từ đó, các kĩ thuật tích hợp dữ liệu đã trở thành một lĩnh vực thời

sự của nền CNTT thế giới hiện nay

2.1 Khái niệm

Tích hợp dữ liệu là quá trình tổng hợp có sự lựa chọn dữ liệu từ cácnguồn khác nhau sau đó kết hợp lại thành một tập hợp thông tin chính xác,chất lượng và nhất quán tiếp tục chuẩn hóa, làm sạch tạo thành kho dữ liệu đểcung cấp người dùng với một cái nhìn thống nhất của các dữ liệu này [5]

Trang 23

OOB DMS ORACLE

a Tích hợp dữ liệu bằng phương pháp thủ công

Quan sát một CSDL và mã nguồn của nó và tìm thấy một số trường dữliệu cần trích xuất Người sử dụng có thể dùng các giải pháp đơn giản như:select, export,… hoặc viết chương trình để trích xuất các dữ liệu mục tiêu.Tuy nhiên, với phương pháp này thì không thể làm việc với một số lượng lớn

và được cập nhập thường xuyên

b Tích hợp dữ liệu bằng phương pháp bán tự động

 Phương pháp do query-điều khiển (on-demand)

Mô hình tích hợp dữ liệu bằng phương pháp bán tự động được trình bày

ở hình 1-5

Trang 24

Lược đồ CSDL trung gian

HỆ THỐNG TÍCH HỢP

Clients

Hình 1-5: Tích hợp dữ liệu do query-điều khiển

Phương pháp bán tự động này được đề xuất vào khoảng năm

1995-1996 Trong phương pháp này các lược đồ trung gian (tập hợp các luật tríchxuất) được xây dựng, dựa vào đó người dùng có thể chạy các câu truy vấn đểtrích xuất dữ liệu từ những kiểu dữ liệu có định dạng tương tự

Những hạn chế khi sử dụng giải pháp này:

+ Xử lý truy vấn

 Chậm hay nguồn thông tin không có

 Tích hợp và lọc phức tạp

+ Không hiệu suất và tốn phí cho các query phổ biến

+ Cạnh tranh do xử lý cục bộ tại nguồn

c Tích hợp dữ liệu bằng phương pháp tự động

Phương pháp ETL - trích xuất, biến đổi và tải [17]

Là quá trình gồm 3 bước: Trích xuất dữ liệu từ các nguồn khác nhau sau

đó biến đổi nó và cuối cùng là tải (load) vào nơi đã chuẩn bị trước

Trang 25

Mô hình tích hợp dữ liệu bằng phương pháp ETL được trình bày ở hình1-6.

Hình 1-6: Mô hình tích hợp dữ liệu theo phương pháp ETL

Trích xuất: Là phần đầu của một quá trình ETL liên quan đến việc

trích xuất dữ liệu từ các hệ thống dữ liệu nguồn

Hầu hết các kho dữ được hợp nhất từ các nguồn dữ liệu khác nhau Cácnguồn dữ liệu này có thể được tổ chức định dạng dữ liệu khác nhau, các địnhdạng thường gặp là cơ sở dữ liệu quan hệ và các tập tin phẳng, nhưng có thểbao gồm quan hệ cơ sở dữ liệu phi cấu trúc hay cấu trúc dữ liệu khác Tríchxuất dữ liệu có nhiệm vụ lấy những dữ liệu cần thiết từ các nguồn dữ liệu này

để tạo cơ sở cho các công đoạn kế tiếp của quá trình Nói chung, mục tiêu của

Trang 26

giai đoạn này là khai thác dữ liệu từ các nguồn khác nhau thành một địnhdạng duy nhất để chế biến, chuyển đổi

Các kỹ thuật trích xuất dữ liệu được trình bày tại hình 1-7

ETL 1

Data Trích rút (pull)

Export

Hình 1-7: Mô hình các kỹ thuật trích xuất dữ liệu trong phương pháp ETL

Chuyển đổi: Là giai đoạn áp dụng một loạt các quy tắc hoặc các

chức năng để các dữ liệu được trích xuất từ các nguồn biến đổi thành dữ liệumong muốn để nạp vào nơi chuẩn bị trước Một số nguồn dữ liệu sẽ yêu cầurất ít hoặc thậm chí không có thao tác chuyển đổi dữ liệu mà dùng nguyên lại

dữ liệu nguồn Trong trường hợp khác, nhiều loại loại dữ liệu trích xuất nhấtthiết phải chuyển đổi mới có thể đáp ứng được các nhu cầu và kỹ thuật của cơ

sở dữ liệu đích (kho dữ liệu đã thiết kế sẵn):

- Chỉ chọn các cột nào đó để tải (hoặc chọn cột không cần tải) Ví dụ,nếu dữ liệu nguồn có ba cột (còn gọi là trường) gồm họ tên, tuổi, tiền lươngnhưng dữ liệu chúng ta cần là họ tên và tiền lương, như vậy cột tuổi phảichuyển đổi làm mất đi Tương tự như vậy, cơ chế khai thác có thể bỏ qua tất

cả các bảng ghi mà không có lương (lương = null)

- Dịch các giá trị được mã hóa.Ví dụ, nếu dữ liệu nguồn được tổ chức:

1 cho Bình và 2 dành cho nữ, nhưng kho dữ liệu đích chúng ta thiết kế M lưutrữ cho Bình và F cho nữ, nhưng vậy chúng ta phải biến đổi nó cho phù hợp

Trang 27

- Phát sinh một tính toán giá trị mới (ví dụ, sale_amount = qty *unit_price)

- Gia nhập dữ liệu từ nhiều nguồn khác nhau (ví dụ, tra cứu, hợp nhất)

- Tập hợp (ví dụ, rollup - tổng hợp nhiều hàng dữ liệu - tổng doanh thucho mỗi cửa hàng, và cho từng khu vực, v.v…)

- Tạo ra trường giá trị khóa (key) thay thế

- Transposing hoặc pivoting (chuyển nhiều cột thành nhiều hàng hoặcngược lại)

- Tách một cột thành nhiều cột Ví dụ, đặt một danh sách cách nhaubằng dấu phẩy quy định như một chuỗi trong một cột như các giá trị cá nhântrong các cột khác nhau

- Phân tích sự lặp đi lặp lại cột vào một bảng chi tiết riêng biệt Ví dụ,

di chuyển một loạt các địa chỉ trong một bản ghi vào địa chỉ duy nhất trongmột tập hợp các bản ghi trong một bảng địa chỉ liên kết

Áp dụng bất kỳ hình thức chuyển đổi dữ liệu đơn giản hay phức tạp,nếu không phù hợp với cấu trúc của dữ liệu đích thì có thể dẫn đến loại bỏhoàn toàn, một phần hoặc không có các dữ liệu để nạp vào cơ sở dữ liệu đích.Bên cạnh những thiết kế quy tắc, chức năng chuyển đổi dữ liệu tự độngthường có thêm những quy định xử lý ngoại lệ, thủ công

Tải: Giai đoạn nạp tải dữ liệu đã được trích xuất và chuyển đổi vào

các mục tiêu cuối cùng, thường là các kho dữ liệu (DWH) Tùy thuộc vào yêucầu của tổ chức, quá trình này rất khác nhau Một số kho dữ liệu có thể ghi đèlên thông tin hiện có với thông tin tích luỹ, thường xuyên cập nhật trích xuất

dữ liệu được thực hiện trên cơ sở hàng ngày, hàng tuần hoặc hàng tháng.DWH khác (hoặc ngay cả các bộ phận khác của cùng một DWH) có thể thêm

dữ liệu mới theo thời gian thực

Trang 28

3 XÂY DỰNG KHO DỮ LIỆU, TÍCH HỢP DỮ LIỆU TRONG SQL

SERVER

3.1 Tổng quan về hệ quản trị cơ sở dữ liệu Microsoft SQL Server

Hệ quản trị cơ sở dữ liệu Microsoft SQL Server (MSSQL) là một trongnhững hệ quản trị cơ sở dữ liệu thông dụng hiện nay Đây là hệ quản trị cơ sở

dữ liệu thường được sử dụng với các hệ thống trung bình, với ưu điểm có cáccông cụ quản lý mạnh mẽ giúp cho việc quản lý và bảo trì hệ thống dễ dàng,

hỗ trợ nhiều phương pháp lưu trữ, phân vùng và đánh chỉ mục phục vụ choviệc tối ưu hóa hiệu năng Với phiên bản MSSQL 2005 Microsoft đã cónhững cải tiến đáng kể nâng cao hiệu năng, tính sẵn sàng của hệ thống , khảnăng mở rộng và bảo mật Phiên bản mới này còn cung cấp nhiều công cụcho người phát triển ứng dụng được tích hợp với bộ Visual Studio doMicrosoft cung cấp Dưới đây là mô hình về các dịch vụ của SQL server2005

Hình 1-8 : Các dịch vụ của SQL Server 2005MSSQL 2005 có 4 dịch vụ lớn: Database Engine,Intergration Service,Reporting service, Analysis Services Trong phiên bản MSSQL 2005 này đã

có những cải tiến đáng kể như sau:

Trang 29

 DataBase Engine : được phát triển để thực thi tốt hơn với việc hỗtrợ cả dữ liệu có cấu trúc và dữ liệu phi cấu trúc( XML).

 Khả năng sẵn sàng của hệ thống được nâng cao hơn vì MSSQL

2005 hỗ trợ các chức năng: cơ sở dữ liệu gương (Databasemirroring), failover clustering, snapshots và khôi phục dữ liệunhanh

 Việc quản lý chỉ mục được thực hiện song song với việc hoạtđộng của hệ thống Người dùng có thể thêm chỉ mục, xây dựnglại chỉ mục hay xóa một chỉ mục đi trong khi hệ thống vẫn được

sử dụng

 Chức năng phân vùng dữ liệu được hỗ trợ: Trong phiên bản nàyngười dùng có thể phân vùng các bảng và chỉ mục cũng nhưquản lý phân vùng dữ liệu một cách dễ dàng Việc hỗ trợ phânvùng dữ liệu giúp nâng cao hiệu năng hoạt động của hệ thống

 Dịch vụ đồng bộ hóa dữ liệu được mở rộng với việc hỗ trợ môhình đồng bộ hóa ngang hàng Đây là dịch giúp đồng bộ hóa dữliệu giữa các máy chủ dữ liệu, dịch vụ này làm khả năng mở rộngcủa hệ thống được nâng cao

 Dịch vụ tích hợp (Integration Service ) thiết kế lại cho phépngười dùng tích hợp dữ liệu và phân tích dữ liệu từ nhiều nguồnkhác nhau Hỗ trợ việc quản lý chất lượng dữ liệu và làm sạch dữliệu, một công việc quan trọng trong tiến trình ETL

 Dịch vụ phân tích dữ liệu (Analysis Service ): cung cấp khungnhìn tích hợp và thống nhất về dữ liệu cho người dùng, hỗ trợviệc phân tích dữ liệu

 Công cụ khai phá dữ liệu (Data mining ) được tích hợp hỗ trợ

Trang 30

nhiều thuật toán khai phá dữ liệu, điều này hỗ trợ cho việc phântích và khai phá dữ liệu và xây dựng các hệ thống hỗ trợ ra quyếtđịnh cho người quản lý.

 Dịch vụ xây dựng quản lý báo cáo (Reporting Service) được dựatrên nền tảng quản trị doanh nghiệp thông minh và được quản lýqua dịch vụ web Báo cáo có thể được xây dựng với ngôn ngữtruy vấn MDX Việc xây dựng báo cáo dễ dàng thông qua cáccông cụ trên Business Intelligent, người dùng truy cập báo

3.2 Xây dựng kho dữ liệu trong SQL Server để lưu trữ thông tin

Nguồn dữ liệu cho kho dữ liệu có thể bao gồm nhiều nguồn khác nhau.Chúng ta sẽ dùng dịch vụ SSIS để xây dựng tiến trình ETL để lấy dữ liệu từ

hệ thống nguồn và đẩy vào kho dữ liệu

Hình 1.9 biểu diễn phương pháp sử dụng các công cụ của MSSQL 2008

để xây dựng kho dữ liệu và hệ thống báo cáo cho người dùng

Dữ liệu trong kho dữ liệu được lưu trữ dưới dạng mô hình cơ sở dữ liệuquan hệ sẽ được quản lý bởi hệ quản trị cơ sở dữ liệu quan hệ SQL Server.Hoặc sử dụng dịch vụ SSAS để xây dựng nên OLAP database

Cuối cùng, chúng ta sẽ dùng các công cụ BI và SSRS để trích xuất dữliệu để xử lý hoặc tạo báo cáo cho người dùng xem Nếu trích xuất dữ liệu từ

hệ quản trị cơ sở dữ liệu quan hệ ta sẽ dùng ngôn ngữ SQL thông thường hoặcdùng MDX để truy vấn trên cubes [15]

Trang 31

Hình 1-9: Mô hình xây dựng kho dữ liệu

3.3 Tích hợp dữ liệu trong SQL Server

Sử dụng SQL Server Integration Service(SSIS)

SSIS là một thành phần của SQL Server, nó được phát triển từ công cụData Transformation Services của phiên bản SQL Server 7.0, một công cụ đểthực thi việc chuyển đổi dữ liệu SSIS là nền tảng cho việc tích hợp dữ liệu,các chức năng của nó nhanh và mềm dẻo cho việc phát triển tiến trình ETLcho xây dựng kho dữ liệu, ngoài ra SSIS còn cung cấp các công cụ tự độngbảo trì và tự động cập nhật dữ liệu cho cơ sở dữ liệu nhiều chiều và cubes[15]

SSIS cung cấp một giao diện phát triển với các tool bằng đồ họa cho việcxây dựng tiến trình Người phát triển sử dụng công cụ phát triển SQL ServerBusiness Intelligence Development Studio (BIDS), đây là công cụ dựa trên bộMicrosoftVisual Studio Người dùng có thể kéo và thả các đối tượng của SSIStrong giao diện đồ họa hay có thể lập trình bằng mã lệnh trong giao diện soạnthảo

Trang 32

Hình 1-10: Công cụ phát triển SSIS

Các đối tượng của SSIS bao gồm:

- Các kết nối: Chứa đựng những thông tin để kết nối tới nguồn dữ liệu

- Các nhiệm vụ: Đây là một đơn vị thực thi trong SSIS, dùng để thựcthi một nhiệm vụ như: truy vấn, chạy một chương trình ứng dụng, hay thực thicông việc bảo trì hệ thống

- Các ràng buộc: Các nhiệm vụ liên kết với nhau bằng các ràng buộc,các ràng buộc chỉ định nhiệm vụ nào được thực hiện sau khi một nhiệm vụ kếtthúc tùy theo kết quả của nhiệm vụ vừa hoàn thành

- Các xử lý sự kiện: SSIS cho phép thực thi một số thao tác để xử lýkhi có một sự kiện xảy ra Ví dụ như việc làm sạch dữ liệu khi có lỗi xảy ra

Trang 33

Các biến: Các nhiệm vụ có thể liên kết với các biến để lưu trữ kết quả,thực hiện việc quyết định (như trong ràng buộc, hay ở một nhiệm vụ khác),hay thực thi một số cấu hình.

SSIS cung cấp công cụ để thiết lập luồng dữ liệu (DataFlow), các thànhphần của luồng dữ liệu dùng để tạo ra tiến trình ETL DataFlow là thành phầnquan trọng nhất trong một package của SSIS, bao gồm rất nhiều thành phần

để thiết lập việc trích xuất, biến đổi dữ liệu, và nạp dữ liệu vào kho dữ liệu.Đây là công cụ rất mạnh cho việc xây dựng tiến trình ETL

Sử dụng SQL Server Analysis Service (SSAS)

SSAS trong là một trong những dịch vụ chính của SQL Server 2005dùng để xây dựng các chiều và cubes cho DWH, trong phiên bản mới này còn

hỗ trợ một số thuật toán khai phá dữ liệu điều này cung cấp cho người quản lý

có cái nhìn sâu sắc về dữ liệu của họ hơn SSAS là một phần của nền tảngquản lý doanh nghiệp thông minh (BI), nó không chỉ là một thành phần củaSQL Server, nó còn được sử dụng trên NET Framework và môi trường pháttriển Visual Studio

SSAS trong SQL Server 2005 đã được tái kiến trúc nhằm nâng cao khảnăng mở rộng và tính tin cậy, trong môi trường doanh nghiệp, và khả năngbảo mật dữ liệu SSAS cung cấp khả năng tích hợp nhiều đối tượng (instance)của SSAS điều này tăng khả năng mở rộng ngoài ra dịch vụ này còn cung cấpcác thuật toán để quản lý hiệu quả các cubes lớn trong một đối tượng SSAS

2005 cung cấp đa dạng các công cụ để tạo OLAP (OnLine AnalyticalProcessing) một cách hiệu quả và quản lý dễ dàng

Trang 34

Hình 1-11: Kiến trúc của SSASTrong phiên bản mới này SSAS hỗ trợ XML theo chuẩn XML/A Điềunày có nghĩa việc tra đổi dữ liệu giữa SSAS với các client là XML, sự thayđổi này nâng cao khả năng tương tác giữa các máy client và máy chủ Như ởhình 1-11 SSAS cung cấp ba kiểu kết nối với client Việc lưu trữ siêu dữ liệutrong cũng được thực hiện dưới dạng XML Ngoài ra trong phiên bản này còn

Trang 35

cho phép người dùng tùy chọn việc lưu trữ dữ liệu và dữ liệu tổng hợp dướidạng đối tượng của SSAS hay dạng cơ sở dữ liệu quan hệ Việc lưu trữ dữliệu theo định dạng đối tượng của SSAS có thể xử lý tốt hơn và truy vấnnhanh hơn dạng cơ sở dữ liệu quan hệ Có 3 cách lưu trữ dữ liệu chính trongSSAS.

 MOLAP (MultiDemension OnLine Analytical Processing): Đây là môhình lưu trữ mà dữ liệu theo định dạng của SSAS Cách lưu giữ này chohiệu quả truy vấn tốt nhất và có thể xử lý các tính toán phức tạp Điểmyếu của cách truy vấn này là tốn dung lượng và không thể xem được dữliệu mới cho đến khi xây dựng lại cubes

 ROLAP (Relational OLAP): đây là cách lưu trữ mà dữ liệu chính đượclưu trữ trong cơ sở dữ liệu quan hệ Cách truy vấn trên SSAS được thayđổi sang kiểu truy vấn trên cơ sở dữ liệu quan hệ mỗi khi thực thi điềunày làm giảm hiệu năng của truy vấn, các truy vấn thường rất chậm sovới mô hình trên Điểm mạnh của cách lưu trữ này là dung lượng cubechỉ giới hạn bởi dung lượng của cơ sở dữ liệu quan hệ

 HOLAP (Hybrid OLAP): Đây là mô hình tích hợp của cả hai mô hìnhtrên dữ liệu thông thường được lưu trữ dưới dạng cơ sở dữ liệu quan hệtrong khi các dữ liệu tổng hợp được lưu trữ dưới dạng đối tượng SSAS.Nếu dữ liệu yêu cầu là dạng tổng hợp thì sẽ thực hiện truy vấn tạiSSAS còn nếu dữ liệu yêu cầu là dạng chi tiết truy vấn sẽ được dịch vàtruy vấn tại cơ sở dữ liệu quan hệ Điều này làm tăng tốc độ xử lý của

mô hình ROLAP và tận dụng được khả năng lưu trữ của mô hìnhROLAP

Trang 36

Dịch vụ SSAS của SQL Server 2005 cung cấp cho người dùng các tínhnăng mạnh mẽ trong phân tích dữ liệu Đây là công cụ mạnh để xây dựng các

hệ thống xử lý giao dịch trực tuyến

Sử dụng ngôn ngữ truy vấn MDX

Ngôn ngữ MDX(MultiDemensional eXpression) là ngôn ngữ truy vấncho cơ sở dữ liệu nhiều chiều, nó tương tự ngôn ngữ SQL cho cơ sở dữ liệudạng quan hệ, tuy nhiên đây là ngôn ngữ tính toán vì thế nó tương có cú phápgiống công thức của bảng tính MDX do Microsoft giới thiệu vào năm 1997cùng với SQL Server 7.0 nhanh chóng được các nhà phát triển chấp nhận đãtrở thành chuẩn cho hệ thống OLAP Từ năm 2001 khi XMLA ra đời MDXđược mở rộng và hỗ trợ truy vấn với MDX (MDXML)

Ngôn ngữ MDX hỗ trợ mạnh cho tính toán trên khối dữ liệu nhiều chiều,

nó hỗ trợ việc truy cập dữ liệu một cách trực quan và dễ dàng Người dùng cóthể trích xuất dữ liệu từ cube với số chiều bất kỳ MDX có thể trả lời được các

câu hỏi phức tạp trong kinh doanh ở thế giới thực như: trong các khu vực bán được nhiều sản phẩm nhất đâu là dòng sản phẩm bán chạy nhất?

MDX được xây dựng cho các hệ thống phân tích dữ liệu chính vì thế nó

có thể xử lý được những truy vấn một cách dễ dàng MDX có thể xử lý dữliệu một cách mềm dẻo, kết quả trả về của MDX cũng rất linh hoạt Các phéptruy vấn phức tạp trong SQL như pivot được sử dụng một cách dễ dàng trongMDX

MDX không hỗ trợ các ngôn ngữ định nghĩa dữ liệu (DDL) tuy nhiênngôn ngữ thao tác dữ liệu (DML) của MDX có hỗ trợ thực thi một số thao tácđịnh nghĩa dữ liệu

Cấu trúc của MDX giống như SQL nhưng mở rộng hơn để thao tác với

cơ sở dữ liệu nhiều chiều Câu truy vấn MDX có cấu trúc như sau :

Trang 37

Mệnh đề SELECT dùng để xác định các chiều cảu tập hợp kết quả.Mệnh đề FROM xác định nguồn dữ liệu (cube) dùng để lấy dữ liệu.Mệnh đề WHERE dùng để xác định chiều cắt dữ liệu, nhằm lọc dữ liệu đầu ra.

Truy vấn MDX có thể chứa các thông tin như sau :

o Số lượng chiều (tối đa 128 chiều)

o Các thành viên của mỗi chiềucho từng chiều

o Tên khối dữ liệu

o Các thành viên từ một chiều dùng để cắt (lọc)

Phát biểu SELECT của câu truy vấn MDX còn hỗ trợ các cú pháp tuỳchọn khác, như là từ khóa WITH và việc sử dụng các hàm MDX để xây dựngcác thành viên bằng việc tính toán để thêm vào 1 trục hoặc 1 chiều cắt

Cú pháp của câu truy vấn MDX tương tự như cú pháp SQL, tuy nhiên,

có 1 số khác biệt như sau :

 Cú pháp MDX phân biệt các tập hợp bằng việc dùng dấu ngoặc nhọn{ } bao quanh các bộ hay thành viên

 Câu truy vấn MDX có thể chứa tới 128 chiều, nhưng chỉ có 5 chiềuđầu tiên là có aliase (tên phụ) Một trục có thể được tham chiếu bởithứ tự của nó trong câu MDX hay bởi tên phụ của nó nếu có

 Trong câu truy vấn SQL, mệnh đề FROM có thể chỉ đến nhiều bảng

dữ liệu Tuy nhiên, mệnh đề FROM trong câu truy vấn MDX bị giớihạn ở 1 khối duy nhất Thông tin từ các khối khác có thể được tham

SELECT [Mô tả về chiều thứ nhất],[Mô tả về chiều thứ hai]…

FROM [Mô tả về khối dữ liệu]

WHERE [điều kiện cắt các lớp]

Trang 38

khảo theo từng giá trị bằng cách dùng hàm LookupCube.

Mệnh đề WHERE được dùng để mô tả chiều cắt dữ liệu Nếu 1 chiềukhông được đề cập trong mệnh đề WHERE, SQL Analysis Services vẫn xem

nó là 1 chiều cắt, nhưng được lọc theo số thành viên mặc định của nó Mệnh

đề WHERE có thể thay đổi tiến trình lọc cho 1 chiều nào đó, giúp tinh chỉnh

dữ liệu kết quả

Sử dụng SQL Server Reporting Serveices (SSRS)

Hình 1-12: Kiến trúc của Reporting ServicesSSRS là một dịch vụ của SQL Server , nó là hệ thống quản lý các báocáo Hỗ trợ việc tạo báo cáo, quản lý các báo cáo, và quản lý truy cập thôngqua nền tảng web

SSRS sử dụng ngôn ngữ định nghĩa báo cáo (RDL) và ngôn ngữ đánhdấu mở rộng XML Công cụ soạn thảo báo cáo được tích hợp trên công cụBIDS dựa trên bộ Visual studio cùng với thành phần Crystal Reports Người

Trang 39

dùng có thể soạn thảo các báo cáo một cách dễ dàng trên nền tảng đồ họa, saukhi báo cáo được tạo có thể trích xuất ra nhiều định dạng khác nhau như:Excel, PDF, CSV, XML, TIFF hay dưới dạng văn bản web.

Người dùng có thể tương tác với máy chủ báo cáo một cách trực tiếpthông qua dịch vụ web thay vì sử dụng công cụ Report Manager Với công cụReport Manager người dùng có thể xem các báo cáo, quản lý các báo cáocũng như quản lý và bảo trì các định nghĩa nguồn dữ liệu được sử dụng chobáo cáo và quản lý bảo mật cho báo cáo Các báo cáo có thể được phân phốithông qua mail hoặc các hệ thống file Việc quản lý bảo mật được thực thi vớinhiều cấp độ việc này giúp quản lý mạnh mẽ và linh hoạt hơn Như ở trênhình 1-12 các thành phần chính của hệ SSRS bao gồm:

- Nguồn dữ liệu: nguồn dữ liệu cho dịch vụ báo cáo bao gồm nhiều loại

dữ liệu như SQL Server , Analysis Service, DB2, Oracle, ADO.Net SSRStruy cập nguồn dữ liệu thông qua các trình điều khiển OLE DB hay ODBC

- Công cụ xuất báo cáo: cho phép người dùng xuất báo cáo ra dạngngôn ngữ định dạng báo cáo hoặc ra các định dạng văn bản như : HTML,XML,PDF, EXCEL, CSL hoặc các định dạng khác

- Công cụ bảo mật: chuẩn báo mật cho SSRS dựa trên các kiểu bảo mậtcủa IIS và chứng thực người dùng của windows

- Công cụ chuyển phát báo cáo: SSRS cho phép người dùng truy cậpbáo cáo qua web hoặc chuyển phát cho người dùng qua email hay dạng file hệthống SSRS rất mềm dẻo trong việc phân phối báo cáo cho người dùng

4 MÃ ĐỊA CHỈ BƯU CHÍNH

Trong mục này chúng tôi trình bày về khái niệm cũng như cấu trúc vàcác nguyên tắc tạo mã Bưu chính Trên cơ sở đó, chúng ta áp dụng mã Bưuchính để khai thác dữ liệu tích hợp được theo từng cấp: Huyện, xã, thôn [10]

Trang 40

4.1 Khái niệm

Mã Bưu chính: Là một tập hợp các chữ số được gán cho một địa chỉhoặc một cụm địa chỉ theo những nguyên tắc xác định Mã Bưu chính có độdài 06 ký tự, là tổ hợp của các chữ số từ 0 đến 9 và được viết liên tục MãBưu chính đại diện cho một địa chỉ hoặc cụm địa chỉ tại thành phố và thôn, ấp

ở nông thôn Cụm địa chỉ: Là một tập hợp các địa chỉ được xác định dựa trên

sự phân cấp địa dư hành chính nhà nước (ví dụ: một đoạn phố, một ngõ, mộtngách, một tổ dân phố, một thôn/ấp ) [10]

4.2 Phân cấp và phân loại địa chỉ

Địa chỉ loại II - Địa chỉ loại phường/tổ: Được xác định theo sự phâncấp quản lý tại các thành phố/thị xã đối với các khu vực phía sau các đườngphố và thể hiện trực tiếp các cấp quản lý địa dư hành chính của địa chỉ

Địa chỉ loại III - Địa chỉ đối với các khu tập thể/chung cư: Được xácđịnh đối với các khu tập thể, dãy nhà tập thể Địa chỉ loại này cũng kèm theo

Ngày đăng: 06/07/2015, 10:23

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Nguyễn Văn Ba (2005), Phát triển hướng đối tượng với UML 2. 0 và C++, Nhà xuất bản Đại học Quốc gia Hà Nội Sách, tạp chí
Tiêu đề: Phát triển hướng đối tượng với UML 2. 0 vàC++
Tác giả: Nguyễn Văn Ba
Nhà XB: Nhà xuất bản Đại học Quốc gia Hà Nội
Năm: 2005
[2] TS. Nguyễn Thanh Bình, Bài giảng kho dữ liệu và hệ hỗ trợ ra quyết định, Trung tâm công nghệ thông tin, Đại học Huế Sách, tạp chí
Tiêu đề: Bài giảng kho dữ liệu và hệ hỗ trợ ra quyếtđịnh
[3] TS. Nguyễn Thanh Bình (2007), Bài giảng phân tích và thiết kế hệ thống hướng đối tượng. Đại học Bách Khoa, Đại học Đà Nẵng Sách, tạp chí
Tiêu đề: Bài giảng phân tích và thiết kế hệthống hướng đối tượng
Tác giả: TS. Nguyễn Thanh Bình
Năm: 2007
[6] GSTS Hoàng Kiếm (2004), Giáo trình Cơ sở tri thức và ứng dụng, Trung tâm phát triển công nghệ thông tin, Đại học Quốc gia TP. Hồ Chí Minh Sách, tạp chí
Tiêu đề: Giáo trình Cơ sở tri thức và ứng dụng
Tác giả: GSTS Hoàng Kiếm
Năm: 2004
[7] Phạm Hữu Khang (2007), Giáo trình MS SQL Server, Hà Nội Sách, tạp chí
Tiêu đề: Giáo trình MS SQL Server
Tác giả: Phạm Hữu Khang
Năm: 2007
[8] PGS. Đỗ Phúc (2006), Giáo trình khai phá dữ liệu và data warehousing.Đại học quốc gia TP HCM Sách, tạp chí
Tiêu đề: Giáo trình khai phá dữ liệu và data warehousing
Tác giả: PGS. Đỗ Phúc
Năm: 2006
[10] Viện Công nghệ Thông tin (1997), Kho dữ liệu - Data Warehouse, Hà Nội.78 Sách, tạp chí
Tiêu đề: Kho dữ liệu - Data Warehouse
Tác giả: Viện Công nghệ Thông tin
Năm: 1997
[4] Lê Hoàng Dũng, Nguyễn Trần Minh Khuê sưu tầm giới thiệu, Nhà Kho dữ liệu Khác
[5] Khoa Khoa Học & Kỹ Thuật Máy Tính Trường Đại Học Bách Khoa Tp Khác
[9] Tổng công ty Bưu Chính Việt Nam (2004), Quy định về hệ thống Mã Bưu Chính Việt Nam Khác

HÌNH ẢNH LIÊN QUAN

Bảng 2-2 Các trường cần thiết trích rút đối với dịch vụ - Nghiên cứu giải pháp tích hợp CSDL các phần mềm Bưu chính hỗ trợ thống kê, báo cáo tại Bưu điện Quảng Bình
Bảng 2 2 Các trường cần thiết trích rút đối với dịch vụ (Trang 4)
Hình 1-1: Lược đồ hình sao - Nghiên cứu giải pháp tích hợp CSDL các phần mềm Bưu chính hỗ trợ thống kê, báo cáo tại Bưu điện Quảng Bình
Hình 1 1: Lược đồ hình sao (Trang 15)
Hình 1-2: Lược đồ hình bông tuyết b. Cấu trúc kho dữ liệu - Nghiên cứu giải pháp tích hợp CSDL các phần mềm Bưu chính hỗ trợ thống kê, báo cáo tại Bưu điện Quảng Bình
Hình 1 2: Lược đồ hình bông tuyết b. Cấu trúc kho dữ liệu (Trang 16)
Hình 1-3: Kiến trúc kho dữ liệu - Nghiên cứu giải pháp tích hợp CSDL các phần mềm Bưu chính hỗ trợ thống kê, báo cáo tại Bưu điện Quảng Bình
Hình 1 3: Kiến trúc kho dữ liệu (Trang 17)
Hình 1-4: Mô hình tích hợp dữ liệu - Nghiên cứu giải pháp tích hợp CSDL các phần mềm Bưu chính hỗ trợ thống kê, báo cáo tại Bưu điện Quảng Bình
Hình 1 4: Mô hình tích hợp dữ liệu (Trang 21)
Hình 1-6: Mô hình tích hợp dữ liệu theo phương pháp ETL - Nghiên cứu giải pháp tích hợp CSDL các phần mềm Bưu chính hỗ trợ thống kê, báo cáo tại Bưu điện Quảng Bình
Hình 1 6: Mô hình tích hợp dữ liệu theo phương pháp ETL (Trang 23)
Hình 1-7: Mô hình các kỹ thuật trích xuất dữ liệu trong phương pháp ETL - Nghiên cứu giải pháp tích hợp CSDL các phần mềm Bưu chính hỗ trợ thống kê, báo cáo tại Bưu điện Quảng Bình
Hình 1 7: Mô hình các kỹ thuật trích xuất dữ liệu trong phương pháp ETL (Trang 24)
Hình 1-8 : Các dịch vụ của SQL Server 2005 MSSQL 2005 có 4 dịch vụ lớn: Database Engine,Intergration Service, Reporting service, Analysis Services - Nghiên cứu giải pháp tích hợp CSDL các phần mềm Bưu chính hỗ trợ thống kê, báo cáo tại Bưu điện Quảng Bình
Hình 1 8 : Các dịch vụ của SQL Server 2005 MSSQL 2005 có 4 dịch vụ lớn: Database Engine,Intergration Service, Reporting service, Analysis Services (Trang 26)
Hình 1-9: Mô hình xây dựng kho dữ liệu - Nghiên cứu giải pháp tích hợp CSDL các phần mềm Bưu chính hỗ trợ thống kê, báo cáo tại Bưu điện Quảng Bình
Hình 1 9: Mô hình xây dựng kho dữ liệu (Trang 29)
Hình 1-10: Công cụ phát triển SSIS - Nghiên cứu giải pháp tích hợp CSDL các phần mềm Bưu chính hỗ trợ thống kê, báo cáo tại Bưu điện Quảng Bình
Hình 1 10: Công cụ phát triển SSIS (Trang 30)
Hình 1-11: Kiến trúc của SSAS - Nghiên cứu giải pháp tích hợp CSDL các phần mềm Bưu chính hỗ trợ thống kê, báo cáo tại Bưu điện Quảng Bình
Hình 1 11: Kiến trúc của SSAS (Trang 32)
Hình 1-12: Kiến trúc của Reporting Services SSRS là một dịch vụ của SQL Server , nó là hệ thống quản lý các báo cáo - Nghiên cứu giải pháp tích hợp CSDL các phần mềm Bưu chính hỗ trợ thống kê, báo cáo tại Bưu điện Quảng Bình
Hình 1 12: Kiến trúc của Reporting Services SSRS là một dịch vụ của SQL Server , nó là hệ thống quản lý các báo cáo (Trang 36)
Hình 2- SEQ Hình \* ARABIC \s 1 1: Mô hình CSDL hiện tại của Bưu điện - Nghiên cứu giải pháp tích hợp CSDL các phần mềm Bưu chính hỗ trợ thống kê, báo cáo tại Bưu điện Quảng Bình
Hình 2 SEQ Hình \* ARABIC \s 1 1: Mô hình CSDL hiện tại của Bưu điện (Trang 45)
Hình 2-8: Mô hình tổng thể tích hợp các CSDL - Nghiên cứu giải pháp tích hợp CSDL các phần mềm Bưu chính hỗ trợ thống kê, báo cáo tại Bưu điện Quảng Bình
Hình 2 8: Mô hình tổng thể tích hợp các CSDL (Trang 47)
Hình 2-9: Mô hình ứng dụng của chương trình tin học dịch vụ EMS - Nghiên cứu giải pháp tích hợp CSDL các phần mềm Bưu chính hỗ trợ thống kê, báo cáo tại Bưu điện Quảng Bình
Hình 2 9: Mô hình ứng dụng của chương trình tin học dịch vụ EMS (Trang 48)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w