1. Trang chủ
  2. » Luận Văn - Báo Cáo

Xây dựng hệ thống trợ giúp ra quyết định phục vụ công tác quản lý các đề tài nghiên cứu khoa học và công nghệ của các đơn vị trực thuộc Bộ Khoa học và Công nghệ

73 819 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 73
Dung lượng 3,17 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Đặc biệt, Quốc hội khóa XI đã thông qua Luật giao dịch điện tử, Luật CNTT và Chính phủ đã ban hành Nghị định số 64/2007/NĐ-CP ngày 10/4/2007 về ứng dụng CNTT trong hoạt động của cơ quan

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

BÙI THỊ LIÊN HƯƠNG

XÂY DỰNG HỆ THỐNG TRỢ GIÚP RA QUYẾT ĐỊNH PHỤC

VỤ CÔNG TÁC QUẢN LÝ CÁC ĐỀ TÀI NGHIÊN CỨU KHOA HỌC VÀ CÔNG NGHỆ CỦA CÁC ĐƠN VỊ TRỰC

THUỘC BỘ KHOA HỌC VÀ CÔNG NGHỆ

LUẬN VĂN THẠC SĨ

Hà Nội - 2010

Trang 2

MỤC LỤC

LỜI CAM ĐOAN 1

DANH MỤC CÁC TỪ VIẾT TẮT 5

DANH MỤC CÁC BẢNG 6

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ 7

MỞ ĐẦU 8

1 Lý do chọn đề tài: 8

2 Tổng quan tình hình nghiên cứu: 9

3 Mục tiêu nghiên cứu: 11

4 Phạm vi nghiên cứu: 11

5 Mẫu khảo sát: 12

6 Vấn đề nghiên cứu: 12

7 Giả thuyết nghiên cứu: 12

8 Phương pháp chứng minh giả thuyết: 13

9 Kết cấu luận văn: 14

CHƯƠNG 1 TỔNG QUAN 15

1.1 Hệ trợ giúp ra quyết định 15

1.1.1 Giới thiệu khái niệm hệ trợ giúp ra quyết định 15

1.1.2 Phân loại hệ trợ giúp ra quyết định 15

1.1.3 Các thành phần cơ bản của hệ hỗ trợ ra quyết định 16

1.2 Kho dữ liệu (DW) 17

1.2.1 Dữ liệu tác nghiệp 17

1.2.2 Khái niệm về kho dữ liệu 19

1.2.3 Đặc trưng của kho dữ liệu 20

1.2.4 Siêu dữ liệu (Meta Data) 21

1.2.5 Cấu trúc kho dữ liệu 21

1.2.6 Các mô hình kho dữ liệu 23

1.2.7 Các bước thiết kế kho dữ liệu 24

1.3 Xử lý dữ liệu trực tuyến (OLAP) 25

1.3.1 Lý do sử dụng OLAP 25

1.3.2 Kiến trúc vật lý 26

1.3.3 Phương pháp thiết kế 27

1.3.4 Thực hiện truy vấn và thiết kế khung nhìn (Materialized View) 28

1.3.5 Các phép toán OLAP trong mô hình dữ liệu nhiều chiều 29

1.4 Kết luận 31

Trang 3

&CN 32

2.1 Giới thiệu chung về hệ thống 32

2.2 Phương pháp luận và công cụ 33

2.2.1 Phương pháp luận chung 33

2.2.2 Phân tích có cấu trúc 33

2.2.3 Hai mô hình phân tích hệ thống có cấu trúc 34

2.2.4 Phương pháp luận xây dựng kho dữ liệu 34

2.2.5 Công cụ thực hiện 35

2.2.6 Bộ công cụ Microsoft SQL Server 2005 36

2.3 Phân tích, thiết kế hệ thống 36

2.3.1 Những yêu cầu chung về hệ thống 36

2.3.2 Thiết kế cơ sở dữ liệu 37

2.3.3 Xây dựng mô hình cấu trúc cơ sở dữ liệu 40

2.3.4 40

2.4 Kết luận 41

CHƯƠNG 3 XÂY DỰNG KHO DỮ LIỆU VÀ GIẢI PHÁP XỬ LÝ PHÂN TÍCH TRỰC TUYẾN 42

3.1 42

3.1.1 Phân tích hệ thống 42

3.1.2 Phân tích chức năng 42

3.1.3 Nội dung thông tin cần khai thác 44

3.1.4 Phân tích về dữ liệu 45

3.2 Xây dựng các khối và các chiều cho giải pháp OLAP 47

3.2.1 Xây dựng tiến trình trợ giúp cho bài toán 47

3.2.2 Xây dựng các khối và các chiều cho OLAP 49

3.3 Kết luận 51

52

4.1 52

4.1.1 52

4.1.2 52

4.2 53

4.2.1 Tạo lập cơ sở dữ liệu đa chiều 53

4.2.2 Phân tích và hiển thị dữ liệu 53

4.2.3 Tạo và thực hiện các truy vấn 54

4.3 Cài đặt minh họa 54

4.3.1 Chuẩn bị dữ liệu 54

Trang 4

4.3.2 Phân tích và hiển thị dữ liệu 66

4.4 Kết luận 70

KẾT LUẬN 71

TÀI LIỆU THAM KHẢO 73

Trang 5

DANH MỤC CÁC TỪ VIẾT TẮT

CNTT Công nghệ thông tin

CNTT & TT Công nghệ thông tin và

truyền thông

KH&CN Khoa học và Công nghệ

Decision Support System DSS Hệ trợ giúp ra quyết định

Online Analysis Processing OLAP Xử lý phân tích trực tuyến

Online Transaction Processing OLTP Xử lý giao dịch trực tuyến

Trang 6

DANH MỤC CÁC BẢNG

1 Bảng 3.1.1 Phân cấp dữ liệu trong bảng chiều

2 Bảng 3.1.2 Một số đơn vị đo đặc trưng của bảng sự kiện

3 Bảng 4.3.1 Chuẩn bị dữ liệu cho bảng Chủ nhiệm đề tài

4 Bảng 4.3.2 Chuyển dữ liệu tới bảng sự kiện

Trang 7

7 Hình 3.2.2 Mô hình dữ liệu đa chiều

8 Hình 3.2.3 Mô hình dữ liệu khối

9 Hình 4.1.2 Sơ đồ chi tiết cài đặt hệ thống

10 Hình 4.3.1 Tạo một Analysis Services Project mới

11 Hình 4.3.2 Xác định dữ liệu nguồn

12 Hình 4.3.3 Chọn dữ liệu để xử lý

13 Hình 4.3.4 Xác định bảng sự kiện và bảng chiều

14 Hình 4.3.5 Lựa chọn đơn vị đo

15 Hình 4.3.6 Phân tích và hiển thị dữ liệu của khối

Trang 8

MỞ ĐẦU

1 Lý do chọn đề tài:

Sự phát triển vượt bậc và không ngừng đổi mới của ngành CNTT&TT đã

và đang tác động mạnh mẽ, sâu sắc và toàn diện đến mọi mặt trong đời sống chính trị, kinh tế, văn hóa, xã hội trên toàn thế giới Cuộc cách mạng KH&CN này đã và đang tạo ra cơ hội cho những biến đổi cơ bản và những thành công to lớn của các nước trên thế giới Trong vài thập kỷ gần đây, nhiều nước trên thế giới đã nắm bắt được cơ hội ứng dụng CNTT&TT, tận dụng thế mạnh của nó để thúc đẩy phát triển kinh tế-xã hội, tạo ra những bước đột phá, đưa đất nước tiến mạnh lên phía trước

Để hội nhập với xu thế phát triển chung của thế giới và các nước trong khu vực, Bộ Chính trị đã ban hành Chỉ thị số 58-CT/TW ngày 17/10/2000 về đẩy mạnh ứng dụng và phát triển CNTT phục vụ sự nghiệp công nghiệp hóa,

hiện đại hóa đất nước, trong đó đã khẳng định: “Ứng dụng và phát triển CNTT ở

nước ta nhằm góp phần giải phóng sức mạnh vật chất, trí tuệ và tinh thần của toàn dân tộc, thúc đẩy công cuộc đổi mới, phát triển nhanh và hiện đại hoá các ngành kinh tế, tăng cường năng lực cạnh tranh của các doanh nghiệp, hỗ trợ có hiệu quả cho quá trình chủ động hội nhập kinh tế quốc tế, nâng cao chất lượng cuộc sống của nhân dân, đảm bảo an ninh, quốc phòng và tạo khả năng đi tắt đón đầu để thực hiện thắng lợi sự nghiệp công nghiệp hoá, hiện đại hoá” Đặc

biệt, Quốc hội khóa XI đã thông qua Luật giao dịch điện tử, Luật CNTT và Chính phủ đã ban hành Nghị định số 64/2007/NĐ-CP ngày 10/4/2007 về ứng dụng CNTT trong hoạt động của cơ quan nhà nước, tạo ra một cơ sở pháp lý quan trọng để thúc đẩy phát triển ứng dụng CNTT nhằm nâng cao chất lượng, hiệu quả trong hoạt động của cơ quan nhà nước và giữa các cơ quan nhà nước, trong giao dịch điện tử của cơ quan nhà nước với các tổ chức và cá nhân; hỗ trợ cải cách thủ tục hành chính và cung cấp dịch vụ công bảo đảm công khai, minh bạch…

Trong những thập kỷ qua, sự phát triển nhanh chóng của các công nghệ hiện đại trong lĩnh vực CNTT&TT, đặc biệt là mạng Internet, đang tạo ra những thay đổi đáng kể trong việc tổ chức quản lý hoạt động nghiên cứu triển khai nói riêng và trong hệ thống quản lý ngành KH&CN nói chung Là một cơ quan của Chính phủ thực hiện chức năng quản lý nhà nước về KH&CN, từ năm 1996 đến nay, căn cứ vào các chủ trương, chính sách về phát triển ứng dụng CNTT-TT của Đảng và Nhà nước, Bộ KH&CN đã tổ chức triển khai thực hiện một số dự

Trang 9

án phát triển ứng dụng CNTT theo hướng dẫn chung của Chương trình quốc gia

về CNTT (1996-2000), Chương trình Tin học hóa quản lý nhà nước 2005), Nghị định 64/2007/NĐ-CP về ứng dụng CNTT trong hoạt động của cơ quan nhà nước, Quyết định số 43/2008/QĐ-TTg về việc phê duyệt kế hoạch ứng dụng CNTT trong hoạt động của cơ quan nhà nước năm 2008 và gần đây nhất là Quyết định số 48/2009/QĐ-TTg về việc phê duyệt kế hoạch ứng dụng CNTT trong hoạt động của cơ quan nhà nước giai đoạn 2009-2010 Tuy đã đạt được một số kết quả nhất định nhưng vẫn còn tồn tại nhiều vấn đề bất cập cần giải quyết trong việc triển khai các ứng dụng CNTT phục vụ công tác quản lý nhà nước của Bộ KH&CN, đặc biệt là tổ chức quản lý các chương trình, đề tài nghiên cứu khoa học Cho đến nay, Bộ KH&CN vẫn chưa xây dựng được “Hệ thống trợ giúp ra quyết định hỗ trợ công tác quản lý các chương trình, đề tài nghiên cứu khoa học” để tạo ra một công cụ đảm bảo việc cung cấp thông tin đầy đủ, kịp thời và chính xác, nâng cao một bước hiệu quả công tác quản lý nhà nước về hoạt động nghiên cứu KH&CN theo hướng hình thành Bộ KH&CN điện tử (e-MOST), góp phần đưa KH&CN trở thành động lực thúc đẩy phát triển kinh tế-xã hội Do vậy, việc nghiên cứu xây dựng “Hệ thống trợ giúp ra quyết định hỗ trợ công tác quản lý chương trình, đề tài nghiên cứu khoa học” để hỗ trợ việc lựa chọn tổ chức và cá nhân chủ trì thực hiện các nhiệm vụ KH&CN phù hợp, góp phần nâng cao năng lực quản lý các nhiệm vụ nghiên cứu triển khai của Bộ và gắn kết hoạt động nghiên cứu khoa học với thực tiễn sản xuất đang là một nhu cầu rất cấp thiết hiện nay

(2001-2 Tổng quan tình hình nghiên cứu:

Chính phủ của nhiều nước trên thế giới đã triển khai xây dựng các hệ thống thông tin điện tử phục vụ công tác quản lý từ những năm 1980 Từ những năm 1990, mạng Internet phát triển thành xa lộ thông tin toàn cầu, nhiều nước trên thế giới đang phát triển mạnh xu hướng tích hợp các cơ sở dữ liệu (CSDL)

để xây dựng các hệ thống hỗ trợ ra quyết định nhằm đáp ứng các yêu cầu thống nhất nội dung thông tin và trao đổi dữ liệu trên diện rộng Các hệ thống hỗ trợ ra quyết định này đã và đang được áp dụng ở nhiều nước có nền công nghiệp CNTT phát triển như: Mỹ, Canada, Đức, Anh, Pháp, Ấn Độ, Hàn Quốc, Singapore và hoạt động rất hiệu quả trong các lĩnh vực an ninh quốc phòng, quản lý đất đai, dân cư, y tế trên nền tảng của các hệ quản trị CSDL như: MS SQL Server, Oracle, Sybase Đặc biệt, trong thập kỷ vừa qua, khi mà công nghệ Internet tốc độ cao ngày càng phát triển và thâm nhập vào mọi mặt của đời sống xã hội thì việc xây dựng các hệ thống hỗ trợ ra quyết định lại càng đóng vai trò quan trọng hơn Các thông tin trong CSDL tích hợp của hệ thống hỗ trợ ra

Trang 10

quyết định sẽ được sử dụng để nhanh chóng tạo ra các trang thông tin điện tử động (Dynamic Web Page) phục vụ cho việc tra cứu, chia sẻ thông tin trên mạng

và xử lý dữ liệu theo các kịch bản để đưa ra các lựa chọn khách quan hỗ trợ công tác quản lý theo các tùy chọn khác nhau Do vậy, việc xây dựng các hệ thống hỗ trợ ra quyết định theo hướng trí tuệ nhân tạo đã và đang được các nhà khoa học trên thế giới quan tâm nghiên cứu và phát triển trong giai đoạn hiện nay

Từ sau năm 2000 đến nay, ở nước ta, mô hình CSDL tích hợp – phần lõi của hệ thống hỗ trợ ra quyết định đã được triển khai ứng dụng tại các Trung tâm Tin học của nhiều Bộ, ngành như: Bộ Tài chính, Bộ Nông nghiệp và Phát triển nông thôn, Ngân hàng, Bộ Thương mại, Bộ Tài nguyên và Môi trường Tuy nhiên, do trong thời gian qua sự chỉ đạo, điều hành và công tác quản lý nhà nước

về phát triển ứng dụng CNTT của nước ta có nhiều thay đổi đột xuất cho nên việc hình thành các hệ thống hỗ trợ ra quyết định trên nền tảng tích hợp các CSDL mới chỉ được các Bộ, ngành tiến hành nghiên cứu thử nghiệm, chưa xây dựng được một hệ thống hoàn chỉnh để đưa vào sử dụng chính thức Đã có nhiều công trình nghiên cứu về kết quả thực hiện phát triển ứng dụng CNTT của nước

ta trong từng giai đoạn (từ năm 2000 đến nay) và qua đó có thể thấy mỗi giai đoạn đều đạt được những thành tựu nhất định, song cũng nẩy sinh nhiều vấn đề làm hạn chế kết quả của việc ứng dụng CNTT trong công tác quản lý nhà nước

Theo kết quả điều tra sơ bộ, các CSDL hiện có của các đơn vị trực thuộc

Bộ KH&CN liên quan đến công tác quản lý các nhiệm vụ KH&CN phần lớn được quản lý và lưu trữ trên phần mềm MS Access, chạy độc lập trên các máy trạm theo nhu cầu của từng đơn vị và chưa thống nhất về cấu trúc dữ liệu cũng như không có tiêu chuẩn về thông tin và không được cập nhật thường xuyên Do vậy, các thông tin của các CSDL này hầu như không được chia sẻ và hiệu quả rất hạn chế

Chính vì vậy, việc xây dựng hệ thống thông tin tích hợp phục vụ công tác quản lý nhà nước về KH&CN đang là một trong các nhiệm vụ trọng tâm, ưu tiên của Bộ KH&CN trong giai đoạn hiện nay Đặc biệt là ứng dụng CNTT để xây dựng hệ thống CSDL tích hợp phục vụ công tác quản lý, thống kê các nhiệm vụ KH&CN của Bộ, hỗ trợ công tác xây dựng kế hoạch và quản lý hoạt động nghiên cứu và phát triển KH&CN Hệ thống thông tin này không những phải đáp ứng tốt yêu cầu quản lý các nhiệm vụ KH&CN mà còn hỗ trợ công tác tư vấn ra quyết định giao chỉ tiêu kế hoạch hàng năm, lựa chọn tổ chức và cá nhân chủ trì thực hiện nhiệm vụ KH&CN đồng thời sẽ góp phần nâng cao năng lực

Trang 11

quản lý các nhiệm vụ nghiên cứu triển khai của Bộ KH&CN Hệ thống trợ giúp

ra quyết định này cần được thiết kế và xây dựng dựa trên các công cụ phát triển phần mềm tiên tiến, phù hợp với xu thế ứng dụng CNTT hiện nay trên thế giới;

sử dụng công cụ phát triển phần mềm trên web là ASP.NET và CSDL tích hợp được quản lý, lưu trữ trên cơ sở hệ quản trị dữ liệu MS SQL Server với hệ thống bảo mật thông tin cao Hệ thống trợ giúp ra quyết định cần được xây dựng trên

cơ sở khai phá dữ liệu trong các CSDL quản lý các đề tài nghiên cứu KH&CN

đã có sẵn tại Bộ KH&CN Hệ thống có khả năng phân tích dữ liệu theo yêu cầu truy vấn trực tiếp hoặc theo các kịch bản có sẵn để cung cấp cho các nhà quản lý các thông tin đầy đủ về cơ quan và cá nhân chủ trì, về quá trình phê duyệt nhiệm

vụ, về tiến độ triển khai thực hiện, về các kết quả và kinh phí… của các chương trình, đề tài nghiên cứu KH&CN để cơ quan quản lý có thể nắm bắt được thực trạng tình hình thực hiện; trên cơ sở đó sẽ đánh giá và quyết định việc cho phép tiếp tục thực hiện hay buộc phải dừng lại đồng thời hệ thống sẽ hỗ trợ việc lựa chọn triển khai các đề tài nghiên cứu mới mà không bị chồng chéo, trùng lặp với các đề tài đã và đang thực hiện, tránh lãng phí thời gian và kinh phí

3 Mục tiêu nghiên cứu:

và xử lý dữ liệu trực tuyến nhằm góp phần nâng cao năng lực quản lý và hiệu quả hoạt động KH&CN, gắn các chương trình, đề tài nghiên cứu khoa học với thực tiễn sản xuất và đời sống xã hội

(Online Analytical Processing) cho hệ thống trợ giúp ra quyết định nêu trên tại Bộ KH&CN

Trang 12

Nghiên cứu một số vấn đề về khai phá dữ liệu, áp dụng trên hệ thống cơ

sở dữ liệu quản lý các đề tài, chương trình nghiên cứu KH&CN đã được xây dựng tại Bộ KH&CN

Phân tích, thiết kế hệ thống trợ giúp ra quyết định với chức năng đánh giá

đề tài nghiên cứu, hỗ trợ cho các nhà quản lý ra quyết định trong quá trình triển khai thực hiện các đề tài và lựa chọn đề tài nghiên cứu KH&CN hàng năm

Cài đặt và đánh giá kết quả thử nghiệm chương trình hỗ trợ công tác quản

lý các chương trình, đề tài nghiên cứu khoa học tại Bộ KH&CN

5 Mẫu khảo sát:

Các đơn vị trực thuộc Bộ KH&CN

Kết quả triển khai dự án Tin học hóa quản lý nhà nước tại một số Bộ, ngành Trung ương

6 Vấn đề nghiên cứu:

Hiện trạng ứng dụng CNTT trong công tác quản lý các nhiệm vụ nghiên cứu và phát triển của Bộ KH&CN hiện nay như thế nào?

xây dựng CSDL tích hợp của hệ thống, hình thành kho dữ liệu, tối ưu hóa

như thế nào?

công tác nghiên cứu khoa học &CN thế nào là phù hợp?

7 Giả thuyết nghiên cứu:

Hiện trạng phát triển ứng dụng CNTT phục vụ công tác quản lý tại Bộ KH&CN:

Hạ tầng cơ sở kỹ thuật có khả năng đáp ứng cơ bản cho việc triển khai các

dự án ứng dụng CNTT phục vụ công tác quản lý Một số ứng dụng CNTT đã được triển khai thực hiện phục vụ công tác quản lý, chỉ đạo, điều hành của Lãnh đạo Bộ cũng như chuyên môn, nghiệp vụ của chuyên viên Một số dịch vụ công

đã được xây dựng tuy mới ở mức sơ khai Nhận thức của cán bộ, công chức về vai trò và tác dụng của CNTT được nâng cao Tuy nhiên, việc ứng dụng CNTT

để nâng cao năng lực điều hành, quản lý, phục vụ người dân và doanh nghiệp tại

Bộ KH&CN chưa thực sự hiệu quả, chưa đạt mục tiêu đề ra do Chính phủ quy định

H thống và các giải pháp xây dựng kho dữ liệu,

:

Trang 13

Hệ thống hỗ trợ ra quyết định là một công cụ hỗ trợ hiệu quả công tác quản lý các nhiệm vụ nghiên cứu và phát triển KH&CN.

CSDL tích hợp từ các đơn vị quản lý Trên CSDL quản lý và cấp chỉ tiêu kinh phí cho thực hiện nhiệm vụ KH&CN tại các đơn vị là kho dữ liệu được lưu trong máy chủ cơ sở dữ liệu đặt tại Trung tâm Tin học CSDL sẽ đảm nhiệm việc lưu trữ thông tin về tình hình cấp kinh phí và tiến độ thực hiện hàng năm cho các nhiệm vụ tại các đơn vị chủ trì thực hiện đề tài nghiên cứu KH&CN và thông qua các thông tin xử lý trực tuyến cơ quan quản lý có thể theo dõi tình hình triển khai thực hiện cũng như chi tiêu kinh phí, từ đó đánh giá hiệu quả, làm căn cứ cho việc cấp chỉ tiêu kinh phí và phê duyệt nhiệm vụ KH&CN cho những năm tiếp theo

công tác nghiên cứu khoa học &CN:

Chức năng chính của hệ thống bao gồm: Quản lý các chương trình, đề tài, nhiệm vụ cấp nhà nước, cấp bộ khác do các đơn vị trực thuộc Bộ chủ trì thực hiện; Quản lý chỉ tiêu kế hoạch KH&CN hàng năm của các đơn vị; Truy vấn và hỏi đáp nâng cao; Xử lý theo các kịch bản yêu cầu; Tạo báo cáo thống kê theo

các chỉ tiêu khác nhau

Một số thông tin hỗ trợ ra quyết định: Kiểm tra đề tài/dự án như vậy hoặc tương tự đã được đăng ký hay thực hiện chưa, từ đó quyết định cho phép/không cho phép thực hiện đề tài/dự án đăng ký; Đánh giá hiệu quả thực hiện nhiệm vụ trong những năm trước của một đơn vị để ra quyết định xét duyệt/loại bỏ nhiệm

vụ không hiệu quả/trùng lặp của những năm tiếp theo; Đánh giá hiệu quả triển khai kinh phí cấp cho thực hiện nhiệm vụ tại đơn vị hàng năm, từ đó quyết định mức kinh phí sẽ cấp những năm tiếp theo

8 Phương pháp chứng minh giả thuyết:

Đề thực hiện các nội dung nghiên cứu, các phương pháp nghiên cứu sau

sẽ được sử dụng:

Phương pháp nghiên cứu tài liệu: Thu thập và nghiên cứu các tài liệu liên quan về kết quả triển khai ứng dụng CNTT vào công tác quản lý nhà nước, các bài báo khoa học, các văn bản quy phạm pháp luật liên quan

Trang 14

Phương pháp điều tra: Để xác định thực trạng việc ứng dụng CNTT trong công tác quản lý nhà nước tại Bộ KH&CN, đề tài đã tiến hành điều tra khảo sát

29 đơn vị trực thuộc Bộ KH&CN thuộc các khối quản lý nhà nước và đơn vị sự nghiệp

Phương pháp thiết kế hệ thống: Thiết kế và xây dựng hệ thống trợ giúp ra quyết định hỗ trợ công tác quản lý các chương trình, đề tài nghiên cứu khoa học

9 Kết cấu luận văn:

Kết cấu của bản Luận văn gồm những nội dung chính sau:

Trang 15

CHƯƠNG 1 TỔNG QUAN

1.1 Hệ trợ giúp ra quyết định

1.1.1 Giới thiệu khái niệm hệ trợ giúp ra quyết định

Hệ hỗ trợ ra quyết định cấu tạo từ một lớp các hệ thống thông tin dựa trên máy tính bao gồm các hệ thống dựa trên tri thức để hỗ trợ cho các hoạt động ra quyết định

Hệ hỗ trợ quyết định là một lớp xác định các hệ thống thông tin được máy tính hoá hỗ trợ cho các hoạt động ra quyết định của tổ chức và doanh nghiệp Hệ

hỗ trợ quyết định được thiết kế hoàn hảo là hệ thống dựa trên phần mềm tương tác với mong muốn giúp đỡ những người ra quyết định chuyển các thông tin thông dụng từ các dữ liệu thô, các tài liệu, các tri thức cá nhân và/hoặc các mô hình doanh nghiệp để xác định và giải quyết vấn đề từ đó ra quyết định

Thông tin thông thường mà ứng dụng hỗ trợ ra quyết định có thể thu thập

1.1.2 Phân loại hệ trợ giúp ra quyết định

Các tác giả khác nhau đưa ra các cách phân loại khác nhau Sử dụng mối liên kết với người dùng như một tiêu chí đánh giá, Haettenschwiler đã phân tách

hệ hỗ trợ quyết định thành các loại: hệ hỗ trợ quyết định bị động, chủ động và kết hợp Hệ bị động là hệ thống trợ giúp cho tiến trình ra quyết định nhưng không thể cung cấp giải pháp hay tư vấn rõ ràng cho quyết định Hệ chủ động có thể khắc phục được điều đó Hệ kết hợp cho phép người ra quyết định sửa đổi, hoàn thành hay cải tiến những tư vấn quyết định do hệ thống cung cấp trước khi gửi đi kiểm tra Sau khi hệ thống xem xét các thông tin của người ra quyết định gửi đến sẽ sửa đổi, bổ sung và gửi lại để người ra quyết định kiểm tra lần nữa Quá trình trên sẽ lại được bắt đầu lại từ đầu cho tới khi đưa ra được các giải pháp thống nhất

Trang 16

Daniel Power cũng có cách phân loại khác cho hệ hỗ trợ quyết định Sử dụng mô hình trợ giúp như tiêu chuẩn phân loại, Power phân chia hệ hỗ trợ quyết định thành hệ hỗ trợ quyết định hướng giao tiếp, hệ hỗ trợ quyết định hướng tài liệu, hệ hỗ trợ quyết định hướng tri thức và hệ hỗ trợ quyết định hướng mô hình:

- Hệ hỗ trợ quyết định hướng mô hình (Model-driven DSS) tập trung vào truy nhập và thao tác trên mô hình thống kê, tài chính, tối ưu hoặc mô phỏng Hệ

hỗ trợ quyết định hướng mô hình sử dụng dữ liệu và các tham số do người dùng cung cấp để trợ giúp cho người ra quyết định trong việc phân tích tình huống, hệ thống này không cần phải có nhiều dữ liệu

- Hệ hỗ trợ quyết định hướng giao tiếp (Communication-driven DSS) hỗ trợ trong trường hợp nhiều người cùng làm 1 công việc, trong đó sử dụng các công

cụ tích hợp như Microsoft's NetMeeting hay Groove

- Hệ hỗ trợ quyết định hướng dữ liệu (Data-driven DSS hay Data-oriented DSS) tập trung vào truy nhập và thao tác trên dẫy dữ liệu nội bộ của công ty hoặc đôi khi là dữ liệu bên ngoài

- Hệ hỗ trợ quyết định hướng tài liệu (Document-driven DSS) quản lý, hiển thị và thao tác trên thông tin phi cấu trúc dưới các định dạng điện tử khác nhau

- Hệ hỗ trợ quyết định hướng tri thức (Knowledge-driven DSS) cung cấp kinh nghiệp giải quyết vấn đề chuyên sâu đã được lưu trữ trong hệ thống như các sự kiện, các luật, thủ tục hoặc các cấu trúc tương tự

Sử dụng phạm vi như tiêu chuẩn phân loại, Power cũng phân hệ hỗ trợ quyết định thành hệ hỗ trợ quyết định mở rộng cho doanh nghiệp và hệ hỗ trợ quyết định thu gọn Hệ hỗ trợ quyết định mở rộng cho doanh nghiệp liên kết đến những kho dữ liệu lớn và phục vụ cho các nhà quản lý trong doanh nghiệp Trong khi khi đó hệ hỗ trợ quyết định cho người dùng đơn (thu gọn) là hệ thống

nhỏ hoạt động trong máy tính của từng người quản lý

1.1.3 Các thành phần cơ bản của hệ hỗ trợ ra quyết định

Theo Power, qua lý thuyết chính thống và từ thực tế hệ hỗ trợ ra quyết định được xây dựng từ 4 thành phần chính: (a) Giao diện người dùng, (b) Cơ sở

dữ liệu, (c) Các công cụ phân tích và xây dựng mô hình, (d) Cấu trúc hệ hỗ trợ

ra quyết định và mạng

Còn Hättenschwiler định nghĩa 5 thành phần trong hệ hỗ trợ ra quyết định bao gồm:

Trang 17

(a) người dùng với các vai trò hoặc chức năng khác nhau trong tiến trình

ra quyết định (người quyết định, người tư vấn, chuyên gia lĩnh vực, chuyên gia hệ thống, người thu thập dữ liệu);

(e) môi trường hoạt động để chuẩn bị, phân tích và xây dựng tài liệu cho

các phiên bản quyết định

Theo Arakas dự kiến một cấu trúc chung có 5 thành phần

(a) Hệ thống quản lý dữ liệu

Các ứng dụng trên client bao gồm tất cả các loại ứng dụng như ngân hàng, bán vé trực tuyến, bán vé hàng không, thanh toán cước phí Sử dụng hệ thống OLTP có các ưu điểm sau:

- Xử lý các tương tác

- Dễ bảo trì và khống chế dữ liệu thừa

- Thiết lập dữ liệu quan hệ trọn vẹn

- Tính hiệu quả cao

- Giảm thời gian của khách hàng

Các CSDL trong các hệ OLTP thường được thiết kế thoả mãn 3NF (Third Normal Form) hoặc tốt hơn Đặc điểm của hệ thống OLTP là nó lưu trữ các dữ liệu "thô", có nghĩa là mức độ tổng quát, trừu tượng của dữ liệu này rất thấp Nói cách khác OLPT rất có ích để tìm trả lời những câu truy vấn dạng: Tổng sản

Trang 18

lượng sản phẩm X do công ty bán được trong 6 tháng đầu năm, mặt hàng nào bán chạy nhất tại địa phương Y trong tháng vừa qua Trong khi đó các nhà quản lý ở mức cao của công ty rất ít khi quan tâm đến những câu hỏi loại đó Điều họ cần chú ý là những câu hỏi trừu tượng hơn như: Tiêu thụ A tại B đang giảm, nếu thay đổi 3%-5% giá của sản phẩm A tại khu vực B, tình trạng tiêu thụ

sẽ thay đổi ra sao trong 6 tháng cuối năm và tại sao?

Các hệ thống OLTP hiện nay trả lời rất tốt câu hỏi 1 bằng các công cụ của hệ CSDL quan hệ nhưng để tìm đáp án cho những câu hỏi dạng 2 là không đơn giản Những yếu tố căn bản cản trở việc sử dụng dữ liệu của các hệ thống OLPT trong việc phân tích dữ liệu là:

- Các số liệu ở mức quá chi tiết

- Các số liệu được phân bố ở những hệ thống khác nhau, có các thủ tục truy cập khác nhau và ở những CSDL hoàn toàn khác nhau

- Các số liệu không được cập nhập cùng một chu kỳ dẫn đến sự mất đồng

bộ

- Việc tổ chức truy cập từ rất nhiều bảng dữ liệu khác nhau có ảnh hưởng xấu tới hiệu suất của các hệ thống vì mục đích của các hệ thống này là nhằm phục vụ các giao dịch trực tuyến

Trong môi trường thừa thãi số liệu, nhà phân tích không thể tìm ra cho mình thông tin cần thiết nhằm có được sự hiểu biết thấu đáo về những quá trình xảy ra xung quanh Tình trạng số liệu quá chi tiết và không có được sự liên kết với nhau của các số liệu phản ánh các quá trình tương đối độc lập của một thực thể

là lý do trực tiếp dẫn đến sự khủng hoảng này

Vì vậy, người ta đã đưa ra giải pháp tích hợp các hệ thống OLTP để tạo ra một hệ thống chứa đầy đủ thông tin Tuy nhiên giải pháp này có hai nhược điểm lớn:

- Phải liên kết các hệ thống có xuất xứ khác nhau về phần cứng và phần mềm hệ thống Các chương trình cần có sự thống nhất về định nghĩa dữ liệu cũng như phương pháp biểu diễn dữ liệu Vấn đề này rất phức tạp thậm chí đối với các hệ thống có thiết kế phân tích tốt và hoàn toàn không khả thi đối với những hệ thống được mô tả kém

- Khi thực hiện các truy vấn để tạo báo cáo thường xuyên phải khoá rất nhiều bảng, cản trở sự truy xuất của nhân viên khai thác trong quá trình làm việc hàng ngày và làm ảnh hưởng trực tiếp đến khách hàng

Trang 19

1.2.2 Khái niệm về kho dữ liệu

Là một cách tiếp cận do B.Inmon đề xướng vào những năm 90 của thế kỷ trước Đây là sự kết hợp của một số giải pháp kỹ thuật và được đặt tên là Data Warehoushing - kỹ thuật xây dựng các kho dữ liệu Kho dữ liệu được định nghĩa như một tập hợp các phương tiện cho phép hình dung dữ liệu một cách tổng thể, hướng đối tượng để giúp cho việc phân tích và ra quyết định

Những người đầu tiên đưa ra ý tưởng về kho dữ liệu xác định rằng tiến hành phân tích trực tiếp trên dữ liệu của các hệ xử lý giao dịch không hiệu quả Các

dữ liệu từ một vài OLTP cần phải được biến đổi và sau đó đưa vào một nơi lưu trữ dữ liệu duy nhất Quá trình này được gọi là đưa dữ liệu vào kho dữ liệu, gồm các công đoạn chính sau:

- Làm sạch (Bỏ các dữ liệu không cần thiết hoặc quá chuyên dụng)

- Liên kết các số liệu (tính trước số liệu tích, tổng, trung bình )

- Biến đổi dữ liệu: số liệu được biến đổi thành dạng thích hợp, tổ chức lại phù hợp với kho dữ liệu

- Tích hợp số liệu từ các nguồn khác nhau

- Đồng bộ hoá số liệu ở một thời điểm xác định

Kho dữ liệu cũng là hệ thống dữ liệu đã được chuẩn bị để xây dựng hệ hỗ trợ quyết định (DSS-Decision Support Systems) và hệ phân tích trực tuyến (OLAP-Online Analysis Processing) do dữ liệu trong đó thoả mãn tính chất toàn vẹn và

có sự liên kết nội tại: Mặc dù dữ liệu được cung cấp từ nhiều OLTP, chúng được liên kết bằng sự thống nhất trong quy tắc đặt tên, đơn vị đo, hệ thống các thuộc tính chung Điều này có giá trị đặc biệt khi vận hành một lúc vài hệ thống, trong đó các dữ liệu được biểu diễn bằng những đơn vị khác nhau (ví dụ như các cách biểu diễn ngày, tháng khác nhau hoặc biểu diễn logic khác nhau) Các chỉ

số quan trọng như tổng số, giá trị trung bình trong các giai đoạn khác nhau, trung bình cộng cũng được biểu diễn rất đa dạng ở các hệ khác nhau Khi đưa

số liệu vào kho dữ liệu, mọi chỉ số không tương thích được chuyển đổi, tránh các lỗi tiềm tàng trong hệ thống

Kho dữ liệu cung cấp tiếp cận thay thế so với tiếp cận truyền thống đối với

cơ sở dữ liệu không đồng nhất Thay vì dùng tiếp cận hướng câu hỏi, kho dữ liệu dùng tiếp cận hướng cập nhật, trong đó thông tin từ nhiều nguồn, không đồng nhất, được tích hợp trước và lưu trong kho để hỏi hay phân tích trực tiếp Không giống như cơ sở dữ liệu xử lí giao tác, kho dữ liệu không chứa dữ liệu mới nhất Tất nhiên, kho dữ liệu có hiệu quả cao trong việc tích hợp hệ

Trang 20

thống cơ sở dữ liệu không đồng nhất vì dữ liệu được sao chép, tiền xử lí, tích hợp, chú giải, tóm tắt và cấu trúc lại vào một nơi chứa dữ liệu ngữ nghĩa Hơn nữa, xử lí câu hỏi trong kho dữ liệu không can thiệp việc xử lí tại nguồn cục bộ

Mà kho dữ liệu lưu trữ và tích hợp thông tin lịch sử và trợ giúp các câu hỏi đa chiều phức tạp

1.2.3 Đặc trưng của kho dữ liệu

Xây dựng kho dữ liệu nhằm giải quyết các vấn đề sau trong quá khứ:

- Không có sự chia sẻ thông tin (Lack of Information Sharing)

- Các nhóm làm việc khác nhau đưa ra những báo cáo trái ngược nhau

- Tạo nên những báo cáo kém hiệu quả

- Tạo nên những báo cáo thiếu sự cập nhật, những báo cáo không hỗ trợ cho các trường hợp không dự đoán trước

Không đưa ra được những báo cáo có dữ liệu mang tính lịch sử

Kho dữ liệu là sự tích hợp các dữ liệu từ các OLTP khác nhau nhằm tập hợp

dữ liệu phục vụ quá trình phân tích hoạt động kinh doanh nên dữ liệu trong một

hệ thống kho dữ liệu cần thoả mãn một số yêu cầu chính sau:

- Hướng chủ đề: Các hệ thống OLTP có thể chứa hàng trăm giga byte số

liệu, tuy nhiên những số liệu này có thể hoàn toàn vô ích trong việc phân tích trực tuyến (VD: Địa chỉ, ID khách hàng ) Các dữ liệu kiểu này thường không được đưa vào kho dữ liệu để hạn chế dữ liệu cần xem xét xuống mức tối thiểu nhưng cũng bảo đảm các thông tin theo từng vùng chủ đề (Subject area)

- Số liệu có tính lịch sử: Dữ liệu của hàng chục năm được lưu trữ nhằm phát

hiện sự liên hệ của các yếu tố có thể ảnh hưởng đến những chỉ tiêu cần quan tâm trong một thời gian dài

- Số liệu chỉ đọc: Dữ liệu đưa vào kho dữ liệu chỉ để đọc, việc sửa dữ liệu

hầu như không được tiến hành do nó có thể dẫn đến phá vỡ sự toàn vẹn Thông thường người ta không yêu cầu giảm thời gian đưa dữ liệu vào kho dữ liệu tới mức tối thiểu, nhưng cần tối ưu hoá kho dữ liệu sao cho các truy vấn phục vụ cho việc phân tích đạt tốc độ tốt nhất Các sơ đồ quan hệ sẽ tạo ra các Index hợp

lý cũng như tạo ra sẵn các dữ liệu kết hợp

- Số liệu không biến động: Thông tin trong kho dữ liệu được tải vào sau khi

dữ liệu trong hệ thống điều hành được cho là quá cũ Không biến động thể hiện

ở chỗ: Dữ liệu được lưu trữ lâu dài trong kho dữ liệu Mặc dù có thêm dữ liệu mới nhập vào nhưng dữ liệu cũ trong kho vẫn không bị xoá, điều đó cho phép

Trang 21

cung cấp thông tin về một khoảng thời gian dài, cung cấp đủ số liệu cần thiết cho các mô hình nghiệp vụ phân tích, dự báo

1.2.4 Siêu dữ liệu (Meta Data)

Dữ liệu meta là dữ liệu của dữ liệu Dữ liệu meta sử dụng cho quản lý tên dữ liệu, định nghĩa dữ liệu của kho dữ liệu Thư mục về dữ liệu meta gồm có :

- Mô tả về cấu trúc của kho dữ liệu, gồm lược đồ kho dữ liệu, chiều, phân cấp và định nghĩa dữ liệu, cũng như vị trí và nội dung kho dữ liệu chuyên đề;

- Dữ liệu meta tác nghiệp, gồm nguồn gốc dữ liệu, lịch sử dữ liệu di cư, dãy các phép chuyển hóa…, dữ liệu hiện tại gồm dữ liệu động, tư liệu và thông tin giám sát gồm các thống kê, báo cáo sai, dãy kiểm toán;

- Các thuật toán dùng để tóm tắt, gồm thuật toán đo và xác định chiều, phân hạt dữ liệu, phân đoạn, miền chủ đề, gộp, tóm tắt, các câu hỏi và báo cáo xác định

- Việc chuyển hóa từ môi trường tác nghiệp đến kho dữ liệu, gồm cơ sở dữ liệu nguồn và nội dung, miêu tả cổng, phân đoạn dữ liệu, các luật (i) làm sạch; (ii) trích chọn; (iii) chuyển dữ liệu, luật thanh lọc, và luật an toàn;

- Dữ liệu liên quan đến hiệu năng hệ thống, đánh chỉ số tăng cường khả năng truy cập và tìm kiếm dữ liệu, bổ sung cho các luật về thời gian và làm tươi lịch trình, cập nhật và chu kì tạo bản sao;

- Dữ liệu meta nghiệp vụ, gồm các thuật ngữ và định nghĩa nghiệp vụ, thông tin về người sử hữu dữ liệu, chính sách tải dữ liệu

- Kho dữ liệu có các mức tóm tắt khác nhau, trong đó dữ liệu meta là một dạng tóm tắt Các dạng khác gồm dữ liệu chi tiết về hiện tại, được đặt trên đĩa,

dữ liệu chi tiết cũ, thường trên ổ đĩa mức thứ ba, dữ liệu tóm tắt ít và dữ liệu tóm tắt cao, thường không được lưu trữ vật lí

- Dữ liệu meta có vai trò khác với dữ liệu trong kho dữ liệu, nhằm (i) tra cứu

ra quyết định; (ii) hướng dẫn khớp dữ liệu; (iii) thông tin về thuật toán Dữ liệu meta được quản lí và lưu trên đĩa

1.2.5 Cấu trúc kho dữ liệu

Cấu trúc của một kho dữ liệu cho phép người xây dựng và người khai thác

có cái nhìn tổng quát về các bộ phận cấu thành nên kho dữ liệu Sau đây là kiến trúc tham chiếu điển hình Một kiến trúc tham chiếu điển hình bao gồm các lớp

và các khối, trong đó các thành phần của một khối nằm trong một hạ tầng máy tính thống nhất Các lớp cho phép tổ chức việc xây dựng kho dữ liệu được linh hoạt với đội ngũ nhân viên ở các lĩnh vực hoạt động khác nhau

Trang 22

Hình 1.2.1 Cấu trúc kho dữ liệu

Các khối bao gồm:

- Khối các nguồn dữ liệu

- Khối tạo dựng kho dữ liệu

- Khối tạo dựng kho dữ liệu cục bộ

- Khối truy nhập và sử dụng

Các lớp được chia thành

- Lớp quản lý dữ liệu

- Lớp quản lý siêu dữ liệu

- Lớp chuyển tải dữ liệu

- Lớp kết cấu hạ tầng

Việc nắm vững cấu trúc khối và lớp cho phép ta linh hoạt trong việc triển khai các hệ thống kho dữ liệu trên thực tế Tuỳ nhu cầu và khả năng tài chính, chúng ta có thể xuất phát từ việc xây dựng các kho dữ liệu cục bộ (các Datamart) trước để có thể khai thác ngay số liệu theo từng chủ đề Một cách xây dựng khác là tổ chức kho dữ liệu tổng thể trước, sau đó sẽ tổ chức các Datamart Mỗi phương án đều có những ưu điểm và nhược điểm riêng Trên thực tế, tuỳ điều kiện cụ thể, chúng ta có thể chọn giải pháp triển khai thích hợp

Ngoài ra, các kho dữ liệu trên từng lĩnh vực khác nhau cũng có nhiều đặc điểm riêng do mỗi lĩnh vực có đặc thù dữ liệu riêng

Trang 23

1.2.6 Cỏc mụ hỡnh kho dữ liệu

- Mụ hỡnh dữ liệu nhiều chiều

Phõn loại dữ liệu theo cỏc chiều hay phạm vi Phạm vi là yếu tố xuất hiện tự nhiờn của cụng việc như: thể hiện của thời gian, địa lý, cỏc sản phẩm hay cỏc kiểu khỏch hàng Mụ hỡnh đa phạm vi cú thể nghiờn cứu nhiều phạm vi cựng một lỳc Phương thức phõn tớch đa phạm vi thường hướng tới thụng tin ở mức tổng thể

- Sơ đồ hỡnh sao

Là một mụ hỡnh mà tất cả cỏc bảng chiều cú thể được kết nối trực tiếp tới bảng sự kiện Trong giản đồ hỡnh sao, dữ liệu được xỏc định và phõn loại theo 2 kiểu: bảng sự kiện (fact table) và bảng chiều (dimension table) Bảng sự kiện chứa thụng tin chi tiết (gọi là measure) cần được phõn tớch, cỏc sự kiện là cỏc đại lượng số của cụng việc Bảng chiều nằm ở trung tõm của mụ hỡnh và được bao quanh bởi cỏc chiều liờn quan, cỏc chiều là cỏc bộ lọc hoặc cỏc ràng buộc của cỏc sự kiện

Trong đú kho dữ liệu cú (i) bảng trung tõm lớn, tức bảng sự kiện, cú cỏc bỳi dữ liệu, khụng dư thừa; (ii) tập cỏc bảng nhỏ, tức bẳng chiều, mỗi chiều một bảng Lược đồ gồm cỏc bảng chiều, quanh bảng trung tõm

thời gian#

quí ngày

chi nhánh#

tên loại

Thời gian Bảng chiều

Chi nhánh Bảng chiều

hàng#

tên loại mác cung cấp

Hàng Bảng chiều

địa điểm#

tỉnh huyện

Địa điểm Bảng chiều

Hỡnh 1.2.2 Sơ đồ hỡnh sao

Sơ đồ hỡnh sao cải thiện đỏng kể thời gian truy vấn, cho phộp thực hiện một

số tớnh năng đa chiều, rất trực quan, dễ sử dụng

Khoỏ của bảng sự kiện được tạo bởi cỏc khoỏ của cỏc bảng chiều Tất cả cỏc khoỏ đều được xỏc định với cựng một tiờu chuẩn đặt tờn

Trong giản đồ hỡnh sao kể cả bảng sự kiện và cỏc bảng chiều đều khụng bắt buộc ở dạng chuẩn như đối với phương phỏp thiết kế truyền thống nờn cú thể cú

Trang 24

sự dư thừa dữ liệu Tuy nhiờn sơ đồ này cú khả năng truy nhập nhanh phự hợp với những cõu hỏi phõn tớch nhiều chiều, phức tạp

- Sơ đồ tuyết rơi

Là mụ hỡnh trong đú một hoặc nhiều bảng chiều khụng chỉ kết nối trực tiếp với bảng sự kiện mà cũn kết nối với cỏc bảng chiều khỏc

Khỏc nhau chớnh giữa lược đồ tuyết rơi và lược đồ sao là cỏc bảng chiều của mụ hỡnh tuyết rơi ở dạng chuẩn, để giảm dư thừa dữ liệu Cỏc bảng như vậy dễ bảo trỡ trong bộ nhớ Tuy nhiờn khụng trỏnh được dựng nhiều bộ nhớ Ngoài ra, cấu trỳc tuyết rơi cú thể giảm hiệu quả duyệt vỡ cần thực hiện phộp nối khi hỏi dữ liệu Do vậy tuy giảm dư thừa, lược đồ tuyết rơi khụng phổ biến như lược đồ sao trong thiết kế kho dữ liệu

Hàng Bảng chiều

địa điểm#

tỉnh#

Địa điểm Bảng chiều

nhà cung cấp#

cung cấp

tỉnh#

huyện xã

Nhà cung cấp Bảng chiều

Tỉnh Bảng chiều

Hỡnh 1.2.3 Sơ đồ tuyết rơi

Theo dạng sơ đồ này, mỗi bảng chiều được chuẩn hoỏ hơn

Sơ đồ tuyết rơi cải thiện năng suất truy vấn, tối thiểu khụng gian đĩa cần thiết để lưu trữ dữ liệu và cải thiện năng suất nhờ việc chỉ phải kết hợp những bảng cú kớch thước nhỏ hơn thay vỡ bảng cú kớch thước lớn mà chưa chuẩn hoỏ Tuy nhiờn nú làm tăng số lượng bảng và tăng tớnh phức tạp của một vài truy vấn cần cú sự tham chiếu tới nhiều bảng

1.2.7 Cỏc bước thiết kế kho dữ liệu

- 1: Lựa chọn mụ hỡnh thớch hợp

- 2: Sau khi thiết kế được sơ đồ cho kho dữ liệu, kho dữ liệu phải được hỡnh thành và hoàn thiện qua nhiều giai đoạn, thời gian Kho dữ liệu luụn phải được giữ tồn tại cựng với cỏc cơ sở dữ liệu nguồn Dữ liệu được trớch ra từ cỏc

cơ sở dữ liệu tỏc nghiệp và cỏc nguồn dữ liệu bờn ngoài, sau đú được được làm sạch để giảm thiểu tối đa cỏc lỗi và hoàn chỉnh cỏc thụng tin cũn thiếu nếu cú

Trang 25

thể, sau đó được biến đổi tương thích về mặt ngữ nghĩa trước khi đưa vào kho

dữ liệu để làm sạch Dữ liệu trong kho dữ liệu được làm mới (refreshed) để cập nhật dữ liệu mới theo định kỳ và cũng theo định kỳ được tinh lọc để xóa các thông tin đã quá hạn Quá trình biến đổi dữ liệu thông thường được thực hiện bằng cách xác định khung nhìn quan hệ trên các bảng dữ liệu trong dữ liệu nguồn (bao gồm các cơ sở dữ liệu tác nghiệp và các nguồn dữ liệu bên ngoài khác) Tải dữ liệu là việc xây dựng các khung nhìn như vậy và lưu trữ chúng trong kho dữ liệu Không giống như các khung nhìn chuẩn trong hệ quản trị cơ

sở dữ liệu quan hệ, khung nhìn lưu trữ trong kho dữ liệu khác với cơ sở dữ liệu chứa trong các bảng nó xác định trên đó

Những quá trình tiền xử lý bổ sung như sắp xếp và sinh ra thông tin tóm tắt cũng được thực hiện trong giai đoạn này Dữ liệu được phân chia và đánh chỉ số

để tăng hiệu quả sử dụng

- 3: Sau khi dữ liệu đã vào kho, cần xác định đơn vị đo để đảm bảo dữ liệu trong kho thường xuyên được cập nhật so với dữ liệu nguồn Ở đây cần phải chú trọng vấn đề kết nối để đảm bảo các bảng dữ liệu trong kho luôn được làm mới và duy trì các bản sao của các bảng dữ liệu không đồng bộ trong hệ quản trị

cơ sở dữ liệu phân tán Duy trì các bản sao của các quan hệ nguồn là một phần quan trọng trong kho dữ liệu và phạm vi ứng dụng là nhân tố quan trọng trong tính phổ biến bản sao không đồng bộ mặc dù trong thực tế bản sao không đồng

bộ trái với nguyên tắc của dữ liệu phân tán độc lập

- 4: Một việc quan trọng nữa trong quá trình duy trì kho dữ liệu là theo dõi dữ liệu đang được lưu giữ trong kho dữ liệu Vấn đề này được giải quyết bằng cách lưu trữ thông tin dữ liệu trong kho thông qua các danh mục hệ thống Các danh mục hệ thống nếu lưu trữ cùng với kho dữ liệu thì rất lớn, do đó nó được lưu trữ trong một cơ sở dữ liệu riêng gọi là metadata repository Kích thước và độ phức tạp của các danh mục chủ yếu phụ thuộc vào kích thước và độ phức tạp của kho dữ liệu

1.3 Xử lý dữ liệu trực tuyến (OLAP)

1.3.1 Lý do sử dụng OLAP

- Các ứng dụng OLAP chủ yếu tập trung vào các truy vấn phức tạp, đặc biệt Trong SQL đó là những truy vấn liên quan tới các toán tử nhóm (group-by)

và kết hợp OLAP giải quyết các vấn đề trên mô hình dữ liệu đa chiều

- OLAP có chức năng tạo báo cáo và phân tích dữ liệu Kiến trúc chức năng của OLAP bao gồm 3 phần: dịch vụ lưu trữ dữ liệu, các dịch vụ truy vấn OLAP và các dịch vụ hiển thị đối với người dùng

Trang 26

- OLAP là một công nghệ phân tích dữ liệu thực hiện những công việc sau:

+ Đưa ra một khung nhìn logic, nhiều chiều của dữ liệu

+ Cung cấp khả năng thiết lập mô hình phân tích bao gồm một mô tơ tính toán cho việc tính tỉ lệ, những biến đổi, liên quan tới những đại lượng số hoặc

dữ liệu là con số qua các chiều dữ liệu khác nhau

+ Tạo ra sự tổng hợp và kết hợp, phân cấp Sau đó dùng những mức tổng hợp, kết hợp đó cho mỗi phép giao của các bảng theo mỗi chiều

+ Hỗ trợ những mô hình chức năng cho việc dự báo, phân tích các xu hướng và phân tích thống kê

+ Lấy và hiển thị dữ liệu theo những bảng 2 chiều hay 3 chiều, theo biểu

đồ hay đồ thị dễ dàng xoay đổi các trục cho nhau

+ Đáp ứng những câu trả lời nhanh

1.3.2 Kiến trúc vật lý

- Chia thành 2 loại dựa trên kỹ thuật lưu trữ dữ liệu: dữ liệu đa chiều và

dữ liệu quan hệ Tương ứng với mỗi kiến trúc là một cách tiếp cận khác nhau về vấn đề cung cấp dịch vụ của OLAP Đó là MOLAP (OLAP đa chiều) và ROLAP (OLAP quan hệ) MOLAP và ROLAP là trong suốt đối với người dùng cuối Nhưng mặt trước của những công cụ này là như nhau và hình thức hỗ trợ quyết định cũng như nhau Chỉ có khác biệt giữa hai công cụ là ở mức độ chi tiết tác nghiệp và hiệu quả kinh tế (MOLAP thường có giá thành thấp hơn ROLAP)

- Dữ liệu đa chiều (MOLAP): dữ liệu đa chiều và các dịch vụ OLAP được kết hợp với nhau trong cùng một máy chủ Dữ liệu được tổ chức theo khung nhìn (view) và được lưu trữ trong các mảng, việc cập nhật dữ liệu không ảnh hưởng nhiều tới tệp chỉ số Ưu điểm của MOLAP bao gồm: tốc độ truy vấn cao,

có khả năng phân tích dữ liệu phức tạp, dễ sử dụng (do dữ liệu đã được tổng hợp

từ trước và được lưu trong kho dữ liệu đa chiều), kích cỡ của cơ sở dữ liệu đa chiều được hỗ trợ nhỏ hơn so với cơ sở dữ liệu quan hệ, công nghệ sử dụng ma trận thưa, tiết kiệm không gian nhớ, nhu cầu lưu trữ nhỏ Tuy nhiên có một số hạn chế: kích thước bị hạn chế, không thể khoan sâu dữ liệu tới mức chi tiết, nếu

có thay đổi trong cấu trúc đa chiều đòi hỏi cơ sở dữ liệu phải tổ chức lại, các mở rộng ở những ứng dụng đầu cuối của một cơ sở dữ liệu đa chiều không thể dùng được cho một cơ sở dữ liệu đa chiều khác

- Dữ liệu quan hệ (ROLAP): được xây dựng theo mô hình quan hệ, tuy nhiên đều được xây dựng dựa trên sơ đồ hình sao mang thuộc tính đa chiều

Trang 27

Thông thường kho dữ liệu quan hệ có kích cỡ rất lớn Kích thước của dữ liệu bị tăng lên do chứa các tệp chỉ số và những bảng dữ liệu chưa được đưa về dạng chuẩn 3 để đạt được hiệu suất chấp nhận được của những truy vấn đa chiều Trong mô hình này bao gồm máy chủ dữ liệu để lưu trữ dữ liệu, máy chủ OLAP

và khung nhìn OLAP chứa trong máy trạm riêng Mô hình ROLAP cung cấp truy vấn linh hoạt bằng cách luôn chuẩn bị dữ liệu sẵn sàng phục vụ cho việc trích chọn, tổng hợp dữ liệu theo yêu cầu của người dùng cuối ROLAP thường được sử dụng trong các trường hợp: dữ liệu thường xuyên thay đổi và người dùng lại đòi hỏi những tổng hợp tức thời, khối lượng dữ liệu lớn, các truy vấn không lường trước, có nhu cầu hiển thị dữ liệu chi tiết Tuy dữ liệu được lưu trữ dưới dạng quan hệ nhưng vẫn thể hiện với người dùng dưới dạng các chiều của công việc Để che dấu dạng lưu trữ của dữ liệu, phải tạo ra một lớp metadata ngữ nghĩa để ánh xạ tất cả các chiều tới các bảng quan hệ Khi cần kết hợp phải tạo ra siêu dữ liệu để cải thiện thời gian trả lời Những siêu dữ liệu này được lưu trong cơ sở dữ liệu quan hệ, tức là phải tạo ra một kho siêu dữ liệu khác trong giải pháp cho xây dựng kho dữ liệu

1.3.3 Phương pháp thiết kế

- Đối với MOLAP:

+ Chọn chức năng công việc (như phân tích doanh số bán hàng và lập báo cáo tài chính)

+ Xác định đơn vị đo để lưu trữ doanh số như sales

+ Xác định các chiều (Times, Products, Locations) và đơn vị đo của mỗi chiều như Times (timeid, date, week, month, quarter, year), chiều Products (pid, pname, category,price), Locations (locid, city, state, country)

+ Định nghĩa mô hình logic và tải vào kho dữ liệu đa chiều hay trực tiếp từ các nguồn dữ liệu hay thông qua việc lọc và kết hợp những nội dung được lựa chọn của kho dữ liệu

- Đối với ROLAP:

+ Xây dựng một mô hình đa chiều sử dụng một trong các mô hình đã trình bày trong phần kho dữ liệu

+ Bổ sung vào các dữ liệu tóm tắt và kết hợp

+ Chia tập dữ liệu lớn thành những phần nhỏ hơn có khả năng quản lý được

để nâng cao hiệu suất thực hiện

Trang 28

+ Đưa vào những tập chỉ số mới dưới dạng bitmap (Bitmap Indexs) hoặc liên kết (Join Indexs) để tăng cường khả năng truy nhập, từ đó tăng tốc độ thực hiện

+ Tạo và lưu trữ siêu dữ liệu bao gồm những định nghĩa chiều, ánh xạ chiều tới các bảng dữ liệu quan hệ tương ứng, quan hệ phân cấp giữa các chiều, định nghĩa và mô tả dữ liệu kết hợp,…

1.3.4 Thực hiện truy vấn và thiết kế khung nhìn (Materialized View)

- Mục tiêu là cung cấp cho người dùng cuối không thông thạo về SQL một giao diện trực quan và đủ mạnh để thực hiện các công việc phân tích dữ liệu thông thường Dữ liệu cơ sở luôn sẵn sàng cho việc sử dụng ở nhiều mức chi tiết khác nhau

- Một thao tác thông thường nhất là tổ hợp đơn vị đo trên một hoặc nhiều chiều Các truy vấn đó thường có dạng: Tìm tổng doanh số bán hàng, tổng doanh số bán hàng ở mỗi thành phố, tìm 5 sản phẩm báng được nhiều nhất trên tổng doanh số bán hàng Trong các truy vấn trên, hai truy vấn đầu tiên có thể thực hiện được bằng truy vấn SQL trên các bảng sự kiện và bảng chiều nhưng truy vấn cuối cùng không thể thực hiện được như vậy Khi chúng ta kết hợp đơn

vị đo trên một hoặc nhiều chiều, đơn vị đo phụ thuộc vào chiều ít hơn là đơn vị

đo gốc Chẳng hạn như khi chúng ta tính tổng doanh số bán hàng của một thành phố, đơn vị đo kết hợp là total sales và nó chỉ phụ thuộc vào chiều Location trong khi đó đơn vị đo sales gốc phụ thuộc vào các chiều Location, Time và Product

- Một cách tổng hợp khác là tóm tắt trên nhiều mức khác nhau theo phân cấp chiều Nếu chúng ta đã có tổng doanh số bán hàng đối với một thành phố cần phải tổng hợp theo chiều Location để tính được doanh số bán hàng cho một state Thao tác này được gọi là roll-up theo thuật ngữ của OLAP (tổng hợp từ chi tiết).Ngược lại của roll-up là drill-down Tức là cho tổng doanh số bán hàng theo state và ta phải tính chi tiết cho từng city hoặc một số city được chọn (chi tiết hóa từ thông tin tổng hợp) Chúng ta có thể drill-down theo một chiều khác với Location Chẳng hạn như chúng ta có thể tìm tổng bán hàng đối với mỗi sản phẩm của mỗi state theo chiều Product

- Một số truy vấn của OLAP không dễ dàng trong việc biểu diễn hoặc không thể biểu diễn được trong SQL Tuy nhiên một số lượng lớn các truy vấn đều có thể biểu diễn được Thông thường chúng liên quan tới việc group by hay

tổ hợp và thao tác OLAP đơn dẫn tới một số truy vấn giống như truy vấn trong SQL

Trang 29

Thiết kế các materialized view

Các materialized view chính là các bảng tóm tắt (summary table) giống như view nhưng có một số tính chất đặc trưng khác với view bao gồm: có tốc độ thực hiện nhanh, có quan hệ với các bảng chiều và được sử dụng để tăng tốc độ khai thác

Các materialized view được đặt cơ chế tự động cập nhật dữ liệu từ các bảng

sự kiện mỗi khi dữ liệu cập nhật vào bảng sự kiện

1.3.5 Các phép toán OLAP trong mô hình dữ liệu nhiều chiều

Trong mô hình nhiều chiều, dữ liệu được tổ chức thành các chiều, mỗi chiều chứa các mức trừu tượng do phân cấp khái niệm xác định Tổ chức này đảm bảo mềm dẻo cho người dùng khi nhìn dữ liệu theo các hướng khác nhau Một số phép toán về khối dữ liệu OLAP có khả năng hiển thị, có câu hỏi tương tác và phân tích dữ liệu Tức là OLAP có môi trường người dùng để phân tích dữ liệu tương tác

Các phép toán OLAP bao gồm:

- Cuốn : phép cuốn, hay phép khoan, thực hiện việc gộp trên dữ liệu khối, hoặc leo lên phân cấp khái niệm đối với một chiều, hoặc giảm số chiều

Khi cuốn do giảm số chiều, một hay nhiều chiều bị loại khổi khối dữ liệu Cuốn có thể xóa chiều thời gian, cho kết quả là tổng sản phẩm theo địa điểm, chứ không còn theo địa điểm và thời gian nữa

- Đào sâu : phép đào sâu là một dạng cuốn Nó quét từ dữ liệu ít chi tiết đến

dữ liệu chi tiết nhiều Đào sâu có thể thực hiện từng bước xuống phân cấp khái niệm đối với một chiều dữ liệu, hoặc đưa ra các chiều bổ sung Chẳng hạn đi theo chiều thời gian để xét theo quí, rồi theo tháng…

Do việc đào sâu thêm chi tiết đối với dữ liệu đã có, nó cho phép bổ sung chiều mới, chẳng hạn chiều “nhóm các khách hàng”

- Cắt lát và kẻ ô : phép cắt lát chọn trên một chiều của khối dữ liệu, tạo nên một khối con Chẳng hạn chọn thời gian = quí 1 Phép kẻ ô xác định khối con bằng cách chọn hai hay vài chiều Chẳng hạn chọn (địa điểm = Hà Đông OR địa điểm = Hà Nội) AND thời gian = quí 1

- Xoay: phép xoay hiển thị khối con xoay quanh trục dữ liệu để có thể hiện khác của dữ liệu

- Các phép OLAP khác : vài hệ thống OLAP cung cấp các phép đào sâu, chẳng hạn đào chéo, đào qua (i) đào chéo đặt câu hỏi trên nhiều bảng sự kiện; (ii) đào qua sử dụng tiện nghi ngôn ngữ SQL để đào qua mức thấp của khối dữ

Trang 30

liệu đến bảng quan hệ đầu người dựng

Cỏc phộp OLAP khỏc cú thể sắp xếp hạng cỏc mục theo danh sỏch, cũng như thực hiện tớnh toỏn phụ

Cuốn theo địa điểm (từ các tỉnh cuốn về các Miền) Quí 1

7 7 7

16 16 16

20 20 20

8 8 Tháng 1

Tháng 2 Tháng 3 Tháng 4 Tháng 5 Tháng 6

22 22 22

Đào sâu theo thời gian (từ quí sang tháng)

dữ liệu thống kờ Cơ sở dữ liệu thống kờ là hệ thống cơ sở dữ liệu được thiết kế

để trợ giỳp cỏc ứng dụng thống kờ Khỏc nhau giữa hai hệ thống nhiều khi là kớ phỏp, thuật ngữ

OLAP và cơ sở dữ liệu thống kờ cũng khỏc nhau Cơ sở dữ liệu thống kờ hướng ứng dụng kinh tế xó hội, OLAP cú đớch là ứng dụng nghiệp vụ Khớa cạnh riờng liờn quan đến phõn cấp khỏi niệm liờn quan đến cơ sở dữ liệu thống

kờ Khụng như cơ sở dữ liệu thống kờ, OLAP được thiết kế để xử lớ khối lượng lớn cỏc dữ liệu một cỏch hiệu quả

Hỏi trong mụ hỡnh dữ liệu nhiều chiều cú thể theo mụ hỡnh mạng sao Mụ hỡnh mạng sao bao gồm cỏc tia ra từ điểm trung tõm; mỗi đường thể hiện một phõn cấp khỏi niệm đối với một chiều Mỗi mức trừu tượng trong phõn cấp được gọi là dấu chõn Cỏi này thể hiện tớnh hạt cú thể để dựng cỏc phộp toỏn OLAP như cuốn lờn, đào sõu

Trang 31

Việc sử dụng phân cấp khái niệm cho phép (i) tổng quát hóa dữ liệu bằng cách thay các giá trị mức thấp, như ngày, bằng giá trị mức cao, như tháng năm; (ii) đặc biệt hóa bằng cách thay giá trị mức cao bằng mức thấp

1.4 Kết luận

Kho dữ liệu cũng là hệ thống dữ liệu đã được chuẩn bị để xây dựng hệ hỗ trợ quyết định (DSS-Decision Support Systems) và hệ phân tích trực tuyến (OLAP-Online Analysis Processing) do dữ liệu trong đó thoả mãn tính chất toàn vẹn và có sự liên kết nội tại: Mặc dù dữ liệu được cung cấp từ nhiều OLTP, chúng được liên kết bằng sự thống nhất trong quy tắc đặt tên, đơn vị đo, hệ thống các thuộc tính chung Điều này có giá trị đặc biệt khi vận hành một lúc vài hệ thống, trong đó các dữ liệu được biểu diễn bằng những đơn vị khác nhau (ví dụ như các cách biểu diễn ngày, tháng khác nhau hoặc biểu diễn logic khác nhau) Các chỉ số quan trọng như tổng số, giá trị trung bình trong các giai đoạn khác nhau, trung bình cộng cũng được biểu diễn rất đa dạng ở các hệ khác nhau Khi đưa số liệu vào kho dữ liệu, mọi chỉ số không tương thích được chuyển đổi, tránh các lỗi tiềm tàng trong hệ thống

Kho dữ liệu cung cấp tiếp cận thay thế so với tiếp cận truyền thống đối với

cơ sở dữ liệu không đồng nhất Thay vì dùng tiếp cận hướng câu hỏi, kho dữ liệu dùng tiếp cận hướng cập nhật, trong đó thông tin từ nhiều nguồn, không đồng nhất, được tích hợp trước và lưu trong kho để hỏi hay phân tích trực tiếp Không giống như cơ sở dữ liệu xử lí giao tác, kho dữ liệu không chứa dữ liệu mới nhất Tất nhiên, kho dữ liệu có hiệu quả cao trong việc tích hợp hệ thống cơ sở dữ liệu không đồng nhất vì dữ liệu được sao chép, tiền xử lí, tích hợp, chú giải, tóm tắt và cấu trúc lại vào một nơi chứa dữ liệu ngữ nghĩa Hơn nữa, xử lí câu hỏi trong kho dữ liệu không can thiệp việc xử lí tại nguồn cục bộ

Mà kho dữ liệu lưu trữ và tích hợp thông tin lịch sử và trợ giúp các câu hỏi đa chiều phức tạp

Trang 32

CHƯƠNG 2 PHÂN TÍCH,

&CN

2.1 Giới thiệu chung về hệ thống

Với mục tiêu Xây dựng kho dữ liệu quản l

, hỗ trợ công tác ra quyết định giao chỉ tiêu kế hoạch hàng năm, đồng thời góp phần nâng cao năng lực quản lý các nhiệm vụ nghiên cứu triển khai của Bộ

29

Trên cơ sở dữ liệu quản lý và cấp chỉ tiêu kinh phí cho thực hiện nhiệm vụ tại các đơn vị là hệ cơ sở dữ liệu được lưu trong máy chủ cơ sở dữ liệu đặt tại Trung tâm Tin học Cơ sở dữ liệu sẽ đảm nhiệm việc lưu trữ thông tin về tình hình cấp kinh phí hàng năm cho thực hiện nhiệm vụ tại các đơn vị trực thuộc Bộ

và theo dõi tình hình triển khai thực hiện kinh phí, từ đó đánh giá hiệu quả, làm căn cứ cho việc cấp chỉ tiêu kinh phí những năm tiếp theo Ngoài ra, cơ sở dữ liệu quản lý các đề tài, nhiệm vụ cấp Nhà nước và cấp Bộ của các đơn vị trực thuộc Bộ đã và đang thực hiện cùng với kết quả

Chức năng của hệ thống: xây dựng hệ thống thông tin hỗ trợ công tác quản

lý các nhiệm vụ KH&CN của Bộ, bao gồm thông tin về quản lý các đề tài, nhiệm vụ cấp nhà nước, cấp bộ, …do các đơn vị trực thuộc Bộ thực hiện

Một số thông tin hỗ trợ ra quyết định:

- Kiểm tra đề tài/dự án như vậy hoặc tương tự đã được đăng ký hay thực hiện chưa, từ đó quyết định cho phép/không cho phép thực hiện đề tài/ dự án đăng ký

Trang 33

- Đánh giá hiệu quả thực hiện nhiệm vụ trong những năm trước của một đơn

vị để ra quyết định xét duyệt/loại bỏ nhiệm vụ không hiệu quả/trùng lặp của những năm tiếp theo

- Đánh giá hiệu quả triển khai kinh phí cấp cho thực hiện nhiệm vụ tại đơn

vị hàng năm, từ đó quyết định mức kinh phí sẽ cấp những năm tiếp theo

2.2 Phương pháp luận và công cụ

2.2.1 Phương pháp luận chung

Do đó trước khi đưa vào kho dữ liệu cần có sự phân loại, chuẩn hóa và làm sạch Kho dữ liệu được thực thi trên SQL Server 2005, chạy trên nền tảng Windows 2003 Advanced Server Kho dữ liệu đặt tập trung sẽ dễ dàng được bảo trì, bảo mật và tiện lợi cho việc vận hành Xây dựng kho dữ liệu sử dụng phương pháp phân tích hệ thống có cấu trúc làm phương pháp luận để tiếp cận tới quá trình phân tích và thiết kế Quá trình phân tích thiết kế có kết hợp với bản mẫu Kho dữ liệu được xây dựng trên hệ quản trị cơ sở dữ liệu SQL Server với các công cụ trợ giúp trong quá trình phân tích, thiết kế là Enterprise Manager và Analysis Manager

2.2.2 Phân tích có cấu trúc

Phân tích có cấu trúc là cách tiếp cận hiện đại tới các giai đoạn phân tích và thiết kế của chu trình phát triển của hệ thống, được chấp nhận để khắc phục những điểm yếu của các tiếp cận truyền thống

Đặc điểm của phương pháp này:

- Hệ thống được hoàn thiện theo phương pháp từ trên xuống

- Quá trình phân tích, thiết kế sử dụng một nhóm các công cụ, kỹ thuật và mô hình để ghi nhận phân tích hệ thống hiện tại cũng như các yêu cầu mới của người sử dụng đồng thời xác định khuôn dạng cho hệ thống tương lai

Những công cụ gắn liền với phân tích có cấu trúc là:

Trang 34

2.2.3 Hai mô hình phân tích hệ thống có cấu trúc

Trong một số trường hợp nhà phân tích hệ thống có thể chọn một trong hai mô hình sau:

- Mô hình thác đổ (Waterfall)

Mô hình nền tảng cho phần lớn các phương phân tích hệ thống từ những năm

70 Mô hình này bao gồm một số giai đoạn được tiến hành một cách tuần tự Mỗi giai đoạnh có thể do một nhóm các chuyên gia thực hiện

- Mô hình xoắn ốc (Spiral)

Việc phân tích dựa trên mô hình xoắn ốc gồm những giai đoạn kế tiếp nhau như mô hình thác đổ nhưng các giai đoạn này được chia nhỏ thành nhiều bước

và được thực hiện lặp lại để hoàn chỉnh dần Đặc điểm của mô hình này là người phát triển hệ thống có thể bàn giao kết quả lại cho người sử dụng cuối theo từng giai đoạn mà không cần phải chờ đợi cho đến cuối giai đoạn phát triển Có thể nói, mô hình xoắn ốc là sự kết hợp chặt chẽ giữa cách tiếp cận có cấu trúc và phương pháp tạo bản mẫu làm cho tiến trình phát triển của hệ thống có hiệu quả hơn

2.2.4 Phương pháp luận xây dựng kho dữ liệu

Quá trình xây dựng kho dữ liệu bao gồm nhiều pha Chúng ta sẽ xem xét chi tiết của từng pha cụ thể trong quá trình xây dựng bằng công cụ SQL Server Việc xây dựng kho dữ liệu sử dụng SQL Server được chia thành các giai đoạn, bao gồm:

a, Xác định các yêu cầu

- Thu thập dữ liệu, xác định nhu cầu khai thác thông tin của lãnh đạo

- Xác định các nguồn dữ liệu

- Xây dựng các tiêu chí quản lý dữ liệu, biểu mẫu theo các tiêu chí

- Thể hiện dữ liệu dưới các khung nhìn khác nhau

b, Giai đoạn mô tả

- Xác định, thiết kế các chiều (Dimension Table)

- Xác định, thiết kế các bảng Sự kiện (Fact Table)

- Xác định, thiết kế các bảng tổng hợp (Summary Table)

- Xác định, thiết kế các bảng trung gian

- Xác định lược đồ hình sao

- Ánh xạ việc trích lọc, chuyển đổi dữ liệu

c, Giai đoạn xây dựng

Trang 35

ưu điểm là cho phép chia sẻ công việc một cách hợp lý giữa hai máy

Trong quá trình phát triển hãng Microsoft thường xuyên có sự nâng cấp các phiên bản SQL Server, hiện phiên bản mới nhất là SQL Server 2005 Các đặc trưng của SQL Server 2005:

- Cung cấp cung cấp một nền tảng dữ liệu toàn diện và khả năng mở rộng kho cho phép các tổ chức để tích hợp dữ liệu vào kho dữ liệu nhanh hơn, quy

mô và quản lý một lượng ngày càng tăng của dữ liệu và người sử dụng, trong khi cung cấp những hiểu biết để tất cả người dùng

- Cung cấp một nền tảng cơ sở dữ liệu tiết kiệm chi phí, mang lại hiệu quả cho các giải pháp lưu trữ, cho phép khách hàng chỉ trả tiền cho các tính năng và khả năng mở rộng mà họ cần, trong khi cung cấp một đường dẫn nâng cấp liền mạch cho phép khách hàng xây dựng vào đầu tư ban đầu của họ là những yêu cầu dữ liệu của họ phát triển

- Giảm chi phí thông qua ảo hóa phần cứng

- Nâng cao hiệu suất truy vấn, cung cấp các công cụ tối ưu hóa để thiết kế cấu trúc tối ưu cho cơ sở dữ liệu và lập chỉ mục

Trang 36

Các dịch vụ và tính năng tối ưu của SQL Server 2005:

- Dịch vụ phân tích: cải thiện và nâng cao hiệu suất phân tích

- Cho phép đưa ra những quyết định trên cơ sở các phân tích tiên đoán thông qua việc khai thác dữ liệu đầy đủ và trực quan, hoàn toàn phù hợp trong suốt nền tảng Microsoft BI, và có thể mở rộng trong bất kỳ ứng dụng

- Cho phép các nhà phát triển xây dựng các công cụ mạnh, các ứng dụng cơ

sở dữ liệu thế hệ tiếp theo với NET Framework, Visual Studio Team System

- Cung cấp một nền tảng hoàn chỉnh được thiết kế để hỗ trợ xây dựng một loạt các báo cáo theo nhu cầu để cung cấp thông tin có liên quan khi cần thiết

- Cung cấp tính năng bảo mật cải tiến, công cụ quản lý hiệu quả tính năng bảo mật, xác thực mạnh và kiểm soát truy cập, mã hóa mạnh, kiểm toán nâng cao

2.2.6 Bộ công cụ Microsoft SQL Server 2005

Bộ công cụ SQL Server 2005 trợ giúp cho việc xây dựng, quản trị và khai thác các hệ thống thông tin, kho dữ liệu Trong đó có một số các công cụ cơ bản sau:

- Enterprise Manager: dùng để xây dựng và quản trị cơ sở dữ liệu

- Analysis Services: cung cấp công cụ phân tích dữ liệu thông qua khai thác

dữ liệu trực quan

- SQL Server 2005 Reporting Services: hỗ trợ xây dựng báo cáo

2.3 Phân tích, thiết kế hệ thống

2.3.1 Những yêu cầu chung về hệ thống

Phần cứng: bao gồm cả máy chủ (server), máy trạm làm việc, các thiết bị mạng và truyền thông, phải đảm bảo được tốc độ và tương thích trong toàn hệ thống

Môi trường phát triển: phải đảm bảo được khả năng quản lý lượng dữ liệu lớn và tốc độ truy cập cao, phân tán trên địa bàn rộng và có khả năng kết nối động

Phần mềm ứng dụng: phải đáp ứng được các yêu cầu nghiệp vụ quản lý các nhiệm vụ KH&CN, tích hợp CSDL với trang web, thuận tiện cho việc triển khai

và khai thác ứng dụng cũng như phát triển mở rộng trong tương lai

Ba phần này liên quan mật thiết với nhau Để lựa chọn một giải pháp tốt, cần phải xem xét cả ba yếu tố trên Bên cạnh những yếu tố kỹ thuật nêu trên, nhóm

đề tài cũng đã xem xét khả năng phát triển hệ thống và khả năng phối hợp của

Ngày đăng: 21/08/2015, 06:22

HÌNH ẢNH LIÊN QUAN

Hình 1.2.1 Cấu trúc kho dữ liệu - Xây dựng hệ thống trợ giúp ra quyết định phục vụ công tác quản lý các đề tài nghiên cứu khoa học và công nghệ của các đơn vị trực thuộc Bộ Khoa học và Công nghệ
Hình 1.2.1 Cấu trúc kho dữ liệu (Trang 22)
Hình 1.2.2 Sơ đồ hình sao - Xây dựng hệ thống trợ giúp ra quyết định phục vụ công tác quản lý các đề tài nghiên cứu khoa học và công nghệ của các đơn vị trực thuộc Bộ Khoa học và Công nghệ
Hình 1.2.2 Sơ đồ hình sao (Trang 23)
Bảng chiều - Xây dựng hệ thống trợ giúp ra quyết định phục vụ công tác quản lý các đề tài nghiên cứu khoa học và công nghệ của các đơn vị trực thuộc Bộ Khoa học và Công nghệ
Bảng chi ều (Trang 24)
Hình 1.3.1 Các phép toán OLAP - Xây dựng hệ thống trợ giúp ra quyết định phục vụ công tác quản lý các đề tài nghiên cứu khoa học và công nghệ của các đơn vị trực thuộc Bộ Khoa học và Công nghệ
Hình 1.3.1 Các phép toán OLAP (Trang 30)
Bảng 3.1.1 Phân cấp dữ liệu trong bảng chiều - Xây dựng hệ thống trợ giúp ra quyết định phục vụ công tác quản lý các đề tài nghiên cứu khoa học và công nghệ của các đơn vị trực thuộc Bộ Khoa học và Công nghệ
Bảng 3.1.1 Phân cấp dữ liệu trong bảng chiều (Trang 46)
Bảng 3.1.2 Một số đơn vị đo đặc trưng của bảng sự kiện - Xây dựng hệ thống trợ giúp ra quyết định phục vụ công tác quản lý các đề tài nghiên cứu khoa học và công nghệ của các đơn vị trực thuộc Bộ Khoa học và Công nghệ
Bảng 3.1.2 Một số đơn vị đo đặc trưng của bảng sự kiện (Trang 46)
Hình 3.2.1. Tiến trình trợ giúp - Xây dựng hệ thống trợ giúp ra quyết định phục vụ công tác quản lý các đề tài nghiên cứu khoa học và công nghệ của các đơn vị trực thuộc Bộ Khoa học và Công nghệ
Hình 3.2.1. Tiến trình trợ giúp (Trang 48)
Hình 3.2.2 Mô hình dữ liệu đa chiều - Xây dựng hệ thống trợ giúp ra quyết định phục vụ công tác quản lý các đề tài nghiên cứu khoa học và công nghệ của các đơn vị trực thuộc Bộ Khoa học và Công nghệ
Hình 3.2.2 Mô hình dữ liệu đa chiều (Trang 50)
Hình 3.2.3 Mô hình dữ liệu khối - Xây dựng hệ thống trợ giúp ra quyết định phục vụ công tác quản lý các đề tài nghiên cứu khoa học và công nghệ của các đơn vị trực thuộc Bộ Khoa học và Công nghệ
Hình 3.2.3 Mô hình dữ liệu khối (Trang 50)
Hình 4.3.1 Tạo một Analysis Services Project mới - Xây dựng hệ thống trợ giúp ra quyết định phục vụ công tác quản lý các đề tài nghiên cứu khoa học và công nghệ của các đơn vị trực thuộc Bộ Khoa học và Công nghệ
Hình 4.3.1 Tạo một Analysis Services Project mới (Trang 66)
Hình 4.3.2  Xác định dữ liệu nguồn - Xây dựng hệ thống trợ giúp ra quyết định phục vụ công tác quản lý các đề tài nghiên cứu khoa học và công nghệ của các đơn vị trực thuộc Bộ Khoa học và Công nghệ
Hình 4.3.2 Xác định dữ liệu nguồn (Trang 67)
Hình 4.3.3  Chọn dữ liệu để xử lý - Xây dựng hệ thống trợ giúp ra quyết định phục vụ công tác quản lý các đề tài nghiên cứu khoa học và công nghệ của các đơn vị trực thuộc Bộ Khoa học và Công nghệ
Hình 4.3.3 Chọn dữ liệu để xử lý (Trang 68)
Hình 4.3.4  Xác định bảng sự kiện và bảng chiều - Xây dựng hệ thống trợ giúp ra quyết định phục vụ công tác quản lý các đề tài nghiên cứu khoa học và công nghệ của các đơn vị trực thuộc Bộ Khoa học và Công nghệ
Hình 4.3.4 Xác định bảng sự kiện và bảng chiều (Trang 68)
Hình 4.3.5 Lựa chọn đơn vị đo - Xây dựng hệ thống trợ giúp ra quyết định phục vụ công tác quản lý các đề tài nghiên cứu khoa học và công nghệ của các đơn vị trực thuộc Bộ Khoa học và Công nghệ
Hình 4.3.5 Lựa chọn đơn vị đo (Trang 69)
Hình 4.3.6 Phân tích và hiển thị dữ liệu của khối - Xây dựng hệ thống trợ giúp ra quyết định phục vụ công tác quản lý các đề tài nghiên cứu khoa học và công nghệ của các đơn vị trực thuộc Bộ Khoa học và Công nghệ
Hình 4.3.6 Phân tích và hiển thị dữ liệu của khối (Trang 70)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w