Do vậy, việc nghiên cứu xây dựng “TIệ thống trợ giúp ra quyết định hỗ trợ công lac quản lý chương trình, để tài nghiên cứu khoa học” để hỗ trợ việc lựa chọn tổ chức và cá nhân chủ tri t
Trang 1ĐẠI HỌC QUOC GIA HA NOI
TRUONG DAI HOC CONG NGHE
BUI THI LIEN HUONG
XÂY DUNG HE THONG TRỢ GIUP RA QUYET DINH PHUC
VỤ CÔNG TÁC QUẢN LÝ CÁC ĐÈ TÀI NGHIÊN CỨU
KHOA HỌC VÀ CÔNG NGHỆ CỦA CÁC ĐƠN VỊ TRỰC
THUOC BO KHOA HOC VA CONG NGHỆ
LUAN VAN THAC SI
Hà Nội - 2010
Trang 2MUC LUC
3 Mue tiéu nghién cir:
1.1.1 Giới thiệu khái mệm hệ trợ giáp ra quyết định
1.1.2 Phân loại hệ trợ guÍp ra quyết định
1.13 Các thành phan eơ bản của hệ hễ trợ ra quyết định
1.2 Kho dữ liệu ØW)
1.21 Dữ hiệu tác nghiệp
1.2.2 Khải niệm về kho đữ liệu
3 Xủ lý dữ liệu trực tuyển (OLAP)
Trang 3CHUGONG 2 PHAN TICH, THIET KE HE THONG TRỢ GIÚP RA QUYET
2.2 Phương pháp luận và công cụ
2.2.4 Phương pháp luận chung
32.2 Phân tích có cẩu trúc "
223 Hai mô hình phân tích hệ thắng có cầu trúc
2.2.4 Phương pháp luận xâu dựng kho đữ liệu
Công cụ thực hiện B6 cing cu Microsoft SQL Server 2005
Phan tich, kế hệ thông
Những yêu cầu chung về hệ thông
Thiết kế cơ sở dữ liệu
3.2 Xây dựng các khối và các chiều cho giải pháp OLAP 47
3.2.4 Xây dựng hỗn trình trợ giúp cho bai todn
3.2.2 Xây dựng các khối và các chiều cho OLAP
33 Kết luận
CIIUONG 4 TRICIL CIION, NAP VA XU LY DU Liu
41 Giới thiệu hệ thông
1 Tạo lập cơ sở dữ liệu địa chiều 33
Phân tích và hiển thị đữ liệu
Tạo và thực hiện các truy vần
4.3, Cải đặt minh hoa
Chuẩn bị dữ liệ:
Trang 443.2 Phân tích và hiển thị đữ liệu
Trang 5DANII MUC CAC TW VIET TAT
Tén khoa hoc Tên viết tắt Giải nghĩa
CNTT Công nghệ thông tin
CNTT & TT | Công nghệ thông tin và
truyền thông
KH&CN Khoa học vả Công nghệ
Database CRDI, Cơ sở đữ liệu
Decision Support System DSS Hệ tro pip ra quyết định
Online Analysis Processing OLAP Xủ lý phân tích trực tuyến
Online Transaction Processing | OL/IP Xử lý giao dịch trực tuyển
Trang 6DANH MUC CAC BANG
1 Bâng 3.1.1 Phân cấp đữ liệu trong bằng chiêu
2 Bang 3.1.2 Mét sé don vi da dic trưng của bảng sự kiện
3 Bảng 4.3.1 Chuẩn bị dữ liệu cho bảng (thủ nhiệm đề tài + Bằng 4.3.2 Chuyén đỡ liệu tới bằng sự kiện
Trang 7mI Hinh 3.2.2 Mé hinh dit lidu da chiều
8 Hinh 3.2.3 Mé hinh dữ liệu khói
9 1Tình 41.2 Sơ đã chỉ tiết cài đặt hệ thẳng
10.Hinh 4.3.1 Tao mét Analysis Services Project mii
Trang 8MỞ ĐẦU
1 L¥ do chan dé tai:
Sự phát triển vượt bậc và không ngừng đổi mới của ngành CNTT&TT đã
và đang tác động mạnh mẽ, sâu sắc và toàn điện đến mọi mặt trong đời sống
chính trị, kinh tế, văn hỏa, xã hội trên toàn thé giới Cuộc cách mạng KII&CN này đã và đang tạo ra cơ hội cho những biến đổi cơ bản và những thành công to
lớn của các nước trên thể giới Trong vải thập ký gần đây, nhiều nước trên thế giới dễ nắm bắt được cơ hội ứng dụng CNTT4TT, tận dung thé mạnh của nỏ để
thúc đây phát triển kinh tế-xã hội, tạo ra những bước đột phá, đưa đất nước tiền
mạnh lên phía trước
Để hội nhập với xu thế phát triển chung của thế giới và các nước trong
khu vực, Đệ Chính trị đã ban hành Chỉ thị số 58-CT/TW ngày 17/10/2000 về đẩy mạnh ứng dụng và phát triển CNTT phục vụ sự nghiệp công nghiệp hóa,
hiện đại hóa đất nước, trong đỏ đã khẳng định: “Ứng dựng và phát triển CNTT &
nước ta nhằm góp phần giải phóng sức mạnh vật chất, trí tuệ và tình thân của
toàn dân tộc, thúc đây công cuộc đổi mới, phát triển nhanh và hiện đại hoá các
ngành kinh té, tang cường năng lực cạnh tranh của các doanh nghiệp, hỗ trợ có
hiệu quã cho quá trình chủ động hội nhập kinh tế quốc tế, nâng cao chất lượng cuộc sống của nhân đân, đảm bảo an mình, quắc phòng và tạo khả năng đi tắt đón đầu dé thực hiện thẳng lợi sự nghiệp công nghiệp hoá, hiện đại hoá” Đặc
biệt, Quốc hội khóa XI đã thông qua Luật giao dịch điện tử, Luật CNTT và
Chính phủ đã ban hành Nghị định số 64/2007/NĐ-CP ngày 10/4/2007 về ứng
dụng CNTT trong hoạt động của cơ quan nhà nước, lạo ra một cơ sở pháp lý
quan trong để thúc dây phát triển ứng dụng CNTT nhằm nâng cao chất lượng,
hiệu quả trong hoạt dông cổa cơ quan nhà nước và giữa các cơ quan nhà nước, trong giao dịch diện tứ của cơ quan nhà nước với các tổ chức và cả nhân, hỗ trợ cải cách thủ tục hành chính và cung cấp dịch vụ công bảo đảm công khai, minh
bạch
Trong những thập kỷ qua, sự phát triển nhanh chóng của các công nghệ
hiện đại trong lĩnh vực CNTT&TT, đặc biệt là mạng Internet, dang lao ra những
thay déi đảng kể trong việc tổ chức quản lý hoạt động nghiên cứu triển khai nới
riêng và trong hệ thống quản lý ngành KH&CN nói chung Là một cơ quan của Chính phú thực hiện chức năng quản lý nhà nước về KH&CN, từ năm 1996 dến
nay, căn cứ vào các chủ trương, chỉnh sách về phát triển img dung CN’ T của Dâng và Nhà nước, Bộ KH&CN đã tổ chức triển khai thực hiện một số dự
Trang 9
an phát triển ứng dung CNTT theo hướng dẫn chung của Chương trình quốc gia
về ONTT (1996-2000), Chương trình Tin học hóa quản lý nhà nước (2001-
2005), Nghị dinh 64/2007/NĐ-CP về ứng dung CNTT trong hoat déng của cơ
quan nhà nước, Quyết định số 43/2008/Q1-I'Tg về việc phê duyệt kế hoạch ứng,
dụng CNTT trong hoạt động của cơ quan nhà nước năm 2008 và gần đây nhất lá
Quyết định số 48/2009/QĐ-TTg về việc phê duyệt kế hoạch ứng dụng CNTT
trong hoạt động của cơ quan nhà nước giai đoạn 2009-2010 Tuy đã đạt được một số kết quả nhất định nhưng vẫn còn tồn tại nhiều vẫn đề bất cập cần giải
quyết Irong việc triển khai các ứng dụng CNTT phục vụ công tác quản lý nhà
nước của Bộ KH&CN, đặc biệt là tổ chức quản lý các chương trình, dễ tải
cứu khoa học Cho đến nay, Bộ KH&CN vĩ thống trợ giúp ra quyết dịnh hỗ trợ công tác quản lý các chương Lrinh, dé tai
chưa xây dựng được “Hệ
nghiên cứu khoa học” để tạo ra một công cụ đảm bảo việc cung cấp thông tin
đấy đủ, kịp thời và chính xác, nâng cao một bước hiệu quả công tác quản lý nhà nước về hoạt đông nghiên cứu KH4&CN theo hướng hình thành Bộ KH&CN
điện tử (-MOST), góp phần đưa KH&CN trở thành động lực thúc đấy phát triển
kinh tể-xã hội Do vậy, việc nghiên cứu xây dựng “TIệ thống trợ giúp ra quyết
định hỗ trợ công lac quản lý chương trình, để tài nghiên cứu khoa học” để hỗ trợ
việc lựa chọn tổ chức và cá nhân chủ tri thực hiện các nhiệm vụ KII&ŒN phủ
hợp, góp phần nẵng cao năng lực quản lý các nhiệm vụ nghiên cửu triển khái
của Bộ và gắn kết hoạt động nghiên gửu khoa học với thực tiễn sẵn xuất dang lá
một nhũ cầu rất cấp thiết hiện nay
2 Téng quan tinh hình nghiên cứu:
Chỉnh phủ của nhiều nước trên thể giới đã triển khai xây dựng các hệ
thống thông tin điện tử phục vụ công tác quản lý từ những năm 1980 Từ những
năm 1990, mạng Tntcrnct phát triển thành xa lộ thông tin toàn cầu, nhiều nước
trên thể giới đang phát triển mạnh xu hướng tích hợp các cơ sở dữ liệu (CSDL)
để xây đựng các hệ thông hỗ trợ ra quyết định nhằm đáp ứng các yêu cầu thông
nhất nội đụng thông tim và trao đổi đữ liệu trên điện rộng Các hệ thống hỗ trợ ra
quyết định này đã và đang được áp dụng ở nhiều nước có nền công nghiệp
CNTT phát triển như: Mỹ, Canada, Đức, Anh, Pháp, Án Độ, làn Quốc, Singapore và hoạt động rất hiệu quả trong các lĩnh vực an ninh quốc phòng,
quần lý đất dai, đân cư, y tÉ trên nền tăng của các hệ quản trị CSDL như: MS
SQL Server, Oraole, Sybaso Đặc biệt, trong thập ký vừa qua, khi mã công
nghệ Tnternet tốc độ cao ngày cảng phát triển và thâm nhận vào mọi mặt của dời sống xã hội thì việc xây dựng các hệ thống hỗ trợ ra quyết định lại cảng đóng vai
trò quan trọng hơn Các thông tin trong CSDL tich hợp của hệ thông hỗ trợ ra
Trang 10tô
quyết định sẽ được sử đụng để nhanh chóng tan ra các trang thông tin diễn tứ
dộng (I2ynamic Web Page) phục vụ cho việc tra cứu, chia sẽ thông tin trên mang
và xử lý dữ liệu theo các kịch bản để dưa ra các lựa chọn khách quan hỗ trợ công tác quản lý theo các tùy chọn khác nhau I2o vậy, việc xây dựng các hệ
thống hỗ trợ ra quyết định theo hướng trí tuệ nhân tạo đã và đang được các nhà khoa học trên thế giới quan tâm nghiên cửu và phát triển trong giai đoạn hiện
nay
Từ sau năm 2000 dến nay, ở nước ta mỗ hình CSDI tich hợp — phần lõi của hệ thông hể trợ ra quyết định đã được triển khai ứng dụng tại các Trung tâm Tin hoc của nhiều Bộ, ngành như: Bộ Tài chính, Bộ Nông nghiệp và Phát triển
nông thôn, Ngân hàng, Bộ Ihương mại, Bộ lài nguyên và Môi trường Tuy nhiên, do trong thời gian qua sự chỉ đạo, điều hành và công tác quản lý nhả nước
về phát triển ứng dụng CNTT của nước ta có nhiều thay đổi đột xuất cho nên việc hình thành các hệ thông hễ trợ ra quyết định trên nền tảng tích hợp các
CSDL mới chỉ được các Dộ, ngảnh tiến hành nghiên cứu thử nghiệm, chưa xây
dựng được một hệ thống hoàn chỉnh để đưa vào sử dụng chính thức Đã có nhiều
công trình nghiên cửu về kết quả thực hiện phát triển ứng dụng CNTT của nước
la trong lừng giai đoạn (từ năm 2000 đến nay) và qua đó có thể thấy mỗi giải doạn đều đạt được những thành tựu nhất định, song cũng nẫy sinh nhiều vấn dé
lam hạn chế kết quả của việc ứng dung CNT trong cong tac quan lý nhà nước
Theo kết quả điều tra sơ bộ, các CSDL hiện có của các đơn vị trực thuộc
Hộ KII&CN liên quan đến công tác quản lý các nhiệm vụ KII&CN phần lớn
được quân lý và lưu trữ trên phần mềm MS Aoccss, chạy độc lập trên cáo máy
tram theo như cầu oủa từng đơn vị và chưa thống nhất trúc dữ liệu cũng
như không có tiêu chuẩn về thông tin vả không được cận nhật thường xuyên Do
vậy, các thông ti của các CSIDI, này hầu như không được chia sẽ vả hiệu qua rất hạn chế
Chỉnh vì vậy, việc xây dựng hệ thống thông tin tích hợp phục vụ công lắc
quản lý nhà nước về KII&CN đang là một trong các nhiệm vụ trọng tâm, ưu tiền
của Bộ KH&CN trong giải đoạn hiện nay Đặc biệt lá ứng dụng CNTT để xây
dụng hệ théng CSDI tich hop phục vụ công tác quản lý, thông kê các nhiệm vụ
KH&CN của Hô, hỗ trợ công tác xây dựng kế hoạch và quản lý hoạt đông
nghiên cứu va phát triển KH&CN Hệ thống thông tin này không những phải
đáp ứng tốt yêu cầu quan lý các nhiệm vụ KH&CN mà côn hỗ trợ công tác tư
vấn ra quyết định giao chỉ tiêu kế hoạch hàng năm, lựa chọn tổ chức và cá nhân chủ trì thực hiện nhiệm vụ KII&CN đồng thời sẽ góp phần nâng cao năng lực
Trang 11di
quản lý các nhiễm vụ nghiên cứu triển khai của Bộ KH&CN Hệ thống trợ giúp
ra quyết định này cẦn dược thiết kế và xây dựng dựa trên các công cụ phát triển phần mềm tiền tiến, phủ hợp với xu thế ứng dụng CNTT hiện nay trên thể giới,
sử dụng công cụ phát triển phần mềm trên web la ASP.NET và CSIDL tich hop
được quản lý, lưu trữ trên cơ sở hệ quản trị dữ liệu M5 SQL Server với hệ thống
bảo mật thông tin cao IIệ thống trợ giúp ra quyết định cần được xây đựng trên
cơ sở khai phá đữ liệu trong các CSDL quản lý các để tải nghiên cửu KH&CN
đã có sẵn tại Bộ KII&CN LIIệ thống có khả năng phân tích dữ liệu theo yêu cầu
truy vẫn trực tiếp hoặc theo các kịch bản có sẵn để cung oấp cho các nhà quan lý
à kinh phí cúa các chương
trình, dễ tải nghiên cứu KH&CN để cơ quan quản lý có thể nắm bắt được thực
trạng tỉnh hình thực hiện; trên cơ sở đó sẽ dánh giá và quyết định việc cho phép
tiếp tục thực hiện hay buộc phải dùng lại đồng thời hệ thông sẽ hễ trợ việc lựa
chon triển khai các để tài nghiên cứu mới mà không bị chồng chéo, trùng lặp với các đề tài đã và đang thực hiện, tránh lăng phí thời gian và kinh phí
3 Mục tiêu nghiên cứu:
Nghiên cứu mô hình trợ giúp để thiết kế và xây dưng hệ thắng trợ giúp ra
quyết định hỗ trợ công tác quản lý chương trình, để tài nghiên cứn khoa học của
Bộ KH&CN trên cơ sở sử dụng hệ quản trị MS SQL Server và xử lý dữ liệu trực
tuyến nhằm góp phần nâng cao năng lực quản lý và hiệu quả hoạt động
KII&CN, gắn các chương trình, đề tải nghiên cứu khoa học với thực tiễn sản
xuất và đời sống xã hội
Nghiên cứu lựa chọn các giải pháp xây dụng kho dữ liệu (Data 'Warehouse) và xứ lý dữ liệu trực tuyến (Online Analytical Processing) cho hệ thống trợ giúp ra quyết định nêu trên tại Bộ KII&CN
4 Phạm vi nghiên cứu:
“Phạm vị không gian:
Tại Bộ KII&CN và một số Bộ, ngành liên quan
Pham vi thoi gian:
Nghiên cứu các ứng dụng CNTT trong quản lý các chương trinh, dé tai
nghiên cứu khoa học từ năm 1996 cho đến thời điểm hiện nay
Phạm vì nội dụng:
Nghiên cứu, lựa chọn mô hình hệ thông hể trợ ra quyết định
Trang 1212
Nghiên cứu một số vẫn dé về khai phá dữ liệu, áp dụng trên hệ thống cơ
sở dữ liệu quản lý các đề tải, chương trình nghiên cứu KH4&£ƠN đã dược xây
dựng tại Bộ KH&CN
Phân tích, thiết kế hệ thống trợ giúp ra quyết định với chức năng đánh giá
để tài nghiên cứu, hỗ trợ cho các nhà quản lý ra quyết định rong quá trình triển
khai thực hiện các đề tải và lựa chọn dễ tải nghiên cửu KH&CN hàng năm
Cài đặt và đánh giá kết quả thứ nghiệm chương trình hỗ trợ công tác quản
lý các chương trình, đề tải nghiên cứu khoa học tại Bộ KH&CN,
5 Mẫu khảo sát:
Các don vi trực thuộc Bộ KH&CN
Kết quả triển khai dự án Tin học hỏa quản lý nhà nước tại một số Bộ,
Hệ thông hỗ try ra quyél dinh (Decision Support System) va céc gidi phap
xây dung C8DL, tích hợp của hệ thống, hình thành kho đữ liệu, tối ưu hóa xử lý
đữ liêu trực tuyến để giải quyết bài toán như thế nào?
Thiết kế, xây đựng hệ thống trợ giúp ra quyết định hỗ trợ cổng tác quản lý
chương trình, để tài nghiên cứu khoa học của Bộ KII&CN thế nào là phù hợp?
7 Giá thuyết nghiề
đã được xây dựng tuy mới ở mức sơ khai Nhận thức của cán bộ, công chức về
vai trò và tác dụng của CNTT được nâng cao Tuy nhiên, việc ứng dụng CNTT
để nâng cao năng lực điều hành, quản lý, phục vụ người dân và doanh nghiệp tại
Bộ KH&CN chưa thực sự hiệu quả, chưa đạt mục liêu đề ra do Chính phú quy
định
Hệ thẳng hỗ trợ ra quyết định và các giải pháp xây dựng kho đữ liệu,
xử 1ÿ dữ liệu trực tuyến:
Trang 1313
Hệ thống hỗ trợ ra quyết dịnh là một công cụ hỗ trợ hiệu quả công tác
quản lý các nhiêm vụ nghiên cửu và phát triển KH&CN Hàng năm, Bộ
KH&CN phải tiễn hành xét duyệt, thâm định và phê duyệt hàng trăm để tải, để
án, nhiệm vụ nghiên cứu vả triển khai cũng như các hoạt động thường xuyên
trong lĩnh vực KH&CN Để đảm hảo không có sự trùng lặp, lãng phí trong đầu
tư, việc có được những thông tin chính xác kịp thời hỗ trợ cho người quản lý trong việc xét duyệt nội dung và kinh phí cho các đơn vị rất cần phải xây đựng CSDL tích hợp từ các đơn vị quản lý Trên CSDL quản lý và cấp chỉ tiêu kinh
phi cho thực hiện nhiệm vụ KH&CN tại các đơn vị là kho dữ liệu được lưu
trong máy chủ cơ sở đữ liệu dặt lại Trung tâm Tin hoc CSDI sé dam nhiệm
việc lưu trữ thông tin về tỉnh hình oắ
cho các nhiệm vụ tại các dơn vị chủ trì thực hiện dễ tải nghiên cứu KH&CN và
kinh phí và tiến độ thực hiện hàng năm
thông qua các thông tin xử lý trực tuyến cơ quan quản lý có thể theo dõi tỉnh
hình triển khai thực hiện cũng như chi tiêu kinh phí, từ đó đánh giá hiệu quả,
làm căn cứ cho việc cấp chỉ tiêu kinh phí và phê duyệt nhiệm vụ KH&CN cho những năm tiếp theo
Thiết kế, xây dựng hệ thống trợ ghúp ra quyết định hỗ trợ công tác quân
}ÿ chương trình, đề tải nghiên cửa khoa hạc của Bộ KH&CN:
Chức năng chính của hệ thống bao gềm: Quản lý các chương trình, đề tải,
nhiệm vụ cấp nhà nước, cấp bộ khác do các đơn vị trực thuộc Bộ chủ trì thực hiện; Quán lý chỉ tiêu kế hoạch KH&CN hàng năm của các đơn vị; Truy vấn và hồi đáp nâng cao, Xử lý theo các kịch bản yêu cầu; Tạo báo cáo thống kê theo
ác chỉ tiêu khác nhau
Một số thông tin hỗ trợ ra quyết định: Kiểm tra dé tai/dur an như vậy hoặc
tương tự đã được đăng ký hay thực hiện chưa, từ đó quyết định cho phép/không
cho phép thực hiện đề tà/dự án đăng ký; Dánh giá hiệu quả thực hiện nhiệm vụ
trong những năm trước của một đơn vị để ra quyết định xét đuyệt/loại bỏ nhiệm
vụ không hiệu quả/trùng lập của những năm Liép theo; Đánh giá hiệu quả triển
khai kinh phí cấp cho thực hiện nhiệm vụ tại đơn vị hàng năm, từ đó quyết định
mức kinh phí sẽ cấp những nãm tiếp theo
8 Phương pháp chứng minh giả thuyết:
Đề thực hiện các nội dung nghiên cứu, các phương pháp nghiên cứu sau
số được sử dụng
Phương pháp nghiên cứu tải liệu: Thu thập và nghiên cửu các tải liệu liên
quan về kết quả triển khai ứng dụng CN'LT vào công tác quản lý nhà nước các bái báo khoa học, các văn bản quy phạm pháp luật liên quan
Trang 1414
Thương pháp diều tra: Để xác định thực trạng việc ứng dung CNTT trong
công tác quản lý nhà nước tại Bộ KH&CN, dễ tải đã tiến hành diễư tra khảo sát
29 dơn vị trực thuộc Độ KH&CN thuộc các khối quản lý nhà nước và don vị sự nghiệp
Phương pháp thiết kế hệ thông: Thiết kế và xây đựng hệ thẳng trợ giúp ra
quyết dịnh hỗ trợ công tác quản lý các chương trình, đề tải nghiên cửu khoa học
9 Kết cấu luận văn:
Kết cấu của bắn Luận văn gồm những nội dung chính sau
Trang 15CHƯƠNG 1 TONG QUAN
1.1 Hệ trự giúp ra quyết định
1.1.1 Giới thiệu khải niệm hệ trợ giúp ra quyết định
1Iê hễ trợ ra quyết định cầu tạo từ một lớp các hệ thông thông tin dua trên
máy tính bao gồm các hệ théng dua trên trị thức để hỗ trợ cho các hoạt động ra
quyết dịnh
Hệ hỗ trợ quyết định là một lớp xác định các hê thống thông tin được máy
tinh hoa hễ trợ cho các hoạt động ra quyết định của tổ chức và doanh nghiệp Hệ
hỗ trợ quyết định được thiết kế hoàn hảo là hệ thống dựa trên phần mềm tương, tác với mong muốn giúp đỡ những người ra quyết định chuyển các thông tin
thông dụng từ các đữ liệu thô, các tài liệu, các tri thức cá nhân và/hoặc các mô
hình đoanh nghiệp để xác định và giải quyết vẫn đề từ đó ra quyết định
Thông tin thông thưởng mà ứng dụng hễ trợ ra quyết định có thể thu thập
và trình diễn là
- Kho thông tin hiện thời (bao gôm các tải nguyên, các khối, các kho dữ liệu,
các siêu dữ liêu có liên quan và hợp pháp)
- Các kết quả của việc lựa chọn các quyết định khác nhau, những kinh
nghiệm đã có được mô tả trong ngữ cảnh nhất định
- IIệ hỗ trợ quyết định phụ thuộc vào môi trường trên nên tắng đa phương
thức, bao gồm (nhưng không loại trừ) nghiên cứu cơ sở đữ liệu, trí tuệ nhãn tạo,
tương tác người máy, các phương pháp mô phỏng, công nghệ phần mềm và
truyền thông,
1.1.2 Phân loại hệ trợ giúp ra quyết định
Các tác giả khác nhau đưa ra các cách phân loại khác nhau Sử đựng mối
liên kết với người dùng như một liêu chí đánh giả, Haotonschwilor đã phân Lach
hệ hỗ trợ quyết dịnh thành các loại: hệ hỗ trợ quyết định bị dông, chủ động va
kết hợp Hệ bị động là hệ thống trợ giúp cho tiến trinh ra quyết định nhưng,
không thể cưng cấp giải pháp hay tư vẫn rõ ràng cho quyết dịnh Hệ chủ động có
thể khắc phục được điều đó Hệ kết hợp cho phép người ra quyết định sửa đổi, Toàn thành hay cải tiến những tư vấn quyết định do hệ thông cung cấp trước khi gửi đi kiểm tra Sau khi hệ thông xem xét các thông tin của người ra quyết định gửủi đến sẽ sửa đổi, bỗ sung va gin lai để người ra quyết định kiểm tra lần nữa
Quá trình trên sẽ lại được bắt đầu lại từ đầu cho tới khi đưa ra được các giải
pháp thắng nhất.
Trang 1616
TDaniel Power cũng có cách phân loại khác cho hệ hỗ trợ quyết dịnh Sứ dụng mô hình trợ giúp như tiêu chuẩn phân loại, Power phân chia hệ hỗ trợ quyết dịnh thánh hệ hỗ trợ quyết định hướng giao tiếp, hệ hỗ trợ quyết định
hướng tài liêu, hệ hỗ trợ quyết định hướng trí thức và hệ hỗ trợ quyết định
hướng mê hình:
- Iệ hễ trợ quyết định hướng mô hình (Model-driven DSS) tập trung vào
truy nhập va [hao tác trên mê hình thống kê, tải chính, tối ưu hoặc mô phòng Hệ
hỗ trợ quyết định hướng mô hình sử dụng dữ liệu và các tham số đo người dùng, cung cấp để trợ giúp chơ người ra quyết định trong việc phân tích tình huồng, hệ
thống này không cân phải có nhiều dữ liệu
- II hỗ trợ quyết định hướng giao tiép (Communication-driven DSS) hé tre
trong trường hợp nhiều người củng làm 1 công việc, rong đó sử dụng các công
cụ tích hợp như Microsoft's NetMccling hay Groove
- Hệ hỗ trợ quyết định hướng dữ liệu (I3ata-driven I28S hay I2ata-oriented
DSS) tập trung vào truy nhập và thao tác trên dẫy đữ liệu nội bộ của công ty
hoặc đôi khi là dữ liệu bên ngoài
- Hệ hỗ trợ quyết định hướng lãi 1igu (Document-driven DSS) quản lý, hiển
thị vả thao tác trên thông tin phì cấu trúc dưới các định dạng diện tử khác nhau
- Hệ hỗ trợ quyết định hướng trí thức (nowledge-driven 1255) cung cấp kinh nghiệp giải quyết vấn đề chuyên sâu đã được lưu trữ trong hệ thông như
các sự kiện, các luật, thủ tục hoặc các cấu trúc tương tự
Sử dụng phạm vi như tiêu chuẩn phân loại, Powcr cũng phân hệ hỗ trợ quyết định thành hệ hỗ trợ quyết định mỡ rộng cho doanh nghiệp và hệ hỗ trợ quyết
định thu gọn Hệ hỗ trợ quyết định mở rộng cho doanh nghiệp liên kết đến
những kho đữ liệu lớn và phục vụ chơ các nha quản lý trong doanh nghiệp
‘Trong khi khi đó hệ hỗ trợ quyết định cho người dùng đơn (thu gọn) là hệ thống nhề hoạt động trong máy tính của từng người quần lý
1.1.3 Các thành phân cơ bản của hệ hỗ trợ ra quyết định
‘Theo Power, qua lý thuyết chính thông và từ thực tế hệ hỗ trợ ra quyết
định được xây dựng từ 4 thành phân chính: (a) Giao điện người dùng, () Cơ sở
đữ liệu, (c) Các công cụ phân tích và xây đựng mô hình, (đ) Cầu trúc hệ hỗ trợ
Ta quyết định và mạng
Côn Hăttenschwiler dịnh nghĩa 5 thành phần trong hệ hỗ trợ ra quyết dịnh
bao gam
Trang 171.2
412
17
(4) người đủng với các vai trò hoặc chức năng khác nhau trong tiễn trình
ra quyết định (người quyết định, người tư vấn, chuyên gia lĩnh vực,
chuyên gia hệ thống, người thu thập dữ liệu),
(b) một ngữ cảnh quyết định có thể định nghĩa và xác định,
(c) một hệ thống dích mô tả các diễm chỉnh của thành phần liên quan;
(4) trí thức thu lượm từ các nguồn đữ liệu bên ngoài, các CSDL trị thức, CRSDL công việc, các kho đữ liệu và siêu cơ sở đữ liệu, các mê hình va
phương pháp tính toán, các thủ tục, các máy tÌm kiểm, các chương trinh
quản trị và hệ thống báo cáo;
ý) mãi trường hoạt đông, để chuẩn bị, phân tích và xây dựng tải liệu cho
các phiên bản quyết định
Theo Arakas dự kiến một cấu trúc chung có 5 thành phần
(a) Hệ thống quản lý đữ liệu
Hệ thống OL/TP cho phép các giao địch thay đổi dữ liệu trong bang (vi du
bằng cdc Iénh insert, update, delete, join ) trong quá trình xử lý Hệ thống cho
phép nhiều ứng dụng truy cập đữ liệu củng một thời gian
bán
OLTP có
Các ứng dụng trên client bao gồm tất cả các loại ứng đụng như ngân hàng,
vé trực tuyển, bán vé hàng không, thanh toán cước phí Sử dụng hệ thống
ác ưu điểm sau
- Xử ly các tương tác
- Dễ bảo tri và khống chế dữ liêu thừa
- Thiết lập dữ liêu quan hệ trọn vẹn
- Tính hiệu quả cao
- Giảm thời gian của khách hảng
Các CSDL trong các hệ OLTP thường được thiết kế thoả mãn 3NE (Thưd
Normal Form) hoặc tốt hơn Đặc điểm của hệ thống O1/FP là nó lưu trữ các dữ
liệu "thô", có nghĩa là mức độ tổng quát, trừu tượng của dữ liệu nảy rất thấp Nói cách khác OLPT rất có ích để tim trả lời những câu truy vấn dạng: Tổng sản
Trang 1818
lượng sản phẩm X đo cơng ty bán dược trong 6 thing dau nim, mit hang nao
bán chạy nhất tại địa phương Y trong tháng vừa qua 1rong khi dĩ các nha
quản lý ở mức cao của cơng ty rất it khi quan tâm dến những câu hỏi loại đỏ
Điều họ cần chú ý là những câu hỏi trừu tượng hơn như: Tiêu thu A tai B dang giảm, néu thay déi 3%-5% giá của sản phẩm A tại khu vực B, tình trang tiêu thụ
sẽ thay đổi ra sao trong 6 tháng cuối năm và tại sao?
Các hệ thơng OLTP hiện nay trã lời rất tốt câu hỏi 1 bằng các õng cụ của hệ
CSDI quan hệ nhưng dễ tim dáp án cho những câu hoi dang 2 là khơng don
giản Những yếu tổ căn bản cần trở việc sử dụng dữ liệu của các hệ thống OI.PT'
trong việc phân tích đỡ liệu là
- Các số liệu ở mức quá chỉ tiết
- Các số liệu được phân bố ở những hệ thống khác nhau, cĩ các thủ tục truy
cập khác nhau và ở những C8I2L hồn tồn khác nhau
- Các số liệu khơng được cập nhập cùng một chu kỳ đẫn đến sự mat đồng
hộ
- Việc tổ chức truy cập từ rất nhiều bảng đữ liệu khác nhau cĩ ảnh hưởng,
xâu tới hiệu suất của các hệ thơng vi mục đích của các hệ thống nảy là nhằm
phục vụ các giao dịch trực tuyến
Trong mơi trường thừa thãi số liệu, nhà phân tích khơng thé tim ra cho minh
thơng tin cần thiết nhằm cĩ được sự hiểu biết thấu đáo về những quá trình xây ra
xung quanh Tình trạng số liệu quá chỉ tiết và khơng cĩ được sự liên kết với
nhau của các số liệu phãn ánh các quá trinh tương đổi độc lập của một thực thể
là lý do trực tiếp đẫn đến sự khủng hoảng này
Vì vậy, người ta đã đưa ra giải pháp tích hợp các hệ thơng OLTP để tạo ra một hệ thống chứa đầy đủ thơng tỉn Tuy nhiên giải pháp này cĩ hai nhược điểm
lớn
- Phải liên kết các hệ thống cĩ xuất xứ khác nhau về phần cứng và phần mềm hệ thống Các chương trình cần cĩ sự thống nhất về dịnh nghĩa dữ liệu
cũng như phương pháp biểu diễn dữ liệu Vấn dé nay rat phức tạp thâm chí đối
với các hệ thống cĩ thiết kế phân tích tốt và hồn tồn khơng khả thi đối với những hệ thống được mơ tả kém
- Khi thực biện các truy vấn để tạo baa cao thường xuyên phải khố ral nhiều bảng, cần trở sự truy xuất của nhân viễn khai thác trong quá trinh làm việc
hang ngay và lam ảnh hưởng trực tiếp đến khách hàng,
Trang 191.2.2 Khải niém vé kho dit ligu
Là một cách tiếp cân do H.Inmon để xướng vào những năm 90 của thế kỷ
trước Dây là sự kết hợp của một số giải pháp kỹ thuật và được đặt tên là Data
'Warehoushing - kỹ thuật xây đựng các kho dữ liệu Kho đữ liệu được định nghĩa
như một tập hợp các phương tiện cho phép hình dung dữ liệu một cách tổng thể,
hướng dối tượng để giúp cho việc phân tích và ra quyết dịnh
Những người đầu tiên đưa ra ý tưởng về kho dữ liêu xác định rằng tiên hành
phân tích trực tiếp trên dữ liệu của các hệ xử lý giao địch không hiệu quả Các
dữ liệu từ một vải OL/TP cần phải dược biến đối và sau đó đưa vào một nơi lưu
trữ dữ liệu duy nhât Quả trình này được gọi là đưa đỡ liệu vào kho dữ liệu, gồm các công đoạn chính sau:
- Lâm sạch (Bồ các dữ liêu không cần thiết hoặc quá chuyên dung)
- Liên kết các số liệu (tính trước số liệu tích, tổng, trưng bình .)
- Biến đổi đữ liệu: số liệu được biến đổi thành đạng thích hợp, tễ chức lại
phù hợp với kho dữ liệu
- Tích hợp số liệu từ các nguồn khác nhau
- Đồng bộ hoá số liệu ớ một thời diểm xác dinh
Kho dữ liệu cũng là hệ thông dữ liệu đã được chuẩn bị đề xây đựng hệ hỗ trợ
quyết dinh (D288-I3ecision Support Systems) va hé phn tich truc tuyén (OLAP-
Online Analysis Processing) do dit liéu trong đó thoả mãn tính chất toàn ven va
có sự liên kết nội tại: Mặc dủ dữ liệu được cung cấp từ nhiễu OLTP, chúng được liên kết bằng sự thống nhất trong quy tắc đặt tên, đơn vị đo, hệ thống các thuộc
tinh chung Diều này có giá trị đặc biệt khi vận hành một lúc vài hệ thống,
trong đó các đữ liệu được biểu diễn bằng những đơn vị khác nhau (ví dụ như các
cách biểu điễn ngày, tháng khác nhau hoặc biểu diễn logio khác nhau) Các chỉ
số quan trong như tổng số, giả trị trung bình trong các giai doạn khác nhau, trung bình cộng cũng được biểu diễn rất đa dang ở các hệ khác nhau Khi đưa
số liệu vào kho đữ liệu, mọi chỉ số không tương thích được chuyển dỗi, tránh
các lỗi tiểm tàng trong hệ thống,
Kho dữ liệu cung cấp Liếp cận thay thé so với tiếp cận truyền thống đối với
cơ sở đữ liệu không đồng nhất Thay vì dùng tiến cận hưởng câu hồi, kho đữ
liệu đùng tiếp cận hưởng cập nhật, trong đó thông tin từ nhiều nguồn, không, đẳng nhất, dược tích hợp trước và lưu trong kho để hỏi hay phân tích trực tiếp
không giống như cơ sở đữ liệu xử lí giao tác, kho đữ liệu không chứa dit
liệu mới nhất Tất nhiên, kho dữ liệu có hiệu quả cao trong việc tích hợp hệ
Trang 2020
thống cơ sở đữ liệu khơng dồng nhất vi đữ liêu được sao chép, tiền xử li, tích hợp, chủ giải, tĩm tất và cấu trúc lại vào một nơi chứa đữ liệu ngữ nghĩa Hơn
nữa, xử lí cầu hỏi trong kho đữ liêu khơng can thiệp việc xử li tại nguồn cục bơ
Mà kho đữ liệu lưu trữ và tích hợp thơng tin lịch sử và trợ giúp các câu hỏi đa
chiều phức tạp
1.2.3 Đặc trưng của kho dữ liệu
Xây dựng kho di liệu nhằm giải quyết các vẫn đề sau trong quá khứ
- Khang cé sy chia sé thong tin (Lack of Information Sharing)
- Các nhỏm lâm việc khác nhau đưa ra những báo cáo trái ngược nhau
- Tạo nên những báo cáo kém hiệu quả
- Tạo nên những báo cáo thiếu sự cập nhật, những báo ơáo khơng hỗ trợ
cho các trường hợp khơng dự đốn trước
Khơng đưa ra được những báo cáo cĩ đữ liệu mang tính lịch sử
Kho dữ liệu là sự tích hợp các dữ liệu tử các OLTP khác nhau nhằm tập hợp
đữ liệu phục vụ quá trình phân tích hoạt động kinh doanh nên dữ liệu trong một
hệ thống kho đữ liệu cần thộ mãn một số yêu cầu chính sau
- Hướng chú để: Các hệ thơng OLTP cĩ thể chứa hàng trim giga byte sé liệu, tuy nhiên những số liệu này cĩ thể hoản tồn vơ ích trong việc phân tích trục tuyển (VD: Dịa chỉ, ID khách hàng ) Các dữ liệu kiểu này thường khơng
được đưa vào kho đữ liệu để hạn chế đữ liệu cần xem xét xuống mức tối thiểu
nhưng cũng báo đám các thơng tin theo Lừng vúng chủ để (Subject area)
- Số liệu cĩ tính lịch sứ: I3ữ liêu của hàng chục năm dược lưu trữ nhằm phát
hiện sự liên hệ của các yếu tơ cĩ thể ảnh hướng đến những chỉ tiêu cần quan tâm trong một thời gian dải
- 8ố liệu chỉ đọc: Dữ liệu đưa vào kho dữ liệu chi để đọc, việc sửa dữ liệu
hầu như khơng được tiến hành do nĩ cỏ thể dẫn dén pha vỡ sự Lồn vợn Thơng
thường người ta khơng yêu cầu giảm thời gian đưa dữ liệu vào kho đữ liệu tới
mức tỗi thiểu, nhưng cần tối ưu hố kho đữ liệu sao cho các truy vẫn phục vụ
cho việc phân tích đạt tốc độ tốt nhất Các sơ đồ quan hệ sẽ tạo ra các Index hợp
lý cũng như tạo ra sẵn các dữ liệu kết hợp
- #Ố liệu khơng biến động: Thơng tin trong kho đữ liệu được tải vào sau khi
đữ liệu trong hệ thống điều hành được cho là quá cũ Khơng biến động thể hiện
ở chỗ: Dữ liệu được lưu trữ lâu đải trong kho dữ liệu Mặc đủ cỏ thêm đữ liệu mới nhập vào nhưng dữ liễu cũ trong kho vẫn khơng bị xố, diều đỏ cho phép
Trang 2121
cung cấp thông tin về một khoảng thời gian dài, cung cấp đủ số liệu cần thiết
cho các mô hình nghiệp vụ phân tích, dự háo
1.2.4, Siéu dit liéu (Meta Data)
Dit hiéu meta 1a di héu cia dit héu Dit hu meta si dụng cho quần lý lên dữ
liệu, dịnh nghĩa dữ liệu của kho dữ liệu Thư mục về dữ liệu meta pằm có
- Mô tả về cầu trúc của kho đữ liệu, gôm lược đổ kho đữ liệu, chiều, phân cấp và định nghĩa đỡ liệu, cũng như vị trí vả nội dung kho đữ liệu chuyên đề;
- Dữ liệu mota tác nghiệp, gồm nguồn gốc dữ liệu, lịch sử đữ liệu di cư, đấy các phép chuyển hóa , dữ liệu hiện tại gỗm dữ liệu động, tư liệu và thông tin
giám sát gầm các thông kê, bảo cáo sai, dãy kiếm toán,
- Các thuật toán dùng, để tóm tắt, gồm thuật toán đo và xác định chiều, phân hạt đữ liệu, phân đoạn, miễn chủ đề, ĐỘP, tóm tắt, các câu hồi và báo cáo xác
định
- Việc chuyển hóa tử mỗi trường tác nghiệp dến kho đữ liệu, pồm cơ sở dữ
liệu nguồn và nội dung miêu tả cổng, phân đoạn dữ liêu, các luật (ï) làm sach;
Gi) trich chon; (iii} chuyén đữ liệu, luật thanh lọc, và luật an toàn;
- Dữ liệu liên quan đến hiệu năng hệ thống, đánh chỉ số tăng cường khả năng
truy cập vả tim kiếm đữ liệu, bổ sung cho oác luật về thời gián và làm tươi lịch
trinh, cập nhật vả chủ kỉ tạo bản sao,
- Dữ liệu meta nghiệp vụ, gồm các thuật ngữ và định nghĩa nghiệp vụ, thông
tin về người sử hữu đữ liệu, chính sách tải đữ liệu
- Kho dữ liệu có các mức tóm tất khác nhau, trong đó đữ liệu meta là một
dang 16m lL Các đạng khác gồm dữ liệu chỉ tiết về hiện tại, được đặt trên đĩa,
đữ liệu chỉ tiết cũ, thưởng trên ỗ dĩa mức thứ ba, đữ liêu tóm tốt ít vả đữ liêu tóm
tắt cao, thường không được lưu trữ vật lí
- Dữ liệu meta có vai trò khác với dữ liệu trong kho đữ liệu, nhằm (4) tra cứu
ra quyết định; (ii) hướng dẫn khớp dữ liệu, (ii) thông tin về thuật toán Dữ liệu
mela được quản lí và lưu rên đĩa
1.2.5 Cấu trúc kho đã liệu
Cấu trúc của một kho đữ liệu cho phép người xây đựng và người khai thác
có cai nhin tang quát về các bộ phận cấu thành nên kho dữ liệu Sau day Ak
trúc tham chiếu điển hình Một kiến trúc tham chiếu điển hình ban gồm các lớp
và các khối, trong đó các (hành phần của một khối nằm trong một hạ tầng máy
tính thống nhất Các lớn cho phép tổ chức việc xây dựng kho đữ liệu được lĩnh
hoạt với đôi ngũ nhân viên ở các lĩnh vực hoạt động khác nhau.
Trang 22
Existing databases and systems (OLTP) ` New databases
- Khối các nguồn dữ liệu
- Khối tạo dựng kho dữ liệu
- Khdi tạo dựng kho dữ liệu cục bộ
- Khối truy nhập và sử dụng
Các lớp được chia thành
~ Lớp quản lý dữ liệu
~ Lớp quản lý siêu dữ liệu
~ Lớp chuyển tải dữ liêu
Ngoài ra, các kho dữ liệu trên từng lĩnh vực khác nhau cũng có nhiều đặc
điểm riêng do mỗi lĩnh vực có đặc thủ dữ liệu riêng.
Trang 23kề 3
1.2.6 Cae mô hình kho đữ liệu
- Mô hình đữ liệu nhiều chiêu
Phân loại đữ liệu theo
nhiên của công việc như: thể hiện của thời gian, dịa lý, các sản phẩm hay các
c chiều hay phạm ví Phạm vì là yếu tố xuất hiện tự
kiểu khách hàng Mô hình đa phạm vị có thể nghiên cứu nhiều phạm vi cùng
một lúc Phương thức phân tích da phạm vị thường hướng tới thông tin ở mức
tổng thé
- 80 đỗ hình sao
Tả một mô hình mả tắt cả các bảng chiều có thể dược kết nốt trực tiếp tới
bảng sự kiên 'Trong giản đồ hình sao, dữ liệu được xác định và phân loại theo 2
kiểu: bảng sự kiện (fact table) và bảng c|
chứa thông tin chỉ tiết (goi là measure) cần được phân tích các sự kiên là các dat lượng số của công việc Bảng chiều nằm ở trung tâm của mô hình và được bao
quanh bởi các chiều liên quan, các chiều là các bộ lọc hoặc các rang buộc của
các sự kiện
(dimension table) Bang su kiện
Trong đó kho đỡ liêu có () bảng trung tâm lớn, tức bảng sự kiên, có các bủi dữ
liệu, không dư thửa; (i1) tập các bảng nhỏ, tức bắng chiều, mỗi chiễu một bảng,
Lược đề gồm các bảng chiều, quanh bảng trung tâm
Bang chiếu
Hình 1.2.2 Sơ đồ hình sao
So đỗ hình sao cải thiên đáng kể thời gian truy vấn, cho phép thực hiện một
số Lính năng da chiều, rất trực quan, đễ sử dụng
Khoá của bảng sự kiện được tạo bởi các khoá của các bang chiều Tắt cá các
khoá đều được xác định với cùng một tiêu chuẩn đặt tên
Trong giản dỗ hình sao kỂ cá bang sự kiện và các bảng chiều đều không bắt
buộc ứ đạng chuẩn như đối với phường pháp thiết kế truyền thống nên có thể có
Trang 2424
sự dư thừa dỡ liêu Tuy nhiên sơ đỗ nảy có khả năng truy nhập nhanh phủ hợp
với những câu hỏi phân tích nhiều chiều, phức tạp
- Sơ đồ tuyết rơi
Tả mô hình trong đỏ một hoặc nhiều băng chiều không chỉ kết nói trực tiếp với bảng sự kiện mà còn kết nỗi với các bảng chiều khác
Khác nhau chính giữa lược đỗ tuyết rơi và lược dé sao la các bảng chiêu của mê
hình tuyết rơi ở đạng chuẩn, để giảm dư thừa dữ liệu Các bảng như vậy dễ bảo trì trong bộ nhớ Tuy nhiên không tránh được đủng nhiều bộ nhớ Ngoài
trúc tuyết rơi có thé giảm hiệu quả duyệt vì cần thực hiện phép nỗi khi hỏi dữ
liệu Du vậy tuy giảm dư thừa, lược đỗ tuyết rơi không phê biến như lược đỗ sao
trong thiết kế kho đữ liệu
âu
"Thời gian
fan hãng Bằng chiều Bảng chiều Băng sư kiên
Hình 1.2.3 Sơ đỗ tuyết rơi
Theo dang sơ đồ này, mỗi bảng chiêu được chuẩn hoá hơn
Sơ đỗ tuyết rơi cải thiên năng suất truy vấn, tôi thiểu không gian đĩa cần thiết dễ lưu trữ dữ liệu và cải thiện năng suất nhờ việc chỉ phải kết hợp những
bắng có kích thước nhỏ hơn thay vì bằng có kích thước lớn mà chưa chuẩn hoá
‘Tuy nhiên nó làm tăng số lượng bảng và tăng tính phức tạp của một vài truy van
cần có sự tham chiếu tới nhiều bang
1.2.7 Cae bute thiét ké kho dit liệu
- Bude 1: Lua chon mé hinh thich hop
- Bước 2: Sau khi thiết kế được sơ đỗ cho kho đữ liệu, kho đữ liệu phải được
hình thành và hoàn thiện qua nhiều giai đoạn, thời gian Kho dữ
Trang 25kề &
thể, sau đó được biến đổi tương thích về mặt ngữ nghĩa trước khi dưa vào kho
đữ liêu dễ làm sạch I3 liệu trong kho dữ liệu dược làm mới (refreshed) để cập
nhật dữ liêu mới theo định kỷ và cũng theo dịnh kỷ dược tỉnh lọc để xóa các
thông tin đã quá hạn Quá trình biển đổi dữ liệu thông thường được thực hiện
bằng cách xác định khung nhìn quan hệ trên các bảng dữ liệu trong dữ liệu nguễn (bao gồm các cơ sở đữ liệu tác nghiệp và các nguồn đữ liệu bên ngoài khác) Tải dữ liệu là việc xây dựng các khung nhìn như vậy và lưu trữ chúng trong kho đữ liệu Không giống như các khung nhin chuẩn trong hệ quan trị cơ
sở dữ liệu quan hệ, khung nhìn lưu trữ rong kho dữ liệu khác với cơ sở đữ liệu
chứa trong cae bang nó xác dịnh trên đó
Những quá trình tiền xử lý bỗ sung như sắp xếp và sinh ra thông tin tóm tắt
cũng được thực hiện trong giai đoạn này Dữ liệu được phân chia và đánh chỉ số
để tăng hiệu quá sử dụng
- Bước 3: Sau khi dữ liệu đã vào kho, cần xác định đơn vị đo để đắm báo dữ
liệu trong kho thường xuyên được cập nhật so với đỡ liệu nguồn Ở dây cần phải chú trọng vấn đề kết nấi để đảm bảo các bảng đỡ liêu trong kho luôn được làm
mới và duy trì các bản sao của các bảng đỡ liêu không déng bé trong hé quan trị
cơ sở dữ liêu phân tán Duy trì các bản sao của các quan hệ nguỗn là một phần quan trọng trong kho đữ liệu và phạm vi ứng đụng là nhân tổ quan trọng trong tính phổ biến bản sao không đồng bộ mặc dủ trong thực tế bản sao không đồng
bộ trái với nguyên tắo của dữ liệu phân tán độc lập
- Bước 4: Một việc quan trọng nữa trong quả trình duy trì kho dữ liệu là theo
dõi đữ liệu đang được lưu giữ trong kho đữ liệu Vấn để này được giải quyết bằng cách lưu trữ thông tin dữ liệu trong kho thông qua các danh mục hệ thống
Các danh mục hê thống nêu lưu trữ cùng với kho di liêu thì rất lớn, do đó nó
được lưu trữ trong một cơ sở dữ liệu riêng gọi là metadata repository Kích
thước và độ phức tạp của các đanh mục chủ yêu phụ thuộc vào kích thước và độ
phức Lạp của kho đữ liệu
1.3 Xử lý dữ liệu trực tuyến (OLAP)
13.1 Ly do sit dung OLAP
- Cáu ứng dụng OLATP chủ yếu tập trung vao các truy vẫn phức lạp, đặc
biệt Trong SQT, đó lá những truy vấn hiên quan tới các toán tử nhóm (eroup-by)
và kết hợp OILAP giải quyết các vấn đề trên mô hình đữ liệu đa chiều
- OLAP có chức năng tạo báo cáo và phân tích dữ liệu Kiến trúc chức
năng của OLAP bao gồm 3 phần: địch vụ lưu trữ đữ liệu, các dịch vụ truy vẫn
OLAP và các địch vụ hiển thị đối với người dùng.
Trang 2626
- OLAP lA mét céng nghệ phân tích dữ liệu thực hiện những công việc sau
| Bua ra mot khung nhìn logic, nhiễu chiêu của dữ liệu
+ Cung cấp khả năng thiết lập mô hinh phân tích bao gồm một mồ Lơ tính toán cho việc tính lí lộ, những biến đổi liên quan tới những đại lượng số hoặc
đữ liệu là con số qua các chiêu dữ liệu khác nhau
| Tạo ra sự tổng hợp và kết hợp, phân cấp Sau đó dùng những mức tông hợp, kết hợp đó cho mỗi phép giao của các bảng theo mỗi chiều
+ Hỗ trợ những mô hình chức năng cho việc dự bảo, phân tích các xu hướng và phân tích thống kê
+ Lấy và hiển thị đữ liệu theo những bảng 2 chiều hay 3 chiểu, theo biểu
đỗ hay đồ thị dễ đảng xoay đổi các trục cho nhau
+ Đáp ứng những câu trả lời nhanh
1.3.2 Kiển tric va b
- Chia thanh 2 loại đựa trên kỹ thuật lưu trữ đữ liệu: đữ liệu đa chiều
đữ liệu quan hệ Tương ứng với mỗi kiến trúc lả một cách tiếp cận khác nhau về vẫn đề cưng cấp dịch vụ của ƠLAP Đó lá MOLAP (OLAP da chiều) và
ROLAP (OLAP quan ha) MOLAP va ROLAP là trong suất đối với người dùng,
cuối Nhưng mặt trước của những công cụ này là như nhau và hình thức hỗ trợ
quyết định cũng như nhau Chỉ có khác biết giữa hai công cụ là ở mức độ chỉ tiết
tác nghiệp và hiệu quả kinh tế (MOLAP thường có giá thành thấp hơn ROLAP)
- Dữ liệu đa chiều (MOLAP): dữ liệu đa chiều và các địch vụ OLAP được
kết hợp với nhau trong củng một máy chủ Dữ liệu được tổ chức theo khung
nhìn (view) và được lưu trữ trong các mảng, việc cập nhật dữ liệu không anh
hưởng nhiều tới tệp chỉ số Lfu điểm của MOI,AP bao gồm: tốc độ truy vẫn cao,
có khả năng phân tích dữ liệu phức tạp, dễ sử dụng (do đữ liệu đã được tống hợp
từ trước và được lưu trong kho dữ liêu đa chiều), kích cỡ của cơ sở dữ liêu đa
chiều được hỗ trợ nhô hơn so với cơ sở đữ liệu quan hệ, công nghệ sử đụng ma trận thưa, tiết kiệm không gian nhớ, nhu cầu lưu trữ nhô Tuy nhiên có một số
hạn chế: kích thước bị hạn chế
có thay đổi trong cấu trúc đa chiều đòi hỏi cơ sở dữ liệu phải tả chức lại, các mở
rộng ở những ứng dựng đầu cuối gũa một cơ sở dữ liệu đã chiều không thể dùng
không thể khoan sâu đữ liệu tới mức chỉ tiết, nếu
được cho một cơ sở dữ liệu da chiều khác
- Dữ liêu quan hệ (ROLAP): được xây dựng theo mô hinh quan hệ, tuy nhiên đều được xây dựng dựa trên sơ đồ hình sao mang thuộc tính đa chiều
Trang 27Thêng thường kho đữ liệu quan hệ có kích cỡ rất lớn Kích thước của dữ liệu bị
tăng lên do chứa các tệp chỉ số và những bang đữ liệu chưa được dưa về dạng chuẩn 3 để dạt dược hiệu suất chấp nhận được của những truy vẫn da chiều
'Trong mô hình này bao gồm máy chú dữ liệu để lưu trữ dữ liệu, máy chủ OI.AP
và khung nhìn OLAP chửa trong máy trạm riêng Mô hình ROLAP cung cấp
truy vấn linh hoạt bằng cách luân chuẩn bị dữ liệu sẵn sảng phục vụ cho việc
trích chọn, tổng hợp đữ liệu theo yêu cầu của người đùng cuối ROLAP thường được sử đụng trong các trường hợp: dữ liệu thường xuyên thay đổi và người
ding lai đỏi hỏi những tổng hợp tức thời, khối lượng đữ liệu lớn, các truy vấn
không lường trước, cỏ như cầu hiển thị dữ liệu chỉ tiết Tuy dữ liệu được lưu trữ đưới dạng quan hệ nhưng vẫn thể hiện với người ding đưởi dạng các chiều của công việc ĐỂ che đấu dạng lưu trữ của dữ liễu, phải tạo ra một lớp metadata
ngữ nghĩa để ánh xa tắt cả các chiều tới các bảng quan hệ Khi cần kết hợp phải
tạo ra siêu đữ liệu để cải thiện thời gian trả lời Những siêu dữ liệu này được lưu trong cơ sở đữ liệu quan hệ, tức lả phải tạo ra một kho siêu đữ liệu khác trong giải pháp cho xây đựng kho đữ liệu
1.3.3 Phương pháp thiết kế
- Dôi với MOLAP:
| Chọn chức năng công việc (như phân tích doanh số bán hàng và lập báo
cáo tải chỉnh)
+ Xác định đơn vị đa để lưu trữ doanh số như salss
+ Xác định các chiều (Times, Products, Locations) và đơn vị đo của mỗi
chiều như Times (timeid, date, week, month, quarter, year), chiều Products
(pid, pname, catogary.price), Locations (locid, eily, slate, country)
+ Định nghĩa mê hình logic và tải vào kho dữ liệu da chiều hay trực tiếp tir
các nguồn đữ liêu hay thông qua việc lọc và kết hợp những nội dung được
lựa chọn của kho đữ liệu
- Đối với ROLAP
+ Xây dựng một mô hình đa chiều sử dụng một trong các mộ hình đã trinh
bay trong phần kho dữ liệu
+ Bỗ sung vào các đữ liệu lóm Lắt và kết hợp
+ Chia tập dữ liêu lớn thành những phần nhỏ hơn có khả năng quản lý được
để nâng cao hiệu suất thực hiện
Trang 2828
+ Đừa vào những tập chỉ số mới đưới dạng bitmap (Bitmap Indexs) hoặc
lign két (Join Indexs) dé ting cường khả năng truy nhập, từ đó tăng tốc độ
thực hiện
¡Tạo và lưu trữ siêu đữ liệu bao gồm những định nghĩa chiều, anh xạ chiều tới các bảng dữ liệu quan hệ tương ứng, quan hệ phân cấp giữa các chiều,
dinh nghĩa và mô tả dữ liệu kết hợn,
1.3.4 Thực hiện truy vẫn và thiết kế khung nhin (Materialized View)
- Mục tiêu là cung cấp cho người đùng cuối không thông thạo về SQL một giao điện trực quan và đủ mạnh để thực hiện các công việc phân tích dữ liệu
thông thường Dữ liệu sơ sờ luôn sẵn sàng cho việc sử dụng ở nhiều mức chỉ tiết
khác nhau
- Một thao tác thông thường nhất là tổ hợp đơn vị đo trên một hoặc nhiều chiều Các truy vấn đó thường có dạng: Tùm tổng doanh số bán hàng, tổng doanh số bán hàng ở mỗi thành phố, tim 5 sản phẩm báng được nhiều nhất trên tổng doanh số bán hàng Trong các truy vấn trên, hai truy vấn đầu tiên có thể thực hiện được bằng truy vẫn SQL trên các bảng sự kiện và bảng chiều nhưng
truy vấn suối cùng không thể thực hiện được như vậy Khi chúng ta kết hợp đơn
vị do trên một hoặc nhiều chí
L đơn vi do phụ thuộc vào chiều ít hơn là đơn vị
đo gốc Chẳng hạn như khi chúng ta tính tổng doanh sé ban hàng gúa một thành phổ, đơn vị do kết hợp là total sales và nó chỉ phụ thuộc vào chiều Location
trong khi đó đơn vị đo sales gốc phụ thuộc vào các chiều Location, ‘Time va
chi tiét) Newoe lai cia roll-up 1a drill-down Tức là cho tổng doanh số bán hàng
theo state và ta phải tính chỉ tiết cho từng city hoặc một số city được chọn (chỉ tiết hóa từ thông tia tổng hợp) Chúng ta cé thé drill-down theo một chiêu khác
với Location Chẳng hạn như chúng ta có thể tìm tổng bán hàng đếi với mỗi sản
phẩm gủa mỗi stale theo chigu Product
- Một số truy vẫn của OIAP không để đàng trong việc biểu diễn hoặc không thể biểu dig duoc trong SQL Tuy nhiên một số lượng lớn các truy vẫn dều có thể biểu diễn được Thông thường chúng liên quan tới việc proup by hay
tổ hợp và thao tác QUAP đơn dẫn tới một số truy vấn giống như truy vẫn trong
SQL.
Trang 29Thiét ké cac materialized view
C&c materialized view chính là các bang tom tit (summary table) giống như view nhưng có một số tỉnh chất đặc trưng khác với view bao gồm: có tốc độ
thực hiện nhanh, cö quan hệ với các bảng chiều và được sử dung để tăng tốc độ
khai thác
Cac materialized view được đặt cơ chế tự động cập nhất đữ liệu từ các băng
sự kiện mỗi khi đỡ liệu cập nhật vào báng sự kiện
1.3.5 Các phép toản QLAP trong mô hình dữ liệu nhiều chiều
Trong mê hình nhiều chiều, đữ liệu được tổ chức thành các chiều, mỗi chiều
chứa các mức trừu tượng do phân cấp khải niệm xác định 'Tỗ chức này đảm bảo
mềm đếo chơ người dùng khi nhìn đữ liệu theo các hướng khác nhau Miệt
phép toán về khôi đữ liêu OLAP có khả năng hiển thị, có câu hỏi tương tác và phân tích đữ liệu Tức là OLAP có môi trường người dùng để phân tích đữ liệu tương tác
Các phép toán OLAP bao gm
- Cuốn : phép cuỗn, hay phép khoan, thực hiện việc gộp trên đữ liệu khôi,
hoặc leo lên phân cấp khái niệm đối với một chiều, hoặc giảm số chiều,
Khi cuốn do giảm số nhiều, một hay nhiều chiêu bị loại khối khối dữ liệu
Cuốn có thể xóa chiều thời gian, cho kết quả là tổng sản phẩm thơo dia điểm, chứ không cỏn theo địa điểm và thời gian nữa
- Đảo sâu : phép đảo sâu là một dạng cuốn Nó quét từ đữ liệu ít chỉ tiết đến
đữ liệu chỉ tiết nhiều Đảo sâu có thể thực hiện từng bước xuống phân cấp khái
niệm đối với một chiều dữ liệu, hoặc đưa ra các chiễu bổ sung, Chẳng hạn đi
theo chiều thời gian để xét theo qui, rỗi theo tháng,
l3o việc đào sâu thêm chỉ tiết đối với dữ liệu đã có, nó cho phép bd sung,
chiều mới, ching hạn chiều “nhóm các khách hàng”
- Cắt lát và kê ô : phép cắt lát chọn trên một chiều của khối dữ liệu, tạo nên
Trang 3030
liệu dến bảng quan hệ dẫu người ding
Các phép OLAP khác có thế sắp xếp hang các mục theo danh sách, cũng
như thực hiện tính toán phụ
Kế và dh điểm Hà Hội sua J# | as
aus | ae | ae so sâu inc bi gan
Linh 1.3.1 Cde phép todn OLAP
So sánh sáo hệ thống OLAD với các cơ sở dữ liệu thông kê, người I2 thấy
nhiễu tỉnh chất của hệ thống OILAP, như sử đụng mô hình đữ Hệu nhiều chiều, kết hợp của độ do với chiều, các phép toán cuốn, dào sâu cũng dã có trong cơ sở
dữ liệu thông kê Cơ sở dữ liệu thống kê là hệ thông cơ sở dữ liệu được thiết kế
để trợ giúp các ứng dụng thống kê Khác nhau giữa hai hệ thắng nhiều khi là kí
pháp, thuật ngữ
OLAP và cơ sử dữ liệu thống kê cũng khác nhau Cơ sở đữ liệu thống kế
hướng ứng dụng kinh t
cạnh riêng liên quan đến phân cấp khải niệm liên quan đến cơ sớ đữ liệu thẳng
kê Không như cư sở dữ liệu thống kê, OI.AP được thiết kế để xử lí khổi lượng
Ñ hội OLAP có đích là ứng dụng nghiép vu Khia
lớn các đữ liệu một cách hiệu quả
lồi trong mô hình dữ liệu nhiều chiều có thể theo mô hình mạng sao Mé
hình mang sav bao gdm cae tia ra Ur diém trung Lâm, mỗi đường thể hiện một
phân cắn khái niệm đối với một chiều MIỄI mức trừu tượng trong phân cấp dược
ấu chân Cái nảy thể hiện tỉnh hạt có thể để dùng các phớp toán OLAP
như cuốn lên, đảo sâu
gọi là
Trang 31Kho dữ liệu cũng là hệ thống đữ liệu đã được chuẩn bị để xây dựng hệ
tro quyét dinh (D3S-Decision Support Systcms) và hệ phân tích trực tuyển (OLAP-Online Analysis Processing) đo dữ liêu trong đó thoả mãn tính chất toàn
vẹn và có sự liên kết nội tại: Mặc dù đữ liệu được cung cấp từ nhiều OLTP,
chúng được liên kết bằng sự thống nhất trong quy tắc đặt tên, đơn vi đo, hệ
thống các thuộc tính chung Tiểu này có gid tri đặc biệt khi vận hành một lúc
vài hệ thống, trong đó các đữ liệu được biểu điển bằng những đơn vị khác nhau
(vi du như các cách biểu điễn ngày, tháng khác nhau hoặc biểu diễn logic khác
nhau) Các chỉ số quan trọng như tổng số, giá trị trung bình trong các giai đoạn
kháo nhau, rung bình cộng cũng được biểu điễn rat da dang ứ các hệ khác
nhau Khi đưa số liệu vảo kho đữ liệu, mọi chỉ số không tương thích được chuyển dỗi, tránh các lỗi tiém tang trong hệ thống,
kho dữ liệu cung cấp tiếp cận thay thé so với tiếp cận truyền thống đổi với
cơ sở đữ liệu không đồng nhất Thay vì dùng tiếp cận hướng câu hỏi, kho đữ
liệu dùng tiếp cận hướng cập nhật, trong đó thông tin từ nhiễu nguồn, không
dỗng nhất, dược tích hợp trước và lưu trong kho để hỏi hay phân tích trực tiếp
Không giống như cơ sở dữ liệu xử lí giao tác, kho đữ liêu không chứa dữ
liệu mới nhất Tất nhiên, kho đữ liệu cẻ hiệu quả cao trong việc tích hợp hệ
thống cơ sở đữ liêu không đồng nhất vì đữ liêu được sao chép, tiền xử lí, tích
hợp, chú giải, tôm tắt và cấu trúc lại vào một nơi chứa đữ liệu ngữ nghĩa Hơn nữa, xử lí câu hỏi trong kho đữ liệu không can thiệp việc xử lí tại nguồn cục bộ
Mã kho dữ liệu lưu trữ và tích hợp thông Lin lich sử và trợ giúp các câu hỏi da
chiều phức tạp
Trang 3232
CUUONG 2 PLAN TICU, THIET KE HE THONG TRỢ GIÚP RA
QUYẾT ĐỊNH HỖ TRỢ QUẦN LÝ HOẠT ĐỘNG KH&CN
2.1 Giới thiệu chung về hệ thống
Với mục tiêu Xây đựng kho đữ liệu quản lý các nhiệm vu, dé tai, dé an trong lĩnh vực khoa học và công nghệ (KH&CN) cấp Bộ và cấp Nhà nước, hỗ trợ
công tác ra quyết dịnh giao chỉ tiêu kế hoạch hàng năm, đồng thời gop phần
nâng cao nắng lực quản lý các nhiệm vụ nghiên cứu triển khai của Bộ
Với 29 đơn vị trực thuộc bao gdm các đơn vị quán lý Nhà nước, đơn vị sự
nghiệp khoa học, hàng nãm Bộ KH&CN thâm định và phê duyệt hàng trăm để tài, để án, nhiễm vụ nghiên cứu và triển khai cũng như các hoạt động thường
xuyên trong lĩnh vực khoa học vả công nghệ Dễ đảm bảo không có sự trùng lắp,
lang phi trong đầu tư, việc có được những thông tin chính xác, kịp thời hỗ trợ
cho người quân lý trong việc xét duyệt nội dung vả kinh phi cho các đơn vị hang
năm là rất cần thiết
Trên cơ sở dữ liệu quản lý và cắp chỉ tiêu kinh phí cho thực hiện nhiệm vụ
tại các dơn vị là hệ cơ sở đữ liệu dược lưu trong máy chủ cơ sở dữ liệu dặt tại Trung tâm Tin học Cư sở đữ liệu sẽ dám nhiệm việc lưu trữ thông tin về tỉnh
hình cấp kinh phí hàng năm cho thực hiện nhiệm vụ tại các đơn vị trực thuộc Hộ
và theo đối tình hình triển khai thực hiện kinh phí, từ đó đánh giá hiệu quả, làm
căn cứ cho việc cấp chỉ tiêu kinh phí những năm tiếp theo Ngoài ra, cơ sở dữ
liệu quản lý các đề tải, nhiệm vụ cấp Nhà nước và câp Bộ của các đơn vị trục
thuộc Bộ đã và đang thực hiện cùng với kết quả
Chức năng của hệ thống: xây dựng hệ thống thông tin hỗ lrợ công tác quản
lý các nhiệm vụ KH&CN của Bê, bao pồm thông tin về quản lý các dễ tài, nhiềm vụ cap nha nước, cẤp bộ, do các dơn vị trực thuộc Bộ thực hiện
Một số thông tin hỗ trợ ra quyết định:
- Kiểm tra dé tai/dy án như vậy hoặc tương tự đã được đăng ký hay thực hiện chưa, từ đỏ quyết định cho phép/không cho phép thực hiện đề tải/ dự án
đăng ký
Trang 3333
- Đánh giá hiểu quả thực hiện nhiềm vụ trong những năm trước của một đơn
vị dễ ra quyết dịnh xét duyếtloại bó nhiệm vụ không hiệu quả#trùng lặp của những năm tiếp theo
- Dánh giá hiệu quả triển khai kinh phí cấp cho thực hiện nhiệm vụ tại đơn
vi hàng năm, từ đó quyết định mức kinh phi sẽ cấp những năm tiếp theo
2.2 Phương pháp luận và công cụ
3.3.1 Phương pháp luận chưng
Kho đữ liệu được xây đựng trên cơ sở thu thập đữ liệu từ nhiễu các cơ sở đữ
liệu khác nhau Do đó trước khi đưa vào kho dữ liệu cần có sự phân loại, chuẩn hóa và làm sạch Kho dữ liệu được thực thi én SQL Server 2005, chạy trên nên
Ling Windows 2003 Advaneed Server Kho dif ligu đặt tập trung sẽ dễ dàng
n hành Xây dựng kho dữ liệu sử
dựng phương pháp phân tích hệ thống có cấu trúc làm phương pháp luận dể Liễp
được bảo trì báo mật và liện lợi cho việc
cận tới quá trình phân tích và thiết kế Quá trình phân tích thiết kế có kết hợp với
ban mẫu Kho đữ liêu được xây dụng trên hệ quản trị cơ sở đữ liệu SQL Server
với các công cụ trợ giúp trong quá trình phân tích, thiết kế là Hnterprise
Manager va Analysis Manager
Phdn tich 6 cdu tric
Phân tích có cầu trúc lả cách tiếp cận hiện đại tới các giai đoạn phân tích vả
thiết kế của chu trình phát triển của hệ thông, được chấp nhận để khắc phục những điểm yêu của các tiệp cận truyền thông
Đặc điểm của phương pháp này:
- Hệ thống được hoàn thiện theo phương pháp từ trên xuống
- Quá trình phân tích, thiết kế sử dụng một nhóm các công cụ, kỹ thuật và mô hình để ghi nhận phân tích hệ thống hiện tại cũng như các yêu cầu mới của
người sử dụng dồng thời xác định khuôn dạng cho hệ thống tương lai
Nhting công cụ gắn liền với phân tích có cấu trúc là:
Trang 3434
2.2.3 Hai mô hình phân tích hệ thông có cấu trúc
'Irong một số trường hợp nhà phân tích hệ thống có thể chọn một trong
hai mô hình sau:
~ Mõ hình thác để (Walcrfall)
Mô hình nên tảng cho phần lớn các phương phân tích hệ thống từ những năm
70 Mô hình này bao gồm một số giai đoạn được tiến hành một cách tuần tự
Mỗi giai đoạnh có thể do một nhóm các chuyên gia thực hiện
- Mô hình xoắn ắc (Äpiral)
Việc phân tích dựa trên mô hình xoắn ốc gồm những giai đoạn kế tiếp nhau như mô hình thác để nhưng các giai đoan này được chia nhớ thành nhiều bước
và được thực hiện lặp lại đề hoàn chỉnh dần Dặc điểm của mô hình này là người
phát triển hệ thống có thể bàn giao kết quả lại cho người sử đụng cuối theo từng
giai đoạn mà không cần phải chờ đợi cho đến cuối giai đoạn phát triển Có thể
nói, mô hình xoắn ấc là sự kết hợp chặt chẽ giữa cách tiếp cận có cấu trúc và
phương pháp tạo bán mẫu làm cho tiến trinh phát triển của hệ thông có hiệu quả
hơn
434 Phương pháp luận xây dựng kho dữ liệu
Quá trinh xây dựng kho di liệu bao gỗm nhiều pha Chúng ta số xem xét chi
tiết của từng pha cụ thể trong quá trình xây dựng bằng công cụ SQI, 8crvcr
Việc xây dựng kho dit ligu sit dung SQL Server dược chia thành các giải đoạn,
bao gồm:
a, Xác định các yêu cầu
-_Thu thập đữ liệu, xác định như cầu khai thác thông tin của lãnh dạo
- Xác định các nguồn đữ liệu
- Xây đựng các Liêu chỉ quản lý dữ liêu, biểu mẫu theo các tiêu chỉ
- Thể hiện dữ liêu dưới các khung nhìn khác nhau
b, Giai đoạn mô tả
- Xác định, thiết kế các chiều (Dimension Table)
- Xác định, thiết kế các bảng Sự kiện (Fact Table)
- Xác định, thiết kế các báng tổng hợp (Summary Table)
- Xác định, thiết kế các bảng trung gian
- Xác định lược đỗ hình sao
- Anh xa việc trích lọc, chuyển đổi đữ liệu
c, Giai đoạn xây dụng
Trang 3535
Sử dụng cdc DDL (Data Definition Language) dé xAy đựng kho cùng với các
lược dễ vật lý, câu lệnh SQL, Query Analysis dé trich loc, anh xa, chuyén déi dit
liệu vào kho Giat doan này gầm các công việc chính sau:
- Cấu hinh kho vật lý
- Tạo các kết nồi
- Tạo các chỉ mục (index)
- Phân vũng (Partition)
~ Triển khai (trích lọc, ánh xa
- Nâng cấp và bảo trí kho
d, Giai đoạn nhập và quân trị đữ liệu
Trong giai đoạn này, cơ sở hạ tang của kho đữ liệu đã được hoàn chính Việc quản trị đữ liệu, đặt lịch cho các công việc quản trị có thể được tiến hành
thông qua công cụ độc lập Các công việc được sắp xếp trong Data Transform
Serviecs
2.2.5 Công cụ thực hiện
liiện nay trên thế giới hệ quản trị cơ sở đữ liệu cung cấp giải pháp cho lưu
trữ, quản trị và xử lý đữ liệu thuộc vé Microsoft SQL Server Day 14 hé quan tri
co sé dit Hiệu được đánh giá là một trong các hệ quản trị cơ sở đữ liệu mạnh nhất
hiện nay Hệ thống hoại động lrên kiến trúc máy khach/chii (client/server), co
uu didm la cho phép chia sở công việc một cách hợp lý giữa hai máy
'Irong quá trình phát triển hăng Microsoft thường xuyên có sự nâng cấp các
phiên bản SQL Server, hiện phiên bản mới nhất là SQL Server 2005 Các đặc
trưng của SQL Server 2005:
- Cung cấp cung cấp một nền táng đữ liệu toàn diện vả khả năng mở rộng kho cho phép các tổ chức để tích hợp đỡ liệu vào kho dữ liệu nhanh hơn, quy
mô và quản lý một lượng ngảy càng tăng của dữ liệu và người sử dụng, trong, +khi cung cập những hiểu biết để tất cả người dùng
- Cung cấp mệt nền tang cœ sở đữ liệu tiết kiệm chi phi, mang lại hiệu quả
cho các giải pháp lưu trữ, cho phép khách hàng chỉ trả tiền cho các tính năng và
khả năng mỡ rộng mà họ cần, trong khi cung cấp một đường dẫn nâng cấp liễn mạch cho phép khách hàng xây dựng vào dầu tư ban đầu của ho là những yêu
cầu đữ Hiệu của họ phát triển
- Giảm chỉ phí thông qua ảo hóa phần cứng
- Nâng cao hiệu suất truy vẫn, cung cấp các công cụ tối ưu hóa dễ thiết kế cấu trúc tổi ưu cho cơ sở dữ liệu và lập chỉ mục
Trang 3636
Các dịch vụ và tỉnh năng tỗi ưu của SQI, Server 2005
- Dịch vụ phân tích: cải thiện và nâng cao hiệu suất phân tich
- Cho phép đưa ra những quyết định trên eơ sở các phân tích tiên đoán thông
qua việc khai thác dữ liệu dầy đủ và trực quan, hoàn toàn phủ hợp trong suốt nền tầng Microsoft BỊ, và có thể mở rộng trong bất kỷ ứng dụng
- Cho phép các nhà phát triển xây dựng các công cụ mạnh, các ứng dụng cơ
sở dữ liệu thế hệ tiếp theo với NET Framework, Visual Studio Team System
- Cung cắp một nền Láng hoàn chính được thiết kế để hỗ wre xây dựng một loạt các bảo cáo theo nhu cầu để cung cấp thông tin có liên quan khi cần thiết
- Cung cấp tính năng bảo mật cái tiến, công cụ quản lý hiệu quá tính năng
bảo mật, xác thực mạnh và kiểm soát truy cập, nã hóa mạnh, kiểm toán nâng
cao
2.2.6, Bộ công cụ Microsoft SOI Server 2005
Bé cong cu SQL Server 2005 tro gitip cho viéc x4y dung, quan tri va khai
thác các hệ thống thông tin, kho dữ liệu Trong đó có một số các công cụ cơ bản
sau
- Enterprise Manager: đùng để xây dựng và quản trị cơ sở dữ liệu
- Analysis Services: cụng cấp công cụ phân tích dữ liệu thông qua khai thác
dữ liệu trực quan
- SQT, Server 2005 Reporting Services: hd trợ xây dựng báo cáo
2.3 Phân tích, thiết kế hệ thống
3.3.1 Những yêu cầu chủng về hệ thông
Phần cứng: bao gồm cả máy chủ (server), máy trạm làm việc, các thiết bị
mạng vả truyền thông, phải dam bao được tốc độ và tương thích trong toản hệ thống
Môi trường phát triển: phải đâm bảo được khả năng quan lý lượng đữ liệu
lớn và tốc độ truy cập cao, phân tán trên địa bàn rộng và có khả năng kết nối
động
Phần mêm ứng dụng: phải đấp ứng được các yêu cầu nghiệp vụ quản lý các
nhiệm vụ KH&CN, tích hợp CSDL với trang web, thuận tiện chơ việc triển khai
xà khai thác ứng dụng cũng như phát triển mở rộng trong tương lai
Ba phan nảy liên quan mật thiết với nhau ĐỂ lựa chọn một giải pháp tốt, cần phải xem xét cá ba yếu tổ trên Hên cạnh những yếu tố kỹ thuật nêu trên, nhóm
để tài cũng đã xem xét khả năng phát triển hệ thông và khả năng phối hợp của