1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tích hợp dữ liệu, kho dữ liệu và ứng dụng trong lĩnh vực quản lý tài chính công

88 688 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 88
Dung lượng 32,74 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

DANH MỤC CÁC HÌNH VẼ, ĐỎ THỊHình 5: Minh hoạ khái niệm lích hợp và chuyên dôi thông tin dữ liệu ỉ linh 12: Moi quan hệ giữa các CSDL tác imhiệp với k h o dữ liệu và... C'ùnt» có một mô h

Trang 1

ĐẠI 1IỌC ọ u o c GIA 1IA NỌI

TR Ư Ờ NG d a i h o c ( ô n c n g h é • • •

T Í C H H O P D Ủ L I Ê U , K H O D Ũ L I É U V À Ử N G D U N G

TRONG LĨNH v ự c QUẢN LÝ TÀI CHÍNH CÔNG

Ngành: Công nghệ thông tin

Trang 2

MỤC LỤC

DANII M Ụ C C Á C KÝ I III l i c Á c ( I l ữ VIH'r I A I 3

DANH MỤC CÁC BẠNCì m i I 4

l )ẠNI I MỤC C Á C HÍNII VI' DÓ T I I Ị 5

M( ) DẢU 7

CH ƯƠN G l - T Í C I I l ỉ Ợ P D Ĩ T l II;.u VÀ KHO D Ơ I I I U y 1 rích hợp dừ l i ệ u

/ I Khái niệm lích hợp (ỉữ liệu l) 1.2 Lịch sư phát iriên cua licit hợp (lữ liệu

1.3 ì i (iụ minh họa I I 1.4 Lý ilinycl tic tì hợp dừ liệu 12

2 Tồng quan quá trình từ dữ liệu đến thực hiện ra quyết đ ị n h 15

3 Kho dữ liệu 18

ỉ. / Khái niệm kho dừ liệu IX 3.2 Những đặc tỉìêm ctr ban CIIU kho dữ liệu 20

3.3 Sự khác nhau ỉỉiừti các hự thong CSDL tác nghiệp vả các kho (lữ liệu 23

3.4 Kiến trúc kho (lữ liệu 25

3.5 Síô hình kho dừ liệu 27

3.6 c 'hiển lược thieí ke, Xíiy thmg kho dừ liệu 3 1 4 Cơ sớ dữ liệu chu đề (Data Mart) 36

4 ỉ Khái niệm cơ sơ (lừ liệu chu đ ề 36

4.2 Những lý i/o can pliái xây dựng các cơ sớ dừ liệu chu d ề 38

5 Khai phá dữ liệu (Data Mininu) 39

5. / Khải niệm 3 y 5.2 c 'ác kỹ ịhuật khai phá dừ Hệu 4 1 6 kế t l u ậ n 42

CHƯƠNG II - GIỚI THIỆU M ỌT SỎ K HO D Ữ LIỆU VÀ C S m C H Ủ Đ È 43

1 Ớ tron» n ư ớ c 43

I I Cơ sớ dừ liệu chú dè về kinh tế vĩ m ô 43

1.2 Hẹ cơ sờ dừ liệu phát ỉrièn bển vừttg của l iệt Xam 46

2 Ớ ngoài n ư ớ c 53

3 kct l u ậ n 57

CHƯƠNG III - ỬNG DỤNíi XẢY DỤÌMG c ơ SỜ Dfr l.lị:n CHỦ l)Ẻ Đ ộ c I.ẠP TRONCi QUẢN LÝ TẢI CHÍNH C Ò N ( Ỉ 58

1 Cìiới thiệu vân đ è 58

2 Mục tiêu xây dựng cơ sớ dữ liệu cluì dề về thu - chi ngân sách 58

3 Yêu cầu cùa cơ sờ dù' liệu chù đò VC thu - chi ngân s á c h 59

J. / Yên cần Ví' liệ tlionịỉ chi tien 59

3.2 Yêu cầu khi thiẻl ké cơ sơ dừ liệu 59

3.3 Yêu can ve chia Iiãnịỉ vua ( SDL và kha nàng mớ rộng, nàng cap 60

4 Xây dựntỉ hệ thống chi tiêu thu - chi ngàn sách 61

5 Thiel kế Cơ sờ dừ liệu clui dề về thu - chi ngân sách 62

5.1 Mò hình phân rà chức nàng 62

5.2 Mỏ hình cỉữ liệu 64

6 Một so chức năng chu yếu cua C SD1 chú đề về thu - chi lìgân sách 65

7 két l u ậ n 79

KÍ T I.UẬN C Ỉ I U N G 80

IÀI I l l i i r i l I A M K H Ả O SI PIIỤ I Ụ C 82

Trang 3

K\' hiệu Diễn }>iai

K l -XII Kinh te - xà hôi

KOI AI’ Relational-* M AP - Xù lý phân tích trục tuyến kiểu quan hệ

Trang 4

DANH MỤC CÁC BẢNG BIẾU

Tồn h á 11 «Ị

Bang I : So sánh CSDI tác imhiộp và Kho dừ liệu

Bang 2: So sánh các hộ thốnii OI I P và OLAI’

Trang 5

DANH MỤC CÁC HÌNH VẼ, ĐỎ THỊ

Hình 5: Minh hoạ khái niệm lích hợp và chuyên dôi thông tin dữ liệu

ỉ linh 12: Moi quan hệ giữa các CSDL tác imhiệp với k h o dữ liệu và

Trang 6

11 inh 3 I : kct qua phép toán C'luiNcn dôi dan \ ị dirới dạng nie l \ e d 73

11 ml) 32: k c i qua phép loán tlico cô n e tlitre ngirới sir dụng tự định nghĩa 73

6

Trang 7

M Ở Đ ÁU

N íià \ nay nhân loại lia 11 li dirim trước một nuliịch l>' là c ó rất nhièu clĩr liệu nhirnu lại dõi ihônsỉ tin Quá trình nỗ lực lîiai tjlivct níỉhịch lv nà) dà dần đến hình thành m ột xu lurỡnii nghiên cửu và ứng tiụnu d a n g rat phô bien và sôi ilộníí troníi the g iớ i C N T T hiện nay d ó là van lie phát hiện Iri thức từ các c ơ sờ dừ liệu ( K n o w le d g e D is c o v e r y in D atabases - KI)D).

Ọuá trình K.DD ạ ỏ m nhiều iiiai đoạn, tronii dó c ó hai 2Ìai doạn quan trọnc nhất, dó là: x â \ d ự n c kho dữ liệu (D a ta W arehousing) và khai phá d ừ liệu (Data

Vlininụ) Xâ\ dựng kho dừ liệu là iìiai đoạn dâu tien của quá trình KDD Mục

dich cua giai đoạn nàv là \ â \ d ự n c một loại c ơ s ở dữ liệu ( C S I ) I ) k h ô n a chuẩn

hoá, liru trừ dừ liệu tích hợp, có uiá trị lịch sư và dược chiết xuất từ nhiều nguồn,

lừ nhiều CSDL khác nhau Các CSDL này nói chIInu thirờnẹ dược phát triển

trên nền cá c h ệ quàn trị C S D I khác nhau Vì vậy khi xây d ự n g kho dừ liệu

tlurờnu phai nghiên cửu ííiai qu\ểt vấn dề tích hợp các hệ thốnu thông tin liên quan bao gồm cá tích hợp hệ thốnạ phần ciriiũ phần mềm và dừ liệu.

Luận văn này tập trunẹ chú yếu vào việc kháo cứu những vấn dề I iên quan

đến lích hợp dữ liệu; kiến trúc và các thành phần c ơ bản cùa kho dừ liệu: khai

phá dìr liệu, và ứnu dụnii nhừng kiến thức dược kháo cứu để thứ nghiệm xâ\

dựng một loại kho clừ liệu, dó là CSDL chú dề dộc lập (Data Mart), trong lĩnh

vực tài ch in h c ô n e ữ V iệt Nam.♦ V» •

l.uận vãn g ô m c ó 3 ch ư ơ n g nội dung, không kê c á c phần m ở dầu kết luận, lài liệu tham khảo và phụ lục:

• Chương ! - Tíc h lìựp dữ liệu và kho (lừ liệu Trình bày các khái niệm, lý

tluiyết c ơ ban và cá c van đề liên quan dến tích hợp dữ liệu và kho dữ liệu.

• Chương / / - Giới thiệu một số kho (lữ liệu và CSDL chú dề (ìiới thiệu

khái quát v ề m ục liíclì, dặc điểm, chức năn ti cùa m ột s ố kho dừ liệu,

CSDL chu để tiêu biêu ơ tronụ và ngoài nước hiện nay.c *

• Chương l ỉ l - ủ h g dụng xây dựng CSDL ch ti đề độc lập trong quản lý Tài chính công Trình bà\ việc ứ ne dụ nu l\' thuvết Kho dừ liệu de \â \

Trang 8

dựĩiíĩ ihứ nchiệm một CSDI chù dê phục vụ phân tích, dự háo vê tình

h ì n h t h u chi n u à n s á ch áp d ụ n u tro n u lĩnh v ự c l ài c h í n h cônư

lác giá xin íuri lời irân trọn li cam ơn đèn I hâ\ ui áo hirớnii dần IS I)ồ Văn I hành cùníì toàn the các bạn hè dồng niihiệp dà nhiệt tinh aiúp dỡ cu 112

cáp nluìnu thônạ tin tư liệu quv háu dè hoàn th à n h luận vãn này Do khuôn khô thời gian có hạn nên nội ilium luận văn chắc chăn SC còn nhiều thiếu SÓI tác già rat nions, nhận dược sự íiỏp tham eia V kiến của các thav cỏ ui áo bạn bò dônti nuhiệp dê eôns trình ìiỉihiên cứu nù\ neà\ cànu tlirợc hoàn thiện hơn nữa.

Xin chân thành cám ơn!

Trang 9

I Tích họp (lũ liệu

/ / Khái niệm tícli hợp (lũ liệu

T í c h h ợ p d ừ liệu lù q u á tr ình ket h ợ p c á c loại d ữ liệu lừ n h i ề u nỉỉUÔn k h ác

nhau và CIII1Ü cấp cho niurời sư dụng một cái nhìn dồna nhất về các dừ liệu dó

Vấn đề quan trọng này đà và claim xuất hiện ngày càna nhiều tronti các lĩnh vựcI • w tỉ s— • • m »— c •khác nhau cua dời sốnu \ã hội chãns hạn trong lĩnh vực thương mại khi các

cỏn ạ IV tương tự nhau can hợp nliẩl dừ liệu cua họ hoặc tro nu lĩnh vực khua học

nhằm kết hợp các két quà million cửu từ các kho tri thức khác nhau Tích hợp dừ liệu xuai hiện với cườnạ độ ngà\ càns tãnu và làm bùna nô nhu cầu chia se dữ liệu Nó đà trớ thành tiêu diếm cùa rất nhiều học thuyết và các vấn đẻ mơ còn can dược uiai íỊUvet Trong thực hành, tích hợp dữ liệu thườn ụ dược gọi là lích

hợp thâmỉ tin doanh nghiệp {Enterprise information Integration).

1.2 Lịcli sử phát irìên cua tích họp dữ liệu

Ngà) nay tích hợp dữ liệu khônu còn là van đe mới me l ừ những năm

1960 sau khi các CSDL xual hiện phô bien và dược sư dụnu một cách rộng rãi

dà dần dcn nhu cầu chia sẻ hoặc tích hợp các CSDL Việc tích hợp có thề dược thực hiện ở nhiều cấp độ trong kiến trúc của CSDL và một trong nhữ na phươnii pháp phô biên là xây dựng kho dữ liệu (Data Warehousing - xem hình I ) Ở đó

dừ liệu từ nhiều niiuồn khác nhau dược trích chọn, clìiiãn hóa và nạp {Extract,

vấn với một lược dồ dơn lé.

ỉ/ình I : Bien i1ồ (lơn gian cua một kho dữ liệu.

Thông Ún từ các c 'SOI nịỉitòn íhrực Iríclì chọn, clinân hóa và nạ/) vào kho (lữ liệu

Trang 10

Vê mặt kiến trúc ílà\ cô thô dược \C 111 Iilur một pluronu pháp liên kôt chặl

bơi \ì dữ liệu cùng dược tập irune trôna một kho đơn nhât tại thời diêm truy vấn Nluriiü van dề phát sinh dối với phươnu pháp Iiàv là khônu dám báo dược tinh cập nhật tức thòi cua dừ l i ệ u (\í dụ khi một I1ÜUÔI1 dữ liệu UOC được cập nhật mới nhirnti trona kho dữ liệu vần chứa dừ liệu cù hơn), dần liên lien trình í: I I cần phai dược thi hành lại nhiều lần Niioài ra cũna khó có thê xây tiựnu các kho dừ liệu khi chúnạ ta chi có một niao diện lm\ vấn lới các nmiòn dữ liệu

mà khônu truy cập tới dừ liệu dầy dù.

Tronu nlũrna năm aần đây việc tích hợp dữ liệu có xu hướng nới lòna liên kết aiừa các dừ liệu Y urơrm ỡ đây là cun lí cấp một aiao diện tru\ vân dons

nhài thôn*! qua một lược đo trung gian hay còn uọi là CSDL ào (xem hình 2).

10

Vò bọc

Vó bọc

Hình 2: Biêu (tồ ỊỊiái pháp lích hợp (lữ liựn theo kiên liên két lòng.

Xây tlựiHỉ một lược ito Inins’ Ịỉitm mil qua đó người sư tỉụnỊĩ có thê đưa ra các truy vail.

I heo mô hình tích hợp này các truy van dong nhất sau khi di qua lược đồ

trung iỊÍan (Mediated Schema) và các vo bọc ( Wrappers) sẽ được chuân hóa

thành các truy vấn cơ sở trên các CSDL nuuồn Quá trình này cũnu có thể dược

gợi là quá trinh hói đáp dựa trên khuna nhìn ( View), bời vì chúng ta có thê xem

mồi Iiiiuòn dừ liệu như là một khunii nhìn trên lược do trung aian Plurơnụ pháp

tiếp cận nlur \ ậ\ dược aọi là plurơnu pháp kìumsi nhìn cục bộ (Local /l.s l ieu -

LAV) C'ùnt» có một mô hình lích hợp khác tron 12 dó lược dồ trung aian dược

thièt kê như là một khunu nhìn trên các dừ liệu rmuồn IMiươim pháp tiôp cận này

Trang 11

dược sir đụim khi CỎ nlnrmi rac roi phái sinh khi tra lời các till) \an qua lược dô

truim uian I u\ nhiên, n h ư ợc diêm cùa phương pháp này là sẽ phai sưa lại

kliunu nhìn cho lược dồ trunu uian mồi khi có them một nuuôn dữ liệu mới dượck • w W * • *

lich hợp hoặc khi một n Lí lion hiện tại tha\ dối lược dồ cùa nó.

Hiện nay một sổ nahiên cứu vè vẩn đò lích hợp dừ liệu còn có liên quan

Jell vắn dò lích liợp ngữ lìiỉliui (Semantic Integration), vần dò nàv khônu chi ra

làm the nào dc \à \ dựna kiên trúc tích hợp mà là làm thế nào dê uiui quyêt các

\unii dột nạừ niihĩa eiừa các nguồn dừ liệu không, dônu nhât Ví dụ nếu hai cô nu

1\ hợp nhất CSDI cùa họ lại thì các khái niệm và định nahìa nào đỏ tronu các

Ironụ một CSDI nó có thê cỏ nuhĩa là lợi nhuận barm đông dô-1 a (dưới dạnu sô ilụrc dấu phây tlộnu) ironạ khi ironti CSDI kia nó lại có nghĩa là số lirợnu hàna hán dược (dưới dạna số nạuyên) Một chiến lược aiài pháp chuim cho các ván

dề nlitr vậy là sứ dụng các bàn thê (ontologies) troniì đó dịnh nghĩa mội cách rõ

rànu các thuật nu ừ cùa lược dô và từ đó giúp aiài quvét dược các xunu đột ngừ nghĩa.

/ ? Vi dụ minh họa

( ìiá SƯ có một ưnu dụnu vvch tronc đó nmrời sư dim ü có thê tru\ \â n các* w • w w W • c <r

Ihôrm tin khác nhau về các thành phố như: ihốns kè tội phạm, thời tiết, khách sạn nhân khâu, v.v Theo cách truyền thống, thì các thông tin pliai tồn tại iront» một CSDL dơn nhất với một lược đồ đơn nhất Tuy nhiên, một số lirợnu Ihônu tin đa dạnu nhir vậy rat khó và rất tốn kém đê cỏ thê tập hợp tronụ một tô chức dơn nhất Thậm chí nếu có ton tại các nuuon thôíiíi tin dể tập hợp dìr liệu, thi

cũ nu sò dẫn đến cỏ thè bị trùnii lập dữ liệu trong các CSDI tội phạm, các trang uch vè thời tiết, và các dừ liệu dân số.

Một eiái pháp tích hợp dừ liệu cho van de nàv lù coi các nguồn dừ liệu bên ngoài đó như là các khunu nhìn thông qua một lược dồ trune Ilian ào Diều nà>

có nuhĩa là nhừnu nairời phát triển ứng tlụim sẽ xây dự'liu một lược dồ dế mô hình hóa một cách tốt nhất các loại câu tra lời mà nsười sứ dụng cùa hụ monu

muốn Lược dồ áo nàv được ạọi là lược đồ tnmg %ian (mediated schema) ! icp

tlico họ sẽ thiết ke các vo bọc (wrappers) hoặc các bộ điẻii hợp (adapters) cho

Trang 12

mồi Iiíiuồn dữ liệu, cliánu hạn như CSDI tội phạm và trang ueb thời tiêt Các hộ dieu hợp nà\ ch 1 dơn uian là cluiãn hóa các kết qua lm\ \ ân cục bộ (dược tra vè

bơi riêna ùrnii tra nu \vcb hoặc limu CSDI ) thành một dạng dồ \ư K cho Irunuw c > s- y *—tàm lích hợp dừ liệu (\cni hình 2) Khi một iiLurời sư dụng irne dụnu tru\ vân lược dỏ Irunu tiian Irung tâm tích hợp dữ liệu sẽ chuân hóa iruy vân nàv thành các truy vấn thích hợp cho ùrnu nuuôn dừ liệu riêng lè Và cuôi cùng, các kct qua cua các truy vấn này sẽ dược kết hợp thành một câu tra lời cho truy van cùa nmrời sử dụnụ.

Một lợi ích cua íiiái pháp nà\ lù các nuuôn dữ liệu mới có thê được hô SUI 1Ỉ2

một cách đơn gian bans cách xây dựnạ một bộ diều hợp cho chium Điều này Iirơna phan với các hệ thonu I I I hoặc một íiiái pháp CSDL dơn nhất, trorm dỏ toàn bộ tập dừ liệu mới phai dược lích hợp một cách thu côn li vào hệ thổnu.

1.4 LÝ thuyết tích hợp ilũ liệu

LÁ thuyết tích hợp dữ liệu là một tập hợp C O I1 cua lý thuyết CSDL Các kếl qua cua nỏ cho chúng ta biết rana dừ liệu có thê tích hợp dược hay khò nu và có nhữnỉi khó khàn ui khi thực hiện Tuy ra nu nhĩrnu dịnli nuhĩa van còn khá trừuW w • • •* w w • Wlirợnu nhưna nhìn chunti chúng cũn ụ là dù dế hiên điền được tat cả nhừnii thê loại cùa các hệ thống tích hợp.

1.4.1 Các (tịnh nghĩa

Các hệ thônu lích hợp dừ liệu dược định nuliĩa một cách chính tăc như một

hộ ha <G,S,M> iront» dó Ci là lược dồ toàn cục (hoặc truim íiian) s là tập hợp các lược đồ nmiồn khônu dont» nhất, và M là phép ánh xạ các lim vân eiừa các

lược dồ nuuồn và lược đồ toàn cục Cu (ì và s đều được biếu diền trong các

nuỏn ntĩừ thông qua các hanư chừ cái hao gom các biêu tượng cho các quan hệ ricnii cua cliủtm Ảnh xạ M bao uồm nhừnu xác nhận uiữa các truy vấn trên G

và các truy vẩn trên s Khi nũirời sir dụn« đặt c á c truy vấn trên hộ thốna tích hợp

dữ liệu, họ sè dặt các tru\ van qua G và sau đỏ ánh xạ sẽ xác nhận nhừnu kêt nôi íiiừa các phần tư iron SI lược đồ toàn cục và các lược dồ nuuồn.

MỘI CSDI, qua một lược dồ dược định nghĩa là một tập hợp các tập mỗi tập tương irnu với một quan hệ (tronc; một CSDL quan hệ) CSDI írn» với lược

do nuuồn s là tập hợp các tập ban ghi cho mỗi nÜIIôn dữ liệu khôn 2 dònu nliât

vã nỏ được íiọi là cơ sớ dừ liệu ngìiôn {source database) CỈ 1Ú \ rănu CSDI

12

Trang 13

nạuồn dơn nhất này thực lố c ó ihè là một tập hợp các C S D I rời rạc t'S D I ứnu

database). C S D I t o à n c ục p h a i t h o a m à n á n h x ạ M d ố i v ớ i C S D I Million l ính

hợp lệ cùa ánh xạ nà\ phụ thuộc v à o tính chài cua sự tươna quan giữa Ci và s

Có hai p l u r ơ n u pháp phố h iế n de m ô hình hóa mối tươna q u a n này đó là k h u n g

K hung nhìn toàn cục K hung nhin cục bộ

Hình 3: Mõ lu klìòiìịỉ gian bán ghi cua các (inh xạ GA I ' vil LA I

Trona CÌAV hệ thons dược rà no buộc với tập các ban ghi ánh xạ bưi các

nẹuồn có the là rộ 11 ạ hơn và da dạng hơn nhiều Trong I AV, hệ thống dược rà nu

buộc với tập các bán ehi trong các nguồn và dúm li có thê dược biêu diền qua lược đô toàn cục có thê là rộniì hơn nhiều Vi vậy các hệ thông I.A V thường phai dổi phó với các câu trá lời không hoàn chinh.

Trong CiAV cơ sở dừ liệu loàn cục dược mô hinh hóa nlur một tập các khung nhìn trên s I rons trườna hợp này M liên kết mồi phan tử cùa G với một truy vấn trên s Việc xử K iruN vấn trờ thành một thao tác dề dà nu hơi vi các liên kết ui ira G và s đà dược định nuhĩa sẵn từ trước, vấn dè phức tạp là ờ việc cune cap mà cùa bộ trung gian dê chi dần cho hệ thonu tích hợp dữ liệu biết chính xác làm thế nào dỏ tru\ xuất các phẩn tứ từ các C S D I nguồn Nẻu cỏ nguồn mới nào dược hổ sunu vào hệ thốn 2 thì can phai có sự cập nhật cho bộ

truns íĩian vù vì vậ\ phươnu pháp CÌAV nên dược áp dụna trona các Irườns hợp các nẹuồn dừ liệu khôn ự tlurònu xuyên tha\ dõi.w • w r «

Xét plurơnu pháp G A V doi với hệ thống tích hợp dừ liệu troim ví dụ ư phần trên, naưừi thict ke hệ ihốni» tnrớc tiên sè phát triên các bộ trunn íỉian cho mỗi

Trang 14

imuon thònií till cua thành pho và sau dó thict kế lược dô loàn cục xoa\ quanh các hộ trunii íiian n à \ V í (.III uia sir một tronu các nmiôn là iranu \vcb vồ thời■ *<_ *— • v _ ■ w C *—

I ici K hi d ỏ n s i r ờ i t h i ế t k ê s è b ô s u n s m ộ t p h â n l ử t i r ơ n g ứ n u v ớ i t h ò i tiẽt v à o

l ược d ô t oà n c ục S a u d ó thi v â n tic c h u Y c u lã \ ici m à t h í c h h ợ p c h o h ộ i r un a

üiitn lio nó sè chuẩn hói) các thuộc tính cua ihời lict thành m ột truy vấn trôn iranii

\\ch thời liát Vấn dề này cỏ ihé trở nên phức tạp nỏII có một niiuồn khác liên

quan đốn thời tiết hỡi vi Iiũưừi thiết kế lúc dó s è phái đối mật với v iệ c viết mà de

kel hợp một cách dúnti dan các kết quà từ hai Iimion khác nhau.

ỉ rái lại tronii I-A V cơ sư tiừ liệu nmiồn dirợc mô hình hóa như một tập

các khung nhìn trẽn G Tronii trường hợp n à} M SC liên kết mồi phẩn tir cua s

v ớ i một lru> vấn trên (i Ớ dây, c á c liên két chính xá c SỊĨĨra G và s là kliônu còn• w « W w

dược định nuhĩa sần Như sè mô tủ trong phần tiếp theo, sự khó khăn cua việc

xác dinh xem làm thể nào để iruy xuất các phần tư từ các nguồn sẽ tập trune ờ

hộ xứ lý tru\ vấn I.ợi ích cua mô hình I.A V là các Million mới có the dược bôr » w •

suriii với m ội lư ợ n e côntỉ v iệ c ít hơn nhiều s o với ironü hệ thốníi G A V \ ì vậ\• • C / W ■ *— • w .

phương pháp L A V nên dược áp dụng trong các tnrờnii hợp mà các lược dồ trime gian là không thường xuyên tliay đối.

Xét phương pháp I.A V dối với hệ th ốn g tích hợp dìr liệu trong VI dụ ờ phần

trôn, ntiirời thiết kế hệ thống tnrức tiên sẽ thiết kế lược dồ loàn cục và sau dó chì

cần nạp vào các lược d ồ lirơnu ửnũ cua cúc nuuồn <Jìr liệu thônu tin VC thành phố (.'ùn ụ iiiá sứ ràng một trong c á c n e u ồ n d ó là traim u c b v ề thời tiết Nmrời

íhiêt kề sò chi bô sung các phần lư tương ứng với tlùïi Iici vào lược đồ loàn cục nêu không bị trùng với những phàn tứ đang tồn tại Sau dó một bộ điều hợp hoặc

v ó học c h o tran a w e b sẽ d ư ợc viết và một hán m ô lã lược d ồ của các kết qua từ

tra nil w e b s ẽ d ư ợ c h ô s u n u v à o c á c l ư ợ c d ô n m i o n S ự p h ứ c t ạ p c ủ a v i ệ c b ô s iin u

neuôn mới sẽ được chuyên từ ntiirời thiết kể sang hộ \Ư lý tru\ vấn

l 4 2 X tr lý tr u y v a n

Lý thuyết v ề x ử lý tru\ vắn tron» các hộ th ốn g tích hợp dừ liệu ilurờnụ

(.lược biếu ciiền bàng các truy vẩn nổi tiếp (conjunctive queries). Một cách dơn uian có thô hiêu một tru\ vấn nôi liếp như là một hàm logic áp dụnu cho các

quan hệ cua một C S D L clìăiiũ hạn nhir "f(A,B) tronu dó A< B" Neu một ban uhi

hoặc tập các han íìhi d ư ợc lha\ \ ào quv tac và thỏa mãn n ó (C|U\ tac c ỏ giá trị

14

Trang 15

I RUI.), thi la coi han tihi lá I 11 ỘI thành phần cua lập các càu tru lời irons* tru\

vấn M ặ c dù c á c ntiôn n iiừ h ìn h lỉú rc nh ir D a ta lo ụ b iêu clicn c á c iruv vân IÙI\

một cách súc tích \ à khônu c ó nhập nhanti nhưng các tru\ vân SQ L thôim lliirờnu non c ó thê vần nên dược phàn loại nlnr các iruv vân nòi liêp.

Một thuộc tính quan irọtm cua các trus vân nôi tiêp (v ê mặt tích hợp dừ

liệu) là ch ặ n tru y vắn (qu ery containm ent). Một truy van A chửa một truy van li (k\ hiệu là A d H ) nếu các kct quá cua tru\ vấn lỉ lù một tập con cua các kêt qua cua tru\ vấn A trên bat kv C S D I nào Ilai tru\ vấn d ư ợ c s ọ i là tương đ ư ơ n g nêu các tập két qua là tirons dươrm trên bất kỳ CSDI nào D iều này là quan trọna hởi vì trona cà cá c hệ thống CÌAV và L A V các iruy vấn nối tiếp cua người sử dụnti dều đ ư ợ c dạt ra tlìôna qua một lược dỏ ao dại diện bơi một tập các killing nhìn, hoặc cá c iru> Nấn nổi ticp "thật" Mục tiêu cua hệ th o n s tích hợp lá \ ici lại các truy van dại diện bời các khunu nhìn đè làm cho các kêt quá cua chúnu là tương đ ư ơna h oặc d ư ợ c ch ứ a tối da hởi truy vấn cùa rmười sứ dụnu.

I r o n s c á c hệ thốníi G A V một n eư ờ i thiết kế hệ thổnụ sẽ viết mà hộ trung íiian đế định nuhĩa cá ch viết lại truy vấn M ồi phẩn ur tron ạ truy vân cua nturời

SƯ dụnạ lirơnu ử nu với một tru\ vấn trên nguồn Xư lý truy vấn chi đơn gián lù

m ờ rộ nu các m ụ c đích co n tronu truy van cùa ngirừi sử dụne, llico quy lác dã dược xác định troua bộ truníi gian và vì và) truy vấn kết quá là nan như tươim

dư ơnc.

Trong cá c hệ Ihong I A V các truy van phài trai qua thèm một thao tác viết lại cư sứ nữa bơi vì ở đây khônu c ó bộ trunu ụian đê doi chiếu truy vấn cùa ntiirời sứ ciụnu với m ột chiến lược m ờ rộng dơn aiàn Hệ ih o n g tích hợp phai tien hành tìm k iếm trên khônu íiian cùa các iru\ van claim c ó dè tim ra một hanw c • w viết lại tốt nhất Ban viế t lại nàv c ó thể khôniỉ phái là một Iruy vấn tirơim dươnu nlurim d ư ợ c c h ử a toi đa, và cá c bàn ahi két quà c ó the là k h ô n g hoàn chinh Thuật toán M in iC o n hiện tại dana là thuật toán viết lại tru\ vấn hàna đầu cho

các hệ thôrm tích hợp dữ liệu I.AV.

2 Tổng q u a n q u á tr ìn h tù' (lữ liệu đến thực hiện ra quyết định

Một troníi nhĩrnụ m ục tiêu cot yéu cùa \ iộc tích hợp dừ liệu là nhăm tônỉi• V w - • » • » I • Whợp phân tích cá c ihônc tin từ dữ liệu quá khử và từ dó dưa ra nhfrnu quvêt dịnh

Trang 16

theo chiều hướníi có lợi ironu urơnỉi lai Ọuá trình llụre hiện mục tiêu Iià\ bal tlầu lừ nhĩrtm C S D I tác Iiũhiệp đơn le c h o tlỏn klii dưa ra dược nlũrim quvci (.lịnh cần thiết, ckrợc gọi là qiiíi trình tù' dừ liệu (Jen thực hiện ra quyết (.lịnh.

Ọ uá trình từ dừ liệu tiến liên hành ra quvỏt dịnh là tlirờna bậc thanu tiồni 3 bậc chính: C S D l và hạ tân li kỳ thuật, Khai plìá dữ liệu (Data M in in a ) và C ô nu

cụ tác n g h iệp th ôn g m inh (Intelligent B u sin ess I ool) Quá trình này d ư ợ c m ô ta qua hình 4 trona d ó dừ liệu dơn liian là một giá trị do một sự kiện nào dó I)ữ liệu c ó thê d ư ợ c thô hiện dưới dạnii sô vàn han biêu banu do thị ban dò hình anh âm th a n h D ừ liệu dạne so và vãn hàn dược sư dụnii phô biến nhất Trong

C N T T Ihôna tin d ư ợ c tlùra nhận là: t h ô n s tin = dừ liệu + kinh n s h iệ m (hay kiến thức c ơ s ớ ) và tri thức thông tin + suy luận.

B ậ c t h a n g t h ứ lìliấ t - B ậ c d ữ liệ u Truníi tâm cua I1Ó là xây tkrnii các Kho

dừ liệu (D ata w a r e h o u se ) nham phục vụ ch o nhiệm vụ Khai phá dừ liệu ớ bước tiêp theo Kiến trúc, m ụ c dich sứ dụnu và kỳ thuật x â \ dựiiỉì cá c Kho dữ liệu là ral khác s o với c á c C S D l tác nghiệp (Operational Database).

16

Hình 4: Mõ 1(1 (/tui triuli lừ (lữ liệu dền thực hiện ra t/iạ cl định

Trang 17

Dữ liệu phát sinh tù' c;ic hoại dộnu liànu I1ÍÙI\ và d ư ợc tlui thập \ ư l\’ dê

phục vụ cô n u v iệ c nghiệp \ ụ cua một dơn vị lô ch ứ c đ ư ợc uọi là d ữ liệ u lá c

n g h iệ p (O p e r a tio n a l D a ta ) CSDI tác níihiệp phục vụ ch o các xir lý g ia o clịclì trự c tu y ê n (O n lin e T r a n sa c tio n P r o c e s s in g - OI I P), cụ thô nói chu 11 li c h ú n a dêu

hỗ trợ \ iệc chiết \u ấ l lônu hợp tinh loàn tự tlộnụ các dừ liệu irone C S D L : \ â \ dựiiỉi báo cáo tốnụ hợp hoặc chuyên dè tự dộnu truy vấn tim kiểm thỗrm tin ụr tlộns cập nhật và khai thác dược C S D L từ xa N lũrns thông tin dừ liệu dược chiếi xuất từ C SD Ỉ lác nahiệp thường là loại thôna tin dìr liệu mà n e ư ờ i SU' dụng c ơ han dà hicl trước, hàm lượng trí tuệ của thôrrn tin không cao và ch i dáp ứn<> cho hoạt độim tác nghiệp, nluìnu quyết định m a n s íiiá trị "Iiũủn hạn".

Kho dữ liệu trái lại phục vụ c h o các x ư /Ý p h â n tíc h tr ự c tu y ê n {O n L i ne

A n a ly tic a l P r o c e s s in g - O l.A P ) nhàm phát hiện thônu tin tri thức mới với hàm

lirựim trí tuệ cao k h o dữ liệu thực chat là tập hợp các dừ liệu VC tat cà các chu

dò liên quan den toàn hộ hoạt dộna cùa một dơn vị, tô chức nào đó Các Kho dữ liệu lưu trữ dừ liệu lịch sir phụ thuộc thời gian, không thể sưa dối dược, và được tích hợp từ nhiều hệ thôn» thõng tin CSD1 tác n eh iệp đ ư ợ c phát triên dựa trên nhiều hệ quàn trị C S D L khác nhau M ô hình cư hán nhất cùa Kho dữ liệu là

C SD L nhiều chiều.

Kho dữ liệu thườn» rat do sộ và xây dựnu cù nu khá ton kém Khi Kho dừ

(D a ta M a rt) Nlnr vậy C ơ sỡ dừ liệu chù dề chính là một tập con cùa Kho dừ

liệu dược tập trung v à o một sô chù dồ dược lựu chọn.

Kho dừ liệu dược ra dời khoảng I0 nãm liần dày nham khác phục tình trạntì con nẹười dã c ó rất nhiều (Jữ liệu nhưnii khai thác sứ dụng chưa d ư ợc hao nhiêu Kho dừ liệu dang dược quan tâm xây dựnu ờ các nước tiên tien ca ơ quy

mô quốc uia lần quy m ô các doanh nạhiệp T h ô n g qua các Kho dữ liệu c ù n g với

các c ô n g c ụ k h a i p h á d ừ liệ u ( D a ta M in in g T o o l), nu ười ta c ó thê phân tích dô

nhận dạng toàn diện the mạnh diêm yểu cùa một dơn \ ị tồ c h ứ c (thậm chí c ó thè

là cùa một quốc s ia ) dự báo khá loàn diện da\ đu và hồ trợ một cách hiệu qua Iron ạ v iệ c hoạch dinh chiến lược, kẻ hoạch sún xuất kinh doanh cùa đơn vị tôw • » ♦ * 4 •chức đó.

OAt N 0 C Q u ố c G IA HÀ NỘI !

ÎO v ‘> tẳ m ĩ h Ô N G TtN ÌHƯ VIEN '

Trang 18

ỉì ậ c t h a n " t h ử h a i - H ộ c t h ô n g tin ỉ runu tàm lá khai p h ủ i/ữ liệ u (D a ta

M in in g ) hu\ x â y d ự n g m õ h ìn h (lự b á o (M o d e llin g ), là giai doạn phức tạp nhái

cua quá trình khai phá tri thức trone, các C SD I (K I)D ) Một sô kv thuật khai phú

đừ liệu chu you dà chum và sè clirợc ứnii dụ nu dô tlự báo kinh lố sẽ dược tập truníĩ giới thiệu ironu một phần ơ dưới.

B ậ c th a n g t h ứ b a - H ộ c tr i t h ứ c : I ruiiii tâm cua nó là cá c H ệ tr ự ỹ ú p

q u y ế t đ ịn h (D e c is io n S ìip o r i S y s te m - D S S ) ha\ các c ô n g c ụ tá c n g h iệ p th ô n i’

m in h {In te llig e n t B u s in e s s T o o ls) N ó i ch im e dó là phân móm tin học cỏ khíi

nãne SUY luận trên CSDl tri thức dược xây dựnu sau íiiui doạn Khai phá dừ liệu Một cách dơn giàn, cơ s ứ dừ liệu tri thức là một li ạ ntl cüa C S D L nhầm quán trị

dữ liệu là các câu troníi niiôn n g ừ m ện h đề cồ diên, niiôn ntiừ lo g ic tân lừ cấp I cấp 2 trên dó có xâ\ dựna cơ chế SUY luận tự tlộnu dựa trên một lý thuyết lô

ai e n à o đ ó nh ư: logic d a trị l o ẹ i c x á c suất, l oui c I11Ờ l o a i c k h á n ă n e lý thuyết

chứng c ớ và niêm tin V iệ c su y luận ớ d à \ dược hiêu là han a cách áp d ụ n s cư

ch ế SUN luận dã d ư ợ c xác định, từ m ột tập tri thức nào dó tro nu C S D L tri thức có thể suy ra dược một sỏ tri thức m ớ i hoặc từ một câu hòi do người sử d u n e dưa vào c ỏ thổ trà lời dược câu hói d ó c ỏ thể suy ra dược hay k h ô n g từ tập tri Ihức dà

ch o bane, cá ch thực h iện cơ ch ế SUY luận trên tập tri thức dó L ĩn h vự c n à y thuộc

vê Trí tuệ nhân tạo tronu C N T T C hậm hơn vài năm s o với sự xuất hiện cùa

K I)[), một lĩnh vực khác chu y ếu dựa trên nền ta nu cua In' tuệ nhân tạo dà ra« » w •

dời dược s ọ i là T ác n h â n th õ n g m in h ( In te llig e n t A g e n t) C ác côn li cụ thònu

minh tác níihiệp hiện nay d ư ợ c x â y dựna chú yếu theo kỹ thuật, c ô n g n e h ệ cua Tác nhân thỏnu minh ví dụ như c á c phần mềm tin học c h o robot, phần mỏm đánh cừ khám chữa bệnh troniì y h ọ c phần mềm lự d ộ n g lái ô tô máy bay tàu

h o a dược xây tlựnii theo côntì nuhệ như vậy Tác nhân th ôn g minh dược xem

là bước phát triển mới cúa Trí tuệ nhân tạo.

3 Kho d ữ liệu

/ Khải niệm kho dừ liệu

Kho dừ liệu c u n s càp các kiên trúc và côníi cụ cỊLian 1} ch o doanh nuhiệp de

tô chức, khai thác và sư dụng dừ liệu một cách c ỏ hệ ih o n g nham dira ra nlùnm quyết dịnh manu tính chiến lược N íiày nay rất nhiều cá c tỏ chức đã nhận thấv

18

Trang 19

rail a các hệ thônu kho dữ liệu là m ột cônu cụ cạnh tranh rât hữu ích thúc dày sựlw • w m /phát triôn c h u n g cua the íiiứi í ron g nhiêu năm nân ilâv 11 li ười ta dã chi phi nhiều triệu đ ô -la c h o \ iộc x â \ dựníi các kho dừ liệu doanh niíhiệp N h iê u nuười

dã c h o ranụ với sự cạnh tranh tro nu mỗi ngành CỎI1U nahiộp thi v iệ c x â \ dựng kho dữ liệu là MÌ khi liếp ihị cu ố i cù nu bat buộc phai c ó dô c ó ih ẽ cỉáp i m s dược các nhu cầu cùa khách hànu.

Khái niệm k h o dừ liệu dà d ư ợ c dinh ntihĩa th eo nhiòu cách khác nhau, nên• • • • khó c ó thè dira ra một dinh n g h ĩa chính xác, hoàn chỉnh, ll iê u một c á ch dơn• • C' íiiân, kho dừ liệu thực chất là tập hợp các C S D L tích hợp lurớnu chủ d ề, được

V-thiết kế đ ê hồ trợ ch o cli ứ c n ă n g t r ợ g iú p (/livết (lịn h , mà m ồ i d ơn vị dừ liệu đều

liên quan tới tronu một khoảng thời ạian cụ thê C ác hộ t h o n s kilo dữ liệu ch o phép tích hợp nhiêu loại hộ thỏnụ ứ n g d ụnạ khúc nhau Chúnti hồ trợ v iệ c xư l\' thỏnu tin b a n s cá ch c u n ẹ cap một m ôi trườnu nền d ồ n ụ nhất và c ó tính lịch sứw c - w 7 I * W w •cua dĩr liệu dê phục vụ c h o v iệ c phân tích.

1 h e o W.1 l.ln m o n cha đe cua cá c hệ th o n s kho dừ liệu, thi một k h o dừ liệus— .

là một tập hợp dừ liệu c ỏ chu dề, tích hợp gan với thời uiun và bổn v ữ n g nhằm

hồ trợ c h o v iệ c ra quyết định cùa c á c nhà quán lý D ây là m ột định Iiíihĩa rmản uọn n h ư ng chinh xác, bao hàm dầy tỉú các đặc tinh cùa một kho dữ liệu B ốn đặc

trima: Inrớ nịỉ c h u đ ề { s u b je c t-o r ie n te d ), tíc h h ợ p Ụ n te r g r a te d ) g ắ n th ờ i g ia n

liệu với các hệ thonu dừ liệu khác, ví dụ như các h ệ thonu c ơ s ở dữ liệu quan hệ các hộ thổní» x ứ K ụiao dịch, và c á c hệ th on e file.

K ho dừ liệu thườnu rất lớn tới • *— hàna irăm ( ii b y t e ha> w ihậm c h í liànu• V—Terabyte Kho đừ liệu ckrợc \ â \ d ự n g đê tiện lợi c h o v iệ c truy cập dữ liệu theo nhiều nuuồn nhiều kiêu dữ liệu khác nhau s a o c h o c ó thê kết hợp d ư ợ c cà nhìrnẹ im li dụ nu cua các côn <2 nu hộ hiện dại và ke thừa d ư ợ c từ nlùrne hệ thốnu

ihỏnu tin và C S D I dà c ó sần lừ trước K h o d ữ liệ u c ó k iề u trú c, m ụ c đ íc h s ửc

thông th ô n g tin thu thập xứ l\' dừ liệu theo cỏ n u im hệ kho dừ liệu d ư ợ c s o i là hệw c • I * • W W ' • • • •

x ử 1Ý phân tích trực tuyến (O I.A P ).

T óm lại kho dừ liộu là nơi lưu trữ cá c dừ liệu d o n c nhất v ề mặt n e ừ nahĩa nham phục vụ Iilur một ihê hiện \ ậ t IV của m ô hĩnh hỗ trợ IỊUYCI dịnh và lưu trừ

Trang 20

các thòniỉ tin mà một tô c h ứ c can tic dưa ra các (.Ịiivct (.lịnh ch iế n lược M ột kho

dừ liệu cù nu ilurờnu d ư ợ c \ c m như một kiến trúc đ ư ợc xây dự rte bần ti cá ch tích hợp dừ liệu lừ nhiều nụuồn k h ô n g d ồ n e nhất dô hỗ trự cá c i m \ Nấn c ó hoặc kliônii c ó cau trúc, các háo c á o phân tích và dưa ra cá c quvêt định.

V iệ c \ â \ dựníi kho d ừ liệu c ù n g rât hữu dụnu nêu nhìn từ n ó c d ộ tích hợp các cơ s ơ dừ liệu k h ô n g d ồ n g nhất Rất nhiều lò c h ứ c tlìirờna tập hợp nhiều loại

dừ liçu hồn tạp khác nhau và duy trì c á c c ơ s ở dử liệu lớn từ nhiêu n g u ô n thônũ tin phân tán tự trị và khônu đồnu nhất V iệ c tích hợp cá c dữ liệu dó và làm ch o

\ ì ệ c tru\ cập v à o dừ liệu trơ nên dề dànu và hiệu qua đén na\ Nần luôn là một khao khát và thách ihírc to lớn D à c ó rất nhiều níihiên cứ u và nỗ lực ir o n sw • wneành c ô n u níihiệp dừ liệu nham tới m ục tiêu này.

Phirơnu pháp liếp cận truyền thốrm c h o v iệ c tích hợp cá c dừ liệu khònu dont! nhát là xâv d ự n s các vo bọc ( w r a p p e r s ) và cá c b ộ tích h ợ p ( in ten * rcifo rs)

ha> b ộ in m iỊ g ia n ( m e d ia to r s ) ữ phía trên cá c c ơ s ơ cỉừ liệu hỗn tạp Khi một

truy van d ư ợ c dưa tứi phía m ột m áy khách, m ột từ diên dặc tà dừ liệu sẽ d ư ợ c sir dụnu dê phiên dịch truy van d ó thành cá c truy vấn thích hợp c h o c á c phiu dừ liệu hỗn tạp khác c ó liên quan Sau d ó n hữ ng truy vấn này s ẽ d ư ợ c ánh xạ và dược íúri lới các hộ x ử K truy van cụ c bộ C á c kết quà tra v ề từ các phía dìr liệu hỗn

lạp sẽ d ư ợ c tích hợp tron li một bộ tra lời toàn cụ c P h irơ n g p h á p tiế p c ậ n (lịnh

liirớ ng tr u y v ấ n (q u e r v -d r iv e n a p p r o a c h ) nàv dòi hỏi sự xư lý tích hợp và chắt

lọc thồnu tin rất phức tạp và dôi hói sự cạnh tranh íiiừa cá c n e u ồ n dừ liệu trong

v iệ c x ử lý cụ c hộ lại m ồi nguồn N ó c ó the sc rat tốn kém và k h ô n g hiệu quả đối với các truy vun thườn!» x u v ên , dặc hiệt là n h ừ ng truy vấn đòi hỏi s ự tích hợp.

3 2 N h ữ n g đ ặ c đ iể m c ơ b (in c ủ a k h o (ilĩ liệ u

M ọi kho dừ liệu, lus c ó rất nh iều đặc d iêm khúc nhau tùy thuộc v à o nội dunu và m ụ c clích khai thác, n h ư n g nhìn c h u n g (Jeu c ó nhừna, d ặ c d iêm c ư ban sau đây:

T ín h h ư ở n g c h ú d è Một kho d ữ liệu th ườn g d ư ợ c tô c h ứ c theo c á c chu dề

chính đe e iú p c h o tổ ch ứ c c ó the d ề dàn g xá c định d ư ợ c nhìrtm thôn» tin cần

thiét tro n g ù r n s hoạt d ộ n g c u a m ìn h , c h a n g hạn n in r k h á c h h à n e nhà CLII1Ü cấp

sail phàm \ à bán lìànsỉ K hônu chi lưu trừ tập irung cá c hoạt d ộ n a \ à ttiao dịch liànu n u à\ cua một tỏ ch ứ c, kho d ử liệu còn c ó kha nănu m ô hình hóa \ à phân

20

Trang 21

cấ p một cái nhìn dim ụian nụẩn iiọn và súc tích về các sự kiện dặc thủ cùa chú

dề hả nu cách loại trừ các dừ liộu vô ích tro na quá 1 rinh xứ lv hồ trợ quyết ilịnh.

Ví dụ ironu hệ tliốnu quan lý tiền eừi tiêi kiệm cù c ó thê dừ liệu dược tô

c h ứ c theo chirc nănn: cho v a \ quán lv tín dụnũ quail lv ntiân sách \ Nmrực lại, irons K h o dừ liệu về tài chinh, dừ liệu d ư ợ c tô c h ứ c th eo chu diêm dựa chú

y ếu theo các đổi tưọnu: k h á ch hàrỉii sàn phàm v v Hai cách tiểp cận khác nhau dần đốn sự k h ác nhau \ C nội d u n g dừ liệu dược lưu trử iro n e hệ thốnu Kho dữ liệu không lưu trữ dữ liệu chi tiêl chi can lưu trữ nhừnụ ilữ liệu c ỏ• w • W •

tinh Ions’ hợp p h ụ c vụ ch u yé u ch o q u á trìn h phân tích dể trợ s iú p quyết đ ịn h

Tin h tíc li h ợ p Một kho tlữ liệu thườn ạ dược \ â \ dựnũ b a n s cách tích hợpI l l I » X * • w • » • w w • I

từ nhiều nuuồn dừ liệu khôniì d ồ n Ü nhất, chìm li hạn như cá c C S D L C |u a n hệ, các tệp phăim \ à các han ghi e ia o dịch trực tuyến D o đ ỏ k h o dữ liệu th ư ờ n g là một klninu nhìn ih ô n s tin m ức toàn thể (toàn q u ố c ũia tố ch ứ c, doanh nuhiệp) thốna nhút các khung nhìn khác nhau Sm * th àn h một khuim nhìn theo m ột chu diêm nào đó.* w •

Ví dụ về v iệ c hợp nhất dìr liệu từ c á c níìuồn C S D I tác n a h iệ p khác nhau như vậy tỉirơc m ò ta tronu Uìnli 5: Một K h o dừ liệu sò c ó một khuns nhìn toàn thô về một đơn vị bao e ồ m các phần dừ liệu khác nhau tử cá c hệ th ố n g phân bố na ân sách, eiao dịch naân sách và quan lý đơn vị sứ d ụ ng n sâ n sách.

Mù dit» \ ị: 168

1 ôn dơn vị: Bệnh \ iện X

So tài kho.m: 123456

►sr.

o3

<a

Địa chi: s ố 58 đường 1

N gà\ ihãnh lập: 01 0 1 2 0 0 5 Ngàv cấp mà: 01 04 2005

Số lài khoán: 123456 III IIIÓ NU

Hình 5: Minh lu >11 khái Iiiçin rich hợp và chuyên (tôi iluhn' tin dừ liệu

lừ các ( 'Sí)l ttic nghiệp vào Kho (lữ liựn

Trang 22

l inh rich hợp I hê liiậ i ơ chồ: l)ừ liệu lập họp iront» kho dừ liệu đirợe thu

thập từ n h iề u 111211011 và trộn uhcp vớ i nhau lạo thành một thê ih ỏ n g n liâ l

D ữ tiê u »</// th ờ i g ia n \'à c ó tín li lic h MÌ' K h o dừ liệu bao hàm m ột khôi

lirợne lớn dừ liệu lịch sư I)ữ liệu được kru trừ thành một loạt cúc (inh c h ụ p d ữ

liệ u (s n a p sh o t), mồi bàn íihi phan ánh nhìrnu ụiá trị cua dữ liệu tại một thời diêm

nhất dinh thô hiện một khunu nhìn cua một chu dicm trong một «ỊÌai đoạn IX)• • • w • w * w •vậ\ ch o phép khôi phục lại lịch sứ và s o sánh một cách c h ín h xác các giai đoạn

kh ác nhau

I)ừ liệu irong CSDI tác n ghiệp cần phai chính xác ở chinh thời diêm truy cập còn ơ k h o dữ liệu chi cần c ó hiệu lực tro nu khoảng thời aian nào dó irons khoanu 5 tiên 10 năm hoặc lâu hơn D ữ liệu cua C S D L tác n eh iệp thường sau một khoáim thời ẹian nhât dinh thì s ẽ trờ thành dữ liệu lịch sir và chúng sẽ dược chuyên v à o Kho dừ liệu Dó chính là những dữ liệu hợp lý v ề nhừnu chú diêm cẩn lưu trừ Sự s o sánh giữa dừ liệu tác nahiệp và dừ liệu troníi Kho dừ liệu tỉirọc thê hiện trone Báng 1.

BiiHii I : So sànli ( 'SDL tác nghiệp và Klio (lừ liệu

CSDL tác nghiệp

Thà Ịỉiuii iiỊỉàn intHỊỉ núm ihirừnỊi lừ 30-60 HịỊÙy Thời ỊỊiun (lài: 5-10 mĩm lioặc hill hơn

D ữ ỉiặ i có the cập nhặt Khi (lữ liệu <1ũ chrợc chụp lại tliì

T in h b ề n vũng; Một kho dừ liệu luôn liru trừ riônụ rẽ v ề m ặ t vật K các dừ liệ u c h u â n hỏa từ dữ liệu ứnu dụníỉ tron a m ôi inrờng vận hành N h ờ sự riêng rè

và Hôm soát dồnu, thời I)ừ liệu ir o n s Kho dữ liệu là dữ liệu chỉ dọc và chi có thẻ lư ợ c kiêm tra k h ỏne dược sửa dồi bởi nmrời sứ tlụna đầu cuối N ó chi cho phép llụrc hiệ n hai thao tác c ơ ban: N ạ p (lữ liệ u và o k h o ( in itia l lo a d in g o f d a ta )

Trang 23

D ữ lie n k h ô n il b iế n (IÔHỊỈ Khi dừ liệu Ironii hộ tlìốiiũ dieu hành tác imhiệp

dtrợc ch o là quá cù nỏ sè d ư ợc tai vào Kho dữ liệu, rinh k h ônu hiến d ộ n u thê hiện ờ chồ: l ) ữ liệu ilirực lưu trừ làu dài tronu k h o dử liệu M ặ c dù c ó them dừ• • • w • •liệu mới nhập v à o nhưnu d ữ liệu cũ trona Kilo van k h ônu bị \ o á diều dó c h o

phép cun li cáp thônu tin vè một khoán a thời uian dài cuniĩ cấp du số liệu cần

thicl ch o các m ô hình nuhiộp vụ phân tích, dự báo tù' d ó c ó d ư ợ c n h ữ ng quyết dịnli hợp lý phù hợp với các quy luật tiến hoá cua lự nhiên.

ỉ) ũ li ê n c ó íí n h tÔHii h o p : D ữ liệu tác n gh iệp thuần tuÝ k h ô n e d ư ợ c lưu trừ

trone Kho dừ liệu D ừ liệu tôn» hợp đ ư ợ c tích lại qua nhièu aiai đoạn khác nhau theo các chú d iêm như dà nêu trôn.

3 3 S ự k h á c n l i a u g i ữ a c á c h ệ t h ố n g C S D L tá c n g h iệ p và c á c k h o (lữ li ệ u

Tác vụ chính của các hệ th ố n g C S D L tác im hiệp là thực hiện gia o dịch trực

luyến và x ư lý truy vẩn C á c hệ t h o n a nàv đưực tỉọi là cá c hệ th ổ n e x tr lý g ia o

d ịc h tr ự c tr u y ề n (O L T P ) N ó hao quát toàn bộ cá c hoạt d ộ n s hàn« niiàv cua một

tô chức, như là: mua hàng, quán lý kho, sán xuất, nuân hàng, chi trà ký sô và kế toán Trái lại các hệ th o n g kho d ừ liệu lại phục vụ n gư ờ i sư d ụ ng v ớ i vai trò phân lích dừ liệu và dưa ra quyết định C á c h ệ th o n g như v ậ y c ó thể tố ch ứ c và biêu diễn dữ liệu dưới nhiều khuôn d ạ n a khác nhau d ể ciáp ứ n g cá c nhu cầu da tlạnil cua nhiều n e ư ờ i ilium khác nhau C ác hệ th ốn g này đ ư ợ c s o i là các hệ

ihonu XII' !ỷ p h â n líc h tr ự c tu y ế n (O L A P ).

N h ữ n g dặc d iêm phân hiệt chin h g iữ a Ol.'l'l* và O I A P bao gom :

D in h h ir ở tiíĩ h ê Íhố/IỊỈ r à n g ư ờ iỂ ủ ỉ ĩS - Một hộ thốnu O L T P là h ư ở n g k h á c h hàriiỊ ( c u s to m e r -o r ie n te d ) và dirực sứ dụníi c h o g ia o dịch và x ứ lý truy van do

g ia o d ịch viên, cá c khách hàng và c á c ch u y ê n g ia c ô n g n g h ệ t h ô n s tin thực hiện CÒI1 m ột hệ th ôn a O Ỉ A I ’ là hirỞMỊ th ị t n rò n g (m a r k e t- o r ie n te d ) và lUrực sư dụ nu

cho \ iệ c phân tích th òn g tin d o nhìrne n gư ời dùrm c ó trình đ ộ thực hiện như: các nhà t|iỉàn lý nhà phân tích, triên khai v.v

y ô i (Itm íỉ (lữ l i e u Một hệ t h o n s O L T P th ư ờ n g quan lý c á c dừ liệu rất chi

tiêt dê c ỏ thê dề dàn g s ứ tiụna cho v iệ c ạ ia o dịch C ò n một hệ thốnti O I A I ’ lại llurờnu quan lý một khối lư ợ n” lớn các d ừ liệu lịch sứ t u n s cap kha nănu tồng hợp \ a phân tích, tlồn c thời lưu trừ vù quán l\ thòim tin (V nhiều m ức đ ộ chi tiết khác nhau nôn rat dề s ư dụng ch o v i ệ c ra quvết định.

Trang 24

T h iế t k c c o sò' (lữ l i ệ u Một h ệ thonu OI.TI* thườim áp clụnu một m ô hình

dừ liệu quan hệ thực thê ( E n titie s R e la tio n s h ip ) và m ội thicl kế C S D L luróĩiũ

ứ nu đụim ( a p p lic a lio n -o r ie n tc d ) C ò n một hộ thonu O I A I ’ lại tlurờnụ áp dụng một m ô hình s a o ( s ta r ) hoặc m ô liinh b ô n ẹ tu y ế t ( s n o w fla k e ) và một thiết kế CSD1 h ư ớ n e chu d ề ( s u b je c t - o r i e n te d ).

K h u n g n h ì n Một hệ thốnti OI I P thướng chi tập trunu CỈ1Ú vêu v à o dữ liệu hiện ihừi tronu khuôn khô cua một tô ch ứ c dơn lc nào d ó mà k h ô n g c ó s ự tham• w • ì—chiếu đến nhừntt dữ liệu trôna quá khứ cùa tô c h ứ c d ó h oặc d ừ liệu cua các tô chức khác Trái lại một hệ thống O L A P th ư ờn g tiếp nối nhiều phiên hãn cùa một lược do C S D I trôna, suốt quá trình phát triền cùa một to chứ c, đ ồ n g thời cùn a xem xét den cá c tlìònu tin dừ liệu cua c á c tò c h ứ c khác, tích hợp th ô n g tin

từ nhiều nguồn dữ liệu khác nhau.

C á c k i ê u tr u y c â p : Ph ươn g th ứ c truy cập ch ú y ế u cua một hộ thổnc O L T P thường là truy cập th eo kiêu g ia o dịch C ò n v iệ c truy cậ p v à o cá c h ệ th o n s

O L A P hầu hết là cá c thao tác chi d ọ c bởi vì hầu hốt c á c kho d ừ liệu ch i lưu trữ các thônu tin manii tính lịch sư hơn là cá c thônu tin cập nhật mới nhất.

N a o à i ra còn c ó cá c dặc d iêm phân biệt khác g iừ a O L T P và O L A P hao gồm: kích t h ư ớ c C S D I-, lần suất hoạt đ ộ n g và hiệu suất, d ư ợ c t o n s hợ p ironti Bảnc 2 dưới đâv:

2 4

rHàng 2: So sánh các hệ lllông O U I' vit OLAP

C h ứ c n ă n e ( 'ác hoụt động hàng ngàv ( 'ác lê n cưu thông tin d ự bão Itnniịỉ

/ai, hỗ trự ra I/IIVỜI cỉịiỉh

T h iế t k ế C S D L D ự a trên mỏ hình F.R hư ở ng ủng dụng H ìn h sao/Rông Iityưi hướng chu đe

D ữ liệ u llic n thời, iíúm háo tinh cập nhủi

l.ịc lì sư, (lược duy tri đều đặn theo

th ời \iian

1 ỏ n u h ợ p Thũng tin Ill'll) L'Il lư, rá t c h i liê i Tón\ỉ lĩự p vù itõtìg nhát

G ó c n h ìn ( 'h i lièi ilh 'o Í/IIIIIÌ liự p h ă n g Tõhịỉ hựp, (in chiểu

D ơ n V ị c ô n t ỉ \ iệ c S g á n ịỊ ia o d ịc h dơ n íỊìó n Truy ván p hứ c tap

Trang 25

1 iẽ ii liêm D ữ lien dâu vào Tỉiò h ịì liu (tân ru

1 hũiotiic index Ihis/ì c iiíi khóa chinh Oiií'1 n hìcii /in ì

S ỏ m ư ờ i d ù n u l/ù iìí! Iifih b i HìtHỊi Irìim

K íc h thư ớ c n m t h ill'll ( ib HHKìb (ten Th

Ư u tiín H iệu qua cao, lin h sun SÒHÌỊ cao D ạ lin h lìo ạ l cao

1 h ưó: đ o T lìò iiịi h n m íi g ia o dịch ThõnỊi h rrn ií! in iy van tlìờ i iỊÌan h òi

í ĩíi/l

3 4 K iế n tr ú c k h o d ữ H ên

Kiên trúc cua cá c kho dữ liệu th ư ờ n g bao g ồ m 3 lớp, như hình 6 dưới đ â \ :

Qu«iy Repoit A iulysiĩ Data Miiuuj

Trang 26

Lớp dưới ciniü d ư ợc uọi là W areh ou se D atabase Server, thườnti là một hộ thốiiii C S D I quan hệ ỉ)ô tạo ra kho dừ liệu, dừ liệu cua lớp n à \ (ch ín h là các ( S l ) l tác n g h iệp và c á c nuiion bên niìoài) dirợc trích xuât hãng cách sứ tlụnu

cá c íiiao diện elnrơnũ trình ứnu d ụ n g g ọ i là các c ò n g r a và o (g a te w a y ) Một

c ô n g r a và o d ư ợc hồ trợ bới hộ quán trị C SD I nền và ch o phép cá c clurơnụ Irình

m áy khách sinh ra cá c mã S Q L dô thi hành trên má> chủ N hĩrnu ví dụ cụ the VC

c o n g r a v à o lá: O p en D atabase C o n n ec tio n ( O D B C ) O pen L in k in a and

1 mhetklinu lor D atabases (O L H D ÍÌ) và Java D atabase C o n n e c tio n (J D B C ) I.ớp tliử liai là một O L A P Server, và nó tlurònu sư d ụ ng m ô hinh Relational

O L A P - KOI A I’ ( \ í dụ một hộ quàn trị C S D I I11Ơ rộnu ánh \ ạ các hoạt độnu trên dừ liệu da c h iề u san» cá c hoạt d ộ n a trên d ừ liệu quan hệ chuân) hoặc m ỏ hình M u ltid im e n sio n a l O L A P - M O L A P ( \ í dụ một máy chu dặc hiệt dê tlụrc hiện các hoạt d ộ n g trên dữ liệu da c h iề u ).

Lớp trên cù n g là C lient, chứa các c ô n s cụ Iruy vấn và báo cáo, các côníi cụ phân tích và khai thác d ừ liệu.

N ốu phân loại th eo kiến trúc, c ó 3 loại m ô hình kho dữ liệu: K h o d ừ liệ u

t h a n h n g h iệ p ( E n te r p r is e W a r e h o u s e ), C ơ s ơ d ữ liệ u c h u (ỉế (D a ta M a r t) \ à

K h o d ừ liệ u a o ( V ir tu a l W a r e h o u s e ).

K h o d ữ li ệ u d o a n h n g h iệ p : tập hợp tất ca c á c tlìôníì tin v ề c á c ch ú dề bao

trùm toàn hộ hoạt d ộ n g cua tô c h ứ c N ó tích hợp d ừ liệu trên d iện rộno thườn»

là từ một h o ặ c nhiều hệ thốnii tác nuhiệp h oặc từ Cík n e u ồ n c u n g cap t h ô n ẹ tin hôn imoài N ỏ thườniỉ chứa d ự n g c á dừ liệu lổ n g hợp và dừ liệu chi liểt, và có thế thay dổi kích thư ớc từ vài ũ iuabvtes đen hànti trăm c iẹ a b y t e s terabytes và hon nữa M ột kho dừ liệu doan h n e h iệ p c ó thê d ư ợ c triển khai trên các

m ainfram e truNcn thong, các siêu m áy ch ù U N I X hoặc cá c nền c ó kiến trúc sontì

s o n g khác N ó dòi hòi cá c m ô hình n g h iệp vụ diộn rộng và c ó thế phái mất nhiều năm c h o v iệ c thiết ke và x â y dựng.

C ơ s ở d ữ l i ệ u c h ủ đề: chứa m ột tập con cùa dĩr liệu c ộ n e tác diện rộnu mà

uiú trị cua nó ụũn với một nhóm x á c dinh các nụười đùn» Phạm vi cu a nó gân chặt với cá c chu d ề d ư ợ c chọn V í dụ một C S D I ch ủ đ ê v ê m ark etin g có thê• » i • v _ỉián v ớ i cá c chú dề v ề khách hàniỉ, hàng hóa và bán hàna D ừ liệu chứa trong

C S D i chu dề th ư ờn a là dừ liệu dã đ ư ợ c tònu hợp.

2 6

Trang 27

C á c C 'S D I ch u lie I h ườn 11 dược triên k h a i trôn cúc m á \ ch u íiiá IV lu m như

lá l ỈN ỉ X hii\ W in d o w s/N I I hời gian iriến khai một C S D I chu dô ih ư ừ n c dược tính barm tuần chứ khôim phai bang thána hay banu năm Tuy nhiên, nó có ihê phát sinh rắc rối tro nu v iệ c tích hợp sau m ộl thời tiian dài vận hành nếu khôna

d ư ợ c tlìiêt kè và lập kê hoạch m ỡ r ộ n s ra toàn doanh nuhiệp.

I ù\ thuộc \ ào rmuon dĩr liệu, các C S D l chu d ề c ó thê dược phân loại thành 2 lớp:

- C ơ s ơ (lữ liệ u c h u đ ể đ ộ c lậ p ( in d e p e n d e n t D a ta M a rt): c ó nguôn dừ

liệu là các dữ liệu lay từ một hoặc nhiều hộ th o n s lác nehiệp hoặc từ

c á c n i i u ồ n CUI1U c ấ p t h ô n g t i n b ê n n g o à i , h o ặ c t ừ d ì r l i ệ u c ụ c b ộ c u a m ộ tc - w I W w • •

hộ phận hoặc một khu vực địa lý.

- CSDL c h u đ ề p lìự ilìiiộc { D e p e n d e n t Data M arl): c ó nauồn dừ liệu lâv

trực tiếp từ các kho dừ liệu doanh nuhiệp.

K h o d ừ liệ u á o là một tập hợp các view trên các c ơ sờ dừ liệu túc nehiệp

D e c h o v iệc xứ IV truy vấn c ó hiệu quá thì chi một s o view thích hợp dược tônc hợp lên kết qua V iệ c xây dựng kho dừ liệu ao là khá dề dàng nhưng nó dõi hỏi phai gia lăn a (June lượng cho các máy chú c ơ s ờ dừ liệu tác nghiệp.

3.5 Mô hình kho (lữ liệu

Các Kho dữ liệu và các c ô n2 cụ phân tích trực tuyến ( O L A P ) dược dựa trên

m ỏ hình dữ liệu nhiều chiều M ô hình dừ liệu nhiều ch iều nhìn dừ liệu dưới

dạng các k h ố i ( c u b e ) dừ liệu Khối dừ liệu ch o phép dữ liệu dược mô hình và

dược nhìn theo da chiều Các chiều là các phối cảnh hoặc các thực the mà các dơn vị, tô chức m uốn lưu g iữ các hán ghi thôrm tin theo c h ú n s Bởi vậy m ô hình

dữ liệu ihônsi dụrm và c ơ bán nhất cùa cá c Kho dừ liệu là m ô hình dừ liệu nhiêu chiêu, và các Kho d ữ liệu cỏn dược uọi là C ơ s ở dừ liệu nhiêu chiêu.

Chắn ti hạn một dơn vị quan lý thu thuế c ó the xây dựníì một Kho dữ liệu về thuế nhám lưu aiừ các bàn ghi thônu tin v ề tinh hình thu thuế từ các doanh

nahiệp thuộc dơn vị quan lý c ồ m cá c chiều: T h o iG ia n (thời ũian) D itíB u n (dịa hàn), và M u c T h u (m ụ c thu) C ác chiều nà\ cho phép tỉơn \ Ị có thê theo dõi dược

tinh hình lliu neân sách như tình hình thu cùa mồi m ục thu tron 11 ùrnu k \ háo

c á o Iihánu hoặc quý hoặc năm) và llieo tìrnuL dịa hàn

Trang 28

G ia sư dữ liệ u lim Iiiiâ n sách c u a dơn \ ị trên dư ợ c CUI1Ü eâp như tro n iì hanu

liưới theo 2 ch ièu T h o iíiitin và M itc T h u cua các doanh tmhiộp trôn các dị a hàn:

Ilà N ộ i liai Phónu Q u an g Ninh I hời íiian dược lính th eo từrm qu\' (Ọ ) và các

m ụ c tlni hao aồm: thuế lim nhập doanh nuhiộp ( T N I ) N ) ihuế tủi nm ivên ( I N), thuế môn hài ( M B ) và iluiế giá trị ũia lãiiíí ( V A I ).

I/ình Mò la mò liình Kho ciũ liệu trường hợp J chiêu (lòng quát n chiêu)

M ỏ hình dữ liệu nhiều chiều tồn tại ơ 3 dạ nu là: s ơ d ỗ h ìn h s a o h ìn h b ỏ n g

tuvèr và h ìn h c h ò m s a o s ự kiện

S ư (lồ h ìn l ì s a o ’, là s ơ đo d ư ợ c sư d u ne nhiều nhất T rôn e sơ đ ồ này Kho dừ

liội chứa: một banu chính (bang SỤ’ kiện trimu tâm), hán» này chứa phàn nhiêu

Trang 29

dữ liệu và kliôrm dư ihìra: vá ili kèm theo là một tập c á c báim nho hơn (c á c bànu chiều), mồi một haim ứ n g c h o một chiêu.

Ví dụ: S ơ d ồ hình sa o doi với k h o dữ liệu v ề lluiế cua C ơ quan quán lý thu thuế ớ trên được m inh hoạ irong liinh 8 K ho d ừ liệu này đ ư ợ c lập iruiiií vào 3

chiêu là T h o iG ia n D ia B ítn và M n c T /ìii Bàn ti sự kiộn ir u n s tâm chửa các khoá cho mồi một ironu 3 bán li ch iều C á c liêu ch lùm (.lánh uiá là: T o n g s o i/ììi và

Hình H: Mó la sơ (lồ (lữ liựu nhiều chiều theo str i/o hình sao

Nlur vậy tronc s ơ đ ồ hình sao, m ồi ch iề u d ư ợ c hiểu diễn bởi chi m ột hàng

và mồi bãnii chứ a một tập cá c thuộc tính.

S ơ í/ồ h ô n g tu y ế t: c ó thể được x e m là một b i e n thể cua sơ dồ hình sao 1'rong s a dồ hô 11 í» tuyết các hàng c h iề u d ư ợ c chuẩn hoá D iề u này cho phép s o

đ ồ K>nu tuvểl c ó thế lĩiám d ư ợ c ckr thừa dữ liệu tốt hơn s ơ d ồ hình sao lu \ nhiên cấu trúc bỏtm tuyêt c ó thê làm g iâ m tính hiệu quá cua v iệ c thực hiện cá c truy vấn.

V í dụ: I lình 9 ở dưới mô ta sơ đồ bôns tuyết cùa Kho dừ liệu thué cùa Cơ• *w- *

quar C|uán K thu thuê I ro n u sơ dồ n à \ B a n a sự k iệ n là tư ơ n c tự như I3áng sự

kiện tron li sơ d ồ hình sao Sự khác nhau chú \ cu cua 2 s ư d ồ nêu trên là ờ các

bant chi cu C h ă n s hạn hanu ch iều M itc T h u trong s ơ d ồ hình s a o dược ehuán hoá

tron s ơ dò bôn li tuyết thành 2 harm ch iêu M iic T lm và C a n B o

Trang 30

M d J 3 w b » i

Tonç so thu So chung tu thu

■" ??■

M a _ M u c T H )

Ten MucThu jíig ay _ th u

Mâ C anbo thu

/linli 9: Mò ta sir (ỉò (ỉù liệu nhiêu chiêu llict) \ơ đò hỏng Iityẽl

S ư đồ c h ò m s a o s ự k iệ n : N h iều irnu d ụ n e phức tạp đòi hòi phái có nhiều banc

sự kiện cùn • • Li W c ó ch u n g các bang ch iề u đi kèm Kiểu nà\ cua sơ đồ c ó thề dượcW W * *xem e i ố n g nlìir một tập hợp các sao.

Ví dụ: 11 ình 10 ớ dưới m ỏ tà s ơ dò c h ò m sao s ụ kiện Trona s ơ đồ dó có 2 hán ỉ!

sự kiện là hăng T lìu T ln ie và N o T h u e

Ma_TG Ma_MucThu

Ma Diaban Tong so thu

•"C? Ma Canbo thu

Pho

Hu yen Tinh

Uuoc

|Ten_Nguoi«iop ỈDia c h Dten_thoai

Hình /0 l/õ la S i r dò (lừ Ill'll nhiều chiêu theo S ( f (Jó í hòm sao \ự kiện

Trang 31

N h ư vậs s ơ do ch ò m s a o sự kiện c h o phép cá c b a n e ch iê u dược chia se

ũiừu cúc ban li sự kiện C hănu hạn c á c banti c h iêu T h tììG ia n M u cT lìii dược chia

se iiiữa ca 2 ha nu sự kiện là T h u T h u e và N o T /iu e < w W- • •

vớ i m ò h ìn h q u a n h è c ù a c á c C '(>' s ơ d ữ liệ u lá c Híỉhièp.

Nói chuim c á c Khí) dữ liệu (Jeu d ư ợc xây dirnü theo m ô hình ch ò m sao sự

kiện, tron ỉ: khi cá c C S D I chú đề d ư ợ c x â \ d ự n a theo m ô hình h ìn h s a o hoặc

hình bỏng liiyưl.

3 6 C h iế n h r ự c tl ìiế t k ế , x â y d ự n g k h o (lữ liệ u

Dê thiết ké d ư ợ c kho dừ liệu một cách hiệu quá trước hết người thiêt kè cẩn phai liicu \ à phân tích c á c nhu cẩu n g h iệ p vụ V iệ c xâv dựnu một hộ thốn» lớn và pliírc tạp c ó thể đ ư ợ c x em như v iệ c xá) dựnu một tòa nhà cao tầng dô sộ phức lạp Khi dó g iữ a nmrời chu nhân, kiến irúc sư và nmrời thi côn li sè có nhìrna cách nhìn khác nhau N h ũ n » cách nhìn này đ ư ợ c két hợp lại d e hình

thành nên một k hung làm v iệ c { fr a m e w o r k ) phức tạp thể hiện dược n h ừ ne cách tiếp cận cua nuirời chú nhàn (thườntì là to p -d o w n , b u s in e s s - d r iv e n ) cũnỉi như cua nmrời thực hiện (thườníì là b o ttơ m - u p h u ilílc r -ilr iv e n ) doi với hệ thônẹ

thôn» tin.

C ó 4 cách nhìn khác nhau v ề v iệ c thiết kế m ột kho dừ liệu cần d ư ợ c lưu V

dó là: theo quan diêm to p -d o w n ( to p - d o w n v ie w ), th eo nguôn dữ liệu (d a ta

source view), t h e o k h o d ừ l i ệ u {data warehouse view) v à t h e o t r u y v ấ n n u h i ệ p v ụ

(b u s in e s s q u e r y v ie w ).

T o p -d o w n view : ch o phép lựa ch ọn n hừng thông tin cần thiết có liên quan

c h o kho dừ liệu Nlũrnu thôníi tin này phù hợp với n h ừ ng nhu càu nahiệp

vụ hiện tại v à tư ơ n s lai.• • • w

• D a ta s o u r c e view : phát hiện c á c ih ô n a tin dan g d ư ợ c thu thập, lưu trừ và

quàn IÝ hơi cá c hệ thốnu tác n eh iệ p C ác thônii tin nàv c ó thê dược tài liệu

hóa ờ nhiêu m ứ c d ộ chi tiết và chín h xác khác nhau, từ các hán ti ntiuôn dữ• W w

liệu rient* lé dến cá c bàn g ntiuỏn dữ liệu tích hợp C ác nguồn dĩr liệu thườnu d ư ợ c m ô hình hỏa b an g c á c kỹ thuậi m ô hình hóa dừ liệu truvên ihốnu, nhir là m ô hình quan hệ thực thê h oặc cá c cô n g cụ C A S E

(C o m p u te r A i d e d S o ftw a r e E n g in e e r in g ).

Trang 32

D a ta w a r e h o u s e vie w , bat) g o m các ha Hí! s ự k iệ n Ụ a cí tab les) và c á c bang

c h iề n ( d im e n s io n ta b le s ) N ó biêu (.lien các thòim tin d ư ợ c lưu trữ ớ hên

tronu k h o ciĩr liệ u , hai) iio n i c á c tônụ sô v à sô k rợ iiũ dã đư ợ c tin h san CŨI1Í1

như c á c thônu tin liên quan đen nmiôn dĩr liệu, niiàv u iờ phát sinh, bô sunn v \ tic c u n g câp một nuừ canh m anu tinh lịch sư cùa dừ liệu.

B u s in e s s Q u e r y V iew , là hình dánu cua dữ liệu ironii kho d ữ liệu với ũóc

nhìn ùr phía n gư ời dùng cu ố i.

X ây dựnu và s ử d ụ na kho dừ liệu là một c ô nụ v iệ c phức tạp vi nỏ đòi hói

phái c ỏ d ư ợc cá c k ỳ n ă n g n g h iệ p vụ các k ỹ n ă n g CÔM* h íị I ỉợ và c á c k ỹ n ă n g q u a n

lý c h ư ơ n ẹ tr ìn h

Đ ố i v ó i c á c kỹ n ă n g n g h iệ p vụ: việc x â y dựniĩ một kho dừ liệu dòi hoi phui hiểu d ư ợc c á c hộ thốn a kru trừ và quan lv d ừ liệu cùa elnìnu nlur thế

nào làm sa o đô xá> d ự n g d ư ợ c cá c b ộ tr íc h c h ọ n ( e x t r a c to r s ) đ ê chu yền

dừ liệu từ hệ th ố n g tác n a h iệp v à o kho d ữ liệu, và làm thế nào đề x â \

d im e p h ầ n m ề m c ậ p n h ậ t k lio ( w a r e h o u s e r e fr e s h s o ftw a r e ) dô đăm bao

cho k h o dừ liệu dược cập nhật một cá ch tlurờng x u v ên từ n eu ỏn dừ liệu cua hệ thốniì tác nuhiệp V iệ c sử dụ nu m ột kho dừ liệu bao g ồ m v iệ c hiếu

đ ư ợc ý niihĩa cua dữ liệu mà nó chứ a dự ng, c ũ n g như hiếu và c h u y ể n dổi

d ư ợc c á c yêu cầu im hiệp vụ thành cá c truy van mà kho d ừ liệu c ó thể đáp ửna dược.

• Đ ổ i v ó i c á c kỹ n ũ n g c ô n g n g h ệ: dõi hoi phai c ỏ nlìừng nhà phàn tích hiếu d ư ợ c làm thó nào dể dưa ra nhìrng đánh ụiá từ th ô n g tin định lượn»

và dần xuất ra nhừnụ gì cốt y ế u từ th ôn g tin lịch sứ trong kho dừ liệu Nhìrnti kỳ năn ti nàv bao g ồ m khả n ă n a phát hiện ra cá c mau và khuynh

hirớim dê nụoại SUN các khuynh lurớnu dựa trên lịch sứ và tìm ra nhừne,C / W ’ • * 9 c “ • W-'

quy luật, chu kỳ cua ih ỏ n a tin và đế trình bàv nhũ nu k h uyến Iiiìhị tronụ quan lý dựa trên nlùrnü phân tích đó.

• Đ ổ i v ớ i c á c kỹ n ă n g q u a n lý c h ư o n g trình: đòi hoi phải c ó a ia o diện với nhiều loại c ô n g n g h ệ, cá c nhà cu n g cấp và nlìữnu n gư ời dùnu cu ô i đê đạt

đ ư ợc nhừnu kct quá m ột c á c h kịp thời với chi phỉ hiệu qua nhất.

M ột kho dừ liệu c ó thê d ư ợ c x â \ liựna theo phươnti pháp to p - d o w n hoặc phưontỉ pháp h o /to n i-u p hoặc kct hợp cả hai phươnii pháp n á \ Plurơnụ pháp

32

Trang 33

tron a nhìrnu tnrờniỉ hợp mà cô n u nuhệ dà là I|uá quen thuộc \ â ihiiiin thục và các bái toán nuhiệp vụ can uiài q u y ết liêu dà rìu rò ra nu và d ư ợc liiéu một cách

thau dáo Plnrơnu pháp b tìíio m -iiỊ) bal dâu với lìlùnm thứ nuhiệm và nhừnu

nauyón mầu Nó hừu đụn lì dối với nhừno, eiai đoạn dầu cùa việc thiếl lập C]U\ trinh nghiệp vụ và phát triên c ô nu niihệ N ỏ c h o phép m ột tô c h ứ c c ó the phát iriên dần lên với một chi phí dầu lư ít hơn dána kê, và đánh aiá d ư ợ c II lùm Ü lợi ích cua côn lĩ nahệ trước khi thực hiện n hữ ng h ư ớc c h u y ê n lớn hơn Iront! trườnạ hợp kôl hợp cả hai phươnii pháp trên, một tô c h ứ c vừa c ỏ the tận dụnu

tinli chất ké hoạch và chiến lược cua p hư ơna pháp to p - d o w n d o n e thời vừa c ó dược tôc ilộ triên khai nhanh và tính tiện d ụ ng cua plurơnii pháp b o tío m - u p

N êu nhin theo quan diêm cùa n g ư ờ i phái triên phần m ề m thì v iệc thiết kế

và xây dựnti một kho dừ liệu c ó thê b a o e ồ m cá c hước: lập kế h oạch , niihiên cứu các yêu cầu phân tích vắn đè, thiết k ế kho, tích hợp dữ liệu v à k iểm thứ và cuối cùn» là iriên khai kho dừ liệu C á c hệ thong phần m ềm lớn c ó the đ ư ợ c phát

phương pháp x o a n ố c ( s p ir a l m e th o d ) P hư ơnu pháp thác n ư ớ c thực hiện một

phép phàn tích c ỏ cấu trúc và nụừ n g h ĩa tại m ồi b ư ớ c trước khi x ứ lý b ư ớ c tiếp theo Phương pháp xoắn ốc liên quan đến tốc độ phát triển phiên hán c ủ a các hệ thổne c h ứ c nânc với khoảng c á ch ngẳn giìra c á c lần phát hành phiên bàn Phươnu pháp nà\ là một sự lựa ch ọ n tốt c h o v iệ c phát triên kho dữ liệu, đặc biệt

là các c ơ sớ dữ liệu chu đề hơi vì v ớ i thời uian quay v ò n s ny,ắn n h ữ n g sứ a chừa

sè dược thực hiện nhanh hơn và n h ữ n g thiết kế và c ô n a n g h ệ m ới eù n ỵ s è dược

áp dụna một cách kịp thời.

N hìn chung quá trình thiết kế k h o dữ liệu th ư ờ n g b a o «Ồm c á c bước sau:

1 Lựa chọn một q u y tr ìn h n g h iệ p v ụ (b u s in e s s p r o c e s s ) đ ể m ô hình hóa ví

dụ: dột harm, hóa dơn vận c h u y ê n , quàn lý kho, quàn lý tài khoăn, bán hànu, s o cái v.v Neil quy trinh n s h i ệ p VỊI là cua m ột tô ch ứ c và b ao íiồm nhiều tập hợp phức tạp cua c á c đoi tượng, thì nên c h ọ n hirớrm m ô hinh hỏa ih eo kho dữ liệu C òn nếu quỵ trinh niihiệp \ ụ là cua một p h ò n g ban

bộ phận và chỉ tập trutm v à o v iệ c phân tích một loại n a h iệ p vụ nào dó thì nên lựa chọn m ô hình c ơ s ớ dữ liệu CỈ1Ù lỉè {chưa m a n )

Trang 34

2 I ựa chọn ru h ạ t n h à n (íỊrain) của qu> trinh n g h iệ p vụ Ilạt nhân là irạnu thái ơ m ức c ơ sở và m ang lính nuuvcn tir cun dừ liệu sẽ d ư ợc biêu diễn iront» banti sự kiện ự a c t ta b le ) cho quy trình này, ví dụ: cá c uiao dịch

ricntỉ lé các diện báo rièrm ló hàne ngãy v.v

3 I ựa chọn các chiều ( d im e n s io n s ) sẽ áp ilụ n s c h o m oi bàn íihi cùa hang

thực C ác chiều diến hình thườna là: thời uian phần tư khách hànii nhà cunii cap kho loại uiao dịch và t rạn ti thái.

4 Lựa chọn các dơn vị tính sẽ ciùnu c h o mồi bán uhi cùa han ti sự kiện Các

dơn \ ị dicn hình thườna lù cá c s ổ lượnu thêm d ạ n g s ổ như d o lla r s sole! và

u n its so ld

Vì v iệ c xây dựna kho dừ liệu là một c ô n g v iệ c khó khăn và lâu dài nên phạm vi triên khai cua nó can phái được dinh nghĩa một cách rò ràng Nlùrng

m ục cỉích cùa v iệ c khới dầu tricn khai một kho dừ liệu là: cụ thê (specific), kha

th i ( a c h ie v a b le ) và đ o d ư ợ c (m e a s u r a b le ) N ỏ hao uồm v iệ c xác định c á c phân

bò v ề ngân sách và thời eian các hộ phận con cua tô c h ứ c cẩn phai m ô hình hóa

số lưựna các nguồn dữ liệu dược lựa chọn và số loại p h ò n e ban s ẽ sứ d ụ ng kho

dừ liệu.

Khi kho dữ liệu dà dược thiết kế và xây dựng, v iệ c triền khai han đầu cua kho dừ liệu bao uồm v iệ c cài dặt han đầu lập ké h oạch m ớ rộng, dài) lạo và định hướng Vấn đề n â n c cáp và bào tri m ôi trườnÜ vận hành e ù n e phài d ư ợ c đặt ra

V iệ c quán trị kho dừ liệu sè hao g ồ m v iệ c cập nhật dừ liệu, dont» bộ d ữ liệu imuồn ke hoạch phục hồi tham họa, quản lý kiểm so á i truy cập và b ào mật quàn lý sự tãnu trườníỉ của dữ liệu, hiệu suất c ơ s ờ dừ liệu, cúi tiến và m ở rộim kho dữ liệu V iệ c quan K phạm vi s ẽ bao aồni v iệ c k iểm soát s ố lượn!» và s iớ i hạn cua các tru> vấn kích thước và báo cáo \ iệc hạn c h ế kích thước cua kho dữ liệu, hoặc hạn c h ế lịch, naân sách, tài nạuyên.

C ó rất nhiều loại c ô n e cụ khác nhau để thict kc kho dữ liệu C ác c ô n ti cụ phát iriên kho dừ liệu ciinu cấp các chức nănu de dịnh n eh ĩa và soạn thao các

nội dunti đặc tá dữ liệu như: các lượ c do ( s c h e m a s ), kịch han ( s c r ip ts ) hoặc các luật (ru le s), cá c tru\ van tra lời cá c báo cá o dầu ra v.v C á c c ô n u cụ lập kê

hoạch và phân tích ciúp nnhicn cử u ánh hirỡnu cùa sự tha\ dôi lược dỏ \ à cua hiệu suai cập nhật mồi khi thay dôi lố c độ cập nhật h o ặ c cư a s ô thời íiian.

34

Trang 35

V iệ c phát triên kho dừ liệu th eo phương pháp to p -d o w n dược xem là mội

uiai pháp c ó tinh hộ liions» và tỏi thiêu hóa các vân dô vê lích hợp I ll} nhicn phirơnư pháp nà\ chi phi rất tôn kém mât nhiêu (hời uian phát triên và thiêu sự linh hoạt do khó khăn tronti v iệ c \ â \ đựrm mội m ô hìnli dừ liệu ch Line ilônu bộ

vá nhất quán tronu nội hộ lô chức Phưưnti pháp ihict kố phái triên và triôn khai các c ơ s ở dữ liệu chú d ề dộc lập th eo kiêu botlom-up thi c ỏ sự linh hoại, chi phí thấp, và nhanh c h ó n íi thu d ư ợ c két quà nhưng nó lại c ó thê làm phát sinh các

\â n dồ khi tích hợp cá c C’S D I ch u đ ề riên s lò thành một kho dừ liệu doanh nuhiệp đ òim nhài.

Một p h ư ơ n g pháp nên sư dụnii trong v iệ c phát triôn cá c hệ thống kho dừ liệu, dó là triên khai kho dừ liệu m ột cách tănii tnrừnỵ dan (Jan như m ô tii Iront» hình ] 1 dưới đây:

Định H ịỉh ĩii một m ô h ìn h (iữ liệ u cộnị» tác mức cao

Hình II: \fò ta phưưng pháp Iriên khai klio (lữ liệu

lìiứ nhàt m ột m ô hình dừ liệu c ộ n s tác m ức c a o dược định n s h ĩa trong

Trang 36

C S D i chu tic thành phan sc làm g iá m đánụ kê nluìnu vấn dô vê lích hợp phi'll

s i n h tro n s urơnu l a i

I hử hai các c ơ s ơ dừ liệu ch u dè d ộ c lập c ó thô d ư ợ c triòn khai sons’ sonu

\«'ri kho clừ liệu doanh nnhiệp dựa trên c ù n g một tập hợp m ô hình dừ liệu cộ n u

lá c như ở irê n

Thứ ha cá c C S D I chu dè phàn tán c ó thê d ư ợc x â \ dựntỉ dê tích hợp các

c SDI chu dồ th ôn g qua cá c tr u n g tá m p h ụ c vụ { h u b s e r v e r ) V à c u ô i cù ne một kho dữ liệu da lớp (m u lti- tie r d a ta w a r e h o u s e ) d ư ợ c x â v dựnu dô kho dữ liệu

doanh nuhiệp là dầu mơi duy nhát cua tất ca dừ liệu mà sau dó sè tlược phân tán tói các e s 1)1 chu dô đ ộ c lập.

4 C o s ò (lũ liệu c h ú đ ề ( D a t a M a r t )

4 ỉ K h á i n i ệ m c ư s ở d ử liệ u c h tí đ ề

N h ư dà trình bày ở phần trên, kho dữ liệu thực chat là tập hợp các th ô n g tin

dữ liệu về tất ca cá c ch ù d ề liên quan dén toàn hộ c á c hoạt đ ộ nu cu a một c ơ quan ha\ lô c h ứ c nào đó Khi K h o dìr liệu chi tập trunu v à o m ột chu d ề nào đ ó nu ươi

la lìọi nó là C ơ s ơ dừ liệu chú dề ( D a ta M a r t - D M hay cò n g ọ i là K ho dừ liệu

chu dề) C S D I chú đề chính là một tập con của K ho dữ liệu d ư ợ c tập truna vào một s ổ chú dỏ d ư ợc lựa chọn.

N ó i m ột cách ton tỉ quát, c ơ s ớ dừ liệu chù dò là một dạnu đặc hiệt c ù a k h o ilìr liệu ( D W ) Cũ nu g i ổ n e như kho dừ liệu C SD 1 chủ dề ch ứ a d ự n g m ột hình ánh cua dừ liệu lác niihiộp ui úp n h ũ n ” doanh ntihiộp hoạch định ch iế n lược dựa trên sự phân tích n h ừ n e p h ư ơ n g hướrm và kinh n&hiệrn tronu quá khử Diêm khác hiệt c ơ bàn d ó là v iệ c tạo lập một D M pliai dựa v à o một nhu cẩ u đã xác ilịnh Irên một nhóm dữ liệu nào tló.

Trong một lổ c h ứ c dơn lè c ó thể c ó nhiều l) M m ồi D M liền quan đến một hoặc nhièu dơn vị níihiệp vụ cua tổ chứ c C ác D M c ó thê là d ộ c lập h oặc phụ iluiộc vào cá c l) M khác tronti c ù n2 tổ ch ứ c T ro n2 m ột s ổ trirờne, h ạ p mồi

phòng han hoặc dơn vị n s h iộ p \ ụ đ ư ợ c x e m như là c h ú s ớ h ữ u ( o w n e r ) cu a một

I)M iư ơ nụ ứnu hao a o m tat cả phần cínm phần m ềm \ à dừ liệu D iều nà> ch o plicp m ỗi p hònu han c ó the sứ ckiim, thao tác và phát trien dừ liệu của họ theo

36

Trang 37

hắt k\ cách não má họ thấ\ phù hợp mà khônu làm lác tlộnu ánh luraníi đôn ihônii tin tron a các l)M khác hoặc trona 1)\Y.

Với nhừnu e ơ quan tò ch ứ c dã c ó quá trình dài phát triên ứnti tlụníi C S D I thi m ô hình m oi quan hộ ũiừa các C S D L tác n ah iệp với k h o dừ liệu \ à C ơ sừ

d ữ liệu clui dê d ư ợ c m inh họa theo hình 12 dưới dây:

K H O DỮ 'LIỆU (Data W arehouse)

C S D L T Á C NGHIEP

C S D L C H Ủ ĐÉ (Data Mart)

/lình 12: Mồi (/11(111 hự giữa các CSDL tác nghiệp (cù mới ironỊỊ và ngoài đơn vị)

- C S D L chu để p h ụ thuộc: ch ử a n hữ ng dừ liệu d ư ợ c lav từ K h o d ữ liệu

nhĩrnií dừ liệu này sè d ư ợ c trích lọc và tinh ch ế tích hợp lại ơ m ứ c ca o hơn dê phục vụ một chu dề nhất dịnh của C S D I chu dè.

chú dè loại này d ư ợ c x â y d ự n g trước K h o d ừ liệu và dừ liệu dược trực tiếp lấy từ c á c nmiồn khác nhau P h ư ơn g pháp này dơn gian hơn và chi phí thấp hơn nlunm lại c ó nlũrtm đ iểm hạn ch ế M ỗi C S D I chú dồ d ộ c lập c ó cách tích hợp riC'im do đ ó k h ó đ ồ n s nhất dừ liệu từ nhiều C S Ỉ )L chu dề

với nhau, khó dam hao d ư ợ c tính ô n đ ịn h tron a cá c tinh luiônu lir một

Trang 38

C'SDI chu tic nho hail dau Urn lòn nhanh c h ó n g iheo nhiêu chiêu và có

nhiỏu khó khăn khi lícli h ợ p d ừ liệu Vì \ ậ \ khi tlìiêt kê C S D l chu dỏ

phai dặc hiệt lưu lới linh ôn cỉịnh cua hệ thống, sự dont» nhái cua dừ liệu

và vấn đề v ề kha nãnii t|uan trị C S D L chu dồ dó.

I linh vè 13 dưới t!â\ m ô lá một cách lỏn g thê l.uônu dữ liệu trong một c ơ quan,

lô chức:

38

lỉìiilì 13: ỉ.nòng dữ liệu trong một lô chức, cơ quan

Khi H ệ th o n g th ô n g tin cỉữ liệ u d i s a n cùa một c o CỊUÍUI to ch ứ c c ó chứa Kho

dù liệu C S D L chú dề hoặc C S D L tác n eh iệp lớn, de thuận lợi c h o v iệ c khai thác

sứ dụ nu ilium, hiệu quá thông tin dữ liệu tro nu nỏ cần phai c ó đ ặ c ta iìừ liệu

im e ia d a ta ), còn dược ỉiọi là dừ liệu cua dừ liệu, tức là nó d ư ợc dùrm d è dinh

nsihìa m ô ta dừ liệu, cách sư tiụnsi dừ liệ u c ó tronu hệ ihốnu.

4.2 N h ữ n g lý d o c ầ n p h a i x â y d ự n g c á c c ơ s ớ d ừ liệ u c ltn đ ề

Mặc dù m ô hình kho dừ liệu dã là rất hữu ích dối với các tô chức, doanh imiiiộp nhưna tlụrc tố trt)ii« nhiều trườníỊ hợp vần phai c ỏ nhữníi c ơ sở dữ liệu cil I dô tha\ \ i \ â \ dựníi các kho dừ liệu Đ ó là hai các 1\ di) sau:

Trang 39

• l ) c dànti It'UY cập vào các dữ liệu thirờnu x u v ên cân tiên

• l ạ o ra một uóc nhin chimu hời một nhóm cá c imười dimíi• • w • V— V

-• Cai thiện thời iiian trá lời Il Ü ười tlùnu cuôi

• Chi phí thấp hơn v iệ c triến khai một kho dừ liệu dầy đũ

• Nhìrna người d im s còn tiềm ân c ó thê d ư ợ c dịnli n ẹh ìa rò rànu hơn s o với trong mội kho dữ liệu tlà\ dll.

5 K h a i pliỉí d ừ l i ệ u ( D a t a M i n i n g )

Khai phá dữ liệu là một uiai đoạn trong quá trinh từ d ừ liệu den thực hiện

ra q i ụ c t định, nhám phái hiện nlũrnũ mối quan hệ IÌÍM1 thuộc, các mầu và các khuynh h ư ớng mới khôrm được biết trước, tiềm nã nu c ó lợi hằng v iệc khao sát một s ổ lượn li lớn dừ liệu được lưu trừ trong kho d ừ liệu th ôn g qua v iệ c sư dụim

các kỹ thuật phù hợp như: học m áv nhận dạn Li th ố n a kê hổi quy, phân lớp

phàn c ụ m các m ô hình đò thị các niạim Bayes v \

Kh ai p ha d ừ liệu c ó hai n h i ệ m v ụ c ơ b á n là IĨ1Ô là v à d ự h á o d ừ liệu, v à nói

c ln m a chúnsi ilurờng dược thực hiện b a n s v iệ c phân lích, sir dụng các phươnu pháp trực quan hoá và đ ư ợc hồ trự bởi các c ô n g cụ truy vấn phân lích dữ liệu

V iệ c sinh ra các đau ra thông th ư ờ n e đ ư ợc hồ trợ hàn lì cách trình hầy kết qiui khai phá dừ liệu p h o n e phú và hơi c á c c ô n g cụ c h u y ển đổi th ô n g tin, dữ liệu Khai phá dừ liệu là tiiai (.loạn trung tâm cùa quá trinh K l ) l) dược chia

t h à n h 6 í ỉ i a i đ o ạ n :

- X á c cỉịiih v à đ ịn h n g h ĩa v a n đề: N h ầ m hiéu lĩnh v ự c cần khai phá dừ

liệu, nhu cầu tri thức cua ntụrừi sứ dụnti lựa chọn và tạo tập dừ liệu đích v.v

- H iế u íìừ liệu : lựa chọn dữ liệu ban dầu lủm quen với dừ liệu, làm sạch

dữ liệu, bo di các dữ liệu tạp các dữ liệu lồi khõrm bình thirừna và xừ

lý dừ liệu bị mất, .

- c/iiiàn bị (lữ liệu: C huvên dôi dừ liệu s a n s liạníi phù hợp rứt uọn kích

thước dữ liệu thônỉi qua v iệ c tìm c á c th u ộc tính hữu ích giám bới sô

Trang 40

chiều và hicn đôi dừ liệu dô nhận đ ư ợc c á c bat bien, x à ) dựníi tập dừ liệu dè c h ạ \ m ô hình.

- X ú y i/in iíỉ IIIÕ hình khai phá íh ì liệu (M o d e ll in g ha\ Khai phá dừ liệu: Data M ining): ỉ rên ccy s ơ nh iệm vụ phân tích và khai phá dừ liệu, cân lựa chọn kỳ thuật khai phá dừ liệu, thực hiện khai phá dừ liệu d ê rút ra các mầu cá c m ỏ hình.

dược ứ íiiai đoạn 4.* w •

- S ir (lụng tliô m ỉ tin, tr i í/lứ c chrợc phát hiện: các ih ôn u tin tri llnrc dược phát hiện s ẽ d ư ợ c lích hợp trone m ột hệ thốnụ cỉirực phân tích đ ê tiiãi uuvêt các mâu thuần tiềm an và níihicn cứu nhìrnạ lh a \ dôi c ó thê trướcI w w W • ’

k h i dư ợc sư d ụ n ỉĩ p h ụ c v ụ v iệ c ra Cịuvêt d ịn lì

Quá trinh Iilur vậy d ư ợ c m ô la trong hình 14 dưới đây:

4 0

ỉỉình 14; Mỏ la tỊìtâ trình khai pliá dừ liệu

Các kỹ thuật Khai phá dữ liệu thườn2 ch o phép xứ lý trực tiếp lien các tệp

dữ liệu lớn hoặc rất lớn Với cá c phưcma pháp h ọ c m áy và th o n g kê trước dây thì hước dâu tiên cua chúnii là nạp toàn bộ dừ liệu v à o tron li bộ nhớ Khi chu yên sana các im ạ clụns c ô n g n ehiộp liên quan đến \ iệc khai phá dừ liệu từ c á c Kho

dừ liệu hoặc c ơ s ở dừ liệu lớn thì m ô hình nàv k h ô n a ih ê dáp ứim dược Khôníi chi vì khỏnu Ihc nạp đ ư ợ c hét dừ liệu v à o troiiỉỉ hộ nhó' mà c ò n vi khó có thô chiết xuất dữ liệu ra cá c tệp đơn uian dê thực hiện phân tích, dự háo.

Ngày đăng: 25/03/2015, 10:22

HÌNH ẢNH LIÊN QUAN

Hình 38:  I rinh bá\  két quá phân tích trorm PowerPoint  77 - Tích hợp dữ liệu, kho dữ liệu và ứng dụng trong lĩnh vực quản lý tài chính công
Hình 38 I rinh bá\ két quá phân tích trorm PowerPoint 77 (Trang 6)
Hình 4:  Mõ  1(1  (/tui triuli lừ (lữ liệu dền thực hiện ra t/iạ cl định - Tích hợp dữ liệu, kho dữ liệu và ứng dụng trong lĩnh vực quản lý tài chính công
Hình 4 Mõ 1(1 (/tui triuli lừ (lữ liệu dền thực hiện ra t/iạ cl định (Trang 16)
Hỡnh 5:  Minh lu  &gt;11  khỏi Iiiỗin rich hợp và chuyờn (tụi iluhn' tin dừ liệu - Tích hợp dữ liệu, kho dữ liệu và ứng dụng trong lĩnh vực quản lý tài chính công
nh 5: Minh lu &gt;11 khỏi Iiiỗin rich hợp và chuyờn (tụi iluhn' tin dừ liệu (Trang 21)
Hình H: Mó la sơ (lồ (lữ liựu nhiều chiều theo str i/o hình sao - Tích hợp dữ liệu, kho dữ liệu và ứng dụng trong lĩnh vực quản lý tài chính công
nh H: Mó la sơ (lồ (lữ liựu nhiều chiều theo str i/o hình sao (Trang 29)
Hình   /0.  l/õ  la  S i r   dò (lừ Ill'll nhiều chiêu theo  S ( f  (Jó í hòm sao \ự  kiện - Tích hợp dữ liệu, kho dữ liệu và ứng dụng trong lĩnh vực quản lý tài chính công
nh /0. l/õ la S i r dò (lừ Ill'll nhiều chiêu theo S ( f (Jó í hòm sao \ự kiện (Trang 30)
Hình  II:  \fò  ta phưưng pháp Iriên khai klio (lữ liệu - Tích hợp dữ liệu, kho dữ liệu và ứng dụng trong lĩnh vực quản lý tài chính công
nh II: \fò ta phưưng pháp Iriên khai klio (lữ liệu (Trang 35)
Hình  15  So cíồ phân rã chức nâng ( 'SDL chú đẻ thu  chi  .Y.VY.Y - Tích hợp dữ liệu, kho dữ liệu và ứng dụng trong lĩnh vực quản lý tài chính công
nh 15 So cíồ phân rã chức nâng ( 'SDL chú đẻ thu chi .Y.VY.Y (Trang 63)
Hình  16  Sơ đồ tlữ liị ’11  cua CSDL chu íli’ lim  chi x s x .x - Tích hợp dữ liệu, kho dữ liệu và ứng dụng trong lĩnh vực quản lý tài chính công
nh 16 Sơ đồ tlữ liị ’11 cua CSDL chu íli’ lim chi x s x .x (Trang 64)
Hỡnh 24:  Màn hỡnh liỗl kc ki’1 (/na imy vón lỡừ liệu - Tích hợp dữ liệu, kho dữ liệu và ứng dụng trong lĩnh vực quản lý tài chính công
nh 24: Màn hỡnh liỗl kc ki’1 (/na imy vón lỡừ liệu (Trang 69)
Hình 25: Màn hình liệt kè dữ liệu theo kiên phàn nhỏm - Tích hợp dữ liệu, kho dữ liệu và ứng dụng trong lĩnh vực quản lý tài chính công
Hình 25 Màn hình liệt kè dữ liệu theo kiên phàn nhỏm (Trang 70)
Hình ĨO:  Kci qua phép toán ( 'lu sỏ hỗn hợp dưới  (ỈỢ IIỊỈ  /ì/c  Excel - Tích hợp dữ liệu, kho dữ liệu và ứng dụng trong lĩnh vực quản lý tài chính công
nh ĨO: Kci qua phép toán ( 'lu sỏ hỗn hợp dưới (ỈỢ IIỊỈ /ì/c Excel (Trang 72)
Hình 33:  Trình bay dữ liệu dưới (lụng búng hicỉi - Tích hợp dữ liệu, kho dữ liệu và ứng dụng trong lĩnh vực quản lý tài chính công
Hình 33 Trình bay dữ liệu dưới (lụng búng hicỉi (Trang 74)
Hình 35:  Trinh hàv dữ liệu (lưới lỉụnịỉ him dồ - Tích hợp dữ liệu, kho dữ liệu và ứng dụng trong lĩnh vực quản lý tài chính công
Hình 35 Trinh hàv dữ liệu (lưới lỉụnịỉ him dồ (Trang 75)
Hình 36: MÌIII hĩnh lựa chọn kết xiiiil so liệu - Tích hợp dữ liệu, kho dữ liệu và ứng dụng trong lĩnh vực quản lý tài chính công
Hình 36 MÌIII hĩnh lựa chọn kết xiiiil so liệu (Trang 76)
Hình 3b:  Trình bày kèi quà phàn licli troiiiỉ PowerPoint - Tích hợp dữ liệu, kho dữ liệu và ứng dụng trong lĩnh vực quản lý tài chính công
Hình 3b Trình bày kèi quà phàn licli troiiiỉ PowerPoint (Trang 77)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w