1. Trang chủ
  2. » Luận Văn - Báo Cáo

Một số vấn đề cơ bản về thiết kế và xây dựng mô hình datawarehouse

110 23 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 110
Dung lượng 40,57 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

90 là lììộl sự kèì hợp cúa mộl số ũiái pháp kỹ lliuặt và dược đặt lèn là Data W:ựchoushinsí - kỹ Ihuật xây tlựrm các kho dữ liệu.Data Warehouse hay DWH kho dữ liệu được dịnh nghía như mộ

Trang 1

L U Ậ N V Ã N T H Ạ C s ĩ Chuyên ngành : Công Nghệ T hông Tia

Mà số: 010110

Người hướng dán khoa học: TS Đ ặng Q uang A

Hà Nội - N ăm 2003

Trang 3

K h á c h h à n g B Đ H N

c h ă m sóc k h á c h h à n g c ủ a B Đ H N

Trang 4

CHƯƠNG 1 KHO DỮ LIỆU - LỊCH s ử PHÁT TRIEN VẢ MỘT s ố

k h ổ ng lổ m à trước dó k hô ng thể ihực hiện dược bằng tay Trong thời gian đầu các m áy tính chủ yếu tập trung giãi quyết các bài toán như giải hệ phương trình, tính toán kết cấu cồ n â irình, tính toán xây đựng kế hoạch quốc gia, thống kê diều tra dàn số, luyen sinh , là những bài toán lớn, có thuật toán xấc định

T ừ cuối những nãm 70, (lầu những năm 80, cùng với sự xuấl hiện của dòn g máy PC với năng lực lương Lự máy tính lớn của Ihời kỳ đầu và với má thành ngày càng ré, m á y vi Lính dã iham gia vào mọi m ặt của dời sống xã hội Rất nhiêu lĩnh vực tnrớc dây được thực hiện Ihử công như giao dịch bấn hàng, quàn lý vật lư, nhàn sự , dược vi tính hoá.G óp phần tích cực vào quá trình này !à sự xuất hiện của những ngôn ngữ lập trình hướng cấu trúc, phần mềm được coi Lì một nghé và có quỵ trình phái trien tuân thủ các quy trình rmhiêrn ngặt Các còng tỵ phần m ém bán trên thị trường những CSDL quan hệ chạy trên các máy dể bàn nh ư DBASE,ACCESS, F O X P R O , SQL Server , tạo diều kiện vố cùnii thuận lợi ch o nguời phát triên Dường nh ư máy tính và những chương n i n h cứa nó dã giai tjuyêi (lược háu hết các vân đè irong lĩnh vực quán

lý Tu y nhiên vấn cté có lẽ kh ỏnn đơn gián như vậy

Trên thực tế, các công ty muốn thành công irên thị trường, ngoài việc tổ chức bán hàng lốt (giao dịch dơn gián, thuận liên cho người mua và nsười quán !ý bán lùm“ ), neưòi lãnh dạo công ty phái nám được thực chát các quá trình diễn ra irons» đơn vị mình và irong mỏi trườnií kỉnh doanh mà đưn vị đó hoạt động Th è m nữa, sự hiếu biết đó khôn 14 chỉ đặi ru khi corta: ty đang ỉ ặ p khó khăn mà ìmav cá trong iiiai đoạn cõny việc phát Iriên tốt Phương pháp được coi là tối ưu dế dieu hành là phàn lích mội cách phổ phán hoạt động của

Trang 5

xí riühiçp mình, tlặl ra cáu hôi vé nhữnu vốn ló anh lì ƯỚM‘2 (lốn CỊIIÚ trình sán xuài va lìm ra càu n ã lòi chính xac [rong thời iiiun imán nhàm dại !ựi nhuận cao nhất.

Đè thực hiện các cỏn li việc của một cônn ly niiirời la có nhiều hộ ch ươn ti Irình lự (-lộng hoá các tĩnh vực quan trọn» như ke loán lập kế hoạch, iĩiao dịch khác h liànu lập hoii dơn Tuy nhiên, mỏi hệ điươnií Irình này chí phục vụ chủ yếu cho sự hoạt độntĩ của côiiiĩ ty n o n g mội lĩnh vực nào dó.Vì vậy các

m ẩu tin trong các hệ ihống ctó, vé hán chất phan ánh một hoặc mội vài khía cạnh của một giao dịch Chính vì lý do đó những hộ ihốiiiì này có một cái tồn

c ố điên là hệ thống xử lý sitio dịch (OLTP- online transaction processing).Sau ctûv là sơ đổ một hệ thống O L T P diên hình

H ìn h l M ỏ h ìn h m ộ t h ệ th o iiỊỊ O Í T Ỉ ’

Minh I irình bấy mỏ hình 1 hộ thởuíi OLTP, hệ thống này cho phép các giao dịch ihay dổi dữ liệu trona biins (ví dụ bang các lệnh inserí, update, delete,join.,.) irong quá irình xứ lv Tron tì hình I ớ irèn, 3 ứ nu dụng trinh khách dang truy cập dữ liệu từ cơ sỏ' dữ liệu quan hệ với các Ihiio tác insert,

gian

Trang 6

Các ứiiii (June Irền cliciii hao gồm lúi cá các loại ứng dụn g như ngân hàng, bán vé trực luyến, bán vé hàng không, Ihanh toán cước phí Sứ (lụnti hệ

th ống O L T P có các ưu cticm sau:

- Xứ íý các c hu y ển lác t ươn s tác

- Dẻ báo trì và khống c h ế d ữ liệu thừa

Các CSDL trong các hệ O L T P thường dược thiết kế theo chuan 3 hoác tốthơn

Đặc điểm của hệ thống O L T P là nó lưu trữ các dữ liệu '’thô", có nghĩa là mức độ tổng quát, trừu tượng của dữ liệu này rất ihítp Nói cách khác O L P T

do công ty bán được trong 6 tháng đáu năm,mặt hàng nào bán chạy nhất tại địa phương Y trong tháng vừa qua Trong khi đó các nhà quan lý ở mức cao của cô n g ty rất ít khi quan tâm đến những câu hòi loại đó Điểu họ cần chú ý

là những càu hỏi trừu tượng hơn như: Tiêu thụ A tại B dang giam, nếu thay đối

3%~5% giá của san ph ẩm A lại khu vực B, tình t rạ n s tiêu thụ sẽ thay đổi ra

Rõ I'àng là các hệ thống O L T P hiện nay Irã lời rất lốt câu hỏi ỉ bồng các công cụ của hệ CSDL quan hệ nhưng dể lìm đáp án cho những câu hỏi dạng 2

là không đơn gian Crin phái xem xél 1 loạt các yếu tố ánh hướng đến việc liêu thu san phẩm A, các yếu lốt dó có thế là:

+ Chương trình quáng cáo k hố ng hiệu LỊuá

+ Việc tìm hiếu thị trường khôn g lốt

+ Việc tổ chức bán hàng ớ B kém

+ Việc bảo dá m chất lượng của sân phfim A khô im tôt

+ Sự ihay đối cúa mức sống tại địa bàn B

Bán Ihùn việc tìm ra nhữniĩ nhân lố có ánh lurớnũ đến quá trình dã là một

■ >ì

Trang 7

định sơ bộ dược c;íc you tố náy can xây ilựniỉ các chươnụ Irình nhăm xác (.tịnh mối quan hệ cú a you lố (.10 với quá Iiình liêu (hụ săn plũiiìi Dày là một cõng

nhún« CS DL khác nhau Nhữnií yếu lố căn hãn cán trớ việc sứ đụiì‘j tlữ liệu của các hệ th ổ n'2 O L P T trorìíỉ việc phàn tích (lữ liệu là:

+ Các số liệu ớ mức quá chi tiếl

+ Các số liệu được phân bố ớ nhữnu hệ Ihốntí khúc nhau, cổ các ihủ lục Iruy cập khác nhau và ớ những CSDL hoàn toàn khác nhau

dồng bộ

+ Việc lố chức truy cập lừ rất nhiều bán ự; dữ liệu khúc nhau có ảnh

Ihỏng tin,thiếu tri ihức dược John Naisbeli cánh báo:”Chímỉỉ ta dang chìm ngập trong dữ liệu mà vần đói tri thức."

Từ nlìừnỉĩ haì cập cùa các hệ !hô'rm xử lý lỉiao dịch trong việc cung cấp các thông tin hỗ trự việc ra quyết định, từ nhữnỉĩ nãm 1983 các nhà nghiên cứu dặt ra một vài giai pháp nham vượi qua các bế lác vừa dinh bày ờ trên Giái pháp đầ u liên là lích hợp các hệ Ihốnii O L T P tie tạo ra mộl hệ thống chứa dẩy ti ủ I h ò n SI Ún Giãi pháp dó có hai nhược điếm lớn:

mồm hệ (lìóne.Các chươnu trình cần có sự thốn« nhà! ve định nuhìa dữ liệu

cũ nạ như phương pháp biếu diễn dữ liệu Vấn đc này rãi phức lạp thậm chí đối

nhữna hệ (hống dược mô lá kém

Trang 8

I).Việc truy vàn de lạo báo cáo 1 hường xu vòn phái khua rát nhiều bán Li,

cán trớ sự truy xuàì của nhũn viên khai Ihác ironu quá Irình làm việc hàng ngày và làm ánh hướng lrực liếp den khách hàim

90 là lììộl sự kèì hợp cúa mộl số ũiái pháp kỹ lliuặt và dược đặt lèn là Data W:ựchoushinsí - kỹ Ihuật xây tlựrm các kho dữ liệu.Data Warehouse hay DWH (kho dữ liệu) được dịnh nghía như một tập hợp cúc phiíơniĩ liệu cho phép hình

đ u ng dữ liệu một cách tổng thế, lurớnu (-tối lirựiiũ dế ui úp cho việc phân tích và

+ Làm sạch (Bỏ các dữ liệu không cần thiết hoặc quá chuyên dụng)ì- Liên kết các số liệu (Tính trước số liệu tích, tổn«, trung bình )+ Biến dổi d ữ liệu: số liệu dược biến dổi thành dạng thích hợp, tổ chứclại phù hựp với DVVH

+ Tích hợp số liệu lừ các nguồn khác nhau

+ Đổ ng bộ lioá số liệu ớ mội ihời điếm xác định

D WH là hệ thống dữ liệu dã được ch nấn bị đế xây (ỉựnsi hệ hỗ irự quyối định (DSS-Decision Support Systems) và hệ phàn tích trực tuyến (C)LAP- Online Analysis Processing) vì rang dữ liệu troniz DWH ihoá mãn tính châì loàn vẹn và có sự liên kết nội lại : Mặc dù dữ liệu được cuna cấp lừ nhiéu OLTP, chúng được liên kết bằn ũ sự thốnu nhài tro nu quy lắc dặt tôn, (lơn vị

do, hệT hố ns các thuộc tính chunụ Điều này có ỊỊÌá irị dặc hiệt khi xí nghiệp vận hành một lúc vài hệ [hống, trone dó các dữ ỉ ICII íitrọc biếu dien bàn» nhữnu dơn vị khác nha u( Ví dụ như các cách bicu dien Iiìỉày, tháng khác nhau hoặc biếu dien logic khác nhau.) Các chỉ số quan trọiiiĩ có như tổntĩ số, »iii irị trung hình trong các lĩiai đoạn kluic nhau, Irunự hình cọn II cũng được biêu dien ral đa clans ớ các hệ khác nhau

Trang 9

Khi dưa số liệu vào DW H mọi chí số khỏnii urơng ihícli được chuyến dổi, tránh các lỏi tiềm làng Imnụ hệ ihống.

Sau dây chima ta sẽ xem xét các khác biệt cơ bán giữa O L P T và DW H để

Trang 10

1.2 CÁC YÊU CẦU CO BẢN CỦA MỘT HỆ THỐNG DHW

DW H là sự lích hợp các (lũ liệu lừ các O L P T khác nhau nhằm tạp hợp dữ

liệu phục vụ quá trình phân tích hoại dộng kinh doanh nên dữ liệu Irong ỉ hệ thông D W H cẩn ihoá mãn một số yèu cáu chính sau

1.2.1 Hướng chủ (lè:

Các hệ thống O L T P có the chứa hàng trám Gb số liệu, tuy nhiên những

số liệu này có thế hoàn toàn vô ích trong việc phàn tích trực tuyến (VD: Địa chi, ID khách h à n g ) Các d ữ liệu kiểu này thường không dược đưa vào DWH

để hạn c h ế dữ liệu cần xem xét xuống mức tối thiếu nhưng cũng báo đá m các thông tin theo từng SA(vùng chủ để- Subject area)

M ộ i vùng chủ để là một chú để dược tách ra từ một tập hợp lớn các chủ

hàng,thời gian hay sản phẩm.)

1.2.2 Số liệu có tính lịch sử:

Các hệ O L T P thường bao quát một khoáng thời gian k h ô ng lớn và chúng được kru trữ theo chu kỳ Ngưực lại trong DWH, dữ liệu của hàng chục năm dược !ưu trữ nhằm phát hiện sự liên hệ của các yêu tố có thể ánh hưởng đến những chi tiêu cán quan tủm trong một thời gian dài

1.2.3 Sô liệu chỉ đè đọc

Dữ liệu đưa vào D W H chí dể đọc, việc sửa dữ liệu hầu như không được liến hành vì (.tiều này có thể ciãn tiến phú vỡ sự toàn vẹn Th ôn g thường người

ta không yêu cầu giảm thời gian dưa dữ liệu vào D W H xuống mức tối thiểu,

nh ưng cẩn tối ưu hoá DWI-I sao cho các truy vấn phục vụ cho việc phân tích đại lốc độ tốt nhiít Các sơ đồ quan hệ sẽ lạo ra các Index hợp lý cũng như tạo

ra sẩn các d ữ liệu kết hợp

1.2.4 Sò liệu không biến động

T h ô n g till tronc D W được lai vào sau khi d ữ liệu trong hệ thống điều hành được cho lù quá cũ Không biến động thể hiện ớ chỗ: Dữ liệu được [ưu trữ làu dại trong kho dữ liệu Mặc dù có thêm dữ liệu mới nhập vào nhưng dữ liệu cũ trong kho vần không bị xoá, điều dó cho phép cung cấp ihởng tin về một khoàng thời gian dài, cu nạ cấp đủ số liệu cấn ihiết cho các mô hình

na hi ệp vụ phân lích, dự báo

7

Trang 11

1.3 KIẾN TRÚC THAM CHIẾU CỦA MỘT DYVH

Kiến !rúc tham chiếu cua một DYVH cho phép người xây dựng và người khai thác cỏ cái nhìn tổng quát vế các bộ phận cấu thành nên DYVH.Sau đay làkiến trúc tham chiếil điển hình

Lớp quán lý dữ liệuCầc

nguồn

dữ liệu

Khối tạo dựng D W

Khối tạo dựng Daiamart

Truy nhập và

sử dụng

Lớp quán lý MetadataLớp ch uyể n tài dữ liệuLớp kết cấu hạ lầng

Trong dó Data Mart ỉà các kho dữ liệu cục bộ và MelaData là siêud ữ liêu

n h ằm mô tá cấu trúc và nguồn gốc d ữ liệu trong D W H

1.3.1 K h ố i các n g u ồ n d ữ liệu

Bao gồ m các phần sau:

dụng và các hệ CSDL tách nghiệp đủ loại

khai thác dữ liệu cũng ihường xứ lý trôn các dữ liệu

X

Trang 12

Bao g ồ m các khối con:

K h ố i con lin h chư: Liên quan tiến việc nànu cao clùil lượng cùa d ữ liệu

Có các chức nâng chính sau dối với các dữ liệu:

• Là m sạch

• Sàng lọc

• Tương hợp

• Phàn định thời gian cho các thông tin nguồn

• Cơ c h ế quản lý siêu dữ liệu cho khối con này

K h ô i c o / 1 íiia cô)IX la i: Có các chức năng sau:

• Tích hợp các dữ liệu khác từ cấc hệ thống để tạo ra d ữ liệu mới

• Tính loán sơ bộ, lốntĩ hợp và kết xuất dữ liệu theo yêu cáu của người

sử dụng

• C h uyể n đổi và hình thành lại các dữ liệu từ các nguồn khác nhau, kết hợp trong cùng m ộ t dạng

• Cơ c h ế quàn lý các siêu dữ liệu

K h ố i coII D ata W arehouse': hao gồm cúc chức năng chính sau

• Mô hình hoá, lổn« hợp và kết nối mức độ cao các dữ liệu

nguồn ilữ liệu

1.3.2 Khối tạo dự n g kho (lữ liệu

Trang 13

1.3.3 K h ố i tạo d ự n g k h o d ữ liệu cục hộ

Dùriũ đê lạo ra Dalumart từ các nội (.luna của Data Warehouse Cũng

gi ốn g như khối tạo dựng Data Warehouse, trong khối này cũng có những chức năng như khối Irèn nhưng ilurờng ớ mức cao hơn và có hướníi chủ dể rõ ràng Các chức năng chính có trono; khối này là:

các phương pháp:

hình hoá, tổng hợp, kết nối, dung hoà và ní\ng cao giá trị chẩt lượng

Khối con 1 có những chức nâng chính sau:

• Gia công ỉại và biến đổi d ữ liệu ihành các loại d ữ liệu có cấu trúc phức lạp hưn

Khối con 2 chứa các chức năng chính sau:

• Tạo ra các cổng cụ chu ấn đe tạo báo cáo, phàn lích, mò hình hoá tác nghiệp

• Tạo ra các phán m ềm trợ iziúp ra quyết định, các phần mềm khai thác dữ liệu

10

Trang 14

Cá hai khối con này ctéu có cơ c h ế quán lý sicu dữ liệu của chúng.

Ngoài ra người ta có thể cát ngang một hệ thống DWH Ihành các lớp,phạm vi các lớp nàyclược xác dinh dựa vào kỹ n a n s của đội ngũ cài đặt

n h à m dưa ra được những lựa chọn về sán phàm và dối tấc.Các lớp này bao

g ồ m :

1.3.5 Lớ p q u ả n lý d ữ liệu

Bản thân kho dữ liệu là một hệ thống thông tin lớn cho nên cũng giống

n h ư các hệ quản trị cơ sở dữ liệu tác nghiệp thống thường việc quán lý dữ liệu

đ ó n g mộ t vai trò rất quan trọng, n h í t là khi phải quản lý một khối lượng rất lớn các dữ liệu lịch sử và hiện tại, với nhiều kiểu loại khác nhau rất phong phú

và đa d ạn g dược lưu trữ lĩung nhiều loại hình vật mang thông tin Việc quản lý

d ữ liệu này tạo môi trường hoạt dộn g cho chính các khối chức năng Có thể thấy rằng những chức năng như nhập vào, nạp lại, trích đoạn dữ liệu, tuân thú

an toàn, lưu trữ, khỏi phục dữ liêu có trong Data Wareh ou se là riliờ lớp quản !ý

d ữ liệu

Nhữn g chức năng chính ở lớp quán Ịý dữ liệu là:

việc tinh c h ế và gia cô n g lại dữ íiệu trong Data Warehouse

nguồn dữ liệu khác nhau

hoặc cập nhật và làm sạch d ữ liệu

Mặ t khác, có thể thấy lớp quán lý dữ liệu sẽ Ihống nhài các phương pháp quán lý dữ liệu, các tlìú lục, các phép loán phục vụ cho việc an toàn, phàn quyển truy nhập, 1 ưu trữ và khôi phục dữ liệu Việc thực hiện các xử lý song song cấc chất vấn và phục hổi việc sú dụng các xử lý song song cho việc iruy nhẠp d ữ liệu cung được quán lý irons lớp này

Chúng la có thể thấy lớp quán lý dừ liệu có những chức nũng quản ]ý mới khác với các chức nàng của hệ quán trị cơ sớ dữ liệu thông thường

Trang 15

Vì lính da (lạníi của Cite kiếu loại dữ liệu và các phươniĩ pháp quán !ý dữ liệu mới khác so với các hệ CỊUÚn trị CSDL tác ntỉhiệp, việc s ứ d ụ n a các dữ liệu

dù ng dế dịnh rmhìa và xác định các loại dừ liệu, các phươrm pháp xứ lý, các phương pháp quán lý d ữ liêu, các biếu báng trong kho dữ liệu tăng lên rất lớn, cho nên phái tính đến việc quán lý dữ liệu này Vì thế trong kho d ữ liệu phái hình thành lớp quan lý siêu dữ liệu phục vụ cho công việc lưu irữ, xử lý các dữ liệu này

Trong việc thiết k ế các kho dữ liệu, các siêu dữ liệu thể hiện ớ khắp nơi Các nguồn dữ liệu dược dặc trims bởi định nghĩa của các dữ liệu nhập vào Việc bổ xung các nhãn ihời gian đòi hỏi phải định nghĩa các nhãn thời gian dùng trong siêu dữ liệu Lớp quan lý siêu dữ liệu cũng quan lý các dữ liêu

mô tả đầ y dủ và hoàn chính các dữ liệu được Um trữ trong DW

Các chức năng chính của Ịớp này là sao chép, tạo mới, lưu trữ, phục hồi, làm sạch và cập nhật các siêu dữ liệu sau dày:

• Các mô hình d ữ liệu vật lý, logic của Data Wareho use và Datarnart; Các sơ đổ iương ứng cũng như các hàng chú giái về kỷ thuật, nghiệp

vụ ctirợc lưu và quán lý troníĩ dó

• Các định nghĩa d ữ liệu chuán (bao gổm ca định nghĩa kỹ thuật và miêu úi nghiệp vụ) của các dữ liệu lưu trữ trong DW

gia công lại

• Các siêu d ừ liệu có trong các quá trình phàn {loạn, kếi nối tổng hợp,

• Các siêu dữ liệu (ỉế mỏ lá các báo cáo và cấc cáu hỏi/tru cứu

• Các siêu dữ liệu mò tá các chi số, các chú giái dù n e dế truy nhập dữ

Trang 16

Nhiêm vụ chuyến tái dữ liệu giữa các khối (lo lớp này thực hiện Lớp nay

sử dụ n g các chức lúíim cập nhật, sao chép, chuyên lái dữ liệu và cấc hệ thống mạng, các phán mềm lớp Iruim gian (Middleware tools), báo đà m tính an toàn

vù phân qu yền cho các nhu cầu chuyến tái d ữ liệu

Lớp chuyển lái xác định các cầu nối ưưyền thôn Li cần thiết giữa các trang Ihiết bị phấn cứng và phần mểm của Data Warehouse

Lớp này có thành phần chuyến tải cỉữ liệu và m ạ n s bao g ồ m các loại hệ thống sau:

• Các giao tác m ạng như TCP/IP (Đó là các quy định ch ung cho irao đổi dữ liệu)

• Các cơ ch ế quản lý mạng: Ví dụ như IBM Net View, Sun s o f t ’Sunnet manager

• Các hệ diều hành mạng

Lớp này chứa các loại thiết bị SLiu:

• Các cổng kết nối cơ sớ dữ liệu (Database gateways), các Ihiết bị

ch uy ển lải giữa các giao thức

• Các phần m ề m lớp trung gian hướng thòng háo (M es sag e oriented Mid dleware) ví dụ như IBM MOSeries

Các yêu cáu về an toàn (lữ liệu và phủn quyền iruy nhập cũng được thựchiện ứ Ironu lớp này

1.3.7 Lớp chuyên tài dữ liệu

Trang 17

1.3.8 Lớp kết cáu hạ táng

lý và xác định các phấn m ềm chuẩn và các phấn mồm ứne dụ ng cho nỵười thiết k ế hệ thốn« và người sử dụng niĩhiệp vụ

T h à n h phíìn thứ hai của lớp này sẽ trợ giúp cho Lị LI á trình tích hợp, quán

lý các phần mém chuán, các phần mồm ứng dụng và hoạt dộ ng khác để sao chép, cập nhật, kết nối, lổng hựp dữ liệu trone các khối tạo dựng Data

W ar eh o u se và Datamart nh ằm nâng cao hiệu quà và năng suất làm việc cho người thiết k ế hệ ihống và xử dụ ng nghiệp vụ

T h à n h phán tiếp theo phục vụ cho cổng việc lưu Irữ Th à n h phần này cững c u n g cấp các dịch vụ quan lý cho khối các nguồn dữ liệu, các khối tạo dựng Data Wareh ou se và Datamart, cấc lưu trừ cục bộ và nhiều chiểu cho khối truy nhập và sử dụng

Th à n h phẩn cuối cùng của lớp này bao gồm các hệ thống xử lý Chúng tạo ra các môi trường làm việc cho các khối chính như: Các nguồn dữ liệu, tạo dựng Data Warehouse, tạo dựng Datamart Ngoài ra, [ớp kết cấu hạ tầng còn bao gồ m các hệ Ihống sau:

Các hệ quán lý cấu hình trang thiết bị

Các hệ quàn lý việc lưu trữ

Các hệ quán lý an loàn dữ liệu

Các hộ quản lý phân phối cúc phán mém

Các hệ quán lý các liccnce

Trang 18

N h i ệm vụ chính của D W H là phục vụ cho các hệ hỗ irợ quyết định Các

d ữ liệu cơ sớ irong D W H có thể được biếu diễn dưới vài kh uỏn d ạ n g khác nhau nhằm đ áp ứng không chí các câu hỏi cho trước mà cho cá các câu hỏi chưa xác định

D W H có kích thước ml lớn vì nó chứa toàn bộ dừ liệu lịch sử Chính vì lý

do kích thước, d ử liệu trong DW dược phán chia làm hai loại: tích cực và

k hô ng tích cựe.DVVỊ I chứa các dữ liệu tích hựp ớ nhiều mức

M ứ c ỉìiỊttỵên tử (m ức ỉ hấp n ỉìẩ ỉ) chứa cốt lõi căn bàn nhất và là một snapshot (dữ liệu được ghi lại ở một thời điếm) đúng lúc của dữ liệu Dữ liệu được tống kếl theo các giai đoạn thời gian như theo từng giờ, theo nửa ngày, theo ngày hoặc Iheo lừng tuần Mức theo (ừng giờ là xứ lý phức tạp nhất

M ứ c ỉd/ìiị th ế th ấ p : Th ông lin dược tổng kết lại là các thông tin được lốm lái và kêì hợp lại chơ một mục đích kinh doanh cụ ihế Điển hình là dữ liệu được tổng kết theo thời gian như íheo ngày, tuần, 2 luẩn hoặc một tháng

M ứ c toiìíỊ ỉìiâ c a o : Thôn lì Ún (.lược tổng kêl lại ớ mức cao là những thông

1 ìn được lỏm lát và kết hợp theo mội lý đo nào dó rấỉ cụ thể Điển hình là dữ liệu dược lổn í» kết sau mội thời Siian dài ví dụ như hàn.» ihán.ỉỉ, hàng quí hoặc hàng năm

cho quá trình khai thác san này

C ác dặc Lính này là chung cho mọi DVVH.Troniỉ ý nviliĩa đó, mọi DW H

Trang 19

Đây là những DW được xúy dựng sớm nhất hỡi lẩm quan trọng của nó

Ng uy ên nhàn của điéu này là:

chức Chính vì vậy việc khai thác d ữ liệu này dưới nhiều khía cạnh khác nhau luôn là một vấn đề hấp dẫn

- Dữ liệu tài chính có mức ổn định cao

- D ữ liêu tài chính liên quan đến mọi lĩnh vực hoạt độ ng của công ty

và có độ đo (ương đối rõ ràng (các đơn vị liền tệ)

tài khoản, điều này ành hưởng trực tiếp lên quá trình xử lý và khai ihác dữ liệu

Các n g uy ên nhAn kê’ trên trở thành một lý do chính để xAy dựng các

D W H phục vụ công tác phán tích hoạt độn g tài chính Tu y nhiên x ây dựng các

D W H từ các dữ liệu tài chính có những khó khàn rất đáng kể, đạc ihù cho những d ữ liệu loại này Điều đầu tiên là người ta thường yêu cáu clữìiệu trong

D W H phải chính xác tuyệt đối với các dữ liệu từ các nguổn OLTP Điều này

rõ ràng là k hô ng tưởng vì d ữ liệu từ O L T P phải qua quá trình chuyển đổi và có thổ thay đổi các độ đo theo yêu cáu c ủ a D WH Các thay đổi này có thể rơi vào một số trường hợp nh ư sau:

quá trình thu thập không chí trong mội tháng mà theo các tiêu chí phục vụ quá trình phùn tích,ví dụ theo năm tài chính)

n h ất thiết phủi giống các h áo cáo lài chính

vị đo khác nhau (VND,USD ) đặc biệt là các đơn vị tiền tệ thay dổi trong nhiều hộ thống O L T P và DWH

Đ ày Ịà những lý do chú yếu khiến cho tiữ liệu trong các D W H tài chính khác với c á c hệ xử lý iĩiao dịch ĐAy là đặc điểm m ấu chốt cán làm rõ trong quá Iiinb xây I lụn lĩ DW H

1.4.1 DYVH trong lĩnh vực tài chính.

Trang 20

Các D W H phục vụ bảo hiếm có vài nét khác biệt so với các hệ thống khác Điểm khác biệt đầu tiên nằm ở chồ dữ liệu trong lĩnh vực này được lưu trữ trong một thời gian râì dài Hoàn toàn lự nhiên nếu chúng ta cần phùn tích các dữ liệu báo hiểm trong vòng 50 năm hoặc 100 nãrn Vấn dể cần giai quyết

là đưa những dữ liệu có n g uồn gỗc rấi xa xưa đó (khi chưa tổn tại các hệ thống

má y tính) vào hẹ ihống DWH

Vấ n đề Ihứ hai là sự đa dạng của dữ liệu Các hệ thống bảo hiểm có mức

độ phong phú về dữ liệu hơn hần các hệ thống khác do bản chất bảo hiểm bao trùm mọi lĩnh vực hoạt động xã hội Việc chuẩn ho á cấc đơn vị là vấn đề cần giải quyết khi xây dựng DW H

Một vấn để nữa cần giải quyết là chu trình dữ liệu trong các hệ thống bảo hiểm hoàn loàn khóc với các hệ thống m à chúng la thường làm quen Trong lĩnh vực bảo hiểm có thể có những yêu cầu bảo hiểm cần thiết thực hiện sau 5 năm hoặc sau một thời gian thoá thuận nào đó Có thể nói rằng tốc độ biến dổi đặc trung cho báo hiểm sẽ khác với tốc độ đặc trimg cho các lĩnh vực khác

Sự khác biệt tốc độ dược phản ánh trong DYVH.Trong các D W H khác các giao dịch đơn giản được g o m góp lại và xử lý Trong lĩnh vực bao hiểm giao dịch có thể được tích luỹ với thời hạn không xác định, các thành phán khác nhau của nó được thể hiện trong DWH Kết quá dó là sự tiếp cận hoàn toàn dạc biệt với sự thiết kế và ứng dụng các DW H như vậy

L.4.3 DYVH tronịỊ lĩnh vực điều khicn nguồn nhân lực.

DW H dùn g điều khiến nguồn nhân lực có những khác biệt rất cơ bán với DW H khác Th ứ nhất là số lưựng các lình vực đối tượng DYVH này chỉ có một đối tượng tối quan trọng là công nhân, tất cá những cỉiéu còn lại chí là thứ yếu Trong khi đố,phẩn lớn các D W H khác có nhiều đối tượng cơ sở

Tuy nhiên, sự khác biệt cơ bãn của D W H dùn g cho quán lý ng uồn nhân lực là ớ chỗ các D W H đó SỪ dụn g râì ít giao dịch Có d ữ liệu thể hiện đối tưựng là công nhủn, có d ữ liệu thế hiện khi có người thôi việc, những bố sung phát triển hàng năm Nhưng ngoài quỹ tiền lưưnu và một vài yếu tố liên quan đến công nhân khác, thực tế trong D W H đó chán« còn gì hơn So sánh mỏi (rường quàn lv nhàn lực với mỏi trường ngàn hàng chẳng hạn sự khác biệt về

số lượng íỊÍao dịch rã! rõ rà nu

1.4.2 DYVH tron g fililí vực bao hiểm

17

Trang 21

Sự kh á c biệt VC tốc độ giao dịch giữa mỏi irườnỉỉ trên với những mòi Irường hoạt độn g khác là nguyên nhân xuất hiện sự phức tạp nhất ctịnh, đó là

lượng lao dộ ng chân tay và những nhàn lực trong hệ thống tiếp nhận quyci định vào một môi trường thống nhất T r o n s các lĩnh vực khác việc thực hiện

n h ữ ng chỉnh lý kiến trúc như vậy rất ít

1.4.4 DYVH diện r ộ n g

D W H diện rộng dược sứ dụn g cho việc mò là bao quát các tập đoàn lớn

P hâ n biệt 3 loại D W H :

hoạt động kinh doanh tại Hồng công với những hoạt động kinh

d o a n h tại Paris, mà nó đến lượt mình lại cần tích hợp với Rio de Janero, và thành phố này lại tích hợp với Nevv-yok

với các hoạt đ ộ n " cung ứng, hoạt động này lại tích hợp với kinh doanh, và công việc này đến lượt minh lại cần tích hợp với các hoạt

đồ ng nghiên cứu V V

nó lại nằm trong việc tích hợp với việc kinh doanh các thiết bị y lế, lĩnh vực này lại liên quan đến cung ứng theo các chuyên nghành

Đ i ề u đặc biệt của D W H diện rộng là ờ chỗ ớ mức độ tổng thể có rất ít

đi ểm ch u n g Điéu chung duy nhất là tiền Và sự tích hợp việc kinh doanh chí đạt dược với sự trợ giúp của nó Những điểu khác có Ihể có hoậc không có ý nghĩa trên mức độ tổng thể Ví nh ư khách hàng, sán phấm, người cung cấp, tất cá các yếu tố này cổ thể có mạt hoặc không ớ mòi trường (ích hợp diện rộng đó là cá c DWH diện rộng

IX

Trang 22

Nếu như trong các DWH khác sự thay đối các dữ liệu cơ sớ xáy ra 1'âì ít ihì với d ạ n " DW H này xảy ra thường xuyên và thậm chí lận gốc rỗ Ví dụ vào thời điểm bất kỳ nào đó có thể tìm thấy giến e dầu mới, ví dụ tại Vênèxucla Mội phút sau đó ớ Peru lại xúy ra cuộc cách mạng Và những diều đó ánh

như xét trên phương diện tổng thế thì những thay đối đó mang tính chất thường xuyên Vì vậy cấu trúc và công nghệ được áp dụn g cho D W H dạng diện rộng cần cho phép đáp ứng các thay đối liên tục này

1.4.5 D W H với tí n h n â n g D a t a m i n i n g

D W H với công nghệ Data mining (khai phá dữ liệu) là các biến thể của các D W H truyền thông Nhữn g D W H này sử dụng dể thực hiện các hiệu chỉnh các dừ liệu thống kê lớn Nhữn g đặc điểm của D W H loại này là :

- Có quan hệ lịch sử sâu xa

Ngoài ra các D W H này còn định hướng tới một dự án nào dó Điều dó có nghĩa là k há c với các D W H khác nó được sử dụng ngay lộp tức đế thực hiện các phân tích cán thiết cho dự án

Một khác biệt quan trọng nữa cúa D W H với công nghệ Data mining là chúng rất thường xuyên [fl'y thêm các dữ liệu bên ngoài Những d ữ liệu đó rất

có ích xét theo quan điểm đám bảo liềm năng kinh doanh mà (tiều này rất khó nếu thiếu thiếu các dữ liệu mới nhất

1.4.6 D W H t r o n g lĩnh vực viễn t h ô n g

Điều đặc biệi của các DW H ớ chỗ chúng được xây đựng phục vụ nhu cáu phíìn tích Tất nhiên trong lình vực viễn ihổng có rất nhiều dạ ng d ữ liệu khác

đô cuỏc «oi.«-<• •

Trang 23

• Lưu trữ chi tiết trong một vài tháng;

DYVH này chí xử lý trên các chi tiết ở mức độ cuộc gọi,rất ít các dữ liệu tổnghợp ho ặc tích hợp

N hư vậy, chúng ta đã xem xét những khác biệt chính của các dạng DWH

k h á c nhau

k h ô n g có sự chính xác tuyệt dối với các thông tin trong môi trường tài chính đặc dụng

• D W H trong lĩnh vực bảo hiểm với sự giống nhau rất ít với các DWH khác: thời gian tồn tại của những DW H này, những dữ liệu khác biệt

và thời gian của các chu kỳ kinh tế

ch ú n g đặc t nm g là chí có một lĩnh vực đối tượng cư bản duy nhất

hiện việc xử lý những dư liệu thống kê rấi lớn, là biến thể của những

D W H truyền ihốns

• Điều khác biệt cùa DWH trong lĩnh vực viễn thông là ở chồ chúng dược xác định ớ mức (!ộ rất lớn bời các dữ liệu chi tiết với tính lổng quát thấp

V à tất nhicn, ngoài những D W H này còn có các dạ n g DVVH khác Mỗi một dạng m ang những nét khác biệt riêng.Naười triển khai một hệ thống DYVH phái xem xét các yếu tố đạc thù này dế báo đ â m việc xử dụ ng hệ thống

có hiệu qua

Có nhiều phương pháp lưu trữ chi tiết ớ mức cuộc gọi:

20

Trang 24

CHƯƠNG 2

CẤU TRÚC KHO DỮ LIỆU VẦ MÔ HỈNH DỮ LIỆU.

C h ư ơ n g này sẽ trình bầy về cấu trúc và các cách lựa chọn dế tiến hành

m art. Datamarts hiểu một cách dơn giản là các kho cỉữ liệu nhó hơn có chức năng đ ộ c lạp hoặc có thể kết nối với nhau để tạo thành một kho dữ liệu lích hợp tổng thế

M ặc dù không phải lúc nào cũng như vậy, nhưng nên lựa chọn cấu trúc cho kho d ữ liệu trước khi bát đẩu tiến hành Cấu trúc cũng có thể được quyết định hoặc sửa đổi sau khi bắt đầu tiến hành Tuy nhiên, nếu chậ m trễ hơn thì cũng có nghĩa là làm tăng khá năng phải làm lại Việc lựa chọn đúng cấu trúc

là một q uy ết dịnh có tính chất quán lý diều hành dựa trèn các nhân tố như cơ

sờ hạ tầng hiện tại, mỏi trường kinh doanh, cấu trúc quản lý và điều hành mong mu ốn , ca m kết và phạm vi thực hiện, năng lực môi trường kỹ thuật mà

Trang 25

2.1 CÁC CHON LỰA VỂ CẤU TRÚC

Việc lựa chọn cấu irúc sẽ quyết định, hoặc dược quyết định tụi những nơi tạp trung các kho d ữ liệu và các data marts và ớ những nơi tập trung sự quản

tâm Hoặc, d ữ liệu có thể phân bố ở các nơi và/hoặc các nơi xa trung tâm mà

có sự q u á n lý cứa trung tủm hoác quan [ý độc lập

lới là từ trên xuống dưới, từ dưới lên hoặc kết hợp cả hai Các lựa chọn cấu trúc và lựa chọn phương pháp thực hiện cũng có thế được sử dụ n g kết hợp Ví

dụ, cấu trúc kh o dữ iiệu có thể phàn bổ về mặt vật lý, nhưng được quản lý tập

trách cho từng nhóm, ph òng ban, lĩnh vực kinh doanh riêng biệt

Có một sự nhầm lẩn về khái niệm hay xảy m là kho dữ liệu lống thể ctược tập trung hóa Thuật ngừ tống thế được sử dụng ở dày đế phán ánh về phạm vi truy cập và sử dụng số liệu, chứ không phái là vể cấu trúc vật lý Kho dữ liệu tổng thế có thế được tập trung hóa vé mặt vật lý hoặc được phàn bố xuyên suốt

lố chức do an h nghiệp Một kho dữ tiệu tập trung tống thể về mặt vật lý sẽ dược một doanh nghiệp mà toàn bộ doanh nghiệp dó chí đổng trên một địa bàn ihống nhất sử dựng và được một hộ phận gọi ià Phòng Hệ thống thông tin (ỈS Dep ar tme nt; quán lý Một Kho d ữ liệu phiìn bô' tóng thế cũng có thể được

các địa điếm vật lý khác nhau trong doanh nghiệp và được Phòng Hệ thống thông tin (IS Department) quàn lý

Trang 26

Khi nói Phòng Hệ thống thông tín (IS Department) quan lý (manages) kho dữ liệu, điểu này không có nghĩa nó thực sự điểu khiển (control) kho dữ liệu dó Ví dụ, các địa điểm phân bô khác nhau có thể được điều khiển bởi một bộ phận hoặc ngành kinh doanh riêng biệt Có nghĩa là, chú ng quyết định

d ữ liệu nào sẽ dược đưa tới kho dữ liệu, khi nào thì sẽ cập nhật, bộ phận hoặc các ng ành kinh doanh nào khác có thể truy nhập vào nó, cá nhân nào trong các bô phận đó được phép truy cập Tu y nhiên, để quản lý việc thực hiện này cần phải có sự hỗ trợ trong phạm vi tổng thể và hỗ trợ này phải do chính

Ph òn g Hệ thống thông tin (IS Department) cung cấp

Cáu tr ú c p h â n íán

ìNguò» íJỪ liệu ngoài

I D ata

H ì n h 3: c/iiu t rú c Data w a r e h o u s e tổng thế Hai sor dò cơ sờ

Dữ liệu cho kho dữ liệu dược chọn lựa rút ra từ các hệ thống O L P T và có thể từ cá các nguồn dữ liệu bên ngoài cơ quan ctược xử lý theo khối trong các giờ hoạt d ộ n g ngoài cao điểm Sau đó chúng dược lọc để loại trừ di các mục

d ữ liệu kh ôn g mong muốn và được chuyển đổi đế đáp ứng yẻu cầu về chất lượng và khá năng sử dụng dữ liệu Sau đó chúng được dưa vào các cơ sở kho

Cấu trúc kho dữ liệu tổng thế có thế tạo cho người sử dụng có khả náng hơn nữa để nắm bất và biết được tổng thể toàn bộ clữ liệu trong phạm vi toàn doanh nghiệp, toàn bộ đơn vị mình Chắc chắn đày là một nhu cáu, tuy nhiên,

để lạo ra môi trường làm việc năy có thể phái mất nhiểu thời íỉian vù chi phí để thực hiện

Trang 27

Cấu irúc data mart dộc lạp có nghĩa là các data mart đứng độc lập mội mình được điều khiển bởi một nhóm, phòng ban, hoặc ngành kinh doanh cụ thế và được xây dựng duy nhất dế đáp ứng các nhu cẩu T h ậ m chí có thể không có bất cứ sự kết nối nào với các data mart cúa các nhóm làm việc, phòng ban hoặc ngành kinh doanh khác Ví dụ, dữ liệu cho cúc delta mart này

có thể dược tạo ra ngay bên trong nhóm Dử liệu có thể dược rút ra từ các hệ thống hoạt độn g chức năng nhưng sau đó đòi hói phải có sự hỗ trợ của IS IS

có thể k h ô n g điều khiển quá trình thực hiện, nh ung có thể đơn giản là giúp

liệu bên ngoài đơn vị Trường hợp này cần sự hỗ trợ của IS trừ phi trong nhóm

thích hợp M ặ c dù Hình 4 mô tả các dữ liệu dược lấy từ các nguồn dữ liệu bên trong hoặc clữ ỉiệu bén ngoài, nhưng nó cũng có thể đến từ kho dữ liệu tống thể nếu nó tồn t ạ i

2.1.2 Cấu trúc Data Mart độc lập

H ì n h 4: C á u trú c D;it;i M a r t Mò hình (1ỘC láp và lién kết

Cấu trúc data mart độc lập đòi hỏi một số kỹ năng kỹ thuật để thực hiện, trừ nguồn và tố chức nhân lực có thể dược nhóm làm việc, ban ngành hoặc ngành nghề kinh (.loanh sở hữu Các loại hình thực hiện này có tác động tối thiểu tới các nguồn IS và có thế tạo ra quá trình (hực hiện rất nhanh Tuy nhiên, việc tích hợp quá ít và thiếu các dừ liệu ớ tám ton s the có thê trư ihành

24

Trang 28

rào chắn cản trở Có nghĩa là, dữ liệu trong bâì cứ một data marl cụ thế nào

c ũ n g chí có thế truy nhập vào những nhóm làm việc, ban ngành hoặc ngành nghề kinh do anh làm chủ data marl đó Đây là tình h uố ng được biết đến và dược ch ấp nhận

2.1.3 C ấ u t r ú c D a t a m a r t liên kết với n h a u

Một cấu trúc Data mart liên kết là hệ thống các Data mart có (rao đổi

t hôn g tin chặt chẽ iVIặc dù các data mart riêng biệt được ihực hiện trong các

n h ó m làm việc, ban ngành hoặc ngành nghề kinh doanh cụ thể, nhưng chúng

c ũ n g có thể được tích hợp, liên kết với nhau đế tạo ra dữ liệu có phạm vi rộng lớn hơn trong toàn doanh nghiệp hoặc toàn công ty Thực tế, ở mức tích hợp

ca o nhất, c h ú n g có thể trờ thành kho dữ liệu tổng thể Do vậy, người sử dụng đầu cuối trong m ột phòng ban có thể truy cập và sử dụn g dữ liệu trên một data mart trong m ộ t phòng ban khác.Hình 4 là mô hình cấu trúc Data Mart liên

kế t.Mặc d ù Hình này mỏ tá d ữ liệu lấy từ các ng uồ n dữ ỉiệu bên trong hoặc bèn ngoài, n h ư n g nó cũng có thể đến từ kho dữ liệu tống thể nếu có

Cấu trúc có nhiều cấc chức năng và khả nàng khác có thế lựa chọn được

T u y nhiên, các tính năng lựa chọn thêm này có thể yêu cầu tích hợp và phức tạp hơn so với cấu trúc data mart dộc ỉập Ví dụ, khi ta xem xét ai sẽ quản lý

và diều hành môi trường sẽ cẩn cân nhắc xem có cán thiết có một tầng khác trong cấu trúc không, để xử lý các Data mart phức tạp Hoặc, có thể cần lựa

ch ọn một k ế hoạ ch chia sẻ dữ liệu qua các Data mart Mỗi một lựa chọn này lại lăng t hê m mức độ phức tạp nữa của cấu trúc Nhung, vể mật tích cực mà nói, điều này có thể có những lợi ích đáng kế đối với phạm vi tổng thể của dữ liệu

Các data mar t liên kết với nhau có thế được quán lý độc ỉập bởi các nhóm làm việc, ban ngành hoặc ngành nghé kinh cloanh Chúng quyết định dữ liệu nguồn nào tải nạp-vào data mart, khi nùo thì cập nhập chúng, ai sẽ được truy cập, và cất giữ nó ớ đâu Chúng cũng có thể quyết định cung cấp công cụ (tools) và kỹ nàng (skills) cần thiết nào dế các data mart tự thực hiện Trong trường hợp này, IS có thè’ cung cấp sự trợ giúp irong vấn để bao mật giữa các phòng ban, dự phòng (backup), và khỏi phục dữ liệu, và về các vấn đề kết nối mạng Ngược lại, các data mart kết nối với nhau có thè’ được ÍS quán lý và điểu khiển Mỗi một nhóm làm việc, phòng ban hoặc ngành ns h ề kinh doanh

cố thế có cấc data marl riêng của mình, nhưng cỏng cụ, kỹ nĩmíĩ và nguồn cần thiếl đế ihực hiện các data mart thì phái do IS c u n a cấp

Trang 29

2.2 CÁC LỰA CHỌN THỰC HIỆN

CÓ nhiều phương thức khác nhau có thể được sử dụng đế tiến hành các cấu trúc như đã nói ớ trên Các phương thức tiếp cận này sẽ dược nói tới trong

ch ư ơn g này là từ trên x u ố n s dưới, từ dưới lên hoặc kết hợp cá hai Việc lựa

c h ọ n thực hiện dem lại sự linh hoạt trong việc quyết định DVVH sẽ được xây ckmạ như thế nào

Việc lựa chọn phương thức thực hiện do các nhân tố sau đây tác động tới: cấu trúc IS hiện tại, các nguổn hiện có, công trình lựa chọn, phạm vi thực hiện,

s ự cần thiết cùa việc truy nhập dữ liệu tống thể trên phạm vi toàn đơn vị, các

đi ều kiện cần thiết cho đầu tư có lợi tức, và tốc độ thực hiện

phương thức này nó sẽ trớ nên tiêu biểu hơn đế hình thành một cấu trúc kho

dữ liệu tổna thể Nếu các data mart bao gồm cá trong phần cấu hình, chúng sẽ được xây dựng sau đó Và, chúng đặc biệt dược lưu trú lừ kho đữ liệu tổng thể hơn là trực tiếp từ các n s u ồ n ciữ liệu đang hoạt dộng hoặc nguồn dữ liệu bên ngoài

26

Trang 30

H ì n h 5 : T h ự c hiện t í r t r é n x u ỏ n aViệc thực hiện từ Irên xuống có Ihể tạo ra những xác định vể dữ liệu thích hợp và việc ihực hiện các quy lắc kinh doanh xuyên suốt đơn vị ngay từ khi bất đầu Tuy nhiên, chi phí cho việc lập kế hoạch và thiết kế ban đầu là lương đối đáng kế N ó !à một quá trình đòi hòi tiêu lốn nhiều thời gian và có thể làm trì hoãn các hoạt dộng thực tế, lợi nhuận, và đầu tư có lợi tức Ví dụ,

sẽ rất khó khản và tốn thời gian để quyết định và lấy dược sự dồng ý về những xác định dữ liệu và các quy lấc kinh doanh giữa các n hó m làm việc, phòng ban và ngành nghề kinh doanh khác nhau tham gia vào kho dữ liệu, Phát triển kiểu loại d ữ liệu tống thể cũng là một nhiệm vụ lâu đài Ớ nhiều tổ chức, việc quán lý càng trở nên ít chấp nhận những trì hoãn này hơn

Phương thức quản lý lừ trên xuống có thể làm việc tốt khi có một tổ chức

IS tập trung chịu trách nhiệm cho lift cả các hệ thốnsi phần cứng Trong nhiều đơn vị, các nhóm làm việc, phòng han hoặc ngành nghé kinh doanh không thể

có các nguồn lực để thực hiện các data mart của riêng mình Việc thực hiện từ trẽn xuống cũng sẽ khó thực hiện tại các đơn vị mà có nhóm làm việc, phòng ban hoặc ngành nghề kinh doanh có các nguồn lực 1S của riêng mình Cấc nguồn này không sán đế chờ cho đến khi có một hạ táng tống thể hơn

2.2.2 T h ự c h iện t ừ dưới lẻn

Thực hiện lừ dưới lèn liên quan lới việc lập kẽ hoạch và ihiết kế các data mart mà không cần chờ cho đến khi có một hạ táng lổng thể hơn Điểu này không có nghĩa là sẽ không triển khai một hạ tầng tổng thể hơn; mà sẽ xây dựng chill theo kiểu m ở rộng các data mart btin đầu Ngày nay phương thức này ngày càng trở nôn được chấp nhạn phổ biến hơn so với phương thức thực hiện từ trên xuống vi các kết quá tức ihì lừ các data mart có the được hiện thực hỏa và clưựe sử đ ụ n ” Hình 6 mô lá phươiiiĩ thức thực hiện lừ dưới lẻn Ngược

27

Trang 31

lại với phư ơng thức lừ trôn XUỐI1ỈÍ, các data marl có ilìè được xày dựng trước

dó, hoặc s on g song đổng ihời với kho dữ liệu tòn«* thế Và như hình vẽ chí ra, các dat a m a i l có the lưu irú hoặc là từ kho clữ liệu tổn lì thể hoặc irực tiếp từ các n g uồ n d ữ liệu đanii hoạt cĩộng hoặc níiuổn dữ liệu từ hèn riiioài

Phư ơng thức thực hiện từ dưới lên đã (rớ thành sự chọn lựa của nhiều dơn

vị, dặc biệt là các đơn vị quàn lý kinh doanh, bởi vì quá Irình hoàn vốn sẽ diễn ra n ha nh hơn Nó có the đem lại k í t quá nhanh hơn vì các data mart có phán thiết k ế ít phức tạp hơn so với kho d ữ liệu tổng thể Thê m vào dó, việc thực hiện ban đầu thường ít tốn kém hơn về phần cứng và các nguồn lực khác

so với việc triển khai một kho dữ liệu tống thể

Cù ng với mạt tích cực của phương thức thực hiện từ dưới lên, còn có mội

số điều cán phủi cân nhắc Ví dụ, càng nhiều data mart được tạo thành, thì sỗ xãy ra tình trạng clư ihừa và màu ihuần dữ liệu giữa các data marl Điểu này SC

íl xảy ra nê'u việc hướna dẫn lâp k ế hoạch, quán lý và ihiêì kế dược tiến hành cấn ihận Các data mart cỉa (lữ liệu có the mang cùng với nó một sự lai nạp trên cúc hệ th ống hoạt độ ng vì các hoạt dộn g lấy dữ liệu I hườn lĩ yêu cầu thực hiện Việc tích hợp các data marl vào một môi Inrờng tổng thể , nếu ta mong muốn như vậy, có thể sẽ khó khăn irừ phi dã tiến hành lập kế hoạch ở một mức độ nào đây Một sò công việc cũng có the đòi hỏi phái làm lại vì quá trình ihực hiện ngày cà ng lăng, cúc vấn (lề mới không ihiVy dược nèn buộc phái ihay đổi các phần lliực hiện hiện lại Đó là tài cá các vấn tic cấn phái càn nhắc để nắm bắl một cá ch cẩn thận trước khi lựa chọn phươniĩ thức Ihưe hiện lừ dưới lên

2.S

Trang 32

N hư c h ú n g tu vừa xem xét, có cả hai mật tích cực và tiêu cực cần phái càn nhác khi thực hiện phương ihíre lừ trên xuốn« hoặc lừ dưới lèn Trong nhiều ưirờrm hợp phương ihức lot nhất là kết hợp củ hai Điều này cỏ thế khấ phức tạp, nhưng với một người quan lý dự án tốt thì có thè làm được Một trong n h ữn g chìa khóa (key) của phương thức này là quyếl định mức độ kế hoạch và thiết kế càn thiết cho phương thức tổng thể dể hỗ trợ cho việc tích hợp khi data mart được xây dựng với phương thức từ cỉưới lên Việc phát triển

m ột cơ sớ hạ tầng ớ mức cơ bàn cho kho dữ liệu tổng thế, ngay từ ban đáu nên thận trọng ớ mức kinh doanh Ví dụ, ờ bước dáu liên đơn gián ỉà xác định ngành nghể kinh doanh Quá trình kinh doanh ở mức độ cao và vùng dữ liệu

đá ng quan t â m sẽ Cling cấp các yếu tố cho k ế hoạch thực hiện các data mart.Khi cá c data mart được thực hiện, việc phát triển k ế hoạch xử lý dữ liệu

ỉà cần thiết cho các data mart đa dữ liệu Điểu này có thể bắt đẩu bằng một cấu U'úc kh o dữ liệu tổng thể hơn hoặc đơn gian là một kho dữ iiệu thông thường m à tất cá các data mart có thể truy nhập dược Tro ng một số trường hợp, sao lại dữ liệu qu a các data mart đa dữ liệu có thể cán thiết Điểu này ỉà

m ột quyết định lựa chọn giữa kh ông gian lưu trữ, mức độ dể dàng khi truy nhập, và tác độn g của việc dư thừa dừ liệu cùng với việc đòi hỏi giữ dữ liệu trong các d at a marl cía d ữ liệu lại cùng cấp độ

Có rất nhiều vấn dề phai giải quyết trong quá trình thiết tập kho dữ liệu

Sử dụng phương thức kết hợp có thể là cách giúi quyết cho các vấn đề này khi

ch ún g là n h ũ ng vấn đề mâu ihuẫn nhau và dược xem xét irong một phạm vi nhỏ hơn là data mart so với một kho dữ liệu lổng thể Giá m sát một cách cấn thân quá trình thực hiện và quán lý những vấn đề này có thế đe m lại ích lợi cao nhất c ủa cá hai phương thức thực hiện

2.2.3 P h ư ơ n g thức kết hợp

Trang 33

2.3 MỎ HÌNH D ữ LIỆU CHO KHO DỮ LIỆU

Phần này cun® cấp những thông tin cơ bán vé mô hình dữ liệu, (lặc biệt dành ch o m ụ c đích thực hiện một kho dữ liệu

Kho dữ liệu nói chu nu đã dần dược ehiíp nhận n hư cách liếp cận lot nhâì lạo nguồn dữ liệu tích hợp nhất quán tĩế sử dụm» phàn tích d ữ liệu và dưa ra các quyế t định kinh doanh Tuy nhiên, kho dữ liệu cỏ thế dưa ra những ván dể phức tạp, đòi hỏi thời gian và nguồn lực dáng kế dế thực hiện Điều này thực

s ự đ ún g khi thực hiện trèn cơ sở tập đoàn lớn Đế đạt các lợi ích nhanh hơn giải pháp thực hiện là lựa chọn bước tiếp cận lhực hiện là lừ dưới lên với Data Mart Viộc tiến hành những gia tăng nhỏ trong phạm vi nhỏ sẽ tạo một khoản hoàn vốn đầu tư lớn hơn trong một thời gian ngán Điều này không loại trừ việc tiến hành xây dựng kho dữ iiộu tống thế Nó cũng cho Ihấy rang Data Mart có thể được m ở rộng hoặc dược tích hợp đe cu n g cấp một giải phấp kho

dữ liệu tổng thể cho một tổ chức Cho dù tiếp cận kho dữ liệu từ viền cảnh tổng thể hay bằng việc thực hiện Data Marl thi những tiện ích từ một kho d ữ liệu luôn nối bật

Càu hỏi sau đó là, làm thế nào đế cơ sở dữ liệu cùa kho dữ liệu dược thiết

k ế tốt nhất hỗ trợ các nhu cáu của người sứ dụng kho dữ liệu? Tra lời câu hỏi uày ià nh iệm vụ của người xây dựng mô hình d ữ liệu Khi trình bầy vấn dề

Data Mart

Trong phán này ch ún g ta xéi lới hai kỹ thuột xfly LỈựng mổ hình dữ liêu

cư bán: xây dựng mô hình ER(Thực thể-Quan hệ Entity Relationship) và xây dựng mô hình theo chiếu Trong môi trường OLTP, kỹ thuật xây đựniỉ mô hình ER là sự lựa chọn dã qua thử thách Với sự ra dời của kho dữ liệu, xuất hiện yêu cáu cần có một loại kỹ ihuật dế hỗ trợ c h o môi trường phán lích dữ liệu Mặc dù các mô hình ER có thế sứ đ ụ n " đè hỗ trợ môi trường kho dữ liệu, hiện nay sự quan tâm về cách xây dựnu mỏ hình theo chicu nhằm đáp ứng nhiệm vụ này cũ n g đã gia táníi

Chúng ta sẽ xem xét tại sao việc xày dựng mỏ hình dữ liệu lại quan trọng đối với kho d ữ liệu và sau đó mỏ lá các khái niệm và Ihuộc tính cơ bán cùa cách xây dựng mô hình HR và cách xây d ự n s mò hình theo chiều

Trang 34

2.3 L T ạ i s a o việc xây d ự n g IT1Ỏ h ì n h d ữ liệu là (ỊUiìn t r ọ n g

S ự h ỉn h d u n g cứa g ỉó i k in h d o a n h: nói c h u n a m ỏ hình là sự Irừu tượng hoá và phán ánh thế giới thực Việc xày dựng mò hình cho ta kha năng để hình d u n g cái mà cluing la còn chưa hiện thực hoá dược Xày dựng mô hình

dữ liệu cííĩìií tương tự như vậy

T h e o cách truyền thống, người la xây dựng mổ hình dữ liệu phái sử dụng

sơ đồ ER, được phát triển như một phíìn của qui trình xây dựng mô hình dữ liệu, n h ư một phương tiện thõng tin lièn lạc với nhà kinh doanh - người sử dụng Đ ồ thị ER là một cồng cụ có thể giúp phủrt tích các yêu cầu kinh doanh

và thiết k ế cấu trúc dừ liệu sau này Xúy dựng mô hình chiều cho chúng ta một khả nũng tốt hơn để hình dung những cAu hỏi rất trìru tượng được yêu cầu trá lời cho nhà kinh doanh - người sử dụng Sử dụ ng mô hình chiều, người sử đụng có thể dễ dàng hiểu, dược tiếp cận tới cấu trúc dừ liệu và khai thác triệt

để nh ữn g d ữ liệu này

Thực tế, dừ liệu đơn thuíỉn là bản ghi mọi hoạt động kinh doanh, tài nguyên n g uồn ỉực và kết quả cùa một cơ quan tổ chức Mô hình dữ liệu là sự trừu tượng có tổ chức c ao các d ữ liệu này Do vậy, điểu hoàn toàn tự nhiên khi

mò hình d ữ liệu trở thành phương pháp tốt nhất dế hiếu và quan lý việc kinh doanh của cơ tố chức Thiếu một mô hình dữ liệu sẽ riú khó tổ chức cấu trúc

và các nội du ng của dữ liệu Irong kho dữ liệu

T h ự c ch ấ t củ a k iế n trú c k h o d ữ liệ u : Ngoài ích lợi của việc hình dung,

mủ hình dữ liệu đổng vai trò hướng dẫn, hoăc lạp k ế hoạch, nhàm thực hiện kho dữ liệu Th eo các h truyền thống, việc xây dựng mò hình ER chú yếu tập trung vào loại bó sự d ư thừa dữ liêu và duy trì sự nhất quán siữa các nguồn và các ứng dụ ng cỉữ liệu khác nhau Sự thống nhất các m ô hình dữ liệu của từng lĩnh vực kinh doanh trước khi tiến hành thực sự có thế giúp đàm bào rằng kết quá sẽ là một kho dữ liệu hiệu quá và có thể giúp giám chi phí thực hiện

C á c b ư ớ c tiếp cặn k h á c n h a u củ a mỏ h ỉn h d ừ liệ u : việc xây dựng mô hình ER và mô hình chiều, mặc dù có liên quan nhưng lại khác nhau Có rất nhiều sự tranh ỉuận xem phương pháp nào là tốt nhất và các điểu kiện trong dó phái lựa ch ọ n một kỹ thuậi đặc ihù Sẽ kh ôn s thể có câu trá lời rõ rùng cái nào

là lốt nhất, nhưng cũng có nlìữns hướng dần xem sự lựa chọn nào tối hơn trong lừng bối cánh hay môi trường riêng hiệt Tại niuìna phđn dưới đùy, chúng ta sẽ x em xét và xác định các kỹ thiũit xây tlựniĩ mò hình và dira ra một sô' hướniĩ dẫn lựa chọn

Trang 35

2.3.2, C á c kỷ t h u ậ t xây d ự n g mô hìn h d ừ liệu

Có hai loại kỹ thuật xây dưng mô hình dữ liệu thích hợp Irong mồi trường kho d ừ liệu là xây tlựng mỏ hình ER và xây dựng mỏ hình chiều

của mối quan hệ Mô hình ER là một công cụ trừu tượng vì nó có thể được sứ dụng để hiểu và làm đơn gian hoá các mối quan hệ dữ liệu m ơ hồ trong giới kinh cỉoanh và trong các môi trường hệ thống phức tạp

yẻu cầu c ủa người sử dụng-nhà kinh doanh trong ph ạm vi các báng biểu cơ sở

d ữ liệu

Cá hai loại xây dựng mó hình ER và chiều tiểu có thể đirực sử đụng để lạo một m ô hình trừu tượng của một chủ để riêng Tuy nhiên, mỏi loại tiều có những hạn c h ế của mình về các khái niệm xây dựng m ô hình và các qui ước

ký hiệu Kết quá là, cúc công niỉhệ và kỹ thuật có vé khác nhau, và chúng thực

sự khác nhau về mật ngừ nghĩa Những phần dưới đây mô tá các khái niệm xày dựn g mõ hình và qui ước ký hiệu cho cà hai loại xi\y dựng mô hình ER và chiểu sẽ dược sử d ụ ng trong toàn bộ phíin này

2.3.3 Xâ y d ự n g m ồ h ì n h ER

T ro ng phần này ta khônu tập I r u n í vào nhữniĩ hiếu biết cơ bản về xây dựng mô hình ER và chỉ đơn gián xác định các thuật n g ữ cơ bán đc tạo sự nhất quán và đưa ru những qui ƯỚC đtrựe sử đụn<z ớ phần còn hú

C á c k h á i niệm c ơ bản

M ô hình ER dược thế hiện bằng sơ đổ ER sử d u n a 3 biếu lượng dồ hoạ

cơ bán để hình thành khái niệm clữ liệu: thực thế, mối quan hệ và thuộc tính

T fufe th ế

Một thực thô được định nghĩa [à một con người, một địa điếm, vật hoãe

sự kiện quan tâm (lối với việc kinh doanh hay cơ quan, tổ chúc Một ihực thế

C|ium sát và phàn loại hỡi các (lộc lính và (lặc điếm cúii cluìiiũ TYonụ mộl số

,2

Trang 36

tài liệu, thuật ng ữ loại thực thê dược sử dụng dế dại diện cho các lớp dối tượng

thực th ể v í dụ cho mội loại thực thế-

M ặc dù vạy, 2 thuật ngữ này có thế khác qua các pha xây dựng mò

hì nh.Thường mỗi thực the tiều có định nghía kinh do anh của riêng nó và một

ihực thể Tr on g một dự án xây dựng mô hình thực tế, các thành viên dự án

cù ng chia sé một khuôn m ầu định nghĩa dê tích hựp và một định nghĩa thực

t M nhấí quán trong một mô hình Trong xây dựng m ỏ hình kinh doanh ớ mức cao một thực thể có thể rất chung chung, nhưng trong xây dựng mô hình logic chi tiết thì một thực thế phải rất cụ thể

H ì n h 7: M ỏ h ìn h E R c h ứ a t h ự c thế, q u a n hệ và t h u ộ c tí nh

Hình 7 cho thấy một ví dụ về cúc thực thế trong một sơ đổ ER Mỗi hình chữ nhại đại diện cho một thực thế và trong phán này tên của thực thể được ký hiệu bằng các ch ữ in hoa Ở đây có 4 thực thể: P R O D U C T , P R O D U C T

C O M P O N E N T , P R O D U C T M O D E L , VÀ C O M P O N E N T Bốn đường chéo ớ các góc cúa thực thể P R O D U C T C O M P O N E N T thế hiện ký hiệu cho một

bẽn giữa hai lỉụre thể P R O D U C T M O D E L vù C O M P O N E N T là hai thực thế độc lập với nhau tuy nhiên lại có mỏi quan hệ kinh doanh giữa hai phần này Mội m ô hình sán pháin bao gồm nhiều thành phần và một thành phán có liên quan tới nhiều mô hình sán phám Với quy tác kinh doanh như th ế này, chúng

la không ihc nói n h ữ n s thành phần nào tạo thành m ỏ hình sán phẩm Để ỉàm

Trang 37

P R O D U C T C O M P O N E N T có I he Cling càp ihòim Ún dế xem Ihànlì phàn nào

c ỏ liên quan lới mồ hình sán phiím nào

T r o n lĩ xây dựnu mô hình BR, dặt lôn cho các thực ihc là râì quan trọng clẽ hiếu và thông tin liôn lạc dề dàng và rõ Thường, tên thực thế thể hiện về

m ặt n g ữ pháp dưới dạng danh từ hơn là động từ Tiêu chí lựa chọn tồn thực ihể

T r o n g m ô hình ER chi tiết, nhiệm vụ quan trọng nhất là xác định từ định

khoá ứng cứ. Từ những từ này ch úng ta có thế lựa chọn từ khoá được sử đụng

M ố i quan hê

Mối qu an hệ được thể hiện bủng các đường vẽ giữa các thực thể Nó miêu

tủ sự tương tác về mật cấu trúc và sự kết hợp giữa các thực thể trong mộ t mô

th uộc về', Mối quan hệ giữa hai thực thế có thể được xác định bàng số các yếu tò trong một tập hợp Số các yếu tố trong mộ t tạp hợp có khả năng [à :

m ột -m ộ t ( 1: l),một-nhiẻu ( i: N ) , và nhiểu-nhiều (N:N) Trong mô hình ER (đanh định) chi tiết, không chi ra bất kỳ mối quan hộ M :M nào do nó dược xử

lý đến một ihực thể kết hợp

tôn mối quan hệ, nhưng trong sơ đổ ER chi tiết, các ch uy ên viên thiết kế tin học thường không xác định tên mối quan hệ Ở Hình 7, đường nối giữa

C O M P O N E N T va P R O D U C T C O M P O N E N T lù một mối quan hẹ Ký hiệu (dường gạch chéo và dường ngán) tren mối quan hệ này the hiện số các yếu tố trong một tập hợp

Khi mộ t mối quan hệ của mội thực ihc có liên quan tới tự thân nó, chúng

dược phát triển hoặc ứ các [hực thể kếi hợp hoậc mội thuộc tính có tham chiếu đến ihể hiện khác của cùng Llụrc ihổ

Khi số các yếu tỏ trong một tập hựp của một thực thế là mội-nhiểu, thường thì mối quan hệ này thế hiện mối quan hệ phụ thuộc của niột thực the này với mội thực thế khác Trong lrường hợp dó từ khoá gốc cùa thực thể cha

mẹ được thừa k ế lại ở thực thể phụ thuộc như một phán của lừ khoá sốc

Trang 38

Tlitiôc lính

Các thuộc tính mò tá dặc điếm các dặc lính của các thực thể.Tại Hìnli 7,

Đê làm rõ, các qui ước về lên thuộc tính là rất quan ư ọn g Tôn một thuộc tính phái nhất qu án Irong thực thể và phai có khá năng tự eiãi thích Ví dụ, nói đơn gián là Ngày 1 hoặc Ngày 2 là không dược phép, chúng ta phải định nghĩa rõ ràng từng ngày Ví dụ như chúng có thể dược định nghĩa là ngày dặt hàng và ngày giao hàng

C á c khái niêm khác

toàn bộ các giá trị và phạm trù có khả năng chấp nhận được cho phép đối với một thuộc tính Một cách đơn giản thì miền là toàn bộ các biến thể có khả Iiflng thực Khuôn thức, dạng mẫu hay loại dữ liệu như số nguyên, ngày tháng,

và ký tự đưa ra một định nghĩa rõ ràng về miền Đối với loại miền có tính liệt

kè, các Inrờng hợp có thể phải được xác định Lợi ích thực tế của miền là nó là bát buộc dối với việc xày dựng từ điến dữ liệu hoặc kho dữ liệu và kết quá là thực hiện một cơ sở d ữ liệu Ví dụ, giả sử chủng ta có một thuộc lính mới gọi

lo ạ i sân phẩm trong thực thế P R O D U C T và số lượng các loại san phẩm là

cố định với giá trị là Celíphone(diện thoại tế bào) và Pager (nhán tin) 'Thuộc tính loại san phẩm hình thành nên một miền liệt kê với các trường hợp vể Cellphone và Pager, và nhừrìíi Ihồng tin này phải nằm Irong ỉừ điển dữ liệu

ngày nào trong các ciiều kiện nhất định Đối với loại miền hạn c h ế này, các trường hơp không thế cố định và phạm vi hoặc các điểu kiện phai dược bao hàm í rong lừ điển dữ liệu

Mội khái niệm quan trọng khác Dong việc xây đựng mô hình ER chính là

sự chuẩn hoá Chu an hoá là mội quá trình biến đổi các thuộc tính cho các thực thè’ theo cách lùm giám việc dự phòng dữ liệu, tránh những bất [hường dữ liệu, tạo mộ t kiến trúc vững chác đế cập nhật dữ liệu, và lãng cường khá năng kết hợp lâu dài cùa mô hình (lữ liệu Hình ihứe bình ihườníi thứ ba này thường ià

đủ Q ú a trình xử ỉý các mối quan hệ nhiều-nhiểu là một ví dụ vể chuẩn hoá

3.5

Trang 39

Bổ sung cho các khái niệm xày đựng mõ hình ER c ơ bàn, có 2 khái niệm khác cũ n g rất quan ưọnu:

• Loại cha và con (supertypc & subiỵpe)

• Thôn« háo ràng buộc (Contrainl sialemeni)

L o a i C h a Vi! lo a i co n (su p e rtv p e ifc s u b ty p e )

Các thực thể có the có loại cha và loại con (supertype & subtype) Mối quan hệ giữa một thực the loại superiype và một thực thể loại subtype của nó

là mối quan hệ ”Ls a" Mối quan hệ "Is a" dược sử dụng khi một thực thè là sự khái quát hay tổng quát hoá một số cấc thực ihế khác Ví dụ SA L ES OUTLES của một công ty là supertype của RE TAI L S T O R E và C O R P O R A T E SALES

O F F I C E Va R E T A I L S T O R E và C O R P O R A T E S A L E S O F F I C E là loại subtype của SA L ES O U T L E S Ký hiệu của supertypc & subtype được thể hiện bằng hình chữ nhật dựa trên mỏi quan hệ

Các chá dê hiện (lai trong xảy (lựng mò hình Elỉ

H ì n h 8: Kiến cha vá kiếu conMỗi thực the loại subtype dược thừa hườn Sỉ các thuộc tính từ thực thể supertype Ngoài diều dó ra, mỗi thực iho subtype lại có những thuộc tính khác riêng của nổ Trong ví dụ, các thực thế phụ đéu có ỈD Vù na và ID Đại lý

là những ihuộc lính c ô hữu Và, các thực thế phụ đều có nlurna thuộc tính riêníỉ của nó như sỏ lượng lìiỊiíừi (lúniỊ kv íiè / 1 mặt, iliợ/i lích niậi hthiiị cửa thực thổ phụ RETAIL S T O R E

Trang 40

Những lợi ích [hực lố của supertype & subtype !à nó him cho mò hình dữ

liệu có ý nghĩa trực tiếp Ví dụ chí cấn nhìn qua sư đổ ER chúng la có ihế hiểu dược các đại lý bán hàng bao gồm cá các cửa hàng bán lé và các ván phòng bán hàng của công (y

Những lợi ích khác của supertype và subtype !à nó làm cho mô hình dữ liệu san sàng hơn trong việc hồ trợ phát men cơ sở dữ liệu linh hoạt Đè’ khai triển các thực thế supertype và subtype vào các báng biểu, chúng ta có thế nghĩ đến một số sự lựa chọn ilụrc hiện Chúng ta có thể chi lập một báng trong

đó có một thuộc tính là chỉ thị và các thuộc tính khác là bằng không Hay nói cách khác, chútìg ta có thể chí có các bảng biếu loại subtype với nó mọi thuộc tính của supertype được kế thừa Một sự lựa chọn khác là lập báng cho từng thực thể Mỗi sự lựa chọn đều cần cân nhắc kỹ lưỡng Qua việc xây dựng supertype và subtype có thể thực hiện một mô hình dữ liệu rất linh hoạt Việc tạo subtype cũng làm cho mối quan hệ Irở nên rõ ràng Ví dụ, giả thiết rằng chúng ta có một thực thể NHÂN VIÊN BÁN HÀNG và rthủn viên bán hàng chí chính thức có ở các phòng bán hàng của công ty Không có phẩn subtype của ĐẠI LÝ BÁN HÀNG trong PHÒNG BÁN HANG CỦA CÔNG TY và CỨA MÀNG BÁN LẺ không có cách nào đế diễn tá những ràng buộc một cách rõ ràng dứt khoái sử dụng các ký hiệu ER

Đôi khi việc sử dụng không thích hợp supertypc hoặc subtype trong xảy dựng mồ hình ER có thể dẫn tiến những rác rối Ví dụ, một người có thể vừa là nhân viên bán hàng cho công ty CelDiai vừa là khách hàng Chúng ta phải xác định con người như là một supertype của nhãn viẻn và khách hàng Nhưng trôn thực tế điều này khỏng tiling Nc'u chúng ta muốn có một mô hình rất chung, tốt nhất chúng ta phái thiết kế mộ! (hực Ihế kết hợp giữa con người và công ty, hoặc chí để nó như những thực thể khách hàng và nhân viên bán hàng

C ác ràng híỉỀL

Một số các ràng buộc cỏ thế tlưựe-ihể hiện bằng những mối quan hệ tron<2 mô hình Những quy tác nguyên vẹn có liên quan cơ bủn có thể clưực nhận dạng bằng các mối quan hệ và số các yếu lố trong một lấn tập hợp của chúng Tuy nhiên, những ràng buộc riêng biệt ví dụ ’'chí khi các biến thể của thực thế bố mẹ TÀI KHOẢN là nhữn« tài khoan kiếm tra thì biến thế của thực thế con KIỂM TRA TÀI KHOÁN CHI TIẾT có thế tổn tại” không thể hiện lrên sư (lổ ER Nhĩrnu ràng buộc này có thế được hổ sung rò thêm trong mô hình bã [Vi cách dưa (hôm Ihônu báo vố sự ràn ti buộc Điếu lìàv dặc biệl hữu

XỊ

Ngày đăng: 16/03/2021, 10:16

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w