90 là lììộl sự kèì hợp cúa mộl số ũiái pháp kỹ lliuặt và dược đặt lèn là Data W:ựchoushinsí - kỹ Ihuật xây tlựrm các kho dữ liệu.Data Warehouse hay DWH kho dữ liệu được dịnh nghía như mộ
Trang 1L U Ậ N V Ã N T H Ạ C s ĩ Chuyên ngành : Công Nghệ T hông Tia
Mà số: 010110
Người hướng dán khoa học: TS Đ ặng Q uang A
Hà Nội - N ăm 2003
Trang 3K h á c h h à n g B Đ H N
c h ă m sóc k h á c h h à n g c ủ a B Đ H N
Trang 4CHƯƠNG 1 KHO DỮ LIỆU - LỊCH s ử PHÁT TRIEN VẢ MỘT s ố
k h ổ ng lổ m à trước dó k hô ng thể ihực hiện dược bằng tay Trong thời gian đầu các m áy tính chủ yếu tập trung giãi quyết các bài toán như giải hệ phương trình, tính toán kết cấu cồ n â irình, tính toán xây đựng kế hoạch quốc gia, thống kê diều tra dàn số, luyen sinh , là những bài toán lớn, có thuật toán xấc định
T ừ cuối những nãm 70, (lầu những năm 80, cùng với sự xuấl hiện của dòn g máy PC với năng lực lương Lự máy tính lớn của Ihời kỳ đầu và với má thành ngày càng ré, m á y vi Lính dã iham gia vào mọi m ặt của dời sống xã hội Rất nhiêu lĩnh vực tnrớc dây được thực hiện Ihử công như giao dịch bấn hàng, quàn lý vật lư, nhàn sự , dược vi tính hoá.G óp phần tích cực vào quá trình này !à sự xuất hiện của những ngôn ngữ lập trình hướng cấu trúc, phần mềm được coi Lì một nghé và có quỵ trình phái trien tuân thủ các quy trình rmhiêrn ngặt Các còng tỵ phần m ém bán trên thị trường những CSDL quan hệ chạy trên các máy dể bàn nh ư DBASE,ACCESS, F O X P R O , SQL Server , tạo diều kiện vố cùnii thuận lợi ch o nguời phát triên Dường nh ư máy tính và những chương n i n h cứa nó dã giai tjuyêi (lược háu hết các vân đè irong lĩnh vực quán
lý Tu y nhiên vấn cté có lẽ kh ỏnn đơn gián như vậy
Trên thực tế, các công ty muốn thành công irên thị trường, ngoài việc tổ chức bán hàng lốt (giao dịch dơn gián, thuận liên cho người mua và nsười quán !ý bán lùm“ ), neưòi lãnh dạo công ty phái nám được thực chát các quá trình diễn ra irons» đơn vị mình và irong mỏi trườnií kỉnh doanh mà đưn vị đó hoạt động Th è m nữa, sự hiếu biết đó khôn 14 chỉ đặi ru khi corta: ty đang ỉ ặ p khó khăn mà ìmav cá trong iiiai đoạn cõny việc phát Iriên tốt Phương pháp được coi là tối ưu dế dieu hành là phàn lích mội cách phổ phán hoạt động của
Trang 5xí riühiçp mình, tlặl ra cáu hôi vé nhữnu vốn ló anh lì ƯỚM‘2 (lốn CỊIIÚ trình sán xuài va lìm ra càu n ã lòi chính xac [rong thời iiiun imán nhàm dại !ựi nhuận cao nhất.
Đè thực hiện các cỏn li việc của một cônn ly niiirời la có nhiều hộ ch ươn ti Irình lự (-lộng hoá các tĩnh vực quan trọn» như ke loán lập kế hoạch, iĩiao dịch khác h liànu lập hoii dơn Tuy nhiên, mỏi hệ điươnií Irình này chí phục vụ chủ yếu cho sự hoạt độntĩ của côiiiĩ ty n o n g mội lĩnh vực nào dó.Vì vậy các
m ẩu tin trong các hệ ihống ctó, vé hán chất phan ánh một hoặc mội vài khía cạnh của một giao dịch Chính vì lý do đó những hộ ihốiiiì này có một cái tồn
c ố điên là hệ thống xử lý sitio dịch (OLTP- online transaction processing).Sau ctûv là sơ đổ một hệ thống O L T P diên hình
H ìn h l M ỏ h ìn h m ộ t h ệ th o iiỊỊ O Í T Ỉ ’
Minh I irình bấy mỏ hình 1 hộ thởuíi OLTP, hệ thống này cho phép các giao dịch ihay dổi dữ liệu trona biins (ví dụ bang các lệnh inserí, update, delete,join.,.) irong quá irình xứ lv Tron tì hình I ớ irèn, 3 ứ nu dụng trinh khách dang truy cập dữ liệu từ cơ sỏ' dữ liệu quan hệ với các Ihiio tác insert,
gian
Trang 6Các ứiiii (June Irền cliciii hao gồm lúi cá các loại ứng dụn g như ngân hàng, bán vé trực luyến, bán vé hàng không, Ihanh toán cước phí Sứ (lụnti hệ
th ống O L T P có các ưu cticm sau:
- Xứ íý các c hu y ển lác t ươn s tác
- Dẻ báo trì và khống c h ế d ữ liệu thừa
Các CSDL trong các hệ O L T P thường dược thiết kế theo chuan 3 hoác tốthơn
Đặc điểm của hệ thống O L T P là nó lưu trữ các dữ liệu '’thô", có nghĩa là mức độ tổng quát, trừu tượng của dữ liệu này rất ihítp Nói cách khác O L P T
do công ty bán được trong 6 tháng đáu năm,mặt hàng nào bán chạy nhất tại địa phương Y trong tháng vừa qua Trong khi đó các nhà quan lý ở mức cao của cô n g ty rất ít khi quan tâm đến những câu hòi loại đó Điểu họ cần chú ý
là những càu hỏi trừu tượng hơn như: Tiêu thụ A tại B dang giam, nếu thay đối
3%~5% giá của san ph ẩm A lại khu vực B, tình t rạ n s tiêu thụ sẽ thay đổi ra
Rõ I'àng là các hệ thống O L T P hiện nay Irã lời rất lốt câu hỏi ỉ bồng các công cụ của hệ CSDL quan hệ nhưng dể lìm đáp án cho những câu hỏi dạng 2
là không đơn gian Crin phái xem xél 1 loạt các yếu tố ánh hướng đến việc liêu thu san phẩm A, các yếu lốt dó có thế là:
+ Chương trình quáng cáo k hố ng hiệu LỊuá
+ Việc tìm hiếu thị trường khôn g lốt
+ Việc tổ chức bán hàng ớ B kém
+ Việc bảo dá m chất lượng của sân phfim A khô im tôt
+ Sự ihay đối cúa mức sống tại địa bàn B
Bán Ihùn việc tìm ra nhữniĩ nhân lố có ánh lurớnũ đến quá trình dã là một
■ >ì
Trang 7định sơ bộ dược c;íc you tố náy can xây ilựniỉ các chươnụ Irình nhăm xác (.tịnh mối quan hệ cú a you lố (.10 với quá Iiình liêu (hụ săn plũiiìi Dày là một cõng
nhún« CS DL khác nhau Nhữnií yếu lố căn hãn cán trớ việc sứ đụiì‘j tlữ liệu của các hệ th ổ n'2 O L P T trorìíỉ việc phàn tích (lữ liệu là:
+ Các số liệu ớ mức quá chi tiếl
+ Các số liệu được phân bố ớ nhữnu hệ Ihốntí khúc nhau, cổ các ihủ lục Iruy cập khác nhau và ớ những CSDL hoàn toàn khác nhau
dồng bộ
+ Việc lố chức truy cập lừ rất nhiều bán ự; dữ liệu khúc nhau có ảnh
Ihỏng tin,thiếu tri ihức dược John Naisbeli cánh báo:”Chímỉỉ ta dang chìm ngập trong dữ liệu mà vần đói tri thức."
Từ nlìừnỉĩ haì cập cùa các hệ !hô'rm xử lý lỉiao dịch trong việc cung cấp các thông tin hỗ trự việc ra quyết định, từ nhữnỉĩ nãm 1983 các nhà nghiên cứu dặt ra một vài giai pháp nham vượi qua các bế lác vừa dinh bày ờ trên Giái pháp đầ u liên là lích hợp các hệ Ihốnii O L T P tie tạo ra mộl hệ thống chứa dẩy ti ủ I h ò n SI Ún Giãi pháp dó có hai nhược điếm lớn:
mồm hệ (lìóne.Các chươnu trình cần có sự thốn« nhà! ve định nuhìa dữ liệu
cũ nạ như phương pháp biếu diễn dữ liệu Vấn đc này rãi phức lạp thậm chí đối
nhữna hệ (hống dược mô lá kém
Trang 8I).Việc truy vàn de lạo báo cáo 1 hường xu vòn phái khua rát nhiều bán Li,
cán trớ sự truy xuàì của nhũn viên khai Ihác ironu quá Irình làm việc hàng ngày và làm ánh hướng lrực liếp den khách hàim
90 là lììộl sự kèì hợp cúa mộl số ũiái pháp kỹ lliuặt và dược đặt lèn là Data W:ựchoushinsí - kỹ Ihuật xây tlựrm các kho dữ liệu.Data Warehouse hay DWH (kho dữ liệu) được dịnh nghía như một tập hợp cúc phiíơniĩ liệu cho phép hình
đ u ng dữ liệu một cách tổng thế, lurớnu (-tối lirựiiũ dế ui úp cho việc phân tích và
+ Làm sạch (Bỏ các dữ liệu không cần thiết hoặc quá chuyên dụng)ì- Liên kết các số liệu (Tính trước số liệu tích, tổn«, trung bình )+ Biến dổi d ữ liệu: số liệu dược biến dổi thành dạng thích hợp, tổ chứclại phù hựp với DVVH
+ Tích hợp số liệu lừ các nguồn khác nhau
+ Đổ ng bộ lioá số liệu ớ mội ihời điếm xác định
D WH là hệ thống dữ liệu dã được ch nấn bị đế xây (ỉựnsi hệ hỗ irự quyối định (DSS-Decision Support Systems) và hệ phàn tích trực tuyến (C)LAP- Online Analysis Processing) vì rang dữ liệu troniz DWH ihoá mãn tính châì loàn vẹn và có sự liên kết nội lại : Mặc dù dữ liệu được cuna cấp lừ nhiéu OLTP, chúng được liên kết bằn ũ sự thốnu nhài tro nu quy lắc dặt tôn, (lơn vị
do, hệT hố ns các thuộc tính chunụ Điều này có ỊỊÌá irị dặc hiệt khi xí nghiệp vận hành một lúc vài hệ [hống, trone dó các dữ ỉ ICII íitrọc biếu dien bàn» nhữnu dơn vị khác nha u( Ví dụ như các cách bicu dien Iiìỉày, tháng khác nhau hoặc biếu dien logic khác nhau.) Các chỉ số quan trọiiiĩ có như tổntĩ số, »iii irị trung hình trong các lĩiai đoạn kluic nhau, Irunự hình cọn II cũng được biêu dien ral đa clans ớ các hệ khác nhau
Trang 9Khi dưa số liệu vào DW H mọi chí số khỏnii urơng ihícli được chuyến dổi, tránh các lỏi tiềm làng Imnụ hệ ihống.
Sau dây chima ta sẽ xem xét các khác biệt cơ bán giữa O L P T và DW H để
Trang 101.2 CÁC YÊU CẦU CO BẢN CỦA MỘT HỆ THỐNG DHW
DW H là sự lích hợp các (lũ liệu lừ các O L P T khác nhau nhằm tạp hợp dữ
liệu phục vụ quá trình phân tích hoại dộng kinh doanh nên dữ liệu Irong ỉ hệ thông D W H cẩn ihoá mãn một số yèu cáu chính sau
1.2.1 Hướng chủ (lè:
Các hệ thống O L T P có the chứa hàng trám Gb số liệu, tuy nhiên những
số liệu này có thế hoàn toàn vô ích trong việc phàn tích trực tuyến (VD: Địa chi, ID khách h à n g ) Các d ữ liệu kiểu này thường không dược đưa vào DWH
để hạn c h ế dữ liệu cần xem xét xuống mức tối thiếu nhưng cũng báo đá m các thông tin theo từng SA(vùng chủ để- Subject area)
M ộ i vùng chủ để là một chú để dược tách ra từ một tập hợp lớn các chủ
hàng,thời gian hay sản phẩm.)
1.2.2 Số liệu có tính lịch sử:
Các hệ O L T P thường bao quát một khoáng thời gian k h ô ng lớn và chúng được kru trữ theo chu kỳ Ngưực lại trong DWH, dữ liệu của hàng chục năm dược !ưu trữ nhằm phát hiện sự liên hệ của các yêu tố có thể ánh hưởng đến những chi tiêu cán quan tủm trong một thời gian dài
1.2.3 Sô liệu chỉ đè đọc
Dữ liệu đưa vào D W H chí dể đọc, việc sửa dữ liệu hầu như không được liến hành vì (.tiều này có thể ciãn tiến phú vỡ sự toàn vẹn Th ôn g thường người
ta không yêu cầu giảm thời gian dưa dữ liệu vào D W H xuống mức tối thiểu,
nh ưng cẩn tối ưu hoá DWI-I sao cho các truy vấn phục vụ cho việc phân tích đại lốc độ tốt nhiít Các sơ đồ quan hệ sẽ lạo ra các Index hợp lý cũng như tạo
ra sẩn các d ữ liệu kết hợp
1.2.4 Sò liệu không biến động
T h ô n g till tronc D W được lai vào sau khi d ữ liệu trong hệ thống điều hành được cho lù quá cũ Không biến động thể hiện ớ chỗ: Dữ liệu được [ưu trữ làu dại trong kho dữ liệu Mặc dù có thêm dữ liệu mới nhập vào nhưng dữ liệu cũ trong kho vần không bị xoá, điều dó cho phép cung cấp ihởng tin về một khoàng thời gian dài, cu nạ cấp đủ số liệu cấn ihiết cho các mô hình
na hi ệp vụ phân lích, dự báo
7
Trang 111.3 KIẾN TRÚC THAM CHIẾU CỦA MỘT DYVH
Kiến !rúc tham chiếu cua một DYVH cho phép người xây dựng và người khai thác cỏ cái nhìn tổng quát vế các bộ phận cấu thành nên DYVH.Sau đay làkiến trúc tham chiếil điển hình
Lớp quán lý dữ liệuCầc
nguồn
dữ liệu
Khối tạo dựng D W
Khối tạo dựng Daiamart
Truy nhập và
sử dụng
Lớp quán lý MetadataLớp ch uyể n tài dữ liệuLớp kết cấu hạ lầng
Trong dó Data Mart ỉà các kho dữ liệu cục bộ và MelaData là siêud ữ liêu
n h ằm mô tá cấu trúc và nguồn gốc d ữ liệu trong D W H
1.3.1 K h ố i các n g u ồ n d ữ liệu
Bao gồ m các phần sau:
dụng và các hệ CSDL tách nghiệp đủ loại
khai thác dữ liệu cũng ihường xứ lý trôn các dữ liệu
X
Trang 12Bao g ồ m các khối con:
K h ố i con lin h chư: Liên quan tiến việc nànu cao clùil lượng cùa d ữ liệu
Có các chức nâng chính sau dối với các dữ liệu:
• Là m sạch
• Sàng lọc
• Tương hợp
• Phàn định thời gian cho các thông tin nguồn
• Cơ c h ế quản lý siêu dữ liệu cho khối con này
K h ô i c o / 1 íiia cô)IX la i: Có các chức năng sau:
• Tích hợp các dữ liệu khác từ cấc hệ thống để tạo ra d ữ liệu mới
• Tính loán sơ bộ, lốntĩ hợp và kết xuất dữ liệu theo yêu cáu của người
sử dụng
• C h uyể n đổi và hình thành lại các dữ liệu từ các nguồn khác nhau, kết hợp trong cùng m ộ t dạng
• Cơ c h ế quàn lý các siêu dữ liệu
K h ố i coII D ata W arehouse': hao gồm cúc chức năng chính sau
• Mô hình hoá, lổn« hợp và kết nối mức độ cao các dữ liệu
nguồn ilữ liệu
1.3.2 Khối tạo dự n g kho (lữ liệu
Trang 131.3.3 K h ố i tạo d ự n g k h o d ữ liệu cục hộ
Dùriũ đê lạo ra Dalumart từ các nội (.luna của Data Warehouse Cũng
gi ốn g như khối tạo dựng Data Warehouse, trong khối này cũng có những chức năng như khối Irèn nhưng ilurờng ớ mức cao hơn và có hướníi chủ dể rõ ràng Các chức năng chính có trono; khối này là:
các phương pháp:
hình hoá, tổng hợp, kết nối, dung hoà và ní\ng cao giá trị chẩt lượng
Khối con 1 có những chức nâng chính sau:
• Gia công ỉại và biến đổi d ữ liệu ihành các loại d ữ liệu có cấu trúc phức lạp hưn
Khối con 2 chứa các chức năng chính sau:
• Tạo ra các cổng cụ chu ấn đe tạo báo cáo, phàn lích, mò hình hoá tác nghiệp
• Tạo ra các phán m ềm trợ iziúp ra quyết định, các phần mềm khai thác dữ liệu
10
Trang 14Cá hai khối con này ctéu có cơ c h ế quán lý sicu dữ liệu của chúng.
Ngoài ra người ta có thể cát ngang một hệ thống DWH Ihành các lớp,phạm vi các lớp nàyclược xác dinh dựa vào kỹ n a n s của đội ngũ cài đặt
n h à m dưa ra được những lựa chọn về sán phàm và dối tấc.Các lớp này bao
g ồ m :
1.3.5 Lớ p q u ả n lý d ữ liệu
Bản thân kho dữ liệu là một hệ thống thông tin lớn cho nên cũng giống
n h ư các hệ quản trị cơ sở dữ liệu tác nghiệp thống thường việc quán lý dữ liệu
đ ó n g mộ t vai trò rất quan trọng, n h í t là khi phải quản lý một khối lượng rất lớn các dữ liệu lịch sử và hiện tại, với nhiều kiểu loại khác nhau rất phong phú
và đa d ạn g dược lưu trữ lĩung nhiều loại hình vật mang thông tin Việc quản lý
d ữ liệu này tạo môi trường hoạt dộn g cho chính các khối chức năng Có thể thấy rằng những chức năng như nhập vào, nạp lại, trích đoạn dữ liệu, tuân thú
an toàn, lưu trữ, khỏi phục dữ liêu có trong Data Wareh ou se là riliờ lớp quản !ý
d ữ liệu
Nhữn g chức năng chính ở lớp quán Ịý dữ liệu là:
việc tinh c h ế và gia cô n g lại dữ íiệu trong Data Warehouse
nguồn dữ liệu khác nhau
hoặc cập nhật và làm sạch d ữ liệu
Mặ t khác, có thể thấy lớp quán lý dữ liệu sẽ Ihống nhài các phương pháp quán lý dữ liệu, các tlìú lục, các phép loán phục vụ cho việc an toàn, phàn quyển truy nhập, 1 ưu trữ và khôi phục dữ liệu Việc thực hiện các xử lý song song cấc chất vấn và phục hổi việc sú dụng các xử lý song song cho việc iruy nhẠp d ữ liệu cung được quán lý irons lớp này
Chúng la có thể thấy lớp quán lý dừ liệu có những chức nũng quản ]ý mới khác với các chức nàng của hệ quán trị cơ sớ dữ liệu thông thường
Trang 15Vì lính da (lạníi của Cite kiếu loại dữ liệu và các phươniĩ pháp quán !ý dữ liệu mới khác so với các hệ CỊUÚn trị CSDL tác ntỉhiệp, việc s ứ d ụ n a các dữ liệu
dù ng dế dịnh rmhìa và xác định các loại dừ liệu, các phươrm pháp xứ lý, các phương pháp quán lý d ữ liêu, các biếu báng trong kho dữ liệu tăng lên rất lớn, cho nên phái tính đến việc quán lý dữ liệu này Vì thế trong kho d ữ liệu phái hình thành lớp quan lý siêu dữ liệu phục vụ cho công việc lưu irữ, xử lý các dữ liệu này
Trong việc thiết k ế các kho dữ liệu, các siêu dữ liệu thể hiện ớ khắp nơi Các nguồn dữ liệu dược dặc trims bởi định nghĩa của các dữ liệu nhập vào Việc bổ xung các nhãn ihời gian đòi hỏi phải định nghĩa các nhãn thời gian dùng trong siêu dữ liệu Lớp quan lý siêu dữ liệu cũng quan lý các dữ liêu
mô tả đầ y dủ và hoàn chính các dữ liệu được Um trữ trong DW
Các chức năng chính của Ịớp này là sao chép, tạo mới, lưu trữ, phục hồi, làm sạch và cập nhật các siêu dữ liệu sau dày:
• Các mô hình d ữ liệu vật lý, logic của Data Wareho use và Datarnart; Các sơ đổ iương ứng cũng như các hàng chú giái về kỷ thuật, nghiệp
vụ ctirợc lưu và quán lý troníĩ dó
• Các định nghĩa d ữ liệu chuán (bao gổm ca định nghĩa kỹ thuật và miêu úi nghiệp vụ) của các dữ liệu lưu trữ trong DW
gia công lại
• Các siêu d ừ liệu có trong các quá trình phàn {loạn, kếi nối tổng hợp,
• Các siêu dữ liệu (ỉế mỏ lá các báo cáo và cấc cáu hỏi/tru cứu
• Các siêu dữ liệu mò tá các chi số, các chú giái dù n e dế truy nhập dữ
Trang 16Nhiêm vụ chuyến tái dữ liệu giữa các khối (lo lớp này thực hiện Lớp nay
sử dụ n g các chức lúíim cập nhật, sao chép, chuyên lái dữ liệu và cấc hệ thống mạng, các phán mềm lớp Iruim gian (Middleware tools), báo đà m tính an toàn
vù phân qu yền cho các nhu cầu chuyến tái d ữ liệu
Lớp chuyển lái xác định các cầu nối ưưyền thôn Li cần thiết giữa các trang Ihiết bị phấn cứng và phần mểm của Data Warehouse
Lớp này có thành phần chuyến tải cỉữ liệu và m ạ n s bao g ồ m các loại hệ thống sau:
• Các giao tác m ạng như TCP/IP (Đó là các quy định ch ung cho irao đổi dữ liệu)
• Các cơ ch ế quản lý mạng: Ví dụ như IBM Net View, Sun s o f t ’Sunnet manager
• Các hệ diều hành mạng
Lớp này chứa các loại thiết bị SLiu:
• Các cổng kết nối cơ sớ dữ liệu (Database gateways), các Ihiết bị
ch uy ển lải giữa các giao thức
• Các phần m ề m lớp trung gian hướng thòng háo (M es sag e oriented Mid dleware) ví dụ như IBM MOSeries
Các yêu cáu về an toàn (lữ liệu và phủn quyền iruy nhập cũng được thựchiện ứ Ironu lớp này
1.3.7 Lớp chuyên tài dữ liệu
Trang 171.3.8 Lớp kết cáu hạ táng
lý và xác định các phấn m ềm chuẩn và các phấn mồm ứne dụ ng cho nỵười thiết k ế hệ thốn« và người sử dụng niĩhiệp vụ
T h à n h phíìn thứ hai của lớp này sẽ trợ giúp cho Lị LI á trình tích hợp, quán
lý các phần mém chuán, các phần mồm ứng dụng và hoạt dộ ng khác để sao chép, cập nhật, kết nối, lổng hựp dữ liệu trone các khối tạo dựng Data
W ar eh o u se và Datamart nh ằm nâng cao hiệu quà và năng suất làm việc cho người thiết k ế hệ ihống và xử dụ ng nghiệp vụ
T h à n h phán tiếp theo phục vụ cho cổng việc lưu Irữ Th à n h phần này cững c u n g cấp các dịch vụ quan lý cho khối các nguồn dữ liệu, các khối tạo dựng Data Wareh ou se và Datamart, cấc lưu trừ cục bộ và nhiều chiểu cho khối truy nhập và sử dụng
Th à n h phẩn cuối cùng của lớp này bao gồm các hệ thống xử lý Chúng tạo ra các môi trường làm việc cho các khối chính như: Các nguồn dữ liệu, tạo dựng Data Warehouse, tạo dựng Datamart Ngoài ra, [ớp kết cấu hạ tầng còn bao gồ m các hệ Ihống sau:
Các hệ quán lý cấu hình trang thiết bị
Các hệ quàn lý việc lưu trữ
Các hệ quán lý an loàn dữ liệu
Các hộ quản lý phân phối cúc phán mém
Các hệ quán lý các liccnce
Trang 18N h i ệm vụ chính của D W H là phục vụ cho các hệ hỗ irợ quyết định Các
d ữ liệu cơ sớ irong D W H có thể được biếu diễn dưới vài kh uỏn d ạ n g khác nhau nhằm đ áp ứng không chí các câu hỏi cho trước mà cho cá các câu hỏi chưa xác định
D W H có kích thước ml lớn vì nó chứa toàn bộ dừ liệu lịch sử Chính vì lý
do kích thước, d ử liệu trong DW dược phán chia làm hai loại: tích cực và
k hô ng tích cựe.DVVỊ I chứa các dữ liệu tích hựp ớ nhiều mức
M ứ c ỉìiỊttỵên tử (m ức ỉ hấp n ỉìẩ ỉ) chứa cốt lõi căn bàn nhất và là một snapshot (dữ liệu được ghi lại ở một thời điếm) đúng lúc của dữ liệu Dữ liệu được tống kếl theo các giai đoạn thời gian như theo từng giờ, theo nửa ngày, theo ngày hoặc Iheo lừng tuần Mức theo (ừng giờ là xứ lý phức tạp nhất
M ứ c ỉd/ìiị th ế th ấ p : Th ông lin dược tổng kết lại là các thông tin được lốm lái và kêì hợp lại chơ một mục đích kinh doanh cụ ihế Điển hình là dữ liệu được tổng kết theo thời gian như íheo ngày, tuần, 2 luẩn hoặc một tháng
M ứ c toiìíỊ ỉìiâ c a o : Thôn lì Ún (.lược tổng kêl lại ớ mức cao là những thông
1 ìn được lỏm lát và kết hợp theo mội lý đo nào dó rấỉ cụ thể Điển hình là dữ liệu dược lổn í» kết sau mội thời Siian dài ví dụ như hàn.» ihán.ỉỉ, hàng quí hoặc hàng năm
cho quá trình khai thác san này
C ác dặc Lính này là chung cho mọi DVVH.Troniỉ ý nviliĩa đó, mọi DW H
Trang 19Đây là những DW được xúy dựng sớm nhất hỡi lẩm quan trọng của nó
Ng uy ên nhàn của điéu này là:
chức Chính vì vậy việc khai thác d ữ liệu này dưới nhiều khía cạnh khác nhau luôn là một vấn đề hấp dẫn
- Dữ liệu tài chính có mức ổn định cao
- D ữ liêu tài chính liên quan đến mọi lĩnh vực hoạt độ ng của công ty
và có độ đo (ương đối rõ ràng (các đơn vị liền tệ)
tài khoản, điều này ành hưởng trực tiếp lên quá trình xử lý và khai ihác dữ liệu
Các n g uy ên nhAn kê’ trên trở thành một lý do chính để xAy dựng các
D W H phục vụ công tác phán tích hoạt độn g tài chính Tu y nhiên x ây dựng các
D W H từ các dữ liệu tài chính có những khó khàn rất đáng kể, đạc ihù cho những d ữ liệu loại này Điều đầu tiên là người ta thường yêu cáu clữìiệu trong
D W H phải chính xác tuyệt đối với các dữ liệu từ các nguổn OLTP Điều này
rõ ràng là k hô ng tưởng vì d ữ liệu từ O L T P phải qua quá trình chuyển đổi và có thổ thay đổi các độ đo theo yêu cáu c ủ a D WH Các thay đổi này có thể rơi vào một số trường hợp nh ư sau:
quá trình thu thập không chí trong mội tháng mà theo các tiêu chí phục vụ quá trình phùn tích,ví dụ theo năm tài chính)
n h ất thiết phủi giống các h áo cáo lài chính
vị đo khác nhau (VND,USD ) đặc biệt là các đơn vị tiền tệ thay dổi trong nhiều hộ thống O L T P và DWH
Đ ày Ịà những lý do chú yếu khiến cho tiữ liệu trong các D W H tài chính khác với c á c hệ xử lý iĩiao dịch ĐAy là đặc điểm m ấu chốt cán làm rõ trong quá Iiinb xây I lụn lĩ DW H
Kì
1.4.1 DYVH trong lĩnh vực tài chính.
Trang 20Các D W H phục vụ bảo hiếm có vài nét khác biệt so với các hệ thống khác Điểm khác biệt đầu tiên nằm ở chồ dữ liệu trong lĩnh vực này được lưu trữ trong một thời gian râì dài Hoàn toàn lự nhiên nếu chúng ta cần phùn tích các dữ liệu báo hiểm trong vòng 50 năm hoặc 100 nãrn Vấn dể cần giai quyết
là đưa những dữ liệu có n g uồn gỗc rấi xa xưa đó (khi chưa tổn tại các hệ thống
má y tính) vào hẹ ihống DWH
Vấ n đề Ihứ hai là sự đa dạng của dữ liệu Các hệ thống bảo hiểm có mức
độ phong phú về dữ liệu hơn hần các hệ thống khác do bản chất bảo hiểm bao trùm mọi lĩnh vực hoạt động xã hội Việc chuẩn ho á cấc đơn vị là vấn đề cần giải quyết khi xây dựng DW H
Một vấn để nữa cần giải quyết là chu trình dữ liệu trong các hệ thống bảo hiểm hoàn loàn khóc với các hệ thống m à chúng la thường làm quen Trong lĩnh vực bảo hiểm có thể có những yêu cầu bảo hiểm cần thiết thực hiện sau 5 năm hoặc sau một thời gian thoá thuận nào đó Có thể nói rằng tốc độ biến dổi đặc trung cho báo hiểm sẽ khác với tốc độ đặc trimg cho các lĩnh vực khác
Sự khác biệt tốc độ dược phản ánh trong DYVH.Trong các D W H khác các giao dịch đơn giản được g o m góp lại và xử lý Trong lĩnh vực bao hiểm giao dịch có thể được tích luỹ với thời hạn không xác định, các thành phán khác nhau của nó được thể hiện trong DWH Kết quá dó là sự tiếp cận hoàn toàn dạc biệt với sự thiết kế và ứng dụng các DW H như vậy
L.4.3 DYVH tronịỊ lĩnh vực điều khicn nguồn nhân lực.
DW H dùn g điều khiến nguồn nhân lực có những khác biệt rất cơ bán với DW H khác Th ứ nhất là số lưựng các lình vực đối tượng DYVH này chỉ có một đối tượng tối quan trọng là công nhân, tất cá những cỉiéu còn lại chí là thứ yếu Trong khi đố,phẩn lớn các D W H khác có nhiều đối tượng cơ sở
Tuy nhiên, sự khác biệt cơ bãn của D W H dùn g cho quán lý ng uồn nhân lực là ớ chỗ các D W H đó SỪ dụn g râì ít giao dịch Có d ữ liệu thể hiện đối tưựng là công nhủn, có d ữ liệu thế hiện khi có người thôi việc, những bố sung phát triển hàng năm Nhưng ngoài quỹ tiền lưưnu và một vài yếu tố liên quan đến công nhân khác, thực tế trong D W H đó chán« còn gì hơn So sánh mỏi (rường quàn lv nhàn lực với mỏi trường ngàn hàng chẳng hạn sự khác biệt về
số lượng íỊÍao dịch rã! rõ rà nu
1.4.2 DYVH tron g fililí vực bao hiểm
17
Trang 21Sự kh á c biệt VC tốc độ giao dịch giữa mỏi irườnỉỉ trên với những mòi Irường hoạt độn g khác là nguyên nhân xuất hiện sự phức tạp nhất ctịnh, đó là
lượng lao dộ ng chân tay và những nhàn lực trong hệ thống tiếp nhận quyci định vào một môi trường thống nhất T r o n s các lĩnh vực khác việc thực hiện
n h ữ ng chỉnh lý kiến trúc như vậy rất ít
1.4.4 DYVH diện r ộ n g
D W H diện rộng dược sứ dụn g cho việc mò là bao quát các tập đoàn lớn
P hâ n biệt 3 loại D W H :
hoạt động kinh doanh tại Hồng công với những hoạt động kinh
d o a n h tại Paris, mà nó đến lượt mình lại cần tích hợp với Rio de Janero, và thành phố này lại tích hợp với Nevv-yok
với các hoạt đ ộ n " cung ứng, hoạt động này lại tích hợp với kinh doanh, và công việc này đến lượt minh lại cần tích hợp với các hoạt
đồ ng nghiên cứu V V
nó lại nằm trong việc tích hợp với việc kinh doanh các thiết bị y lế, lĩnh vực này lại liên quan đến cung ứng theo các chuyên nghành
Đ i ề u đặc biệt của D W H diện rộng là ờ chỗ ớ mức độ tổng thể có rất ít
đi ểm ch u n g Điéu chung duy nhất là tiền Và sự tích hợp việc kinh doanh chí đạt dược với sự trợ giúp của nó Những điểu khác có Ihể có hoậc không có ý nghĩa trên mức độ tổng thể Ví nh ư khách hàng, sán phấm, người cung cấp, tất cá các yếu tố này cổ thể có mạt hoặc không ớ mòi trường (ích hợp diện rộng đó là cá c DWH diện rộng
IX
Trang 22Nếu như trong các DWH khác sự thay đối các dữ liệu cơ sớ xáy ra 1'âì ít ihì với d ạ n " DW H này xảy ra thường xuyên và thậm chí lận gốc rỗ Ví dụ vào thời điểm bất kỳ nào đó có thể tìm thấy giến e dầu mới, ví dụ tại Vênèxucla Mội phút sau đó ớ Peru lại xúy ra cuộc cách mạng Và những diều đó ánh
như xét trên phương diện tổng thế thì những thay đối đó mang tính chất thường xuyên Vì vậy cấu trúc và công nghệ được áp dụn g cho D W H dạng diện rộng cần cho phép đáp ứng các thay đối liên tục này
1.4.5 D W H với tí n h n â n g D a t a m i n i n g
D W H với công nghệ Data mining (khai phá dữ liệu) là các biến thể của các D W H truyền thông Nhữn g D W H này sử dụng dể thực hiện các hiệu chỉnh các dừ liệu thống kê lớn Nhữn g đặc điểm của D W H loại này là :
- Có quan hệ lịch sử sâu xa
Ngoài ra các D W H này còn định hướng tới một dự án nào dó Điều dó có nghĩa là k há c với các D W H khác nó được sử dụng ngay lộp tức đế thực hiện các phân tích cán thiết cho dự án
Một khác biệt quan trọng nữa cúa D W H với công nghệ Data mining là chúng rất thường xuyên [fl'y thêm các dữ liệu bên ngoài Những d ữ liệu đó rất
có ích xét theo quan điểm đám bảo liềm năng kinh doanh mà (tiều này rất khó nếu thiếu thiếu các dữ liệu mới nhất
1.4.6 D W H t r o n g lĩnh vực viễn t h ô n g
Điều đặc biệi của các DW H ớ chỗ chúng được xây đựng phục vụ nhu cáu phíìn tích Tất nhiên trong lình vực viễn ihổng có rất nhiều dạ ng d ữ liệu khác
đô cuỏc «oi.«-<• •
Trang 23• Lưu trữ chi tiết trong một vài tháng;
DYVH này chí xử lý trên các chi tiết ở mức độ cuộc gọi,rất ít các dữ liệu tổnghợp ho ặc tích hợp
N hư vậy, chúng ta đã xem xét những khác biệt chính của các dạng DWH
k h á c nhau
k h ô n g có sự chính xác tuyệt dối với các thông tin trong môi trường tài chính đặc dụng
• D W H trong lĩnh vực bảo hiểm với sự giống nhau rất ít với các DWH khác: thời gian tồn tại của những DW H này, những dữ liệu khác biệt
và thời gian của các chu kỳ kinh tế
ch ú n g đặc t nm g là chí có một lĩnh vực đối tượng cư bản duy nhất
hiện việc xử lý những dư liệu thống kê rấi lớn, là biến thể của những
D W H truyền ihốns
• Điều khác biệt cùa DWH trong lĩnh vực viễn thông là ở chồ chúng dược xác định ớ mức (!ộ rất lớn bời các dữ liệu chi tiết với tính lổng quát thấp
V à tất nhicn, ngoài những D W H này còn có các dạ n g DVVH khác Mỗi một dạng m ang những nét khác biệt riêng.Naười triển khai một hệ thống DYVH phái xem xét các yếu tố đạc thù này dế báo đ â m việc xử dụ ng hệ thống
có hiệu qua
Có nhiều phương pháp lưu trữ chi tiết ớ mức cuộc gọi:
20
Trang 24CHƯƠNG 2
CẤU TRÚC KHO DỮ LIỆU VẦ MÔ HỈNH DỮ LIỆU.
C h ư ơ n g này sẽ trình bầy về cấu trúc và các cách lựa chọn dế tiến hành
m art. Datamarts hiểu một cách dơn giản là các kho cỉữ liệu nhó hơn có chức năng đ ộ c lạp hoặc có thể kết nối với nhau để tạo thành một kho dữ liệu lích hợp tổng thế
M ặc dù không phải lúc nào cũng như vậy, nhưng nên lựa chọn cấu trúc cho kho d ữ liệu trước khi bát đẩu tiến hành Cấu trúc cũng có thể được quyết định hoặc sửa đổi sau khi bắt đầu tiến hành Tuy nhiên, nếu chậ m trễ hơn thì cũng có nghĩa là làm tăng khá năng phải làm lại Việc lựa chọn đúng cấu trúc
là một q uy ết dịnh có tính chất quán lý diều hành dựa trèn các nhân tố như cơ
sờ hạ tầng hiện tại, mỏi trường kinh doanh, cấu trúc quản lý và điều hành mong mu ốn , ca m kết và phạm vi thực hiện, năng lực môi trường kỹ thuật mà
Trang 252.1 CÁC CHON LỰA VỂ CẤU TRÚC
Việc lựa chọn cấu irúc sẽ quyết định, hoặc dược quyết định tụi những nơi tạp trung các kho d ữ liệu và các data marts và ớ những nơi tập trung sự quản
tâm Hoặc, d ữ liệu có thể phân bố ở các nơi và/hoặc các nơi xa trung tâm mà
có sự q u á n lý cứa trung tủm hoác quan [ý độc lập
lới là từ trên xuống dưới, từ dưới lên hoặc kết hợp cả hai Các lựa chọn cấu trúc và lựa chọn phương pháp thực hiện cũng có thế được sử dụ n g kết hợp Ví
dụ, cấu trúc kh o dữ iiệu có thể phàn bổ về mặt vật lý, nhưng được quản lý tập
trách cho từng nhóm, ph òng ban, lĩnh vực kinh doanh riêng biệt
Có một sự nhầm lẩn về khái niệm hay xảy m là kho dữ liệu lống thể ctược tập trung hóa Thuật ngừ tống thế được sử dụng ở dày đế phán ánh về phạm vi truy cập và sử dụng số liệu, chứ không phái là vể cấu trúc vật lý Kho dữ liệu tổng thế có thế được tập trung hóa vé mặt vật lý hoặc được phàn bố xuyên suốt
lố chức do an h nghiệp Một kho dữ tiệu tập trung tống thể về mặt vật lý sẽ dược một doanh nghiệp mà toàn bộ doanh nghiệp dó chí đổng trên một địa bàn ihống nhất sử dựng và được một hộ phận gọi ià Phòng Hệ thống thông tin (ỈS Dep ar tme nt; quán lý Một Kho d ữ liệu phiìn bô' tóng thế cũng có thể được
các địa điếm vật lý khác nhau trong doanh nghiệp và được Phòng Hệ thống thông tin (IS Department) quàn lý
Trang 26Khi nói Phòng Hệ thống thông tín (IS Department) quan lý (manages) kho dữ liệu, điểu này không có nghĩa nó thực sự điểu khiển (control) kho dữ liệu dó Ví dụ, các địa điểm phân bô khác nhau có thể được điều khiển bởi một bộ phận hoặc ngành kinh doanh riêng biệt Có nghĩa là, chú ng quyết định
d ữ liệu nào sẽ dược đưa tới kho dữ liệu, khi nào thì sẽ cập nhật, bộ phận hoặc các ng ành kinh doanh nào khác có thể truy nhập vào nó, cá nhân nào trong các bô phận đó được phép truy cập Tu y nhiên, để quản lý việc thực hiện này cần phải có sự hỗ trợ trong phạm vi tổng thể và hỗ trợ này phải do chính
Ph òn g Hệ thống thông tin (IS Department) cung cấp
Cáu tr ú c p h â n íán
ìNguò» íJỪ liệu ngoài
I D ata
H ì n h 3: c/iiu t rú c Data w a r e h o u s e tổng thế Hai sor dò cơ sờ
Dữ liệu cho kho dữ liệu dược chọn lựa rút ra từ các hệ thống O L P T và có thể từ cá các nguồn dữ liệu bên ngoài cơ quan ctược xử lý theo khối trong các giờ hoạt d ộ n g ngoài cao điểm Sau đó chúng dược lọc để loại trừ di các mục
d ữ liệu kh ôn g mong muốn và được chuyển đổi đế đáp ứng yẻu cầu về chất lượng và khá năng sử dụng dữ liệu Sau đó chúng được dưa vào các cơ sở kho
Cấu trúc kho dữ liệu tổng thế có thế tạo cho người sử dụng có khả náng hơn nữa để nắm bất và biết được tổng thể toàn bộ clữ liệu trong phạm vi toàn doanh nghiệp, toàn bộ đơn vị mình Chắc chắn đày là một nhu cáu, tuy nhiên,
để lạo ra môi trường làm việc năy có thể phái mất nhiểu thời íỉian vù chi phí để thực hiện
Trang 27Cấu irúc data mart dộc lạp có nghĩa là các data mart đứng độc lập mội mình được điều khiển bởi một nhóm, phòng ban, hoặc ngành kinh doanh cụ thế và được xây dựng duy nhất dế đáp ứng các nhu cẩu T h ậ m chí có thể không có bất cứ sự kết nối nào với các data mart cúa các nhóm làm việc, phòng ban hoặc ngành kinh doanh khác Ví dụ, dữ liệu cho cúc delta mart này
có thể dược tạo ra ngay bên trong nhóm Dử liệu có thể dược rút ra từ các hệ thống hoạt độn g chức năng nhưng sau đó đòi hói phải có sự hỗ trợ của IS IS
có thể k h ô n g điều khiển quá trình thực hiện, nh ung có thể đơn giản là giúp
liệu bên ngoài đơn vị Trường hợp này cần sự hỗ trợ của IS trừ phi trong nhóm
thích hợp M ặ c dù Hình 4 mô tả các dữ liệu dược lấy từ các nguồn dữ liệu bên trong hoặc clữ ỉiệu bén ngoài, nhưng nó cũng có thể đến từ kho dữ liệu tống thể nếu nó tồn t ạ i
2.1.2 Cấu trúc Data Mart độc lập
H ì n h 4: C á u trú c D;it;i M a r t Mò hình (1ỘC láp và lién kết
Cấu trúc data mart độc lập đòi hỏi một số kỹ năng kỹ thuật để thực hiện, trừ nguồn và tố chức nhân lực có thể dược nhóm làm việc, ban ngành hoặc ngành nghề kinh (.loanh sở hữu Các loại hình thực hiện này có tác động tối thiểu tới các nguồn IS và có thế tạo ra quá trình (hực hiện rất nhanh Tuy nhiên, việc tích hợp quá ít và thiếu các dừ liệu ớ tám ton s the có thê trư ihành
24
Trang 28rào chắn cản trở Có nghĩa là, dữ liệu trong bâì cứ một data marl cụ thế nào
c ũ n g chí có thế truy nhập vào những nhóm làm việc, ban ngành hoặc ngành nghề kinh do anh làm chủ data marl đó Đây là tình h uố ng được biết đến và dược ch ấp nhận
2.1.3 C ấ u t r ú c D a t a m a r t liên kết với n h a u
Một cấu trúc Data mart liên kết là hệ thống các Data mart có (rao đổi
t hôn g tin chặt chẽ iVIặc dù các data mart riêng biệt được ihực hiện trong các
n h ó m làm việc, ban ngành hoặc ngành nghề kinh doanh cụ thể, nhưng chúng
c ũ n g có thể được tích hợp, liên kết với nhau đế tạo ra dữ liệu có phạm vi rộng lớn hơn trong toàn doanh nghiệp hoặc toàn công ty Thực tế, ở mức tích hợp
ca o nhất, c h ú n g có thể trờ thành kho dữ liệu tổng thể Do vậy, người sử dụng đầu cuối trong m ột phòng ban có thể truy cập và sử dụn g dữ liệu trên một data mart trong m ộ t phòng ban khác.Hình 4 là mô hình cấu trúc Data Mart liên
kế t.Mặc d ù Hình này mỏ tá d ữ liệu lấy từ các ng uồ n dữ ỉiệu bên trong hoặc bèn ngoài, n h ư n g nó cũng có thể đến từ kho dữ liệu tống thể nếu có
Cấu trúc có nhiều cấc chức năng và khả nàng khác có thế lựa chọn được
T u y nhiên, các tính năng lựa chọn thêm này có thể yêu cầu tích hợp và phức tạp hơn so với cấu trúc data mart dộc ỉập Ví dụ, khi ta xem xét ai sẽ quản lý
và diều hành môi trường sẽ cẩn cân nhắc xem có cán thiết có một tầng khác trong cấu trúc không, để xử lý các Data mart phức tạp Hoặc, có thể cần lựa
ch ọn một k ế hoạ ch chia sẻ dữ liệu qua các Data mart Mỗi một lựa chọn này lại lăng t hê m mức độ phức tạp nữa của cấu trúc Nhung, vể mật tích cực mà nói, điều này có thể có những lợi ích đáng kế đối với phạm vi tổng thể của dữ liệu
Các data mar t liên kết với nhau có thế được quán lý độc ỉập bởi các nhóm làm việc, ban ngành hoặc ngành nghé kinh cloanh Chúng quyết định dữ liệu nguồn nào tải nạp-vào data mart, khi nùo thì cập nhập chúng, ai sẽ được truy cập, và cất giữ nó ớ đâu Chúng cũng có thể quyết định cung cấp công cụ (tools) và kỹ nàng (skills) cần thiết nào dế các data mart tự thực hiện Trong trường hợp này, IS có thè’ cung cấp sự trợ giúp irong vấn để bao mật giữa các phòng ban, dự phòng (backup), và khỏi phục dữ liệu, và về các vấn đề kết nối mạng Ngược lại, các data mart kết nối với nhau có thè’ được ÍS quán lý và điểu khiển Mỗi một nhóm làm việc, phòng ban hoặc ngành ns h ề kinh doanh
cố thế có cấc data marl riêng của mình, nhưng cỏng cụ, kỹ nĩmíĩ và nguồn cần thiếl đế ihực hiện các data mart thì phái do IS c u n a cấp
Trang 292.2 CÁC LỰA CHỌN THỰC HIỆN
CÓ nhiều phương thức khác nhau có thể được sử dụng đế tiến hành các cấu trúc như đã nói ớ trên Các phương thức tiếp cận này sẽ dược nói tới trong
ch ư ơn g này là từ trên x u ố n s dưới, từ dưới lên hoặc kết hợp cá hai Việc lựa
c h ọ n thực hiện dem lại sự linh hoạt trong việc quyết định DVVH sẽ được xây ckmạ như thế nào
Việc lựa chọn phương thức thực hiện do các nhân tố sau đây tác động tới: cấu trúc IS hiện tại, các nguổn hiện có, công trình lựa chọn, phạm vi thực hiện,
s ự cần thiết cùa việc truy nhập dữ liệu tống thể trên phạm vi toàn đơn vị, các
đi ều kiện cần thiết cho đầu tư có lợi tức, và tốc độ thực hiện
phương thức này nó sẽ trớ nên tiêu biểu hơn đế hình thành một cấu trúc kho
dữ liệu tổna thể Nếu các data mart bao gồm cá trong phần cấu hình, chúng sẽ được xây dựng sau đó Và, chúng đặc biệt dược lưu trú lừ kho đữ liệu tổng thể hơn là trực tiếp từ các n s u ồ n ciữ liệu đang hoạt dộng hoặc nguồn dữ liệu bên ngoài
26
Trang 30H ì n h 5 : T h ự c hiện t í r t r é n x u ỏ n aViệc thực hiện từ Irên xuống có Ihể tạo ra những xác định vể dữ liệu thích hợp và việc ihực hiện các quy lắc kinh doanh xuyên suốt đơn vị ngay từ khi bất đầu Tuy nhiên, chi phí cho việc lập kế hoạch và thiết kế ban đầu là lương đối đáng kế N ó !à một quá trình đòi hòi tiêu lốn nhiều thời gian và có thể làm trì hoãn các hoạt dộng thực tế, lợi nhuận, và đầu tư có lợi tức Ví dụ,
sẽ rất khó khản và tốn thời gian để quyết định và lấy dược sự dồng ý về những xác định dữ liệu và các quy lấc kinh doanh giữa các n hó m làm việc, phòng ban và ngành nghề kinh doanh khác nhau tham gia vào kho dữ liệu, Phát triển kiểu loại d ữ liệu tống thể cũng là một nhiệm vụ lâu đài Ớ nhiều tổ chức, việc quán lý càng trở nên ít chấp nhận những trì hoãn này hơn
Phương thức quản lý lừ trên xuống có thể làm việc tốt khi có một tổ chức
IS tập trung chịu trách nhiệm cho lift cả các hệ thốnsi phần cứng Trong nhiều đơn vị, các nhóm làm việc, phòng han hoặc ngành nghé kinh doanh không thể
có các nguồn lực để thực hiện các data mart của riêng mình Việc thực hiện từ trẽn xuống cũng sẽ khó thực hiện tại các đơn vị mà có nhóm làm việc, phòng ban hoặc ngành nghề kinh doanh có các nguồn lực 1S của riêng mình Cấc nguồn này không sán đế chờ cho đến khi có một hạ táng tống thể hơn
2.2.2 T h ự c h iện t ừ dưới lẻn
Thực hiện lừ dưới lèn liên quan lới việc lập kẽ hoạch và ihiết kế các data mart mà không cần chờ cho đến khi có một hạ táng lổng thể hơn Điểu này không có nghĩa là sẽ không triển khai một hạ tầng tổng thể hơn; mà sẽ xây dựng chill theo kiểu m ở rộng các data mart btin đầu Ngày nay phương thức này ngày càng trở nôn được chấp nhạn phổ biến hơn so với phương thức thực hiện từ trên xuống vi các kết quá tức ihì lừ các data mart có the được hiện thực hỏa và clưựe sử đ ụ n ” Hình 6 mô lá phươiiiĩ thức thực hiện lừ dưới lẻn Ngược
27
Trang 31lại với phư ơng thức lừ trôn XUỐI1ỈÍ, các data marl có ilìè được xày dựng trước
dó, hoặc s on g song đổng ihời với kho dữ liệu tòn«* thế Và như hình vẽ chí ra, các dat a m a i l có the lưu irú hoặc là từ kho clữ liệu tổn lì thể hoặc irực tiếp từ các n g uồ n d ữ liệu đanii hoạt cĩộng hoặc níiuổn dữ liệu từ hèn riiioài
Phư ơng thức thực hiện từ dưới lên đã (rớ thành sự chọn lựa của nhiều dơn
vị, dặc biệt là các đơn vị quàn lý kinh doanh, bởi vì quá Irình hoàn vốn sẽ diễn ra n ha nh hơn Nó có the đem lại k í t quá nhanh hơn vì các data mart có phán thiết k ế ít phức tạp hơn so với kho d ữ liệu tổng thể Thê m vào dó, việc thực hiện ban đầu thường ít tốn kém hơn về phần cứng và các nguồn lực khác
so với việc triển khai một kho dữ liệu tống thể
Cù ng với mạt tích cực của phương thức thực hiện từ dưới lên, còn có mội
số điều cán phủi cân nhắc Ví dụ, càng nhiều data mart được tạo thành, thì sỗ xãy ra tình trạng clư ihừa và màu ihuần dữ liệu giữa các data marl Điểu này SC
íl xảy ra nê'u việc hướna dẫn lâp k ế hoạch, quán lý và ihiêì kế dược tiến hành cấn ihận Các data mart cỉa (lữ liệu có the mang cùng với nó một sự lai nạp trên cúc hệ th ống hoạt độ ng vì các hoạt dộn g lấy dữ liệu I hườn lĩ yêu cầu thực hiện Việc tích hợp các data marl vào một môi Inrờng tổng thể , nếu ta mong muốn như vậy, có thể sẽ khó khăn irừ phi dã tiến hành lập kế hoạch ở một mức độ nào đây Một sò công việc cũng có the đòi hỏi phái làm lại vì quá trình ihực hiện ngày cà ng lăng, cúc vấn (lề mới không ihiVy dược nèn buộc phái ihay đổi các phần lliực hiện hiện lại Đó là tài cá các vấn tic cấn phái càn nhắc để nắm bắl một cá ch cẩn thận trước khi lựa chọn phươniĩ thức Ihưe hiện lừ dưới lên
2.S
Trang 32N hư c h ú n g tu vừa xem xét, có cả hai mật tích cực và tiêu cực cần phái càn nhác khi thực hiện phương ihíre lừ trên xuốn« hoặc lừ dưới lèn Trong nhiều ưirờrm hợp phương ihức lot nhất là kết hợp củ hai Điều này cỏ thế khấ phức tạp, nhưng với một người quan lý dự án tốt thì có thè làm được Một trong n h ữn g chìa khóa (key) của phương thức này là quyếl định mức độ kế hoạch và thiết kế càn thiết cho phương thức tổng thể dể hỗ trợ cho việc tích hợp khi data mart được xây dựng với phương thức từ cỉưới lên Việc phát triển
m ột cơ sớ hạ tầng ớ mức cơ bàn cho kho dữ liệu tổng thế, ngay từ ban đáu nên thận trọng ớ mức kinh doanh Ví dụ, ờ bước dáu liên đơn gián ỉà xác định ngành nghể kinh doanh Quá trình kinh doanh ở mức độ cao và vùng dữ liệu
đá ng quan t â m sẽ Cling cấp các yếu tố cho k ế hoạch thực hiện các data mart.Khi cá c data mart được thực hiện, việc phát triển k ế hoạch xử lý dữ liệu
ỉà cần thiết cho các data mart đa dữ liệu Điểu này có thể bắt đẩu bằng một cấu U'úc kh o dữ liệu tổng thể hơn hoặc đơn gian là một kho dữ iiệu thông thường m à tất cá các data mart có thể truy nhập dược Tro ng một số trường hợp, sao lại dữ liệu qu a các data mart đa dữ liệu có thể cán thiết Điểu này ỉà
m ột quyết định lựa chọn giữa kh ông gian lưu trữ, mức độ dể dàng khi truy nhập, và tác độn g của việc dư thừa dừ liệu cùng với việc đòi hỏi giữ dữ liệu trong các d at a marl cía d ữ liệu lại cùng cấp độ
Có rất nhiều vấn dề phai giải quyết trong quá trình thiết tập kho dữ liệu
Sử dụng phương thức kết hợp có thể là cách giúi quyết cho các vấn đề này khi
ch ún g là n h ũ ng vấn đề mâu ihuẫn nhau và dược xem xét irong một phạm vi nhỏ hơn là data mart so với một kho dữ liệu lổng thể Giá m sát một cách cấn thân quá trình thực hiện và quán lý những vấn đề này có thế đe m lại ích lợi cao nhất c ủa cá hai phương thức thực hiện
2.2.3 P h ư ơ n g thức kết hợp
Trang 332.3 MỎ HÌNH D ữ LIỆU CHO KHO DỮ LIỆU
Phần này cun® cấp những thông tin cơ bán vé mô hình dữ liệu, (lặc biệt dành ch o m ụ c đích thực hiện một kho dữ liệu
Kho dữ liệu nói chu nu đã dần dược ehiíp nhận n hư cách liếp cận lot nhâì lạo nguồn dữ liệu tích hợp nhất quán tĩế sử dụm» phàn tích d ữ liệu và dưa ra các quyế t định kinh doanh Tuy nhiên, kho dữ liệu cỏ thế dưa ra những ván dể phức tạp, đòi hỏi thời gian và nguồn lực dáng kế dế thực hiện Điều này thực
s ự đ ún g khi thực hiện trèn cơ sở tập đoàn lớn Đế đạt các lợi ích nhanh hơn giải pháp thực hiện là lựa chọn bước tiếp cận lhực hiện là lừ dưới lên với Data Mart Viộc tiến hành những gia tăng nhỏ trong phạm vi nhỏ sẽ tạo một khoản hoàn vốn đầu tư lớn hơn trong một thời gian ngán Điều này không loại trừ việc tiến hành xây dựng kho dữ iiộu tống thế Nó cũng cho Ihấy rang Data Mart có thể được m ở rộng hoặc dược tích hợp đe cu n g cấp một giải phấp kho
dữ liệu tổng thể cho một tổ chức Cho dù tiếp cận kho dữ liệu từ viền cảnh tổng thể hay bằng việc thực hiện Data Marl thi những tiện ích từ một kho d ữ liệu luôn nối bật
Càu hỏi sau đó là, làm thế nào đế cơ sở dữ liệu cùa kho dữ liệu dược thiết
k ế tốt nhất hỗ trợ các nhu cáu của người sứ dụng kho dữ liệu? Tra lời câu hỏi uày ià nh iệm vụ của người xây dựng mô hình d ữ liệu Khi trình bầy vấn dề
Data Mart
Trong phán này ch ún g ta xéi lới hai kỹ thuột xfly LỈựng mổ hình dữ liêu
cư bán: xây dựng mô hình ER(Thực thể-Quan hệ Entity Relationship) và xây dựng mô hình theo chiếu Trong môi trường OLTP, kỹ thuật xây đựniỉ mô hình ER là sự lựa chọn dã qua thử thách Với sự ra dời của kho dữ liệu, xuất hiện yêu cáu cần có một loại kỹ ihuật dế hỗ trợ c h o môi trường phán lích dữ liệu Mặc dù các mô hình ER có thế sứ đ ụ n " đè hỗ trợ môi trường kho dữ liệu, hiện nay sự quan tâm về cách xây dựnu mỏ hình theo chicu nhằm đáp ứng nhiệm vụ này cũ n g đã gia táníi
Chúng ta sẽ xem xét tại sao việc xày dựng mỏ hình dữ liệu lại quan trọng đối với kho d ữ liệu và sau đó mỏ lá các khái niệm và Ihuộc tính cơ bán cùa cách xây dựng mô hình HR và cách xây d ự n s mò hình theo chiều
Trang 342.3 L T ạ i s a o việc xây d ự n g IT1Ỏ h ì n h d ữ liệu là (ỊUiìn t r ọ n g
S ự h ỉn h d u n g cứa g ỉó i k in h d o a n h: nói c h u n a m ỏ hình là sự Irừu tượng hoá và phán ánh thế giới thực Việc xày dựng mò hình cho ta kha năng để hình d u n g cái mà cluing la còn chưa hiện thực hoá dược Xày dựng mô hình
dữ liệu cííĩìií tương tự như vậy
T h e o cách truyền thống, người la xây dựng mổ hình dữ liệu phái sử dụng
sơ đồ ER, được phát triển như một phíìn của qui trình xây dựng mô hình dữ liệu, n h ư một phương tiện thõng tin lièn lạc với nhà kinh doanh - người sử dụng Đ ồ thị ER là một cồng cụ có thể giúp phủrt tích các yêu cầu kinh doanh
và thiết k ế cấu trúc dừ liệu sau này Xúy dựng mô hình chiều cho chúng ta một khả nũng tốt hơn để hình dung những cAu hỏi rất trìru tượng được yêu cầu trá lời cho nhà kinh doanh - người sử dụng Sử dụ ng mô hình chiều, người sử đụng có thể dễ dàng hiểu, dược tiếp cận tới cấu trúc dừ liệu và khai thác triệt
để nh ữn g d ữ liệu này
Thực tế, dừ liệu đơn thuíỉn là bản ghi mọi hoạt động kinh doanh, tài nguyên n g uồn ỉực và kết quả cùa một cơ quan tổ chức Mô hình dữ liệu là sự trừu tượng có tổ chức c ao các d ữ liệu này Do vậy, điểu hoàn toàn tự nhiên khi
mò hình d ữ liệu trở thành phương pháp tốt nhất dế hiếu và quan lý việc kinh doanh của cơ tố chức Thiếu một mô hình dữ liệu sẽ riú khó tổ chức cấu trúc
và các nội du ng của dữ liệu Irong kho dữ liệu
T h ự c ch ấ t củ a k iế n trú c k h o d ữ liệ u : Ngoài ích lợi của việc hình dung,
mủ hình dữ liệu đổng vai trò hướng dẫn, hoăc lạp k ế hoạch, nhàm thực hiện kho dữ liệu Th eo các h truyền thống, việc xây dựng mò hình ER chú yếu tập trung vào loại bó sự d ư thừa dữ liêu và duy trì sự nhất quán siữa các nguồn và các ứng dụ ng cỉữ liệu khác nhau Sự thống nhất các m ô hình dữ liệu của từng lĩnh vực kinh doanh trước khi tiến hành thực sự có thế giúp đàm bào rằng kết quá sẽ là một kho dữ liệu hiệu quá và có thể giúp giám chi phí thực hiện
C á c b ư ớ c tiếp cặn k h á c n h a u củ a mỏ h ỉn h d ừ liệ u : việc xây dựng mô hình ER và mô hình chiều, mặc dù có liên quan nhưng lại khác nhau Có rất nhiều sự tranh ỉuận xem phương pháp nào là tốt nhất và các điểu kiện trong dó phái lựa ch ọ n một kỹ thuậi đặc ihù Sẽ kh ôn s thể có câu trá lời rõ rùng cái nào
là lốt nhất, nhưng cũng có nlìữns hướng dần xem sự lựa chọn nào tối hơn trong lừng bối cánh hay môi trường riêng hiệt Tại niuìna phđn dưới đùy, chúng ta sẽ x em xét và xác định các kỹ thiũit xây tlựniĩ mò hình và dira ra một sô' hướniĩ dẫn lựa chọn
Trang 352.3.2, C á c kỷ t h u ậ t xây d ự n g mô hìn h d ừ liệu
Có hai loại kỹ thuật xây dưng mô hình dữ liệu thích hợp Irong mồi trường kho d ừ liệu là xây tlựng mỏ hình ER và xây dựng mỏ hình chiều
của mối quan hệ Mô hình ER là một công cụ trừu tượng vì nó có thể được sứ dụng để hiểu và làm đơn gian hoá các mối quan hệ dữ liệu m ơ hồ trong giới kinh cỉoanh và trong các môi trường hệ thống phức tạp
yẻu cầu c ủa người sử dụng-nhà kinh doanh trong ph ạm vi các báng biểu cơ sở
d ữ liệu
Cá hai loại xây dựng mó hình ER và chiều tiểu có thể đirực sử đụng để lạo một m ô hình trừu tượng của một chủ để riêng Tuy nhiên, mỏi loại tiều có những hạn c h ế của mình về các khái niệm xây dựng m ô hình và các qui ước
ký hiệu Kết quá là, cúc công niỉhệ và kỹ thuật có vé khác nhau, và chúng thực
sự khác nhau về mật ngừ nghĩa Những phần dưới đây mô tá các khái niệm xày dựn g mõ hình và qui ước ký hiệu cho cà hai loại xi\y dựng mô hình ER và chiểu sẽ dược sử d ụ ng trong toàn bộ phíin này
2.3.3 Xâ y d ự n g m ồ h ì n h ER
T ro ng phần này ta khônu tập I r u n í vào nhữniĩ hiếu biết cơ bản về xây dựng mô hình ER và chỉ đơn gián xác định các thuật n g ữ cơ bán đc tạo sự nhất quán và đưa ru những qui ƯỚC đtrựe sử đụn<z ớ phần còn hú
C á c k h á i niệm c ơ bản
M ô hình ER dược thế hiện bằng sơ đổ ER sử d u n a 3 biếu lượng dồ hoạ
cơ bán để hình thành khái niệm clữ liệu: thực thế, mối quan hệ và thuộc tính
T fufe th ế
Một thực thô được định nghĩa [à một con người, một địa điếm, vật hoãe
sự kiện quan tâm (lối với việc kinh doanh hay cơ quan, tổ chúc Một ihực thế
C|ium sát và phàn loại hỡi các (lộc lính và (lặc điếm cúii cluìiiũ TYonụ mộl số
,2
Trang 36tài liệu, thuật ng ữ loại thực thê dược sử dụng dế dại diện cho các lớp dối tượng
và thực th ể v í dụ cho mội loại thực thế-
M ặc dù vạy, 2 thuật ngữ này có thế khác qua các pha xây dựng mò
hì nh.Thường mỗi thực the tiều có định nghía kinh do anh của riêng nó và một
ihực thể Tr on g một dự án xây dựng mô hình thực tế, các thành viên dự án
cù ng chia sé một khuôn m ầu định nghĩa dê tích hựp và một định nghĩa thực
t M nhấí quán trong một mô hình Trong xây dựng m ỏ hình kinh doanh ớ mức cao một thực thể có thể rất chung chung, nhưng trong xây dựng mô hình logic chi tiết thì một thực thế phải rất cụ thể
H ì n h 7: M ỏ h ìn h E R c h ứ a t h ự c thế, q u a n hệ và t h u ộ c tí nh
Hình 7 cho thấy một ví dụ về cúc thực thế trong một sơ đổ ER Mỗi hình chữ nhại đại diện cho một thực thế và trong phán này tên của thực thể được ký hiệu bằng các ch ữ in hoa Ở đây có 4 thực thể: P R O D U C T , P R O D U C T
C O M P O N E N T , P R O D U C T M O D E L , VÀ C O M P O N E N T Bốn đường chéo ớ các góc cúa thực thể P R O D U C T C O M P O N E N T thế hiện ký hiệu cho một
bẽn giữa hai lỉụre thể P R O D U C T M O D E L vù C O M P O N E N T là hai thực thế độc lập với nhau tuy nhiên lại có mỏi quan hệ kinh doanh giữa hai phần này Mội m ô hình sán pháin bao gồm nhiều thành phần và một thành phán có liên quan tới nhiều mô hình sán phám Với quy tác kinh doanh như th ế này, chúng
la không ihc nói n h ữ n s thành phần nào tạo thành m ỏ hình sán phẩm Để ỉàm
Trang 37P R O D U C T C O M P O N E N T có I he Cling càp ihòim Ún dế xem Ihànlì phàn nào
c ỏ liên quan lới mồ hình sán phiím nào
T r o n lĩ xây dựnu mô hình BR, dặt lôn cho các thực ihc là râì quan trọng clẽ hiếu và thông tin liôn lạc dề dàng và rõ Thường, tên thực thế thể hiện về
m ặt n g ữ pháp dưới dạng danh từ hơn là động từ Tiêu chí lựa chọn tồn thực ihể
T r o n g m ô hình ER chi tiết, nhiệm vụ quan trọng nhất là xác định từ định
khoá ứng cứ. Từ những từ này ch úng ta có thế lựa chọn từ khoá được sử đụng
M ố i quan hê
Mối qu an hệ được thể hiện bủng các đường vẽ giữa các thực thể Nó miêu
tủ sự tương tác về mật cấu trúc và sự kết hợp giữa các thực thể trong mộ t mô
th uộc về', và có Mối quan hệ giữa hai thực thế có thể được xác định bàng số các yếu tò trong một tập hợp Số các yếu tố trong mộ t tạp hợp có khả năng [à :
m ột -m ộ t ( 1: l),một-nhiẻu ( i: N ) , và nhiểu-nhiều (N:N) Trong mô hình ER (đanh định) chi tiết, không chi ra bất kỳ mối quan hộ M :M nào do nó dược xử
lý đến một ihực thể kết hợp
tôn mối quan hệ, nhưng trong sơ đổ ER chi tiết, các ch uy ên viên thiết kế tin học thường không xác định tên mối quan hệ Ở Hình 7, đường nối giữa
C O M P O N E N T va P R O D U C T C O M P O N E N T lù một mối quan hẹ Ký hiệu (dường gạch chéo và dường ngán) tren mối quan hệ này the hiện số các yếu tố trong một tập hợp
Khi mộ t mối quan hệ của mội thực ihc có liên quan tới tự thân nó, chúng
dược phát triển hoặc ứ các [hực thể kếi hợp hoậc mội thuộc tính có tham chiếu đến ihể hiện khác của cùng Llụrc ihổ
Khi số các yếu tỏ trong một tập hựp của một thực thế là mội-nhiểu, thường thì mối quan hệ này thế hiện mối quan hệ phụ thuộc của niột thực the này với mội thực thế khác Trong lrường hợp dó từ khoá gốc cùa thực thể cha
mẹ được thừa k ế lại ở thực thể phụ thuộc như một phán của lừ khoá sốc
Trang 38Tlitiôc lính
Các thuộc tính mò tá dặc điếm các dặc lính của các thực thể.Tại Hìnli 7,
Đê làm rõ, các qui ước về lên thuộc tính là rất quan ư ọn g Tôn một thuộc tính phái nhất qu án Irong thực thể và phai có khá năng tự eiãi thích Ví dụ, nói đơn gián là Ngày 1 hoặc Ngày 2 là không dược phép, chúng ta phải định nghĩa rõ ràng từng ngày Ví dụ như chúng có thể dược định nghĩa là ngày dặt hàng và ngày giao hàng
C á c khái niêm khác
toàn bộ các giá trị và phạm trù có khả năng chấp nhận được cho phép đối với một thuộc tính Một cách đơn giản thì miền là toàn bộ các biến thể có khả Iiflng thực Khuôn thức, dạng mẫu hay loại dữ liệu như số nguyên, ngày tháng,
và ký tự đưa ra một định nghĩa rõ ràng về miền Đối với loại miền có tính liệt
kè, các Inrờng hợp có thể phải được xác định Lợi ích thực tế của miền là nó là bát buộc dối với việc xày dựng từ điến dữ liệu hoặc kho dữ liệu và kết quá là thực hiện một cơ sở d ữ liệu Ví dụ, giả sử chủng ta có một thuộc lính mới gọi
là lo ạ i sân phẩm trong thực thế P R O D U C T và số lượng các loại san phẩm là
cố định với giá trị là Celíphone(diện thoại tế bào) và Pager (nhán tin) 'Thuộc tính loại san phẩm hình thành nên một miền liệt kê với các trường hợp vể Cellphone và Pager, và nhừrìíi Ihồng tin này phải nằm Irong ỉừ điển dữ liệu
ngày nào trong các ciiều kiện nhất định Đối với loại miền hạn c h ế này, các trường hơp không thế cố định và phạm vi hoặc các điểu kiện phai dược bao hàm í rong lừ điển dữ liệu
Mội khái niệm quan trọng khác Dong việc xây đựng mô hình ER chính là
sự chuẩn hoá Chu an hoá là mội quá trình biến đổi các thuộc tính cho các thực thè’ theo cách lùm giám việc dự phòng dữ liệu, tránh những bất [hường dữ liệu, tạo mộ t kiến trúc vững chác đế cập nhật dữ liệu, và lãng cường khá năng kết hợp lâu dài cùa mô hình (lữ liệu Hình ihứe bình ihườníi thứ ba này thường ià
đủ Q ú a trình xử ỉý các mối quan hệ nhiều-nhiểu là một ví dụ vể chuẩn hoá
3.5
Trang 39Bổ sung cho các khái niệm xày đựng mõ hình ER c ơ bàn, có 2 khái niệm khác cũ n g rất quan ưọnu:
• Loại cha và con (supertypc & subiỵpe)
• Thôn« háo ràng buộc (Contrainl sialemeni)
L o a i C h a Vi! lo a i co n (su p e rtv p e ifc s u b ty p e )
Các thực thể có the có loại cha và loại con (supertype & subtype) Mối quan hệ giữa một thực the loại superiype và một thực thể loại subtype của nó
là mối quan hệ ”Ls a" Mối quan hệ "Is a" dược sử dụng khi một thực thè là sự khái quát hay tổng quát hoá một số cấc thực ihế khác Ví dụ SA L ES OUTLES của một công ty là supertype của RE TAI L S T O R E và C O R P O R A T E SALES
O F F I C E Va R E T A I L S T O R E và C O R P O R A T E S A L E S O F F I C E là loại subtype của SA L ES O U T L E S Ký hiệu của supertypc & subtype được thể hiện bằng hình chữ nhật dựa trên mỏi quan hệ
Các chá dê hiện (lai trong xảy (lựng mò hình Elỉ
H ì n h 8: Kiến cha vá kiếu conMỗi thực the loại subtype dược thừa hườn Sỉ các thuộc tính từ thực thể supertype Ngoài diều dó ra, mỗi thực iho subtype lại có những thuộc tính khác riêng của nổ Trong ví dụ, các thực thế phụ đéu có ỈD Vù na và ID Đại lý
là những ihuộc lính c ô hữu Và, các thực thế phụ đều có nlurna thuộc tính riêníỉ của nó như sỏ lượng lìiỊiíừi (lúniỊ kv íiè / 1 mặt, iliợ/i lích niậi hthiiị cửa thực thổ phụ RETAIL S T O R E
Vì
Trang 40Những lợi ích [hực lố của supertype & subtype !à nó him cho mò hình dữ
liệu có ý nghĩa trực tiếp Ví dụ chí cấn nhìn qua sư đổ ER chúng la có ihế hiểu dược các đại lý bán hàng bao gồm cá các cửa hàng bán lé và các ván phòng bán hàng của công (y
Những lợi ích khác của supertype và subtype !à nó làm cho mô hình dữ liệu san sàng hơn trong việc hồ trợ phát men cơ sở dữ liệu linh hoạt Đè’ khai triển các thực thế supertype và subtype vào các báng biểu, chúng ta có thế nghĩ đến một số sự lựa chọn ilụrc hiện Chúng ta có thể chi lập một báng trong
đó có một thuộc tính là chỉ thị và các thuộc tính khác là bằng không Hay nói cách khác, chútìg ta có thể chí có các bảng biếu loại subtype với nó mọi thuộc tính của supertype được kế thừa Một sự lựa chọn khác là lập báng cho từng thực thể Mỗi sự lựa chọn đều cần cân nhắc kỹ lưỡng Qua việc xây dựng supertype và subtype có thể thực hiện một mô hình dữ liệu rất linh hoạt Việc tạo subtype cũng làm cho mối quan hệ Irở nên rõ ràng Ví dụ, giả thiết rằng chúng ta có một thực thể NHÂN VIÊN BÁN HÀNG và rthủn viên bán hàng chí chính thức có ở các phòng bán hàng của công ty Không có phẩn subtype của ĐẠI LÝ BÁN HÀNG trong PHÒNG BÁN HANG CỦA CÔNG TY và CỨA MÀNG BÁN LẺ không có cách nào đế diễn tá những ràng buộc một cách rõ ràng dứt khoái sử dụng các ký hiệu ER
Đôi khi việc sử dụng không thích hợp supertypc hoặc subtype trong xảy dựng mồ hình ER có thể dẫn tiến những rác rối Ví dụ, một người có thể vừa là nhân viên bán hàng cho công ty CelDiai vừa là khách hàng Chúng ta phải xác định con người như là một supertype của nhãn viẻn và khách hàng Nhưng trôn thực tế điều này khỏng tiling Nc'u chúng ta muốn có một mô hình rất chung, tốt nhất chúng ta phái thiết kế mộ! (hực Ihế kết hợp giữa con người và công ty, hoặc chí để nó như những thực thể khách hàng và nhân viên bán hàng
C ác ràng híỉỀL
Một số các ràng buộc cỏ thế tlưựe-ihể hiện bằng những mối quan hệ tron<2 mô hình Những quy tác nguyên vẹn có liên quan cơ bủn có thể clưực nhận dạng bằng các mối quan hệ và số các yếu lố trong một lấn tập hợp của chúng Tuy nhiên, những ràng buộc riêng biệt ví dụ ’'chí khi các biến thể của thực thế bố mẹ TÀI KHOẢN là nhữn« tài khoan kiếm tra thì biến thế của thực thế con KIỂM TRA TÀI KHOÁN CHI TIẾT có thế tổn tại” không thể hiện lrên sư (lổ ER Nhĩrnu ràng buộc này có thế được hổ sung rò thêm trong mô hình bã [Vi cách dưa (hôm Ihônu báo vố sự ràn ti buộc Điếu lìàv dặc biệl hữu
XỊ