Nguồn dữ liệu đối với các tập đoản công nghệ, tải chỉnh, ngàn hàng là võ cùng lớn, Xây dụng một kho dữ liệu cho phép rút trích tài nguyên, tính toán theo yêu câu dé cũng cấp các báo cáo
Trang 1TRUONG DAI HOC CONG NGHE
TRINH HONG NAM
NGHIÊN CỨU GIẢI PHÁP KHO DỮ LIỆU TRONG
ORACLE DATA WAREHOUSE 10g VA AP DUNG TRONG
BAI TOAN XAY DUNG KHO DU LIEU KHACH HANG,
NGÂN HÀNG TMCP TIÊN PHONG
LUẬN VĂN THẠC SĨ
Ha Néi- 2011
Trang 2TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGHIÊN CỨU GIẢI PHÁP KHO DỮ LIỆU TRONG
ORACLE DATA WAREHOUSE 10g VÀ ÁP DỤNG TRONG
BÀI TOÁN XÂY DỰNG KHO DỮ LIỆU KHÁCH HÀNG,
NGÂN HÀNG TMCP TIỀN PHONG
Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống Thông tin
Mã số: 60 48 05
LUẬN VĂN THẠC SĨ
NGƯỜI IƯỚNG DẪN KIIOA HỌC: PGS.TS Đỗ Trung Tuấn
Hã Nội -24H1
Trang 3
Danh mục các kỷ hiệu, chữ viết tắt sec 5
CHUONG L HE QUAN TRICO 86 DU LIEU
1.4 Câu trúc và thành phần của hệ quản trị cơ sở đít liệu o 13
1.5 Hệ quản trị cơ sở đữ liệu Oradle l§
2.1 Định ngÌữa có nhung reeereriraraaeaaree T7
2.3.2 n, nhược điểm của hệ thông kho đữ liệu - .20)
3.4 Kiến trúc kho đữ liệu Tre
3.4.1 Kiến trúc kho dữ liệu cơ sở
Kiến trù kho dữ liệu với vùng trung gian 4.3, Kiển trúc kho đữ liệu với vùng trung gian và kho đữ liệu cục bộ
2.5.4 Các đôi tượng kho dữ liệu 25
Trang 43.5.0 Minh họa đối tượng kho đữ liệu và mỗi quan hi
2.8, BAO Mth oe csiessiersiuastiussiiciienenientssenaeiese 35
CHƯƠNG 3 GIẢI PHÁP VÀ ĐẺ XUẤT XÂY DỰNG KHO DỮ LIỆU KHÁCH HÀNG 40
3.2 Dặc tính của kho đữ liệu seo
3.3 Hỗ trợ tích hợp đữ liệu
3.4 Nội dụng giải pháp kho đữ liệu, Ngân hàng Tiền Phong,
3.4.1 Hiện trạng hệ thông Core Banking
3.4.3 Như cầu cho hệ thông tác nghiệp đa chiều - 5!
3.4.7 Kho đữ liệu tích hợp từ các GSDI, chủ để - SA
3.4.8 Các ứng đụng và công cụ khai thác, phân tìch đữ liệu phục vụ người sử dụng 56
3.5 Phân tích, thiết kế xây dưng kho đữ liệu, kho đữ liệu chuyên đề
ta a
Trang 53.5.2, M6 hinh dit ligu và các lược đỏ
CHUONG4 CAI DAT, THU NGHIEM, KET QUA
4.3.3 Xây dựng một khối thong tin xoay theo các ving oh 269
7
Tài liệu Tiếng Anh ccccsocnrierrree
Trang 6A watermark is added at the end of each output PDF file
To remove the watermark, you need to purchase the software from
hitp:/iww.anypdftools.com/buy/buy-pdf-splitter htm!
Trang 7
Client/Server Client/Server Online Analytical Xử lý phân tích trực tuyển
coe Change Data Capture Sao/chup thong tin dữ liệu thay đổi
CNTE information Technology Công nghệ thông tin
CPU Central Processing Unit Dơn vị xử lý trung tâm
DDL Data Define Language Ngén ngit dinh nghĩa dữ liệu
DRM Database Resource Manages Quân lý nguồn tải nguyên đữ id
DBMS Database Management System Hệ quản trị cơ sở dữ liệu
DML Data Manipulation Language Ngôn ngữ thao tác đữ liêu
D§§ Decision Support System Hỗ trợ quyết định
DOLAP Pa Hệ Analytical 'Xử lý phân tích trực luyễn CSDI,
TL Tang ‘Transportation, “Trích suâi, Trao đối, Tải
EIS Executive Information System Hệ thông thông tin điều hành
HOLAP ĐH Analytical 'Xử lý phân tích trực tuyển kết hợp
MOLAP Mult tea eee Xử ly phân tích trực tuyển da chiều
ops Operational Data Store Xho dữ liệu tác nghiệp tổng hợp
QLAP On Line Analytical Processing Xử lý phân tích trực tuyến
OLTP On Line ITansacticn Processing | Xửlýtác nghiệp trực tryển
Trang 8
OWB Oracle Warehouse Builder ome Xây dựng kho đữ liệu
RAC Real Application Cluster
ROLAP Banonng Online Analytical 'Xử lý phân tích trực tuyển quan hệ
SQL Structured Query Language Ngôn ngữ truy van edu trac
‘TBs 'Tablaspaoe Không gian bảng lưu trữ
Trang 9
Trang Hình 1-I: Kiên trúc hệ quân Irị cơ sở dữ liệu DBMS 13
Hình 2-1: Mô tả đữ liệu tổ chúc theo hưởng chủ thể 17
Hình 3-2: Mô tả đữ liệu được tích hợp từ nhiễu nguồn 17
Hình 2-4: Mô tá thông tin đữ liệu luôn bên vững, an toàn 18
Hinh 2-5: Sự tương phân giữa OLTP và môi trưởng kho đữ liệu 19
Hình 2-7: Kiến trúc của một kho đữ liệu với một vùng trrng gian 21
Hình 2-8: Kiến trúc của kho đữ liệu với vùng lưu trữ và các kho đữ liệu eue bộ 21
Tĩnh 2-10: Các mức đặc trưng trong ruột hệ thẳng phan cap chiéu 26
Hình 2-13: Thiết kế logie so với thiết kế vật Tý 28
Hinh 2-15: Công cụ Extract, Tranform, Loading cia Oracle Warehouse Builder 32
Hinh 2-16: Minh họa các buffer tin điện và kết nỗi giữa servers thực Thi song song | 38
Tình 3-1: Thông tin về ngăn hàng thương mại cổ phân Tiên Phong 40
Hinh 3-9: Mô hình hiện trang hạ tâng Ngân hàng TMCP Tiên Phong 49
Hinh 3-12: Mô hình hệ thống chuyền đẻ, khai thác thông tim 53
‘Hinh 3-13: Mé hinh kign trie giai phap dé xnat kho đít liệu 84
Trang 10
Hình 4-6: Kinh doanh thông minh qua trình duyệt Web 71
Hình 4-10: Báo cáo tăng trưởng khách hàng 10/2010 75
Trang 11
1 DAT VAN DE
‘May tinh tiv khi ra doi da déng vai tro vé cimg, quan trọng trong lịch sử phát triển của nhân loại Các máy tỉnh lả những công cụ tỉnh toán mạnh, cho phép con người giải được các bài toán có số lượng tỉnh toán không lỗ mà trước đó không thể thực hiện được bằng tay như tính toán kết câu công trình, tính toán xây dựng kẻ hoạch quốc gia, thống kê diễu tra dân só, tuyển sinh là những, bài toán lớn, có thuật toán xác dịnh
Gip phần tích cực vào quá trình này là sự xuất hiện của những ngôn ngữ lập trình hướng cầu trúc, phân mềm được coi là một nghề và có quy trình phát triển tuân thủ cáo quy trinh nghiêm ngặt
TIệ quản trị cơ sở đữ liệu (CSDL) quan hệ là hệ quản trị CSDL phế biển nhất
hiện nay và được hỗ trợ bởi nhiều nhá cung cấp phản mềm Tinh hiệu quả của các ứng dụng phụ thuộc vào chất lượng của việc tổ chức đữ liệu Những cải tiền trong kỹ thuật
và xứ lý CSDL đưa đền các cơ hội sứ dụng thông tin một cách linh hoạt và hiệu quả
khi đữ liêu được tố chức và lưu trữ trong các câu trúc quan hệ Hệ quản trị CSDL là
một thành công trong lĩnh vực thương mai
Thông 1mm là tguồn tài nguyên quý giả của một tổ chức Các phan mém máy tính
lả những công cụ hiệu quả để xử lý thông tím và hệ quân trị CSDI là công cụ phổ biển cho phép lưu trữ và rút trích thông tỉn một cách hiệu qua
Với sự phát triển của mô hình kho đữ liệu, ngày nay ớ Việt nam các tổ chức, doanh nghiệp luôn chủ trọng khả năng lưu trữ, xử lý và khai thác thông tin giúp nhà quan ini, lan đạo phân tích trên các lớp đữ liệu dự báo được các khuynh hướng phái triển, dưa ra các quyết sách dùng, dẫn, kịp thời và hiệu quả cho cơ quân, tổ chức của minh Nhằm đáp ủng đây đủ các yêu cầu trêu nhiều công cụ được xảy dựng nhằm thóa mãn các nhu cầu khai thác đữ liêu mức cao đã được các hãng nỗi tiếng tập trung nghiên cửu Một trong những công cụ đó là bộ sản phẩm Oraole Dalaware House của hãng phan mém néi tiếng thể giới lập đoàn Oracle
Nguồn dữ liệu đối với các tập đoản công nghệ, tải chỉnh, ngàn hàng là võ cùng lớn, Xây dụng một kho dữ liệu cho phép rút trích tài nguyên, tính toán theo yêu câu dé
cũng cấp các báo cáo đựa vào cơ sở đữ liệu hoạt động phục vụ sản xuất, kinh doanh
trở niên thông mình hơn, tăng thêm chất lượng vả tỉnh lình hoại của việc phân tích kinh doanh cỏ chất lượng gao và ôn dịnh
Trang 12Luan văn nảy được thực hiện với mục dich nghiên cửu, xây dựng giải pháp và
c Phân tích chuối thời gian
© Phan tich rii ro
© Tham do cae hé hé wo quyết định
« Khám phá và đưa ra các yêu tổ ân thông qua các kỹ thuậi khai phá dữ liệu
Để tải được nghiên cứu nhằm giải quyết, khắc phục thuc tang, nhược điểm mà
hệ thống bảo cáo quản trị hiện nay dang vận bảnh còn thiểu hiệu quả, khả năng dap
tứng, tính sẵn sảng, chưa cao
3 KET CAU DE TAI
Luận văn cña thành các chương
© Chương Ï: Hệ quân trị cơ sở dữ liệu
© Chuong 2: Lý thuyết Kho đữ liệu
át Kho dữ liệu
© Chương 3: GIải pháp và để
+ Chương 4: Cài đặt, thử nghiệm, kết quả
Ngoài ra luận văn có phẩn mở đâu, cho biết mục đích nghiên cứu vả phản kết luận, thể hiện kết quả chín: cửa luận văn và một số khuyến nghị, đề xuất
Trang 131.1 Khái niệm
Hệ quản trị cơ sở đữ liệu là phần mềm hay hệ thống được thiết kế dễ quân trị một
cơ sở dữ liệu, hỗ trợ khả năng lưu trữ, sửa chữa, xóa vá tìm kiếm thông tin trong một
cơ sở dữ liệu Có rất nhiều loại hệ quản trị CSDL khác nhau: từ phần mềm nhỏ chạy trên máy tính cá nhân cho đến những hé quan tri phức tạp chạy trên một hoặc nhiều
siêu may tinh,
Tuy nhiên, da số hệ quân trị CSDT, trên thị trường đều có một đặc diễm chưng là
sử dụng ngôn ngữ truy vấn theo câu trúc mà tiếng Anh gọi là Structured Query
Language (SQL) Các hệ quản trị CSDL phổ biển được nhiều người biết đến là
MySQL, Oracle, PosigreSQI., SQI Server, DB2, Infomix, v.v Phan lon cae hé quan
trị CSDL Ké trén hoat déng tét trén nhiéu hé diéu hanh khac hau nhu Linux, Unix va
‘MacOS ngoai trir SQL Server cua Microsoft chi chay trén hé diéu hinh Windows
1.2 Mục tiêu hệ quản trị cơ sở dữ liệu
Một hệ quản trị eơ sỡ dữ liệu luôn hưởng dễn các mục tiểu:
® Dữ liệu sẵn dùng: Dữ liệu dược tỏ chức sao cho mọi người dùng có thể truy cập
để đảng theo chức năng và nhiệm vụ của họ
® _ [nh toàn vẹn dữ liệu: Dữ liệu lưu trở trong CSDL là dùng đắn, dàng tin cậy
® _ An toàn dữ liệu: Chỉ có người dùng được phép mới só thể truy cập dữ liệu Nếu nhiễu người đùng truy cập chưng một mục đữ liệu củng lúc thỉ hệ quản trị CSDL không cho phép họ thực hiện những thay đổi gây mẫu thuẫn dữ liệu
© Độc lập dit liệu: Hệ quản trị CSDL phải cho phép tất cä mọi người đừng được
phép lưu trữ, cập nhật và rút trích dữ liệu hiệu quả mà không cần năm chủ tiết
về cầu trúc của CSDL được biểu diễn và cải đặt
1.3 Quá trình phát triển
Người thấy rằng các mốc tiễn hóa của các hệ thông cơ sở dữ liêu có vai trỏ quan
trọng:
© Cac tép tin dữ Ligu: 1960s - 1980s,
© M6 hinh cau tric: 1970s - 19903
© M6 hinh mang: 1970s - 1990s
©— Mô hình quan hệ 1980s - dén nay
® - Mô hình hướng đổi tượng: 1990s - đến may
Trang 14tích hợp với các hang phát triển phần cứng được các doanh nghiệp, tổ chức, người
kiện vô cùng thuận lợi cho nguéi phát triển
Đường như máy tinh và những chương trình cũng dã giải quyết dược hầu hốt các van để trong lĩnh vực quản lý Tuy nhiền thực tế, các tổ chức, doanh nghiệp muốn thành công trên thị trường, ngoài việc tổ chức bán hàng tốt (giao địch đơn giãn, thuận tiện cho người mua và người quản lý bán hàng ) người lãnh đạo công ty phải nằm dược thực chất các quá trình diễn ra trong, dơn vị mình và trong mỏi trường nghiệp vụ
mà đơn vị đỏ hoạt động Dễ thục hiện các công việc của một công ty, người ta có nhiều hệ chương trinh tự động hoá các lĩnh vực quan trọng như kế toản, lập kẻ hoạch, giao dịch khách hàng, lập hoá đơn Chính vì lý do đó những lệ thống này có một củi
tên cổ diễn là hé théng xi ly giao dich (Online ‘Transaction Process - OL'IP)
Hé théng OLTP cho phép cac giao dich thay déi dit ligu trong bang bang ngén ngữ cáo câu lệnh truy van SQL trong quá trình xử lý Hệ thống cho phép nhiều ứng đụng truy cập dử liệu củng một thời điểm
Các (mg dụng được sử dụng trên máy trạm phục vụ cho oác hoạt động giao địch như ngân hàng, bản vé trực tuyển, bán vé hàng không, thanh toán cước phí đểu sử dụng hệ thông OL.P có các ưu điểm:
©_ Xử lý các chuyển tác tương tác
«- Dễ bảo trì và không chế dữ liệu thừa
+ _ Thiết lập đữ liệu quan hệ trọn vẹn
+ Tinh higu qua cao
+ _ Giảm thời gian của khách hàng,
Các CSDL được câu hình trong các hệ OLTP thường được thiết kế thoả mãn
chuẩn Third Nonnal Form (NF) bode tốt hơn Đặc điểm cũ thông OTZTP là hai
trữ các dũ liệu "thê", nhưng múc độ tổng quái, trừu tượng của đữ liệu không cao Nói cach khác OLPT chỉ có ích dễ từn trá lời những câu truy vấn dạng: Tổng doanh tÌm toan hang dat được trong 6 tháng đảu năm, chứ chưa có báo cáo xoay theo nhiều
chiếu, khối thông tin sản phẩm mào đem lại nhiều doanh thu nhất tại chỉ nhánh, phòng
giao dich trong thang vừa qua Trong khi đỏ cáo nhà quản lý ở múc cao của công ty tắt ít khi quan tâm đến những câu hỏi loại đỏ Diễu họ cần chủ ý là những câu hỏi trừu tượng hơn nhục Tiêu thự sẵn phẩm X tại khu vực À đang giảm, nêu thay ddi 3%-5% giả của sân phẩm X lại khu vực À, tình trạng tiêu thụ sẽ thay dỗi ra sao trong 6 tháng cuỗi năm vả tại sao?
Trang 15Các hệ thống OLTP hiện nay trả lời rất tốt câu hỏi 1 bằng các công cụ của hệ CSDL quan hệ nhưng để tìm đép án cho những câu hỏi đạng 2 là không đơn giản
thing OLTP trong việc
®- Các số liệu được phân bộ ở những hệ thống khác nhau, có các thủ tục truy gập
khác nhau và ở những CSDL hoàn toàn khác nhau
« Cá
số liệu không được cập nhập pùng một ehn kỳ dẫn đến sự mất đồng bộ
®— Việc lố chứ, truy cập tù rất nhiều bằng đữ liệu khác nhau có ảnh hưởng rất xâu tới hiệu suất của các hệ thông vì mục dịch của các hệ thông này là nhằm phục
vụ các giao dịch trực tuyển
Trong môi trường đư thừa số liệu, nhà phân tích, quản trị không thé tim ra cho
mình thông tin cần thiết nhằm có được sự hiếu biết thâu đáo về những, quá trình xảy ra
xung quanh Tỉnh trạng số liệu quá chỉ tiết và không có dược sự liên kết với nhau của các số liệu phăn ảnh các quá trình tương dối độc lập của một thực thể là ly do trực tiếp din dén sy du thiva théng tin nay
tỳ Việc truy vẫn đề tạo bảo cáo thường xuyên liên quan tới rất nhiều bảng, hạn chế
sụ truy cặp và khai thác trong quá trình làm việt
Trang 16
« Bộ quản lý lưu trữ
e Bôxử lý truy van
1 Bộ quản lỷ lưu trữ
Bé quan ly lưu trữ cỏ nhiệm vụ lưu trữ, trích xuất và cập nhật dữ liêu và cơ sở dữ
liệu Bỏ quản lỷ lưu trữ gồm có các đơn vị sau:
- _ Kiểm tra chứng thực vả toàn vẹn: Kiểm tra toàn vẹn và quyên truy cập dữ liêu
của người dùng cơ sở dữ liệu
-_ Quân lý giao dịch: Thành phản đảm bảo cơ sở dữ liệu luôn ở trạng thai nhất quán Quản lỷ việc thực thí các yêu câu thao tác dữ liêu và đảm bảo việc truy cập dữ liệu đỏng thời không dẫn đến mâu thuần
~_ Quản lý tệp tin: Quản lý việc cấp phát không gian trên đĩa, các tệp tin được dùng để chứa các dữ liệu tương tự nhau Hệ quản lý tập tin quản lý các tệp tin độc lập, giúp đỡ nhập vả lấy các mâu tin Thành phần quản lý tếp tin thiết lập
Trang 17và duy trị danh sách các cầu trúc vả chí mục được định nghĩa trong lược đồ Thanh phan quan ly tép tin cé thé
c ‘Tao tép tin
c Xéatéptin
c Cp nhat mau tin trong tép tin
c Lay mét mau tin ti mét tép tin
- _ Quân lý vùng đệm: Có trách nhiệm chuyển đữ liệu từ dĩa lưu trữ vào bộ nhớ chính theo yêu cầu của chương trình
2 Bé quản lý truy vấn: Thực hiện câu truy vấn nhận dược tử người dùng qua các giai đoạn phân tịch, tối tu hóa câu hỏi, lập kế hoạch thục hiện và thực hiện tính
Toản
1.5 Hệ quản trị cơ sử đữ liệu Oracle
Cơ sở dữ liệu oracle là một cơ sở đữ liệu mạnh mẽ nhất thế giới Được thiết kế để
triển khai cho mọi môi trường đoanh nghiệp Việc cải đặt, quản lý rất dé dang, các công cụ dẻ phát triển các ứng dụng một cách hoàn thiện và nhanh chóng, Cơ sở dữ liệu Oracle phủ hợp cho mọi loại đữ liệu, các ứng dựng và các mỗi trường khác nhau bao
gồm cả windows và linux với chỉ phí tôi thiếu
TIệ quản trị cơ sở đử liệu oracie 9i/10g/11g Dây có thể nói là một hệ quản trị CSDI hàng đầu trên thể giới Hơn hai phần ba trong số 500 tap đoàn công ty lớn nhất thể giới sử dung Oracle Ở việt nam hầu hết các dơn vị lớn thuộc các ngành ngân hàng, kho bạc, thuẻ, bảo hiểm, bưu điện, hàng không, đầu khí đếu sử đụng hệ quan trị esdl oracle Có được như thê là vi oracle hiện đang đẫn đâu về các tính năng như:
+ Dẻ ến định và tin cậy cao
+ Khả năng xử lý dữ liệu rất lớn, có thẻ lên đến hảng tram Terabyte (TB) ma vẫn đâm bảo tốc độ xử lý đữ liệu rất cao
e Kha ning bão mật rất cao, Oracle đạt độ bảo mật cấp c2 theo tiên chudn bảo
công nghệ CSDL Oracle vốn dược linh thành từ yêu cau đặt hàng của các cơ quan an ninh
1mật của bộ quốc phòng Mỹ và
Ngoài ra Oracle còn là một hệ CSDL dộc lập với hệ diễu hành Nó cho phép không chỉ chạy trên các hệ điểu hảnh thương mại Windows má còn có thể chạy trên các hệ điều hành mã nguồn mỏ miễn phí như Linux rat manh va rat pho bién hién nay
Oracle bao gồm một tập hợp hoàn thiện các sản phẩm xây dịmg ứng đụng và
người đúng cuối được trang bị các giải pháp kỹ thuật thông tín hoàn hảo.
Trang 18bệ thông xử lý song song lớn
Oracle cung cấp một hệ quản trị cơ sở đũ liệu uyễn chuyển: Máy chú đỡ liệu Oracle lưu giữ và quản lý các thông tin đừng trong các img dựng Phiên bản máy chủ
đữ liệu Oracle quân lý CSDI với tắt cả các tru diễm cửa cầu trúc CSDI, quan hệ cộng, thêm khã năng hưu giữ, thực tú vá tình bảo mật đổi với các đối tượng CSDL như các Function, Procedure va Trigger
Oracle Database Server 14 mét hé quan tri CSDL diéu khién:
© Luu pitt dit ligu trén cdc vig dit ligu da thiét kẻ
« _ Truy cập đữ liệu cho các ứng dựng, dùng các kỹ thuật tương đổi tối ưu
«- Bão mật dữ biện, cấp quyền kháe nhau cho các nsor
®- Tiên kết và toàn ven đữ hệu khi CSDI, được phân bố trên mạng,
Oracle git cho các doanh nghiệp sử dụng thông tin chất lượng cao để kết hợp,
do lường cáo kết quả và truyền một cách chỉnh xác nhất đến tất cá các cỗ đông Công,
ty cũng cãi tiến kĩ thuật trong nhiều năm bằng việc kết hợp tính sảng tạo của những kĩ
sư phần mềm giỏi nhật trang nghành với những phản hải từ 500 khách hàng của tạp
chí fortune — kết quả là sự ra dời của những dỗi mới hỗ trự trợ các ngành kinh doanh bị chỉ phối bởi thông tin trên khắp thế giới
Trang 19CHƯƠNG 2 LÝ TIUYÉT VẺ KIIO DỮ LIỆU
2.1 Dịnh nghĩa
Kho đữ liệu là tập hợp các cơ sở dữ liệu tích hợp, hưởng chủ dé, duge thiét ké dé
hỗ trợ cho chức năng trợ giúp quyết định Công nghệ kho dữ liệu lá tập các phương, pháp, kỹ thuật
người sử đụng trên cơ sở tích hợp lừ nhiều nguôu đữ liệu, nhiều môi trường khác nhau
các công cụ có thé kết hợp, hỗ trợ nhau để cung cấp thông tin cho
thiết kể chủ yêu cho truy vẫn và phân tích hơn là xử ]ý các giao tác
Kho dữ liệu thường rất lớn tới hàng tri
Terabyte (TB), Kho dit ligu duoc xây dựng để tiện lợi cho việc truy cập theo nhiều nguồn, nhiều kiểu đữ liêu khác nhau sao cho có thể kết hợp được cả những ứng dụng
một kho dữ liệu tập trrmg trên doanh thu Sử dụng kho dữ liệu có
hồi như "Ai là khách hàng tốt nhất của chúng ta cho mặt hàng nảy năm ngoái?"
Các chủ thể diễn hình
®- Các tài khoản khách hàng
* Vide bản hàng œ_ Tiên tiết kiệm của khách hàng
« Các yêu sách bảo hiểm
« Đại chế hành khách
Trang 20
Data Warehouse Subject Area
liệu cân xem xét xuống mức tối thiêu nhưng cũng bảo đảm các thông tin theo từng chủ
đẻ Một chủ đẻ là một miễn dữ liệu được tách ra từ một tập hợp lớn các chủ dé ma
người sử dụng quan tâm trong công việc kinh doanh
2.2.2 Tich hop
Được xây dựng bằng việc tích hợp dữ liệu từ các nguồn dữ liêu hỗn tạp Các kỹ thuật làm sạch và tích hợp dữ liệu được áp dụng đẻ đảm bảo sự đồng nhất trong các quy ước tên, câu trúc mã hóa, các đơn vị đo thuộc tính giữa các nguồn khác nhau
tt n
Phân hệ Tài khoản khách hãng
Phân hệ
Môi trường tắc nghiệp Kho dữ liệu
Hình 2-2: Mô tả dữ liệu được tích hợp từ nhiều nguồn
Kho dữ liệu phải đưa các dữ liệu từ các nguồn khác nhau vẻ đình dang phủ hợp Chúng ta phải giải quyết những vấn đề như xung đột tên và mâu thuần giữa các đơn vị
do
2.2.3 Hiến thời gian
'Yêu câu quan trọng cho kho dữ liệu là phạm vi về thời gian đài hơn so với các hệ thống tác nghiệp
Trang 21© Cosédtt ligu tic nghiép: du ligt co giá trị hiện thời
©_ Dữ liệu của kho dữ liệu: cung cấp thông tin lich sử từ 5-10 năm trước
© Yếu tó thời gian được lưu trữ trong hệ thông
Kho dữ liệu
Hình 2-3: Mô tả dữ liệu theo thời gian
Các hệ OLTP thường bao quát một khoảng thời gian không lớn vả chúng được lưu trữ theo chu kỳ Ngược lại trong kho dữ liệu, đữ liêu của hàng chục năm được lưu trữ nhằm phát hiện sự liên hệ của các yếu tổ có thẻ ảnh hưởng đến những chỉ tiêu cần
quan tâm trong một thời gian dải
2.2.4, Tinh bên vũng
Khi thông tin đã đưa vào kho dữ liệu, đữ liệu không nên thay đổi Điều nảy là
hợp lý vì mục đích của một kho dữ liệu là dé cho phép ta phân tích những gì đã xảy ra
Dữ liệu đưa vào kho dữ liệu chỉ đẻ đọc, việc sửa dữ liệu hầu như không được tiền hành
vi điêu này cỏ thẻ dân đến phả vỡ sự toản vẹn Thông thường người ta không yêu cầu giảm thời gian đưa dữ liệu vảo kho đữ liệu xuống mức tối thiểu, nhưng cân tôi ưu hoá kho đữ liệu sao cho các truy vẫn phục vụ cho việc phân tích đạt tốc độ tốt nhất Các sơ
đồ quan hệ sẽ tạo ra các Index hợp lý cũng như tạo ra sẵn các dữ liêu kết hợp
Cơ sở dữ liệu hoạt động Kho dữ liệu
Hinh 224: Mô tá thống tỉn dữ liệu luôn bên vững, an toàn
Dữ liêu được lưu trữ lầu dài trong kho đữ liệu Mặc đủ cỏ thêm đữ liệu mới nhập
vảo nhưng dữ liệu cũ trong kho vần không bị xoá, điều đó cho phép cung cấp thông tin
Trang 22yề một khoáng, thời gian dải, cũng cấp đó số liệu cần thiết cho các mô hình nghiệp vụ phân tích, dự báo
2.3 Đặc tính hệ quản trị cơ sở đữ liệu Oracle
33.1 Sự khúc nhau giữa kho dữ liệu và OLTP
Một khác biệt lớn giữa bai hệ thông la kho dữ liệu thường không được chuẩn hóa
6 dang chuan 3NJ', một kiêu mô hình hỏa đữ liệu phô biển trong môi trường OLLP
« OLTP: Mô tá các tiến trình xứ lý tác nghiệp trực tuyển tại hệ thống nghiệp vụ
« OLAP: Mô tá các tiền trình xử lý phần tích trực tuyên tại kho dữ liệu
Our Kha dữ liệu
Vòng đời đữ liệu B0 ~ 60 ngày |Khoáng thời gian dài
"rỗ chức đữ liêu Theo img dung theo chi dé, thoi gian
Xich thước dữ liệu INhó > Lớn Lớn > Rất lớn
Nguồn đữ liệu |Hệ thông tác nghiệp [ác nghiệp, bền ngoài
Thao tac [Theo qui trình [Theo yêu cầu phân tích
23.2, Vu, nhược diễm của hệ thống kho dữ liệu
Tu điểm của hệ thống thông tin sử dụng tiếp cận kho dữ hiệu:
ø - Quân lý được dữ liệu đự thừa
© Pam hao tinh nhat quan cho đữ liệu
ø _ Tạo khả năng chia sẻ đữ liệu nhiều hen
© C&i tién tinh toản vẹn cho đữ liệu
Trang 23Nhược điểm của hệ thông thông ti khi tiếp cận kho dữ liệu:
e Một hệ quan trị CSDL lớn sẽ yêu cầu nhiều chi phí xây dựng hạ tang, trang thiết bị
© Mot hé quan tri CSDL được xây dựng tổng quát cho nhiêu người dùng thì công việc vận hành va quản trị sé ton nghiều nguồn lực để đảm bảo hệ thông hoạt động ôn định
2.4 Kiến trúc kho dữ liệu
Tuy thuộc vảo các chỉ tiết cụ thể của một tổ chức mả ta lựa chọn kiến trúc phủ hợp cho kho dữ liệu Ba kiến trúc phô biên lả:
3.41 Kiến trúc kho dữ liệu cơ sở:
Hình 2-6 cho thấy một kiến trúc đơn giản cho một kho dữ liệu Người dùng cuối
trực tiếp truy cập đữ liệu nguồn thông qua kho đữ liệu
Nguồn Am Kho dỡ liệu Người dũng a
dữ lệu
ví luted
ˆ Tập pháng
Khai phà
Hình 2-6 Kiến trúc của một kho dữ liệu
Siêu dữ liệu và dữ liệu thô của một hệ thông OLTP truyền thông lả sẵn cỏ, như là
là một loại đữ liệu bỏ sung, dữ liệu giản lược Tỏm lược rất cỏ giá trị trong kho dữ liệu, vi chúng tính toản trước các hoạt động lâu đài như truy vấn kho dữ liệu điền hình
để lấy thông tin về lượng hàng được bản trong tháng Một tóm tắt trong một cơ sở dữ liệu Oracle được gọi là một khung nhìn cụ thê hoá
2.4.2 Kiến trúc kho dữ liệu với vùng trung gían
Với kiến trúc này, cần làm sạch và xử lý dữ liêu hoạt động trước khi đưa nó vào
kho dữ liêu, mặc đủ hầu hết kho dữ liệu sử dụng một vùng trung gian thay thể Một vùng trung gian sẽ làm đơn giản hoá việc quản lý kho dữ liệu chung Hinh 2-7 minh họa kiên trúc đặc trưng này
Trang 24Le Kho dữ liệu Người đùng
Hình 2-7: Kiến trúc của một kho dữ liệu với một vùng trung gian
3.4.3 Kiến trúc kho dữ liệu với vùng trung gian và kho dữ liệu cục bộ
Mặc dù kiến trúc trong hình 2-7 là khá phổ biển, tủy theo yêu cầu ta cỏ thể kiến
trúc kho đữ liệu cho các nhóm khác nhau bên trong của tổ chức Điều nảy có thẻ thực
hiện bằng cách thêm các kho đữ liệu cục bộ, đó là các hệ thống được thiết kể cho một
phạm vi cụ thể của doanh nghiệp Hình 2-8 minh hoa mét vi du noi mua, ban hang, va
hàng tổn kho được tách ra Trong ví dụ này, một nhà phân tích tải chính có thể muôn
phân tích dữ liệu lịch sử cho mua vả bán
Nguồn Siêu
lưu trữ 'Kho dữ liệu tờ
PM vua oan Người dùng
Sau khi xác định các yêu câu nghiệp vụ và thỏa thuận phạm vi của ứng dung, va
tạo ra một thiết kế dựa trên các khái niệm Bây gid ta can phải dịch các yêu cầu thành
Trang 25một hệ thống có thể chuyển giao, tạo ra những thiết kế logic và thiết kế vật lý cho kho
dữ liệu Cân xác định:
1, Nội dụng dữ liệu cụ thể
2 Méi quan hệ bẻn trong và giữa các nhóm dữ liệu
Môi trường hệ thống hỗ trợ kho dữ liệu
Các biên đổi dữ liệu cần thiết
lý chúng từ một chuyến dịch và quan điểm sao lưu, phục hồi
'Thiết kế hướng tới các nhu cầu cúa người đàng cuối Xgười đúng cuối thưởng, muén thục hiện phần tích và xem xét đữ liệu tổng hợp, hơn là giao tác riêng lẽ Tuy nhiên, người đùng cuối có thể không biết những gỉ họ cần cho đến kủ họ nhìn thấy nó Ngoài ra, một thiết kẻ được lên kế hoạch chu đảo có tỉnh đền sự tăng trưởng và thay đổi khi nhu cầu của người dùng thay đổi và tiến hỏa Với thiết kế logic, tập trung vào
các yêu câu thêng tin và lưu các chỉ tiết thực thi cho sau này
25.2, Tạo một thiết kế logic
Một thiết kế logic là trùu tượng và dựa trên các khái niệm Ta khỏng để cập tới xhhữmg chỉ tiết cải đặt vật lý T4 chỉ để cập tới việc xác định những loại thông lim mả ta cân Một kỹ thuật ta cản sử dụng làm mô hình cho các yêu cầu thông tin logie của tỗ chức lả mô hình thực thé quan hệ Mô hình thực thẻ quan hệ liên quan đến việc xác định những thứ quan trạng (thực thể), các tính chất của những thuộc tính, và làm thể
nảo chúng liên hệ được với nhau (các môi quan hệ)
Quá trình thiết kẻ logic liên quan đến việc sắp xếp đữ liệu thành một chuối các mỗi quan hệ logic được gọi là các thực thể và thuộc tính Một thực thẻ dại diện cho một mảng của thông tin Trong cơ sở dữ liệu quan hệ, một thực thể thường ảnh xạ tới một bảng Một thuộc tỉnh là một thành phần của một thực thể giúp xác định tính đuy
Thái của thực thể Trong sơ sở dữ liệu cuuan hệ, mội thuộc lính ảnh xạ tới muội gội
Để chắc chân rằng dữ Nên ta có là nhất quản, ta cần phâi sử dụng định danh duy
nhất Một định danh duy nhất là một cái gì đó ta thêm vào bãng để ta có thẻ phân biệt
các phần tử giống nhau khi nó xuất hiện ở những nơi khác nhan Trong một thiết kế
vật ly, đó thường là một chính khoá
Trong khi sơ đồ thực thể quan hệ theo truyền thẳng được kết hợp với các mô
hình chuẩn hóa mức cao như các ứng đụng OLTP, kỹ thuật vẫn còn hữu ích cho thiết
Trang 26kế kho dữ liệu ở dạng mô hình chiếu Irong mỏ hình chiều, thay ví tìm cách phát hiện các đơn vị nguyên tử của thông tin (như các thực thé va các thuộc tính) và tất cả các môi quan hệ giữa chúng, ta xác định thông tì đó thuộc về ruột bằng sự kiện trìmg lâm
và thông tin do thuộc các bằng chiều liên kết của chủng, Ta xác định các chủ thé nghiệp vụ hoặc các trường đữ liệu, xác định các mỗi quan hệ giữa các chủ thẻ kinh
doanh, va tên các thuộc tính cho mỗi chủ thẻ
Thiết kế legie kết quả nên là một tập thực thế và thuộc tính tương ứng với các
bảng sự kiên và các băng chiều và một mồ hình của đữ liệu hoạt động từ nguồn thành thông tin hưởng chủ thẻ trong lược để kho dữ liệu dích
Ta có thể tạo ra những thiết kế logic sử dụng bút và giấy, hoặc sử dụng một công,
cụ thiết kế như Oracle Warehouse Builder, đặc biệt được thiết kế để hỗ trợ cho mô
hình hóa quá trình HTL; hoặc Oracle Designe, một công cụ mô hình hóa mục đích chung,
2.5.3 Lược đồ khu dữ liệu
Một lược đồ là một tập các đổi tượng cơ sở đữ liệu, bao gêm cả các bảng, các
xô hình lước dễ thiết kể cho kho dữ liệu theo nhiều cách Hầu hết các kho dữ liệu sử đụng một mô hình chiền
khung thắn, e e synonym Tạ có thị
Mô hình của dữ liệu nguồn và các yêu cầu của người đùng giúp ta thiết kế lược
đồ kho đữ liệu Việc cài đặt vật lý của má hình kho dir ligu logic 06 thé yên cần một số
thay đổi để thích ứng với các tham số hệ thông như kích thước máy, số lượng người dùng, khả năng lưu trữ, kiéu mang, va phan mém
‘quantity sold)
Đáng sự kiện
Hình 2-9: Lược đỗ hình sao.
Trang 27Cách tự nhiền nhất làm mô hình một kho đữ liệu như một lược đỗ hình sao, ở đó chỉ có một múc kết nói thiết lập môi quan hệ giữa bảng sự kiện và một bảng chiều bắt
2.5.4 Các đối tuợng kho dữ liệu
Các bằng sự kiện và các bang chiều là han loại đôi tượng sử dụng phỏ biển trong, các lược đỗ kho dữ liệu đa chiều
Các bảng sự kiện là các báng lớn trong lược đồ kho đữ liệu mà lưu giữ các thông
số nghiệp vụ Các bảng sự kiện tiêu biểu gêm các sự kiện và các khỏa ngoại liên kết
tới các bãng chiều Các bãng sự kiện miều tã dữ liệu có thể được phân tích và kiểm tra,
thường là số và cộng tính; ví dụ như bán hàng, chí phí, và lợi nhuận
Các bang chiều, cũng dược hiểu như lả bảng tìm kiếm hoặc bang tham chiếu, chữa đữ liệu tương dỗi tĩnh trong kho dữ liệu Các báng chiều lưu trữ thông tin ma thường bao gêm các truy vấn Các bảng chiêu thường la nguyên bản và mồ tả và ta có
Ja không cỏ tính cộng Các đữ kiện cộng tính có thẻ được tông hợp bởi phép cộng số học đơn giản Một ví dụ phố biến là bán hàng
Ta phải xác định một bang sự kiện cho mỗi lược đồ hình sao Xuất phát từ một
quan điếm mô hình hóa, khóa chính của bảng sự kiện thường là một khỏa phức được tạo thành từ tất cả các khỏa ngoại của nó,
3.40 Các bảng chiều
Trang 28Một chiều là một câu trúc, thường bao gồm một hoặc nhiều phản cấp, để phân: loại đữ liệu Các thuộc tính chiều giúp mô tã giá trị chiêu
Chúng thường là các mô tã, các giá trị nguyên bán Một số chiều nhất định, kết hợp với các sự kiện, cho phép ta trả lời các câu hỏi kinh doanh Các chiều được sử dụng phố biến là khách hàng, sản phẩm và thời gian (2zsiomers, producis, và Iờn€),
Đữ liệu chiều thường được lm thập lại mức chỉ tiết thấp nhất và sau đó được tổng hợp thành các tổng mức cao hơn dễ có ich hơn cho phan tich Các các phép gộp trong một bàng chiều được gọi là phân cấp
1 Phân cap : Phân cấp là cầu trúc logic sử dụng các mức thứ tự theo nghĩa đữ liệu
được tổ chức Một phân cấp có thế được sử dụng để xác định việc kết hop dtr
liệu Ví dụ, một chiều thời gian, một phân cấp phải kết hợp đữ liệu từ mức thang toi mute quý tới mức năm Một phân cấp cũng có thể được sứ dụng dễ xác định một hưởng phân tích và để thiết lập một cầu trúc nhỏm liên quan
'Trong một phân cấp, mỗi cấp được kết nói logie tới các mức trên vả mức dưới
Phản cấp chiều cũng nhớm các múc từ tổng hợp đến chỉ tiết Các công cụ truy
vn sir dung phan cép cho phép ta đi sâu vào đữ liệu để xem mức độ khác nhau Đây là một Irong những lợi ich chinh của ruột kho đữ liệu, Khi thiết kế phan cap, ta phat xem xét các môi quan hệ trong các cầu trúc nghiệp vụ Ví dụ, một tổ chức bản háng phân nhiêu mức
Sự phân cấp áp đặt một cấu trúc nhóm trên các giá trị chiếu Với một giá trị mức
cụ thế, một giả trị tại mức cao hon kế tiếp là cha của nó, và các giá trị tại mức thập hơn
quý, năm Các mức sắp thứ tự từ khải quát đến cụ thể, với mức gốc là múc cao
Thiết hay tổng quát nhất Các tuức trong một chiều được Lô chức thành một hoặc nhiều phân cấp
3 Các mỗi quan hệ cấp bậc: Các mỗi quan hệ cấp bậc xác dịnh từ trên xuống dưới thứ tự của các mức từ thông tin chúng nhất đến thông tín chủ tiết Xác định mốt quan hệ cha-con giữa các múc trong một hệ thông phân cập
Trang 29Sự phân cập cũng là các thành phần thiết yếu trong việc cho phép viết lại phức tạp hơn Ví đụ, cơ sở đữ liệu có thể tổng hợp một đoanh thu bán bảng hiện có trên cơ
sở hàng quý cho tới hàng năm khi chiên phụ thuộc giữa quý và năm được biết
Một ví dụ cho một hệ phân cấp chiều điển hình
nghiệp bản một cái gì đó, rõ rằng ð đi
mL mdi quan hệ giữa thông tin bán bồng trong bang sự kiệu vả các bảng chiều sẵn phẩm và khách hảng làm cho các quy tắc nghiệp vụ có hiệu lực trong cơ sở đữ liệu
25.9, Minh họa đối tượng kho dữ liệu và mỗi quan hệ
Hình 2-11 mình họa một ví dụ phổ biên của một bảng, sự kiện ban hang vả các
bang chiéu customers, products, promotions, times, va channels,
Quan hệ
Bang enka
Trang 30
261 Chuyển thiết kế logic thành thiét ké vat ly
Thiết kế log¿e là cái ta vẽ với bút và giấy hoặc thiết kế với Oracle Warehouse Bauildar hoặc Oracle Designer trước khi xây đựng kho dữ liệu
Thiết kẻ vật lý là việc tạo cơ sở dữ liệu với các lệnh SQL Trong quá trinh thiết
kế vật lý, ta chuyển đổ: dữ liệu thu thập được trong pha thiết kế lagie vào một mô tả của cầu trúc cơ sở dữ liệu vật lý Các quyết định thiết kẻ vật lý được thúc đây bôi hiệu
Trong pha thiết kế vật lý, ta xác định một mô hình cho kho đữ liện gảm các thục
thể, các thuộc tính, và các mỗi quan hệ Các thực thể được liên kết với nhau sử dụng các môi quan hệ Các thuộc tỉnh dược sử dụng dễ mô tả các thực thẻ Định danh duy nhất phản biệt giữa một trường hợp của một thực thể với các trường hợp khác
'Trong quả trình thiết kế vật lý, ta chuyển các lược đỗ dự kiến thành các cầu trúc
chi liệu thục tê Luc nay, ta phải ảnh xạ:
« Các thực thể tới các bảng
«_ Các mối quan hệ tới các rảng buộc khỏa chỉnh
Trang 31© Cac dinh danh duy nhất tới các ràng buộc khớa duy nhất
2.6.3 Cầu trúc thiết kế vật lý
Một khi ta đã chuyên thiết kế loạ¡c thành một thiết kế vật lý, ta sẽ cần phải tạo ra
một số hoặc tật gã các câu trủơ sau:
'Một số câu trúc này yêu cầu không gian đĩa Một số khác chỉ tên tại trong từ điển
đữ hệu Ngoài ra, các câu lrúc sau có thể được lao ra cho gái thiện hiệu suảL,
+ Chỉ mục và chỉ mục phân vùng
+ Khung nhìn
264 Không gian lưu trũ dữ liệu
"Một không gian lưu trừ đũ liệu bao gềm một hoặc nhiều tệp dữ liệu, đỏ là những câu trúc vật lý rang hệ điều hành ta đang sử dụng Một tệp đữ liệu liên kết với chỉ một không gian lưu trữ dữ liệu Từ một quan điểm thiết kế, các không gian lưu trữ đữ liệu ]ả nơi chứa các câu trúc thiết kế vật ly
Các không gian lưu trữ dữ liệu cần phái được tách ra bởi sự khác biệt Ví dụ, các bảng nên được tách ra khỏi các chỉ mục của chứng và các bảng nhỏ nên được tách ra
từ các bảng lớn nên có thế các không gian lưu trữ đữ liệu cũng nên đại điện cho các đơn vĩ nghiệp vụ Bởi vì một không gian lưu trữ cho phép sao lưu và khôi phục hoặc
di chuyển, thiết kế nghiệp vu logic anh hưởng dến độ khả dung và các hoạt động báo trì
Tây giờ ta có thể sử dụng các tệp đữ liệu cục lớn, một cãi tiên đáng kế trong các
cơ sở đữ liệu rất lớn
36:4 Báng và phân hoạch bảng
Tảng là đơn vị cơ bản của lưu trữ đữ liệu Chúng là nơi chứa hưọng đữ liệu thô
dự kiến trong kho dữ liệu
Sử đụng các bảng phản hoạch thay cho những bảng không phân hoạch giải quyết vân đề chủ chốt của việc hỗ trợ khỏi lượng, đữ liệu rất lớn bằng cách cho phép phân
Trang 32cho phân vùng là đễ quản lý, tuy nhiên †a cũng sẽ thấy được lợi ích hiệu năng trong
hau hết gác trường hợp bởi sự lược bớt các phân hoạch hay việc xử lý song song thông
minh
Phin hoạch các bằng lớn cãi thiện hiệu suất vì mỗi phân vùng dễ quản lý hơn
thông thưởng, ta phân vúng, dựa trên các ngảy giao dịch trong kho dữ liệu Vỉ dụ, mỗi tháng, một giá trị đữ liệu của tháng, có thể được gán phân hoạch riêng cho nó
266, Nén bảng
Ta có thể tiết kiệm không gian dia bằng cách nén các bảng được tô chức theo
khối Một loại điễn hình của bảng đữ liệu được tế chíc theo khỏi nên xem xét cho việc
xiên bằng là các bảng phân hoạch
Đế giảm thiếu việc sử đụng đĩa và sử đụng bô nhớ trong, như bộ nhớ đệm, ta có
thé lưu trữ các bảng và các bằng dược phân hoạch ở dạng nén bên ngoài cơ sở dữ liệu
Điều này thường dẫn tới một thiết kế quy rnô tốt hơn cho các hoạt động chí đọc Nén bâng cũng có thế tăng tốc việc thưc thi truy vẫn Tuy nhiên, điều quan tam 14 cai gia
trong chỉ phí hoại động bộ xử lý
Nền bảng nên được sử đụng với dữ liệu dư thừa cao, như bằng với nhiều khỏa xgowi Ta nên trắnh nên bảng với nhiều cập nhật hay hoại động ngôn ngũ thao tác dịt liệu (DML) khác
267 Khung nhìn
Một khuna nhìn là một thể hiện phủ hợp cửa dữ liệu chứa trong một hoặc nhiều
bảng hoặc các khung nhìn khác Một khung nhìn đưa ra kết quả của một truy vấn và
xem nó như một bảng Các khimg nhìn không yêu câu không gian trong cơ sở đữ liệu
2268: Ràng buộc toàn vẹn
Rảng buộc toàn vẹn ngăn cần việc có các thông tin không hợp lệ trong bảng Rang buộc toàn ven rong kho dữ liệu khác với ràng buộc trong môi trường OI.TP Trong môi tường OLTP, chúng chủ yếu ngăn chặn việc chẻn dữ liệu không lợp lệ vào
một ban ghí, má đỏ không phái là một vẫn dễ lớn trong môi trường kho đỡ liệu vị độ
chính xác đã được bảo toàn Trong môi trường kho dữ liệu, ràng buộc chỉ sử đụng cho
viết lại truy vẫn Răng buộc NOT NUI,I, đặc biệt phố biển lrong kho đữ liệu Như một
số trường hop cy thé, rang buộc cần không gian trong cơ sở đữ liệu
2.69 Chi mue và chỉ mục phân cunt
Chỉ mục lả câu trúc tùy ý kết hợp với các bảng hoặc các chuster Ngoài chỉ nưục B-tree cỗ điển, chí mục biữnap cũng rất phổ biển trong mỗi trường kho dữ liệu Chỉ
Trang 33mục bitmap là cầu trúc chỉ mục tôi ưu cho các hoạt động tập các dữ liệu được thiết lập định hướng Thêm nữa, chủng cần thiết cho một số phương pháp truy cập dữ liệu tối
ưu như các phép biến đổi hình sao
Chỉ mục như bảng bởi vì ta có thẻ phân vùng chúng, mặc dủ chiên lược phân vùng không phụ thuộc vao cau tric bang Phan ving các chỉ mục làm no dé dang hon
trong quản lý kho dữ liệu trong quả trình làm tươi và cải thiên hiệu năng truy vẫn
2.6.11 Chiều
Chiều là một đối tượng mả xác định các môi quan hệ thử bậc giữa các cột hoặc
các nhóm cột Một quan hệ phân cắp là một phụ thuộc hàm từ một mức của một phân
cấp tởi một mức của phân cấp kế tiếp Một chiều la mot miền của các mối quan hệ logie và không yêu cầu không gian trong cơ sở dữ liệu Một chiều điện hình la city,
state (hode province), region, va country,
Trang 34nảo đỏ đề xử lý tiếp Việc biển đổi dữ liệu cũng có thể được thực hiện ở bước nảy
Một công cụ hỗ trợ quả trình ETL là OWB Tuy nhiên, với những nghiệp vụ
phức tạp ta cần viết các thủ tục, hảm riêng đề thực hiện tiên trinh ETL trong kho dữ
liệu
Oracle Warehouse Builder
S Loap_pRoMaTIONS
*Ÿ* LQAp.SALES
TẾ TS tap (© GB Transfeemebene
Trang 35'Trịch xuất dữ liệu là thao tác lây dữ liệu từ nguồn dé sit dung che DWH Day la bước đầu tiên của quá trình IfTL Sau khi trích xuất, dữ liệu có thể được biển đổi và
được lãi vào trong DWH
Nguôn dữ liệu cho việc trích xuất có thể rất phức tạp hoặc không được lập tải liệu đây đã, do vậy, quá trình xác định dữ liệu nào được Irích xuất là khỏ khăn Thiết
kế tiến trình trích xuất đữ liệu clrủng ta quan tảm tới hai van dé sau:
1 Thứ nhất: Lựa chọn phương thức trích xuất Phêu này gây ảnh hưởng lới nguồn đữ liệu, tiễn trình truyền vả thời gian làm tuoi DWIL
tà Thử hai: Cung cấp dữ liệu đã dược trích xuất như thé nao dé str dung trong
tương lại Diễn này anh hưởng tới phương thức truyền, cũng như nhu cầu làm
sạch và biển đối dữ liệu
Việc đánh giá lựa chọn phương pháp trích xuất dữ liệu phụ thuộc vào nguồn đữ
liêu và nghiệp vu cụ thể, Có những phương pháp logic và vật lý giúp cu thé hon việc trích xuất dữ liệu từ nguồn
1 Phương pháp logic:
«- Trích xuất dây đủ: Lấy ra tất cả dữ liệu đang có tại nguồn Ví dụ như thao tác lây tất cả dữ liệu ra từ một băng Khi trích xuất dây đú, sẽ không cần thao tác lân vết theo sự thay đổi kế từ lần trích xuất thánh công cuối củng Thao tác
xảy được thực hiện với trích xuất lăng
«_ Trích xuất tăng: La trích xuất dữ liệu đã có sự thay đối kế từ một thời điểm cụ
não đó trong quá khứ được lưu lại, như là thời điểm trích xuất dữ liệu gần
nhất, hay là ngày đặt hang cuéi cùng của một kỷ tài chính,
Để nhận biết được những thay đổi nảy cần có một cơ chế để đành dẫu đử liệu đã có
sự thay đổi sau thời điểm đỏ (thời điểm trích xuất đữ liệu trước đó)
Nhiều DWII không sử dụng phương pháp bắt những dữ liệu đã có sự thay đổi, thay
vào đó là kỹ thuật so sánh toàn bộ các bảng được trích xuất với bảng đã được trích
xuấi trước đó lừ nguồn để nhận đạng đữ liệu có sự thay dối Tuy rhiên, với bảng,
lớn thi phép toán này sẽ rất tốn tài nguyén hé théng Oracle bé tro co ché Oracle's
Change Data Capture (CDC) gitp ghi nhận và bão trì những thay đối của đủ liệu
«Trích xuất trực tuyển: Dữ liệu được trích xuất trực tiếp từ nguồn Tiến trình
trích xuất có thể kết nổi trực tiếp tới nguồn để lấy đữ liệu hoặc qua một hệ
Trang 36tình từ trước
«Trích xuất ngoại tuyển: Dữ liệu được lấy từ nguồn hưu trữ dạng ngoại tuyển
như các tệp tin phẳng hay các tệp tin kết xuất, các không gian kưu trữ đữ liệu
thể là thao tác chuyển đữ liệu từ hệ thống nguồn tới cơ sở dữ liêu trung gian hoặc cơ
sở đữ liệu DWH, từ cơ sỡ đữ liệu trung gian tới cơ sở đữ liệu DWI], từ cơ sở đữ liệu DWH tới vùng lưu trữ siêu đữ liệu
Các cơ chế vận chuyển dữ liệu trong DWII-
1 Vận chuyên sử dụng các tập tin đữ liệu: Dử liệu nguồn có thể được kết xuất ra
đạng tếp tin đữ liệu, được truyền tới máy đích thông qua giao thire FTP, sau 46
các tập tin đữ liệu này có thể dược dưa vào DWH Đây là cơ chế dơn giản và hiệu quả dễ thực hiện việc vận chuyển dữ liệu ngoại tuyến ngay cá khi nguồn
và DWIH không củng hệ điều hành hoặc không củng database
2 Vận chuyển thông qua các thao tác phân tan ‘Thong qua các truy van phân tán,
cơ chế này thực hiện chuyển đữ liệu trục tiếp tới hệ thống dich, do vậy nó hễ trợ đồng thời cả trích xuất và vận chuyển đữ liệu Kết quả vận chuyển dữ Hiệu được biết ngay sau khi thục hiện các truy van hoặc giao địch phân tán
3 Vận chuyển sử dụng các không gian hưu trữ dự liệu có thẻ trao đổi: Cơ chế này
phủ hợp khi vận chuyển lượng lớn dữ liệu Các không gian lưu trữ dự liệu này
có thế trao đối hỗ trợ vận chuyến đồng thời cã đữ liệu và siên đữ liện Các tệp
tin đữ liệu bao gồm hầu hết các dối tượng trong CSDL déu dược vận chuyển Lừ CSDL nay toi CSDL khac Han chế của cơ chế này lá chỉ chạy trên củng hệ điều hành, chỉ cỏ từ phiên bản Oraole 8i trở lên, phải cùng bộ định dạng kí tự Ung dung các không giam lưu trữ đữ liệu có thể trao đổi rong DWH là khi vân
chuyển đữ liệu từ nguồn đữ liệu trung gian sang DWH hoặc Lừ DWH sang vimg, lưu trữ siêu đữ liệu Các không gian lưu trữ đữ liệu có thể trao đổi phải được thiết lập đạng READ ƠNLY để có thế vận chuyên được
374 Tải dữ liệu
iền đôi đữ liêu là một công việc phức tạp đòi hỏi người làm phải có kỹ năng cao
về PI.SQT, và am hiểu về
nghiệp vụ dong vai trò quan trong Ngoài các thao lác biến dội dữ liệu bên trong cơ sở
để đáp ứng các yêu câu nghiệp vụ để ra, ở đây, kinh nghiệm
dữ liệu, nó cỏ thể dược thực hiện bên ngoài cơ sở đữ liệu, như là các tập tí phẳng,
Trang 37các tập tin đữ liệu hoặc bảng ngoài vào trong cơ sở đữ liệu DWII
Cơ chế biến đổi dữ hệu: Khi đữ liệu đã được chuyển vao database, có thể biển
đối đữ liệu sử dụng SQL hoặc PISQL Khi sử dụng SQL, có thể sử đựng các
câu lệnh TNSERT, UIPDATE, MERGE dễ biến đải dữ liệu Sữ dụng ngôn ngít tha tue PL/SQL dé thye hiện các thao tác biến dỗi dữ liệu phức tạp
Sũ dụng kỹ thuật phân vùng dé p nhật dũ liệu vào DWH: Hấu hết đữ liệu mới
Dit ligu dang duge tdi yao DWT! tai thi diém cuối của tuần, của tháng chính là
dữ liệu giao địch của tuần hoặc tháng đó
Thiệu năng kho đữ liệu
2.9 Thục thi song song
'Thực thi song song giúp cãi thiện đáng kề thời gian trả lời cho các thao tác dữ
liệu chuyên sau trong các cơ sở dữ liệu lớn như cơ sở dữ liện phục vụ cho hệ thông hỗ
trợ quyết định, kho dữ hệu
1 Thực thì song sơng cỗi thiên thao tác xử lý cho
Cae truy van yêu câu quét các bằng lớn, hoặc phép liên kết, hoặc quét chỉ mục đã được phân vùng
Tạo chỉ số lớn Tao bang lớn (bao gồm cả Khung nhìn vật l)
Các thao tác Insert, Update, Merge và Delete lượng lớn dữ liệư
Thực hiện truy nhận các đối tượng lớn (LOEs}
Thực thi song song hễ trợ các hệ thông có các đặc tính sau:
Da xử lý đổi xứng (Symeic MultiProoesser-SMPS), cluster hoặc hệ thống song song khéng 16 (Massively Parallel Systems — MPPs)
Đủ băng thông đề thực hiện vào ra
Các hệ thẳng có tỉ lệ sử dụng CPU thấp (đưới 30%)
Các hệ thông có đủ bộ nhớ để hỗ trợ các xử lý sử dụng nhiều bộ nhỏ như
thao tác băm, sắp xếp, bộ nhớ đệm vào ra
Trang 38DSS va DWIL Cac hé thông OLTP cai đặt thực thi song song khi thục
thiện các lão táo xử lý theo lỗ hoặc các mo lắc tạo chỉ mục Các câu
lênh SELECT hoặc DML ở mức độ dơn giản trong hệ thống OLTP không niên cải đặt thực thi song song
Không cái dặt thực thị song song khả
©_ Các môi trường có nhiều truy vấn và giao tác dược thực hiện trong thời
Các thao tác có thể cài đặt thực thi song song
«_ Các phương thức truy nhập: Quét bằng, quét chỉ mục
œ_ Các phương thúc liên kết: sort, merge, loop, hash
Cơ chế làm việc song song : Thực thỉ song song chia việc thục hiện xử
câu lệnh SQL thành nhiền don vi céng việc nhỏ hơn, từng đơn vị công việc này
sẽ dược xử lý bởi một tiến trình riêng rỡ Các bảng, phân hoạch, chỉ mục cũng
dược chia thành các phần gọi là granules Khi xt ly song song, Oracle cd ede điêu phải truy vấn đề thực biện các thao tác
« _ Phân tích truy vẫn và phân tích mức độ song song,
«_ CẤp phát một hoặc hai phục vụ các luông hoặc tiền trình
® _ Diễu khiển các truy vẫn và gửi các chỉ lệnh phục vụ tới các câu truy van thuc thi song song (Parallel Query - PQ)
e ‘XAc dinh bang hoke chi sé no cn duce quét béi PQ slaves
® _ Tạo ra các dau ra cudi ctmg cho người dùng
Mức song song: Oracle có bộ điểu phối thực thi song song Bộ điều phối này đáng ký hai hoặc nhiều máy chủ thục thi song song của Oracle Instance để xử
lý một câu lệnh SQL Sẻ máy chủ thực thi song song được liên kết với một thao tác dơn thể gọi là mức song song, Một thao tác dơn ở dây lá một phần của một c@u lệnh SQL nw lả mệnh để ORDER BY, như lả việc quét toản bộ một báng,
để thực hiền một phép LIÊN KÉT trèn cột không được đánh chỉ mục Mức độ song song chỉ áp dung cho cơ chế nội hoại động song song Xiễu cơ chế này có thể thực hiện thi tổng số máy chú thực thi song song một cầu lệnh cỏ thé gap hai lần mức song song Không có nhiều hơn hai bộ máy chủ thực thi song song
Trang 39có thể chạy đồng thời Mỗi bộ thực thi song song có thể xử lý nhiều thao tác Chi kích hoạt hai bộ máy chủ thực thi song song khi cần đảm bảo tôi ưu nội đoạt động song song Thue thi song song được thiết kế để sử dụng hiệu quả CPU và ỏ đĩa sẵn có để có được câu trả lời nhanh các truy vẫn Như vậy, khi nhiều người dùng cùng sử dụng cơ chế song song sẽ gây ra tỉnh trạng quả tái sứ dụng tài nguyên Oracle cung cấp một số phương pháp quan lý sử dụng hiệu quả tải nguyên trong môi đường có cái đặt thực thì song song, bao gdm
© Thuật toán tương thích đa người đủng được cài đặt mặc định cho phép giảm mie song song khi tải cúa hệ thông tăng lên
«_ Sử dụng cơ chế hỗ sơ người dùng đẻ giới hạn tài nguyên được sử dụng
© Sử dụng chức năng Dalabase Resource Manager để quản lý cấp phát tải nguyên cho nhỏm người đúng
Bộ dệm Máy chú thực thủ song song: Khi Instance khối động, Oracle tạo một vùng đệm các máy chủ thực thì song song để sẵn sảng phục vụ các thao tác song song Tham số PARALLEL MIN_SERVERS quy định số máy chủ thực thi song song khi Oraole Dalabase khối động một Irstanee Khi thực Hủ mội thao tác song song, bd diều phỏi thục thi song song có được máy chủ thực thị song song từ Vừng dém va gan né cho thao tac sang song Néu thy cần thiết, Oracle có thể tạo ra thêm máy chủ thực thả song song để thực hiện thao tác sen, song dó Những máy chú thực thí song song nảy duy trỉ việc thực thi các thao tác song song cho đến khi lệnh được thục hiện hoàn tắt, Sau khi thực hiện xong
công việc, các máy chủ thục thi song song nay sẽ được bộ điêu phổi xử lý song,
song trả về cho Vừng đệm Bộ điểu phối song song và cáo tnáy chỗ thựu thì
song song do bộ điều phối đó quản lý chỉ thực hiện một lệnh tại một thời điểm
Do vậy, không thể oỏ chuyện các máy chủ thực thi song song của cừng một bộ điều phổi quản lý lại vừa thực hiện một câu lệnh truy van, lại vừa thực hiện mệt câu lệnh thao tác dữ liệu khác (DML) tại một thời điểm, Khi người dùng phát sinh một câu lệnh SQL, bộ tối ưu của database sẽ quyết định cở sử dụng, cơ chế song song đề thao tác cầu lệnh SQL đỏ không va mic song song cho mdi thao
tác là thế nào Khi bộ tối tu chọn cơ chế song soug để xử lý câu lệnh SQL cdc
sự kiện theơ trình tự sau được thực hiện:
© Tién trình tiền cảnh của câu lệnh SỌI, trở thành bộ diéu phối song song ø- Bộ điền phối song sơng dó được số máy chủ xử lý song song phụ thuộc
vào mức song song từ vùng dệm máy chủ, hoặc tạo máy chủ xử lý sơng,
sang mới nếu thấy cần
Trang 40® Oracle thuc thi cầu lệnh như một chuỗi các thao tác, mỗi thao tác được
thực hiện song song nêu có thể
® Khi việc xử lý câu lệnh kết thúc, bộ điểu phối trả kết quá về cho tién trình người đùng phát sinh câu lệnh vả trả máy chủ thục thi song song về cho ving dém máy chủ
7 Cách giao tiếp của máy chủ xi ly song song: BS thue tn mat truy vấn trong cơ chế song song, Oracle tao hai may cha li Producer Queue va Consumer Producer Queue Server lay các bản ghi tir bang va Consumer Server thực hiện các thao tác như liên kết, sắp xếp, DML và DDL trên các bản ghí này Mỗi máy
lập một kếi rồi tới rồi máy chủ
chủ trong tiên trình thực tt Produeer Huêi
tương ứng trong tập Consumer Như vậy số kết nối áo giữa các máy chủ thực thi song song sẽ tăng theo bình phương của múc song song Từng kết nỏi sẽ sử
Õ bộ
dụng một tới bản bộ nhớ đệm Trong mỗi trường chỉ có một Iustamee thi
nhớ đệm thường lả ba Trong môi trường RAÁC thì số bộ nhớ dém thường là bến cho mỗi kênh kết nói
"Tập các tiến trình thực thi song song thử +
Tập các liền trình thực thÌ song song thử 2
Tingien
ộ nhớ đệm
Hình 2-16: Minh họa các tin đện bộ nhó: dặm và kết nói giữa các mày chú thực thi song song
Nếu một kết nỗi được thực hiện giữa hai xử Íý trên cừng một thể hiện thỉ các máy
chủ xử lý song song giao tiếp bằng việc truyền tới truyễn lui các vùng đệm Khi kết
nổi được thực hiện giữa hai thể hiện khác nhau thì tin diện được truyền sử dụng các giao thức mạng tóc độ cao
8 Làm song song hóa câu lệnh SQL: Sau khi bộ tối ưu xác định kế hoạch thực
hiện câu lệnh SỢL,, bộ điều phối song song sẽ xác định phương thức thực hiện
song song cho timg thao tác trong kế hoạch Ví đụ: khi quét toản bộ bảng, phương thức thực hiệu sơng song sẽ chọn phương pháp quét lừmg vùng khối