LỜI CAM ĐOAN ‘Toi xin cam đoan: Luận văn thạc sĩ Công Nghệ Thỏng Tín với để tải “XAY ĐỰNG KHO DỮ LIỆU VẢ PHÂN TÍCH OLAP TRONG HỆ THÓNG NGHIỆP VỤ THONG MINH VE KINH DOANH VIEN THONG?” la
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRUONG ĐẠI HỌC BÁCTI KIOA HÀ NỘI
NGUYÊN CHÍ BAO
XÂY DỰNG KHO DỮ LIỆU VÀ PHAN TICH OLAP TRONG HỆ
THONG NGHIEP VU THONG MINH VE KINH DOANH VIEN
‘THONG
LUẬN VĂN THẠC SĨ KĨ THUẬT
CÔNG NGITE THÔNG TIN
Hà Nội — Năm 2018
Trang 2
_BQ GIAO DUC VA DAO TAO
TRUONG DAL HOC BACH KHOA HA NỘI
NGUYÊN CHÍ BAO
XÂY ĐỰNG KHO DU LIEU VA PHAN TICH OLAP TRONG HE THONG
NGIDEP VU THONG MINI VE: KINI DOANH VIỄN THÔNG
Chuyên ngành : Công Nghệ Thông Tin
LUAN VAN THAC ST KĨ THUẬT
CÔNG NGHỆ THONG TIN
NGƯỜI HƯỚNG DAN KHOA HOC
PGS TS CAO TUANDUNG
Hà Nội - Năm 2018
Trang 3
MỤC LỤC
MỞ ĐÀU _ Nhà
1.- Lý do chọn để tải du — od
2 Muc dich nghiên cửu luận văn, đổi tượng, phạm vì nghiền cửu 11
Chương 1 TÔNG QUAN VẼ BỊ VÀ DATA WAREHOUSE
LỊ Tổng qwnvễB[.i
1.1.1 Giới thiệu chung vẻ BỊ
1.1.2 Kiến trúc tổng thể của BI
1.1.3 Hệ thống BỊ trên thể giới
1.1.4 Tổng quan về Data mining
1.2 Kiến trúc tong thé Data Warehouse,
1.2.1 Khai nigm Data Warehouse,
1.2.2, Kién tric Data Warehouse
1.2.3 Các đặc trưng của kho dữ liệu si
1.2.4, Céc thanh phan cơ bản của Data Warehouse
1.2.5 Tổng quan về Data Mai
'Kết chương
Chương 2 TÔNG QUAN VỀ OLAP
3.1 Định nghĩa OLAP
3.2 Mö hình dữ liệu đa chiều
3.3 Mồ hình thiết kế kho dữ liệu
3.4 Các mỏ hình dữ liệu đa chiên OLAP
3.4.1 Mô hình ROLAP
2.4.2 Mô hình MOLAP
3.4.3 Mô hình HOLAP
2.4.4, So sánh các mồ hình OLAP
2.5 Giới thiệu về Dashboard
3.5.1 Khải niệm Dashboard
2.5.2 Phân loại Dashboard
3.5.3 Một số loại dashboard thông đụng
Trang 4
Chương 3 UNG DUNG TRONG BAI TOAN QUAN LY HE THONG EN
THÔNG -
3.1 Thực trạng hiện nay của các doanh nghiệp viễt
3.1.1 Vấn để tích hop théng tin di động & i
3.1.3 Các hệ thông hiện tại được doanh nghiệp viễn thóng sử dụng
3.1.3 Để xuất giải quyết vẫn để
3.3.2, Thiết kẻ Data Warehouse ứng dụng cho lĩnh vực di động của doanh
nghiệp viễn thông kh 7= 3.3.3 Thiết kế một số tỉnh năng điệu tích dữ liệu
3.3.4 Thiết kế các Cube trong OLAP 2
3.3.5 Ung dụng vào việc tích hợp dữ liện 55s
3.3.6 Ứng dụng vào việc tạo các báo cáo động
4.1.2 Sử dụng hệ thống mã nguồn mở: Module ETL,
4.1.3 Tao các bảo cáo cáo động
4.2 Danh gia
KÉT LUẬN VÀ HUONG PHAT TRIEN acs
‘TAI LIEU THAM KHAO = 82
Trang 5
LỜI CAM ĐOAN
‘Toi xin cam đoan: Luận văn thạc sĩ Công Nghệ Thỏng Tín với để tải “XAY ĐỰNG KHO DỮ LIỆU VẢ PHÂN TÍCH OLAP TRONG HỆ THÓNG NGHIỆP VỤ THONG MINH VE KINH DOANH VIEN THONG?” la céng trinh
nghiên cửu thật sự của cá nhân, được thực hiện bằng sự tìm tỏi, học hỏi và kinh nghiệm cả nhàn trong lĩnh vục kinh doanh thông mảnh của doanh nghiệp viễn
thông, đưới sự hưởng dẫn của PGS.TS Cao Tuấn Dũng
Toi xin chịu trách nhiệm vẻ lời cam đoan này./
Ha Nou ngay thang 04 nam 2018
‘Tac gia
Nguyễn Chí Bảo
Trang 6LOI CAM ON
Loi liên, tôi xin gửi lới cảm on va long biét on siu sie nhit toi PGS.TS
Cao Tuần Dũng, người đã tận tính hướng dẫn và chỉ bảo tỏi trong suốt quả trình thục hiện luân văn cao học Tỏi châu thánh cảm ơn các thấy, cổ trong trường Đại
học Bách Khoa Hà Nội đã cho tôi một mới trường rất tốt đẻ học tập và nghiên cứu
Các thấy cô đã giảng dạy và cho tôi những kiểu thức quý báu, làm nên tảng để tỏi hoàn thành luận văn cũng nhĩ công việc trong tương lai Tôi cũng xin gửi lời trí ân tới các anh, chị, bạn học viên 201B đã luôn bên cạnh, ủng hộ vã giúp đỡ tôi trong suốt quá trình học tập tai trường Cuối củng, tôi muốn gửi lời cảm ơn vỏ hạn tới gia
đình và bạn bê - những người thân yêu luôn ớ bên, khuyến khich vả động viên tối
trong cuộc sống cũng như trong học tập
Tôi xin châu thành cảm ơn
Ha npr, thang # năm 2018
Hạc viên
Nguyễn Chí Bao
Trang 7DANH MUC CHU’ VIET TAT
BỊ Business Intelligence
BTS Base transceiver station
CNTT 'Công nghệ thong tin
CSDL Cơ sở đữ liệu
CSKH Cñăm sóc khách hãng
DW Data Warehouse
ETL Extraction, Transformation, Loading
HOLAP ‘Hybrid OLAP
MOLAP Multi dimensional OLAP
‘OLAP Online Analytical Processing
0ETE Online transaction processing
ROLAP Relational OLAP
Trang 8
DANH MỤC CÁC HÌNH Hình 1: Kiến trúc tổng thể BI
Minh 3: Các câu hỏi đảnh cho BỊ
Hình 3: Hẽ thống BI trên thế giới
Hình 4: Các lĩnh vực liên quan đến Data Mining
Hình S: Kiển trúc tổng thé Data warehouse cơ bản
Tình 6: Kiến trắc tổng thé Data warehouse véi ving sẵn nhăn
(Staging Area)
Hình 7; Kiến tric tong thé Data warehouse với vũng gẵn nhân
(Staging Area) vi kho chi dé (Data Masts)
Hình 8: Các thanh phin co ban cha Data warehouse
Hình 9: Bộ công cụ kết xuất, chuyển đổi vả tích họp dữ liệu
Mình 10: Các tỉnh năng của OLAP
Hinh 16; Mét cube 3 chidu hiển thị dã liệu sổ lượng bản háng với 3
chiểu địa điểm (cities) Thới gian (Time), Sản phẩm (Produet) và chỉ
tiêu Doanh số (amount)
Trang 9Hình 34: Hiển thị Dashboard tại một minh hình duy nhất
Hình 25: Mé hinh toàn cảu tập trung của Viettel trong giai đoạn
2009-2016
Hình 26: Để xuất mô hình triển khai VT BI
Hình 27: Kiến trúc tổng thể hệ thông VT BL
Hình 28: Tổng quan vẻ quy trình lẩy và phản tích dữ liệu di động
Hình 29: Tổng quan luỏng dữ liệu của cả hệ thống
Hình 30: Chuẩn hóa luỏng dữ liệu
Hình 31: Tạo cubes bảo cáo chỉ tiết theo ngây
Hình 32: Tạo JOB thực thì
Hình 33: Tạo Transformations thực thì
Hình 34: Tạo JOB xử lý nhiễu Transformations
Tình 35: Tạo Transformations làm việc với nhiễu nguồn dữ liệu
khác nhan
Hình 36: Tạo kết nổi toi data warehouse của Saiku
Hình 37: Tạo cube vẻ tổng hợp tiêu dùng
Hình 38: Sửa đổi lại cách hiển thị của các độ đo giả trị
Hình 39: Tạo báo cáo Analytics
Hình 40: Roll-up từ ngây đến tháng
Hinh 41; Drill-down từ năm đến tháng
Hinh 42: Bieu 46 dang dashboard
Hinh 43: So sánh hệ thông ĐĨ truyền théng va BI hign dai
Hình 44: Dữ liệu của hệ thông Bĩ hiện đại
AL
46
sơ s1
73
7
74
75 80
Trang 10Bảng 5: Bảng fact chi iết cước gọi
Bảng 6: Kết quả thục nghiệm ETL
Bảng 7: Kết quả thực nghiệm tạo bảo cáo OLAP
: Một số bảng thiết ké cic Dimension
Trang 11MOpAU
1 Lý đo chọn để tài
“Trong những năm vừa qua, thị trưởng viễn thông Việt Nam đã có những bước
chuyển biến mạnh mẽ Củng với việc phát triển mạng lưới viễn thông, mở rộng
phạm vi phục vụ tới tân những vũng sâu, vũng xa, vùng niki hay hải đảo xa xôi của
tổ quốc, đặc biệt côn vươn ra thị trưởng nước ngoài, với nhiều loại hình dich vụ phong phú thi chat lượng thông tìn cũng ngày cảng được nắng cao, nhanh chong
đáp ứng nhụ cẩu ngày cảng cao của xã hỏi, Với sự phát triển nhanh chóng cả về số
lượng cũng như chất lượng, các doanh nghiệp viễn thỏng hiện nay đang phải đổi
mất với việc điều hành vã lưu trữ một khói lượng đữ liệu khổng lỏ gồm hang ty ban
tin chỉ tiết cước, thông tin của hãng trăm triệu khách hing voi rắt nhiễu dịch vụ của các nhà mạng đang ngây một đa dạng và phát triển nhanh chóng Trước một khỏi lượng thông tin không lỏ theo lịch sử thời gian như vậy, các doanh nghiệp viễn thông phải biết khai tháe, phân tích, chọn lọc các thông tin cỏ giá trị từ đó có thể cung cấp các địch vụ tốt hơn, làm hải löng khách hàng và đồng thỏi tăng khả năng canh tranh trên thị trường viễn thông vốn vô cũng khóc liệt Từ đó, yêu câu đặt ra là cần phái xây dựng được một kho đủ liệu tập trung về di đồng nhắm hỗ trợ phân tích kinh doanh và hỗ trợ lãnh đạo ra quyết định
Việc chuyển từ cơ chế kinh đoanh độc quyên sang kính doanh trong thị trường
cò sự tham gỉa cạnh tranh của nhiều nhà cung cấp đã làm thay đổi điện mạo ngảnh
Viễn thông Việt Nam Tuy nhiên, sau một thỏi gỉan phát trién ram rộ ở tất cã các
loại hình địch vụ, tử cế định, đi đông, nhắn tìn, các dịch vụ intemet, đến nay thị
trưởng viễn thông đang bước sang giai đoạn bão hòa Đặc biệt với việc chính sách mới ''Chuyển mạng giữ số" cùng với việc hạn chế khuyến mại nạp thẻ cho thuế bao
trả trước thì việc giữ chăn khách hàng và hướng khách hàng sử dụng các dich vụ
của nhà mạng là một bài toản tiên quyết cân phải đổi mặt trực tiếp của bắt ký công
ty viễn thông nào Tính hinh nảy đòi hỏi các đoanh nghiệp muốn có được sự bửt pha so với các đối thủ th phải xây dưng được chiến lược kính doanh khác biệt, hiệu quả, trong đó chăm sóc khách hàng (CSIKH) tốt hay chưa tốt cỏ thể tạo nên hay pha
Trang 12vỡ những kỷ vọng vào hiệu quả kinh doanh của doanh nghiệp Ví vậy, việc hoàn thiện công tác quản lý và CSKH đã và đang trở thảnh một vấn để ngày cảng được các doanh nghiệp quan tâm, chữ trọng,
“Trong ngành viễn thông cô rất nhiễu hệ thống phục vụ dịch vụ viễn thông khác nhau (trả trước, trả san, bán hàng, VAS, .), các hệ thống phục vụ trong quản
lý viễn thông có thể sử dụng các hệ cơ sở dữ liệu khác nhau (Excel, Oracle, SQL
Server, MS ACCESS ) Vì vậy phải có một giải pháp có thể đà đáp ủng về thục hiện báo cáo một cách tổng thẻ, có khả năng giúp cho người quản trị có thể phân tỉch hành vĩ khách hãng tứ nhiễu nguồn dữ liệu khác nhau,
Một trong những giải pháp đô là trí tuệ thong minh doanh nghiệp (Business atelligenee-BI), giải pháp chuyển đủi dũ liệu thỏ thánh những thông tin có ý nghĩa
hỗ trợ cho người quản lý trong phân tích tình hình kinh doanh của doanh nghiệp 'Với khả năng đưa cái nhìn toàn cảnh nhất về tắt cả các hoạt động của khách hàng và tỉnh trang của doanh nghiệp, BI kiểm soảt nhanh chóng và đưa ra chính sảch phù hợp các xu hướng tương lai Từ đỏ giúp người quản lý đưa ra các chính sách sao cho phú hợp với từng giai đoạn, thời ký, địa lý, đáp ủng tỉnh hình kinh doanh của doanh nghiệp
Chính vì lý do trên tác giá Iva chon dé tai *KÂY DỰNG KHO ĐỮ LIỆU VẢ
PHÂN TÍCH OLAP TRONG HỆ THÓNG NGHIỆP VỤ THONG MINH VE KINH DOANH VIỄN THÔNG" nhằm ảp dụng các kĩ thuật tổng hợp dữ liệu từ
các hệ thống nghiệp vụ khác nhau vào kho đữ liệu của doanh nghiệp viễn thông Từ kho dữ liệu tổng hợp, sử dụng kĩ thuật phân tích OLAP (Online Analytical Processing) dé phe vu bio cao trong kinh doanh thông minh (Business Intelligence-BI) Từ các báo cáo kinh doanh giúp cho người quản trị doanh nghiệp
cô cái nhìn toàn cảnh nhất, giúp ich đưa ra các chỉnh sách phũ hợp với tỉnh hình kinh doanh của doanh nghiệp
10
Trang 13
2 Mục đích nghiên cứu luận văn,
+ Mặc đích nghiên cứu
Luận văn nảy nhắm để xuất giải pháp tích họp dữ liệu từ các hệ thủng nghiệp
vụ khác nhau trong lĩnh vục viễn thong Tir đỏ xảy dụng kho dữ liệu (Đata
lỗ trợ quyết định
ỗi tượng, phạm ví nghiên cứu
warehouse) nhằm đáp ứng như cẩu phục vụ bảo cáo, phân tịch,
trong kinh doanh viễn thông Đảng thời đáp ủng khả năng tạo các báo cáo động phú
hợp với từng kế hoạch kinh doanh theo từng giai đoạn của doanh nghiệp Cụ thể luận văn tim hiểu vẻ:
>_ Lý thuyết tổng quan Business Intelligence (BI)
v Lý thuyết tổng quan vé Data Warehouse (DW)
Ly thuyét vé OLAP
Để xuất phương pháp tích hợp dữ liệu từ các nguồn dữ liệu nghiệp vụ khác nhau trong linh vực viền thỏng, xây dựng kho dữ liệu data warehouse phục
Vụ cho việc phần tích OLAP (Online Analytical Processing)
> Thử nghiệm cỏng cụ tổng họp dữ liệu ETL cia Pentaho va phân tich OLAP của 8ailat
s& Đối tượng nghiên cứu:
> Dũ liệu nghiệp vụ của các hệ thống khác nhau trong viễn thông: hệ thống
BCCS (hệ thông tính cước), dữ liệu thỏ CDR của các tram BTS,
>_ CDR của các dịch vụ thoại, SMS, VAS,
+ Phạm vì nghiên cũu:
> Nghién cứu ly thuyét vé BI và Data warehouse
> Nahin củu xây dựng kho dữ liệu luu trữ thông tin trong lĩnh vực viễn thông
> Nghién củu sử dụng công cụ ETL để tích hợp các nguồn dữ liệu từ các hệ thủng và định dạng dữ liệu khác nhan
>-_ Nghièn củu kỹ thuật phân tích OLAP
u
Trang 143, Tôm tắt nội dung chính
Luận vin gém phẩn mớ đẳu, 4 chương chính và cuối cùng là phản kết luận và hướng phát triển, cụ thể
Phần mỡ đầu
Chương 1: Tông quan về BI và Data Warehou:
Chương này, tác giả sẽ trình bảy một cảch tổng quan vẻ khải nigm BI va Data
warehouse, trong do dé cap đến kiến trúc tổng thể của BI và Data warehouse
Chương 2: Tổng quan về OLAP
Chương nảy, tác giả sẽ trình bảy một cách tổng quan vẻ OLAP, trong đỏ bao
gốm định nghĩa vẻ OLAP, các tính năng cơ bản của OILLAP Tiếp theo, tác giả trình
bày mô hình dũ liệu đa chiều và mồ hình thiết kế kho dũ liệu đa chiều Cuối chương tiie gia sé trình bây về khái niệm Dashboard
tán lý hệ thống viễn thô:
Chương này, tác giả sẽ trình bảy thực trạng của các doanh nghiệp viễn thông
hiện nay Từ đô,
doanh nghiệp viễn thóng hiện tại, tiếp theo tác giả đưa ra giải pháp cá nhân để bẻ
Chương 3: Ứng đụng trong bai ton
ie gid dua ra các wu điểm, nhược điểm vẻ thực trạng của các
sung các ưu điểm cũng như hạn chế các nhược điểm hiện tại
Chương 4: Cải đật và đánh giá
Chương nảy, tác giả trình bảy phin sit dang cae open source dé lim vi du
mình họa cho giải pháp đưa ra
Kết luận và hướng phát triển
2
Trang 15Chwong 1 TONG QUAN VE BI VA DATA WAREHOUSE,
Mé chong,
Chương náy luận văn tập trung vào việc nghiên cửu các khái niệm, vai trò và các kiến trúc, mỏ hinh triển khai BỊ đã đem lại biệu quả cho doanh nghiệp ứng
dụng, đổng thời luận văn tập trung vào các mô hình và nguyên tắc xây dựng Data
Warehouse và một số giải pháp tích hợp, xây đựng ủng dụng kho dữ liệu Data warehouse nhiim phục vụ tập trung dữ liệu của các hệ thống theo lịch sử thời gian
dũng trong việc tập họp, phần tích dữ liệu vá bảo cảo hỗ trợ các quyết định trong
kinh doanh cho doanh nghiệp viễ thông
Hệ thông cơ bản của BI trên thể giới Cuồi cũng là trinh bảy sơ qua vé Data Mining,
1.1.1 Giới thiệu chung về BE
Business Intelligenee (BI) bao gm các kỹ năng, quy trình, chiến lược và công
nghệ được sử dụng để biển dữ liệu thành thông tin, phan tích dữ liệu thông tin kinh doanh đề hỗ trợ ra quyét dinh, Business Intelligence bao gdm data warehosing, cic công cụ phản tích vá nội dung trì thức quản lý [2]
“Tứ đỏ có thé thay, Business Intelligence (BI) cung cap quan điểm lịch sử, hiện tại và tiên đoán vẻ hoạt động kinh doanh tương lai Các chức năng phỏ biển của
công nghệ thông minh kinh doanh bao gốm bảo cáo, xử lý phân tích trực tuyển, phân tích, khai thác dữ liệu, khai thác quá trình, xử lý sự kiện phúc tạp, quản lý hiệu
suất kinh doanh, đo điểm chuẩn, khai thác văn bản, phân tích tiến đoán vá phản tích
theo quy định
'Buginess Intelligenee (BI) có thể xử lý một lượng lớn dữ liêu được cấu trúc và
đổi khi không có cấu trúc để giúp xác định, phát triển vá nễu không tạo ra các cơ
hội kinh đoanh chiến lược mới Business Intellisence (BI) nhắm mục đích cho phép
lâm việc để dàng những dũ liệu lớn này, Xác định các cơ hỏi mới và thực hiện một chiễn lược hiệu quả dựa trên những hiểu biết sản sắc cỏ thể cung cấp cho các doanh
1
Trang 16nghiệp lợi thể cạnh tranh vẻ thị trường và sự dn dinh lau dai [3] Doanh nghiệp của bạn cô thể thu được những lợi ích to lớn khi quyết định mua vả triển khai mật Gii pháp quản trị doanh nghiệp thông mình, Có thể kể ra:
> Cải thiện khả năng truy cập vả tích họp các dữ liệu sản xuất kinh doanh tir nhiễu 0guồn riêng biệt
> Có được cái nhìn toàn cảnh tắt cả các hoạt động trong doanh nghiệp
> Chia sé thong tin nhanh chống trên quy mỏ toàn doanh nghiệp
> Kiểm soát nhanh hơn và chính xác hơn các xu hưởng cỏ tác động tích cục
cũng như tiều cực đến hoạt đông sản xuất kinh doanh
1.1.2 Kiến trúc t é
‘Hinh 1: Kién trite tong thé BI
Hệ thông BI đơn giản có thể được xem là sự kết hợp cúa 3 thành phản chính
nh sau:
> Dafa Warthouse (Kho dữ liêu): Chúa dữ liệu tổng hợp của doanh nghiệp
H
Trang 17> Data Analyst - Data Mining (Khai phá dữ liệu): Các kỹ thuật dùng để khai
pha di liệu và phát hiện trì thức như phân loại (Classification), phân nhóm
(Clustering), phát hiển luật kết hợp (Association Rule), dụ đoán (Prediction),
> Business Analyst (Phan tich kinh Doanh): Các nhà lãnh đạo doanh nghiệp
đưa ra những quyết định chiến lược đổi với hoạt động kinh doanh của doanh nghiệp
1.1.3 Hệ thống BI trên thế giới
Business Intelligence hiện được coi là giải pháp hổ trợ kinh doanh đang được
nhiễu doanh nghiệp tru tiên áp dụng
Nên tảng của hệ thống BI dựa vào công nghé Data Warehousing (DW - Cơ sở
.dữ liệu thống nhất và tập trung)
Nhờ vào quả trình thu thập, tổng hợp và phần tích thông tin, BI cho phép
doanh nghiệp có thể:
> Phat hign sém những vấn để trong kinh doanh
>_ Khai thác tối tru các cơ hội
> Dua ra các quyết định, chiến lược phù họp, tạo lợi thể trước các đổi thủ
Trang 18
‘Tinh thóng mình của hệ thống ở chỗ nó cỏ thể trả lời ngay lập tức hẳn hết các
quan đến hoạt động cúa doanh nghiệp, doanh thu, hành vỉ tiêu dùng của khách hảng mà không cản phải có sự hỗ trợ của các bộ phần nghiệp vụ vả phòng
> Level 2: Hệ thống Analysis: lả hệ théng phân tích thong qua các bảo cáo
động OLAP, phân tích các số liệu đa chiểu
> Level 3; Hé thống Monitoring: là hệ thống điều hành các hoạt động đang
diễn ra của doanh nghiệp thông qua các báo cáo Dashboards, Scorecards và
các báo cáo KPIs
Trang 191.1.4 Tổng quan vé Data mining
1.4.4.1, Khai nig Data mining
Data Mining (Knowledge discovery in databases) là quá trình tính toán để
tìm ra các mẫu trong các bộ dữ liệu lớn liên quan đến các phương phúp tại giao điểm của máy học, thống kê và các hệ thống cơ sở đữ liệu Mục tiêu tổng thể của
quả trình khai thác dữ liệu là trìch xuất thông tin tir mgt bộ dữ liệu và chuyển nó
thành một cẩu trủc đễ hiểu đẻ sử dụng tiếp Ngoài bước phản tích thé, nd con lien
quan tới cơ sở dữ liệu và các khia cạnh quản lý dữ liệu, xử lý dữ liệu trước, suy xét
mô hình vả suy luận thống kẻ, các thước đo thủ vị, các cân nhắc phúc tạp, xuất kết
quả về các cấu trúc được phát hiện, hiện hinh hỏa và cắp nhất trực tuyển Khai thác
cdữ liệu là bước phân tích của quá trinh “khám phá kiến thức trong cơ sở dữ liệu" 19},
Data Mining được hiểu như sau: Data Mining 1a quả trình khai phá, trích xuất, khai thác vá sử dụng những d liệu có gìá trị tiém ẩn từ bên trong lượng lớn dù liệu được lưu trữ trong các cơ sở dữ liệu (CSDL), kho dữ liệu, trung tâm dữ liệu, lớn ben là Big Data dựa trên kí thuật như mạng neural, ly thuyết tập thỏ, tập mở, biểu
diễn trì thức, Đây là một công đoạn trong hoạt động *lâm sạch” dữ liệu Quả
trình chọn lọc dữ liều của Data Mining dựa trên các phương pháp: Phản loại (Classification), Phin nhém (Clustering), Téng hop (Summarization), Mé hinh ring buộc (Dependency modeling), Héi quy (Regression), D6 tìm biến đổi và độ lệch (Change and Deviation Detection),
Data Mining nhan mạnh 2 khía cạnh chính đó là khả năng trích xuất thông tin
cô ich Ty dng (Automated) và thông tin mang tính dy doin (Predictive)
Data Mining lién quan chit chẽ đến các lĩnh vục sau
> Statistics (Théng ké): Kiểm định model và đánh giá trí thức phát hiện được
>_ Machine Leaming (Máy học): Nghiên cứu xây đựng các giải thuật trên nến
tảng của trí tuệ nhân tạo giúp cho máy tỉnh có thể suy luận (dự đoản) kết quả
tương lại thông qua quả trình huấn luyện (học) từ dữ liệu lịch sử
>_ Databases (Cơ sở dữ liệu): Công nghệ quản trị dữ liệu nhất là kho dữ liệu
1
Trang 20> Visualization (Tre quan hóa): Giúp dữ liệu dễ hiểu,
map
Hình 4: Các lĩnh vực liên quan đến Data Mining
1.1.4.2 Nhiệm vụ của Data Mining
Nhiệm vụ của đata mining có thể phân thành 2 loại chính đó làdự đoán (Predictive) va mé ta Descriptive
Predictive: Ding dit ligu lich sử để dự đoán tương lai
ap dung:
> Classification: Phân lớp,
> Regression: Héi quy
> Deviation Detection: Phát hiện độ lệch
Descriptive: Mé hình hỏa từ các dũ liệu sẵn có Các thuật toán thường ding:
> Clustering: Phin eum
> Association Rule Discovery: Phát hiện luật kết hợp
> Sequential Pattem Discovery: Phát hiện mẫu tuần tự
Dưới đây là một số thuật toán phỏ biến được đùng trong Data Mining
Decision tree: Cay quyét dinh (Classification Task)
‘Nearest Neighbor: Lang giéng gan nhit (Classification Task)
‘Neural Network: Mang Neural (Classification and Clustering Task)
Rule Induction: Luật quy nap (Classification Task)
K-Means: Thuat tofn K-Means (Clustering Task)
thuật toán thường được
18
Trang 211.2 Kiến tric tong thé Data Warehouse
“Trong phan này luận văn sẽ trình bày nội dung cơ bản vẻ khải niệm Data
'Warehouses, các kiến trúc cơ bản của Data warehouse, tiếp theo sẽ trình bảy các
đặc trưng của kho dữ liệu vả các thành phản cơ bản của một data warehouse, cudi cũng trình bay sơ lược về Data mart
1.2.1 Khái nigm Data Warehouse
Data warehouse (kho đữ liệu) chính là hệ quản trị cơ sở đữ liệu, chuyên đùng cho tạo báo cáo và phân tích dữ liệu Nó vừa hỗ trợ các truy vấn phúc tập, vừa là
điểm tập trung dữ liệu từ nhiều nguồn khác nhau để có được thông tín phản tích đẩy:
đủ nhất Data warehouse là tập hợp đữ liệu tương đổi én định không hay thay đổi, cập nhật theo thời gian, được tích hop theo hưởng chủ để nhằm hỗ trợ quá trình tạo quyết định về mật quản lý [11]
“Theo đó, kho dữ liệu là một tập hợp dũ liệu hướng chủ để, toàn vẹn, không bị
tô rỉ mất mất và có giá trị lịch sử Cụ thể các tính chất đỏ như sau,
Một data warehouse dién hình sẽ
> Chủal
long lớn dã liệu có liên quan tới các giao dich trong quá khú
> Được tối uu hỏa cho các thao tác đọc trong các yêu cảu truy vấn dữ liệu Điểu này đối lập với các cơ sở dữ liệu trong các hệ thông xử lỳ tác vụ (OLTP) được thiết kế để hỗ trợ cả các thao tác thêm, xóa, sửa dữ liệu luôn
> Dire nạp các đữ liệu mới hoặc dù liệu được cấp nhật 1 cách định kỷ với nhiều nguồn dữ liệu khâc nhau
>_ Lànguẻn dữ liệu cơ bản cho các ứng dụng BI mức doanh nghiệp
1.2.2 Kién trite Data Warehouse
‘Theo Database Data Warehousing Guide hién nay có 3 kiến trúc của Data warehouse như sau
>_ Kiến trúc kho dũ liệu: Cơ bản
>_ Kiến trúc kho dữ liệu: với vùng gắn nhãn (Staging Area)
> Kién trúc kho dữ liệu: với vùng gắn nhân (Staging Area) và kho chủ để (Data Marts)
19
Trang 22% Kién tric kho dir ligu: Cơ bản
Data Sources Warehouse 0e
Hình 5: Kiến trúc tông thê Data warehouse cơ bản [4]
Kiến trúc đơn giân của hệ thông Data Warehonse gồm 3 phẩn:
> Data Source: Lanoi dt ligu tir nhiéw nguén khác nhau được thu thập
> Warehouse: Noi lou tri dit ligu da duge xi ty, g6m Metadata, Raw Data
‘vi Summary Data
>_ User: Gắm các hệ thống phân tích, bảo cáo và Mining
Đây là một kiến trúc đơn giản với phản ETL (extraction, transformation, and
loading) đã bị lược bỏ, người đũng cuối truy xuất dữ liệu trực tiếp tứ các hệ thống
xử lý nghiệp vụ thông qua data warehouse,
#ˆ Kiến trúc kho dữ liệu: với vũng sắn nhân (Staging Area)
Trang 23‘Tai kiến trúc với vùng gắn nhãn, các thành phản cơ bản giống với kiến trúc cơ
bản trên, nhưng cỏ thêm bước chuyển đạng và tích hợp dữ liệu Dữ liệu trước khi đưa vào Data Warehouse, được tập họp từ nhiễu nguồn, chuyển đổi dạng và lưu trữ
tại bước Staging Area, người đúng cuỏi truy xuất dữ liệu trục tiếp từ các hệ thông
xử lý nghiệp vụ thông qua Data Warehouse
'#ˆ Kiển trúc kho dữ liệu: với vùng gắn nhãn (Staging Area) và kho chủ đề (Data Marts)
Data Staging Sources Area ‘Worchouse marta Data Users
‘Hinh 7: Kién tric tong thé Data warehouse véi ving gin nhan (Staging Area)
vii kho chit dé (Data Marts) [4]
Mặc đủ kiển trúc như trên Hình 6 khả phổ biến, bạn có thể tủy chinh kiến trúc
của kho cho các nhóm khác nhau trong tổ chức cia bạn Bạn có thể thục hiện điều này bằng cách thêm các kho chủ để (Data Marts), đỏ là các hệ thống được thiết kế cho một ngành kinh đoanh cụ thể
Kién tric ving gan nhân vả kho chủ để ở Hinh 7 bỏ sung thêm bước ETL,
giúp phân Warehouse ra thành các chủ để nhó hơn (Data mart) Hinh 7 minh hoa mot vi du vé việc mua, bán vả tổn kho được tách riêng biết Trong ví dụ nây, một
nhà phân tích tải chính cỏ thể muốn phần tich dỡ liệu lịch sử cho việc mua bản và
th thập dũ liệu lịch sử để đưa ra dự đoán về hành vi của khách hàng
a
Trang 241.2.3 Các đặc trưng của kho dữ liện
>_ Tính hướng chủ đề (Subjeet - oriented)
Data warehouse được thiết kể dữ liệu tập trung vào việc phản tích các yêu cấu quản lÿ ở nhiễu cấp độ khác nhau trong quy trình ra quyết định Các yếu cẩu phản tích nây thưởng rất cụ thể, và xoay quanh loai hình kinh doanh của doanh nghiệp
Ví dụ các công ty phân phối sẽ quan tim đẻn tỉnh hình kinh doanh, doanh nghiệp vin thong quan tâm đến lưu lượng dịch vụ, tuy nhiên một doanh nghiệp thường
quan tâm đến vài chủ để khác nhau, như công ty phản phối còn phải quan tâm đến
kho bãi, chuổi cũng ting,
> Tinh tich hop (Integrated):
Khai niêm tích họp có nghĩa là kho dữ liệu có khả năng thu thập dữ liệu từ nhiễu nguồn và trộn ghép với nhan tạo thành một thể thủng nhất
Một kho dữ liệu là một khung nhìn tổng thể thông nhất các khung nhìn khác nhan Ví đụ: một hệ thống tác nghiệp như bản hàng hoặc tiếp thị cỏ thể cỏ chung một dạng thông tỉn về khách hàng, nhưng các vấn dé vé tai chính cẳn một khung
nhìn khác cho thỏng tín vẻ khách hảng Một kho sẽ cỏ một khung nhìn toản thể vẻ
một khách hãng Khung nhìn đó bao gểm các phản dữ liệu khác nhan từ các hệ thống tác nghiệp khác nhau
> Tinh bén ving:
Dữ liệu trong kho là dữ liệu chỉ đọc và chỉ có thẻ tra cứu, không được sửa đổi
bởi người sử dụng cui
> Tinh bắt biến (Nonvolatile)
"Tính không biến đông của kho dữ liệu được hiểu theo nghĩa: dữ liện được lưu trữ lâu dải trong kho dữ liệu Mặc đủ có thêm dữ liệu mỏi nhập vào nhưng dữ liệu
cũ trong kho vẫn không bị xóa, điều đỏ cho phép cung cắp thông tin về một khoảng thời gian dải, cung cắp đủ số liệu cân thiết cho các mô hình nghiệp vụ phân tích, dự bao,
2
Trang 25>_ Gắn với thời gian
Mỗi bán ghi của kho dữ liệu chứa một yếu tổ thời gian như một phản của khóa
chính để bảo đảm tính duy nhất của mỗi bản ghỉ vá cũng cắp một đặc trưng vẻ thời gian cho dữ liêu Toàn bỏ dữ liệu
thời gian nhất định
ng kho được tạo ra và gắn liễn với một giả trị
> Dữ liệu tông hợp vả chỉ tiết:
Dữ liệu chỉ tiết là thông tin múc thấp nhất được lưu trữ trong kho dữ liệu Dữ:
liệu tác nghiệp chính lả thông tin mite thấp nhất Dữ liệu tổng hợp được tích hop lại qua nhiều giai đoạn khác nhan
> Tinh lich sử
Các thông tin trong kho dữ liệu được tập trung theo thoi gian và thể hiện một khung nhìn của một chủ để trong một giai đoạn
1.2.4 Các thành phần cơ bản của Data Warehouse
Data Warehouse là một cơ sở dữ liệu quan hệ được xây đọng cho mục đích
truy vấn và phân tích dữ liệu mang tính lịch sử, nó không phải là loại cơ sở dữ liệu
Trang 26Một hệ thống đata warehouse vẻ mặt logic được cho là có 4 thành phản:
1 Nguồn dữ liệu (Operadonal Source Systems): Dữ liệu nguồn trong trưởng hợp,
điển hình bao gồm nhiễu loại khác nhau:
> Các dữ liệu từ các hệ thống tác nghiệp (như hệ thống CRM, ERP, .): cic dit
liệu chỉ tiết nhận được từ các hoạt động nghiệp vụ hẳng ngây:
>_ Các dữ liệu kể thừa: các dữ liệu cũ không ding cho hoạt động hàng ngày, các phương pháp tổ chức đỡ liệu khác với mô hình hiện hảnh, các dữ liệu được mã hóa khi đã qua sử dụng vả các thông tỉn đẩy đủ vẻ cấu trúc và ngữ nghĩa của dữ liệu kế thừa
>_ Các dũ liệu bên trong khác
>_ Các nguỏn dữ liệu được lấy tứ bên ngoài
2 Khu vực xử lý (Staging Area): Bao gồm các công cụ xử lý dữ liệu, các quá tình chuyển đổi dữ liệu trước khi được đưa sang khu vực trinh bày, Trong khu vực nảy
dữ liệu sẽ được làm sạch (cleanse), chuyển đổi (convert), chuẩn hóa (conform) Khác với cơ sở dữ liệu giao dịch thỏng thưởng, Data Warehouse được bổ sung
thêm: bộ cỏng cụ kết xuất, chuyển đổi vả tích họp dữ liệu (Extraction,
‘Transformation, Loading ~ ETL)
Extradionfsoquistlon
đồmesysem appllcation Operationde Maintenance
Hinh 9: Bộ công cụ kết xuất, chuyển đổi và tích hợp đữ liệu [11]
3 Khu vực trình bày (Data Presentation Area): Day chinh 1a data warehouse
database, Hign tại, phần lớn các data warehouse database déu 14 relational database bởi đây là loại cơ sở dữ liệu thông dung nhất hiện nay trên thị trường Dữ liệu trong
24
Trang 27relational đatabase được tỏ chúc theo dạng hinh sao (star schema), về cø bản tức là
mồ phỏng tỉnh đa chiều trong relational database Data warehouse database có thẻ
được tả chúc dưới dang cube, tte là đa chiểu theo đùng nghĩa và theo các chủ để
(data mart) để phục vụ đữ liệu cho quá trình Data mining Cho dù được lưu trữ theo
kiểu gỉ, nguyên tắc thiết kế đa chiêu là giống nhau giữa 2 loai database
4 Công cụ truy cập dữ liệu (Đata Access Toels): Kho dữ liệu cho phép người đùng ở mức quản lý, ra quyết định thực hiện các phép phản tích tương tác với data bang hé thống xử lý phân tích trục tuyển (online analytical proeessing - OLAP) Ngoài ra kho dữ liệu cũng được đùng cho báo cio, data mining va phân tích thống
kế Database vả kho dữ liệu, do đỏ chí khác nhau về mặt khải niệm, một cơ sở dữ liệu nếu dùng riêng cho các mục đích trên cũng được coi là kho dữ liệu
1.2.5 Tông quan về Data Mart
1.2.5.1 Giới thiện Data Mart
Data Mawt là một dạng thu nhỏ của kho dữ liệu, nêu kho dữ liệu mỏ tả thông
tin cha một tổ chức thương mại thì Data Mart mé tả thông tin cho từng phòng ban
của tỏ chức đỏ (phòng kinh doanh, phòng nhân sự, .)
1.2.8.2 Các kiểu Data Mart
> Data mart phụ thuộc (Dependent Data Mart): Chủa những dữ liệu được lấy từ
DW và những dữ liệu nảy sẽ được trích lọc và tỉnh chế, tích hợp lại 6 mite cao hơn để phục vụ một chủ để nhất định của Data Ma+
> Data mart dc lap (Independent Data Marts): Khong giéng như Dala Mart phụ
thude, Data mart độc lập được xảy dựng trước DW vá dữ liệu được trực tiếp
ẩy từ các nguồn khác nhau
> Data Mart Iai (Hybrid Data Mart): Một Data Mart lai cho phép kết hợp các đảu vào từ các nguồn khác hơn sơ với một kho dữ liệu duy nhất Điểu nảy cỏ thể
hữu ích trong nhiễu tình huồng, đặc biệt là khi cẩn tích hợp đặc biệt, chẳng
hạn như sau khi một nhóm mới hoặc sản phẩm được bổ sung
25
Trang 28Kết chương
“Trong chương này, tác giả đã giới thiệu tổng quan vẻ vẻ hệ thống BI và kiến
trúc tổng thể của kho dữ liệu Data warehouse Các loại kiển trie Data warehouse
hiện đang sử dụng Phản này tập trung vào việc giới thiệu các đặc trưng của kho dữ liệu, các thành phan cơ bản trong kho dữ liệu Data warehouse Chương sau sẽ đề
cập đến việc xử lý phản tích trực tuyển OLAP, đẻ thể hiện được những khả năng phân tích thông tin thi tap tung nghiên cửu các phương pháp xử lý đa chiếu OLAP ding trong phân tích dữ liệu trong kho dữ liệu Data warehouse
Trang 29Chong 2 TONG QUAN VE OLAP
Mé chong,
Nội dụng của chương là tìm hiểu vẻ khải niệm OLAP, khái niệm vẻ mỏ hình
dữ liệu đa chiếu, và mỏ hình thiết kế kho dữ liệu để ứng dụng OLAP Tiếp theo trình bày về các mổ hình dữ liệu đa chiếu Cudi cùng là giới thiệu sơ qua vẻ Dashboard,
2.1, Dinh nghia OLAP
OLAP (Online Analytical Processing) là một thành phản quan trong trong hé
hố trợ ra quyết định, giúp các nhà quản lý có cải nhìn đa chiểu, trên nhiễu khía cạnh
của một vấn để với lượng dữ liệu lớn, từ đó đưa ra các quyết định chính xác vả kịp thời, nâng cao lợi thể cạnh tranh cho doanh nghiệp OLAP là một công nghệ cho phép người sử dụng để ding và linh động trong việc kết xuất và xem dữ liệu đa chiếu, từ nhiễu góc độ khác nhau [14]
Ứng đụng kỹ thuật OLAP được đảng vào việc hỗ trợ ra quyết định cho các nhà quân lý và hoạch định cho công việc trong tương lai của doanh nghiệp Nó là
cng cụ trả lời các truy vẫn phản tích da chiểu một cách nhanh chỏng, cung cắp giao điên đỏ họa thản thiên với người đùng, và những gỉ người dũng cắn lâm lả kẻo và
thả các đưnension và measures bằng chuột, sau đó các dữ liệu truy vấn sẽ được hiển
thị trên giao diện
OLAP cho phép người đùng quan sát dữ liêu trên nhiễu phương diện khác nhan, ở các mức độ chỉ tiết khác nhau OL.AP cung cấp một số tỉnh năng cho phép
thực hiện điều đỏ, cụ thé:
27
Trang 30
E]
Hình 10: Các tính năng của OLAP [14]
2
Trang 31“Tỉnh năng nhĩn xa (roll-up)
Biển tiêu chỉ từ mức chỉ tiết sang mức tổng hợp để hiển thị cho người dùng,
được thực hiện khi đi từ mức thấp lên mức cao trong cây phản cắp hoặc giảm số cắt
lớp xuống Hinh 11 là ví dụ cho tính năng nhin xa nảy khi cất lớp Thị trưởng
chuyển tứ mức thánh phỏ lên mức quốc gia, giá trị các lớp cắt thánh phố của một quốc gia được cộng dén vào thánh giả trị kết quả
~ Tính năng đảo sâu (drill-down)
Hình 12: Drill-down [14]
29
Trang 32Drill-down thực hiện ngược lại với nhìn xa, tức là đi từ múc tổng họp cao đến mức chỉ tiết hơn Vỉ dụ như trong hình 12, cắt lớp Thời gian di tir mite quý xuống
‘Hinh 13: Pivot (14)
Với tính năng đào chiều biến hàng thành cột, cột thành hàng giúp cung cấp
cho người dùng một cách thể hiện dữ liệu khác Vỉ dụ: Hinh 13 chuyển dữ liệu các
sản phẩm từ hàng thành cột, các cột thảnh phổ trở thành giá tri hang,
~ Tính năng cắt lát mỏng (slice):
Trang 33
Sliee thực hiện cắt lấy dữ liệu một lớp cắt cụ thể trong một cắt lớp Ví dụ như hình 14 chỉ duy nhất đữ liệu của Quỷ 1(Q1) được hiển thị
~ Tính năng cắt khối (dice)
Đice thực hiện lựa chon giá trị cho ít nhất hai lớp cất Ví dụ như hình 15 là eube thể hiện dữ liệu cho thành phỏ Toronto và Vancouyer trong quý 1 (Q1) và quý
2 (Q3) với các các sản phim “home entertainment” vi “computer”
Ngoài 5 tính năng cơ bản trên, các bộ công cụ OLAP trên thị trường cũng
cung cấp thêm một loạt các tính năng hỗ trợ khác như các phép toán số học, thống
kẻ, các phép toán kinh tế
2.2 Mô hình đữ liệu đa chiều
Kho di liệu và các hệ thống OLAP được xảy dựng dựa vào mỏ hình dã liệu đa
hiểu Mỏ hinh nay cho hiệu năng tốt trên những phép truy vấn phức tạp và giúp
người dùng có thé nhin da liệu theo nhiễu khía cạnh khác nhau Mồ hình nảy hiển thị dữ liệu đưới dạng không gian n-chiễu, gọi là data cube hoặc hypercube Dữ liệu
trong OLAP được tổ chức theo kiểu đa chiểu (multi-dimensional dataset) giúp
người đùng cỏ thể nhìn dữ liệu theo nhiều khía cạnh khác nhan
31
Trang 34'Vĩ dụ: Phân tích số liệu bản hãng, có 3 chiều cắt lớp là Thị trường, Thời gian
Một khối data cube được xác định bằng cắt lớp vả tiêu chí Cắt lớp là các
thông tin, quan điểm được đùng để phân tích dữ liệu Ví dụ đata cube ở hình 16
phân tích số liệu bản hàng, có 3 cất lớp là Địa điểm, Thời gian và Sản phẩm Các giả trị trong một cất lớp gọi là lớp (cắt lớp member) Vi du Chicago, New York,
'Teronto và Vaneouver là các lớp của cắt lớp Địa điểm Các cắt lớp thường cỏ thêm
các thuộc tinh (attribute) mé ta thém théng tin cho nó, Ví dụ cắt lớp Sản phẩm có thể chứa các thuộc tính như Mã sản phẩm, Tên sản phẩm, Mô tả Kich thước tuy nhí
các thuộc tính nây không được thể hiện trong hình trên
Cùng với cắt lớp, các ö (cell) của một cube chứa các giá trị dạng số vả được
sọi là tiêu chí (measure) Mô hình đa chiều yêu câu việc thực hiện các phép toán sở học (công, trù, nhân, chia) trên các tiêu chí nảy mà ý nghĩa của số liệu vẫn chính
xác Ví dụ trong hình 9 trên, khối cube có 1 tiêu chỉ là Doanh số Thông thường một
eube sẽ có nhiễu tiêu chỉ khác nhau Khéi cube 6 hinh 16 mặc đủ không hiển thị
nhưng có thể có tiêu chí Số lượng (số sản phẩm bán ra) nữa
32
Trang 353.3 Mô hình thiết kế kho dữ liệu
“Trong hệ thống OLAP, dữ liệu đa chiều được lưu trữ dưới dạng bảng quan hệ,
tổ chức theo cấu trúc đặc biệt theo lược đổ hình sao, lược đỏ hình bóng tuyết, lược
đỏ ánh sao và lược đỏ chỏm sao như sau:
> Lược đỏ hình sao (star schema) bao gém duy nhất một bảng số liệu và nhiễu
bảng cắt lớp (mỗi bảng cho một cắt lớp) Các thực thẻ trong lược đỏ hình sao
không được chuẩn hoá như cơ sở dữ liệu nghiệp vụ (các thực thể cỏ cấu trúc
phân cấp được nhập chung váo làm một)
Hình 17: Lược đổ hình sao [14]
> Large đỏ hinh bỏng tuyết (snowflake schema) giảm bớt dự thừa dữ liệu trong
lược đỏ hình sao bằng cách chuẩn hoá các bảng cắt lớp Do đỏ, một thực thẻ cắt
lớp có phân cắp sẽ được thể hiện thánh nhiễu bảng dữ liệu khác nhau, mỗi bang
một cấp Hình 18 là lược đỏ hình bỏng tuyết, trong đỏ cắt lớp Location được thẻ
hiện qua 2 bảng de ligu Location va City
33
Trang 36
Hình 18: Lược đỗ hình bông tuyết [14]
> Luge dé sinh sao (Starflake sehema) là sự kết hợp gifa lược đỏ hình sao và lược
đổ hình bỏng tuyết khi một sế cắt lớp được chuẩn hoả trong khi một số khác thi
không
> Luge đổ chôm sao (Constellation schema) là lược đổ thông dụng nhất trong,
thiết kể kho dữ liệu, là lược đổ trong đỏ các bảng sỏ liệu dũng chung cắt lớp với
nhau Vỉ dụ hình 13 bên dưới hai bang Sales va Shipping sir dung chung Time,
Item va Location
Trang 37
2.4 Các mô hình dữ liệu đa chiều OLAP
Căn cứ vào cách thức lưu trữ dữ liệu, người ta thường tiếp cận mỏ hình dữ liệu
da chiéu theo 3 hướng sau:
> OLAP kiểu quan hệ (Relational OLAP - ROLAP) lưu trữ dữ liệu trong cơ sở
dữ liệu quan hệ, dùng câu lệnh SỌL để thục hiện các tính năng của OLAP
> OLAP da chiếu (Mulli cất lớp OLAP - MOLAP) lưu trủ dữ liệu dưới dang file có cấu trúc đặc thủ (ví dụ như cấu trúc dang mang (array)) va thục hiện
các tính năng OLAP trên cấu trúc này Mặc dù bị hạn chế vẻ lượng dữ liệu
ưu trủ vá xử lý được số với ROLAP, MOLAP thường cho hiệu năng tốt hơn
u (vi dữ liệu được thiết kế tối ưu cho truy vấn OLAP trong khi ROLAP phải thông qua cơ sở dữ liêu)
> OLAP lai (Hybrid OLAP - HOLAP) kết họp 2 cổng nghệ ROLAP và MOL.AP nói trên, tận dụng khả năng lưu trữ của OLAP và khả ning xử lý của MOLAP Ví dụ HOLAP sẽ lưu dữ liệu chỉ tiết trên cơ sở dữ liệu quan hệ
côn dữ liệu tổng họp hơn để truy vấn cho người đùng được lưu trên không
gian MOLAP
2.4.1 Mô hình ROLAP
“Trong mô hình ROLAP, dữ liệu được lưu trữ trên các bảng theo định dạng của
CSDL quan hệ đáp ứng tắt nhất cho các truy vấn dữ liệu khóng thưởng xuyên Để
giấu đi kiến trùc lưu wữ theo định dạng quan hệ và trình bay dã liệu đa chiểu, ROLAP tno ra một lớp dữ liệu ngữ nghĩa gọi là Metadata Lớp Metadata nây hỗ trợ
việc ảnh xạ của các chiều đến các bảng trong CSDL quan hệ đỏng thời hỗ trợ việc
trong các phép truy vẫn hoặc tổng hợp s+
tổng họp và kết họp dữ liều Metadata được lưu trữ ngay trong CSDL quan hệ
Server phan tich nam trong tang img dụng ở giữa tạo ra khỏi dữ liệu đa chiếu động cho tằng trinh bày ở phía trên Hệ thống đa chiều trong tẳng trình bảy sẽ cung
cấp khung nhin đa chiễu của dữ liệu đến người đùng Khi nguời đăng đưa ra cân hỏi phúc tạp trên dữ liệu đa chiếu, câu hỏi được chuyển trục tiếp tới CSDL quan hè Không giống như trong mó hình MOIL.AP, các khỏi đa chiều trong mô hình ROLAP không được tạo ra và lưu trữ cổ định
35
Trang 38+ Uu điểm của ROLAP:
> Có thể áp dụng với hệ thống cỏ dung lượng lớn do kỉch cỡ của ROLAP
chính là kích cỡ của CSDL, quan hệ
>_ Tiết kiệm không gian lưu trữ do dữ liệu lưu trữ trong CSDL quan hệ truyền
thống ít khi trùng lặp
> ROLAP là kỹ thuật hiệu quả cho hệ quản trị CSDL quan hệ duy trì chức
năng truyền thông của nỏ đỏng thời thực thí được các phép toản của hệ thống OLAP
> Dữ liệu được chửa trong CSDL quan hệ chuẩn nên có thể được truy cập
bằng bắt ky cong cu SQL nao
s* Nhược điểm của ROLAP:
> ROLAP chay chim do moi ROLAP report là câu truy vấn nguyễn thủy
trong CSDL quan hé.
Trang 39>_ Tất cả các tính toán của ROLAP dựa trên các hàm của SQL, vì vày chúng không thích hợp khi mở hình có nhiều tính toán như dự toán ngắn sách, báo cáo tải chỉnh
2.4.2 Mô hình MOLAP
Trong mổ hình MOI.AP, dã liệu phân tích được lưu trữ trong CSDL đa chiều chuyên dụng nhằm phục vụ tốt nhất cho các truy vấn tổng họp dữ liệu thường xuyên cẩn thỏi gian truy xuất nhanh Só liệu tính toán tước vả chiều của khỏi đữ
liệu được lưu trong CSDL đa chiểu Engine MOLAP trong ting ứng dụng diy dtr
liệu đa chiểu từ CSDL đa chiễu đến người đăng phân tích dữ liệu
© Un diém cha MOLAP,
>_ Thục thì nhanh câu truy vin nhờ vào việc tối uu hỏa lưu tro, lap chỉ mục đa chiều và cơ chế bộ nhé cache
> Ap dụng tốt cho các hệ thống cẻ yêu cảu tính toán phúc tạp và thời gian
truy xuất nhanh bởi vì tất cả các dế liệu cản tính toàn đã được thực hiện khi tạo khối dữ liệu
>> Khỏng sử dung cơ chế khoá do dữ liều là chỉ đọc
>_ Dũ liệu cỏ thể dễ dâng sao chép đến người dùng cho phân tích offline
37
Trang 40& Nhwoc diém ciin MOLAP:
> Chí phí nhiễu thỏi gian để xử lý dữ liệu (nap dữ liệu), đặc biệt trong trường hợp khối dữ liệu có dung lượng lớn Để khắc phuc nhược điểm nảy các
công cụ MOLAP cho phép chỉ xử lý phản dữ liệu có sự thay đổi thay vi xứ
lý lại toàn bộ khối dữ liệu
>_ MOLAP lưu trữ nhiễu dữ liệu dự thữa nhắm đáp ứng thời gian truy xuất nhanh,
v Bị giới hạn bởi dung lượng dữ liệu cùa hệ thống do tắt cá các dữ liệu tinh toán trước đêu được lưu trữ trong khối Điễu náy lắm cho dữ liệu trong khỏi
có khuynh hướng tổng hợp hơn là chỉ tiết
>_ Tăng thêm chi phí do công nghệ đa chiêu không có sẵn trong hệ thông nên
phải đâu tư chi phí cho cà công nghệ vả huấn luyện con người
2.4.3.Mô hinh HOLAP
Mõ hình HOILAP lá sự kết hợp giữa MOLAP vả ROLAP, lưu trữ các khối
trong cấu trúc HOLAP là tốt nhất cho các truy vẫn tổng hợp dữ liệu thưởng xuyên
diva trên một lượng lớn dữ liệu cơ sở Vi dụ, chủng ta sẽ lưu rũ dữ liệu bản hãng theo hãng quỷ, hãng năm trong cấn trủe MOLAP và dũ liệu hãng tháng, hảng tuần
va hang ngay trong cau tric ROLAP
Hình 22: HOLAP model [8]
38