1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn xây dựng kho dữ liệu và phân tích olap trong hệ thống nghiệp vụ thông minh về kinh doanh viễn thông

84 2 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Xây Dựng Kho Dữ Liệu Và Phân Tích OLAP Trong Hệ Thống Nghiệp Vụ Thông Minh Về Kinh Doanh Viễn Thông
Tác giả Nguyễn Chí Bảo
Người hướng dẫn PGS. TS. Cao Tuấn Dũng
Trường học Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành Công Nghệ Thông Tin
Thể loại Luận văn thạc sĩ
Năm xuất bản 2018
Thành phố Hà Nội
Định dạng
Số trang 84
Dung lượng 2,31 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

LỜI CAM ĐOAN ‘Toi xin cam đoan: Luận văn thạc sĩ Công Nghệ Thỏng Tín với để tải “XAY ĐỰNG KHO DỮ LIỆU VẢ PHÂN TÍCH OLAP TRONG HỆ THÓNG NGHIỆP VỤ THONG MINH VE KINH DOANH VIEN THONG?” la

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRUONG ĐẠI HỌC BÁCTI KIOA HÀ NỘI

NGUYÊN CHÍ BAO

XÂY DỰNG KHO DỮ LIỆU VÀ PHAN TICH OLAP TRONG HỆ

THONG NGHIEP VU THONG MINH VE KINH DOANH VIEN

‘THONG

LUẬN VĂN THẠC SĨ KĨ THUẬT

CÔNG NGITE THÔNG TIN

Hà Nội — Năm 2018

Trang 2

_BQ GIAO DUC VA DAO TAO

TRUONG DAL HOC BACH KHOA HA NỘI

NGUYÊN CHÍ BAO

XÂY ĐỰNG KHO DU LIEU VA PHAN TICH OLAP TRONG HE THONG

NGIDEP VU THONG MINI VE: KINI DOANH VIỄN THÔNG

Chuyên ngành : Công Nghệ Thông Tin

LUAN VAN THAC ST KĨ THUẬT

CÔNG NGHỆ THONG TIN

NGƯỜI HƯỚNG DAN KHOA HOC

PGS TS CAO TUANDUNG

Hà Nội - Năm 2018

Trang 3

MỤC LỤC

MỞ ĐÀU _ Nhà

1.- Lý do chọn để tải du — od

2 Muc dich nghiên cửu luận văn, đổi tượng, phạm vì nghiền cửu 11

Chương 1 TÔNG QUAN VẼ BỊ VÀ DATA WAREHOUSE

LỊ Tổng qwnvễB[.i

1.1.1 Giới thiệu chung vẻ BỊ

1.1.2 Kiến trúc tổng thể của BI

1.1.3 Hệ thống BỊ trên thể giới

1.1.4 Tổng quan về Data mining

1.2 Kiến trúc tong thé Data Warehouse,

1.2.1 Khai nigm Data Warehouse,

1.2.2, Kién tric Data Warehouse

1.2.3 Các đặc trưng của kho dữ liệu si

1.2.4, Céc thanh phan cơ bản của Data Warehouse

1.2.5 Tổng quan về Data Mai

'Kết chương

Chương 2 TÔNG QUAN VỀ OLAP

3.1 Định nghĩa OLAP

3.2 Mö hình dữ liệu đa chiều

3.3 Mồ hình thiết kế kho dữ liệu

3.4 Các mỏ hình dữ liệu đa chiên OLAP

3.4.1 Mô hình ROLAP

2.4.2 Mô hình MOLAP

3.4.3 Mô hình HOLAP

2.4.4, So sánh các mồ hình OLAP

2.5 Giới thiệu về Dashboard

3.5.1 Khải niệm Dashboard

2.5.2 Phân loại Dashboard

3.5.3 Một số loại dashboard thông đụng

Trang 4

Chương 3 UNG DUNG TRONG BAI TOAN QUAN LY HE THONG EN

THÔNG -

3.1 Thực trạng hiện nay của các doanh nghiệp viễt

3.1.1 Vấn để tích hop théng tin di động & i

3.1.3 Các hệ thông hiện tại được doanh nghiệp viễn thóng sử dụng

3.1.3 Để xuất giải quyết vẫn để

3.3.2, Thiết kẻ Data Warehouse ứng dụng cho lĩnh vực di động của doanh

nghiệp viễn thông kh 7= 3.3.3 Thiết kế một số tỉnh năng điệu tích dữ liệu

3.3.4 Thiết kế các Cube trong OLAP 2

3.3.5 Ung dụng vào việc tích hợp dữ liện 55s

3.3.6 Ứng dụng vào việc tạo các báo cáo động

4.1.2 Sử dụng hệ thống mã nguồn mở: Module ETL,

4.1.3 Tao các bảo cáo cáo động

4.2 Danh gia

KÉT LUẬN VÀ HUONG PHAT TRIEN acs

‘TAI LIEU THAM KHAO = 82

Trang 5

LỜI CAM ĐOAN

‘Toi xin cam đoan: Luận văn thạc sĩ Công Nghệ Thỏng Tín với để tải “XAY ĐỰNG KHO DỮ LIỆU VẢ PHÂN TÍCH OLAP TRONG HỆ THÓNG NGHIỆP VỤ THONG MINH VE KINH DOANH VIEN THONG?” la céng trinh

nghiên cửu thật sự của cá nhân, được thực hiện bằng sự tìm tỏi, học hỏi và kinh nghiệm cả nhàn trong lĩnh vục kinh doanh thông mảnh của doanh nghiệp viễn

thông, đưới sự hưởng dẫn của PGS.TS Cao Tuấn Dũng

Toi xin chịu trách nhiệm vẻ lời cam đoan này./

Ha Nou ngay thang 04 nam 2018

‘Tac gia

Nguyễn Chí Bảo

Trang 6

LOI CAM ON

Loi liên, tôi xin gửi lới cảm on va long biét on siu sie nhit toi PGS.TS

Cao Tuần Dũng, người đã tận tính hướng dẫn và chỉ bảo tỏi trong suốt quả trình thục hiện luân văn cao học Tỏi châu thánh cảm ơn các thấy, cổ trong trường Đại

học Bách Khoa Hà Nội đã cho tôi một mới trường rất tốt đẻ học tập và nghiên cứu

Các thấy cô đã giảng dạy và cho tôi những kiểu thức quý báu, làm nên tảng để tỏi hoàn thành luận văn cũng nhĩ công việc trong tương lai Tôi cũng xin gửi lời trí ân tới các anh, chị, bạn học viên 201B đã luôn bên cạnh, ủng hộ vã giúp đỡ tôi trong suốt quá trình học tập tai trường Cuối củng, tôi muốn gửi lời cảm ơn vỏ hạn tới gia

đình và bạn bê - những người thân yêu luôn ớ bên, khuyến khich vả động viên tối

trong cuộc sống cũng như trong học tập

Tôi xin châu thành cảm ơn

Ha npr, thang # năm 2018

Hạc viên

Nguyễn Chí Bao

Trang 7

DANH MUC CHU’ VIET TAT

BỊ Business Intelligence

BTS Base transceiver station

CNTT 'Công nghệ thong tin

CSDL Cơ sở đữ liệu

CSKH Cñăm sóc khách hãng

DW Data Warehouse

ETL Extraction, Transformation, Loading

HOLAP ‘Hybrid OLAP

MOLAP Multi dimensional OLAP

‘OLAP Online Analytical Processing

0ETE Online transaction processing

ROLAP Relational OLAP

Trang 8

DANH MỤC CÁC HÌNH Hình 1: Kiến trúc tổng thể BI

Minh 3: Các câu hỏi đảnh cho BỊ

Hình 3: Hẽ thống BI trên thế giới

Hình 4: Các lĩnh vực liên quan đến Data Mining

Hình S: Kiển trúc tổng thé Data warehouse cơ bản

Tình 6: Kiến trắc tổng thé Data warehouse véi ving sẵn nhăn

(Staging Area)

Hình 7; Kiến tric tong thé Data warehouse với vũng gẵn nhân

(Staging Area) vi kho chi dé (Data Masts)

Hình 8: Các thanh phin co ban cha Data warehouse

Hình 9: Bộ công cụ kết xuất, chuyển đổi vả tích họp dữ liệu

Mình 10: Các tỉnh năng của OLAP

Hinh 16; Mét cube 3 chidu hiển thị dã liệu sổ lượng bản háng với 3

chiểu địa điểm (cities) Thới gian (Time), Sản phẩm (Produet) và chỉ

tiêu Doanh số (amount)

Trang 9

Hình 34: Hiển thị Dashboard tại một minh hình duy nhất

Hình 25: Mé hinh toàn cảu tập trung của Viettel trong giai đoạn

2009-2016

Hình 26: Để xuất mô hình triển khai VT BI

Hình 27: Kiến trúc tổng thể hệ thông VT BL

Hình 28: Tổng quan vẻ quy trình lẩy và phản tích dữ liệu di động

Hình 29: Tổng quan luỏng dữ liệu của cả hệ thống

Hình 30: Chuẩn hóa luỏng dữ liệu

Hình 31: Tạo cubes bảo cáo chỉ tiết theo ngây

Hình 32: Tạo JOB thực thì

Hình 33: Tạo Transformations thực thì

Hình 34: Tạo JOB xử lý nhiễu Transformations

Tình 35: Tạo Transformations làm việc với nhiễu nguồn dữ liệu

khác nhan

Hình 36: Tạo kết nổi toi data warehouse của Saiku

Hình 37: Tạo cube vẻ tổng hợp tiêu dùng

Hình 38: Sửa đổi lại cách hiển thị của các độ đo giả trị

Hình 39: Tạo báo cáo Analytics

Hình 40: Roll-up từ ngây đến tháng

Hinh 41; Drill-down từ năm đến tháng

Hinh 42: Bieu 46 dang dashboard

Hinh 43: So sánh hệ thông ĐĨ truyền théng va BI hign dai

Hình 44: Dữ liệu của hệ thông Bĩ hiện đại

AL

46

sơ s1

73

7

74

75 80

Trang 10

Bảng 5: Bảng fact chi iết cước gọi

Bảng 6: Kết quả thục nghiệm ETL

Bảng 7: Kết quả thực nghiệm tạo bảo cáo OLAP

: Một số bảng thiết ké cic Dimension

Trang 11

MOpAU

1 Lý đo chọn để tài

“Trong những năm vừa qua, thị trưởng viễn thông Việt Nam đã có những bước

chuyển biến mạnh mẽ Củng với việc phát triển mạng lưới viễn thông, mở rộng

phạm vi phục vụ tới tân những vũng sâu, vũng xa, vùng niki hay hải đảo xa xôi của

tổ quốc, đặc biệt côn vươn ra thị trưởng nước ngoài, với nhiều loại hình dich vụ phong phú thi chat lượng thông tìn cũng ngày cảng được nắng cao, nhanh chong

đáp ứng nhụ cẩu ngày cảng cao của xã hỏi, Với sự phát triển nhanh chóng cả về số

lượng cũng như chất lượng, các doanh nghiệp viễn thỏng hiện nay đang phải đổi

mất với việc điều hành vã lưu trữ một khói lượng đữ liệu khổng lỏ gồm hang ty ban

tin chỉ tiết cước, thông tin của hãng trăm triệu khách hing voi rắt nhiễu dịch vụ của các nhà mạng đang ngây một đa dạng và phát triển nhanh chóng Trước một khỏi lượng thông tin không lỏ theo lịch sử thời gian như vậy, các doanh nghiệp viễn thông phải biết khai tháe, phân tích, chọn lọc các thông tin cỏ giá trị từ đó có thể cung cấp các địch vụ tốt hơn, làm hải löng khách hàng và đồng thỏi tăng khả năng canh tranh trên thị trường viễn thông vốn vô cũng khóc liệt Từ đó, yêu câu đặt ra là cần phái xây dựng được một kho đủ liệu tập trung về di đồng nhắm hỗ trợ phân tích kinh doanh và hỗ trợ lãnh đạo ra quyết định

Việc chuyển từ cơ chế kinh đoanh độc quyên sang kính doanh trong thị trường

cò sự tham gỉa cạnh tranh của nhiều nhà cung cấp đã làm thay đổi điện mạo ngảnh

Viễn thông Việt Nam Tuy nhiên, sau một thỏi gỉan phát trién ram rộ ở tất cã các

loại hình địch vụ, tử cế định, đi đông, nhắn tìn, các dịch vụ intemet, đến nay thị

trưởng viễn thông đang bước sang giai đoạn bão hòa Đặc biệt với việc chính sách mới ''Chuyển mạng giữ số" cùng với việc hạn chế khuyến mại nạp thẻ cho thuế bao

trả trước thì việc giữ chăn khách hàng và hướng khách hàng sử dụng các dich vụ

của nhà mạng là một bài toản tiên quyết cân phải đổi mặt trực tiếp của bắt ký công

ty viễn thông nào Tính hinh nảy đòi hỏi các đoanh nghiệp muốn có được sự bửt pha so với các đối thủ th phải xây dưng được chiến lược kính doanh khác biệt, hiệu quả, trong đó chăm sóc khách hàng (CSIKH) tốt hay chưa tốt cỏ thể tạo nên hay pha

Trang 12

vỡ những kỷ vọng vào hiệu quả kinh doanh của doanh nghiệp Ví vậy, việc hoàn thiện công tác quản lý và CSKH đã và đang trở thảnh một vấn để ngày cảng được các doanh nghiệp quan tâm, chữ trọng,

“Trong ngành viễn thông cô rất nhiễu hệ thống phục vụ dịch vụ viễn thông khác nhau (trả trước, trả san, bán hàng, VAS, .), các hệ thống phục vụ trong quản

lý viễn thông có thể sử dụng các hệ cơ sở dữ liệu khác nhau (Excel, Oracle, SQL

Server, MS ACCESS ) Vì vậy phải có một giải pháp có thể đà đáp ủng về thục hiện báo cáo một cách tổng thẻ, có khả năng giúp cho người quản trị có thể phân tỉch hành vĩ khách hãng tứ nhiễu nguồn dữ liệu khác nhau,

Một trong những giải pháp đô là trí tuệ thong minh doanh nghiệp (Business atelligenee-BI), giải pháp chuyển đủi dũ liệu thỏ thánh những thông tin có ý nghĩa

hỗ trợ cho người quản lý trong phân tích tình hình kinh doanh của doanh nghiệp 'Với khả năng đưa cái nhìn toàn cảnh nhất về tắt cả các hoạt động của khách hàng và tỉnh trang của doanh nghiệp, BI kiểm soảt nhanh chóng và đưa ra chính sảch phù hợp các xu hướng tương lai Từ đỏ giúp người quản lý đưa ra các chính sách sao cho phú hợp với từng giai đoạn, thời ký, địa lý, đáp ủng tỉnh hình kinh doanh của doanh nghiệp

Chính vì lý do trên tác giá Iva chon dé tai *KÂY DỰNG KHO ĐỮ LIỆU VẢ

PHÂN TÍCH OLAP TRONG HỆ THÓNG NGHIỆP VỤ THONG MINH VE KINH DOANH VIỄN THÔNG" nhằm ảp dụng các kĩ thuật tổng hợp dữ liệu từ

các hệ thống nghiệp vụ khác nhau vào kho đữ liệu của doanh nghiệp viễn thông Từ kho dữ liệu tổng hợp, sử dụng kĩ thuật phân tích OLAP (Online Analytical Processing) dé phe vu bio cao trong kinh doanh thông minh (Business Intelligence-BI) Từ các báo cáo kinh doanh giúp cho người quản trị doanh nghiệp

cô cái nhìn toàn cảnh nhất, giúp ich đưa ra các chỉnh sách phũ hợp với tỉnh hình kinh doanh của doanh nghiệp

10

Trang 13

2 Mục đích nghiên cứu luận văn,

+ Mặc đích nghiên cứu

Luận văn nảy nhắm để xuất giải pháp tích họp dữ liệu từ các hệ thủng nghiệp

vụ khác nhau trong lĩnh vục viễn thong Tir đỏ xảy dụng kho dữ liệu (Đata

lỗ trợ quyết định

ỗi tượng, phạm ví nghiên cứu

warehouse) nhằm đáp ứng như cẩu phục vụ bảo cáo, phân tịch,

trong kinh doanh viễn thông Đảng thời đáp ủng khả năng tạo các báo cáo động phú

hợp với từng kế hoạch kinh doanh theo từng giai đoạn của doanh nghiệp Cụ thể luận văn tim hiểu vẻ:

>_ Lý thuyết tổng quan Business Intelligence (BI)

v Lý thuyết tổng quan vé Data Warehouse (DW)

Ly thuyét vé OLAP

Để xuất phương pháp tích hợp dữ liệu từ các nguồn dữ liệu nghiệp vụ khác nhau trong linh vực viền thỏng, xây dựng kho dữ liệu data warehouse phục

Vụ cho việc phần tích OLAP (Online Analytical Processing)

> Thử nghiệm cỏng cụ tổng họp dữ liệu ETL cia Pentaho va phân tich OLAP của 8ailat

s& Đối tượng nghiên cứu:

> Dũ liệu nghiệp vụ của các hệ thống khác nhau trong viễn thông: hệ thống

BCCS (hệ thông tính cước), dữ liệu thỏ CDR của các tram BTS,

>_ CDR của các dịch vụ thoại, SMS, VAS,

+ Phạm vì nghiên cũu:

> Nghién cứu ly thuyét vé BI và Data warehouse

> Nahin củu xây dựng kho dữ liệu luu trữ thông tin trong lĩnh vực viễn thông

> Nghién củu sử dụng công cụ ETL để tích hợp các nguồn dữ liệu từ các hệ thủng và định dạng dữ liệu khác nhan

>-_ Nghièn củu kỹ thuật phân tích OLAP

u

Trang 14

3, Tôm tắt nội dung chính

Luận vin gém phẩn mớ đẳu, 4 chương chính và cuối cùng là phản kết luận và hướng phát triển, cụ thể

Phần mỡ đầu

Chương 1: Tông quan về BI và Data Warehou:

Chương này, tác giả sẽ trình bảy một cảch tổng quan vẻ khải nigm BI va Data

warehouse, trong do dé cap đến kiến trúc tổng thể của BI và Data warehouse

Chương 2: Tổng quan về OLAP

Chương nảy, tác giả sẽ trình bảy một cách tổng quan vẻ OLAP, trong đỏ bao

gốm định nghĩa vẻ OLAP, các tính năng cơ bản của OILLAP Tiếp theo, tác giả trình

bày mô hình dũ liệu đa chiều và mồ hình thiết kế kho dũ liệu đa chiều Cuối chương tiie gia sé trình bây về khái niệm Dashboard

tán lý hệ thống viễn thô:

Chương này, tác giả sẽ trình bảy thực trạng của các doanh nghiệp viễn thông

hiện nay Từ đô,

doanh nghiệp viễn thóng hiện tại, tiếp theo tác giả đưa ra giải pháp cá nhân để bẻ

Chương 3: Ứng đụng trong bai ton

ie gid dua ra các wu điểm, nhược điểm vẻ thực trạng của các

sung các ưu điểm cũng như hạn chế các nhược điểm hiện tại

Chương 4: Cải đật và đánh giá

Chương nảy, tác giả trình bảy phin sit dang cae open source dé lim vi du

mình họa cho giải pháp đưa ra

Kết luận và hướng phát triển

2

Trang 15

Chwong 1 TONG QUAN VE BI VA DATA WAREHOUSE,

Mé chong,

Chương náy luận văn tập trung vào việc nghiên cửu các khái niệm, vai trò và các kiến trúc, mỏ hinh triển khai BỊ đã đem lại biệu quả cho doanh nghiệp ứng

dụng, đổng thời luận văn tập trung vào các mô hình và nguyên tắc xây dựng Data

Warehouse và một số giải pháp tích hợp, xây đựng ủng dụng kho dữ liệu Data warehouse nhiim phục vụ tập trung dữ liệu của các hệ thống theo lịch sử thời gian

dũng trong việc tập họp, phần tích dữ liệu vá bảo cảo hỗ trợ các quyết định trong

kinh doanh cho doanh nghiệp viễ thông

Hệ thông cơ bản của BI trên thể giới Cuồi cũng là trinh bảy sơ qua vé Data Mining,

1.1.1 Giới thiệu chung về BE

Business Intelligenee (BI) bao gm các kỹ năng, quy trình, chiến lược và công

nghệ được sử dụng để biển dữ liệu thành thông tin, phan tích dữ liệu thông tin kinh doanh đề hỗ trợ ra quyét dinh, Business Intelligence bao gdm data warehosing, cic công cụ phản tích vá nội dung trì thức quản lý [2]

“Tứ đỏ có thé thay, Business Intelligence (BI) cung cap quan điểm lịch sử, hiện tại và tiên đoán vẻ hoạt động kinh doanh tương lai Các chức năng phỏ biển của

công nghệ thông minh kinh doanh bao gốm bảo cáo, xử lý phân tích trực tuyển, phân tích, khai thác dữ liệu, khai thác quá trình, xử lý sự kiện phúc tạp, quản lý hiệu

suất kinh doanh, đo điểm chuẩn, khai thác văn bản, phân tích tiến đoán vá phản tích

theo quy định

'Buginess Intelligenee (BI) có thể xử lý một lượng lớn dữ liêu được cấu trúc và

đổi khi không có cấu trúc để giúp xác định, phát triển vá nễu không tạo ra các cơ

hội kinh đoanh chiến lược mới Business Intellisence (BI) nhắm mục đích cho phép

lâm việc để dàng những dũ liệu lớn này, Xác định các cơ hỏi mới và thực hiện một chiễn lược hiệu quả dựa trên những hiểu biết sản sắc cỏ thể cung cấp cho các doanh

1

Trang 16

nghiệp lợi thể cạnh tranh vẻ thị trường và sự dn dinh lau dai [3] Doanh nghiệp của bạn cô thể thu được những lợi ích to lớn khi quyết định mua vả triển khai mật Gii pháp quản trị doanh nghiệp thông mình, Có thể kể ra:

> Cải thiện khả năng truy cập vả tích họp các dữ liệu sản xuất kinh doanh tir nhiễu 0guồn riêng biệt

> Có được cái nhìn toàn cảnh tắt cả các hoạt động trong doanh nghiệp

> Chia sé thong tin nhanh chống trên quy mỏ toàn doanh nghiệp

> Kiểm soát nhanh hơn và chính xác hơn các xu hưởng cỏ tác động tích cục

cũng như tiều cực đến hoạt đông sản xuất kinh doanh

1.1.2 Kiến trúc t é

‘Hinh 1: Kién trite tong thé BI

Hệ thông BI đơn giản có thể được xem là sự kết hợp cúa 3 thành phản chính

nh sau:

> Dafa Warthouse (Kho dữ liêu): Chúa dữ liệu tổng hợp của doanh nghiệp

H

Trang 17

> Data Analyst - Data Mining (Khai phá dữ liệu): Các kỹ thuật dùng để khai

pha di liệu và phát hiện trì thức như phân loại (Classification), phân nhóm

(Clustering), phát hiển luật kết hợp (Association Rule), dụ đoán (Prediction),

> Business Analyst (Phan tich kinh Doanh): Các nhà lãnh đạo doanh nghiệp

đưa ra những quyết định chiến lược đổi với hoạt động kinh doanh của doanh nghiệp

1.1.3 Hệ thống BI trên thế giới

Business Intelligence hiện được coi là giải pháp hổ trợ kinh doanh đang được

nhiễu doanh nghiệp tru tiên áp dụng

Nên tảng của hệ thống BI dựa vào công nghé Data Warehousing (DW - Cơ sở

.dữ liệu thống nhất và tập trung)

Nhờ vào quả trình thu thập, tổng hợp và phần tích thông tin, BI cho phép

doanh nghiệp có thể:

> Phat hign sém những vấn để trong kinh doanh

>_ Khai thác tối tru các cơ hội

> Dua ra các quyết định, chiến lược phù họp, tạo lợi thể trước các đổi thủ

Trang 18

‘Tinh thóng mình của hệ thống ở chỗ nó cỏ thể trả lời ngay lập tức hẳn hết các

quan đến hoạt động cúa doanh nghiệp, doanh thu, hành vỉ tiêu dùng của khách hảng mà không cản phải có sự hỗ trợ của các bộ phần nghiệp vụ vả phòng

> Level 2: Hệ thống Analysis: lả hệ théng phân tích thong qua các bảo cáo

động OLAP, phân tích các số liệu đa chiểu

> Level 3; Hé thống Monitoring: là hệ thống điều hành các hoạt động đang

diễn ra của doanh nghiệp thông qua các báo cáo Dashboards, Scorecards và

các báo cáo KPIs

Trang 19

1.1.4 Tổng quan vé Data mining

1.4.4.1, Khai nig Data mining

Data Mining (Knowledge discovery in databases) là quá trình tính toán để

tìm ra các mẫu trong các bộ dữ liệu lớn liên quan đến các phương phúp tại giao điểm của máy học, thống kê và các hệ thống cơ sở đữ liệu Mục tiêu tổng thể của

quả trình khai thác dữ liệu là trìch xuất thông tin tir mgt bộ dữ liệu và chuyển nó

thành một cẩu trủc đễ hiểu đẻ sử dụng tiếp Ngoài bước phản tích thé, nd con lien

quan tới cơ sở dữ liệu và các khia cạnh quản lý dữ liệu, xử lý dữ liệu trước, suy xét

mô hình vả suy luận thống kẻ, các thước đo thủ vị, các cân nhắc phúc tạp, xuất kết

quả về các cấu trúc được phát hiện, hiện hinh hỏa và cắp nhất trực tuyển Khai thác

cdữ liệu là bước phân tích của quá trinh “khám phá kiến thức trong cơ sở dữ liệu" 19},

Data Mining được hiểu như sau: Data Mining 1a quả trình khai phá, trích xuất, khai thác vá sử dụng những d liệu có gìá trị tiém ẩn từ bên trong lượng lớn dù liệu được lưu trữ trong các cơ sở dữ liệu (CSDL), kho dữ liệu, trung tâm dữ liệu, lớn ben là Big Data dựa trên kí thuật như mạng neural, ly thuyết tập thỏ, tập mở, biểu

diễn trì thức, Đây là một công đoạn trong hoạt động *lâm sạch” dữ liệu Quả

trình chọn lọc dữ liều của Data Mining dựa trên các phương pháp: Phản loại (Classification), Phin nhém (Clustering), Téng hop (Summarization), Mé hinh ring buộc (Dependency modeling), Héi quy (Regression), D6 tìm biến đổi và độ lệch (Change and Deviation Detection),

Data Mining nhan mạnh 2 khía cạnh chính đó là khả năng trích xuất thông tin

cô ich Ty dng (Automated) và thông tin mang tính dy doin (Predictive)

Data Mining lién quan chit chẽ đến các lĩnh vục sau

> Statistics (Théng ké): Kiểm định model và đánh giá trí thức phát hiện được

>_ Machine Leaming (Máy học): Nghiên cứu xây đựng các giải thuật trên nến

tảng của trí tuệ nhân tạo giúp cho máy tỉnh có thể suy luận (dự đoản) kết quả

tương lại thông qua quả trình huấn luyện (học) từ dữ liệu lịch sử

>_ Databases (Cơ sở dữ liệu): Công nghệ quản trị dữ liệu nhất là kho dữ liệu

1

Trang 20

> Visualization (Tre quan hóa): Giúp dữ liệu dễ hiểu,

map

Hình 4: Các lĩnh vực liên quan đến Data Mining

1.1.4.2 Nhiệm vụ của Data Mining

Nhiệm vụ của đata mining có thể phân thành 2 loại chính đó làdự đoán (Predictive) va mé ta Descriptive

Predictive: Ding dit ligu lich sử để dự đoán tương lai

ap dung:

> Classification: Phân lớp,

> Regression: Héi quy

> Deviation Detection: Phát hiện độ lệch

Descriptive: Mé hình hỏa từ các dũ liệu sẵn có Các thuật toán thường ding:

> Clustering: Phin eum

> Association Rule Discovery: Phát hiện luật kết hợp

> Sequential Pattem Discovery: Phát hiện mẫu tuần tự

Dưới đây là một số thuật toán phỏ biến được đùng trong Data Mining

Decision tree: Cay quyét dinh (Classification Task)

‘Nearest Neighbor: Lang giéng gan nhit (Classification Task)

‘Neural Network: Mang Neural (Classification and Clustering Task)

Rule Induction: Luật quy nap (Classification Task)

K-Means: Thuat tofn K-Means (Clustering Task)

thuật toán thường được

18

Trang 21

1.2 Kiến tric tong thé Data Warehouse

“Trong phan này luận văn sẽ trình bày nội dung cơ bản vẻ khải niệm Data

'Warehouses, các kiến trúc cơ bản của Data warehouse, tiếp theo sẽ trình bảy các

đặc trưng của kho dữ liệu vả các thành phản cơ bản của một data warehouse, cudi cũng trình bay sơ lược về Data mart

1.2.1 Khái nigm Data Warehouse

Data warehouse (kho đữ liệu) chính là hệ quản trị cơ sở đữ liệu, chuyên đùng cho tạo báo cáo và phân tích dữ liệu Nó vừa hỗ trợ các truy vấn phúc tập, vừa là

điểm tập trung dữ liệu từ nhiều nguồn khác nhau để có được thông tín phản tích đẩy:

đủ nhất Data warehouse là tập hợp đữ liệu tương đổi én định không hay thay đổi, cập nhật theo thời gian, được tích hop theo hưởng chủ để nhằm hỗ trợ quá trình tạo quyết định về mật quản lý [11]

“Theo đó, kho dữ liệu là một tập hợp dũ liệu hướng chủ để, toàn vẹn, không bị

tô rỉ mất mất và có giá trị lịch sử Cụ thể các tính chất đỏ như sau,

Một data warehouse dién hình sẽ

> Chủal

long lớn dã liệu có liên quan tới các giao dich trong quá khú

> Được tối uu hỏa cho các thao tác đọc trong các yêu cảu truy vấn dữ liệu Điểu này đối lập với các cơ sở dữ liệu trong các hệ thông xử lỳ tác vụ (OLTP) được thiết kế để hỗ trợ cả các thao tác thêm, xóa, sửa dữ liệu luôn

> Dire nạp các đữ liệu mới hoặc dù liệu được cấp nhật 1 cách định kỷ với nhiều nguồn dữ liệu khâc nhau

>_ Lànguẻn dữ liệu cơ bản cho các ứng dụng BI mức doanh nghiệp

1.2.2 Kién trite Data Warehouse

‘Theo Database Data Warehousing Guide hién nay có 3 kiến trúc của Data warehouse như sau

>_ Kiến trúc kho dũ liệu: Cơ bản

>_ Kiến trúc kho dữ liệu: với vùng gắn nhãn (Staging Area)

> Kién trúc kho dữ liệu: với vùng gắn nhân (Staging Area) và kho chủ để (Data Marts)

19

Trang 22

% Kién tric kho dir ligu: Cơ bản

Data Sources Warehouse 0e

Hình 5: Kiến trúc tông thê Data warehouse cơ bản [4]

Kiến trúc đơn giân của hệ thông Data Warehonse gồm 3 phẩn:

> Data Source: Lanoi dt ligu tir nhiéw nguén khác nhau được thu thập

> Warehouse: Noi lou tri dit ligu da duge xi ty, g6m Metadata, Raw Data

‘vi Summary Data

>_ User: Gắm các hệ thống phân tích, bảo cáo và Mining

Đây là một kiến trúc đơn giản với phản ETL (extraction, transformation, and

loading) đã bị lược bỏ, người đũng cuối truy xuất dữ liệu trực tiếp tứ các hệ thống

xử lý nghiệp vụ thông qua data warehouse,

#ˆ Kiến trúc kho dữ liệu: với vũng sắn nhân (Staging Area)

Trang 23

‘Tai kiến trúc với vùng gắn nhãn, các thành phản cơ bản giống với kiến trúc cơ

bản trên, nhưng cỏ thêm bước chuyển đạng và tích hợp dữ liệu Dữ liệu trước khi đưa vào Data Warehouse, được tập họp từ nhiễu nguồn, chuyển đổi dạng và lưu trữ

tại bước Staging Area, người đúng cuỏi truy xuất dữ liệu trục tiếp từ các hệ thông

xử lý nghiệp vụ thông qua Data Warehouse

'#ˆ Kiển trúc kho dữ liệu: với vùng gắn nhãn (Staging Area) và kho chủ đề (Data Marts)

Data Staging Sources Area ‘Worchouse marta Data Users

‘Hinh 7: Kién tric tong thé Data warehouse véi ving gin nhan (Staging Area)

vii kho chit dé (Data Marts) [4]

Mặc đủ kiển trúc như trên Hình 6 khả phổ biến, bạn có thể tủy chinh kiến trúc

của kho cho các nhóm khác nhau trong tổ chức cia bạn Bạn có thể thục hiện điều này bằng cách thêm các kho chủ để (Data Marts), đỏ là các hệ thống được thiết kế cho một ngành kinh đoanh cụ thể

Kién tric ving gan nhân vả kho chủ để ở Hinh 7 bỏ sung thêm bước ETL,

giúp phân Warehouse ra thành các chủ để nhó hơn (Data mart) Hinh 7 minh hoa mot vi du vé việc mua, bán vả tổn kho được tách riêng biết Trong ví dụ nây, một

nhà phân tích tải chính cỏ thể muốn phần tich dỡ liệu lịch sử cho việc mua bản và

th thập dũ liệu lịch sử để đưa ra dự đoán về hành vi của khách hàng

a

Trang 24

1.2.3 Các đặc trưng của kho dữ liện

>_ Tính hướng chủ đề (Subjeet - oriented)

Data warehouse được thiết kể dữ liệu tập trung vào việc phản tích các yêu cấu quản lÿ ở nhiễu cấp độ khác nhau trong quy trình ra quyết định Các yếu cẩu phản tích nây thưởng rất cụ thể, và xoay quanh loai hình kinh doanh của doanh nghiệp

Ví dụ các công ty phân phối sẽ quan tim đẻn tỉnh hình kinh doanh, doanh nghiệp vin thong quan tâm đến lưu lượng dịch vụ, tuy nhiên một doanh nghiệp thường

quan tâm đến vài chủ để khác nhau, như công ty phản phối còn phải quan tâm đến

kho bãi, chuổi cũng ting,

> Tinh tich hop (Integrated):

Khai niêm tích họp có nghĩa là kho dữ liệu có khả năng thu thập dữ liệu từ nhiễu nguồn và trộn ghép với nhan tạo thành một thể thủng nhất

Một kho dữ liệu là một khung nhìn tổng thể thông nhất các khung nhìn khác nhan Ví đụ: một hệ thống tác nghiệp như bản hàng hoặc tiếp thị cỏ thể cỏ chung một dạng thông tỉn về khách hàng, nhưng các vấn dé vé tai chính cẳn một khung

nhìn khác cho thỏng tín vẻ khách hảng Một kho sẽ cỏ một khung nhìn toản thể vẻ

một khách hãng Khung nhìn đó bao gểm các phản dữ liệu khác nhan từ các hệ thống tác nghiệp khác nhau

> Tinh bén ving:

Dữ liệu trong kho là dữ liệu chỉ đọc và chỉ có thẻ tra cứu, không được sửa đổi

bởi người sử dụng cui

> Tinh bắt biến (Nonvolatile)

"Tính không biến đông của kho dữ liệu được hiểu theo nghĩa: dữ liện được lưu trữ lâu dải trong kho dữ liệu Mặc đủ có thêm dữ liệu mỏi nhập vào nhưng dữ liệu

cũ trong kho vẫn không bị xóa, điều đỏ cho phép cung cắp thông tin về một khoảng thời gian dải, cung cắp đủ số liệu cân thiết cho các mô hình nghiệp vụ phân tích, dự bao,

2

Trang 25

>_ Gắn với thời gian

Mỗi bán ghi của kho dữ liệu chứa một yếu tổ thời gian như một phản của khóa

chính để bảo đảm tính duy nhất của mỗi bản ghỉ vá cũng cắp một đặc trưng vẻ thời gian cho dữ liêu Toàn bỏ dữ liệu

thời gian nhất định

ng kho được tạo ra và gắn liễn với một giả trị

> Dữ liệu tông hợp vả chỉ tiết:

Dữ liệu chỉ tiết là thông tin múc thấp nhất được lưu trữ trong kho dữ liệu Dữ:

liệu tác nghiệp chính lả thông tin mite thấp nhất Dữ liệu tổng hợp được tích hop lại qua nhiều giai đoạn khác nhan

> Tinh lich sử

Các thông tin trong kho dữ liệu được tập trung theo thoi gian và thể hiện một khung nhìn của một chủ để trong một giai đoạn

1.2.4 Các thành phần cơ bản của Data Warehouse

Data Warehouse là một cơ sở dữ liệu quan hệ được xây đọng cho mục đích

truy vấn và phân tích dữ liệu mang tính lịch sử, nó không phải là loại cơ sở dữ liệu

Trang 26

Một hệ thống đata warehouse vẻ mặt logic được cho là có 4 thành phản:

1 Nguồn dữ liệu (Operadonal Source Systems): Dữ liệu nguồn trong trưởng hợp,

điển hình bao gồm nhiễu loại khác nhau:

> Các dữ liệu từ các hệ thống tác nghiệp (như hệ thống CRM, ERP, .): cic dit

liệu chỉ tiết nhận được từ các hoạt động nghiệp vụ hẳng ngây:

>_ Các dữ liệu kể thừa: các dữ liệu cũ không ding cho hoạt động hàng ngày, các phương pháp tổ chức đỡ liệu khác với mô hình hiện hảnh, các dữ liệu được mã hóa khi đã qua sử dụng vả các thông tỉn đẩy đủ vẻ cấu trúc và ngữ nghĩa của dữ liệu kế thừa

>_ Các dũ liệu bên trong khác

>_ Các nguỏn dữ liệu được lấy tứ bên ngoài

2 Khu vực xử lý (Staging Area): Bao gồm các công cụ xử lý dữ liệu, các quá tình chuyển đổi dữ liệu trước khi được đưa sang khu vực trinh bày, Trong khu vực nảy

dữ liệu sẽ được làm sạch (cleanse), chuyển đổi (convert), chuẩn hóa (conform) Khác với cơ sở dữ liệu giao dịch thỏng thưởng, Data Warehouse được bổ sung

thêm: bộ cỏng cụ kết xuất, chuyển đổi vả tích họp dữ liệu (Extraction,

‘Transformation, Loading ~ ETL)

Extradionfsoquistlon

đồmesysem appllcation Operationde Maintenance

Hinh 9: Bộ công cụ kết xuất, chuyển đổi và tích hợp đữ liệu [11]

3 Khu vực trình bày (Data Presentation Area): Day chinh 1a data warehouse

database, Hign tại, phần lớn các data warehouse database déu 14 relational database bởi đây là loại cơ sở dữ liệu thông dung nhất hiện nay trên thị trường Dữ liệu trong

24

Trang 27

relational đatabase được tỏ chúc theo dạng hinh sao (star schema), về cø bản tức là

mồ phỏng tỉnh đa chiều trong relational database Data warehouse database có thẻ

được tả chúc dưới dang cube, tte là đa chiểu theo đùng nghĩa và theo các chủ để

(data mart) để phục vụ đữ liệu cho quá trình Data mining Cho dù được lưu trữ theo

kiểu gỉ, nguyên tắc thiết kế đa chiêu là giống nhau giữa 2 loai database

4 Công cụ truy cập dữ liệu (Đata Access Toels): Kho dữ liệu cho phép người đùng ở mức quản lý, ra quyết định thực hiện các phép phản tích tương tác với data bang hé thống xử lý phân tích trục tuyển (online analytical proeessing - OLAP) Ngoài ra kho dữ liệu cũng được đùng cho báo cio, data mining va phân tích thống

kế Database vả kho dữ liệu, do đỏ chí khác nhau về mặt khải niệm, một cơ sở dữ liệu nếu dùng riêng cho các mục đích trên cũng được coi là kho dữ liệu

1.2.5 Tông quan về Data Mart

1.2.5.1 Giới thiện Data Mart

Data Mawt là một dạng thu nhỏ của kho dữ liệu, nêu kho dữ liệu mỏ tả thông

tin cha một tổ chức thương mại thì Data Mart mé tả thông tin cho từng phòng ban

của tỏ chức đỏ (phòng kinh doanh, phòng nhân sự, .)

1.2.8.2 Các kiểu Data Mart

> Data mart phụ thuộc (Dependent Data Mart): Chủa những dữ liệu được lấy từ

DW và những dữ liệu nảy sẽ được trích lọc và tỉnh chế, tích hợp lại 6 mite cao hơn để phục vụ một chủ để nhất định của Data Ma+

> Data mart dc lap (Independent Data Marts): Khong giéng như Dala Mart phụ

thude, Data mart độc lập được xảy dựng trước DW vá dữ liệu được trực tiếp

ẩy từ các nguồn khác nhau

> Data Mart Iai (Hybrid Data Mart): Một Data Mart lai cho phép kết hợp các đảu vào từ các nguồn khác hơn sơ với một kho dữ liệu duy nhất Điểu nảy cỏ thể

hữu ích trong nhiễu tình huồng, đặc biệt là khi cẩn tích hợp đặc biệt, chẳng

hạn như sau khi một nhóm mới hoặc sản phẩm được bổ sung

25

Trang 28

Kết chương

“Trong chương này, tác giả đã giới thiệu tổng quan vẻ vẻ hệ thống BI và kiến

trúc tổng thể của kho dữ liệu Data warehouse Các loại kiển trie Data warehouse

hiện đang sử dụng Phản này tập trung vào việc giới thiệu các đặc trưng của kho dữ liệu, các thành phan cơ bản trong kho dữ liệu Data warehouse Chương sau sẽ đề

cập đến việc xử lý phản tích trực tuyển OLAP, đẻ thể hiện được những khả năng phân tích thông tin thi tap tung nghiên cửu các phương pháp xử lý đa chiếu OLAP ding trong phân tích dữ liệu trong kho dữ liệu Data warehouse

Trang 29

Chong 2 TONG QUAN VE OLAP

Mé chong,

Nội dụng của chương là tìm hiểu vẻ khải niệm OLAP, khái niệm vẻ mỏ hình

dữ liệu đa chiếu, và mỏ hình thiết kế kho dữ liệu để ứng dụng OLAP Tiếp theo trình bày về các mổ hình dữ liệu đa chiếu Cudi cùng là giới thiệu sơ qua vẻ Dashboard,

2.1, Dinh nghia OLAP

OLAP (Online Analytical Processing) là một thành phản quan trong trong hé

hố trợ ra quyết định, giúp các nhà quản lý có cải nhìn đa chiểu, trên nhiễu khía cạnh

của một vấn để với lượng dữ liệu lớn, từ đó đưa ra các quyết định chính xác vả kịp thời, nâng cao lợi thể cạnh tranh cho doanh nghiệp OLAP là một công nghệ cho phép người sử dụng để ding và linh động trong việc kết xuất và xem dữ liệu đa chiếu, từ nhiễu góc độ khác nhau [14]

Ứng đụng kỹ thuật OLAP được đảng vào việc hỗ trợ ra quyết định cho các nhà quân lý và hoạch định cho công việc trong tương lai của doanh nghiệp Nó là

cng cụ trả lời các truy vẫn phản tích da chiểu một cách nhanh chỏng, cung cắp giao điên đỏ họa thản thiên với người đùng, và những gỉ người dũng cắn lâm lả kẻo và

thả các đưnension và measures bằng chuột, sau đó các dữ liệu truy vấn sẽ được hiển

thị trên giao diện

OLAP cho phép người đùng quan sát dữ liêu trên nhiễu phương diện khác nhan, ở các mức độ chỉ tiết khác nhau OL.AP cung cấp một số tỉnh năng cho phép

thực hiện điều đỏ, cụ thé:

27

Trang 30

E]

Hình 10: Các tính năng của OLAP [14]

2

Trang 31

“Tỉnh năng nhĩn xa (roll-up)

Biển tiêu chỉ từ mức chỉ tiết sang mức tổng hợp để hiển thị cho người dùng,

được thực hiện khi đi từ mức thấp lên mức cao trong cây phản cắp hoặc giảm số cắt

lớp xuống Hinh 11 là ví dụ cho tính năng nhin xa nảy khi cất lớp Thị trưởng

chuyển tứ mức thánh phỏ lên mức quốc gia, giá trị các lớp cắt thánh phố của một quốc gia được cộng dén vào thánh giả trị kết quả

~ Tính năng đảo sâu (drill-down)

Hình 12: Drill-down [14]

29

Trang 32

Drill-down thực hiện ngược lại với nhìn xa, tức là đi từ múc tổng họp cao đến mức chỉ tiết hơn Vỉ dụ như trong hình 12, cắt lớp Thời gian di tir mite quý xuống

‘Hinh 13: Pivot (14)

Với tính năng đào chiều biến hàng thành cột, cột thành hàng giúp cung cấp

cho người dùng một cách thể hiện dữ liệu khác Vỉ dụ: Hinh 13 chuyển dữ liệu các

sản phẩm từ hàng thành cột, các cột thảnh phổ trở thành giá tri hang,

~ Tính năng cắt lát mỏng (slice):

Trang 33

Sliee thực hiện cắt lấy dữ liệu một lớp cắt cụ thể trong một cắt lớp Ví dụ như hình 14 chỉ duy nhất đữ liệu của Quỷ 1(Q1) được hiển thị

~ Tính năng cắt khối (dice)

Đice thực hiện lựa chon giá trị cho ít nhất hai lớp cất Ví dụ như hình 15 là eube thể hiện dữ liệu cho thành phỏ Toronto và Vancouyer trong quý 1 (Q1) và quý

2 (Q3) với các các sản phim “home entertainment” vi “computer”

Ngoài 5 tính năng cơ bản trên, các bộ công cụ OLAP trên thị trường cũng

cung cấp thêm một loạt các tính năng hỗ trợ khác như các phép toán số học, thống

kẻ, các phép toán kinh tế

2.2 Mô hình đữ liệu đa chiều

Kho di liệu và các hệ thống OLAP được xảy dựng dựa vào mỏ hình dã liệu đa

hiểu Mỏ hinh nay cho hiệu năng tốt trên những phép truy vấn phức tạp và giúp

người dùng có thé nhin da liệu theo nhiễu khía cạnh khác nhau Mồ hình nảy hiển thị dữ liệu đưới dạng không gian n-chiễu, gọi là data cube hoặc hypercube Dữ liệu

trong OLAP được tổ chức theo kiểu đa chiểu (multi-dimensional dataset) giúp

người đùng cỏ thể nhìn dữ liệu theo nhiều khía cạnh khác nhan

31

Trang 34

'Vĩ dụ: Phân tích số liệu bản hãng, có 3 chiều cắt lớp là Thị trường, Thời gian

Một khối data cube được xác định bằng cắt lớp vả tiêu chí Cắt lớp là các

thông tin, quan điểm được đùng để phân tích dữ liệu Ví dụ đata cube ở hình 16

phân tích số liệu bản hàng, có 3 cất lớp là Địa điểm, Thời gian và Sản phẩm Các giả trị trong một cất lớp gọi là lớp (cắt lớp member) Vi du Chicago, New York,

'Teronto và Vaneouver là các lớp của cắt lớp Địa điểm Các cắt lớp thường cỏ thêm

các thuộc tinh (attribute) mé ta thém théng tin cho nó, Ví dụ cắt lớp Sản phẩm có thể chứa các thuộc tính như Mã sản phẩm, Tên sản phẩm, Mô tả Kich thước tuy nhí

các thuộc tính nây không được thể hiện trong hình trên

Cùng với cắt lớp, các ö (cell) của một cube chứa các giá trị dạng số vả được

sọi là tiêu chí (measure) Mô hình đa chiều yêu câu việc thực hiện các phép toán sở học (công, trù, nhân, chia) trên các tiêu chí nảy mà ý nghĩa của số liệu vẫn chính

xác Ví dụ trong hình 9 trên, khối cube có 1 tiêu chỉ là Doanh số Thông thường một

eube sẽ có nhiễu tiêu chỉ khác nhau Khéi cube 6 hinh 16 mặc đủ không hiển thị

nhưng có thể có tiêu chí Số lượng (số sản phẩm bán ra) nữa

32

Trang 35

3.3 Mô hình thiết kế kho dữ liệu

“Trong hệ thống OLAP, dữ liệu đa chiều được lưu trữ dưới dạng bảng quan hệ,

tổ chức theo cấu trúc đặc biệt theo lược đổ hình sao, lược đỏ hình bóng tuyết, lược

đỏ ánh sao và lược đỏ chỏm sao như sau:

> Lược đỏ hình sao (star schema) bao gém duy nhất một bảng số liệu và nhiễu

bảng cắt lớp (mỗi bảng cho một cắt lớp) Các thực thẻ trong lược đỏ hình sao

không được chuẩn hoá như cơ sở dữ liệu nghiệp vụ (các thực thể cỏ cấu trúc

phân cấp được nhập chung váo làm một)

Hình 17: Lược đổ hình sao [14]

> Large đỏ hinh bỏng tuyết (snowflake schema) giảm bớt dự thừa dữ liệu trong

lược đỏ hình sao bằng cách chuẩn hoá các bảng cắt lớp Do đỏ, một thực thẻ cắt

lớp có phân cắp sẽ được thể hiện thánh nhiễu bảng dữ liệu khác nhau, mỗi bang

một cấp Hình 18 là lược đỏ hình bỏng tuyết, trong đỏ cắt lớp Location được thẻ

hiện qua 2 bảng de ligu Location va City

33

Trang 36

Hình 18: Lược đỗ hình bông tuyết [14]

> Luge dé sinh sao (Starflake sehema) là sự kết hợp gifa lược đỏ hình sao và lược

đổ hình bỏng tuyết khi một sế cắt lớp được chuẩn hoả trong khi một số khác thi

không

> Luge đổ chôm sao (Constellation schema) là lược đổ thông dụng nhất trong,

thiết kể kho dữ liệu, là lược đổ trong đỏ các bảng sỏ liệu dũng chung cắt lớp với

nhau Vỉ dụ hình 13 bên dưới hai bang Sales va Shipping sir dung chung Time,

Item va Location

Trang 37

2.4 Các mô hình dữ liệu đa chiều OLAP

Căn cứ vào cách thức lưu trữ dữ liệu, người ta thường tiếp cận mỏ hình dữ liệu

da chiéu theo 3 hướng sau:

> OLAP kiểu quan hệ (Relational OLAP - ROLAP) lưu trữ dữ liệu trong cơ sở

dữ liệu quan hệ, dùng câu lệnh SỌL để thục hiện các tính năng của OLAP

> OLAP da chiếu (Mulli cất lớp OLAP - MOLAP) lưu trủ dữ liệu dưới dang file có cấu trúc đặc thủ (ví dụ như cấu trúc dang mang (array)) va thục hiện

các tính năng OLAP trên cấu trúc này Mặc dù bị hạn chế vẻ lượng dữ liệu

ưu trủ vá xử lý được số với ROLAP, MOLAP thường cho hiệu năng tốt hơn

u (vi dữ liệu được thiết kế tối ưu cho truy vấn OLAP trong khi ROLAP phải thông qua cơ sở dữ liêu)

> OLAP lai (Hybrid OLAP - HOLAP) kết họp 2 cổng nghệ ROLAP và MOL.AP nói trên, tận dụng khả năng lưu trữ của OLAP và khả ning xử lý của MOLAP Ví dụ HOLAP sẽ lưu dữ liệu chỉ tiết trên cơ sở dữ liệu quan hệ

côn dữ liệu tổng họp hơn để truy vấn cho người đùng được lưu trên không

gian MOLAP

2.4.1 Mô hình ROLAP

“Trong mô hình ROLAP, dữ liệu được lưu trữ trên các bảng theo định dạng của

CSDL quan hệ đáp ứng tắt nhất cho các truy vấn dữ liệu khóng thưởng xuyên Để

giấu đi kiến trùc lưu wữ theo định dạng quan hệ và trình bay dã liệu đa chiểu, ROLAP tno ra một lớp dữ liệu ngữ nghĩa gọi là Metadata Lớp Metadata nây hỗ trợ

việc ảnh xạ của các chiều đến các bảng trong CSDL quan hệ đỏng thời hỗ trợ việc

trong các phép truy vẫn hoặc tổng hợp s+

tổng họp và kết họp dữ liều Metadata được lưu trữ ngay trong CSDL quan hệ

Server phan tich nam trong tang img dụng ở giữa tạo ra khỏi dữ liệu đa chiếu động cho tằng trinh bày ở phía trên Hệ thống đa chiều trong tẳng trình bảy sẽ cung

cấp khung nhin đa chiễu của dữ liệu đến người đùng Khi nguời đăng đưa ra cân hỏi phúc tạp trên dữ liệu đa chiếu, câu hỏi được chuyển trục tiếp tới CSDL quan hè Không giống như trong mó hình MOIL.AP, các khỏi đa chiều trong mô hình ROLAP không được tạo ra và lưu trữ cổ định

35

Trang 38

+ Uu điểm của ROLAP:

> Có thể áp dụng với hệ thống cỏ dung lượng lớn do kỉch cỡ của ROLAP

chính là kích cỡ của CSDL, quan hệ

>_ Tiết kiệm không gian lưu trữ do dữ liệu lưu trữ trong CSDL quan hệ truyền

thống ít khi trùng lặp

> ROLAP là kỹ thuật hiệu quả cho hệ quản trị CSDL quan hệ duy trì chức

năng truyền thông của nỏ đỏng thời thực thí được các phép toản của hệ thống OLAP

> Dữ liệu được chửa trong CSDL quan hệ chuẩn nên có thể được truy cập

bằng bắt ky cong cu SQL nao

s* Nhược điểm của ROLAP:

> ROLAP chay chim do moi ROLAP report là câu truy vấn nguyễn thủy

trong CSDL quan hé.

Trang 39

>_ Tất cả các tính toán của ROLAP dựa trên các hàm của SQL, vì vày chúng không thích hợp khi mở hình có nhiều tính toán như dự toán ngắn sách, báo cáo tải chỉnh

2.4.2 Mô hình MOLAP

Trong mổ hình MOI.AP, dã liệu phân tích được lưu trữ trong CSDL đa chiều chuyên dụng nhằm phục vụ tốt nhất cho các truy vấn tổng họp dữ liệu thường xuyên cẩn thỏi gian truy xuất nhanh Só liệu tính toán tước vả chiều của khỏi đữ

liệu được lưu trong CSDL đa chiểu Engine MOLAP trong ting ứng dụng diy dtr

liệu đa chiểu từ CSDL đa chiễu đến người đăng phân tích dữ liệu

© Un diém cha MOLAP,

>_ Thục thì nhanh câu truy vin nhờ vào việc tối uu hỏa lưu tro, lap chỉ mục đa chiều và cơ chế bộ nhé cache

> Ap dụng tốt cho các hệ thống cẻ yêu cảu tính toán phúc tạp và thời gian

truy xuất nhanh bởi vì tất cả các dế liệu cản tính toàn đã được thực hiện khi tạo khối dữ liệu

>> Khỏng sử dung cơ chế khoá do dữ liều là chỉ đọc

>_ Dũ liệu cỏ thể dễ dâng sao chép đến người dùng cho phân tích offline

37

Trang 40

& Nhwoc diém ciin MOLAP:

> Chí phí nhiễu thỏi gian để xử lý dữ liệu (nap dữ liệu), đặc biệt trong trường hợp khối dữ liệu có dung lượng lớn Để khắc phuc nhược điểm nảy các

công cụ MOLAP cho phép chỉ xử lý phản dữ liệu có sự thay đổi thay vi xứ

lý lại toàn bộ khối dữ liệu

>_ MOLAP lưu trữ nhiễu dữ liệu dự thữa nhắm đáp ứng thời gian truy xuất nhanh,

v Bị giới hạn bởi dung lượng dữ liệu cùa hệ thống do tắt cá các dữ liệu tinh toán trước đêu được lưu trữ trong khối Điễu náy lắm cho dữ liệu trong khỏi

có khuynh hướng tổng hợp hơn là chỉ tiết

>_ Tăng thêm chi phí do công nghệ đa chiêu không có sẵn trong hệ thông nên

phải đâu tư chi phí cho cà công nghệ vả huấn luyện con người

2.4.3.Mô hinh HOLAP

Mõ hình HOILAP lá sự kết hợp giữa MOLAP vả ROLAP, lưu trữ các khối

trong cấu trúc HOLAP là tốt nhất cho các truy vẫn tổng hợp dữ liệu thưởng xuyên

diva trên một lượng lớn dữ liệu cơ sở Vi dụ, chủng ta sẽ lưu rũ dữ liệu bản hãng theo hãng quỷ, hãng năm trong cấn trủe MOLAP và dũ liệu hãng tháng, hảng tuần

va hang ngay trong cau tric ROLAP

Hình 22: HOLAP model [8]

38

Ngày đăng: 09/06/2025, 12:28

HÌNH ẢNH LIÊN QUAN

Hình  2:  Các  câu  hỏi  đành  cho  BI - Luận văn xây dựng kho dữ liệu và phân tích olap trong hệ thống nghiệp vụ thông minh về kinh doanh viễn thông
nh 2: Các câu hỏi đành cho BI (Trang 17)
Hình  3:  Hệ thống  BI  trên  thể  giới - Luận văn xây dựng kho dữ liệu và phân tích olap trong hệ thống nghiệp vụ thông minh về kinh doanh viễn thông
nh 3: Hệ thống BI trên thể giới (Trang 18)
Hình  5:  Kiến  trúc  tông  thê  Data  warehouse  cơ  bản  [4] - Luận văn xây dựng kho dữ liệu và phân tích olap trong hệ thống nghiệp vụ thông minh về kinh doanh viễn thông
nh 5: Kiến trúc tông thê Data warehouse cơ bản [4] (Trang 22)
Hình  10:  Các  tính  năng  của  OLAP  [14] - Luận văn xây dựng kho dữ liệu và phân tích olap trong hệ thống nghiệp vụ thông minh về kinh doanh viễn thông
nh 10: Các tính năng của OLAP [14] (Trang 30)
Hình  16:  Mật  cube  3  chiều  hiển  thị  dữ liệu  số  lượng  bản  hàng với  3  chiều  địa - Luận văn xây dựng kho dữ liệu và phân tích olap trong hệ thống nghiệp vụ thông minh về kinh doanh viễn thông
nh 16: Mật cube 3 chiều hiển thị dữ liệu số lượng bản hàng với 3 chiều địa (Trang 34)
Hình  25:  Mô  hình  toàn  cầu  tập  trung  cia  Viettel  trong  giai  đoạn  2009-2016 - Luận văn xây dựng kho dữ liệu và phân tích olap trong hệ thống nghiệp vụ thông minh về kinh doanh viễn thông
nh 25: Mô hình toàn cầu tập trung cia Viettel trong giai đoạn 2009-2016 (Trang 48)
Hình  28:  Tổng  quan  về  quy  trình  lấy  và  phân  tích  dữ  liệu  di  động. - Luận văn xây dựng kho dữ liệu và phân tích olap trong hệ thống nghiệp vụ thông minh về kinh doanh viễn thông
nh 28: Tổng quan về quy trình lấy và phân tích dữ liệu di động (Trang 57)
Hình  30:  Chuẩn  hóa  luỗng  dữ  liệu - Luận văn xây dựng kho dữ liệu và phân tích olap trong hệ thống nghiệp vụ thông minh về kinh doanh viễn thông
nh 30: Chuẩn hóa luỗng dữ liệu (Trang 59)
Bảng  fact  tháng - Luận văn xây dựng kho dữ liệu và phân tích olap trong hệ thống nghiệp vụ thông minh về kinh doanh viễn thông
ng fact tháng (Trang 63)
Bảng  faet|  52  |E MPRE TOT CHARGE DAILY - Luận văn xây dựng kho dữ liệu và phân tích olap trong hệ thống nghiệp vụ thông minh về kinh doanh viễn thông
ng faet| 52 |E MPRE TOT CHARGE DAILY (Trang 65)
Bảng  4:  Một  số  bảng  thiết kế  các  Dimension - Luận văn xây dựng kho dữ liệu và phân tích olap trong hệ thống nghiệp vụ thông minh về kinh doanh viễn thông
ng 4: Một số bảng thiết kế các Dimension (Trang 66)
Hình  33:  Tạo  Transformations  thire  thi - Luận văn xây dựng kho dữ liệu và phân tích olap trong hệ thống nghiệp vụ thông minh về kinh doanh viễn thông
nh 33: Tạo Transformations thire thi (Trang 71)
Hình  35:  Tạo  Transformations  làm  việc  với  nhiễu  nguồn  dữ  liệu  khác  nhau - Luận văn xây dựng kho dữ liệu và phân tích olap trong hệ thống nghiệp vụ thông minh về kinh doanh viễn thông
nh 35: Tạo Transformations làm việc với nhiễu nguồn dữ liệu khác nhau (Trang 72)
Gém  1  bảng  fact  và  nhiều  bảng  dimensions  khác  nhau.  Ở  đây  ví  dụ  về  bảo - Luận văn xây dựng kho dữ liệu và phân tích olap trong hệ thống nghiệp vụ thông minh về kinh doanh viễn thông
m 1 bảng fact và nhiều bảng dimensions khác nhau. Ở đây ví dụ về bảo (Trang 74)
Hình  44:  Dữ  liệu  của  hệ thống  BI  hiện  đại  [6} - Luận văn xây dựng kho dữ liệu và phân tích olap trong hệ thống nghiệp vụ thông minh về kinh doanh viễn thông
nh 44: Dữ liệu của hệ thống BI hiện đại [6} (Trang 82)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm