1. Trang chủ
  2. » Luận Văn - Báo Cáo

Xây dựng kho dữ liệu và phân tích olap trong hệ thống nghiệp vụ thông minh về kinh doanh viễn thông

84 93 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 84
Dung lượng 2,96 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI --- NGUYỄN CHÍ BẢO XÂY DỰNG KHO DỮ LIỆU VÀ PHÂN TÍCH OLAP TRONG HỆ THỐNG NGHIỆP VỤ THÔNG MINH VỀ KINH DOANH VIỄN THÔNG Chuyên ng

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

- NGUYỄN CHÍ BẢO

XÂY DỰNG KHO DỮ LIỆU VÀ PHÂN TÍCH OLAP TRONG HỆ THỐNG

NGHIỆP VỤ THÔNG MINH VỀ KINH DOANH VIỄN THÔNG

Chuyên ngành : Công Nghệ Thông Tin

Trang 3

MỤC LỤC

MỞ ĐẦU 9

1 Lý do chọn đề tài 9

2 Mục đích nghiên cứu luận văn, đối tượng, phạm vi nghiên cứu 11

Chương 1 TỔNG QUAN VỀ BI VÀ DATA WAREHOUSE 13

1.1 Tổng quan về BI 13

1.1.1 Giới thiệu chung về BI 13

1.1.2 Kiến trúc tổng thể của BI 14

1.1.3 Hệ thống BI trên thế giới 15

1.1.4 Tổng quan về Data mining 17

1.2 Kiến trúc tổng thể Data Warehouse 19

1.2.1 Khái niệm Data Warehouse 19

1.2.2 Kiến trúc Data Warehouse 19

1.2.3 Các đặc trưng của kho dữ liệu 22

1.2.4 Các thành phần cơ bản của Data Warehouse 23

1.2.5 Tổng quan về Data Mart 25

Kết chương 26

Chương 2 TỔNG QUAN VỀ OLAP 27

2.1 Định nghĩa OLAP 27

2.2 Mô hình dữ liệu đa chiều 31

2.3 Mô hình thiết kế kho dữ liệu 33

2.4 Các mô hình dữ liệu đa chiều OLAP 35

2.4.1 Mô hình ROLAP 35

2.4.2 Mô hình MOLAP 37

2.4.3 Mô hình HOLAP 38

2.4.4 So sánh các mô hình OLAP 39

2.5 Giới thiệu về Dashboard 40

2.5.1 Khái niệm Dashboard 40

2.5.2 Phân loại Dashboard 42

2.5.3 Một số loại dashboard thông dụng 43

Trang 4

Kết chương 43

Chương 3 ỨNG DỤNG TRONG BÀI TOÁN QUẢN LÝ HỆ THỐNG VIỄN THÔNG 44

3.1 Thực trạng hiện nay của các doanh nghiệp viễn thông 44

3.1.1 Vấn đề tích hợp thông tin di động 44

3.1.2 Các hệ thống hiện tại được doanh nghiệp viễn thông sử dụng 45

3.1.3 Đề xuất giải quyết vấn đề 48

3.2 Đề xuất xây dựng hệ thống mới trong kinh doanh thông minh về lĩnh vực viễn thông 48

3.2.1 Xác định yêu cầu đối với ứng dụng 48

3.2.2 Xác định phạm vi của bài toán 49

3.2.3 Đề xuất xây dựng hệ thống 49

3.3 Phân tích bài toán 52

3.3.1 Mô hình hóa các yêu cầu của bài toán 52

3.3.2 Thiết kế Data Warehouse ứng dụng cho lĩnh vực di động của doanh nghiệp viễn thông 57

3.3.3 Thiết kế một số tính năng phân tích dữ liệu 64

3.3.4 Thiết kế các Cube trong OLAP 66

3.3.5 Ứng dụng vào việc tích hợp dữ liệu 67

3.3.6 Ứng dụng vào việc tạo các báo cáo động 67

Kết chương 67

Chương 4 CÀI ĐẶT VÀ ĐÁNH GIÁ 68

4.1 Cài đặt phần mềm 68

4.1.1 Cấu hình hệ thống 68

4.1.2 Sử dụng hệ thống mã nguồn mở: Module ETL 68

4.1.3 Tạo các báo cáo cáo động 71

4.2 Đánh giá 76

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 77

TÀI LIỆU THAM KHẢO 82

Trang 5

LỜI CAM ĐOAN

Tôi xin cam đoan: Luận văn thạc sĩ Công Nghệ Thông Tin với đề tài “XÂY

DỰNG KHO DỮ LIỆU VÀ PHÂN TÍCH OLAP TRONG HỆ THỐNG NGHIỆP VỤ THÔNG MINH VỀ KINH DOANH VIỄN THÔNG” là công trình

nghiên cứu thật sự của cá nhân, được thực hiện bằng sự tìm tòi, học hỏi và kinh nghiệm cá nhân trong lĩnh vực kinh doanh thông minh của doanh nghiệp viễn thông, dưới sự hướng dẫn của PGS.TS Cao Tuấn Dũng

Tôi xin chịu trách nhiệm về lời cam đoan này./

Hà Nội, ngày tháng 04 năm 2018

Tác giả

Nguyễn Chí Bảo

Trang 6

LỜI CẢM ƠN

Lời đầu tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới PGS.TS Cao Tuấn Dũng, người đã tận tình hướng dẫn và chỉ bảo tôi trong suốt quá trình thực hiện luận văn cao học Tôi chân thành cảm ơn các thầy, cô trong trường Đại học Bách Khoa Hà Nội đã cho tôi một môi trường rất tốt để học tập và nghiên cứu Các thầy cô đã giảng dạy và cho tôi những kiến thức quý báu, làm nền tảng để tôi hoàn thành luận văn cũng như công việc trong tương lai Tôi cũng xin gửi lời tri ân tới các anh, chị, bạn học viên 2015B đã luôn bên cạnh, ủng hộ và giúp đỡ tôi trong suốt quá trình học tập tại trường Cuối cùng, tôi muốn gửi lời cảm ơn vô hạn tới gia đình và bạn bè – những người thân yêu luôn ở bên, khuyến khích và động viên tôi trong cuộc sống cũng như trong học tập

Tôi xin chân thành cảm ơn

Hà nội, tháng 4 năm 2018

Học viên

Nguyễn Chí Bảo

Trang 7

DANH MỤC CHỮ VIẾT TẮT

BI Business Intelligence

BTS Base transceiver station

CNTT Công nghệ thông tin

MOLAP Multi dimensional OLAP

OLAP Online Analytical Processing OLTP Online transaction processing ROLAP Relational OLAP

Trang 8

DANH MỤC CÁC HÌNH

Hình 1: Kiến trúc tổng thể BI 14 Hình 2: Các câu hỏi dành cho BI 15 Hình 3: Hệ thống BI trên thế giới 16 Hình 4: Các lĩnh vực liên quan đến Data Mining 18 Hình 5: Kiến trúc tổng thể Data warehouse cơ bản 20 Hình 6: Kiến trúc tổng thể Data warehouse với vùng gắn nhãn

Hình 7: Kiến trúc tổng thể Data warehouse với vùng gắn nhãn

(Staging Area) và kho chủ đề (Data Marts) 21 Hình 8: Các thành phần cơ bản của Data warehouse 23 Hình 9: Bộ công cụ kết xuất, chuyển đổi và tích hợp dữ liệu 24 Hình 10: Các tính năng của OLAP 28

Hình 16: Một cube 3 chiều hiển thị dữ liệu số lượng bán hàng với 3

chiều địa điểm (cities), Thời gian (Time), Sản phẩm (Product) và chỉ

tiêu Doanh số (amount)

32

Hình 17: Lược đồ hình sao 33 Hình 18: Lược đồ hình bông tuyết 34 Hình 19: Lược đồ chòm sao 34 Hình 20: ROLAP Model 36 Hình 21: MOLAP model 37

Hình 23: Minh họa Dashboard 40

Trang 9

Hình 24: Hiển thị Dashboard tại một mình hình duy nhất 41 Hình 25: Mô hình toàn cầu tập trung của Viettel trong giai đoạn

Hình 26: Đề xuất mô hình triển khai VT BI 50 Hình 27: Kiến trúc tổng thể hệ thống VT BI 51 Hình 28: Tổng quan về quy trình lấy và phân tích dữ liệu di động 55

Hình 29: Tổng quan luồng dữ liệu của cả hệ thống 56 Hình 30: Chuẩn hóa luồng dữ liệu 57 Hình 31: Tạo cubes báo cáo chi tiết theo ngày 66 Hình 32: Tạo JOB thực thi 68 Hình 33: Tạo Transformations thực thi 69 Hình 34: Tạo JOB xử lý nhiều Transformations 70 Hình 35: Tạo Transformations làm việc với nhiều nguồn dữ liệu

Hình 36: Tạo kết nối tới data warehouse của Saiku 71 Hình 37: Tạo cube về tổng hợp tiêu dùng 72 Hình 38: Sửa đổi lại cách hiển thị của các độ đo giá trị 73 Hình 39: Tạo báo cáo Analytics 73 Hình 40: Roll-up từ ngày đến tháng 74 Hình 41: Drill-down từ năm đến tháng 74 Hình 42: Biểu đồ dạng dashboard 75 Hình 43: So sánh hệ thống BI truyền thống và BI hiện đại 79 Hình 44: Dữ liệu của hệ thống BI hiện đại 80

Trang 10

DANH MỤC CÁC BẢNG

Bảng 1: So sánh các mô hình OLAP 39 Bảng 2: Khảo sát, phân tích việc nhận dữ liệu của doanh nghiệp viễn thông 55 Bảng 3: Danh sách bảng trong data warehouse 63 Bảng 4: Môt số bảng thiết kế các Dimension 64 Bảng 5: Bảng fact chi tiết cước gọi 65 Bảng 6: Kết quả thực nghiệm ETL 71 Bảng 7: Kết quả thực nghiệm tạo báo cáo OLAP 76

Trang 11

MỞ ĐẦU

1 Lý do chọn đề tài

Trong những năm vừa qua, thị trường viễn thông Việt Nam đã có những bước chuyển biến mạnh mẽ Cùng với việc phát triển mạng lưới viễn thông, mở rộng phạm vi phục vụ tới tận những vùng sâu, vùng xa, vùng núi hay hải đảo xa xôi của

tổ quốc, đặc biệt còn vươn ra thị trường nước ngoài, với nhiều loại hình dịch vụ phong phú thì chất lượng thông tin cũng ngày càng được nâng cao, nhanh chóng đáp ứng nhu cầu ngày càng cao của xã hội Với sự phát triển nhanh chóng cả về số lượng cũng như chất lượng, các doanh nghiệp viễn thông hiện nay đang phải đối mặt với việc điều hành và lưu trữ một khối lượng dữ liệu khổng lồ gồm hàng tỷ bản tin chi tiết cước, thông tin của hàng trăm triệu khách hàng với rất nhiều dịch vụ của các nhà mạng đang ngày một đa dạng và phát triển nhanh chóng Trước một khối lượng thông tin khổng lồ theo lịch sử thời gian như vậy, các doanh nghiệp viễn thông phải biết khai thác, phân tích, chọn lọc các thông tin có giá trị từ đó có thể cung cấp các dịch vụ tốt hơn, làm hài lòng khách hàng và đồng thời tăng khả năng cạnh tranh trên thị trường viễn thông vốn vô cùng khốc liệt Từ đó, yêu cầu đặt ra là cần phải xây dựng được một kho dữ liệu tập trung về di động nhằm hỗ trợ phân tích kinh doanh và hỗ trợ lãnh đạo ra quyết định

Việc chuyển từ cơ chế kinh doanh độc quyền sang kinh doanh trong thị trường

có sự tham gia cạnh tranh của nhiều nhà cung cấp đã làm thay đổi diện mạo ngành Viễn thông Việt Nam Tuy nhiên, sau một thời gian phát triển rầm rộ ở tất cả các loại hình dịch vụ, từ cố định, di động, nhắn tin, các dịch vụ internet, … đến nay thị trường viễn thông đang bước sang giai đoạn bão hòa Đặc biệt với việc chính sách mới “Chuyển mạng giữ số” cùng với việc hạn chế khuyến mại nạp thẻ cho thuê bao trả trước thì việc giữ chân khách hàng và hướng khách hàng sử dụng các dịch vụ của nhà mạng là một bài toán tiên quyết cần phải đối mặt trực tiếp của bất kỳ công

ty viễn thông nào Tình hình này đòi hỏi các doanh nghiệp muốn có được sự bứt phá so với các đối thủ thì phải xây dựng được chiến lược kinh doanh khác biệt, hiệu quả, trong đó chăm sóc khách hàng (CSKH) tốt hay chưa tốt có thể tạo nên hay phá

Trang 12

vỡ những kỳ vọng vào hiệu quả kinh doanh của doanh nghiệp Vì vậy, việc hoàn thiện công tác quản lý và CSKH đã và đang trở thành một vấn đề ngày càng được các doanh nghiệp quan tâm, chú trọng

Trong ngành viễn thông có rất nhiều hệ thống phục vụ dịch vụ viễn thông khác nhau (trả trước, trả sau, bán hàng, VAS, …), các hệ thống phục vụ trong quản

lý viễn thông có thể sử dụng các hệ cơ sở dữ liệu khác nhau (Excel, Oracle, SQL Server, MS ACCESS ) Vì vậy phải có một giải pháp có thể đủ đáp ứng về thực hiện báo cáo một cách tổng thể, có khả năng giúp cho người quản trị có thể phân tích hành vi khách hàng từ nhiều nguồn dữ liệu khác nhau

Một trong những giải pháp đó là trí tuệ thông minh doanh nghiệp (Business Intelligence-BI), giải pháp chuyển đổi dữ liệu thô thành những thông tin có ý nghĩa

hỗ trợ cho người quản lý trong phân tích tình hình kinh doanh của doanh nghiệp Với khả năng đưa cái nhìn toàn cảnh nhất về tất cả các hoạt động của khách hàng và tình trạng của doanh nghiệp, BI kiểm soát nhanh chóng và đưa ra chính sách phù hợp các xu hướng tương lai Từ đó, giúp người quản lý đưa ra các chính sách sao cho phù hợp với từng giai đoạn, thời kỳ, địa lý, … đáp ứng tình hình kinh doanh của doanh nghiệp

Chính vì lý do trên tác giả lựa chọn đề tài “XÂY DỰNG KHO DỮ LIỆU VÀ

PHÂN TÍCH OLAP TRONG HỆ THỐNG NGHIỆP VỤ THÔNG MINH VỀ KINH DOANH VIỄN THÔNG” nhằm áp dụng các kĩ thuật tổng hợp dữ liệu từ

các hệ thống nghiệp vụ khác nhau vào kho dữ liệu của doanh nghiệp viễn thông Từ kho dữ liệu tổng hợp, sử dụng kĩ thuật phân tích OLAP (Online Analytical Processing) để phục vụ báo cáo trong kinh doanh thông minh (Business Intelligence-BI) Từ các báo cáo kinh doanh giúp cho người quản trị doanh nghiệp

có cái nhìn toàn cảnh nhất, giúp ích đưa ra các chính sách phù hợp với tình hình kinh doanh của doanh nghiệp

Trang 13

2 Mục đích nghiên cứu luận văn, đối tượng, phạm vi nghiên cứu

❖ Mục đích nghiên cứu

Luận văn này nhằm đề xuất giải pháp tích hợp dữ liệu từ các hệ thống nghiệp

vụ khác nhau trong lĩnh vực viễn thông Từ đó xây dựng kho dữ liệu (Data warehouse) nhằm đáp ứng nhu cầu phục vụ báo cáo, phân tích, hỗ trợ quyết định trong kinh doanh viễn thông Đồng thời đáp ứng khả năng tạo các báo cáo động phù hợp với từng kế hoạch kinh doanh theo từng giai đoạn của doanh nghiệp Cụ thể luận văn tìm hiểu về:

➢ Lý thuyết tổng quan Business Intelligence (BI)

➢ Lý thuyết tổng quan về Data Warehouse (DW)

➢ Lý thuyết về OLAP

➢ Đề xuất phương pháp tích hợp dữ liệu từ các nguồn dữ liệu nghiệp vụ khác nhau trong lĩnh vực viễn thông, xây dựng kho dữ liệu data warehouse phục

vụ cho việc phân tích OLAP (Online Analytical Processing)

➢ Thử nghiệm công cụ tổng hợp dữ liệu ETL của Pentaho và phân tích OLAP của Saiku

❖ Đối tượng nghiên cứu:

➢ Dữ liệu nghiệp vụ của các hệ thống khác nhau trong viễn thông: hệ thống BCCS (hệ thống tính cước), dữ liệu thô CDR của các trạm BTS,

➢ CDR của các dịch vụ thoại, SMS, VAS

❖ Phạm vi nghiên cứu:

➢ Nghiên cứu lý thuyết về BI và Data warehouse

➢ Nghiên cứu xây dựng kho dữ liệu lưu trữ thông tin trong lĩnh vực viễn thông

➢ Nghiên cứu sử dụng công cụ ETL để tích hợp các nguồn dữ liệu từ các hệ thống và định dạng dữ liệu khác nhau

➢ Nghiên cứu kỹ thuật phân tích OLAP

Trang 14

3 Tóm tắt nội dung chính

Luận văn gồm phần mở đầu, 4 chương chính và cuối cùng là phần kết luận và hướng phát triển, cụ thể:

Phần mở đầu

Chương 1: Tổng quan về BI và Data Warehouse

Chương này, tác giả sẽ trình bày một cách tổng quan về khái niệm BI và Data warehouse, trong đó đề cập đến kiến trúc tổng thể của BI và Data warehouse

Chương 2: Tổng quan về OLAP

Chương này, tác giả sẽ trình bày một cách tổng quan về OLAP, trong đó bao gồm định nghĩa về OLAP, các tính năng cơ bản của OLAP Tiếp theo, tác giả trình bày mô hình dữ liệu đa chiều và mô hình thiết kế kho dữ liệu đa chiều Cuối chương tác giả sẽ trình bày về khái niệm Dashboard

Chương 3: Ứng dụng trong bài toán quản lý hệ thống viễn thông

Chương này, tác giả sẽ trình bày thực trạng của các doanh nghiệp viễn thông hiện nay Từ đó, tác giả đưa ra các ưu điểm, nhược điểm về thực trạng của các doanh nghiệp viễn thông hiện tại, tiếp theo tác giả đưa ra giải pháp cá nhân để bổ sung các ưu điểm cũng như hạn chế các nhược điểm hiện tại

Chương 4: Cài đặt và đánh giá

Chương này, tác giả trình bày phần sử dụng các open source để làm ví dụ minh họa cho giải pháp đưa ra

Kết luận và hướng phát triển

Trang 15

Chương 1 TỔNG QUAN VỀ BI VÀ DATA WAREHOUSE

Mở chương

Chương này luận văn tập trung vào việc nghiên cứu các khái niệm, vai trò và các kiến trúc, mô hình triển khai BI đã đem lại hiệu quả cho doanh nghiệp ứng dụng, đồng thời luận văn tập trung vào các mô hình và nguyên tắc xây dựng Data warehouse và một số giải pháp tích hợp, xây dựng ứng dụng kho dữ liệu Data warehouse nhằm phục vụ tập trung dữ liệu của các hệ thống theo lịch sử thời gian dùng trong việc tập hợp, phân tích dữ liệu và báo cáo hỗ trợ các quyết định trong kinh doanh cho doanh nghiệp viễn thông

1.1 Tổng quan về BI

Hiện nay, khái niệm BI ở Việt Nam còn khá mới mẻ và chưa có định nghĩa thống nhất Phần này sẽ trình bày cơ bản chung về BI và kiến trúc tổng thể của BI

Hệ thống cơ bản của BI trên thế giới Cuối cùng là trình bày sơ qua về Data Mining

1.1.1 Giới thiệu chung về BI

Business Intelligence (BI) bao gồm các kỹ năng, quy trình, chiến lược và công nghệ được sử dụng để biến dữ liệu thành thông tin, phân tích dữ liệu thông tin kinh doanh để hỗ trợ ra quyết định Business Intelligence bao gồm data warehosing, các công cụ phân tích và nội dung tri thức quản lý [2]

Từ đó có thể thấy, Business Intelligence (BI) cung cấp quan điểm lịch sử, hiện tại và tiên đoán về hoạt động kinh doanh tương lai Các chức năng phổ biến của công nghệ thông minh kinh doanh bao gồm báo cáo, xử lý phân tích trực tuyến, phân tích, khai thác dữ liệu, khai thác quá trình, xử lý sự kiện phức tạp, quản lý hiệu suất kinh doanh, đo điểm chuẩn, khai thác văn bản, phân tích tiên đoán và phân tích theo quy định

Business Intelligence (BI) có thể xử lý một lượng lớn dữ liệu được cấu trúc và đôi khi không có cấu trúc để giúp xác định, phát triển và nếu không tạo ra các cơ hội kinh doanh chiến lược mới Business Intelligence (BI) nhằm mục đích cho phép làm việc dễ dàng những dữ liệu lớn này Xác định các cơ hội mới và thực hiện một chiến lược hiệu quả dựa trên những hiểu biết sâu sắc có thể cung cấp cho các doanh

Trang 16

nghiệp lợi thế cạnh tranh về thị trường và sự ổn định lâu dài [3] Doanh nghiệp của bạn có thể thu được những lợi ích to lớn khi quyết định mua và triển khai một Giải pháp quản trị doanh nghiệp thông minh Có thể kể ra:

➢ Cải thiện khả năng truy cập và tích hợp các dữ liệu sản xuất kinh doanh từ nhiều nguồn riêng biệt

➢ Có được cái nhìn toàn cảnh tất cả các hoạt động trong doanh nghiệp

➢ Chia sẻ thông tin nhanh chóng trên quy mô toàn doanh nghiệp

➢ Kiểm soát nhanh hơn và chính xác hơn các xu hướng có tác động tích cực cũng như tiêu cực đến hoạt động sản xuất kinh doanh

Trang 17

➢ Data Analyst - Data Mining (Khai phá dữ liệu): Các kỹ thuật dùng để khai

phá dữ liệu và phát hiện tri thức như phân loại (Classification), phân nhóm

(Clustering), phát hiện luật kết hợp (Association Rule), dự đoán

(Prediction), …

➢ Business Analyst (Phân tích kinh Doanh): Các nhà lãnh đạo doanh nghiệp

đưa ra những quyết định chiến lược đối với hoạt động kinh doanh của

doanh nghiệp

1.1.3 Hệ thống BI trên thế giới

Business Intelligence hiện được coi là giải pháp hỗ trợ kinh doanh đang được

nhiều doanh nghiệp ưu tiên áp dụng

Nền tảng của hệ thống BI dựa vào công nghệ Data Warehousing (DW - Cơ sở

dữ liệu thống nhất và tập trung)

Nhờ vào quá trình thu thập, tổng hợp và phân tích thông tin, BI cho phép

doanh nghiệp có thể:

➢ Phát hiện sớm những vấn đề trong kinh doanh

➢ Khai thác tối ưu các cơ hội

➢ Đưa ra các quyết định, chiến lược phù hợp, tạo lợi thế trước các đối thủ

cạnh tranh

Hình 2: Các câu hỏi dành cho BI

Formatted: Justified, Indent: First line: 0"

Trang 18

Tính thông minh của hệ thống ở chỗ nó có thể trả lời ngay lập tức hầu hết các

câu hỏi liên quan đến hoạt động của doanh nghiệp, doanh thu, hành vi tiêu dùng của

khách hàng mà không cần phải có sự hỗ trợ của các bộ phận nghiệp vụ và phòng

➢ Level 2: Hệ thống Analysis: là hệ thống phân tích thông qua các báo cáo

động OLAP, phân tích các số liệu đa chiều

➢ Level 3: Hệ thống Monitoring: là hệ thống điều hành các hoạt động đang

diễn ra của doanh nghiệp thông qua các báo cáo Dashboards, Scorecards và

các báo cáo KPIs

➢ Level 4: Hệ thống Prediction: hệ thống dự đoán dựa vào kỹ thuật Data

Mining

Formatted: Centered

Trang 19

1.1.4 Tổng quan về Data mining

1.1.4.1 Khái niệm Data mining

Data Mining (Knowledge discovery in databases) là quá trình tính toán để

tìm ra các mẫu trong các bộ dữ liệu lớn liên quan đến các phương pháp tại giao điểm của máy học, thống kê và các hệ thống cơ sở dữ liệu Mục tiêu tổng thể của quá trình khai thác dữ liệu là trích xuất thông tin từ một bộ dữ liệu và chuyển nó thành một cấu trúc dễ hiểu để sử dụng tiếp Ngoài bước phân tích thô, nó còn liên quan tới cơ sở dữ liệu và các khía cạnh quản lý dữ liệu, xử lý dữ liệu trước, suy xét

mô hình và suy luận thống kê, các thước đo thú vị, các cân nhắc phức tạp, xuất kết quả về các cấu trúc được phát hiện, hiện hình hóa và cập nhật trực tuyến Khai thác

dữ liệu là bước phân tích của quá trình "khám phá kiến thức trong cơ sở dữ liệu"

[9]

Data Mining được hiểu như sau: Data Mining là quá trình khai phá, trích xuất, khai thác và sử dụng những dữ liệu có giá trị tiềm ẩn từ bên trong lượng lớn dữ liệu được lưu trữ trong các cơ sở dữ liệu (CSDL), kho dữ liệu, trung tâm dữ liệu, … lớn hơn là Big Data dựa trên kĩ thuật như mạng neural, lý thuyết tập thô, tập mờ, biểu diễn tri thức, … Đây là một công đoạn trong hoạt động “làm sạch” dữ liệu Quá

trình chọn lọc dữ liệu của Data Mining dựa trên các phương pháp: Phân loại

(Classification), Phân nhóm (Clustering), Tổng hợp (Summarization), Mô hình ràng buộc (Dependency modeling), Hồi quy (Regression), Dò tìm biến đổi và độ lệch (Change and Deviation Detection)

Data Mining nhấn mạnh 2 khía cạnh chính đó là khả năng trích xuất thông tin

có ích Tự động (Automated) và thông tin mang tính dự đoán (Predictive)

Data Mining liên quan chặt chẽ đến các lĩnh vực sau:

➢ Statistics (Thống kê): Kiểm định model và đánh giá tri thức phát hiện được

➢ Machine Learning (Máy học): Nghiên cứu xây dựng các giải thuật trên nền tảng của trí tuệ nhân tạo giúp cho máy tính có thể suy luận (dự đoán) kết quả tương lai thông qua quá trình huấn luyện (học) từ dữ liệu lịch sử

➢ Databases (Cơ sở dữ liệu): Công nghệ quản trị dữ liệu nhất là kho dữ liệu

Trang 20

➢ Visualization (Trực quan hóa): Giúp dữ liệu dễ hiểu, dễ sử dụng như chart, map

Hình 4: Các lĩnh vực liên quan đến Data Mining

1.1.4.2 Nhiệm vụ của Data Mining

Nhiệm vụ của data mining có thể phân thành 2 loại chính đó là dự đoán

(Predictive) và mô tả (Descriptive)

Predictive: Dùng dữ liệu lịch sử để dự đoán tương lai Các thuật toán thường được

áp dụng:

➢ Classification: Phân lớp

➢ Regression: Hồi quy

➢ Deviation Detection: Phát hiện độ lệch

Descriptive: Mô hình hóa từ các dữ liệu sẵn có Các thuật toán thường dùng:

➢ Clustering: Phân cụm

➢ Association Rule Discovery: Phát hiện luật kết hợp

➢ Sequential Pattern Discovery: Phát hiện mẫu tuần tự

Dưới đây là một số thuật toán phổ biến được dùng trong Data Mining

➢ Decision tree: Cây quyết định (Classification Task)

➢ Nearest Neighbor: Láng giềng gần nhất (Classification Task)

➢ Neural Network: Mạng Neural (Classification and Clustering Task)

➢ Rule Induction: Luật quy nạp (Classification Task)

➢ K-Means: Thuật toán K-Means (Clustering Task)

Trang 21

1.2 Kiến trúc tổng thể Data Warehouse

Trong phần này luận văn sẽ trình bày nội dung cơ bản về khái niệm Data Warehouses, các kiến trúc cơ bản của Data warehouse, tiếp theo sẽ trình bày các đặc trưng của kho dữ liệu và các thành phần cơ bản của một data warehouse, cuối cùng trình bày sơ lược về Data mart

1.2.1 Khái niệm Data Warehouse

Data warehouse (kho dữ liệu) chính là hệ quản trị cơ sở dữ liệu, chuyên dùng cho tạo báo cáo và phân tích dữ liệu Nó vừa hỗ trợ các truy vấn phức tạp, vừa là điểm tập trung dữ liệu từ nhiều nguồn khác nhau để có được thông tin phân tích đầy

đủ nhất Data warehouse là tập hợp dữ liệu tương đối ổn định, không hay thay đổi, cập nhật theo thời gian, được tích hợp theo hướng chủ đề nhằm hỗ trợ quá trình tạo quyết định về mặt quản lý [11]

Theo đó, kho dữ liệu là một tập hợp dữ liệu hướng chủ đề, toàn vẹn, không bị

rò rỉ mất mát và có giá trị lịch sử Cụ thể các tính chất đó như sau:

Một data warehouse điển hình sẽ:

➢ Chứa 1 số lượng lớn dữ liệu có liên quan tới các giao dịch trong quá khứ

➢ Được tối ưu hóa cho các thao tác đọc trong các yêu cầu truy vấn dữ liệu Điều này đối lập với các cơ sở dữ liệu trong các hệ thống xử lý tác vụ (OLTP) được thiết kế để hỗ trợ cả các thao tác thêm, xóa, sửa dữ liệu luôn

➢ Được nạp các dữ liệu mới hoặc dữ liệu được cập nhật 1 cách định kỳ với nhiều nguồn dữ liệu khác nhau

➢ Là nguồn dữ liệu cơ bản cho các ứng dụng BI mức doanh nghiệp

1.2.2 Kiến trúc Data Warehouse

Theo Database Data Warehousing Guide hiện nay có 3 kiến trúc của Data warehouse như sau:

➢ Kiến trúc kho dữ liệu: Cơ bản

➢ Kiến trúc kho dữ liệu: với vùng gắn nhãn (Staging Area)

➢ Kiến trúc kho dữ liệu: với vùng gắn nhãn (Staging Area) và kho chủ đề (Data Marts)

Trang 22

❖ Kiến trúc kho dữ liệu: Cơ bản

Hình 5: Kiến trúc tổng thể Data warehouse cơ bản [4]

Kiến trúc đơn giản của hệ thống Data Warehouse gồm 3 phần:

➢ Data Source: Là nơi dữ liệu từ nhiều nguồn khác nhau được thu thập

➢ Warehouse: Nơi lưu trữ dữ liệu đã được xử lý, gồm Metadata, Raw Data

và Summary Data

➢ User: Gồm các hệ thống phân tích, báo cáo và Mining

Đây là một kiến trúc đơn giản với phần ETL (extraction, transformation, and loading) đã bị lược bỏ, người dùng cuối truy xuất dữ liệu trực tiếp từ các hệ thống

xử lý nghiệp vụ thông qua data warehouse

❖ Kiến trúc kho dữ liệu: với vùng gắn nhãn (Staging Area)

Hình 6: Kiến trúc tổng thể Data warehouse với vùng gắn nhãn (Staging Area)

[4]

Trang 23

Tại kiến trúc với vùng gán nhãn, các thành phần cơ bản giống với kiến trúc cơ bản trên, nhưng có thêm bước chuyển dạng và tích hợp dữ liệu Dữ liệu trước khi đưa vào Data Warehouse, được tập hợp từ nhiều nguồn, chuyển đổi dạng và lưu trữ tại bước Staging Area, người dùng cuối truy xuất dữ liệu trực tiếp từ các hệ thống

xử lý nghiệp vụ thông qua Data Warehouse

❖ Kiến trúc kho dữ liệu: với vùng gắn nhãn (Staging Area) và kho chủ đề (Data

Marts)

Hình 7: Kiến trúc tổng thể Data warehouse với vùng gắn nhãn (Staging Area)

và kho chủ đề (Data Marts) [4]

Mặc dù kiến trúc như trên Hình 6 khá phổ biến, bạn có thể tùy chỉnh kiến trúc của kho cho các nhóm khác nhau trong tổ chức của bạn Bạn có thể thực hiện điều này bằng cách thêm các kho chủ đề (Data Marts), đó là các hệ thống được thiết kế cho một ngành kinh doanh cụ thể

Kiến trúc vùng gắn nhãn và kho chủ đề ở Hình 7 bổ sung thêm bước ETL, giúp phân Warehouse ra thành các chủ đề nhỏ hơn (Data mart) Hình 7 minh họa một ví dụ về việc mua, bán và tồn kho được tách riêng biệt Trong ví dụ này, một nhà phân tích tài chính có thể muốn phân tích dữ liệu lịch sử cho việc mua bán và thu thập dữ liệu lịch sử để đưa ra dự đoán về hành vi của khách hàng

Trang 24

1.2.3 Các đặc trưng của kho dữ liệu

➢ Tính hướng chủ đề (Subject - oriented):

Data warehouse được thiết kế dữ liệu tập trung vào việc phân tích các yêu cầu quản lý ở nhiều cấp độ khác nhau trong quy trình ra quyết định Các yêu cầu phân tích này thường rất cụ thể, và xoay quanh loại hình kinh doanh của doanh nghiệp

Ví dụ các công ty phân phối sẽ quan tâm đến tình hình kinh doanh, doanh nghiệp viễn thông quan tâm đến lưu lượng dịch vụ, … tuy nhiên một doanh nghiệp thường quan tâm đến vài chủ đề khác nhau, như công ty phân phối còn phải quan tâm đến kho bãi, chuỗi cung ứng, …

Trang 25

➢ Gắn với thời gian:

Mỗi bản ghi của kho dữ liệu chứa một yếu tố thời gian như một phần của khóa chính để bảo đảm tính duy nhất của mỗi bản ghi và cung cấp một đặc trưng về thời gian cho dữ liệu Toàn bộ dữ liệu trong kho được tạo ra và gắn liền với một giá trị thời gian nhất định

➢ Dữ liệu tổng hợp và chi tiết:

Dữ liệu chi tiết là thông tin mức thấp nhất được lưu trữ trong kho dữ liệu Dữ liệu tác nghiệp chính là thông tin mức thấp nhất Dữ liệu tổng hợp được tích hợp lại qua nhiều giai đoạn khác nhau

➢ Tính lịch sử:

Các thông tin trong kho dữ liệu được tập trung theo thời gian và thể hiện một khung nhìn của một chủ đề trong một giai đoạn

1.2.4 Các thành phần cơ bản của Data Warehouse

Data Warehouse là một cơ sở dữ liệu quan hệ được xây dựng cho mục đích truy vấn và phân tích dữ liệu mang tính lịch sử, nó không phải là loại cơ sở dữ liệu giao dịch (OLTP)

Hình 8: Các thành phần cơ bản của Data warehouse [4]

Trang 26

Một hệ thống data warehouse về mặt logic được cho là có 4 thành phần:

1 Nguồn dữ liệu (Operational Source Systems): Dữ liệu nguồn trong trường hợp

điển hình bao gồm nhiều loại khác nhau:

➢ Các dữ liệu từ các hệ thống tác nghiệp (như hệ thống CRM, ERP, ): các dữ liệu chi tiết nhận được từ các hoạt động nghiệp vụ hàng ngày

➢ Các dữ liệu kế thừa: các dữ liệu cũ không dùng cho hoạt động hàng ngày, các phương pháp tổ chức dữ liệu khác với mô hình hiện hành, các dữ liệu được mã hóa khi đã qua sử dụng và các thông tin đầy đủ về cấu trúc và ngữ nghĩa của dữ liệu kế thừa

➢ Các dữ liệu bên trong khác

➢ Các nguồn dữ liệu được lấy từ bên ngoài

2 Khu vực xử lý (Staging Area): Bao gồm các công cụ xử lý dữ liệu, các quá trình

chuyển đổi dữ liệu trước khi được đưa sang khu vực trình bày Trong khu vực này

dữ liệu sẽ được làm sạch (cleanse), chuyển đổi (convert), chuẩn hóa (conform) Khác với cơ sở dữ liệu giao dịch thông thường, Data Warehouse được bổ sung thêm: bộ công cụ kết xuất, chuyển đổi và tích hợp dữ liệu (Extraction, Transformation, Loading – ETL)

Hình 9: Bộ công cụ kết xuất, chuyển đổi và tích hợp dữ liệu [11]

3 Khu vực trình bày (Data Presentation Area): Đây chính là data warehouse

database Hiện tại, phần lớn các data warehouse database đều là relational database bởi đây là loại cơ sở dữ liệu thông dụng nhất hiện nay trên thị trường Dữ liệu trong

Trang 27

relational database được tổ chức theo dạng hình sao (star schema), về cơ bản tức là

mô phỏng tính đa chiều trong relational database Data warehouse database có thể được tổ chức dưới dạng cube, tức là đa chiều theo đúng nghĩa và theo các chủ đề (data mart) để phục vụ dữ liệu cho quá trình Data mining Cho dù được lưu trữ theo kiểu gì, nguyên tắc thiết kế đa chiều là giống nhau giữa 2 loại database

4 Công cụ truy cập dữ liệu (Data Access Tools): Kho dữ liệu cho phép người

dùng ở mức quản lý, ra quyết định thực hiện các phép phân tích tương tác với data bằng hệ thống xử lý phân tích trực tuyến (online analytical processing - OLAP) Ngoài ra kho dữ liệu cũng được dùng cho báo cáo, data mining và phân tích thống

kê Database và kho dữ liệu, do đó chỉ khác nhau về mặt khái niệm, một cơ sở dữ liệu nếu dùng riêng cho các mục đích trên cũng được coi là kho dữ liệu

1.2.5 Tổng quan về Data Mart

1.2.5.1 Giới thiệu Data Mart

Data Mart là một dạng thu nhỏ của kho dữ liệu, nếu kho dữ liệu mô tả thông tin của một tổ chức thương mại thì Data Mart mô tả thông tin cho từng phòng ban của tổ chức đó (phòng kinh doanh, phòng nhân sự, …)

1.2.5.2 Các kiểu Data Mart

➢ Data mart phụ thuộc (Dependent Data Mart): Chứa những dữ liệu được lấy từ

DW và những dữ liệu này sẽ được trích lọc và tinh chế, tích hợp lại ở mức cao hơn để phục vụ một chủ đề nhất định của Data Mart

➢ Data mart độc lập (Independent Data Marts): Không giống như Data Mart phụ thuộc, Data mart độc lập được xây dựng trước DW và dữ liệu được trực tiếp lấy từ các nguồn khác nhau

➢ Data Mart lai (Hybrid Data Mart): Một Data Mart lai cho phép kết hợp các đầu vào từ các nguồn khác hơn so với một kho dữ liệu duy nhất Điều này có thể hữu ích trong nhiều tình huống, đặc biệt là khi cần tích hợp đặc biệt, chẳng hạn như sau khi một nhóm mới hoặc sản phẩm được bổ sung

Trang 28

Kết chương

Trong chương này, tác giả đã giới thiệu tổng quan về về hệ thống BI và kiến trúc tổng thể của kho dữ liệu Data warehouse Các loại kiến trúc Data warehouse hiện đang sử dụng Phần này tập trung vào việc giới thiệu các đặc trưng của kho dữ liệu, các thành phần cơ bản trong kho dữ liệu Data warehouse Chương sau sẽ đề cập đến việc xử lý phân tích trực tuyến OLAP, để thể hiện được những khả năng phân tích thông tin thì tập trung nghiên cứu các phương pháp xử lý đa chiều OLAP dùng trong phân tích dữ liệu trong kho dữ liệu Data warehouse

Trang 29

Chương 2 TỔNG QUAN VỀ OLAP

Mở chương

Nội dung của chương là tìm hiểu về khái niệm OLAP, khái niệm về mô hình

dữ liệu đa chiều, và mô hình thiết kế kho dữ liệu để ứng dụng OLAP Tiếp theo trình bày về các mô hình dữ liệu đa chiều Cuối cùng là giới thiệu sơ qua về Dashboard

2.1 Định nghĩa OLAP

OLAP (Online Analytical Processing) là một thành phần quan trọng trong hệ

hỗ trợ ra quyết định, giúp các nhà quản lý có cái nhìn đa chiều, trên nhiều khía cạnh của một vấn đề với lượng dữ liệu lớn, từ đó đưa ra các quyết định chính xác và kịp thời, nâng cao lợi thế cạnh tranh cho doanh nghiệp OLAP là một công nghệ cho phép người sử dụng dễ dàng và linh động trong việc kết xuất và xem dữ liệu đa chiều, từ nhiều góc độ khác nhau [14]

Ứng dụng kỹ thuật OLAP được dùng vào việc hỗ trợ ra quyết định cho các nhà quản lý và hoạch định cho công việc trong tương lai của doanh nghiệp Nó là công cụ trả lời các truy vấn phân tích đa chiều một cách nhanh chóng, cung cấp giao diện đồ họa thân thiện với người dùng, và những gì người dùng cần làm là kéo và thả các dimension và measures bằng chuột, sau đó các dữ liệu truy vấn sẽ được hiển thị trên giao diện

OLAP cho phép người dùng quan sát dữ liệu trên nhiều phương diện khác nhau, ở các mức độ chi tiết khác nhau OLAP cung cấp một số tính năng cho phép thực hiện điều đó, cụ thể:

Trang 30

Hình 10: Các tính năng của OLAP [14]

Trang 31

-Tính năng nhìn xa (roll-up)

Hình 11: Roll-up [14]

Biến tiêu chí từ mức chi tiết sang mức tổng hợp để hiển thị cho người dùng, được thực hiện khi đi từ mức thấp lên mức cao trong cây phân cấp hoặc giảm số cắt lớp xuống Hình 11 là ví dụ cho tính năng nhìn xa này khi cắt lớp Thị trường chuyển từ mức thành phố lên mức quốc gia, giá trị các lớp cắt thành phố của một quốc gia được cộng dồn vào thành giá trị kết quả

- Tính năng đào sâu (drill-down)

Hình 12: Drill-down [14]

Trang 32

Drill-down thực hiện ngược lại với nhìn xa, tức là đi từ mức tổng hợp cao đến mức chi tiết hơn Ví dụ như trong hình 12, cắt lớp Thời gian đi từ mức quý xuống mức các tháng trong quý

- Tính năng đảo chiều (pivot hoặc rotate)

Hình 13: Pivot [14]

Với tính năng đảo chiều biến hàng thành cột, cột thành hàng giúp cung cấp cho người dùng một cách thể hiện dữ liệu khác Ví dụ: Hình 13 chuyển dữ liệu các sản phẩm từ hàng thành cột, các cột thành phố trở thành giá trị hàng

- Tính năng cắt lát mỏng (slice):

Hình 14: Slice [14]

Trang 33

Slice thực hiện cắt lấy dữ liệu một lớp cắt cụ thể trong một cắt lớp Ví dụ như hình 14 chỉ duy nhất dữ liệu của Quý 1(Q1) được hiển thị

- Tính năng cắt khối (dice)

Hình 15: Dice [14]

Dice thực hiện lựa chọn giá trị cho ít nhất hai lớp cắt Ví dụ như hình 15 là cube thể hiện dữ liệu cho thành phố Toronto và Vancouver trong quý 1 (Q1) và quý

2 (Q2) với các các sản phẩm “home entertainment” và “computer”

Ngoài 5 tính năng cơ bản trên, các bộ công cụ OLAP trên thị trường cũng cung cấp thêm một loạt các tính năng hỗ trợ khác như các phép toán số học, thống

kê, các phép toán kinh tế…

2.2 Mô hình dữ liệu đa chiều

Kho dữ liệu và các hệ thống OLAP được xây dựng dựa vào mô hình dữ liệu đa chiều Mô hình này cho hiệu năng tốt trên những phép truy vấn phức tạp và giúp người dùng có thể nhìn dữ liệu theo nhiều khía cạnh khác nhau Mô hình này hiển thị dữ liệu dưới dạng không gian n-chiều, gọi là data cube hoặc hypercube Dữ liệu trong OLAP được tổ chức theo kiểu đa chiều (multi-dimensional dataset) giúp người dùng có thể nhìn dữ liệu theo nhiều khía cạnh khác nhau

Trang 34

Ví dụ: Phân tích số liệu bán hàng, có 3 chiều cắt lớp là Thị trường, Thời gian

Cùng với cắt lớp, các ô (cell) của một cube chứa các giá trị dạng số và được gọi là tiêu chí (measure) Mô hình đa chiều yêu cầu việc thực hiện các phép toán số học (cộng, trừ, nhân, chia) trên các tiêu chí này mà ý nghĩa của số liệu vẫn chính xác Ví dụ trong hình 9 trên, khối cube có 1 tiêu chí là Doanh số Thông thường một cube sẽ có nhiều tiêu chí khác nhau Khối cube ở hình 16 mặc dù không hiển thị nhưng có thể có tiêu chí Số lượng (số sản phẩm bán ra) nữa

Trang 35

2.3 Mô hình thiết kế kho dữ liệu

Trong hệ thống OLAP, dữ liệu đa chiều được lưu trữ dưới dạng bảng quan hệ,

tổ chức theo cấu trúc đặc biệt theo lược đồ hình sao, lược đồ hình bông tuyết, lược

đồ ánh sao và lược đồ chòm sao như sau:

➢ Lược đồ hình sao (star schema) bao gồm duy nhất một bảng số liệu và nhiều bảng cắt lớp (mỗi bảng cho một cắt lớp) Các thực thể trong lược đồ hình sao không được chuẩn hoá như cơ sở dữ liệu nghiệp vụ (các thực thể có cấu trúc phân cấp được nhập chung vào làm một)

Hình 17: Lược đồ hình sao [14]

➢ Lược đồ hình bông tuyết (snowflake schema) giảm bớt dư thừa dữ liệu trong lược đồ hình sao bằng cách chuẩn hoá các bảng cắt lớp Do đó, một thực thể cắt lớp có phân cấp sẽ được thể hiện thành nhiều bảng dữ liệu khác nhau, mỗi bảng một cấp Hình 18 là lược đồ hình bông tuyết, trong đó cắt lớp Location được thể hiện qua 2 bảng dữ liệu Location và City

Trang 36

Hình 18: Lược đồ hình bông tuyết [14]

➢ Lược đồ ánh sao (Starflake schema) là sự kết hợp giữa lược đồ hình sao và lược

đồ hình bông tuyết khi một số cắt lớp được chuẩn hoá trong khi một số khác thì không

➢ Lược đồ chòm sao (Constellation schema) là lược đồ thông dụng nhất trong thiết kế kho dữ liệu, là lược đồ trong đó các bảng số liệu dùng chung cắt lớp với nhau Ví dụ hình 13 bên dưới hai bảng Sales và Shipping sử dụng chung Time, Item và Location

Hình 19: Lược đồ chòm sao [14]

Trang 37

2.4 Các mô hình dữ liệu đa chiều OLAP

Căn cứ vào cách thức lưu trữ dữ liệu, người ta thường tiếp cận mô hình dữ liệu

đa chiều theo 3 hướng sau:

OLAP kiểu quan hệ (Relational OLAP - ROLAP) lưu trữ dữ liệu trong cơ sở

dữ liệu quan hệ, dùng câu lệnh SQL để thực hiện các tính năng của OLAP

OLAP đa chiều (Multi cắt lớp OLAP - MOLAP) lưu trữ dữ liệu dưới dạng file có cấu trúc đặc thù (ví dụ như cấu trúc dạng mảng (array)) và thực hiện các tính năng OLAP trên cấu trúc này Mặc dù bị hạn chế về lượng dữ liệu lưu trữ và xử lý được so với ROLAP, MOLAP thường cho hiệu năng tốt hơn trong các phép truy vấn hoặc tổng hợp số liệu (vì dữ liệu được thiết kế tối ưu cho truy vấn OLAP trong khi ROLAP phải thông qua cơ sở dữ liệu)

OLAP lai (Hybrid OLAP - HOLAP) kết hợp 2 công nghệ ROLAP và MOLAP nói trên, tận dụng khả năng lưu trữ của OLAP và khả năng xử lý của MOLAP Ví dụ HOLAP sẽ lưu dữ liệu chi tiết trên cơ sở dữ liệu quan hệ còn dữ liệu tổng hợp hơn để truy vấn cho người dùng được lưu trên không gian MOLAP

2.4.1 Mô hình ROLAP

Trong mô hình ROLAP, dữ liệu được lưu trữ trên các bảng theo định dạng của CSDL quan hệ đáp ứng tốt nhất cho các truy vấn dữ liệu không thường xuyên Để giấu đi kiến trúc lưu trữ theo định dạng quan hệ và trình bày dữ liệu đa chiều, ROLAP tạo ra một lớp dữ liệu ngữ nghĩa gọi là Metadata Lớp Metadata này hỗ trợ việc ánh xạ của các chiều đến các bảng trong CSDL quan hệ đồng thời hỗ trợ việc tổng hợp và kết hợp dữ liệu Metadata được lưu trữ ngay trong CSDL quan hệ Server phân tích nằm trong tầng ứng dụng ở giữa tạo ra khối dữ liệu đa chiều động cho tầng trình bày ở phía trên Hệ thống đa chiều trong tầng trình bày sẽ cung cấp khung nhìn đa chiều của dữ liệu đến người dùng Khi người dùng đưa ra câu hỏi phức tạp trên dữ liệu đa chiều, câu hỏi được chuyển trực tiếp tới CSDL quan hệ Không giống như trong mô hình MOLAP, các khối đa chiều trong mô hình ROLAP không được tạo ra và lưu trữ cố định

Trang 38

Hình 20: ROLAP Model [8]

❖ Ưu điểm của ROLAP:

➢ Có thể áp dụng với hệ thống có dung lượng lớn do kích cỡ của ROLAP chính là kích cỡ của CSDL quan hệ

➢ Tiết kiệm không gian lưu trữ do dữ liệu lưu trữ trong CSDL quan hệ truyền thống ít khi trùng lặp

➢ ROLAP là kỹ thuật hiệu quả cho hệ quản trị CSDL quan hệ duy trì chức năng truyền thông của nó đồng thời thực thi được các phép toán của hệ thống OLAP

➢ Dữ liệu được chứa trong CSDL quan hệ chuẩn nên có thể được truy cập bằng bất kỳ công cụ SQL nào

❖ Nhược điểm của ROLAP:

➢ ROLAP chạy chậm do mỗi ROLAP report là câu truy vấn nguyên thủy trong CSDL quan hệ

Trang 39

➢ Tất cả các tính toán của ROLAP dựa trên các hàm của SQL, vì vậy chúng không thích hợp khi mô hình có nhiều tính toán như dự toán ngân sách, báo cáo tài chính

2.4.2 Mô hình MOLAP

Trong mô hình MOLAP, dữ liệu phân tích được lưu trữ trong CSDL đa chiều chuyên dụng nhằm phục vụ tốt nhất cho các truy vấn tổng hợp dữ liệu thường xuyên cần thời gian truy xuất nhanh Số liệu tính toán trước và chiều của khối dữ liệu được lưu trong CSDL đa chiều Engine MOLAP trong tầng ứng dụng đẩy dữ liệu đa chiều từ CSDL đa chiều đến người dùng phân tích dữ liệu

Hình 21: MOLAP model [8]

❖ Ưu điểm của MOLAP:

➢ Thực thi nhanh câu truy vấn nhờ vào việc tối ưu hóa lưu trữ, lập chỉ mục đa chiều và cơ chế bộ nhớ cache

➢ Áp dụng tốt cho các hệ thống có yêu cầu tính toán phức tạp và thời gian truy xuất nhanh bởi vì tất cả các dữ liệu cần tính toán đã được thực hiện khi tạo khối dữ liệu

➢ Không sử dụng cơ chế khoá do dữ liệu là chỉ đọc

➢ Dữ liệu có thể dễ dàng sao chép đến người dùng cho phân tích offline

Trang 40

❖ Nhược điểm của MOLAP:

➢ Chi phí nhiều thời gian để xử lý dữ liệu (nạp dữ liệu), đặc biệt trong trường hợp khối dữ liệu có dung lượng lớn Để khắc phục nhược điểm này các công cụ MOLAP cho phép chỉ xử lý phần dữ liệu có sự thay đổi thay vì xử

lý lại toàn bộ khối dữ liệu

➢ MOLAP lưu trữ nhiều dữ liệu dư thừa nhằm đáp ứng thời gian truy xuất nhanh

➢ Bị giới hạn bởi dung lượng dữ liệu của hệ thống do tất cả các dữ liệu tính toán trước đều được lưu trữ trong khối Điều này làm cho dữ liệu trong khối

có khuynh hướng tổng hợp hơn là chi tiết

➢ Tăng thêm chi phí do công nghệ đa chiều không có sẵn trong hệ thống nên phải đầu tư chi phí cho cả công nghệ và huấn luyện con người

2.4.3 Mô hình HOLAP

Mô hình HOLAP là sự kết hợp giữa MOLAP và ROLAP, lưu trữ các khối trong cấu trúc HOLAP là tốt nhất cho các truy vấn tổng hợp dữ liệu thường xuyên dựa trên một lượng lớn dữ liệu cơ sở Ví dụ, chúng ta sẽ lưu trữ dữ liệu bán hàng theo hàng quý, hàng năm trong cấu trúc MOLAP và dữ liệu hàng tháng, hàng tuần

và hàng ngày trong cấu trúc ROLAP

Hình 22: HOLAP model [8]

Ngày đăng: 22/01/2021, 13:28

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
1. Deepak Pareek (2006) - Business Intelligence for Telecommunications 2. David Loshin (2012) - Business Intelligence: The Savvy Manager's Guide 3. Http://en.wikipedia.org/wiki/Business_intelligence Khác
8. Paulraj Ponniah (2001) - Data Warehousing Fundamentals: A Comprehensive Guide for IT Professionals Khác
9. Mohammed J. Zaki, Wagner Meira, Jr, Wagner Meira (2014) - Data Mining and Analysis: Fundamental Concepts and Algorithms-Mohammed Khác
10. Rob Mattison (1997) - Data Warehousing and Data Mining for Telecommunications Khác
11. Robert Wrembel, Christian Koncilia (2007) - Data Warehouses and OLAP: Concepts, Architectures, and Solutions Khác
12. Ralph Kimball and Margy Ross (2013) - The Data Warehouse Toolkit - Second Edition-The Complete Guide to Dimensional Modeling Khác
13. Ralph Kimball and Margy Ross (2004) - The Data Warehouse ETL Toolkit- Practical Techniques for Extracting, Cleaning,Conforming, and Delivering Data 14. Jiawei Han – MichelineKamber (2011) - Data Mining: Concepts andTechniques. Third Editior Khác

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w