BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI --- NGUYỄN CHÍ BẢO XÂY DỰNG KHO DỮ LIỆU VÀ PHÂN TÍCH OLAP TRONG HỆ THỐNG NGHIỆP VỤ THÔNG MINH VỀ KINH DOANH VIỄN THÔNG Chuyên ng
Trang 2BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
- NGUYỄN CHÍ BẢO
XÂY DỰNG KHO DỮ LIỆU VÀ PHÂN TÍCH OLAP TRONG HỆ THỐNG
NGHIỆP VỤ THÔNG MINH VỀ KINH DOANH VIỄN THÔNG
Chuyên ngành : Công Nghệ Thông Tin
Trang 3MỤC LỤC
MỞ ĐẦU 9
1 Lý do chọn đề tài 9
2 Mục đích nghiên cứu luận văn, đối tượng, phạm vi nghiên cứu 11
Chương 1 TỔNG QUAN VỀ BI VÀ DATA WAREHOUSE 13
1.1 Tổng quan về BI 13
1.1.1 Giới thiệu chung về BI 13
1.1.2 Kiến trúc tổng thể của BI 14
1.1.3 Hệ thống BI trên thế giới 15
1.1.4 Tổng quan về Data mining 17
1.2 Kiến trúc tổng thể Data Warehouse 19
1.2.1 Khái niệm Data Warehouse 19
1.2.2 Kiến trúc Data Warehouse 19
1.2.3 Các đặc trưng của kho dữ liệu 22
1.2.4 Các thành phần cơ bản của Data Warehouse 23
1.2.5 Tổng quan về Data Mart 25
Kết chương 26
Chương 2 TỔNG QUAN VỀ OLAP 27
2.1 Định nghĩa OLAP 27
2.2 Mô hình dữ liệu đa chiều 31
2.3 Mô hình thiết kế kho dữ liệu 33
2.4 Các mô hình dữ liệu đa chiều OLAP 35
2.4.1 Mô hình ROLAP 35
2.4.2 Mô hình MOLAP 37
2.4.3 Mô hình HOLAP 38
2.4.4 So sánh các mô hình OLAP 39
2.5 Giới thiệu về Dashboard 40
2.5.1 Khái niệm Dashboard 40
2.5.2 Phân loại Dashboard 42
2.5.3 Một số loại dashboard thông dụng 43
Trang 4Kết chương 43
Chương 3 ỨNG DỤNG TRONG BÀI TOÁN QUẢN LÝ HỆ THỐNG VIỄN THÔNG 44
3.1 Thực trạng hiện nay của các doanh nghiệp viễn thông 44
3.1.1 Vấn đề tích hợp thông tin di động 44
3.1.2 Các hệ thống hiện tại được doanh nghiệp viễn thông sử dụng 45
3.1.3 Đề xuất giải quyết vấn đề 48
3.2 Đề xuất xây dựng hệ thống mới trong kinh doanh thông minh về lĩnh vực viễn thông 48
3.2.1 Xác định yêu cầu đối với ứng dụng 48
3.2.2 Xác định phạm vi của bài toán 49
3.2.3 Đề xuất xây dựng hệ thống 49
3.3 Phân tích bài toán 52
3.3.1 Mô hình hóa các yêu cầu của bài toán 52
3.3.2 Thiết kế Data Warehouse ứng dụng cho lĩnh vực di động của doanh nghiệp viễn thông 57
3.3.3 Thiết kế một số tính năng phân tích dữ liệu 64
3.3.4 Thiết kế các Cube trong OLAP 66
3.3.5 Ứng dụng vào việc tích hợp dữ liệu 67
3.3.6 Ứng dụng vào việc tạo các báo cáo động 67
Kết chương 67
Chương 4 CÀI ĐẶT VÀ ĐÁNH GIÁ 68
4.1 Cài đặt phần mềm 68
4.1.1 Cấu hình hệ thống 68
4.1.2 Sử dụng hệ thống mã nguồn mở: Module ETL 68
4.1.3 Tạo các báo cáo cáo động 71
4.2 Đánh giá 76
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 77
TÀI LIỆU THAM KHẢO 82
Trang 5LỜI CAM ĐOAN
Tôi xin cam đoan: Luận văn thạc sĩ Công Nghệ Thông Tin với đề tài “XÂY
DỰNG KHO DỮ LIỆU VÀ PHÂN TÍCH OLAP TRONG HỆ THỐNG NGHIỆP VỤ THÔNG MINH VỀ KINH DOANH VIỄN THÔNG” là công trình
nghiên cứu thật sự của cá nhân, được thực hiện bằng sự tìm tòi, học hỏi và kinh nghiệm cá nhân trong lĩnh vực kinh doanh thông minh của doanh nghiệp viễn thông, dưới sự hướng dẫn của PGS.TS Cao Tuấn Dũng
Tôi xin chịu trách nhiệm về lời cam đoan này./
Hà Nội, ngày tháng 04 năm 2018
Tác giả
Nguyễn Chí Bảo
Trang 6LỜI CẢM ƠN
Lời đầu tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới PGS.TS Cao Tuấn Dũng, người đã tận tình hướng dẫn và chỉ bảo tôi trong suốt quá trình thực hiện luận văn cao học Tôi chân thành cảm ơn các thầy, cô trong trường Đại học Bách Khoa Hà Nội đã cho tôi một môi trường rất tốt để học tập và nghiên cứu Các thầy cô đã giảng dạy và cho tôi những kiến thức quý báu, làm nền tảng để tôi hoàn thành luận văn cũng như công việc trong tương lai Tôi cũng xin gửi lời tri ân tới các anh, chị, bạn học viên 2015B đã luôn bên cạnh, ủng hộ và giúp đỡ tôi trong suốt quá trình học tập tại trường Cuối cùng, tôi muốn gửi lời cảm ơn vô hạn tới gia đình và bạn bè – những người thân yêu luôn ở bên, khuyến khích và động viên tôi trong cuộc sống cũng như trong học tập
Tôi xin chân thành cảm ơn
Hà nội, tháng 4 năm 2018
Học viên
Nguyễn Chí Bảo
Trang 7DANH MỤC CHỮ VIẾT TẮT
BI Business Intelligence
BTS Base transceiver station
CNTT Công nghệ thông tin
MOLAP Multi dimensional OLAP
OLAP Online Analytical Processing OLTP Online transaction processing ROLAP Relational OLAP
Trang 8DANH MỤC CÁC HÌNH
Hình 1: Kiến trúc tổng thể BI 14 Hình 2: Các câu hỏi dành cho BI 15 Hình 3: Hệ thống BI trên thế giới 16 Hình 4: Các lĩnh vực liên quan đến Data Mining 18 Hình 5: Kiến trúc tổng thể Data warehouse cơ bản 20 Hình 6: Kiến trúc tổng thể Data warehouse với vùng gắn nhãn
Hình 7: Kiến trúc tổng thể Data warehouse với vùng gắn nhãn
(Staging Area) và kho chủ đề (Data Marts) 21 Hình 8: Các thành phần cơ bản của Data warehouse 23 Hình 9: Bộ công cụ kết xuất, chuyển đổi và tích hợp dữ liệu 24 Hình 10: Các tính năng của OLAP 28
Hình 16: Một cube 3 chiều hiển thị dữ liệu số lượng bán hàng với 3
chiều địa điểm (cities), Thời gian (Time), Sản phẩm (Product) và chỉ
tiêu Doanh số (amount)
32
Hình 17: Lược đồ hình sao 33 Hình 18: Lược đồ hình bông tuyết 34 Hình 19: Lược đồ chòm sao 34 Hình 20: ROLAP Model 36 Hình 21: MOLAP model 37
Hình 23: Minh họa Dashboard 40
Trang 9Hình 24: Hiển thị Dashboard tại một mình hình duy nhất 41 Hình 25: Mô hình toàn cầu tập trung của Viettel trong giai đoạn
Hình 26: Đề xuất mô hình triển khai VT BI 50 Hình 27: Kiến trúc tổng thể hệ thống VT BI 51 Hình 28: Tổng quan về quy trình lấy và phân tích dữ liệu di động 55
Hình 29: Tổng quan luồng dữ liệu của cả hệ thống 56 Hình 30: Chuẩn hóa luồng dữ liệu 57 Hình 31: Tạo cubes báo cáo chi tiết theo ngày 66 Hình 32: Tạo JOB thực thi 68 Hình 33: Tạo Transformations thực thi 69 Hình 34: Tạo JOB xử lý nhiều Transformations 70 Hình 35: Tạo Transformations làm việc với nhiều nguồn dữ liệu
Hình 36: Tạo kết nối tới data warehouse của Saiku 71 Hình 37: Tạo cube về tổng hợp tiêu dùng 72 Hình 38: Sửa đổi lại cách hiển thị của các độ đo giá trị 73 Hình 39: Tạo báo cáo Analytics 73 Hình 40: Roll-up từ ngày đến tháng 74 Hình 41: Drill-down từ năm đến tháng 74 Hình 42: Biểu đồ dạng dashboard 75 Hình 43: So sánh hệ thống BI truyền thống và BI hiện đại 79 Hình 44: Dữ liệu của hệ thống BI hiện đại 80
Trang 10DANH MỤC CÁC BẢNG
Bảng 1: So sánh các mô hình OLAP 39 Bảng 2: Khảo sát, phân tích việc nhận dữ liệu của doanh nghiệp viễn thông 55 Bảng 3: Danh sách bảng trong data warehouse 63 Bảng 4: Môt số bảng thiết kế các Dimension 64 Bảng 5: Bảng fact chi tiết cước gọi 65 Bảng 6: Kết quả thực nghiệm ETL 71 Bảng 7: Kết quả thực nghiệm tạo báo cáo OLAP 76
Trang 11MỞ ĐẦU
1 Lý do chọn đề tài
Trong những năm vừa qua, thị trường viễn thông Việt Nam đã có những bước chuyển biến mạnh mẽ Cùng với việc phát triển mạng lưới viễn thông, mở rộng phạm vi phục vụ tới tận những vùng sâu, vùng xa, vùng núi hay hải đảo xa xôi của
tổ quốc, đặc biệt còn vươn ra thị trường nước ngoài, với nhiều loại hình dịch vụ phong phú thì chất lượng thông tin cũng ngày càng được nâng cao, nhanh chóng đáp ứng nhu cầu ngày càng cao của xã hội Với sự phát triển nhanh chóng cả về số lượng cũng như chất lượng, các doanh nghiệp viễn thông hiện nay đang phải đối mặt với việc điều hành và lưu trữ một khối lượng dữ liệu khổng lồ gồm hàng tỷ bản tin chi tiết cước, thông tin của hàng trăm triệu khách hàng với rất nhiều dịch vụ của các nhà mạng đang ngày một đa dạng và phát triển nhanh chóng Trước một khối lượng thông tin khổng lồ theo lịch sử thời gian như vậy, các doanh nghiệp viễn thông phải biết khai thác, phân tích, chọn lọc các thông tin có giá trị từ đó có thể cung cấp các dịch vụ tốt hơn, làm hài lòng khách hàng và đồng thời tăng khả năng cạnh tranh trên thị trường viễn thông vốn vô cùng khốc liệt Từ đó, yêu cầu đặt ra là cần phải xây dựng được một kho dữ liệu tập trung về di động nhằm hỗ trợ phân tích kinh doanh và hỗ trợ lãnh đạo ra quyết định
Việc chuyển từ cơ chế kinh doanh độc quyền sang kinh doanh trong thị trường
có sự tham gia cạnh tranh của nhiều nhà cung cấp đã làm thay đổi diện mạo ngành Viễn thông Việt Nam Tuy nhiên, sau một thời gian phát triển rầm rộ ở tất cả các loại hình dịch vụ, từ cố định, di động, nhắn tin, các dịch vụ internet, … đến nay thị trường viễn thông đang bước sang giai đoạn bão hòa Đặc biệt với việc chính sách mới “Chuyển mạng giữ số” cùng với việc hạn chế khuyến mại nạp thẻ cho thuê bao trả trước thì việc giữ chân khách hàng và hướng khách hàng sử dụng các dịch vụ của nhà mạng là một bài toán tiên quyết cần phải đối mặt trực tiếp của bất kỳ công
ty viễn thông nào Tình hình này đòi hỏi các doanh nghiệp muốn có được sự bứt phá so với các đối thủ thì phải xây dựng được chiến lược kinh doanh khác biệt, hiệu quả, trong đó chăm sóc khách hàng (CSKH) tốt hay chưa tốt có thể tạo nên hay phá
Trang 12vỡ những kỳ vọng vào hiệu quả kinh doanh của doanh nghiệp Vì vậy, việc hoàn thiện công tác quản lý và CSKH đã và đang trở thành một vấn đề ngày càng được các doanh nghiệp quan tâm, chú trọng
Trong ngành viễn thông có rất nhiều hệ thống phục vụ dịch vụ viễn thông khác nhau (trả trước, trả sau, bán hàng, VAS, …), các hệ thống phục vụ trong quản
lý viễn thông có thể sử dụng các hệ cơ sở dữ liệu khác nhau (Excel, Oracle, SQL Server, MS ACCESS ) Vì vậy phải có một giải pháp có thể đủ đáp ứng về thực hiện báo cáo một cách tổng thể, có khả năng giúp cho người quản trị có thể phân tích hành vi khách hàng từ nhiều nguồn dữ liệu khác nhau
Một trong những giải pháp đó là trí tuệ thông minh doanh nghiệp (Business Intelligence-BI), giải pháp chuyển đổi dữ liệu thô thành những thông tin có ý nghĩa
hỗ trợ cho người quản lý trong phân tích tình hình kinh doanh của doanh nghiệp Với khả năng đưa cái nhìn toàn cảnh nhất về tất cả các hoạt động của khách hàng và tình trạng của doanh nghiệp, BI kiểm soát nhanh chóng và đưa ra chính sách phù hợp các xu hướng tương lai Từ đó, giúp người quản lý đưa ra các chính sách sao cho phù hợp với từng giai đoạn, thời kỳ, địa lý, … đáp ứng tình hình kinh doanh của doanh nghiệp
Chính vì lý do trên tác giả lựa chọn đề tài “XÂY DỰNG KHO DỮ LIỆU VÀ
PHÂN TÍCH OLAP TRONG HỆ THỐNG NGHIỆP VỤ THÔNG MINH VỀ KINH DOANH VIỄN THÔNG” nhằm áp dụng các kĩ thuật tổng hợp dữ liệu từ
các hệ thống nghiệp vụ khác nhau vào kho dữ liệu của doanh nghiệp viễn thông Từ kho dữ liệu tổng hợp, sử dụng kĩ thuật phân tích OLAP (Online Analytical Processing) để phục vụ báo cáo trong kinh doanh thông minh (Business Intelligence-BI) Từ các báo cáo kinh doanh giúp cho người quản trị doanh nghiệp
có cái nhìn toàn cảnh nhất, giúp ích đưa ra các chính sách phù hợp với tình hình kinh doanh của doanh nghiệp
Trang 132 Mục đích nghiên cứu luận văn, đối tượng, phạm vi nghiên cứu
❖ Mục đích nghiên cứu
Luận văn này nhằm đề xuất giải pháp tích hợp dữ liệu từ các hệ thống nghiệp
vụ khác nhau trong lĩnh vực viễn thông Từ đó xây dựng kho dữ liệu (Data warehouse) nhằm đáp ứng nhu cầu phục vụ báo cáo, phân tích, hỗ trợ quyết định trong kinh doanh viễn thông Đồng thời đáp ứng khả năng tạo các báo cáo động phù hợp với từng kế hoạch kinh doanh theo từng giai đoạn của doanh nghiệp Cụ thể luận văn tìm hiểu về:
➢ Lý thuyết tổng quan Business Intelligence (BI)
➢ Lý thuyết tổng quan về Data Warehouse (DW)
➢ Lý thuyết về OLAP
➢ Đề xuất phương pháp tích hợp dữ liệu từ các nguồn dữ liệu nghiệp vụ khác nhau trong lĩnh vực viễn thông, xây dựng kho dữ liệu data warehouse phục
vụ cho việc phân tích OLAP (Online Analytical Processing)
➢ Thử nghiệm công cụ tổng hợp dữ liệu ETL của Pentaho và phân tích OLAP của Saiku
❖ Đối tượng nghiên cứu:
➢ Dữ liệu nghiệp vụ của các hệ thống khác nhau trong viễn thông: hệ thống BCCS (hệ thống tính cước), dữ liệu thô CDR của các trạm BTS,
➢ CDR của các dịch vụ thoại, SMS, VAS
❖ Phạm vi nghiên cứu:
➢ Nghiên cứu lý thuyết về BI và Data warehouse
➢ Nghiên cứu xây dựng kho dữ liệu lưu trữ thông tin trong lĩnh vực viễn thông
➢ Nghiên cứu sử dụng công cụ ETL để tích hợp các nguồn dữ liệu từ các hệ thống và định dạng dữ liệu khác nhau
➢ Nghiên cứu kỹ thuật phân tích OLAP
Trang 143 Tóm tắt nội dung chính
Luận văn gồm phần mở đầu, 4 chương chính và cuối cùng là phần kết luận và hướng phát triển, cụ thể:
Phần mở đầu
Chương 1: Tổng quan về BI và Data Warehouse
Chương này, tác giả sẽ trình bày một cách tổng quan về khái niệm BI và Data warehouse, trong đó đề cập đến kiến trúc tổng thể của BI và Data warehouse
Chương 2: Tổng quan về OLAP
Chương này, tác giả sẽ trình bày một cách tổng quan về OLAP, trong đó bao gồm định nghĩa về OLAP, các tính năng cơ bản của OLAP Tiếp theo, tác giả trình bày mô hình dữ liệu đa chiều và mô hình thiết kế kho dữ liệu đa chiều Cuối chương tác giả sẽ trình bày về khái niệm Dashboard
Chương 3: Ứng dụng trong bài toán quản lý hệ thống viễn thông
Chương này, tác giả sẽ trình bày thực trạng của các doanh nghiệp viễn thông hiện nay Từ đó, tác giả đưa ra các ưu điểm, nhược điểm về thực trạng của các doanh nghiệp viễn thông hiện tại, tiếp theo tác giả đưa ra giải pháp cá nhân để bổ sung các ưu điểm cũng như hạn chế các nhược điểm hiện tại
Chương 4: Cài đặt và đánh giá
Chương này, tác giả trình bày phần sử dụng các open source để làm ví dụ minh họa cho giải pháp đưa ra
Kết luận và hướng phát triển
Trang 15Chương 1 TỔNG QUAN VỀ BI VÀ DATA WAREHOUSE
Mở chương
Chương này luận văn tập trung vào việc nghiên cứu các khái niệm, vai trò và các kiến trúc, mô hình triển khai BI đã đem lại hiệu quả cho doanh nghiệp ứng dụng, đồng thời luận văn tập trung vào các mô hình và nguyên tắc xây dựng Data warehouse và một số giải pháp tích hợp, xây dựng ứng dụng kho dữ liệu Data warehouse nhằm phục vụ tập trung dữ liệu của các hệ thống theo lịch sử thời gian dùng trong việc tập hợp, phân tích dữ liệu và báo cáo hỗ trợ các quyết định trong kinh doanh cho doanh nghiệp viễn thông
1.1 Tổng quan về BI
Hiện nay, khái niệm BI ở Việt Nam còn khá mới mẻ và chưa có định nghĩa thống nhất Phần này sẽ trình bày cơ bản chung về BI và kiến trúc tổng thể của BI
Hệ thống cơ bản của BI trên thế giới Cuối cùng là trình bày sơ qua về Data Mining
1.1.1 Giới thiệu chung về BI
Business Intelligence (BI) bao gồm các kỹ năng, quy trình, chiến lược và công nghệ được sử dụng để biến dữ liệu thành thông tin, phân tích dữ liệu thông tin kinh doanh để hỗ trợ ra quyết định Business Intelligence bao gồm data warehosing, các công cụ phân tích và nội dung tri thức quản lý [2]
Từ đó có thể thấy, Business Intelligence (BI) cung cấp quan điểm lịch sử, hiện tại và tiên đoán về hoạt động kinh doanh tương lai Các chức năng phổ biến của công nghệ thông minh kinh doanh bao gồm báo cáo, xử lý phân tích trực tuyến, phân tích, khai thác dữ liệu, khai thác quá trình, xử lý sự kiện phức tạp, quản lý hiệu suất kinh doanh, đo điểm chuẩn, khai thác văn bản, phân tích tiên đoán và phân tích theo quy định
Business Intelligence (BI) có thể xử lý một lượng lớn dữ liệu được cấu trúc và đôi khi không có cấu trúc để giúp xác định, phát triển và nếu không tạo ra các cơ hội kinh doanh chiến lược mới Business Intelligence (BI) nhằm mục đích cho phép làm việc dễ dàng những dữ liệu lớn này Xác định các cơ hội mới và thực hiện một chiến lược hiệu quả dựa trên những hiểu biết sâu sắc có thể cung cấp cho các doanh
Trang 16nghiệp lợi thế cạnh tranh về thị trường và sự ổn định lâu dài [3] Doanh nghiệp của bạn có thể thu được những lợi ích to lớn khi quyết định mua và triển khai một Giải pháp quản trị doanh nghiệp thông minh Có thể kể ra:
➢ Cải thiện khả năng truy cập và tích hợp các dữ liệu sản xuất kinh doanh từ nhiều nguồn riêng biệt
➢ Có được cái nhìn toàn cảnh tất cả các hoạt động trong doanh nghiệp
➢ Chia sẻ thông tin nhanh chóng trên quy mô toàn doanh nghiệp
➢ Kiểm soát nhanh hơn và chính xác hơn các xu hướng có tác động tích cực cũng như tiêu cực đến hoạt động sản xuất kinh doanh
Trang 17➢ Data Analyst - Data Mining (Khai phá dữ liệu): Các kỹ thuật dùng để khai
phá dữ liệu và phát hiện tri thức như phân loại (Classification), phân nhóm
(Clustering), phát hiện luật kết hợp (Association Rule), dự đoán
(Prediction), …
➢ Business Analyst (Phân tích kinh Doanh): Các nhà lãnh đạo doanh nghiệp
đưa ra những quyết định chiến lược đối với hoạt động kinh doanh của
doanh nghiệp
1.1.3 Hệ thống BI trên thế giới
Business Intelligence hiện được coi là giải pháp hỗ trợ kinh doanh đang được
nhiều doanh nghiệp ưu tiên áp dụng
Nền tảng của hệ thống BI dựa vào công nghệ Data Warehousing (DW - Cơ sở
dữ liệu thống nhất và tập trung)
Nhờ vào quá trình thu thập, tổng hợp và phân tích thông tin, BI cho phép
doanh nghiệp có thể:
➢ Phát hiện sớm những vấn đề trong kinh doanh
➢ Khai thác tối ưu các cơ hội
➢ Đưa ra các quyết định, chiến lược phù hợp, tạo lợi thế trước các đối thủ
cạnh tranh
Hình 2: Các câu hỏi dành cho BI
Formatted: Justified, Indent: First line: 0"
Trang 18Tính thông minh của hệ thống ở chỗ nó có thể trả lời ngay lập tức hầu hết các
câu hỏi liên quan đến hoạt động của doanh nghiệp, doanh thu, hành vi tiêu dùng của
khách hàng mà không cần phải có sự hỗ trợ của các bộ phận nghiệp vụ và phòng
➢ Level 2: Hệ thống Analysis: là hệ thống phân tích thông qua các báo cáo
động OLAP, phân tích các số liệu đa chiều
➢ Level 3: Hệ thống Monitoring: là hệ thống điều hành các hoạt động đang
diễn ra của doanh nghiệp thông qua các báo cáo Dashboards, Scorecards và
các báo cáo KPIs
➢ Level 4: Hệ thống Prediction: hệ thống dự đoán dựa vào kỹ thuật Data
Mining
Formatted: Centered
Trang 191.1.4 Tổng quan về Data mining
1.1.4.1 Khái niệm Data mining
Data Mining (Knowledge discovery in databases) là quá trình tính toán để
tìm ra các mẫu trong các bộ dữ liệu lớn liên quan đến các phương pháp tại giao điểm của máy học, thống kê và các hệ thống cơ sở dữ liệu Mục tiêu tổng thể của quá trình khai thác dữ liệu là trích xuất thông tin từ một bộ dữ liệu và chuyển nó thành một cấu trúc dễ hiểu để sử dụng tiếp Ngoài bước phân tích thô, nó còn liên quan tới cơ sở dữ liệu và các khía cạnh quản lý dữ liệu, xử lý dữ liệu trước, suy xét
mô hình và suy luận thống kê, các thước đo thú vị, các cân nhắc phức tạp, xuất kết quả về các cấu trúc được phát hiện, hiện hình hóa và cập nhật trực tuyến Khai thác
dữ liệu là bước phân tích của quá trình "khám phá kiến thức trong cơ sở dữ liệu"
[9]
Data Mining được hiểu như sau: Data Mining là quá trình khai phá, trích xuất, khai thác và sử dụng những dữ liệu có giá trị tiềm ẩn từ bên trong lượng lớn dữ liệu được lưu trữ trong các cơ sở dữ liệu (CSDL), kho dữ liệu, trung tâm dữ liệu, … lớn hơn là Big Data dựa trên kĩ thuật như mạng neural, lý thuyết tập thô, tập mờ, biểu diễn tri thức, … Đây là một công đoạn trong hoạt động “làm sạch” dữ liệu Quá
trình chọn lọc dữ liệu của Data Mining dựa trên các phương pháp: Phân loại
(Classification), Phân nhóm (Clustering), Tổng hợp (Summarization), Mô hình ràng buộc (Dependency modeling), Hồi quy (Regression), Dò tìm biến đổi và độ lệch (Change and Deviation Detection)
Data Mining nhấn mạnh 2 khía cạnh chính đó là khả năng trích xuất thông tin
có ích Tự động (Automated) và thông tin mang tính dự đoán (Predictive)
Data Mining liên quan chặt chẽ đến các lĩnh vực sau:
➢ Statistics (Thống kê): Kiểm định model và đánh giá tri thức phát hiện được
➢ Machine Learning (Máy học): Nghiên cứu xây dựng các giải thuật trên nền tảng của trí tuệ nhân tạo giúp cho máy tính có thể suy luận (dự đoán) kết quả tương lai thông qua quá trình huấn luyện (học) từ dữ liệu lịch sử
➢ Databases (Cơ sở dữ liệu): Công nghệ quản trị dữ liệu nhất là kho dữ liệu
Trang 20➢ Visualization (Trực quan hóa): Giúp dữ liệu dễ hiểu, dễ sử dụng như chart, map
Hình 4: Các lĩnh vực liên quan đến Data Mining
1.1.4.2 Nhiệm vụ của Data Mining
Nhiệm vụ của data mining có thể phân thành 2 loại chính đó là dự đoán
(Predictive) và mô tả (Descriptive)
Predictive: Dùng dữ liệu lịch sử để dự đoán tương lai Các thuật toán thường được
áp dụng:
➢ Classification: Phân lớp
➢ Regression: Hồi quy
➢ Deviation Detection: Phát hiện độ lệch
Descriptive: Mô hình hóa từ các dữ liệu sẵn có Các thuật toán thường dùng:
➢ Clustering: Phân cụm
➢ Association Rule Discovery: Phát hiện luật kết hợp
➢ Sequential Pattern Discovery: Phát hiện mẫu tuần tự
Dưới đây là một số thuật toán phổ biến được dùng trong Data Mining
➢ Decision tree: Cây quyết định (Classification Task)
➢ Nearest Neighbor: Láng giềng gần nhất (Classification Task)
➢ Neural Network: Mạng Neural (Classification and Clustering Task)
➢ Rule Induction: Luật quy nạp (Classification Task)
➢ K-Means: Thuật toán K-Means (Clustering Task)
Trang 211.2 Kiến trúc tổng thể Data Warehouse
Trong phần này luận văn sẽ trình bày nội dung cơ bản về khái niệm Data Warehouses, các kiến trúc cơ bản của Data warehouse, tiếp theo sẽ trình bày các đặc trưng của kho dữ liệu và các thành phần cơ bản của một data warehouse, cuối cùng trình bày sơ lược về Data mart
1.2.1 Khái niệm Data Warehouse
Data warehouse (kho dữ liệu) chính là hệ quản trị cơ sở dữ liệu, chuyên dùng cho tạo báo cáo và phân tích dữ liệu Nó vừa hỗ trợ các truy vấn phức tạp, vừa là điểm tập trung dữ liệu từ nhiều nguồn khác nhau để có được thông tin phân tích đầy
đủ nhất Data warehouse là tập hợp dữ liệu tương đối ổn định, không hay thay đổi, cập nhật theo thời gian, được tích hợp theo hướng chủ đề nhằm hỗ trợ quá trình tạo quyết định về mặt quản lý [11]
Theo đó, kho dữ liệu là một tập hợp dữ liệu hướng chủ đề, toàn vẹn, không bị
rò rỉ mất mát và có giá trị lịch sử Cụ thể các tính chất đó như sau:
Một data warehouse điển hình sẽ:
➢ Chứa 1 số lượng lớn dữ liệu có liên quan tới các giao dịch trong quá khứ
➢ Được tối ưu hóa cho các thao tác đọc trong các yêu cầu truy vấn dữ liệu Điều này đối lập với các cơ sở dữ liệu trong các hệ thống xử lý tác vụ (OLTP) được thiết kế để hỗ trợ cả các thao tác thêm, xóa, sửa dữ liệu luôn
➢ Được nạp các dữ liệu mới hoặc dữ liệu được cập nhật 1 cách định kỳ với nhiều nguồn dữ liệu khác nhau
➢ Là nguồn dữ liệu cơ bản cho các ứng dụng BI mức doanh nghiệp
1.2.2 Kiến trúc Data Warehouse
Theo Database Data Warehousing Guide hiện nay có 3 kiến trúc của Data warehouse như sau:
➢ Kiến trúc kho dữ liệu: Cơ bản
➢ Kiến trúc kho dữ liệu: với vùng gắn nhãn (Staging Area)
➢ Kiến trúc kho dữ liệu: với vùng gắn nhãn (Staging Area) và kho chủ đề (Data Marts)
Trang 22❖ Kiến trúc kho dữ liệu: Cơ bản
Hình 5: Kiến trúc tổng thể Data warehouse cơ bản [4]
Kiến trúc đơn giản của hệ thống Data Warehouse gồm 3 phần:
➢ Data Source: Là nơi dữ liệu từ nhiều nguồn khác nhau được thu thập
➢ Warehouse: Nơi lưu trữ dữ liệu đã được xử lý, gồm Metadata, Raw Data
và Summary Data
➢ User: Gồm các hệ thống phân tích, báo cáo và Mining
Đây là một kiến trúc đơn giản với phần ETL (extraction, transformation, and loading) đã bị lược bỏ, người dùng cuối truy xuất dữ liệu trực tiếp từ các hệ thống
xử lý nghiệp vụ thông qua data warehouse
❖ Kiến trúc kho dữ liệu: với vùng gắn nhãn (Staging Area)
Hình 6: Kiến trúc tổng thể Data warehouse với vùng gắn nhãn (Staging Area)
[4]
Trang 23Tại kiến trúc với vùng gán nhãn, các thành phần cơ bản giống với kiến trúc cơ bản trên, nhưng có thêm bước chuyển dạng và tích hợp dữ liệu Dữ liệu trước khi đưa vào Data Warehouse, được tập hợp từ nhiều nguồn, chuyển đổi dạng và lưu trữ tại bước Staging Area, người dùng cuối truy xuất dữ liệu trực tiếp từ các hệ thống
xử lý nghiệp vụ thông qua Data Warehouse
❖ Kiến trúc kho dữ liệu: với vùng gắn nhãn (Staging Area) và kho chủ đề (Data
Marts)
Hình 7: Kiến trúc tổng thể Data warehouse với vùng gắn nhãn (Staging Area)
và kho chủ đề (Data Marts) [4]
Mặc dù kiến trúc như trên Hình 6 khá phổ biến, bạn có thể tùy chỉnh kiến trúc của kho cho các nhóm khác nhau trong tổ chức của bạn Bạn có thể thực hiện điều này bằng cách thêm các kho chủ đề (Data Marts), đó là các hệ thống được thiết kế cho một ngành kinh doanh cụ thể
Kiến trúc vùng gắn nhãn và kho chủ đề ở Hình 7 bổ sung thêm bước ETL, giúp phân Warehouse ra thành các chủ đề nhỏ hơn (Data mart) Hình 7 minh họa một ví dụ về việc mua, bán và tồn kho được tách riêng biệt Trong ví dụ này, một nhà phân tích tài chính có thể muốn phân tích dữ liệu lịch sử cho việc mua bán và thu thập dữ liệu lịch sử để đưa ra dự đoán về hành vi của khách hàng
Trang 241.2.3 Các đặc trưng của kho dữ liệu
➢ Tính hướng chủ đề (Subject - oriented):
Data warehouse được thiết kế dữ liệu tập trung vào việc phân tích các yêu cầu quản lý ở nhiều cấp độ khác nhau trong quy trình ra quyết định Các yêu cầu phân tích này thường rất cụ thể, và xoay quanh loại hình kinh doanh của doanh nghiệp
Ví dụ các công ty phân phối sẽ quan tâm đến tình hình kinh doanh, doanh nghiệp viễn thông quan tâm đến lưu lượng dịch vụ, … tuy nhiên một doanh nghiệp thường quan tâm đến vài chủ đề khác nhau, như công ty phân phối còn phải quan tâm đến kho bãi, chuỗi cung ứng, …
Trang 25➢ Gắn với thời gian:
Mỗi bản ghi của kho dữ liệu chứa một yếu tố thời gian như một phần của khóa chính để bảo đảm tính duy nhất của mỗi bản ghi và cung cấp một đặc trưng về thời gian cho dữ liệu Toàn bộ dữ liệu trong kho được tạo ra và gắn liền với một giá trị thời gian nhất định
➢ Dữ liệu tổng hợp và chi tiết:
Dữ liệu chi tiết là thông tin mức thấp nhất được lưu trữ trong kho dữ liệu Dữ liệu tác nghiệp chính là thông tin mức thấp nhất Dữ liệu tổng hợp được tích hợp lại qua nhiều giai đoạn khác nhau
➢ Tính lịch sử:
Các thông tin trong kho dữ liệu được tập trung theo thời gian và thể hiện một khung nhìn của một chủ đề trong một giai đoạn
1.2.4 Các thành phần cơ bản của Data Warehouse
Data Warehouse là một cơ sở dữ liệu quan hệ được xây dựng cho mục đích truy vấn và phân tích dữ liệu mang tính lịch sử, nó không phải là loại cơ sở dữ liệu giao dịch (OLTP)
Hình 8: Các thành phần cơ bản của Data warehouse [4]
Trang 26Một hệ thống data warehouse về mặt logic được cho là có 4 thành phần:
1 Nguồn dữ liệu (Operational Source Systems): Dữ liệu nguồn trong trường hợp
điển hình bao gồm nhiều loại khác nhau:
➢ Các dữ liệu từ các hệ thống tác nghiệp (như hệ thống CRM, ERP, ): các dữ liệu chi tiết nhận được từ các hoạt động nghiệp vụ hàng ngày
➢ Các dữ liệu kế thừa: các dữ liệu cũ không dùng cho hoạt động hàng ngày, các phương pháp tổ chức dữ liệu khác với mô hình hiện hành, các dữ liệu được mã hóa khi đã qua sử dụng và các thông tin đầy đủ về cấu trúc và ngữ nghĩa của dữ liệu kế thừa
➢ Các dữ liệu bên trong khác
➢ Các nguồn dữ liệu được lấy từ bên ngoài
2 Khu vực xử lý (Staging Area): Bao gồm các công cụ xử lý dữ liệu, các quá trình
chuyển đổi dữ liệu trước khi được đưa sang khu vực trình bày Trong khu vực này
dữ liệu sẽ được làm sạch (cleanse), chuyển đổi (convert), chuẩn hóa (conform) Khác với cơ sở dữ liệu giao dịch thông thường, Data Warehouse được bổ sung thêm: bộ công cụ kết xuất, chuyển đổi và tích hợp dữ liệu (Extraction, Transformation, Loading – ETL)
Hình 9: Bộ công cụ kết xuất, chuyển đổi và tích hợp dữ liệu [11]
3 Khu vực trình bày (Data Presentation Area): Đây chính là data warehouse
database Hiện tại, phần lớn các data warehouse database đều là relational database bởi đây là loại cơ sở dữ liệu thông dụng nhất hiện nay trên thị trường Dữ liệu trong
Trang 27relational database được tổ chức theo dạng hình sao (star schema), về cơ bản tức là
mô phỏng tính đa chiều trong relational database Data warehouse database có thể được tổ chức dưới dạng cube, tức là đa chiều theo đúng nghĩa và theo các chủ đề (data mart) để phục vụ dữ liệu cho quá trình Data mining Cho dù được lưu trữ theo kiểu gì, nguyên tắc thiết kế đa chiều là giống nhau giữa 2 loại database
4 Công cụ truy cập dữ liệu (Data Access Tools): Kho dữ liệu cho phép người
dùng ở mức quản lý, ra quyết định thực hiện các phép phân tích tương tác với data bằng hệ thống xử lý phân tích trực tuyến (online analytical processing - OLAP) Ngoài ra kho dữ liệu cũng được dùng cho báo cáo, data mining và phân tích thống
kê Database và kho dữ liệu, do đó chỉ khác nhau về mặt khái niệm, một cơ sở dữ liệu nếu dùng riêng cho các mục đích trên cũng được coi là kho dữ liệu
1.2.5 Tổng quan về Data Mart
1.2.5.1 Giới thiệu Data Mart
Data Mart là một dạng thu nhỏ của kho dữ liệu, nếu kho dữ liệu mô tả thông tin của một tổ chức thương mại thì Data Mart mô tả thông tin cho từng phòng ban của tổ chức đó (phòng kinh doanh, phòng nhân sự, …)
1.2.5.2 Các kiểu Data Mart
➢ Data mart phụ thuộc (Dependent Data Mart): Chứa những dữ liệu được lấy từ
DW và những dữ liệu này sẽ được trích lọc và tinh chế, tích hợp lại ở mức cao hơn để phục vụ một chủ đề nhất định của Data Mart
➢ Data mart độc lập (Independent Data Marts): Không giống như Data Mart phụ thuộc, Data mart độc lập được xây dựng trước DW và dữ liệu được trực tiếp lấy từ các nguồn khác nhau
➢ Data Mart lai (Hybrid Data Mart): Một Data Mart lai cho phép kết hợp các đầu vào từ các nguồn khác hơn so với một kho dữ liệu duy nhất Điều này có thể hữu ích trong nhiều tình huống, đặc biệt là khi cần tích hợp đặc biệt, chẳng hạn như sau khi một nhóm mới hoặc sản phẩm được bổ sung
Trang 28Kết chương
Trong chương này, tác giả đã giới thiệu tổng quan về về hệ thống BI và kiến trúc tổng thể của kho dữ liệu Data warehouse Các loại kiến trúc Data warehouse hiện đang sử dụng Phần này tập trung vào việc giới thiệu các đặc trưng của kho dữ liệu, các thành phần cơ bản trong kho dữ liệu Data warehouse Chương sau sẽ đề cập đến việc xử lý phân tích trực tuyến OLAP, để thể hiện được những khả năng phân tích thông tin thì tập trung nghiên cứu các phương pháp xử lý đa chiều OLAP dùng trong phân tích dữ liệu trong kho dữ liệu Data warehouse
Trang 29Chương 2 TỔNG QUAN VỀ OLAP
Mở chương
Nội dung của chương là tìm hiểu về khái niệm OLAP, khái niệm về mô hình
dữ liệu đa chiều, và mô hình thiết kế kho dữ liệu để ứng dụng OLAP Tiếp theo trình bày về các mô hình dữ liệu đa chiều Cuối cùng là giới thiệu sơ qua về Dashboard
2.1 Định nghĩa OLAP
OLAP (Online Analytical Processing) là một thành phần quan trọng trong hệ
hỗ trợ ra quyết định, giúp các nhà quản lý có cái nhìn đa chiều, trên nhiều khía cạnh của một vấn đề với lượng dữ liệu lớn, từ đó đưa ra các quyết định chính xác và kịp thời, nâng cao lợi thế cạnh tranh cho doanh nghiệp OLAP là một công nghệ cho phép người sử dụng dễ dàng và linh động trong việc kết xuất và xem dữ liệu đa chiều, từ nhiều góc độ khác nhau [14]
Ứng dụng kỹ thuật OLAP được dùng vào việc hỗ trợ ra quyết định cho các nhà quản lý và hoạch định cho công việc trong tương lai của doanh nghiệp Nó là công cụ trả lời các truy vấn phân tích đa chiều một cách nhanh chóng, cung cấp giao diện đồ họa thân thiện với người dùng, và những gì người dùng cần làm là kéo và thả các dimension và measures bằng chuột, sau đó các dữ liệu truy vấn sẽ được hiển thị trên giao diện
OLAP cho phép người dùng quan sát dữ liệu trên nhiều phương diện khác nhau, ở các mức độ chi tiết khác nhau OLAP cung cấp một số tính năng cho phép thực hiện điều đó, cụ thể:
Trang 30Hình 10: Các tính năng của OLAP [14]
Trang 31-Tính năng nhìn xa (roll-up)
Hình 11: Roll-up [14]
Biến tiêu chí từ mức chi tiết sang mức tổng hợp để hiển thị cho người dùng, được thực hiện khi đi từ mức thấp lên mức cao trong cây phân cấp hoặc giảm số cắt lớp xuống Hình 11 là ví dụ cho tính năng nhìn xa này khi cắt lớp Thị trường chuyển từ mức thành phố lên mức quốc gia, giá trị các lớp cắt thành phố của một quốc gia được cộng dồn vào thành giá trị kết quả
- Tính năng đào sâu (drill-down)
Hình 12: Drill-down [14]
Trang 32Drill-down thực hiện ngược lại với nhìn xa, tức là đi từ mức tổng hợp cao đến mức chi tiết hơn Ví dụ như trong hình 12, cắt lớp Thời gian đi từ mức quý xuống mức các tháng trong quý
- Tính năng đảo chiều (pivot hoặc rotate)
Hình 13: Pivot [14]
Với tính năng đảo chiều biến hàng thành cột, cột thành hàng giúp cung cấp cho người dùng một cách thể hiện dữ liệu khác Ví dụ: Hình 13 chuyển dữ liệu các sản phẩm từ hàng thành cột, các cột thành phố trở thành giá trị hàng
- Tính năng cắt lát mỏng (slice):
Hình 14: Slice [14]
Trang 33Slice thực hiện cắt lấy dữ liệu một lớp cắt cụ thể trong một cắt lớp Ví dụ như hình 14 chỉ duy nhất dữ liệu của Quý 1(Q1) được hiển thị
- Tính năng cắt khối (dice)
Hình 15: Dice [14]
Dice thực hiện lựa chọn giá trị cho ít nhất hai lớp cắt Ví dụ như hình 15 là cube thể hiện dữ liệu cho thành phố Toronto và Vancouver trong quý 1 (Q1) và quý
2 (Q2) với các các sản phẩm “home entertainment” và “computer”
Ngoài 5 tính năng cơ bản trên, các bộ công cụ OLAP trên thị trường cũng cung cấp thêm một loạt các tính năng hỗ trợ khác như các phép toán số học, thống
kê, các phép toán kinh tế…
2.2 Mô hình dữ liệu đa chiều
Kho dữ liệu và các hệ thống OLAP được xây dựng dựa vào mô hình dữ liệu đa chiều Mô hình này cho hiệu năng tốt trên những phép truy vấn phức tạp và giúp người dùng có thể nhìn dữ liệu theo nhiều khía cạnh khác nhau Mô hình này hiển thị dữ liệu dưới dạng không gian n-chiều, gọi là data cube hoặc hypercube Dữ liệu trong OLAP được tổ chức theo kiểu đa chiều (multi-dimensional dataset) giúp người dùng có thể nhìn dữ liệu theo nhiều khía cạnh khác nhau
Trang 34Ví dụ: Phân tích số liệu bán hàng, có 3 chiều cắt lớp là Thị trường, Thời gian
Cùng với cắt lớp, các ô (cell) của một cube chứa các giá trị dạng số và được gọi là tiêu chí (measure) Mô hình đa chiều yêu cầu việc thực hiện các phép toán số học (cộng, trừ, nhân, chia) trên các tiêu chí này mà ý nghĩa của số liệu vẫn chính xác Ví dụ trong hình 9 trên, khối cube có 1 tiêu chí là Doanh số Thông thường một cube sẽ có nhiều tiêu chí khác nhau Khối cube ở hình 16 mặc dù không hiển thị nhưng có thể có tiêu chí Số lượng (số sản phẩm bán ra) nữa
Trang 352.3 Mô hình thiết kế kho dữ liệu
Trong hệ thống OLAP, dữ liệu đa chiều được lưu trữ dưới dạng bảng quan hệ,
tổ chức theo cấu trúc đặc biệt theo lược đồ hình sao, lược đồ hình bông tuyết, lược
đồ ánh sao và lược đồ chòm sao như sau:
➢ Lược đồ hình sao (star schema) bao gồm duy nhất một bảng số liệu và nhiều bảng cắt lớp (mỗi bảng cho một cắt lớp) Các thực thể trong lược đồ hình sao không được chuẩn hoá như cơ sở dữ liệu nghiệp vụ (các thực thể có cấu trúc phân cấp được nhập chung vào làm một)
Hình 17: Lược đồ hình sao [14]
➢ Lược đồ hình bông tuyết (snowflake schema) giảm bớt dư thừa dữ liệu trong lược đồ hình sao bằng cách chuẩn hoá các bảng cắt lớp Do đó, một thực thể cắt lớp có phân cấp sẽ được thể hiện thành nhiều bảng dữ liệu khác nhau, mỗi bảng một cấp Hình 18 là lược đồ hình bông tuyết, trong đó cắt lớp Location được thể hiện qua 2 bảng dữ liệu Location và City
Trang 36Hình 18: Lược đồ hình bông tuyết [14]
➢ Lược đồ ánh sao (Starflake schema) là sự kết hợp giữa lược đồ hình sao và lược
đồ hình bông tuyết khi một số cắt lớp được chuẩn hoá trong khi một số khác thì không
➢ Lược đồ chòm sao (Constellation schema) là lược đồ thông dụng nhất trong thiết kế kho dữ liệu, là lược đồ trong đó các bảng số liệu dùng chung cắt lớp với nhau Ví dụ hình 13 bên dưới hai bảng Sales và Shipping sử dụng chung Time, Item và Location
Hình 19: Lược đồ chòm sao [14]
Trang 372.4 Các mô hình dữ liệu đa chiều OLAP
Căn cứ vào cách thức lưu trữ dữ liệu, người ta thường tiếp cận mô hình dữ liệu
đa chiều theo 3 hướng sau:
➢ OLAP kiểu quan hệ (Relational OLAP - ROLAP) lưu trữ dữ liệu trong cơ sở
dữ liệu quan hệ, dùng câu lệnh SQL để thực hiện các tính năng của OLAP
➢ OLAP đa chiều (Multi cắt lớp OLAP - MOLAP) lưu trữ dữ liệu dưới dạng file có cấu trúc đặc thù (ví dụ như cấu trúc dạng mảng (array)) và thực hiện các tính năng OLAP trên cấu trúc này Mặc dù bị hạn chế về lượng dữ liệu lưu trữ và xử lý được so với ROLAP, MOLAP thường cho hiệu năng tốt hơn trong các phép truy vấn hoặc tổng hợp số liệu (vì dữ liệu được thiết kế tối ưu cho truy vấn OLAP trong khi ROLAP phải thông qua cơ sở dữ liệu)
➢ OLAP lai (Hybrid OLAP - HOLAP) kết hợp 2 công nghệ ROLAP và MOLAP nói trên, tận dụng khả năng lưu trữ của OLAP và khả năng xử lý của MOLAP Ví dụ HOLAP sẽ lưu dữ liệu chi tiết trên cơ sở dữ liệu quan hệ còn dữ liệu tổng hợp hơn để truy vấn cho người dùng được lưu trên không gian MOLAP
2.4.1 Mô hình ROLAP
Trong mô hình ROLAP, dữ liệu được lưu trữ trên các bảng theo định dạng của CSDL quan hệ đáp ứng tốt nhất cho các truy vấn dữ liệu không thường xuyên Để giấu đi kiến trúc lưu trữ theo định dạng quan hệ và trình bày dữ liệu đa chiều, ROLAP tạo ra một lớp dữ liệu ngữ nghĩa gọi là Metadata Lớp Metadata này hỗ trợ việc ánh xạ của các chiều đến các bảng trong CSDL quan hệ đồng thời hỗ trợ việc tổng hợp và kết hợp dữ liệu Metadata được lưu trữ ngay trong CSDL quan hệ Server phân tích nằm trong tầng ứng dụng ở giữa tạo ra khối dữ liệu đa chiều động cho tầng trình bày ở phía trên Hệ thống đa chiều trong tầng trình bày sẽ cung cấp khung nhìn đa chiều của dữ liệu đến người dùng Khi người dùng đưa ra câu hỏi phức tạp trên dữ liệu đa chiều, câu hỏi được chuyển trực tiếp tới CSDL quan hệ Không giống như trong mô hình MOLAP, các khối đa chiều trong mô hình ROLAP không được tạo ra và lưu trữ cố định
Trang 38Hình 20: ROLAP Model [8]
❖ Ưu điểm của ROLAP:
➢ Có thể áp dụng với hệ thống có dung lượng lớn do kích cỡ của ROLAP chính là kích cỡ của CSDL quan hệ
➢ Tiết kiệm không gian lưu trữ do dữ liệu lưu trữ trong CSDL quan hệ truyền thống ít khi trùng lặp
➢ ROLAP là kỹ thuật hiệu quả cho hệ quản trị CSDL quan hệ duy trì chức năng truyền thông của nó đồng thời thực thi được các phép toán của hệ thống OLAP
➢ Dữ liệu được chứa trong CSDL quan hệ chuẩn nên có thể được truy cập bằng bất kỳ công cụ SQL nào
❖ Nhược điểm của ROLAP:
➢ ROLAP chạy chậm do mỗi ROLAP report là câu truy vấn nguyên thủy trong CSDL quan hệ
Trang 39➢ Tất cả các tính toán của ROLAP dựa trên các hàm của SQL, vì vậy chúng không thích hợp khi mô hình có nhiều tính toán như dự toán ngân sách, báo cáo tài chính
2.4.2 Mô hình MOLAP
Trong mô hình MOLAP, dữ liệu phân tích được lưu trữ trong CSDL đa chiều chuyên dụng nhằm phục vụ tốt nhất cho các truy vấn tổng hợp dữ liệu thường xuyên cần thời gian truy xuất nhanh Số liệu tính toán trước và chiều của khối dữ liệu được lưu trong CSDL đa chiều Engine MOLAP trong tầng ứng dụng đẩy dữ liệu đa chiều từ CSDL đa chiều đến người dùng phân tích dữ liệu
Hình 21: MOLAP model [8]
❖ Ưu điểm của MOLAP:
➢ Thực thi nhanh câu truy vấn nhờ vào việc tối ưu hóa lưu trữ, lập chỉ mục đa chiều và cơ chế bộ nhớ cache
➢ Áp dụng tốt cho các hệ thống có yêu cầu tính toán phức tạp và thời gian truy xuất nhanh bởi vì tất cả các dữ liệu cần tính toán đã được thực hiện khi tạo khối dữ liệu
➢ Không sử dụng cơ chế khoá do dữ liệu là chỉ đọc
➢ Dữ liệu có thể dễ dàng sao chép đến người dùng cho phân tích offline
Trang 40❖ Nhược điểm của MOLAP:
➢ Chi phí nhiều thời gian để xử lý dữ liệu (nạp dữ liệu), đặc biệt trong trường hợp khối dữ liệu có dung lượng lớn Để khắc phục nhược điểm này các công cụ MOLAP cho phép chỉ xử lý phần dữ liệu có sự thay đổi thay vì xử
lý lại toàn bộ khối dữ liệu
➢ MOLAP lưu trữ nhiều dữ liệu dư thừa nhằm đáp ứng thời gian truy xuất nhanh
➢ Bị giới hạn bởi dung lượng dữ liệu của hệ thống do tất cả các dữ liệu tính toán trước đều được lưu trữ trong khối Điều này làm cho dữ liệu trong khối
có khuynh hướng tổng hợp hơn là chi tiết
➢ Tăng thêm chi phí do công nghệ đa chiều không có sẵn trong hệ thống nên phải đầu tư chi phí cho cả công nghệ và huấn luyện con người
2.4.3 Mô hình HOLAP
Mô hình HOLAP là sự kết hợp giữa MOLAP và ROLAP, lưu trữ các khối trong cấu trúc HOLAP là tốt nhất cho các truy vấn tổng hợp dữ liệu thường xuyên dựa trên một lượng lớn dữ liệu cơ sở Ví dụ, chúng ta sẽ lưu trữ dữ liệu bán hàng theo hàng quý, hàng năm trong cấu trúc MOLAP và dữ liệu hàng tháng, hàng tuần
và hàng ngày trong cấu trúc ROLAP
Hình 22: HOLAP model [8]