Nó cung cấp các công cụ đểđáp ứng thông tin cần thiết cho các nhà quản trị kinh doanh tại mọi cấp độ tổ chức -không những chỉ là những yêu cầu dữ liệu phức hợp, mà còn là điều kiện thuận
Trang 1Công nghệ OLAP và ứng dụng
Trang 2TRƯỜNG ĐẠI HỌC CÔNG NGHỆ KHOA CÔNG NGHỆ THÔNG TIN
Seminar
Công nghệ OLAP và ứng dụng
2.Nguyễn Tiến Đạt - 11021056
Trang 3Hà Nội, Tháng 04 năm 2012
Contents
1 Tổng quan 5
2 Ý nghĩa 6
3 Đặc điểm 6
Tính tích hợp (Intergrated ) 7
Hướng chủ đề (Subject-oriented) 7
Biến thời gian (Time variant) 7
Bền vững (Non-volatile ): 7
4 Cấu trúc 8
II OLAP 9 1 Tổng quan 9
2 Đặc điểm 10
3 So sánh OLAP và OLTP 10
4 Các mô hình tổ chức dữ liệu Olap 13
4.1 MOLAP (Multidimensional OLAP) 13
4.2 ROLAP (Relational OLAP) 14
4.3 HOLAP (Hybrid OLAP) 16
4.4 So sánh giữa các mô hình 17
III OLAP và Business Intelligence 18 1 Vai trò của OLAP trong BI 19
2 Những cách nhìn sâu sắc 19
3 Demo một ứng dụng Business Intelligence trên SQL Analyis Service 20
4 Demo một ứng dụng OALP trên Excell sử dụng SQL Analyis Service 27
Trang 6I Data Warehouse
1 Tổng quan
Kho dữ liệu (Data warehouse), gọi một cách chính xác hơn là kho thông tin(Information warehouse), là một cơ sở dữ liệu hướng đối tượng được thiết kế vớiviệc tiếp cận các ý kiến trong mọi lĩnh vực kinh doanh Nó cung cấp các công cụ đểđáp ứng thông tin cần thiết cho các nhà quản trị kinh doanh tại mọi cấp độ tổ chức -không những chỉ là những yêu cầu dữ liệu phức hợp, mà còn là điều kiện thuận tiệnnhất để đạt được việc lấy thông tin nhanh, chính xác
Figure 1: Data warehouse
Là một sự pha trộn của nhiều công nghệ, bao gồm các cơ sở dữ liệu đa chiều và mốiquan hệ giữa chúng, kiến trúc chủ khách, giao diện người dùng đồ họa,
Kho dữ liệu thường rất lớn tới hàng trăm GB hay thậm chí hàng Terabyte Kho dữliệu được xây dựng để tiện lợi cho việc truy cập theo nhiều nguồn, nhiều kiểu dữ
Trang 7liệu khác nhau sao cho có thể kết hợp được cả những ứng dụng của các công nghệhiện đại và kế thừa được từ những hệ thống đã có sẵn từ trước.
2 Ý nghĩa
Truy cập dữ liệu một cách thống nhất
Thu nhập và kết hợp thông tin
Cung cấp một khung nhìn dữ liệu tích hợp
Giao diện người dùng không thay đổi
Trang 8Data warehouse có bốn đặc điểm được mô tả như hình vẽ dưới đây
Figure 2: Đặc điểm của Data warehouse
Tính tích h p (Intergrated ) ợp (Intergrated )
Dữ liệu được tập hợp từ nhiều nguồn khác nhau trong một tổ chức/công ty
và đã được đồng nhất, sắp xếp và thu gọn Các dữ liệu cần phải chĩnh xác, chấtlượng và nhất quán Các quy ước chuẩn quá:
Quy ước đặt tên
Các thuộc tính
CÁc đơn vị đo lường
H ướng chủ đề (Subject-oriented) ng ch đ (Subject-oriented) ủ đề (Subject-oriented) ề (Subject-oriented)
Được tổ chức xung quanh các chủ đề chính, như khách hàng(customer), sản phẩm (product), bán hàng (sales)
Trang 9 Tập trung vào việc mô hình hóa và phân tích dữ liệu cho các nhà đưa
ra quyết định, mà không tập trung vào các hoạt động hay các xử lýgiao dịch hàng ngày
Cung cấp một khung nhìn đơn giản và súc tích xung quanh các sựkiện của các chủ đề
Bi n th i gian (Time variant) ến thời gian (Time variant) ời gian (Time variant)
Các dữ liệu được định nghĩa vào một thời điểm xác định và được ghi chéplại phục vụ cho việc so sánh dữ liệu theo chiều thời gian
Yêu cầu quan trong cho kho dữ liệu là phạm vi về thời gian dài hơn
so với các hệ thống tác nghiệp
o Cơ sở dữ liệu tác nghiệp: dữ liệu có giá trị hiện thời.
o Dữ liệu của kho dữ liệu: cung cấp thông tin lịch sử (ví dụ
như, 5-10 năm trước).
Yếu tố thời gian được lưu trữ trong CSDL
B n v ng (Non-volatile ): ề (Subject-oriented) ững (Non-volatile ):
Dữ liệu có thể được thêm vào như không được sửa chữa hoặc xóa bỏ.Nhằm giúp nhà quản lý có thể tổng hợp công việc kinh doanh của toàn tổchức/công ty
4 Cấu trúc
Figure 3: Cấu trúc Data warehouse
Trang 10 Một Data warehouse được cấu tạo từ một hay nhiều cube (khái niệm này sẽ đềcập ở phần sau)
Enterprise Data warehouse: tập hợp toàn bộ thông tin về các đối tượng củatoàn tổ chức/công ty Ví dụ: sản phẩm, khách hàng, doanh thu …
Data mart (kho dữ liệu chủ đề): là một tập con của Data warehouse, chỉ tậptrung vào những đối tượng được chọn
1 Tổng quan
Nếu hệ thống xử lý chuyển giao dữ liệu OLTP tập trung vào việc thu thập, lưu trữ
và biến đổi dữ liệu một cách chuẩn xác, thì OLAP tập trung vào việc sử dụng các
dữ liệu đã được biến đổi vào việc ra quyết định sản xuất kinh doanh OLAP là mộtmục trong các phần mềm cơ sở dữ liệu cung cấp giao diện qua đó người sử dụng
có thể biến đổi hoặc giới hạn các dữ liệu sơ khai tuỳ theo các hàm đã định nghĩahoặc do chính người sử dụng định nghĩa, sau đó nhanh chóng kiểm tra các kết quảtrong các chiều khác nhau của dữ liệu
Trang 11Figure 4: Vị trí của Olap
Hệ thống OLAP là một hệ thống quản lý dữ liệu giàu năng lực Nó cho phép người
sử dụng phân tích dữ liệu qua việc cắt lát (slice) dữ liệu theo nhiều khía cạnh khácnhau, khoan xuống (drill down) mức chi tiết hơn hay cuộn lên (roll up) mức tổnghợp hơn của dữ liệu Bản chất cốt lõi của OLAP là dữ liệu được lấy ra từ Datawarehouse hoặc từ Datamart sau đó được chuyển thành mô hình đa chiều và đượclưu trữ trong một kho dữ liệu đa chiều
Cụ thể, OLAP là một kỹ thuật sử dụng các thể hiện dữ liệu đa chiều gọi là cáckhối (cube) nhằm cung cấp khả năng truy xuất nhanh đến dữ liệu của kho dữ liệu.Tạo khối cho dữ liệu trong các bảng chiều (dimension table) và bảng sự kiện (facttable) trong kho dữ liệu để cung cấp khả năng thực hiện các truy vấn tinh vi vàphân tích cho các ứng dụng client
OLAP cung cấp nhiều lợi ích cho người phân tích, cho ví dụ như:
Cung cấp mô hình dữ liệu đa chiều trực quan cho phép dễ dàng lựa chọn,định hướng và khám phá dữ liệu
Cung cấp một ngôn ngữ truy vấn phân tích, cung cấp sức mạnh để khámphá các mối quan hệ trong dữ liệu kinh doanh phức tạp
Dữ liệu được tính toán trước đối với các truy vấn thường xuyên nhằm làmcho thời gian trả lời rất nhanh đối với các truy vấn đặc biệt
Cung cấp các công cụ mạnh giúp người dùng tạo các khung nhìn mới của
dữ liệu dựa trên một tập các hàm tính toán đặc biệt
Hỗ trợ tạo mô hình chức năng để dự báo, phân tích xu thế phát triển vàphân tích thống kê
Tìm kiếm và hiển thị dữ liệu dưới dạng biểu đồ, không gian 2D, 3D, …
Trang 12OLAP được đặt ra để xử lý các truy vấn liên quan đến lượng dữ liệu rất lớn mà nếu cho thực thi các truy vấn này trong hệ thống OLTP sẽ không thể cho kết quả hoặc sẽ mất rất nhiều thời gian.
2 Đặc điểm
Công nghệ OLAP có những đặc điểm chính sau:
Được biết đến như là một phần của kho dữ liệu
Cung cấp các báo cáo, phân tích tiền tính toán, các đồ thị, biểu đồ
Cho phép phân tích trực tuyến dữ liệu
Thăm dò sự tương tác dữ liệu
Cung cấp các giao diện đa dạng cho người dùng
Cung cấp khả năng phân tích dữ liệu phức tạp bằng phương thức đơn giản
Figure 5: OLAP và OLTP
Đặc trưng của các ứng dụng OLTP (On-Line Transaction Processing) là các tác vụ
xử lý tự động ghi chép dữ liệu xử lý tác vụ của một tổ chức như ghi nhận đơn đặt
Trang 13hàng và các giao dịch ngân hàng (chúng là những công việc hàng ngày của tổ chứcthương mại) mà cần phải đọc hoặc cập nhật một vài mẩu tin dựa trên khoá chínhcủa chúng Những tác vụ đó có cấu trúc, được lặp lại, bao gồm các giao dịch ngắn,tối giản và tách biệt, yêu cầu dữ liệu chi tiết và mới cập nhật Các cơ sở dữ liệu tácnghiệp có xu hướng từ vài trăm megabyte đến hàng gigabyte kích thước và chỉ lưutrữ các dữ liệu hiện hành Tính nhất quán và khả năng phục hồi của cơ sở dữ liệu
là then chốt, và tối đa thông lượng giao dịch là thước đo chính yếu Vì thế cơ sở
dữ liệu được thiết kế để tối thiểu các xung đột trùng lắp
Table 1: OLTP và OLAP
OLTP System OLAP System
Data
source
Các dữ liệu toán tử, là những dữ liệu gốc
được chuẩn hóa theo các chuẩn
Dữ liệu hợp nhất từ nhiều các kiểu dữ liệu của
hệ thống OLTP
Mục đích Điều khiển và chạy những tiến trình giaodịch cơ bản Hỗ trợ người dùng với các kế hoạch cụ thể,giải quyết sự cố và hộ trợ quyết định
Dữ liệu
đầu ra
Đưa ra một khung nhìn về các tiến trình
giao dịch đang xảy ra
Các nhìn đá chiều về nhiều kiểu hoạt động giao dịch
Insert và
Update
Chèn và update dữ liệu rất nhanh được
thực thi bởi người dùng
Thực hiện một cách định kì, dài hạn trong việc làm mới lại dữ liệu
Truy vấn Các quy vấn đơn giản hoặc các truy vấnquan hệ, trả về một số bản ghi Các truy vấn phức tạp liên quan đến việc tổnghợp dữ liệu
Tốc độ xử
lý
Rất nhanh Phụ thuộc vào khối lượng dữ liệu, xử lý dữ
liệu theo khối và các truy vấn phức tập có thể mất nhiều giờ xử lý (có thể cải thiện bằng các thuật toán indexing)
Không
gian lưu
trữ
Có thể là nhỏ Lớn do sự tồn tại của các cấu trúc tổng hợp và
các dữ liệu thời gian trước, cần nhiều địa chỉ hơn OLTP
Database
design
Thông thường là các bảng Một số các bảng; sử dụng các giản đồ hình sao
hay bông tuyết
Backup Sao lưu một cách cẩn thận, các dữ liệu Không cần sử dụng các kĩ thuật backup thông
Trang 144 Các mô hình tổ chức dữ liệu Olap
4.1 MOLAP (Multidimensional OLAP)
Mô hình MOLAP lưu trữ dữ liệu cơ sở (là dữ liệu từ các bảng của kho dữ liệu) và thông tin tổng hợp (là các độ đo được tính toán từ các bảng) trong các khối (cube)
Trang 15Figure 6: HOLAP
Dữ liệu được tìm thấy tại điểm giao của các chiều được mô tả như hình dưới đây:
Figure 7: HOLAP cue
Dữ liệu trong MOLAP cần phải được process sau một thời g nhất định để cập nhậtlại những dữ liệu mới trong Data Warehouse
MOLAP thích hợp cho các truy vấn tổng hợp dữ liệu theo thời gian dài
Ví dụ: tổng hợp doanh thu của từng chi nhánh trong vòng 2 năm trở lại
4.2 ROLAP (Relational OLAP)
Mô hình OLAP quan hệ (ROLAP) lưu trữ dữ liệu cơ sở và thông tin tổng hợptrongcác bảng quan hệ:
Trang 16Figure 8: ROLAP
Dữ liệu được tìm thấy tại điểm giao của 1 cột và 1 hàng
Figure 9: ROLAP Data
Có hai kiểu mô hình dữ liệu tỏng ROLAP:
a Lược đồ hình sao (star) mỗi một chiều chỉ được xây dựng từ một bảng chiều
Trang 17Figure 10: Lược đồ hình Sao (Star)
b Lược đồ hình bông tuyết (snowflake): mỗi chiều được xây dựng từ nhiều bảng chiều
Figure 11: Lược đồ Snowflake
ROLAP thích hợp cho các truy vấn dữ liệu theo thời gian thực (xảy ra thường xuyên và đòi hỏi độ chính xác tức thời)
• Ví dụ: xem thông tin chứng khoán
Trang 184.3 HOLAP (Hybrid OLAP)
Là mô hình OLAP lai (HOLAP) là sự kết hợp giữa MOLAP và ROLAP
Figure 12: HOLAP
HOLAP là mô hình lai giữa MOLAP và HOLAP, kết hợp những ưu điểm và loại
bỏ những khuyết điểm của 2 mô hình trên nhằm tạo ra một mô hình tối ưu
Lưu trữ các khối (cube) trong cấu trúc HOLAP là tốt nhất cho các truy vấn tổnghợp dữ liệu thường xuyên dựa trên một lượng lớn dữ liệu cơ sở Ví dụ, chúng ta sẽlưu trữ dữ liệu bán hàng theo hàng quý, hàng năm trong cấu trong MOLAP và dữliệu hàng tháng, hàng tuần và hàng ngày trong cấu trúc ROLAP
Lợi ích của việc lưu trữ trong cấu trúc HOLAP là:
• Lưu dữ liệu tổng hợp trong Cube (theo MOLAP) để tăng tốc độ xử lý các truy vấn phức tạp
• Lưu trữ dữ liệu cơ sở trong các bảng quan hệ (theo ROLAP) nhằm tiết kiệm không gian lưu trữ
Ví dụ: Trong một công ty chứng khoán:
Dữ liệu về thông tin nhân viên, doanh thu của 2 năm trở
về trước => lưu trong cube
Dữ liệu về thông tin chứng khoán, giá cổ phiếu hằng ngày
=> lưu trong bảng quan hệ
Tối ưu hóa được vấn đề lưu trữ và xử lý của hệ thống
Trang 194.4 So sánh giữa các mô hình
Table 2: So sánh giữ các mô hình OLAP
Lưu trữ dữ liệu cơ sở Khối Bảng quan hệ Bảng quan hệ Lưu trữ thông tin tổng hợp Khối Bảng quan hệ Khối
Hiệu suất thực hiện truy vấn Nhanh nhất Chậm nhất Nhanh
Tiêu thụ không gian lưu trữ Nhiều Thấp Trung bình
Chọn mô hình nào cần dựa vào hiệu suất, mục đích khai thác, và lượng dữ liệu,… (ví
dụ MOLAP: thích hợp với data marts <50 GB, ROLAP: lượng dữ liệu có thể lớn hơn)
Trang 20III OLAP và Business Intelligence
Trong giai đoạn triển khai một dự án BI, xử lý phân tích trực tuyến (OLAP) đãluôn luôn được các công ty phân tích của sự lựa chọn Với các báo cáo được gửiđến người tiêu dùng nói chung, OLAP được coi là một công cụ hỗ trợ cực tốt chongười sử dụng để xác định xu hướng và thu được những phân tích sâu hơn từ cáctập dữ liệu lớn Cho đến gần đây, chỉ có người dùng cao cấp BI mới có thể khaithác những lợi ích thực sự của OLAP do sự phức tạp của nó Với sự phát triển củalĩnh vực BI, sự đa dạng của các giải pháp có sẵn, và người tiêu dùng luôn phải đốimặt với các ứng dụng lớn, thì OLAP luôn có khả năng được người dùng doanhnghiệp áp dụng trong các dự án BI của họ
Figure 13: BI Processes
Với các ứng dụng BI mở rộng để giải quyết các nhu cầu của người dùng doanhnghiệp mà không có kỹ thuật sử dụng công nghệ, luôn có các loại phân tích có sẵncho tất cả mọi người trong doanh nghiệp Do khả năng sắp xếp và bố trí tốt hơncác mục tiêu chiến lược với hiệu suất kinh doanh tổng thể, điều này dẫn tới tỷ lệhoàn vốn nhiều hơn Lý do đằng sau này là khi mọi người trong tổ chức có quyềntruy cập cá dữ liệu thông tin rộng lớn hơn một cách dễ dàng và khi họ có thể hỏi
và trả lời các câu hỏi tương tác mà không cần phải có một bên thứ ba làm nhiệm
vụ phân tích đánh giá – Điều này không chỉ làm các nhân viên cảm thấy được traoquyền nhiều hơn trong vai trò công ty của họ, mà còn thúc đẩy họ nghiên cứu sâu
Trang 21hơn và trở nên chuyên nghiệp hơn vào những gì đang xảy ra trong công ty Điềunày sẽ dẫn đến hiệu quả trong việc quản lý thời gian và ra quyết định.
Để đạt được những lợi ích, các tổ chức đầu tiên phải hiểu rõ vai trò của OLAPtrong một khuôn khổ rộng lớn hơn việc tình báo kinh doanh Thứ hai, các doanhnghiệp nên có thể trao đổi những lợi ích họ nhận được của BI Và cuối cùng, cáccông ty yêu cầu các nhà quản lý rằng các công cụ OLAP có thể được rộng rãi ápdụng trong các tổ chức, và giúp tạo ra sự hợp tác giữa các tổ chức
1 Vai trò của OLAP trong BI
OLAP đóng vai trò quan trọng trong phân tích BI Với OLAP, tổ chức có thểthực hiện các phân tích đa chiều để xem thông tin theo thời gian hoặc để tích hợpcác nguồn dữ liệu khác nhau tạo ra một điểm gắn kết của tổ chức Mặc dù một sốcông ty không yêu cầu nhận biết các cách nhìn sâu sắc vào chiều sâu trên cơ sởnhư vậy, hầu hết các doanh nghiệp sử dụng BI được thu hút bằng cách sử dụngmột số mức độ phân tích tiên tiến, cho dù là mô hình tiên đoán, xác định rủi rohoặc thực hiện dự án dựa trên xu hướng được nội ra từ trong quá khứ
Nhìn chung, OLAP đưa ra các cách nhìn nhiều chiều sâu dữ liệu theo từng cấpbậc Khả năng phân tích dữ liệu đa chiều và thu được những cái nhìn xuyên suốtdẫn tới việc quản lý của doanh nghiệp trở nên tốt hơn, bởi vì điều này đã cung cấpcho các công ty những thông tin ngoài sự mong đợi mà không dễ dàng gì truynhập được Với những dữ liệu không thực tế, chúng ta không biết được câu hỏinào phải hỏi Khi thông tin có giá trị và khả năng tính toán nó, khoảng cách có thểđược nhận ra, điều này dẫn tới cái nhìn sâu sắc hơn về những vấn đề xảy ra trong
tổ chức Mặc dù những trí tuệ kinh doanh thông thường có khả năng hiển thị dữliệu rộng hơn và những hiểu biết sâu hơn vào hiệu suất, OLAP đã tạo ra một bước
đi mới để giúp những người có tầm nhìn vượt qua giới hạn hiện tại trong BI
2 Những cách nhìn sâu sắc
Rõ ràng, BI và OLAP đang có dự liên kết sâu sắc Trường hợp cần tạo các bảnbáo cáo, BI cung cấp cái nhìn ban đầu sơ khai về hiệu suất hàng ngày, và OLAPnhìn vào bức tranh rộng lớn hơn ở cấp độ vi mô Mặc dù điều này có vẻ trực quan,thực tế là nhiều tổ chức không thể giải thích BI giá trị sẽ mang lại cho công ty, vànhững người khác không thể giải mã các ROI thực tế đạt được thông qua việc sửdụng BI Sau cùng, các báo cáo không cung cấp một cái nhìn thường xuyên hoặc