1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tiểu luận môn Hệ hỗ trợ quyết định PHÂN TÍCH DỮ LIỆU TRỰC TUYẾN (OLAP) XÂY DỰNG HỆ TRỢ GIÚP QUYẾT ĐỊNH DỰA VÀO DỮ LIỆU

44 442 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 44
Dung lượng 2,04 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Sử dụng các hệthống này, chúng ta sẽ gặp rất nhiều khó khăn và bất tiện trong việc tổ chức dữ liệu đachiều và các bảng hai chiều, không thể triển khai dữ liệu phân tích với số lượng lớn,

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

BÀI THU HOẠCH MÔN

HỆ HỖ TRỢ RA QUYẾT ĐỊNH

ĐỀ TÀI :

PHÂN TÍCH DỮ LIỆU TRỰC TUYẾN (OLAP) XÂY DỰNG HỆ

TRỢ GIÚP QUYẾT ĐỊNH DỰA VÀO DỮ LIỆU

Giáo viên hướng dẫn : Học viên thực hiện :

PGS.TS.ĐỖ PHÚC Nguyễn Võ Thông Thái

MSHV : CH1301053

Trang 2

TPHCM, 06/2014

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

BÀI THU HOẠCH MÔN

HỆ HỖ TRỢ QUYẾT ĐỊNH

ĐỀ TÀI :

PHÂN TÍCH DỮ LIỆU TRỰC TUYẾN (OLAP) XÂY DỰNG HỆ

TRỢ GIÚP QUYẾT ĐỊNH DỰA VÀO DỮ LIỆU

TPHCM - 2014

Trang 3

CHƯƠNG 1: MỞ ĐẦU

1.1 Giới thiệu đề tài

Các hoạt động sản xuất, kinh doanh hiện nay luôn cần có sự đáp ứng nhanh nhạy,tức thời đối với các thay đổi liên tục, vì vậy các nhà quả lý buộc phải thường xuyên racùng lúc nhiều quyết định đúng đắn (mà chúng sẽ ảnh hưởng đáng kể đến xu hướng hoạtđộng và sự cạnh tranh của doanh nghiệp) một cách nhanh chóng Do đó vấn đề trợ giúpquyết định trở nên rất cần thiết Người ta cần phải thu thập, tổng hợp và phân tích dữ liệu

từ nhiều nguồn khác nhau một cách nhanh chóng và hiệu quả thì mới có thể ra đượcnhững quyết định nhanh chóng và phù hợp Điều này dẫn đến việc cần phát triển những

hệ thống thông tin biết cách làm thế nào để trích chọn và phân tích dữ liệu cho người sửdụng

Hiện nay có rất nhiều phần mềm cung cấp cho người sử dụng những khả năng truyvấn và lập các báo cáo thông tin, đặc biệt là các hệ quản trị CSDL quan hệ Tuy nhiênCSDL quan hệ với cấu trúc hai chiều (dòng và cột) không được thiết kế để cung cấp cácquan điểm đa chiều trên dữ liệu đầu vào của các phân tích phức tạp Sử dụng các hệthống này, chúng ta sẽ gặp rất nhiều khó khăn và bất tiện trong việc tổ chức dữ liệu đachiều và các bảng hai chiều, không thể triển khai dữ liệu phân tích với số lượng lớn, công

cụ phân tích để tạo ra các dữ liệu quyết định không mạnh, thuận tiện, linh hoạt, nhanhchóng và nhất là không dễ dàng để sử dụng đối với các nhà quản lý, những người raquyết định

Như vậy, việc xây dựng một hệ thống mới có khả năng tổ chức dữ liệu đa chiều và

có khả năng phân tích dữ liệu linh hoạt để trả lời được các truy vấn đa chiều một cách dễdàng, nhanh chóng nhằm hỗ trợ cho việc ra quyết định của các nhà quản lý là cần thiết

Trang 4

Về nghiên cứu tài liệu: tìm hiểu các khái niệm và các kiến thức có liên trên các

sách chuyên ngành, các bài báo đăng trên các tạp chí khoa học ,…

1.4 Bố cục bài thu hoạch

Nội dung của bài thu hoạch bao gồm 5 chương:

Chương 1: Mở đầu Chương 2: Giới thiệu khai thác dữ liệu và xử lý phân tích trực tuyến Chương 3 : Lý thuyết về kho dữ liệu và mô hình kho dữ liệu

Chương 4: Giới thiệu Hệ trợ giúp quyết định dựa vào dữ liệu Chương 5 : Xây dựng Demo.

Trang 5

CHƯƠNG 2: KHAI THÁC DỮ LIỆU VÀ XỬ LÝ PHÂN TÍCH TRỰC TUYẾN 2.1 Giới thiệu

Khai thác dữ liệu là quá trình phát hiện ra những mối quan hệ liên thuộc, các mô

hình và các khuynh hướng mới (Patterns & Trends) bằng việc khảo sát một số lượng lớn

dữ liệu được lưu trữ trong các kho (Repository) sử dụng các công nghệ về nhận dạng mẫu

cũng như các kỹ thuật thống kê và toán học Khai thác dữ liệu có thể hiểu là kỹ thuậtkhoan dữ liệu theo chiều sâu và tổng hợp dữ liệu theo chiều ngược lại, là quá trình đàoxới xem xét dữ liệu dưới nhiều góc độ nhằm tìm ra các mối liên hệ giữa các thành phần

dữ liệu và phát hiện ra những xu hướng, hình mẫu, kinh nghiệm quá khứ tiềm ẩn trongkho dữ liệu Vì vậy nó rất phù hợp với mục đích phân tích dữ liệu hỗ trợ điều hành và raquyết định

Sự phát triển nhanh chóng của một lượng lớn dữ liệu được thu thập và lưu trữtrong các CSDL lớn đã vượt ra ngoài khả năng của con người có thể hiểu được chúng nếukhông có những công cụ hỗ trợ tốt Tình huống này đã đặt chúng ta trong hoàn cảnhnhiều dữ liệu nhưng thiếu thông tin, thiếu tri thức Với một khối lượng lớn dữ liệu nhưvậy rõ ràng là các phương pháp thủ công truyền thống áp dụng để phân tích dữ liệu nhưchia bảng không còn là phù hợp nữa Chính vì vậy, có một kỹ thuật mới ra đời đó là

“Khai phá dữ liệu”

Phần lớn các phương pháp khai thác dữ liệu đều dựa trên các lĩnh vực như máyhọc, thống kê và các công cụ khác Một số kỹ thuật thường dùng là mạng Nơ-ron(Neuron Network), giải thuật di truyền (Genetic Algorithms) và xử lý phân tích trựctuyến (OLAP)

OLAP là việc sử dụng kho dữ liệu cho mục đích trợ giúp quyết định Ý tưởng môphỏng các chiều trong dữ liệu có thể được mở rộng; một bảng với n thuộc tính có thểđược xem như một không gian n chiều Người quản lý thường đặt những câu hỏi mà cóthể phân tích trong những phân tích đa chiều Các thông tin này không phải dễ phân tíchkhi bảng được biểu diễn hai chiều và CSDL quan hệ chuẩn không thể đáp ứng tốt côngviệc này Trong trường hợp như vậy, sử dụng OLAP tỏ ra thích hợp

Cũng có một sự khác nhau giữa công cụ OLAP và khai thác dữ liệu đó là công cụ

OLAP không thể “học”, chúng không thể tạo nên tri thức mới và không tìm kiếm được

giải pháp mới Như vậy có sự khác nhau cơ bản giữa tri thức đa chiều và kiểu tri thứcmới mà một người có thể lấy ra được từ một CSDL thông qua khai thác dữ liệu

Trang 6

Nói tóm lại: khai phá dữ liệu là một bước trong quy trình phát hiện tri thức gồm cócác thuật toán khai thác dữ liệu chuyên dùng dưới một số quy định về hiệu quả tính toánchấp nhận được để tìm ra các mẫu hoặc các mô hình trong dữ liệu Phát hiện tri thứctrong các cơ sở dữ liệu là một qui trình nhận biết các mẫu hoặc các mô hình trong dữ liệuvới các tính năng: hợp thức, mới, khả ích, và có thể hiểu được

2.2 Các phương pháp khai phá dữ liệu

2.1.1 Phân lớp dữ liệu

Mục tiêu của phân lớp dữ liệu đó là dự đoán nhãn lớp cho các mẫu dữ liệu Quátrình gồm hai bước: xây dựng mô hình, sử dụng mô hình để phân lớp dữ liệu (mỗi mẫumột lớp)

2.1.4 Hồi quy

Phương pháp hồi quy tương tự như là phân lớp dữ liệu Nhưng khác ở chỗ nó dùng

để dự đoán các giá trị liên tục còn phân lớp dữ liệu dùng để dự đoán các giá trị rời rạc

2.1.5 Giải thuật di truyền

Là quá trình mô phỏng theo tiến hoá của tự nhiên Ý tưởng chính của giải thuật làdựa vào quy luật di truyền trong biến đổi, chọn lọc tự nhiên và tiến hoá trong sinh học

2.1.6 Mạng nơron

Đây là một trong những kỹ thuật khai phá dữ liệu được ứng dụng phổ biến hiệnnay Kỹ thuật này phát triển dựa trên một nền tảng toán học vững vàng, khả năng huấnluyện trong kỹ thuật này dựa trên mô hình thần kinh trung ương của con người

2.1.7 Cây quyết định

Trang 7

Kỹ thuật cây quyết định là một công cụ mạnh và hiệu quả trong việc phân lớp và

dự báo Các đối tượng dữ liệu được phân thành các lớp Các giá trị của đối tượng dữ liệuchưa biết sẽ được dự đoán, dự báo

2.3 Xử lý phân tích trực tuyến (OLAP)

OLAP là một kỹ thuật sử dụng cách thể hiện dữ liệu đa chiều gọi là các khối

(cube) nhằm cung cấp khả năng truy xuất nhanh đến dữ liệu của kho dữ liệu Tạo khối cho dữ liệu trong các bảng chiều (dimension table) và bảng sự kiện (fact table) trong kho

dữ liệu và cung cấp khả năng thực hiện các truy vấn tinh vi và phân tích cho các ứngdụng khách

OLAP được đặt ra để xử lý các truy vấn liên quan đến lượng dữ liệu rất lớn mànếu cho thực thi các truy vấn này trong hệ thống OLTP sẽ không thể cho kết quả hoặc sẽmất rất nhiều thời gian

OLAP là một công nghệ phân tích dữ liệu thực hiện những công việc sau :

Khung nhìn này hoàn toàn không phụ thuộc vào việc dữ liệu được lưu trữ nhưthế nào (có thể được lưu trữ trong một kho dữ liệu nhiều chiều hay một kho dữliệu quan hệ)

thường là phức tạp, liên quan tới việc khoan sâu xuống những mức dữ liệu chitiết hơn hoặc cuộn lên những mức dữ liệu cao hơn ở mức tổng hợp hoặc kếthợp

biến đổi … liên quan tới những đại lượng số hoặc dữ liệu là con số qua nhiềuchiều

và phân tích thống kê

đồ thị, dễ dàng xoay đổi các trục cho nhanh Khả năng xoay là quan trọng vìngười sử dụng cần phân tích dữ liệu từ những các nhìn khác nhau và sự phântích mỗi cách nhìn sẽ dẫn đến một câu hỏi khác, câu hỏi sẽ được kiểm tra tínhđúng đắn dựa trên một cách nhìn khác về dữ liệu đó

Trang 8

 Đáp ứng những câu trả lời nhanh vì vậy quá trình phân tích không bị cắt ngang

và thông tin không bị cũ

mảng lưu trữ những phần tử cùng kiểu khác với bản ghi là các phần tử kháckiểu nhau ) Những mảng này là sự biểu diễn Logic của các chiều công việc

Hình 2.1 : Mô hình cấu trúc OLAP

2.4 Cấu trúc OLAP

Khối (Cube) : Khối là phần tử chính trong xử lý phân tích trực tuyến, là tập con

dữ liệu từ kho dữ liệu, được tổ chức và tổng hợp trong các cấu trúc đa chiều Để xác địnhmột khối, em chọn một bảng Fact và các đơn vị đo lường đồng nhất (các cột số theo sựquan tâm của người dùng khối) trong bảng Fact Sau đó chọn các chiều, mỗi chiều gồmmột hay nhiều cột từ bảng liên quan khác Các chiều cung cấp mô tả rõ ràng bởi các đơn

vị đo lường được chia ra của người dùng khối

Chiều (Dimension) : Các chiều là cách mô tả chủng loại mà theo đó các dữ liệu

số trong khối được phân chia để phân tích Khi xác định một chiều, chọn một hoặc nhiềucột của một trong các bảng liên kết (bảng chiều) Nếu chọn các cột phức tạp thì tất cả cần

Trang 9

có quan hệ với nhau, chẳng hạn các giá trị của chúng có thể được tổ chức theo hệ thốngphân cấp đơn Để xác định hệ thống phân cấp, sắp xếp các cột từ chung nhất tới cụ thể

nhất Ví dụ: một chiều thời gian (Time) được tạo ra từ các cột Năm, Quý, Tháng, Ngày (Year, Quarter, Month và Day) Mỗi cột trong chiều góp phần vào một cấp độ cho chiều.

Các cấp độ được sắp đặt theo nét riêng biệt và được tổ chức trong hệ thống cấp bậc mà

nó thừa nhận các con đường hợp logic cho việc đào sâu (drill_down)

Chiều có phân cấp: Phân cấp là cột sống của việc gộp dữ liệu hay nói một cách

khác là dựa vào các phân cấp mà việc gộp dữ liệu mới có thể thực hiện được Phần lớncác chiều đều có một cấu trúc đa mức hay phân cấp Nếu làm những quyết định về giásản phẩm để tối đa doanh thu thì cần quan sát ở những dữ liệu về doanh thu sản phẩmđược gộp theo giá sản phẩm, tức là đã thực hiện một cách gộp Khi cần làm những quyếtđịnh khác thì cần thực hiện những phép gộp tương ứng khác Như vậy có thể có quánhiều tiến trình gộp Thế nên các tiến trình gộp này cần phải được thực hiện một cách rất

dễ dàng, linh hoạt để có thể hỗ trợ những phân tích không hoạch định trước Điều này cóthể được giải quyết trên cơ sở có sự trợ giúp của những phân cấp rộng và sâu

Roll_up và Drill_down: Dựa trên phân cấp theo chiều, từ một mức dưới, chúng

có thể cuộn lên (Roll_up) các mức trên, thực hiện một phép gộp, để có được kết quả tổnghợp hơn Và từ một mức trên, có thể khoan sâu xuống (Drill_down) các mức dưới, để cócác kết quả chi tiết hơn

Các đơn vị đo lường (Measures): Các đơn vị đo của khối là các cột trong bảng

Fact Các đơn vị đo lường xác định những giá trị số từ bảng Fact mà được tổng hợp phântích như định giá, trị giá, hoặc số lượng bán

2.5 Nguyên tắc của OLAP

2.5.1 Khung nhìn đa chiều

Đối với người thực hiện thì cách nhìn của họ với công việc là chiều về bản chất

Vì vậy mô hình OLAP phải đa chiều về bản chất Những người sử dụng có thể thao tác

dễ dàng trên những mô hình dữ liệu đa chiều như vậy

Các nhà quản lý kinh doanh có khuynh hướng suy nghĩ theo “nhiều chiều” Ví dụnhư họ có khuynh hướng mô tả những gì mà công ty làm như sau:

chúng tôi đánh giá hiệu quả thực hiện của chúng tôi qua thời gian”

Trang 10

 Những người thiết kế kho dữ liệu thường lắng nghe cẩn thận những từ đó và họthêm vào những nhấn mạnh đặc biệt của họ như:

chúng tôi đánh giá hiệu quả thực hiện của chúng tôi qua thời gian”

Suy nghĩ một cách trực giác, việc kinh doanh như một khối dữ liệu, với các nhãntrên mỗi cạnh của khối Các điểm bên trong khối là các giao điểm của các cạnh Với mô

tả kinh doanh ở trên, các cạnh của khối là Sản phẩm, Thị trường, và Thời gian Hầu hếtmọi người đều có thể nhanh chóng hiểu và tưởng tượng rằng các điểm bên trong khối làcác độ đo hiệu quả kinh doanh mà được kết hợp giữa các giá trị Sản phẩm, Thị trường vàThời gian Các chiều được phân cấp theo loại Ví dụ như chiều Thời gian có thể được mô

tả bởi các thuộc tính như Năm, Quý, Tháng và Ngày

Vì vậy, nếu mỗi chiều chứa nhiều mức trừu tượng, dữ liệu có thể được xem từnhiều khung nhìn linh động khác nhau Một số thao tác điển hình của khối dữ liệu nhưroll-up (tăng mức độ trừu tượng), drill-down (giảm mức độ trừu tượng hoặc tăng ức chitiết), slice and dice (chọn và chiếu), và pivot (định hướng lại khung nhìn đa chiều của dữliệu), cho phép tương tác truy vấn và phân tích dữ liệu rất tiện lợi Những thao tác đóđược biết như Xử lý phân tích trực tuyến

2.5.2 Tính trong suốt (Transparency)

Công cụ phân tích cần phải trong suốt đối với người sử dụng OLAP nên tồn tạitrong một kiến trúc hệ thống mở, cho phép các công cụ phân tích có thể nhúng vào bất kỳnơi nào mà người sử dụng mong muốn mà không có một sự tác động ngược lại nào vớicác chức năng của công cụ trên máy chủ

2.5.3 Khả năng truy cập ngược

Công cụ OLAP phải ánh xạ được giản đồ Logic của chính nó tới kho dữ liệu vật lýhỗn tạp, truy nhập tới dữ liệu và thực hiện mọi chuyển đổi cần thiết để đưa ra một khungnhìn đơn giản, mạch lạc và đồng nhất cho người sử dụng Dữ liệu vật lý của hệ thốngthuộc kiểu này trở nên trong suốt với người sử dụng và chỉ là mói quan tâm của công cụ

2.5.4 Kiến trúc khách/chủ (Client/Server)

Thành phần Server của các công cụ OLAP cần phải đủ thông minh đến mức mànhiều Client có thể được truy cập tới một cách dễ dàng và có thể lập trình tích hợp.Server thông minh phải có đủ khả năng để ánh xạ và xây dựng dữ liệu từ những cơ sở dữ

Trang 11

liệu vật lý và Logic khắc hẳn nhau Điều đó rất cần thiết để đảm bảo tính trong suốt vàxây dựng một lược đồ mứ khái niệm, Logic, vật lý chung

2.5.5 Cấu trúc chung cho các chiều (Generic Dimensionality)

Mỗi chiều của dữ liệu phải cân bằng giữa cấu trúc và khả năng thực hiện của nó.Thường chỉ tồn tại một cấu trúc chung cho tất cả các chiều Mọi chức năng được áp dụngcho một chiều cũng có thể áp dụng cho các chiều khác

2.5.6 Hỗ trợ nhiều người sử dụng

Những công cụ của OLAP phải cung cấp truy cập đồng thời (lấy dữ liệu và cậpnhật), tính toàn vẹn và an toàn để hỗ trợ cho những người sử dụng làm việc đồng thời vớicùng một mô hình phân tích hoặc tạo ra những mô hình khác nhau từ cùng một dữ liệu

2.5.7 Không hạn chế số chiều và các mức kết hợp dữ liệu

Một OLAP Server có thể chứa ít nhất 15 chiều trong một mô hình phân tích thôngthường nhất Mỗi chiều cho phép một số lượng không giới hạn các mức tổng hợp và kếthợp dữ liệu do người dùng định nghĩa và đưa ra cách xây dựng các mức đó

2.6 Kiến trúc khối OLAP

2.6.1 Giới thiệu dịch vụ OLAP của Microsoft SQL Server

Dịch vụ OLAP là một server tầng giữa phục vụ cho phân tích xử lý trực tuyến Hệthống dịch vụ OLAP là một công cụ mạnh trong việc xây dựng các khối đa chiều của dữliệu cho phân tích và cung cấp khả năng truy xuất nhanh đến thông tin khối cho cáckhách

Kiến trúc dịch vụ OLAP được chia thành 2 phần: Phần server (được đại diện bởiOLAP server) và phần khách (là dịch vụ PivotTable)

Trang 12

Hình 2.2 : Kiến trúc OLAP

Các đặc điểm của dịch vụ OLAP:

hiện

pháp tự động đối với “hội chứng bùng nổ dữ liệu” mà gây khó chịu cho các kỹthuật OLAP

2.6.2 So sánh OLAP với OLTP

Đặc trưng của các ứng dụng OLTP là các tác vụ xử lý tự động ghi chép dữ liệu xử

lý tác vụ của một tổ chức như ghi nhận đơn đặt hàng và các giao dịch ngân hàng mà cầnphải đọc hoặc cập nhật một vài mẩu tin dựa trên khoá chính của chúng

Kho dữ liệu, mục tiêu là hỗ trợ quyết định cho các nhà quản lý Tính chi tiết vàriêng lẻ của các mẩu tin thì ít quan trọng hơn tính lịch sử, tổng kết và hợp nhất của dữliệu

Căn cứ vào đó, các cơ sở dữ liệu tác nghiệp được xây dựng để hỗ trợ tốt các tác vụOLTP

2.6.3 Các mô hình lưu trữ hỗ trợ OLAP

Dịch vụ OLAP hỗ trợ nhiều mô hình lưu trữ dữ liệu khác nhau, mỗi mô hình cócác ưu và khuyết điểm riêng, chúng được sử dụng tuỳ theo mục đích khai thác

Trang 13

Mô hình OLAP nhiều chiều (MOLAP) lưu trữ dữ liệu cơ sở và thông tin tổng hợptrong các cấu trúc đa chiều gọi là các khối Các cấu trúc này được lưu bên ngoài cơ sở dữliệu data mart hoặc kho dữ liệu

MOLAP là một cấu trúc tối ưu cho việc lưu trữ các sự kiện đã phân loại và cùngvới nó là các chiều Dữ liệu được tổ chức theo khung nhìn dữ liệu và được lưu trữ trongmột biểu mẫu được kết hợp và tổng hợp

Lợi ích của việc lưu trữ trong cấu trúc MOLAP là:

tích mạnh hơn ROLAP

liệu đa chiều Tất cả những gì người sử dụng cần làm là xác định các chiều vàcác nhóm nằm trong các chiều đó Trong khi đó ROLAP lại yêu cầu người sửdụng phải hiểu được sự ánh xạ tới các CSDL tác nghiệp

Hình 2.3 : Mô hình cấu trúc MOLAP

Mô hình OLAP quan hệ (ROLAP) lưu trữ dữ liệu cơ sở và thông tin tổng hợptrong các bảng quan hệ Các bảng này được lưu trữ trong cùng cơ sở dữ liệu như là cácbảng của data mart hoặc kho dữ liệu Các dữ liệu được lưu trữ trong những bảng quan hệ

và có thể có kích thước hàng trăm Gigabyte

Trang 14

Lợi ích của việc lưu trữ trong cấu trúc ROLAP là:

sử dụng lại đòi hỏi những tổng hợp gần như tức thời, ROLAP sẽ là sự lựa chọnduy nhất MOLAP phải trích lấy và tổng hợp dữ liệu ngoại tuyến (Offline), hơnnữa hầu hết các cơ sở dữ liệu đa chiều đều yêu cầu tính toán lại toàn bộ CSDLkhi một chiều được thêm vào, khi một lược đồ tổng hợp thay đổi hoặc khi dữliệu mới được thêm vào Những đặc điểm này khiến cho MOLAP không thíchhợp với những hệ hỗ trợ quyết định mà nguồn dữ liệu thường xuyên biến động

MOLAP đòi hỏi việc tính toán trước dữ liệu với hàng trăm Terabyte khônggian lưu trữ

hợp từ bất kỳ nguồn dữ liệu tác nghiệp nào Tuy nhiên khả năng này lại dẫn tới

sự phức tạp khi sử dụng, trong việc ánh xạ tới các nguồn dữ liệu tác nghiệp

Hình 2.4 : Mô hình cấu trúc ROLAP

Mô hình OLAP lai (HOLAP) là sự kết hợp giữa MOLAP và ROLAP

Lợi ích của việc lưu trữ trong cấu trúc HOLAP là:

độ cao của MOLAP

Trang 15

 Tránh trùng lặp dữ liệu.

2.6.4 Kiến trúc khối OLAP

Đối tượng chính của OLAP là khối, một thể hiện đa chiều của dữ liệu chi tiết vàtổng hợp Một khối bao gồm một nguồn dữ liệu, các chiều, các độ đo và các phần dànhriêng

Kiến trúc dịch vụ OLAP gồm 2 thành phần: Server và Khách :

Dịch vụ OLAP của SQL Server cung cấp thành phần Server có khả năng tạo vàquản lý dữ liệu OLAP đa chiều, đồng thời cung cấp dữ liệu cho khách qua dịch vụPivotTable

Các thao tác của thành phần Server bao gồm việc tạo các khối dữ liệu đa chiều từkho cơ sở dữ liệu quan hệ và lưu trữ chúng trong các cấu trúc khối đa chiều (MOLAP),trong cơ sở dữ liệu quan hệ (ROLAP) hoặc kết hợp cả hai (HOLAP)

Thành phần khách là dịch vụ PivotTable giao tiếp với OLAP server và cung cấpgiao diện cho các ứng dụng khách sử dụng truy cập dữ liệu OLAP trên server Các ứngdụng khách có thể sử dụng dịch vụ PivotTable để lấy dữ liệu từ cơ sở dữ liệu OLAP

Trang 16

CHƯƠNG 3: KHO DỮ LIỆU (DATA WAREHOUSE)

Hiện nay hầu hết các tổ chức đều đang phải đương đầu với sự thay đổi của thịtrường Người ta thấy rằng để có thể đưa ra một quyết định đúng đắn, trước hết phải cókhả năng truy cập tới tất cả các loại thông tin nhanh chóng Đối với một tổ chức nào đó,

để có thể quyết định đúng đắn, cần nghiên cứu cả những dữ liệu quá khứ, phân tích nhằmđịnh ra toàn bộ các xu hướng có thể Trong bối cảnh công nghệ thông tin phát triển, dữliệu được tập trung trong những cơ sở dữ liệu khổng lồ, nhu cầu truy cập vào tất cả thôngtin là cần thiết Cách hiệu quả nhất để trợ giúp nhu cầu truy cập thông tin là tổ chức kho

dữ liệu (Data Warehouse)

3.1 Khái niệm

Data warehouse - kho dữ liệu là một tập hợp thông tin cơ bản trên máy vi tính màchúng có tính quyết định đến việc thực hiện thành công bước đầu trong công việc kinhdoanh

Một kho dữ liệu, gọi một cách chính xác hơn là kho thông tin (informationwarehouse), là một cơ sở dữ liệu hướng đối tượng được thiết kế với việc tiếp cận các ýkiến trong mọi lĩnh vực kinh doanh Nó cung cấp các công cụ để đáp ứng thông tin cầnthiết cho các nhà quản trị kinh doanh tại mọi cấp độ tổ chức - không những chỉ là nhữngyêu cầu dữ liệu phức hợp, mà còn là điều kiện thuận tiện nhất để đạt được việc lấy thôngtin nhanh, chính xác Một kho dữ liệu được thiết kế để người sử dụng có thể nhận rathông tin mà họ muốn có và truy cập đến bằng những công cụ đơn giản

Một kho dữ liệu là một sự pha trộn của nhiều công nghệ, bao gồm các cơ sở dữliệu đa chiều và mối quan hệ giữa chúng, kiến trúc chủ khách, giao diện người dùng đồhọa và nhiều nữa Dữ liệu trong kho dữ liệu không giống dữ liệu của hệ điều hành là loạichỉ có thể đọc nhưng không chỉnh sửa được Hệ điều hành tạo ra, chỉnh sửa và xóa những

dữ liệu sản xuất mà những dữ liệu này cung cấp cho kho dữ liệu Nguyên nhân chính cho

sự phát triển một kho dữ liệu là hoạt động tích hợp dữ liệu từ nhiền nguồn khác nhau vàomột kho dữ liệu đơn lẻ và dày đặc mà kho này cung cấp cho việc phân tích và ra quyếtđịnh trong công việc kinh doanh

3.2 Các thành phần kho dữ liệu

Các thành phần cấu thành kho dữ liệu cung cấp một khung cơ bản để trao đồi vềkiến trúc, cấu trúc và các chiến lược của kho dữ liệu

Trang 17

Hình 3.1 : Mô hình kho dữ liệu

Hệ thống kho dữ liệu thường bao gồm 3 tầng như trong hình …

Tầng đáy: là nơi lấy dữ liệu từ nhiều nguồn khác nhau sau đó làm sạch, chuẩn hóa,

lưu trữ tập trung

Tầng giữa: thực hiện các thao tác với kho dữ liệu thông qua dịch vụ OLAP (OLAP

server) Có thể cài đặt bằng Relational OLAP, Multidimensional OLAP hay kết hợp cảhai mô hình trên thành mô hình Hybrid OLAP

Tầng trên: thực hiện việc truy vấn, khai phá thông tin

3.2.1 Siêu dữ liệu (Metadata)

Trong việc tổ chức kho dữ liệu, không chỉ những người dùng đầu cuối mà ngay cảnhững nhân viên quản trị đều cần truy cập toàn bộ thông tin trong bảng gồm các đốitượng cũng như các thuộc tính Do đó muốn biết một số vấn đề

Trang 18

 Có thể tìm thấy dữ liệu ở đâu ?

Vì vậy hình thành một dạng CSDL khác được gọi là Metadata nhằm mô tả cấutrúc nội dung của CSDL chính Trong môi trường CSDL phức hợp, một Metadata phùhợp là không thể thiếu bởi nó định ra cấu trúc CSDL tác nghiệp và cấu trúc kho dữ liệu.Một vấn đề xuất hiện thường xuyên là khả năng giao tiếp với người sử dụng về nhữngthông tin bên trong kho dữ liệu và cách thức chúng được truy cập Chính Metadata làcách để người sử dụng và các ứng dụng có thể tiếp cận được với những thông tin lưu trữtrong kho dữ liệu Nó có thể định nghĩa tất cả các phần tử dữ liệu và các thuộc tính củachúng

3.2.2 Các nguồn dữ liệu

Bao gồm các hệ thống trong và ngoài của một tổ chức, rất phong phú về chủngloại Các hệ thống nằm trong được coi như các hệ thống nguồn hoặc các hệ thống đã cósẵn

thống này đã từng được phát triển, sử dụng các công nghệ có sẵn và phù hợpvới các nhu cầu Các hệ thống nàu có thể được thực hiện trong nhiều năm và

có lẽ không có hoặc có rất ít minh chứng bằng tài liệu

chức, là những dữ liệu do người sử dụng đầu cuối yêu cầu

Các LS được phát triển để phục vụ cho các dự án Các ứng dụng được phát triểncùng với dữ liệu mà các dữ liệu này lại đáp ứng nhiều nhu cầu khác nhau Cùng là một dữliệu nhưng lại có tên khác nhay hoặc thuộc các hệ thống đo lường khác nhau Kết quảcuối cùng là các nguồn dữ liệu cần được đánh giá và các định nghĩa cần được đưa vàoMetadata để nhắm tới các vấn đề sau :

khác nhau

của dữ liệu và bất kỳ các luật nào cho dữ liệu

Trang 19

 Phát hiện sự giao nhau về thông tin của các hệ thống khác nhau.

giá đề quyết định hệ thống nào có dữ liệu rõ ràng và chính xác hơn

3.3 Thiết kế kho dữ liệu

Một vài phương pháp và công cụ phục vụ tốt cho việc tạo ra các hệ thống tácnghiệp gần như là không phù hợp với những yêu cầu khác nhau của kho dữ liệu Mộtlược đồ - mô hình là cách thực hiện tốt hơn nhưng không phù hợp lắm cho việc phân tích.Khi phương pháp kho dữ liệu được tiếp tục phát triển thì những cách tiếp cận mới choviệc thiết kế sơ đồ dữ liệu phù hợp hơn với việc phân tích được hình thành và đó là điềucốt yếu dẫn đến thành công của phương pháp kho dữ liệu Một lược đồ được chấp chấpnhận sử dụng rộng rãi cho phương pháp kho dữ liệu là lược đồ hình sao

3.3.1 Lược đồ hình sao (Star)

Được đưa ra lần đầu tiên bởi Raph Kimball như là một lựa chọn thiết kế CSDLcho kho dữ liệu Trong sơ đồ hình sao, dữ liệu được xác định và phân loại theo 2 kiểu : sựkiện (bảng Fact : đối tượng trung tâm) và phạm vi (các bảng Dimension : các bảng liênkết) Trong lược đồ hình sao chỉ có một bảng liên quan trực tiếp tới hầu hết các bảng cònlại đó là bảng Fact và là bảng chứa yếu tố cốt lõi cần được phân tích Nó được gọi là hìnhsao bởi vì các sự kiện nằm ở trung tâm của mô hình và được bao quanh bởi các phạm viliên quan

Với lược đồ hình sao, người thiết kế có thể dễ dàng mô phỏng những chức năngcủa CSDL đa chiều Được thiết kế là để khắc phục những hạn chế của mô hình quan hệhai chiều Với CSDL được thiết kế theo lược đồ hình sao, những truy vấn với những câuhỏi phức tạp liên quan tới nhiều bảng và số liệu tổng cộng trở nên đơn giản hơn và sốlượng công việc cần thực hiện để đưa được ra câu trả lời là ít nhất so với mô hình quan hệchuẩn Lược đồ này rất trực quan, dễ sử dụng, thể hiện khung nhìn đa chiều của dữ liệudùng ngữ nghĩa của CSDL quan hệ

Trang 20

Hình 3.2 : Lược đồ hình sao

Ưu điểm của lược đồ hình sao:

bảng sự kiện

3.3.2 Lược đồ bông tuyết

Lược đồ bông tuyết là một sự mở rộng của lược đồ hình sao, tại đó mỗi cánh saokhông phải là một bảng Dimension mà là nhiều bảng

Hình 3.3 : Lược đồ bông tuyết

Ưu điểm: Là dạng cải tiến của lược đồ hình sao Số chiều được phân cấp thể hiệndạng chuẩn của bảng Dim

Khuyết điểm: Cấu trúc phi dạng chuẩn của lược đồ hình sao thích hợp hơn choviệc duyệt các chiều

Trang 21

Ví dụ: Với bảng Fact như lược đồ sao, còn bảng Dim được mở rộng như hình vẽ.Bây giờ lấy ví dụ một nhánh Product như sau: Nhìn trên lược đồ sao ta biết được sảnphẩm nào với nhãn hàng nào Nhưng nếu số lượng sản phẩm lên đến hàng nghìn sảnphẩm, hàng trăm loại hàng hoặc ông sếp muốn thay đổi hoặc tách, thêm loại hàng cho sảnphẩm cũ thì chuyện gì sẽ xảy ra? Không thể thay đổi trong cùng một bảng Product nhưtrước Lúc này buộc phải tách Product và Product Category thôi Và dữ liệu lúc này đãđược chuẩn hóa Nếu muốn thay đổi chỉ cần thay đổi ở duy nhất một bảng, không ảnhhưởng gì đến dữ liệu chung.

Tóm lại : Hai kỹ thuật mô hình hóa dữ liệu cho kho dữ liệu đôi khi trông rất khácnhau, nhưng thực ra nó có rất nhiều điểm tương đồng, mô hình chiều có thể sử dụngnhiều ký hiệu giống như là mô hình thực thể quan hệ, một bảng Fact có thể được coi làmột thực thể với khóa chính và các khóa ngoại, các khóa ngoại này liên kết đến một bảngđược coi như là các bảng chiều Vì vậy chúng ta có thể nói mô hình chiều là một dạngđặc biệt của mô hình thực thể quan hệ, nó có những điểm mạnh và điểm yếu riêng, và cóthể được sử dụng trong từng tình huống phù hợp nhất

3.4 Đặc tính của kho dữ liệu

Hướng chủ đề: Kho dữ liệu có thể chứa lượng dữ liệu lên tới hàng trăm Gigabyte,

được tổ chức theo những chủ đề chính Kho dữ liệu không chú trọng vào giao tác và việc

xử lý giao tác Thay vào đó, kho dữ liệu tập trung vào việc mô hình hóa, phân tích dữ liệunhằm hỗ trợ cho nhà quản lý ra quyết định Do đó, các kho dữ liệu thường cung cấp mộtkhung nhìn tương đối đơn giản bằng cách loại bớt những dữ liệu không cần thiết trongquá trình ra quyết định

Tính tích hợp: Kho dữ liệu thường được xây dựng bằng cách tổng hợp dữ liệu từ

nhiều nguồn khác nhau, ví dụ các cơ sở dữ liệu, những bản ghi giao tác trực tuyến hoặcthậm chí là từ những file dữ liệu độc lập Những dữ liệu này tiếp tục được làm sạch,chuẩn hóa để đảm bảo sự nhất quán, sau đó đưa vào kho dữ liệu

Ổn định: Dữ liệu trong kho dữ liệu thường được lưu trữ lâu dài, ít bị sửa đổi, chủ

yếu dùng cho việc truy xuất thông tin nên có độ ổn định cao Hai thao tác chủ yếu tácđộng tới kho dữ liệu là nhập dữ liệu vào và truy xuất

Dữ liệu gắn với thời gian: Do có tính ổn định, kho dữ liệu thường lưu trữ dữ liệu

của hệ thống trong khoảng thời gian dài, cung cấp đủ số liệu cho các mô hình nghiệp vụ,

dự báo, khảo sát những chỉ tiêu cần quan tâm

Trang 22

3.5 Lợi ích của kho dữ liệu

Tạo ra những quyết định có ảnh hưởng lớn Một kho dữ liệu cho phép trích rút tàinguyên nhân lực và máy tính theo yêu cầu để cung cấp các câu truy vấn và các báo cáodựa vào cơ sở dữ liệu hoạt động và sản xuất Điều này tạo ra sự tiết kiệm đáng kể Có kho

dữ liệu cũng trích rút tài nguyên khan hiếm của hệ thống sản xuất khi thực thi mộtchương trình quá lâu hoặc các báo cáo và các câu truy vấn phức hợp

Công việc kinh doanh trở nên thông minh hơn Tăng thêm chất lượng và tính linhhoạt của việc phân tích kinh doanh do phát sinh từ cấu trúc dữ liệu đa tầng của kho dữliệu, đó là nơi cung cấp dữ liệu được sắp xếp từ mức độ chi tiết của công việc kinh doanhcho đến mức độ cao hơn - mức độ tổng quát Đảm bảo được dữ liệu chính xác và đáng tincậy do đảm bảo được là trong kho dữ liệu chỉ chứa duy nhất dữ liệu có chất lượng cao và

ổn định (trusted Data)

Dịch vụ khách hàng được nâng cao Một doanh nghiệp có thể giữ gìn mối quan hệvới khách hàng tốt hơn do có mối tương quan với dữ liệu của tất cả khách hàng qua mộtkho dữ liệu riêng

Tái sáng tạo những tiến trình kinh doanh Sự cho phép phân tích không ngừngthông tin kinh doanh thường cung cấp sự hiểu biết mọi mặt của phương thức kinh doanh

do đó có thể làm nảy sinh ra những ý kiến cho sự sáng tạo ra những tiến trình này lại Chỉkhi xác định chính xác các nhu cầu từ kho dữ liệu thì mới giúp em đánh giá được nhữnghạn chế và mục tiêu kinh doanh một cách chính xác hơn

Tái sáng tạo hệ thống thông tin Một kho dữ liệu là nền tảng cho các yêu cầu dữliệu trong mọi lĩnh vực kinh doanh, nó cung cấp một chi phí ảnh hưởng nghĩa là đưa rathói quen cho cho cả hai sự chuẩn hóa dữ liệu và sự chuẩn hóa hoạt động của hệ điềuhành theo chuẩn quốc tế

3.6 Ứng dụng của kho dữ liệu

Kho dữ liệu được đưa vào ba mảng ứng dụng chính Theo như cách khai tháctruyền thống đối với cơ sở dữ liệu, kho dữ liệu được sử dụng để khai thác thông tin bằngcác công cụ thực hiện truy vấn và báo cáo Nhờ việc dữ liệu thô đã được chuyển sangthành các dữ liệu ổn định, có chất lượng nên kho dữ liệu đã giúp nâng cao kỹ thuật biểudiễn thông tin truyền thống Dữ liệu đầu vào của các kỹ thuật này được đặt vào mộtnguồn duy nhất, giúp loại bỏ nhiều lỗi sinh ra do phải thu thập và biểu diễn thông tin từ

Ngày đăng: 21/05/2015, 08:12

HÌNH ẢNH LIÊN QUAN

Hình 2.1 : Mô hình cấu trúc OLAP - Tiểu luận môn Hệ hỗ trợ quyết định PHÂN TÍCH DỮ LIỆU TRỰC TUYẾN (OLAP) XÂY DỰNG HỆ TRỢ GIÚP QUYẾT ĐỊNH DỰA VÀO DỮ LIỆU
Hình 2.1 Mô hình cấu trúc OLAP (Trang 8)
Hình 2.3 : Mô hình cấu trúc MOLAP - Tiểu luận môn Hệ hỗ trợ quyết định PHÂN TÍCH DỮ LIỆU TRỰC TUYẾN (OLAP) XÂY DỰNG HỆ TRỢ GIÚP QUYẾT ĐỊNH DỰA VÀO DỮ LIỆU
Hình 2.3 Mô hình cấu trúc MOLAP (Trang 13)
Hình 2.4 : Mô hình cấu trúc ROLAP - Tiểu luận môn Hệ hỗ trợ quyết định PHÂN TÍCH DỮ LIỆU TRỰC TUYẾN (OLAP) XÂY DỰNG HỆ TRỢ GIÚP QUYẾT ĐỊNH DỰA VÀO DỮ LIỆU
Hình 2.4 Mô hình cấu trúc ROLAP (Trang 14)
Hình 3.1 : Mô hình kho dữ liệu - Tiểu luận môn Hệ hỗ trợ quyết định PHÂN TÍCH DỮ LIỆU TRỰC TUYẾN (OLAP) XÂY DỰNG HỆ TRỢ GIÚP QUYẾT ĐỊNH DỰA VÀO DỮ LIỆU
Hình 3.1 Mô hình kho dữ liệu (Trang 17)
Hình 3.2 : Lược đồ hình sao - Tiểu luận môn Hệ hỗ trợ quyết định PHÂN TÍCH DỮ LIỆU TRỰC TUYẾN (OLAP) XÂY DỰNG HỆ TRỢ GIÚP QUYẾT ĐỊNH DỰA VÀO DỮ LIỆU
Hình 3.2 Lược đồ hình sao (Trang 20)
Hình 4.1 : Phân loại các Hệ thông tin quản lý - Tiểu luận môn Hệ hỗ trợ quyết định PHÂN TÍCH DỮ LIỆU TRỰC TUYẾN (OLAP) XÂY DỰNG HỆ TRỢ GIÚP QUYẾT ĐỊNH DỰA VÀO DỮ LIỆU
Hình 4.1 Phân loại các Hệ thông tin quản lý (Trang 25)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w