1. Trang chủ
  2. » Luận Văn - Báo Cáo

Bài giảng Khai phá dữ liệu trong kinh doanh - Chương 3: Sử dụng công cụ OLAP trong khai phá dữ liệu

14 5 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 14
Dung lượng 904,5 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Bài giảng Khai phá dữ liệu trong kinh doanh - Chương 3: Sử dụng công cụ OLAP trong khai phá dữ liệu. Chương này cung cấp cho học viên những kiến thức về: tổng quan chung SQL server analysis service; xây dựng OLAP Cube; xây dựng Report;... Mời các bạn cùng tham khảo!

Trang 1

Association rules at the 1-item

values of X

Có thể sử dụng cách như trên đểtìm luật kết hợp của 1-item

VD:

Consider the rule: Milk → Bread Out of total 12 transactions Milk

occurs 9 times while (Milk, Bread) occurs 7 times The rule has a

support level of 7/12 (or 58 percent) and a confidence level of 7/9 (or

77 percent)

Thus, the next valid association rule is as follows:

Milk → Bread {S = 58%, C = 77%}

KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 133

Chương 3: Sử dụng công cụ OLAP trong khai phá dữ

liệu

3.1 Tồng quan chung về SQL server analysis service

3.1.1 Một số khái niệm liên quan

3.1.2 Tổ chức mô hình cơ sở dữ liệu đa chiều

3.1.3 Giới thiệu và cài đặt công cụ OLAP

3.2 Xây dựng OLAP Cube

3.2.1 Xây dựng DB Engine

3.2.2 Thiết lập nguồn , bảng Fact

3.2.3 Thiết lập các chiều cho Cube

3.2.4 Xây dựng Cube

3.3 Xây dựng Report

3.3.1 Thiết lập nguồn cho Report

3.3.2 Lập Report từ cơ sở dữ liệu nhiều chiều

3.3.3 Quản lý Report (bảo mật- security, truyền- subscription, quản lý thực thi –excution) KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 134

Trang 2

3.1 Tổng quan chung về SQL

server analysis service

3.1.1 Một số khái niệm liên quan

SQL Server Analysis Service là một công cụ phân tích dữ liệu

được sử dụng trong hỗ trợ quyết định và phân tích kinh

doanh.

Dữ liệu phân tích được lưu trữ dưới mô hình bảng, hình

khối đa chiều (cubes), và các mô hình khai phá dữ liệu mà

NSD có thể truy cập từ các báo cáo, bảng tính và bảng điều

khiền.

KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 135

OLAP Cube là thuật ngữ dùng để chỉ dữ liệu có nhiều

chiều (Cube) mà có thể xử lý phân tích online ( OLAP ).

Thường số chiều của Cube là 3, còn nếu số chiều của dữ liệu

lớn hơn 3, dữ liệu này còn được gọi là hypercube.

Dữ liệu nhiều chiều (multi-dimension) có thể hiểu đơn giản

là dữ liệu mà người dùng muốn nhóm theo các tiêu chí khác

nhau Ví dụ, dữ liệu tài chính của một công ty được nhóm

theo sản phẩm, khung thời gian, thành phố để so sánh.

Mỗi tiêu chí (sản phẩm, khung thời gian, địa điểm ) là

một chiều dữ liệu vì nó cung cấp một góc nhìn khác đến dữ

Trang 3

Fact table có thể được hiểu như là bảng chứa các dữ

liệu có tính chất đo lường (measurement) Một fact

(hay còn gọi là measure) trong Data warehouse được

dùng để minh họa cho một trường (field/column)

chứa một giá trị đo lường được

Tiến trình ETL (Extract-Transform-Load)

Tiến trình ETL là một quy trình dùng để lấy dữ liệu từ các hệ

thống nguồn sau đó xử lý và đưa nó vào data warehouse Nó

bao gồm các chức năng: Rút trích dữ liệu; biến đổi dữ liệu; và

tải (load) vào kho dữ liệu hoặc các hệ thống báo cáo khác

KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 137

Mô hình các bước của tiến trình ETL

KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 138

Trang 4

Thống nhất hóa (roll-up) là quá trình tập hợp lại dữ

liệu từ một hay nhiều chiều

Drill- down – chi tiết hóa: ngược với roll-up

Chọn và cắt lát dữ liệu (slice-còn gọi là chọn và

chiếu): là kĩ thuật cho phép ta lấy ra khối dữ liệu

nhiều chiều (rubic), sau đó tiến hành phân tích

bằng các nhát cắt khác nhau dựa trên khối đó Kết

quả thu được sẽ là một khối dữ liệu con

KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 139

3.1.2 Tổ chức mô hình cơ sở

dữ liệu đa chiều

Lược đồ đa chiều hình sao (star schema) là kiểu

đơn giản nhất của lược đồ data mart Lược đồ

sao bao gồm một hoặc nhiều bảng Fact, tham

chiếu đến một số bảng dimension

Khi ta liên kết Fact table và Dimension table lại với

nhau dựa trên các Primary Key của dimension và

Foreign Key tương ứng của fact, ta được một lược

đồ dữ liệu dạng hình sao - Star schema

Trang 5

VD

KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 141

VD2

KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 142

Trang 6

3.1.3 Giới thiệu và cài đặt công cụ OLAP

Các bước cài đặt (xem sách tham khảo)

KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 143

3.2 Xây dựng OLAP Cube

Khởi tạo dự án và thiết lập Data Soure

Cài đặt đầy đủ SQL Server với các dịch vụ: Database Engine, Analysis

Services, Reporting Services, Intergration Services sau đó khởi động

công cụ SQL Server Management Studio.

Trang 7

Khởi động Business Intelligence Development

Studio (BIDS)

Khởi tạo dự án phân tích dữ liệu với BIDS

Thiết lập Data Source

Chọn bảng Fact, và related tables cho dự án

KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 145

KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 146

Trang 8

Kết quả

KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 147

3.2.4 Xây dựng Cube

Trang 9

Kết quả

KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 149

Triển khai và phân tích dữ liệu với OLAP Cube

Tùy chỉnh lại thứ bậc các thuộc tính trong Dimension Dim Date như sau:

Double Click vào Dim Date.dim: Kéo thả các date tương ứng muốn hiển

thị

KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 150

Trang 10

Tùy chỉnh một số thuộc tính trước khi triển khai Cube (Deployment)

Click chuột phải vào SaleDataAnalysis  hiển thị menu ngữ cảnh 

chọn Properties:

KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 151

Trang 11

Chú ý: thuộc tính Server chính là Instance Name của SQL

Server Analysis Services và trong trường hợp này sử dụng

localhost

Thuộc tính Database là do người dùng tùy ý nhập vào và

thuộc tính này mô tả tên của Analysis Database sẽ được

sinh ra trong SQL Server Analysis Services sau khi Deploy

thành công

Nhấn OK để hoàn tất

Tiếp tục Click chuột phải vào SaleDataAnalysis  hiển thị

menu ngữ cảnh  chọn Deploy:

KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 153

KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 154

Trang 12

Developing a Data Warehouse

The phases of a data warehouse project listed

below are similar to those of most database

projects, starting with identifying requirements

and ending with executing the T-SQL Script to

create data warehouse:

Identify and collect requirements

Design the dimensional model

Execute T-SQL queries to create and populate your

dimension and fact tables

KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 155

Design the Dimensional Model

Dimension: The dimension is a master table

composed of individual, non-overlappingdata

elements The primary functions of dimensions are

to provide filtering, grouping and labeling on your

data Dimension tables contain textual descriptions

about the subjects of the business

Product, Customer, Store, Date, Time, Sales person

Trang 13

Measure: A measure represents a column

that contains quantifiable data, usually

numeric, that can be aggregated A measure

is generally mapped to a column in a fact

table.

Actual Cost, Total Sales, Quantity, Fact table

record count

KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 157

Fact Table: Data in fact table are called measures

(or dependent attributes), Fact table provides

statistics for sales broken down by customer,

salesperson, product, period and store dimensions

Fact table usually contains historical transactional

entries of your live system, it is mainly made up of

Foreign key column which references to various

dimension and numeric measure values on which

aggregation will be performed

KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 158

Trang 14

Identify what attributes should be there in

our Fact Sales Table.

Foreign Key ColumnSales Date key, Sales

Time key, Invoice Number, Sales Person ID,

Store ID, Customer ID

MeasuresActual Cost, Total Sales, Quantity,

Fact table record count

KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 159

Using the Code

Open SQL Server Management Studio

Connect Database Engine

Open New Query editor

Copy paste Scripts given below in various

steps in new query editor window one by

one

To run the given SQL Script, press F5

Ngày đăng: 11/07/2022, 14:28

HÌNH ẢNH LIÊN QUAN

3.1.2. Tổ chức mơ hình cơ sở dữ liệu đa chiều 3.1.3. Giới thiệu và cài đặt công cụ OLAP 3.2 - Bài giảng Khai phá dữ liệu trong kinh doanh - Chương 3: Sử dụng công cụ OLAP trong khai phá dữ liệu
3.1.2. Tổ chức mơ hình cơ sở dữ liệu đa chiều 3.1.3. Giới thiệu và cài đặt công cụ OLAP 3.2 (Trang 1)
Dữ liệu phân tích được lưu trữ dưới mơ hình bảng, hình khối đa chiều (cubes), và các mơ hình khai phá dữ liệu mà NSD có thể truy cập từ các báo cáo, bảng tính và bảng điều khiền. - Bài giảng Khai phá dữ liệu trong kinh doanh - Chương 3: Sử dụng công cụ OLAP trong khai phá dữ liệu
li ệu phân tích được lưu trữ dưới mơ hình bảng, hình khối đa chiều (cubes), và các mơ hình khai phá dữ liệu mà NSD có thể truy cập từ các báo cáo, bảng tính và bảng điều khiền (Trang 2)
Fact table có thể được hiểu như là bảng chứa các dữ liệu có tính chất đo lường (measurement) - Bài giảng Khai phá dữ liệu trong kinh doanh - Chương 3: Sử dụng công cụ OLAP trong khai phá dữ liệu
act table có thể được hiểu như là bảng chứa các dữ liệu có tính chất đo lường (measurement) (Trang 3)
3.1.2. Tổ chức mơ hình cơ sở dữ liệu đa chiều - Bài giảng Khai phá dữ liệu trong kinh doanh - Chương 3: Sử dụng công cụ OLAP trong khai phá dữ liệu
3.1.2. Tổ chức mơ hình cơ sở dữ liệu đa chiều (Trang 4)
Lược đồ đa chiều hình sao (star schema) là kiểu đơn giản nhất của lược đồ datamart.Lược đồ sao baogồm một hoặc nhiều bảng Fact,tham chiếu đến một số bảng dimension. - Bài giảng Khai phá dữ liệu trong kinh doanh - Chương 3: Sử dụng công cụ OLAP trong khai phá dữ liệu
c đồ đa chiều hình sao (star schema) là kiểu đơn giản nhất của lược đồ datamart.Lược đồ sao baogồm một hoặc nhiều bảng Fact,tham chiếu đến một số bảng dimension (Trang 4)
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 145 - Bài giảng Khai phá dữ liệu trong kinh doanh - Chương 3: Sử dụng công cụ OLAP trong khai phá dữ liệu
145 (Trang 7)
Chọn bảng Fact, và related tables cho dự án - Bài giảng Khai phá dữ liệu trong kinh doanh - Chương 3: Sử dụng công cụ OLAP trong khai phá dữ liệu
h ọn bảng Fact, và related tables cho dự án (Trang 7)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm