1. Trang chủ
  2. » Công Nghệ Thông Tin

Bài giảng Kho dữ liệu - Chương 1: Tổng quan về kho dữ liệu và kinh doanh thông minh

22 720 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 22
Dung lượng 1,25 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Bài giảng Kho dữ liệu - Chương 1: Tổng quan về kho dữ liệu và kinh doanh thông minh

Trang 1

Data Warehouse and Business Intelligence 1

Chương 1:

Tổng quan về kho dữ liệu và kinh

doanh thông minh

Data Warehouse and Business Intelligence 2

Nội dung

1 Giới thiệu về kho dữ liệu

2 Các đặc tính của kho dữ liệu

3 Các kiến trúc kho dữ liệu

4 Các mô hình kho dữ liệu

5 Giới thiệu về kinh doanh thông minh

6 Kiến trúc của kinh doanh thông minh

7 Vai trò của kinh doanh thông minh trong việc ra quyết

định

Data Warehouse and Business Intelligence 3

1 Giới thiệu về kho dữ liệu

Có nhiều các định nghĩa khác nhau về KDL, nhưng

không có cách nào là nghiêm ngặt:

 Một cơ sở dữ liệu hỗ trợ quyết định được bảo trì tách biệt

từ cơ sở dữ liệu hoạt động của tổ chức

 Hỗ trợ xử lí thông tin bằng cách cung cấp một nền tảng

vững chắc cho việc hợp nhất và dữ liệu lịch sử để phân tích

Theo W H Inmon: “Kho dữ liệu là tập dữ liệu hướng

chủ đề, tích hợp, gắn với thời gian và ít thay đổi để

hỗ trợ quá trình ra quyết định của nhà quản lí”

Trang 2

Data Warehouse and Business Intelligence 4

Kiến trúc cơ bản của kho dữ liệu

Oracle9 i Data Warehousing Guide, Release 2 (9.2)

Data Warehouse and Business Intelligence 5

2 Các đặc tính của KDL

 Hướng chủ đề (Subject-Oriented)

 Có tính tích hợp (Integrated)

 Gắn với thời gian (Time Variant)

 Ít thay đổi (Non-Volatile)

Data Warehouse and Business Intelligence 6

2 Các đặc tính của KDL (tt)

 Hướng chủ đề

Trang 3

Data Warehouse and Business Intelligence 7

2 Các đặc tính của kho dữ liệu

 Tích hợp

Data Warehouse and Business Intelligence 8

Tích hợp

Data Warehouse and Business Intelligence 10

2 Các đặc tính của kho dữ liệu

 Gắn với thời gian

• Thời gian 60–90 ngày

• Cập nhật bản ghi

• Cấu trúc khóa có thể có hoặc

không chứa khóa thời gian

• Thời gian 5-10 năm

• Những hình ảnh phức tạp của

dữ liệu

• Cấu trúc khóa chứa phần tử thời gian

Trang 4

Data Warehouse and Business Intelligence 11

2 Các đặc tính của kho dữ liệu (tt)

 Dùng cho các tác nghiệp hằng ngày (Day-to-day operations):

mua sắm, quản lí tồn kho, ngân hàng, quản lí lương, đăng ký, kế

toán,…

 OLAP (on-line analytical processing): Quá trình phân tích

trực tuyến

 Nhiệm vụ chính của hệ thống kho dữ liệu

 Phân tích dữ liệu và làm quyết định (decision making)

Data Warehouse and Business Intelligence

OLTP vs OLAP

Người dùng Thư lý, chuyên viên

CNTT

Chuyên viên tri thức

Chức năng Tác nghiệp hàng ngày Hỗ trợ quyết định

Thiết kế CSDL Hướng ứng dụng Hướng chủ đề

Dữ liệu Hiện thời, cập nhật

chi tiết, quan hệ phẳng

biệt lập

Lịch sử, tóm tắt, tích hợp đa chiều, hợp nhất

Đơn vị thao tác Giao dịch ngắn,đơn giản Câu hỏi phức tạp

# bản ghi truy cập Chục Triệu

Kích thước CSDL 100MB-GB 100GB-TB

Đơn vị đo Thông lượng giao dịch Thông lượng truy vấn, đáp ứng

Trang 5

Data Warehouse and Business Intelligence 14

Data mart

 Hệ thống tập tất cả dữ liệu được yêu cầu bởi một phòng

ban chuyên biệt trong công ty (như tiếp thị, hậu cần,…)

 ETL: Rút trích (Extraction), Chuyển đổi

(Transformation), tải (Loading)

 Rút trích:

 Rút trích từ những nguồn sẵn có bên trong hoặc ngoài

 Những phiên bản phụ thuộc thời gian của dữ liệu

 Chọn lựa dữ liệu: Dựa trên thiết kế DW

Data Warehouse and Business Intelligence 16

3 Các kiến trúc kho dữ liệu

3.1.Kiến trúc 2 lớp khái quát (Generic Two-Level

Architecture)

3.2.Data Mart độc lập (Independent Data Mart)

3.3.Data Mart phụ thuộc và kho lưu trữ dữ liệu hoạt động

(Dependent Data Mart and Operational Data Store)

3.4.Data Mart luận lý và KDL tích cực (Logical Data Mart

and @ctive Warehouse)

3.5.Kiến trúc dữ liệu 3 lớp (Three-Layer data architecture)

Trang 6

Data Warehouse and Business Intelligence 17

3.1.Kiến trúc 2 lớp khái quát

E

T

L

One, company- wide warehouse

Periodic extraction  data is not completely current in warehouse

Data Warehouse and Business Intelligence 18

Separate ETL for each

independent data mart

Data access complexity

due to multiple data

marts

Data Warehouse and Business Intelligence 19

3.2.Data Mart độc lập (tt)

Data mart độc lập: data mart chứa dữ liệu được rút

trích từ môi trường hoạt động mà không có ảnh

hưởng của KDL

Hạn chế của Data mart độc lập:

 Mỗi data mart cần một ETL riêng

 Các data mart không tương thích nhau

 Không thể drill-down

 Tốn nhiều chi phí khi có ứng dụng mới

 Tốn chi phí để làm data mart tương thích nhau

Trang 7

Data Warehouse and Business Intelligence 20

3.3.Data Mart phụ thuộc và kho lưu trữ dữ

Simpler data access

Dependent data marts

loaded from EDW

corporate information factory (CIF)

Data Warehouse and Business Intelligence 21

3.3.Data Mart phụ thuộc và kho lưu trữ dữ

liệu hoạt động (tt)

 Data mart phụ thuộc: Data mart được nạp dữ liệu dành

riêng từ KDL doanh nghiệp và điều hòa dữ liệu

 Kho lưu trữ dữ liệu hoạt động (Operational data store

- ODS): Một cơ sở dữ liệu có tính tích hợp, hướng chủ

đề, có thể cập nhật, giá trị hiện tại, rộng khắp tổ chức, chi

tiết được thiết kế để dành cho người dùng tác nghiệp như

họ làm quá trình hỗ trợ quyết định

 Kho dữ liệu doanh nghiệp (Enterprise data warehouse

(EDW)

Data Warehouse and Business Intelligence 22

3.4 Data Mart luận lý và KDL tích cực

E

T

L

Near real-time ETL for

@active Data Warehouse

Data marts are NOT separate

databases, but logical views of the

data warehouse

 Easier to create new data marts

Trang 8

Data Warehouse and Business Intelligence 23

3.4 Data Mart luận lý và KDL tích cực (tt)

Logical data mart = relational view

Base tables: customer, product, order, orderline

Create views:

CREATE VIEW invoice AS

SELECT customer.customer_ID, customer_addr, order.order_ID,

product.product_ID, product.price, order.quantity,

product.price*order.quantity

FROM customer, order, orderline, product

WHERE customer.customer_ID= order.customer_ID,

AND order.order_ID= orderline.order_ID, product.product_ID =

orderline.product_ID

Data Warehouse and Business Intelligence 24

3.4 Data Mart luận lý và KDL tích cực (tt)

KDL tích cực:

 Một kho dữ liệu mức tổ chức chứa dữ liệu gần thời gian

thực (near-real-time) của dữ liệu giao dịch từ những hệ

thống bản ghi, phân tích KDL, tiếp nối gần thời gian thực

từ qui trình nghiệp vụ đến KDL và những hệ thống bản ghi

để có những hành động trung gian có thể hồi đáp lại các sự

kiện kinh doanh

 Ứng dụng: Dò tìm lỗi

Data Warehouse and Business Intelligence 25

3.5 Kiến trúc dữ liệu 3 lớp

25

Trang 9

Data Warehouse and Business Intelligence 26

3.5 Kiến trúc dữ liệu 3 lớp (tt)

 Dữ liệu điều hòa (Reconciled data): dữ liệu có tính chi

tiết, là dữ liệu hiện tại được dự định như nguồn đơn nhất,

chính thức cho tất cả ứng dụng hỗ trợ quyết định

 Dữ liệu chuyển giao (Derived data): Dữ liệu được chọn

lựa, định dạng và tổng hợp cho ứng dụng hỗ trợ quyết

định cho người dùng cuối

 Siêu dữ liệu (Metadata): dữ liệu kỹ thuật và kinh doanh

để mô tả thuộc tính hoặc tính chất của dữ liệu khác

Data Warehouse and Business Intelligence 27

4 Mô hình kho dữ liệu

4.1 Từ bảng dữ liệu đến khối dữ liệu

4.2 Mô hình luận lý của KDL

4.3 Ngôn ngữ truy vấn khai phá dữ liệu (DMQL)

Data Warehouse and Business Intelligence 28

4.1 Từ bảng dữ liệu đến khối dữ liệu

 KDL dựa trên mô hình dữ liệu đa chiều nhìn dữ liệu dưới

hình thức của một khối dữ liệu

 Một khối dữ liệu như bán hàng, cho phép dữ liệu được

mô hình và được nhìn trong nhiều chiều

 Các bảng chiều (Dimension Tables) như item (item_name,

brand, type), hoặc time(day, week, month, quarter, year)

 Bảng sự kiện (Fact Table) chứa các độ đo (Measure) (như

dollars_sold) và các khóa có liên kết đến mỗi bảng chiều

 Một khối dữ liệu dựa trên n-D được gọi là một cuboid cơ

sở

Trang 10

Data Warehouse and Business Intelligence 29

Cube: Một lưới các Cuboids

Data Warehouse and Business Intelligence 30

4.2 Mô hình ý niệm của KDL

 Mô hình kho dữ liệu:

 Lược đồ hình sao (Star schema): Một bảng sự kiện ở giữa

kết nối đến một tập bảng chiều

 Lược đồ hình bông tuyết (Snowflake schema): Tinh chế

của lược đồ hình sao, trong đó một vài chiều có sự phân

cấp được chuẩn hóa thành một tập các bảng chiều nhỏ hơn,

có hình ảnh giống như bông tuyết

 Chòm sao sự kiện (Fact constellations): Nhiều bảng sự

kiện chia sẻ các bảng chiều Còn được gọi là lược đồ thiên

hà (galaxy schema)

Data Warehouse and Business Intelligence 31

Ví dụ của lược đồ hình sao

Sales Fact Table

time_key item_key

branch_key

location_key

units_sold dollars_sold avg_sales Measures

item_key item_name brand type supplier_type item

branch_key

branch_name

branch_type

branch

Trang 11

Data Warehouse and Business Intelligence 32

Ví dụ của lược đồ hình bông tuyết

Sales Fact Table

time_key item_key

branch_key

location_key

units_sold dollars_sold avg_sales Measures

item_key item_name brand type supplier_key item

city_key city province_or_street country

city

Data Warehouse and Business Intelligence 33

Ví dụ của chòm sao sự kiện

location

Sales Fact Table

time_key item_key branch_key location_key units_sold dollars_sold avg_sales Measures

item_key item_name brand type supplier_type

shipper_key shipper_name location_key shipper_type

shipper

Data Warehouse and Business Intelligence 34

4.3 Ngôn ngữ truy vấn khai phá dữ liệu: DMQL

 Data Mining Query Language: DMQL

 Định nghĩa khối (Bảng sự kiện)

 define cube <cube_name> [<dimension_list>]:

<measure_list>

 Định nghĩa chiều (Bảng chiều)

 define dimension <dimension_name> as

(<attribute_or_subdimension_list>)

 Special Case (Bảng chiều chia sẻ)

 First time as “cube definition”

 define dimension <dimension_name> as

<dimension_name_first_time> in cube

<cube_name_first_time>

Trang 12

Data Warehouse and Business Intelligence 35

Định nghĩa lược đồ hình sao trong DMQL

define cube sales_star [time, item, branch, location]:

dollars_sold = sum(sales_in_dollars), avg_sales =

avg(sales_in_dollars), units_sold = count(*)

define dimension time as (time_key, day, day_of_week,

month, quarter, year)

define dimension item as (item_key, item_name, brand,

Data Warehouse and Business Intelligence 36

Định nghĩa lược đồ bông tuyết trong DMQL

define cube sales_snowflake [time, item, branch, location]:

dollars_sold = sum(sales_in_dollars), avg_sales =

avg(sales_in_dollars), units_sold = count(*)

define dimension time as (time_key, day, day_of_week,

month, quarter, year)

define dimension item as (item_key, item_name, brand,

type, supplier(supplier_key, supplier_type))

define dimension branch as (branch_key, branch_name,

branch_type)

define dimension location as (location_key, street,

city(city_key, province_or_state, country))

Data Warehouse and Business Intelligence 37

Định nghĩa lược đồ chòm sao sự kiện trong DMQL

define cube sales [time, item, branch, location]:

dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars),

units_sold = count(*)

define dimension time as (time_key, day, day_of_week, month, quarter, year)

define dimension item as (item_key, item_name, brand, type, supplier_type)

define dimension branch as (branch_key, branch_name, branch_type)

define dimension location as (location_key, street, city, province_or_state, country)

define cube shipping [time, item, shipper, from_location, to_location]:

dollar_cost = sum(cost_in_dollars), unit_shipped = count(*)

define dimension time as time in cube sales

define dimension item as item in cube sales

define dimension shipper as (shipper_key, shipper_name, location as location in

cube sales, shipper_type)

define dimension from_location as location in cube sales

define dimension to_location as location in cube sales

Trang 13

Data Warehouse and Business Intelligence 38

Các loại giá trị đo

 Phân phối (distributive):

 Ví dụ: count(), sum(), min(), max()

 Đại số (algebraic):

 Ví dụ: avg(), min_N(), standard_deviation()

 Tổng thể (holistic):

 Ví dụ: median(), mode(), rank()

Data Warehouse and Business Intelligence 39

Sự phân cấp mức ý niệm: Chiều (location)

all

Mexico Canada

Spain Germany

city

Data Warehouse and Business Intelligence 40

Dữ liệu đa chiều

 Sales volume as a function of product, month, and region

Trang 14

Data Warehouse and Business Intelligence 41

Một khối dữ liệu mẫu

Total annual sales

Data Warehouse and Business Intelligence 42

Các Cuboids tương ứng đến Cube

all

product date country

product,date product,country date, country

product, date, country

Trang 15

Data Warehouse and Business Intelligence 44

Trang 16

Data Warehouse and Business Intelligence 47

Mô hình truy vấn mạng hình sao (Star-Net)

ANNUALY

Time

Each circle is

called a footprint

Data Warehouse and Business Intelligence 48

5 Giới thiệu về Kinh doanh thông minh

5.1 Kinh doanh thông minh (BI) là gì ?

5.2 Sự tiến hóa của các công nghệ BI

5.3 Việc ra quyết định

5.4 Hiệu quả của hệ thống BI

Data Warehouse and Business Intelligence 49

5.1 Kinh doanh thông minh (BI) là gì ?

 “Một tập mô hình toán và phương pháp luận phân tích để

khai thác dữ liệu có sẵn nhằm tạo ra thông tin và tri thức

có ích cho những quá trình ra quyết định phức tạp”

Trang 17

Data Warehouse and Business Intelligence 50

5.2 Sự tiến hóa của các công nghệ BI

Data Warehouse and Business Intelligence 51

5.3 Việc ra quyết định

 Yêu cầu:

 Hiệu quả (Effective)

 Thõa mãn về thời gian (Timely)

 Quyết định dựa trên:

 Miền tri thức

 Kinh nghiệm

 Thông tin sẵn có

 Trong thời đại ngày nay:

 Môi trường thay đổi nhanh và thường xuyên

 Có tính động và phức tạp

  Những quan điểm nghiêm ngặt hơn được dựa trên các

phương pháp luận phân tích và mô hình toán học

Data Warehouse and Business Intelligence 52

Trang 18

Data Warehouse and Business Intelligence 53

5.3 Hiệu quả của hệ thống kinh doanh thông minh

Data Warehouse and Business Intelligence 54

Dữ liệu, thông tin và tri thức

 Cơ cấu có tính hình thức và hệ thống để thu thập, lữu trữ

và chia sẻ những hiểu biết của họ về tri thức

 Tri thức là tài sản vô hình vô giá

 Cung cấp sự hỗ trợ cho những công nhân tri thức

(knowledge workers) thông qua việc tích hợp các quá

trình ra quyết định và công nghệ thông tin

Trang 19

Data Warehouse and Business Intelligence 56

Quản lí tri thức vs BI

 Quản lí tri thức: tập trung vào nghiên cứu thông tin

thường không có cấu trúc, ẩn, được chứa đựng trong hầu

hết các tài liệu, các đối thoại và kinh nghiệm quá khứ

 BI: dựa trên thông tin có cấu trúc, thường có tính định

lượng và được tổ chức trong cơ sở dữ liệu

Data Warehouse and Business Intelligence 57

Vai trò của các mô hình toán

 BI: cung cấp thông tin và tri thức thông qua việc ứng

dụng các giải thuật và mô hình toán

 BI: đẩy mạnh một cách tiếp cận mang tính khoa học và có

lý trí đối với việc quản lí

Data Warehouse and Business Intelligence 58

Phân tích BI điển hình

 Xác định các mục tiêu và chỉ tiêu hiệu suất

 Phát triển các mô hình toán để khai thác những quan hệ

giữa các biến, tham số kiểm soát hệ thống và các tham số

ước lượng

 Đưa ra phân tích what-if để đánh giá hiệu quả thực thi

Ngày đăng: 28/04/2014, 21:58

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w