1. Trang chủ
  2. » Công Nghệ Thông Tin

Bài giảng Kho dữ liệu và kinh doanh thông minh - Chương 2: Quy trình phát triển kho dữ liệu

52 23 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 52
Dung lượng 2,01 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Bài giảng giúp người học có thể xem xét những hoạt động cơ bản trong lập kế hoạch kho dữ liệu, chu trình cho một dự án kho dữ liệu, thảo luận về tổ chức, vai trò và trách nhiệm của nhóm dự án, xem xét các dấu hiệu cảnh báo và nhân tố thành công. Mời các bạn cùng tham khảo.

Trang 1

Data Warehouse and Business

Intelligence

Trang 2

Chương 2:

Qui trình phát triển kho dữ liệu

Trang 3

Mục tiêu

 Xem xét những hoạt động cơ bản trong lập kế hoạch kho

dữ liệu

 Chu trình cho một dự án kho dữ liệu

 Thảo luận về tổ chức, vai trò và trách nhiệm của nhóm dự

án

 Xem xét các dấu hiệu cảnh báo và nhân tố thành công

Trang 4

Nội dung

1 Tổng quan

2 Các phương pháp luận phát triển kho dữ liệu

3 Hoạch định kho dữ liệu

4 Business Dimensional Lifecycle

5 Chuyển đổi dữ liệu

6 Quản trị kho dữ liệu

7 Các công cụ kỹ thuật cho kho dữ liệu

Trang 5

1 Tổng quan

 Một số câu hỏi quan trọng cần được xem xét trước khi

quyết định xây dựng kho dữ liệu :

 Theo các tiếp cận Top-down hay bottom-up ?

 Dùng cho mức doanh nghiệp hay phòng ban ?

 Cái nào trước - data warehouse hay data mart ?

 Build pilot or go with a full-fledged implementation?

 Data mart phục thuộc hay độc lập ?

Trang 6

2 Các phương pháp phát triển KDL

Có 2 phương pháp phát triển chính:

 Top-Down

 Bottom-Up

Trang 7

2.1 Top-Down

 Cách tiếp cận của Bill Inmon

 Dữ liệu trong KDL được lưu trữ ở mức “hạt”

(granularity) thấp nhất dựa trên mô hình dữ liệu đã

chuẩn hóa

 KDL là trung tâm của “Xưởng thông tin công ty”

(Corporate Information Factory-CIF) cung cấp một khung nền luận lý (logical framework) cho việc chuyển

giao kinh doanh thông minh đến doanh nghiệp Các hoạt động kinh doanh cung cấp dữ liệu cho CIF

 KDL được tập trung hóa sẽ cung cấp các data mart phụ

thuộc có thể được thiết kế dựa trên mô hình dữ liệu có chiều

Trang 8

2.1 Top-Down (tt)

Nguồn: A Managers Guide to Data Warehousing

Trang 9

2.1 Top-Down (tt)

 Thuận lợi:

 Có được cái nhìn toàn diện (mức doanh nghiệp) về dữ liệu

 Có kiến trúc rõ ràng, không phải là việc hợp nhất các data mart khác nhau

 Lưu trữ tập trung

 Các luật và kiểm soát tập trung

 Có thể thấy kết quả nhanh chóng nếu được thực hiện bằng các bước lặp

 Hạn chế:

 Mất nhiều thời gian

 Tiềm ẩn rủi ro và thất bại cao

 Cần có những kỹ năng của nhiều lĩnh vực ở mức cao

 Tốn chi phí

Trang 10

2.2 Bottom-Up

 Cách tiếp cận của Ralph Kimball

 KDL công ty như là tập hợp của các data mart được làm cho phù hợp

 Data mart được tạo ra trước để cung cấp khả năng phân tích và báo cáo cho những việc kinh doanh chuyên biệt

dựa trên mô hình dữ liệu chiều

Trang 11

2.2 Bottom-Up (tt)

Trang 12

Data Warehouse and Business Intelligence 13

2.2 Bottom-Up (tt)

 Thuận lợi:

 Thực hiện nhanh và dễ hơn với những phần có thể quản lí

 ROI có triển vọng và có thể thực hiện

 Mỗi data mart cho thấy góc nhìn hẹp về dữ liệu

 Có quá nhiều dữ liệu dư thừa trong mỗi data mart

 Có quá nhiều dữ liệu không tương thích và bất thường

 Gia tăng các giao diện không thể quản lí

Trang 13

3 Hoạch định cho KDL

3.1 Các vấn đề then chốt

3.2 Các yêu cầu nghiệp vụ phi công nghệ

3.3 Hỗ trợ của quản lí cấp cao

3.4 Biện minh cho KDL

3.5 Kế hoạch tổng thể

Trang 14

3.1 Các vấn đề then chốt (Key Issues)

 Giá trị và những mong đợi

 Đánh giá rủi ro

 Top-Down hoặc Bottom-Up

 Xây dựng hoặc mua

 Single Vendor hoặc Best-of-Breed

Trang 15

3.2 Các yêu cầu nghiệp vụ phi công nghệ

 Các yêu cầu nghiệp vụ chi phối KDL chứ không phải

công nghệ

 Giải quyết nhu cầu người dùng về thông tin chiến lược

 Không lập kế hoạch xây dựng KDL trước khi hiểu yêu

cầu

 Bắt đầu bằng việc xác định thông tin cần thiết chứ không phải cách để cung cấp thông tin

 Không đặt nặng vào công cụ

 Cấu trúc cơ bản và kiến trúc để hỗ trợ yêu cầu người dùng

là quan trọng hơn

 Làm nghiên cứu sơ bộ

Trang 16

Nghiên cứu sơ bộ

 Mission and functions of each user group

 Computer systems used by the group

 Key performance indicators

 Factors affecting success of the user group

 Who the customers are and how they are classified

 Types of data tracked for the customers, individually and as groups

 Products manufactured or sold

 Categorization of products and services

 Locations where business is conducted

 Levels at which profits are measured—per customer, per product,

per district

 Levels of cost details and revenue

 Current queries and reports for strategic information

At a minimum,obtain general information on the following from

each group of users

Trang 17

3.3 Hỗ trợ của quản lí cấp cao

 Để khởi tạo thành công cần có sự hỗ trợ của các nhà quản lí

(senior management)

 Những nhà quản lí cấp cao nhất (top management) phải hỗ trợ

đầy đủ ngay từ đầu

 KDL thường phải thỏa mãn các yêu cầu có tính xung đột

Trang 18

3.5 Biện minh cho KDL

 Một phác thảo của cấu trúc chi phí:

 Làm sao tính toán ROI và ROA ?

 Xây dựng tình huống nghiệp vụ (business case) như thế nào ?

Trang 19

3.6 Kế hoạch tổng thể

 Có nhiều cách thức khác nhau để phát triển KDL

 Cần có những khuyến cáo đối với CEO hoặc những nhà điều hành cấp cao để đề xuất KDL như là giải pháp cho các vấn đề về thông tin của công ty

 Có kế hoach thảo luận về kiểu KDL và danh sách những

kỳ vọng

Trang 20

4 The Business Dimensional Lifecycle

(Ralph Kimball,etc, 2001, The Data Warehouse Lifecycle Toolkit)

Trang 21

4 The Business Dimensional Lifecycle (cont.)

 Minh họa luồng tổng thể của việc thực hiện KDL

 Xác định tuần tự các nhiệm vụ và các hoạt động chính

Trang 22

4.1 Hoạch định dự án

 Hoạch định dự án nhấn vào định nghĩa và phạm vi dữ liệu bao gồm việc đánh giá sự sẵn sàng và minh chứng về mặt kinh doanh

 Tập trung vào nguồn lực và cấp độ kỹ năng của nhân viên

 Hoạch định dự án phụ thuộc vào các yêu cầu kinh doanh

Trang 23

4.2 Xác định các yêu cầu kinh doanh

 Hiểu yêu cầu kinh doanh của người dùng là trở ngại lớn nhất đối với sự thành công của KDL

 Các yêu cầu kinh doanh thiết lập thông qua 3 luồng song song tập trung vào công nghệ, dữ liệu và các ứng dụng

người dùng

Trang 24

Ba luồng song song

Application Track

Technology Track Data Track

Trang 25

Ba luồng song song (tt)

 Luồng dữ liệu (Data Track)

 Mô hình chiều

 Thiết kê vật lý

 Thiết kế và phát triển giai đoạn dữ liệu (Data Staging)

 Luồng công nghệ (Technology Track)

 Thiết kế kiến trúc kỹ thuật

 Chọn lựa và cài đặt kết quả

 Luồng ứng dụng (Application Track)

 Đặc tả ứng dụng người dùng cuối

 Phát triển ứng dụng người dùng cuối

Trang 27

Bus matrix

Trang 28

Qui trình 4 bước thiết kế mô hình chiều

 Bước 1: Chọn qui trình nghiệp vụ (Choose the Business

Process)

 Bước 2: Khai báo phần tử (Declare the Grain )

 Bước 3: Xác định các chiều (Identify the Dimensions)

 Bước 4: Xác định sự kiện (Identify the Facts)

Trang 29

Một số loại chiều

 Chiều ngày tháng (Date and Time)

 Chiều suy biến (Degenerate Dimensions)

 Chiều thay đổi chậm (Slowly Changing Dimensions)

 Chiều nhập vai (Role-Playing Dimensions)

 Chiều hỗn hợp/hỗn tạp (Junk Dimensions)

Trang 30

Chiều ngày tháng

Trang 31

Chiều suy biến

Trang 32

Chiều nhập vai

Trang 33

Chiều thay đổi chậm

Trang 34

Chiều hỗn hợp

Trang 35

Các dạng bảng sự kiện

 Bảng sự kiện giao dịch (Transaction Fact Table)

 Bảng sự kiện lưu ảnh theo chu kỳ (Periodic Snapshot

Trang 36

Order fulfillment pipeline diagram

Trang 37

Characteristic Transaction Fact

Table

Periodic Snapshot Fact Table

Accumulating Snapshot Fact Table

Time period

represented

Point in time Regular

predictable intervals

Indeterminate time span, typically

One row per life

Trang 38

Bảng sự kiện yếu

Trang 39

 Các chiến lược đánh chỉ mục (indexing) và phân hoạch

(partitioning) sơ bộ cũng cần được xem xét

Trang 40

4.6 Thiết kế và phát triển vùng dữ liệu tạm

 Thường bị đánh giá thấp nhất trong dự án KDL

 Bao gồm 3 bước chính: rút trích, chuyển đổi và nạp

 Quá trình rút trích luôn bộc lộ những vấn đề về chất lượng dữ liệu trong hệ thống tác nghiệp

 Vấn đề chất lượng dữ liệu luôn cần phải được lưu ý trong giai đoạn xây dựng vùng dữ liệu tạm

Trang 41

4.7 Thiết kế kiến trúc kỹ thuật

KDL yêu cầu việc tích hợp của nhiều công nghệ

Những nhân tố then chốt cần xem xét:

 Yêu cầu nghiệp vụ

 Môi trường công nghệ hiện tại

 Kỹ thuật chiến lược

Trang 42

4.8 Chọn lựa và cài đặt kết quả

 Dùng các kiến trúc kỹ thuật như framework

 Qui trình đánh giá tiêu chuẩn kỹ thuật đi theo những nhân

tố lượng giá cho mỗi thành phần kiến trúc được định nghĩa

 Sau chọn lựa và cài đặt, yêu cầu có quá trình kiểm tra để chắc chắn việc tích hợp tương thích

Trang 43

4.9 Đặc tả ứng dụng người dùng cuối

 Xác định một tập tiêu chuẩn các ứng dụng người dùng

cuối hơn là cho một ứng dụng đơn lẻ

 Các đặc tả ứng dụng mô tả mẫu báo cáo, các thông số

hướng người dùng và các yêu cầu tính toán

 Các đặc tả phải chắc chắn rằng nhóm phát triển và người dùng có cùng cách hiểu đối với ứng dụng được chuyển

giao

Trang 44

4.10 Phát triển ứng dụng người dùng cuối

 Việc phát triển bao gồm cấu hình công cụ siêu dữ liệu và xây dựng các báo báo cáo đặc tả

 Các ứng dụng có thể xây dựng dùng công cụ truy xuất dữ liệu nâng cao để cung cấp những sản phẩm có ý nghĩa

 Dùng các công cụ truy xuất dữ liệu nâng cao cũng thường đưa ra một cơ cấu mạnh mẽ cho người dùng dễ dàng

chỉnh sửa các mẫu báo cáo sẵn có

Trang 45

4.11 Cài đặt

 Cài đặt thể hiện sụ hội tụ của công nghệ, dữ liệu và các

ứng dụng người dùng cuối

 Huấn luyện người dùng là rất quan trọng

 Hỗ trợ người dùng, qui trình giao tiếp, chiến lược phản

hồi nên thiết lập trước khi người dùng truy xuất đến KDL

 Cài đặt nên hoãn lại nếu tất cả các mảng công việc chưa sẵn sàng

Trang 46

4.12 Bảo trì và phát triển

 Tập trung vào phía bên trong để chắc chắn tính tin cậy

của KDL

 Các chỉ số chấp nhận và hiệu suất nên được đo lường

nhiều lần và ghi log để hỗ trợ tiếp thị cho KDL

 Những thay đổi nên được xem xét như dấu hiệu của thành công chứ không phải là thất bại

 Các tiến trình ưu tiên nên được thiết lập sao cho thỏa mãn các nhu cầu tăng thêm

 Sau khi các ưu tiên được xác định, quay lại từ đầu của

chu trình

Trang 47

4.13 Quản lí dự án

 Tập trung theo dõi trạng thái của dự án, ghi nhận vấn đề

và thay đổi kiểm soát

 Giao tiếp liên tục là mang tính then chốt

Trang 48

Các công cụ kỹ thuật cho KDL

 Kimball Lifecycle và các công nghệ của Microsoft

Trang 49

Kimball Lifecycle và các công nghệ của Microsoft

Trang 50

The Microsoft DW/BI Toolset

 The relational engine (RDBMS) to manage and store the dimensional data

warehouse database

 SQL Server Integration Services (SSIS) to build the extract,transformation,

and load (ETL) system

 SQL Server Analysis Services (SSAS) analytic database to support users’

queries, particularly ad hoc use

 SQL Server Analysis Services data mining to develop statistical data mining

models, and also to include those models in advanced analytic applications

 SQL Server Reporting Services (SSRS) to build predefined reports The

majority of the Reporting Services features are most appropriate for the

DW/BI team, but you may provide some ad hoc query and report building

functionality with Report Builder

Trang 51

The Microsoft DW/BI Toolset

 Master Data Services (MDS) to create a range of master data management applications to feed the data

warehouse, and possibly integrate that data management with the source transaction systems

 Development and management tools, especially SQL

Server BI Development Studio (BIDS) and SQL Server

Management Studio to build and manage your DW/BI

system

Trang 52

The Microsoft DW/BI Toolset

 Excel

 PowerPivot

 SharePoint

 PowerPivot for SharePoint

 Master Data Services

Ngày đăng: 08/05/2021, 18:47

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm