1. Trang chủ
  2. » Công Nghệ Thông Tin

Tìm Hiểu Về DW 2.0 Chương 7, 8 ,9 doc

72 472 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Tìm Hiểu Về DW 2.0 Chương 7, 8, 9
Tác giả Nguyễn Thanh Tuấn, Phạm Duy Phương, Huỳnh Thị Mọng Diễm, Nguyễn Trần Thanh Viên, Nguyễn Trọng Bình
Chuyên ngành Data Warehousing
Thể loại Tài liệu hướng dẫn
Định dạng
Số trang 72
Dung lượng 1,21 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Sử dụng dữ liệu thăm dò nộ bộ- Các dữ liệu đi vào cơ sở thăm dò thường không được kiểm tra nghiêm ngặt không chính xác - Vì vậy không nên sử dụng những dữ liệu từ cơ sở thăm dò để làm

Trang 1

Tìm Hiểu Về DW 2.0

Chương 7, 8 ,9

The Architecture for the Next

[Nhóm 06]

Trang 3

Nội Dung

• Chương 7: Xử Lý Thống Kê và DW 2.0

• Chương 8: Mô Hình Dữ Liệu và DW 2.0

• Chương 9: Giám Sát Môi Trường DW 2.0

Trang 4

Chương 7

Thống Kê Xử Lý và DW 2.0

Trang 5

Nội dung

• Hai kiểu giao dịch trong DW

• Cách sử dụng phân tích thống kê

• Phân tích Heuristic

Trang 7

Nội dung

• Các nguồn xử lý thăm dò

• Làm sạch dữ liệu thăm dò

• Project – based data

• Chợ dữ liệu (data marts) và cơ sỡ dữ liệu thăm dò

Trang 8

Nội dung

• Dòng chảy ngược của dữ liệu

• Sử dụng dữ liệu thăm dò nội bộ

Trang 9

Hai kiểu giao dịch

Hỗ trợ 2 kiểu giao dịch

cơ bản trong việc lưu trữ

dữ liệu vào kho dữ liệu: + Câu truy vấn.

+ Phân tích thống kê.

Cấu truy vấn: chỉ sử dụng một số tài nguyên, chỉ một

vài đơn vị của dữ liệu.

Phân tích thống kê: đòi hỏi thật nhiều tài nguyên,

Trang 10

Hai kiểu giao dịch

Sự khác nhau:

Cấu truy vấn: chỉ sử dụng một hoặc hai record của dữ

liệu cần phải có đối với phân tích.

Phân tích thống kê: Nhiều record được yêu cầu, kết

quả của truy vấn đòi hỏi tính toán giá trị trung bình

thống kê gần 26000 record được truy cập

Trang 11

Sử dụng phân tích thống kê

Tạo ra profile dữ liệu

Mục đích: phân tích và quan sát các trường dữ liệu.

Cách tạo: Hỏi những câu hỏi

- Có bao nhiêu record ở đó?

Trang 12

Sử dụng phân tích thống kê

So sánh dữ liệu công ty

và bên ngoài

Mục đích: có cái nhìn sâu sắc hơn cho việc kinh doanh.

Khi so sánh cần chú ý:

- Tính toàn vẹn của phép so sánh.

Trang 13

Phân tích Heuristic

Là loại phân tích được thực hiện như là một phần của sự khám phá,

là phương pháp giải quyết vấn đề bằng cách đánh giá kinh nghiệm và tìm giải pháp qua thử nghiệm.

Tại sao phải dùng?

- Trong hoạt động phân tích khám phá, các nhà phân

tích không biết được dữ liệu cất giữ các bí mật gì.

Trang 14

Đóng băng dữ liệu

Mục đích: khi thực hiện

xử lý thống kê Heuristic thì không cho có sự tác động vào dữ liệu mà làm ảnh hưởng đến kết quả.

- Khi dữ liệu đóng băng thì không có dữ liệu mới nào

được đưa vào hệ thống.

Trang 15

Xử lý thăm dò

Mục đích: giải quyết trường hợp khi phân tích được thực hiện với nội dung, hình thức và cấu trúc không được được biết đến.

- Là tính chất của xử lý thống kê nó luôn luôn là một

sự thực hiện trong việc khảo sát.

Trang 16

Tần suất của phân tích thống kê

Mục đích: khi tần suất phân tích thống kê tăng, nhu cầu cần tăng thêm một cơ sở thăm dò riêng biệt.

- Thích hợp để hỗ trợ xử lý thống kê của DW 2.0

Trang 17

• Cơ sở thăm dò lẫy dữ liệu có tính chất hạt thấp nhất

Ngoài ra nó thường sử dụng số lượng lớn dữ liệu lịch sử

• Cấu trúc dữ liệu của cstd được trộn lẫn Một số dữ liệu

được đưa vào các bảng trên đĩa lưu trữu Một số khác

được lưu lại thành file

Trang 18

Các nguồn xử lý thăm dò

Mục đích: biết được nguồn dữ liệu lấy từ đâu

- Cơ sở thăm dò rút ra từ nhiều nguồn dữ liệu từ: Integrated Sector, Archival

Sector, Near Line Sector

- Integrated Sector là nguồn dữ liệu chính của cơ sở thăm dò

- Đôi khi các cơ sở thăm dò có thể rút dữ liệu từ Interactive Sector.

Trang 19

Làm mới dữ liệu thăm dò

- Chu kỳ làm sạch dữ liệu bên trong cơ sở thăm dò cần phải cân nhắc kỹ

lưỡng

- Chu kỳ làm sạch còn tùy thuộc vào nhu cầu phân tích thăm dò.

Mục đích: làm mới dữ liệu thăm dò

Trang 20

Project – based data

Cơ sở thăm dò là một Project – based có quy tắc.

- Quy tắc : các dữ liệu liên quan đến cstd được thực hiện thu thập, phân tích

Kết quả của việc thu thập phân tích được gửi đến doanh nghiệp để quản lý và nghiên cứu.

- Cơ sở dữ liệu thăm dò là một cấu trúc bền vững hoặc tạm thời.

Trang 21

Chợ dữ liệu và cơ sở dữ liệu thăm dò

Data mart (kho dữ liệu chủ đề): là một tập con của Data warehouse, chỉ tập trung vào những đối tượng được chọn.

Trang 22

Dòng chảy ngược của dữ liệu

Dữ liệu cũng có thể đi từ

cơ sở thăm dò vào DW Tuy nhiên cần phải có điều kiện :

- Dữ liệu đầu ra từ cơ sở thăm dò phải được sử dụng khắp nơi trong môi trường công ty.

- Cần có một dấu vết kiểm tra dữ liệu và những sự tính toán có liên quan tới bất

kỳ cơ sở thăm dò

Trang 23

Sử dụng dữ liệu thăm dò nộ bộ

- Các dữ liệu đi vào cơ sở thăm dò thường không được

kiểm tra nghiêm ngặt ( không chính xác )

- Vì vậy không nên sử dụng những dữ liệu từ cơ sở thăm dò

để làm báo cáo cung cấp cho các kiểm toán viên và giám sát

- Các báo cáo nhiều khi cũng dựa trên các dữ liệu thăm dò

vì vậy nó có thể không đúng hoặc thiếu chính xác

Trang 24

Góc nhìn của nhà phân tích doanh nghiệp

- Thống kê xử lý đóng một vai trò rất quan trọng trong doanh nghiệp Vai trò của nó đã được công nhận bởi các doanh nghiệp sử dụng nguồn nhân lực.

- Nhiều doanh nghiệp không tận dụng lợi thế của việc xử lý thống kê

dữ liệu mà họ sở hữu Như vậy họ không tận dụng triệt để được nguồn thông tin.

- Một số doanh nghiệp lâu đời đã nhận ra giá trị của thông tin xử lý thống kê dữ liệu Điển hình các doanh nghiệp chuyên về tính toán, bảo hiểm và nghiên cứu.

Trang 25

Chương 8

Mô Hình Dữ Liệu và DW 2.0

Trang 26

Nội dung

• Giới Thiệu

• Một số lưu ý khi xây dựng mô hình dữ liệu

• Các cấp của mô hình dữ liệu

• Một số loại mô hình dữ liệu

• Sự chuyển đổi mô hình

• Mô hình dữ liệu và dữ liệu phi cấu trúc

• Từ quan điểm của người dùng doanh nghiệp

Trang 27

Giới Thiệu

Mô hình dữ liệu là mô hình mô tả các bộ phận khác nhau của DW 2.0 hợp lại với nhau như thế nào Nó như một bản đồ dẫn đường đến nhiều bộ phận của DW 2.0

Trang 28

Giới Thiệu

Các mô hình dữ liệu được xây dựng từ công việc kinh doanh riêng

Nó hình thành từ các thành phần khác nhau của doanh nghiệp.

Trang 29

Một số lưu ý khi xây dựng mô hình dữ liệu

• Xác định phạm vi tích hợp: tuyên bố những gì ở trong các

mô hình dữ liệu và những gì không phải Nếu không có

phạm vi tích hợp mô hình dữ liệu có thể đi vào vô tận

Trang 30

Một số lưu ý khi xây dựng mô hình dữ liệu

• Phân biệt Granular data và Summarized data

- Granular data (dữ liệu dạng hạt): dữ liệu ở mức thấp nhất

có nghĩa Ví dụ: Tên người; ngày tháng năm sinh của một người; tiền lương của một người tại một thời điểm nào

đó…

- Summarized data (dữ liệu dạng tóm tắt): dữ liệu mô tả một tổng số nào đó Ví dụ: khối lượng giao dịch kết thúc trong một ngày, số tiền doanh thu cho một tháng, số lượng nhân viên trong một năm, …

Trang 31

Các cấp độ của mô hình

- Có thể được xây dựng một cách nhanh chóng

- ERD cho thấy các vùng chủ thể hoặc vùng chính của việc kinh doanh của công

ty, và các mối quan hệ giữa các vùng chủ thể này.

Mô hình ERD – mô hình cấp cao (cấp quan hệ thực thể)

Trang 33

Các cấp độ của mô hình

- Cho thấy các đặc tính vật lý của mô hình dữ liệu, chẳng hạn như các thuộc tính

vật lý của dữ liệu, các index, foreign keys

Mô hình Physical – mô hình cấp thấp (mô hình vật lý)

Trang 34

Các cấp độ của mô hình

Ví dụ: ERD - Bản đồ hoa kỳ

Trang 35

Các cấp độ của mô hình

Ví dụ: Dis - Bản đồ bang Texas

Trang 36

Các cấp độ của mô hình

Ví dụ: Physical - Bản đồ

mô tả như thế nào để tìm ra được một ngôi nhà ở Dallas, thuộc bang Texas:

Trang 37

Các cấp độ của mô hình

- Cấp của mô hình càng thấp thì mức độ chi tiết càng cao.

- Cấp của mô hình càng cao, mô hình càng được hoàn thiện hơn.

- Trong cùng một tổ chức, các mô hình dữ liệu được dệt kim với nhau để có ý

Trang 38

Một số loại mô hình dữ liệu

- Thuộc Interactive Sector

- Mô hình dữ liệu ứng dụng được định hình bởi các yêu cầu ứng dụng

- Có những mô hình ứng dụng khác nhau cho mỗi ứng dụng.

Mô hình dữ liệu ứng dụng

Trang 39

Một số loại mô hình dữ liệu

- Mô hình cho thấy dữ liệu đến từ các môi trường định hướng ứng dụng được phát triển thành dữ liệu doanh nghiệp như thế nào.

- Nằm giữa các tầng tương tác và tầng tích hợp.

- Mô tả tất cả các dữ liệu của doanh nghiệp trong một bản tích hợp.

Mô hình dữ liệu doanh nghiệp

Trang 40

Sự chuyển đổi mô hình

- Có sự chuyển biến cơ bản của dữ liệu từ Application/Interactive Sector đến Integrated Sector Khi dữ liệu đi vào khu vực Intergrated nó được lưu trữ theo khu vực chủ đề.

Trang 41

Sự chuyển đổi mô hình

- Khi dữ liệu đi vào Near Line Sector, không có chuyển đổi hoặc thay đổi các mô hình dữ liệu.

Trang 42

Sự chuyển đổi mô hình

- Khi dữ liệu đi vào Archival Sector có thể có hoặc không sự thay đổi của mô hình

dữ liệu.

Trang 43

Mô hình dữ liệu và dữ liệu phi cấu trúc

Mô hình dữ liệu:

• Mô hình (model) là một dạng thức trừu tượng về một hệ thống, được hình thành để hiểu hệ thống trước khi xây

dựng hoặc thay đổi hệ thống đó

• Mô hình dữ liệu : Là một tập các khái niệm Dùng để mô tả CSDL, các mối quan hệ của dữ liệu, các ràng buộc trên dữ liệu của một CSDL

Trang 44

Mô hình dữ liệu và dữ liệu phi cấu trúc

Mô hình dữ liệu:

- Biểu diễn được cấu trúc dữ liệu và thông tin

 Là mô hình quan trọng nhất trong quá trình mô hình hóa HTTT

- Thích hợp và hữu ích để cấu trúc hóa các mặt của DW 2.0

 Nhưng có một số ứng dụng của mô hình dữ liệu không

có cấu trúc của DW 2.0

Dữ liệu phi cấu trúc

Trang 45

Mô hình dữ liệu và dữ liệu phi cấu trúc

Dữ liệu phi cấu trúc:

• Dữ liệu có cấu trúc thường dùng để chỉ dữ liệu lưu trữ

trong các hệ quản trị CSDL quan hệ như SQL Server hay MySQL, trong đó các thực thể và các thuộc tính được định nghĩa sẵn

• Dữ liệu phi cấu trúc thường dùng để chỉ dữ liệu ở dạng tự

do (free type) và không có cấu trúc định nghĩa sẵn

Trang 46

Mô hình dữ liệu và dữ liệu phi cấu trúc

- Hình minh họa cho thấy mô hình dữ liệu có thể được sử dụng để hình thành một nguyên tắc phân loại bên ngoài

Các nơi mà mô hình dữ liệu có thể được tìm thấy trong các thành phần phi cấu trúc của DW 2.0 là:

- Trong nguyên tắc của các phép phân loại bên ngoài

- Trong việc tạo ra một mô hình dữ liệu bên trong

Trang 47

Mô hình dữ liệu và dữ liệu phi cấu trúc

- Hình minh họa một tài liệu có thể được rút gọn vào các chủ đề bên trong Lần

lượt các chủ đề bên trong được sử dụng để tạo ra một mô hình dữ liệu bên trong.

Các nơi mà mô hình dữ liệu có thể được tìm thấy trong các thành phần phi cấu trúc của DW 2.0 là:

- Trong nguyên tắc của các phép phân loại bên ngoài

- Trong việc tạo ra một mô hình dữ liệu bên trong

Trang 48

Từ quan điểm của người dùng doanh nghiệp

• Người dùng doanh nghiệp (người dùng cuối)  nhân tố thiết yếu trong quá trình mô hình hóa dữ liệu

• Nếu mô hình dữ liệu đến từ bất kỳ nguồn nào khác người dùng cuối hoặc nó không được người dùng cuối thừa nhận tính hợp lệ  Các nội dung của DW 2.0 đã được định hình không phù hợp

Người dùng cuối cần phải được tham gia từ đầu

Trang 49

Tóm tắt chương 8

• DW 2.0 thì rộng lớn và phức tạp  được xây dựng trong một

khoảng thời gian dài bởi một số lượng lớn các nhà phát triển

• Các mô hình dữ liệu:

- Tạo thành bản đồ dẫn đường trí tuệ cho môi trường DW

2.0 Được xây dựng cho hầu hết các dữ liệu hạt, chứ không phải dữ liệu tóm tắt hoặc dữ liệu tổng hợp

- Có 3 mức độ : mức ERD, mức trung(phân chia), mức

thấp(vật lý).

- Có thể được áp dụng cho dữ liệu phi cấu trúc

Trang 50

Chương 9

Giám sát môi trường DW 2.0

Trang 51

Nội dung

• Giám sát môi trường DW 2.0

• Giám sát giao dịch

• Giám sát chất lượng dữ liệu

• Giám sát kho dữ liệu

• Giám sát giao dịch – thời gian phản hồi

• Xử lý giờ cao điểm

• Giám sát chất lượng dữ liệu ETL

• Dữ liệu không hoạt động

Trang 52

Giám sát môi trường DW 2.0

• Khuyến cáo: thường xuyên tiến hành quản lý giám sát môi trường DW 2.0

• Khi cần thực hiện điều chỉnh môi trường DW 2.0 hoặc bất

kì thành phần nào của nó :

- Điều chỉnh thực hiện chủ động

- Không phải là sự phản ứng lại các sự cố đã xảy ra

Trang 53

Giám sát giao dịch

- Hình minh họa giám sát giao dịch trong môi trường DW 2.0

Giám sát các giao dịch chạy trong Interactive Sector của DW 2.0 phải đảm bảo:

- Giao dịch tốt

- Thời gian phản hồi phù hợp

Trang 54

Giám sát chất lượng dữ liệu

- Hình minh họa giám sát chất lượng tại thời điểm ETL

- Giám sát ETL về chất lượng dữ liệu

- Kiểm tra chất lượng của dữ liệu đi qua các thành phần chuyển đổi của

DW 2.0

- Nếu dữ liệu chất lượng thấp đang đi vào trong DW 2.0, thì việc phân tích dữ liệu cần phải được cảnh báo

Trang 55

Giám sát kho dữ liệu

- Hình minh họa giám sát kho dư liệu

- Xem xét dữ liệu của kho dữ liệu

- Mục đích chính của là để đo tần số sử dụng dữ liệu

- Từ tần số sử dụng dữ liệu nó có thể được xác định nếu có bất kì dữ liệu nào không hoạt động

Trang 56

Giám sát giao dịch – thời gian phản hồi

• Mục đích chính: đảm bảo giao dịch tốt và có thời gian phản hồi thích hợp

• Có nhiều mặt hệ thống xử lý có ảnh hưởng đến hiệu năng

hệ thống  Ảnh hưởng đến thời gian phản hồi

Trang 57

Giám sát giao dịch – thời gian phản hồi

• Thời gian phản hồi trong 2 - 3 giây được xem là chấp nhận được

• Thông số thời gian phản hồi chấp nhận được được định nghĩa trong Service Level Agreement

Trang 58

Giám sát giao dịch – thời gian phản hồi

- Hình minh họa hoạt động cơ bản của giám sát giao dịch

Trang 59

Xủ lý giờ cao điểm

- Thời điểm hoạt động cao nhất được gọi là “giờ cao điểm”.

- Cảnh báo khi nào cần thêm tài nguyên hệ thống

Trang 60

Xử lý giờ cao điểm

- Biểu đồ theo dõi sự tăng trưởng của dữ liệu và giao dich

- Số lượng giao dịch và khối lượng dữ liệu là một chỉ số tốt

để xác định hiệu năng của hệ thống đang được tiêu thụ.

- Nâng cấp phần cứng.

Trang 61

Xử lý giờ cao điểm

- Biểu đồ giám sát sự phát triển của giao dịch và thời gian phản hồi.

Trang 62

Giám sát chất lượng dữ liệu ETL

- Xem xét dữ liệu đi từ 1 sector DW 2.0 đến sector khác.

- Hoặc dữ liệu ban đầu đi vào hệ thống.

=> Đánh giá chất lượng dữ liệu khi nó đang được chuyển đổi.

Trang 63

Giám sát chất lượng dữ liệu ETL

- Out of domain: ngoài miền dữ liệu.

- Unmatched foreign key: khóa ngoại không phù hợp.

- Outlying range: phạm vi xa trung tâm.

Trang 64

Giám sát chất lượng dữ liệu ETL

Một trong những câu hỏi thú vị nhất về chất lượng dữ liệu là phải làm gì khi một điều kiện lỗi đã được phát hiện ?

Trang 65

Giám sát chất lượng dữ liệu ETL

- Một lựa chọn là loại bỏ dữ liệu ( giải pháp không tốt)

vì:

- Có thể thêm record vào.

- Một số công cụ sữa lỗi được sử dụng đến.

- Một giải pháp khác là tạo ra dữ liệu mặc định :

- Dữ liệu không chính xác sẽ bị mất vĩnh viễn.

- Một giải pháp khác nữa là cho dữ liệu không chính xác đi vào hệ thống:

- Đánh dấu lại dữ liệu không chính xác.

Trang 66

Giám sát kho dữ liệu

- Giám sát kho dữ liệu là một công cụ dùng để theo dõi dữ liệu đang được sử dụng và không được sử dụng trong kho dữ liệu

- Nếu 1 đơn vị dữ liệu không được sử dụng, nó được coi là dữ liệu không hoạt động.

- Giám sát kho dữ liệu tốt khi nó phát hiện và báo cáo dữ liệu không hoạt động.

Trang 67

Giám sát kho dữ liệu

- Giám sát kho dữ liệu được thông qua việc chặn mã lệnh SQL.

- Thu thập mã lệnh SQL

- Mã lệnh SQL bị chặn là kết quả của “sniffing” các dòng thông tin.

Trang 68

Giám sát kho dữ liệu

- Giám sát kho dữ liệu được đặt bên ngoài hệ thống mạng máy tính.

Trang 69

Giám sát kho dữ liệu

- Giám sát kho dữ liệu được đặt bên trong

hệ thống mạng máy tính

Trang 70

Dữ liệu không hoạt động

- Khối lượng dữ liệu tăng, tỷ lệ phần trăm của dữ liệu không hoạt động cũng phát triển.

- Để dữ liệu không hoạt động trong kho dữ liệu sẽ làm chậm

hệ thống.

- Giải pháp là di chuyển dữ liệu không hoạt động đến 1 nơi lưu trữ gần hoặc lưu trữ ở 1 nơi nào đó.

Trang 71

Từ quan điểm của người kinh doanh

- Người dùng kinh doanh không trực tiếp giám sát

mà thông qua các kỹ sư

- Kỹ sư sẽ giám sát hệ thống và đưa ra các xử lý.

Ngày đăng: 26/06/2014, 23:21

TỪ KHÓA LIÊN QUAN

w