1. Trang chủ
  2. » Công Nghệ Thông Tin

CHAPTER 18: DATA QUALITY IN DW 2.0 potx

19 338 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 19
Dung lượng 560,22 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Nên khi các vấn đề về dữ liệu được phát hiện ẩn giấu trong dữ liệu nguồn trong giai đoạn cuối của dự án , điều này dẫn đến sự thất bại rất lớn và chắc chắn sẽ làm chậm trễ trong tiến đ

Trang 1

N H Ó M 1 8 :

1 0 4 1 3 0 9 - N G U Y Ễ N C Ô N G B Ì N H

1 0 4 1 4 4 0 – L Ư Ơ N G M I N H T R Í

CHAPTER 18: DATA QUALITY IN

DW 2.0

Trang 2

CHAPTER 18: DATA QUALITY IN

DW 2.0

REVERSE-ENGINEERED DATA MODEL

CHALLENGE TOP-DOWN MODELING

Trang 3

CHAPTER 18: DATA QUALITY IN

DW 2.0

Môi trường DW thế hệ đầu tiên không quan

tâm chất lượng dữ liệu Nên khi các vấn đề về

dữ liệu được phát hiện ẩn giấu trong dữ liệu nguồn trong giai đoạn cuối của dự án , điều này dẫn đến sự thất bại rất lớn và chắc chắn

sẽ làm chậm trễ trong tiến độ thực hiện dự án.

Trang 4

CHAPTER 18: DATA QUALITY IN

DW 2.0

Trong các thế hệ tiếp theo - DW 2.0 Việc kiểm tra dữ liệu được thực hiện lặp đi lặp lại ngay trước khi cả kế hoạch bắt đầu

Trong kho dữ liệu DW 2.0 thế hệ tiếp theo, nhóm nghiên cứu chất lượng dữ liệu mong đợi có thể chọn từ một loạt các chiến lược để giải quyết vấn đề chất lượng dữ liệu Bao gồm 1 số

chiến lược đề cập bên dưới đây

Trang 5

CHAPTER 18: DATA QUALITY IN

DW 2.0

■ Fix the source data: (chỉnh sửa các nguồn dữ liệu)- trên

thực tế đi vào bên trong kho dữ liệu và chỉnh sửa dữ liệu

■ Fix the source program: (chỉnh sửa các mã nguồn

chương trình) - áp dụng chính xác các chỉnh sửa để làm cho dữ liệu hợp lệ

■ Fix the business process: (chỉnh sửa các quá trình kinh

doanh) - một quá trình kinh doanh bị hỏng là nguyên nhân chính của các dữ liệu kém chất lượng

■ Adjust for changes: (điều chỉnh các thay đổi) -

nhận biết và giải quyết các tình huống các thuộc tính

dữ liệu được đang được sử dụng cho một mục đích khác

so với ý định ban đầu

■ Transform the data: (chuyển đổi dữ liệu trên

đường vào kho) - là chiến lược phổ biến nhất, nhưng

không phải là chiến lược duy nhất nên làm

Trang 6

THE DW 2.0 DATA QUALITY TOOL

SET

BỘ CÔNG CỤ CHẤT LƯỢNG DỮ LIỆU DW 2.0

Trang 7

THE DW 2.0 DATA QUALITY TOOL

SET

Có rất nhiều loại công cụ để xem xét:

Data Profiling tools – tìm các vấn đề trong dữ liệu

Còn có những công cụ khác hoàn toàn các công cụ sửa chữa

những dữ liệu bất thường:

• Data Quality Monitor – giám sát chất lượng dữ liệu

• Data Quality Report – báo cáo chất lượng dữ liệu

• ETL - phát hiện các vấn đề chất lượng dữ liệu trong giai đoạn phân tích của dự án và dự đoán các vấn đề chất lượng dữ liệu mới

Trang 8

THE DW 2.0 DATA QUALITY TOOL

SET

Trang 9

THE DW 2.0 DATA QUALITY TOOL

SET

Có bốn lĩnh vực trong bộ công cụ chất lượng dữ liệu DW2.0, như sau :

 Find it — Kiểm tra và khám phá dữ liệu để tìm thấy các quy tắc

và các dữ liệu bất thường.

 Fix it — Làm sạch dữ liệu theo những quy định cụ thể.

 Move it — Công cụ chuyển dữ liệu ETL hoặc ELT để chuyển dữ liệu vào kho dữ liệu

 Monitor it and report it — Chất lượng của dữ liệu được theo dõi

và báo cáo.

Trang 10

DATA PROFILING TOOLS AND THE

REVERSE-ENGINEERED DATA MODEL

CÔNG CỤ KIỂM TRA DỮ LIỆU VÀ PHÂN TÍCH-CẤU TẠO MÔ HÌNH DỮ LIỆU

Trang 11

DATA PROFILING TOOLS AND THE REVERSE-ENGINEERED DATA MODEL

Có thể thực hiện kiểm tra dữ liệu bằng tay không? Điều này có thể

Một tổ chức có thể thuê một số nhân viên bổ sung

để rà soát cơ sở dữ liệu và tìm thấy bản sao những record và deduplicate (nhân đôi) chúng Thật

không may, điều này sẽ không xác định mối quan

hệ bên trong các tập tin hoặc thông qua các tập tin / các hệ thống và sẽ rất tốn kém như các tân binh mới sẽ phải được đào tạo và giám sát để đảm bảo rằng họ tuân theo các quy tắc kinh doanh

Trang 12

DATA PROFILING TOOLS AND THE

REVERSE-ENGINEERED DATA MODEL

 Một cách khác để làm điều này nên viết chương trình để tìm dữ liệu bất thường Tùy chọn này thường sẽ giải quyết chỉ có vấn đề được biết đến Nó cũng có thể mất một thời gian rất dài và không

có đảm bảo rằng việc làm nay sẽ có kết quả

 Sự lựa chọn tốt nhất để phát hiện ra vấn đề chất lượng dữ liệu là

sử dụng một công cụ kiểm tra chất lượng dữ liệu Có rất nhiều

công cụ kiểm tra dữ liệu để hỗ trợ đội ngũ chất lượng dữ liệu ngày nay Các công cụ dễ dàng phân tích các giá trị dữ liệu được chứa trong một cột, đôi khi cùng một lúc tại nhiều cột trong một bảng, đôi khi tìm kiếm trên bảng hoặc thậm chí trên toàn hệ thống để xem nếu có bất kỳ dạng nào trong các giá trị được chứa trong các cột được lựa chọn Những mô hình có thể phát hiện ra quy tắc

kinh doanh ẩn, ví dụ như, mỗi khi giá trị trong cột 1 "a," thì giá trị trong cột 5 có thể là "x" hay "y".

Trang 13

DATA MODEL TYPES

CÁC LOẠI MÔ HÌNH DỮ LIỆU

Trang 14

DATA MODEL TYPES

Trang 15

DATA MODEL TYPES

Sơ đồ trong hình 18,4 đại diện cho các thành phần khác nhau tạo nên cảnh quan DW 2,0

Trang 16

DATA MODEL TYPES

hình 18,5 mô tả tất cả các mô hình dữ liệu quan trọng được sử dụng trong kho dữ liệu DW 2,0 thế

hệ tiếp theo.

Trang 17

DATA PROFILING INCONSISTENCIES CHALLENGE

TOP-DOWN MODELING

NHỮNG MÂU THUẪN KIỂM TRA DỮ LIỆU THỬ THÁCH MÔ HÌNH TỪ TRÊN XUỐNG

Trang 18

DATA PROFILING INCONSISTENCIES CHALLENGE TOP-DOWN MODELING

Trang 19

DATA PROFILING INCONSISTENCIES CHALLENGE

TOP-DOWN MODELING

Ngày đăng: 26/06/2014, 23:21

HÌNH ẢNH LIÊN QUAN

Sơ đồ trong hình 18,4 đại diện cho các thành phần khác nhau  tạo nên cảnh quan DW 2,0 - CHAPTER 18: DATA QUALITY IN DW 2.0 potx
Sơ đồ trong hình 18,4 đại diện cho các thành phần khác nhau tạo nên cảnh quan DW 2,0 (Trang 15)

TỪ KHÓA LIÊN QUAN