Nên khi các vấn đề về dữ liệu được phát hiện ẩn giấu trong dữ liệu nguồn trong giai đoạn cuối của dự án , điều này dẫn đến sự thất bại rất lớn và chắc chắn sẽ làm chậm trễ trong tiến đ
Trang 1N H Ó M 1 8 :
1 0 4 1 3 0 9 - N G U Y Ễ N C Ô N G B Ì N H
1 0 4 1 4 4 0 – L Ư Ơ N G M I N H T R Í
CHAPTER 18: DATA QUALITY IN
DW 2.0
Trang 2CHAPTER 18: DATA QUALITY IN
DW 2.0
REVERSE-ENGINEERED DATA MODEL
CHALLENGE TOP-DOWN MODELING
Trang 3CHAPTER 18: DATA QUALITY IN
DW 2.0
Môi trường DW thế hệ đầu tiên không quan
tâm chất lượng dữ liệu Nên khi các vấn đề về
dữ liệu được phát hiện ẩn giấu trong dữ liệu nguồn trong giai đoạn cuối của dự án , điều này dẫn đến sự thất bại rất lớn và chắc chắn
sẽ làm chậm trễ trong tiến độ thực hiện dự án.
Trang 4CHAPTER 18: DATA QUALITY IN
DW 2.0
Trong các thế hệ tiếp theo - DW 2.0 Việc kiểm tra dữ liệu được thực hiện lặp đi lặp lại ngay trước khi cả kế hoạch bắt đầu
Trong kho dữ liệu DW 2.0 thế hệ tiếp theo, nhóm nghiên cứu chất lượng dữ liệu mong đợi có thể chọn từ một loạt các chiến lược để giải quyết vấn đề chất lượng dữ liệu Bao gồm 1 số
chiến lược đề cập bên dưới đây
Trang 5CHAPTER 18: DATA QUALITY IN
DW 2.0
■ Fix the source data: (chỉnh sửa các nguồn dữ liệu)- trên
thực tế đi vào bên trong kho dữ liệu và chỉnh sửa dữ liệu
■ Fix the source program: (chỉnh sửa các mã nguồn
chương trình) - áp dụng chính xác các chỉnh sửa để làm cho dữ liệu hợp lệ
■ Fix the business process: (chỉnh sửa các quá trình kinh
doanh) - một quá trình kinh doanh bị hỏng là nguyên nhân chính của các dữ liệu kém chất lượng
■ Adjust for changes: (điều chỉnh các thay đổi) -
nhận biết và giải quyết các tình huống các thuộc tính
dữ liệu được đang được sử dụng cho một mục đích khác
so với ý định ban đầu
■ Transform the data: (chuyển đổi dữ liệu trên
đường vào kho) - là chiến lược phổ biến nhất, nhưng
không phải là chiến lược duy nhất nên làm
Trang 6THE DW 2.0 DATA QUALITY TOOL
SET
BỘ CÔNG CỤ CHẤT LƯỢNG DỮ LIỆU DW 2.0
Trang 7THE DW 2.0 DATA QUALITY TOOL
SET
Có rất nhiều loại công cụ để xem xét:
Data Profiling tools – tìm các vấn đề trong dữ liệu
Còn có những công cụ khác hoàn toàn các công cụ sửa chữa
những dữ liệu bất thường:
• Data Quality Monitor – giám sát chất lượng dữ liệu
• Data Quality Report – báo cáo chất lượng dữ liệu
• ETL - phát hiện các vấn đề chất lượng dữ liệu trong giai đoạn phân tích của dự án và dự đoán các vấn đề chất lượng dữ liệu mới
Trang 8THE DW 2.0 DATA QUALITY TOOL
SET
Trang 9THE DW 2.0 DATA QUALITY TOOL
SET
Có bốn lĩnh vực trong bộ công cụ chất lượng dữ liệu DW2.0, như sau :
Find it — Kiểm tra và khám phá dữ liệu để tìm thấy các quy tắc
và các dữ liệu bất thường.
Fix it — Làm sạch dữ liệu theo những quy định cụ thể.
Move it — Công cụ chuyển dữ liệu ETL hoặc ELT để chuyển dữ liệu vào kho dữ liệu
Monitor it and report it — Chất lượng của dữ liệu được theo dõi
và báo cáo.
Trang 10DATA PROFILING TOOLS AND THE
REVERSE-ENGINEERED DATA MODEL
CÔNG CỤ KIỂM TRA DỮ LIỆU VÀ PHÂN TÍCH-CẤU TẠO MÔ HÌNH DỮ LIỆU
Trang 11DATA PROFILING TOOLS AND THE REVERSE-ENGINEERED DATA MODEL
Có thể thực hiện kiểm tra dữ liệu bằng tay không? Điều này có thể
Một tổ chức có thể thuê một số nhân viên bổ sung
để rà soát cơ sở dữ liệu và tìm thấy bản sao những record và deduplicate (nhân đôi) chúng Thật
không may, điều này sẽ không xác định mối quan
hệ bên trong các tập tin hoặc thông qua các tập tin / các hệ thống và sẽ rất tốn kém như các tân binh mới sẽ phải được đào tạo và giám sát để đảm bảo rằng họ tuân theo các quy tắc kinh doanh
Trang 12DATA PROFILING TOOLS AND THE
REVERSE-ENGINEERED DATA MODEL
Một cách khác để làm điều này nên viết chương trình để tìm dữ liệu bất thường Tùy chọn này thường sẽ giải quyết chỉ có vấn đề được biết đến Nó cũng có thể mất một thời gian rất dài và không
có đảm bảo rằng việc làm nay sẽ có kết quả
Sự lựa chọn tốt nhất để phát hiện ra vấn đề chất lượng dữ liệu là
sử dụng một công cụ kiểm tra chất lượng dữ liệu Có rất nhiều
công cụ kiểm tra dữ liệu để hỗ trợ đội ngũ chất lượng dữ liệu ngày nay Các công cụ dễ dàng phân tích các giá trị dữ liệu được chứa trong một cột, đôi khi cùng một lúc tại nhiều cột trong một bảng, đôi khi tìm kiếm trên bảng hoặc thậm chí trên toàn hệ thống để xem nếu có bất kỳ dạng nào trong các giá trị được chứa trong các cột được lựa chọn Những mô hình có thể phát hiện ra quy tắc
kinh doanh ẩn, ví dụ như, mỗi khi giá trị trong cột 1 "a," thì giá trị trong cột 5 có thể là "x" hay "y".
Trang 13DATA MODEL TYPES
CÁC LOẠI MÔ HÌNH DỮ LIỆU
Trang 14DATA MODEL TYPES
Trang 15DATA MODEL TYPES
Sơ đồ trong hình 18,4 đại diện cho các thành phần khác nhau tạo nên cảnh quan DW 2,0
Trang 16DATA MODEL TYPES
hình 18,5 mô tả tất cả các mô hình dữ liệu quan trọng được sử dụng trong kho dữ liệu DW 2,0 thế
hệ tiếp theo.
Trang 17DATA PROFILING INCONSISTENCIES CHALLENGE
TOP-DOWN MODELING
NHỮNG MÂU THUẪN KIỂM TRA DỮ LIỆU THỬ THÁCH MÔ HÌNH TỪ TRÊN XUỐNG
Trang 18DATA PROFILING INCONSISTENCIES CHALLENGE TOP-DOWN MODELING
Trang 19DATA PROFILING INCONSISTENCIES CHALLENGE
TOP-DOWN MODELING