Sử dụng dữ liệu thăm dò nộ bộ- Các dữ liệu đi vào cơ sở thăm dò thường không được kiểm tra nghiêm ngặt không chính xác - Vì vậy không nên sử dụng những dữ liệu từ cơ sở thăm dò để làm
Trang 1Tìm Hiểu Về DW 2.0
Chương 7, 8 ,9
The Architecture for the Next
[Nhóm 06]
Trang 3Nội Dung
• Chương 7: Xử Lý Thống Kê và DW 2.0
• Chương 8: Mô Hình Dữ Liệu và DW 2.0
• Chương 9: Giám Sát Môi Trường DW 2.0
Trang 4Chương 7
Thống Kê Xử Lý và DW 2.0
Trang 5Nội dung
• Hai kiểu giao dịch trong DW
• Cách sử dụng phân tích thống kê
• Phân tích Heuristic
Trang 7Nội dung
• Các nguồn xử lý thăm dò
• Làm sạch dữ liệu thăm dò
• Project – based data
• Chợ dữ liệu (data marts) và cơ sỡ dữ liệu thăm dò
Trang 8Nội dung
• Dòng chảy ngược của dữ liệu
• Sử dụng dữ liệu thăm dò nội bộ
Trang 9Hai kiểu giao dịch
Hỗ trợ 2 kiểu giao dịch
cơ bản trong việc lưu trữ
dữ liệu vào kho dữ liệu: + Câu truy vấn.
+ Phân tích thống kê.
Cấu truy vấn: chỉ sử dụng một số tài nguyên, chỉ một
vài đơn vị của dữ liệu.
Phân tích thống kê: đòi hỏi thật nhiều tài nguyên,
Trang 10Hai kiểu giao dịch
Sự khác nhau:
Cấu truy vấn: chỉ sử dụng một hoặc hai record của dữ
liệu cần phải có đối với phân tích.
Phân tích thống kê: Nhiều record được yêu cầu, kết
quả của truy vấn đòi hỏi tính toán giá trị trung bình
thống kê gần 26000 record được truy cập
Trang 11Sử dụng phân tích thống kê
Tạo ra profile dữ liệu
Mục đích: phân tích và quan sát các trường dữ liệu.
Cách tạo: Hỏi những câu hỏi
- Có bao nhiêu record ở đó?
Trang 12Sử dụng phân tích thống kê
So sánh dữ liệu công ty
và bên ngoài
Mục đích: có cái nhìn sâu sắc hơn cho việc kinh doanh.
Khi so sánh cần chú ý:
- Tính toàn vẹn của phép so sánh.
Trang 13Phân tích Heuristic
Là loại phân tích được thực hiện như là một phần của sự khám phá,
là phương pháp giải quyết vấn đề bằng cách đánh giá kinh nghiệm và tìm giải pháp qua thử nghiệm.
Tại sao phải dùng?
- Trong hoạt động phân tích khám phá, các nhà phân
tích không biết được dữ liệu cất giữ các bí mật gì.
Trang 14Đóng băng dữ liệu
Mục đích: khi thực hiện
xử lý thống kê Heuristic thì không cho có sự tác động vào dữ liệu mà làm ảnh hưởng đến kết quả.
- Khi dữ liệu đóng băng thì không có dữ liệu mới nào
được đưa vào hệ thống.
Trang 15Xử lý thăm dò
Mục đích: giải quyết trường hợp khi phân tích được thực hiện với nội dung, hình thức và cấu trúc không được được biết đến.
- Là tính chất của xử lý thống kê nó luôn luôn là một
sự thực hiện trong việc khảo sát.
Trang 16Tần suất của phân tích thống kê
Mục đích: khi tần suất phân tích thống kê tăng, nhu cầu cần tăng thêm một cơ sở thăm dò riêng biệt.
- Thích hợp để hỗ trợ xử lý thống kê của DW 2.0
Trang 17• Cơ sở thăm dò lẫy dữ liệu có tính chất hạt thấp nhất
Ngoài ra nó thường sử dụng số lượng lớn dữ liệu lịch sử
• Cấu trúc dữ liệu của cstd được trộn lẫn Một số dữ liệu
được đưa vào các bảng trên đĩa lưu trữu Một số khác
được lưu lại thành file
Trang 18Các nguồn xử lý thăm dò
Mục đích: biết được nguồn dữ liệu lấy từ đâu
- Cơ sở thăm dò rút ra từ nhiều nguồn dữ liệu từ: Integrated Sector, Archival
Sector, Near Line Sector
- Integrated Sector là nguồn dữ liệu chính của cơ sở thăm dò
- Đôi khi các cơ sở thăm dò có thể rút dữ liệu từ Interactive Sector.
Trang 19Làm mới dữ liệu thăm dò
- Chu kỳ làm sạch dữ liệu bên trong cơ sở thăm dò cần phải cân nhắc kỹ
lưỡng
- Chu kỳ làm sạch còn tùy thuộc vào nhu cầu phân tích thăm dò.
Mục đích: làm mới dữ liệu thăm dò
Trang 20Project – based data
Cơ sở thăm dò là một Project – based có quy tắc.
- Quy tắc : các dữ liệu liên quan đến cstd được thực hiện thu thập, phân tích
Kết quả của việc thu thập phân tích được gửi đến doanh nghiệp để quản lý và nghiên cứu.
- Cơ sở dữ liệu thăm dò là một cấu trúc bền vững hoặc tạm thời.
Trang 21Chợ dữ liệu và cơ sở dữ liệu thăm dò
Data mart (kho dữ liệu chủ đề): là một tập con của Data warehouse, chỉ tập trung vào những đối tượng được chọn.
Trang 22Dòng chảy ngược của dữ liệu
Dữ liệu cũng có thể đi từ
cơ sở thăm dò vào DW Tuy nhiên cần phải có điều kiện :
- Dữ liệu đầu ra từ cơ sở thăm dò phải được sử dụng khắp nơi trong môi trường công ty.
- Cần có một dấu vết kiểm tra dữ liệu và những sự tính toán có liên quan tới bất
kỳ cơ sở thăm dò
Trang 23Sử dụng dữ liệu thăm dò nộ bộ
- Các dữ liệu đi vào cơ sở thăm dò thường không được
kiểm tra nghiêm ngặt ( không chính xác )
- Vì vậy không nên sử dụng những dữ liệu từ cơ sở thăm dò
để làm báo cáo cung cấp cho các kiểm toán viên và giám sát
- Các báo cáo nhiều khi cũng dựa trên các dữ liệu thăm dò
vì vậy nó có thể không đúng hoặc thiếu chính xác
Trang 24Góc nhìn của nhà phân tích doanh nghiệp
- Thống kê xử lý đóng một vai trò rất quan trọng trong doanh nghiệp Vai trò của nó đã được công nhận bởi các doanh nghiệp sử dụng nguồn nhân lực.
- Nhiều doanh nghiệp không tận dụng lợi thế của việc xử lý thống kê
dữ liệu mà họ sở hữu Như vậy họ không tận dụng triệt để được nguồn thông tin.
- Một số doanh nghiệp lâu đời đã nhận ra giá trị của thông tin xử lý thống kê dữ liệu Điển hình các doanh nghiệp chuyên về tính toán, bảo hiểm và nghiên cứu.
Trang 25Chương 8
Mô Hình Dữ Liệu và DW 2.0
Trang 26Nội dung
• Giới Thiệu
• Một số lưu ý khi xây dựng mô hình dữ liệu
• Các cấp của mô hình dữ liệu
• Một số loại mô hình dữ liệu
• Sự chuyển đổi mô hình
• Mô hình dữ liệu và dữ liệu phi cấu trúc
• Từ quan điểm của người dùng doanh nghiệp
Trang 27Giới Thiệu
Mô hình dữ liệu là mô hình mô tả các bộ phận khác nhau của DW 2.0 hợp lại với nhau như thế nào Nó như một bản đồ dẫn đường đến nhiều bộ phận của DW 2.0
Trang 28Giới Thiệu
Các mô hình dữ liệu được xây dựng từ công việc kinh doanh riêng
Nó hình thành từ các thành phần khác nhau của doanh nghiệp.
Trang 29Một số lưu ý khi xây dựng mô hình dữ liệu
• Xác định phạm vi tích hợp: tuyên bố những gì ở trong các
mô hình dữ liệu và những gì không phải Nếu không có
phạm vi tích hợp mô hình dữ liệu có thể đi vào vô tận
Trang 30Một số lưu ý khi xây dựng mô hình dữ liệu
• Phân biệt Granular data và Summarized data
- Granular data (dữ liệu dạng hạt): dữ liệu ở mức thấp nhất
có nghĩa Ví dụ: Tên người; ngày tháng năm sinh của một người; tiền lương của một người tại một thời điểm nào
đó…
- Summarized data (dữ liệu dạng tóm tắt): dữ liệu mô tả một tổng số nào đó Ví dụ: khối lượng giao dịch kết thúc trong một ngày, số tiền doanh thu cho một tháng, số lượng nhân viên trong một năm, …
Trang 31Các cấp độ của mô hình
- Có thể được xây dựng một cách nhanh chóng
- ERD cho thấy các vùng chủ thể hoặc vùng chính của việc kinh doanh của công
ty, và các mối quan hệ giữa các vùng chủ thể này.
Mô hình ERD – mô hình cấp cao (cấp quan hệ thực thể)
Trang 33Các cấp độ của mô hình
- Cho thấy các đặc tính vật lý của mô hình dữ liệu, chẳng hạn như các thuộc tính
vật lý của dữ liệu, các index, foreign keys
Mô hình Physical – mô hình cấp thấp (mô hình vật lý)
Trang 34Các cấp độ của mô hình
Ví dụ: ERD - Bản đồ hoa kỳ
Trang 35Các cấp độ của mô hình
Ví dụ: Dis - Bản đồ bang Texas
Trang 36Các cấp độ của mô hình
Ví dụ: Physical - Bản đồ
mô tả như thế nào để tìm ra được một ngôi nhà ở Dallas, thuộc bang Texas:
Trang 37Các cấp độ của mô hình
- Cấp của mô hình càng thấp thì mức độ chi tiết càng cao.
- Cấp của mô hình càng cao, mô hình càng được hoàn thiện hơn.
- Trong cùng một tổ chức, các mô hình dữ liệu được dệt kim với nhau để có ý
Trang 38Một số loại mô hình dữ liệu
- Thuộc Interactive Sector
- Mô hình dữ liệu ứng dụng được định hình bởi các yêu cầu ứng dụng
- Có những mô hình ứng dụng khác nhau cho mỗi ứng dụng.
Mô hình dữ liệu ứng dụng
Trang 39Một số loại mô hình dữ liệu
- Mô hình cho thấy dữ liệu đến từ các môi trường định hướng ứng dụng được phát triển thành dữ liệu doanh nghiệp như thế nào.
- Nằm giữa các tầng tương tác và tầng tích hợp.
- Mô tả tất cả các dữ liệu của doanh nghiệp trong một bản tích hợp.
Mô hình dữ liệu doanh nghiệp
Trang 40Sự chuyển đổi mô hình
- Có sự chuyển biến cơ bản của dữ liệu từ Application/Interactive Sector đến Integrated Sector Khi dữ liệu đi vào khu vực Intergrated nó được lưu trữ theo khu vực chủ đề.
Trang 41Sự chuyển đổi mô hình
- Khi dữ liệu đi vào Near Line Sector, không có chuyển đổi hoặc thay đổi các mô hình dữ liệu.
Trang 42Sự chuyển đổi mô hình
- Khi dữ liệu đi vào Archival Sector có thể có hoặc không sự thay đổi của mô hình
dữ liệu.
Trang 43Mô hình dữ liệu và dữ liệu phi cấu trúc
• Mô hình dữ liệu:
• Mô hình (model) là một dạng thức trừu tượng về một hệ thống, được hình thành để hiểu hệ thống trước khi xây
dựng hoặc thay đổi hệ thống đó
• Mô hình dữ liệu : Là một tập các khái niệm Dùng để mô tả CSDL, các mối quan hệ của dữ liệu, các ràng buộc trên dữ liệu của một CSDL
Trang 44Mô hình dữ liệu và dữ liệu phi cấu trúc
• Mô hình dữ liệu:
- Biểu diễn được cấu trúc dữ liệu và thông tin
Là mô hình quan trọng nhất trong quá trình mô hình hóa HTTT
- Thích hợp và hữu ích để cấu trúc hóa các mặt của DW 2.0
Nhưng có một số ứng dụng của mô hình dữ liệu không
có cấu trúc của DW 2.0
Dữ liệu phi cấu trúc
Trang 45Mô hình dữ liệu và dữ liệu phi cấu trúc
• Dữ liệu phi cấu trúc:
• Dữ liệu có cấu trúc thường dùng để chỉ dữ liệu lưu trữ
trong các hệ quản trị CSDL quan hệ như SQL Server hay MySQL, trong đó các thực thể và các thuộc tính được định nghĩa sẵn
• Dữ liệu phi cấu trúc thường dùng để chỉ dữ liệu ở dạng tự
do (free type) và không có cấu trúc định nghĩa sẵn
Trang 46Mô hình dữ liệu và dữ liệu phi cấu trúc
- Hình minh họa cho thấy mô hình dữ liệu có thể được sử dụng để hình thành một nguyên tắc phân loại bên ngoài
Các nơi mà mô hình dữ liệu có thể được tìm thấy trong các thành phần phi cấu trúc của DW 2.0 là:
- Trong nguyên tắc của các phép phân loại bên ngoài
- Trong việc tạo ra một mô hình dữ liệu bên trong
Trang 47Mô hình dữ liệu và dữ liệu phi cấu trúc
- Hình minh họa một tài liệu có thể được rút gọn vào các chủ đề bên trong Lần
lượt các chủ đề bên trong được sử dụng để tạo ra một mô hình dữ liệu bên trong.
Các nơi mà mô hình dữ liệu có thể được tìm thấy trong các thành phần phi cấu trúc của DW 2.0 là:
- Trong nguyên tắc của các phép phân loại bên ngoài
- Trong việc tạo ra một mô hình dữ liệu bên trong
Trang 48Từ quan điểm của người dùng doanh nghiệp
• Người dùng doanh nghiệp (người dùng cuối) nhân tố thiết yếu trong quá trình mô hình hóa dữ liệu
• Nếu mô hình dữ liệu đến từ bất kỳ nguồn nào khác người dùng cuối hoặc nó không được người dùng cuối thừa nhận tính hợp lệ Các nội dung của DW 2.0 đã được định hình không phù hợp
Người dùng cuối cần phải được tham gia từ đầu
Trang 49Tóm tắt chương 8
• DW 2.0 thì rộng lớn và phức tạp được xây dựng trong một
khoảng thời gian dài bởi một số lượng lớn các nhà phát triển
• Các mô hình dữ liệu:
- Tạo thành bản đồ dẫn đường trí tuệ cho môi trường DW
2.0 Được xây dựng cho hầu hết các dữ liệu hạt, chứ không phải dữ liệu tóm tắt hoặc dữ liệu tổng hợp
- Có 3 mức độ : mức ERD, mức trung(phân chia), mức
thấp(vật lý).
- Có thể được áp dụng cho dữ liệu phi cấu trúc
Trang 50Chương 9
Giám sát môi trường DW 2.0
Trang 51Nội dung
• Giám sát môi trường DW 2.0
• Giám sát giao dịch
• Giám sát chất lượng dữ liệu
• Giám sát kho dữ liệu
• Giám sát giao dịch – thời gian phản hồi
• Xử lý giờ cao điểm
• Giám sát chất lượng dữ liệu ETL
• Dữ liệu không hoạt động
Trang 52Giám sát môi trường DW 2.0
• Khuyến cáo: thường xuyên tiến hành quản lý giám sát môi trường DW 2.0
• Khi cần thực hiện điều chỉnh môi trường DW 2.0 hoặc bất
kì thành phần nào của nó :
- Điều chỉnh thực hiện chủ động
- Không phải là sự phản ứng lại các sự cố đã xảy ra
Trang 53Giám sát giao dịch
- Hình minh họa giám sát giao dịch trong môi trường DW 2.0
Giám sát các giao dịch chạy trong Interactive Sector của DW 2.0 phải đảm bảo:
- Giao dịch tốt
- Thời gian phản hồi phù hợp
Trang 54Giám sát chất lượng dữ liệu
- Hình minh họa giám sát chất lượng tại thời điểm ETL
- Giám sát ETL về chất lượng dữ liệu
- Kiểm tra chất lượng của dữ liệu đi qua các thành phần chuyển đổi của
DW 2.0
- Nếu dữ liệu chất lượng thấp đang đi vào trong DW 2.0, thì việc phân tích dữ liệu cần phải được cảnh báo
Trang 55Giám sát kho dữ liệu
- Hình minh họa giám sát kho dư liệu
- Xem xét dữ liệu của kho dữ liệu
- Mục đích chính của là để đo tần số sử dụng dữ liệu
- Từ tần số sử dụng dữ liệu nó có thể được xác định nếu có bất kì dữ liệu nào không hoạt động
Trang 56Giám sát giao dịch – thời gian phản hồi
• Mục đích chính: đảm bảo giao dịch tốt và có thời gian phản hồi thích hợp
• Có nhiều mặt hệ thống xử lý có ảnh hưởng đến hiệu năng
hệ thống Ảnh hưởng đến thời gian phản hồi
Trang 57Giám sát giao dịch – thời gian phản hồi
• Thời gian phản hồi trong 2 - 3 giây được xem là chấp nhận được
• Thông số thời gian phản hồi chấp nhận được được định nghĩa trong Service Level Agreement
Trang 58Giám sát giao dịch – thời gian phản hồi
- Hình minh họa hoạt động cơ bản của giám sát giao dịch
Trang 59Xủ lý giờ cao điểm
- Thời điểm hoạt động cao nhất được gọi là “giờ cao điểm”.
- Cảnh báo khi nào cần thêm tài nguyên hệ thống
Trang 60Xử lý giờ cao điểm
- Biểu đồ theo dõi sự tăng trưởng của dữ liệu và giao dich
- Số lượng giao dịch và khối lượng dữ liệu là một chỉ số tốt
để xác định hiệu năng của hệ thống đang được tiêu thụ.
- Nâng cấp phần cứng.
Trang 61Xử lý giờ cao điểm
- Biểu đồ giám sát sự phát triển của giao dịch và thời gian phản hồi.
Trang 62Giám sát chất lượng dữ liệu ETL
- Xem xét dữ liệu đi từ 1 sector DW 2.0 đến sector khác.
- Hoặc dữ liệu ban đầu đi vào hệ thống.
=> Đánh giá chất lượng dữ liệu khi nó đang được chuyển đổi.
Trang 63Giám sát chất lượng dữ liệu ETL
- Out of domain: ngoài miền dữ liệu.
- Unmatched foreign key: khóa ngoại không phù hợp.
- Outlying range: phạm vi xa trung tâm.
Trang 64Giám sát chất lượng dữ liệu ETL
Một trong những câu hỏi thú vị nhất về chất lượng dữ liệu là phải làm gì khi một điều kiện lỗi đã được phát hiện ?
Trang 65Giám sát chất lượng dữ liệu ETL
- Một lựa chọn là loại bỏ dữ liệu ( giải pháp không tốt)
vì:
- Có thể thêm record vào.
- Một số công cụ sữa lỗi được sử dụng đến.
- Một giải pháp khác là tạo ra dữ liệu mặc định :
- Dữ liệu không chính xác sẽ bị mất vĩnh viễn.
- Một giải pháp khác nữa là cho dữ liệu không chính xác đi vào hệ thống:
- Đánh dấu lại dữ liệu không chính xác.
Trang 66Giám sát kho dữ liệu
- Giám sát kho dữ liệu là một công cụ dùng để theo dõi dữ liệu đang được sử dụng và không được sử dụng trong kho dữ liệu
- Nếu 1 đơn vị dữ liệu không được sử dụng, nó được coi là dữ liệu không hoạt động.
- Giám sát kho dữ liệu tốt khi nó phát hiện và báo cáo dữ liệu không hoạt động.
Trang 67Giám sát kho dữ liệu
- Giám sát kho dữ liệu được thông qua việc chặn mã lệnh SQL.
- Thu thập mã lệnh SQL
- Mã lệnh SQL bị chặn là kết quả của “sniffing” các dòng thông tin.
Trang 68Giám sát kho dữ liệu
- Giám sát kho dữ liệu được đặt bên ngoài hệ thống mạng máy tính.
Trang 69Giám sát kho dữ liệu
- Giám sát kho dữ liệu được đặt bên trong
hệ thống mạng máy tính
Trang 70Dữ liệu không hoạt động
- Khối lượng dữ liệu tăng, tỷ lệ phần trăm của dữ liệu không hoạt động cũng phát triển.
- Để dữ liệu không hoạt động trong kho dữ liệu sẽ làm chậm
hệ thống.
- Giải pháp là di chuyển dữ liệu không hoạt động đến 1 nơi lưu trữ gần hoặc lưu trữ ở 1 nơi nào đó.
Trang 71Từ quan điểm của người kinh doanh
- Người dùng kinh doanh không trực tiếp giám sát
mà thông qua các kỹ sư
- Kỹ sư sẽ giám sát hệ thống và đưa ra các xử lý.