Kho lưu trữ chủ động/ Kho lưu trữ bị động - Kho lưu trử chủ động là một trong các siêu dữ liệu tương tác liên tục với nhà phát triển và các hoạt động truy vấn của hệ thống.. - Kho lưu
Trang 11
Trang 2Giới Thiệu
1 2
Phương Pháp Luận và Phương Pháp Tiếp Cận DW2.0
3
2
Tính Linh Hoạt Của Cơ Sở Hạ Tầng CN DW2.0 Siêu Dữ Liệu Trong DW 2.0
Trang 3Chương 4 Siêu Dữ Liệu Trong DW 2.0
Trang 4Chương 4 Siêu Dữ Liệu Trong DW 2.0
2) Siêu dữ liệu trong DW 2.0
•) Siêu dữ liệu có một quy định đặc biệt và được bổ sung
trong DW 2.0 Siêu dữ liệu yêu cầu tách biệt từng bộ phận trong DW 2.0.
- Siêu dữ liệu cho bộ phận Tương tác (Interactie
Trang 5Siêu dữ liệu trong DW 2.0
• Khác với các bộ phận siêu dữ liệu khác, bộ phận
siêu dữ liệu lưu trữ được đặt trực tiếp trong dữ liệu lưu trữ.
Trang 6 Cấu trúc tổng quan của siêu dữ liệu trong
DW 2.0 : là hai cấu trúc siêu dữ liệu song song :
có cấu trúc và phi cấu trúc.
Siêu dữ liệu trong DW 2.0
Trang 7• Đối với dữ liệu có cấu trúc, siêu dư liệu Local tồn
tại ở nhiều nơi , dưới nhiều hình thức : trong tiến trình ETL,bên trong thư mục DBMS, hoặc trong một hệ thống BI
Siêu dữ liệu trong DW 2.0
Trang 8• Tất cả các siêu dữ liệu bộ phận ngoại trừ bộ
phận siêu dữ liệu lưu trữ được chứa trong một kho lưu trữ Repository.
Siêu dữ liệu trong DW 2.0
Trang 9 Kho lưu trữ chủ động/ Kho lưu trữ bị động
- Kho lưu trử chủ động là một trong các siêu
dữ liệu tương tác liên tục với nhà phát triển và các hoạt động truy vấn của hệ thống.
- Kho lưu trữ thụ động là một trong các siêu
dữ liệu không tương tác trực tiếp với nhà phát triển
và hoạt động truy vấn của người dùng cuối.
Siêu dữ liệu trong DW 2.0
Trang 10• Khi các thay đổi xảy ra sẽ không được cập nhật kịp thời,
dẫn đền bất đồng bộ với hiện tại làm kết quả trở nên vô dụng.
• Kho lưu trữ thụ động ít được lựa chọn và chỉ đóng vai trò
như là một tài liệu
Siêu dữ liệu trong DW 2.0
Trang 11• Kho lưu trữ chủ động là nơi mà các siêu dữ liệu sẽ được
cập nhật khi được sử dụng bởi các nhà phát triển hoặc các hoạt động truy vấn dữ liệu.
• Hệ thống có bất kì sự thay đổi nào thì các siêu dữ liệu
cũng thay đổi theo
Siêu dữ liệu trong DW 2.0
Trang 12 Mối quan hệ giữa các siêu dữ liêu
Enterprise với Local
- Quan hệ ngữ nghĩa : Trong mối quan hệ này siêu
dữ liệu enterprise sẽ mô tả một thuật ngữ toàn cục, sau đó siêu dữ liệu local sẽ được tham chiếu tới thuật ngữ này
bằng một con trỏ từ enterprise đến local
Siêu dữ liệu trong DW 2.0
Trang 13- Các định nghĩa về major subject area.
Siêu dữ liệu trong DW 2.0
Trang 14- Mối quan hệ của hai loại siêu dữ liệu riêng biệt ở cấp độ Local là business và technical.
Siêu dữ liệu Business là thông tin về dữ liệu hữu ích cho việc tìm các từ ngữ chuyên môn của người kinh
doanh.Siêu dữ liệu Technical la thông tin về dữ liệu hữu ích cho việc tìm các từ ngữ chuyên môn về kỹ thuật
Siêu dữ liệu trong DW 2.0
Trang 15 Siêu dữ liệu và Hệ Thống các Bảng Ghi.
- Siêu dữ liệu cũng có thể dùng để định nghĩa hệ
thống các bảng ghi cho các đối tượng dữ liệu và thuộc tính của n.ó ở enterprise
Siêu dữ liệu trong DW 2.0
Trang 16 Nguyên Tắc Phân Loại ( Taxonomy)
- Nguyên tắc phân loại (Taxonomy) là một ví dụ về
siêu dữ liệu trong môi trường phi cấu trúc.
- Một Taxonomy là một nhánh chi tiết trong một chủ đề rộng lớn Một Taxonomy có một phân tích chi tiết cho các thành phần cuả chủ đề đó Bảng thuật ngữ ( Glossary), và bản học thể thể (Ontology) cũng liên quan đến taxonomy
- Có hai loại taxonomy cơ bản trong DW 2.0 là internal (nội bộ) và external( ngoại bộ)
Siêu dữ liệu trong DW 2.0
Trang 17• Taxonomy nội bộ : xây dựng bởi các từ, cụm từ
trong các văn bản của chính nó.
- Ví dụ : giả sử như có đoan văn bản sau “
một loạt các hợp đồng”, các taxonomy cho nhóm hợp đồng có thể là hơp đồng,điều khoản, độ dài
của thỏa thuân, các khoản thanh toán…
- Đôi khi Taxonomy nội bộ còn được gọi là
“chủ đề: của một văn bản
Siêu dữ liệu trong DW 2.0
Trang 18• Taxonomy ngoại bộ : có thể đến từ bất kỳ đâu
Nó được phát triển hoàn toàn từ thể giới thực.
- Một vài taxonomy ngoại bộ :
Siêu dữ liệu trong DW 2.0
Trang 19 Một số loại siêu dữ liệu phổ biến cho
môi trường phi cấu trúc :
Stop Words : Các từ được dùng trong một nhóm câu,văn bản
nhưng nó không phải là các từ diễn đạt ý chính của văn bản Ví dụ các từ điển hình của Stop Words : a, and, the, what, that, which,
where, to …
Synonyms : Các từ đồng nghĩa nhưng khác nhau về cách viết.
ví dụ : The fur and the coat of a cat : cả 2 đều chỉ lông của con mèo.
Homographs : Các từ được viết giống nhau nhưng ý nghĩa khác
nhau Ví dụ : the bow of a ship (boang tàu) khác với a bow and arrow (cung tên).
Alternate spellings - Cách viết thay thế : Các cách viết khác nhau
được chấp nhận Ví dụ như color với colour.
Siêu dữ liệu trong DW 2.0
Trang 20Chương 5
20
1 2
The Technology Infrastructure Semantically Temporal Data Semantically Static Data
Trang 21The Technology Infrastructure
21
Yêu cầu kinh doanh thay đổi liên tục, trong khi cơ sở hạ tầng
công nghệ bị đúc trong khối bê tông
Ví dụ Phía dưới kinh doanh là cơ sở hạ tầng công nghệ
Trang 22The Technology Infrastructure
22
Một số trong những lý do khiến cơ sở hạ tầng công nghệ rất khó khăn để thay đổi.
Trang 23The Technology Infrastructure
23
Cần nhiều thời gian để thực hiện thay đổi cơ sở hạ tầng IT
Trang 24 Những gì sẽ xảy ra khi thay đổi kinh doanh
nhanh hơn so với cơ sở hạ tầng có thể đáp ứng ???
24
Một mớ hỗn độn xảy ra sau đó
Trang 26Semantically Temporal Data, Semantically Static Data
26
Semantically Temporal Data: không ổn định , thường xuyên thay đổi
Ví dụ : biểu đồ, Khu bán hàng , quản lý, thị trường
Semantically Static Data : Ngược lại Temporal Data , ổn định
Ví dụ : Dữ liệu doanh số bán hàng (Ngày bán,Số tiền bán hàng,Mặt hàng bán,Người bán)
Trang 27Pha Trộn Semantically Stable And Unstable Data
27
Pha Trộn Semantically Stable And Unstable Data là một công thức rắc rối
Trang 28Tách Semantically Stable And Unstable Data
28
Semantically static data and semantically temporal data được tách ra, và Phương pháp thực hiện bằng cách thay đổi , giảm nhẹ các yêu cầu kinh doanh
Một số trường hợp tách Semantically static data and semantically temporal data mang lại lợi ích rất có lợi
Trang 29Khi semantically temporal data cần phải được thay đổi một ảnh chụp được tạo ra và việc này thì dễ dàng hơn nhiều so với việc mở một cơ sở
dữ liệu để chuyển đổi hoặc thay đổi
dữ liệu mà nó chứa
29
Trang 30Chương 6
Methodology
30
Trang 32Mô hình thác nước(Water Fall Model)
32
Trang 33Mô hình thác nước(Water Fall Model)
Trang 34Mô hình thác nước(Water Fall Model)
Trong mô hình thác nước, 5 pha trên phải được
thực hiện một cách trình tự; kết thúc pha trước rồi mới được thực hiện pha tiếp theo
Do đó, nhược điểm chính của mô hình thác nước
là rất khó khăn trong việc thay đổi các pha đã được thực hiện
Giả sử pha phân tích và xác định yêu cầu đã hoàn
tất và chuyển sang pha kế tiếp, nhưng lúc này lại
có sự thay đổi yêu cầu của người sử dụng thì chỉ còn cách là phải thực hiện lại từ đầu.
34
Trang 35Mô hình thác nước(Water Fall Model)
được tìm hiểu rõ ràng và những thay đổi sẽ được giới hạn một cách rõ ràng trong suốt quá trình thiết kế Tuy nhiên, trong thực tế có rất ít những hệ thống nghiệp vụ có các yêu cầu ổn định
35
Trang 36Mô hình thác nước – Ưu điểm
36
Trang 37Mô hình thác nước – Nhược điểm
37
Trang 38Mô hình xoắn ốc(Spiral Model)
38
Trang 39Hoạt động
1 Trao đổi với khách hàng - Nhiệm vụ đòi hỏi
thiết lập việc trao đổi có hiệu quả giữa người phát triển và khách hàng
2 Lập kế hoạch - nhiệm vụ đòi hỏi định nghĩa
các tài nguyên, hạn thời gian và các thông tin liên quan tới dự án
39
Trang 403 Phân tích rủi ro - nhiệm vụ đòi hỏi định giá
cả những rủi ro kĩ thuật và quản lí
4 Kĩ nghệ(Thiết kế) - nhiệm vụ đòi hỏi xây
dựng một hay nhiều biểu diễn cho ứng dụng
40
Hoạt động
Trang 415 Xây dựng và đưa ra - nhiêm vụ đòi hỏi xây
dựng, kiểm thử, thiết đặt và cung cấp sự hỗ trợ cho người dùng (như tài liệu và huấn luyện)
6 Đánh giá của khánh hàng - nhiệm vụ đòi hỏi
thu được phản hồi của khách hàng dựa trên đánh giá về biểu diễn phần mềm được tạo ra trong giai đoạn kĩ nghệ và được cài đặt trong giai đoạn cài đặt
41
Hoạt động
Trang 42Mô hình xoắn ốc
42
Trang 43Mô hình xoắn ốc – Đặc trưng
¼
Đường kính và góc biểu diễn chi phí tích lũy
và tiến triển của qui trình
ro nhằm loại trừ những rủi ro cao trước khi nó
đe dọa (Nhấn mạnh việc đánh giá các rủi ro)
43
Trang 44Mô hình xoắn ốc – Đặc trưng
Qui trình được chia thành các vòng xoắn ốc.
Mỗi vòng xoắn ốc là 1 pha của qui trình.
Mỗi pha bao gồm 4 hoạt động :
Thiết lập mục tiêu : xác định mục tiêu cho từng pha của dự án.
Đánh giá và giảm thiểu rủi ro : rủi ro được đánh giá và thực hiện các hành động để giảm thiểu rủi ro.
Phát triển và đánh giá : sau khi đánh giá rủi ro, một mô hình xây dựng hệ thống sẽ được lựa chọn từ những mô hình chung.
Lập kế hoạch : đánh giá dự án và pha tiếp theo của mô hình xoắn ốc sẽ được lập kế hoạch.
44
Trang 45Mô hình xoắn ốc
Những kế hoạch này phải bao gồm những phần nhỏ, chi tiết hơn cho nhóm và những cá nhân
Đầu ra mỗi pha tùy thuộc mục tiêu
Qui trình kết thúc khi không còn mục tiêu
45
Trang 46Hạn chế rủi ro sớm tăng độ tin cậy dự án.
Một rủi ro nào đó không được giải quyết thì
Trang 47Kiểm soát rủi ro ở từng giai đoạn phát triển.
Trang 48Khó thuyết phục khách hàng là phương pháp tiến
hóa xoắn ốc có thể kiểm soát được.
Phức tạp và không thích hợp với các dự án nhỏ và
ít rủi ro.
Cần có kỹ năng tốt về phân tích rủi ro.
Yêu cầu thay đổi thường xuyên dẫn đến lặp vô
Trang 49Chương 6
Approach
49
Trang 50Phương pháp bảy dòng tiếp cận
50
Trang 51Phương pháp bảy dòng tiếp cận
STREAM ( mô hình tham chiếu cho doanh nghiệp)
Các dòng hoạt động đầu tiên đề cập đến việc tạo ra và tiếp tục bảo trì mô hình dữ liệu của công ty ( hình 6.7).Đây là mô hình dữ liệu của doanh nghiệp được xây dựng ( vd : khách hàng , sản phẩm, tài chính , rủi ro …)
51
Trang 52Phương pháp bảy dòng tiếp cận
Hình 6.7 : mô hình dòng dữ liệu của doanh nghiệp
52
Trang 53Phương pháp bảy dòng tiếp cận
COORDINATION STREAMCác dòng hoạt động tiếp theo , phối hợp kiến thức doanh nghiệp.Dựa trên dữ liệu của doanh nghiệp xác định phạm vi,cấp độ có phù hợp với doanh nghiệp.Xác định và giải quyết các yếu tố dữ liệu thừa,giúp xác định
hệ thống dữ liệu chính xác và phù hợp với doanh nghiệp
53
Trang 54Phương pháp bảy dòng tiếp cận
DEVELOPMENT STREAMDòng tiếp theo là phát triển kho thông tin.Kho thông tin thường được xây dựng theo chủ đề.Một chủ đề thường được thể hiện qua nhiều lĩnh vực như chủ đề tăng trường thường được thể hiện qua khách hàng và sản phẩm
54
Trang 55Phương pháp bảy dòng tiếp cận
Dòng tiếp theo là chỉnh sửa dữ liệu,thông qua các nguồn hệ thống tập tin gốc và xác định những dữ liệu cần được sửa chữa,hoàn thành,hoặc bị thanh lọc và những qui định chỉnh sửa dữ liệu cần phải áp dụng
55
Trang 56Phương pháp bảy dòng tiếp cận
DATA PROFILING AND MAPPING STREAM
Dòng tiếp theo là dòng hồ sơ dữ liệu và biểu đồ dòng dữ liệu.Đây là nơi xử lý để hiểu những dữ liệu trong hệ thống như thế nào về chất lượng và đầy đủ của nó.Đầu ra của định hình dữ liệu cho phép xây dựng mô hình dữ liệu để lập biểu đồ các nguồn dữ liệu cho các mục tiêu khác nhau trong kho thông tin
56
Trang 57Phương pháp bảy dòng tiếp cận
Dòng hoạt động tiếp theo là dòng cơ sở
hạ tầng,dòng hoạt động của các địa chỉ cơ
sở hạ tầng hỗ trợ cho khả năng mở rộng kho thông tin bao gồm xem xét cả con người,nguồn nhân lực,nền tảng ,công cụ,chính sách,tiêu chuẩn,thủ tục
57
Trang 58Phương pháp bảy dòng tiếp cận
MANAGEMENTSTREAMDòng quản lý tổng quát chất lượng thông tin,giám sát chất lượng dữ liệu,cải tiến quá trình.Các thành phần dữ liệu cụ thể thường được kiểm tra , giám sát chất lượng và được báo cáo theo thời gian
58
Trang 59Phương pháp bảy dòng tiếp cận
59
Hình 6.10 : quy trình đánh giá chất lượng
Trang 60Phương pháp bảy dòng tiếp cận
thông tin bao gồm tính chính xác , đầy đủ,và không có sự trùng lặp , nên đo lường và tính toán chi phí của các thông tin kém Điều này cung cấp cho các trường hợp kinh doanh để xác định cải thiện và loại bỏ nguyên nhân của các lỗi dữ liệu ở nguồn và thông qua chuỗi giá trị thông tinhất lượng trên các quy trình dòng
60
Trang 61Phương pháp bảy dòng tiếp cận
61
Hình 6.11 : Đánh giá thông tin kém chất lượng
Trang 62Phương pháp bảy dòng tiếp cận
Hình 6.12 : quá trình cải thiện xử lý thông tin
62
Trang 63Sự kết hợp giữa mô hình xoắn ốc
và phương pháp bảy dòng tiếp cận
khuôn khổ và là công cụ để thiết kế một chương trình DW/BI phát triển mô hình xoắn ốc từ chính nó
63
Trang 64Sự kết hợp giữa mô hình xoắn ốc
và phương pháp bảy dòng tiếp cận
Hình 6.14 : minh họa vị trí của sự phát triển xoắn ốc trong phương
pháp tiếp cận bảy dòng
64
Trang 65Sự kết hợp giữa mô hình xoắn ốc
và phương pháp bảy dòng tiếp cận
Hình 6.15 : minh họa mối quan hệ phương pháp tiếp cận bảy dòng
và phương pháp xoắn ốc
65
Trang 66Sự kết hợp giữa mô hình xoắn ốc
và phương pháp bảy dòng tiếp cận
minh là hiệu quả nhất cho kho dữ liệu.Các phương pháp xoắn ốc sẽ được tăng khả năng hiệu quả hơn nữa bằng cách triển khai phương pháp tiếp cận bảy dòng, với việc xây dựng chính xác mô hình dữ liệu doanh nghiệp,phối hợp kiến thức doanh nghiệp,định hình dữ liệu và biểu đồ,chủ động làm sạch dữ liệu,chủ động quản lý cơ sở hạ tầng,và thiết lập quản lý chính xác dữ liệu toàn diện.
66
Trang 67LOGOThank You !
67