1. Trang chủ
  2. » Công Nghệ Thông Tin

Siêu dữ liệu trong DW 2.0 pot

67 2,3K 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Siêu dữ liệu trong DW 2.0
Tác giả Nguyễn Trần Minh Thư, Nguyễn Tấn Nam, Lê Thị Như Quỳnh, Trịnh Minh Thế, Hồng Văn Thuận
Người hướng dẫn GVHD : Nguyễn Trần Minh Thư
Trường học Trường Đại Học
Chuyên ngành Công Nghệ Thông Tin
Thể loại Đồ án tốt nghiệp
Năm xuất bản 2023
Thành phố Hà Nội
Định dạng
Số trang 67
Dung lượng 1,66 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

 Kho lưu trữ chủ động/ Kho lưu trữ bị động - Kho lưu trử chủ động là một trong các siêu dữ liệu tương tác liên tục với nhà phát triển và các hoạt động truy vấn của hệ thống.. - Kho lưu

Trang 1

1

Trang 2

Giới Thiệu

1 2

Phương Pháp Luận và Phương Pháp Tiếp Cận DW2.0

3

2

Tính Linh Hoạt Của Cơ Sở Hạ Tầng CN DW2.0 Siêu Dữ Liệu Trong DW 2.0

Trang 3

Chương 4 Siêu Dữ Liệu Trong DW 2.0

Trang 4

Chương 4 Siêu Dữ Liệu Trong DW 2.0

2) Siêu dữ liệu trong DW 2.0

•) Siêu dữ liệu có một quy định đặc biệt và được bổ sung

trong DW 2.0 Siêu dữ liệu yêu cầu tách biệt từng bộ phận trong DW 2.0.

- Siêu dữ liệu cho bộ phận Tương tác (Interactie

Trang 5

Siêu dữ liệu trong DW 2.0

• Khác với các bộ phận siêu dữ liệu khác, bộ phận

siêu dữ liệu lưu trữ được đặt trực tiếp trong dữ liệu lưu trữ.

Trang 6

Cấu trúc tổng quan của siêu dữ liệu trong

DW 2.0 : là hai cấu trúc siêu dữ liệu song song :

có cấu trúc và phi cấu trúc.

Siêu dữ liệu trong DW 2.0

Trang 7

• Đối với dữ liệu có cấu trúc, siêu dư liệu Local tồn

tại ở nhiều nơi , dưới nhiều hình thức : trong tiến trình ETL,bên trong thư mục DBMS, hoặc trong một hệ thống BI

Siêu dữ liệu trong DW 2.0

Trang 8

• Tất cả các siêu dữ liệu bộ phận ngoại trừ bộ

phận siêu dữ liệu lưu trữ được chứa trong một kho lưu trữ Repository.

Siêu dữ liệu trong DW 2.0

Trang 9

Kho lưu trữ chủ động/ Kho lưu trữ bị động

- Kho lưu trử chủ động là một trong các siêu

dữ liệu tương tác liên tục với nhà phát triển và các hoạt động truy vấn của hệ thống.

- Kho lưu trữ thụ động là một trong các siêu

dữ liệu không tương tác trực tiếp với nhà phát triển

và hoạt động truy vấn của người dùng cuối.

Siêu dữ liệu trong DW 2.0

Trang 10

• Khi các thay đổi xảy ra sẽ không được cập nhật kịp thời,

dẫn đền bất đồng bộ với hiện tại làm kết quả trở nên vô dụng.

• Kho lưu trữ thụ động ít được lựa chọn và chỉ đóng vai trò

như là một tài liệu

Siêu dữ liệu trong DW 2.0

Trang 11

• Kho lưu trữ chủ động là nơi mà các siêu dữ liệu sẽ được

cập nhật khi được sử dụng bởi các nhà phát triển hoặc các hoạt động truy vấn dữ liệu.

• Hệ thống có bất kì sự thay đổi nào thì các siêu dữ liệu

cũng thay đổi theo

Siêu dữ liệu trong DW 2.0

Trang 12

Mối quan hệ giữa các siêu dữ liêu

Enterprise với Local

- Quan hệ ngữ nghĩa : Trong mối quan hệ này siêu

dữ liệu enterprise sẽ mô tả một thuật ngữ toàn cục, sau đó siêu dữ liệu local sẽ được tham chiếu tới thuật ngữ này

bằng một con trỏ từ enterprise đến local

Siêu dữ liệu trong DW 2.0

Trang 13

- Các định nghĩa về major subject area.

Siêu dữ liệu trong DW 2.0

Trang 14

- Mối quan hệ của hai loại siêu dữ liệu riêng biệt ở cấp độ Local là business và technical.

Siêu dữ liệu Business là thông tin về dữ liệu hữu ích cho việc tìm các từ ngữ chuyên môn của người kinh

doanh.Siêu dữ liệu Technical la thông tin về dữ liệu hữu ích cho việc tìm các từ ngữ chuyên môn về kỹ thuật

Siêu dữ liệu trong DW 2.0

Trang 15

Siêu dữ liệu và Hệ Thống các Bảng Ghi.

- Siêu dữ liệu cũng có thể dùng để định nghĩa hệ

thống các bảng ghi cho các đối tượng dữ liệu và thuộc tính của n.ó ở enterprise

Siêu dữ liệu trong DW 2.0

Trang 16

Nguyên Tắc Phân Loại ( Taxonomy)

- Nguyên tắc phân loại (Taxonomy) là một ví dụ về

siêu dữ liệu trong môi trường phi cấu trúc.

- Một Taxonomy là một nhánh chi tiết trong một chủ đề rộng lớn Một Taxonomy có một phân tích chi tiết cho các thành phần cuả chủ đề đó Bảng thuật ngữ ( Glossary), và bản học thể thể (Ontology) cũng liên quan đến taxonomy

- Có hai loại taxonomy cơ bản trong DW 2.0 là internal (nội bộ) và external( ngoại bộ)

Siêu dữ liệu trong DW 2.0

Trang 17

Taxonomy nội bộ : xây dựng bởi các từ, cụm từ

trong các văn bản của chính nó.

- Ví dụ : giả sử như có đoan văn bản sau “

một loạt các hợp đồng”, các taxonomy cho nhóm hợp đồng có thể là hơp đồng,điều khoản, độ dài

của thỏa thuân, các khoản thanh toán…

- Đôi khi Taxonomy nội bộ còn được gọi là

“chủ đề: của một văn bản

Siêu dữ liệu trong DW 2.0

Trang 18

Taxonomy ngoại bộ : có thể đến từ bất kỳ đâu

Nó được phát triển hoàn toàn từ thể giới thực.

- Một vài taxonomy ngoại bộ :

Siêu dữ liệu trong DW 2.0

Trang 19

Một số loại siêu dữ liệu phổ biến cho

môi trường phi cấu trúc :

 Stop Words : Các từ được dùng trong một nhóm câu,văn bản

nhưng nó không phải là các từ diễn đạt ý chính của văn bản Ví dụ các từ điển hình của Stop Words : a, and, the, what, that, which,

where, to …

 Synonyms : Các từ đồng nghĩa nhưng khác nhau về cách viết.

ví dụ : The fur and the coat of a cat : cả 2 đều chỉ lông của con mèo.

 Homographs : Các từ được viết giống nhau nhưng ý nghĩa khác

nhau Ví dụ : the bow of a ship (boang tàu) khác với a bow and arrow (cung tên).

 Alternate spellings - Cách viết thay thế : Các cách viết khác nhau

được chấp nhận Ví dụ như color với colour.

Siêu dữ liệu trong DW 2.0

Trang 20

Chương 5

20

1 2

The Technology Infrastructure Semantically Temporal Data Semantically Static Data

Trang 21

The Technology Infrastructure

21

Yêu cầu kinh doanh thay đổi liên tục, trong khi cơ sở hạ tầng

công nghệ bị đúc trong khối bê tông

Ví dụ Phía dưới kinh doanh là cơ sở hạ tầng công nghệ

Trang 22

The Technology Infrastructure

22

Một số trong những lý do khiến cơ sở hạ tầng công nghệ rất khó khăn để thay đổi.

Trang 23

The Technology Infrastructure

23

Cần nhiều thời gian để thực hiện thay đổi cơ sở hạ tầng IT

Trang 24

 Những gì sẽ xảy ra khi thay đổi kinh doanh

nhanh hơn so với cơ sở hạ tầng có thể đáp ứng ???

24

Một mớ hỗn độn xảy ra sau đó

Trang 26

Semantically Temporal Data, Semantically Static Data

26

Semantically Temporal Data: không ổn định , thường xuyên thay đổi

Ví dụ : biểu đồ, Khu bán hàng , quản lý, thị trường

Semantically Static Data : Ngược lại Temporal Data , ổn định

Ví dụ : Dữ liệu doanh số bán hàng (Ngày bán,Số tiền bán hàng,Mặt hàng bán,Người bán)

Trang 27

Pha Trộn Semantically Stable And Unstable Data

27

Pha Trộn Semantically Stable And Unstable Data là một công thức rắc rối

Trang 28

Tách Semantically Stable And Unstable Data

28

Semantically static data and semantically temporal data được tách ra, và Phương pháp thực hiện bằng cách thay đổi , giảm nhẹ các yêu cầu kinh doanh

Một số trường hợp tách Semantically static data and semantically temporal data mang lại lợi ích rất có lợi

Trang 29

Khi semantically temporal data cần phải được thay đổi một ảnh chụp được tạo ra và việc này thì dễ dàng hơn nhiều so với việc mở một cơ sở

dữ liệu để chuyển đổi hoặc thay đổi

dữ liệu mà nó chứa

29

Trang 30

Chương 6

Methodology

30

Trang 32

Mô hình thác nước(Water Fall Model)

32

Trang 33

Mô hình thác nước(Water Fall Model)

Trang 34

Mô hình thác nước(Water Fall Model)

 Trong mô hình thác nước, 5 pha trên phải được

thực hiện một cách trình tự; kết thúc pha trước rồi mới được thực hiện pha tiếp theo

 Do đó, nhược điểm chính của mô hình thác nước

là rất khó khăn trong việc thay đổi các pha đã được thực hiện

 Giả sử pha phân tích và xác định yêu cầu đã hoàn

tất và chuyển sang pha kế tiếp, nhưng lúc này lại

có sự thay đổi yêu cầu của người sử dụng thì chỉ còn cách là phải thực hiện lại từ đầu.

34

Trang 35

Mô hình thác nước(Water Fall Model)

được tìm hiểu rõ ràng và những thay đổi sẽ được giới hạn một cách rõ ràng trong suốt quá trình thiết kế Tuy nhiên, trong thực tế có rất ít những hệ thống nghiệp vụ có các yêu cầu ổn định

35

Trang 36

Mô hình thác nước – Ưu điểm

36

Trang 37

Mô hình thác nước – Nhược điểm

37

Trang 38

Mô hình xoắn ốc(Spiral Model)

38

Trang 39

Hoạt động

1 Trao đổi với khách hàng - Nhiệm vụ đòi hỏi

thiết lập việc trao đổi có hiệu quả giữa người phát triển và khách hàng

2 Lập kế hoạch - nhiệm vụ đòi hỏi định nghĩa

các tài nguyên, hạn thời gian và các thông tin liên quan tới dự án

39

Trang 40

3 Phân tích rủi ro - nhiệm vụ đòi hỏi định giá

cả những rủi ro kĩ thuật và quản lí

4 Kĩ nghệ(Thiết kế) - nhiệm vụ đòi hỏi xây

dựng một hay nhiều biểu diễn cho ứng dụng

40

Hoạt động

Trang 41

5 Xây dựng và đưa ra - nhiêm vụ đòi hỏi xây

dựng, kiểm thử, thiết đặt và cung cấp sự hỗ trợ cho người dùng (như tài liệu và huấn luyện)

6 Đánh giá của khánh hàng - nhiệm vụ đòi hỏi

thu được phản hồi của khách hàng dựa trên đánh giá về biểu diễn phần mềm được tạo ra trong giai đoạn kĩ nghệ và được cài đặt trong giai đoạn cài đặt

41

Hoạt động

Trang 42

Mô hình xoắn ốc

42

Trang 43

Mô hình xoắn ốc – Đặc trưng

¼

 Đường kính và góc biểu diễn chi phí tích lũy

và tiến triển của qui trình

ro nhằm loại trừ những rủi ro cao trước khi nó

đe dọa (Nhấn mạnh việc đánh giá các rủi ro)

43

Trang 44

Mô hình xoắn ốc – Đặc trưng

Qui trình được chia thành các vòng xoắn ốc.

Mỗi vòng xoắn ốc là 1 pha của qui trình.

Mỗi pha bao gồm 4 hoạt động :

Thiết lập mục tiêu : xác định mục tiêu cho từng pha của dự án.

Đánh giá và giảm thiểu rủi ro : rủi ro được đánh giá và thực hiện các hành động để giảm thiểu rủi ro.

Phát triển và đánh giá : sau khi đánh giá rủi ro, một mô hình xây dựng hệ thống sẽ được lựa chọn từ những mô hình chung.

Lập kế hoạch : đánh giá dự án và pha tiếp theo của mô hình xoắn ốc sẽ được lập kế hoạch.

44

Trang 45

Mô hình xoắn ốc

Những kế hoạch này phải bao gồm những phần nhỏ, chi tiết hơn cho nhóm và những cá nhân

Đầu ra mỗi pha tùy thuộc mục tiêu

Qui trình kết thúc khi không còn mục tiêu

45

Trang 46

Hạn chế rủi ro sớm tăng độ tin cậy dự án.

Một rủi ro nào đó không được giải quyết thì

Trang 47

Kiểm soát rủi ro ở từng giai đoạn phát triển.

Trang 48

Khó thuyết phục khách hàng là phương pháp tiến

hóa xoắn ốc có thể kiểm soát được.

Phức tạp và không thích hợp với các dự án nhỏ và

ít rủi ro.

 Cần có kỹ năng tốt về phân tích rủi ro.

 Yêu cầu thay đổi thường xuyên dẫn đến lặp vô

Trang 49

Chương 6

Approach

49

Trang 50

Phương pháp bảy dòng tiếp cận

50

Trang 51

Phương pháp bảy dòng tiếp cận

STREAM ( mô hình tham chiếu cho doanh nghiệp)

Các dòng hoạt động đầu tiên đề cập đến việc tạo ra và tiếp tục bảo trì mô hình dữ liệu của công ty ( hình 6.7).Đây là mô hình dữ liệu của doanh nghiệp được xây dựng ( vd : khách hàng , sản phẩm, tài chính , rủi ro …)

51

Trang 52

Phương pháp bảy dòng tiếp cận

 Hình 6.7 : mô hình dòng dữ liệu của doanh nghiệp

52

Trang 53

Phương pháp bảy dòng tiếp cận

COORDINATION STREAMCác dòng hoạt động tiếp theo , phối hợp kiến thức doanh nghiệp.Dựa trên dữ liệu của doanh nghiệp xác định phạm vi,cấp độ có phù hợp với doanh nghiệp.Xác định và giải quyết các yếu tố dữ liệu thừa,giúp xác định

hệ thống dữ liệu chính xác và phù hợp với doanh nghiệp

53

Trang 54

Phương pháp bảy dòng tiếp cận

DEVELOPMENT STREAMDòng tiếp theo là phát triển kho thông tin.Kho thông tin thường được xây dựng theo chủ đề.Một chủ đề thường được thể hiện qua nhiều lĩnh vực như chủ đề tăng trường thường được thể hiện qua khách hàng và sản phẩm

54

Trang 55

Phương pháp bảy dòng tiếp cận

Dòng tiếp theo là chỉnh sửa dữ liệu,thông qua các nguồn hệ thống tập tin gốc và xác định những dữ liệu cần được sửa chữa,hoàn thành,hoặc bị thanh lọc và những qui định chỉnh sửa dữ liệu cần phải áp dụng

55

Trang 56

Phương pháp bảy dòng tiếp cận

 DATA PROFILING AND MAPPING STREAM

Dòng tiếp theo là dòng hồ sơ dữ liệu và biểu đồ dòng dữ liệu.Đây là nơi xử lý để hiểu những dữ liệu trong hệ thống như thế nào về chất lượng và đầy đủ của nó.Đầu ra của định hình dữ liệu cho phép xây dựng mô hình dữ liệu để lập biểu đồ các nguồn dữ liệu cho các mục tiêu khác nhau trong kho thông tin

56

Trang 57

Phương pháp bảy dòng tiếp cận

Dòng hoạt động tiếp theo là dòng cơ sở

hạ tầng,dòng hoạt động của các địa chỉ cơ

sở hạ tầng hỗ trợ cho khả năng mở rộng kho thông tin bao gồm xem xét cả con người,nguồn nhân lực,nền tảng ,công cụ,chính sách,tiêu chuẩn,thủ tục

57

Trang 58

Phương pháp bảy dòng tiếp cận

MANAGEMENTSTREAMDòng quản lý tổng quát chất lượng thông tin,giám sát chất lượng dữ liệu,cải tiến quá trình.Các thành phần dữ liệu cụ thể thường được kiểm tra , giám sát chất lượng và được báo cáo theo thời gian

58

Trang 59

Phương pháp bảy dòng tiếp cận

59

 Hình 6.10 : quy trình đánh giá chất lượng

Trang 60

Phương pháp bảy dòng tiếp cận

thông tin bao gồm tính chính xác , đầy đủ,và không có sự trùng lặp , nên đo lường và tính toán chi phí của các thông tin kém Điều này cung cấp cho các trường hợp kinh doanh để xác định cải thiện và loại bỏ nguyên nhân của các lỗi dữ liệu ở nguồn và thông qua chuỗi giá trị thông tinhất lượng trên các quy trình dòng

60

Trang 61

Phương pháp bảy dòng tiếp cận

61

 Hình 6.11 : Đánh giá thông tin kém chất lượng

Trang 62

Phương pháp bảy dòng tiếp cận

 Hình 6.12 : quá trình cải thiện xử lý thông tin

62

Trang 63

Sự kết hợp giữa mô hình xoắn ốc

và phương pháp bảy dòng tiếp cận

khuôn khổ và là công cụ để thiết kế một chương trình DW/BI phát triển mô hình xoắn ốc từ chính nó

63

Trang 64

Sự kết hợp giữa mô hình xoắn ốc

và phương pháp bảy dòng tiếp cận

 Hình 6.14 : minh họa vị trí của sự phát triển xoắn ốc trong phương

pháp tiếp cận bảy dòng

64

Trang 65

Sự kết hợp giữa mô hình xoắn ốc

và phương pháp bảy dòng tiếp cận

 Hình 6.15 : minh họa mối quan hệ phương pháp tiếp cận bảy dòng

và phương pháp xoắn ốc

65

Trang 66

Sự kết hợp giữa mô hình xoắn ốc

và phương pháp bảy dòng tiếp cận

minh là hiệu quả nhất cho kho dữ liệu.Các phương pháp xoắn ốc sẽ được tăng khả năng hiệu quả hơn nữa bằng cách triển khai phương pháp tiếp cận bảy dòng, với việc xây dựng chính xác mô hình dữ liệu doanh nghiệp,phối hợp kiến thức doanh nghiệp,định hình dữ liệu và biểu đồ,chủ động làm sạch dữ liệu,chủ động quản lý cơ sở hạ tầng,và thiết lập quản lý chính xác dữ liệu toàn diện.

66

Trang 67

LOGOThank You !

67

Ngày đăng: 26/06/2014, 23:21

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w