1. Trang chủ
  2. » Luận Văn - Báo Cáo

HỆ hỗ TRỢ QUYẾT ĐỊNH đề tài KHO dữ LIỆU

76 18 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 76
Dung lượng 2 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Cùng với sự phát triển của công nghệ phần cứng như vi xử lý tốc độ cao, ổ đĩa với dung lượng lưu trữ lớn, khả năng sao lưu thì dữ liệu của các tổ chức, doanh nghiệp trong quá trình hoạt

Trang 1

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN TOÁN ỨNG DỤNG VÀ TIN HỌC

-*** -

BÁO CÁO CUỐI KỲ MÔN HỆ HỖ TRỢ QUYẾT ĐỊNH

ĐỀ TÀI: KHO DỮ LIỆU

Giảng viên hướng dẫn: TS Lê Chí Ngọc Sinh viên thực hiện:

HÀ NỘI – 2020

Nguyễn Huy Toàn 20153833

Nguyễn Thị Đài Trang 20153882

Nguyễn Thị Hương Quỳnh 20153129

Ngô Văn Quang 20152951

Trang 2

1

MỤC LỤC

MỞ ĐẦU 2

Chương 1: GIỚI THIỆU VỀ KHO DỮ LIỆU (DATA WAREHOUSE) 5

1.1 Khái niệm kho dữ liệu 6

1.2 Lịch sử phát triển kho dữ liệu 8

1.3 Các đặc trưng của kho dữ liệu 9

1.4 Chợ dữ liệu 11

1.5 Kho dữ liệu vận hành 16

1.6 Kho dữ liệu doanh nghiệp 19

1.7 Siêu dữ liệu 29

Chương 2: KIẾN TRÚC VÀ CÁC QUÁ TRÌNH CỦA KHO DỮ LIỆU 34

2.1 Các quá trình của kho dữ liệu 34

2.2 Các kiến trúc của kho dữ liệu 38

2.3 Các quá trình với dữ liệu 48

Chương 3: PHÁT TRIỂN KHO DỮ LIỆU 51

3.1 Cách tiếp cận 53

3.2 Biểu diễn dữ liệu 59

3.3 Các mô hình phân tích 58

3.4 Một số vấn đề với kho dữ liệu 63

KẾT LUẬN 74

Danh mục tài liệu tham khảo 75

Trang 3

2

MỞ ĐẦU

Đến nay những hệ thống cơ sở dữ liệu đã có mặt tại hầu hết các hoạt động kinh tế xã hội Cùng với sự phát triển của công nghệ phần cứng như

vi xử lý tốc độ cao, ổ đĩa với dung lượng lưu trữ lớn, khả năng sao lưu thì

dữ liệu của các tổ chức, doanh nghiệp trong quá trình hoạt động đã được cập nhật và lưu giữ một cách đầy đủ Cùng với sự đa dạng hoạt động hàng ngày của phòng ban, nhân sự cũng như với các đối tác bên ngoài, dữ liệu nghiệp vụ của tổ chức ngày càng trở nên khổng lồ

Dữ liệu có thể là tệp phẳng (không có cấu trúc) như hình ảnh, văn bản đến dữ liệu có cấu trúc được lưu giữ tại các hệ quản trị CSDL Một hãng bán lẻ nổi tiếng như WalMart xử lý hàng chục triệu giao dịch mỗi ngày, hay ở Việt Nam, một công ty bán lẻ thời trang cũng có hàng trăm đơn hàng Dữ liệu ngày qua ngày được tích lũy thay thế dần các hoạt động giấy tờ Người ta có thể truy cập dữ liệu mình cần một cách nhanh chóng bằng các phép tìm kiếm hay thông qua sơ đồ thư mục lưu trữ trên hệ điều hành Như vậy với các công nghệ hiện tại đã và đang đáp ứng tốt một giai đoạn yêu cầu của người dùng Đến một ngày, khi những thành viên trong ban quản trị nhìn xuống và sửng sốt với độ lớn dữ liệu của tổ chức, doanh nghiệp mình Toàn bộ hoạt động, lịch sử được lưu dưới dạng số một cách đầy đủ Dữ liệu ấy chính là tài sản của công ty Và họ muốn rằng những khối dữ liệu khổng lồ ấy phải nói lên những điều thật ý nghĩa Điều này khác với việc họ muốn tìm lại một đơn hàng, một thông tin mang tính cá nhân của một khách hàng Ở đây họ muốn biết cái sơ đồ doanh thu theo chiều lên hay xuống, muốn tách ra quy luật của bán hàng, quy luật của năng suất hoạt động Quy luật ấy dựa trên các yếu tố thời gian, yếu tố con người, yếu tố địa lý Có quy luật ấy không, nếu có thì quy luật ấy được phát biểu và thể hiện như thế nào Nếu doanh nghiệp lấy ra được các

Trang 4

3

thống kê, quy luật ấy họ sẽ có được những quyết sách trong tương lai một cách phù hợp hơn, dựa trên những yếu tố có cơ sở đúng đắn Mùa nào, tháng nào trong năm, loại hàng hóa nào sẽ được đẩy mạnh ra thị trường

Vì thế có thể nói nếu dữ liệu tích luỹ được phân tích chính xác, nó có thể trở thành những phương tiện cạnh tranh hiệu quả Hiện nay dữ liệu tràn ngập trên những phương tiện lưu trữ Với việc không có được những công cụ khai thác thông tin hiệu quả, các tổ chức doanh nghiệp đang sống trong một môi trường “giàu dữ liệu nhưng nghèo thông tin” Trong môi trường cạnh tranh ngày nay cùng với sự phát triển nhanh chóng của thế giới, những nhà ra quyết định xác định rõ cần phải có một thế hệ các kỹ thuật và công cụ tính toán mới nhằm hỗ trợ họ trong việc trích xuất các thông tin hữu ích (tri thức) được nhúng bên trong các dữ liệu thu thập và tích luỹ Họ mong muốn có những công cụ hỗ trợ quyết định trong một môi trường tích hợp để họ có thể tự tạo những tiêu chuẩn của riêng mình hoặc những báo biểu đặc biệt cho phân tích các dữ liệu phức tạp Nắm được lợi ích của lượng dữ liệu lớn, họ có thể xác định được những thông tin tiềm ẩn, chẳng hạn nhờ đó có thể tiết kiệm chi phí, vươn tới những thị trường mới và theo vết tổng thu nhập một cách hiệu quả Data warehouse, một công nghệ mới ra đời vào khoảng đầu những năm 90 đã được đón nhận và đưa vào thực tiễn Tại Việt Nam, khái niệm và công nghệ này đã được làm quen cách đây cũng được khoảng 5 năm nhưng trên thực tế chúng hầu như chưa được quan tâm và ứng dụng một cách hiệu quả Điều này cũng bắt nguồn từ nhu cầu quản lý trong một thế giới cạnh tranh chưa gay gắt, trình độ quản lý không cao

Với sự phát triển kinh tế xã hội, gia nhập WTO, môi trường ngày càng trở nên sôi động, mức độ cạnh tranh cao Trong những đòi hỏi phát triển trình độ quản lý có yêu cầu nhanh chóng tổng hợp các khía cạnh trên

dữ liệu hoạt động khổng lồ của doanh nghiệp mình, nhìn ra được những

Trang 5

mà còn giúp cho các nhà quản lý doanh nghiệp có thể trích rút nguồn tài nguyên một cách nhanh chóng, chính xác Đồng thời giúp họ phân tích và đưa ra các báo cáo một cách kịp thời, góp phần thúc đẩy cho việc kinh doanh đạt kết quả tốt nhất Đây cũng là kiến thức rất hữu ích và cần thiết

để có thể khai thác ngày một hiệu quả các thành tựu tin học

Đó cũng là lý do nhóm em chọn đề tài này làm báo cáo kết thúc môn học Đề tài gồm có 3 chương:

Chương 1: Giới thiệu về Kho dữ liệu (Data warehouse):

Chương này trình bày các khái niệm và đặc trưng của kho dữ liệu

Chương 2: Kiến trúc và các quá trình của Kho dữ liệu:

Chương này trình bày các quá trình và kiến trúc của kho dữ liệu, các quá trình với dữ liệu

Chương 3: Phát triển kho dữ liệu: Trong chương này chủ yếu

trình bày về các hướng tiếp cận, biểu diễn dữ liệu, các mô hình phân tích, một số vấn đề với kho dữ liệu

Trang 6

Nói một cách đơn giản, kho dữ liệu đề cập đến một kho lưu trữ dữ liệu được duy trì tách biệt với cơ sở dữ liệu hoạt động của tổ chức Hệ thống DW cho phép tích hợp nhiều loại hệ thống ứng dụng Hỗ trợ xử lý thông tin bằng cách cung cấp một nền tảng vững chắc dữ liệu lịch sử hợp nhất để phân tích

Theo William H.Inmon- một kiến trúc sư hàng đầu trong việc xây dựng dữ liệu hệ thống DW thì một DW là một định hướng theo chủ đề, tích hợp, biến đổi theo thời gian, và thu thập dữ liệu không biến đổi để hỗ trợ cho quá trình ra quyết định của Ban quản lý Bốn từ khóa theo hướng chủ đề (subject-oriented), tích hợp (integrated), theo thời gian (time-variant) và có tính ổn định (nonvolatile-distinguish) phân biệt DW với các hệ thống lưu trữ dữ liệu khác, chẳng hạn như hệ thống cơ sở dữ liệu quan hệ, hệ thống xử lý giao dịch và hệ thống file

Chức năng chính của DW:

Hướng chủ đề (Subject-Oriented):

Trang 7

6

Tập trung vào việc mô hình và phân tích dữ liệu cho việc ra quyết định chứ không phải xử lý các giao dịch hay tác nghiệp hàng ngày Cung cấp một góc nhìn đơn giản và xúc tích quanh một chủ đề cụ thể bằng cách loại bỏ các dữ liệu không hữu dụng trong tiến trình hỗ trợ quyết định Được tổ chức quanh các chủ đề như: customer, product, sales

Tích hợp (Integrated):

Tích hợp dữ liệu từ nhiều nguồn dữ liệu không đồng nhất: Các cơ sở

dữ liệu, các cấu trúc file hay các bản ghi giao dịch trực tuyến Áp dụng các kỹ thuật làm sạch và tích hợp dữ liệu: Đảm bảo sự nhất quán giữa các nguồn dữ liệu trong việc đặt tên, cấu trúc mã hóa, các thuộc tính đo đạc (thí dụ đơn vị tiền tệ, khối lượng); chuyển đổi dữ liệu khi thu thập

dữ liệu

Dữ liệu theo thời gian (Time Variant):

Thời gian của dữ liệu trong data warehouse dài hơn đáng kể so với thời gian của dữ liệu trong cơ sở dữ liệu tác nghiệp Các cấu trúc dữ liệu chính trong data warehouse: Chứa thông tin thời gian (ẩn hay tường minh) trong khi dữ liệu của cơ sở dữ liệu tác nghiệp có thể không chứa thông tin thời gian

Trang 8

7

nhất để hỗ trợ các truy vấn có cấu trúc, báo cáo phân tích và ra quyết định Việc xây dựng một kho dữ liệu đòi hỏi dữ liệu làm sạch, tích hợp

dữ liệu (data integration) và hợp nhất dữ liệu (data consolidation) Việc

sử dụng kho dữ liệu thường cần nhiều các công nghệ hỗ trợ quyết định

1.2 Lịch sử phát triển kho dữ liệu

Vào đầu những năm 1900, người ta sử dụng dữ liệu để hình thành xu hướng kinh doanh giúp các doanh nghiệp đưa ra quyết định Những động lực giúp phát triển việc lưu trữ dữ liệu có từ năm 1970 khi các máy tính lớn phát triển

Năm 1980 bùng nổ của máy tính mini hoặc máy tính cá nhân các ứng dụng kinh doanh trên máy tính điều này dẫn tới hiện tượng được gọi là dữ liệu

Giải pháp cho vấn đề này đã dẫn đến một loại phần mềm mới, được gọi là hệ thống quản lý cơ sở dữ liệu phân tán, sẽ kéo dữ liệu được yêu cầu từ cơ sở dữ liệu trên toàn tổ chức một cách kỳ diệu, đưa tất cả dữ liệu trở lại cùng một vị trí, sau đó hợp nhất nó, sắp xếp nó và làm bất cứ điều

gì khác là cần thiết để trả lời câu hỏi của người dùng

Năm 1980 một số sự kiện đã xảy ra, gọi chung là thập kỉ đổi mới kho

dữ liệu

Trong những năm 1990, một cách tiếp cận mới để giải quyết vấn đề đảo dữ liệu đã xuất hiện Nếu cách tiếp cận và tiếp cận dữ liệu của những năm 1980 từ các tệp và cơ sở dữ liệu không hoạt động, thì triết lý của thập niên 1990 đã quay trở lại những năm 1970, trong đó dữ liệu từ những nơi đó được sao chép sang một vị trí khác mà chỉ thực hiện đúng lúc này, do đó kho dữ liệu đã ra đời

Trang 9

8

Vào những năm 2000 và sau đó mức độ phổ biến của dữ liệu tăng lên đáng kể từ đố dẫn đến việc bùng nổ của một số hãng dữ liệu năm 1980 bị nuốt chửng bởi những hãng lớn nhất thế giới như Oracle, SAP,…

Trong những năm 2010, khái niệm Dữ liệu lớn có nhiều ảnh hưởng, người ta tin rằng dữ liệu lớn sẽ tạo ra ảnh hưởng đến việc lưu trữ dữ liệu

1.3 Các đặc trưng của kho dữ liệu

Một cách phổ biến để giới thiệu kho dữ liệu là tham khảo các đặc điểm cơ bản của nó (xem Inmon, 2005)

Chủ đề định hướng:

Dữ liệu được sắp xếp theo chủ đề chi tiết, chẳng hạn như bán hàng, sản phẩm hoặc khách hàng, chỉ chứa thông tin liên quan để hỗ trợ quyết định Định hướng chủ đề cho phép người dùng xác định không chỉ cách thức kinh doanh của họ Kho dữ liệu khác với cơ sở dữ liệu hoạt động ở chỗ hầu hết các cơ sở dữ liệu hoạt động đều có định hướng sản phẩm và được điều chỉnh để xử lý các giao dịch cập nhật cơ sở dữ liệu Định hướng chủ đề cung cấp một cái nhìn toàn diện hơn về tổ chức

Biến thể thời gian (chuỗi thời gian):

Một kho duy trì dữ liệu lịch sử Dữ liệu không nhất thiết phải cung cấp trạng thái hiện tại (ngoại trừ trong các hệ thống thời gian thực) Họ phát hiện xu hướng, sai lệch và mối quan hệ lâu dài để dự báo và so sánh, dẫn đến việc ra quyết định Mỗi kho dữ liệu có một chất lượng tạm thời Thời gian là một khía cạnh quan trọng mà tất cả các kho dữ liệu phải hỗ

Trang 10

9

trợ Dữ liệu để phân tích từ nhiều nguồn chứa nhiều điểm thời gian (ví dụ: lượt xem hàng ngày, hàng tuần, hàng tháng)

Không bay hơi:

Sau khi dữ liệu được nhập vào kho dữ liệu, người dùng không thể thay đổi hoặc cập nhật dữ liệu Dữ liệu quá cũ bị loại bỏ và các thay đổi được ghi lại dưới dạng dữ liệu mới

Những đặc điểm này cho phép kho dữ liệu được điều chỉnh gần như dành riêng cho truy cập dữ liệu Một số đặc điểm bổ sung có thể bao gồm:

Dựa trên web: Kho dữ liệu thường được thiết kế để cung cấp một môi

trường tính toán hiệu quả cho các ứng dụng dựa trên Web

Quan hệ / đa chiều: Kho dữ liệu sử dụng cấu trúc quan hệ hoặc cấu

trúc đa chiều Một khảo sát gần đây về các cấu trúc đa chiều có thể được tìm thấy trong Romero và Abelló (2009)

Khách hàng / máy chủ: Kho dữ liệu sử dụng kiến trúc máy khách /

máy chủ để cung cấp quyền truy cập dễ dàng cho người dùng cuối

Thời gian thực: Kho dữ liệu mới hơn cung cấp các khả năng phân tích

và truy cập dữ liệu theo thời gian thực hoặc hoạt động (xem Basu, 2003;

và Bonde và Kuckuk, 2004)

Siêu dữ liệu: Kho dữ liệu chứa siêu dữ liệu (dữ liệu về dữ liệu) về

cách tổ chức dữ liệu và cách sử dụng hiệu quả chúng

Trong khi kho dữ liệu là kho lưu trữ dữ liệu, kho dữ liệu thực sự là toàn bộ quá trình Lưu trữ dữ liệu là một môn học dẫn đến các ứng dụng cung cấp khả năng hỗ trợ quyết định, cho phép truy cập sẵn sàng vào thông tin doanh nghiệp và tạo ra cái nhìn sâu sắc về kinh doanh

Ba loại kho dữ liệu chính là chợ dữ liệu (data marts), kho dữ liệu vận hành (operational data stores(ODS)) và kho dữ liệu doanh nghiệp

Trang 11

10

(enterprise data warehouses(EDW)) Ngoài việc thảo luận về ba loại kho này tiếp theo, chúng ta cũng thảo luận về siêu dữ liệu (metadata)

1.4 Chợ dữ liệu (Data mart)

Trong một thị trường bị chi phối bởi dữ liệu lớn và phân tích, các dữ liệu là một chìa khóa để chuyển đổi thông tin thành thông tin chi tiết một cách hiệu quả Kho dữ liệu thường xử lý các tập dữ liệu lớn, nhưng phân tích dữ liệu đòi hỏi dữ liệu dễ tìm và sẵn có Một người kinh doanh có nên thực hiện các truy vấn phức tạp chỉ để truy cập dữ liệu họ cần cho báo cáo của họ không? Không có điều gì và đó là lý do tại sao các công ty thông minh sử dụng dữ liệu

Data mart là một cơ sở dữ liệu hướng đối tượng thường là một phân đoạn được phân vùng của kho dữ liệu doanh nghiệp Tập hợp con của dữ liệu được giữ trong một trung tâm dữ liệu thường phù hợp với một đơn vị kinh doanh cụ thể như bán hàng, tài chính hoặc tiếp thị Siêu dữ liệu tăng tốc các quy trình kinh doanh bằng cách cho phép truy cập vào thông tin liên quan trong kho dữ liệu hoặc kho dữ liệu vận hành trong vòng vài ngày, trái ngược với nhiều tháng hoặc lâu hơn Bởi vì một mart dữ liệu chỉ chứa dữ liệu áp dụng cho một lĩnh vực kinh doanh nhất định, đó là một cách hiệu quả về chi phí để có được những hiểu biết sâu sắc có thể hành động một cách nhanh chóng

Data mart và Kho dữ liệu (Data Warehouse)

Data marts and data warehouses đều là những kho lưu trữ có cấu trúc cao, nơi dữ liệu được lưu trữ và quản lý cho đến khi cần Tuy nhiên, chúng khác nhau về phạm vi dữ liệu được lưu trữ: kho dữ liệu được xây dựng để phục vụ như kho lưu trữ dữ liệu trung tâm cho toàn bộ doanh nghiệp, trong khi đó, trung tâm dữ liệu đáp ứng yêu cầu của một bộ phận hoặc chức năng kinh doanh cụ thể Bởi vì một kho dữ liệu chứa dữ liệu

Trang 12

11

cho toàn bộ công ty, cách tốt nhất là kiểm soát chặt chẽ ai có thể truy cập

nó Ngoài ra, truy vấn dữ liệu bạn cần trong kho dữ liệu là một nhiệm vụ cực kỳ khó khăn cho doanh nghiệp Do đó, mục đích chính của Data mart

là cô lập tổ chức hoặc phân vùng một bộ dữ liệu nhỏ hơn từ toàn bộ để cung cấp truy cập dữ liệu dễ dàng hơn cho người tiêu dùng cuối

Hình 1.1: Mô hình Data Warehouse và Data mart

Một mart dữ liệu có thể được tạo từ kho dữ liệu hiện có, cách tiếp cận

từ trên xuống xuống hoặc từ các nguồn khác, chẳng hạn như hệ thống vận hành nội bộ hoặc dữ liệu ngoài Tương tự như kho dữ liệu, nó là một cơ

sở dữ liệu quan hệ lưu trữ dữ liệu giao dịch (giá trị thời gian, thứ tự số, tham chiếu đến một hoặc nhiều đối tượng) trong các cột và hàng giúp dễ dàng tổ chức và truy cập

Mặt khác, các đơn vị kinh doanh riêng biệt có thể tạo ra các dữ liệu riêng dựa trên yêu cầu dữ liệu của riêng họ Nếu doanh nghiệp cần chính

Trang 13

12

tả, nhiều dữ liệu có thể được hợp nhất với nhau để tạo một kho dữ liệu duy nhất Đây là cách tiếp cận phát triển từ dưới lên

Ba loại dữ liệu Data marts:

Có ba loại dữ liệu: phụ thuộc, độc lập và dữ liệu lai Chúng được phân loại dựa trên mối quan hệ của chúng với kho dữ liệu và các nguồn

dữ liệu được sử dụng để tạo ra hệ thống

Dữ liệu phụ thuộc:

Một mart dữ liệu phụ thuộc được tạo ra từ một kho dữ liệu doanh nghiệp hiện có Đó là cách tiếp cận từ trên xuống bắt đầu bằng việc lưu trữ tất cả dữ liệu kinh doanh ở một vị trí trung tâm, sau đó trích xuất một phần dữ liệu được xác định rõ ràng khi cần phân tích

Để tạo một kho dữ liệu, một tập hợp dữ liệu cụ thể được tổng hợp (tạo thành một cụm) từ kho, được cơ cấu lại, sau đó được tải vào trung tâm dữ liệu nơi nó có thể được truy vấn Nó có thể là một khung nhìn logic hoặc tập hợp con vật lý của kho dữ liệu:

Chế độ xem logic- Một bảng / chế độ xem ảo được logic nhưng không tách biệt về mặt vật lý với kho dữ liệu

Phạm vi Một lĩnh vực kinh doanh Toàn doanh nghiệp

Thời gian để xây

dựng

Phút, tuần , tháng Nhiều tháng đến

nhiều năm

Trang 14

13

Tập hợp vật lý - Trích xuất dữ liệu là cơ sở dữ liệu riêng biệt từ kho

dữ liệu

Dữ liệu dạng hạt có mức dữ liệu thấp nhất trong bộ mục tiêu Tập tin

dữ liệu trong kho dữ liệu đóng vai trò là điểm tham chiếu duy nhất cho tất

cả các dữ liệu phụ thuộc được tạo

Dữ liệu độc lập:

Một mart dữ liệu độc lập là một hệ thống độc lập, được tạo ra mà không cần sử dụng kho dữ liệu, tập trung vào một lĩnh vực chủ đề hoặc chức năng kinh doanh Dữ liệu được trích xuất từ các nguồn dữ liệu bên trong hoặc bên ngoài (hoặc cả hai), được xử lý, sau đó được tải vào kho lưu trữ dữ liệu mart nơi nó được lưu trữ cho đến khi cần cho các phân tích kinh doanh

Siêu dữ liệu độc lập không khó để thiết kế và phát triển Chúng có lợi

để đạt được các mục tiêu ngắn hạn nhưng có thể trở nên cồng kềnh khi quản lý mỗi mục tiêu với công cụ ETL và logic logic riêng của nó khi nhu cầu kinh doanh mở rộng và trở nên phức tạp hơn

Dữ liệu lai:

Một mart dữ liệu lai kết hợp dữ liệu từ kho dữ liệu hiện có và các hệ thống nguồn hoạt động khác Nó kết hợp tốc độ và sự tập trung của người dùng cuối vào cách tiếp cận từ trên xuống với lợi ích của việc tích hợp cấp doanh nghiệp của phương pháp từ dưới lên

Ưu điểm của Data mart

Quản lý dữ liệu lớn và có được những hiểu biết về kinh doanh có giá trị Đây là một thách thức mà tất cả các công ty phải đối mặt và là một vấn đề mà hầu hết đang trả lời với các dữ liệu chiến lược

Trang 15

14

Truy cập hiệu quả - Data mart là một giải pháp tiết kiệm thời gian để truy cập vào một bộ dữ liệu cụ thể cho doanh nghiệp thông minh

Thay thế kho dữ liệu rẻ tiền - Các bảng dữ liệu có thể là một lựa chọn

rẻ tiền để phát triển kho dữ liệu doanh nghiệp, trong đó các tập dữ liệu cần thiết nhỏ hơn Một mart dữ liệu độc lập có thể được chạy và chạy trong một tuần hoặc ít hơn

Cải thiện hiệu suất kho dữ liệu - Các chuỗi dữ liệu phụ thuộc và lai có thể cải thiện hiệu suất của kho dữ liệu bằng cách đảm nhận gánh nặng xử

lý, để đáp ứng nhu cầu của nhà phân tích Khi các dữ liệu phụ thuộc được đặt trong một cơ sở xử lý riêng biệt, chúng cũng giảm đáng kể chi phí xử

lý phân tích

Các ưu điểm khác của mart dữ liệu bao gồm:

Bảo trì dữ liệu-Các bộ phận khác nhau có thể sở hữu và kiểm soát dữ liệu của họ

Thiết lập đơn giản-Thiết kế đơn giản đòi hỏi ít kỹ năng kỹ thuật để thiết lập

Phân tích-Các chỉ số hiệu suất chính (KPI) có thể dễ dàng được theo dõi

Dễ dàng nhập-Các dữ liệu có thể là các khối xây dựng của một dự án kho dữ liệu doanh nghiệp trong tương lai

1.5 Kho dữ liệu vận hành (Operational Data Stores (ODS))

Kho lưu trữ dữ liệu vận hành (ODS) là một cơ sở dữ liệu trung tâm cung cấp ảnh chụp nhanh dữ liệu mới nhất từ nhiều hệ thống giao dịch để báo cáo hoạt động Nó cho phép các tổ chức kết hợp dữ liệu ở định dạng ban đầu từ nhiều nguồn khác nhau vào một điểm đến duy nhất để làm cho

nó có sẵn cho báo cáo kinh doanh

Trang 16

15

Một ODS chứa thông tin cập nhật được tích hợp từ các nguồn hoạt động và hỗ trợ các công cụ thông minh kinh doanh (BI) hỗ trợ cho việc ra quyết định chiến thuật Ví dụ: quản trị viên có thể thiết lập ODS để lấy các lô dữ liệu hàng tuần từ một ứng dụng thanh toán hiếm khi được cập nhật, nhập các bản ghi giao dịch riêng lẻ khi chúng xuất hiện trong cơ sở

dữ liệu bán hàng (nhờ các kích hoạt trong cơ sở dữ liệu đó), sau đó kết hợp cả hai vào các bảng quan hệ mới Do đó, truy vấn và báo cáo về dữ liệu vận hành trong ODS đi kèm với một đảm bảo rằng các bảng tích hợp này chứa ảnh chụp nhanh nhất, có liên quan của doanh nghiệp

Lợi ích lưu trữ dữ liệu vận hành

Một ODS cung cấp dữ liệu sạch, hiện tại từ nhiều nguồn ở một nơi và lợi ích chủ yếu áp dụng cho hoạt động kinh doanh

ODS cung cấp một kho lưu trữ hợp nhất mà các hệ thống CNTT giao tiếp bị cô lập hoặc không hiệu quả trước đây có thể cung cấp

Báo cáo ODS, tập trung vào ảnh chụp nhanh dữ liệu vận hành, có thể phức tạp hơn báo cáo từ các hệ thống cơ bản riêng lẻ ODS được kiến trúc để cung cấp một cái nhìn tổng hợp về dữ liệu được tích hợp từ nhiều

hệ thống, vì vậy các báo cáo có thể cung cấp một viễn cảnh toàn diện về các quy trình hoạt động

Chế độ xem cập nhật vào trạng thái hoạt động cũng giúp người dùng

dễ dàng chẩn đoán sự cố hơn trước khi đào sâu vào các hệ thống thành phần Ví dụ: ODS cho phép đại diện dịch vụ tìm ngay đơn đặt hàng của khách hàng, trạng thái của nó và bất kỳ thông tin khắc phục sự cố nào có thể hữu ích

Một ODS chứa các quy tắc kinh doanh quan trọng, nhạy cảm với thời gian, chẳng hạn như các quy tắc tự động thông báo cho tổ chức tài chính khi khách hàng đã rút tiền từ tài khoản Các quy tắc này, tổng hợp, là một

Trang 17

16

loại tự động hóa quá trình giúp cải thiện đáng kể hiệu quả, điều này là không thể nếu không có dữ liệu vận hành hiện tại và tích hợp

Kho dữ liệu vận hành và kho dữ liệu: sự khác biệt

Một ODS được thiết kế cho mục đích khác với kho dữ liệu

Một ODS có thể được sử dụng làm khu vực tạm thời cho kho dữ liệu; nó nằm giữa các nguồn dữ liệu và kho dữ liệu

Một ODS được thiết kế để thực hiện các truy vấn đơn giản trên các tập dữ liệu nhỏ, trong khi kho dữ liệu được thiết kế để thực hiện các truy vấn phức tạp trên các tập dữ liệu lớn

Một ODS xử lý độc quyền dữ liệu hoạt động hiện tại và báo cáo cấp

độ trạng thái cơ bản, bởi vì một ODS liên tục ghi đè lên dữ liệu Kho dữ liệu liên tục chèn các bản ghi vào các bảng hiện có và có thể tổng hợp dữ liệu qua các chế độ xem lịch sử

Hình 1.2:

Trang 18

17

Các doanh nghiệp sử dụng kho lưu trữ tập trung của kho dữ liệu để thông báo các chiến lược toàn doanh nghiệp, trong khi ODS mang tính chiến thuật hơn Tùy thuộc vào các trường hợp sử dụng và yêu cầu kinh doanh, các tổ chức có thể sử dụng cái này hoặc cái kia hoặc cả hai cùng nhau trong một kiến trúc dữ liệu theo tầng

Các doanh nghiệp cần dữ liệu lịch sử tổng hợp để phân tích thường thiết lập một kho dữ liệu bổ sung Tương tự, nếu một doanh nghiệp có kho dữ liệu cần dữ liệu vận hành tích hợp, hiện tại để hoạt động hàng ngày, nó có thể thực hiện ODS

Lấy ví dụ, một cửa hàng trực tuyến có hệ thống thanh toán ghi lại thông tin khách hàng (tên, địa chỉ, tùy chọn giao hàng) và hệ thống giao dịch theo dõi mua hàng của khách hàng khi chúng xảy ra Người dùng có thể truy vấn ODS để có chế độ xem hoạt động trực tiếp (Số lượng sản phẩm đã mua trong một giờ qua?), Hoặc báo cáo trả lời các câu hỏi chiến thuật (Hồi nào khu vực địa lý chịu trách nhiệm cho doanh thu nhiều nhất hiện nay? Nhưng người dùng sẽ truy vấn kho dữ liệu để tạo các báo cáo làm nổi bật xu hướng kinh doanh trong khoảng thời gian dài hơn

1.6 Kho dữ liệu doanh nghiệp (Enterprise Data Warehouses (EDW))

Khi các doanh nghiệp trở nên dựa trên dữ liệu nhiều hơn, họ thường muốn sử dụng dữ liệu của mình để ra quyết định nhanh hơn và cải thiện quy trình kinh doanh Dữ liệu doanh nghiệp chứa thông tin chi tiết về hành vi, chi tiêu và doanh thu của khách hàng Phân tích dữ liệu hiện đại

và thông minh kinh doanh (BI) liên quan đến việc tích hợp dữ liệu từ các nguồn khác nhau và khai thác nó để phân tích và BI, thường là với sự trợ giúp của kho dữ liệu doanh nghiệp (EDW)

EDW là kho lưu trữ dữ liệu trung tâm từ nhiều nguồn Nó thu thập dữ liệu doanh nghiệp và làm cho nó có sẵn để phân tích, BI và ra quyết định

Trang 19

không cần thiết ở một nơi EDW cũng là nền tảng lưu trữ làm nền tảng cho các quy trình phân tích trực tiếp

a EDWs và kinh doanh thông minh

EDW là một vị trí tập trung và có cấu trúc, nơi người dùng có thể truy cập dữ liệu kinh doanh Business Intelligence là một tập hợp các phương pháp và phần mềm được sử dụng bởi một doanh nghiệp để tổng hợp, tóm tắt, phân tích và cuối cùng nhận được giá trị từ dữ liệu kinh doanh

Có dữ liệu từ các nguồn khác nhau và dữ liệu nằm trong các nền tảng hoặc đơn vị kinh doanh SaaS riêng lẻ, gây khó khăn cho việc tích hợp dữ liệu trên toàn tổ chức và chia sẻ thông tin chi tiết dựa trên tất cả dữ

liệu Kết quả phân tích dữ liệu và BI bị ảnh hưởng EDW giải quyết các vấn đề liên quan đến silo dữ liệu bằng cách đưa tất cả dữ liệu doanh

nghiệp có liên quan vào kho lưu trữ trung tâm có sẵn, có thể truy cập để phân tích trên toàn doanh nghiệp

b Sự khác biệt của kho dữ liệu doanh nghiệp so với kho dữ liệu thông thường :

Bất kỳ kho dữ liệu nào cũng là cơ sở dữ liệu luôn được kết nối với các nguồn dữ liệu thô thông qua các công cụ tích hợp dữ liệu ở một đầu

và các giao diện phân tích ở đầu kia Nếu vậy, tại sao chúng ta cô lập hình thức doanh nghiệp để thảo luận?

Trang 20

19

Bất kỳ kho nào cũng cung cấp lưu trữ có cơ chế để chuyển đổi dữ liệu,

di chuyển dữ liệu và hiển thị nó cho người dùng cuối Sự khác biệt giữa kho dữ liệu thông thường và doanh nghiệp là ở tính đa dạng và chức năng kiến trúc rộng hơn nhiều Do cấu trúc và kích thước phức tạp, EDW

thường được phân tách thành các cơ sở dữ liệu nhỏ hơn, vì vậy người dùng cuối thoải mái hơn trong việc truy vấn các cơ sở dữ liệu nhỏ hơn này Xem xét điều này, chúng tôi đang tập trung vào một kho doanh

nghiệp để bao quát toàn bộ chức năng

Tuy nhiên, kích thước của kho không xác định độ phức tạp kỹ thuật của nó, các yêu cầu về khả năng phân tích và báo cáo, số lượng mô hình

dữ liệu và chính dữ liệu Vì vậy, để hiểu những gì làm cho một kho hàng, hãy đi sâu vào các khái niệm và chức năng cốt lõi của nó

c Chức năng của Kho dữ liệu doanh nghiệp:

Phục vụ như là lưu trữ cuối cùng: Kho dữ liệu doanh nghiệp là kho lưu trữ hợp nhất cho tất cả dữ liệu doanh nghiệp từng xảy ra trong tổ chức

Phản ánh dữ liệu nguồn: EDW lấy dữ liệu từ các không gian lưu trữ ban đầu của nó như Google Analytics, CRM, thiết bị IoT, v.v Nếu dữ liệu nằm rải rác trên nhiều hệ thống, không thể quản lý được Vì vậy, mục đích của EDW là cung cấp sự giống nhau của dữ liệu nguồn gốc trong một kho lưu trữ duy nhất Vì luôn có dữ liệu mới, có liên quan được tạo

ra cả trong và ngoài công ty, luồng dữ liệu đòi hỏi phải có cơ sở hạ tầng chuyên dụng để quản lý dữ liệu trước khi vào kho

Lưu trữ dữ liệu có cấu trúc: Dữ liệu được lưu trữ trong EDW luôn được chuẩn hóa và có cấu trúc Điều này giúp người dùng cuối có thể truy vấn nó thông qua giao diện BI và báo cáo biểu mẫu Và đây là những

gì làm cho một kho dữ liệu khác với một hồ dữ liệu Hồ dữ liệu được sử

Trang 21

20

dụng để lưu trữ dữ liệu phi cấu trúc cho mục đích phân tích Nhưng không giống như kho, hồ dữ liệu được sử dụng nhiều hơn bởi các kỹ sư/ nhà khoa học dữ liệu để làm việc với các bộ dữ liệu thô lớn

Dữ liệu hướng đối tượng: Trọng tâm chính của kho là dữ liệu kinh

doanh có thể liên quan đến các tên miền khác nhau Để hiểu dữ liệu liên quan đến cái gì, nó luôn được cấu trúc xung quanh một chủ đề cụ thể được gọi là mô hình dữ liệu Một ví dụ về một chủ đề có thể là một khu vực bán hàng hoặc tổng doanh số của một mặt hàng nhất định Ngoài ra, siêu dữ liệu được thêm vào để giải thích chi tiết nơi mọi thông tin đến từ đâu

Thời gian phụ thuộc: Dữ liệu được thu thập thường là dữ liệu lịch sử,

vì nó mô tả các sự kiện trong quá khứ Để hiểu khi nào và trong bao lâu một xu hướng nhất định diễn ra, hầu hết dữ liệu được lưu trữ thường được chia thành các khoảng thời gian

Không bay hơi: Sau khi được đặt trong một kho, dữ liệu không bao giờ bị xóa khỏi nó Dữ liệu có thể bị thao túng, sửa đổi hoặc cập nhật do thay đổi nguồn, nhưng nó không bao giờ bị xóa, ít nhất là bởi người dùng cuối Khi chúng ta nói về dữ liệu lịch sử, việc xóa là phản tác dụng cho mục đích phân tích Tuy nhiên, sửa đổi chung có thể xảy ra một lần trong một vài năm để loại bỏ dữ liệu không liên quan

d Kiến trúc kho dữ liệu doanh nghiệp:

Mặc dù có nhiều cách tiếp cận kiến trúc mở rộng khả năng kho theo cách này hay cách khác, chúng tôi sẽ tập trung vào những phương pháp thiết yếu nhất Không đi sâu vào quá nhiều chi tiết kỹ thuật, toàn

bộ đường ống dữ liệu có thể được chia thành ba lớp:

• Lớp dữ liệu thô (nguồn dữ liệu)

• Kho và hệ sinh thái của nó

Trang 22

21

• Giao diện người dùng (công cụ phân tích)

Công cụ liên quan đến khai thác, chuyển đổi và tải dữ liệu vào kho là

một loại công cụ riêng biệt được gọi là ETL Ngoài ra, dưới chiếc ô

ETL, các công cụ tích hợp dữ liệu thực hiện các thao tác với dữ liệu trước khi nó được đặt trong kho Các công cụ này hoạt động giữa một lớp dữ liệu thô và một kho

Khi dữ liệu được tải vào kho, nó cũng có thể được chuyển đổi Vì vậy, kho sẽ yêu cầu chức năng nhất định để làm sạch / tiêu chuẩn hóa / kích thước Những yếu tố này và các yếu tố khác sẽ xác định độ phức tạp của kiến trúc

Kiến trúc một tầng

Do tích hợp dữ liệu được cấu hình tốt, chúng ta có thể chọn kho dữ liệu của mình Trong hầu hết các trường hợp, kho dữ liệu là một cơ sở dữ liệu quan hệ với các mô-đun để cho phép dữ liệu đa chiều hoặc dữ liệu có thể tách một số thông tin cụ thể theo miền để truy cập dễ dàng hơn Ở dạng nguyên thủy nhất của nó, kho có thể chỉ có kiến trúc một tầng

Hình 1.3: Lớp báo cáo được kết nối trực tiếp với toàn bộ cơ sở dữ liệu của EDW

Trang 23

22

Kiến trúc một tầng cho EDW có nghĩa là bạn có cơ sở dữ liệu được kết nối trực tiếp với các giao diện phân tích nơi người dùng cuối có thể thực hiện truy vấn Đặt kết nối trực tiếp giữa EDW và các công cụ phân tích mang lại một số thách thức:

• Theo truyền thống, bạn có thể coi bộ lưu trữ của mình là kho bắt đầu

từ 100 GB dữ liệu Làm việc trực tiếp với nó có thể dẫn đến kết quả truy vấn lộn xộn, cũng như tốc độ xử lý thấp

• Truy vấn dữ liệu ngay từ DW có thể yêu cầu đầu vào chính xác, để hệ thống có thể lọc ra dữ liệu không bắt buộc Điều này làm cho việc đối phó với các công cụ trình bày một chút khó khăn

• Khả năng linh hoạt / phân tích hạn chế tồn tại

Ngoài ra, kiến trúc một lớp đặt một số giới hạn cho báo cáo độ phức tạp Cách tiếp cận như vậy hiếm khi được sử dụng cho các nền tảng dữ liệu quy mô lớn, vì sự chậm chạp và không thể đoán trước của nó Để thực hiện các truy vấn dữ liệu nâng cao, kho có thể được mở rộng với các phiên bản cấp thấp giúp truy cập dữ liệu dễ dàng hơn

Kiến trúc hai tầng

Trong kiến trúc hai lớp, một cấp dữ liệu mart được thêm vào giữa giao diện người dùng và EDW Data mart là kho lưu trữ cấp thấp chứa thông tin cụ thể theo miền Nói một cách đơn giản, đó là một cơ sở dữ liệu khác, có kích thước nhỏ hơn giúp mở rộng EDW với thông tin

chuyên dụng cho các bộ phận bán hàng / vận hành, tiếp thị,…

Trang 24

23

Hình 1.4: Trong kiến trúc hai lớp, EDW được mở rộng bằng các dữ liệu để cung cấp

dữ liệu theo miền cụ thể

Tạo lớp mart dữ liệu sẽ yêu cầu các tài nguyên bổ sung để thiết lập phần cứng và tích hợp các cơ sở dữ liệu đó với phần còn lại của nền tảng

dữ liệu Nhưng, cách tiếp cận như vậy giải quyết vấn đề với truy vấn:

Mỗi bộ phận sẽ truy cập dữ liệu cần thiết dễ dàng hơn vì một mart cụ thể

sẽ chỉ chứa thông tin cụ thể theo miền Ngoài ra, các bảng dữ liệu sẽ giới hạn quyền truy cập dữ liệu cho người dùng cuối, giúp EDW an toàn hơn

Kiến trúc ba tầng (Xử lý phân tích trực tuyến)

Trên cùng của lớp mart dữ liệu, doanh nghiệp cũng sử dụng các khối

xử lý phân tích trực tuyến (OLAP) Một khối OLAP là một loại cơ sở dữ liệu cụ thể đại diện cho dữ liệu từ nhiều chiều Mặc dù cơ sở dữ liệu quan

hệ biểu thị dữ liệu chỉ trong hai chiều (nghĩ về Excel hoặc Google Sheets), OLAP cho phép bạn biên dịch dữ liệu theo nhiều chiều và di chuyển giữa các chiều

Trang 26

25

Vì vậy, như bạn có thể thấy, một khối lập phương sẽ thêm kích thước cho dữ liệu Bạn có thể nghĩ về nó như nhiều bảng Excel kết hợp với nhau Mặt trước của khối là bảng hai chiều thông thường, trong đó khu vực (Châu Phi, Châu Á, ) được chỉ định theo chiều dọc, trong khi số bán hàng và ngày được viết theo chiều ngang Phép thuật bắt đầu khi chúng ta nhìn vào mặt trên của khối lập phương, nơi bán hàng được phân chia theo các tuyến đường và phía dưới chỉ định thời gian Đó được gọi là dữ liệu

đa chiều

Giá trị kinh doanh của OLAP là cho phép người dùng cắt và xắt nhỏ

dữ liệu để biên dịch các báo cáo chi tiết Miễn là các khối được tối ưu hóa

để làm việc với kho, chúng có thể được sử dụng cả trực tiếp với EDW để cấp quyền truy cập vào tất cả dữ liệu của công ty hoặc với từng mart dữ liệu cụ thể Về mặt triển khai, gần như tất cả các nhà cung cấp kho đều cung cấp OLAP như một dịch vụ Ví dụ, kiểm tra tài liệu của Microsoft về ưu đãi OLAP của họ

Về điểm đó, chúng tôi đã thảo luận về một thiết kế cấp cao của EDW

áp dụng cho nhu cầu của tổ chức Bây giờ chúng ta sẽ đi sâu vào các thành phần kỹ thuật mà một nhà kho có thể bao gồm

e Thành phần kho dữ liệu doanh nghiệp

Có rất nhiều công cụ được sử dụng để thiết lập một nền tảng kho Chúng tôi đã đề cập đến hầu hết trong số họ, bao gồm cả một nhà kho Vì vậy, hãy để mắt chim nhìn vào mục đích của từng thành phần và chức năng của chúng

Nguồn: Cơ sở dữ liệu nơi lưu trữ dữ liệu thô

Lớp Extract, Transform, Load (ETL) hoặc Extract, Load, Transform (ELT) Đây là những công cụ thực hiện kết nối thực tế với dữ liệu nguồn,

trích xuất và tải đến nơi mà nó sẽ được chuyển đổi Chuyển đổi thống

Trang 27

26

nhất định dạng dữ liệu Các cách tiếp cận ETL và ELT khác nhau ở chỗ trong ETL, việc chuyển đổi được thực hiện trước EDW, trong khu vực tổ chức ELT là một cách tiếp cận hiện đại hơn để xử lý tất cả các chuyển đổi trong một nhà kho

Khu vực tổ chức: Trong trường hợp của ETL, khu vực tổ chức là dữ

liệu địa điểm được tải trước EDW Tại đây, nó sẽ được làm sạch và chuyển đổi thành một mô hình dữ liệu nhất định Khu vực tổ chức cũng

có thể bao gồm các công cụ để quản lý chất lượng dữ liệu

Cơ sở dữ liệu DW: Dữ liệu cuối cùng được tải vào không gian lưu

trữ Trong ELT, nó vẫn có thể có một số chuyển đổi ở đây Nhưng, ở giai đoạn đó, tất cả các thay đổi chung sẽ được áp dụng, do đó dữ liệu sẽ được tải trong (các) mô hình cuối cùng của nó Như chúng tôi đã đề cập, kho

dữ liệu thường là cơ sở dữ liệu quan hệ DW cũng sẽ bao gồm một hệ thống quản lý cơ sở dữ liệu và lưu trữ bổ sung cho siêu dữ liệu

Mô-đun siêu dữ liệu: Nói một cách đơn giản, siêu dữ liệu là dữ liệu về

dữ liệu Đây là những giải thích đưa ra gợi ý cho người dùng / quản trị viên về chủ đề / tên miền mà thông tin này liên quan đến Dữ liệu này có thể là meta kỹ thuật (ví dụ: nguồn ban đầu) hoặc meta doanh nghiệp (ví dụ: khu vực bán hàng) Tất cả các meta được lưu trữ trong một mô-đun EDW riêng biệt và được quản lý bởi người quản lý siêu dữ liệu

Lớp báo cáo: Đây là những công cụ cho phép người dùng cuối truy

cập dữ liệu Còn được gọi là giao diện BI, lớp này sẽ đóng vai trò là bảng điều khiển để trực quan hóa dữ liệu, báo cáo biểu mẫu và kéo các mẩu thông tin riêng biệt

1.7 Siêu dữ liệu (MetaData)

Trang 28

27

Siêu dữ liệu có nghĩa là dữ liệu về dữ liệu hoặc dữ liệu mô tả các dữ liệu khác Tiền tố meta thường có nghĩa là một định nghĩa cơ bản hoặc

mô tả về cơ bản trong vòng tròn công nghệ

Siêu dữ liệu giúp tìm kiếm và làm việc với dữ liệu dễ dàng hơn - cho phép người dùng sắp xếp hoặc định vị các tài liệu cụ thể Một số ví dụ về siêu dữ liệu cơ bản là tác giả, ngày tạo, ngày sửa đổi và kích thước tệp Siêu dữ liệu cũng được sử dụng cho dữ liệu phi cấu trúc như hình ảnh, video, trang web, bảng tính,…

Các trang web thường bao gồm siêu dữ liệu dưới dạng thẻ meta Thẻ meta mô tả và từ khóa thường được sử dụng để mô tả nội dung trong một trang web Công cụ tìm kiếm có thể sử dụng dữ liệu này để giúp hiểu nội dung trong một trang

Siêu dữ liệu có thể được tạo bằng tay hoặc thông qua tự động hóa Độ chính xác được tăng lên bằng cách tạo thủ công vì nó cho phép người dùng nhập thông tin liên quan Tạo siêu dữ liệu tự động có thể cơ bản hơn, thường chỉ hiển thị thông tin cơ bản như kích thước tệp, phần mở rộng tệp, khi tệp được tạo, chẳng hạn

Siêu dữ liệu có thể được lưu trữ và quản lý trong cơ sở dữ liệu, tuy nhiên, không có ngữ cảnh, có thể không thể xác định siêu dữ liệu chỉ bằng cách xem xét nó Siêu dữ liệu rất hữu ích trong việc quản lý dữ liệu phi cấu trúc vì nó cung cấp một khung chung để xác định và phân loại nhiều loại dữ liệu bao gồm video, âm thanh, dữ liệu gen, dữ liệu địa chấn,

dữ liệu người dùng, tài liệu, nhật ký

Một vài ví dụ thực tế về siêu dữ liệu:

Siêu dữ liệu điển hình

• Đó là một số yếu tố siêu dữ liệu điển hình:

Trang 29

28

• Tiêu đề và mô tả,

• Thẻ và danh mục,

• Ai tạo ra và khi nào,

• Ai sửa đổi lần cuối và khi nào,

Trang 30

29

Ví dụ 2: Sách

Mỗi cuốn sách có một số siêu dữ liệu tiêu chuẩn trên bìa và bên

trong Điêu nay bao gôm:

Trang 31

30

Ví dụ 3: Một bài đăng trên blog

Mỗi bài đăng trên blog có các trường siêu dữ liệu tiêu chuẩn thường ở trước đoạn đầu tiên Điều này bao gồm:

Trang 32

31

Ví dụ 4: Email

Mỗi email bạn gửi hoặc nhận có một số trường siêu dữ liệu, nhiều

trường được ẩn trong tiêu đề thư và không hiển thị cho bạn trong ứng

dụng thư khách của bạn Siêu dữ liệu này bao gồm:

• môn học,

• từ,

• đến,

Trang 33

32

• ngày giờ gửi

• gửi và nhận tên máy chủ và IP,

• định dạng (văn bản thuần của HTLM),

• chi tiết phần mềm chống thư rác

Ví dụ 5: Tài liệu văn bản

Mỗi phần mềm xử lý văn bản thu thập một số siêu dữ liệu tiêu chuẩn

và cho phép bạn thêm các trường của riêng mình cho mỗi tài liệu Các lĩnh vực tiêu biểu là:

• tiêu đề,

Trang 34

• ngày và thời gian tạo

• ngày và giờ sửa đổi cuối cùng

• số trang

Trang 35

34

Chương 2:

KIẾN TRÚC VÀ CÁC QUÁ TRÌNH CỦA KHO DỮ LIỆU

2.1 Các quá trình của kho dữ liệu

Quá trình Extraction, Transformation, and Load (ETL)

Là quá trình làm thế nào dữ liệu được tải từ hệ thống nguồn vào kho

dữ liệu Dữ liệu được trích xuất từ cơ sở dữ liệu OLTP, được chuyển đổi

để phù hợp với lược đồ kho dữ liệu và được nạp vào cơ sở dữ liệu kho dữ

liệu Nhiều kho dữ liệu cũng kết hợp dữ liệu từ các hệ thống không phải là

OLTP như các tệp văn bản, các hệ thống kế thừa và bảng tính

ETL đơn giản là :

Extracts dữ liệu - tức là đi thu gom dữ liệu từ nhiều nguồn khác nhau,

doanh nghiệp của bạn sẽ có một vài phần mềm với mỗi phần mềm đảm

nhiệm một công việc nào đó như dữ liệu người dùng từ database của một

website, từ hệ thống quản lý quan hệ khách hàng (CRM) và công việc cần

làm đi thu gom dữ liệu từ các nguồn dữ liệu này

Transforms dữ liệu - tức là chuyển đổi dữ liệu, việc chuyển đổi này có

mục đích hẳn hoi, đó là chuyển đổi từ các dữ liệu nghiệp vụ của các phần

Trang 36

35

mềm thành dữ liệu phân tích được, đồng thời phải tối ưu hóa cho mục

đích phân tích dữ liệu này Ngoài ra, việc chuyển đổi dữ liệu còn một mục đích khác nữa là làm sạch dữ liệu Khóa chính là một hoặc nhiều thuộc tính dữ liệu nhận dạng duy nhất một thực thể Các loại khóa chính là chìa khóa chính, phím xen kẽ, khoá nước ngoài, phím ghép, phím đại diện Kho dữ liệu sở hữu các phím này và không bao giờ cho phép bất kỳ thực thể khác gán cho chúng Rửa sạch dữ liệu: Sau khi dữ liệu được chiết xuất, nó sẽ di chuyển vào giai đoạn tiếp theo, làm sạch và phù hợp của dữ liệu Việc làm sạch sẽ làm mất dữ liệu cũng như xác định và sửa lỗi Việc tuân thủ có nghĩa là giải quyết mâu thuẫn giữa những dữ liệu đó không tương thích để chúng có thể được sử dụng trong kho dữ liệu doanh nghiệp Ngoài ra, hệ thống này tạo ra siêu dữ liệu được sử dụng để chẩn đoán các vấn đề hệ thống nguồn và nâng cao chất lượng dữ liệu

Load dữ liệu - như bạn thấy ở hình trên, sau khi được chuyển đổi thì

toàn bộ các dữ liệu này được đưa vào một nơi lưu trữ mới, mà người ta gọi là DataWarehouse (tạm dịch là kho dữ liệu) Và đến đây là kết thúc giai đoạn ETL dữ liệu, giai đoạn đầu tiên để bạn triển khai giải pháp Business Intelligence cho doanh nghiệp của bạn

Trang 37

36

Trong ứng dụng ETL, data được lấy từ hệ thống hoạt động

Operational System Dữ liệu trích xuất Extracted Data được nắm bắt trên

nền tảng đươc điều khiển bởi ứng dụng ETL Tiến trình nắm bắt dữ liệu

trên nền tảng này được gọi là Staging Nền tảng này được gọi là Staging

Platform hoặc Staging Environment Tại thời điểm này, Staged Data ở

dạng thô raw, giống thể thức và trạng thái của nó trong ứng dụng hoạt đông Trước quá trình Transform, Staged Data được gọi là Source Data

Ứng dụng Transform thực thi các phiến biến đổi dữ liệu cần thiết trên Source Data để làm nó phù hợp với các qui tắc, bố cục và định dạng trong

DW Transformed Data vẫn được được nắm bắt trong Staging Platform Tuy nhiên, sau khi Transform, Staged Data được gọi là Load Data

Ứng dụng Load là cầu nối khoảng cách giãu ETL/Staging

Platform và DW Platform Ứng dụng Load đọc Load Data và thực thi các

bước INSERT, UPDATE, DELETE trên DW Khi ứng dụng Load thành công, ETL hoàn thành

Các công cụ ETL cũng vận chuyển dữ liệu giữa các nguồn và đích, ghi lại cách các yếu tố dữ liệu (ví dụ: siêu dữ liệu) thay đổi khi chúng di chuyển giữa nguồn và đích, trao đổi siêu dữ liệu với các ứng dụng khác khi cần và quản lý tất cả các quy trình và hoạt động thời gian chạy (ví dụ: lập lịch, quản lý lỗi , nhật ký kiểm toán, thống kê) ETL là cực kỳ quan trọng để tích hợp dữ liệu cũng như cho kho dữ liệu Mục đích của quy trình ETL là tải kho với dữ liệu tích hợp và được làm sạch Dữ liệu được

sử dụng trong các quy trình ETL có thể đến từ bất kỳ nguồn nào: ứng dụng máy tính lớn, ứng dụng ERP, công cụ CRM, tệp phẳng, bảng tính Excel hoặc thậm chí là hàng đợi tin nhắn

Trang 38

37

Quá trình di chuyển dữ liệu vào kho dữ liệu liên quan đến việc trích xuất dữ liệu từ tất cả các nguồn có liên quan Nguồn dữ liệu có thể bao gồm các tệp được trích xuất từ cơ sở dữ liệu OLTP, bảng tính, cơ sở dữ liệu cá nhân (ví dụ: Microsoft Access) hoặc các tệp bên ngoài Thông thường, tất cả các tệp đầu vào được ghi vào một tập hợp các bảng phân tầng, được thiết kế để tạo thuận lợi cho quá trình tải Kho dữ liệu chứa nhiều quy tắc kinh doanh xác định những thứ như cách sử dụng dữ liệu, quy tắc tóm tắt, tiêu chuẩn hóa các thuộc tính được mã hóa và quy tắc tính toán Bất kỳ vấn đề chất lượng dữ liệu nào liên quan đến các tệp nguồn cần phải được sửa chữa trước khi dữ liệu được tải vào kho dữ liệu Một trong những lợi ích của kho dữ liệu được thiết kế tốt là các quy tắc này có thể được lưu trữ trong kho lưu trữ siêu dữ liệu và được áp dụng cho kho dữ liệu tập trung Điều này khác với cách tiếp cận OLTP, thường

có dữ liệu và quy tắc kinh doanh nằm rải rác trong hệ thống Quá trình tải

dữ liệu vào kho dữ liệu có thể được thực hiện thông qua các công cụ chuyển đổi dữ liệu cung cấp GUI để hỗ trợ phát triển và duy trì các quy tắc kinh doanh hoặc thông qua các phương pháp truyền thống hơn, như phát triển chương trình hoặc tiện ích để tải kho dữ liệu, sử dụng các ngôn ngữ lập trình như ngôn ngữ PL / SQL, C ++, Java hoặc NET Framework Quyết định này không dễ dàng cho các tổ chức Một số vấn đề ảnh hưởng đến việc một tổ chức sẽ mua các công cụ chuyển đổi dữ liệu hay

tự xây dựng quy trình chuyển đổi:

• Các công cụ chuyển đổi dữ liệu rất tốn kém

• Các công cụ chuyển đổi dữ liệu có thể có một đường cong học tập dài

• Thật khó để đo lường cách tổ chức CNTT đang làm cho đến khi

nó học cách sử dụng các công cụ chuyển đổi dữ liệu

Ngày đăng: 04/08/2020, 00:22

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w