1. Trang chủ
  2. » Tất cả

Kho dữ liệu, chủ yếu sử dụng để hỗ trợ quyết định và cung cấp các khả năng phân tích được cải thiện

38 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Kho Dữ Liệu, Chủ yếu sử dụng để hỗ trợ quyết định và cung cấp các khả năng phân tích được cải thiện
Người hướng dẫn TS. Lê Chí Ngọc
Trường học Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành Toán Tin
Thể loại Báo cáo cuối kỳ
Năm xuất bản 2023
Thành phố Hà Nội
Định dạng
Số trang 38
Dung lượng 462,39 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI KHOA TOÁN ỨNG DỤNG VÀ TIN HỌC BÁO CÁO CUỐI KÌ HỆ HỖ TRỢ QUYẾT ĐỊNH ĐỀ TÀI KHO DỮ LIỆU Chuyên ngành TOÁN TIN Chuyên sâu Tin học Giảng viên hướng dẫn TS LÊ CHÍ NGỌC Mục L[.]

Trang 1

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI KHOA TOÁN ỨNG DỤNG VÀ TIN HỌC

BÁO CÁO CUỐI KÌ

HỆ HỖ TRỢ QUYẾT ĐỊNH

ĐỀ TÀI: KHO DỮ LIỆU Chuyên ngành: TOÁN TIN Chuyên sâu: Tin học

Giảng viên hướng dẫn: TS.LÊ CHÍ NGỌC

Trang 2

Mục Lục

Chương 1 Đặt vấn đề: Isle of Capri Casinos đang chiến thắng với kho dữ liệu doanh ngh 4

Chương 2 Định nghĩa và khái niệm kho dữ liệu 8

Chương 3: Tổng quan về quy định nhập kho dữ liệu 12

Chương 5: Tích hợp dữ liệu và các quy trình khai thác, chuyển đổi và tải(ETL) 17

Chương 9: Quản trị kho dữ liệu, vấn đề báo mật và xu hướng trong tương lai 31

Trang 3

Lời mở đầu

Trong kỷ nguyên 4.0 hiện nay dữ liệu là một phân quan trọng của tất cả các hệthống và cũng là một trong những yếu tố được các nhà quản lý quan tâm bậc nhất.Trong quá trình kinh doanh, các dữ liệu của doanh nghiệp phát sinh càng nhiều.Người ta muốn tận dụng nguồn dữ liệu này để sử dụng cho mục đích hỗ trợ choviệc kinh doanh Kho dữ liệu là một công cụ hữu ích cho việc lưu trữ dữ liệu, thiết

kế dữ liệu làm sao để hỗ trợ việc phân tích và lập các báo cáo

Mục đích của bài báo cáo:

● Hiểu được định nghĩa và khái niệm cơ bản về kho dữ liệu

● Hiểu được kiến trúc kho dữ liệu

● Mô tả các quy trình được sử dụng trong việc phát triển và quản lý kho dữliệu

● Giải thích hoạt động kho dữ liệu

● Giải thích vai trò của kho dữ liệu trong hỗ trợ quyết định

● Giải tích tích hợp dữ liệu và các quá trình trích xuất, chuyển đổi và tải(ETL)

● Mô tả kho dữ liệu thời gian thực(hoạt động)

● Hiểu được vấn để quản trị kho dữ liệu và bảo mật

Khái niệm về kho dữ liệu đã có từ những năm 1980 Bài báo cáo này cung cấpnền tảng cho một loại cơ sở dữ liệu quan trọng được gọi là kho dữ liệu, chủyếu sử dụng để hỗ trợ quyết định và cung cấp các khả năng phân tích được cảithiện

Trong bài báo cáo này em thảo luận về các chủ đề sau:

● Chương 1: Đặt vấn đề: Isle of Capri Casinos đang chiến thắng với với kho

dữ liệu doanh nghiệp

● Chương 2: Định nghĩa và khái niệm kho dữ liệu

● Chương 3: Tổng quan về quy định nhập kho dữ liệu

Trang 4

● Chương 5: Tích hợp dữ liệu và các quy trình khai thác, chuyển đổi vàtải(ETL)

● Chương 6: Phát triển kho dữ liệu

● Chương 7: Vấn đề triển kahi kho dữ liệu

● Chương 8: Kho dữ liệu thời gian thực

● Chương 9: Quản trị kho dữ liệu, vấn đề báo mật và xu hướng trong tươnglai

Em xin được gửi lời cảm ơn sâu sắc tới thầy Lê Chí Ngọc đã tận tình hướngdẫn em hoàn thành bài tập này

Chương 1 Đặt vấn đề: Isle of Capri Casinos đang chiến thắng với kho dữ liệu doanh nghiệp

Isle of Capri là một người chơi độc đáo và sáng tạo trong ngành công nghiệptrò chơi Sau khi gia nhập thị trường ở Biloxi, Mississippi, vào năm 1992, Isle đã

Trang 5

phát triển thành một trong những công ty game thương mại công khai lớn nhất, chủyếu bằng cách thành lập các tài sản ở miền đông nam Hoa Kỳ và tại quốc gia Heartheartland Isle of Capri Casinos, Inc., hiện đang điều hành 18 sòng bạc ở 7 tiểubang, phục vụ gần 2 triệu du khách mỗi năm.

Thách thức:

Mặc dù chúng dường như có một lợi thế khác biệt, so với những người kháctrong ngành công nghiệp game cạnh tranh cao, Isle không hoàn toàn độc đáo Giốngnhư bất kỳ công ty chơi game nào, sự thành công của Isle, phụ thuộc phần lớn vàomối quan hệ với khách hàng của mình Khả năng tạo ra bầu không khí chơi game,giải trí và lòng hiếu khách, dự đoán nhu cầu của khách hàng và vượt quá mong đợicủa họ Đáp ứng mục tiêu như vậy là không thể nếu không có hai thành phần quantrọng: văn hóa công ty tập trung vào tia laser để làm cho khách hàng trải nghiệm thú

vị, và kiến trúc dữ liệu và công nghệ cho phép Isle liên tục hiểu sâu hơn về kháchhàng của mình, cũng như nhiều cách khác nhau nhu cầu của khách hàng có thểđược đáp ứng một cách hiệu quả

Giải pháp

Sau khi triển khai kho dữ liệu ban đầu bị trật bánh vào năm 2005, một phầnbởi cơn bão Katrina, Isle đã quyết định khởi động lại dự án với các thành phần hoàntoàn mới và Teradata làm giải pháp cốt lõi và đối tác chính, cùng với IBM Cognosfor Business Intelligence Ngay sau khi lựa chọn đó được đưa ra, Isle đã mang đếnmột nhóm quản lý hiểu rõ cách thức giải pháp Teradata và Cognos có thể cho phépnhững người ra quyết định quan trọng trong suốt hoạt động dễ dàng đóng khung cáctruy vấn ban đầu của họ, cũng như các câu hỏi tiếp theo kịp thời, do đó mở ra rấtnhiều khả năng để tăng cường kinh doanh

Trang 6

Isle đã cắt giảm một nửa thời gian cần thiết để xây dựng các chiến dịch gửithư trực tiếp hàng tháng cốt lõi của mình và có thể tạo ra các chiến dịch ít tham giathực tế ngay tại chỗ Ngoài việc di chuyển nhanh hơn, Isle đã mài giũa quá trìnhphân khúc và giờ đây có thể tham chiếu chéo một loạt các thuộc tính, chẳng hạnnhư giá trị tổng thể của khách hàng, hành vi chơi trò chơi và sở thích của khách sạn.Điều này cho phép họ tạo ra nhiều chiến dịch nhắm mục tiêu hơn vào các phân khúckhách hàng cụ thể và các hành vi cụ thể.

Isle cũng đã cho phép quản lý và nhân viên của mình hiểu sâu hơn về hành vicủa khách hàng bằng cách kết nối dữ liệu từ hệ thống khách sạn và dữ liệu từ hệthống theo dõi khách hàng của mình và hành động theo sự hiểu biết đó thông quacác chiến dịch tiếp thị được cải thiện và nâng cao dịch vụ khách hàng Ví dụ, việc

bổ sung dữ liệu khách sạn cung cấp những hiểu biết mới về những khách hàng quenchơi game địa phương tăng khi họ ở khách sạn Điều này, đến lượt nó, đã kích hoạtcác chương trình ưu đãi mới (như một đêm khách sạn miễn phí) đã làm hài lòngngười dân địa phương và tăng lòng trung thành của khách hàng Isle đảo

Dữ liệu khách sạn cũng đã tăng cường chương trình lưu trữ khách hàng củaIsle Bằng cách tự động thông báo cho chủ nhà khi một khách có giá trị cao đếnkhách sạn, chủ nhà đã tạo mối quan hệ sâu sắc hơn với những khách hàng quantrọng nhất của họ Đây là công cụ tốt nhất mà chúng tôi đã có kể từ khi Iveve ởcông ty, đã viết một trong những máy chủ lưu trữ

Giờ đây, Isle of Capri có thể thực hiện các so sánh và phân tích tài sản với tàisản chính xác hơn, phần lớn là do Teradata hợp nhất dữ liệu khác nhau được đặt tạicác thuộc tính riêng lẻ và tập trung vào một vị trí Một kết quả: Một trang webmạng nội bộ tập trung đăng số liệu hàng ngày cho từng tài sản riêng lẻ, do đó họ cóthể so sánh những thứ như hiệu suất doanh thu từ máy đánh bạc và trò chơi trênbàn, cũng như các giá trị quy đổi miễn phí Ngoài ra, công cụ IBM CognosBusiness Intelligence (BI) cho phép so sánh bổ sung, chẳng hạn như giá trị thanhtoán qua thư trực tiếp, tỷ lệ phản hồi chương trình thư trực tiếp cụ thể, doanh thu tròchơi trực tiếp qua thư, doanh thu trò chơi do khách sạn, không phải là tiền mặt (tiềnmặt) doanh thu từ đặt phòng khách sạn, và phòng khách sạn Một lợi ích rõ ràng là

nó giữ các thuộc tính riêng lẻ chịu trách nhiệm cho việc liên tục nâng thanh

Bắt đầu với một thay đổi quan trọng trong chiến lược tiếp thị đã chuyểntrọng tâm sang ngày của khách hàng, hết lần này đến lần khác, việc triển khaiTeradata / IBM Cognos BI đã chứng minh giá trị của việc mở rộng sức mạnh của

dữ liệu trong toàn bộ doanh nghiệp Isle Muff Điều này bao gồm phân tích ngay lậptức tỷ lệ phản hồi cho các chiến dịch tiếp thị và bổ sung dữ liệu lãi lỗ đã kết nốithành công giá trị khách hàng và tổng giá trị tài sản Một ví dụ về sức mạnh của sựtích hợp này: Bằng cách tham gia giá trị khách hàng và tổng giá trị tài sản, Isle hiểu

rõ hơn về khách hàng bán lẻ của mình

Trang 7

Có lẽ đáng kể nhất, Isle đã bắt đầu thêm dữ liệu máy đánh bạc vào hỗn hợp.Tác động quan trọng nhất và ngay lập tức sẽ là cách thức mà giá trị của khách hàng

sẽ thông báo cho việc mua máy móc mới và vị trí sản phẩm trên sàn khách hàng.Cuối cùng, việc bổ sung dữ liệu này cũng có thể giúp Isle tận dụng lợi thế của tròchơi dựa trên máy chủ, trong đó máy đánh bạc trên sàn sòng bạc về cơ bản sẽ làthiết bị đầu cuối máy tính cho phép sòng bạc chuyển trò chơi sang trò chơi mớitrong vấn đề giây

Nói tóm lại, khi Isle xây dựng các giải pháp của mình để thường xuyênchuyển dữ liệu máy đánh bạc vào kho, khả năng sử dụng dữ liệu để tưởng tượng lạisàn và giả mạo mối quan hệ lâu dài và lâu dài hơn sẽ vượt quá mọi thứ mà nó có thểmong đợi khi bắt tay vào dự án này

Câu hỏi:

1 Tại sao điều quan trọng đối với Isle là có EDW?

2 Những thách thức hay cơ hội kinh doanh mà Isle đang phải đối mặt là gì?

3 Quá trình Isle theo sau là gì để nhận ra EDW? Nhận xét về những tháchthức tiềm năng mà Isle có thể đã trải qua trong quá trình phát triển EDW

4 Những lợi ích của việc triển khai EDW tại Isle là gì? Bạn có thể nghĩ vềnhững lợi ích tiềm năng khác mà không được liệt kê trong trường hợpnày không?

5 Tại sao bạn nghĩ rằng các doanh nghiệp lớn như Isle trong ngành côngnghiệp game có thể thành công mà không cần cơ sở hạ tầng kho dữ liệu /kinh doanh thông minh có khả năng?

Những gì chúng ta có thể học từ họa tiết này

Các họa tiết mở đầu minh họa giá trị chiến lược của việc triển khai kho dữliệu doanh nghiệp, cùng với các phương thức BI hỗ trợ của nó Sòng bạc Isle ofCapri đã có thể tận dụng tài sản dữ liệu của mình trải khắp doanh nghiệp để được sửdụng bởi những người lao động tri thức (bất cứ nơi nào và bất cứ khi nào họ cần) đểđưa ra quyết định chính xác và kịp thời Kho dữ liệu đã tích hợp các cơ sở dữ liệukhác nhau trong toàn tổ chức thành một đơn vị doanh nghiệp nội bộ duy nhất để tạo

ra một phiên bản sự thật duy nhất cho công ty, đưa tất cả những người ra quyếtđịnh, từ lập kế hoạch đến tiếp thị, trên cùng một trang Hơn nữa, bằng cách thườngxuyên đưa dữ liệu máy đánh bạc vào kho, kết hợp với dữ liệu phong phú dành riêngcho khách hàng đến từ nhiều nguồn khác nhau, Isle đã cải thiện đáng kể khả năngkhám phá các mẫu để tưởng tượng lại / phát minh lại các hoạt động của sàn trò chơi

và giả mạo sâu hơn và mối quan hệ lâu dài hơn với khách hàng của mình Bài họcquan trọng ở đây là kho dữ liệu cấp doanh nghiệp kết hợp với chiến lược sử dụng

Trang 8

nó trong hỗ trợ quyết định có thể mang lại lợi ích đáng kể (tài chính và mặt khác)cho một tổ chức

Sources: Teradata, Customer Success Stories, Capri-Casinos-Executive-Summary-EB6277 (accessed February 2013)

Trang 9

teradata.com/t/case-studies/Isle-of-Chương 2 Định nghĩa và khái niệm kho dữ liệu

Sử dụng kho dữ liệu thời gian thực kết hợp với hệ thống hỗ trợ quyết định(DSS) và các công cụ BI là một cách quan trọng để tiến hành các quy trình kinhdoanh Họa tiết mở cho thấy một kịch bản trong đó kho dữ liệu hoạt động thời gianthực hỗ trợ việc ra quyết định bằng cách phân tích lượng lớn dữ liệu từ nhiều nguồnkhác nhau để cung cấp kết quả nhanh chóng để hỗ trợ các quy trình quan trọng.Phiên bản duy nhất của sự thật được lưu trữ trong kho dữ liệu và được cung cấp ởdạng dễ tiêu hóa sẽ mở rộng ranh giới của các quy trình kinh doanh sáng tạo củaIsle of Capri Với các luồng dữ liệu thời gian thực, Isle of Capri có thể xem tìnhtrạng hiện tại của doanh nghiệp và nhanh chóng xác định các vấn đề, đây là bướcđầu tiên và quan trọng nhất để giải quyết chúng một cách phân tích

Kho dữ liệu là gì?

Nói một cách đơn giản, kho dữ liệu (DW) là một nhóm dữ liệu được tạo ra

để hỗ trợ cho việc ra quyết định; nó cũng là một kho lưu trữ dữ liệu hiện tại và lịch

sử quan tâm đến các nhà quản lý trong toàn tổ chức Dữ liệu thường được cấu trúc

để có sẵn ở dạng sẵn sàng cho các hoạt động xử lý phân tích (nghĩa là xử lý phântích trực tuyến [OLAP], khai thác dữ liệu, truy vấn, báo cáo và các ứng dụng hỗ trợquyết định khác) Kho dữ liệu là một bộ sưu tập dữ liệu hướng theo chủ đề, tíchhợp, biến đổi theo thời gian, không biến đổi để hỗ trợ cho quá trình ra quyết địnhcủa quản lý

Một viễn cảnh lịch sử về kho dữ liệu

Vào đầu những năm 1900, người ta sử dụng dữ liệu để hình thành xu hướngkinh doanh giúp các doanh nghiệp đưa ra quyết định Những động lực giúp pháttriển việc lưu trữ dữ liệu có từ năm 1970 khi các máy tính lớn phát triển

1980 bủng nổ của máy tính mini hoặc máy tính cá nhân các ứng dụng kinhdoanh trên máy tính điều này dẫn tới hiện tượng được gọi là dữ liệu, Giải pháp chovấn đề này đã dẫn đến một loại phần mềm mới, được gọi là hệ thống quản lý cơ sở

dữ liệu phân tán, sẽ kéo dữ liệu được yêu cầu từ cơ sở dữ liệu trên toàn tổ chức mộtcách kỳ diệu, đưa tất cả dữ liệu trở lại cùng một vị trí, sau đó hợp nhất nó, sắp xếp

nó và làm bất cứ điều gì khác là cần thiết để trả lời câu hỏi của người dùng, 1980một số sự kiện đã xảy ra, gọi chung là thập kỉ đổi mới kho dữ liệu

Trong những năm 1990, một cách tiếp cận mới để giải quyết vấn đề đảo dữliệu đã xuất hiện Nếu cách tiếp cận và tiếp cận dữ liệu của những năm 1980 từ cáctệp và cơ sở dữ liệu không hoạt động, thì triết lý của thập niên 1990 đã quay trở lạinhững năm 1970, trong đó dữ liệu từ những nơi đó được sao chép sang một vị tríkhác mà chỉ thực hiện đúng lúc này; do đó, kho dữ liệu đã ra đời

Trang 10

Vào những năm 2000 và sau đó mức độ phổ biến của dữ liệu tăng lên đáng

kể từ đố dẫn đến việc bùng nổ của một số hãng dữ liệu năm 1980 bị nuốt chửng bởinhững hãng lớn nhất thế giới như Oracle, SAP

Trong những năm 2010, khái niệm Dữ liệu lớn có nhiều ảnh hưởng, người tatin rằng dữ liệu lớn sẽ tạo ra ảnh hưởng đến việc lưu trữ dữ liệu

Đặc điểm của kho dữ liệu

Một cách phổ biến để giới thiệu kho dữ liệu là tham khảo các đặc điểm cơ bảncủa nó (xem Inmon, 2005):

● Chủ đề định hướng Dữ liệu được sắp xếp theo chủ đề chi tiết, chẳnghạn như bán hàng, sản phẩm hoặc khách hàng, chỉ chứa thông tin liênquan để hỗ trợ quyết định Định hướng chủ đề cho phép người dùngxác định không chỉ cách thức kinh doanh của họ, mà tại sao Kho dữliệu khác với cơ sở dữ liệu hoạt động ở chỗ hầu hết các cơ sở dữ liệuhoạt động đều có định hướng sản phẩm và được điều chỉnh để xử lýcác giao dịch cập nhật cơ sở dữ liệu Định hướng chủ đề cung cấp mộtcái nhìn toàn diện hơn về tổ chức

● Tích hợp Tích hợp có liên quan chặt chẽ với định hướng chủ đề Kho

dữ liệu phải đặt dữ liệu từ các nguồn khác nhau thành một định dạngnhất quán Để làm như vậy, họ phải đối phó với việc đặt tên xung đột

và sự khác biệt giữa các đơn vị đo lường Một kho dữ liệu được coi làhoàn toàn tích hợp

● Biến thể thời gian (chuỗi thời gian) Một kho duy trì dữ liệu lịch sử

Dữ liệu không nhất thiết phải cung cấp trạng thái hiện tại (ngoại trừtrong các hệ thống thời gian thực) Họ phát hiện xu hướng, sai lệch vàmối quan hệ lâu dài để dự báo và so sánh, dẫn đến việc ra quyết định.Mỗi kho dữ liệu có một chất lượng tạm thời Thời gian là một khíacạnh quan trọng mà tất cả các kho dữ liệu phải hỗ trợ Dữ liệu để phântích từ nhiều nguồn chứa nhiều điểm thời gian (ví dụ: lượt xem hàngngày, hàng tuần, hàng tháng)

● Không bay hơi Sau khi dữ liệu được nhập vào kho dữ liệu, ngườidùng không thể thay đổi hoặc cập nhật dữ liệu Dữ liệu quá cũ bị loại

bỏ và các thay đổi được ghi lại dưới dạng dữ liệu mới

Những đặc điểm này cho phép kho dữ liệu được điều chỉnh gần như dànhriêng cho truy cập dữ liệu Một số đặc điểm bổ sung có thể bao gồm:

● Dựa trên web Kho dữ liệu thường được thiết kế để cung cấp một môitrường tính toán hiệu quả cho các ứng dụng dựa trên Web

Trang 11

● Quan hệ / đa chiều Kho dữ liệu sử dụng cấu trúc quan hệ hoặc cấutrúc đa chiều Một khảo sát gần đây về các cấu trúc đa chiều có thểđược tìm thấy trong Romero và Abelló (2009).

● Khách hàng / máy chủ Kho dữ liệu sử dụng kiến trúc máy khách / máychủ để cung cấp quyền truy cập dễ dàng cho người dùng cuối

● Thời gian thực Kho dữ liệu mới hơn cung cấp các khả năng phân tích

và truy cập dữ liệu theo thời gian thực hoặc hoạt động (xem Basu,2003; và Bonde và Kuckuk, 2004)

● Bao gồm siêu dữ liệu Kho dữ liệu chứa siêu dữ liệu (dữ liệu về dữliệu) về cách tổ chức dữ liệu và cách sử dụng hiệu quả chúng

Trong khi kho dữ liệu là kho lưu trữ dữ liệu, kho dữ liệu thực sự là toàn bộ quá trìnhLưu trữ dữ liệu là một môn học dẫn đến các ứng dụng cung cấp khả năng hỗ trợquyết định, cho phép truy cập sẵn sàng vào thông tin doanh nghiệp và tạo ra cáinhìn sâu sắc về kinh doanh

Ba loại kho dữ liệu chính là kho dữ liệu(data marts), kho dữ liệu vận hành(operational data stores(ODS)) và kho dữ liệu doanh nghiệp (enterprise datawarehouses(EDW)) Ngoài việc thảo luận về ba loại kho này tiếp theo, chúng tôicũng thảo luận về siêu dữ liệu(metadata)

Data marts

Trong khi kho dữ liệu kết hợp cơ sở dữ liệu trên toàn bộ doanh nghiệp, mộtdata marts thường nhỏ hơn và tập trung vào một chủ đề hoặc bộ phận cụ thể Datamart là tập hợp con của kho dữ liệu, thường bao gồm một lĩnh vực chủ đề duy nhất(ví dụ: tiếp thị, hoạt động) Một mart dữ liệu có thể là phụ thuộc hoặc độc lập

Một dữ liệu phụ thuộc là một tập hợp con được tạo trực tiếp từ kho dữ liệu

Nó có những lợi thế của việc sử dụng một mô hình dữ liệu nhất quán và cung cấp

dữ liệu chất lượng Các dữ liệu phụ thuộc hỗ trợ khái niệm mô hình dữ liệu toàndoanh nghiệp, nhưng kho dữ liệu phải được xây dựng trước Một mart dữ liệu phụthuộc đảm bảo rằng người dùng cuối đang xem cùng một phiên bản dữ liệu đượctruy cập bởi tất cả người dùng kho dữ liệu khác Chi phí cao của kho dữ liệu giớihạn việc sử dụng của họ cho các công ty lớn

Thay vào đó, nhiều công ty sử dụng phiên bản thu nhỏ, chi phí thấp hơn củakho dữ liệu được gọi là trung tâm dữ liệu độc lập Một dữ liệu độc lập là một khonhỏ được thiết kế cho một đơn vị kinh doanh chiến lược (SBU) hoặc một bộ phận,nhưng nguồn của nó không phải là EDW

Cửa hàng dữ liệu hoạt động(Operational Data Stores(ODS))

Trang 12

Kho lưu trữ dữ liệu vận hành (ODS) cung cấp một dạng tệp thông tin kháchhàng (CIF) khá gần đây Loại cơ sở dữ liệu này thường được sử dụng làm khu vực

tổ chức tạm thời cho kho dữ liệu Nội dung của ODS được cập nhật trong suốt quátrình hoạt động kinh doanh Một ODS được sử dụng cho các quyết định ngắn hạnliên quan đến các ứng dụng quan trọng thay vì cho các quyết định trung và dài hạnliên quan đến EDW Một ODS tương tự như bộ nhớ ngắn hạn ở chỗ nó chỉ lưu trữthông tin rất gần đây Một ODS hợp nhất dữ liệu từ nhiều hệ thống nguồn và cungcấp chế độ xem tích hợp, thời gian thực gần với dữ liệu hiện tại Các quy trình traođổi, chuyển giao và tải (ETL) (sẽ thảo luận sau trong chương này) cho một ODSgiống hệt với các quy trình cho kho dữ liệu

Kho dữ liệu doanh nghiệp ( Enterprise Data Warehouses (EDW))

Kho dữ liệu doanh nghiệp (EDW) là kho dữ liệu quy mô lớn được sử dụngtrên toàn doanh nghiệp để hỗ trợ quyết định Bản chất quy mô lớn cung cấp tích hợp

dữ liệu từ nhiều nguồn thành định dạng chuẩn cho các ứng dụng hỗ trợ quyết định

và BI hiệu quả EDW được sử dụng để cung cấp dữ liệu cho nhiều loại DSS, baogồm CRM, quản lý chuỗi cung ứng (SCM), quản lý hiệu suất kinh doanh (BPM),giám sát hoạt động kinh doanh (BAM), quản lý vòng đời sản phẩm (PLM), quản lýdoanh thu và đôi khi cả kiến thức hệ thống quản lý (KMS)

Metadata

Metadata là dữ liệu của dữ liệu (ví dụ: xem Sen, 2004; và Zhao, 2005) Siêu

dữ liệu mô tả cấu trúc và một số ý nghĩa về dữ liệu, do đó góp phần vào việc sửdụng hiệu quả hoặc không hiệu quả của chúng Mehra (2005) chỉ ra rằng rất ít tổchức thực sự hiểu siêu dữ liệu và ít hiểu cách thiết kế và thực hiện chiến lược siêu

dữ liệu Siêu dữ liệu thường được định nghĩa theo cách sử dụng là siêu dữ liệu kỹthuật hoặc kinh doanh

Theo Kassam (2002), siêu dữ liệu kinh doanh bao gồm thông tin làm tănghiểu biết về dữ liệu truyền thống (tức là có cấu trúc) Mục đích chính của siêu dữliệu là cung cấp ngữ cảnh cho dữ liệu được báo cáo; nghĩa là, nó cung cấp thông tinphong phú dẫn đến việc tạo ra kiến thức

Siêu dữ liệu kinh doanh, mặc dù khó cung cấp hiệu quả, giải phóng nhiềuhơn tiềm năng của dữ liệu có cấu trúc Bối cảnh không cần phải giống nhau cho tất

cả người dùng Theo nhiều cách, siêu dữ liệu hỗ trợ việc chuyển đổi dữ liệu vàthông tin thành kiến thức Siêu dữ liệu tạo thành nền tảng cho kiến trúc siêu kinhdoanh (xem Bell, 2001) Tannenbaum (2002) đã mô tả cách xác định các yêu cầusiêu dữ liệu Vaduva và Vetterli (2001) đã cung cấp tổng quan về quản lý siêu dữliệu để lưu trữ dữ liệu Zhao (2005) đã mô tả năm mức trưởng thành quản lý siêu dữliệu: (1) ad hoc, (2) được phát hiện, (3) được quản lý, (4) được tối ưu hóa và (5) tự

Trang 13

động Các mức này giúp hiểu được tổ chức ở đâu về cách thức và mức độ sử dụngsiêu dữ liệu của tổ chức đó.

Việc thiết kế, tạo và sử dụng siêu dữ liệu mô tả hoặc dữ liệu tóm tắt về dữliệu và các tiêu chuẩn đi kèm của nó có thể liên quan đến các vấn đề đạo đức Cónhững cân nhắc về đạo đức liên quan đến việc thu thập và sở hữu thông tin có trongsiêu dữ liệu, bao gồm các vấn đề về quyền riêng tư và sở hữu trí tuệ phát sinh trongcác giai đoạn thiết kế, thu thập và phổ biến (để biết thêm, xem Brody, 2003)

Trang 14

Chương 3: Tổng quan về quy định nhập kho dữ liệu

Các tổ chức, tư nhân và công cộng, liên tục thu thập dữ liệu, thông tin vàkiến thức với tốc độ ngày càng nhanh và lưu trữ chúng trong các hệ thống máy tính.Việc duy trì và sử dụng những dữ liệu và thông tin này trở nên vô cùng phức tạp,đặc biệt là khi các vấn đề về khả năng mở rộng phát sinh Ngoài ra, số lượng ngườidùng cần truy cập thông tin tiếp tục tăng do độ tin cậy và khả năng truy cập mạngđược cải thiện, đặc biệt là Internet Làm việc với nhiều cơ sở dữ liệu, được tích hợptrong kho dữ liệu hoặc không, đã trở thành một nhiệm vụ cực kỳ khó khăn đòi hỏichuyên môn đáng kể, nhưng nó có thể mang lại lợi ích to lớn vượt xa chi phí củanó

Nhiều tổ chức cần tạo kho dữ liệu Kho dữ liệu khổng lồ lưu trữ dữ liệu chuỗithời gian để hỗ trợ quyết định Dữ liệu được nhập từ nhiều nguồn bên ngoài và bêntrong khác nhau và được làm sạch và sắp xếp theo cách phù hợp với nhu cầu của tổchức Sau khi dữ liệu được điền vào kho dữ liệu, dữ liệu có thể được tải cho mộtkhu vực hoặc bộ phận cụ thể Ngoài ra, dữ liệu có thể được tạo trước, khi cần, sau

đó được tích hợp vào EDW Tuy nhiên, thông thường, các siêu dữ liệu không đượcphát triển, nhưng dữ liệu chỉ được tải vào PC hoặc để ở trạng thái ban đầu để thaotác trực tiếp bằng các công cụ BI

Dưới đây là các thành phần chính của quy trình lưu trữ dữ liệu:

● Nguồn dữ liệu Dữ liệu được lấy từ nhiều hệ thống độc lập của hệthống hành động trực tuyến và có thể từ các nhà cung cấp dữ liệu bênngoài (như Điều tra dân số Hoa Kỳ) Dữ liệu web dưới dạng nhật kýWeb cũng có thể cung cấp kho dữ liệu

● Khai thác và chuyển đổi dữ liệu Dữ liệu được trích xuất và chuyển đổichính xác bằng phần mềm được viết tùy chỉnh hoặc thương mại đượcgọi là ETL

● Tải dữ liệu Dữ liệu được tải vào khu vực tổ chức, nơi chúng được biếnđổi và làm sạch Dữ liệu sau đó đã sẵn sàng để tải vào kho dữ liệu và /hoặc các dữ liệu

● Cơ sở dữ liệu toàn diện Về cơ bản, đây là EDW để hỗ trợ tất cả cácphân tích quyết định bằng cách cung cấp thông tin tóm tắt và chi tiết cóliên quan có nguồn gốc từ nhiều nguồn khác nhau

● Metadata Siêu dữ liệu được duy trì để chúng có thể được đánh giá bởinhân viên CNTT và người dùng Siêu dữ liệu bao gồm các chương

Trang 15

trình phần mềm về dữ liệu và quy tắc để tổ chức các bản tóm tắt dữliệu dễ lập chỉ mục và tìm kiếm, đặc biệt là với các công cụ Web.

● Công cụ Middleware Các công cụ Middleware cho phép truy cập vàokho dữ liệu Người dùng có quyền như nhà phân tích có thể viết cáctruy vấn SQL của riêng họ

Trang 16

Chương 4: Kiến trúc kho dữ liệu

Có một số kiến trúc hệ thống thông tin cơ bản có thể được sử dụng để lưu trữ

dữ liệu Nói chung, các kiến trúc này thường được gọi là kiến trúc máy khách / máychủ hoặc n tầng, trong đó kiến trúc hai tầng và ba tầng là phổ biến nhất , nhưng đôikhi chỉ đơn giản là một tầng Những loại kiến trúc nhiều tầng này được biết là cókhả năng phục vụ nhu cầu của các hệ thống thông tin quy mô lớn, đòi hỏi hiệu suấtnhư kho dữ liệu Đề cập đến việc sử dụng các kiến trúc n tầng để lưu trữ dữ liệu,Hoffer et al (2007) phân biệt giữa các kiến trúc này bằng cách chia kho dữ liệu

Hình 2.2: Kiến trúc của kho dữ liệu hai tầng

● Kho dữ liệu chứa chính dữ liệu và phần mềm liên quan

● Phần mềm thu thập dữ liệu (back-end), trích xuất dữ liệu từ các hệthống cũ và các nguồn bên ngoài, hợp nhất và tóm tắt chúng, và tảichúng vào kho dữ liệu

● Phần mềm máy khách (front-end), cho phép người dùng truy cập vàphân tích dữ liệu từ kho (công cụ phân tích DSS / BI / doanh nghiệp[BA])

Trang 17

Trong kiến trúc ba tầng, các hệ điều hành chứa dữ liệu và phần mềm để thuthập dữ liệu trong một tầng (tức là máy chủ), kho dữ liệu là một tầng khác và tầngthứ ba bao gồm công cụ DSS / BI / BA (nghĩa là máy chủ ứng dụng) và máy khách(xem Hình 2.4) Dữ liệu từ kho được xử lý hai lần và gửi vào cơ sở dữ liệu đa chiều

bổ sung, được tổ chức để phân tích và trình bày đa chiều dễ dàng, hoặc sao chéptrong các bảng dữ liệu Ưu điểm của kiến trúc ba tầng là sự phân tách các chức năngcủa kho dữ liệu, giúp loại bỏ các ràng buộc tài nguyên và giúp có thể dễ dàng tạo racác dữ liệu

Trong kiến trúc hai lớp, công cụ DSS thực tế chạy trên nền tảng phần cứnggiống như kho dữ liệu (xem Hình 2.5) Do đó, nó có lợi về kinh tế hơn so với cấutrúc ba tầng Kiến trúc hai lớp có thể có vấn đề về hiệu năng đối với kho dữ liệu lớnhoạt động với các ứng dụng cần nhiều dữ liệu để hỗ trợ quyết định

Kho dữ liệu và Internet là hai công nghệ chính cung cấp các giải pháp quantrọng để quản lý dữ liệu của công ty Việc tích hợp hai công nghệ này tạo ra kho dữliệu dựa trên Web Công cụ này yêu cầu cả hai bên cần có kết nối internet

Hình 2.3 Kiến trúc của kho dữ liệu dựa trên web

Các kiến trúc web để lưu trữ dữ liệu có cấu trúc tương tự như các kiến trúc kho dữliệu khác, đòi hỏi phải có sự lựa chọn thiết kế để chứa kho dữ liệu Web với máy chủgiao dịch hoặc như một máy chủ riêng biệt Tốc độ tải trang là một cân nhắc quantrọng trong việc thiết kế các ứng dụng dựa trên Web; do đó, công suất máy chủ phảiđược lên kế hoạch cẩn thận

Trang 18

Ariyachandra và Watson (2005) đã xác định 10 yếu tố có khả năng ảnh hưởng đếnquyết định lựa chọn kiến trúc:

1 Sự phụ thuộc thông tin giữa các đơn vị tổ chức

2 Quản lý cấp trên cần thông tin

3 Sự cần thiết của một kho dữ liệu

4 Bản chất của nhiệm vụ người dùng cuối

5 Những hạn chế về tài nguyên

6 Quan điểm chiến lược của kho dữ liệu trước khi thực hiện

7 Khả năng tương thích với các hệ thống hiện có

8 Khả năng cảm nhận của nhân viên IT nội bộ

9 Vấn đề kỹ thuật

10 Yếu tố chính trị / xã hội

Các yếu tố này tương tự như nhiều yếu tố thành công được mô tả trong tài liệucho các dự án hệ thống thông tin và các dự án DSS và BI Các vấn đề kỹ thuật,ngoài việc cung cấp công nghệ sẵn sàng sử dụng, rất quan trọng, nhưng thườngkhông quan trọng bằng các vấn đề hành vi, như đáp ứng nhu cầu thông tin của quản

lý cấp trên và sự tham gia của người dùng vào quá trình phát triển (yếu tố chính trị /

xã hội) Mỗi kiến trúc kho dữ liệu có các ứng dụng cụ thể mà nó hiệu quả nhất (và ítnhất) và do đó mang lại lợi ích tối đa cho tổ chức Tuy nhiên, về tổng thể, cấu trúcdata marts dường như kém hiệu quả nhất trong thực tế

Trang 19

Chương 5: Tích hợp dữ liệu và các quy trình khai thác, chuyển đổi và tải(ETL)

Áp lực cạnh tranh toàn cầu, nhu cầu hoàn vốn đầu tư (ROI), yêu cầu quản lý

và nhà đầu tư, và các quy định của chính phủ đang buộc các nhà quản lý doanhnghiệp phải suy nghĩ lại về cách họ tích hợp và quản lý doanh nghiệp của họ Mộtngười ra quyết định thường cần truy cập vào nhiều nguồn dữ liệu phải được tíchhợp Trước khi kho dữ liệu, dữ liệu và phần mềm BI, cung cấp quyền truy cập vàocác nguồn dữ liệu là một quá trình lớn, tốn nhiều công sức Ngay cả với các công cụquản lý dữ liệu dựa trên Web hiện đại, việc nhận ra dữ liệu nào sẽ truy cập và cungcấp chúng cho người ra quyết định là một nhiệm vụ không cần thiết đòi hỏi cácchuyên gia cơ sở dữ liệu Khi kho dữ liệu tăng kích thước, các vấn đề tích hợp dữliệu cũng tăng theo

Các nhu cầu phân tích kinh doanh tiếp tục phát triển Sáp nhập và mua lại,yêu cầu quy định và giới thiệu các kênh mới có thể thúc đẩy những thay đổi trongyêu cầu BI Ngoài dữ liệu lịch sử, được làm sạch, hợp nhất và theo thời gian, ngườidùng doanh nghiệp ngày càng có nhu cầu truy cập vào dữ liệu thời gian thực, khôngcấu trúc và / hoặc dữ liệu từ xa Và mọi thứ phải được tích hợp với nội dung củakho dữ liệu hiện có

Tích hợp dữ liệu

Tích hợp dữ liệu bao gồm ba quy trình chính, khi được triển khai chính xác,cho phép dữ liệu được truy cập và có thể truy cập được vào một loạt các công cụphân tích và ETL và môi trường lưu trữ dữ liệu:

● truy cập dữ liệu (nghĩa là khả năng truy cập và trích xuất dữ liệu từ bất

kỳ nguồn dữ liệu nào) ,

● liên kết dữ liệu (nghĩa là tích hợp các quan điểm kinh doanh trên nhiềucửa hàng dữ liệu)

● nắm bắt thay đổi (dựa trên việc xác định, nắm bắt và phân phối cácthay đổi được thực hiện cho các nguồn dữ liệu doanh nghiệp)

Mục đích chính của kho dữ liệu là tích hợp dữ liệu từ nhiều hệ thống Các côngnghệ tích hợp khác nhau cho phép tích hợp dữ liệu và siêu dữ liệu:

● Tích hợp ứng dụng doanh nghiệp (EAI)

Ngày đăng: 26/02/2023, 18:29

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w