business intelligent and data warehouse

157 Data warehouse là một hệ thống lưu trữ đữ liệu tập trung, được thiết kế đề hỗ trợ việc phân tích dữ liệu và lập bảo cáo.. Dữ liệu trong kho đữ liệu thường được thu thập từ nhiều nguồ

Trang 1

BUSINESS INTELLIGENT AND DATA WAREHOUSE

1 Business Intelligence and Data Warehousing 156

2.1 Business intelligence

Business Intelligence (BI) là một tập hợp các chiến lược, công nghệ, quy trình, ứng dụng ma

các doanh nghiệp sử dụng đề phân tích thông tin, hỗ trợ quá trình ra quyết định kinh doanh

BUSINESS PERFORMENCE

WAREHOUSING

& LAKING

Mục tiêu chính của BI là cho phép dễ dàng truy cập đữ liệu (và mô hình) để cung cấp cho các

nhà quản lý doanh nghiệp khả năng tiến hành phân tích

BI giúp chuyên đổi dữ liệu => thông tin => tri thức => hành động

Một số ứng dụng cua BI:

- _ Phân tích thông tin chính xác, hiệu quả

- _ Phân tích hành vi khách hàng, xây dựng chiến lược Marketing

- _ Phác thảo bức tranh tong thé, xác định vị thé, khả năng cạnh tranh của doanh nghiệp

- Đánh giá nội bộ, cải thiện và tối ưu hóa các quy trình hoạt động của tô chức

- _ Trực quan hoá các báo cáo nhằm hỗ trợ việc phân tích

- Hỗ trợ ra quyết định trong các tình huống đặc biệt

2.2 What Is a Data Warehouse? 157

Data warehouse là một hệ thống lưu trữ đữ liệu tập trung, được thiết kế đề hỗ trợ việc

phân tích dữ liệu và lập bảo cáo Dữ liệu trong kho đữ liệu thường được thu thập từ nhiều

nguồn khác nhau, chẳng hạn như hệ thống ERP, hệ thống CRM, hệ thống POS, v.v., và được

tô chức lại thành một cấu trúc thống nhất, dễ dàng truy vấn

Kho dữ liệu có thê được sử dụng cho các mục đích như:

-_ Cung cấp tâm nhìn toàn doanh nghiệp

Trang 2

Lưu trữ dữ liệu từ lịch sử và hiện tại Cho phép người dùng tạo bảo cáo Hoạt động như một nguồn đữ liệu chung cho các ứng dụng phân tích 2.3 A Historical Perspective to Data Warehousing

1960: Khai niém fact va dimension duge phat triển lần đầu tiên bởi General

Mills va Dartmouth College

1970: Bill Inmon dat ra thuat ngir "Data warehouse"

1980: Cac Data warehouse thuong mại đầu tiên được xây dựng 1990: Data warehouse ngày càng trở nên phô biến

2000: Sự nỗi lên của big data và điện toán đám mây thách thức các kỹ thuật data warehouse truyền thống

2010: Các công nghệ data warehouse mới nôi lên như Hadoop và NoSQL 2.4 Characteristics of Data Warehousing 159

Huéng chu dé (Subject oriented): Dữ liệu được sắp xếp theo các chủ đề cụ

thê (như sản phẩm, doanh số, khách hàng) Điều này cho phép người dùng có

một góc nhìn rõ ràng, trực quan và bao hàm về hoạt động của doanh nghiệp

Tích hợp (Integrated): Data warehouse cần chứa data từ nhiều nguồn khác nhau dưới một format nhất quán bằng cách giải quyết các mâu thuẫn như cách

đặt tên hay đơn vị đo

Lưu trữ theo thời gian (Time varianf): Thời gian là một trong những dimension quan trọng nhất của data warehouse vì nó cho phép theo dõi dé tao

ra các dự báo, so sánh và tông hợp cho doanh nghiệp

Không thay đổi (Non-volatile): Sau khi data đã được dua vao data warehouse, người dùng không thê chỉnh sửa các data này Việc cập nhật sẽ

được lưu dưới dạng data mới; các data lỗi thời sẽ được loại bỏ 2.5 Data Marts 160

Data mart có thê được xem là thành phân cầu tạo nên Data warehouse, thường có quy

mô nhỏ hơn và tập trung vào một lĩnh vực hay phòng ban cụ thê của doanh nghiệp

Nhờ vào kích thước nhỏ, Data mart có tốc độ phản hồi cao, quá trình implement đơn

giản và chi phí thấp hơn đáng kê so với Data warehouse

Hiện có 2 loại Data mart chính: Data mart phụ thuộc (Dependent) và Data mart độc

lập (Independent)

Trang 3

Metadata có thê được hiểu là data của data

Có nhiều loại metadata, ví dụ như metadata mô tả, metadata cấu trúc, metadata quản

trị, metadata kỹ thuật,

Việc ứng dụng metadata trong lưu trữ đữ liệu có thê mang lại các lợi ích như:

- _ Việc quản lý dữ liệu được cải thiện: Metadata có thê giúp cải thiện quản lý dữ

liệu bằng cách làm cho đữ liệu dễ tìm, hiểu va sử dụng hơn

Trang 4

- Phan tich dit liéu được nâng cao: Metadata có thê giúp nâng cao phân tích dữ

liệu bằng cách cung cấp thông tin chỉ tiết về dữ liệu

- _ Tuân thủ các yêu cầu về dữ liệu: Metadata có thê giúp tăng cường tuân thủ dữ liệu bằng cách cung cấp thông tin về cách dữ liệu đang được sử dụng và lưu trữ

2.8 Mối quan hệ giữa BI và Data warehouse

Dữ liệu trong data warehouse được thu thập từ nhiều nguồn khác nhau (Kế toán, CRM, ERP,

) và các nguôn đữ liệu bên ngoài Dữ liệu này được xử lý trước khi được lưu trữ trong data

warehouse

BI sử dụng đữ liệu từ data warehouse đề phân tích và đưa ra thông tin chỉ tiết có giá

trị cho doanh nghiệp

2 Data Warehousing Process 163

Data Warehousing được định nghĩa là một kỹ thuật thu thập và quản lý đữ liệu từ nhiều

nguồn khác nhau đề cung cấp những hiểu biết nghiệp vụ có ý nghĩa Nó là sự pha trộn của

các công nghệ và các thành phân hỗ trợ việc sử dụng dữ liệu chiến lược

Nó là bộ lưu trữ điện tử lưu trữ một số lượng lớn thông tin của doanh nghiệp, được

thiết kế đề truy vấn và phân tích thay vì xử lý giao dịch Đó là quá trình chuyến đổi dữ liệu

thành thông tin và cung cấp cho người dùng kịp thời để căn cứ vào đó đưa ra những

Trang 5

quyết định, điều chỉnh hợp lý

Extract (Operations perations) 5 @ v ,

Khái niệm và các thành phần chính của Data Warehousing Process:

Data sources (nguồn dữ liệu): nguồn đữ liệu có thê là vị trí ban đầu mà dữ liệu được

tạo ra hoặc nơi thông tin vật lý lần đầu tiên được số hóa Cụ thể, một nguôn đữ liệu có thé la

một cơ sở dữ liệu (database), một tệp phẳng, các đo lường trực tiếp từ các thiết bị vật lý, dữ

liệu web được thu thập tự động hoặc bát kỳ dịch vụ dữ liệu tĩnh và dữ liệu trực tiếp đang nỗi

rộ trên Internet

Data extraction and transformation (Trich xuất và biến đối dữ liệu): Dũ liệu được

trích xuất và được biến đổi một cách đúng đắn bang cach sir dung phan mềm doanh nghiệp

hoặc phần mềm thương mại có tên gọi là ETL (Extract, Transform, Load - Trích xuất, Biến

đối, Nạp)

Dafa loading (Quá trình nạp dữ liệu): Dũ liệu được nạp vào một khu vực chứa tạm

gọi là "staging area", tại đây đữ liệu được biến đối và làm sạch Sau đó, đữ liệu sẵn sảng đề

nạp vào kho dữ liệu và/hoặc các mô hình du doan (DMs)

Comprehensive database (Co so dit ligu toàn điện): Cơ sở dữ liệu toàn điện này,

tương tự như hệ thống kho dữ liệu (EDW - Enterprise Data Warehouse), được thiết kế để hỗ

trợ tất cả các phân tích quyết định bằng cách cung cấp thông tin tổng hợp và chỉ tiết liên

quan, xuất phát từ nhiều nguồn khác nhau

Trang 6

Metadatfa (Siêu dữ liệu): là những dữ liệu tham chiếu sở hữu cấu trúc sắp xếp, hỗ trợ

xác định thuộc tính thông tin được nó mô tả Siêu dữ liệu nói chung sé tom tắt đặc tính cơ bản

của dữ liệu Từ đó hỗ trợ sử dụng và tái sử dụng dữ liệu một cách thuận lợi hơn

Middleware tools (Cac công cụ trung gian): Cho phép truy cập vào kho đữ liệu

Những người dùng mạnh như các nhà phân tích có thê tự viết các truy vấn SQL riêng của họ

Những người khác có thê sử dụng môi trường truy vẫn được quản lý, chẳng hạn như Business

Objects, để truy cập dữ liệu Có rất nhiều ứng dụng giao diện người dùng mà người dùng

kinh doanh có thê sử dụng đề tương tác với đữ liệu được lưu trữ trong các kho đữ liệu, bao

gồm khai thác dữ liệu (data mining), OLAP (On-Line Analytical Processing), các công cụ

bao cáo vả công cụ trực quan hóa dữ liệu

3 Data Warehousing Architectures 165

La một phương pháp xác định kiến trúc tông thê của quá trình xử lý và trình bày giao tiếp dữ

liệu tồn tại cho máy tính của khách hàng cuối trong doanh nghiệp Mỗi kho dữ liệu đều khác

nhau, nhưng tất cả đều được đặc trưng bởi các thành phần quan trọng tiêu chuẩn

Những kiến trúc này thường được gọi là kiến trúc máy khách/máy chủ hoặc kiến trúc n-tang,

trong đó kiến trúc hai tầng và kiến trúc ba tầng là phố biến nhất Phân biệt giữa các kiến trúc

này bằng cách chia kho dữ liệu thanh ba phan:

1 Kho đữ liệu chính, chứa đữ liệu và phần mềm liên quan

2 Phan mém thu thập dữ liệu, trích xuất đữ liệu từ các hệ thống cổ điển và nguồn bên

ngoài, tổng hợp và tóm tắt chúng, và nạp chúng vào kho đữ liệu

3 Phần mềm khách hàng, cho phép người dùng truy cập và phân tích dữ liệu từ kho dữ

liệu

Kiến trúc 3 tầng: Các hệ thống hoạt động chứa dữ liệu và phần mềm cho việc thu thập đữ

liệu ở một tầng (tức là máy chủ), kho đữ liệu là một tầng khác và tầng thứ ba bao gồm các

ứng dụng DSS/BI/BA (máy chủ ứng dụng) và máy khách Dữ liệu từ kho dữ liệu được xử lý

hai lần và được đặt trong một cơ sở dữ liệu đa chiều bổ sung, được tô chức đề đễ dàng phân

tích đa chiều và trình bảy, hoặc được sao chép trong các mô hình dự đoán

=> Lợi ích của kiến trúc ba tầng là việc tách biệt các chức năng của kho dữ liệu, loại bỏ các

ràng buộc về tài nguyên và làm cho việc tạo ra các mô hình dự đoán trở nên dé dang

Trang 7

mw @ 835 (@ 2 @

architecture

Kiến trúc 2 tầng: Tương đương với khái niệm chia tầng giống như kiến trúc 3 tầng, nhưng ở

kiến trúc 2 tầng, chương trình DSS chạy vật lý trên cùng một nên tảng phân cứng với kho dữ

liệu

=> Tiết kiệm chi phí hơn nhưng phải đối mặt với các vấn đề về hiệu suất đối với các kho dữ

liệu lớn làm việc với các ứng dụng tốn nhiều dữ liệu cho hỗ trợ quyết định

architecture

3.1 Một số câu hỏi gặp phải trong quá trình quyết định kiểu kiến trúc

1 Hệ thống quản lý cơ sở dữ liệu (DBMS) nào nên được sử dụng?

- Hau hết các kho đữ liệu được xây dựng bằng cách sử dụng hệ thống quản lý cơ sở dữ

liệu quan hệ (RDBMS) Oracle, SQL Server và DB2 là những DBMS phổ biến nhất

được sử dụng Mỗi ứng dụng này hỗ trợ cả kiến trúc máy khách và máy chủ và dựa

trên kiến trúc tương ứng

2 Liệu xử lý song song hoặc chia phần có được sử dụng không?

- _ Xử lý song song cho phép nhiều đơn vị xử lý trung tâm (CPUSs) xử lý các yêu cầu truy

vấn kho dữ liệu đồng thời và cung cấp tính mở rộng Nhà thiết kế kho đữ liệu cần

quyết định liệu các bảng cơ sở dữ liệu sẽ được chia thành các phan (tức là, chia thành

các bảng nhỏ) đề tăng hiệu suất truy cập và tiêu chí sẽ là gì

3 Có nên sử dụng các công cụ di chuyển dữ liệu để nạp vào kho dữ liệu không?

- Di chuyén dữ liệu từ hệ thống hiện tại vào một kho đữ liệu đòi hỏi nhiều công sức

Việc đánh giá đúng độ đa dạng và vị trí của dữ liệu sẽ giúp nhà quản lý đưa ra quyết

định sử dụng công cụ hỗ trợ di chuyển dữ liệu hợp lý

4 Các công cụ nào sẽ được sử dụng để hỗ trợ truy xuất và phân tích dữ liệu?

Trang 8

- _ Thường cần sử dụng các công cụ chuyên biệt đề định kỳ tìm kiếm, truy cập, phân tích,

trích xuất, biến đổi và nạp dữ liệu cần thiết vào kho đữ liệu Phải đưa ra quyết định về

việc phát triển các công cụ di chuyên đữ liệu có sẵn, hoặc mua chúng từ một nhà cung

cấp bên ngoài, hoặc sử dụng các công cụ được cung cấp cùng với hệ thống kho đữ

liệu Việc di chuyên đữ liệu phức tạp, đòi hỏi các công cụ ETL chuyên biệt từ bên

ngoài

3.2 Alternative Data Warehousing AÁrchitectures 168

Ở cấp độ cao nhất, kiến trúc kho dữ liệu có thể được phân thành 2 loại: kho đữ liệu

toàn doanh nghiệp (EDW) và mô hình dự đoán (DM) Tuy nhiên, trong một nghiên cứu chi

tiết, một số phương án thay thế cho 2 loại thiết kế kiến trúc cơ bản (không phải là EDW thuần

túy hoặc DM thuần túy), nằm ở giữa hoặc vượt qua các cầu trúc kiến trúc truyền thống đã

được phát hiện Nguồn gốc của các phương pháp này được phân loại thành 3 hạng mục

chính: Các nhà cung cấp công nghệ lõi, các nhà cung cấp cơ sở hạ tầng và các công ty CNTT

5 kiến trúc Data Warehousing thay thế:

a Independent data marts: Co thé xem 1a kiến trúc đơn giản nhất và ít tốn kém nhất

Các data mart được phát triển để hoạt động độc lập với nhau, phục vụ các nhu cầu của

các đơn vị tô chức cá nhân Do tính chất hoạt động độc lập, đữ liệu có thê không nhất

quan và có giá trị, kích thước khác nhau

b Data mart bus architecture: Kién trúc này là một phương án khả thi thay thế cho các

DM độc lập, trong đó các data marts cá nhân được kết nối với nhau thông qua một

loại trung gian Bởi vì dữ liệu được liên kết nên duy trì tính nhất quán của đữ liệu trên

toàn doanh nghiệp (ít nhất là ở mức siêu dữ liệu)

c Hub-and-spoke archifecfwre: Tập trung vào việc xây đựng một cơ sở hạ tầng có khả

năng mở rộng và có thê duy trì (thường được phát triển theo cách lặp lại, từng lĩnh

vực theo từng lĩnh vực) bao gồm một kho dữ liệu tập trung và một số DM phụ thuộc

(mỗi DM đại diện cho một đơn vị tổ chức) Kiến trúc nảy cho phép đễ dàng tùy chỉnh

giao diện và báo cáo cho người dùng Tuy nhiên kiến trúc này có thê dẫn đến việc dư

thừa đữ liệu vì thiếu cái nhìn toản điện về doanh nghiệp

d Centralized data warehouse: Kién tric kho dit liéu tập trung tương tự như kiến trúc

trung tâm, ngoại trừ việc không có các DM phụ thuộc; thay vào đó, có một EDW

khổng lỗ phục vụ nhu cầu của tất cả các đơn vị tố chức Tiếp cận tập trung nảy cung

cấp cho người dùng quyên truy cập vảo tất cả dữ liệu trong kho dữ liệu thay vì giới

han ho trong DM

Trang 9

e Federated data warehouse: Kho dir ligu liên minh sử dụng tất cả các phương tiện có

thể đề tích hợp tải nguyên phân tích từ nhiều nguồn để đáp ứng nhu cầu hoặc điều

kiện kinh doanh thay đổi Cơ bản, kho dữ liệu liên minh liên quan đến việc tích hợp

các hệ thống khác nhau Trong một kiến trúc liên minh, các cấu trúc hỗ trợ quyết định

hiện có được giữ nguyên, và đữ liệu được truy cập từ các nguôn đó khi cân

a) Independent Data Mart Architecture

systems area conformed dimensions access ane

Hub-and-Spoke Archi sre (Cor ai forma’ Factory)

ETL Source Staging | Normalized relational End-user systems area warehouse (atomic data) applications access and

Dependent data marts (summarized/some atomic data)

4) Centralized Data Warehouse Architecture

ƒ — T1 ETL

systems area warehouse (atomic/some access an

summarized data) applications

e a ated Architecture

+ Data mapping/metadata |— —

¬ = Logical/physical integration

— of common data elements nh

10 yếu tố có thê ảnh đến quyết định lựa chọn kiến trúc:

1 Sự tương quan thông tin giữa các đơn vị tô chức

Nhu câu thông tin của ban quản ly cấp cao

Sự cần thiết, cấp bách của một kho dữ liệu

Nhu cầu sử dụng của người dùng cuối

Ràng buộc vẻ tải nguyên

Trang 10

7 Tuong thich voi cac hệ thong hién co

8 Kha nang cua đội ngũ TT nội bộ

9 Van dé ky thuật

10 Yếu tổ xã hội/chính trị

3.3 Which Architecture Is the Best?

Trong 1 cuộc khảo sát vào năm 2006 được thực hiện bởi Ariyachandra và Watson,

kiến trúc phô biến nhất là Hub-and-spoke architecture (39%), tiếp theo là Data mart bus

architecture (26%), kế đến là Centralized architecture (17%) và Independent data marts

(12%), xếp cuối cùng là Federated architecture (4%) Nền tảng phô biến nhất đề lưu trữ các

kho đữ liệu là Oracle (41%), tiếp theo là Microsoft (19%) và IBM (18%)

Họ sử dụng bốn chỉ số để đánh giá sự thành công của các kiến trúc: (1) chất lượng thông tin,

(2) chất lượng hệ thống, (3) tác động cá nhân và (4) tác động tổ chức Các câu hỏi sử dụng

một thang điểm 7 điêm, với điểm cao hơn cho thay kiến trúc thành công hơn

Centralized Architecture

Như kết quả của nghiên cứu cho thấy, Independent data marts đạt điểm thấp nhất trên tat ca

các chỉ số Kiến trúc có điềm thấp thứ 2 là Federated architecture Tuy nhiên, điều thú vị là sự

tương đồng của điểm trung bình cho Data mart bus architecture, Hub-and-spoke architecture

và Centralized architectures Sự khác biệt không đủ lớn đề xếp hạng tách biệt 3 kiêu kiến trúc

nảy

Các nhà nghiên cứu cũng thu thập đữ liệu vẻ nhiều lĩnh vực khác nhau, họ đã nhận thấy rằng

kiến trúc Hub-and-spoke thường được sử dụng với các loại triên khai trải rộng toàn doanh

nghiệp với kho đữ liệu lớn Họ cũng đã nghiên cứu về chỉ phí và thời gian cần thiết đề triển

khai của từng loại kiến trúc Tổng thể, kiến trúc Hub-and-spoke là kiến trúc đắt nhất và ton

thời gian nhất để triển khai

Trang 11

4 Data Integration and the Extraction, Transformation, and Load (ETL) Processes 171

4.1 Data Integration

Data Integration (Tích hợp dữ liệu) là quá trình kết hợp dữ liệu từ nhiều nguồn khác

nhau đề tạo ra một tập hợp dữ liệu toàn diện và có ý nghĩa Mục tiêu chính của tích hợp dữ

liệu là đảm bảo dữ liệu được tông hợp và đồng nhất để phục vụ cho mục đích phân tích, báo

cáo, và quyết định kinh doanh

Data Integration thường đòi hỏi xử lý các vấn để như định dạng đữ liệu khác nhau,

thời gian cập nhật khác nhau, nguồn dữ liệu không đồng nhất, và nhiều vấn đề khác Các

công cụ và kỹ thuật tích hợp đữ liệu giúp tông hợp đữ liệu từ các nguồn khác nhau và biến

ETL 1a mét quy trình quan trọng trong data integration Nó bao gồm ba bước chính:

® Extraction (Trích xuất): Trong bước này, đữ liệu được trích xuất từ các nguồn dữ liệu

khác nhau như cơ sở đữ liệu, tệp văn bản, hệ thống bên ngoài, hoặc các nguồn đữ liệu

trực tuyến Quá trình này đảm bảo rằng dữ liệu được đưa vào quá trình ETL để tiếp

tục xử lý

® Transformation (Biến đổi): Dữ liệu sau khi trích xuất thường cần được biến đối để

thích nghị với mô hình đữ liệu và cầu trúc mục tiêu Điều nảy bao gồm việc làm sạch

dữ liệu, chuyên đối định dạng, tính toán thêm, hoặc thậm chí là thay đối cầu trúc của

dữ liệu

® Load (Nạp): Sau khi đữ liệu đã được trích xuất và biến đổi, nó được nạp vào một cơ

sở dữ liệu hoặc kho lưu trữ dữ liệu Quá trình này đảm bảo rằng dữ liệu đã được

chuẩn bị có thể được truy vấn và sử dụng cho mục đích phân tích hoặc báo cáo

Trang 12

Quá trình ETL giúp làm cho đữ liệu từ các nguồn không đồng nhất trở nên thống nhất và sẵn

sang cho các nhiệm vụ phân tích dữ liệu Nó là một phần quan trọng trong việc xây dựng hệ

thống quản lý đữ liệu hiệu quả và hỗ trợ quyết định kinh doanh

5 Data Warehouse Development 176

5.1 Qua trinh phat trién cia Data Warehouse

Sự phát triển cua Data Warehouse da trai qua một hành trình đải và có sự thay đôi đáng kế

trong nhiều thập kỷ Dưới đây là một số điểm quan trọng về sự phát triển của Data

Warehouse:

Thai ky dau (1980 - 1990):

e Data Warehouse bắt đầu xuất hiện vào những năm 1980 như một phản ứng đối với sự

gia tăng của dữ liệu do sự phát trién của hệ thống thông tin doanh nghiệp

e Những người tiên phong như Ralph Kimball và Bill Inmon da dong gop quan trong

trong việc định hình các khái niệm và phương pháp cơ bản cho Data Warehouse

Thời kỳ phố biến hóa (1990 - 2000):

e Trong thập kỷ nảy, Data Warehouse đã trở nên phổ biến hơn và được nhiều tổ chức

lớn thực hiện

® Sự ra đời của các công cụ ETL (Extraction, Transformation, and Load) như

Informatica và công cụ truy vấn dựa trên SQL đã giúp thúc đây sự phát triển của Data

'Warehouse

Thời kỳ tích hợp (2000 - 2010):

® Trong giai đoạn này, sự kết hợp giữa Data Warehouse và Business Intelligence (BI)

đã trở thành một xu hướng quan trọng

® Các công ty đã bắt đầu sử dụng Data Warehouse để tạo ra các báo cáo, trực quan hóa

dữ liệu, và phân tích dữ liệu đề hỗ trợ quyết định kinh doanh

Thời kỳ Big Data (2010 - nay):

® Sự phát triên của Big Data đã thách thức Data Warehouse truyền thống Dữ liệu ngày

cảng lớn và đa dạng, đặc biệt là dữ liệu phi cầu trúc như đữ liệu từ các mạng xã hội và

máy móc

e Data Warehouse da phai thich nghi bang cách tích hợp các giải pháp Big Data như

Hadoop va Spark và triển khai kiến thức máy học đề phân tích đữ liệu một cách hiệu

qua hon

Thời kỳ tự động hóa và AT (nay và trong tương lai):

Trang 13

e Hiện nay, có sự phat triển mạnh mẽ trong việc tự động hóa quy trình ETL và việc

trién khai trí tuệ nhân tạo (AI) đề phân tích dữ liệu

® Data Warehouse ngày càng tích hợp công nghệ tự động hóa và học máy để cung cấp

thông tin nhanh hơn và phân tích dữ liệu tự động

Sự phát trién ca Data Warehouse liên quan chặt chẽ đến sự thay đối trong cách các tổ chức

thu thập, lưu trữ và sử dụng dữ liệu đề hỗ trợ quyết định kinh doanh Sự kết hợp của các công

nghệ mới và xu hướng như đám mây và AI đang thúc đây sự tiến bộ trong lĩnh vực nảy và

làm cho Data Warehouse trở nên mạnh mẽ và hiệu quả hơn

5.2 Data Warehouse Development Approaches ( Các phương pháp phát triển

kho dữ liệu)

- "Data Warehouse" 1a kho dir ligu, 1a một tập hợp đữ liệu lớn được tô chức và quản lý theo

một cách thống nhất đề có thê được phân tích và truy xuất đề hỗ trợ ra quyết định

"Development Approaches" là các phương pháp phát triển, là các cách thức đề thực hiện một

việc gì đó

Vậy, "Data Warehouse Development Approaches" là các cách thức đề phát triên kho dữ liệu

- Nhiều tổ chức cần tạo ra kho dữ liệu được sử dụng để hỗ trợ ra quyết định Có 2 cách

tiếp cận cạnh tranh được sử dụng phô biến là của Bill Inmon ( cha đẻ của kho dữ

liệu) và Ralph Kimball

+ Cách tiếp cận của Bill Inmon (EDW) : (Enterprise Data Warehouse) là cách tiếp

cận từ trên xuống đê phát triển kho đữ liệu Nó bắt đầu bằng việc xác định các yêu

cầu kinh doanh cho kho đữ liệu Các yêu cầu kinh doanh này được thu thập từ các bên

liên quan kinh doanh, bao gồm các nhà quản lý, chuyên gia phân tích và người dùng

cuối Cách tiếp cận EDW thường được sử dụng cho các kho đữ liệu lớn, phức tạp Nó

phù hợp cho các tô chức có nhu cầu tích hợp dữ liệu từ nhiều nguồn khác nhau vả có

nhu cầu phân tích dữ liệu một cách phức tạp

- _ + Cách tiếp cận của Ralph Kimball: Cách tiếp cận Data Mart là cách tiếp cận từ dưới

lên đề phát triển kho đữ liệu Nó bắt đầu bằng việc xác định các kho đữ liệu nhỏ, được

gọ! là kho dữ liệu chuyên đề, sẽ được sử dụng để hỗ trợ ra quyết định.ách tiếp cận

Data Mart thường được sử dụng cho các kho dữ liệu nhỏ, ít phức tạp hơn Nó phù hợp

cho các tổ chức có nhu cầu phân tích đữ liệu nhanh chóng và không cần tích hợp dữ

liệu từ nhiều nguồn khác nhau

- Sau day la sy so sánh của 2 phương pháp:

Trang 14

Effort DM Approach EDW Approach

Development time Development cost $ X $ O* $¡,0œ Development difficulty

Data prerequisite for sharing Sources

Size

Data transformations Update frequency Technology

Hardware Operating system Databases

- Lwachon cach tiếp cận nào Cách tiếp cận nào là tốt nhất cho một tổ chức cụ thê sẽ

phụ thuộc vào các yếu tổ sau:

Kích thước và độ phức tạp của kho dữ liệu Các yêu cầu kinh doanh

5.3 Additional Data Warehouse Development Considerations (Các cân nhắc bố

sung cho việc phát triển kho dữ liệu)

Một số tổ chức muốn hoàn toàn thuê ngoài nỗ lực kho đữ liệu của họ Họ chỉ đơn giản

là không muốn đối phó với việc mua phần mềm và phần cứng, và họ cũng không muốn quản

lý hệ thống thông tin của họ Một giải pháp thay thế là sử dụng kho đữ liệu được lưu trữ

Trong kịch bản này, một công ty khác — lý tưởng nhất là một công ty có nhiều kinh nghiệm

và chuyên môn — sẽ phát triên và duy trì kho dữ liệu Tuy nhiên, có những lo ngại về bảo

mật vả quyền riêng tư với cách tiếp cận này

Tiêu đề	Business Intelligent and Data Warehouse
Chuyên ngành	Business Intelligence
Thể loại	Book

Định dạng
Số trang	28
Dung lượng	4,66 MB