157 Data warehouse là một hệ thống lưu trữ đữ liệu tập trung, được thiết kế đề hỗ trợ việc phân tích dữ liệu và lập bảo cáo.. Dữ liệu trong kho đữ liệu thường được thu thập từ nhiều nguồ
Trang 1BUSINESS INTELLIGENT AND DATA WAREHOUSE
1 Business Intelligence and Data Warehousing 156
2.1 Business intelligence
Business Intelligence (BI) là một tập hợp các chiến lược, công nghệ, quy trình, ứng dụng ma
các doanh nghiệp sử dụng đề phân tích thông tin, hỗ trợ quá trình ra quyết định kinh doanh
BUSINESS PERFORMENCE
WAREHOUSING
& LAKING
Mục tiêu chính của BI là cho phép dễ dàng truy cập đữ liệu (và mô hình) để cung cấp cho các
nhà quản lý doanh nghiệp khả năng tiến hành phân tích
BI giúp chuyên đổi dữ liệu => thông tin => tri thức => hành động
Một số ứng dụng cua BI:
- _ Phân tích thông tin chính xác, hiệu quả
- _ Phân tích hành vi khách hàng, xây dựng chiến lược Marketing
- _ Phác thảo bức tranh tong thé, xác định vị thé, khả năng cạnh tranh của doanh nghiệp
- Đánh giá nội bộ, cải thiện và tối ưu hóa các quy trình hoạt động của tô chức
- _ Trực quan hoá các báo cáo nhằm hỗ trợ việc phân tích
- Hỗ trợ ra quyết định trong các tình huống đặc biệt
2.2 What Is a Data Warehouse? 157
Data warehouse là một hệ thống lưu trữ đữ liệu tập trung, được thiết kế đề hỗ trợ việc
phân tích dữ liệu và lập bảo cáo Dữ liệu trong kho đữ liệu thường được thu thập từ nhiều
nguồn khác nhau, chẳng hạn như hệ thống ERP, hệ thống CRM, hệ thống POS, v.v., và được
tô chức lại thành một cấu trúc thống nhất, dễ dàng truy vấn
Kho dữ liệu có thê được sử dụng cho các mục đích như:
-_ Cung cấp tâm nhìn toàn doanh nghiệp
Trang 2Lưu trữ dữ liệu từ lịch sử và hiện tại Cho phép người dùng tạo bảo cáo Hoạt động như một nguồn đữ liệu chung cho các ứng dụng phân tích 2.3 A Historical Perspective to Data Warehousing
1960: Khai niém fact va dimension duge phat triển lần đầu tiên bởi General
Mills va Dartmouth College
1970: Bill Inmon dat ra thuat ngir "Data warehouse"
1980: Cac Data warehouse thuong mại đầu tiên được xây dựng 1990: Data warehouse ngày càng trở nên phô biến
2000: Sự nỗi lên của big data và điện toán đám mây thách thức các kỹ thuật data warehouse truyền thống
2010: Các công nghệ data warehouse mới nôi lên như Hadoop và NoSQL 2.4 Characteristics of Data Warehousing 159
Huéng chu dé (Subject oriented): Dữ liệu được sắp xếp theo các chủ đề cụ
thê (như sản phẩm, doanh số, khách hàng) Điều này cho phép người dùng có
một góc nhìn rõ ràng, trực quan và bao hàm về hoạt động của doanh nghiệp
Tích hợp (Integrated): Data warehouse cần chứa data từ nhiều nguồn khác nhau dưới một format nhất quán bằng cách giải quyết các mâu thuẫn như cách
đặt tên hay đơn vị đo
Lưu trữ theo thời gian (Time varianf): Thời gian là một trong những dimension quan trọng nhất của data warehouse vì nó cho phép theo dõi dé tao
ra các dự báo, so sánh và tông hợp cho doanh nghiệp
Không thay đổi (Non-volatile): Sau khi data đã được dua vao data warehouse, người dùng không thê chỉnh sửa các data này Việc cập nhật sẽ
được lưu dưới dạng data mới; các data lỗi thời sẽ được loại bỏ 2.5 Data Marts 160
Data mart có thê được xem là thành phân cầu tạo nên Data warehouse, thường có quy
mô nhỏ hơn và tập trung vào một lĩnh vực hay phòng ban cụ thê của doanh nghiệp
Nhờ vào kích thước nhỏ, Data mart có tốc độ phản hồi cao, quá trình implement đơn
giản và chi phí thấp hơn đáng kê so với Data warehouse
Hiện có 2 loại Data mart chính: Data mart phụ thuộc (Dependent) và Data mart độc
lập (Independent)
Trang 3Metadata có thê được hiểu là data của data
Có nhiều loại metadata, ví dụ như metadata mô tả, metadata cấu trúc, metadata quản
trị, metadata kỹ thuật,
Việc ứng dụng metadata trong lưu trữ đữ liệu có thê mang lại các lợi ích như:
- _ Việc quản lý dữ liệu được cải thiện: Metadata có thê giúp cải thiện quản lý dữ
liệu bằng cách làm cho đữ liệu dễ tìm, hiểu va sử dụng hơn
Trang 4- Phan tich dit liéu được nâng cao: Metadata có thê giúp nâng cao phân tích dữ
liệu bằng cách cung cấp thông tin chỉ tiết về dữ liệu
- _ Tuân thủ các yêu cầu về dữ liệu: Metadata có thê giúp tăng cường tuân thủ dữ liệu bằng cách cung cấp thông tin về cách dữ liệu đang được sử dụng và lưu trữ
2.8 Mối quan hệ giữa BI và Data warehouse
Dữ liệu trong data warehouse được thu thập từ nhiều nguồn khác nhau (Kế toán, CRM, ERP,
) và các nguôn đữ liệu bên ngoài Dữ liệu này được xử lý trước khi được lưu trữ trong data
warehouse
BI sử dụng đữ liệu từ data warehouse đề phân tích và đưa ra thông tin chỉ tiết có giá
trị cho doanh nghiệp
2 Data Warehousing Process 163
Data Warehousing được định nghĩa là một kỹ thuật thu thập và quản lý đữ liệu từ nhiều
nguồn khác nhau đề cung cấp những hiểu biết nghiệp vụ có ý nghĩa Nó là sự pha trộn của
các công nghệ và các thành phân hỗ trợ việc sử dụng dữ liệu chiến lược
Nó là bộ lưu trữ điện tử lưu trữ một số lượng lớn thông tin của doanh nghiệp, được
thiết kế đề truy vấn và phân tích thay vì xử lý giao dịch Đó là quá trình chuyến đổi dữ liệu
thành thông tin và cung cấp cho người dùng kịp thời để căn cứ vào đó đưa ra những
Trang 5quyết định, điều chỉnh hợp lý
Extract (Operations perations) 5 @ v ,
Khái niệm và các thành phần chính của Data Warehousing Process:
Data sources (nguồn dữ liệu): nguồn đữ liệu có thê là vị trí ban đầu mà dữ liệu được
tạo ra hoặc nơi thông tin vật lý lần đầu tiên được số hóa Cụ thể, một nguôn đữ liệu có thé la
một cơ sở dữ liệu (database), một tệp phẳng, các đo lường trực tiếp từ các thiết bị vật lý, dữ
liệu web được thu thập tự động hoặc bát kỳ dịch vụ dữ liệu tĩnh và dữ liệu trực tiếp đang nỗi
rộ trên Internet
Data extraction and transformation (Trich xuất và biến đối dữ liệu): Dũ liệu được
trích xuất và được biến đổi một cách đúng đắn bang cach sir dung phan mềm doanh nghiệp
hoặc phần mềm thương mại có tên gọi là ETL (Extract, Transform, Load - Trích xuất, Biến
đối, Nạp)
Dafa loading (Quá trình nạp dữ liệu): Dũ liệu được nạp vào một khu vực chứa tạm
gọi là "staging area", tại đây đữ liệu được biến đối và làm sạch Sau đó, đữ liệu sẵn sảng đề
nạp vào kho dữ liệu và/hoặc các mô hình du doan (DMs)
Comprehensive database (Co so dit ligu toàn điện): Cơ sở dữ liệu toàn điện này,
tương tự như hệ thống kho dữ liệu (EDW - Enterprise Data Warehouse), được thiết kế để hỗ
trợ tất cả các phân tích quyết định bằng cách cung cấp thông tin tổng hợp và chỉ tiết liên
quan, xuất phát từ nhiều nguồn khác nhau
Trang 6Metadatfa (Siêu dữ liệu): là những dữ liệu tham chiếu sở hữu cấu trúc sắp xếp, hỗ trợ
xác định thuộc tính thông tin được nó mô tả Siêu dữ liệu nói chung sé tom tắt đặc tính cơ bản
của dữ liệu Từ đó hỗ trợ sử dụng và tái sử dụng dữ liệu một cách thuận lợi hơn
Middleware tools (Cac công cụ trung gian): Cho phép truy cập vào kho đữ liệu
Những người dùng mạnh như các nhà phân tích có thê tự viết các truy vấn SQL riêng của họ
Những người khác có thê sử dụng môi trường truy vẫn được quản lý, chẳng hạn như Business
Objects, để truy cập dữ liệu Có rất nhiều ứng dụng giao diện người dùng mà người dùng
kinh doanh có thê sử dụng đề tương tác với đữ liệu được lưu trữ trong các kho đữ liệu, bao
gồm khai thác dữ liệu (data mining), OLAP (On-Line Analytical Processing), các công cụ
bao cáo vả công cụ trực quan hóa dữ liệu
3 Data Warehousing Architectures 165
La một phương pháp xác định kiến trúc tông thê của quá trình xử lý và trình bày giao tiếp dữ
liệu tồn tại cho máy tính của khách hàng cuối trong doanh nghiệp Mỗi kho dữ liệu đều khác
nhau, nhưng tất cả đều được đặc trưng bởi các thành phần quan trọng tiêu chuẩn
Những kiến trúc này thường được gọi là kiến trúc máy khách/máy chủ hoặc kiến trúc n-tang,
trong đó kiến trúc hai tầng và kiến trúc ba tầng là phố biến nhất Phân biệt giữa các kiến trúc
này bằng cách chia kho dữ liệu thanh ba phan:
1 Kho đữ liệu chính, chứa đữ liệu và phần mềm liên quan
2 Phan mém thu thập dữ liệu, trích xuất đữ liệu từ các hệ thống cổ điển và nguồn bên
ngoài, tổng hợp và tóm tắt chúng, và nạp chúng vào kho đữ liệu
3 Phần mềm khách hàng, cho phép người dùng truy cập và phân tích dữ liệu từ kho dữ
liệu
Kiến trúc 3 tầng: Các hệ thống hoạt động chứa dữ liệu và phần mềm cho việc thu thập đữ
liệu ở một tầng (tức là máy chủ), kho đữ liệu là một tầng khác và tầng thứ ba bao gồm các
ứng dụng DSS/BI/BA (máy chủ ứng dụng) và máy khách Dữ liệu từ kho dữ liệu được xử lý
hai lần và được đặt trong một cơ sở dữ liệu đa chiều bổ sung, được tô chức đề đễ dàng phân
tích đa chiều và trình bảy, hoặc được sao chép trong các mô hình dự đoán
=> Lợi ích của kiến trúc ba tầng là việc tách biệt các chức năng của kho dữ liệu, loại bỏ các
ràng buộc về tài nguyên và làm cho việc tạo ra các mô hình dự đoán trở nên dé dang
Trang 7mw @ 835 (@ 2 @
architecture
Kiến trúc 2 tầng: Tương đương với khái niệm chia tầng giống như kiến trúc 3 tầng, nhưng ở
kiến trúc 2 tầng, chương trình DSS chạy vật lý trên cùng một nên tảng phân cứng với kho dữ
liệu
=> Tiết kiệm chi phí hơn nhưng phải đối mặt với các vấn đề về hiệu suất đối với các kho dữ
liệu lớn làm việc với các ứng dụng tốn nhiều dữ liệu cho hỗ trợ quyết định
architecture
3.1 Một số câu hỏi gặp phải trong quá trình quyết định kiểu kiến trúc
1 Hệ thống quản lý cơ sở dữ liệu (DBMS) nào nên được sử dụng?
- Hau hết các kho đữ liệu được xây dựng bằng cách sử dụng hệ thống quản lý cơ sở dữ
liệu quan hệ (RDBMS) Oracle, SQL Server và DB2 là những DBMS phổ biến nhất
được sử dụng Mỗi ứng dụng này hỗ trợ cả kiến trúc máy khách và máy chủ và dựa
trên kiến trúc tương ứng
2 Liệu xử lý song song hoặc chia phần có được sử dụng không?
- _ Xử lý song song cho phép nhiều đơn vị xử lý trung tâm (CPUSs) xử lý các yêu cầu truy
vấn kho dữ liệu đồng thời và cung cấp tính mở rộng Nhà thiết kế kho đữ liệu cần
quyết định liệu các bảng cơ sở dữ liệu sẽ được chia thành các phan (tức là, chia thành
các bảng nhỏ) đề tăng hiệu suất truy cập và tiêu chí sẽ là gì
3 Có nên sử dụng các công cụ di chuyển dữ liệu để nạp vào kho dữ liệu không?
- Di chuyén dữ liệu từ hệ thống hiện tại vào một kho đữ liệu đòi hỏi nhiều công sức
Việc đánh giá đúng độ đa dạng và vị trí của dữ liệu sẽ giúp nhà quản lý đưa ra quyết
định sử dụng công cụ hỗ trợ di chuyển dữ liệu hợp lý
4 Các công cụ nào sẽ được sử dụng để hỗ trợ truy xuất và phân tích dữ liệu?
Trang 8- _ Thường cần sử dụng các công cụ chuyên biệt đề định kỳ tìm kiếm, truy cập, phân tích,
trích xuất, biến đổi và nạp dữ liệu cần thiết vào kho đữ liệu Phải đưa ra quyết định về
việc phát triển các công cụ di chuyên đữ liệu có sẵn, hoặc mua chúng từ một nhà cung
cấp bên ngoài, hoặc sử dụng các công cụ được cung cấp cùng với hệ thống kho đữ
liệu Việc di chuyên đữ liệu phức tạp, đòi hỏi các công cụ ETL chuyên biệt từ bên
ngoài
3.2 Alternative Data Warehousing AÁrchitectures 168
Ở cấp độ cao nhất, kiến trúc kho dữ liệu có thể được phân thành 2 loại: kho đữ liệu
toàn doanh nghiệp (EDW) và mô hình dự đoán (DM) Tuy nhiên, trong một nghiên cứu chi
tiết, một số phương án thay thế cho 2 loại thiết kế kiến trúc cơ bản (không phải là EDW thuần
túy hoặc DM thuần túy), nằm ở giữa hoặc vượt qua các cầu trúc kiến trúc truyền thống đã
được phát hiện Nguồn gốc của các phương pháp này được phân loại thành 3 hạng mục
chính: Các nhà cung cấp công nghệ lõi, các nhà cung cấp cơ sở hạ tầng và các công ty CNTT
5 kiến trúc Data Warehousing thay thế:
a Independent data marts: Co thé xem 1a kiến trúc đơn giản nhất và ít tốn kém nhất
Các data mart được phát triển để hoạt động độc lập với nhau, phục vụ các nhu cầu của
các đơn vị tô chức cá nhân Do tính chất hoạt động độc lập, đữ liệu có thê không nhất
quan và có giá trị, kích thước khác nhau
b Data mart bus architecture: Kién trúc này là một phương án khả thi thay thế cho các
DM độc lập, trong đó các data marts cá nhân được kết nối với nhau thông qua một
loại trung gian Bởi vì dữ liệu được liên kết nên duy trì tính nhất quán của đữ liệu trên
toàn doanh nghiệp (ít nhất là ở mức siêu dữ liệu)
c Hub-and-spoke archifecfwre: Tập trung vào việc xây đựng một cơ sở hạ tầng có khả
năng mở rộng và có thê duy trì (thường được phát triển theo cách lặp lại, từng lĩnh
vực theo từng lĩnh vực) bao gồm một kho dữ liệu tập trung và một số DM phụ thuộc
(mỗi DM đại diện cho một đơn vị tổ chức) Kiến trúc nảy cho phép đễ dàng tùy chỉnh
giao diện và báo cáo cho người dùng Tuy nhiên kiến trúc này có thê dẫn đến việc dư
thừa đữ liệu vì thiếu cái nhìn toản điện về doanh nghiệp
d Centralized data warehouse: Kién tric kho dit liéu tập trung tương tự như kiến trúc
trung tâm, ngoại trừ việc không có các DM phụ thuộc; thay vào đó, có một EDW
khổng lỗ phục vụ nhu cầu của tất cả các đơn vị tố chức Tiếp cận tập trung nảy cung
cấp cho người dùng quyên truy cập vảo tất cả dữ liệu trong kho dữ liệu thay vì giới
han ho trong DM
Trang 9e Federated data warehouse: Kho dir ligu liên minh sử dụng tất cả các phương tiện có
thể đề tích hợp tải nguyên phân tích từ nhiều nguồn để đáp ứng nhu cầu hoặc điều
kiện kinh doanh thay đổi Cơ bản, kho dữ liệu liên minh liên quan đến việc tích hợp
các hệ thống khác nhau Trong một kiến trúc liên minh, các cấu trúc hỗ trợ quyết định
hiện có được giữ nguyên, và đữ liệu được truy cập từ các nguôn đó khi cân
a) Independent Data Mart Architecture
systems area conformed dimensions access ane
Hub-and-Spoke Archi sre (Cor ai forma’ Factory)
ETL Source Staging | Normalized relational End-user systems area warehouse (atomic data) applications access and
Dependent data marts (summarized/some atomic data)
4) Centralized Data Warehouse Architecture
ƒ — T1 ETL
systems area warehouse (atomic/some access an
summarized data) applications
e a ated Architecture
+ Data mapping/metadata |— —
¬ = Logical/physical integration
— of common data elements nh
10 yếu tố có thê ảnh đến quyết định lựa chọn kiến trúc:
1 Sự tương quan thông tin giữa các đơn vị tô chức
Nhu câu thông tin của ban quản ly cấp cao
Sự cần thiết, cấp bách của một kho dữ liệu
Nhu cầu sử dụng của người dùng cuối
Ràng buộc vẻ tải nguyên
Trang 107 Tuong thich voi cac hệ thong hién co
8 Kha nang cua đội ngũ TT nội bộ
9 Van dé ky thuật
10 Yếu tổ xã hội/chính trị
3.3 Which Architecture Is the Best?
Trong 1 cuộc khảo sát vào năm 2006 được thực hiện bởi Ariyachandra và Watson,
kiến trúc phô biến nhất là Hub-and-spoke architecture (39%), tiếp theo là Data mart bus
architecture (26%), kế đến là Centralized architecture (17%) và Independent data marts
(12%), xếp cuối cùng là Federated architecture (4%) Nền tảng phô biến nhất đề lưu trữ các
kho đữ liệu là Oracle (41%), tiếp theo là Microsoft (19%) và IBM (18%)
Họ sử dụng bốn chỉ số để đánh giá sự thành công của các kiến trúc: (1) chất lượng thông tin,
(2) chất lượng hệ thống, (3) tác động cá nhân và (4) tác động tổ chức Các câu hỏi sử dụng
một thang điểm 7 điêm, với điểm cao hơn cho thay kiến trúc thành công hơn
Centralized Architecture
Như kết quả của nghiên cứu cho thấy, Independent data marts đạt điểm thấp nhất trên tat ca
các chỉ số Kiến trúc có điềm thấp thứ 2 là Federated architecture Tuy nhiên, điều thú vị là sự
tương đồng của điểm trung bình cho Data mart bus architecture, Hub-and-spoke architecture
và Centralized architectures Sự khác biệt không đủ lớn đề xếp hạng tách biệt 3 kiêu kiến trúc
nảy
Các nhà nghiên cứu cũng thu thập đữ liệu vẻ nhiều lĩnh vực khác nhau, họ đã nhận thấy rằng
kiến trúc Hub-and-spoke thường được sử dụng với các loại triên khai trải rộng toàn doanh
nghiệp với kho đữ liệu lớn Họ cũng đã nghiên cứu về chỉ phí và thời gian cần thiết đề triển
khai của từng loại kiến trúc Tổng thể, kiến trúc Hub-and-spoke là kiến trúc đắt nhất và ton
thời gian nhất để triển khai
Trang 114 Data Integration and the Extraction, Transformation, and Load (ETL) Processes 171
4.1 Data Integration
Data Integration (Tích hợp dữ liệu) là quá trình kết hợp dữ liệu từ nhiều nguồn khác
nhau đề tạo ra một tập hợp dữ liệu toàn diện và có ý nghĩa Mục tiêu chính của tích hợp dữ
liệu là đảm bảo dữ liệu được tông hợp và đồng nhất để phục vụ cho mục đích phân tích, báo
cáo, và quyết định kinh doanh
Data Integration thường đòi hỏi xử lý các vấn để như định dạng đữ liệu khác nhau,
thời gian cập nhật khác nhau, nguồn dữ liệu không đồng nhất, và nhiều vấn đề khác Các
công cụ và kỹ thuật tích hợp đữ liệu giúp tông hợp đữ liệu từ các nguồn khác nhau và biến
ETL 1a mét quy trình quan trọng trong data integration Nó bao gồm ba bước chính:
® Extraction (Trích xuất): Trong bước này, đữ liệu được trích xuất từ các nguồn dữ liệu
khác nhau như cơ sở đữ liệu, tệp văn bản, hệ thống bên ngoài, hoặc các nguồn đữ liệu
trực tuyến Quá trình này đảm bảo rằng dữ liệu được đưa vào quá trình ETL để tiếp
tục xử lý
® Transformation (Biến đổi): Dữ liệu sau khi trích xuất thường cần được biến đối để
thích nghị với mô hình đữ liệu và cầu trúc mục tiêu Điều nảy bao gồm việc làm sạch
dữ liệu, chuyên đối định dạng, tính toán thêm, hoặc thậm chí là thay đối cầu trúc của
dữ liệu
® Load (Nạp): Sau khi đữ liệu đã được trích xuất và biến đổi, nó được nạp vào một cơ
sở dữ liệu hoặc kho lưu trữ dữ liệu Quá trình này đảm bảo rằng dữ liệu đã được
chuẩn bị có thể được truy vấn và sử dụng cho mục đích phân tích hoặc báo cáo
Trang 12Quá trình ETL giúp làm cho đữ liệu từ các nguồn không đồng nhất trở nên thống nhất và sẵn
sang cho các nhiệm vụ phân tích dữ liệu Nó là một phần quan trọng trong việc xây dựng hệ
thống quản lý đữ liệu hiệu quả và hỗ trợ quyết định kinh doanh
5 Data Warehouse Development 176
5.1 Qua trinh phat trién cia Data Warehouse
Sự phát triển cua Data Warehouse da trai qua một hành trình đải và có sự thay đôi đáng kế
trong nhiều thập kỷ Dưới đây là một số điểm quan trọng về sự phát triển của Data
Warehouse:
Thai ky dau (1980 - 1990):
e Data Warehouse bắt đầu xuất hiện vào những năm 1980 như một phản ứng đối với sự
gia tăng của dữ liệu do sự phát trién của hệ thống thông tin doanh nghiệp
e Những người tiên phong như Ralph Kimball và Bill Inmon da dong gop quan trong
trong việc định hình các khái niệm và phương pháp cơ bản cho Data Warehouse
Thời kỳ phố biến hóa (1990 - 2000):
e Trong thập kỷ nảy, Data Warehouse đã trở nên phổ biến hơn và được nhiều tổ chức
lớn thực hiện
® Sự ra đời của các công cụ ETL (Extraction, Transformation, and Load) như
Informatica và công cụ truy vấn dựa trên SQL đã giúp thúc đây sự phát triển của Data
'Warehouse
Thời kỳ tích hợp (2000 - 2010):
® Trong giai đoạn này, sự kết hợp giữa Data Warehouse và Business Intelligence (BI)
đã trở thành một xu hướng quan trọng
® Các công ty đã bắt đầu sử dụng Data Warehouse để tạo ra các báo cáo, trực quan hóa
dữ liệu, và phân tích dữ liệu đề hỗ trợ quyết định kinh doanh
Thời kỳ Big Data (2010 - nay):
® Sự phát triên của Big Data đã thách thức Data Warehouse truyền thống Dữ liệu ngày
cảng lớn và đa dạng, đặc biệt là dữ liệu phi cầu trúc như đữ liệu từ các mạng xã hội và
máy móc
e Data Warehouse da phai thich nghi bang cách tích hợp các giải pháp Big Data như
Hadoop va Spark và triển khai kiến thức máy học đề phân tích đữ liệu một cách hiệu
qua hon
Thời kỳ tự động hóa và AT (nay và trong tương lai):
Trang 13e Hiện nay, có sự phat triển mạnh mẽ trong việc tự động hóa quy trình ETL và việc
trién khai trí tuệ nhân tạo (AI) đề phân tích dữ liệu
® Data Warehouse ngày càng tích hợp công nghệ tự động hóa và học máy để cung cấp
thông tin nhanh hơn và phân tích dữ liệu tự động
Sự phát trién ca Data Warehouse liên quan chặt chẽ đến sự thay đối trong cách các tổ chức
thu thập, lưu trữ và sử dụng dữ liệu đề hỗ trợ quyết định kinh doanh Sự kết hợp của các công
nghệ mới và xu hướng như đám mây và AI đang thúc đây sự tiến bộ trong lĩnh vực nảy và
làm cho Data Warehouse trở nên mạnh mẽ và hiệu quả hơn
5.2 Data Warehouse Development Approaches ( Các phương pháp phát triển
kho dữ liệu)
- "Data Warehouse" 1a kho dir ligu, 1a một tập hợp đữ liệu lớn được tô chức và quản lý theo
một cách thống nhất đề có thê được phân tích và truy xuất đề hỗ trợ ra quyết định
"Development Approaches" là các phương pháp phát triển, là các cách thức đề thực hiện một
việc gì đó
Vậy, "Data Warehouse Development Approaches" là các cách thức đề phát triên kho dữ liệu
- Nhiều tổ chức cần tạo ra kho dữ liệu được sử dụng để hỗ trợ ra quyết định Có 2 cách
tiếp cận cạnh tranh được sử dụng phô biến là của Bill Inmon ( cha đẻ của kho dữ
liệu) và Ralph Kimball
+ Cách tiếp cận của Bill Inmon (EDW) : (Enterprise Data Warehouse) là cách tiếp
cận từ trên xuống đê phát triển kho đữ liệu Nó bắt đầu bằng việc xác định các yêu
cầu kinh doanh cho kho đữ liệu Các yêu cầu kinh doanh này được thu thập từ các bên
liên quan kinh doanh, bao gồm các nhà quản lý, chuyên gia phân tích và người dùng
cuối Cách tiếp cận EDW thường được sử dụng cho các kho đữ liệu lớn, phức tạp Nó
phù hợp cho các tô chức có nhu cầu tích hợp dữ liệu từ nhiều nguồn khác nhau vả có
nhu cầu phân tích dữ liệu một cách phức tạp
- _ + Cách tiếp cận của Ralph Kimball: Cách tiếp cận Data Mart là cách tiếp cận từ dưới
lên đề phát triển kho đữ liệu Nó bắt đầu bằng việc xác định các kho đữ liệu nhỏ, được
gọ! là kho dữ liệu chuyên đề, sẽ được sử dụng để hỗ trợ ra quyết định.ách tiếp cận
Data Mart thường được sử dụng cho các kho dữ liệu nhỏ, ít phức tạp hơn Nó phù hợp
cho các tổ chức có nhu cầu phân tích đữ liệu nhanh chóng và không cần tích hợp dữ
liệu từ nhiều nguồn khác nhau
- Sau day la sy so sánh của 2 phương pháp:
Trang 14Effort DM Approach EDW Approach
Development time Development cost $ X $ O* $¡,0œ Development difficulty
Data prerequisite for sharing Sources
Size
Data transformations Update frequency Technology
Hardware Operating system Databases
- Lwachon cach tiếp cận nào Cách tiếp cận nào là tốt nhất cho một tổ chức cụ thê sẽ
phụ thuộc vào các yếu tổ sau:
Kích thước và độ phức tạp của kho dữ liệu Các yêu cầu kinh doanh
5.3 Additional Data Warehouse Development Considerations (Các cân nhắc bố
sung cho việc phát triển kho dữ liệu)
Một số tổ chức muốn hoàn toàn thuê ngoài nỗ lực kho đữ liệu của họ Họ chỉ đơn giản
là không muốn đối phó với việc mua phần mềm và phần cứng, và họ cũng không muốn quản
lý hệ thống thông tin của họ Một giải pháp thay thế là sử dụng kho đữ liệu được lưu trữ
Trong kịch bản này, một công ty khác — lý tưởng nhất là một công ty có nhiều kinh nghiệm
và chuyên môn — sẽ phát triên và duy trì kho dữ liệu Tuy nhiên, có những lo ngại về bảo
mật vả quyền riêng tư với cách tiếp cận này