Kho dữ liệu được xây đựng để tiện lợi cho việc Irny cập heo nhiều nguồn, miền kiểu đĩt liệu khác nhau sao cho có thể kết hợp được cá những tng dụng của các công nghệ hiện đại và kế Ihừa
Trang 1TRƯỜNG ĐẠI HỌC CÔNG NGHIỆ
XÂY DỰNG KHO DU LIEU VA BAO CAO QUAN TRI
BI CHO TAP DOAN VINGROUP VOLHE THONG SAP BOBL
LUẬN VĂN THAC SĨ CONG NGHE THONG TIN
Trang 2
DAI HOC QUOC GIA HA NOI TRƯỜNG ĐẠI HỌC CÔNG NGHIỆ
TRẤN HUY HÙNG
XAY DUNG KIIO DU LIEU VA BAO CAO QUAN TRI
BL CHO TAP DOAN VINGROUP VG] HE THONG SAP BOBL
'Tgành: Công nghệ thông lin Chnyén nganh: 11a thang Thang tin
Mã số: 60480104
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DÀN KIIOA HỌC: GS.TS VũDức Thí
HÀ NỘI, 2015
Trang 3
LỠI CẮM ON
¡ thầy G8.TS Vũ Đức Thị, thầy đã
đành rất nhiều thời gian và tâm huyết hrởng dan va giúp tôi hoàn thành tết luận văn
tốt nghiệp nảy Thầy đã định hưởng nghiên cứu các kiển thức thiết thực và vẻ cũng bổ
ich đúng trọng tâm vẫn đã, đồng thời tạo điều kiên thuận lợi tốt nhật cho tôi học tập và
nghiên cửu
t6 lòng biết ơn tới các thầy cô trường Đại học Công nghệ
đã tlam gìa giảng dạy và clúa sẽ những kinh nghiệm quý báu cho tập thể và cá nhân tôi nói riêng Tôi xin cảm ơn tới các thầy và các anh chỉ đã thường xuyên giúp đỡ, trao đổi, gứp ý về những vẫn đề khoa học liên quan tới luận vấn
Tot cữngxin được b:
Cuối cùng tôi cũng bảy tó lòng biết ơn về sự giúp đỡ cúa các anh, chị đồng
ughiép trongTrung tam Công nghệ (ETS) - Công Iy FPT ER, cơ quan nơi lỗi công tác
đã tạo điều kiên tốt nhất cho tôi vẻ thời gian cũng như đồng viên tôi hoàn thánh bài
Trang 43
LOI CAM DOAN
Những kiến thức trinh bày trong luận văn là do tôi tin hiểu, nghiên cửu và trình
bay lại theo cách hiểu Trong quá trình lâm luận văn tôi có tham khảo các tài liệu có liên quan và đổ ghỉ rõ nguồn tài liệu tham khảo đó Tôi xin cam đoan đây là công hình
nghiên cứu của tôi và không sao chép của bất kỳ ai
HÀ Nội, tháng 7 năm 2019
Hẹc viên
Trần Ituy [Tùng
Trang 5CHƯƠNG I TÔNG QUAN KHO DỮ LIỆU VẢ BẢO CÁO BỊ
1.1 Kho dữ liệu (Data warehouse)
1.1.1 Kho đữ liệu _ Rrror! Baokmark not defined
1.1.2 Đặc điểm của Kho dit liu .Error! Bookmark not defined
1.1.4 Câu trúc Kho dữ liệu
1.1.5 Mô hinh thực thé trong Kho đỡ liệu
1.2 Báo cáo thông múnh (Business Infelligenl)
1.3.2 Câu trúc của bảo cáo BỊ
CHƯƠNG II QUY TRÌNH ETL TRONG KHO ĐỮ LIỆU
2.1 Tong quan ETL
2.12 Vai rò của ETL trong kho đữ liệu - 23 2.1.3 Cae chute nfing tia ETL ee cece esse eesesmeessumisensseessaneesssaneseannees 2D
2.2 Kiến trúc của ETL
3.3 Kỹ thuậtETL trong kho dữ liệu
2.3.3 Kỹ thuật làm sạch và chuyến đối đữ liện 26
CHƯƠNG II XÂY DỰNG KHO DV LIEU VA BAO CAO BI TREN HE
Trang 64
3.2.1 Yêu cầu hài toản của VIN GROUP ¬— 31
3.2.2 Phân tích thiết kế hệ th6ng essences senses OD
3.3.1 Quy trình lây đữ liêu tích hợp cho các chiêu phân tích (imensipnt) 34
3.4.2 Tạo báo cáo BI với BEx Analyzer nseeeeireeroreree đỔ
CHƯƠNG IV, KẾT LUẬN
4.1 NI nuä thu được
4.2 Hướng phát triển
Trang 7DANH MUC HINH VE
Hinh 1.6 - Sw phan cach gitta ONS va DI Error! Baokmark not defined Hinh 1.7 - Dữ liều theo mô hình sae 1G
Hình L&- Mb hin béng tuyét 16
Hình 1.11 Các thành phẩm chính của B1 „21
fink 2.1 tién trinh ETL nam ở nguẫn đữ liệu 34
Ninh 22 - Tiễn tình FTL nằm ở server chứa kho dữ liệu 25
Hinh 2.3- Tiêu trình ETT nẦm ở server trung gian 25
Hinh 3.1 — Kién tric SAP BW ”
Hình 32 Luông dữ liêu trong SẠP BẰ" ceeiiiieioou.3U
.ình 3.3— Sơ đồ luỗng dữ liêu „31
Hinh 3.3— Function Module trich xudt dit lige nguân 4
hình 3.10— Thông lần về cây của dỖi tượng Hierachy 38
Hình 3.11 Thông tim thuộc tỉnh của chiễu phân tích 2.38 Hinh 3.12 —Transfromation nap dit liéu cho chiều phân tịch 39
Trang 8
Tình 3 14— Kết quả TYrangftomation 40
Hình 3.1S— Tập trình ROUTINE tính toàn chuyễn déi sang Model viv ODS 42
hình 3.21— Kết quả sen khi nạp dữ liệu chuyển đổi: Ad
Hình 3.22 Thông tin Query trợy vẫn dữ liệu từ Model CAPEX 4Š
Hinh 3.24 Bao edo BI voi BEx Analyzer Error! Bookmark not defined
Hinh 3.25 Hiển tí báo cáo BỊ dạng đỗ họa Error! Baokmark not đcfined.
Trang 9NHANH MỤC CÁC KỈ HIỆU, TỪ VIẾT TẮT
Lập kế hoạch và hợp nhất
Business Itelligent
Báo cáo thông mình
3 InfoUbject Đi tượng
6 InfoCube Khoi dit hiệu
8 SAP Công ty giải pháp phần mềm hệ thông của Đức
9 SAP ERP Hệ thông Quân wi kế ‘hoach ngudn lire doanh
nghiệp SAP
10 ABAP “Ngôn ngất lập trình cho ứng dụng SÁP
Trang 10
§
MỞ ĐÀU Cùng với việc áp dụng rộng rãi Công nghệ Thông tm vào trong hầu hết các lĩnh:
vực trong đời sông, kinh tế, xá hội đó là viêc đữ liệu fhm nhận được qua thời gian ngày
cảng nhiều,Vì vậy, yêu cầu thiết yêu đặt ra đổi với các đoanh nghiệp đó là việc khai tha
hon Tap doan VinGroup 1a mét tap doan lén voi mét hé thong thong tm 4 cfi và phản tồn Do đó, lập đoàn nhận ra rắng việc xây đựng mội hệ thông báo cáo nhanh và hỗ trợ kịp thời cho các chiến lược kinh doanh là rất quan trong Tap dean VinGroup dé chon, giải pháp SAP BOBI để xây đựng kho đữ liều và bảo cáo tài chính Tôi được giao trọng trách trực tiếp nghiên cửu và xảy dựng hệ thông náy với vai trò Trưởng nhóm
lập trình của nhà thâu FPT 18 (Công ty TNITI TIệ thông Thông tin FPT)
các dữ liệu này một cách liệu quả để phục vụ cho việc kinh đoanh ngày càng tốt
Luận văn nảy vớt để tài "Xây dựng Kho đữ liệu và Báo cáo quản trị BI cho Tập
đoàn Vin Group với lIệ thông SAP BOBI " giới thiệu vẻ kho đữ liệu, phương pháp
OLAP va tmg dung trong phân tích Doanh thu, lợi nhuận trong cáo bảo cáo tàu chính
của lấp đoán VinCroup bằng hệ thông tiền tiễn trần thể giới SAP BOBT
Luận văn gồm bổn chương:
Chương 1 Tổng quan Kho dit lige và bảo cáo HCiới thiệu tổng quan về kho
dữ liệu, cầu trúc kho dữ liệu, các thanh phần cúa kho dữ liều, cách thiết kẻ kho đữ liệu
và ứng dụng của kho đữ liệu trong thiết kế báo cáo BI
Chương 2 Quy wink ETL trong Kho dé ligu Gioi thigu téng quan về kỹ thuật
L tích hợp chuyển đổi dữ liệu từ hệ thông nguồn vào Kho đữ liệu
Chương 3Xây dựng Kho dữ liệu và Bản cáo trên hệ thẳng SAP BOBTXây
dừng và cài đặt dữ liệu trong Kho dữ liệu trên nên tăng công nghệ SAP BPC để lưu trữ theo yêu cầu nghiệp vụ, lập hình tỉnh toán chuyển đổi dữ liệu vào Kho dữ liệu cho Tập đoàn Vin Group
Chương 4 K& luận
Phan ket luân tổng kết và tóm lược những kết quả, đóng góp chính của khóa luận.
Trang 11CHUGNG L TONG QUAN KHO Dit LIkU VA BAO CAO BI
1.1 Rho dir ligu (Data warehouse)
1.1.1 Lịch sử hình thành
Khải niệm Data Warchousing duge xuất hiện vào những nấm 80, khí mở các lệ théng quan lý cở sở đữ liệu quan hệ nổi lên như những sản phẩm thương rnại
‘Nam 1988, có mmội bài bảo mô là định ng]ĩa đầu tiên về kiển túc kho dữ liệu
Hài báo mô tả những công việc đã thực hiện đễ thiết kế kho đữ liệu phục vụ chỉ nhánh
TBM tại châu Âu
Dầu thập niền 90, cuốc cách mang về xử lý đữ liệu không chỉ la phổ cập kho đữ
liệu mà gòn tạo điền kiện để mở rộng khải niệm kho dữ liện
Thể ký 20 — kỷ nguyên của quản lý dựa trên thông tỉn
gây nay, chúng ta chò đợi và đự đoán tương lai đựa trên nhữmg phác thảo quá
khứ Nhú cầu vẻ lợi thế cạnh tranh lăng cá khiển nên tăng để hỗ Irự việc ra qu)
chmyễn từ đử liệu đạng số sang thông tin và việc này có thễ được mô tả bởi thuật ngữ
quản lý dựa trần thông từ
Kho đt liên là tuyển tập các cơ sở đữ liệu tích hợp, hướng chủ đề, được thiết
kế để hỗ trợ cho chức năng trợ giúp quyết định
Theo John Ladley [9], Công nghệ kho dữ liệu (Dafa Warehouse Technology) là tập cúc phương phúp, kỹ thuật và các công cụ có hợp, hỗ hợ nhau để théng tin cho người sử đựng trên cơ sở tích hợp từ nhiều nguồn dữ liệu, nhiều môi
trường khác nhau
Kho dif liệu thưởng rất lớn tới hàng trăm GB hay thâm chi hang ‘Terabyte Kho
dữ liệu được xây đựng để tiện lợi cho việc Irny cập heo nhiều nguồn, miền kiểu đĩt liệu khác nhau sao cho có thể kết hợp được cá những tng dụng của các công nghệ hiện đại và kế Ihừa được từ những hệ thông đã có sẵn từ trước
1.1.2, Data warchouse Ei gi?
Data warehouse duge sit dang niur 1a mat nén tang cho hệ thống hỗ trợ ra quyết định Nó gắn liền với khái niệm Business Inteligence (Kink doauh théng minh) Né dace ding 48 gidi
qmyết cáo vấn đề gặn phải khi một tổ chức cố gắng phan tich chidn luge ni số liệu trang một hệ thông đatabase được dùng chung với hệ thông xử lý đữ liệu lrực tuyển (OLTP)
Một hệ thống OLTP điển hình được đặc Irưng bởi một hệ thống có nhiều người sử dụng
đồng thời để thêm, sửa, xóa đứt liên Ví dự như inét hệ thẳng bán lẻ, có nhiên nhân viên bản hàng
đông thời chng nhập và chỉnh sữa dữ liệu vào hệ thống Trong mật hệ thống, nhỏ, việc sử đựng.
Trang 1210
cing mét hé théng database nay cho muc dich lén bao cao théng ké, phân tích có thể chấp nhận
được ủo khối lượng dữ liêu if, it người dùng Nhưng trong một hệ thống với khối long đữ liệu
hàng chục triệu đến trăm triệu bản ghi trên một bằng thì việc khai thác đữ liệu chưng trên cùng
một hệ thống dalabase OLTP Ia khéng thễ chấp nhận được vì thời gian xủ lý dữ liệu rải lâu, làm cho lài nguyên hệ thồng trở nên quá lải và có thể làm chơ toàn bộ hệ thống bị tê liệt
Hệ thông OLTP được thiết kế cho mục đích thu thập đữ liện, khối lượng dế liệu càng càng
càng lớn khuiến cho nha cầu phân tích cảng trở nên cấp thiết hơn Tuy nhiên dalabase trong OITP được thiết kế cha mục đỉch thn thập số liệu thưởng phải tốt mu hỏa cả về không gian lưu trừ lẫn chuẩn hóa trong thiết kế tuân thủ nghiêm ngật [heo mô hình dữ liệu quan hệ KỈ có như cầu phân tích, khai thác dữ liệu thông qua các báo cáo sẽ phải sinh các văn đề:
-_ Người xây dựng báo cáo không hiểu nỗi mối quan hệ phức tạp giữa các bảng trong
nhiều database của các ứng đụng khác nhau
-_ Khỏ xây dựng truy vấn vi các đatabase nằm ở các server khác nhau
-_ Việc phân quyền không cho phép người đừng có thể lấy dt tiệu chỉ tiết
-_ Các cân truy vấn với dữ liệu lớn có thê khiến hệ thống bị tê liệL
Ví dụ: Một quản lý bản hàng muốn lên môi báo cáo lông hợp hàng bản trong thang cho từng vùng miền khả» nhan Nêu lên đứ liệu từ cùng hệ thông OLTP thì mỗi lẫn chạy báo cáo thi
hệ thống phải thực lên lại một lần việc truy xmắt và tổng hợp đữt liệu Ngoài ra có thể dữ liệu lại
được lưu trừ trên nhiền vùng địa lý, trên nhiền nguễn dữ liệu khác nhan (Ble excel, Oraele, SQI
Scrver, ms access ) Điều này đẫn tới việc mức độ thỏa mãn nhu cầu tổng hợp và phân tích số
liêu cho nguồi đùng lả rất thấp Ilẹ mong muốn có một hệ thống nhanh chéng hon Data warehonse và hệ thống phân tích du liệu trực tuyến (Online Analytical Processing - OLAP}
cung cấp các giải pháp để giải quyết các vấn đề trên Data warehonse cung cấp phương pháp tiếp cận lưu trữ số liệu từ các nguồn khác nhau (thường là tủ nguồn OLTT) vào một kho lưn trữ dny
nhất Data warehouse cung cấp các lợi ích sau tới những người dùng phân tích số liệu:
-_ DW Hện được tả chức để tạo thuận lợi cha các truy vẫn phần tích chứ không phải
cho việc xứ lý các giao dịch
-_ Sự khác biệt vê cầu trủe dừ liện được li trữ trên nhiều ngnằn dữ liệu không đẳng
nhất sẽ được giái quyết
- Những quy tắc thắng nhất sẽ được áp dụng khi hợp nhất đữ liệu từ các hệ thắng
không đồng nhất sang đata warshonss
~ _ Tỉnh bảo mật và hiệu suất có thể được cài thiên mà không cần phải thực hiên bắt ky
sửa đổi nào trên hệ thống đữ liệu gốc
Các đặc trưng của Kha dữ liện:
-_ Tính tích hợp: Dữ liệu trong Dafaware honse được tỗ chức theo nhiều cách
khác nhau sao cho phủ hợp với các quy tước đặt tên, thông nhất về số đo, cơ câu mã
Trang 13hóa và câu trúc vật ly của dit ligu Mét Datawarehouse 1a mét khung nhin théng tin
mức tổng thể, toàn tô chức, thông nhất các khung nhìn khác nhau thảnh một khung
nhin theo một chủ đề nảo đó Tính tích hợp thể hiện ở chỗ : Dữ liệu trong kho dữ liệu được tập trung từ nhiều nguồn và được ghép với nhau tạo thành một thể thông nhất,
Checking Account System
Hinh 1.1—Tich hop dit liéu
- Hướng chủ đề: Dữ liêu trong Dataware house được tổ chức theo các chủ
đề phục vụ cho những tô chức dé dang xác định được những thông tin cần thiết trong
từng hoạt đông của mình Dữ liệu gắn thời gian và có tính lịch sử: Một kho dữ liệu bao
hàm một khối lượng lớn khôi lượng lịch sử Dữ liệu trong Dataware house duge goi la
các ảnh chup dit liu (data snapshort), mdi ban ghi phan anh những giá trị của dữ liệu
tại một thời điểm nhất định thể hiện một khung nhìn của một của một chủ điểm trong
một giai đoạn Yêu tô thời gian đóng vai trò như một phân của khóa để đảm bảo tính
đơn nhất của mỗi bản ghủ và cung cấp đặc trưng về thời gian cho dữ liệu Dữ liệu trong
C§DL tác nghiệp cân phải chính xác ở chỉnh thời điểm truy cập, trong khi ở Dataware
house chỉ cân có hiệu lực trong một khoảng thời gian nào đỏ, trong khoảng 5 năm đến
10 năm hoặc lâu hơn Dữ liệu của CSDL sau một thời gian nhật định sẽ trở thành dữ liệu lich sử và chúng sẽ được chuyển vào kho đữ liệu
Trang 14CSDI tác nghiệp DW
Dữ liệu nghiệp vụ:
+ Thời gian ngản 3-60 ngày $ đến 10 nam + Có thế có yếu tổ thời gian hoặc không tố thời gian
+ Dữ liệu có thể cập nhật + Khi đữ liệu được chụp lại th
không cấp nha: duce
Hình 12— Tỉnh thời gian của dữ liệu
~_ Dữ liệu có tính ôn định: Dữ liệu trong Dataware house là dữ liệu chỉ đọc và chỉ có thể được kiểm tra, không được sửa đổi bởi người sử dụng đầu cuỗi Datawarehouse chỉ cho người dùng được phép nạp thêm dữ liệu vào và truy cập tới
Hinh 1.3—Co ché hoat déng ctia Data Warehouse
~_ Dữ liệu không biển động: Thông tin được tải vào trong Dataware house khi
nó được coi là quả cũ trong CSDL tác nghiệp với hệ thống điều hành doanh nghiệp, tuy nhiên các dữ liệu trong Dataware house không có dữ liệu nảo được coi là cũ, trong Dataware house sẽ không cỏ thao tác xóa dữ liệu, vì các dữ liệu này vẫn cung cấp
thông tin về một khoảng thời gian dài, cung cấp đủ số liệu cho các hệ thông dự bảo,
phân tích, từ đỏ có được những quyết định hợp lý
1.1.3 Lợi ích của Kho dữ liệu
'Tao ra những quyết định có ảnh hưởng lớn Một kho đữ liệu cho phép trích rút
tài nguyên nhân lực và máy tính theo yêu cầu để cung cập các câu truy vân và các bao cáo dựa vào cơ sở đữ liệu hoạt động và sản xuât Điều này tạo ra sự tiết kiệm đáng kể,
Có kho đữ liệu cũng trích rút tài nguyên khan hiểm của hệ thông sản xuất khí
thực thi một chương trình quá lâu hoặc các báo cáo vả các câu truy vẫn phức hợp
Công việc kinh doanh trở nên thông mình hơn Tăng thêm chất lượng và tỉnh
Trang 15linh hoạt của việc phân tích kinh doanh do phát sinh tử câu trúc dữ liêu đa tầng của
kho đữ liệu, đó là nơi cung cáp dữ liêu được sắp xếp tử mức độ chỉ tiết của công việc
kinh đoanh cho đến mức độ cao hơn - mức độ tổng quát Đảm bảo được đt liệu chính
Xác và dang tin cây do đảm bảo được là trong kho đữ liệu chỉ chứa đuy nhất dữ liệu có
chất lượng cao và én dinh (trusted data)
Dịch vụ khách hàng được nâng cao Một doanh nghiệp có thể giữ gìn mỗi quan
hệ với khách hàng tốt hơn đo có môi tương quan với đữ liêu của tât cả khách hang qua
một kho đữ liêu nêng
TTái sáng tạo những tiền trình kinh đoanh Sự cho phép phân tích không ngừng
thông tin kinh đoanh thưởng cung cấp sự hiểu biết mọi mặt của phương thức kinh
doanh đo đó có thể làm nảy sinh ra những ý kiến cho sư sáng tạo ra những tiền trình
nảy lại Chỉ khi xác định chỉnh xác các nhu cầu tử kho dữ liệu thì mới giúp ta đánh gia
được những hạn chẻ vả mục tiêu kinh doanh một cách chính xác hơn
Tải sảng tạo hệ thông thông tin Môt kho đữ liệu là nên tảng cho các yêu câu dữ
liệu trong mọi lĩnh vực kinh doanh, nó cung cấp một chí phí ảnh hướng nghữa là đưa ra
thói quen cho cho cả hai sự chuẩn hóa dữ liệu và sự chuẩn hóa hoạt động của hệ điều hành theo chuẩn quốc tế
1.1.4 Cấu trúc Kho dữ liệu
Central Data Warehouse (Trung tâm Kho dữ liệu)
Đó nơi phân lớn dữ liệu được lưu trữ Là tập hợp các Data Mart lưu trữ dữ liệu theo chủ đẻ Với câu trúc hủnh sao (Star Schema) đa chiều giúp việc lưu trữ dữ liệu động và thích hợp với đữ liệu phân tích với thao tác đọc là chỉnh
Centorat Gee Operational ‘Date ‘Data integration Piaform < oss Engine Application top
Trang 1614
Data Integration Platform (Tich hap dit liéu}
La phan lưu đữ liện dược làm sạch lây từ hẻ thông nguồn đầy sang sau đỏ được
chuyển đổi (Iransformation) sang Kho dữ liệu Quả trình E[L diễn ra tại đây Việc tông hợp và lây dữ
A Biến đổi Asa Nạp a
Extract “Transform Load
Hình 1.5— Quy winh ETT
Từ dữ liệu nguồn hỗn độn, quy tinh RTT bat dau rat trich day vao các
Datasource tran hé thing nguén sau dé duoc Replication (chuyén sang) hé thang dich
chứa Kho đữ liệu tại các bảng chứa đữ liệu tạm PSA(PersistcnL Staging Aren) trên hệ
thống Kho dữ liệu trước khi được biến đổi (Transformation) sang đổi tượng trên Data
warchouse sau đó được Load (nạp) vào Kho dữ liệu
Data Mart (Kho dit fié cục bộ)
- Kho dir Hgu cue bd (Data Mart -DM) là CSDI, có những đặc điểm giống với kho dữ liều nhưng với quy mô nhỏ hơn và lưu trữ dữ liệu về xnột lĩnh vực, một chuyên ngành Dalanant là kho dữ hiệu hướng chủ đề
-_ Các DM có thể được hình thành từ một Tập con đữ liệu của kho dữ liệu hoặc
cũng có Thể được xây đựng độc lập và sau khi xây dựng xong, các DM có thể được kết nói tích hợp lại với nhau tạo thánh kho dữ liệu Vì vậy có thể xây dựng kho dữ liệu bắt đầu bằng việc xây đựng các DM hay ngược lại xây đựng kho đữ liệu trước sau đó tạo
1a các DM
-_ DM được chia ra là hai loại
co Data mart phu thudc (Dependent Data Mart): Chua nhimg dit ligu duge lay
từ DW và những dữ liệu này sẽ được trích loc va tinh chế, tích hợp lại ở mức cao hơn
để phục vụ một chủ đã nhất định của Datamart
Trang 17© Data mart độc lập (Independent Data Marts): Không giống như Data Mart
phụ thuộc, Data mart độc lập được xây dựng trưởc DW và dữ liêu được trực tiếp lây từ
các nguồn khác nhau
~_ Metadata - dữ liệu của dữ liệu/thông tin vẻ dữ liệu Chức năng chính:
© Binh nghia dữ liệu
©_ Nguồn gốc của đữ liệu
© Câu trúc của dữ liệu
© Quy tắc cho việc lựa chọn và chuyển dữ liệu
© Dữ liệu định tính và định lượng vẻ đữ liệu
1.1.5 Mô hình thực thể trong Kho đữ liệu
Mô hình thực thể mỗi quan hệ được sử dụng phổ biến trong mô hình cơ sở đữ
liệu OLTP Tuy nhiên, mỏ hình cơ sở đữ liệu ER này không thích hợp cho việc thiết
kế kho dữ liêu vì phải truy vẫn tới quả nhiều bảng khác nhau Hầu hết các kho đữ liêu
sử dụng mô hình sao (star sehema).Mô hình này chỉ gồm duy nhât một bảng sự kiện
và một bảng chiều (đimention) cho mỗi chiều Trong bảng sự kiện sẽ có các trường
khóa ngoài liên kết với khóa chính của các bảng chiều
đỂtPmducID Integer lame - Natchar
(@customentd Nersr gece Nearchat
——— Seah, Integer Ot Supliers tease
1 ogee aie <Bempioyeieeser L—— 1 | ovaries achat Sine Min
| Peau SShpetode utte Tene “Setsnedr: Satie SUntehsioss Shut
Trang 18
l6
Fink 1.6— Dit ligu theo mé hinh sao
.Mỏ hình sao không hỗ trợ tốt cho các bảng chứa các thuộc tính phân cấp Mỏ hình bông,
tuyết (SnowFlake Schema)đưa ra giải pháp cho mô hình sao khả bảng có thuộc tính phân cấp,
THình 17 - Mé hinh bang tuvét
Điền này giúp cho vệc bảo trì cäe bang chiéu tét hon Tuy nhién cin tric macdinhtrong, sođồ sao của các bảng chiền có thể thích hợp hơn khí duyệt các chiền
Sodé chòm sao (faot constcllation) là một ví dụ cho câu trúc phức lạp khí cỏ nhiều hơn 1
bảng sự kiên Mỗi sođŠ sao có thể xây đựng thành sodd chom sao (ví đubằng, cách chia tách các Iượcđỗ sao gốc thành các lượcđồ sao mà mỗi chủngđược mô tả trên các cấp khác nhau của các
chiều phân cắp) Các kiến trúc sođỗ chàm sao bao gẫm nhiền bảng sự kiện vàđược chia sẽ cho
nhiền bảng chiều.
Trang 19
1.2 Báo cáo thông minh (Business Intelligent)
BI là một qui trình cỏ tích hợp công nghệ mả các doanh nghiệp dùng đẻ kiểm soát khỏi lượng đữ liệu không lồ đến từ nhiêu nguồn khác nhau và khai thác nguồn đữ
liệu đỏ giúp cho họ có thể đưa các các quyết định hiệu quả hơn trong hoạt động kinh
doanh của minh BI cỏ mặt ở khắp các đoanh nghiệp như hệ thông siêu thị, ngan hang,
viễn thông do đều là những nơi cần thu thập, xử lý khỏi lượng đữ liêu cực lớn
Giải pháp Kho dữ liệu - Data Warehouse (DW) và Báo cáo thông minh -
Business Intelligence (BI) thưởng đi chung với nhau như là một giải pháp tổng thé
phục vụ cho quá trình xây dựng một doanh nghiệp thông minh, thông qua việc tập hợp
và xử lý dữ liệu, đưa ra các báo cáo, phân tích vả dự đoán theo các góc nhìn đa chiêu
phục vụ cho các hoạt động theo dõi vả ra quyết định của doanh nghiệp
Mục địch chính của giải pháp là thông qua công nghệ thông tin (CNTT) để
thông kê, phân tích dữ liệu và mục tiêu kinh doanh để đưa ra các bảo cáo về hoạt động
của đoanh nghiệp trong quá khử và hiện tại, cũng như các dự bảo tương lai nhằm hỗ
trợ cải thiện hiệu suất kinh doanh và mang lại lợi nhuận cho đoanh nghiệp
Trong đó, Kho dữ liệu chỉ đơn giản là việc hợp nhất dữ liệu từ nhiều nguồn,
được chuẩn hóa để có thể khai thác tốt, hồ trợ trong việc đưa ra các quyết định mang
tỉnh chiến lược và chiến thuật Mục đích chỉnh của DW là luôn cung cấp một hình ảnh
Trang 2018
thong nhất và chính xác nhật về đoanh nghiệp tại bất kỳ thời điểm nao Sir dung một
trong các giải pháp quán lý Kho đữ liệu, doanh nghiệp có thễ khai thác toàn bộ đữ liệu
của doanh nghiệp mình mã trước đây thường mắt rất nhiều công sức
BỊ là giải pháp sử dụng các kỹ năng, quí trình, công nghệ, ứng dụng đỗ hỗ trợ ra
quyết định, các công cụ BI nâng cao khả năng trợ giứp để đưa ra các quyết định mang
tỉnh chiên lược, chiến thuật va dem lại hiệu quả trong kinh doanh B1 cho phép doanh
nghiệp hiểnbiết về quá khử và dự đoán tương lai thông qua ting dung CNT dé cd thd
dễ đảng kiếm soát khỏi lượng dữ liễu khống lổ, khai phá tri thức sẵn có theo nhiều góc nhìn đầy đủ của một doanh nghiệp Mục đích chính của BỊ là hỗ trợ cho doanh nghiệp
ra quyết định tốt hơn
“Tóm lại,BI là qui trình và công nghệ má các doanh nghiệp dừng để kiểm soát khối lượng dữ liệu không lễ, khai phá trì thức giúp cho các doanh nghiệp cỏ thể đưa các các quyết định hiệu quả hơn trong hoạt động kanh: doanh cúa mình Công nghệ B1 (BI techuology) cung cấp mội cách nhân toàn cảnh hoạt động của đoanh nghiệp tử quả khứ, hiện tại và các dự đoán tương lai Mục đích của Bì là hỗ trợ cho đoanh nghiệp ra quyết định tốt hơn Vĩ vậy xuội lệ thông BI (BI systen) cờn được gọi là hệ thông hỗ
tro quyét dinh (Decision Support System -DS3)
1.2.1 Các giải pháp BI
Có rất nhiều hãng công nghệ tham gia vào mảng thì trường BỊ, theo đảnh giả cia Gartner vào tháng 01 năm 2011 thì các lãng trong hình đưới được xốp lưung thông
qua việc đánh giả các giải pháp xây dựng nền tăng BỊ trong doanh nghiệp để phục vụ
việc phải triển các ứng đụng BL
Các giải pháp B1 lớn thường có lợi ich là họ có nhiều kinh nghiêm trong việc
xây đựng hệ thông BI, đếp ứng đầy đủ các yêu cầu khách hàng, dễ đăng trong việc triển khai cũng như nâng cắp và nhiều tỉnh nàng day di hon, gác sản phẩm lớn thường
được Tựa chợn do thúc đẩy sự phát triển của đoanh nghiệp một cách nhanh chóng và hiệu quá trên nhiều Tĩnh vực kinh doanh Có thể liệt kè ra ở đầy các sán phẩm BI lớn nue
¥ SAP Business Objects
+ IBM —Cognos
¥ Microsoft BI solutions
v Oracle — Lyperion
¥ TIP —BI services
Loi ich chinh ma cdc phan mém BI mang Iai cho tổ chức/đoanh nghiên
Trang 21x Chuyển những dữ liệu thô thành các số liệu biết nói các thông tin giá trị
‘Thu thap théng tin tử nhiều nguồn một cách nhanh chóng và chính xác
+ Hỗ trợ hiệu quả các hoạt đông quản lý thông qua việc đánh giá hoạt đồng của
khách hàng, xu hướng thí trường và các chuỗi hoạt động hiệu quá và ôn đính
+ Dữ liệu chính xác và nhanh chóng giúp đưa ra quyết định kịp thời thông qua
các giao điện đồ họa, hiển thi cac chi tiêu đánh giả, theo đối
v Sit dung scorecard gitip phan đoán các tình hình tài chính, kinh doanh trong
tương lai gan
¥ Giai phap Enterprise Performance Management Systems cung cap cac gia
pháp xây dựng và dự toán, đảnh giả theo đổi các van đả, quản lý và khai thác hiệu quả
Data Marts, các chức năng bảo cảo cao cấp, truy cập từ nhiều thiết bị di động, các quy
trình xử lý tạo nên một nẻn tảng hỗ trợ toàn diện cho tổ chức/doanh nghiệp
1.2.2 Cấu trúc của báo cáo BỊ
‘Van đề cốt lõi trong hệ thông BI la kho dit ligu (Data Warehouse) va khai pha
dữ liêu (Data Mining) vi đữ liệu dùng trong BI là đữ liêu tổng hợp (Nhiều nguồn, nhiều đính đạng, phân tân và có tính lịch sử) đó là đặc trung của kho đữ liệu Đồng
thời việc phân tich dữ liệu trong BI không phải là những phân tích đơn giản (query,
Filtering) ma 1a những kỹ thuật trong khai pha dit ligu (Data Mining) ding dé phân
loai (classification) phan cum (clustering), hay dự đoản (Prediction) Vi vay BI co mỗi
quan hệ rất chặt chế với Data Warehouse và Data mining
nud User Business Analyse
Data Analyst
Trang 2220
Tatasaurce’
v' Là cơ sở dữ hệu thô (thưởng là cơ sở đữ liệu quan hệ) dễn tử nhiều nguồn
khác nhau như các tr\g đụng business như Human Resource Management (HRM),
Customer relationship management (CRM), phin mém bin hang, website [ương mại
điện tử
¥ C6 thé 1a bắt cử hệ quản trị cơ sở đữ Ì
DB2,
undo ru MySQT., Oracle, MSSQT.,
#Thường được thiết kế theo mô bình cơ sở dữ liệu quam hệ ( vì dạng mô hình
nay đang rất phố biển trong thực tế )
Integrating Server:
¥ Chiu irich nhiệm trung gian van hanh géi ETL để chuyển đổi dứ liên từ
Data Sources vac Data Warehouse
Trang 23
Data Warehouse (Kho dit liéu)
* Là cơ sở dữ liệu được thiết kế theo mô hình khác với CSDL quan hệ và là
nơi lưu trữ dữ liệu lâu dài của tỗ chức
* Dữ liệu của Kho dữ liệu chỉ có thể đọc, ko ghỉ hay update được và chỉ được
update bởi gói ETL chuyển đổi dữ liệu từ Data Sources vào Data Warehouse
Data Mining (Khai phá dữ liêu): Các kỹ thuật dùng để khai phá dữ liệu và phát
hiện trí thie nhu phan loai (Classification), phan nhỏm (clustering), phát hiện luật kết
hợp (Association Rule), Dự đoán (Predcition)
Business Analyst (Phân tích kinh Doanh: Các nhà lãnh đạo Doanh nghiệp đưa
ra những quyết định chiên lược đôi với hoạt động kinh doanh của doanh nghiệp
Cac công nghệ hỗ trợ BI:
* Hệ thông hoạch định nguồn lực Doanh nghiép (Enterprise resource planning
(ERP systems)
/ Công nghệ truy vân và lập bảo cao (Query and report writing technologies)
+ Công cụ khai phá và phân tích dữ ligu (Data mining and analytics tools)
Hệ thông hỗ trợ ra quyết dinh (Decision support systems)
¥ Kho dit ligu (Data warehousing)
Trang 242
CHƯƠNG II QUY TRÌNH ETL TRONG KHO DU LIỆU 2.1 Téng quan ETL
214 Khai niém
Hệ thông ETI.Œxtmot-Traniorrmrload) là nên tổng của kho đữ liệu Một hệ
thếng ETL được thiết kế cho việc trích xnất dữ lên từ các hệ thống nguên, chuyển
đổi dữ liêuđêm bảo các nguồn độc lập có thể tích hợp, và cuổi cùng đữ liệu sau
clmyễn đổi được đưayào kho đữ liệu pimac vụ mục đích phát triển ửng dụng hay phục
vụ các mục đích kho dữ liệu
2.1.2 Vai trò của ETL trong kho đữ Hiệu
lệ thông )ZFL phải đồng một vai trò quan trọng trong việc cung cấp chọ các
ứng đụngngười sử dựng một khuôn đạng dữ liệu phủ hợp Bán chất Kho dữ liệu là quả
trình lẫy đữliệu từ các hệ thông LS và hệ thẳng co sở đữ liêu tác nghiệp và chuyển đổi
thành thông tineó tổ chức trong ruột định dạng thân thiện với người sứ dụng; trên cơ sở
đó có thé phan tichdit liệu và hỗ trợ quyết định kiii đoanh Quả bắt đầu từ các hệ
thông nguồn đến khi đữ hệuđược đưa vào các bảng chidu hay bang sự kiện sẽ chỉ phí ít
nhất 70% thời gian, nỗ bực củahẳu hết các đự án kho dữ liệu
1.1.3 Các chức năng của ETL
Trích xuất (Extrac0: Dữ liệu nguồn tử rất nhiều nguồn khác rau và có thể cỏ
rất nhiều câu trúc dữ Hậu khác nhau như nhiêu loại cơ sở đữ liệu, từ file excel hay tir
file thô Vì thể nhiệm vụ chính của bước này là trích xuất đít hiện từ hệ thông nguồn để
arly
Chuyển đổI(Iransform):Đây là quá trình rất phúc tap dùng để chmyễn đổi dir
liệu nguồn một mô hình khác phù hợp và chuyển vào cơ sở dữ liệu đỉch Ở bước này
sẽ phải sử dựng các phép chrryễn đổi như:
Trang 25© Tìm kiểm hay so sánh đữ liệu
Co thé noi day 1a bước quan trọng nhất trong tiền trình ETL, nó thực hiện hầu
hết các nhiệm vụ của tiền trình ETL
Tải đữ liệu(Load): Đây là quả trình đây dữ liệu sau khi đã được chuyển đổi vào kho đữ liệu Dữliệu sau khi đã được chuyển đổi sẽ được tải vào kho dữ liêu
2.2, Kiến trúc của ETL
Có 3 kiểu kiên trúc ETL chính đỏ lä kiểu push, kiểu pull, kiể server trung gian
~Kiểu push: Trong kiến trúc này tiền trình ETL sẽ được chay tại server chứa
nguồn dữ liệu Mỗi khi cập nhật dữ liệu mới tiền trinh ETL sẽ xử ly tại nguồn đữ liệu
sau đó đây đữ liệu mới đã được xử lý cho kho đữ liệu Mô hình này thường được sử dụng nêu nguồn dữ liêu là từ một server và mảy nguồn đủ manh để xử lý tiền trình ETL Thông thường mô hình này sử dụng khi dữ liệu nguồn không quả phức tạp và
khối lượng đữ liệu không quá lớn
Tiển tình BTL
Nguân dữliêu Kho diều
Hình 2.1 tién trình ĐTL nằm ở nguồn dữ liệu
~Kiểu pull: Với kiến trúc này tiến trình ETL sẽ được chay ở server chứa kho
đữ liệu Mỗi khi cập nhật dữ liệu tiễn trình này sẽ kết nỗi tới các nguồn dữ liệu và lẫy
dữ liệu về xứ lý sau đỏ nạp vào kho dữ liêu Ở kiển trúc nây dữ liệu nguồn có thể từ
nhiều nơi khác nhau, tuy nhiên máy chứa kho đữ liệu cần phải có đủ năng lực xử ly tiễn trình ETL Cũng như kiển push kiểu kiến trúc này cũng được sử dụng khú khỏi lượng đữ liệu và khối lượng thao tác không quá lớn.
Trang 26Tiên trình ETL,
a
Nguén dirligu ÍCho dữ liệu
Hình 2.2 - Tiên trình ETL nằm ở server chứa kho dữ liệu
Kiểu server trung gian Đây là kiến trúc máy tiền trình ETL sẽ được chạy trên một máy độc lập vi cả kho dữ liệu và nguôn dữ liêu Tiền trình sé dén lay dữ liêu
tử nguồn đữ liệu sau đó xử lý và nạp vào kho dữ liệu Kiểu kiến trúc này thường được
áp dụng cho các kho dữ liệu lớn, ở đây tiền trình ETL sẽ được chay trên một máy độc
lập đủ năng lực xử lý
tn tinh ETL
She
Nguôn đhiện Nguốnđblêu Nguồn đữhệu
“Hình 2 3 - Tiên trình ETL nằm ở server trung gian
2.3 Kỹ thuậtETL trong kho dữ liệu
2.3.1 Xác định nguồn đữ liệu
Dữ liệu trong hệ thông nguồn có thể rơi vào hai loại :
~_ Giá trị hiện tại : Hầu hết các thuộc tính trong các hệ thông nguồn rơi vào
Joai nay Oday gia trị được lưu trữ của một thuộc tỉnh mô tả giả trị của thuộc tính ngay
thời điểm nàycúa thời gian Các giá trị tạm thời hoặc nhất thời Khi các giao dich Xây