1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn xây dựng kho dữ liệu và báo cáo quản trị bi cho tập Đoàn vingroup với hệ thống sap bobi

52 2 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Xây Dựng Kho Dữ Liệu Và Báo Cáo Quản Trị BI Cho Tập Đoàn Vingroup Với Hệ Thống SAP BOBL
Tác giả Vũ Đức Thịnh
Người hướng dẫn GS.TS. Trần Huy Hưng
Trường học Đại Học Công Nghiệp Hà Nội
Chuyên ngành Công nghệ Thông Tin
Thể loại Luận văn thạc sĩ
Năm xuất bản 2015
Thành phố Hà Nội
Định dạng
Số trang 52
Dung lượng 1,6 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Kho dữ liệu được xây đựng để tiện lợi cho việc Irny cập heo nhiều nguồn, miền kiểu đĩt liệu khác nhau sao cho có thể kết hợp được cá những tng dụng của các công nghệ hiện đại và kế Ihừa

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆ

XÂY DỰNG KHO DU LIEU VA BAO CAO QUAN TRI

BI CHO TAP DOAN VINGROUP VOLHE THONG SAP BOBL

LUẬN VĂN THAC SĨ CONG NGHE THONG TIN

Trang 2

DAI HOC QUOC GIA HA NOI TRƯỜNG ĐẠI HỌC CÔNG NGHIỆ

TRẤN HUY HÙNG

XAY DUNG KIIO DU LIEU VA BAO CAO QUAN TRI

BL CHO TAP DOAN VINGROUP VG] HE THONG SAP BOBL

'Tgành: Công nghệ thông lin Chnyén nganh: 11a thang Thang tin

Mã số: 60480104

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DÀN KIIOA HỌC: GS.TS VũDức Thí

HÀ NỘI, 2015

Trang 3

LỠI CẮM ON

¡ thầy G8.TS Vũ Đức Thị, thầy đã

đành rất nhiều thời gian và tâm huyết hrởng dan va giúp tôi hoàn thành tết luận văn

tốt nghiệp nảy Thầy đã định hưởng nghiên cứu các kiển thức thiết thực và vẻ cũng bổ

ich đúng trọng tâm vẫn đã, đồng thời tạo điều kiên thuận lợi tốt nhật cho tôi học tập và

nghiên cửu

t6 lòng biết ơn tới các thầy cô trường Đại học Công nghệ

đã tlam gìa giảng dạy và clúa sẽ những kinh nghiệm quý báu cho tập thể và cá nhân tôi nói riêng Tôi xin cảm ơn tới các thầy và các anh chỉ đã thường xuyên giúp đỡ, trao đổi, gứp ý về những vẫn đề khoa học liên quan tới luận vấn

Tot cữngxin được b:

Cuối cùng tôi cũng bảy tó lòng biết ơn về sự giúp đỡ cúa các anh, chị đồng

ughiép trongTrung tam Công nghệ (ETS) - Công Iy FPT ER, cơ quan nơi lỗi công tác

đã tạo điều kiên tốt nhất cho tôi vẻ thời gian cũng như đồng viên tôi hoàn thánh bài

Trang 4

3

LOI CAM DOAN

Những kiến thức trinh bày trong luận văn là do tôi tin hiểu, nghiên cửu và trình

bay lại theo cách hiểu Trong quá trình lâm luận văn tôi có tham khảo các tài liệu có liên quan và đổ ghỉ rõ nguồn tài liệu tham khảo đó Tôi xin cam đoan đây là công hình

nghiên cứu của tôi và không sao chép của bất kỳ ai

HÀ Nội, tháng 7 năm 2019

Hẹc viên

Trần Ituy [Tùng

Trang 5

CHƯƠNG I TÔNG QUAN KHO DỮ LIỆU VẢ BẢO CÁO BỊ

1.1 Kho dữ liệu (Data warehouse)

1.1.1 Kho đữ liệu _ Rrror! Baokmark not defined

1.1.2 Đặc điểm của Kho dit liu .Error! Bookmark not defined

1.1.4 Câu trúc Kho dữ liệu

1.1.5 Mô hinh thực thé trong Kho đỡ liệu

1.2 Báo cáo thông múnh (Business Infelligenl)

1.3.2 Câu trúc của bảo cáo BỊ

CHƯƠNG II QUY TRÌNH ETL TRONG KHO ĐỮ LIỆU

2.1 Tong quan ETL

2.12 Vai rò của ETL trong kho đữ liệu - 23 2.1.3 Cae chute nfing tia ETL ee cece esse eesesmeessumisensseessaneesssaneseannees 2D

2.2 Kiến trúc của ETL

3.3 Kỹ thuậtETL trong kho dữ liệu

2.3.3 Kỹ thuật làm sạch và chuyến đối đữ liện 26

CHƯƠNG II XÂY DỰNG KHO DV LIEU VA BAO CAO BI TREN HE

Trang 6

4

3.2.1 Yêu cầu hài toản của VIN GROUP ¬— 31

3.2.2 Phân tích thiết kế hệ th6ng essences senses OD

3.3.1 Quy trình lây đữ liêu tích hợp cho các chiêu phân tích (imensipnt) 34

3.4.2 Tạo báo cáo BI với BEx Analyzer nseeeeireeroreree đỔ

CHƯƠNG IV, KẾT LUẬN

4.1 NI nuä thu được

4.2 Hướng phát triển

Trang 7

DANH MUC HINH VE

Hinh 1.6 - Sw phan cach gitta ONS va DI Error! Baokmark not defined Hinh 1.7 - Dữ liều theo mô hình sae 1G

Hình L&- Mb hin béng tuyét 16

Hình 1.11 Các thành phẩm chính của B1 „21

fink 2.1 tién trinh ETL nam ở nguẫn đữ liệu 34

Ninh 22 - Tiễn tình FTL nằm ở server chứa kho dữ liệu 25

Hinh 2.3- Tiêu trình ETT nẦm ở server trung gian 25

Hinh 3.1 — Kién tric SAP BW ”

Hình 32 Luông dữ liêu trong SẠP BẰ" ceeiiiieioou.3U

.ình 3.3— Sơ đồ luỗng dữ liêu „31

Hinh 3.3— Function Module trich xudt dit lige nguân 4

hình 3.10— Thông lần về cây của dỖi tượng Hierachy 38

Hình 3.11 Thông tim thuộc tỉnh của chiễu phân tích 2.38 Hinh 3.12 —Transfromation nap dit liéu cho chiều phân tịch 39

Trang 8

Tình 3 14— Kết quả TYrangftomation 40

Hình 3.1S— Tập trình ROUTINE tính toàn chuyễn déi sang Model viv ODS 42

hình 3.21— Kết quả sen khi nạp dữ liệu chuyển đổi: Ad

Hình 3.22 Thông tin Query trợy vẫn dữ liệu từ Model CAPEX 4Š

Hinh 3.24 Bao edo BI voi BEx Analyzer Error! Bookmark not defined

Hinh 3.25 Hiển tí báo cáo BỊ dạng đỗ họa Error! Baokmark not đcfined.

Trang 9

NHANH MỤC CÁC KỈ HIỆU, TỪ VIẾT TẮT

Lập kế hoạch và hợp nhất

Business Itelligent

Báo cáo thông mình

3 InfoUbject Đi tượng

6 InfoCube Khoi dit hiệu

8 SAP Công ty giải pháp phần mềm hệ thông của Đức

9 SAP ERP Hệ thông Quân wi kế ‘hoach ngudn lire doanh

nghiệp SAP

10 ABAP “Ngôn ngất lập trình cho ứng dụng SÁP

Trang 10

§

MỞ ĐÀU Cùng với việc áp dụng rộng rãi Công nghệ Thông tm vào trong hầu hết các lĩnh:

vực trong đời sông, kinh tế, xá hội đó là viêc đữ liệu fhm nhận được qua thời gian ngày

cảng nhiều,Vì vậy, yêu cầu thiết yêu đặt ra đổi với các đoanh nghiệp đó là việc khai tha

hon Tap doan VinGroup 1a mét tap doan lén voi mét hé thong thong tm 4 cfi và phản tồn Do đó, lập đoàn nhận ra rắng việc xây đựng mội hệ thông báo cáo nhanh và hỗ trợ kịp thời cho các chiến lược kinh doanh là rất quan trong Tap dean VinGroup dé chon, giải pháp SAP BOBI để xây đựng kho đữ liều và bảo cáo tài chính Tôi được giao trọng trách trực tiếp nghiên cửu và xảy dựng hệ thông náy với vai trò Trưởng nhóm

lập trình của nhà thâu FPT 18 (Công ty TNITI TIệ thông Thông tin FPT)

các dữ liệu này một cách liệu quả để phục vụ cho việc kinh đoanh ngày càng tốt

Luận văn nảy vớt để tài "Xây dựng Kho đữ liệu và Báo cáo quản trị BI cho Tập

đoàn Vin Group với lIệ thông SAP BOBI " giới thiệu vẻ kho đữ liệu, phương pháp

OLAP va tmg dung trong phân tích Doanh thu, lợi nhuận trong cáo bảo cáo tàu chính

của lấp đoán VinCroup bằng hệ thông tiền tiễn trần thể giới SAP BOBT

Luận văn gồm bổn chương:

Chương 1 Tổng quan Kho dit lige và bảo cáo HCiới thiệu tổng quan về kho

dữ liệu, cầu trúc kho dữ liệu, các thanh phần cúa kho dữ liều, cách thiết kẻ kho đữ liệu

và ứng dụng của kho đữ liệu trong thiết kế báo cáo BI

Chương 2 Quy wink ETL trong Kho dé ligu Gioi thigu téng quan về kỹ thuật

L tích hợp chuyển đổi dữ liệu từ hệ thông nguồn vào Kho đữ liệu

Chương 3Xây dựng Kho dữ liệu và Bản cáo trên hệ thẳng SAP BOBTXây

dừng và cài đặt dữ liệu trong Kho dữ liệu trên nên tăng công nghệ SAP BPC để lưu trữ theo yêu cầu nghiệp vụ, lập hình tỉnh toán chuyển đổi dữ liệu vào Kho dữ liệu cho Tập đoàn Vin Group

Chương 4 K& luận

Phan ket luân tổng kết và tóm lược những kết quả, đóng góp chính của khóa luận.

Trang 11

CHUGNG L TONG QUAN KHO Dit LIkU VA BAO CAO BI

1.1 Rho dir ligu (Data warehouse)

1.1.1 Lịch sử hình thành

Khải niệm Data Warchousing duge xuất hiện vào những nấm 80, khí mở các lệ théng quan lý cở sở đữ liệu quan hệ nổi lên như những sản phẩm thương rnại

‘Nam 1988, có mmội bài bảo mô là định ng]ĩa đầu tiên về kiển túc kho dữ liệu

Hài báo mô tả những công việc đã thực hiện đễ thiết kế kho đữ liệu phục vụ chỉ nhánh

TBM tại châu Âu

Dầu thập niền 90, cuốc cách mang về xử lý đữ liệu không chỉ la phổ cập kho đữ

liệu mà gòn tạo điền kiện để mở rộng khải niệm kho dữ liện

Thể ký 20 — kỷ nguyên của quản lý dựa trên thông tỉn

gây nay, chúng ta chò đợi và đự đoán tương lai đựa trên nhữmg phác thảo quá

khứ Nhú cầu vẻ lợi thế cạnh tranh lăng cá khiển nên tăng để hỗ Irự việc ra qu)

chmyễn từ đử liệu đạng số sang thông tin và việc này có thễ được mô tả bởi thuật ngữ

quản lý dựa trần thông từ

Kho đt liên là tuyển tập các cơ sở đữ liệu tích hợp, hướng chủ đề, được thiết

kế để hỗ trợ cho chức năng trợ giúp quyết định

Theo John Ladley [9], Công nghệ kho dữ liệu (Dafa Warehouse Technology) là tập cúc phương phúp, kỹ thuật và các công cụ có hợp, hỗ hợ nhau để théng tin cho người sử đựng trên cơ sở tích hợp từ nhiều nguồn dữ liệu, nhiều môi

trường khác nhau

Kho dif liệu thưởng rất lớn tới hàng trăm GB hay thâm chi hang ‘Terabyte Kho

dữ liệu được xây đựng để tiện lợi cho việc Irny cập heo nhiều nguồn, miền kiểu đĩt liệu khác nhau sao cho có thể kết hợp được cá những tng dụng của các công nghệ hiện đại và kế Ihừa được từ những hệ thông đã có sẵn từ trước

1.1.2, Data warchouse Ei gi?

Data warehouse duge sit dang niur 1a mat nén tang cho hệ thống hỗ trợ ra quyết định Nó gắn liền với khái niệm Business Inteligence (Kink doauh théng minh) Né dace ding 48 gidi

qmyết cáo vấn đề gặn phải khi một tổ chức cố gắng phan tich chidn luge ni số liệu trang một hệ thông đatabase được dùng chung với hệ thông xử lý đữ liệu lrực tuyển (OLTP)

Một hệ thống OLTP điển hình được đặc Irưng bởi một hệ thống có nhiều người sử dụng

đồng thời để thêm, sửa, xóa đứt liên Ví dự như inét hệ thẳng bán lẻ, có nhiên nhân viên bản hàng

đông thời chng nhập và chỉnh sữa dữ liệu vào hệ thống Trong mật hệ thống, nhỏ, việc sử đựng.

Trang 12

10

cing mét hé théng database nay cho muc dich lén bao cao théng ké, phân tích có thể chấp nhận

được ủo khối lượng dữ liêu if, it người dùng Nhưng trong một hệ thống với khối long đữ liệu

hàng chục triệu đến trăm triệu bản ghi trên một bằng thì việc khai thác đữ liệu chưng trên cùng

một hệ thống dalabase OLTP Ia khéng thễ chấp nhận được vì thời gian xủ lý dữ liệu rải lâu, làm cho lài nguyên hệ thồng trở nên quá lải và có thể làm chơ toàn bộ hệ thống bị tê liệt

Hệ thông OLTP được thiết kế cho mục đích thu thập đữ liện, khối lượng dế liệu càng càng

càng lớn khuiến cho nha cầu phân tích cảng trở nên cấp thiết hơn Tuy nhiên dalabase trong OITP được thiết kế cha mục đỉch thn thập số liệu thưởng phải tốt mu hỏa cả về không gian lưu trừ lẫn chuẩn hóa trong thiết kế tuân thủ nghiêm ngật [heo mô hình dữ liệu quan hệ KỈ có như cầu phân tích, khai thác dữ liệu thông qua các báo cáo sẽ phải sinh các văn đề:

-_ Người xây dựng báo cáo không hiểu nỗi mối quan hệ phức tạp giữa các bảng trong

nhiều database của các ứng đụng khác nhau

-_ Khỏ xây dựng truy vấn vi các đatabase nằm ở các server khác nhau

-_ Việc phân quyền không cho phép người đừng có thể lấy dt tiệu chỉ tiết

-_ Các cân truy vấn với dữ liệu lớn có thê khiến hệ thống bị tê liệL

Ví dụ: Một quản lý bản hàng muốn lên môi báo cáo lông hợp hàng bản trong thang cho từng vùng miền khả» nhan Nêu lên đứ liệu từ cùng hệ thông OLTP thì mỗi lẫn chạy báo cáo thi

hệ thống phải thực lên lại một lần việc truy xmắt và tổng hợp đữt liệu Ngoài ra có thể dữ liệu lại

được lưu trừ trên nhiền vùng địa lý, trên nhiền nguễn dữ liệu khác nhan (Ble excel, Oraele, SQI

Scrver, ms access ) Điều này đẫn tới việc mức độ thỏa mãn nhu cầu tổng hợp và phân tích số

liêu cho nguồi đùng lả rất thấp Ilẹ mong muốn có một hệ thống nhanh chéng hon Data warehonse và hệ thống phân tích du liệu trực tuyến (Online Analytical Processing - OLAP}

cung cấp các giải pháp để giải quyết các vấn đề trên Data warehonse cung cấp phương pháp tiếp cận lưu trữ số liệu từ các nguồn khác nhau (thường là tủ nguồn OLTT) vào một kho lưn trữ dny

nhất Data warehouse cung cấp các lợi ích sau tới những người dùng phân tích số liệu:

-_ DW Hện được tả chức để tạo thuận lợi cha các truy vẫn phần tích chứ không phải

cho việc xứ lý các giao dịch

-_ Sự khác biệt vê cầu trủe dừ liện được li trữ trên nhiều ngnằn dữ liệu không đẳng

nhất sẽ được giái quyết

- Những quy tắc thắng nhất sẽ được áp dụng khi hợp nhất đữ liệu từ các hệ thắng

không đồng nhất sang đata warshonss

~ _ Tỉnh bảo mật và hiệu suất có thể được cài thiên mà không cần phải thực hiên bắt ky

sửa đổi nào trên hệ thống đữ liệu gốc

Các đặc trưng của Kha dữ liện:

-_ Tính tích hợp: Dữ liệu trong Dafaware honse được tỗ chức theo nhiều cách

khác nhau sao cho phủ hợp với các quy tước đặt tên, thông nhất về số đo, cơ câu mã

Trang 13

hóa và câu trúc vật ly của dit ligu Mét Datawarehouse 1a mét khung nhin théng tin

mức tổng thể, toàn tô chức, thông nhất các khung nhìn khác nhau thảnh một khung

nhin theo một chủ đề nảo đó Tính tích hợp thể hiện ở chỗ : Dữ liệu trong kho dữ liệu được tập trung từ nhiều nguồn và được ghép với nhau tạo thành một thể thông nhất,

Checking Account System

Hinh 1.1—Tich hop dit liéu

- Hướng chủ đề: Dữ liêu trong Dataware house được tổ chức theo các chủ

đề phục vụ cho những tô chức dé dang xác định được những thông tin cần thiết trong

từng hoạt đông của mình Dữ liệu gắn thời gian và có tính lịch sử: Một kho dữ liệu bao

hàm một khối lượng lớn khôi lượng lịch sử Dữ liệu trong Dataware house duge goi la

các ảnh chup dit liu (data snapshort), mdi ban ghi phan anh những giá trị của dữ liệu

tại một thời điểm nhất định thể hiện một khung nhìn của một của một chủ điểm trong

một giai đoạn Yêu tô thời gian đóng vai trò như một phân của khóa để đảm bảo tính

đơn nhất của mỗi bản ghủ và cung cấp đặc trưng về thời gian cho dữ liệu Dữ liệu trong

C§DL tác nghiệp cân phải chính xác ở chỉnh thời điểm truy cập, trong khi ở Dataware

house chỉ cân có hiệu lực trong một khoảng thời gian nào đỏ, trong khoảng 5 năm đến

10 năm hoặc lâu hơn Dữ liệu của CSDL sau một thời gian nhật định sẽ trở thành dữ liệu lich sử và chúng sẽ được chuyển vào kho đữ liệu

Trang 14

CSDI tác nghiệp DW

Dữ liệu nghiệp vụ:

+ Thời gian ngản 3-60 ngày $ đến 10 nam + Có thế có yếu tổ thời gian hoặc không tố thời gian

+ Dữ liệu có thể cập nhật + Khi đữ liệu được chụp lại th

không cấp nha: duce

Hình 12— Tỉnh thời gian của dữ liệu

~_ Dữ liệu có tính ôn định: Dữ liệu trong Dataware house là dữ liệu chỉ đọc và chỉ có thể được kiểm tra, không được sửa đổi bởi người sử dụng đầu cuỗi Datawarehouse chỉ cho người dùng được phép nạp thêm dữ liệu vào và truy cập tới

Hinh 1.3—Co ché hoat déng ctia Data Warehouse

~_ Dữ liệu không biển động: Thông tin được tải vào trong Dataware house khi

nó được coi là quả cũ trong CSDL tác nghiệp với hệ thống điều hành doanh nghiệp, tuy nhiên các dữ liệu trong Dataware house không có dữ liệu nảo được coi là cũ, trong Dataware house sẽ không cỏ thao tác xóa dữ liệu, vì các dữ liệu này vẫn cung cấp

thông tin về một khoảng thời gian dài, cung cấp đủ số liệu cho các hệ thông dự bảo,

phân tích, từ đỏ có được những quyết định hợp lý

1.1.3 Lợi ích của Kho dữ liệu

'Tao ra những quyết định có ảnh hưởng lớn Một kho đữ liệu cho phép trích rút

tài nguyên nhân lực và máy tính theo yêu cầu để cung cập các câu truy vân và các bao cáo dựa vào cơ sở đữ liệu hoạt động và sản xuât Điều này tạo ra sự tiết kiệm đáng kể,

Có kho đữ liệu cũng trích rút tài nguyên khan hiểm của hệ thông sản xuất khí

thực thi một chương trình quá lâu hoặc các báo cáo vả các câu truy vẫn phức hợp

Công việc kinh doanh trở nên thông mình hơn Tăng thêm chất lượng và tỉnh

Trang 15

linh hoạt của việc phân tích kinh doanh do phát sinh tử câu trúc dữ liêu đa tầng của

kho đữ liệu, đó là nơi cung cáp dữ liêu được sắp xếp tử mức độ chỉ tiết của công việc

kinh đoanh cho đến mức độ cao hơn - mức độ tổng quát Đảm bảo được đt liệu chính

Xác và dang tin cây do đảm bảo được là trong kho đữ liệu chỉ chứa đuy nhất dữ liệu có

chất lượng cao và én dinh (trusted data)

Dịch vụ khách hàng được nâng cao Một doanh nghiệp có thể giữ gìn mỗi quan

hệ với khách hàng tốt hơn đo có môi tương quan với đữ liêu của tât cả khách hang qua

một kho đữ liêu nêng

TTái sáng tạo những tiền trình kinh đoanh Sự cho phép phân tích không ngừng

thông tin kinh đoanh thưởng cung cấp sự hiểu biết mọi mặt của phương thức kinh

doanh đo đó có thể làm nảy sinh ra những ý kiến cho sư sáng tạo ra những tiền trình

nảy lại Chỉ khi xác định chỉnh xác các nhu cầu tử kho dữ liệu thì mới giúp ta đánh gia

được những hạn chẻ vả mục tiêu kinh doanh một cách chính xác hơn

Tải sảng tạo hệ thông thông tin Môt kho đữ liệu là nên tảng cho các yêu câu dữ

liệu trong mọi lĩnh vực kinh doanh, nó cung cấp một chí phí ảnh hướng nghữa là đưa ra

thói quen cho cho cả hai sự chuẩn hóa dữ liệu và sự chuẩn hóa hoạt động của hệ điều hành theo chuẩn quốc tế

1.1.4 Cấu trúc Kho dữ liệu

Central Data Warehouse (Trung tâm Kho dữ liệu)

Đó nơi phân lớn dữ liệu được lưu trữ Là tập hợp các Data Mart lưu trữ dữ liệu theo chủ đẻ Với câu trúc hủnh sao (Star Schema) đa chiều giúp việc lưu trữ dữ liệu động và thích hợp với đữ liệu phân tích với thao tác đọc là chỉnh

Centorat Gee Operational ‘Date ‘Data integration Piaform < oss Engine Application top

Trang 16

14

Data Integration Platform (Tich hap dit liéu}

La phan lưu đữ liện dược làm sạch lây từ hẻ thông nguồn đầy sang sau đỏ được

chuyển đổi (Iransformation) sang Kho dữ liệu Quả trình E[L diễn ra tại đây Việc tông hợp và lây dữ

A Biến đổi Asa Nạp a

Extract “Transform Load

Hình 1.5— Quy winh ETT

Từ dữ liệu nguồn hỗn độn, quy tinh RTT bat dau rat trich day vao các

Datasource tran hé thing nguén sau dé duoc Replication (chuyén sang) hé thang dich

chứa Kho đữ liệu tại các bảng chứa đữ liệu tạm PSA(PersistcnL Staging Aren) trên hệ

thống Kho dữ liệu trước khi được biến đổi (Transformation) sang đổi tượng trên Data

warchouse sau đó được Load (nạp) vào Kho dữ liệu

Data Mart (Kho dit fié cục bộ)

- Kho dir Hgu cue bd (Data Mart -DM) là CSDI, có những đặc điểm giống với kho dữ liều nhưng với quy mô nhỏ hơn và lưu trữ dữ liệu về xnột lĩnh vực, một chuyên ngành Dalanant là kho dữ hiệu hướng chủ đề

-_ Các DM có thể được hình thành từ một Tập con đữ liệu của kho dữ liệu hoặc

cũng có Thể được xây đựng độc lập và sau khi xây dựng xong, các DM có thể được kết nói tích hợp lại với nhau tạo thánh kho dữ liệu Vì vậy có thể xây dựng kho dữ liệu bắt đầu bằng việc xây đựng các DM hay ngược lại xây đựng kho đữ liệu trước sau đó tạo

1a các DM

-_ DM được chia ra là hai loại

co Data mart phu thudc (Dependent Data Mart): Chua nhimg dit ligu duge lay

từ DW và những dữ liệu này sẽ được trích loc va tinh chế, tích hợp lại ở mức cao hơn

để phục vụ một chủ đã nhất định của Datamart

Trang 17

© Data mart độc lập (Independent Data Marts): Không giống như Data Mart

phụ thuộc, Data mart độc lập được xây dựng trưởc DW và dữ liêu được trực tiếp lây từ

các nguồn khác nhau

~_ Metadata - dữ liệu của dữ liệu/thông tin vẻ dữ liệu Chức năng chính:

© Binh nghia dữ liệu

©_ Nguồn gốc của đữ liệu

© Câu trúc của dữ liệu

© Quy tắc cho việc lựa chọn và chuyển dữ liệu

© Dữ liệu định tính và định lượng vẻ đữ liệu

1.1.5 Mô hình thực thể trong Kho đữ liệu

Mô hình thực thể mỗi quan hệ được sử dụng phổ biến trong mô hình cơ sở đữ

liệu OLTP Tuy nhiên, mỏ hình cơ sở đữ liệu ER này không thích hợp cho việc thiết

kế kho dữ liêu vì phải truy vẫn tới quả nhiều bảng khác nhau Hầu hết các kho đữ liêu

sử dụng mô hình sao (star sehema).Mô hình này chỉ gồm duy nhât một bảng sự kiện

và một bảng chiều (đimention) cho mỗi chiều Trong bảng sự kiện sẽ có các trường

khóa ngoài liên kết với khóa chính của các bảng chiều

đỂtPmducID Integer lame - Natchar

(@customentd Nersr gece Nearchat

——— Seah, Integer Ot Supliers tease

1 ogee aie <Bempioyeieeser L—— 1 | ovaries achat Sine Min

| Peau SShpetode utte Tene “Setsnedr: Satie SUntehsioss Shut

Trang 18

l6

Fink 1.6— Dit ligu theo mé hinh sao

.Mỏ hình sao không hỗ trợ tốt cho các bảng chứa các thuộc tính phân cấp Mỏ hình bông,

tuyết (SnowFlake Schema)đưa ra giải pháp cho mô hình sao khả bảng có thuộc tính phân cấp,

THình 17 - Mé hinh bang tuvét

Điền này giúp cho vệc bảo trì cäe bang chiéu tét hon Tuy nhién cin tric macdinhtrong, sođồ sao của các bảng chiền có thể thích hợp hơn khí duyệt các chiền

Sodé chòm sao (faot constcllation) là một ví dụ cho câu trúc phức lạp khí cỏ nhiều hơn 1

bảng sự kiên Mỗi sođŠ sao có thể xây đựng thành sodd chom sao (ví đubằng, cách chia tách các Iượcđỗ sao gốc thành các lượcđồ sao mà mỗi chủngđược mô tả trên các cấp khác nhau của các

chiều phân cắp) Các kiến trúc sođỗ chàm sao bao gẫm nhiền bảng sự kiện vàđược chia sẽ cho

nhiền bảng chiều.

Trang 19

1.2 Báo cáo thông minh (Business Intelligent)

BI là một qui trình cỏ tích hợp công nghệ mả các doanh nghiệp dùng đẻ kiểm soát khỏi lượng đữ liệu không lồ đến từ nhiêu nguồn khác nhau và khai thác nguồn đữ

liệu đỏ giúp cho họ có thể đưa các các quyết định hiệu quả hơn trong hoạt động kinh

doanh của minh BI cỏ mặt ở khắp các đoanh nghiệp như hệ thông siêu thị, ngan hang,

viễn thông do đều là những nơi cần thu thập, xử lý khỏi lượng đữ liêu cực lớn

Giải pháp Kho dữ liệu - Data Warehouse (DW) và Báo cáo thông minh -

Business Intelligence (BI) thưởng đi chung với nhau như là một giải pháp tổng thé

phục vụ cho quá trình xây dựng một doanh nghiệp thông minh, thông qua việc tập hợp

và xử lý dữ liệu, đưa ra các báo cáo, phân tích vả dự đoán theo các góc nhìn đa chiêu

phục vụ cho các hoạt động theo dõi vả ra quyết định của doanh nghiệp

Mục địch chính của giải pháp là thông qua công nghệ thông tin (CNTT) để

thông kê, phân tích dữ liệu và mục tiêu kinh doanh để đưa ra các bảo cáo về hoạt động

của đoanh nghiệp trong quá khử và hiện tại, cũng như các dự bảo tương lai nhằm hỗ

trợ cải thiện hiệu suất kinh doanh và mang lại lợi nhuận cho đoanh nghiệp

Trong đó, Kho dữ liệu chỉ đơn giản là việc hợp nhất dữ liệu từ nhiều nguồn,

được chuẩn hóa để có thể khai thác tốt, hồ trợ trong việc đưa ra các quyết định mang

tỉnh chiến lược và chiến thuật Mục đích chỉnh của DW là luôn cung cấp một hình ảnh

Trang 20

18

thong nhất và chính xác nhật về đoanh nghiệp tại bất kỳ thời điểm nao Sir dung một

trong các giải pháp quán lý Kho đữ liệu, doanh nghiệp có thễ khai thác toàn bộ đữ liệu

của doanh nghiệp mình mã trước đây thường mắt rất nhiều công sức

BỊ là giải pháp sử dụng các kỹ năng, quí trình, công nghệ, ứng dụng đỗ hỗ trợ ra

quyết định, các công cụ BI nâng cao khả năng trợ giứp để đưa ra các quyết định mang

tỉnh chiên lược, chiến thuật va dem lại hiệu quả trong kinh doanh B1 cho phép doanh

nghiệp hiểnbiết về quá khử và dự đoán tương lai thông qua ting dung CNT dé cd thd

dễ đảng kiếm soát khỏi lượng dữ liễu khống lổ, khai phá tri thức sẵn có theo nhiều góc nhìn đầy đủ của một doanh nghiệp Mục đích chính của BỊ là hỗ trợ cho doanh nghiệp

ra quyết định tốt hơn

“Tóm lại,BI là qui trình và công nghệ má các doanh nghiệp dừng để kiểm soát khối lượng dữ liệu không lễ, khai phá trì thức giúp cho các doanh nghiệp cỏ thể đưa các các quyết định hiệu quả hơn trong hoạt động kanh: doanh cúa mình Công nghệ B1 (BI techuology) cung cấp mội cách nhân toàn cảnh hoạt động của đoanh nghiệp tử quả khứ, hiện tại và các dự đoán tương lai Mục đích của Bì là hỗ trợ cho đoanh nghiệp ra quyết định tốt hơn Vĩ vậy xuội lệ thông BI (BI systen) cờn được gọi là hệ thông hỗ

tro quyét dinh (Decision Support System -DS3)

1.2.1 Các giải pháp BI

Có rất nhiều hãng công nghệ tham gia vào mảng thì trường BỊ, theo đảnh giả cia Gartner vào tháng 01 năm 2011 thì các lãng trong hình đưới được xốp lưung thông

qua việc đánh giả các giải pháp xây dựng nền tăng BỊ trong doanh nghiệp để phục vụ

việc phải triển các ứng đụng BL

Các giải pháp B1 lớn thường có lợi ich là họ có nhiều kinh nghiêm trong việc

xây đựng hệ thông BI, đếp ứng đầy đủ các yêu cầu khách hàng, dễ đăng trong việc triển khai cũng như nâng cắp và nhiều tỉnh nàng day di hon, gác sản phẩm lớn thường

được Tựa chợn do thúc đẩy sự phát triển của đoanh nghiệp một cách nhanh chóng và hiệu quá trên nhiều Tĩnh vực kinh doanh Có thể liệt kè ra ở đầy các sán phẩm BI lớn nue

¥ SAP Business Objects

+ IBM —Cognos

¥ Microsoft BI solutions

v Oracle — Lyperion

¥ TIP —BI services

Loi ich chinh ma cdc phan mém BI mang Iai cho tổ chức/đoanh nghiên

Trang 21

x Chuyển những dữ liệu thô thành các số liệu biết nói các thông tin giá trị

‘Thu thap théng tin tử nhiều nguồn một cách nhanh chóng và chính xác

+ Hỗ trợ hiệu quả các hoạt đông quản lý thông qua việc đánh giá hoạt đồng của

khách hàng, xu hướng thí trường và các chuỗi hoạt động hiệu quá và ôn đính

+ Dữ liệu chính xác và nhanh chóng giúp đưa ra quyết định kịp thời thông qua

các giao điện đồ họa, hiển thi cac chi tiêu đánh giả, theo đối

v Sit dung scorecard gitip phan đoán các tình hình tài chính, kinh doanh trong

tương lai gan

¥ Giai phap Enterprise Performance Management Systems cung cap cac gia

pháp xây dựng và dự toán, đảnh giả theo đổi các van đả, quản lý và khai thác hiệu quả

Data Marts, các chức năng bảo cảo cao cấp, truy cập từ nhiều thiết bị di động, các quy

trình xử lý tạo nên một nẻn tảng hỗ trợ toàn diện cho tổ chức/doanh nghiệp

1.2.2 Cấu trúc của báo cáo BỊ

‘Van đề cốt lõi trong hệ thông BI la kho dit ligu (Data Warehouse) va khai pha

dữ liêu (Data Mining) vi đữ liệu dùng trong BI là đữ liêu tổng hợp (Nhiều nguồn, nhiều đính đạng, phân tân và có tính lịch sử) đó là đặc trung của kho đữ liệu Đồng

thời việc phân tich dữ liệu trong BI không phải là những phân tích đơn giản (query,

Filtering) ma 1a những kỹ thuật trong khai pha dit ligu (Data Mining) ding dé phân

loai (classification) phan cum (clustering), hay dự đoản (Prediction) Vi vay BI co mỗi

quan hệ rất chặt chế với Data Warehouse và Data mining

nud User Business Analyse

Data Analyst

Trang 22

20

Tatasaurce’

v' Là cơ sở dữ hệu thô (thưởng là cơ sở đữ liệu quan hệ) dễn tử nhiều nguồn

khác nhau như các tr\g đụng business như Human Resource Management (HRM),

Customer relationship management (CRM), phin mém bin hang, website [ương mại

điện tử

¥ C6 thé 1a bắt cử hệ quản trị cơ sở đữ Ì

DB2,

undo ru MySQT., Oracle, MSSQT.,

#Thường được thiết kế theo mô bình cơ sở dữ liệu quam hệ ( vì dạng mô hình

nay đang rất phố biển trong thực tế )

Integrating Server:

¥ Chiu irich nhiệm trung gian van hanh géi ETL để chuyển đổi dứ liên từ

Data Sources vac Data Warehouse

Trang 23

Data Warehouse (Kho dit liéu)

* Là cơ sở dữ liệu được thiết kế theo mô hình khác với CSDL quan hệ và là

nơi lưu trữ dữ liệu lâu dài của tỗ chức

* Dữ liệu của Kho dữ liệu chỉ có thể đọc, ko ghỉ hay update được và chỉ được

update bởi gói ETL chuyển đổi dữ liệu từ Data Sources vào Data Warehouse

Data Mining (Khai phá dữ liêu): Các kỹ thuật dùng để khai phá dữ liệu và phát

hiện trí thie nhu phan loai (Classification), phan nhỏm (clustering), phát hiện luật kết

hợp (Association Rule), Dự đoán (Predcition)

Business Analyst (Phân tích kinh Doanh: Các nhà lãnh đạo Doanh nghiệp đưa

ra những quyết định chiên lược đôi với hoạt động kinh doanh của doanh nghiệp

Cac công nghệ hỗ trợ BI:

* Hệ thông hoạch định nguồn lực Doanh nghiép (Enterprise resource planning

(ERP systems)

/ Công nghệ truy vân và lập bảo cao (Query and report writing technologies)

+ Công cụ khai phá và phân tích dữ ligu (Data mining and analytics tools)

Hệ thông hỗ trợ ra quyết dinh (Decision support systems)

¥ Kho dit ligu (Data warehousing)

Trang 24

2

CHƯƠNG II QUY TRÌNH ETL TRONG KHO DU LIỆU 2.1 Téng quan ETL

214 Khai niém

Hệ thông ETI.Œxtmot-Traniorrmrload) là nên tổng của kho đữ liệu Một hệ

thếng ETL được thiết kế cho việc trích xnất dữ lên từ các hệ thống nguên, chuyển

đổi dữ liêuđêm bảo các nguồn độc lập có thể tích hợp, và cuổi cùng đữ liệu sau

clmyễn đổi được đưayào kho đữ liệu pimac vụ mục đích phát triển ửng dụng hay phục

vụ các mục đích kho dữ liệu

2.1.2 Vai trò của ETL trong kho đữ Hiệu

lệ thông )ZFL phải đồng một vai trò quan trọng trong việc cung cấp chọ các

ứng đụngngười sử dựng một khuôn đạng dữ liệu phủ hợp Bán chất Kho dữ liệu là quả

trình lẫy đữliệu từ các hệ thông LS và hệ thẳng co sở đữ liêu tác nghiệp và chuyển đổi

thành thông tineó tổ chức trong ruột định dạng thân thiện với người sứ dụng; trên cơ sở

đó có thé phan tichdit liệu và hỗ trợ quyết định kiii đoanh Quả bắt đầu từ các hệ

thông nguồn đến khi đữ hệuđược đưa vào các bảng chidu hay bang sự kiện sẽ chỉ phí ít

nhất 70% thời gian, nỗ bực củahẳu hết các đự án kho dữ liệu

1.1.3 Các chức năng của ETL

Trích xuất (Extrac0: Dữ liệu nguồn tử rất nhiều nguồn khác rau và có thể cỏ

rất nhiều câu trúc dữ Hậu khác nhau như nhiêu loại cơ sở đữ liệu, từ file excel hay tir

file thô Vì thể nhiệm vụ chính của bước này là trích xuất đít hiện từ hệ thông nguồn để

arly

Chuyển đổI(Iransform):Đây là quá trình rất phúc tap dùng để chmyễn đổi dir

liệu nguồn một mô hình khác phù hợp và chuyển vào cơ sở dữ liệu đỉch Ở bước này

sẽ phải sử dựng các phép chrryễn đổi như:

Trang 25

© Tìm kiểm hay so sánh đữ liệu

Co thé noi day 1a bước quan trọng nhất trong tiền trình ETL, nó thực hiện hầu

hết các nhiệm vụ của tiền trình ETL

Tải đữ liệu(Load): Đây là quả trình đây dữ liệu sau khi đã được chuyển đổi vào kho đữ liệu Dữliệu sau khi đã được chuyển đổi sẽ được tải vào kho dữ liêu

2.2, Kiến trúc của ETL

Có 3 kiểu kiên trúc ETL chính đỏ lä kiểu push, kiểu pull, kiể server trung gian

~Kiểu push: Trong kiến trúc này tiền trình ETL sẽ được chay tại server chứa

nguồn dữ liệu Mỗi khi cập nhật dữ liệu mới tiền trinh ETL sẽ xử ly tại nguồn đữ liệu

sau đó đây đữ liệu mới đã được xử lý cho kho đữ liệu Mô hình này thường được sử dụng nêu nguồn dữ liêu là từ một server và mảy nguồn đủ manh để xử lý tiền trình ETL Thông thường mô hình này sử dụng khi dữ liệu nguồn không quả phức tạp và

khối lượng đữ liệu không quá lớn

Tiển tình BTL

Nguân dữliêu Kho diều

Hình 2.1 tién trình ĐTL nằm ở nguồn dữ liệu

~Kiểu pull: Với kiến trúc này tiến trình ETL sẽ được chay ở server chứa kho

đữ liệu Mỗi khi cập nhật dữ liệu tiễn trình này sẽ kết nỗi tới các nguồn dữ liệu và lẫy

dữ liệu về xứ lý sau đỏ nạp vào kho dữ liêu Ở kiển trúc nây dữ liệu nguồn có thể từ

nhiều nơi khác nhau, tuy nhiên máy chứa kho đữ liệu cần phải có đủ năng lực xử ly tiễn trình ETL Cũng như kiển push kiểu kiến trúc này cũng được sử dụng khú khỏi lượng đữ liệu và khối lượng thao tác không quá lớn.

Trang 26

Tiên trình ETL,

a

Nguén dirligu ÍCho dữ liệu

Hình 2.2 - Tiên trình ETL nằm ở server chứa kho dữ liệu

Kiểu server trung gian Đây là kiến trúc máy tiền trình ETL sẽ được chạy trên một máy độc lập vi cả kho dữ liệu và nguôn dữ liêu Tiền trình sé dén lay dữ liêu

tử nguồn đữ liệu sau đó xử lý và nạp vào kho dữ liệu Kiểu kiến trúc này thường được

áp dụng cho các kho dữ liệu lớn, ở đây tiền trình ETL sẽ được chay trên một máy độc

lập đủ năng lực xử lý

tn tinh ETL

She

Nguôn đhiện Nguốnđblêu Nguồn đữhệu

“Hình 2 3 - Tiên trình ETL nằm ở server trung gian

2.3 Kỹ thuậtETL trong kho dữ liệu

2.3.1 Xác định nguồn đữ liệu

Dữ liệu trong hệ thông nguồn có thể rơi vào hai loại :

~_ Giá trị hiện tại : Hầu hết các thuộc tính trong các hệ thông nguồn rơi vào

Joai nay Oday gia trị được lưu trữ của một thuộc tỉnh mô tả giả trị của thuộc tính ngay

thời điểm nàycúa thời gian Các giá trị tạm thời hoặc nhất thời Khi các giao dich Xây

Ngày đăng: 21/05/2025, 20:53

HÌNH ẢNH LIÊN QUAN

Hình  3.1S—  Tập  trình  ROUTINE  tính  toàn  chuyễn  déi  sang  Model  viv  ODS.  42 - Luận văn xây dựng kho dữ liệu và báo cáo quản trị bi cho tập Đoàn vingroup với hệ thống sap bobi
nh 3.1S— Tập trình ROUTINE tính toàn chuyễn déi sang Model viv ODS. 42 (Trang 8)
Hình  12—  Tỉnh  thời  gian  của  dữ  liệu - Luận văn xây dựng kho dữ liệu và báo cáo quản trị bi cho tập Đoàn vingroup với hệ thống sap bobi
nh 12— Tỉnh thời gian của dữ liệu (Trang 14)
Hình  1.4—  Kiên  tráe  của  Kho  đữ  liệu - Luận văn xây dựng kho dữ liệu và báo cáo quản trị bi cho tập Đoàn vingroup với hệ thống sap bobi
nh 1.4— Kiên tráe của Kho đữ liệu (Trang 15)
Hình  1.5—  Quy  winh  ETT. - Luận văn xây dựng kho dữ liệu và báo cáo quản trị bi cho tập Đoàn vingroup với hệ thống sap bobi
nh 1.5— Quy winh ETT (Trang 16)
Hình  1.S—  Mô  hình  chòm  sao - Luận văn xây dựng kho dữ liệu và báo cáo quản trị bi cho tập Đoàn vingroup với hệ thống sap bobi
nh 1.S— Mô hình chòm sao (Trang 19)
Hình  2.1  tién  trình  ĐTL  nằm  ở  nguồn dữ  liệu - Luận văn xây dựng kho dữ liệu và báo cáo quản trị bi cho tập Đoàn vingroup với hệ thống sap bobi
nh 2.1 tién trình ĐTL nằm ở nguồn dữ liệu (Trang 25)
Hình  2.2  -  Tiên  trình  ETL  nằm  ở  server  chứa  kho  dữ  liệu - Luận văn xây dựng kho dữ liệu và báo cáo quản trị bi cho tập Đoàn vingroup với hệ thống sap bobi
nh 2.2 - Tiên trình ETL nằm ở server chứa kho dữ liệu (Trang 26)
Hình  3.3  —  Function  Module  trich  xudt  dit  liéu  nguén. - Luận văn xây dựng kho dữ liệu và báo cáo quản trị bi cho tập Đoàn vingroup với hệ thống sap bobi
nh 3.3 — Function Module trich xudt dit liéu nguén (Trang 35)
Hình  3.6  ~  Kết  quả  Extract  Datasource  3.3.1.2  Tạo  chiều  phân  tích  (Dimension) - Luận văn xây dựng kho dữ liệu và báo cáo quản trị bi cho tập Đoàn vingroup với hệ thống sap bobi
nh 3.6 ~ Kết quả Extract Datasource 3.3.1.2 Tạo chiều phân tích (Dimension) (Trang 37)
Hình  3.9  —  Bang  chuta  dit  liệu  của  đổi  tượng. - Luận văn xây dựng kho dữ liệu và báo cáo quản trị bi cho tập Đoàn vingroup với hệ thống sap bobi
nh 3.9 — Bang chuta dit liệu của đổi tượng (Trang 38)
Hình  3  15—  Thành  phân  đữ  liệu  của  ODS - Luận văn xây dựng kho dữ liệu và báo cáo quản trị bi cho tập Đoàn vingroup với hệ thống sap bobi
nh 3 15— Thành phân đữ liệu của ODS (Trang 41)
Hình  3.14—  Kết  quả  TransfFomation - Luận văn xây dựng kho dữ liệu và báo cáo quản trị bi cho tập Đoàn vingroup với hệ thống sap bobi
nh 3.14— Kết quả TransfFomation (Trang 41)
Hình  3  17—  Thông  tin  Model  CAPEX - Luận văn xây dựng kho dữ liệu và báo cáo quản trị bi cho tập Đoàn vingroup với hệ thống sap bobi
nh 3 17— Thông tin Model CAPEX (Trang 42)
Hình  3.1S~  Lập  trình  ROUTINE  tính  toán  chuyển  đổi  sang  Model  từ  ODS - Luận văn xây dựng kho dữ liệu và báo cáo quản trị bi cho tập Đoàn vingroup với hệ thống sap bobi
nh 3.1S~ Lập trình ROUTINE tính toán chuyển đổi sang Model từ ODS (Trang 43)
Hình  3.21  —Két  qua  sau  khi  nap  dit  lieu  chuyér - Luận văn xây dựng kho dữ liệu và báo cáo quản trị bi cho tập Đoàn vingroup với hệ thống sap bobi
nh 3.21 —Két qua sau khi nap dit lieu chuyér (Trang 45)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w