1. Trang chủ
  2. » Luận Văn - Báo Cáo

Quá trình ETL trong xây dựng kho dữ liệu cho hệ thống xử lý giám sát trực tuyến của NHTMCP ngoại thương việt nam khoá luận tốt nghiệp 604

84 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 84
Dung lượng 6,41 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

HỌC VIỆN NGÂN HÀNG KHOA HỆ THỐNG THÔNG TIN QUẢN LÝKHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC QUÁ TRÌNH ETL TRONG XÂY DỰNG KHO DỮ LIỆU CHO HỆ THỐNG XỬ LÝ GIÁM SÁT TRỰC TUYẾN CỦA NGÂN HÀNG THƯƠNG MẠI CỔ

Trang 2

HỌC VIỆN NGÂN HÀNG KHOA HỆ THỐNG THÔNG TIN QUẢN LÝ

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC

QUÁ TRÌNH ETL TRONG XÂY DỰNG KHO DỮ LIỆU CHO HỆ THỐNG XỬ LÝ GIÁM SÁT TRỰC TUYẾN CỦA NGÂN HÀNG THƯƠNG MẠI CỔ

PHẦN NGOẠI THƯƠNG VIỆT NAM

LÊ HUY HOÀNG

HÀ NỘI, NĂM 2020

Trang 3

HỌC VIỆN NGÂN HÀNG KHOA HỆ THỐNG THÔNG TIN QUẢN LÝ

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC

QUÁ TRÌNH ETL TRONG XÂY DỰNG KHO DỮ LIỆU CHO HỆ THỐNG XỬ LÝ GIÁM SÁT TRỰC TUYẾN CỦA NGÂN HÀNG THƯƠNG MẠI CỔ

PHẦN NGOẠI THƯƠNG VIỆT NAM

Giáo viên hướng dẫn: ThS Nguyễn Dương Hùng Sinh viên thực hiện: Lê Huy Hoàng

Mã sinh viên: 19A4040064 Lớp: K19HTTTA Khóa: Hệ thống Thông tin Quản lý Hệ: Đại học chính quy

Hà Nội, tháng 6/2020

Trang 4

Khóa luận tốt nghiệp

Em xin bày tỏ lòng biết ơn sâu sắc đến thầy giáo - ThS Nguyễn Dương Hùng,người

đã hướng dẫn cho em trong suốt thời gian thực tập Thầy đã không ngần ngại chỉ dẫn

em, định hướng đi cho em để em hoàn thành tốt nhiệm vụ

Em xin cảm ơn công ty Cổ phần Hệ thống Công nghệ ETC đã giúp đỡ em trongsuốt

thời gian em thực tập tại công ty Các anh chị đã dành thời gian hướng dẫn cũng nhưtạo

điều kiện tốt nhất để em có thể hoàn thành bài báo cáo tốt nghiệp của mình

Tuy nhiên do kiến thức chuyên ngành còn hạn chế và bản thân còn thiếu nhiềukinh

nghiệm thực tiễn nên nội dung của bài báo cáo không thể tránh khỏi những thiếu sót,

em rất mong nhận được sự góp ý, chỉ bảo thêm của thầy cô để bài báo cáo này đượchoàn thiện hơn

Một lần nữa xin gửi đến các thầy cô, các anh chị tại công ty ETC lời cảm ơn chânthành nhất!

Sinh viên thực hiện

Lê Huy Hoàng

Trang 5

Khóa luận tốt nghiệp

LỜI CAM KẾT

Em xin cam đoan bài báo cáo: "QUÁ TRÌNH ETL TRONG XÂY DỰNG KHODỮ

THƯƠNG MẠI CỔ PHẦN NGOẠI THƯƠNG VIỆT NAM" là sản phẩm nghiên cứucủa em Trong toàn bộ nội dung của bài báo cáo, những điều em trình bày có thamkhảo

từ nhiều nguồn tài liệu Tất cả tài liệu đều được trích dẫn rõ ràng và hợp pháp

Em xin hoàn toàn chịu trách nhiệm về bài báo cáo tốt nghiệp của mình

Sinh viên thực hiện

Lê Huy Hoàng

Trang 6

Khóa luận tốt nghiệp

NHẬN XÉT

(Của cơ quan thực tập)

về các mặt: Ý thức chấp hành nội quy, thái độ làm việc của sinh viên tại nơi thực tập;Tiến độ, kết quả thực hiện công việc được giao; Tính thực tiễn, ứng dụng của đề tài

Sau quá trình thực tập tại công ty Cổ phần Hệ thống Công nghệ ETC của sinh viên

Lê Huy Hoàng, chúng tôi có một số nhận xét như sau:

- Sinh viên Lê Huy Hoàng có ý thức chấp hành nghiêm túc nội quy, nề nếp mà công ty

đặt ra.

- Có tinh thần học hỏi, tìm hiểu hoạt động tổ chức của công ty, phục vụ cho khóa luận

tốt nghiệp.

- Có ý thức trong công việc, có tinh thần, trách nhiệm cao, hòa đồng với mọi người,

hoàn thành tốt các công việc được giao.

Hà Nội, ngày 08 tháng 06 năm 2020

Người nhận xét

(Ký tên, đóng dấu)

Trang 7

Khóa luận tốt nghiệp

NHẬN XÉT

(Của giáo viên hướng dẫn)

về các mặt: Mục đích của đề tài; Tính thời sự và ứng dụng của đề tài; Bố cục và hìnhthức trình bầy đề tài; Ket quả thực hiện đề tài; Ý thức, thái độ của sinh viên trong quá

trình thực hiện đề tài

Kết luận :

Hà Nội, ngày 09 tháng 06 năm 2020

Giáo viên hướng dẫn

(Ký tên)

ThS Nguyễn Dương Hùng

Trang 8

Khóa luận tốt nghiệp

MỤC LỤC

MỞ ĐẦU 1

CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN VỀ BÀI TOÁN 3

1.1 Giới thiệu đơn vị thực tập 3

1.1.1 Quá trình hình thành và phát triển 3

1.1.2 Định hướng phát triển 6

1.1.3 Bộ máy tổ chức 7

1.1.4 Các sản phẩm và dịch vụ của doanh nghiệp 9

1.2 Giới thiệu sơ lược về Ngân hàng TMCP Ngoại thương Việt Nam 10

1.3 Giới thiệu bài toán quá trình ETL trong xây dựng kho dữ liệu cho hệ thống xử lý giám sát trực tuyến 11

1.3.1 Lý do lựa chọn bài toán 11

1.3.2 Dữ liệu của bài toán 12

1.3.3 Ý nghĩa thực tế của bài toán 12

1.3.4 Phạm vi thực hiện bài toán 12

Kết luận chương 1 13

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT ĐỂ THỰC HIỆN ĐỀ TÀI 14

2.1 Tổng quan về kho dữ liệu 14

2.1.1 Khái niệm về kho dữ liệu 14

2.1.2 Đặc trưng của kho dữ liệu 15

2.1.3 Mô hình kho dữ liệu 16

2.1.4 Mục đích của kho dữ liệu 19

2.2 Quá trình ETL trong xây dựng kho dữ liệu 19

2.2.1 Khái niệm về ETL 19

2.2.2 Vị trí và tầm quan trọng của ETL trong kho dữ liệu 19

2.2.3 Các thành phần của ETL 20

2.2.4 Quá trình xử lý dữ liệu 21

2.2.5 Yêu cầu đối với quá trình ETL 23

Trang 9

STT Chữ viết tắt Tiếng Anh Nghĩa tiếng Việt

Khóa luận tốt nghiệp

2.2.6 Các yếu tố quan trọng đối với ETL 24

2.2.7 Các khó khăn khi thực hiện ETL 24

2.3 Các công cụ sử dụng 24

2.3.1 Công cụ IBM InfoSphere DataStage 24

2.3.2 Oracle SQL Developer 31

Kết luận chương 2 32

CHƯƠNG 3: QUÁ TRÌNH ETL TRONG XÂY DỰNG KHO DỮ LIỆU CHO HỆ

THỐNG XỬ LÝ GIÁM SÁT TRỰC TUYẾN CỦA NGÂN HÀNG TMCP NGOẠI THƯƠNG VIỆT NAM 33

3.1 Hệ thống giám sát trực tuyến 33

3.1.1 Dynatrace 33

3.1.2 Tính năng của hệ thống 33

3.1.3 Quá trình trích xuất dữ liệu từ hệ thống Dynatrace về Oracle 33

3.2 Thiết kế bảng 34

3.2.1 Mô hình dữ liệu 34

3.2.2 Mô tả ý nghĩa bảng 35

3.2.3 Mô tả ý nghĩa cột 35

3.3 Xây dựng các Jobs để xử lý dữ liệu 40

3.3.1 Giới thiệu chung 40

3.3.2 Jobs GET_PROBLEM 42

3.3.3 Job GET_SERVICE 43

3.4 Quá trình chạy các Parallel jobs để nạpdữ liệu vào kho 43

3.4.1 Kiểm soát quá trình chạy Parallel Jobs 43

3.4.2 Kiểm tra dữ liệu được nạp vào kho 46

3.5 Gửi thông báo về Email 47

3.5.1 Thiết lập SMTP cho máy chủ 47

3.5.2 Thiết lập thông số để gửi thông báo 60

KẾT LUẬN 65

TÀI LIỆU THAM KHẢO 66

Khóa luận tốt nghiệp

DANH MỤC CÁC CHỮ VIET TẮT

Trang 10

1 ETL Extract-Transform-Load Quá trình trích xuất, biến đổi và

8 BI Business Intelligence Business Intelligence

Protocol

Simple Mail Transfer Protocol

Environment

Môi trường phát triển tích hợp

để làm việc với code

Trang 11

Lê Huy Hoàng - 19A4040064 Page | vii

Trang 12

Khóa luận tốt nghiệp

DANH MỤC HÌNH VẼ

Hình 1 Sơ đồ bộ máy tổ chức công ty ETC 7

Hình 2 Giới thiệu về kho dữ liệu 14

Hình 3 Sơ đồ hình sao 16

Hình 4 Sơ đồ tuyết rơi 17

Hình 5 Sơ đồ kết hợp 18

Hình 6 Các thành phầncủa ETL 20

Hình 7 Quá trình xử lýdữliệu 22

Hình 8 IBM InfoSphere DataStage 25

Hình 9 Funnel Stage trong DataStage Parallel Jobs 26

Hình 10 Minh họa thiết lập cho Funnel Stage 26

Hình 11 Remove Duplicates Stage trong DataStage Parallel Jobs 27

Hình 12 Minh họa thiết lập cho Remove Duplicates Stage 27

Hình 13 Transformer Stage trong DataStage Parallel Jobs 28

Hình 14 Minh họa thiếtlập cho Transformer Stage 28

Hình 15 Job Activity Stage trong DataStage Sequence Jobs 29

Hình 16 Minh họa thiếtlập cho Job Activity Stage (Tab Job) 29

Hình 17 Minh họa thiếtlập cho Job Activity Stage (Tab Triggers) 30

Hình 18 Notification Activity Stage trong DataStage Sequence Jobs 30

Hình 19 Oracle SQL Developer 31

Hình 20 Mô hình dữ liệu 34

Hình 21 Job GET_DAILY 41

Hình 22 Job GET_PROBLEM 42

Hình 23 Job GET_SERVICE 43

Hình 24 Giao diện IBM DataStage Designer 43

Hình 25 Hộp thoại Selection Override 44

Hình 26 Hộp thoại Compiler Options 44

Hình 27 Hộp thoại Compile Process 45

Hình 28 Trạng thái Compile của các Jobs 45

Trang 13

Khóa luận tốt nghiệp

Hình 29 Thuộc tính của job GET_PROBLEM 46

Hình 30 Dữ liệu giả lập 46

Hình 31 Giao diện tìm kiếm WindowServer 2012 47

Hình 32 Giao diện Server Manager 47

Hình 33 Giaodiện step Before You Begin 48

Hình 34 Giaodiện step Installation Type 48

Hình 35 Giaodiện step Server Selection 49

Hình 36 Giaodiện step Server Roles 49

Hình 37 Giaodiện step Add Roles and Features Wizard 50

Hình 38 Giaodiện step Features 50

Hình 39 Giaodiện step Confirmation 51

Hình 40 Giaodiện step Results 51

Hình 41 Giao diện search IIS 52

Hình 42 Giao diện Internet Information Services 6.0Manager 52

Hình 43 Giaodiện Properties tab General 53

Hình 44 Giaodiện Properties tab Access 53

Hình 45 Giao diện Connection 54

Hình 46 Giao diện Computer 54

Hình 47 Giao diện Connection 55

Hình 48 Giao diện Properties tab Access 55

Hình 49 Giao diện Relay Restrictions 56

Hình 50 Giaodiện Properties tab Delivery 56

Hình 51 Giaodiện Advanced Delivery 57

Hình 52 Giaodiện Properties tab Delivery 57

Hình 53 Giaodiện Outbound Security 58

Hình 54 Giaodiện Properties tab Delivery 58

Hình 55 Giaodiện Outbound Connections 59

Hình 56 Giaodiện Properties tab Delivery 59

Hình 57 Bảo mật trong Gmail 60

Hình 58 Giao diện cho phép truy cập từ ứng dụngkém antoàn 61

Trang 14

Khóa luận tốt nghiệp

Hình 59 Giao diện Jobs Notification Activity 61

Hình 60 Giao diện config Notification Activity 61

Hình 61 Thông số thiết lập Email 62

Hình 62 Giao diện Log Event Detail 63

Trang 15

Khóa luận tốt nghiệp

DANH MỤC BẢNG BIỂU

Bảng 1 Mô tả các bảng dữ liệu 35

Bảng 2 VCB_TAG_CFG 35

Bảng 3 VCB_TAGINFO 36

Bảng 4 VCB_PROBLEM 36

Bảng 5 VCB_EVENTS 37

Bảng 6 VCB_PRO_EVENTSEVERITY 39

Bảng 7 VCB_TAG_SERVICE 39

Bảng 8 VCB_SERVICE 40

Trang 16

Khóa luận tốt nghiệp

MỞ ĐẦU

Cuộc cách mạng công nghiệp lần thứ tư là vấn đề nóng đang được cả thế giới quantâm hướng đến Đây được đánh giá như một trong bốn cột mốc của nhân loại, được dựbáo sẽ thay đổi hoàn toàn cuộc sống của chúng ta trong tương lai Yếu tố chi phối đượcnhắc đến trong cuộc cách mạng công nghiệp lần thứ tư ở đây chính là dữ liệu và thôngtin được lưu trữ trên các hệ thống Ngày nay, việc sử dụng các công cụ quản trị khôngnhững giúp con người dễ dàng quản lý các thông tin một cách logic, khoa học và hợplý

mà còn được kỳ vọng sẽ khai thác nhiều giá trị hơn từ kho dữ liệu để chắt lọc ra các trithức Từ đó những thông tin chúng ta chắt lọc được có thể đưa ra các dự báo, các cảnhbáo về xu hướng trong tương lai để có thể đưa ra các biện pháp, các hành động giúpứng

đào tạo theo mỗi khóa học nhằm có sự thay đổi liên tục đáp ứng nhu cầu cần thiết củahọc viên, nâng cao chất lượng giảng dạy, tạo ra sự hài lòng của học viên trong quá trìnhdiễn ra cũng như kết thúc khóa học

Ngân hàng thương mại cổ phần Ngoại thương Việt Nam hiện đang lưu trữ mộtkhối

lượng dữ liệu khổng lồ, bao gồm các dữ liệu như thông tin về khách hàng, chi tiết cácgiao dịch cũng như lịch sử tín dụng của khách hàng, Nếu những dữ liệu này đượckhai thác một cách triệt để thì nó sẽ là một lợi thế để ngân hàng vươn lên trong cuộccách mạng công nghiệp lần thứ tư bằng cách triển khai các dịch vụ chăm sóc kháchhàng

phù hợp với từng đối tượng phân khúc khách hàng Đồng nghĩa với đó là cơ hội đểtăng

lợi thế cạnh tranh đối với các ngân hàng khác Việc xây dựng kho dữ liệu cho hệ thống

xử lý giám sát trực tuyến của Ngân hàng thương mại cổ phần Ngoại thương Việt Nam

là thiết yếu và cần phải triển khai ngay Tuy nhiên, việc triển khai xây dựng kho dữ liệucần phải đảm bảo được tính ổn định cũng như tính tích hợp, tuân theo một số chủ đềchính và có tính biến đổi theo thời gian

Kho dữ liệu thường bao gồm nhiều thành phần khác nhau, mỗi thành phần có mộtchức năng riêng trong đó thành phần chịu trách nhiệm cho việc trích xuất, chuyển đổi

Trang 17

Khóa luận tốt nghiệp

và nạp dữ liệu (Extract, Transform, Load hay gọi tắt là ETL) đóng vai trò then chốt Cụthể hơn, hệ thống ETL đảm nhiệm việc trích xuất các dữ liệu từ nhiều nguồn khác nhau,làm sạch, tùy chỉnh theo khuôn dạng nhất định và nạp dữ liệu vào trong kho dữ liệu.Quá trình ETL chiếm phần lớn trong thời gian xây dựng hệ thống kho dữ liệu Vì vậy,việc đánh giá đúng vai trò và đầu tư đúng hướng cho quá trình ETL sẽ giúp cho việcxây

dựng kho dữ liệu được tốt nhất

Quá trình ETL trong xây dựng kho dữ liệu đóng một vai trò quan trọng trong việccung cấp cho các ứng dụng một khuôn dạng dữ liệu phù hợp, không bị đi lệch so vớimục đích ban đầu Ngoài ra nó còn giúp giảm thiểu thời gian trong dự án xây dựng kho

dữ liệu, đảm bảo cho sự phát triển của các hệ thống liên quan

Với những lý do đã nêu trên, em lựa chọn đề tài “QUÁ TRÌNH ETL TRONGXÂY

NGÂN HÀNG THƯƠNG MẠI CỔ PHẦN NGOẠI THƯƠNG VIỆT NAM” bằng cách

sử dụng công cụ IBM InfoSphere DataStage và hệ quản trị cơ sở dữ liệu Oracle nhằmthiết lập và ứng dụng quá trình ETL vào việc trích xuất, chuyển đổi và nạp dữ liệu vào

hệ thống kho dữ liệu

Trang 18

Khóa luận tốt nghiệp

CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN VỀ BÀI TOÁN

1.1 Giới thiệu đơn vị thực tập

nghiệp lớn Công ty luôn chủ động tiếp cận với những công nghệ tiên tiến nhất vớimong

muốn mang đến những giải pháp CNTT phù hợp với hoàn cảnh sử dụng, bắt kịp xu thế

và nâng cao hiệu quả kinh doanh cho khách hàng

Năm 2004: Công ty ETC được thành lập với 05 thành viên.

Năm 2005 - 2006: Phát triển sản phẩm giám sát hình ảnh

Tiên phong lắp đặt mạng cáp quang đầu tiên cho một số ngân hàng TMCP lớn tạiViệt Nam

Tự hào là đơn vị triển khai thành công trên toàn quốc Hệ thống quản lý giám sát IPCamera đầu tiên và đạt giải thưởng SONY Award cho những đóng góp quan trọngtrong

giám sát Camera - APAC (2005, 2006)

Triển khai thành công trên phạm vi toàn quốc Hệ thống quản lý, giám sát IPcamera

cho máy rút tiền tự động đầu tiên và tiếp tục đạt giải thưởng SONY SpecialRecognition

Award IPELA và giải thưởng IP monitoring: Special recognition Outstandingperformance in FY trong lĩnh vực giám sát IP Camera - APAC (2006)

Năm 2007 - 2009: Tập trung mở rộng và phát triển sản phẩm thanh toán

quản lý phát hành và chấp nhận thanh toán thẻ trả trước (2007)

Tự hào được chọn là đơn vị triển khai cung cấp, lắp đặt số lượng thiết bị thanh toánđầu cuối (POS) lớn nhất tại Việt Nam năm 2008 Triển khai thành công Hệ thống thanhtoán thẻ phi tiếp xúc trên toàn quốc, tại gần 2000 điểm mua bán xăng dầu và hệ thốngPOS không dây cho 2000 xe taxi (2008)

Bên cạnh việc phát triển sản phẩm mới, ETC tiếp tục giữ vững sản phẩm thế mạnhcủa mình và vinh dự đạt giải thưởng Successful Business Model of bank ATM projects(2008) và SONY Recognition Award cho lĩnh vực giám sát IP Camera trong lĩnh vựcngân hàng (2009)

Trang 19

Khóa luận tốt nghiệp

Năm 2010 - 2011: Phát triển cung cấp các giải pháp tích hợp hệ thống

Triển khai thành công hệ thống máy chủ tổng thể cho một ngân hàng lớn tại ViệtNam

Là đơn vị tiên phong cung cấp giải pháp bảo mật khóa công khai PKI cho ngânhàng

tại Việt Nam, đồng thời cung cấp các giải pháp lớn như Giải pháp quản lý sự kiện tậptrung, giải pháp giám sát, tự động phát hiện và ngăn chặn xâm nhập IPS

Triển khai thành công hệ thống thanh toán phi tiếp xúc sử dụng các tính năng bảomật nhất của NXP DESFire EV1

Vinh dự đạt giải thưởng Partner of the year for IndoChina của RSA (2010), giảithưởng Solution Partner của năm trong khu vực Đông Nam Á của Milestone (2010) vàgiải thưởng Silver Partner của HP (2011)

Đồng thời, mở rộng phạm vi hoạt động của doanh nghiệp bằng việc khai trương 02trung tâm bảo hành tại thành phố Hồ Chí Minh, Đà Nằng

Năm 2012 - 2014: Mở rộng cung cấp, triển khai hàng loạt các giải pháp, quan trọng

và phức tạp trong lĩnh vực ngân hàng ETC tự hào là đơn vị được tin tưởng giao trọng trách triển khai những giải pháp quy mô lớn cùng những đối tác uy tín hàng đầu về công nghệ thông tin trên thế giới:

Giải pháp Hệ thống khởi tạo khoản vay LOS với đối tác Integro

Giải pháp Hệ thống hội nghị truyền hình có quy mô lớn nhất, được triển khai trênquy mô toàn quốc

Giải pháp Kho dữ liệu doanh nghiệp EDW phát triển trên nền tảng giải pháp SAPquy mô lớn và phức tạp nhất từ trước đến nay từng được triển khai ở Việt Nam

Giải pháp Internet Banking cho ngân hàng Ngoài việc cung cấp giải pháp, ETCvẫn

luôn phát huy các thế mạnh của mình trong lĩnh vực tích hợp hệ thống

Triển khai hoàn chỉnh, thành công hạ tầng cho một trung tâm dữ liệu quy mô lớn.Triển khai thành công hệ thống Firewall cho Bộ Tài chính

Cung cấp hạ tầng phần cứng CoreBanking đồng thời cung cấp dịch vụ Quản lýchất

lượng CoreBanking cho ngân hàng cùng nhiều các sản phẩm phần cứng khác

Năm 2015 - 2016: Bằng năng lực và thế mạnh của mình, ETC ngoài các khách hàng

lâu năm là các ngân hàng lớn đã tiếp tục mở rộng thị trường và khách hàng, hướng

Trang 20

Khóa luận tốt nghiệp

đến các cơ quan, đơn vị trong khối tài chính công như Bộ tài chính, Tổng cục Hải Quan, Tổng cục Thuế,

Năm 2015, ETC vinh dự được lựa chọn là đơn vị xây dựng và triển khai thànhcông

hệ thống thông tin phục vụ triển khai cơ chế Hải quan một cửa quốc gia

Lần đầu tiên nghiên cứu và giới thiệu đến khách hàng tổng thể hệ thống, giải phápCore Chứng khoán

Tiên phong nghiên cứu phát triển và cung cấp thành công giải pháp thu phí tự độngkhông dừng với công nghệ RFID hiện đại bậc nhất thế giới

Trở thành đơn vị đầu tiên về công nghệ thông tin ở Việt Nam tiên phong đầu tư thửnghiệm và cung cấp giải pháp VDI tổng thể cho các khách hàng Trong đó, hệ thống đãđược triển khai cho Ngân hàng VietinBank - ngân hàng hàng đầu Việt Nam với mạnglưới chi nhánh, phòng giao dịch cực lớn, trải rộng khắp các tỉnh thành, bởi vậy, hệthống

được đánh giá là một trong những hệ thống VDI lớn và phức tạp nhất hiện tại

Hai năm liền đạt giải thưởng Rising Star Partner of the Year do VMware trao tặng(2015, 2016), giải thưởng Strategic Win of the Year do VMware trao tặng (2016)

dịch vụ đạt chất lượng quốc tế của SAP cho các khách hàng tại thị trường Việt Nam.Với chuyên môn sâu rộng về lĩnh vực công nghệ thông tin, đội ngũ chuyên gia tư vấn

am hiểu thị trường và môi trường kinh doanh, thỏa thuận hợp tác giữa United VARs vàETC hứa hẹn mang đến những giải pháp công nghệ toàn diện, tạo ra giá trị gia tăng,đem lại sự hài lòng cho khách hàng

Tháng 5/2017, ETC chính thức trở thành một trong hai công ty đầu tiên đầu tư vàoKhu Phần mềm thuộc Khu Công nghệ cao Hòa Lạc thông qua việc Ký hợp đồngnguyên

tắc thuê hạ tầng kỹ thuật với công ty TNHH MTV Phát triển khu Công nghệ cao Hòa

Trang 21

Khóa luận tốt nghiệp

Lạc Với tổng diện tích đầu tư lên đến 3.87 ha, ETC thực sự đã đánh dấu một bướcngoặt

lớn trong quá trình phát triển của mình Công nghệ cao, đặc biệt là công nghệ phầnmềm

là nơi mà chúng ta có thể nhanh chóng đuổi kịp và bứt phá trên thị trường thế giới.Công

ty ETC mang theo định hướng chiến lược liên kết với các hãng cung cấp phần mềm nổitiếng trên thế giới để đưa những sản phẩm công nghệ hiện đại nhất có sự đóng góp củachất xám Việt, trí tuệ Việt đến với thị trường Việt Nam, giảm thiểu sự phụ thuộc vàođối tác nước ngoài Đó là kim chỉ nam, là mục tiêu cốt lõi của ETC khi xây dựng kếhoạch đầu tư tại đây [1]

tin bao gồm Dịch vụ tích hợp hệ thống, Phát triển giải pháp phần mềm, Dịch vụ côngnghệ thông tin khác

Xây dựng và phát triển dịch vụ Công nghệ thông tin chuyên nghiệp trọn gói baogồm dịch vụ tư vấn và triển khai giải pháp IT tổng thể, dịch vụ phần mềm, dịch vụ bảotrì

Định hướng mở rộng thị trường khách hàng đa dạng, hướng tới các khách hàng làcác ngân hàng lớn, các cơ quan tổ chức đặc biệt là các cơ quan trong khối tài chínhcông

Đồng thời tiếp tục phát triển và tìm kiếm các khách hàng là các doanh nghiệp và tậpđoàn trong các lĩnh vực khác

Tăng cường năng lực quản lý, áp dụng công nghệ trong việc quản lý, chú trọngnâng

cao chất lượng nguồn nhân lực và quy trình quản lý chất lượng

Trong việc phát triển hợp tác, ETC chú trọng hướng đến việc xây dựng những mốiquan hệ hợp tác toàn diện, trở thành đối tác tin cậy của các hãng Công nghệ thông tinhàng đầu thế giới Cùng các đối tác nghiên cứu phát triển để đưa ra những định hướngcông nghệ lớn, hiện đại, tối ưu cho thị trường và phù hợp nhất với nhu cầu của kháchhàng.[2]

Trang 22

Khóa luận tốt nghiệp

1.1.3 Bộ máy tổ chức

Chủ tịch Hội đông quân trị

Hình 1 Sơ đồ bộ máy tổ chức công ty ETC

Chức năng và nhiệm vụ của các phòng ban:

TPNS tổ chức hướng dẫn các nhân viên mới hội nhập với công việc Thường công

ty chỉ đào tạo ngắn hạn cho nhân viên các kỹ năng và kiến thức cần thiết phục vụ chocông ty

Xác định nhu cầu đào tạo, lựa chọn hướng phát triển, đào tạo theo yêu cầu công ty.Tham vấn, giám sát quá trình tuyển dụng

Hoạch định những chính sách phù hợp thu hút người tài cho công ty

Duy trì và quản lý nguồn nhân lực

Bộ phận kỹ thuật

Đội phần cứng: Chịu trách nhiệm đảm bảo các thiết bị, máy móc của công ty luôntrong trạng thái đáp ứng nhu cầu sử dụng, bao gồm các thiết bị như: máy chủ, máytrạm,

mạng nội bộ, và sửa chữa kịp thời khi có sự cố xảy ra

Đội phần mềm: Bao gồm nhiều vị trí như lập trình viên, chuyên viên phân tíchnghiệp vụ, nhân viên kiểm thử phần mềm,

Trang 23

Khóa luận tốt nghiệp

ty, kiểm tra, đánh giá hiệu quả sử dụng vốn, tài sản của Công ty

Tổ chức hạch toán, thống kê kế toán, phản ánh chính xác, đầy đủ các số liệu, tìnhhình luân chuyển các loại vốn trong sản xuất kinh doanh của Công ty

Phân tích hiệu quả kinh tế của các dự án, công trình và sản phẩm của Công ty.Cân đối kế hoạch tài chính của Công ty, điều hòa các loại vốn trong Công ty, quan

hệ với Tổng công ty, Ngân hàng và Tài chính, cũng như các cổ đông là pháp nhân đểtạo nguồn vốn phục vụ kịp thời cho sản xuất kinh doanh khi có nhu cầu

Đôn đốc, kiểm tra việc chấp hành chế độ báo cáo kế toán thống kê của các đơn vịtrực thuộc, thực hiện báo cáo các cơ quan hữu quan khi có yêu cầu

Chủ trì trong việc thực hiện định kỳ công tác báo cáo tài chính, kiểm kê, đánh giátài sản trong Công ty, kiến nghị thanh lý tài sản vật tư tồn đọng, kém chất lượng, không

năm, kế hoạch công việc của phòng/ ban đã được phê duyệt từng thời kỳ

Thực hiện xây dựng chiến lược, kế hoạch ngân sách hàng năm, kế hoạch công việccủa Phòng từng tháng để trình Tổng giám đốc phê duyệt

Trang 24

Khóa luận tốt nghiệp

Xây dựng các quy trình, quy định nghiệp vụ thuộc lĩnh vực của Phòng, đánh giáhiệu quả các quy trình, quy định này trong thực tế để liên tục cải tiến, giúp nâng caohoạt động của Công ty

Thực hiện các báo cáo nội bộ theo Quy định của Công ty và các báo cáo khác theoyêu cầu của Ban điều hành

Thực hiện các nhiệm vụ khác theo chỉ đạo của Ban điều hành phân công

Bộ phận bảo hành sản phẩm - dịch vụ:

Đảm nhận nhiệm vụ tiếp nhận ý kiến phản hồi về những thắc mắc của khách hàng

về sản phẩm, dịch vụ, tiếp nhận những sản phẩm lỗi, hỏng hóc từ khách hàng, thực hiệnthay thế, sửa chữa hoặc đưa ra những giải pháp khắc phục đối với những thiết bị phầncứng Họp bàn và lên kế hoạch nâng cấp, bảo trì các hệ thống phần mềm

1.1.4 Các sản phẩm và dịch vụ của doanh nghiệp

ETC cung cấp đầy đủ các dịch vụ hạ tầng phần cứng và các giải pháp phần mềm, đặcbiệt kinh nghiệm trong thiết kế và cung cấp các giải pháp công nghệ tổng thể trong lĩnhvực tài chính - ngân hàng

Hệ thống

Hệ thống trong lĩnh vực mạng truyền thông, hệ thống Video Conference

Hệ thống và các giải pháp tổng thể về bảo mật, lưu trữ, máy chủ,

Giải pháp

Giải pháp tổng thể cho doanh nghiệp: Kho dữ liệu doanh nghiệp (EDW), giải phápkhởi tạo khoản vay (LOS), Cung cấp và triển khai Hệ thống quản lý và giao dịch chứngkhoán, Giải pháp Ảo hóa - Điện toán đám mây, Giải pháp SAP omni Channel banking,Triển khai phần mềm lọc và rà soát thông tin khách hàng theo danh sách cấm vận vànhận biết, cập nhật thông tin khách hàng (AML),

Giải pháp thanh toán thẻ: cung cấp thiết bị và giải pháp thanh toán qua POS/ EDC,

hệ thống thanh toán thẻ trả trước,

ETC luôn áp dụng những công nghệ mới nhất, tiên tiến hiện đại, hiệu quả và phùhợp với khách hàng để tập trung nâng cao thế mạnh của mình trong lĩnh vực công nghệthông tin bao gồm Dịch vụ tích hợp hệ thống, Phát triển giải pháp phần mềm, Dịch vụcông nghệ thông tin khác

Trang 25

Vietcombank tại Mỹ, Ngân hàng con tại Lào), 01 Văn phòng đại diện tại phía Nam, 01

Văn phòng đại diện tại Singapore, 01 Văn phòng đại diện tại Mỹ (đã được phê duyệt và

dự kiến khai trương hoạt động trong thời gian tới), 03 Đơn vị sự nghiệp: Trường đào tạo

Khóa luận tốt nghiệp

1.2 Giới thiệu sơ lược về Ngân hàng TMCP Ngoại thương Việt Nam

Ngân hàng Ngoại thương Việt Nam trước đây, nay là Ngân hàng TMCP Ngoạithương Việt Nam (Vietcombank) được thành lập và chính thức đi vào hoạt động ngày

01/4/1963 với tổ chức tiền thân là Cục Ngoại hối (trực thuộc Ngân hàng Nhà nước Việt

Nam) Là ngân hàng thương mại Nhà nước đầu tiên được Chính phủ lựa chọn thực hiện

thí điểm cổ phần hoá, Vietcombank chính thức hoạt động với tư cách là một ngân hàng

thương mại cổ phần vào ngày 02/6/2008 sau khi thực hiện thành công kế hoạch cổ phần

hóa thông qua việc phát hành cổ phiếu lần đầu ra công chúng Ngày 30/6/2009, cổ

của một ngân hàng đối ngoại chủ lực, phục vụ hiệu quả cho phát triển kinh tế trong

nước, đồng thời tạo những ảnh hưởng quan trọng đối với cộng đồng tài chính khu vực

và toàn cầu

Từ một ngân hàng chuyên doanh phục vụ kinh tế đối ngoại, Vietcombank ngày nay

đã trở thành một ngân hàng đa năng, hoạt động đa lĩnh vực, cung cấp cho khách hàng

đầy đủ các dịch vụ tài chính hàng đầu trong lĩnh vực thương mại quốc tế, trong các hoạt

động truyền thống như kinh doanh vốn, huy động vốn, tín dụng, tài trợ dự án cũng

như mảng dịch vụ ngân hàng hiện đại: kinh doanh ngoại tệ và các công vụ phái sinh,

dịch vụ thẻ, ngân hàng điện tử

Sở hữu hạ tầng kỹ thuật ngân hàng hiện đại, Vietcombank có nhiều lợi thế trongviệc ứng dụng công nghệ tiên tiến vào xử lý tự động các dịch vụ ngân hàng, phát triển

các sản phẩm, dịch vụ ngân hàng điện tử dựa trên nền tảng công nghệ cao Không gian

giao dịch công nghệ số (Digital lab) cùng các dịch vụ: VCB Internet Banking, VCB

Money, SMS Banking, Phone Banking, đã, đang và sẽ tiếp tục thu hút đông đảo khách

hàng bằng sự tiện lợi, nhanh chóng, an toàn, hiệu quả, tạo thói quen thanh toán không

dùng tiền mặt cho đông đảo khách hàng

Sau hơn nửa thế kỷ hoạt động trên thị trường, Vietcombank hiện là một trongnhững

NHTM lớn nhất Việt Nam Vietcombank hiện có hơn 560 chi nhánh/ phòng giao

dịch/văn phòng đại diện/Đơn vị thành viên trong và ngoài nước gồm: Trụ sở chính tại

Hà Nội, 111 Chi nhánh, 441 PGD, 04 Công ty con ở trong nước (Công ty Cho thuê tài

chính, Công ty chứng khoán, Công ty Kiều hối, Công ty Cao ốc Vietcombank 198), 03

Công ty con ở nước ngoài (Công ty Vinafico Hongkong, Công ty chuyển tiền

Khóa luận tốt nghiệp

Trang 26

và phát triển nguồn nhân lực, 01 Trung tâm xử lý tiền mặt tại Hà Nội và 01 Trung tâm

xử lý tiền mặt tại Hồ Chí Minh (đã được phê duyệt và chuẩn bị khai trương trong năm2019), 04 Công ty liên doanh, liên kết Về nhân sự, Vietcombank hiện có trên 16.800cán bộ nhân viên

Bên cạnh đó, Vietcombank còn phát triển một hệ thống Autobank với hơn 2.536máy ATM và trên 60.000 đơn vị chấp nhận thẻ trên toàn quốc Hoạt động ngân hàngcòn được hỗ trợ bởi mạng lưới hơn 1.856 ngân hàng đại lý tại 176 quốc gia và vùng lãnhthổ trên thế giới

Với bề dày hoạt động và đội ngũ cán bộ có năng lực, nhạy bén với môi trường kinhdoanh hiện đại, mang tính hội nhập cao Vietcombank luôn là sự lựa chọn hàng đầucủa các tập đoàn, các doanh nghiệp lớn và của đông đảo khách hàng cá nhân

Luôn hướng đến các chuẩn mực quốc tế trong hoạt động, Vietcombank liên tục đượccác tổ chức uy tín trên thế giới bình chọn là “Ngân hàng tốt nhất Việt Nam”.Vietcombank cũng là ngân hàng đầu tiên và duy nhất của Việt Nam có mặt trong Top

500 Ngân hàng hàng đầu Thế giới theo kết quả bình chọn do Tạp chí The Banker công

bố Năm 2018, trong danh sách “100 nơi làm việc tốt nhất Việt Nam năm 2018” (docông ty Anphabe - đơn vị tư vấn tiên phong về giải pháp thương hiệu nhà tuyển dụng vàmôi trường làm việc hạnh phúc tại Việt Nam và Intage - công ty nghiên cứu thị trườnghàng đầu Nhật Bản công bố), Vietcombank được bình chọn xếp thứ 1 toàn ngành ngânhàng, xếp thứ 2 toàn thị trường Việt Nam với thứ hạng tăng thêm 2 bậc so với năm 2017

và trong Top 50 doanh nghiệp Việt có thương hiệu nhà tuyển dụng hấp dẫn nhất

Bằng trí tuệ và tâm huyết, các thế hệ cán bộ nhân viên Vietcombank đã, đang và sẽluôn nỗ lực để xây dựng Vietcombank phát triển ngày một bền vững, với mục tiêu đếnnăm 2020 đưa Vietcombank trở thành Ngân hàng số 1 tại Việt Nam, 1 trong 300 tậpđoàn ngân hàng tài chính lớn nhất thế giới và được quản trị theo các thông lệ quốc tế tốtnhất [3]

1.1 Giới thiệu bài toán quá trình ETL trong xây dựng kho dữ liệu cho hệ thống xử lý giám sát trực tuyến

1.3.1 Lý do lựa chọn bài toán

Ngân hàng thương mại cổ phần Ngoại thương Việt Nam hiện đang lưu trữ một khốilượng dữ liệu khổng lồ, bao gồm các dữ liệu như thông tin về khách hàng, chi tiết các

Trang 27

Lê Huy Hoàng - 19A4040064 Page| 11

Trang 28

Khóa luận tốt nghiệp

giao dịch cũng như lịch sử tín dụng của khách hàng, Neu những dữ liệu này đượckhai thác một cách triệt để thì nó sẽ là một lợi thế để ngân hàng vươn lên trong cuộccách mạng công nghiệp lần thứ tư bằng cách triển khai các dịch vụ chăm sóc kháchhàng

phù hợp với từng đối tượng phân khúc khách hàng Đồng nghĩa với đó là cơ hội để tănglợi thế cạnh tranh đối với các ngân hàng khác Việc xây dựng kho dữ liệu cho hệ thống

xử lý giám sát trực tuyến của Ngân hàng thương mại cổ phần Ngoại thương Việt Nam

là thiết yếu và cần phải triển khai ngay Tuy nhiên, việc triển khai xây dựng kho dữ liệucần phải đảm bảo được tính ổn định cũng như tính tích hợp, tuân theo một số chủ đềchính và có tính biến đổi theo thời gian

Kho dữ liệu thường bao gồm nhiều thành phần khác nhau, mỗi thành phần có mộtchức năng riêng trong đó thành phần chịu trách nhiệm cho việc trích xuất, chuyển đổi

và nạp dữ liệu (Extract, Transform, Load hay gọi tắt là ETL) đóng vai trò then chốt Cụthể hơn, hệ thống ETL đảm nhiệm việc trích xuất các dữ liệu từ nhiều nguồn khác nhau,làm sạch, tùy chỉnh theo khuôn dạng nhất định và nạp dữ liệu vào trong kho dữ liệu.Quá trình ETL chiếm phần lớn trong thời gian xây dựng hệ thống kho dữ liệu Vì vậy,việc đánh giá đúng vai trò và đầu tư đúng hướng cho quá trình ETL sẽ giúp cho việcxây

dựng kho dữ liệu được tốt nhất

1.3.1 Dữ liệu của bài toán

Dữ liệu của bài toán là dữ liệu giả lập, được mã hoá từ dữ liệu của hệ thống xử lýgiám sát trực tuyến của Ngân hàng thương mại cổ phần Ngoại thương Việt Nam

1.3.2 Ý nghĩa thực tế của bài toán

Việc hiểu rõ quá trình ETL trong xây dựng kho dữ liệu sẽ giúp chúng ta cải thiệnđược hiệu suất cũng như hiệu quả của quá trình trích xuất, chuyển đổi và nạp dữ liệu.Đặc biệt, việc tìm hiểu và ứng dụng công cụ IBM InfoSphere DataStage vào quá trìnhETL sẽ đẩy nhanh việc xây dựng kho dữ liệu cho hệ thống xử lý giám sát trực tuyếncủa

Ngân hàng thương mại cổ phần Ngoại thương Việt Nam

1.3.3 Phạm vi thực hiện bài toán

Việc tìm hiểu và ứng dụng “QUÁ TRÌNH ETL TRONG XÂY DỰNG KHO DỮLIỆU CHO HỆ THỐNG XỬ LÝ GIÁM SÁT TRỰC TUYẾN CỦA NGÂN HÀNGTHƯƠNG MẠI CỔ PHẦN NGOẠI THƯƠNG VIỆT NAM” sẽ đề cập đến những kháiniệm về kho dữ liệu và quá trình ETL, những công cụ sử dụng và quá trình ứng dụngETL để trích xuất, chuyển đổi và nạp dữ liệu vào kho dữ liệu

Trang 29

Khóa luận tốt nghiệp

KẾT LUẬN CHƯƠNG 1

Chương 1 đã giới thiệu về đơn vị thực tập là Công ty cổ phần Hệ thống công nghệETC và đối tác là Ngân hàng Thương mại cổ phần Ngoại thương Việt Nam, sự hìnhthành và phát triển cũng như các lĩnh vực kinh doanh, những thuận lợi và khó khăn khitriển khai các dự án Đồng thời, chương 1 trình bày tổng quan về bài toán “QUÁTRÌNH

TRỰC TUYẾN CỦA NGÂN HÀNG THƯƠNG MẠI CỔ PHẦN NGOẠI THƯƠNGVIỆT NAM”, nêu lên lý do lựa chọn bài toán, ý nghĩa, phạm vi thực hiện

Trang 30

Khóa luận tốt nghiệp

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT ĐẺ THỰC HIỆN ĐỀ TÀI

2.1 Tổng quan về kho dữ liệu

2.2.Khái niệm về kho dữ

liệu

Hình 2 Giới thiệu về kho dữ liệu

Kho dữ liệu là kho lưu trữ điện tử của một lượng lớn thông tin của một doanhnghiệp

hoặc tổ chức Kho dữ liệu là một thành phần quan trọng của phân tích kinh doanh, sửdụng các kĩ thuật phân tích trên dữ liệu doanh nghiệp

Khái niệm kho dữ liệu được giới thiệu vào năm 1988 bởi 2 nhà nghiên cứu củaIBM

là Barry Devlin và Paul Murphy Nhu cầu lưu trữ dữ liệu phát triển khi các hệ thốngmáy tính trở nên phức tạp hơn và phải xử lý lượng dữ liệu ngày càng tăng Một cuốnsách quan trọng về lưu trữ dữ liệu là "Xây dựng kho dữ liệu" của W.H Inmon, được xuấtbản lần đầu tiên vào năm 1990 và đã được tái bản nhiều lần kể từ đó

Kho dữ liệu được sử dụng để cung cấp cái nhìn sâu sắc hơn về hiệu suất của mộtcông ty bằng cách so sánh dữ liệu được hợp nhất từ nhiều nguồn không đồng nhất Kho

dữ liệu được thiết kế để chạy các câu hỏi và phân tích trên dữ liệu lịch sử có nguồn gốc

từ các nguồn giao dịch [4]

Trang 31

Khóa luận tốt nghiệp

2.1.1 Đặc trưng của kho dữ liệu

Kho dữ liệu hỗ trợ các truy vấn phức tạp, vừa là điểm tập trung dữ liệu từ nhiềunguồn khác nhau để có được thông tin phân tích đầy đủ nhất Theo đó kho dữ liệu làmột tập hợp dữ liệu hướng chủ đề, toàn vẹn, không bị rò rỉ mất mát và có giá trị lịch sử

Cụ thể các tính chất đó như sau: [5]

Định hướng theo chủ đề (subject-oriented):

Không giống như các hệ thống hoạt động, dữ liệu trong kho dữ liệu xoay quanhcác

đối tượng của doanh nghiệp (chuẩn hóa cơ sở dữ liệu) Định hướng theo chủ đề có thểthực sự hữu ích cho việc ra quyết định Tập hợp các đối tượng cần thiết được gọi làhướng đối tượng

Tính tích hợp (integrated):

Data Warehouse giải quyết các khó khăn trong việc kết hợp dữ liệu từ nhiều nguồn

dữ liệu khác nhau, giải quyết các sai khác về tên trường dữ liệu (dữ liệu khác nhaunhưng

tên giống nhau), ý nghĩa dữ liệu (tên giống nhau nhưng dữ liệu khác nhau), định dạng

dữ liệu

Tính biến đổi theo thời gian (time-variant):

Mặc dù các hệ thống vận hành phản ánh các giá trị hiện tại khi chúng hỗ trợ cáchoạt động hàng ngày, dữ liệu trong kho dữ liệu biểu thị dữ liệu trong một khoảng thờigian dài (có thể lên tới hàng chục năm) có nghĩa là nó lưu trữ lịch sử của dữ liệu Dữliệu này dùng để khai thác và dự báo Nếu người dùng đang tìm kiếm mô hình mua củamột khách hàng cụ thể, người dùng cần xem dữ liệu về các giao dịch mua hiện tại và cảquá khứ

Tính ổn định (non-volative):

Dữ liệu được tập hợp từ nhiều nguồn khác nhau đòi hỏi phải có tính ổn định cao

Dữ liệu phải thống nhất theo thời gian (bằng cách hạn chế tối đa sửa đổi hoặc xoá dữliệu), từ đó làm tăng quy mô dữ liệu lên đáng kể so với hệ thống nghiệp vụ

Khóa luận tốt nghiệp

2.1.2 Mô hình kho dữ liệu

Căn cứ vào cách thức lưu trữ dữ liệu, chúng ta chia mô hình dữ liệu theo: [5]

Sơ đồ hình sao:

Trang 32

T HUONGHIEUID NUMBER

DVF-NHAS X _

P - NSXlD NUMBER

F T HUONGHIEUID NUMBER

F D IACHINSX VARCHAR2 (20 BYTE)

- Sơ đồ hình sao bao gồm một bảng Fact và các bảng Dim bao quanh

- Dữ liệu thường không được chuẩn hóa

- Các truy vấn nhằm vào bảng Fact và được cấu trúc bởi các bảng Dim

- Fact chứa các thông tin cơ sở ở mức tác nghiệp mà các ứng dụng cần thiết

- Dim chứa các thông tin mô tả, các dữ liệu cần thiết cho việc thực hiện tác nghiệp theo

một chiều hay một phạm vi nào đó

Phân loại bảng Dim:

- Flat Dimension: Các giá trị của chiều có cùng mức, không giá trị nào là cha hay concủa giá trị khác

- Hierarchical Dimension: Các giá trị của Dim có quan hệ một - nhiều

- Fact chứa khóa của các Dimension

- Dimension thường có định danh duy nhất, chứa thông tin về chiều của bảng Fact

Khóa luận tốt nghiệp

Ưu điểm:

- Hỗ trợ rất đa dạng các thao tác, xử lý khá hiệu quả những câu truy vấn

- Phù hợp với cách mà người sử dụng nhận và sử dụng dữ liệu

- Nguyên lý cơ bản của sơ đồ hình sao là một dạng dư thừa dữ liệu cải thiện sự thực hiện

■-S» NHASX-PK(NSXID)

⅛ NHASX-F KI (O IA CHINSX)

<⅛⅛ FACT— PK(NGAYTHANG∣D)

Trang 33

Sơ đồ tuyết rơi Sơ đồ kết hợp

Chưa tối thiểu không gian

đĩa cần thiết để lưu trữ

data

Việc truy cập đến các bảng

đơn giản hơn

Chưa chuẩn hóa

Tốc độ truy vấn chậm

Tối thiểu không gian đĩacần thiết để lưu trữ data

Việc truy cập đến các bảngphức tạp hơn

Đã chuẩn hóaTốc độ truy vấn được cảithiện

Là sự kết hợp giữa sơ đồhình sao và sơ đồ tuyết rơi

Cải thiện hiệu năng truyxuất dữ liệu

Hỗ trợ rất đa dạng các thaotác, xử lý khá hiệu quảnhững câu truy vấn

P * D IACHINSX VARCHAR2 (200 BYTE)

TENDlACHr VARCHAR2 (200 BYTE)

≠> D∣ACH∣NSX - PK (D IACHI NSX)

<≥ DIACHINSX—PK (DIACHINSX)

<> FACT-PK (N GAYTHANGID )

Hình 4 Sơ đồ tuyết rơi

Là sự mở rộng của sơ đồ hình sao mà tại đó mỗi cánh sao không phải là một bảngDimension mà là nhiều bảng và các chiều được chuẩn hóa

Ưu điểm:

- Cải thiện hiệu năng truy xuất so với sơ đồ hình sao

- Tối thiểu không gian đĩa cần thiết để lưu trữ dữ liệu

- Tăng tính linh hoạt của các ứng dụng bởi sự chuẩn hóa ít mang bản chất theo chiều

Khóa luận tốt nghiệp

- Cải thiện hiệu năng truy xuất dữ liệu so với sơ đồ tuyết rơi

- Hỗ trợ rất đa dạng các thao tác, xử lý khá hiệu quả những câu truy vấn

- Tạo ra một khung hình đa chiều về dữ liệu

Trang 34

Tùy vào từng mục đích mà người ta sẽ sử dụng sơ đồ hình sao, sơ đồ tuyết rơi hay

sơ đồ kết hợp sao cho phù hợp với yêu cầu đặt ra

Trang 35

Khóa luận tốt nghiệp

2.1.3 Mục đích của kho dữ liệu

Kho dữ liệu được xây dựng để đáp ứng các mục tiêu cơ bản như:

- Kho dữ liệu hỗ trợ cho việc ra quyết định của các tổ chức, doanh nghiệp, phục vụcho

việc tạo ra các báo cáo, phân tích tổng hợp

- Tích hợp dữ liệu từ nhiều hệ thống nguồn, cho phép một chế độ xem trung tâm trêntoàn hệ thống

- Cải thiện chất lượng dữ liệu, bằng cách cung cấp mã và mô tả nhất quán, gắn cờhoặc

thậm chí sửa dữ liệu xấu

- Cung cấp một mô hình dữ liệu chung duy nhất cho tất cả dữ liệu quan tâm bất kểnguồn

dữ liệu

- Cơ cấu lại dữ liệu sao cho hợp lý với người dùng doanh nghiệp

- Cơ cấu lại dữ liệu để nó mang lại hiệu suất truy vấn tốt hơn, ngay cả đối với các truyvấn phức tạp, mà không ảnh hưởng đến các hệ thống hoạt động

- Đưa ra các quyết định hỗ trợ truy vấn dễ dàng hơn

- Sắp xếp và phân tán dữ liệu lặp đi lặp lại

2.3 Quá trình ETL trong xây dựng kho dữ liệu

2.2.1 Khái niệm về ETL

Quá trình trích xuất, biến đổi và tải dữ liệu - (Extract - Transform - Load) - ETL làquá trình dùng để thu thập dữ liệu từ nhiều hệ thống nguồn khác nhau (tất cả các dữliệu

này đều ở dạng thô) sau đó biến đổi dữ liệu và cuối cùng nạp dữ liệu đã được xử lý vào

hệ thống kho dữ liệu để phục vụ cho mục đích của kho dữ liệu Nó đơn giản là 1 quátrình 3 bước: Trích xuất (Extract), Biến đổi (Transform) và Tải (Load) [7]

2.2.2 Vị trí và tầm quan trọng của ETL trong kho dữ liệu

Quá trình ETL phải đóng một vai trò quan trọng trong việc cung cấp cho các ứngdụng một khuôn dạng dữ liệu phù hợp Nó bắt đầu từ các hệ thống dữ liệu nguồn đếnkhi dữ liệu được đưa vào các bảng Dimension, bảng Fact tốn kém phần lớn thời giancủa việc xây dựng kho dữ liệu

Với sự hỗ trợ của quá trình ETL, các quyết định kinh doanh tốt hơn của doanhnghiệp, ngân hàng đã được đưa ra trong suốt những năm qua Các tác dụng chính củaETL có thể kể đến:

- Nó giúp các công ty phân tích dữ liệu để đưa ra các quyết định kinh doanh quantrọng

- Nó giúp trả lời các câu hỏi kinh doanh phức tạp, điều mà các cơ sở dữ liệu lưu trữcác

giao dịch (transactional databases) không thể làm được

Trang 36

Khóa luận tốt nghiệp

- ETL cung cấp phương pháp di chuyển dữ liệu từ nhiều nguồn khác nhau vào kho dữliệu Khi nguồn dữ liệu thay đổi, kho dữ liệu sẽ tự động cập nhật

- Hệ thống ETL được thiết kế tốt và có tài liệu hướng dẫn cụ thể là điều cần thiết chosự

thành công của các dự án kho dữ liệu

- Nó cho phép xác minh các quy tắc chuyển đổi, các phép toán tổng hợp và tính toándữ

liệu Ngoài ra quá trình ETL còn cho phép so sánh dữ liệu mẫu giữa hệ thống nguồn và

Hình 6 Các thành phần của ETL

Trang 37

Khóa luận tốt nghiệp

Giai đoạn Trích xuất: Giai đoạn này sẽ thu thập hay còn gọi là trích xuất dữ liệu

từ

các hệ thống dữ liệu nguồn vào giai đoạn biến đổi Dữ liệu được sinh ra từ giai đoạnnày

được gọi là dữ liệu nguồn

Giai đoạn Biến đổi: Dữ liệu trích xuất từ hệ thống nguồn là dữ liệu thô và không

thể sử dụng với dạng ban đầu của nó Bởi vậy nó cần được làm sạch, kết nối và biếnđổi

Trong giai đoạn này, ta áp dụng các chức năng biến đổi trên dữ liệu đã trích xuất từ hệthống nguồn Dữ liệu sinh ra từ giai đoạn này được gọi là dữ liệu tải Đây chính là giaiđoạn quan trọng nhất trong quá trình ETL bởi nó có thể thêm các giá trị và biến đổi dữliệu đồng thời tối ưu hóa với mục đích tạo ra các báo cáo nhằm đưa ra quyết định kinhdoanh thông minh

Giai đoạn Tải: Giai đoạn này sẽ nạp dữ liệu đã được biến đổi (hoặc không với

những dữ liệu không yêu cầu biến đổi) vào kho dữ liệu và kết thúc quá trình ETL, bắtđầu quá trình tạo báo cáo và triển khai giải pháp BI cho doanh nghiệp [8]

2.2.4 Quá trình xử lý dữ liệu

Quá trình xử lý dữ liệu là giai đoạn chuyển đổi dữ liệu thô thủ công hay dùng tool

tự động tạo đầu ra là thông tin có ý nghĩa Các dữ liệu thô được thu thập và làm sạchtrước khi làm đầu vào của trung tâm xử lý nơi mà thực hiện các thủ tục để kiểm soát dữliệu và xử lý nó để cung cấp đầu ra có ý nghĩa đúng với mong muốn của người dùng.Quá trình xử lý dữ liệu bao gồm 6 bước chính: [7]

- Thu thập dữ liệu (Collection)

- Tiền xử lý dữ liệu (Pre - Processing/ Preparation)

- Đầu vào (Input)

Trang 38

Khóa luận tốt nghiệp

Hình 7 Quá trình xử lý dữ liệu

Thu thập dữ liệu (Data Collection)

Thu thập dữ liệu là giai đoạn đầu tiên trong việc xử lý dữ liệu Dữ liệu được kéo về

từ nhiều nguồn có sẵn, bao gồm cả các kho lưu trữ trung tâm (Data Lake) và kho lưutrữ

dữ liệu (Data Warehouse) Việc thu thập dữ liệu cũng phụ thuộc rất nhiều vào cácnguồn

dữ liệu bởi tùy vào độ tin cậy cũng như việc thiết kế của dữ liệu mà chất lượng có thểkhác nhau Có thể nói kết quả của việc xử lý dữ liệu phụ thuộc phần lớn vào giai đoạnnày

Có nhiều phương thức thu thập dữ liệu khác nhau: Thu thập dữ liệu định lượng nhưthông qua thực hiện khảo sát, điều tra dân số, qua các tài liệu, và thu thập dữ liệuđịnh tính như thông qua phỏng vấn, qua quan sát,

Tiền xử lý dữ liệu (Data Pre-processing)

Sau khi dữ liệu đã được thu thập, nó sẽ được chuyển đến giai đoạn tiền xử lý dữliệu Giai đoạn này bao gồm sắp xếp và lọc dữ liệu để làm đầu vào Nó yêu cầu xóanhững dữ liệu không cần thiết và không thực sự quan trọng để làm cho bộ dữ liệu đángtin cậy hơn Việc này cũng đảm bảo dữ liệu không vượt quá giới hạn và chỉ bao gồmnhững thông tin thực sự cần thiết Mục đích chính của giai đoạn là kiểm tra, làm sạch

để loại bỏ những dữ liệu không tốt (bad data) (dư thừa, không hoàn chỉnh, không đúng)

và bắt đầu tạo dữ liệu chất lượng cao cho các giai đoạn xử lý sau

Trang 39

Khóa luận tốt nghiệp

Đầu vào (Input)

Dữ liệu sau khi được làm sạch sẽ được chuyển đến giai đoạn này để biến đổi sangngôn ngữ máy để thuận tiện trong việc xử lý Giai đoạn này tốn khá nhiều thời gian vàyêu cầu tính nhanh chóng cũng như tính chính xác trong công việc Đây là giai đoạnđầu

tiên mà dữ liệu thô bắt đầu có định dạng của các thông tin có thể sử dụng được

Xử lý dữ liệu (Data Processing)

Ở giai đoạn này, dữ liệu sẽ được xử lý qua các thuật toán của máy tính, giai đoạn sẽkhác nhau tùy thuộc vào dữ liệu được lấy từ nguồn nào (kho lưu trữ trung tâm, mạng xãhội, các thiết bị kết nối, ) và mục đích sử dụng của chúng (kiểm tra mô hình quảngcáo, chẩn đoán y khoa từ các thiết bị đã kết nối, phân tích nhu cầu khách hàng, ) Xử

lý dữ liệu tốn rất nhiều thời gian phụ thuộc vào độ phức tạp và khối lượng của dữ liệu

tài liệu Dữ liệu đầu ra cần được giải thích từ đó nó có thể cung cấp các thông tin ýnghĩa

giúp người dùng có thể sử dụng đúng với mục đích xử lý ban đầu

Lưu trữ (Storage)

Giai đoạn lưu trữ là giai đoạn cuối cùng trong quy trình xử lý dữ liệu Một số dữliệu và siêu dữ liệu (metadata - thông tin về dữ liệu) có thể được dùng ngay lập tức,nhưng hầu hết sẽ được lưu lại cho mục đích sử dụng trong tương lai Tầm quan trọngcủa quy trình xử lý dữ liệu là nó phải cho phép truy cập và lấy ra thông tin đã được xử

lý một cách nhanh chóng bởi những người với quyền hạn cụ thể

2.2.5 Yêu cầu đối với quá trình ETL

Chúng ta cần phải chú ý đến các yêu cầu của quá trình ETL như: [9]

- Kết hợp nhiều nguồn dữ liệu có cấu trúc vào bản ghi của cơ sở dữ liệu đích của kho

dữ liệu

- Chia nhỏ dữ liệu nguồn có cấu trúc vào một số bản ghi của cơ sở dữ liệu đích

- Đọc dữ liệu từ các danh mục dữ liệu từ điển của hệ thống nguồn

Trang 40

Khóa luận tốt nghiệp

- Đọc dữ liệu từ nhiều file có cấu trúc bao gồm tệp phẳng, tệp chỉ mục, và các hệ thống

cơ sở dữ liệu cũ

- Tải các chi tiết cho việc tập hợp các bảng sự kiện

- Tổng hợp hoặc tóm tắt cho bảng sự kiện

- Chuyển đổi dữ liệu từ một định dạng nguồn thành định dạng khác trong nền tảng đích

- Lấy giá trị mục tiêu từ các trường đầu vào

- Thay đổi giá trị khó hiểu bằng giá trị có nghĩa cho người dùng

2.2.6 Các yếu tố quan trọng đối với ETL

Quá trình ETL chiếm đến 50-70% công sức của một dự án Kho dữ liệu Vì thếchúng

lớn dữ liệu vì vậy cần đảm bảo thời gian chạy

2.2.7 Các khó khăn khi thực hiện ETL

Quá trình ETL dữ liệu được thực hiện phức tạp hơn rất nhiều do sự tăng trưởngđáng

kinh ngạc trong số lượng dữ liệu phi cấu trúc Do đó mà gặp phải các khó khăn như:

- Trích xuất dữ liệu phụ thuộc vào độ phức tạp của hệ thống nguồn

- Các chức năng chuyển đổi dữ liệu có thể thực hiện hàng loạt các phương thức

2.3.1 Công cụ IBM InfoSphere DataStage

IBM InfoSphere DataStage là một công cụ tích hợp dữ liệu để thiết kế, phát triểnvà

thực thi các công việc di chuyển và biến đổi dữ liệu [10]

Ngày đăng: 29/03/2022, 23:28

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Công ty Hệ thống Công nghệ ETC, “Trang chủ Công ty Hệ thống Công nghệ ETC, Lịch sử phát triển,” 2017. [Trực tuyến]. Available: http://www.etc.vn/ve- chung-toi/lich-su-phat-trien/. [Đã truy cập 14 03 2020] Sách, tạp chí
Tiêu đề: Trang chủ Công ty Hệ thống Công nghệ ETC, Lịch sử phát triển
Tác giả: Công ty Hệ thống Công nghệ ETC
Năm: 2017
[2] Công ty Hệ thống Công nghệ ETC, "Trang chủ Công ty Hệ thống Công nghệ ETC, Định hướng chiến lược," 2017. [Online]. Available: http://www.etc.vn/ve- chung-toi/dinh-huong-chien-luoc/. [Accessed 14 03 2020] Sách, tạp chí
Tiêu đề: Trang chủ Công ty Hệ thống Công nghệETC, Định hướng chiến lược
[3] Ngân hàng Thương mại Cổ phần Ngoại thương Việt Nam, "Trang chủ Ngân hàng Thương mại Cổ phần Ngoại thương Việt Nam, Quá trình hình thành và phát triển,"19 05 2019. [Online]. Available:https://portal.vietcombank.com.vn/About/LSPT/Pages/Qua-trinh-hinh-thanh-va-phat-trien.aspx?devicechannel=default. [Accessed 14 03 2020] Sách, tạp chí
Tiêu đề: Trang chủ Ngân hàngThương mại Cổ phần Ngoại thương Việt Nam, Quá trình hình thành và pháttriển
[4] Y, Ích, “Kho dữ liệu (Data Warehousing),” 16 04 2020. [Trực tuyến]. Available:https://vietnambiz.vn/kho-du-lieu-data-warehousing-la-gi-phan-biet-kho-du-lieu-va-co-so-du-lieu-20200416135805599.htm. [Đã truy cập 01 05 2020] Sách, tạp chí
Tiêu đề: Kho dữ liệu (Data Warehousing)
[6] Nguyễn Hữu Xuân, “Mô hình kho dữ liệu,” 17 01 2013. [Trực tuyến]. Available:https://baigiang.violet.vn/present/mo-hinh-kho-du-lieu-8771843.html. [Đã truy cập 25 04 2020] Sách, tạp chí
Tiêu đề: Mô hình kho dữ liệu
[7] Lujn-Moraa, Juan Trujillo and Sergio, A UML Based Approach for Modeling ETL Processes in Data Warehouses, Dept. de Lenguajes y Sistemas Inform'ticosa Universidad de Alicante (Spain)., 2003 Sách, tạp chí
Tiêu đề: A UML Based Approach for Modeling ETL Processes in Data Warehouses
Tác giả: Juan Trujillo Lujn-Moraa, Sergio
Nhà XB: Dept. de Lenguajes y Sistemas Inform'ticosa Universidad de Alicante
Năm: 2003
[8] The Data Warehouse ETL Toolkit Practical Techniques for Extracting, Cleaning, Conforming, and Delivering Data, Ralph Kimball, Joe Casertar, 2004 Sách, tạp chí
Tiêu đề: The Data Warehouse ETL Toolkit Practical Techniques for Extracting, Cleaning, Conforming, and Delivering Data
Tác giả: Ralph Kimball, Joe Caserta
Năm: 2004
[9] Nguyên, Nguyễn Anh, “Nghiên cứu quy trình ETL trong kho dữ liệu ứng dụng vào hệ thống dữ liệu kinh doanh trong doanh nghiệp viễn thông,” Luận văn Thạc sĩ, Học viện Công nghệ Bưu chính Viễn thông, 2012.Lê Huy Hoàng - 19A4040064 Page | 66Khóa luận tốt nghiệp Sách, tạp chí
Tiêu đề: Nghiên cứu quy trình ETL trong kho dữ liệu ứng dụng vào hệ thống dữ liệu kinh doanh trong doanh nghiệp viễn thông
Tác giả: Nguyễn Anh Nguyên
Nhà XB: Học viện Công nghệ Bưu chính Viễn thông
Năm: 2012
[10] "Trang chủ IBM Knowledge Center, InfoSphere DataStage and QualityStage,"2112 2017. [Online]. Available:https://www.ibm.eom/support/knowledgecenter/SSZJPZ_11.7.0/com.ibm.swg.im.iis.ds.parjob.dev.doc/topics/g_deeref_Parallel_Jobs_General_Information.html. [Accessed 20 04 2020] Sách, tạp chí
Tiêu đề: Trang chủ IBM Knowledge Center, InfoSphere DataStage and QualityStage
Nhà XB: IBM
Năm: 2017
[11] "Getting Started with Oracle SQL Developer," 17 01 2018. [Online]. Available:https://www.oracle.com/database/technologies/getstarted-sql-developer.html.[Accessed 29 04 2020] Sách, tạp chí
Tiêu đề: Getting Started with Oracle SQL Developer

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w