HỌC VIỆN NGÂN HÀNG KHOA HỆ THỐNG THÔNG TIN QUẢN LÝKHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC QUÁ TRÌNH ETL TRONG XÂY DỰNG KHO DỮ LIỆU CHO HỆ THỐNG XỬ LÝ GIÁM SÁT TRỰC TUYẾN CỦA NGÂN HÀNG THƯƠNG MẠI CỔ
Trang 2HỌC VIỆN NGÂN HÀNG KHOA HỆ THỐNG THÔNG TIN QUẢN LÝ
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC
QUÁ TRÌNH ETL TRONG XÂY DỰNG KHO DỮ LIỆU CHO HỆ THỐNG XỬ LÝ GIÁM SÁT TRỰC TUYẾN CỦA NGÂN HÀNG THƯƠNG MẠI CỔ
PHẦN NGOẠI THƯƠNG VIỆT NAM
LÊ HUY HOÀNG
HÀ NỘI, NĂM 2020
Trang 3HỌC VIỆN NGÂN HÀNG KHOA HỆ THỐNG THÔNG TIN QUẢN LÝ
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC
QUÁ TRÌNH ETL TRONG XÂY DỰNG KHO DỮ LIỆU CHO HỆ THỐNG XỬ LÝ GIÁM SÁT TRỰC TUYẾN CỦA NGÂN HÀNG THƯƠNG MẠI CỔ
PHẦN NGOẠI THƯƠNG VIỆT NAM
Giáo viên hướng dẫn: ThS Nguyễn Dương Hùng Sinh viên thực hiện: Lê Huy Hoàng
Mã sinh viên: 19A4040064 Lớp: K19HTTTA Khóa: Hệ thống Thông tin Quản lý Hệ: Đại học chính quy
Hà Nội, tháng 6/2020
Trang 4Khóa luận tốt nghiệp
Em xin bày tỏ lòng biết ơn sâu sắc đến thầy giáo - ThS Nguyễn Dương Hùng,người
đã hướng dẫn cho em trong suốt thời gian thực tập Thầy đã không ngần ngại chỉ dẫn
em, định hướng đi cho em để em hoàn thành tốt nhiệm vụ
Em xin cảm ơn công ty Cổ phần Hệ thống Công nghệ ETC đã giúp đỡ em trongsuốt
thời gian em thực tập tại công ty Các anh chị đã dành thời gian hướng dẫn cũng nhưtạo
điều kiện tốt nhất để em có thể hoàn thành bài báo cáo tốt nghiệp của mình
Tuy nhiên do kiến thức chuyên ngành còn hạn chế và bản thân còn thiếu nhiềukinh
nghiệm thực tiễn nên nội dung của bài báo cáo không thể tránh khỏi những thiếu sót,
em rất mong nhận được sự góp ý, chỉ bảo thêm của thầy cô để bài báo cáo này đượchoàn thiện hơn
Một lần nữa xin gửi đến các thầy cô, các anh chị tại công ty ETC lời cảm ơn chânthành nhất!
Sinh viên thực hiện
Lê Huy Hoàng
Trang 5Khóa luận tốt nghiệp
LỜI CAM KẾT
Em xin cam đoan bài báo cáo: "QUÁ TRÌNH ETL TRONG XÂY DỰNG KHODỮ
THƯƠNG MẠI CỔ PHẦN NGOẠI THƯƠNG VIỆT NAM" là sản phẩm nghiên cứucủa em Trong toàn bộ nội dung của bài báo cáo, những điều em trình bày có thamkhảo
từ nhiều nguồn tài liệu Tất cả tài liệu đều được trích dẫn rõ ràng và hợp pháp
Em xin hoàn toàn chịu trách nhiệm về bài báo cáo tốt nghiệp của mình
Sinh viên thực hiện
Lê Huy Hoàng
Trang 6Khóa luận tốt nghiệp
NHẬN XÉT
(Của cơ quan thực tập)
về các mặt: Ý thức chấp hành nội quy, thái độ làm việc của sinh viên tại nơi thực tập;Tiến độ, kết quả thực hiện công việc được giao; Tính thực tiễn, ứng dụng của đề tài
Sau quá trình thực tập tại công ty Cổ phần Hệ thống Công nghệ ETC của sinh viên
Lê Huy Hoàng, chúng tôi có một số nhận xét như sau:
- Sinh viên Lê Huy Hoàng có ý thức chấp hành nghiêm túc nội quy, nề nếp mà công ty
đặt ra.
- Có tinh thần học hỏi, tìm hiểu hoạt động tổ chức của công ty, phục vụ cho khóa luận
tốt nghiệp.
- Có ý thức trong công việc, có tinh thần, trách nhiệm cao, hòa đồng với mọi người,
hoàn thành tốt các công việc được giao.
Hà Nội, ngày 08 tháng 06 năm 2020
Người nhận xét
(Ký tên, đóng dấu)
Trang 7Khóa luận tốt nghiệp
NHẬN XÉT
(Của giáo viên hướng dẫn)
về các mặt: Mục đích của đề tài; Tính thời sự và ứng dụng của đề tài; Bố cục và hìnhthức trình bầy đề tài; Ket quả thực hiện đề tài; Ý thức, thái độ của sinh viên trong quá
trình thực hiện đề tài
Kết luận :
Hà Nội, ngày 09 tháng 06 năm 2020
Giáo viên hướng dẫn
(Ký tên)
ThS Nguyễn Dương Hùng
Trang 8Khóa luận tốt nghiệp
MỤC LỤC
MỞ ĐẦU 1
CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN VỀ BÀI TOÁN 3
1.1 Giới thiệu đơn vị thực tập 3
1.1.1 Quá trình hình thành và phát triển 3
1.1.2 Định hướng phát triển 6
1.1.3 Bộ máy tổ chức 7
1.1.4 Các sản phẩm và dịch vụ của doanh nghiệp 9
1.2 Giới thiệu sơ lược về Ngân hàng TMCP Ngoại thương Việt Nam 10
1.3 Giới thiệu bài toán quá trình ETL trong xây dựng kho dữ liệu cho hệ thống xử lý giám sát trực tuyến 11
1.3.1 Lý do lựa chọn bài toán 11
1.3.2 Dữ liệu của bài toán 12
1.3.3 Ý nghĩa thực tế của bài toán 12
1.3.4 Phạm vi thực hiện bài toán 12
Kết luận chương 1 13
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT ĐỂ THỰC HIỆN ĐỀ TÀI 14
2.1 Tổng quan về kho dữ liệu 14
2.1.1 Khái niệm về kho dữ liệu 14
2.1.2 Đặc trưng của kho dữ liệu 15
2.1.3 Mô hình kho dữ liệu 16
2.1.4 Mục đích của kho dữ liệu 19
2.2 Quá trình ETL trong xây dựng kho dữ liệu 19
2.2.1 Khái niệm về ETL 19
2.2.2 Vị trí và tầm quan trọng của ETL trong kho dữ liệu 19
2.2.3 Các thành phần của ETL 20
2.2.4 Quá trình xử lý dữ liệu 21
2.2.5 Yêu cầu đối với quá trình ETL 23
Trang 9STT Chữ viết tắt Tiếng Anh Nghĩa tiếng Việt
Khóa luận tốt nghiệp
2.2.6 Các yếu tố quan trọng đối với ETL 24
2.2.7 Các khó khăn khi thực hiện ETL 24
2.3 Các công cụ sử dụng 24
2.3.1 Công cụ IBM InfoSphere DataStage 24
2.3.2 Oracle SQL Developer 31
Kết luận chương 2 32
CHƯƠNG 3: QUÁ TRÌNH ETL TRONG XÂY DỰNG KHO DỮ LIỆU CHO HỆ
THỐNG XỬ LÝ GIÁM SÁT TRỰC TUYẾN CỦA NGÂN HÀNG TMCP NGOẠI THƯƠNG VIỆT NAM 33
3.1 Hệ thống giám sát trực tuyến 33
3.1.1 Dynatrace 33
3.1.2 Tính năng của hệ thống 33
3.1.3 Quá trình trích xuất dữ liệu từ hệ thống Dynatrace về Oracle 33
3.2 Thiết kế bảng 34
3.2.1 Mô hình dữ liệu 34
3.2.2 Mô tả ý nghĩa bảng 35
3.2.3 Mô tả ý nghĩa cột 35
3.3 Xây dựng các Jobs để xử lý dữ liệu 40
3.3.1 Giới thiệu chung 40
3.3.2 Jobs GET_PROBLEM 42
3.3.3 Job GET_SERVICE 43
3.4 Quá trình chạy các Parallel jobs để nạpdữ liệu vào kho 43
3.4.1 Kiểm soát quá trình chạy Parallel Jobs 43
3.4.2 Kiểm tra dữ liệu được nạp vào kho 46
3.5 Gửi thông báo về Email 47
3.5.1 Thiết lập SMTP cho máy chủ 47
3.5.2 Thiết lập thông số để gửi thông báo 60
KẾT LUẬN 65
TÀI LIỆU THAM KHẢO 66
Khóa luận tốt nghiệp
DANH MỤC CÁC CHỮ VIET TẮT
Trang 101 ETL Extract-Transform-Load Quá trình trích xuất, biến đổi và
8 BI Business Intelligence Business Intelligence
Protocol
Simple Mail Transfer Protocol
Environment
Môi trường phát triển tích hợp
để làm việc với code
Trang 11Lê Huy Hoàng - 19A4040064 Page | vii
Trang 12Khóa luận tốt nghiệp
DANH MỤC HÌNH VẼ
•
Hình 1 Sơ đồ bộ máy tổ chức công ty ETC 7
Hình 2 Giới thiệu về kho dữ liệu 14
Hình 3 Sơ đồ hình sao 16
Hình 4 Sơ đồ tuyết rơi 17
Hình 5 Sơ đồ kết hợp 18
Hình 6 Các thành phầncủa ETL 20
Hình 7 Quá trình xử lýdữliệu 22
Hình 8 IBM InfoSphere DataStage 25
Hình 9 Funnel Stage trong DataStage Parallel Jobs 26
Hình 10 Minh họa thiết lập cho Funnel Stage 26
Hình 11 Remove Duplicates Stage trong DataStage Parallel Jobs 27
Hình 12 Minh họa thiết lập cho Remove Duplicates Stage 27
Hình 13 Transformer Stage trong DataStage Parallel Jobs 28
Hình 14 Minh họa thiếtlập cho Transformer Stage 28
Hình 15 Job Activity Stage trong DataStage Sequence Jobs 29
Hình 16 Minh họa thiếtlập cho Job Activity Stage (Tab Job) 29
Hình 17 Minh họa thiếtlập cho Job Activity Stage (Tab Triggers) 30
Hình 18 Notification Activity Stage trong DataStage Sequence Jobs 30
Hình 19 Oracle SQL Developer 31
Hình 20 Mô hình dữ liệu 34
Hình 21 Job GET_DAILY 41
Hình 22 Job GET_PROBLEM 42
Hình 23 Job GET_SERVICE 43
Hình 24 Giao diện IBM DataStage Designer 43
Hình 25 Hộp thoại Selection Override 44
Hình 26 Hộp thoại Compiler Options 44
Hình 27 Hộp thoại Compile Process 45
Hình 28 Trạng thái Compile của các Jobs 45
Trang 13Khóa luận tốt nghiệp
Hình 29 Thuộc tính của job GET_PROBLEM 46
Hình 30 Dữ liệu giả lập 46
Hình 31 Giao diện tìm kiếm WindowServer 2012 47
Hình 32 Giao diện Server Manager 47
Hình 33 Giaodiện step Before You Begin 48
Hình 34 Giaodiện step Installation Type 48
Hình 35 Giaodiện step Server Selection 49
Hình 36 Giaodiện step Server Roles 49
Hình 37 Giaodiện step Add Roles and Features Wizard 50
Hình 38 Giaodiện step Features 50
Hình 39 Giaodiện step Confirmation 51
Hình 40 Giaodiện step Results 51
Hình 41 Giao diện search IIS 52
Hình 42 Giao diện Internet Information Services 6.0Manager 52
Hình 43 Giaodiện Properties tab General 53
Hình 44 Giaodiện Properties tab Access 53
Hình 45 Giao diện Connection 54
Hình 46 Giao diện Computer 54
Hình 47 Giao diện Connection 55
Hình 48 Giao diện Properties tab Access 55
Hình 49 Giao diện Relay Restrictions 56
Hình 50 Giaodiện Properties tab Delivery 56
Hình 51 Giaodiện Advanced Delivery 57
Hình 52 Giaodiện Properties tab Delivery 57
Hình 53 Giaodiện Outbound Security 58
Hình 54 Giaodiện Properties tab Delivery 58
Hình 55 Giaodiện Outbound Connections 59
Hình 56 Giaodiện Properties tab Delivery 59
Hình 57 Bảo mật trong Gmail 60
Hình 58 Giao diện cho phép truy cập từ ứng dụngkém antoàn 61
Trang 14Khóa luận tốt nghiệp
Hình 59 Giao diện Jobs Notification Activity 61
Hình 60 Giao diện config Notification Activity 61
Hình 61 Thông số thiết lập Email 62
Hình 62 Giao diện Log Event Detail 63
Trang 15Khóa luận tốt nghiệp
DANH MỤC BẢNG BIỂU
•
Bảng 1 Mô tả các bảng dữ liệu 35
Bảng 2 VCB_TAG_CFG 35
Bảng 3 VCB_TAGINFO 36
Bảng 4 VCB_PROBLEM 36
Bảng 5 VCB_EVENTS 37
Bảng 6 VCB_PRO_EVENTSEVERITY 39
Bảng 7 VCB_TAG_SERVICE 39
Bảng 8 VCB_SERVICE 40
Trang 16Khóa luận tốt nghiệp
MỞ ĐẦU
Cuộc cách mạng công nghiệp lần thứ tư là vấn đề nóng đang được cả thế giới quantâm hướng đến Đây được đánh giá như một trong bốn cột mốc của nhân loại, được dựbáo sẽ thay đổi hoàn toàn cuộc sống của chúng ta trong tương lai Yếu tố chi phối đượcnhắc đến trong cuộc cách mạng công nghiệp lần thứ tư ở đây chính là dữ liệu và thôngtin được lưu trữ trên các hệ thống Ngày nay, việc sử dụng các công cụ quản trị khôngnhững giúp con người dễ dàng quản lý các thông tin một cách logic, khoa học và hợplý
mà còn được kỳ vọng sẽ khai thác nhiều giá trị hơn từ kho dữ liệu để chắt lọc ra các trithức Từ đó những thông tin chúng ta chắt lọc được có thể đưa ra các dự báo, các cảnhbáo về xu hướng trong tương lai để có thể đưa ra các biện pháp, các hành động giúpứng
đào tạo theo mỗi khóa học nhằm có sự thay đổi liên tục đáp ứng nhu cầu cần thiết củahọc viên, nâng cao chất lượng giảng dạy, tạo ra sự hài lòng của học viên trong quá trìnhdiễn ra cũng như kết thúc khóa học
Ngân hàng thương mại cổ phần Ngoại thương Việt Nam hiện đang lưu trữ mộtkhối
lượng dữ liệu khổng lồ, bao gồm các dữ liệu như thông tin về khách hàng, chi tiết cácgiao dịch cũng như lịch sử tín dụng của khách hàng, Nếu những dữ liệu này đượckhai thác một cách triệt để thì nó sẽ là một lợi thế để ngân hàng vươn lên trong cuộccách mạng công nghiệp lần thứ tư bằng cách triển khai các dịch vụ chăm sóc kháchhàng
phù hợp với từng đối tượng phân khúc khách hàng Đồng nghĩa với đó là cơ hội đểtăng
lợi thế cạnh tranh đối với các ngân hàng khác Việc xây dựng kho dữ liệu cho hệ thống
xử lý giám sát trực tuyến của Ngân hàng thương mại cổ phần Ngoại thương Việt Nam
là thiết yếu và cần phải triển khai ngay Tuy nhiên, việc triển khai xây dựng kho dữ liệucần phải đảm bảo được tính ổn định cũng như tính tích hợp, tuân theo một số chủ đềchính và có tính biến đổi theo thời gian
Kho dữ liệu thường bao gồm nhiều thành phần khác nhau, mỗi thành phần có mộtchức năng riêng trong đó thành phần chịu trách nhiệm cho việc trích xuất, chuyển đổi
Trang 17Khóa luận tốt nghiệp
và nạp dữ liệu (Extract, Transform, Load hay gọi tắt là ETL) đóng vai trò then chốt Cụthể hơn, hệ thống ETL đảm nhiệm việc trích xuất các dữ liệu từ nhiều nguồn khác nhau,làm sạch, tùy chỉnh theo khuôn dạng nhất định và nạp dữ liệu vào trong kho dữ liệu.Quá trình ETL chiếm phần lớn trong thời gian xây dựng hệ thống kho dữ liệu Vì vậy,việc đánh giá đúng vai trò và đầu tư đúng hướng cho quá trình ETL sẽ giúp cho việcxây
dựng kho dữ liệu được tốt nhất
Quá trình ETL trong xây dựng kho dữ liệu đóng một vai trò quan trọng trong việccung cấp cho các ứng dụng một khuôn dạng dữ liệu phù hợp, không bị đi lệch so vớimục đích ban đầu Ngoài ra nó còn giúp giảm thiểu thời gian trong dự án xây dựng kho
dữ liệu, đảm bảo cho sự phát triển của các hệ thống liên quan
Với những lý do đã nêu trên, em lựa chọn đề tài “QUÁ TRÌNH ETL TRONGXÂY
NGÂN HÀNG THƯƠNG MẠI CỔ PHẦN NGOẠI THƯƠNG VIỆT NAM” bằng cách
sử dụng công cụ IBM InfoSphere DataStage và hệ quản trị cơ sở dữ liệu Oracle nhằmthiết lập và ứng dụng quá trình ETL vào việc trích xuất, chuyển đổi và nạp dữ liệu vào
hệ thống kho dữ liệu
Trang 18Khóa luận tốt nghiệp
CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN VỀ BÀI TOÁN
1.1 Giới thiệu đơn vị thực tập
nghiệp lớn Công ty luôn chủ động tiếp cận với những công nghệ tiên tiến nhất vớimong
muốn mang đến những giải pháp CNTT phù hợp với hoàn cảnh sử dụng, bắt kịp xu thế
và nâng cao hiệu quả kinh doanh cho khách hàng
Năm 2004: Công ty ETC được thành lập với 05 thành viên.
Năm 2005 - 2006: Phát triển sản phẩm giám sát hình ảnh
Tiên phong lắp đặt mạng cáp quang đầu tiên cho một số ngân hàng TMCP lớn tạiViệt Nam
Tự hào là đơn vị triển khai thành công trên toàn quốc Hệ thống quản lý giám sát IPCamera đầu tiên và đạt giải thưởng SONY Award cho những đóng góp quan trọngtrong
giám sát Camera - APAC (2005, 2006)
Triển khai thành công trên phạm vi toàn quốc Hệ thống quản lý, giám sát IPcamera
cho máy rút tiền tự động đầu tiên và tiếp tục đạt giải thưởng SONY SpecialRecognition
Award IPELA và giải thưởng IP monitoring: Special recognition Outstandingperformance in FY trong lĩnh vực giám sát IP Camera - APAC (2006)
Năm 2007 - 2009: Tập trung mở rộng và phát triển sản phẩm thanh toán
quản lý phát hành và chấp nhận thanh toán thẻ trả trước (2007)
Tự hào được chọn là đơn vị triển khai cung cấp, lắp đặt số lượng thiết bị thanh toánđầu cuối (POS) lớn nhất tại Việt Nam năm 2008 Triển khai thành công Hệ thống thanhtoán thẻ phi tiếp xúc trên toàn quốc, tại gần 2000 điểm mua bán xăng dầu và hệ thốngPOS không dây cho 2000 xe taxi (2008)
Bên cạnh việc phát triển sản phẩm mới, ETC tiếp tục giữ vững sản phẩm thế mạnhcủa mình và vinh dự đạt giải thưởng Successful Business Model of bank ATM projects(2008) và SONY Recognition Award cho lĩnh vực giám sát IP Camera trong lĩnh vựcngân hàng (2009)
Trang 19Khóa luận tốt nghiệp
Năm 2010 - 2011: Phát triển cung cấp các giải pháp tích hợp hệ thống
Triển khai thành công hệ thống máy chủ tổng thể cho một ngân hàng lớn tại ViệtNam
Là đơn vị tiên phong cung cấp giải pháp bảo mật khóa công khai PKI cho ngânhàng
tại Việt Nam, đồng thời cung cấp các giải pháp lớn như Giải pháp quản lý sự kiện tậptrung, giải pháp giám sát, tự động phát hiện và ngăn chặn xâm nhập IPS
Triển khai thành công hệ thống thanh toán phi tiếp xúc sử dụng các tính năng bảomật nhất của NXP DESFire EV1
Vinh dự đạt giải thưởng Partner of the year for IndoChina của RSA (2010), giảithưởng Solution Partner của năm trong khu vực Đông Nam Á của Milestone (2010) vàgiải thưởng Silver Partner của HP (2011)
Đồng thời, mở rộng phạm vi hoạt động của doanh nghiệp bằng việc khai trương 02trung tâm bảo hành tại thành phố Hồ Chí Minh, Đà Nằng
Năm 2012 - 2014: Mở rộng cung cấp, triển khai hàng loạt các giải pháp, quan trọng
và phức tạp trong lĩnh vực ngân hàng ETC tự hào là đơn vị được tin tưởng giao trọng trách triển khai những giải pháp quy mô lớn cùng những đối tác uy tín hàng đầu về công nghệ thông tin trên thế giới:
Giải pháp Hệ thống khởi tạo khoản vay LOS với đối tác Integro
Giải pháp Hệ thống hội nghị truyền hình có quy mô lớn nhất, được triển khai trênquy mô toàn quốc
Giải pháp Kho dữ liệu doanh nghiệp EDW phát triển trên nền tảng giải pháp SAPquy mô lớn và phức tạp nhất từ trước đến nay từng được triển khai ở Việt Nam
Giải pháp Internet Banking cho ngân hàng Ngoài việc cung cấp giải pháp, ETCvẫn
luôn phát huy các thế mạnh của mình trong lĩnh vực tích hợp hệ thống
Triển khai hoàn chỉnh, thành công hạ tầng cho một trung tâm dữ liệu quy mô lớn.Triển khai thành công hệ thống Firewall cho Bộ Tài chính
Cung cấp hạ tầng phần cứng CoreBanking đồng thời cung cấp dịch vụ Quản lýchất
lượng CoreBanking cho ngân hàng cùng nhiều các sản phẩm phần cứng khác
Năm 2015 - 2016: Bằng năng lực và thế mạnh của mình, ETC ngoài các khách hàng
lâu năm là các ngân hàng lớn đã tiếp tục mở rộng thị trường và khách hàng, hướng
Trang 20Khóa luận tốt nghiệp
đến các cơ quan, đơn vị trong khối tài chính công như Bộ tài chính, Tổng cục Hải Quan, Tổng cục Thuế,
Năm 2015, ETC vinh dự được lựa chọn là đơn vị xây dựng và triển khai thànhcông
hệ thống thông tin phục vụ triển khai cơ chế Hải quan một cửa quốc gia
Lần đầu tiên nghiên cứu và giới thiệu đến khách hàng tổng thể hệ thống, giải phápCore Chứng khoán
Tiên phong nghiên cứu phát triển và cung cấp thành công giải pháp thu phí tự độngkhông dừng với công nghệ RFID hiện đại bậc nhất thế giới
Trở thành đơn vị đầu tiên về công nghệ thông tin ở Việt Nam tiên phong đầu tư thửnghiệm và cung cấp giải pháp VDI tổng thể cho các khách hàng Trong đó, hệ thống đãđược triển khai cho Ngân hàng VietinBank - ngân hàng hàng đầu Việt Nam với mạnglưới chi nhánh, phòng giao dịch cực lớn, trải rộng khắp các tỉnh thành, bởi vậy, hệthống
được đánh giá là một trong những hệ thống VDI lớn và phức tạp nhất hiện tại
Hai năm liền đạt giải thưởng Rising Star Partner of the Year do VMware trao tặng(2015, 2016), giải thưởng Strategic Win of the Year do VMware trao tặng (2016)
dịch vụ đạt chất lượng quốc tế của SAP cho các khách hàng tại thị trường Việt Nam.Với chuyên môn sâu rộng về lĩnh vực công nghệ thông tin, đội ngũ chuyên gia tư vấn
am hiểu thị trường và môi trường kinh doanh, thỏa thuận hợp tác giữa United VARs vàETC hứa hẹn mang đến những giải pháp công nghệ toàn diện, tạo ra giá trị gia tăng,đem lại sự hài lòng cho khách hàng
Tháng 5/2017, ETC chính thức trở thành một trong hai công ty đầu tiên đầu tư vàoKhu Phần mềm thuộc Khu Công nghệ cao Hòa Lạc thông qua việc Ký hợp đồngnguyên
tắc thuê hạ tầng kỹ thuật với công ty TNHH MTV Phát triển khu Công nghệ cao Hòa
Trang 21Khóa luận tốt nghiệp
Lạc Với tổng diện tích đầu tư lên đến 3.87 ha, ETC thực sự đã đánh dấu một bướcngoặt
lớn trong quá trình phát triển của mình Công nghệ cao, đặc biệt là công nghệ phầnmềm
là nơi mà chúng ta có thể nhanh chóng đuổi kịp và bứt phá trên thị trường thế giới.Công
ty ETC mang theo định hướng chiến lược liên kết với các hãng cung cấp phần mềm nổitiếng trên thế giới để đưa những sản phẩm công nghệ hiện đại nhất có sự đóng góp củachất xám Việt, trí tuệ Việt đến với thị trường Việt Nam, giảm thiểu sự phụ thuộc vàođối tác nước ngoài Đó là kim chỉ nam, là mục tiêu cốt lõi của ETC khi xây dựng kếhoạch đầu tư tại đây [1]
tin bao gồm Dịch vụ tích hợp hệ thống, Phát triển giải pháp phần mềm, Dịch vụ côngnghệ thông tin khác
Xây dựng và phát triển dịch vụ Công nghệ thông tin chuyên nghiệp trọn gói baogồm dịch vụ tư vấn và triển khai giải pháp IT tổng thể, dịch vụ phần mềm, dịch vụ bảotrì
Định hướng mở rộng thị trường khách hàng đa dạng, hướng tới các khách hàng làcác ngân hàng lớn, các cơ quan tổ chức đặc biệt là các cơ quan trong khối tài chínhcông
Đồng thời tiếp tục phát triển và tìm kiếm các khách hàng là các doanh nghiệp và tậpđoàn trong các lĩnh vực khác
Tăng cường năng lực quản lý, áp dụng công nghệ trong việc quản lý, chú trọngnâng
cao chất lượng nguồn nhân lực và quy trình quản lý chất lượng
Trong việc phát triển hợp tác, ETC chú trọng hướng đến việc xây dựng những mốiquan hệ hợp tác toàn diện, trở thành đối tác tin cậy của các hãng Công nghệ thông tinhàng đầu thế giới Cùng các đối tác nghiên cứu phát triển để đưa ra những định hướngcông nghệ lớn, hiện đại, tối ưu cho thị trường và phù hợp nhất với nhu cầu của kháchhàng.[2]
Trang 22Khóa luận tốt nghiệp
1.1.3 Bộ máy tổ chức
Chủ tịch Hội đông quân trị
Hình 1 Sơ đồ bộ máy tổ chức công ty ETC
Chức năng và nhiệm vụ của các phòng ban:
TPNS tổ chức hướng dẫn các nhân viên mới hội nhập với công việc Thường công
ty chỉ đào tạo ngắn hạn cho nhân viên các kỹ năng và kiến thức cần thiết phục vụ chocông ty
Xác định nhu cầu đào tạo, lựa chọn hướng phát triển, đào tạo theo yêu cầu công ty.Tham vấn, giám sát quá trình tuyển dụng
Hoạch định những chính sách phù hợp thu hút người tài cho công ty
Duy trì và quản lý nguồn nhân lực
Bộ phận kỹ thuật
Đội phần cứng: Chịu trách nhiệm đảm bảo các thiết bị, máy móc của công ty luôntrong trạng thái đáp ứng nhu cầu sử dụng, bao gồm các thiết bị như: máy chủ, máytrạm,
mạng nội bộ, và sửa chữa kịp thời khi có sự cố xảy ra
Đội phần mềm: Bao gồm nhiều vị trí như lập trình viên, chuyên viên phân tíchnghiệp vụ, nhân viên kiểm thử phần mềm,
Trang 23Khóa luận tốt nghiệp
ty, kiểm tra, đánh giá hiệu quả sử dụng vốn, tài sản của Công ty
Tổ chức hạch toán, thống kê kế toán, phản ánh chính xác, đầy đủ các số liệu, tìnhhình luân chuyển các loại vốn trong sản xuất kinh doanh của Công ty
Phân tích hiệu quả kinh tế của các dự án, công trình và sản phẩm của Công ty.Cân đối kế hoạch tài chính của Công ty, điều hòa các loại vốn trong Công ty, quan
hệ với Tổng công ty, Ngân hàng và Tài chính, cũng như các cổ đông là pháp nhân đểtạo nguồn vốn phục vụ kịp thời cho sản xuất kinh doanh khi có nhu cầu
Đôn đốc, kiểm tra việc chấp hành chế độ báo cáo kế toán thống kê của các đơn vịtrực thuộc, thực hiện báo cáo các cơ quan hữu quan khi có yêu cầu
Chủ trì trong việc thực hiện định kỳ công tác báo cáo tài chính, kiểm kê, đánh giátài sản trong Công ty, kiến nghị thanh lý tài sản vật tư tồn đọng, kém chất lượng, không
năm, kế hoạch công việc của phòng/ ban đã được phê duyệt từng thời kỳ
Thực hiện xây dựng chiến lược, kế hoạch ngân sách hàng năm, kế hoạch công việccủa Phòng từng tháng để trình Tổng giám đốc phê duyệt
Trang 24Khóa luận tốt nghiệp
Xây dựng các quy trình, quy định nghiệp vụ thuộc lĩnh vực của Phòng, đánh giáhiệu quả các quy trình, quy định này trong thực tế để liên tục cải tiến, giúp nâng caohoạt động của Công ty
Thực hiện các báo cáo nội bộ theo Quy định của Công ty và các báo cáo khác theoyêu cầu của Ban điều hành
Thực hiện các nhiệm vụ khác theo chỉ đạo của Ban điều hành phân công
Bộ phận bảo hành sản phẩm - dịch vụ:
Đảm nhận nhiệm vụ tiếp nhận ý kiến phản hồi về những thắc mắc của khách hàng
về sản phẩm, dịch vụ, tiếp nhận những sản phẩm lỗi, hỏng hóc từ khách hàng, thực hiệnthay thế, sửa chữa hoặc đưa ra những giải pháp khắc phục đối với những thiết bị phầncứng Họp bàn và lên kế hoạch nâng cấp, bảo trì các hệ thống phần mềm
1.1.4 Các sản phẩm và dịch vụ của doanh nghiệp
ETC cung cấp đầy đủ các dịch vụ hạ tầng phần cứng và các giải pháp phần mềm, đặcbiệt kinh nghiệm trong thiết kế và cung cấp các giải pháp công nghệ tổng thể trong lĩnhvực tài chính - ngân hàng
Hệ thống
Hệ thống trong lĩnh vực mạng truyền thông, hệ thống Video Conference
Hệ thống và các giải pháp tổng thể về bảo mật, lưu trữ, máy chủ,
Giải pháp
Giải pháp tổng thể cho doanh nghiệp: Kho dữ liệu doanh nghiệp (EDW), giải phápkhởi tạo khoản vay (LOS), Cung cấp và triển khai Hệ thống quản lý và giao dịch chứngkhoán, Giải pháp Ảo hóa - Điện toán đám mây, Giải pháp SAP omni Channel banking,Triển khai phần mềm lọc và rà soát thông tin khách hàng theo danh sách cấm vận vànhận biết, cập nhật thông tin khách hàng (AML),
Giải pháp thanh toán thẻ: cung cấp thiết bị và giải pháp thanh toán qua POS/ EDC,
hệ thống thanh toán thẻ trả trước,
ETC luôn áp dụng những công nghệ mới nhất, tiên tiến hiện đại, hiệu quả và phùhợp với khách hàng để tập trung nâng cao thế mạnh của mình trong lĩnh vực công nghệthông tin bao gồm Dịch vụ tích hợp hệ thống, Phát triển giải pháp phần mềm, Dịch vụcông nghệ thông tin khác
Trang 25Vietcombank tại Mỹ, Ngân hàng con tại Lào), 01 Văn phòng đại diện tại phía Nam, 01
Văn phòng đại diện tại Singapore, 01 Văn phòng đại diện tại Mỹ (đã được phê duyệt và
dự kiến khai trương hoạt động trong thời gian tới), 03 Đơn vị sự nghiệp: Trường đào tạo
Khóa luận tốt nghiệp
1.2 Giới thiệu sơ lược về Ngân hàng TMCP Ngoại thương Việt Nam
Ngân hàng Ngoại thương Việt Nam trước đây, nay là Ngân hàng TMCP Ngoạithương Việt Nam (Vietcombank) được thành lập và chính thức đi vào hoạt động ngày
01/4/1963 với tổ chức tiền thân là Cục Ngoại hối (trực thuộc Ngân hàng Nhà nước Việt
Nam) Là ngân hàng thương mại Nhà nước đầu tiên được Chính phủ lựa chọn thực hiện
thí điểm cổ phần hoá, Vietcombank chính thức hoạt động với tư cách là một ngân hàng
thương mại cổ phần vào ngày 02/6/2008 sau khi thực hiện thành công kế hoạch cổ phần
hóa thông qua việc phát hành cổ phiếu lần đầu ra công chúng Ngày 30/6/2009, cổ
của một ngân hàng đối ngoại chủ lực, phục vụ hiệu quả cho phát triển kinh tế trong
nước, đồng thời tạo những ảnh hưởng quan trọng đối với cộng đồng tài chính khu vực
và toàn cầu
Từ một ngân hàng chuyên doanh phục vụ kinh tế đối ngoại, Vietcombank ngày nay
đã trở thành một ngân hàng đa năng, hoạt động đa lĩnh vực, cung cấp cho khách hàng
đầy đủ các dịch vụ tài chính hàng đầu trong lĩnh vực thương mại quốc tế, trong các hoạt
động truyền thống như kinh doanh vốn, huy động vốn, tín dụng, tài trợ dự án cũng
như mảng dịch vụ ngân hàng hiện đại: kinh doanh ngoại tệ và các công vụ phái sinh,
dịch vụ thẻ, ngân hàng điện tử
Sở hữu hạ tầng kỹ thuật ngân hàng hiện đại, Vietcombank có nhiều lợi thế trongviệc ứng dụng công nghệ tiên tiến vào xử lý tự động các dịch vụ ngân hàng, phát triển
các sản phẩm, dịch vụ ngân hàng điện tử dựa trên nền tảng công nghệ cao Không gian
giao dịch công nghệ số (Digital lab) cùng các dịch vụ: VCB Internet Banking, VCB
Money, SMS Banking, Phone Banking, đã, đang và sẽ tiếp tục thu hút đông đảo khách
hàng bằng sự tiện lợi, nhanh chóng, an toàn, hiệu quả, tạo thói quen thanh toán không
dùng tiền mặt cho đông đảo khách hàng
Sau hơn nửa thế kỷ hoạt động trên thị trường, Vietcombank hiện là một trongnhững
NHTM lớn nhất Việt Nam Vietcombank hiện có hơn 560 chi nhánh/ phòng giao
dịch/văn phòng đại diện/Đơn vị thành viên trong và ngoài nước gồm: Trụ sở chính tại
Hà Nội, 111 Chi nhánh, 441 PGD, 04 Công ty con ở trong nước (Công ty Cho thuê tài
chính, Công ty chứng khoán, Công ty Kiều hối, Công ty Cao ốc Vietcombank 198), 03
Công ty con ở nước ngoài (Công ty Vinafico Hongkong, Công ty chuyển tiền
Khóa luận tốt nghiệp
Trang 26và phát triển nguồn nhân lực, 01 Trung tâm xử lý tiền mặt tại Hà Nội và 01 Trung tâm
xử lý tiền mặt tại Hồ Chí Minh (đã được phê duyệt và chuẩn bị khai trương trong năm2019), 04 Công ty liên doanh, liên kết Về nhân sự, Vietcombank hiện có trên 16.800cán bộ nhân viên
Bên cạnh đó, Vietcombank còn phát triển một hệ thống Autobank với hơn 2.536máy ATM và trên 60.000 đơn vị chấp nhận thẻ trên toàn quốc Hoạt động ngân hàngcòn được hỗ trợ bởi mạng lưới hơn 1.856 ngân hàng đại lý tại 176 quốc gia và vùng lãnhthổ trên thế giới
Với bề dày hoạt động và đội ngũ cán bộ có năng lực, nhạy bén với môi trường kinhdoanh hiện đại, mang tính hội nhập cao Vietcombank luôn là sự lựa chọn hàng đầucủa các tập đoàn, các doanh nghiệp lớn và của đông đảo khách hàng cá nhân
Luôn hướng đến các chuẩn mực quốc tế trong hoạt động, Vietcombank liên tục đượccác tổ chức uy tín trên thế giới bình chọn là “Ngân hàng tốt nhất Việt Nam”.Vietcombank cũng là ngân hàng đầu tiên và duy nhất của Việt Nam có mặt trong Top
500 Ngân hàng hàng đầu Thế giới theo kết quả bình chọn do Tạp chí The Banker công
bố Năm 2018, trong danh sách “100 nơi làm việc tốt nhất Việt Nam năm 2018” (docông ty Anphabe - đơn vị tư vấn tiên phong về giải pháp thương hiệu nhà tuyển dụng vàmôi trường làm việc hạnh phúc tại Việt Nam và Intage - công ty nghiên cứu thị trườnghàng đầu Nhật Bản công bố), Vietcombank được bình chọn xếp thứ 1 toàn ngành ngânhàng, xếp thứ 2 toàn thị trường Việt Nam với thứ hạng tăng thêm 2 bậc so với năm 2017
và trong Top 50 doanh nghiệp Việt có thương hiệu nhà tuyển dụng hấp dẫn nhất
Bằng trí tuệ và tâm huyết, các thế hệ cán bộ nhân viên Vietcombank đã, đang và sẽluôn nỗ lực để xây dựng Vietcombank phát triển ngày một bền vững, với mục tiêu đếnnăm 2020 đưa Vietcombank trở thành Ngân hàng số 1 tại Việt Nam, 1 trong 300 tậpđoàn ngân hàng tài chính lớn nhất thế giới và được quản trị theo các thông lệ quốc tế tốtnhất [3]
1.1 Giới thiệu bài toán quá trình ETL trong xây dựng kho dữ liệu cho hệ thống xử lý giám sát trực tuyến
1.3.1 Lý do lựa chọn bài toán
Ngân hàng thương mại cổ phần Ngoại thương Việt Nam hiện đang lưu trữ một khốilượng dữ liệu khổng lồ, bao gồm các dữ liệu như thông tin về khách hàng, chi tiết các
Trang 27Lê Huy Hoàng - 19A4040064 Page| 11
Trang 28Khóa luận tốt nghiệp
giao dịch cũng như lịch sử tín dụng của khách hàng, Neu những dữ liệu này đượckhai thác một cách triệt để thì nó sẽ là một lợi thế để ngân hàng vươn lên trong cuộccách mạng công nghiệp lần thứ tư bằng cách triển khai các dịch vụ chăm sóc kháchhàng
phù hợp với từng đối tượng phân khúc khách hàng Đồng nghĩa với đó là cơ hội để tănglợi thế cạnh tranh đối với các ngân hàng khác Việc xây dựng kho dữ liệu cho hệ thống
xử lý giám sát trực tuyến của Ngân hàng thương mại cổ phần Ngoại thương Việt Nam
là thiết yếu và cần phải triển khai ngay Tuy nhiên, việc triển khai xây dựng kho dữ liệucần phải đảm bảo được tính ổn định cũng như tính tích hợp, tuân theo một số chủ đềchính và có tính biến đổi theo thời gian
Kho dữ liệu thường bao gồm nhiều thành phần khác nhau, mỗi thành phần có mộtchức năng riêng trong đó thành phần chịu trách nhiệm cho việc trích xuất, chuyển đổi
và nạp dữ liệu (Extract, Transform, Load hay gọi tắt là ETL) đóng vai trò then chốt Cụthể hơn, hệ thống ETL đảm nhiệm việc trích xuất các dữ liệu từ nhiều nguồn khác nhau,làm sạch, tùy chỉnh theo khuôn dạng nhất định và nạp dữ liệu vào trong kho dữ liệu.Quá trình ETL chiếm phần lớn trong thời gian xây dựng hệ thống kho dữ liệu Vì vậy,việc đánh giá đúng vai trò và đầu tư đúng hướng cho quá trình ETL sẽ giúp cho việcxây
dựng kho dữ liệu được tốt nhất
1.3.1 Dữ liệu của bài toán
Dữ liệu của bài toán là dữ liệu giả lập, được mã hoá từ dữ liệu của hệ thống xử lýgiám sát trực tuyến của Ngân hàng thương mại cổ phần Ngoại thương Việt Nam
1.3.2 Ý nghĩa thực tế của bài toán
Việc hiểu rõ quá trình ETL trong xây dựng kho dữ liệu sẽ giúp chúng ta cải thiệnđược hiệu suất cũng như hiệu quả của quá trình trích xuất, chuyển đổi và nạp dữ liệu.Đặc biệt, việc tìm hiểu và ứng dụng công cụ IBM InfoSphere DataStage vào quá trìnhETL sẽ đẩy nhanh việc xây dựng kho dữ liệu cho hệ thống xử lý giám sát trực tuyếncủa
Ngân hàng thương mại cổ phần Ngoại thương Việt Nam
1.3.3 Phạm vi thực hiện bài toán
Việc tìm hiểu và ứng dụng “QUÁ TRÌNH ETL TRONG XÂY DỰNG KHO DỮLIỆU CHO HỆ THỐNG XỬ LÝ GIÁM SÁT TRỰC TUYẾN CỦA NGÂN HÀNGTHƯƠNG MẠI CỔ PHẦN NGOẠI THƯƠNG VIỆT NAM” sẽ đề cập đến những kháiniệm về kho dữ liệu và quá trình ETL, những công cụ sử dụng và quá trình ứng dụngETL để trích xuất, chuyển đổi và nạp dữ liệu vào kho dữ liệu
Trang 29Khóa luận tốt nghiệp
KẾT LUẬN CHƯƠNG 1
Chương 1 đã giới thiệu về đơn vị thực tập là Công ty cổ phần Hệ thống công nghệETC và đối tác là Ngân hàng Thương mại cổ phần Ngoại thương Việt Nam, sự hìnhthành và phát triển cũng như các lĩnh vực kinh doanh, những thuận lợi và khó khăn khitriển khai các dự án Đồng thời, chương 1 trình bày tổng quan về bài toán “QUÁTRÌNH
TRỰC TUYẾN CỦA NGÂN HÀNG THƯƠNG MẠI CỔ PHẦN NGOẠI THƯƠNGVIỆT NAM”, nêu lên lý do lựa chọn bài toán, ý nghĩa, phạm vi thực hiện
Trang 30Khóa luận tốt nghiệp
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT ĐẺ THỰC HIỆN ĐỀ TÀI
2.1 Tổng quan về kho dữ liệu
2.2.Khái niệm về kho dữ
liệu
Hình 2 Giới thiệu về kho dữ liệu
Kho dữ liệu là kho lưu trữ điện tử của một lượng lớn thông tin của một doanhnghiệp
hoặc tổ chức Kho dữ liệu là một thành phần quan trọng của phân tích kinh doanh, sửdụng các kĩ thuật phân tích trên dữ liệu doanh nghiệp
Khái niệm kho dữ liệu được giới thiệu vào năm 1988 bởi 2 nhà nghiên cứu củaIBM
là Barry Devlin và Paul Murphy Nhu cầu lưu trữ dữ liệu phát triển khi các hệ thốngmáy tính trở nên phức tạp hơn và phải xử lý lượng dữ liệu ngày càng tăng Một cuốnsách quan trọng về lưu trữ dữ liệu là "Xây dựng kho dữ liệu" của W.H Inmon, được xuấtbản lần đầu tiên vào năm 1990 và đã được tái bản nhiều lần kể từ đó
Kho dữ liệu được sử dụng để cung cấp cái nhìn sâu sắc hơn về hiệu suất của mộtcông ty bằng cách so sánh dữ liệu được hợp nhất từ nhiều nguồn không đồng nhất Kho
dữ liệu được thiết kế để chạy các câu hỏi và phân tích trên dữ liệu lịch sử có nguồn gốc
từ các nguồn giao dịch [4]
Trang 31Khóa luận tốt nghiệp
2.1.1 Đặc trưng của kho dữ liệu
Kho dữ liệu hỗ trợ các truy vấn phức tạp, vừa là điểm tập trung dữ liệu từ nhiềunguồn khác nhau để có được thông tin phân tích đầy đủ nhất Theo đó kho dữ liệu làmột tập hợp dữ liệu hướng chủ đề, toàn vẹn, không bị rò rỉ mất mát và có giá trị lịch sử
Cụ thể các tính chất đó như sau: [5]
Định hướng theo chủ đề (subject-oriented):
Không giống như các hệ thống hoạt động, dữ liệu trong kho dữ liệu xoay quanhcác
đối tượng của doanh nghiệp (chuẩn hóa cơ sở dữ liệu) Định hướng theo chủ đề có thểthực sự hữu ích cho việc ra quyết định Tập hợp các đối tượng cần thiết được gọi làhướng đối tượng
Tính tích hợp (integrated):
Data Warehouse giải quyết các khó khăn trong việc kết hợp dữ liệu từ nhiều nguồn
dữ liệu khác nhau, giải quyết các sai khác về tên trường dữ liệu (dữ liệu khác nhaunhưng
tên giống nhau), ý nghĩa dữ liệu (tên giống nhau nhưng dữ liệu khác nhau), định dạng
dữ liệu
Tính biến đổi theo thời gian (time-variant):
Mặc dù các hệ thống vận hành phản ánh các giá trị hiện tại khi chúng hỗ trợ cáchoạt động hàng ngày, dữ liệu trong kho dữ liệu biểu thị dữ liệu trong một khoảng thờigian dài (có thể lên tới hàng chục năm) có nghĩa là nó lưu trữ lịch sử của dữ liệu Dữliệu này dùng để khai thác và dự báo Nếu người dùng đang tìm kiếm mô hình mua củamột khách hàng cụ thể, người dùng cần xem dữ liệu về các giao dịch mua hiện tại và cảquá khứ
Tính ổn định (non-volative):
Dữ liệu được tập hợp từ nhiều nguồn khác nhau đòi hỏi phải có tính ổn định cao
Dữ liệu phải thống nhất theo thời gian (bằng cách hạn chế tối đa sửa đổi hoặc xoá dữliệu), từ đó làm tăng quy mô dữ liệu lên đáng kể so với hệ thống nghiệp vụ
Khóa luận tốt nghiệp
2.1.2 Mô hình kho dữ liệu
Căn cứ vào cách thức lưu trữ dữ liệu, chúng ta chia mô hình dữ liệu theo: [5]
Sơ đồ hình sao:
Trang 32T HUONGHIEUID NUMBER
DVF-NHAS X _
P - NSXlD NUMBER
F T HUONGHIEUID NUMBER
F D IACHINSX VARCHAR2 (20 BYTE)
- Sơ đồ hình sao bao gồm một bảng Fact và các bảng Dim bao quanh
- Dữ liệu thường không được chuẩn hóa
- Các truy vấn nhằm vào bảng Fact và được cấu trúc bởi các bảng Dim
- Fact chứa các thông tin cơ sở ở mức tác nghiệp mà các ứng dụng cần thiết
- Dim chứa các thông tin mô tả, các dữ liệu cần thiết cho việc thực hiện tác nghiệp theo
một chiều hay một phạm vi nào đó
Phân loại bảng Dim:
- Flat Dimension: Các giá trị của chiều có cùng mức, không giá trị nào là cha hay concủa giá trị khác
- Hierarchical Dimension: Các giá trị của Dim có quan hệ một - nhiều
- Fact chứa khóa của các Dimension
- Dimension thường có định danh duy nhất, chứa thông tin về chiều của bảng Fact
Khóa luận tốt nghiệp
Ưu điểm:
- Hỗ trợ rất đa dạng các thao tác, xử lý khá hiệu quả những câu truy vấn
- Phù hợp với cách mà người sử dụng nhận và sử dụng dữ liệu
- Nguyên lý cơ bản của sơ đồ hình sao là một dạng dư thừa dữ liệu cải thiện sự thực hiện
■-S» NHASX-PK(NSXID)
⅛ NHASX-F KI (O IA CHINSX)
<⅛⅛ FACT— PK(NGAYTHANG∣D)
Trang 33Sơ đồ tuyết rơi Sơ đồ kết hợp
Chưa tối thiểu không gian
đĩa cần thiết để lưu trữ
data
Việc truy cập đến các bảng
đơn giản hơn
Chưa chuẩn hóa
Tốc độ truy vấn chậm
Tối thiểu không gian đĩacần thiết để lưu trữ data
Việc truy cập đến các bảngphức tạp hơn
Đã chuẩn hóaTốc độ truy vấn được cảithiện
Là sự kết hợp giữa sơ đồhình sao và sơ đồ tuyết rơi
Cải thiện hiệu năng truyxuất dữ liệu
Hỗ trợ rất đa dạng các thaotác, xử lý khá hiệu quảnhững câu truy vấn
P * D IACHINSX VARCHAR2 (200 BYTE)
TENDlACHr VARCHAR2 (200 BYTE)
≠> D∣ACH∣NSX - PK (D IACHI NSX)
<≥ DIACHINSX—PK (DIACHINSX)
<> FACT-PK (N GAYTHANGID )
Hình 4 Sơ đồ tuyết rơi
Là sự mở rộng của sơ đồ hình sao mà tại đó mỗi cánh sao không phải là một bảngDimension mà là nhiều bảng và các chiều được chuẩn hóa
Ưu điểm:
- Cải thiện hiệu năng truy xuất so với sơ đồ hình sao
- Tối thiểu không gian đĩa cần thiết để lưu trữ dữ liệu
- Tăng tính linh hoạt của các ứng dụng bởi sự chuẩn hóa ít mang bản chất theo chiều
Khóa luận tốt nghiệp
- Cải thiện hiệu năng truy xuất dữ liệu so với sơ đồ tuyết rơi
- Hỗ trợ rất đa dạng các thao tác, xử lý khá hiệu quả những câu truy vấn
- Tạo ra một khung hình đa chiều về dữ liệu
Trang 34Tùy vào từng mục đích mà người ta sẽ sử dụng sơ đồ hình sao, sơ đồ tuyết rơi hay
sơ đồ kết hợp sao cho phù hợp với yêu cầu đặt ra
Trang 35Khóa luận tốt nghiệp
2.1.3 Mục đích của kho dữ liệu
Kho dữ liệu được xây dựng để đáp ứng các mục tiêu cơ bản như:
- Kho dữ liệu hỗ trợ cho việc ra quyết định của các tổ chức, doanh nghiệp, phục vụcho
việc tạo ra các báo cáo, phân tích tổng hợp
- Tích hợp dữ liệu từ nhiều hệ thống nguồn, cho phép một chế độ xem trung tâm trêntoàn hệ thống
- Cải thiện chất lượng dữ liệu, bằng cách cung cấp mã và mô tả nhất quán, gắn cờhoặc
thậm chí sửa dữ liệu xấu
- Cung cấp một mô hình dữ liệu chung duy nhất cho tất cả dữ liệu quan tâm bất kểnguồn
dữ liệu
- Cơ cấu lại dữ liệu sao cho hợp lý với người dùng doanh nghiệp
- Cơ cấu lại dữ liệu để nó mang lại hiệu suất truy vấn tốt hơn, ngay cả đối với các truyvấn phức tạp, mà không ảnh hưởng đến các hệ thống hoạt động
- Đưa ra các quyết định hỗ trợ truy vấn dễ dàng hơn
- Sắp xếp và phân tán dữ liệu lặp đi lặp lại
2.3 Quá trình ETL trong xây dựng kho dữ liệu
2.2.1 Khái niệm về ETL
Quá trình trích xuất, biến đổi và tải dữ liệu - (Extract - Transform - Load) - ETL làquá trình dùng để thu thập dữ liệu từ nhiều hệ thống nguồn khác nhau (tất cả các dữliệu
này đều ở dạng thô) sau đó biến đổi dữ liệu và cuối cùng nạp dữ liệu đã được xử lý vào
hệ thống kho dữ liệu để phục vụ cho mục đích của kho dữ liệu Nó đơn giản là 1 quátrình 3 bước: Trích xuất (Extract), Biến đổi (Transform) và Tải (Load) [7]
2.2.2 Vị trí và tầm quan trọng của ETL trong kho dữ liệu
Quá trình ETL phải đóng một vai trò quan trọng trong việc cung cấp cho các ứngdụng một khuôn dạng dữ liệu phù hợp Nó bắt đầu từ các hệ thống dữ liệu nguồn đếnkhi dữ liệu được đưa vào các bảng Dimension, bảng Fact tốn kém phần lớn thời giancủa việc xây dựng kho dữ liệu
Với sự hỗ trợ của quá trình ETL, các quyết định kinh doanh tốt hơn của doanhnghiệp, ngân hàng đã được đưa ra trong suốt những năm qua Các tác dụng chính củaETL có thể kể đến:
- Nó giúp các công ty phân tích dữ liệu để đưa ra các quyết định kinh doanh quantrọng
- Nó giúp trả lời các câu hỏi kinh doanh phức tạp, điều mà các cơ sở dữ liệu lưu trữcác
giao dịch (transactional databases) không thể làm được
Trang 36Khóa luận tốt nghiệp
- ETL cung cấp phương pháp di chuyển dữ liệu từ nhiều nguồn khác nhau vào kho dữliệu Khi nguồn dữ liệu thay đổi, kho dữ liệu sẽ tự động cập nhật
- Hệ thống ETL được thiết kế tốt và có tài liệu hướng dẫn cụ thể là điều cần thiết chosự
thành công của các dự án kho dữ liệu
- Nó cho phép xác minh các quy tắc chuyển đổi, các phép toán tổng hợp và tính toándữ
liệu Ngoài ra quá trình ETL còn cho phép so sánh dữ liệu mẫu giữa hệ thống nguồn và
Hình 6 Các thành phần của ETL
Trang 37Khóa luận tốt nghiệp
Giai đoạn Trích xuất: Giai đoạn này sẽ thu thập hay còn gọi là trích xuất dữ liệu
từ
các hệ thống dữ liệu nguồn vào giai đoạn biến đổi Dữ liệu được sinh ra từ giai đoạnnày
được gọi là dữ liệu nguồn
Giai đoạn Biến đổi: Dữ liệu trích xuất từ hệ thống nguồn là dữ liệu thô và không
thể sử dụng với dạng ban đầu của nó Bởi vậy nó cần được làm sạch, kết nối và biếnđổi
Trong giai đoạn này, ta áp dụng các chức năng biến đổi trên dữ liệu đã trích xuất từ hệthống nguồn Dữ liệu sinh ra từ giai đoạn này được gọi là dữ liệu tải Đây chính là giaiđoạn quan trọng nhất trong quá trình ETL bởi nó có thể thêm các giá trị và biến đổi dữliệu đồng thời tối ưu hóa với mục đích tạo ra các báo cáo nhằm đưa ra quyết định kinhdoanh thông minh
Giai đoạn Tải: Giai đoạn này sẽ nạp dữ liệu đã được biến đổi (hoặc không với
những dữ liệu không yêu cầu biến đổi) vào kho dữ liệu và kết thúc quá trình ETL, bắtđầu quá trình tạo báo cáo và triển khai giải pháp BI cho doanh nghiệp [8]
2.2.4 Quá trình xử lý dữ liệu
Quá trình xử lý dữ liệu là giai đoạn chuyển đổi dữ liệu thô thủ công hay dùng tool
tự động tạo đầu ra là thông tin có ý nghĩa Các dữ liệu thô được thu thập và làm sạchtrước khi làm đầu vào của trung tâm xử lý nơi mà thực hiện các thủ tục để kiểm soát dữliệu và xử lý nó để cung cấp đầu ra có ý nghĩa đúng với mong muốn của người dùng.Quá trình xử lý dữ liệu bao gồm 6 bước chính: [7]
- Thu thập dữ liệu (Collection)
- Tiền xử lý dữ liệu (Pre - Processing/ Preparation)
- Đầu vào (Input)
Trang 38Khóa luận tốt nghiệp
Hình 7 Quá trình xử lý dữ liệu
Thu thập dữ liệu (Data Collection)
Thu thập dữ liệu là giai đoạn đầu tiên trong việc xử lý dữ liệu Dữ liệu được kéo về
từ nhiều nguồn có sẵn, bao gồm cả các kho lưu trữ trung tâm (Data Lake) và kho lưutrữ
dữ liệu (Data Warehouse) Việc thu thập dữ liệu cũng phụ thuộc rất nhiều vào cácnguồn
dữ liệu bởi tùy vào độ tin cậy cũng như việc thiết kế của dữ liệu mà chất lượng có thểkhác nhau Có thể nói kết quả của việc xử lý dữ liệu phụ thuộc phần lớn vào giai đoạnnày
Có nhiều phương thức thu thập dữ liệu khác nhau: Thu thập dữ liệu định lượng nhưthông qua thực hiện khảo sát, điều tra dân số, qua các tài liệu, và thu thập dữ liệuđịnh tính như thông qua phỏng vấn, qua quan sát,
Tiền xử lý dữ liệu (Data Pre-processing)
Sau khi dữ liệu đã được thu thập, nó sẽ được chuyển đến giai đoạn tiền xử lý dữliệu Giai đoạn này bao gồm sắp xếp và lọc dữ liệu để làm đầu vào Nó yêu cầu xóanhững dữ liệu không cần thiết và không thực sự quan trọng để làm cho bộ dữ liệu đángtin cậy hơn Việc này cũng đảm bảo dữ liệu không vượt quá giới hạn và chỉ bao gồmnhững thông tin thực sự cần thiết Mục đích chính của giai đoạn là kiểm tra, làm sạch
để loại bỏ những dữ liệu không tốt (bad data) (dư thừa, không hoàn chỉnh, không đúng)
và bắt đầu tạo dữ liệu chất lượng cao cho các giai đoạn xử lý sau
Trang 39Khóa luận tốt nghiệp
Đầu vào (Input)
Dữ liệu sau khi được làm sạch sẽ được chuyển đến giai đoạn này để biến đổi sangngôn ngữ máy để thuận tiện trong việc xử lý Giai đoạn này tốn khá nhiều thời gian vàyêu cầu tính nhanh chóng cũng như tính chính xác trong công việc Đây là giai đoạnđầu
tiên mà dữ liệu thô bắt đầu có định dạng của các thông tin có thể sử dụng được
Xử lý dữ liệu (Data Processing)
Ở giai đoạn này, dữ liệu sẽ được xử lý qua các thuật toán của máy tính, giai đoạn sẽkhác nhau tùy thuộc vào dữ liệu được lấy từ nguồn nào (kho lưu trữ trung tâm, mạng xãhội, các thiết bị kết nối, ) và mục đích sử dụng của chúng (kiểm tra mô hình quảngcáo, chẩn đoán y khoa từ các thiết bị đã kết nối, phân tích nhu cầu khách hàng, ) Xử
lý dữ liệu tốn rất nhiều thời gian phụ thuộc vào độ phức tạp và khối lượng của dữ liệu
tài liệu Dữ liệu đầu ra cần được giải thích từ đó nó có thể cung cấp các thông tin ýnghĩa
giúp người dùng có thể sử dụng đúng với mục đích xử lý ban đầu
Lưu trữ (Storage)
Giai đoạn lưu trữ là giai đoạn cuối cùng trong quy trình xử lý dữ liệu Một số dữliệu và siêu dữ liệu (metadata - thông tin về dữ liệu) có thể được dùng ngay lập tức,nhưng hầu hết sẽ được lưu lại cho mục đích sử dụng trong tương lai Tầm quan trọngcủa quy trình xử lý dữ liệu là nó phải cho phép truy cập và lấy ra thông tin đã được xử
lý một cách nhanh chóng bởi những người với quyền hạn cụ thể
2.2.5 Yêu cầu đối với quá trình ETL
Chúng ta cần phải chú ý đến các yêu cầu của quá trình ETL như: [9]
- Kết hợp nhiều nguồn dữ liệu có cấu trúc vào bản ghi của cơ sở dữ liệu đích của kho
dữ liệu
- Chia nhỏ dữ liệu nguồn có cấu trúc vào một số bản ghi của cơ sở dữ liệu đích
- Đọc dữ liệu từ các danh mục dữ liệu từ điển của hệ thống nguồn
Trang 40Khóa luận tốt nghiệp
- Đọc dữ liệu từ nhiều file có cấu trúc bao gồm tệp phẳng, tệp chỉ mục, và các hệ thống
cơ sở dữ liệu cũ
- Tải các chi tiết cho việc tập hợp các bảng sự kiện
- Tổng hợp hoặc tóm tắt cho bảng sự kiện
- Chuyển đổi dữ liệu từ một định dạng nguồn thành định dạng khác trong nền tảng đích
- Lấy giá trị mục tiêu từ các trường đầu vào
- Thay đổi giá trị khó hiểu bằng giá trị có nghĩa cho người dùng
2.2.6 Các yếu tố quan trọng đối với ETL
Quá trình ETL chiếm đến 50-70% công sức của một dự án Kho dữ liệu Vì thếchúng
lớn dữ liệu vì vậy cần đảm bảo thời gian chạy
2.2.7 Các khó khăn khi thực hiện ETL
Quá trình ETL dữ liệu được thực hiện phức tạp hơn rất nhiều do sự tăng trưởngđáng
kinh ngạc trong số lượng dữ liệu phi cấu trúc Do đó mà gặp phải các khó khăn như:
- Trích xuất dữ liệu phụ thuộc vào độ phức tạp của hệ thống nguồn
- Các chức năng chuyển đổi dữ liệu có thể thực hiện hàng loạt các phương thức
2.3.1 Công cụ IBM InfoSphere DataStage
IBM InfoSphere DataStage là một công cụ tích hợp dữ liệu để thiết kế, phát triểnvà
thực thi các công việc di chuyển và biến đổi dữ liệu [10]