Hiệu năng của một hệ thống kho dữ liệu được thể hiện qua một số các phương diện chính như sau: Tốc độ xử lý dữ liệu trên tập dữ liệu lớn, khả năng mở rộng và phát triển kho dữ liệu bao g
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Người hướng dẫn khoa học:
PGS TS TRƯƠNG ANH HOÀNG
Hà nội - 2015
Trang 3LỜI CẢM ƠN
Trước tiên tôi xin được bày tỏ sự trân trọng và lòng biết ơn đối với PGS TS Trương Anh Hoàng, Giảng viên Khoa Công nghệ thông tin - Trường Đại học Công nghệ - ĐHQGHN Trong thời gian học tập và làm luận văn tốt nghiệp, thầy đã dành nhiều thời gian quý báu, tận tình chỉ bảo và hướng dẫn tôi trong việc nghiên cứu, thực hiện luận văn Tôi xin được cảm ơn các GS, TS, các thầy cô giáo đã giảng dạy tôi trong quá trình học tập và làm luận văn Các thầy cô đã giúp tôi hiểu sâu sắc và thấu đáo hơn lĩnh vực mà mình nghiên cứu để có thể vận dụng các kiến thức đó một cách hiệu quả nhất vào trong công tác của mình
Xin cảm ơn các bạn bè, đồng nghiệp và nhất là các thành viên trong gia đình đã tạo mọi điều kiện tốt nhất, giúp đỡ, động viên, ủng hộ và cổ vũ tôi trong suốt quá trình học tập
và nghiên cứu để hoàn thành tốt bản luận văn tốt nghiệp này
Tác giả
Nguyễn Văn Đức
Trang 4LỜI CAM ĐOAN
Tôi xin cam đoan rằng, đây là công trình nghiên cứu của tôi trong đó có sự giúp đỡ rất lớn của thầy hướng dẫn và các đồng nghiệp ở cơ quan Các nội dung nghiên cứu và kết quả trong đề tài này là hoàn toàn trung thực
Trong luận văn, tôi có tham khảo đến một số tài liệu của một số tác giả đã được liệt
kê tại phần Tài liệu tham khảo ở cuối luận văn
Hà Nội, ngày……tháng……năm 2015
Tác giả
Nguyễn Văn Đức
Trang 5MỤC LỤC
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT 6
DANH MỤC BẢNG BIỂU 7
DANH MỤC HÌNH VẼ, ĐỒ THỊ 8
MỞ ĐẦU 10
Chương 1 HỆ THỐNG KHO DỮ LIỆU 12
1.1 Tổng quan kho dữ liệu 12
1.2 Kiến trúc chung của kho dữ liệu 13
1.3 Mô hình logic của kho dữ liệu 14
1.4 Mô hình dữ liệu đa chiều 14
1.5 Hiện trạng hệ thống kho dữ liệu trong ngân hàng 15
1.5.1 Tổng quan hệ thống báo cáo trong ngân hàng 15
1.5.2 Kiến trúc của kho dữ liệu trong ngân hàng 15
1.5.3 Đánh giá các mặt hạn chế của hệ thống kho dữ liệu hiện tại 17
1.5.3.1 Cơ sở dữ liệu dùng cho bài toán kho dữ liệu 17
1.5.3.2 Công cụ trích lọc dữ liệu 17
1.5.3.3 Công cụ phân phối báo cáo 18
1.5.3.4 Mô hình thiết kế kho dữ liệu 18
Chương 2 XÂY DỰNG HỆ THỐNG KHO DỮ LIỆU ĐÁP ỨNG HIỆU NĂNG XỬ LÝ CHO NGÂN HÀNG 20
2.1 Mục tiêu 20
2.2 Một số giải pháp công nghệ về kho dữ liệu 20
2.3 Thiết kế, xây dựng mô hình hệ thống kho dữ liệu mới 21
Trang 62.4 Các thành phần cần nâng cấp, bổ sung 22
2.4.1 Hệ thống cơ sở dữ liệu chuyên dụng cho bài toán kho dữ liệu 22
2.4.2 Hệ thống công cụ trích lọc dữ liệu 24
2.4.2.1 Tầm quan trọng của quá trình trích lọc dữ liệu 24
2.4.2.2 Hệ thống trích lọc dữ liệu IBM DataStage 26
2.4.3 Hệ thống phân phối báo cáo tập trung 29
2.4.3.1 Các công cụ chính của IBM Cognos 30
2.4.3.2 Một số đặc trưng cơ bản của IBM Cognos 33
2.4.4 Mô hình thiết kế tổng thể cho kho dữ liệu 34
2.4.4.1 Kiến trúc tổng quan của IBM Banking Data Model 35
2.4.4.2 Những điểm nổi bật của IBM Banking Model 39
2.5 Kết quả thử nghiệm 40
2.5.1 Thực nghiệm so sánh tốc độ trên các cơ sở dữ liệu 40
2.5.2 Thực nghiệm với hệ thống công cụ trích lọc dữ liệu 43
2.5.3 Nhận xét thực nghiệm 44
2.6 Kết luận 45
Chương 3 THỬ NGHIỆM VỚI BÀI TOÁN PHÂN TÍCH KHÁCH HÀNG 46
3.1 Mục tiêu 46
3.2 Yêu cầu chức năng 46
3.3 Thiết kế tổng thể 46
3.3.1 Mô hình logic 46
3.3.2 Thiết kế bảo mật 48
3.4 Thiết kế dữ liệu chuyên đề Phân tích khách hàng 48
3.4.1 Thiết kế dữ liệu chỉ tiêu 48
Trang 73.4.2 Thiết kế mô hình dữ liệu đa chiều với công cụ IBM Cognos Framework
Manager 49
3.4.3 Thiết kế job trích xuất dữ liệu từ kho dữ liệu vào kho dữ liệu chuyên đề Phân tích khách hàng 50
3.4.4 Thiết kế lớp bảo mật phân quyền theo người dùng 53
3.4.5 Triển khai dữ liệu đa chiều lên máy chủ Cognos 53
3.4.6 Khai thác dữ liệu đa chiều 53
3.4.7 Kết quả thử nghiệm 55
KẾT LUẬN 56
TÀI LIỆU THAM KHẢO 58
PHỤC LỤC 59
Trang 8DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
AS400
Hệ thống máy chủ của IBM triển khai Core Banking cho ngân hàng
ASTs The Application Solution Templates Model
BDW IBM Banking Data Warehouse
BI Business Intelligence
BIDV Ngân hàng TMCP Đầu tư và Phát triển Việt Nam
Core Banking Hệ thống ngân hàng lõi
DataMart Dữ liệu chuyên đề
DTS Data Transformation Services
ETL Extract Transform Load
FSDM Financial Services Data Model
ODBC Microsoft Open Database Connectivity
OLAP Online Analytical Processing
OLTP Online Transaction Processing
Trang 9DANH MỤC BẢNG BIỂU
Bảng 2.14 Bảng kết quả thực nghiệm 1 41
Bảng 2.15 Bảng kết quả thực nghiệm 2 41
Bảng 2.16 Bảng kết quả thực nghiệm 3 42
Bảng 2.18 Bảng kết quả thực nghiệm mô hình ET-L và E-T-L 43
Trang 10DANH MỤC HÌNH VẼ, ĐỒ THỊ
Hình 1.1 Kiến trúc cơ bản của kho dữ liệu 14
Hình 1.2 Mô hình dữ liệu đa chiều 15
Hình 1.3 Kiến trúc kho dữ liệu trong ngân hàng 16
Hình 2.1 Mô hình tổng thể kho dữ liệu mới 22
Hình 2.2 Mô hình xử lý theo ET-L 26
Hình 2.3 Mô hình xử lý theo EL-T 26
Hình 2.4 Mô hình xử lý theo E-T-L 27
Hình 2.5 E-T-L thiết kế theo công cụ IBM DataStage 28
Hình 2.6 Hệ thống DataStage mở rộng cấu phần Engine 29
Hình 2.7 Các công cụ của hệ thống phân phối báo cáo tập trung 30
Hình 2.8 Công cụ Framework Manager 33
Hình 2.9 Mô hình mở rộng của hệ thống IBM Cognos 34
Hình 2.10 Kiến trúc tổng quát của IBM Banking Data Model 35
Hình 2.11 Kiến trúc tổng quát của FSDM 36
Hình 2.12 Khu vực mẫu theo các mảng nghiệp vụ trong ngân hàng 38
Hình 2.13 Khu vực mẫu theo các mảng báo cáo tuân thủ 39
Đồ thị 2.17 Kết quả của 3 lần thực nghiệm về thời gian truy vấn dữ liệu 42
Đồ thị 2.19 Kết quả của 3 lần thực nghiệm theo mô hình E-T-L và ET-L về thời gian ảnh hưởng tới máy chủ nguồn 44
Hình 3.1 Nhóm chuyên đề lợi nhuận trong mô hình kho dữ liệu 47
Hình 3.2 Bài toán phân tích khách hàng trong mô hình kho dữ liệu mới 47
Hình 3.3 Mô hình thực thể trong thiết kế dữ liệu đa chiều 49
Hình 3.4 Thiết kế dữ liệu đa chiều 50
Trang 11Hình 3.5 Luồng jobs DWH_MASTER 51
Hình 3.6 Luồng jobs Load_Source_to_STG 51
Hình 3.7 Luồng jobs dữ liệu chuyên đề 52
Hình 3.8 Luồng jobs xử lý chi tiết dữ liệu liên quan tới tiền gửi có kỳ hạn 52
Hình 3.9 Triển khai dữ liệu đa chiều lên máy chủ Cognos 53
Hình 3.10 Mành hình khai thác dữ liệu đa chiều 54
Hình 3.11 Kết quả khai thác dữ liệu 54
Trang 12MỞ ĐẦU
Cùng với sự phát triển nhanh chóng và không ngừng mở rộng quy mô của các tổ chức tài chính ngân hàng, trong quá trình hoạt động khối lượng dữ liệu thông tin lưu trữ ngày càng gia tăng Trong suốt quá trình phát triển đó việc thu thập và xử lý kho dữ liệu khổng lồ trở lên quan trọng hơn bao giờ hết Việc tổ chức lưu trữ và khai thác kho dữ liệu một cách hiệu quả sẽ giúp cho các tổ chức tài chính ngân hàng thực hiện tốt công tác quản trị điều hành, quản trị rủi ro, hỗ trợ ra quyết định và hoạch định chiến lược kinh doanh
Hệ thống kho dữ liệu trong ngân hàng sẽ giúp xây dựng một nền tảng dữ liệu và công nghệ mạnh mẽ, tin cậy, giúp đáp ứng các yêu cầu hiện tại và nhu cầu phát triển và mở rộng trong tương lai Là trung tâm của các hệ thống phân tích thông tin, dữ liệu toàn ngân hàng sẽ được hợp nhất tại kho dữ liệu Nhằm đáp ứng và cung cấp thông tin một cách kịp thời, chính xác, đồng thời là nền tảng cho việc xây dựng các ứng dụng phân tích dữ liệu,
hỗ trợ ra quyết định Do đó hiệu năng xử lý dữ liệu của kho dữ liệu trong ngân hàng cần được nâng cao để đáp ứng được nhu cầu khai thác sử dụng của tổ chức tài chính ngân hàng Hiệu năng của một hệ thống kho dữ liệu được thể hiện qua một số các phương diện chính như sau: Tốc độ xử lý dữ liệu trên tập dữ liệu lớn, khả năng mở rộng và phát triển kho dữ liệu bao gồm về việc phát triển mô hình dữ liệu và hạ tầng kho dữ liệu, tùy biến theo yêu cầu khai thác và phân tích dữ liệu của người dùng
Với thực trạng hiện nay của ngân hàng BIDV chưa có một hệ thống kho dữ liệu tổng thể, thống nhất toàn ngân hàng, chưa đáp ứng tốt về hiệu năng và tồn tại khá nhiều hạn chế Đây là một bài toán thực tế hiện tại của ngân hàng, tác giả đã cùng với các đồng nghiệp đã nghiên cứu và lên phương án xây dựng một nền tảng công nghệ thông tin trong toàn ngân hàng để đáp ứng những yêu cầu về hệ thống công nghệ thông tin hỗ trợ các ban nghiệp vụ trong môi trường kinh doanh mới, trong đó với vai trò là đầu mối về hệ thống kho dữ liệu tác giả đã nghiên cứu, đánh giá những hạn chế của hệ thống kho dữ liệu cũ và đưa ra những giải pháp để giải quyết những hạn chế của hệ thống kho dữ liệu cũ Để hướng tới xây dựng
một hệ thống kho dữ liệu có hiệu năng xử lý cao đề tài “Xây dựng kho dữ liệu đảm bảo
hiệu năng cho ngân hàng BIDV và thử nghiệm với hệ thống báo cáo phân tích khách hàng”
đã được chọn làm đề tài luận văn cao học của tôi
Trong luận văn đã tiến hành nghiên cứu đánh giá hiện trạng, các hạn chế của hệ thống kho dữ liệu hiện tại trong ngân hàng từ đó đưa ra những giải pháp cụ thể cho từng vấn đề hạn chế và xây dựng hệ thống kho dữ liệu mới đáp ứng hiệu năng xử lý, khắc phục những hạn chế của hệ thống cũ và thử nghiệm với bài toàn cụ thể để chứng minh hiệu quả
Trang 13của kho dữ liệu mới Một số công việc tác giả đã thực hiện và kết quả chính của luận văn có thể tóm tắt như sau:
Công việc thực hiện:
1 Nghiên cứu đánh giá hiện trạng, các hạn chế của hệ thống kho dữ liệu hiện tại trong ngân hàng
2 Đề xuất mô hình kiến trúc hệ thống kho dữ liệu mới nhằm giải quyết các hạn chế của hệ thống kho dữ liệu cũ trong đó bao gồm các thành phần bổ sung chính như sau:
a Hạ tầng của kho dữ liệu bao gồm: Cơ sở dữ liệu chuyên dụng cho bài
toán kho dữ liệu, kiến trúc cho phép mở rộng về mô hình các công cụ trích lọc dữ liệu, công cụ phân tích và khai thác báo cáo, đáp ứng đối với dữ liệu ngày càng tăng trưởng trong ngân hàng
b Mô hình của kho dữ liệu: Nghiên cứu và áp dụng mô hình kho dữ liệu tiên tiến của IBM
3 Thiết kế thử nghiệm với hệ thống báo cáo phân tích khách hàng nhằm đánh giá
hiệu năng xử lý của kho dữ liệu mới
Kết quả đạt được:
Xây dựng hệ thống kho dữ liệu mới áp dụng cho toàn ngân hàng, thay thế hệ thống
cũ và hệ thống kho dữ liệu mới đáp ứng hiệu năng xử lý, giải quyết những hạn chế của hệ thống cũ
Nội dung chính của luận văn gồm 3 chương:
Chương 1 Hệ thống kho dữ liệu: Giới thiệu tổng quát một số khái niệm về kho dữ
liệu Nghiên cứu hiện trạng và đánh giá những hạn chế của hệ thống cũ
Chương 2 Xây dựng hệ thống kho dữ liệu đáp ứng hiệu năng xử lý cho ngân hàng: Tìm hiểu và đánh giá một số giải pháp về kho dữ liệu trên thị trường Áp dụng giải
pháp của IBM để xây dựng hệ thống kho dữ liệu mới nhằm giải quyết những hạn chế của
hệ thống cũ Tiến hành một số thử nghiệm cải tiến để kiểm chứng hiệu năng xử lý dữ liệu của hệ thống mới so với hệ thống cũ
Chương 3 Thử nghiệm với bài toán phân tích khách: Thử nghiệm với một bài
toán cụ thể từ đó rút ra kết luận đối với hệ thống kho dữ liệu mới
Cuối cùng là kết luận và hướng phát triển tiếp theo của đề tài trong tương lai
Trang 14Chương 1 HỆ THỐNG KHO DỮ LIỆU
1.1 Tổng quan kho dữ liệu
Kho dữ liệu (Data Warehouse): là tập hợp dữ liệu tương đối ổn định (ít có sự thay đổi), cập nhật theo thời gian, được tích hợp theo hướng chủ thể nhằm hỗ trợ quá trình quá trình tạo quyết định về mặt quản lý [1]
Các đặc trưng của kho dữ liệu như sau:
Theo chủ đề: Không phải tất cả các dữ liệu đều được tập hợp, người ta chỉ lấy những
dữ liệu có ích Dữ liệu được tổ chức xung quanh các chủ đề chính như khách hàng, sản phẩm, dịch vụ, v.v tập trung vào sự mô hình hóa và phân tích dữ liệu cho các nhà phân tích ra quyết định mà không tập trung vào xử lý dữ liệu thông thường Cung cấp cho người dùng có một cách nhìn toàn diện, đầy đủ về các sự kiện quanh các chủ đề
Dữ liệu tích hợp: Dữ liệu tập hợp từ nhiều nguồn khác nhau có các cơ chế lưu trữ
khác nhau: Cơ sử dữ liệu, Excel file, Flat file, v.v… điều này sẽ dẫn đến việc quá trình tập hợp phải thực hiện việc làm sạch, sắp xếp, rút gọn dữ liệu nhằm đảm bảo tính nhất quán dữ liệu
Dữ liệu cố định: Khi một Transaction hoàn chỉnh, dữ liệu không thể tạo thêm hay
sửa Dữ liệu được chuyển đổi từ môi trường tác nghiệp và được lưu trữ trong một thời gian dài, khi dữ liệu đã được chuyển đổi vào kho dữ liệu thì thao tác cập nhật và xóa dữ liệu thường không xảy ra Dữ liệu của kho dữ liệu chỉ có hai thao tác là thêm mới và đọc dữ liệu
Biến thời gian: Các dữ liệu truy suất không bị ảnh hưởng bởi các dữ liệu khác hoặc
tác động lên nhau Phạm vi về thời gian trong kho dữ liệu được lưu dài hơn so với hệ thống tác nghiệp nếu như đối với hệ thống tác nghiệp dữ liệu thông thưởng chỉ lưu giá trị hiện tại nhưng với dữ liệu trong kho dữ liệu cung cấp thông tin lịch sử lâu dài hơn Biến thời gian cũng là một khóa chính để đảm bảo tính duy nhất của dữ liệu
Cấu trúc dữ liệu cho kho dữ liệu
Vì dữ liệu trong kho dữ liệu rất lớn và không có những thao tác như sửa đổi hay tạo mới nên nó được tối ưu cho việc phân tích và báo cáo Các thao tác với dữ liệu của kho dữ liệu dựa trên cơ sở là Mô hình dữ liệu đa chiều (multidimensional data model), được mô hình vào đối tượng gọi là data cube Data cube là nơi trung tâm của vấn đề cần phân tích,
nó bao gồm một hay nhiều tập dữ kiện giá trị (fact) và các dữ kiện được tạo ra từ nhiều chiều dữ kiện khác nhau (dimention)
Trang 15Một thống kê doanh số bán hàng dựa trên ba yếu tố là: địa điểm, thời gian và chủng loại hàng Mô hình dữ liệu đa chiều là vấn đề “Thống kê bán hàng” với ba chiều là ba yếu tố: địa điểm, thời gian và chủng loại hàng Bảng fact là bảng tổng hợp dữ liệu của mối liên quan của doanh số với 3 yếu tố
Ngôn ngữ cho kho dữ liệu
Ngôn ngữ xử lý phân tích trực tuyến (OLAP - On-Line Analytical Prosessing), rất phù hợp với kho dữ liệu, ngôn ngữ này tương tự với ngôn ngữ truy vấn SQL và tập trung vào các câu lệnh sau: Thu nhỏ (roll-up) ví dụ nhóm dữ liệu theo chi nhánh thay vì theo phòng ban Mở rộng (drill-down) ví dụ mở rộng dữ liệu, nhìn theo phòng ban thay vì theo chi nhánh Cắt lát (slice) nhìn theo từng lớp một Thu nhỏ (dice) bỏ bớt một phần của dữ liệu
1.2 Kiến trúc chung của kho dữ liệu
Mô hình kiến trúc cơ bản của kho dữ liệu cơ bản gồm bốn thành phần như sau:
Dữ liệu nguồn: Dữ liệu từ các hệ thống khác nhau (Bao gồm dữ liệu có cấu trúc và
phi cấu trúc) được tập kết lại vào một nới duy nhất
Khu xử lý dữ liệu: Là nơi dữ liệu sẽ được làm sạch và chuyển đổi để đảm bảo tính
nhất quán dữ liệu trước khi đưa vào kho đích Thông thường người ta sử dụng các công cụ trích xuất, chuyển đổi và nạp dữ liệu (ETL)
Kho dữ liệu (nơi lưu trữ dữ liệu): Là nơi dữ liệu được xử lý và được tập kết, lưu
trữ
Người dùng cuối: Là người dùng khai thác thông tin từ kho dữ liệu
Trang 16Báo cáo
Phân tích
Báo báo
Khai phá dữ liệu
Dữ liệu nguồn Khu xử lý dữ liệu Kho lưu trữ dữ liệu Người dùng cuối
Kiến trúc cơ bản của kho dữ liệu
Hình 1.1 Kiến trúc cơ bản của kho dữ liệu
1.3 Mô hình logic của kho dữ liệu
Sơ đồ hình sao (Star schema): Một bảng sự kiện ở trung tâm được kết nối với một
tập các bảng chiều khác nhau
Sơ đồ bông tuyết (Snowflake schema): Một mở rộng của sơ đồ hình sao trong đó
một vài cấu trúc chiều được chuẩn hóa thành một tập các bảng chiều nhỏ hơn, hình thức tương tự như bông tuyết
Sơ đồ chòm sao sự kiện (Fact constellations schema): Bảng sự kiện phức chia sẻ
các bảng chiều, tạo khung nhìn một tập các “ngôi sao”, nên còn được gọi sơ đồ ngân hà (galaxy schema) hoặc chòm sao sự kiện
1.4 Mô hình dữ liệu đa chiều
Đây là mô hình dữ liệu đa chiều xoay quanh các chủ đề nhằm trả lời một cách nhanh nhất các câu hỏi trong nghiệp vụ phân tích Có thể nhìn dữ liệu như là một khối trong đó
Trang 17mỗi chiều là một khía cạnh của bài toán giúp cho các nhà phân tích có thể nhìn thấy, đánh giá số liệu theo nhiều chiều
Dữ liệu đa chiều
Khách hàng
Hình 1.2 Mô hình dữ liệu đa chiều
Ở hình 1.2 khối dữ liệu gồm có 3 chiều: khách hàng, sản phẩm, thời gian
1.5 Hiện trạng hệ thống kho dữ liệu trong ngân hàng
1.5.1 Tổng quan hệ thống báo cáo trong ngân hàng
Từ năm 2004 đến nay BIDV đã trang bị hệ thống Core Banking mạnh phục vụ các mảng kinh doanh của mình Song song với đó các hệ thống báo cáo phục vụ công tác thống
kê, quản lý lần lượt đưa vào khai thác Tuy nhiên, các hệ thống báo cáo này vẫn chưa đầy
đủ và còn manh mún, nằm rời rạc ở các vị trí khác nhau Hệ thống báo cáo rời rạc chia thành các nhóm cụ thể như sau:
Hệ thống báo cáo tại Core Banking nằm trên hệ thống Core Banking phục vụ công tác hàng ngày của hoạt động tác nghiệp trong ngân hàng Hệ thống báo cáo kho dữ liệu là
hệ thống báo cáo phân tích đa chiều lớn gồm hàng trăm báo cáo dựa trên công nghệ của Microsoft và hàng trăm hệ thống báo cao đơn lẻ do BIDV tự xây dựng và phát triển
1.5.2 Kiến trúc của kho dữ liệu trong ngân hàng
Hệ thống kho dữ liệu trong ngân hàng được xây dựng và duy trì từ năm 2005 đến nay, đượt thiết kế bởi nhà thầu Silverlake Hình 1.3 mô tả hệ thống kho dữ liệu hiện tại của ngân hàng [2]
Trang 18http://www.google.com/ imgres?imgurl=http:// tinhocvanphong.edu.vn/ wp-content/uploads/2013/ 10/khoa-hoc-excel- 2010.jpg&imgrefurl=http:// tinhocvanphong.edu.vn/ hoc-tin-hoc/excel-2010/ khoa-hoc-excel-2010/
J3eLOuaKdWkM:&docid=- qfVLXIiqWX1zM&ei=_5GuV cfaI8ermAWi- 7H4Aw&tbm=isch&ved=0C EcQMygeMB5qFQoTCIfWi Nrv7MYCFccVpgodon0MP
10/khoa-hoc-excel-tinhocvanphong.edu.vn/
hoc-tin-hoc/excel-2010/
khoa-hoc-excel-2010/
J3eLOuaKdWkM:&docid=- qfVLXIiqWX1zM&ei=_5GuV cfaI8ermAWi- 7H4Aw&tbm=isch&ved=0C EcQMygeMB5qFQoTCIfWi Nrv7MYCFccVpgodon0MP
&h=529&w=1024&tbnid= w
CoreBanking
ATM System
STG (Staging Area) EDM (Enterprise data model)
Deposit
Loan
Hình 1.3 Kiến trúc kho dữ liệu trong ngân hàng
Mô tả chi tiết luồng xử lý hệ thống kho dữ liệu trong ngân hàng
Hệ thống kho dữ liệu lưu trữ dữ liệu bao gồm khu vực dữ liệu nguồn (Source data)
và khu vực kho dữ liệu nằm chính trên máy chủ triển khai hệ thống Core Banking (máy chủ AS400) có nghĩa là máy chủ triển khai hệ thống Core Banking cũng đồng thời là máy chủ
xử lý chính của kho dữ liệu, hai hệ thống trên cùng một máy chủ hệ thống tác nghiệp và hệ thống báo cáo kho dữ liệu với cơ sở dữ liệu là DB2 được tích hợp luôn trên máy chủ Dữ liệu nguồn hầu hết nằm chính tại máy chủ AS400 bao gồm toàn bộ dữ liệu tác nghiệp của Core Banking, dữ liệu từ các hệ thống khác hầu như không có Dữ liệu nguồn sẽ được tập kết tại một chỗ gọi là khu vực STG từ khu vực này dữ liệu sẽ được làm giàu, làm sạch, tổng hợp, chuẩn hóa dữ liệu, chuẩn bị được đẩy vào khu vực EDM (Enterprise data model) bằng cung cụ DTS (Data Transformation Services) một sản phẩm trong bộ SQL Server của Microsoft Dữ liệu sau khi đã được hợp nhất, tính toán, làm giàu, làm sạch từ khu vực EDM
dữ liệu sẽ được chuyển sang dạng dữ liệu đa chiều (OLAP) theo các bài toán chủ đề khác
Trang 19nhau để người dùng khai thác thông qua công cụ Excel Dữ liệu đa chiều được thực hiện tổng hợp thông qua công cụ DTS và được lưu trữ trên cơ sở dữ liệu [3] SQL Server 2000
Như vậy về tổng quan kho dữ liệu hiện tại của ngân hàng được nhìn dưới ba góc độ
về hạ tầng như sau: Cơ sở dữ liệu dùng cho bài toán kho dữ liệu, cơ sở dữ liệu DB2 được tích hợp sẵn trên máy chủ Core Banking AS400 (máy mainframe) Công cụ trích lọc dữ
liệu, sử dụng DTS một trong các công cụ của SQL Server về trích lọc dữ liệu Công cụ khai thác, phân tích sử dụng Excel kết nối tới OLAP được lưu trữ trên SQL Server 2000
1.5.3 Đánh giá các mặt hạn chế của hệ thống kho dữ liệu hiện tại
Tác giả đã dựa vào những phương diện sau để phân tích đánh giá những mặt hạn chế của kho dữ liệu hiện tại trong ngân hàng bao gồm: (i) Cơ sở dữ liệu dùng cho bài toán kho
dữ liệu (ii) Công cụ trích lọc dữ liệu (iii) Công cụ phân phối báo cáo (iv) Mô hình thiết
kế của kho dữ liệu
Từ đó đưa ra hướng giải pháp mới nhằm nâng cao hiệu quả về hiệu năng xử lý của kho dữ liệu
1.5.3.1 Cơ sở dữ liệu dùng cho bài toán kho dữ liệu
Cơ sở dữ liệu DB2 được tính hợp sẵn trên máy chủ AS400 được triển khai cùng với Core Banking, hệ cơ sở dữ liệu này được triển khai nhằm mục đích chính cho bài toán tác nghiệp phù hợp với bài toán OLTP của ngân hàng và cấu phần kho dữ liệu được triển khai thêm sau đó
Do vậy tồn tại bài toán tác nghiệp và bài toán xử lý kho dữ liệu trên cùng một máy chủ Core Banking điều này ít nhiều làm ảnh hưởng tới hiệu năng của hệ thống tác nghiệp
do phải chia sẻ tài nguyên cho hệ thống kho dữ liệu Thông thường hệ thống tác nghiệp sẽ bắt đầu ngày làm việc mới khoảng 8h mỗi sáng nhưng hệ thống kho dữ liệu thì kết thúc muộn hơn rất nhiều Hệ thống kho dữ liệu thường bắt đầu từ 2h sáng và thường kết thúc vào 12h giờ hàng ngày với tổng dung lượng dữ liệu xử lý vào khoảng 30GB điều này gây
áp lực rất lớn lên hệ thống giao dịch hàng ngày của ngân hàng và cũng gây khó khăn cho việc khai thác phân tích số liệu phục vụ công tác quản trị điều hành tại ngân hàng
1.5.3.2 Công cụ trích lọc dữ liệu
Hiện tại ngân hàng đang sử dụng ETL bằng công cụ DTS của SQL Server 2000 để thực hiện quá trình trích lọc dữ liệu, công cụ này hiện nay đang gặp phải một số hạn chế như sau:
Trang 20Không có khả năng mở rộng về hạ tầng và chạy trên nền tảng của Microsoft chỉ phù hợp đối với các bài toán nhỏ và vừa Hiện nay với việc cần phải xử lý dữ liệu đầu ngày khoảng 300G đã gây ra áp lực rất lớn lên hệ thống ETL của ngân hàng
Chỉ hỗ trợ mô hình triển khai theo hướng ET-L hoặc EL-T có nghĩa là máy chủ cài đặt DTS chỉ làm nhiệm vụ trích xuất (Extract) hoặc truyền tải (Load) còn chuyển đổi (Transform) sẽ được thực hiện tại nguồn hoặc đích Việc thiết kế này phụ thuộc hoàn toàn vào hiệu năng xử lý của máy của nguồn hoặc đích Không có khả năng mở rộng về các cụm máy chủ chỉ để dùng cho việc chuyển đổi số liệu khi bài toán dữ liệu ngày càng tăng trưởng
Do đó mô hình này cũng đã một phần ngây tải cho hệ thống xử lý tác nghiệp hàng ngày trong ngân hàng
1.5.3.3 Công cụ phân phối báo cáo
Việc khai thác và phân phối báo cáo theo chủ đề hiện nay tại ngân hàng sử dụng qua công cụ Excel kết nối tới mô hình dữ liệu đa chiều (OLAP) qua phương thức kết nối ODBC
mà chưa có một công cụ chuyên biệt để thực hiện việc phân phối báo cáo tới người dùng Một số hạn chế khi sử dụng công cụ Excel cho bài toán phân tích hiện nay trong ngân hàng như sau:
Dữ liệu khai thác trên Excel chỉ khai thác được trên tập dữ liệu nhỏ và dữ liệu OLAP được lưu trên SQL Server bị giới hạn dung lượng do đó bài toán này chỉ phù hợp với dữ liệu vừa và nhỏ không phù hợp với dữ liệu lớn
Việc khai thác trên các dữ liệu chuyên đề không linh hoạt gây khó khăn cho người dùng đối với các phân tích cần lọc dữ liệu thì Excel sẽ thực hiện việc load toàn bộ data lên Excel rồi mới thực hiện việc lọc điều này dẫn đến nhiều bài toán phân tích trên dữ liệu chuyên đề không thực hiện được do bị giới hạn về số lượng bản ghi hiển trị trên Excel tùy thuộc từng phiên bản của Excel
Dữ liệu trong kho dữ liệu mới chỉ được cung cấp tại Hộ sở chính mà chưa được phân phối trên toàn ngân hàng
Cơ chế phân quyền bảo mật đối với việc khai thác và phân phối báo cáo qua Excel chưa đảm bảo tính an toàn và bảo mật
1.5.3.4 Mô hình thiết kế kho dữ liệu
Việc triển khai kho dữ liệu trong ngân hàng chưa có một mô hình thiết kế tổng thể
để từ đó có thể dễ dàng mở rộng và phát triển các bài toán phân tích khác nhau phục vụ nhu cầu quản trị điều hành trong môi trường cạnh tranh ngày càng mãnh liệt
Trang 21Chưa có một mô hình tổng thể bao trùm các mảng phân tích trong ngân hàng như: Quản lý rủi ro, phân tích khác hàng, quản lý tài sản nợ có, phân tích khách hàng trung thành dời đi, phân tích bán chéo sản phẩm, các bài toán về báo cáo tuân thủ, v.v… hiện tại kho
dữ liệu mới chỉ dừng lại ở các bài toàn phục vụ tác nghiệp là chính chưa có những mô hình chuyên sâu, chuyên biệt để thực hiện phát triển, kiểm soát các hoạt động của ngân hàng trong xu hướng phát triển mới
Trang 22Chương 2 XÂY DỰNG HỆ THỐNG KHO DỮ LIỆU ĐÁP ỨNG HIỆU NĂNG XỬ LÝ CHO NGÂN HÀNG
2.1 Mục tiêu
Mục tiêu chung: Xây dựng một cơ sở hạ tầng phục vụ xây dựng báo cáo thống kê
tập trung trên nền tảng công nghệ hiện đại, công cụ xây dựng và khai thác chuyên nghiệp Đổi mới phương pháp phân phối dữ liệu theo hướng đáp ứng yêu cầu ngày càng đa dạng của nghiệp vụ.Thống nhất mô hình dữ liệu, đảm bảo các khai thác dữ liệu từ tất cả các nguồn hiện có tính thống nhất trong toàn ngân hàng
Mục tiêu chi tiết: Với các hạn chế đã phân tích đánh giá ở Chương 1 hệ thống kho
dữ liệu mới cần khắc phục được những hạn chế đã nêu với bốn phương diện cần cải tiến và
bổ sung bao gồm: Hệ cơ sở dữ liệu chuyên dụng cho bài toán kho dữ liệu, hệ thống trích lọc dữ liệu, hệ thống phấn phối báo cáo và mô hình thiết kế tổng thể cho kho dữ liệu
2.2 Một số giải pháp công nghệ về kho dữ liệu
Có nhiều phương thức để đánh giá các giải pháp kho dữ liệu hiện tại trên thế giới Các hãng phân tích lớn và uy tín trên thế giới sử dụng các phân tích đa chiều, đồng thời theo xu hướng phát triển của Công nghệ thông tin như Gartners
Tuy nhiên, theo nhận định chung thì có bốn yếu tố chính ảnh hưởng đến việc lựa chọn một nền tảng công nghệ kho dữ liệu thích hợp đó là: giao diện, tính năng, hỗ trợ và nền tảng hệ thống Các yếu tố này ảnh hưởng trực tiếp đến thành công của một dự án triển khai và áp dụng kho dữ liệu vào trong tổ chức/doanh nghiệp
Các giải pháp kho dữ liệu lớn trên thế giới đang theo xu hướng thay đổi để thích hợp với xu hướng phát triển của BI cũng yêu cầu càng ngày càng phức tạp hơn trong việc phân tích dữ liệu Một số giải pháp hiện nay có trên thị trường
Giải pháp của Microsoft: Microsoft cung cấp giải pháp kho dữ liệu khá toàn diện
và đẩy đủ với cơ sở dữ liệu SQL Server 2008 [4], hệ thống Analyze Services, là giải pháp tương đối phổ biến
Ưu điểm: Thân thiện, dễ dùng, dễ phát triển, dễ bảo trì
Nhược điểm: Hạn chế khi xử lý lượng dữ liệu lớn, phù hợp với các bài toán vừa và nhỏ, hệ thống bảo mật kém do sử dụng nền tảng windows
Trang 23Giải pháp của Oracle: Oracle được đánh giá là một trong những công ty hàng đầu
trong lĩnh vực giải pháp về kho dữ liệu với đẩy đủ các công cụ chuyên biệt cho bài toán kho dữ liệu đặc biệt với giải pháp Oracle Exadata Database Machine đã tối ưu rất nhiều cho
bài toán kho dữ liệu [5]
Ưu điểm: Thị phần Oracle chiếm trên thị trường khá lớn khoảng 48% Tiện dụng, thuận lợi cho việc tiếp cận và phát triển Hệ thống cơ sở dữ liệu và máy chủ kho dữ liệu đã
tích hợp thành máy duy nhất cung cấp hiệu năng xử lý tốt hơn
Nhược điểm: Thông thường khi triển khai giải pháp của Oracle sẽ tốn công sức triển
khai hơn Chi phí về bản quyền phần mềm của Oracle cũng thường cao hơn các nhà cung
cấp khác
Giải pháp của IBM: Được đánh giá là đơn vị cung cấp giải pháp kho dữ liệu và
phân tích số liệu hàng đầu ở hầu hết các tổ chức đánh giá độc lập (cụ thể là Gartner và Forrester) Hiện tại IBM đang cung cấp hai giải pháp chính và chuyên dụng cho bài toán khai thác, phân tích báo cáo theo mô hình kho dữ liệu Cả hai giải pháp đều có mô hình giống nhau chỉ khác nhau về cấu phần cơ sở dữ liệu lưu trữ dữ liệu cụ thể [6]:
Cả 2 giải pháp đều dùng Data Stage làm công cụ ETL Công cụ Cognos cho cấu phần khai thác và phân phối báo cáo Xây dựng kho dữ liệu trên nền tảng mô hình dữ liệu IBM Banking Data Model
02 giải pháp khác nhau ở cấu phần kho dữ liệu: ISAS (IBM Smart Analytics
System): Sử dụng appliance máy chủ ISAS 7710; kho dữ liệu xây dựng trên cơ sở dữ liệu
DB2; Dữ liệu đa chiều cube xây dựng trên Inforsphere warehouse gắn chặt với cơ sở dữ liệu DB2 Đây là giải pháp Hybrid (Hệ thống máy chủ có thể dùng cho cả bài toán phân
tích báo cáo và giao dịch) Netezza: Sử dụng theo cơ chế appliance; tích hợp toàn bộ phần
cứng, phần mềm (hệ điều hành, cơ sở dữ liệu, v.v…) trong một thiết bị duy nhất Đây là giải pháp chỉ dùng cho hệ thống phân tích, khai thác báo cáo
2.3 Thiết kế, xây dựng mô hình hệ thống kho dữ liệu mới
Trên cơ sở đã phân tích ở phần trước về hiện trạng, các mặt hạn chế và một số giải pháp hiện về kho dữ liệu có trên thị trường, tác giả đã chọn giải pháp của IBM với Netezza
để xây dựng lại hệ thống kho dữ liệu mới trong ngân hàng đảm bảo hiệu năng xử lý của kho dữ liệu
Trang 24www.google.com/
imgres?imgurl=http://
tinhocvanphong.edu.v n/wp-content/
uploads/2013/10/
2010.jpg&imgrefurl=ht tp://
khoa-hoc-excel-tinhocvanphong.edu.v n/hoc-tin-hoc/excel- 2010/khoa-hoc-excel- 2010/
&h=529&w=1024&tbn id= J3eLOuaKdWkM:&doci d=- qfVLXIiqWX1zM&ei=_
7H4Aw&tbm=isch&ve d=0CEcQMygeMB5qF QoTCIfWiNrv7MYCFcc Vpgodon0MPw
Asset and Liability Management Investment Management Payments Profitability Regulatory Compliance Relationship Marketing Risk Management Wealth Management
Reporting
Analysis
Mining
Mô hình tổng quan hệ thống kho dữ liệu mới
Hình 2.1 Mô hình tổng thể kho dữ liệu mới Trong hình 2.1 là mô hình tổng quát của kho dữ liệu mới với các phần sau [7]
Hệ thống Source data: Bao gồm toàn bộ hệ thống nguồn của ngân hàng từ Core Banking, ATM system (DB2/AS400), Cadencies, Payments (Oracle), Treasury sysem (sysbase), v.v…
Hệ thống máy chủ IBM Netezza được sử dụng với các khu vực lưu trữ như sau: Khu vực STG dữ liệu thô được tập kết lại từ các nguồn khác nhau thông qua cung cụ trích lọc
dữ liệu IBM DataStage Khu vụ SOR (System of Record) linh hồn của kho dữ liệu bao gồm tầng automic và summary được thiết kế theo chuẩn của IBM Banking Data Model Khu vực DataMart các bài toán phân tích dữ liệu theo từng chủ đề Hệ thống khai thác và phân phối báo cáo tập trung IBM Cognos Hệ thống người dùng cuối sử dụng khai thác, phân tích báo cáo qua công cụ IBM Cognos
2.4 Các thành phần cần nâng cấp, bổ sung
2.4.1 Hệ thống cơ sở dữ liệu chuyên dụng cho bài toán kho dữ liệu
IBM Netezza là một hệ thống máy chủ chuyên dụng dùng cho bài toán kho dữ liệu hoàn chỉnh (Data warehouse Appliance) phần mềm cơ sở dữ liệu và phần cứng được tích hợp cùng một máy tăng hiệu năng tối đa cho bài toán truy xuất dữ liệu lớn
Trang 25Bên trong thiết bị kho dữ liệu Netezza là phần mềm chạy trên các thiết bị phần cứng
đã được tối ưu hóa để đạt hiệu năng phân tích cao mà không cần bất kỳ hiệu chỉnh nào Được khách hàng đánh giá là một thiết bị đơn giản nhưng lại có thể đáp ứng những yêu cầu rất cao về khai thác và phân tích dữ liệu, Netezza có khá nhiều ưu điểm như chi phí thấp (giá bằng 50% giá trung bình của các sản phẩm khác), thời gian triển khai ngắn (lắp đặt và triển khai trong 24 giờ), khả năng mở rộng cao (dung lượng dữ liệu người dùng lên tới hàng Petabytes) cùng với yêu cầu về nhân lực và quản trị đơn giản hơn rất nhiều
Công nghệ xử lý song song và việc bổ sung các bộ gia tốc xử lý bên cạnh bộ vi xử
lý truyền thống đã mang lại cho Netezza hiệu suất vượt trội dẫn đầu thị trường Chính những điều này đã giúp khách hàng vượt qua các quan ngại khi cân nhắc đầu tư giải pháp kho dữ liệu
Rất nhiều tổ chức và doanh nghiệp thuộc mọi lĩnh vực như khối chính phủ, truyền thông, chứng khoán, bán lẻ, viễn thông, đã triển khai thành công IBM Netezza và tạo ra lợi thế cạnh tranh với doanh thu mới, cắt giảm chi phí hoạt động, giữ chân khách hàng và tăng lợi nhuận
Một số đặc điểm nổi bật của IBM Netezza:
Hệ thống IBM Netezza hoạt động trong môi trường Active- Standby Có hai máy chủ (host) một máy chủ active và một máy chủ standby dùng trong trường hợp máy chủ chính bị sự cố Thời gian downtime nhỏ khoảng mười phút
IBM Netezza có kiến trúc đặc biệt với những phần cứng chuyên biệt để xử lý dữ liệu một cách thông minh nhằm tăng tốc độ truy vấn dữ liệu Tốc độ quét dữ liệu có thể lên 145TB/hr, tốc độ load dữ liệu tối thiểu 2TB/hr
Hệ thống dễ dàng mở rộng quy mô với việc tích hợp các cụm máy chủ thành một khối duy nhất
Việc quản trị hệ thống đơn giản, không tốn nguồn lực cho người quản trị, các tham
số tablespace, dbspace, physical log sizing, page/block sizing, extent sizing và các cấu hình cho table được thực hiện bởi hệ thống một cách tự động và trong suốt với người sử dụng
Hệ thống tuân thủ việc tăng tốc phân tích bằng cách tâ ̣p trung xử lý ta ̣i kho dữ liê ̣u thay vì xử lý ta ̣i máy chủ khai thác báo cáo Có nghĩa là dữ liệu đã được phân tích trích xuất
từ dưới máy chủ Netezza trước khi được hiển trị trên công cụ khai thác báo cáo
Đơn giản cho việc tối ưu hệ, thống không index, partition việc tối ưu hệ thống được
tự động xử lý trong suốt với người dùng
Trang 26Hệ thống phải cho phép chạy job với tải hỗn hợp nhiều người dùng (multi-user mixed worklod jobs), bao gồm nhiều phép SQL kết (join) và hợp (aggregation) mà không ảnh hưởng đến hiệu năng
Hệ thống có chức năng tự tối ưu hóa truy vấn (Query Optimizer)
Việc thực nghiệm để kiểm chứng về tốc độ của Netezza sẽ được thực hiện ở phần 2.5.1
2.4.2 Hệ thống công cụ trích lọc dữ liệu
2.4.2.1 Tầm quan trọng của quá trình trích lọc dữ liệu
Thiết kế và triển khai quy trình ETL sẽ là công trình phức tạp nhất trong tiến trình xây dựng kho dữ liệu tập trung Quy trình là quy trình để “Chiết xuất, chuyển đổi và truyền tải” dữ liệu từ các hệ ứng dụng tác nghiệp gốc vào trong kho dữ liệu tập trung và từ kho dữ liệu tập trung qua các kho dữ liệu cục bộ Mỗi lần môi trường kho dữ liệu thêm một ứng dụng hoặc thêm một Cơ sở dữ liệu mới, quy trình ETL sẽ phải được bổ sung và ngày càng trở nên phức tạp hơn Trên nguyên tắc về mặt “logic”, sẽ chỉ có một quy trình ETL để phục
vụ toàn bộ môi trường làm việc của hệ thống kho dữ liệu tập trung
Vì sự cần thiết phải phối hợp rất chặt chẽ các quy trình ETL, do đó chỉ nên sử dụng một công cụ ETL duy nhất để vận hành cả hệ thống kho dữ liệu Vì vậy, chức năng và chất lượng của công cụ ETL được chọn lựa sẽ là chìa khóa thành công trong việc xây dựng kho
dữ liệu tập trung của ngân hàng
Mục đích của công cụ tiện ích ETL là hỗ trợ các qui trình chiết xuất dữ liệu từ nhiều nguồn dữ liệu hỗn tạp, chuyển đổi các dữ liệu này thành dữ liệu chất lượng cao, truyền tải các dữ liệu đã được chuyển đổi và lưu trữ vào kho dữ liệu tập trung cũng như các kho dữ liệu cục bộ chuyên đề, giúp cho việc truy cập được dễ dàng hơn
Khi đánh giá các giải pháp ETL để xây dựng hệ thống kho dữ liệu, một số câu hỏi cần được cân nhắc:
Sẽ tự xây dựng công cụ cho các chương trình ETL hay sẽ dùng một sản phẩm phần mềm có sẵn?
Công cụ ETL có khả năng tích hợp với kho siêu dữ liệu (metadata repository) không?, các chi tiết kỹ thuật liên quan đến quy trình ETL có thể được cập nhật và có thể được lưu trữ ngay trong kho siêu dữ liệu hay không?
Trang 27Bộ các công cụ ETL có bao gồm một công cụ chuyên biệt với đầy đủ chức năng cần thiết để đáp ứng các yêu cầu về làm sạch dữ liệu hay không?
Tiện ích sắp xếp (SORT) và tiện ích tải nạp (LOAD) dữ liệu có nhanh chóng và đáp ứng đủ hiệu suất hay không?
Công cụ ETL và quy trình ETL có bao gồm các thống kê đo lường chất lượng dữ liệu hay không? Các thống kê này có thể lưu trữ ngay trong kho siêu dữ liệu hay không?
Các bước quan trọng trong quy trình ETL
Chiết xuất dữ liệu (ETL chuẩn bị / ETL Staging)
Bước đầu tiên trong quy trình ETL là chiết xuất dữ liệu nhằm lựa chọn, thu thập và kết hợp dữ liệu từ rất nhiều nguồn dữ liệu đa dạng và phức tạp vào trong các kho dữ liệu tạm thời trước khi được làm sạch và chuyển đổi Dữ liệu chiết xuất gồm dữ liệu có cấu trúc
và dữ liệu không có cấu trúc được lấy từ nhiều nguồn dữ liệu trong và ngoài ngân hàng
Các nguồn dữ liệu có cấu trúc gồm có: Các hệ tác nghiệp gốc như hệ thống Core
Banking, Treasury, Quản lý nội bộ, quản lý nguồn nhân lực (Tổ chức cán bộ), các hệ Quản
lý thẻ, hệ chuyển tiền, các chương trình quản lý sản phẩm đặc biệt tại chi nhánh, v.v…Các
hệ quản lý kênh phân phối như Contact center, Internet banking và Mobile banking, v.v… Các hệ báo cáo kết quả hoạt động kinh doanh của các công ty trực thuộc ngân hàng Các thông tin mua hoặc thuê từ các tổ chức tài chính như: Trung tâm Thông tin tín dụng (CIC: credit information center), PCB (Công ty Thông tin Tín dụng Việt Nam), v.v…
Các nguồn dữ liệu không cấu trúc bao gồm: Thông tin và báo cáo từ các chi nhánh,
các văn bản và báo cáo nội bộ, các nguồn thông tin và tin tức ngoài ngân hàng
Một số câu hỏi cần được làm rõ khi xây dựng kho dữ liệu giải đáp liên quan đến giải pháp đề xuất cho bước ETL chuẩn bị (ETL staging) gồm có: Quy trình Chiết xuất dữ liệu
từ các hệ tác nghiệp, đặc biệt là từ Core Banking sẽ tốn hết bao nhiêu thời gian (tính bằng giờ) vào cuối mỗi ngày làm việc, cuối tuần, cuối tháng và có tiềm ẩn khả năng gây tác động đến hiệu năng xử lý của hệ thống Core Banking và các hệ tác nghiệp khác hay không? Giải pháp ETL sẽ cập nhật toàn bộ cơ sở dữ liệu của các hệ tác nghiệp mỗi ngày hay chỉ cần trích rút các dữ liệu đã thay đổi so với kỳ tải nạp dữ liệu trước
Chuyển đổi dữ liệu (ETL Transformation)
Bước “Chuyển đổi” dữ liệu là bước quan trọng nhất, có thể chiếm tới 80% của cả quy trình ETL Các kỹ thuật sau đây sẽ cần được xây dựng áp dụng trong bước chuyển đổi
dữ liệu để đảm bảo chất lượng dữ liệu: Đồng dạng/đồng bộ dữ liệu (reformatting) Dữ liệu gốc thuộc nhiều ứng dụng tác nghiệp khác nhau cần được định dạng lại cho đồng bộ Chỉnh
Trang 28hợp/đối chiếu dữ liệu (reconcilement) Dữ liệu gốc dư thừa, trùng hợp cần được đối chiếu
để chỉnh sửa lại cho nhất quán, cho phù hợp Làm sạch dữ liệu (cleansing) Dữ liệu từ các ứng dụng tác nghiệp gốc có thể thiếu chính xác và cần được kiểm tra, chỉnh sửa và làm sạch theo đúng các quy tắc nghiệp vụ Tổng hợp dữ liệu (aggregation) Phần lớn dữ liệu sẽ cần được tổng hợp và tổng kết (summarized) để phù hợp với cấu trúc đa chiều của kho dữ liệu, phục vụ nhu cầu truy xuất và báo cáo
2.4.2.2 Hệ thống trích lọc dữ liệu IBM DataStage
Hệ thống tích hợp dữ liệu IBM DataStage thuộc một trong các công cụ trong bộ sản phẩm IBM Information Server IBM DataStage làm việc vụ chính là việc thực hiện ETL
dữ liệu, một số đặc trưng cơ bản của DataStage giúp cho quá trình ETL dữ liệu được thực hiện một cách hiệu năng nhất trong quá trình chuyển đổi dữ liệu vào kho dữ liệu
Hệ thống dễ dàng thực hiện việc thiết kế các “flow jobs” theo các cơ chế khác nhau theo năng lực của hệ thống nguồn và đích cụ thể các luồng dữ liệu có thể được thiêt kế như
sau: ET-L: Việc Transform thực hiện tại máy chủ nguồn nguồn như Hình 2.2
Trích xuất (Extract) Chuyển đổi (Transform) Truyền tải (Load)
Hình 2.2 Mô hình xử lý theo ET-L
EL-T: Việc Transform thực hiện tại máy chủ đích như Hình 2.3
Trích xuất (Extract) Truyền tải (Load) Chuyển đổi
(Transform)
Hình 2.3 Mô hình xử lý theo EL-T
E-T-L: Việc Transform thực hiện độc lập tại các máy chủ cài ETL đây chính là một
điểm nổi bật của hệ thống DataStage với kiến trúc này đã đảm bảo giảm tải được rất nhiều ảnh hưởng của quá trình tổng hợp dữ liệu đẩy vào kho dữ liệu tới hệ thống nguồn và hệ thống đích bằng việc xử lý những tính toán phức tạp trên hệ thống Engine của máy chủ cài
Trang 29ETL và có khả năng mở rộng theo các mô hình khác nhau theo nhu cầu về năng lực xử lý
đối với dữ liệu Việc thiết kế theo mô hình E-T-L nếu triển khai sẽ giảm được rất nhiều đối
với hệ thống nguồn và hệ thống đích đặc biệt đối với bài toán kho dữ liệu trong ngân hàng
sẽ giảm tải đối với hệ thống Core Banking Hình 2.4 Mô hình xử lý E-T-L với việc chuyển
đổi thực hiện tại máy chủ cài ETL
Truyền tải (Load)
Hình 2.4 Mô hình xử lý theo E-T-L
Ví dụ: Có sơ đồ quan hệ các bảng như sau: Bảng HOADON lưu thông tin về hóa đơn, bảng SANPHAM lưu thông tin về sản phẩm
Câu lệnh truy vấn yêu cầu trên như sau:
select sum(a.sotien) sotien , b.tensanpham
from hoadon a
inner join sanpham on a.masanpham=b.masanpham
Trang 30Nếu thiết kế mô hình xử lý dữ liệu theo EL-T thì 2 bảng HOADON và SANPHAM
sẽ được trích xuất từ máy chủ nguồn sang máy chủ đích và phép join, sum sẽ được thực hiện tại máy chủ đích Máy chủ cài ETL chỉ có nhiệm vụ chuyển dữ liệu từ 2 bảng HOADON và SANPHAM từ nguồn sang đích mà không đóng vai trò xử lý chuyển đổi số liệu (các phép tính trong cơ sở dữ liệu, join, sum, v.v…)
Nếu thiết kế mô hình xử lý dữ liệu theo ET-L thì 2 bảng HOADON và SANPHAM
sẽ được trích xuất từ máy chủ nguồn và thực hiện tính toán phép tính join, sum trên máy chủ nguồn, kết quả sẽ được chuyển dữ liệu sáng máy chủ đích Máy chủ cài ETL cũng chỉ
có nhiệm vụ chuyển dữ liệu từ kết quả tính toán của 2 bảng HOADON và SANPHAM mà không đóng vai trò xử lý chuyển đổi số liệu Hiện hệ thống kho dữ liệu cũ dùng phương thức này để xây dựng cấu phần ETL điều này làm ảnh hưởng rất lớn tới hệ thống Core Banking do phải thực hiện việc tính toán, xử lý số liệu trên chính hệ thống Core Banking
Nếu thiết kế theo mô hình E-T-L thì toàn bộ các phép tính join, sum, v.v… sẽ được thực hiện trên máy chủ cài ETL điều này là hoàn toàn hợp lý để giải quyết những vấn đề liên quan tới ảnh hưởng tới máy chủ nguồn, máy chủ đích và đối với việc xử lý dữ liệu lớn cần có hệ thống chuyên biệt về tính toán, việc tính toán sẽ được thực hiện riêng độc lập trên một hệ thống máy chủ khác như Hình 2.4
Hình 2.5 E-T-L thiết kế theo công cụ IBM DataStage Công cụ có khả năng thu thập dữ liệu với các nguồn dữ liệu kể cả có cấu trúc và không có cấu trúc: các tập tin văn bản, cấu trúc dữ liệu phức tạp trong XML, các hệ thống Enterprise Resource Planning (ERP) như SAP và PeopleSoft, hầu như bất kỳ cơ sở dữ liệu nào (DB2, SQLSERVER, Oracle, Teradata, v.v… bao gồm cả cơ sở dữ liệu phân vùng), kết nối với các công cụ đồng bộ dữ liệu thời gian thực như Change Data Capture, kết nối với các kiến trúc hướng dịch vụ (SOA–Service Oriented Architectural)
Cho phép giải quyết các vấn đề liên quan đến xử lý khối lượng dữ liệu lớn với hiệu năng cao bằng cách tận dụng khả năng xử lý song song của nền tảng phần cứng Triển khai được trên nền máy chủ lớn (Mainframe)
Trang 31Cho phép thực thi các “job” một cách song song trên nhiều CPU, có nghĩa là việc thiết kế các job được chạy trên tài nguyên của một máy tính đơn hoặc tận dụng các tính năng của nền tảng song song như cluster, GRID Computing hay kiến trúc MPP (Masive Parallel Processing)
Dễ dàng cho việc mở rộng mô hình triển khai khi dữ liệu ngày càng lớn và số lượng jobs xử lý dữ liệu tăng lên sau đây là ví dụ về một mô hình triển khai của hệ thống IBM DataStage với phần mở rộng có thể thêm vào
WebSphere Application Server Domain
DB2 Matadata repository
2.4.3 Hệ thống phân phối báo cáo tập trung
Hệ thống phân phối, khai thác báo cáo tập trung IBM Cognos Business Intelligence
là một công cụ BI được đánh giá hàng dầu trên thế giới bởi các tổ chức đánh giá độc lập như (Gartner và Forrester)
Cognos Business Intelligence cung cấp hệ thống báo cáo cho phép ngân hàng khai thác dữ liệu từ nhiều nguồn khác nhau và phân tích/sử dụng các dữ liệu đó thành các nguồn
Trang 32Congos là giải pháp BI cho những ứng dụng tạo bản báo cáo, dự báo, các phân tích giả lập và quản lý hiệu năng của ngân hàng (balance scorecard, simulation and forecasting) Ngoài ra, Cognos BI còn giúp cho ngân hàng lập những kế hoạch chiến lược, hiểu và quản
lý được nguồn tài chính và quản lý được các hoạt động kinh doanh của ngân hàng
Cognos là một sản phẩm cung cấp toàn bộ các chức năng BI trong một cấu trúc đơn nhất trên web và tạo sự dể dàng cho người sử dụng Những chức năng của bộ phần mềm này được chia ra theo từng module bao gồm báo cáo nhiều chiều, phân tích, quản lý các sự kiện và kết nối dữ liệu từ nhiều nguồn khác nhau Người dùng dễ dàng sử dụng các chức năng này trên trang Web base mà không cần phải cài đặt trên từng máy đơn riêng lẻ Ngoài những tiện lợi trên, người dùng còn có thể sử dụng chức năng truy xuất những báo cáo trên thiết bị di động (mobile) thông qua chức năng Cognos mobile
2.4.3.1 Các công cụ chính của IBM Cognos
Hình 2.7 [9] mô tả các công cụ của hệ thống phân phối báo cáo tập trung
Hình 2.7 Các công cụ của hệ thống phân phối báo cáo tập trung
Cognos Viewer: Là công cụ cho phép hiển thị kết quả của quá trình giao tiếp giữa
người dùng và các thành phần khác của IBM Cognos, hay chính là lớp trình diễn tới người dùng
Trang 33Query Studio: Là công cụ cho phép tạo ra những truy vấn, báo cáo trên nền tảng
Web base trong giải pháp của hệ thống phân phối báo cáo tập trung
Trong Query Studio có các chức năng chính như sau: Hiển thị dữ liệu: Cho phép kết nối tới các nguồn dữ liệu khác nhau và cho hiển thị dữ liệu chi tiết theo hình cây Tạo báo cáo: Sử dụng các nguồn dữ liệu có sẵn để tạo ra báo cáo hoặc cũng có thể tạo báo cáo từ báo có sẵn Thay đổi cách hiển thị của báo cáo: Có thể tùy chỉnh cách thức hiển thị trên báo cáo như thêm biểu đồ, chỉnh sửa tên, kích thước, cột, v.v… của báo cáo Làm việc với dữ liệu trong báo cáo: Sử dụng dữ liệu, lọc, tính toán, so sánh, v.v… các thông tin liên quan tới dữ liệu trên báo cáo
Report Studio: Là công cụ báo cáo chuyên nghiệp cho bài toán tạo báo cáo và phân
phối báo cáo trên nền tảng Web base của IBM Cognos Sử dụng nó để tạo ra các dạng báo cáo phức tạp nhiều khu vực dữ liệu hơn những báo cáo đơn giản sử dụng một dạng dữ liệu đơn giản Report Studio cung cấp sự linh hoạt hơn trong việc tính toán và kết quả định dạng
Trong Report Studio có các chức năng chính như sau: Thiết kế biểu mẫu báo cáo dạng: Bảng biểu, lưới, đồ thị, listbox, repeater, active, v.v…Thiết kế phân phối dữ liệu báo cáo có sẵn Thiết kế các điều kiện dữ liệu đầu vào cho báo cáo
Analysis Studio: Là công cụ cho phép phân tích, so sánh, khai phá dữ liệu Nó cho
phép trả lời các câu hỏi kinh doanh bằng cách tìm kiếm, phân tích các dữ liệu trong nguồn
dữ liệu gốc
Trong Analysis Studio có các chức năng chính như sau: Phân tích và xây dựng các báo cáo chuyên sâu phân tích dữ liệu Truy vấn nhanh dưới dạng kéo thả chi tiết đến từng đối tượng nghiệp vụ Đưa ra xu hướng và xác định các điểm dị thưởng trong dữ liệu So sánh dữ liệu bao gồm dữ liệu chi tiết và tổng hợp Chia sẻ và phân phối báo cáo ngay lập
tức Chỉ khai thác dữ liệu dạng dữ liệu đa chiều
Event Studio: Là công cụ quản lý sự kiện cho IBM Cognos Sử dụng nó để thông
báo cho người ra quyết định các sự kiện khi chúng xảy ra, do đó họ có thể đưa ra quyết định kịp thời và hiệu quả Event Studio đảm bảo rằng các thông tin quan trọng được phát hiện một cách nhanh chóng và gửi các thông tin tới các đơn vị chủ chốt, các bên liên quan trong ngân hàng Có thể tạo và quản lý các quá trình giám sát dữ liệu và thực hiện nhiệm vụ khi các dữ liệu đáp ứng các ngưỡng được xác định trước