Hiệu năng của một hệ thông kho dữ liệu dược thể hiện qua một số các phương điện chính xihư sau: Tốc dộ xử lý dữ liệu trên tập dữ liệu lớn, khả năng mỡ rộng và phát triển kho dữ tiêu bao
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYÊN VĂN DỨC
Xây dụng kho dữ liệu đảm bảo hiệu năng cho
ngân hàng BIDV và thử nghiệm với hệ thống báo
cáo phân tích khách hàng
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Hà nội - 2015
Trang 2
ĐẠI HỌC QUỐC GIA HÀ NỘI
"TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYÊN VĂN ĐỨC
Xây dựng kho dữ liệu đảm bảo hiệu năng cho
ngân hàng BIDV và thứ nghiệm với hệ thống báo
cáo phân tích khách hàng
Chuyên ngành : KỸ THUẬT PHÁN MÉM
LUAN VAN THAC Si CONG NGIIE THONG TIN
Người hướng dẫn khoa học:
PG% TS TRƯƠNG ANII HUÀNG
Hà nội - 2015
Trang 3
LOLCAM ON
Trước tiên tôi xin được bày Lô sự trân trọng và lòng biết ơn đổi voi PGS TS Truong
Anh Hoàng, Giảng viên Khoa Công nghệ thông tin - Trường Đại học Công ngÌ
ĐHQGEHN Trong thời gian hoe tập và làm luận văn tốt nghiệp, thảy đã dành nhiêu thời gian quý báu, tận tỉnh chỉ bão và hướng dẫn tôi trong việc nghiên cứu, thực hiện luận văn
S, 18, các thấy cỏ giáo dã giảng dạy tôi trong quả trình
‘F6i xin được căm on cae Gi
học tập và làm luận văn Cac thay cễ dã giúp tôi hiểu sâu sắc và thâu dáo hơn lĩnh vực mà minh nghiên cửu để có thể vận dung các kiến thức đó một cách hiệu quả nhật vào trong,
Trang 4LOT CAM DOAN
Tôi xin cam đoạn đây là công trình nghiên cứu của lôi trong đó có sự giúp đỡ
rất lớn của thầy hướng dầu và các đồng nghiệp ở cơ quan Các nội đưng nghiên cửu và kết quả trong dễ tải nảy là hoàn toàn trung thực
Trong luận văn, tôi cô tham khảo đến một số tài liệu của một số tác giá đã được liệt
kê tại phân Tài liệu tham khảo ở cuỗi luận văn
Tà Nội, ngày thẳng năm 2015
Tác giá
Nguyễn Văn Đức
Trang 5Chuong 1 HE THONG KHO DỮ LIEU 12
1.2 Kiến trúc chung của kho đỡ liệu Hee |S
1.3 Mồ hình logic của kho dữ liệu - 14
1.5 Hiện trạng hệ thống kho đữ liệu trong ngân hang - - 15 1.5.1 Tổng quan hệ thống báo cáo trong ngân hảng, 15
1.5.3 Đánh giá các mặt hạn chế của hệ thống kho đữ liệu hiện tại 17
1.5.3.1 Cơ sỡ dữ liệu dùng cho bái toán kho dữ liệu 7 1.5.3.2 Công cụ trích lọc đữ liệu cho Honenreierrer 17
1.5.3 4 Mô hình tết kế kho dữ Tiệu - 18
Chương 2, XÂY DỤNG HỆ THỐNG KHO DỮ LIỆU ĐÁP ỨNG HIỆU NĂNG
2.1 Mục tiểu che
2.3 Thiết kế, xây dụng mô hình hệ thống kho đế liệu mới 21
Trang 62.4 Các thành phần cần nàng cấp, bổ sưng, à ceeeeeeoao./ 2 2.4.1 Hệ thông cơ sở đữ liệu chuyên đụng cho bài toán kho đữ liệu
2.4.2.1 Tam quan trọng của quá Irình trích lọc dữ liệu 24
2.4.3.2 Hệ thông trích lọc đữ liệu IBM DataStage « 26
2.4.3 Hệ thông phân phối báo cáo tập trung in uy 29
3.4.3.1 Các công cụ chính cia TEM Cognos 30 3.4.3 2 Một số đặc trưng cơ bản của TBM Cognos 33
2.4.4 Mô hình thiết kế tổng thể cho kho dữ liệu ào so 3 2.4.4.1 Kiên trúc tổng quan ota IRM Banking Data Model 35 2.4.4.2 Nhimg diém ndi bat cla IBM Banking Model 39
2.5 Két qua tha nghigm 40 2.5.1 Thực nghiệm so sảnh tốc độ trên các cơ sở dữ liệu 40
2.5.2 Thực nghiệm với hệ thống cổng cụ trích lọc đữ liệu 43
2.5.3 Nhận xét thực nghiệm 44 2.6 Kết luận series AS
Chương 3 LHỦ NGHIỆM VỚI BÀI TOÁN PHẪN LÍCH KHÁCH HÀNG 46
3.4 Thiết kế đứ liệu chuyên đề Phân tích khách hàng: 48
3.4.1 Thiết kế dữ liệu chỉ tiều HH HH HH Hà HH gu ggrưên 48
Trang 73.4.4 Thiết kế lớp bão mật phân quyén theo ngurdi dang - 53
Trang 8ASTs The Application Solution Tomplatcs Model
BDW IBM Banking Data Warehouse
BI Business Intelligence
BIDV Ngân hảng TMCP Đầu tư vả Phát triển Việt Nam
Core Barking | Hệ thông ngân hàng lối
DataMart Dri ligu chuyén dé
pis Data Transformation Services
DWH Data Warchosuse
EDM Enterprise Data Model
Phần mở rộng có thế thêm vào để biến hệ thông xử lý hiện tại
Engine thánh hệ thống tính toán lớn hơn
ETL Extract Transform Load
¥SDM Minancial Services Data Model
ODBC Microsofl Open Database Connectivity
OLAP Online Analytical Processing
OLTP Online Transaction Processing
SIG Staging Area
Trang 10Hình 1.1 Kiến trúc cơ bản của kho đữ liệu,
Hình 1.2 Mô hình dữ liệu đa chiễu
Tlinh 1.3 Kiến trúc kho đữ liệu trong ngân hàng
Hình 2.6 Hệ thống DataStagc mở rộng cầu phan Engine
Tlinh 2.7 Các công cụ của hệ thống phân phối bảo cáo tập trung 30
Hình 2.8 Céng cu Framework Manager - 33 Hình 2.9 Mô hình mở rộng của hệ thống TBM Cognos 34
Hình 2.10 Kiến trúc tổng quải của IBM Banking Data Model
Tlinh 2.11 Kiến trúc tổng quát của F8DM con series 8G Hình 2.12 Khu vực mẫu theo các mảng nghiệp vụ rong ngầu hàng 38 Hình 2.13 Khu vực mnẫu theo các măng bảo cáo tuân thủ các ecsse 39
Hình 3.1 Nhóm chuyên để lợi nhuận trong mỏ hình kho dữ liệu - 47
Hinh 3.2 Bai toan phan lich khach hang trong mô hình kho đỡ liệu mới 47
Hình 3.3 Mö hình thực thể trong thiết kế đữ liệu da chiểu 48
Tĩnh 3.4 Thiết kế đứt liệu đa chiều 30
Trang 119 Hinh 3.5 Luéng jobs DWH_MASTER
Hình 3.6 Ludng jobs Load Source to SUG ccsssssssssseeseeeeesassssnssssssesssseeeneee Tinh 3.7 Ludng jobs dé gu chuyén dé
Hình 3.8 Ludng jobs xử lý chủ tiết đứ liệu liên quan tới tiễn gửi có kỹ lưmi
Hình 3.9 Triển khai dữ liệu da chiều lên máy chủ Cognos
Tĩnh 3.10 Manh hình khai thác đữ liệu đa chiều,
Tĩnh 3.11 Kết quả khai thác đữ liệu
Trang 12Cũng với sự phát triển nhanh chóng và không ngừng mở ròng quy mô của các tổ
chức tài chỉnh ngân hàng, trong quá trình hoại động khỏi lượng đữ liệu thông tín lưu trừ
ngay cảng gia lăng Trong suốt quá trình phái triển đó việc thu thập và xử lý kho đũ liệu
không lẻ trở lên quan trọng hơn bao giờ hết Việc tố chức lưu trữ vả khai thác kho đữ liệu mmột cách hiệu quả sẽ giứp cho cáo tổ chức tài chính ngân hàng thực hiện tốt công tác quản trị điều hành, quản trị rũi ro, hễ trợ ra quyết định và hoạch định chiên lược kinh doanh
Hệ thống kho đữ liêu trong ngân hàng sẽ giúp xây dựng một nên tảng đữ liệu và
công nghệ mạnh mẽ, tỉn cậy, giúp đáp ứng các yêu câu hiện tại và nhu câu phát triển và mở
rộng trong tương lai Là trưng tâm của các hệ thống phân tích thông tin, đữ liệu toàn ngân
hàng sẽ được hợp nhất tại kho dữ liệu Nhằm đáp ủng vả cung cắp thông tin một cách kịp thời, chính xác, dồng thời là nên tảng cho việc xây dựng các ừng dụng phân tích dữ liệu,
hỗ trợ ra quyết định Do đỏ hiệu năng xử lý dữ liệu của kho dữ liệu trong ngân hàng cần được nâng cao dễ dáp ứng dược nhu cầu khai thác sử dụng của tổ chức lài chính ngân hang
Hiệu năng của một hệ thông kho dữ liệu dược thể hiện qua một số các phương điện chính xihư sau: Tốc dộ xử lý dữ liệu trên tập dữ liệu lớn, khả năng mỡ rộng và phát triển kho dữ
tiêu bao gam về việc phát triển mö hình đữ liệu va ha tang kho dit ligu, thy biến theo yêu câu khai thác và phân tích đữ liệu của người dùng,
Với thục trang hiên nay của ngân hàng BIDV chưa có một hệ thống kho dữ liệu tổng
nnphiên cứu và lên phương án xây dựng ruột nên lắng công nghệ thông tin trong Loan ngan
hang dé đáp ứng những yêu câu về hệ thẳng cổng nghệ thông tin hỗ trợ các ban nghiệp vụ
trong môi trường kinh doanh mới, trong đỏ với vai trò là đâu mỏi về hệ thông kho đữ liệu
tảo giả đã nghiên cứu, đành siá những hạn chế của hệ thống kho dữ liệu cũ và đưa ra những, giải pháp để giải quyết những hạn chế của hệ thống kho dữ liệu cũ Để hướng tới xây dựng, một hệ thống kho dữ liệu cô hiệu năng xử lý cao đề tài “Xây dựng kho đữ liệu dam báo
hiệu nẵng cho ngân hàng BIDV và thử nghiệm với hệ thông baa cdo phân tích khách hang”
đã được chon làm để tài luận văn cao học của lôi
‘Trong luận văn đã tiến lành nghiền cửu đảnh giá hiện trạng, các hạn chế của hệ
thông kho dữ liêu hiện tại trong ngân hàng từ đó dưa ra những giải pháp cụ thể cho lừng
vận dễ hạn ché và xây dựng hệ thống kho dữ liệu mới dap ung bid
những hạn chế của hệ thống cũ và thữ nghiệm với bài toàn cụ thể
năng xử lý, khắc phục
đứng rrình hiệu quả
Trang 13
11
của kho đữ liệu mới Một số công việc tác giả dã thực hiện và kết quả chính của luận
văn có thể tôm tắt như sau:
b A1ô hình của kho dữ liệu: Nghiên củu và áp dụng mồ hình kho dữ liệu
tiên tiến của LẬM
3 Thiết kế thử nghiệm với hệ thống báo cáo phản tích khách hang nhằm đánh giá
hiệu năng xử lý của kho dữ liệu mới
Kết quả dạt dược:
Xây dựng hệ thống kho đữ liệu trới ấp dụng cho toàn ngắn hàng, thay thể hệ thông
cũ và hệ thông kho dũ liệu mới đáp ứng hiệu năng xử lý, giải quyết những hạn chế của hệ thống cũ
Nội dung chính của luận văn gẳm 3 chương:
Chương I Hệ thống kho dữ liệu: Giới thiệu tổng quất một số khái niệm vẻ kho dữ Tiêu Nghiên cứu hiện trạng và đánh giá những hạn chế của hệ thông cũ
Chương 2 Xây dựng hệ thống kho dữ liệu đáp ứng hiệu năng xử lý cho ngân
hàng: Tìm hiểu vá dành giá một số giải pháp về kho dữ liệu trên thị trường, Ấp dựng giải hấp của TBM để xây dựng hệ thống kho dữ liệu mới nhằm giải quyết những bạn chế của
hệ thống cũ Tiến hành một số thử nghiệm cải tiễn để kiểm chứng liệu răng xử lý đữ liệu
của hệ thông mới sơ với hệ thống cũ
Chương 3 Thử nghiệm với bài toán phân tích khách: Thứ nghiệm với một bải
tông kho dữ liệu rời
Cuối cùng là kết luận và hướng phát triển tiếp theo của để tải trong tương lai
Trang 141.1 Tổng quan kho dữ liệu
Kho đữ liệu (Data Warehouse): la tập hợp dữ liệu tương đổi án định (t có sự thay
đổi), cập nhật theo thời gian, được tích hợp theo hướng chủ thé nhằm hỗ trợ quá trình quá trình tạo quyết định về mat quan ly [1]
Các đặc trưng của kho đữ liệu như sau:
Theo chủ để: Không phải tất cã các đữ liệu đêu dược tập hợp, người ta chỉ lẫy những,
đữ Hiệu có ích Dữ liệu được lễ chức xung quanh các chủ để chính như khách hàng, sẵn
phẩm, dịch vụ, v.v tập trung vào sự mô hình hóa và phân tích đữ liệu cho các nhà phân tích ra quyết định mà không tập Irung vào xử lý đữ liệu thông thường Cung cấp cho người
ding có một cách nhìn toàn diện, đây đủ vẻ các sự kiện quanh các chủ đề
Đữ liệu tích hựp: Dữ liệu tập hợp từ nhiều nguồn khác nhau có các cơ chế lưu trữ
khảo nhau: Cơ sử đữ Nêu, Excel file, FlaL file, v.v điểu này sẽ đẫn đến việc quá trình lập
hợp phải thục hiện việc làm sạch, sắp xếp, rút sọn đũ liệu nhằm đảm bảo tính nhất quán dữ
liệu
nội Transaotion hoàn chính, dữ liệu không thể tạo thêm hay sửa Dữ liệu được chuyến đối từ môi trường táo nghiệp và được lưu trữ trong một thời gian đài, khi dữ liệu đã được chuyến đổi vào kho dữ liệu thủ thao tác cập nhật và xóa đữ liệu thường không xây ra Dữ liêu của kho dữ liệu chỉ có hai thao tác là thêm mới và đọc dữ liệu
Biến thời gian: Các đữ liệu truy suất không bị ảnh hưởng bởi các dữ liệu khác hoặc
tác động lên nhau Phạm vị về thời pian trong kho dữ liệu được lưu đài hơn so với hệ thống
táo nghiệp nếu như đổi với hệ thông tác nghiệp dữ liệu thông thưởng chỉ lưu giả trị hiện tại nhưng với dữ liệu trong kho đữ liệu cùng cấp thông tỉn lịch sử lâu đài hơn Biển thời gian cũng là một khỏa chinh dễ däm bảo tính dưy nhất của đỡ liệu
Cấu trúc dữ liệu cho kho đữ liệu
Vì dữ Hêu trong kho đữ liệu rất lớu và không có những thao tác như sửa đổi hay lao
cáo Các thao tác với dữ liệu của kho dữ
mới nên nỗ được tỗi ưu cho việc phân tích và bả
liệu dụa trên cơ sở là Mö hình đữ liệu đa chiều (multidimensional đata model), được mô
hình vào đổi tượng gợi là đata cube Data cube lả nơi trung tâm của vẫn đề cân phân tích,
nó bao gdm mét hay nhiêu tập đữ kiện giả trị (fact) va cde dử kiện được tạo ra từ nhiều
chiều dữ kiện khảc nhau (dimention)
Trang 1513
Một thống kế doanh số bán làng dựa trên ba yếu tổ là: địa diễm, thời gian và chúng, loại hàng, Mô hình đữ liệu đa chiều lá vấn để “Thống kê bán hàng” với ba chiều là ba yếu tổ: địa điểm, thời gian và chúng loại hàng Băng fael là bằng tổng hợp đứ liệu của môi liền
quan của doanh số với 3 yêu tổ
Ngôn ngữ cho kho dữ liệu
Ngôn ngữ xứ lý phân tích trực tuyến (OLAP - On-Line AnalyticaL Prosessine), rất phủ hợp với kho đữ liệu, ngôn ngữ nảy tương tự với ngôn ngữ truy ván SQL vả tập trung,
vào các côu lệnh sau: Thu nhỗ Goll-up) ví dụ nhóm dữ liện theo chỉ nhánh thay vì theo phông bạn Mỡ rộng (drill<lown) ví dụ mổ rộng đứ liên, nhìn theo phòng bạn thay vì theo
chỉ nhánh Cất lát (slice) hin thea lừng lớp một Thu nhỏ (diee) bô bởi một phần của dữ
liệu
1.2 Kiến trúc chung của kho dữ liệu
Mô hình kiến trúc cơ bản của kho đữ liệu cơ bân gêm bốn thành phân như sau:
Dữ liệu nguồn: Dữ liêu từ các hệ thống khác nhau (Bao gồm dữ liệu có câu trúc và phi câu trúc) được tập kết lại vào một nới đuy nhất
Khu xử lý đữ liệu: Là nơi đữ liêu sẽ dược làm sạch và chuyển đổi dé dim bao tinh
nhất quản dữ liệu trước khi dưa vào kho dich Thông thường người ta sử dụng các công cũ
trích xuất, chuyển đôi và nạp đữ liệu (ETU)
Kho để liệu (nơi lưu trữ dữ liệu): Là nơi dữ liệu dược xử lý và dược tập kết, lưu
trữ
Người dùng cuối: Là người dùng khai thác thông tin từ kho đữ liệu
Trang 16D> > > >
Báo bio
‘Kien trúc cơ bản của kho dữ liệu
Hình 1.1 Kiến trúc cơ bản của kho dữ liệu
1.3 Mô hình logic của kho dữ liệu
So dé hinh sao (Star schema): Một bảng sự kiên ở trung tâm được kết nỏi với một
tập các bảng chiêu khác nhau
Sơ đồ bông tuyết (Snowflake schema): Một mở rông của sơ đỏ hình sao trong đỏ
một vải cầu trúc chiều được chuan hóa thành một tập các bảng chiều nhỏ hơn, hình thức
tương tự như bông tuyết
So dé chom sao su kign (Fact constellations schema): Bang su kién phite chia sé
các bảng chiêu, tạo khung nhìn một tập các “ngôi sao”, nên còn được gọi sơ đô ngân hả
(galaxy schema) hoặc chòm sao sự kiện
1.4 Mô hình dữ liệu đa chiều
Đây là mô hình dữ liệu đa chiêu xoay quanh các chủ đề nhằm trả lời một cách nhanh
nhất các câu hỏi trong nghiệp vụ phân tích Cỏ thể nhìn dữ liệu như là một khối trong đó
Khai phá đỡ liệu
Trang 1715
mỗi chiêu là một khía cạnh của bài toán giúp cho các nhà phân tích có thể nhìn thấy, đánh
giá số liệu theo nhiễu chiều
⁄
Babak es cy
Hình 1.2 Mô hình dữ liệu đa chiêu
Ở hình 1.2 khối dữ liệu gồm cỏ 3 chiêu: khách hàng, sản phẩm, thời gian
1.5 Hiện trạng hệ thống kho dữ liệu trong ngân hàng
1.5.1 Tổng quan hệ thống báo cáo trong ngân hàng
Từ năm 2004 đến nay BIDV đã trang bị hệ thông Core Banking mạnh phục vụ các
mảng kinh doanh của mình Song song với đó các hệ thống báo cáo phục vụ công tác thông
kê, quản lý lần lượt đưa vào khai thác Tuy nhiên, các hệ thông bao cao nay van chua day
đủ và còn manh mún, nằm rời rạc ở các vị trí khác nhau Hệ thông bảo cáo rời rạc chia thánh các nhóm cụ thể như sau:
Hệ thông bảo cáo tại Core Banking nam trên hệ thông Core Banking phục vụ công, tác hàng ngày của hoạt động tác nghiệp trong ngân hàng Hệ thông báo cáo kho dữ liệu là
hệ thống báo cảo phân tich đa chiêu lớn gềm hàng trăm báo cáo dựa trên công nghệ của Microsoft và hàng trăm hệ thông báo cao đơn lẻ do BIDV tự xây dựng và phát trién
1.5.2 Kiến trúc của kho dữ liệu trong ngân hàng
Hệ thông kho đữ liệu trong ngân hàng được xây dựng vả duy trì từ năm 2005 đến
nay, đượt thiết kế bởi nhà thâu Silverlake Hinh 1.3 mô tả hệ thống kho dữ liệu hiện tại của
ngân hàng [2]
Trang 18f
Hinh 1.3 Kien tric kho dit ligu trong ngan hang
Mô tả chỉ tiết luồng xử lý hệ thông kho dữ liệu trong ngân hàng
Hệ thống kho dữ liệu lưu trữ dữ liệu bao gồm khu vực dữ liệu nguồn (Source data)
và khu vực kho dữ liệu nằm chính trên máy chủ triển khai hệ thống Core Banking (máy chủ AS400) có nghĩa là máy chủ triển khai hệ thông Core Banking cũng đồng thời là máy chủ
xử lý chỉnh của kho dữ liêu, hai hệ thống trên củng một máy chủ hệ thông tác nghiệp và hệ
thống báo cáo kho dữ liệu với cơ sở dữ liệu là DB2 được tích hợp luôn trên máy chủ Dữ
liệu nguồn hầu hết nằm chính tại máy chủ AS400 bao gồm toản bộ dữ liệu tác nghiệp của
Core Banking, dữ liệu tử các hệ thông khác hầu như không cỏ Dữ liệu nguồn sẽ được tập
kết tại một chỗ gọi là khu vực STG từ khu vực nảy dữ liệu sẽ được làm giàu, làm sạch, tông
hợp, chuẩn hỏa dữ liệu, chuẩn bị được đây vào khu vực EDM (Enterprise data model) bằng
cung cu DTS (Data Transformation Services) mét san phẩm trong bộ SQL Server của
Microsoft Dữ liệu sau khi đã được hợp nhất, tính toán, làm giảu, lam sach tir khu vue EDM
dữ liệu sẽ được chuyên sang dạng đữ liệu đa chiêu (OLAP) theo các bài toán chủ đề khác
Trang 191?
nhau dễ người dùng khai thác thông qua công cụ Excel Dữ liệu da chiều dược thực hiện
tổng hợp thông qua công cụ DTS và được lưu Irữ trên cơ sở dữ liệu [3] SQT, Server 2000
Như vậy về tông quan kho đữ liệu hiện tại của ngân hang được nhìn đưới ba góc độ
về hạ tầng như sau: Cơ sở dữ liệu dừng cho bài toán kho dữ liệu, cơ sở dữ liệu JB2 dược
tỉch hợp sẵn lrên máy chủ Core Banking AS400 (may mainframe), Céng cu trich loc dữ
liệu, sử đựng IYTS môi trong các công cụ của SỢI, 8ervor về trích lọc dữ liệu Công cụ khai thác, phân tích sử dụng Exel kết nói lới OLAP được lưu hữt trên SQT Server 2000,
1.5.3 Đánh giá các mặt hạn chế của hệ thống kho đữ liệu hiện tại
Tác giả đã đựa vào những phương điện sau để phân tích đánh giá những mặt hạn chế
của kho đữ liệu hiện tại trong ngân hàng bao gêm: (Ù Cơ sở dữ liệu dùng cho bài toán kho
đữ liệu (1ñ) Công cụ trích lọc dữ liệu (11) Công cụ phân phối bao cáo (iv) Mô hình thiết
kế của kho dữ liệu
Từ đó đưa ra hướng giải pháp mới nhằm nâng cao hiệu quả về hiệu năng xử lý của
kho đữ liệu
1.5.3.1 Cơ sẽ: Ấữ liệu dùng cho bài toán kho dữ liệu
Cø sở dữ liệu DB2 được tính hợp sẵn trên máy chủ A8400 được triển khai cùng với
Core Banking, hệ cơ sở đữ liệu này được triển khai nhằm tục đích chính che bai loan tic
nghiệp phù hợp với bài toán OLLTP của ngân hàng và cân phần kho đữ liệu được triển khai
thêm sau đẻ
Do vậy tổn lại bài toán tác nghiệp và bài toán xử lý kho dữ liệu trên cùng tội mây
chủ Core Banking điều này ít nhiều làm ãnh hướng tới hiện năng của hệ thông tác nghiệp
đo phải chia sẻ tài nguyễn cho hệ thông kho dữ liệu Thông thường hệ thống tác nghiệp sẽ bắt đầu ngày làm việc mới khoảng §h mỗi sáng nhưng hệ thông kho đữ liệu thì kết thúc muộn hơn rất nhiều liệ thông kho dữ liệu thường bắt đầu từ 2h sáng và thường kết thúc vào 12h giờ hang ngảy với tổng dung lượng dữ liệu xứ lý vào khoáng 30G13 điều nảy gây
áp lực rất lớn lên hệ thông giao dich hang ngày của ngân hàng và cũng gây khỏ khăn chơ việc khai thác phân tích số liệu phục vụ công tac quản trị điều hành tại ngân hàng,
1.5.3.2 Công cụ trích lọc dit du
Tiên tại ngân hàng đang sử đụng ETI, bằng công cụ DTS cia SQL Server 2000 dé thực hiện quả trình trích lọc đữ liệu, cảng cụ này hiện nay đang gặp phải một sẻ hạn chế
bur sau:
Trang 20hợp đối với cdc bai loán nhỏ và vừa Hiện nay với việc cần phải xứ lý dữ liệu đâu ngày
khoảng 300G đã gây ra áp lục rất lớn lên hệ thống EBTI
ña ngân hàng
Chỉ hỗ trợ mô hình triển khai theo hướng B1-L hoặc HL-T cỏ nghĩa là máy chủ cải
đặt DTS chỉ làm nhiệm vụ trích xuất (ExtracÐ hoặc luyển tôi (Load) còn chuyên đổi
(Transform) sẽ được thực hiện tại nguồn hoặc đích Việc thiết kế này phụ thuộc hoàn loàn
vào hiệu năng xử lý của mảy của nguồn hoặc đích Không có khả năng rnở rộng về các gunn
máy chủ chỉ để đúng cho việc chuyển đổi số liệu khi bài toán đữ liệu ngày cảng tăng trưởng,
Đa đó mô hình này cũng đã một phân ngày tải cho hệ thông xử lý tác nghiệp hàng ngày
1.5.3.3 Công cụ phân phối báo cáo
Việc
sông cụ Fx
ghủ để hiện nay tại ngân hàng,
(OLAP) qua phương thức
khai thác và phân phối báo cáo the:
Việc khai thác trên các đữ liệu chuyên để không lính hoại gây khó khăn cho người
đúng đối với các phân tỉch cần lọc dữ liệu thì Excel sẽ thực hiện việc load toàn bộ data lên
Excel réi moi thuc biện việc lọc điều này dẫn đến nhiều bài toán phân tích trên đữ liệu
chuyên đề không thực hiện được đo bị giới hạn về số lượng bản phí hiển tri tén Excel tay thuộc từng phiên bản của BxceL
Dữ liệu trong kho đũ liệu tới chỉ được cung cấp tại Hộ sở chính mà chưa được phân
phối trên toàn ngăn hàng,
Việc triển khai kho dữ liệu trong ngân hảng chưa có một mỏ hình thiết kế tổng thé
để từ đỏ có thể dễ dàng mở rộng và phát triển các bài toán phân tích khác nhau phục vụ nhụ cầu quần trị điều hành trong mỗi trường, cạnh tranh ngảy cảng mãnh liệt
Trang 2119
Chưa có một mỏ hình tổng thể bao trùm các mảng phân tích trong ngân hàng như:
Quam ly rit ro, phân tích khác hàng, quản lý tài sẵn nợ có, phản tích khách bàng trung thành đời đi, phân tích bán chéo sản phẩm, cúc bái toán về báo cáo tuân thủ, v.v hiện tại kho
đữ liệu mới chỉ đừng lại ở các bài toàn phục vụ táo nghiệp là chính chưa có những mô hình chuyên sâu, chưyên biệt để tực hiện phát triển, kiểm soát các hoạt động của ngần hàng,
trong xu hướng phát triển mới.
Trang 22HIỆU NĂNG XỬ LÝ CIIO NGÂN HÀNG
2.1 Mục tiêu
Mục tiêu chung: Xây dụng một cơ sở hạ tằng phục vụ xảy dựng báo cáo thông kê
tập trung trên nên tâng công nghệ biện dại, công cụ xây dụng vẻ khai thúc chuyền nghigp
Đổi mới phương pháp phân phổi dữ liệu theo hướng đáp ứng yêu câu ngà
cảng đủ dang,
của nghiệp vụ Thống nhất mô hình dữ liệu, đảm bảo các khai thác dữ liệu lừ tất cả các
nguồn hiện có tính thống nhất trong toàn ngân hàng
Mục tiểu chỉ tiết: Với các han chế đã phân tích dánh giá ở Chương 1 hệ thống kho
đỡ liệu mới cần khắc phục được những hạn chế dã nêu với bỗn phương điện cần cỗi tiến và
bố sung bao gồm: Hệ cơ sở đữ liệu chuyên dung cho bài toán kho đữ liệu, hệ thông trích lọc đứ liên, lệ thông phân phôi báo cáo và ruô hình thiết kế tổng thế cho kho đữ liệu
2.2 Mật số giải pháp công nghệ về kho đữ liệu
Có nhiều phương thức để đánh giá các giải pháp kho đữ liệu hiện tại trên thế giới
Cac hang phan tích lớn và vự tín trên thị sử dụng các phân tích đa chiều, đồng thời
theo xu hướng phát triển của Công nghệ thông tin như Gartners
Tuy nhiêu, theo nhận định chúng tủ có bắn yếu tổ chính ảnh hưởng đến việc lựa
chọn một nền tăng sông nghệ kho đữ liệu thích hợp đỏ lã: giao điện, tính năng, hỗ trợ và
nên tảng hệ thông Cáo yêu tổ này ảnh hưởng trực tiếp đền thành cổng của một du an triển
khai và áp dụng kho đữ liệu vào trong tổ chúc/đoanh nghiệp
Câu giải pháp kho dữ liệu lớn trên thể giới đang theo xu hướng thay đổi để thích hợp
với xu hướng phát triển của BĨ cũng yêu cầu cảng ngày cảng phúc tạp hơn trong việc phân tích đữ liệu Một số giải pháp hiện nay có trên thị trường
Giải pháp của Mierosdf(: Microsofl cưng cấp giải pháp kho để liệu khá toàn điện
và đây đủ với cơ sở đữ liệu SQL Server 2008 [4], hệ thông Analyze Services, là giải phâp
tương đổi phổ biến
Ưu diểm: Thân thiện, dễ dùng, dễ phát triển, để bão trì
Nhược điểm: 1iạn chế khi xử lý lượng đữ liệu lớn, phủ hợp với các bởi toán vừa và nhỏ, hệ thống bao mật kém do sử dụng nên tảng windows
Trang 23lũng cụ chuyên biệt cho bài loan
kho đữ liêu đặc biệt với giải pháp Ornele Exađata Database Machine đã tôi ưu rất nhiều cho
bài toán kho dữ liệu [S]
Tu điểm: Thị phần Oracle chiém trên li trường khả lớn khoảng 48% Tién dung, thuận lợi cho việc tiếp cận và phát triển Hệ thông cơ sở đữ liệu và máy chủ kho đữ liệu đã tích hợp thành máy duy what cung cap hiéu nắng xử lý tốt hơn
phan tích số liệu hàng dâu ở hầu hết ảnh giá là đơn vị cùng cấp giải pháp kho dữ liệu và
các Lò phức đánh giá độc lap (cu thé la Gartner va
Forrester) Hién tai IRM đang cùng cấp lui giải pháp chính và chuyên dụng cho bài toán khai thác, phân tích báo cáo theo mô hình kho dứ liệu Cả hai giải pháp đêu có mô hình giống nhau chỉ khác nhau về câu phân co sở dữ liệu hưu trữ dữ liệu cu thể [6]
Cả 2 giải pháp déu ding Data Stage lam eéng cu ETL Céng cụ Cognos cho cấu
phan khai thác và phân phối báo cáo Xây đựng kho dữ liệu trên nên tảng mô hình đữ liệu
TBM Banking Data Model
2 giải pháp khác nhau 4 cau phan kho dé ligu: ISAS (IBM Smart Analytics
Str dung appliance may chit ISAS 7710, kho dit ligu x4y đụng trên cơ sở dít liệu
tích báo cáo và giao địch) Netezza: Sử dụng theo cơ chế appliance; tích hợp toàn bộ phân
cứng, phản mềm (hệ điều banh, cơ sở đữ liệu, v.v ) trong một thiết bị duy nhất Dây là
giải pháp chỉ dàng cho hệ thống phân tich, khai thác báo cáo
2.3 Thiết kế, xây dựng mô hình hệ thông kho dữ liệu mới
'Trên cơ sở đã phân tịch ở phần trước về hiện trạng, cáo mặt hạn chế và một số siái pháp hiện về kho dữ liệu có trên thị trường, tác giá đã chọn giái pháp của IBM với Netezza
để xảy dựng lại hệ thông kho đữ liệu mới trong ngân hàng đám báo hiệu năng xử lý của
kho đữ liệu.
Trang 24‘Mi hin ting quan hệ thống khu đữ liệu mới
Hình 2.1 Mô hình tổng thể kho dữ liêu mới Trong hình 2.1 là mô hình tổng quát của kho dữ liêu mới với các phần sau [7]
Hệ thống Source data: Bao gém toản bộ hệ thông nguồn của ngân hảng từ Core
Banking, ATM system (DB2/AS400), Cadencies, Payments (Oracle), Treasury sysem
(sysbase), v.v
Hệ thống máy chủ IBM Netezza được sử dụng với các khu vực lưu trữ như sau: Khu
vue STG dữ liệu thõ được tập kết lại từ các nguồn khác nhau thông qua cung cụ trích lọc
dữ liệu IBM DataStage Khu vụ SOR (System of Record) linh hỏn của kho đữ liệu bao gồm
tang automic va summary được thiết kế theo chuân của IBM Banking Data Model Khu
vực DataMart các bải toản phân tích dữ liệu theo từng chủ đẻ Hệ thống khai thác và phan
phổi báo cáo tập trung IBM Cognos Hệ thông người dùng cuối sử dụng khai thác, phân
tích bảo cáo qua công cụ IBM Cognos
2.4 Các thành phần cần nâng cấp, bo sung
2.4.1 Hệ thống cơ sở dữ liệu chuyên dụng cho bài toán kho dữ liệu
IBM Netezza là một hệ thông máy chủ chuyên dụng dủng cho bài toản kho dữ liệu
hoan chinh (Data warehouse Appliance) phan mẻm cơ sở dữ liệu và phản cửng được tích
hợp cùng một mảy tăng hiệu năng tối đa cho bài toản truy xuất dữ liêu lớn
Trang 25%3
Bén tong thuét bi kho dif ligu Netezza là phần mềm chạy trên các thiết bị phản cứng,
đã được tối ưu hóa để đạt hiệu năng phân tích cao mà không cân bất kỳ liệu chữnh nao Được khách hàng đánh giá là một thiệt bị đơn giãn nhưng lại có thế đáp ímg những yêu cầu
tất cao về khai thác và phân tích dữ liệu, Netezza có khá nhiên trụ điểm như chỉ phí thập
(giá bằng 50% giá trung bình của các sản phẩm khác), thời gian triển khai ngắn (lắp đặt và
triển khai trong, 24 giờ), khả năng mở rộng cao (dung lượng dữ liệu người đùng lên tới
hàng Petabytes) cùng với yêu cầu về nhân lực và quán trị đơn giản hơn rất nhiều
Công nghệ xử lý song sơng và việc bỏ sung các bộ gia tốc xử lý bên cạnh bộ vị xử
lý truyền thông đã mang lại cho Netezza hiệu suất vượt trội đẫn đâu thị trường, Chính những,
điều này đã giúp khách hàng vượt qua các quan ngại khi cân nhắc đầu tư giái pháp kho dữ
liệu
Rất nhiều tổ chức và doanh nghiệp thuộc mọi lĩnh vực như khô: chỉnh phú, truyền
thông, chứng khoán, bán lễ, viễn thông, đã triển khai thành công IBM Netezza va tạo ra lợi
thể cạnh tranh với doanh thu mới, cất giảm chi phí hoat động, giữ chân khách hang va tg
lợi nhuận
Một số dặc diễm nỗi bật của IBM Netczza:
TIệ thống IBM Netezza hoạt động trong môi trường Active- Standby Có hai máy
chủ (host) một znáy chủ active và một máy chủ standby dùng trong trường hợp máy chủ
chính bị sự cô Thời gian downtime nhỏ khoảng mười phút
TRM Netezza có kiến trúc đặc biệt với những phần cứng chuyên biệt đẻ xử lý di
một cách thông mình nhằm tăng tốc độ truy van đủ liệu Tốc độ quét đữ liệu có thể lên
L451 Behr, tốc độ load dữ liệu tối thiểu ZTB/hr
Hồ thông tuân thủ việc tăng tốc phân tích bằng cách lập trung xử lý tại kho đữ liệu
thay vì xử lý tại máy chủ khai thác bảo cáo Có nghĩa là đữ liệu đã được phân tích trích xuất
từ đưới máy chủ Netezza trước khi được biển trị trên công cụ khái thác báo cáo
em giản cho việc tối ưu hệ, thông không index, partitirm việc tối ưu hệ thông dược
tự động xứ lý trong suốt với người dùng,
Trang 26
worklod jobs), bao gém nhiéu phép SỌI, kết (join) và hợp (aggregalion) mà không ảnh
hung đến hiệu năng,
Hệ thông có chức năng từ tối ưu hóa truy van (Query Optimizer)
Vide thuc ughiém dé kiém chủng vô tắc độ cña Netexza sẽ được thực hiện ð phan
251
2.4.2 Hệ thống công cụ trích lọc đỡ liệu
3.4.2.1 Tầm quan trọng của quả trình trích lọc đỡ liệu
Thiết kế và triển khai quy trình BTL sẽ là công trình phức tạp nhất trong tiến trình xây dung kho dữ liệu tập trung Quy trinh là quy trình dễ “Chiết xuất, chuyển đồi và truyền
tậi” đữ liệu từ các hộ ứng dụng tác nghiệp gốc vào trong kho dữ liệu tập trung và từ kho đũ
liêu tập trung qua các kho dữ liệu cục bộ Mỗi lần môi trưởng kho dứ liệu thêm một ứng,
đụng hoặc thêm một Cơ sở đữ liệu mới, quy trình ETL sẽ phải được bổ sung và ngày cảng
trở nên phức tạp hơn Trên nguyên tắc về mặt “logic”, sẽ chỉ có một quy trình I7TL để phục
vụ toàn bộ môi trường làm việc của hệ thống kho dữ liệu tập trung
Vì sự cân thiết phải phối hợp rât chặt chẽ các quy trình ETT do dé chi nén sit dung một công cụ ITL đuy nhất đã vận hành cá hệ thông kho đữ liệu Vì vậy, chức năng và chất
lượng của công cụ TL được chọn lựa sẽ lä chia khóa thành công trong việc xây dụng kho
dự liệu tập trung của ngân hàng
Mục địch của công cụ tiện ich ETI, là hỗ trọ các qui trình cluết xuất đữ liệu từ nhiều
nguồn đữ liệu hỗn tạp, chuyển đối cáo đữ liệu này thành dữ liệu chất rong cao, truyền tải
các dữ liệu đã được chuyển đổi và lưu trữ vào kho dữ liệu tập trung cũng như các kho dt
liệu cục bộ chuyên đẻ, giúp cho việc truy cập được để dàng hơn
Khi đánh giả các giải pháp ETT, đề xây dung hệ thẳng kho dữ liệu, một số câu hài cân được cân nhắc:
Số Lự xây dựng công cụ cho các chương trình RTT, hay sẽ dùng một sẵn phẩm phan mém oé sẵn?
Công cụ ETT, có khả năng tích hợp vdi kho siéu dit ligu (metadata repository)
không?, các chỉ tiết kỹ thuật liên quan đến quy trình BTL có thẻ được cập nhật và có thể
được lưu trữ ngay trong kho siêu dữ liệu hay khẳng?
Trang 272s
Độ các công cụ ETL có bao gốm một công cụ chuyên biệt với dây đổ chức năng cần
thiết đề dap ứng các yêu câu về lâm sạch đữ liệu hay không?
'Tiện ích sắp xếp (SOR.T) và tiện ich tai nap (LOAD) dữ liệu có nhanh chong và dap ứng dú hiệu suất hay không?
Công cụ DTL va quy trình ETL có ban gồm các thẳng kê đa lường chất lượng dữ liệu hay không? Các thông kê nảy có thê lưu trữ ngay trong kho siêu dữ liệu hay không”?
Các bước quan trong trong quy trimh ETL
Bước đầu tiên trong quy trình ETL là chiết xuất đữ liện nhằm lựa chan, thu thap và kết hợp dữ liệu từ rất nhiễn nguồn đữ liện đa đạng và phức tạp vào trong các kho dữ liệu tam thời trước khi được làm sạch và chuyển đổi Dữ liệu chiết xuất gâm đủ liệu có cầu trúc
và dữ liệu không có cầu trúc được lấy từ nhiều nguồn dữ liệu trong vả ngoài ngân hàng
Các nguần đữ liệu có cầu trúc gồm có: Các hệ tác nghiệp gốc như hệ thẳng Core
Banking, Treasury, Quan lý nội bộ, quản lý nguồn nhân lực (Tế chức cán bậ), các hệ Quản
lý thế, hệ chuyển tiền, các chương trình quan ly sin phẩm đặc biệt tại chỉ nhánh, v.v Các
hệ quản lý kênh phân phổi nhu Contact center, Intemet banking va Mobile banking, vv
Các hệ bảo cáo kết quả hoạt động kinh doanh của các công ty trực thuộc ngân hảng, Cáo thông tin mua hoặc thuê từ các tổ chức tài chính như: Trung tâm Thông tim tin dụng (CIC: credit information center), PCP (Công ty Thông tin Tin dụng Việt Nam), v.v
Cúc nguồn đữ liệu không cầu trúc bao gồm: Thông tin và báo cáo từ cáo chỉ nhánh, các van ban va bao cao nội bộ, các nguồn thông tin vá tín tức ngoài ngân hảng
Một số câu hỏi cân được làm rõ thi xây dựng kho dữ liêu giải đáp liên quan đến giải pháp đề xuất cho bước TL chuẩn bi (ETL staging) gồm có: Quy trình Chiết xuất đữ Hiệu
từ các hệ tác nghiệp, đặc biệt lả từ Core Banking sẽ tốn hết bao nhiêu thời gian (tỉnh bằng, giờ) vào cuối mỗi ngày làm việc, cuối tuân, cuối tháng và có tiềm ẩn khả năng gây tác động,
đến hiệu năng xử lý của hệ thông Core Banking và các hệ tác nghiệp khác hay không? Giải pháp lTTL sẽ cập nhật toản bộ cơ sở dữ liệu cúa các hệ tác nghiệp mỗi ngày hay chí cần trích rút các dữ liệu đã thay đổi so với kỳ tôi nạp đữ liệu trước
+» Chuyến đối đữ liệu (RTL Transformation)
Bước “Chuyển dối” dữ liệu là bước quan trọng nhất, có thể chiếm tới 80% của cã quy trình ETL Các kỹ thuật sau đây sẽ cần dược xây dung áp dung trong bước chuyển dối dit ligu dé dam bao chất lượng đữ liệu: Đông đạng/đồng bỏ dữ liệu (reforrnatting) Dữ liệu gốc thuộc nhiều ứng đụng lác nghiệp khác nhau cần được định đạng lại cho đồng bộ Chỉnh
Trang 28
để chỉnh sửa lại cho nhất quản, cho phủ hợp Lâm sạch dữ liệu (cleansing) Dit ligu tir các
ứng dụng tác nghiệp gốc có thể thiêu chính xác và cần được kiểm tra, chỉnh sửa và làm sạch
theo đúng các quy tắc nghiệp vụ Tổng hợp đữ liệu (aggregation) Phân lớn dữ liệu sẽ cân được tổng hợp vả tổng kết (summarized) để phủ hợp với cầu trúc đa chiều của kho đữ liệu, phục vụ như câu truy xuất và bảo cáo
2.4.2.2 Hệ thống trích lọc dữ liệu IBM DataStage
Hé thong tích hợp dữ liệu IBM DataStage thuộc một trong các công cụ trong bộ sản
pham IBM Information Server IBM DataStage làm việc vụ chính là việc thực hiện ETL
dữ liệu, một số đặc trưng cơ bản của DataStage giúp cho quá trình ETL dữ liệu được thực
hiện một cách hiệu năng nhất trong quả trình chuyển đổi dữ liệu vào kho dữ liệu
Hệ thông dễ đảng thực hiện việc thiết kẻ các “flow jobs” theo các cơ chế khác nhau theo năng lực của hệ thông nguồn vả địch cụ thể các luông dữ liệu có thẻ được thiệt kế như
sau: ET-L: Việc Transform thực hiện tại mảy chủ nguồn nguồn như Hình 2.2
Trích xuất Œxtraet) |
Chuyên đốt CPransform agp) Truyền cit Lond i
Hình 2.2 Mô hình xử lý theo ET-L
EL-T: Việc Transform thực hiện tai may cht dich như Hình 2.3
Trich xude (Extract) =>
Hình 2.3 Mô hình xử lý theo EL-T
Trang 2927
ETL và có khả năng mở rộng theo các mô hình khác nhau theo nhu cầu vẻ năng lực xử lý
đối với dữ liệu Việc thiết kế theo mô hình E-T-L nếu triển khai sẽ giảm được rất nhiều đối
với hệ thông nguôn và hệ thông đích đặc biệt đối với bài toán kho dữ liệu trong ngân hang
sẽ giảm tải đối với hệ thông Core Banking Hình 2.4 Mô hình xử lý B-T-L với việc chuyên đổi thực hiện tại mảy chủ cải ETL
LÍ „„ |
| Truyén tai Cond) | Trich xudt CExtr
Hinh 2.4 Mô hình xử lý theo E-T-L
Ví dụ: Có sơ đồ quan hệ các bảng như sau: Bảng HOADON lưu thông tin vẻ hỏa đơn, bảng SANPHAM lưu thông tin về sản phẩm
HOADON SANPHAM
HD0I SP2 20 SP2 San Pham B DOL SP3 30 SP3 San Pham C HD02 SPI 10
HD02 SP2 20 HD02 SP3 30
Câu lệnh truy vấn yêu cầu trên như sau:
select sum(a.sotien) sotien , b.lensanpham'
from hoadon a
inner join sanpham on a.masanpham=b.masanpham group by amasanpham
Trang 30sẽ được trích xuất từ máy chủ nguồn sang may chủ đích vả phép join, sum sẽ được thực
hiện tại máy chủ đích Máy chủ cải ETL chỉ có nhiệm vụ chuyển dữ liệu từ 2 bảng
HOADON vả SANPHAM từ nguồn sang đích mả không đỏng vai trò xử lý chuyển đổi số
liệu (các phép tính trong cơ sở dữ liệu, join, sum, v.v )
Nếu thiết kế mô hình xử lý đữ liêu theo ET-L thì 2 bảng HOADON và SANPHAM
sẽ được trích xuất từ máy chủ nguồn vả thực hiện tỉnh toán phép tính jom, sum trén may
chủ nguồn, kết quả sẽ được chuyên dữ liệu sáng máy chủ đích Máy chủ cài ETL cũng chỉ
cỏ nhiệm vụ chuyên dữ liệu tử kết quả tính toán của 2 bảng HOADON và SANPHAM mà
không đóng vai trỏ xử lý chuyển đổi số liệu Hiện hệ thông kho dữ liệu cũ dùng phương, thức nảy đề xây dựng cau phan ETL diéu nay lam ảnh hưởng rất lớn tới hệ thông Core Banking do phai thực hiện việc tỉnh toản, xử lý số liêu trên chỉnh hệ thông Core Banking,
Nếu thiết kế theo mö hình E-T-L thi toàn bộ các phép tính join sum, v.v sẽ được
thực hiện trên máy chủ cai ETL điều này là hoàn toản hợp lý đề giải quyết những vẫn đẻ liên quan tới ảnh hưởng tới máy chủ nguồn, máy chủ đích vả đối với việc xử lý dữ liêu lớn can có hệ thông chuyên biệt vẻ tính toán, việc tính toán sẽ được thực hiện riêng độc lập trên một hệ thống máy chủ khác như Hình 2.4
nao (DB2, SQLSERVER, Oracle, Teradata, v.v bao gồm cả cơ sở dữ liệu phân vùng),
kết nối với các công cụ đồng bộ dữ liệu thời gian thực như Change Data Capture, kết nối
với các kiên trúc hướng dịch vụ (SOA-Service Oriented Architectural)
Cho phép giải quyết các vấn đề liên quan đến xử lý khỏi lượng dữ liêu lớn với hiệu
năng cao bằng cách tận dụng khả năng xử lý song song của nên tảng phân cứng Triển khai được trên nền máy chủ lớn (Mainframe)
Trang 3129
thiết kể các Job được chạy trên tài nguyên của một máy tính đơn hoặc tận dụng các tính năng của nên tảng song song nhu cluster, GRID Computing hay kiến trúc MPP (Masive
%
‘ '
Engine
MP)
TepositOTY
HỆ thống DataStase tnó rộng cấu phần Engine
Hình 2.6 Hệ thông DataStage mở rông cau phan Engine
Trong Hình 2.6 IBM DataStage System là hệ thông ETL chính được bỏ sung một hoặc nhiều các Engine độc lập đẻ tăng hiệu năng xử lý của toản hệ thông ETL [8]
2.4.3 Hệ thống phân phối báo cáo tập trung
Hệ thông phân phôi, khai thác bảo cáo tập trung IBM Cognos Business Intelligence
là một công cụ BI được đánh giá hàng dâu trên thể giới bởi các tổ chức đánh giá độc lập
như (Gartner và Forrester)
Cognos Business Intelligence cung cấp hệ thông bảo cáo cho phép ngân hảng khai thác dữ liệu từ nhiều nguồn khác nhau và phân tich/sử dụng các dữ liệu đó thành các nguồn
thông tin có ÿ nghĩa nhằm hồ trợ việc ra quyết định một cách chính xác và hiệu quả
Trang 32giả lập vả quản lý hiệu năng của ngân hàng (balance seorecard, simulation and forecasting)
Ngoài ra, Cognos BI còn giúp cho ngân hàng lập những kế hoạch chiến lược, hiểu và quản
lý được nguồn tải chính và quản lý được các hoạt động kinh doanh của ngân hàng
Cognos là một sản phẩm cung cấp toàn bộ các chức năng BI trong một cầu trúc don nhất trên web và tạo sự đề dàng cho người sử dụng Những chức năng của bộ phần mém
nảy được chia ra theo từng module bao gồm báo cáo nhiều chiều, phân tích, quản lý các sự
kiện và kết nổi dữ liệu từ nhiều nguồn khác nhau, Người đủng đề đàng sử dụng các chức năng nảy trên trang Web base ma không cần phải cài đặt trên từng máy đơn riêng lẻ Ngoài
những tiện lợi trên, người dùng còn có thể sử dụng chức năng truy xuất những bảo cáo trên
thiết bị đi động (mobile) thông qua chức năng Cognos mobile
2.4.3.1 Các công cụ chính của IBM Cognos
Hình 2.7 [9] mô tả các công cụ của hệ thông phân phôi báo cáo tập trung
ne rent Connection
€ogmos Quay Report Analysis Event Sa
Hình 2.7 Các công cụ của hệ thông phân phối bảo cáo tập trung,
Cognos Viewer: Lả công cụ cho phép hiển thị kết quả của quá trình giao tiếp giữa
người dùng và các thành phần khác của TBM Cognos, hay chính lả lớp trình diễn tới người dùng.
Trang 33tảo có sẵn Thay đổi cách hiển thị của báo cáo: Có thể tùy chỉnh cách Lhức hiển thị trên báo
dt, vv eG báo cáo Tam vide với dữ
cao tii thêm biểu đổ, chỉnh sửa tên, kích thước,
liệu trong bảo cáo: Sử đụng đữ liệu, lọc, tính toán, so sánh, v.v các thông tín liên quan tới đữ liệu trên báo cáo
Renort Studio: Tà công cụ báo cáo chuyên nghiệp cho bài toán tạo báo cáo và phân
phối báo cáo trên nên tầng Web base của IBM Cognes Sử dụng nó để tạo ra các dạng báo
cáo phức tạp nhiễu khu vực đữ liệu hơn những báo các đơn giản sử dụng một đạng đữ liệu
đơn gián Report Sdio cung cấp sự lnh hoạt hơn trong việc tính toán và kết quả định
Analysis Studio: Tá công cụ cho phép phân tích, so sánh, khai phá dữ liệu Nó cho
phép trã lời các câu hỏi kinh doanh bằng cách tìm kiếm, phân tích các đữ liệu trong nguồn
đử liệu gốc
Trong Analysis Studio có
ác chức năng chỉnh rửưy sau: Phần tích và xây dựng các
bảo cáo chuyên sâu phân tich dứt liệu Truy vẫn nhanh dưới dạng kéo thả cũ tiết đến từng đổi tượng nghiệp vụ Dưa ra xu hướng và xác định các điểm đị thưởng trong đữ liệu 5o sánh đữ liệu bao gồm đử liệu chỉ tiết và tổng hợp Chia sẻ và phân phối báo cáo ngay lập
tức Chí khai thác dữ liệu dạng dữ liệu đa chiều
Event Studio: Là công cụ quản lý sự kién cha IBM Cognos Str dung né dé théng báo cho người ra quyết định các sự kiện khi chúng xây ra, đo đó họ có thể đưa ra quyết định
kịp thời và hiệu quả Event Studio đảm bảo rằng các thông tin quan trọng được phát hiện
một cách nhanh chóng và gũi các thông tin tới các đơn vị chú chốt, các bên liên quan trong ngân hàng, Có thể tạo vá quản lý các quả trình giám sát dữ liệu và thực hiện nhiệm vụ khi
các dữ liệu đáp ứng các ngưỡng dược xác định trước.