ĐẠI HỌC QUỐC GIA HÀ NỘI VIỆN CÔNG NGHỆ THÔNG TIN LÊ MẠNH TUẤN NGHIÊN CỨU BÀI TOÁN XÂY DỰNG KHO DỮ LIỆU VÀ HỆ THỐNG HỖ TRỢ RA QUYẾT ĐỊNH TẠI NGÂN HÀNG NÔNG NGHIỆP VÀ PHÁT TRIỂN NÔNG THÔN
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
VIỆN CÔNG NGHỆ THÔNG TIN
LÊ MẠNH TUẤN
NGHIÊN CỨU BÀI TOÁN XÂY DỰNG KHO DỮ LIỆU
VÀ HỆ THỐNG HỖ TRỢ RA QUYẾT ĐỊNH TẠI NGÂN HÀNG NÔNG NGHIỆP VÀ PHÁT TRIỂN NÔNG THÔN
Trang 2PHẦN MỞ ĐẦU
Cơ sở khoa học và thực tiễn của đề tài
Trong nền kinh tế hiện nay, thông tin là yếu tố sống còn đối với bất kỳ doanh nghiệp nào.Việc nắm bắt thông tin giúp cho các doanh nghiệp hoạch định các chiến lược kinh doanh cho mình một cách chính xác
Trong những năm gần đây, công nghệ kho dữ liệu ra đời đáp ứng được nhu cầu quản lý, lưu trữ thông tin có khối lượng lớn
và có khả năng khai thác dữ liệu đa chiều và theo chiều sâu nhằm hỗ trợ việc ra quyết định của các nhà quản lý
Nguồn dữ liệu đối với các tập đoàn công nghệ, tài chính, ngân hàng là vô cùng lớn Xây dựng một kho dữ liệu cho phép rút trích tài nguyên, tính toán theo yêu cầu để cung cấp các báo cáo dựa vào cơ sở dữ liệu hoạt động phục vụ sản xuất, kinh doanh trở nên thông minh hơn, tăng thêm chất lượng và tính linh hoạt của việc phân tích kinh doanh có chất lượng cao và ổn định
Đối với các doanh nghiệp nước ngoài, họ đã áp dụng kho dữ liệu trong quản lý phân tích dữ liệu và đã cho thấy hiệu quả to lớn giúp ích cho việc hoạch định các chiến lược kinh doanh cũng như nghiên cứu phát triển các ứng dụng phân tích dữ liệu Tại Ngân hàng Nông nghiệp và phát triển Nông thôn Việt Nam (NHNo) việc xây dựng kho dữ liệu và hệ thống hỗ trợ ra quyết định là rất cần thiết Kho dữ liệu sẽ thu thập dữ liệu từ hệ thống nghiệp vụ, cung cấp các thông tin hữu ích cho các nhà
Trang 3quản lý có thể có những thông tin chính xác, nhanh chóng, hỗ trợ cho việc ra các quyết định kịp thời và có lợi nhất cho hoạt động tín dụng của NHNo Ngoài ra, kho dữ liệu còn hỗ trợ trong công việc quản trị rủi ro tín dụng – một vấn đề hết sức quan trọng trong bối cảnh khó khăn hiện tại của các ngân hàng Xuất phát từ nhu cầu thực tế tại NHNo, luận văn nghiên cứu bài toán xây dựng kho dữ liệu và hệ thống hỗ trợ ra quyết định (DW&BI) tại Ngân hàng Nông nghiệp và phát triển Nông thôn Việt Nam, với mong muốn đưa ra một dự án khả thi nhằm xây dựng kho dữ liệu hoàn chỉnh hỗ trợ cho việc quản lý và ra quyết định tại NHNo
Mục tiêu đề tài
Xây dựng dự án khả thi để triển khai kho dữ liệu và hệ thống
hỗ trợ ra quyết định đáp ứng các yêu cầu nghiệp vụ thông minh tại NHNo
Phạm vi và đối tượng của đề tài:
- Đối tượng nghiên cứu: Kho dữ liệu và hệ thống hỗ trợ
ra quyết định cho hoạt động nghiệp vụ ngân hàng tại NHNo
- Phạm vi áp dụng: đề tài được áp dụng tại NHNo
Kết quả của đề tài
Một nghiên cứu dự án khả thi xây dựng Kho dữ liệu và hệ thống hỗ trợ ra quyết định tại Ngân hàng Nông nghiệp và phát triển Nông thôn Việt Nam, trình bày đầy đủ cơ sở phương pháp
Trang 4luận, lựa chọn giải pháp, các bước xây dựng, thiết kế hệ thống DW&BI cũng như tổng mức đầu tư cho dự án
Kết cấu của đề tài
Đề tài được kết cấu gồm 3 phần (chương) chính trong đó:
Phần mở đầu:
Giới thiệu các yêu cầu khách quan, chủ quan, cơ sở thực tiễn
nghiên cứu và xây dựng đề tài
Chương I: Giới thiệu về DW&BI
Nội dung chính của chương này trình bầy các khái niệm cơ bản về kho dữ liệu và hệ thống hỗ trợ ra quyết định, các phương pháp luận và cơ sở lựa chọn phương pháp luận để xây dựng kho
dữ liệu và hệ thống hỗ trợ ra quyết định Các bước xây dựng,
thiết kế hệ thống DW&BI
Chương II: Bài toán đầu tư phát triển hệ thống hỗ trợ ra quyết định tại Ngân hàng Nông nghiệp và phát triền Nông thôn Việt Nam
Đánh giá hiện trạng hệ thống CNTT tại NHNo, xu hướng xây dựng DW&BI tại các Ngân hàng nói chung và nhu cầu cấp thiết cần phải xây dựng Kho dữ liệu và hệ thống hỗ trợ ra quyết
định tại NHNo nói riêng
Đưa ra mục tiêu đầu tư, yêu cầu năng lực sơ bộ của hệ
thống
Đưa ra bản thiết kế logic, bản thiết kế vật lý để xây dựng
kho dữ liệu và hệ thống hỗ trợ ra quyết định
Trang 5Chương III:Đề xuất dự án xây dựng kho dữ liệu và hệ thống hỗ trợ ra quyết định
Đưa ra các căn cứ để phân tích, lựa chọn giải pháp đồng thời phân tích chi tiết về ba giải pháp phổ biến, đứng đầu về DW&BI, qua đó khuyến nghị giải pháp kỹ thuật công nghệ sử
dụng trong dự án và dự trù tổng kinh phí của dự án
Phần kết luận: Kết luận tổng thể về luận văn
Đưa ra những điều làm được, những điều chưa làm được và
hướng phát triển của luận văn
Trang 6CHƯƠNG I GIỚI THIỆU VỀ DW&BI
Chương này đưa ra các khái niệm cơ bản về Data Warehouse và BI Từ đó tìm ra phương pháp phù hợp để xây dựng DW&BI tại Ngân hàng Nông nghiệp
1.1 Các khái niệm cơ bản
1.1.1 Data Warehouse và BI là gì?
Data Warehouse (viết tắt là DW, còn gọi là Kho Dữ Liệu) là
hệ thống tập trung dữ liệu nhằm mục đích khai thác, phân tích thông tin và hỗ trợ quyết định, với các đặc trưng về mặt dữ liệu, bao gồm: tích hợp, hướng chủ đề, tích lũy theo thời gian, bất biến
Business Intelligence (viết tắt là BI) là tầng ứng dụng khai thác dữ liệu và phân tích thông tin từ các nguồn dữ liệu khác nhau mà tiêu biểu trong đó chính là các DW với thiết kế CSDL
đa chiều (OLAP)
1.1.2 Các đặc trưng về mặt dữ liệu của một hệ thống DW&BI
1.1.3 Phân biệt giữa hệ thống OLTP và hệ thống DSS 1.2 Các phương pháp luận xây dựng hệ thống DW&BI 1.2.1 Phương pháp luận Top-down
1.2.2 Phương pháp luận Bottom-up
1.2.3 Phương pháp luận Spiral
1.2.4 Ưu/Nhược điểm của từng phương pháp
1.2.5 Cơ sở lựa chọn phương pháp luận
Trang 7Việc lựa chọn phương pháp tiếp cận để xây dựng một hệ thống Kho dữ liệu là một quyết định quan trọng Thông thường các doanh nghiệp / tổ chức có quy mô vừa và nhỏ và có nghiệp
vụ ổn định hay chọn phương pháp tiếp cận Top-Down (hay Business-Wide Data Warehouse) Với các doanh nghiệp và tổ chức lớn có nhiều phòng ban, chi nhánh khác nhau và có nhu cầu khai thác thông tin rộng lớn của người sử dụng bên ngoài thường chọn phương pháp tiếp cận Spiral (hay Interconnected Data Marts) Phương pháp Independent Data Marts rất ít được
sử dụng Đối với các ngân hàng và tổ chức tài chính lớn, nên chọn theo phương pháp tiếp cận Spiral
1.3 Thiết kế logic một hệ thống DW&BI
1.3.1 Phạm vi công việc và phương pháp thực hiện 1.3.1.1 Phạm vi công việc
Thiết kế logic đưa ra mô hình tổng thể và chi tiết các thành phần của hệ thống nhưng ở mức logic (chưa gắn với các công nghệ cụ thể), mô tả cấu trúc của các bảng dữ liệu, quan hệ dữ liệu giữa các bảng, quan hệ giữa các thành phần trong hệ thống,… với mục tiêu là hệ thống sẽ đáp ứng được các nhu cầu thông tin của người dùng đã xác định ở giai đoạn khảo sát và phân tích
1.3.1.2 Phương pháp thực hiện
Giai đoạn thiết kế logic được thực hiện theo trình tự sau:
- Thiết kế mô hình tổng thể
- Thiết kế các CSDL chủ đề (DM)
Trang 8- Thiết kế CSDL tích hợp (EM)
- Thiết kế CSDL trung chuyển (các DSA nguồn và DSA đích)
- Thiết kế Metadata
- Thiết kế các tiến trình ETL:
- Thiết kế tầng khai thác và phân tích thông tin
1.3.2 Thiết kế tổng thể
1.3.2.1 Mô hình logic tổng thể của hệ thống
Tùy theo từng dự án cụ thể, mô hình logic tổng thể có thể khác nhau, nhưng nhìn chung một hệ thống DW và BI điển hình
sẽ được thể hiện như hình 1.4 dưới đây
Hình
1.1:
Mô hình logic tổng thể hệ thống DW&BI
1.3.2.2 Dữ liệu nguồn (Data source)
1.3.2.3 Kho dữ liệu tập trung (Data Warehouse)
1.3.2.4 BI: Tầng ứng dụng khai thác và phân tích thông tin
DSA đích CSDL tác nghiệp
DSA nguồn
DSA nguồn
DSA nguồn
EM DM
Cổng giao tiếp End- user
Administration (Metadata và Quản trị hệ thống)
Trang 91.3.2.5 Administration: Quản trị hệ thống
1.4 Thiết kế chi tiết từng thành phần
1.4.1 Thiết kế Data Warehouse (Kho dữ liệu tập trung) 1.4.1.1 Các mô hình CSDL trong thiết kế Data
Warehouse
1.4.1.2 Một số thuật ngữ thường dùng
1.4.1.3 Data Mart (DM): các CSDL chủ đề
1.4.1.4 Enterprise Model (EM): CSDL tích hợp
1.4.1.5 Data Staging Area (DSA): CSDL trung chuyển 1.4.1.6 Extraction - Transformation - Loading (ETL): Thu thập, làm sạch và tích hợp dữ liệu
NAM 2.1 Bối cảnh xây dựng dự án
2.1.1 Xu hướng xây dựng DW&BI
Trang 102.1.2 Hiện trạng hệ thống CNTT tại Ngân hàng Nông nghiệp
CHỦ TỊCH HĐQT, BAN GIÁM ĐỐC
CÁC BAN TRỰC THUỘC TRỤ SỞ
MẠNG LƯỚI CHI NHÁNH
Hình 2.1: Mô hình báo cáo hiện tại của Ngân hàng Nông nghiệp
2.2 Đánh giá về hệ thống báo cáo (MIS) hiện tại
2.3 Sự cần thiết phải đầu tư
Qua đánh giá sơ bộ về các ứng dụng và hệ thống báo cáo hiện tại của Ngân hàng Nông nghiệp có thể nhận thấy:
- Hệ thống báo cáo hiện tại là một hệ thống mang tính giải pháp tình thế, nhằm giảm tải cho hệ thống tác nghiệp
- Thiếu kiến trúc vững chắc, mô hình dữ liệu phù hợp
- Thiếu các báo cáo quản lý cấp cao và phân tích có giá trị
Trong khi đó, Ngân hàng Nông nghiệp là một tổ chức tín dụng lớn, có mức độ tăng trưởng dữ liệu cao, cùng với đó là mong muốn được khai thác sâu hơn vào dữ liệu để có thể ra những quyết định chính xác nhất Việc xây dựng DW&BI là nhu cầu cấp thiết của Ngân hàng Nông nghiệp, DW&BI sẽ cung cấp một hướng tiếp cận dữ liệu tốt hơn, triệt để hơn và giảm
Trang 11thiểu xung đột cũng như hạn chế sự xuống cấp trong môi trường hoạt động hiện tại của Ngân hàng Nông nghiệp
2.3 Mục tiêu đầu tư
2.3.1 Mục tiêu chung
Mục tiêu chung của dự án nhằm xây dựng DW&BI tại Ngân hàng Nông nghiệp, dần dần tổng hợp toàn bộ dữ liệu tại Ngân hàng Nông nghiệp về kho dữ liệu Tạo ra một môi trường làm việc và các công cụ để người sử dụng có thể khai thác thông tin một cách nhanh chóng, chính xác
2.3.2 Mục tiêu cụ thể
2.4 Yêu cầu năng lực sợ bộ của hệ thống
2.5 Yêu cầu về các thiết bị phần cứng
2.6 Quan điểm thực hiện dự án
2.7 Dự kiến quy mô đầu tư
2.8 Thiết kế sơ bộ
2.8.1 Mô hình tổng thể
Trang 122.8.1.1 Phương pháp luận đưa ra mô hình tổng thể 2.8.1.2 Mô hình tổng thể
Hình 2.3: Mô hình thiết kế tổng thể hệ thống DW&BI Trong mô hình tổng thể hệ DW&BI được chia làm 4 phần logic chính bao gồm:
- Phần 1: Các hệ thống ứng dụng tác nghiệp
- Phần 2: Kho dữ liệu (bao gồm CSDL báo cáo tổng hợp
và Kho dữ liệu tích hợp cũng như các CSDL chủ đề)
- Phần 3: Tầng công cụ xử lý, quản trị, hỗ trợ tạo báo cáo
và phân tích thông tin (Business Object Enterprise – BOE)
Tra cứu dữ liệu theo chủ đề
Phân tích dữ liệu nhiều chiều
Báo cáo phục vụ nghiệp vụ hàng ngày
Báo cáo tổng hợp
Dự báo khai phá dữ liệu
4
BUSINESS OBJECT ENTERPRISE
KHO DỮ LIỆU
TÍCH HỢP
Chủ đề 2 Chủ đề n Chủ đề 1
2
Reports
Live Office
Executive dashboard
Voyager
3
Trang 13- Phần 4: Tầng thông tin (Information Delivery)
2.8.2 Thiết kế mô hình vật lý của hệ thống
Hình 2.4: Thiết kế mô hình vật lý hệ thống DW&BI
Máy chủ CSDL chủ đề
Business Intelligence
Data Warehouse
End-user
Trang 14- Giải pháp Replication nếu dung lượng dữ liệu giao dịch
ít và đòi hỏi tính tức thời của dữ liệu báo cáo là bắt buộc;
- Giải pháp Logical Standby database;
- Oracle Golden gate;
CHƯƠNG III ĐỀ XUẤT DỰ ÁN XÂY DỰNG KHO DỮ LIỆU VÀ HỆ THỐNG HỖ TRỢ RA QUYẾT ĐỊNH 3.1 Căn cứ lựa chọn giải pháp xây dựng DW&BI
Khi lựa chọn mua sắm hàng hóa thông thường, chủ yếu dựa trên 2 tiêu chí là tính năng và giá cả Tuy nhiên sản phẩm CNTT là một sản phẩm đặc biệt nên nếu muốn so sánh về giá thì phải so sánh Tổng chi phí (TCO – Total Cost of Ownership)
TCO = chi phí mua license + chi phí triển khai
+ chi phí vận hành và đào tạo
Ta không thể chỉ so sánh chi phí mua license bởi vì chi phí này thay đổi tùy theo dự án Đây là chính sách bán hàng của tất
cả các hãng cung cấp Chi phí mua license có thể bằng không nếu lựa chọn sản phẩm mã nguồn mở Tuy nhiên khi đó chi phí
Trang 15triển khai và đào tạo có thể gấp nhiều lần Do đó nếu muốn so sánh giá khi mua sản phẩm CNTT thì phải so sánh TCO
Theo thống kê của các hệ thống CNTT hiện tại của NHNo,
hệ thống cần đáp ứng xử lý yêu cầu cho 1000 người (hơn 1000 chi nhánh, mỗi chi nhánh ít nhất một người) khai thác báo cáo, với khoảng 250 người dùng đồng thời, 150 người dùng nâng cao và 10 chuyên viên phân tích chuyên sâu, đồng thời đáp ứng tính sẵn sàng cao Dữ liệu đầu vào hiện nay khoảng 36TB, hàng năm tăng trưởng khoảng 35%/năm Như vậy để xây dựng hệ thống DW&BI, NHNo cần trang bị thêm ít nhất 02 máy chủ ứng dụng BI và 02 máy chủ CSDL Hệ thống lưu trữ hiện tại của NHNo vẫn đáp ứng được sự tăng trưởng dữ liệu trong vòng
5 năm tới
Các thông tin trên sẽ là căn cứ để phân tích và lựa chọn giải pháp đầu tư
3.2 Phân tích lựa chọn giải pháp
3.2.1 Giải pháp DW&BI của IBM
3.2.1.1 Giới thiệu
Về Data Warehouse, IBM có dòng sản phẩm: InfoSphere Warehouse và Netezza(hay còn gọi là PureData for Analytic) Giải pháp hoàn chỉnh Data Warehouse của IBM cũng tuân theo
mô hình chuẩn của giải pháp Data Warehouse nói chung.Trong giải pháp này IBM đề xuất sử dụng họ sản phẩm IBM Information Server cho lớp chuyển đổi, làm sạch dữ liệu Với lớp khai thác dữ liệu và tạo báo cáo, phân tích thì IBM sử dụng
Trang 16nhóm sản phẩm Cognos BI làm nền tảng cho hệ thống báo cáo, phân tích theo yêu cầu nghiệp vụ, Cognos TM1 hoặc SPSS cho việc phân tích, thông kê dữ liệu để phục vụ cho nghiệp vụ dự báo, lập kế hoạch
IBM được biết đến như là nhà cung cấp các giải pháp phần cứng hàng đầu ở Việt nam Để tận dụng thế mạnh về phần cứng của mình, IBM cũng quan tâm đến các giải pháp phần mềm, đưa ra thị trường những giải pháp trọn gói, đồng bộ cả phần cứng và phần mềm Năm 2007, IBM mua lại Cognus Kể từ lúc
đó IBM xuất hiện trên thị trường BI như là như là nhà cung cấp giải pháp BI hàng đầu
3.2.1.2 Chi phí mua sắm và triển khai
Tổng cộng chi phí mua sắm và triển khai:
Chi phí trang thiết bị phần cứng 25,550,690,000
Chi phí đào tạo và triển khai 14,064,600,000
Bảng 3.1: Tổng chi phí của giải pháp IBM
3.2.2 Giải pháp DW&BI của Oracle
3.2.2.1 Giới thiệu
Oracle là nhà cung cấp giải pháp về hệ quản trị CSDL hàng đầu ở Việt nam Với ưu thế là giải pháp chuyên dụng cho các tổ chức có khối lượng dữ liệu lớn, Oracle gần như thống trị thị trường Hệ quản trị CSDL trong lĩnh vực tài chính, ngân hàng
Trang 17Giải pháp hoàn chỉnh Data Warehouse của ORACLE tuân theo mô hình chuẩn của giải pháp Data Warehouse nói chung Trong giải pháp này ORACLE đề xuất sử dụng họ sản phẩm Oracle Exadata Giải pháp này tích hợp toàn diện bao gồm hệ thống máy chủ cơ sở dữ liệu Oracle Exadata, cơ sở dữ liệu Oracle 12C, Oracle Partritioning, Oracle Business Interlligence Enterprise Edition, Oracle Intergrator và các công cụ chuẩn đoán, tinh chỉnh tự động hiệu suất hệ thống
3.2.2.2 Chi phí mua sắm và triển khai
Tổng cộng chi phí mua sắm và triển khai:
Chi phí trang thiết bị phần cứng 48,379,689,019
Chi phí đào tạo và triển khai 11,550,000,000
Bảng 3.2: Tổng chi phí của giải pháp Oracle
3.2.3 Giải pháp DW&BI của SAP
3.2.3.1 Giới thiệu
SAP vào Việt nam sau IBM và Oracle, được biết đến như là nhà cung cấp giải pháp ERP FPT là một trong các đối tác lớn, triển khai thành công giải pháp ERP của SAP tại nhiều đơn vị lớn và nhỏ ở Việt nam SAP đã có văn phòng đại diện ở Việt nam nhưng chưa có một đội ngũ hỗ trợ kỹ thuật chuyên nghiệp SAP xuất hiện trên thị trường BI kể từ những ngày đầu và sau