ĐẠI HỌC QUỐC GIA HÀ NỘI VIỆN CÔNG NGHỆ THÔNG TIN LÊ MẠNH TUẤN NGHIÊN CỨU BÀI TOÁN XÂY DỰNGKHO DỮ LIỆU VÀ HỆ THỐNG HỖ TRỢ RA QUYẾT ĐỊNHTẠI NGÂN HÀNG NÔNG NGHIỆP VÀ PHÁT TRIỂN NÔNG THÔN
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
VIỆN CÔNG NGHỆ THÔNG TIN
LÊ MẠNH TUẤN
NGHIÊN CỨU BÀI TOÁN XÂY DỰNGKHO DỮ LIỆU VÀ HỆ THỐNG HỖ TRỢ RA QUYẾT ĐỊNHTẠI NGÂN HÀNG NÔNG NGHIỆP VÀ PHÁT
TRIỂN NÔNG THÔN VIỆT NAM
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Hà Nội - 2015
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI
VIỆN CÔNG NGHỆ THÔNG TIN
LÊ MẠNH TUẤN
NGHIÊN CỨU BÀI TOÁN XÂY DỰNGKHO DỮ LIỆU VÀ HỆ THỐNG
HỖ TRỢ RA QUYẾT ĐỊNHTẠI NGÂN HÀNG NÔNG NGHIỆP
VÀ PHÁT TRIỂN NÔNG THÔN VIỆT NAM
Ngành: Công nghệ thông tin
Chuyên ngành: Quản lý hệ thống thông tin
Mã số: Chuyên ngành đào tạo thí điểm
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC:PGS TS Nguyễn Đình Hóa
Hà Nội - 2015
Trang 3MỤC LỤC DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Error! Bookmark not defined DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Error! Bookmark not defined DANH MỤC CÁC BẢNG, BIỂU Error! Bookmark not defined
PHẦN MỞ ĐẦU 1
CHƯƠNG I GIỚI THIỆU VỀ DW&BI 3
1.1 Các khái niệm cơ bản 3
1.1.1 Data Warehouse và BI là gì? 3
1.1.2 Các đặc trưng về mặt dữ liệu của một hệ thống DW&BI 4
1.1.3 Phân biệt giữa hệ thống OLTP và hệ thống DSS 4
1.2 Các phương pháp luận xây dựng hệ thống DW&BI 5
1.2.1 Phương pháp luận Top-down 6
1.2.2 Phương pháp luận Bottom-up 6
1.2.3 Phương pháp luận Spiral 6
1.2.4 Ưu/Nhược điểm của từng phương pháp Error! Bookmark not defined 1.2.5 Cơ sở lựa chọn phương pháp luận Error! Bookmark not defined 1.3 Thiết kế logic một hệ thống DW&BI Error! Bookmark not defined 1.3.1 Phạm vi công việc và phương pháp thực hiệnError! Bookmark not defined
1.3.2 Thiết kế tổng thể Error! Bookmark not defined 1.4 Thiết kế chi tiết từng thành phần Error! Bookmark not defined 1.4.1 Thiết kế Data Warehouse (Kho dữ liệu tập trung)Error! Bookmark not defined
1.4.2 Thiết kế metadata Error! Bookmark not defined 1.4.3 Thiết kế tầng khai thác và phân tích thông tinError! Bookmark not defined
CHƯƠNG II BÀI TOÁN ĐẦU TƯ PHÁT TRIỂN HỆ THỐNG HỖ TRỢ RA QUYẾT ĐỊNH TẠI NGÂN HÀNG NÔNG NGHIỆP VÀ PHÁT TRIỂN NÔNG THÔN VIỆT NAM
Error! Bookmark not defined 2.1 Bối cảnh xây dựng dự án Error! Bookmark not defined 2.1.1 Xu hướng xây dựng DW&BI Error! Bookmark not defined 2.1.2 Hiện trạng hệ thống CNTT tại Ngân hàng Nông nghiệpError! Bookmark not defined
2.2 Đánh giá về hệ thống báo cáo (MIS) hiện tại Error! Bookmark not defined 2.3 Sự cần thiết phải đầu tư Error! Bookmark not defined 2.3 Mục tiêu đầu tư Error! Bookmark not defined 2.3.1 Mục tiêu chung Error! Bookmark not defined 2.3.2 Mục tiêu cụ thể Error! Bookmark not defined 2.4 Yêu cầu năng lực sợ bộ của hệ thống Error! Bookmark not defined 2.5 Yêu cầu về các thiết bị phần cứng Error! Bookmark not defined 2.6 Quan điểm thực hiện dự án Error! Bookmark not defined 2.7 Dự kiến quy mô đầu tư Error! Bookmark not defined 2.8 Thiết kế sơ bộ Error! Bookmark not defined 2.8.1 Mô hình tổng thể Error! Bookmark not defined 2.8.2 Thiết kế mô hình vật lý của hệ thống Error! Bookmark not defined 2.8.3 Giải pháp tích hợp hệ thống Error! Bookmark not defined 2.8.4 Giải pháp đồng bộ dữ liệu Error! Bookmark not defined
Trang 4CHƯƠNG III ĐỀ XUẤT DỰ ÁN XÂY DỰNG KHO DỮ LIỆU VÀ HỆ THỐNG HỖ TRỢ
RA QUYẾT ĐỊNH Error! Bookmark not defined 3.1 Căn cứ lựa chọn giải pháp xây dựng DW&BI Error! Bookmark not defined 3.2 Phân tích lựa chọn giải pháp Error! Bookmark not defined 3.2.1 Giải pháp DW&BI của IBM Error! Bookmark not defined 3.2.2 Giải pháp DW&BI của Oracle Error! Bookmark not defined 3.2.3 Giải pháp DW&BI của SAP Error! Bookmark not defined 3.2.4 Đánh giá về tính năng của ba giải pháp Error! Bookmark not defined 3.3 Giải pháp được lựa chọn Error! Bookmark not defined 3.4 Dự trù kinh phí và nguồn vốn đầu tư Error! Bookmark not defined 3.4.1 Căn cứ lập tổng mức đầu tư Error! Bookmark not defined 3.4 2 Chi phí mua sắm và triển khai Error! Bookmark not defined 3.4.3 Các chi phí quản lý Error! Bookmark not defined 3.4.4 Chi phí dự phòng Error! Bookmark not defined 3.4.5 Tổng mức đầu tư Error! Bookmark not defined KẾT LUẬN Error! Bookmark not defined
TÀI LIỆU THAM KHẢO 7 PHỤ LỤC 7
PHỤ LỤC 1: Danh sách báo cáo Phân theo nghiệp vụ tại NHNoError! Bookmark not defined
PHỤ LỤC 2: Bảng đánh giá yêu cầu chức năng đối với người sử dụng cuối Error! Bookmark not defined
PHỤ LỤC 3: Bảng đánh giá yêu cầu chức năng đối với người quản trị và vận hành
Error! Bookmark not defined
PHỤ LỤC 4: Bảng đánh giá yêu cầu chức năng đối với người phát triển/ xây dựng
và triển khai Error! Bookmark not defined
Trang 5PHẦN MỞ ĐẦU
Cơ sở khoa học và thực tiễn của đề tài
Trong nền kinh tế hiện nay, thông tin là yếu tố sống còn đối với bất kỳ doanh nghiệpnào.Việc nắm bắt thông tin giúp cho các doanh nghiệp hoạch định các chiến lược kinhdoanh cho mình một cách chính xác
Trong những năm gần đây, công nghệ kho dữ liệu ra đời đáp ứng được nhu cầu quản lý, lưu trữ thông tin có khối lượng lớn và có khả năng khai thác dữ liệu đa chiều
và theo chiều sâu nhằm hỗ trợ việc ra quyết định của các nhà quản lý
Nguồn dữ liệu đối với các tập đoàn công nghệ, tài chính, ngân hàng là vô cùng lớn Xây dựng một kho dữ liệu cho phép rút trích tài nguyên, tính toán theo yêu cầu đểcung cấp các báo cáo dựa vào cơ sở dữ liệu hoạt động phục vụ sản xuất, kinh doanh trở nên thông minh hơn, tăng thêm chất lượng và tính linh hoạt của việc phân tích kinh doanh có chất lượng cao và ổn định
Đối với các doanh nghiệp nước ngoài, họ đã áp dụng kho dữ liệu trong quản lý phân tíchdữ liệu và đã cho thấy hiệu quả to lớn giúp ích cho việc hoạch định các chiến lược kinhdoanh cũng như nghiên cứu phát triển các ứng dụng phân tích dữ liệu
Tại Ngân hàng Nông nghiệp và phát triển Nông thôn Việt Nam (NHNo) việc xây dựng kho dữ liệu và hệ thống hỗ trợ ra quyết định là rất cần thiết Kho dữ liệu sẽ thu thập dữ liệu từ hệ thống nghiệp vụ, cung cấp các thông tin hữu ích cho các nhà quản lý có thể có những thông tin chính xác, nhanh chóng, hỗ trợ cho việc ra các quyết định kịp thời và có lợi nhất cho hoạt động tín dụng của NHNo Ngoài ra, kho dữ liệu còn hỗ trợ trong công việc quản trị rủi ro tín dụng – một vấn đề hết sức quan trọng trong bối cảnh khó khăn hiện tại của các ngân hàng
Xuất phát từ nhu cầu thực tế tại NHNo,luận văn nghiên cứu bài toán xây dựng kho dữ liệu và hệ thống hỗ trợ ra quyết định (DW&BI) tại Ngân hàng Nông nghiệp và phát triển Nông thôn Việt Nam, với mong muốn đưa ra một dự án khả thi nhằm xây dựng kho dữ liệu hoàn chỉnh hỗ trợ cho việc quản lý và ra quyết định tại NHNo
Mục tiêu đề tài
Xây dựng dự án khả thi để triển khai kho dữ liệu và hệ thống hỗ trợ ra quyết định đáp ứng các yêu cầu nghiệp vụ thông minh tại NHNo
Phạm vi và đối tượng của đề tài:
- Đối tượng nghiên cứu: Kho dữ liệu và hệ thống hỗ trợ ra quyết định cho hoạt động nghiệp vụ ngân hàng tại NHNo
- Phạm vi áp dụng: đề tài được áp dụng tại NHNo
Kết quả của đề tài
Trang 6Một nghiên cứu dự án khả thi xây dựng Kho dữ liệu và hệ thống hỗ trợ ra quyết định tại Ngân hàng Nông nghiệp và phát triển Nông thôn Việt Nam, trình bày đầy đủ
cơ sở phương pháp luận, lựa chọn giải pháp, các bước xây dựng, thiết kế hệ thống DW&BI cũng như tổng mức đầu tư cho dự án
Kết cấu của đề tài
Đề tài được kết cấu gồm 3 phần (chương) chính trong đó:
Phần mở đầu:
Giới thiệu các yêu cầu khách quan, chủ quan, cơ sở thực tiễn nghiên cứu và xây dựng đề tài
Chương I: Giới thiệu về DW&BI
Nội dung chính của chương này trình bầy các khái niệm cơ bản về kho dữ liệu
và hệ thống hỗ trợ ra quyết định, các phương pháp luận và cơ sở lựa chọn phương pháp luận để xây dựng kho dữ liệu và hệ thống hỗ trợ ra quyết định Các bước xây dựng, thiết kế hệ thống DW&BI
Chương II: Bài toán đầu tư phát triển hệ thống hỗ trợ ra quyết định tại Ngân hàng Nông nghiệp và phát triền Nông thôn Việt Nam
Đánh giá hiện trạng hệ thống CNTT tại NHNo, xu hướng xây dựng DW&BI tại các Ngân hàng nói chung và nhu cầu cấp thiết cần phải xây dựng Kho dữ liệu và hệ thống hỗ trợ ra quyết định tại NHNo nói riêng
Đưa ra mục tiêu đầu tư, yêu cầu năng lực sơ bộ của hệ thống
Đưa ra bản thiết kế logic, bản thiết kế vật lý để xây dựng kho dữ liệu và hệ thống hỗ trợ ra quyết định
Chương III:Đề xuất dự án xây dựng kho dữ liệu và hệ thống hỗ trợ ra quyết định
Đưa ra các căn cứ để phân tích, lựa chọn giải pháp đồng thời phân tích chi tiết
về ba giải pháp phổ biến, đứng đầu về DW&BI, qua đó khuyến nghị giải pháp kỹ thuật công nghệ sử dụng trong dự án và dự trù tổng kinh phí của dự án
Phần kết luận: Kết luận tổng thể về luận văn
Đưa ra những điều làm được, những điều chưa làm được và hướng phát triển của luận văn
Trang 7CHƯƠNG I GIỚI THIỆU VỀ DW&BI
Chương này đưa ra các khái niệm cơ bản về Data Warehouse và BI Từ đó tìm ra phương pháp phù hợp để xây dựng DW&BI tại Ngân hàng Nông nghiệp
1.1 Các khái niệm cơ bản
1.1.1 Data Warehouse và BI là gì?
Data Warehouse (viết tắt là DW, còn gọi là Kho Dữ Liệu) là hệ thống tập trung
dữ liệu nhằm mục đích khai thác, phân tích thông tin và hỗ trợ quyết định, với các đặc trưng về mặt dữ liệu là: tích hợp, hướng chủ đề, tích lũy theo thời gian và bất biến
Business Intelligence (viết tắt là BI) là tầng ứng dụng khai thác dữ liệu và phân tích thông tin từ các nguồn dữ liệu khác nhau mà tiêu biểu trong đó chính là các DW với thiết kế CSDL đa chiều (OLAP) Tầng ứng dụng BI này bao gồm các dữ liệu metadata, các chương trình ứng dụng, các công cụ phần mềm… nhằm mục đích đưa các kết quả báo cáo, phân tích nghiệp vụ,… đến trực tiếp các người dùng cuối (những cán bộ nghiệp vụ, các lãnh đạo,…)
Vai trò của DW&BI trong việc cung cấp thông tin hỗ trợ quyết định được minh
họa (hình1.1):
En
d-User Dic
ision
Business Intelligent
- Knowledge
- Information
Data Warehouse - Information
- Centralized Data
Các hệ thống tác nghiệp (OLTP systems) - Dữ liệu tác nghiệp (Data Sources)
Hình 1.1: vai trò của DW&BI
Các thành phần chính của một hệ thống DW&BI được minh họa (hình 1.2), bao
gồm:
- Data Sources (Dữ liệu nguồn): bao gồm các CSDL của các hệ thống tác nghiệp,
các dữ liệu dạng file,…
Trang 8- Data Warehouse (Kho dữ liệu tập trung): bao gồm CSDL tích hợp và các
CSDL chủ đề
- BI:tầng ứng dụng khai thác và phân tích thông tin hỗ trợ quyết định; các
end-user tương tác với hệ thống qua tầng BI này
- Administration: Metadata và quản trị hệ thống
reports
information
knowledge CSDL tích hợp
CSDL chủ đề
CSDL chủ đề
CSDL chủ đề Files
CSDL tác nghiệp
CSDL tác nghiệp
Administration (Metadata và quản trị hệ thống)
Hình 1.2:Các thành phần chính của DW&BI
1.1.2 Các đặc trưng về mặt dữ liệu của một hệ thống DW&BI
Một hệ thống DW bao gồm 4 đặc trưng về mặt dữ liệu, bao gồm: tích hợp, hướng chủ đề, tích lũy theo thời gian, bất biến
- Tích hợp (Integrated): Dữ liệu của DW được tập hợp về từ các nguồn
khác nhau như các CSDL của các hệ thống tác nghiệp, các file tài liệu,…
- Hướng chủ đề (Subject-Oriented): Dữ liệu của DW được tổ chức và lưu
trữ theo các chủ đề nghiệp vụ mà người khai thác quan tâm
- Tích lũy theo thời gian (Time-Variant): Dữ liệu lưu trữ có tính chất lịch
sử, theo dòng thời gian tính từ một thời điểm trong quá khứ cho đến hiện tại và các dữ liệu sẽ phát sinh trong tương lai
- Bất biến (Non-Volatile): Dữ liệu đã đưa vào trong DW nói chung ở dạng
read-only và rất hiếm khi thay đổi (không update, không delete) DW chính là những CSDL được thiết kế cho mục đích Khai thác và Phân tích thông tin (query, truy vấn) chứ không phải mục cập nhật (update, delete) như trong CSDL của các ứng dụng tác nghiệp
1.1.3 Phân biệt giữa hệ thống OLTP và hệ thống DSS
- OLTP (OnLine Transaction Processing): Hệ thống xử lý giao dịch trực tuyến Đặc trưng của các ứng dụng OLTP là các tác vụ tự động ghi chép dữ
Trang 9liệu để xử lý các nghiệp vụ của một tổ chức như ghi nhận đơn đặt hàng hoặc các giao dịch ngân.Các tác vụ này thường đọc hoặc cập nhật một vài dòng dữ liệu dựa trên khoá chính của chúng Những tác vụ đó có cấu trúc, được lặp lại, bao gồm các giao dịch ngắn, tối giản và tách biệt, yêu cầu dữ liệu chi tiết
và mới nhất Các cơ sở dữ liệu tác nghiệp có kích thước từ vài trăm megabyte đến hàng gigabyte và chỉ lưu trữ các dữ liệu hiện hành (vòng đời
dữ liệu ngắn) Cơ sở dữ liệu có tính nhất quán, khả năng phục hồi cao
- DSS (Decision Support System): Hệ thống hỗ trợ quyết định
Phân biệt giữa Hệ thống OLTP và Hệ thống DSS:
Thời gian đáp ứng
một thao tác người
dùng
Dưới 1 giây đến hàng giây Từ hàng giây đến hàng
giờ
Loại thao tác với
dữ liệu
Cập nhật (thêm, sửa, xóa)
và tra cứu
Chủ yếu là đọc dữ liệu (read-only)
Phạm vi dữ liệu 30 - 60 ngày Tích lũy theo thời gian
Tổ chức dữ liệu Theo chương trình ứng
dụng
Theo thời gian, theo chủ
đề Quy mô dữ liệu Nhỏ đến lớn Lớn đến rất lớn
Nguồn dữ liệu Dữ liệu tác nghiệp, dữ liệu
bên trong
Dữ liệu tác nghiệp, dữ liệu bên trong, bên ngoài Hoạt động Xử lý, tác động lên dữ liệu Phân tích trên dữ liệu
Bảng 1.1: Phân biệt giữa hệ thống OLTP và DSS
1.2 Các phương pháp luận xây dựng hệ thống DW&BI
Có nhiều phương pháp tiếp cận đã được sử dụng và phổ biến trên thế giới Nhưng thông dụng nhất là 3 phương pháp sau:
- Business-Wide Data Warehouse (hay còn gọi là Top-down)
- Independent Data Marts (hay còn gọi là Bottom-up)
- Interconnected Data Marts (hay còn gọi là Spiral)
Trang 10Hình 1.3: Các phương pháp luận xây dựng DW&BI
1.2.1 Phương pháp luận Top-down
Xây dựng kho dữ liệu theo phương pháp luận Top-down là xây dựng kho dữ liệu “đầy đủ”, xây dựng ngay và một lần kho dữ liệu đáp ứng được tất cả hoặc phần lớn những nhu cầu khai thác thông tin, phân tích và lập dự báo chiến lược của mọi đối tượng sử dụng Một lần thiết kế cho toàn bộ hệ thống và thực hiện xây dựng toàn bộ như thiết kế
1.2.2 Phương pháp luận Bottom-up
Phương pháp Bottom-up xây dựng từng kho dữ liệu cho mỗi chủ đề riêng biệt
và độc lập, đáp ứng được nhu cầu khai thác thông tin, phân tích và lập dự báo chiến lược của một hoặc một số phòng ban cụ thể trong tổ chức / doanh nghiệp Với mỗi chủ
đề thông tin nghiệp vụ phát sinh là một lần thiết kế và xây dựng riêng biệt
1.2.3 Phương pháp luận Spiral
Phương pháp Spiral là phương pháp xây dựng dần từng kho dữ liệu cho mỗi chủ đề dựa trên mô hình xoáy trôn ốc, mỗi kho dữ liệu chủ đề có khả năng tích hợp lại thành một Kho dữ liệu đầy đủ
Sau khi phân tích nghiệp vụ mức tổng thể của toàn bộ doanh nghiệp,liệt kê danh sách các chủ đề thông tin cần xây dựng kho Sau đó sẽ thiết kế và xây dựng dần cho từng kho chủ đề dựa trên thiết kế tổng thể của toàn tổ chức / doanh nghiệp Thứ tự của việc xây dựng các kho chủ đề sẽ được dựa trên tính quan trọng của nghiệp vụ và tính
hiệu quả