1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu quy trình xây dựng datawarehouse và thực hiện test datawarehouse lưu trữ dữ liệu hợp đồng giao dịch trong NH khoá luận tốt nghiệp 328

81 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên Cứu Quy Trình Xây Dựng Datawarehouse Và Thực Hiện Test Datawarehouse Lưu Trữ Dữ Liệu Hợp Đồng Giao Dịch Trong Ngân Hàng
Tác giả Lê Ngọc Diễm
Người hướng dẫn ThS. Nguyễn Thị Thùy Anh
Trường học Học viện Ngân hàng
Chuyên ngành Hệ thống thông tin quản lý
Thể loại khóa luận tốt nghiệp
Năm xuất bản 2017
Thành phố Hà Nội
Định dạng
Số trang 81
Dung lượng 2,55 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

1.2 Tổng quan về data warehouse 1.2.1 Giới thiệu về data warehouse DW ❖ Lịch sử hình thành Ngay từ những năm 70 nhiều công ty đã bán các hệ thống database hỗ trợ phân tích,báo cáo như te

Trang 1

HỌC VIỆN NGÂN HÀNG

KHOA HỆ THỐNG THÔNG TIN QUẢN LÝ

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC

NGHIÊN CỨU QUY TRÌNH XÂY DỰNG

DATAWAREHOUSE VÀ THỰC HỆN TEST DATA WAREHOUSE LƯU TRỮ DỮ LIỆU HỢP ĐỒNG

GIAO DỊCH TRONG NGÂN HÀNG

LÊ NGỌC DIỄM

HÀ NỘI, NĂM 2017

Trang 2

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC

• • • •

NGHIÊN CỨU QUY TRÌNH XÂY DỰNG DATAWAREHOUSE VÀ THỰC HIỆN TEST DATAWAREHOUSE LƯU TRỮ DỮ LIỆU HỢP ĐỒNG GIAO DỊCH TRONG NGÂN HÀNG

Giáo viên hướng dẫn: ThS.Nguyễn Thị Th ùy Anh

Sinh viên thực hiện: Lê Ngọc Diễm

Mã sinh viên: 16A4040027

Lớp: K16HTTTB Khóa: K16

Hệ: Đại học chính quy

Hà Nội, tháng 6/2017

Trang 3

em trong quá trình học tập, công tác sau này.

Em cũng xin gửi lời cảm ơn chân thành nhất tới Quý công ty cổ phần giải pháp phầnmềm tài chính, đặc biệt là cán bộ quản lý Phạm Phương Thủy đã luôn luôn tạo điều kiện,chỉ dạy và hướng dẫn tận tình cho em trong suốt thời gian thực tập vừa qua Chị đã cungcấp cho em rất nhiều những kiến thức cũng như những kinh nghiệm hữu ích, giúp em cóthêm những hiểu biết, được trải nghiệm ở môi trường làm việc thực tế Từ đó, em có đượcnhững định hướng đúng đắn, những kỹ năng nghiệp vụ vô cùng cần thiết để có thể hoànthiện bản thân và bổ sung những kiến thức còn thiếu

Em đã cố gắng hoàn thiện đề tài khóa luận với tất cả sự nỗ lực của bản thân Tuy nhiên

do còn thiếu kinh nghiệm, chắc chắn bài nghiên cứu sẽ không tránh khỏi thiếu sót Vì vậy,

em rất mong nhận được sự quan tâm, ý kiến đóng góp của thầy cô để bài khóa luận có thểhoàn thiện hơn

Em xin chân thành cảm ơn!

Lê Ngọc Diễm

Trang 4

Em xin cam đoan kết quả đạt được trong đề tài khóa luận là sản phẩm, xây dựng bằngcông sức tìm hiểu của em Trong toàn bộ nội dung của đề tài, những điều được trình bày

là của em hoặc là được tổng hợp từ nhiều nguồn tài liệu Tất cả các tài liệu tham khảo đều

Trang 5

NHẬN XÉT

(Của cơ quan thực tập)

về các mặt: Ý thức chấp hành nội quy, thái độ làm việc của sinh viên tại nơi thực tập;Tiến độ, kết quả thực hiện công việc được giao; Tính thực tiễn và ứng dụng của đề tài

Hà Nội, ngày tháng năm 2017

Người nhận xét

(Ký tên, đóng dấu)

Trang 6

(Của giáo viên hướng dẫn)

về các mặt: Mục đích của đề tài; Tính thời sự và ứng dụng của đề tài; Bố cục và hìnhthức trình bầy đề tài; Ket quả thực hiện đề tài; Ý thức, thái độ của sinh viên trong quátrình thực hiện đề tài

Kết luận :

Hà Nội, ngày tháng năm 2017Giáo viên hướng dẫn

(Ký tên)

Trang 7

MỤC LỤC

MỤC LỤC i

DANH MỤC CÁC CHỮ VIẾT TẮT iv

DANH MỤC BẢNG BIỂU v

DANH MỤC HÌNH VẼ vi

MỞ ĐẦU 1

CHƯƠNG 1: TỔNG QUAN VỀ DATA WAREHOUSE VÀ KỸ THUẬT KIỂM THỬ DỮ LIỆU 3

1.1 Giới thiệu bài toán 3

1.1.1 Hoàn cảnh ra đời 3

1.1.2 Ý nghĩa thực tiễn 3

1.2 Tổng quan về data warehouse 3

1.2.1 Giới thiệu về data warehouse (DW) 3

1.2.2 Kiến trúc hệ thống data warehouse 6

1.3 Kỹ thuật kiểm thử dữ liệu 7

1.3.1 Khái niệm kiểm thử dữ liệu 7

1.3.2 Phân loại kiểm thử dữ liệu 8

1.4.2.1 Kiểm thử cấu trúc cơ sở dữ liệu 8

1.4.2.2 Kiểm thử chức năng 9

1.4.2.3 Kiểm thử phi chức năng 9

1.3.3 Yêu cầu khi kiểm tra cơ sở dữ liệu 10

1.3.4 Phương thức kiểm tra 10

1.3.5 Cách viết câu lệnh kiểm tra 10

CHƯƠNG 2: QUY TRÌNH XÂY DỰNG DATA WAREHOUSE LƯU TRỮ DỮ LIỆU HỢP ĐỒNG GIAO DỊCH TRONG NGÂN HÀNG 13

2.1 Quy trình xây dựng data warehouse 13

2.1.1 Phân tích yêu cầu 14

2.1.2 Thiết kế 17

2.1.2.1 Thiết kế mô hình dữ liệu 19

Trang 8

2.1.3 Xây dựng 22

2.1.3.1 Trích xuất dữ liệu giao dịch 24

2.1.3.2 Xây dựng tầng STAGING 24

2.1.3.3 Xây dựng tầng SOR 25

2.1.3.4 Xây dựng tầng Data Mart 25

2.1.4 Triển khai hệ thống 25

2.2 Đánh giá quy trình xây dựng data warehouse 26

2.2.1 Điểm mạnh 26

2.2.2 Hạn chế 26

CHƯƠNG 3: XÂY DỰNG TESTCASE THỰC HIỆN KIỂM THỬ DATA WAREHOUSE LƯU TRỮ DỮ LIỆU VỀ HỢP ĐỒNG GIAO DỊCH TRONG NGÂN HÀNG 27

3.1 Giới thiệu về bộ dữ liệu hợp đồng giao dịch trong data warehouse 27

3.1.1 Nhóm Classification (CL) 27

3.1.2 Nhóm Involved party (IP) 28

3.1.3 Nhóm Arrangement (AR) 30

3.1.4 Nhóm Event 31

3.1.5 Nhóm Associatives 32

3.1.6 Nhóm Sumary 32

3.1.7 Nhóm Dim 33

3.1.8 Nhóm fact 33

3.2 Xây dựng tescase kiểm thử data warehouse lưu trữ dữ liệu hợp đồng giao dịch trong ngân hàng 33

3.2.1 Test tầng SOR 35

3.2.1.1 Bảng IP 35

3.2.1.2 Bảng AR 37

3.2.1.3 Bảng TXN 42

Trang 9

3.2.1.4 Các bảng quan hệ 47

3.2.1.5 Bảng AR_TVR_SMY 52

3.2.2 Test tầng data mart 56

3.2.2.1 Bảng AR_DIM 56

3.2.2.2 Bảng AR_ANL_FCT 59

KẾT LUẬN 61 PHỤ LỤC

TÀI LIỆU THAM KHẢO

Trang 10

1 BA Business Analyst Phân tích nghiệp vụ

2 BI Business Intelligence Kinh doanh thông minh

13 UAT User acceptance testing Kiểm thử sự chấp nhận của

người dùng

DANH MỤC CÁC CHỮ VIẾT TẮT

Trang 11

DANH MỤC BẢNG BIỂU

Bảng 3.1: Bảngcác thuộc tính của bảng CV 27

Bảng 3.2: Bảngcác thuộc tính của bảng IP 28

Bảng 3.3: Bảngcác thuộc tính của bảng IDV 28

Bảng 3.4: Bảngcác thuộc tính của bảng ORG 29

Bảng 3.5: Bảngcác thuộc tính của bảng OU 29

Bảng 3.6: Bảngcác thuộc tính của bảng CST 30

Bảng 3.7: Bảngcác thuộc tính của bảng AR 30

Bảng 3.8: Bảngcác thuộc tính của bảng TXN 31

Bảng 3.9: Bảngcác thuộc tính của bảng AR_TVR_SMY 32

Bảng 3.10: Kịch bảnkiểmthử bảng IP 36

Bảng 3.11: Kịch bảnkiểmthử bảng AR 40

Bảng 3.12: Kịch bảnkiểmthử bảng TXN 44

Bảng 3.13: Kịch bảnkiểmthử bảng bảng AR_X_IP 47

Bảng 3.14: Kịch bảnkiểmthử bảng AR_X_PD 50

Bảng 3.15: Kịch bảnkiểmthử bảng AR_TVR_SMY 54

Bảng 3.16: Bảng kịch bản kiểm thử bảng AR_DIM 57

Trang 12

Hình 1.2: Loại kiểm thử cơ sở dữ liệu 8

Hình 2.1: Quy trình xây dựng data warehouse 13

Hình 2.2: Quy trình phân tích yêu cầu 16

Hình 2.3: Quy trình thiết kế data warehouse 18

Hình 2.4: Quy trình thiết kế mô hình dữ liệu 19 Hình 2.5: Quy trình thiết kế ETL 20

Hình 2.6: Quy trình thiết kế báo cáo 21

Hình 2.7: Quy trình xây dựng 23

Hình 3.1: Mối liên hệ giữa các tầng trong data warehouse 34

Trang 13

Khóa luận tốt nghiệp Quy trình xây dựng và kiêm thử data warehouse

MỞ ĐẦU

Hiện nay, dữ liệu đóng một vai trò vô cùng quan trọng đối với doanh nghiệp, tổ chứcnói chung và ngân hàng nói riêng Giữa bối cảnh nền kinh tế ngày càng phát triên, sựcạnh tranh giữa các doanh nghiệp tăng lên, các đối thủ ngày càng nhiều thì việc phân tích

dữ liệu càng trở nên quan trọng nhằm giúp các doanh nghiệp có được thông tin hữu ích vềtình hình kinh doanh từ đó đưa ra những chiến lược phù hợp Đặc biệt là đối với các ngânhàng, dữ liệu trong các ngân hàng là rất lớn và đê có được thông tin phân tích đầy đủ nhấtthì ngân hàng phải lấy dữ liệu từ nhiều nguồn khác nhau, sẽ dẫn tới những khó khăn trongquá trình tập hợp dữ liệu, cản trở hoạt động ra quyết định của nhà quản lý

Sự xuất hiện của data warehouse đã khắc phục được những vấn đề về khả năng lưu trữ,cho phép tạo ra các báo cáo, phân tích dữ liệu một cách hiệu quả nhất, giúp người dùnghiêu và nâng cao hiệu quả hoạt động của tổ chức Data warehouse giúp các nhà quản lýtrích rút nguồn tài nguyên một cách nhanh chóng hiệu quả từ đó các nhà phân tích có thêđưa ra các báo cáo kịp thời, làm tăng hiệu quả kinh doanh cũng như gia tăng lợi thế cạnhtranh của doanh nghiệp Xây dựng data warehouse là giải pháp tối ưu cho các doanhnghiệp

Tuy nhiên, xây dựng data warehouse là điều hoàn toàn khó khăn đòi hỏi đơn vị triênkhai phải đưa ra một quy trình xây dựng rõ ràng và thích hợp Công ty cổ phần giải phápphần mềm tài chính (FSSC) là một trong những nhà cung cấp dịch vụ hàng đầu trong lĩnhvực Data Warehouse & Business Intelligence cho các ngân hàng tại Việt Nam nên quytrình xây dựng data warehouse là vô cùng quan trọng, quyết định đến sự thành công củamột dự án data warehouse Đê data warehouse có thê đáp ứng, phát huy hết chức năngcủa mình thì công việc kiêm thử data warehouse là cần thiết, đảm bảo data warehouse tối

ưu hóa được tất cả các lỗi còn tồn tại Bởi data warehouse được xây dựng bởi con ngườinên không thê tránh khỏi sai sót, lỗi càng được tìm ra sớm thì sẽ càng tiết kiệm được chiphí Kiêm thử data warehouse mang những đặc thù riêng so với kiêm thử phần mềm vàkhông thê thiếu trong quy trình xây dựng data warehouse

Với những vấn đề trên bài khóa luận: “Nghiên cứu quy trình xây dựng data

warehouse và thực hiện test data warehouse lưu trữ dữ liệu hợp đồng giao dịch trong ngân hàng” tập trung đưa ra quy trình xây dựng data warehouse được công ty cổ phần

giải pháp phần mềm tài chính áp dụng trong các dự án xây dựng data warehouse nhằmmục đích tìm hiêu được những điêm mạnh và những tồn tại hạn chế trong quy trình xâydựng data warehouse đồng thời áp dụng được những kỹ thuật kiêm thử dữ liệu đê giúpcho data warehouse khi xây dựng được triên khai với kết quả tốt nhất

Trang 14

Bố cục đề tài bao gồm 3 chương như sau:

Chương 1: Tổng quan về datawarehouse và kỹ thuật kiểm thử dữ liệu

Trong chương này khóa luận trình bày những lý thuyết về lịch sử ra đời, định nghĩa vềdata warehouse, chức năng mục đích, kiến trúc của data warehouse Đồng thời khóa luậnnghiên cứu về kiểm thử dữ liệu cũng như kỹ thuật test một hệ thống data warehouse

Chương 2: Quy trình xây dựng datawarehouse tại FSSC

Chương 2 của bài khóa luận nghiên cứu quy trình xây dựng data warehouse được công

ty áp dụng triển khai cho các dự án về data warehouse và đưa ra những đánh giá về quytrình xây dựng data warehouse bao gồm những ưu điểm và hạn chế

Chương 3: Xây dựng testcase kiểm thử data warehouse lưu trữ dữ liệu hợp đồng các giao dịch trong ngân hàng.

Trong chương này khóa luận trình bày bộ dữ liệu về thông tin các hợp đồng giao dịchđược lưu trữ trong data warehouse và xây dựng bộ testcase kiểm thử data warehouse lưutrữ thông tin hợp đồng giao dịch trong ngân hàng

Trang 15

Khóa luận tốt nghiệp Quy trình xây dựng và kiểm thử data warehouse

CHƯƠNG 1: TỔNG QUAN VỀ DATA WAREHOUSE VÀ KỸ THUẬT

KIỂM THỬ DỮ LIỆU 1.1 Giới thiệu bài toán

1.1.1 Hoàn cảnh ra đời

Giữa bối cảnh nền kinh tế ngày càng phát triển và tầm quan trọng của dữ liệu đối vớicác tổ chức thì việc xây dựng data warehouse nhằm lưu trữ, trích rút dữ liệu phục vụ chophân tích, tạo báo cáo gia tăng lợi thế cạnh tranh là hoàn toàn cần thiết Tuy nhiên việcxây dựng data warehouse mất rất nhiều thời gian và công sức nếu không có một quy trìnhxây dựng hợp lý Quy trình xây dựng ảnh hưởng rất lớn đến sự thành công khi xây dựngdata warehouse đồng thời kiểm thử data warehouse cũng là một trong các yếu tố quantrọng đảm bảo data warehouse có thể triển khai hoạt động theo yêu cầu của doanh nghiệp,

tổ chức hay các ngân hàng

Chính vì lẽ đó khóa luận tập trung thực hiện đề tài nghiên cứu quy trình xây dựng datawarehouse và thực hiện test data warehouse lưu trữ dữ liệu hợp đồng giao dịch trong ngânhàng

1.1.2 Ý nghĩa thực tiễn

Việc xây dựng kho dữ liệu không những giúp cho doanh nghiệp lưu trữ một lượngthông tin lớn hằng ngày mà còn giúp cho các nhà quản lý doanh nghiệp có thể trích rútnguồn tài nguyên một cách nhanh chóng, chính xác Đồng thời giúp họ phân tích và đưa

ra các báo cáo một cách kịp thời, góp phần thúc đẩy cho việc kinh doanh đạt kết quả tốtnhất Mặt khác data warehouse còn góp phần gia tăng lợi thế cạnh tranh trong doanhnghiệp nên việc nghiên cứu về quy trình xây dựng data warehouse giống như đưa ra mộtkhung mẫu để data warehouse có thể triển khai sâu rộng tại các doanh nghiệp đặc biệt làtại các ngân hàng

1.2 Tổng quan về data warehouse

1.2.1 Giới thiệu về data warehouse (DW)

❖ Lịch sử hình thành

Ngay từ những năm 70 nhiều công ty đã bán các hệ thống database hỗ trợ phân tích,báo cáo như teradata, mapper, nhưng thuật ngữ “data warehouse” chỉ được sử dụng vàonăm 1988 trong một bài báo kỹ thuật của IBM có tiêu đề “Kiến trúc hệ thống thông tin vàkinh doanh” (An architecture for a business and information system) [1]

Vào đầu năm 1990, Internet như một cơn bão đổ bộ vào thế giới, nhu cầu cải thiện cácbáo cáo kinh doanh và lưu trữ dữ liệu ngày càng cao do ảnh hưởng của các hiệp địnhthương mại tự do, toàn cầu hóa làm tăng tính cạnh tranh giữa các doanh nghiệp Chính vì

Trang 16

vậy cuộc cách mạng về xư ly dư liệu không chi là phổ cập kho dư liệu mà cồn tạo điềukiện đề mơ rông khái niệm kho dư liệu.

Vào cuối thiên niên kỷ, các doanh nghiệp phát hiện ra rằng số lượng hệ thống ứngdụng và cơ sở dữ liệu được nhân lên nhanh chóng, hệ thống tích hợp kém và dữ liệu thìkhông nhất quán trên các hệ thống Đồng thời họ có rất nhiều dữ liệu bị phân mảnh chứkhông phải thông tin tích hợp được yêu cầu cho việc ra một quyết định, điều này có ảnhhưởng vô cùng quan trọng trong một nền kinh tế toàn cầu đàng thày đổi một cách nhanhchóng và đầy tính cạnh tranh

Các công ty bắt đầu xây dựng kho dữ liệu để hợp nhất dữ liệu từ các cơ sở dữ liệu khácnhàu để hỗ trợ tốt hơn nhu cầu ra quyết định và đưạ rạ chiến lược kinh doanh

Theo Wikipedia (http://en.wikipedia.org/wiki/Data_warehouse), data warehouse chính

là database chuyên dùng cho tạo báo cáo và phân tích dữ liệu Nó vừa hỗ trợ các truy vấnphức tạp, vừà là điểm tập trung dữ liệu từ nhiều nguồn khác nhàu để có được thông tinphận tích đầy đủ nhất

Kho dữ liệu được sử dụng để lưu trữ một lượng lớn dữ liệu, chẳng hạn như dữ liệuphân tích, dữ liệu lịch sử hay dữ liệu khách hàng sàu đó được sử dụng để xây dựng cácbáo báo, khai phá dữ liệu lớn

Kho dữ liệu được xây dựng bằng cách tích hợp dữ liệu từ nhiều nguồn không đồngnhất để hỗ trợ các báo cáo phân tích, các truy vấn có cấu trúc hoặc ngẫu nhiên và ra quyếtđịnh

❖ Lý do sử dụng data warehouse

Khối lượng dữ liệu trong mỗi doanh nghiệp, tổ chức ngày càng nhiều dẫn đến việc truycập và sử dụng dữ liệu sẽ càng khó khăn Ngoài rà trong một tổ chức, doanh nghiệp, dữliệu thường được lưu trữ trong nhiều định dạng khác nhau, trong những tập tin khác nhau

và cấu trúc cơ sở dữ liệu cũng khác nhàu bởi mỗi nhà cung cấp lại có một cách thức riêngtrong hoạt động tổ chức cơ sở dữ liệu hiện có Tổ chức sẽ phải mất rất nhiều thời gian vàcông sức để có thể trích xuất, làm sạch và chuẩn bị trước khi hợp nhất dữ liệu sử dụngcho nhiều chương trình khác nhàu dùng để phân tích và báo cáo

Data warehouse rà đời cung cập môt phương phàp tiệp cận tôt hơn trong quá trình cải

Trang 17

Khóa luận tốt nghiệp Quy trình xây dựng và kiểm thử data warehouse

khai thác dữ liệu một cách hiệu quả hơn Data warehouse thực hiện quá trinh tập hợp dưỉiẹn tự các nguồn không đồng nhất, lam sạch, lọc vá chuyện đoi dự ỉiện, sau đó lưu trự: dựỉiện theọ cấu truc đệ người dùng có thể dệ dang truy cấp va sự' dụng Dự liệu sau đọ đượcdung đệ truy vấn, tạọ các baọ cao va phấn tich dự liệu

❖Mục đích sử dụng data warehouse

Mục tiệu chính của khọ dữ liệu là nhằm đáp ứng các tiệu chuẩn cơ bản sau:

- Phải có khả năng đáp ứng mọi yệu cầu về thông tin của người sử dụng

- Hỗ trợ để các nhấn viện của tổ chức thực hiện tốt, hiệu quả công việc của mình, như

có những quyết định hợp lý, nhanh và bán được nhiều hàng hơn, năng suất caọ hơn,thu được lợi nhuận caọ hơn,

- Giúp chọ tổ chức, xác định, quản lý và điều hành các dự án, các nghiệp vụ một cáchhiệu quả và chính xác

- Tích hợp dữ liệu và các siệu dữ liệu từ nhiều nguồn khác nhau [4]

❖Chức năng của data warehọuse

- Cung cấp cái nhìn tổng thể và tích hợp chọ dọanh nghiệp

- Làm chọ dọanh nghiệp có thể dễ dàng đưa ra quyết định dựa vàọ những thông tinlịch sử và hiện tại

- Ra quyết định - hỗ trợ giaọ dịch mà không cản trở họạt động của hệ thống

- Tạọ ra sự nhất quán giữa thông tin của tổ chức và khách hàng

- Trình bày các thông tin chiến lược của tổ chức một cách linh họạt [5]

- Tính toàn vẹn (Integrated): Kho dữ liệu tích hợp dữ liệu từ nhiều nguồn khác nhaunhững vẫn giải quyết được các khó khăn trọng việc kết hợp dữ liệu, giải quyết cácvấn đề sai khác về tện trường dữ liệu (dữ liệu khác nhau nhưng tện giống nhau), ýnghĩa dữ liệu (tên giống nhau nhưng dữ liệu khác nhau), định dạng dữ liệu (tên và

dữ liệu giống nhau nhưng kiểu dữ liệu khác nhau) đưa dữ liệu về một định dạng phùhợp

Trang 18

- Giá trị lịch sử (Time - varying) đề cập đến khả năng lấy các giá trị khác nhau củacùng một thông tin và thời điểm xảy ra thay đổi Dữ liệu lịch sử được lưu trữ trongkho dữ liệu Người sử dụng có thể lấy dữ liệu từ 5 tháng, 10 tháng hay 1 năm hoặcthậm chí lâu hơn từ kho dữ liệu trong khi với hệ thống giao dịch - nơi thường chỉ có

dữ liệu gần đây nhất được lưu trữ không làm được

- Tính bất biến (Nonvolatile) quy định rằng dữ liệu phải thống nhất theo thời gianbằng cách hạn chế tối đa sửa đổi hoặc xóa dữ liệu Hay nói cách khác một khi dữliệu được đẩy vào kho dữ liệu thì sẽ rất khó để có thể thay đổi

1.2.2 Kiến trúc hệ thống data warehouse

Một hệ thống data warehouse gồm 3 thành phần chính sau:

❖Tầng staging: Dữ liệu được thu thập từ hệ thống nghiệp vụ, được chuẩn hoá chúng

về định dạng dữ liệu đa chiều, để nạp vào data warehouse

❖Tầng data warehouse (SOR) là một database dùng làm data warehouse để lưu trữdữ

liệu đã được chuẩn hóa

❖Tầng data mart: lưu trữ dữ liệu theo chủ đề phục vụ phân tích, tạo báo cáo, khai phá

dữ liệu của người dùng cuối

Tầng staging là tầng thấp nhất, sẽ được ẩn đi với người dùng cuối, bao gồm 3 bước:bước thu thập (extract) gom góp dữ liệu từ nhiều nguồn khác nhau; bước chuẩn hóa(transform) biến đổi dữ liệu từ định dạng nguồn sang định dạng của data warehouse baogồm các bước nhỏ là dọn dẹp, tập hợp hay nói cách khác là cắt gọt dữ liệu có chung ýnghĩa từ nhiều nguồn khác nhau về một khung duy nhất, bước tổng hợp sẽ là tổng hợp dữliệu dựa vào độ chi tiết của datawarehouse; bước nạp dữ liệu (load) sẽ ghi dữ liệu đã đượcchuẩn hóa vào data warehouse, bước này bao gồm cả quá trình cập nhật thay đổi từ hệthống nghiệp vụ vào data warehouse để đảm bảo số liệu báo cáo luôn được cập nhật.Tầng data warehouse: đứng ở trung tâm một hệ thống data warehouse làm nhiệm vụlưu trữ dữ liệu bao quanh tất cả các hoạt động nghiệp vụ, các phòng ban của doanhnghiệp Data warehouse thường bao gồm một hoặc nhiều data mart, với data mart chính làdata warehouse thu nhỏ tập trung vào một nghiệp vụ nhất định nào đó của doanh nghiệp.Ngoài nhiệm vụ lưu trữ dữ liệu data warehouse còn có một thành phần khác rất quantrọng gọi là siêu dữ liệu (metadata) Siêu dữ liệu lại được chia làm 2 nhóm là siêu dữ liệu

kỹ thuật và siêu dữ liệu nghiệp vụ Siêu dữ liệu nghiệp vụ (business metadata) mô tả ýnghĩa dữ liệu, các luật và ràng buộc tác động lên dữ liệu Siêu dữ liệu kỹ thuật (technicalmetadata) mô tả cách thức tổ chức, lưu trữ và điều khiển dữ liệu trong hệ thống máy tính.Tầng data mart: giống như một data warehouse thu nhỏ lưu trữ dữ liệu theo các chủ đề

Trang 19

Khóa luận tốt nghiệp Quy trình xây dựng và kiểm thử data warehouse

Hình 1.1: Kiến trúc hệ thống Data Warehouse

Nguồn: Tạp chí Nghiên cứu Khoa học và Kỹ thuật Quốc tế (IJSER)

1.3 Kỹ thuật kiểm thử dữ liệu

1.3.1 Khái niệm kiểm thử dữ liệu

Kiểm thử là quá trình thực thi một chương trình (hệ thống) với mục đích là tìm ra lỗi.(Glen Myers) Kiểm thử kho dữ liệu có phạm vi rộng hơn so với kiểm thử phần mềm bởi

vì kiểm tra kho dữ liệu sẽ tập trung chủ yếu vào tính toàn vẹn và nhất quán của dữ liệuđược cung cấp tới người sử dụng Trong thực tế kiểm thử dữ liệu chính là một trongnhững mục tiêu chính của kiểm thử data warehouse

Kiểm thử dữ liệu (Data testing) là loại kiểm thử chủ yếu về các phần được ẩn đi màngười dùng không thể xem được Nó bao gồm các quy trình bên trong và lưu trữ như hệquản trị cơ sở dữ liệu như Oracle, SQL Server, MySQL, Assembly

Kiểm thử dữ liệu bao gồm kiểm tra các sơ đồ, bảng cơ sở dữ liệu, các cột, khóa vàindex, thủ tục, trigger, xác thực máy chủ cơ sở dữ liệu và kiểm tra trùng lặp cơ sở dữ liệu

Trang 20

1.3.2 Phân loại kiểm thử dữ liệu

Có 3 loại kiểm thử cơ sở dữ liệu

Kiểm thử cấu trúc (Structural): kiểm thử nhằm bảo đảm các thành phần bên trong củamột chương trình chạy đúng, chú trọng đến hoạt động của các thành phần cấu trúc nội tạicủa chương trình chẳng hạn các lệnh và nhánh bên trong

Kiểm thử chức năng (Functional): tập trung vào bất kỳ yêu cầu nào cần được Kiểm tra.Các trường hợp kiểm thử dựa trên từng UC, chức năng nghiệp vụ, và các quy tắc nghiệp

vụ Mục đích của loại kiểm thử này nhằm xác định dữ liệu thích hợp, quy trình thực hiện,tính tương thích của hệ thống, khả năng hệ thống đáp ứng các yêu cầu nghiệp vụ

Kiểm thử phi chức năng (Non - functional): kiểm thử phi chức năng trong kiểm thử cơ

sở dữ liệu có thể được chia thành rất nhiều loại dựa trên yêu cầu đặc tả Nó có thể là kiểmthử về tải (load testing), kiểm thử tính ổn định (usability testing), kiểm thử sự quá tải(stress testing), kiểm thử tính bảo mật (security testing) và kiểm thử tính tương thích(compatibility testing) [2]

Hình 1.2: Loại kiểm thử cơ sở dữ liệu

Nguồn: Database Testing Tutorial

1.4.2.1 Kiểm thử cấu trúc cơ sở dữ liệu

Kiểm thử cấu trúc cơ sở dữ liệu bao gồm việc kiểm tra tất cả các phần tử bên trong kho

dữ liệu được sử dụng chủ yếu cho việc lưu trữ dữ liệu mà không cho phép người dùngcuối thao tác trực tiếp Kiểm thử cấu trúc cơ sở dữ liệu chủ yếu sử dụng tới các truy vấnSQL và được thực hiện với những cách thức kiểm tra như: kiểm tra sơ đồ (schemas),kiểm tra bảng cột, kiểm tra thủ tục, kiểm tra trigger, xác thực máy chủ cơ sở dữ liệu [7]

Trang 21

Khóa luận tốt nghiệp Quy trình xây dựng và kiểm thử data warehouse

❖Kiểm tra sơ đồ

Kiểm tra sơ đồ hay còn được coi là kiểm thử ánh xạ (mapping testing) Để đảm bảo các

sơ đồ được ánh xạ giữa front-end và back-end là như nhau trong kiểm tra sơ đồ cần thựchiện những kiểm thử cơ bản sau:

- Kiểm tra các kiểu dữ liệu liên kết với cơ sở dữ liệu Nhiều khi việc ánh xạ định dạngđược mô tả trong cấp độ giao diện người dùng của ứng dụng

- Kiểm tra các trường hợp không tương thích, không trùng khớp (unmapped) trongcác bảng/view/cột

- Xác minh xem cơ sở dữ liệu có đồng nhất hay không trong một môi trường tổng thểcủa ứng dụng

❖Kiểm thử bảng, cột của cơ sở dữ liệu: kiểm tra xem các bảng, cột trong cơ sở dữ liệuđúng với yêu cầu thiết kế hay không về độ dài, quy ước đặt tên, sự dư thừa dữ liệu trongcác cột, bảng hay các trường trong cơ sở dữ liệu có cho phép người dùng cung cấp dữ liệuđầu vào mong muốn như trong tài liệu yêu cầu cụ thể quy định hay không

Bên cạnh đó kiểm tra sơ đồ còn bao gồm cả việc kiểm tra thủ tục, kiểm tra trigger hay

xác thực máy chủ cơ sở dữ liệu

1.4.2.2 Kiểm thử chức năng

Kiểm thử chức năng của cơ sở dữ liệu được chỉ định bởi yêu cầu đặc tả cần để đảm bảotất cả các giao dịch và thao tác được thực hiện bởi người dùng đầu cuối phù hợp với cácyêu cầu trong tài liệu đặc tả

Những điều kiện cần được kiểm tra:

- Các trường có bắt buộc phải có trong khi cho phép giá trị null trong trường đó haykhông

- Các trường có cùng tên có xuất hiện giữa các bảng hay không

- Độ dài của mỗi trường có phải là kích thước đầy đủ hay không

- Có bất kỳ các trường được tính toán nào xuất hiện trong cơ sở dữ liệu hay không

1.4.2.3 Kiểm thử phi chức năng

Kiểm thử phi chức năng trong kiểm thử cơ sở dữ liệu có thể được chia thành rất nhiềuloại dựa trên yêu cầu đặc tả Nó có thể là kiểm thử về tải (load testing), kiểm thử sự quátải (stress testing), kiểm thử tính bảo mật (security testing), kiểm thử tính ổn định(usability testing) và kiểm thử tính tương thích (compatibility testing) Load testing vàstress testing có thể được nhóm vào loại kiểm thử về hiệu năng (performance testing) đểphục vụ hai mục đích khác nhau khi nói đến vai trò của kiểm thử phi chức năng [8]

Trang 22

Trong đó kiểm thử sự quá tải được coi như là kiểm tra sức chịu đựng của ứng dụng vớilượng công việc phải xử lý mà có thể dẫn tới hệ thống bị lỗi Một số công cụ quan trọng

để kiểm thử sự quá tải là load runner, Jmeter

1.3.3 Yêu cầu khi kiểm tra cơ sở dữ liệu

Trong cơ sở dữ liệu thì các bảng là đối tượng chính dùng lưu trữ dữ liệu cần quản lý.Mỗi bảng có một hay nhiều trường và các thành phần liên quan như triggers, indexs cũngnhư các ràng buộc Chính vì vậy, khi tiến hành kiểm tra cơ sở dữ liệu phải xuất phát từcác bảng với những yêu cầu chính như:

- Tổng số bản ghi hợp lệ được đưa vào bảng đích: khi dữ liệu nguồn được đẩy vào đíchthì cần được đảm bảo rằng các bản ghi có ở nguồn đều được đẩy vào đích

- Mỗi thuộc tính của bảng đích từ mỗi nguồn riêng lẻ cần được kiểm tra ít nhất một lần

- Không có bản ghi bị trùng lặp thông tin

1.3.4 Phương thức kiểm tra

Để có thể đáp ứng được tất cả các yêu cầu khi kiểm tra dữ liệu cần xác định các đốitượng cụ thể cần kiểm tra

Thuộc tính: đối với thuộc tính trong các bảng được đẩy vào data warehouse cần đượcđảm bảo rằng toàn bô thuộc tính trong bang dư liên đích được load chính xac tư bang dưliên nguôn

Duplication: dữ liệu khi được truyền giữa các tầng sẽ khó tránh khỏi sự trùng lặp.Chính vì vậy đối với data warehouse cần kiểm tra trường hợp duplication để xac nhậnrằng không có ban ghi trung lặp cho các cột được yêu cầu là thuộc tính duy nhất

Original check Key: các khóa chính chính là trái tim của mỗi bảng Chính vì vậy khôngthể để trống, cần kiểm tra dữ liệu với trường hợp original check key để xac nhận rặng vơicác cột yêu cậu not null không có bật cư gia tri null nao trong đo

Reconciliation check: Xác nhận rằng số lượng ban ghi trong bang đích va sô lượng banghi trong bảng nguôn đều giống nhau

Relationship check: Kiểm tra mối quan hệ nghĩa là kiểm tra rằng mỗi giá trị khóa chínhtrong bảng con có mặt trong bảng cha

1.3.5 Cách viết câu lệnh kiểm tra

❖ Reconciliation check

Select count (*) From bảngnguồn

Where Điềukiện

Select count (*) From bảng_đich

Where Điều kiện

Trang 23

Khóa luận tốt nghiệp Quy trình xây dựng và kiểm thử data warehouse

+ Kết quả mong đợi: Source count = Target count

+ Mục đích: Kiểm tra số lượng bảng nguồn và đích xem liệu toàn bộ các bản ghi từ nguồn

có vào được bảng đích hay không

❖Duplicate check

Select count (1) From (Select thuộc_tinh From bang

Where DS Điều kiên

Group by thuộc_ tỉnh

Having count (1)>1)

+ Kết quả mong đợi: Count = 0

+ Mục đích: Đếm số lượng bản ghi mà xuất hiện > 1 lần với những thuộc tính có tính duynhất

❖Original key check

Select count (1) From table

Where list of conditions

And (any of NOT NULL values are NULL)

+ Kết quả mong đợi: Count = 0

+ Mục đích: truy vấn trên tìm ra số bản ghi mà những thuộc tính yêu cầu not null đang cógiá trị là null

From bang đich

Where điều kiên))

+ Kết quả mong đợi: Count = 0

+ Mục đích: Kiểm tra toàn bộ thuộc tính từ bảng nguồn được map vào trong bảng đíchsau đó loại bỏ tất cả các thuộc tính được đưa ra trong bảng đích

❖Relationship check

Select count (child id) From

(Select thuộc_tinh_chú_đứợc check parent id,

thuộc_tinh_con_đứợc_check child id

Trang 24

From (Select distinct thuộc_tỉnh from Bang con

Left outer join

Select distinct thuộc tỉnh from Bang_cha On ĐiềuKiện

))

Where parent id IS NULL

+ Ket quả mong đợi: count = 0

+ Mục đích: Đếm số lượng các bản ghi con mà không tìm thấy bản ghi cha

Trang 25

Khóa luận tốt nghiệp Quy trình xây dựng và kiểm thử data warehouse

CHƯƠNG 2: QUY TRÌNH XÂY DỰNG DATA WAREHOUSE LƯU TRỮ

DỮ LIỆU HỢP ĐỒNG GIAO DỊCH TRONG NGÂN HÀNG

2.1 Quy trình xây dựng data warehouse

Xây dựng một kho dữ liệu được thực hiện bởi nhiều giai đoạn khác nhau Đối vớiCông ty cổ phần giải pháp phần mềm tài chính để tạo ra một kho dữ liệu sẽ được tuântheo quy trình gồm 4 bước chính: phân tích yêu cầu, thiết kế, xây dựng data warehouse vàtiến hành triển khai hệ thống

Hình 2.1: Quy trình xây dựng data warehouse

Trang 26

2.1.1 Phân tích yêu cầu

Khi tiếp nhận một dự án xây dựng data warehouse Công ty cổ phần giải pháp phầnmềm tài chính sẽ thành lập đội dự án với các bộ phận như BA, PM, Test hay Developer.Giai đoạn đầu tiên trong quy trình xây dựng data warehouse chính là phân tích yêu cầu.Đội phân tích nghiệp vụ sẽ có nhiệm vụ tạo hoặc cập nhật kế hoạch phân tích yêu cầu chitiết gửi tới phía khách hàng chờ phê duyệt, nếu khách hàng không đồng ý với bản kếhoạch BA sẽ phải cập nhật lại kế hoạch phân tích yêu cầu chi tiết cho tới khi khách hàngchấp nhận Khi bản kế hoạch phân tích yêu cầu được thông qua ban quản trị dự án tiếpnhận yêu cầu và tiến hành thu thập tất cả những thông tin liên quan tới yêu cầu Cách hiệuquả nhất để có thể thu thập được thông tin về kho dữ liệu cần xây dựng chính là đặt câuhỏi để tìm hiểu được các thông tin về data warehouse cần xây dựng Đối với nhà lãnh đạo

họ sẽ đưa ra những nguồn thông tin được sử dụng cần thiết cho ra quyết định hay các yêucầu về báo cáo theo yêu cầu nghiệp vụ Sau đó tất cả những thông tin về yêu cầu sẽ đượcchuyển cho đội phân tích nghiệp vụ để tiến hành phân loại các yêu cầu giúp phân tích yêucầu được dễ dàng hơn Đội phân tích phải dựa trên tất cả những nguồn thông tin thu thậpđược để tiến hành phân tích những vấn đề được đặt ra, những công việc cần thực hiệntheo yêu cầu của khách hàng Đồng thời đội phân tích cũng cần phải hiểu rõ lý do tồn tạicủa bất kỳ nguồn thông tin trong quá trình thu thập Bởi một kho dữ liệu được xây dựngvới mục đích tự động hóa nhiều tính năng báo cáo, nhưng không thể tự động hóa đượcnếu những thông tin liên quan tới kho dữ liệu vẫn trong trạng thái không rõ ràng Cuốicùng đội phân tích sẽ hoàn thiện tài liệu phân tích gửi cho ban quản trị dự án xem xét lại,nếu tài liệu phân tích yêu cầu hợp lý sẽ được gửi cho khách hàng phê duyệt

Trong quá trình tiếp cận yêu cầu ban quản trị thực hiện theo những bước sau:

Bước 1: Xác định các bên liên quan, người dùng doanh nghiệp, hướng điều khiển chínhBước 2: Xác định phạm vi dự án

Bước 3: Tiến hành nghiên cứu trước khi phỏng vấn đối tác, nghiên cứu nguồn dữ liệu

và các báo cáo hiện có

Bước 4: Phát triển bảng các câu hỏi phỏng vấn

Bước 5: Xác định những ràng buộc và sự phụ thuộc

Bước 6: Lập lịch trình và chuẩn bị cho buổi phỏng vấn với khách hàng

Trang 27

Khóa luận tốt nghiệp Quy trình xây dựng và kiểm thử data warehouse

Để có thể thu thập được các yêu cầu về data warehouse sau khi chuẩn bị kỹ lưỡng vềnội dung cũng như lịch trình phỏng vấn đưa ra những câu hỏi cho phía khách hàng độiphân tích cần thực hiện những công việc sau:

Bước 1: Tiến hành các cuộc phỏng vấn đối với các cá nhân hoặc nhóm làm việc bênkhách hàng

Bước 2: Lập tài liệu và đánh giá kết quả phỏng vấn

Bước 3: Xác định những xung đột, ràng buộc, sự phụ thuộc trong yêu cầu

Bước 4: Xác định hệ số đo, độ đo chính

Bước 5: Xác định khung báo cáo tổng thể và danh sách báo cáo

Bước 6: Xác định những yêu cầu kỹ thuật/phi chức năng

Bước 7: Xác định yêu cầu MA

Bước 8: Tạo/cập nhật tài liệu yêu cầu mức định nghĩa (URD) sau đó gửi cho phíakhách hàng xác nhận lại

Kết quả của bước phân tích yêu cầu chính là đưa ra được một bản tài liệu phân tích yêucầu

Trang 28

Hình 2.2: Quy trình phân tích yêu cầu

Trang 29

Khóa luận tốt nghiệp Quy trình xây dựng và kiểm thử data warehouse

2.1.2 Thiết kế

Sau khi tài liệu phân tích yêu cầu được hoàn thiện, tất cả các đội trong dự án sẽ lấy tàiliệu phân tích yêu cầu làm cơ sở cho những công việc tiếp theo Đội dự án sẽ đóng vai tròchủ chốt trong quy trình thiết kế data warehouse Tất cả mọi công việc đều phải dựa trên

kế hoạch Đối với giai đoạn thiết kế, đội thiết kế sẽ phải lập kế hoạch thiết kế chi tiết gửitới phía khách hàng phê duyệt Nếu kế hoạch thiết kế được thông qua đội dự án bắt đầuthiết kế kiến trúc, sau đó ban quản trị dự án sẽ xem xét sự phù hợp để cho đội thiết kế tiếptục thiết kế mô hình dữ liệu, thiết kế báo cáo, luồng ETL và MA Khi thiết kế xong độithiết kế phải hoàn thiện tài liệu gửi cho ban quản trị dự án cũng như khách hàng để chờphê duyệt ký nhận tài liệu sử dụng cho quá trình xây dựng

Trang 30

Hình 2.3: Quy trình thiết kế data warehouse

Trang 31

Khóa luận tốt nghiệp Quy trình xây dựng và kiểm thử data warehouse

2.1.2.1 Thiết kế mô hình dữ liệu

Mô hình dữ liệu là một khuôn dạng của dữ liệu cho phép người dùng nhìn thấy dữ liệudưới dạng lược đồ (scheme) Nó cho ta biết cấu trúc của cơ sở dữ liệu, bao gồm hai thànhphần: hệ thống các ký hiệu để mô tả dữ liệu, tập hợp các phép toán được thao tác trên dữliệu đó Chính vì vậy mô hình dữ liệu là phần cốt yếu trong data warehouse [9]

Đầu ra của quy trình thiết kế mô hình dữ liệu là hai tài liệu thiết kế: tài liệu thiết kế môhình logic và tài liệu thiết kế mô hình vật lý Đầu tiên đội thiết kế tiến hành thiết kế môhình ở mức khái niệm sau đó nếu phía khách hàng xem xét thấy hợp lý sẽ tiếp tục thiết kế

mô hình logic và hoàn thiện tài liệu thiết kế mô hình logic nếu được khách hàng cũng nhưquản trị dự án xem xét phê duyệt Sau khi có tài liệu thiết kế mô hình logic đội thiết kếcần thiết kế tiếp mô hình vậy lý sau đó hoàn thiện tài liệu thiết kế gửi đi chờ phê duyệt đểkết thúc quy trình con thiết kế mô hình dữ liệu trong quy trình thiết kế data warehouse

Hình 2.4: Quy trình thiết kế mô hình dữ liệu

Trang 32

2.1.2.2 Thiết kếETL

ETL chính là viết tắt của:

Extract - giải nén dữ liệu từ nhiều hệ thống không đồng nhất

Transform - Áp dụng các nghiệp vụ logic theo quy định của các doanh nghiệp trên các

dữ liệu thu được từ các nguồn

Load - Đấy dữ liệu vào kho cuối cùng sau khi hoàn tất 2 quá trình trên

Thử nghiệm ETL được lây lan qua tất cả và từng giai đoạn của dòng dữ liệu trong khobắt đầu từ cơ sở dữ liệu nguồn tới mục tiêu cuối cùng là kho dữ liệu Chính vì vậy cần cótài liệu thiết kế ETL để xác định được cách thức di chuyển dữ liệu phù hợp

Công việc đầu tiện trong giai đoạn thiết kế ETL chính là xây dựng luồng ETL tổng đểthấy dữ liệu sẽ được đẩy và phân bổ qua các tầng như thế nào Từ luồng ETL tổng độithiết kế sẽ thiết kế luồng ETL chi tiết cho từng quy trình, tích hợp các quy trình sau đóhoàn thiện tài liệu thiết kế ETL Mỗi giai đoạn thiết kế đều chịu sự giám sát quản lý củaban quản trị dự án

Hình 2.5: Quy trình thiết kế ETL

Trang 33

Khóa luận tốt nghiệp Quy trình xây dựng và kiểm thử data warehouse

2.1.2.3 Quy trình thiết kế báo cáo

Trong các doanh nghiệp đặc biệt là các ngân hàng nhu cầu tạo lập các báo cáo luônluôn được chú trọng và kho dữ liệu được tạo ra một phần là để đáp ứng được nhu cầu này.Nên khi thiết kế data warehouse không thể thiếu quy trình thiết kế báo cáo Đội phân tích

sẽ dựa trên những yêu cầu được cung cấp từ phía khách hàng về những phần tử trong báocáo từ đó xác định bố cục báo cáo cơ sở Sau khi đã thiết kế mẫu báo cáo đội phân tíchcần đưa ra các trường hợp sử dụng, xác định cách thức tạo lập và ý nghĩa của các phần tử

dữ liệu tham gia vào báo cáo Bước tiếp theo của giai đoạn thiết kế báo cáo là kết nối cácphần tử dữ liệu của báo cáo với data mart Khách hàng cũng như quản trị dự án sẽ xemxét lại tất cả các bước, nếu được chấp nhận đội thiết kế sẽ hoàn thiện tài liệu thiết kế báocáo sau đó gửi cho khách hàng và quản trị dự án phê duyệt

Hình 2.6: Quy trình thiết kế báo cáo

Trang 34

2.1.3 Xây dựng

Quy trình xây dựng data warehouse gồm rất nhiều bước khác nhau

Đối với đội phát triển: đầu tiên nhóm cần lập kế hoạch chuẩn bị cho hoạt động code đểgửi tới ban quản trị dự án nếu được thông qua sẽ chuyển cho bộ phận IT phía khách hàngphê duyệt Sau khi bản kế hoạch được phê duyệt đội DEV sẽ phát triển cũng như đặc tảcác quy ước code và đào tạo các quy ước code cho các thành viên trong nhóm

Một trong những yếu tố đảm bảo hoạt động xây dựng được thành công là xác địnhcông cụ được sử dụng hỗ trợ trong quá trình code Bước tiếp theo của quy trình xây dựngdata warehouse là mã hóa các bộ thư viện cần sử dụng cũng như tiến hành kiểm thử đơn

vị Ban quản trị dự án sẽ xem xét sự mã hóa cũng như bước kiểm thử đơn vị ban đầu củaDEV nếu không có vấn đề đội phát triển có thể phát triển dựa trên luồng ETL đồng thờixem xét code, phát triển báo cáo, phát triển MA và trong mỗi bước đều phải tiến hànhkiểm thử đơn vị Kiểm thử đơn vị được thực hiện bởi đội lập trình với mục đích kiểm tracác hàm, thủ tục

Công việc tiếp theo là của đội kiểm thử Đội kiểm thử sẽ tiến hành kiểm thử datawarehouse được xây dựng về cách thức lưu trữ tổ chức dữ liệu, kiểm tra dữ liệu có đượctruyền đủ và chính xác hay không

Khi thực hiện kiểm tra xong đội phát triển phải tạo hướng dẫn cài đặt hướng dẫn ngườidùng rồi chuyển cho ban quản trị dự án xem xét nếu đạt chất lượng sẽ tiến hành đóng gói

và chuyển giao cho người dùng hay nói cách khác là thực hiện UAT (kiểm thử chấpnhận)

Sau bước kiểm thử chấp nhận của người dùng đội phát triển phải tổng kết và hoànthiện tất cả các tài liệu để chuyển cho ban quản trị dự án xem xét, nếu tất cả các tài liệuđược ban quản trị và phía khách hàng chấp nhận, phê duyệt các tài liệu sẽ được ký nhận

và quá trình xây dựng data warehouse kết thúc

Kiểm thử data warehouse được thực hiện ở giai đoạn xây dựng để đảm bảo rằng datawarehouse tối ưu hóa được các lỗi còn tồn tại trước khi chuyển giao cho khách hàng Datawarehouse xây dựng sẽ không để mất bất cứ dữ liệu giao dịch nào, chức năng lưu trữ đạthiệu quả cao

Trang 35

Khóa luận tôt nghiệp Quy trình xây dựng và kiêm thử data warehouse

Hình 2.7: Quy trình xây dựng

Trang 36

Cụ thể để xây dựng data warehouse công việc code được hiểu đơn giản là xây dựng 3tầng của data warehouse

Bước 1: Trích xuất dữ liệu giao dịch

Bước 2: Xây dựng tầng STAGING

Bước 3: Xây dựng tầng System Of Records (SOR)

Bước 4: Xây dựng tầng Data Mart

2.1.3.1 Trích xuất dữ liệu giao dịch

Phần lớn việc xây dựng một DW đang kéo dữ liệu từ các nguồn dữ liệu khác nhau vàđặt nó vào một khu vực lưu trữ trung tâm Trên thực tế, đây có thể là bước khó hoànthành nhất Chúng ta cần biết hệ thống cơ sở dữ liệu nào sẽ sử dụng cho khu vực của bạn

và cách kéo dữ liệu từ nhiều nguồn khác nhau vào khu vực đó

Đối với nhiều công ty vừa và nhỏ, Microsoft đã đưa ra một công cụ tuyệt vời để khaithác dữ liệu Đó chính là dịch vụ chuyển đổi dữ liệu (DTS), là một phần của MicrosoftSQL Server 7.0 và 2000, cho phép bạn nhập và xuất dữ liệu từ bất kỳ cơ sở dữ liệu phùhợp OLEDB hoặc ODBC nào miễn là bạn có nhà cung cấp dịch vụ thích hợp Công cụnày có sẵn, miễn phí khi bạn mua Microsoft SQL Server Tuy nhiên thực tế là bạn sẽkhông phải luôn luôn có một nguồn dữ liệu tuân thủ theo OLEDB hoặc ODBC để làmviệc Nếu không, bạn buộc phải đầu tư đáng kể thời gian và nỗ lực viết một chương trìnhtùy chỉnh chuyển dữ liệu từ nguồn gốc vào cơ sở dữ liệu nguồn tổng hợp (staging)

Đội phát triển sẽ phải tạo Data Connection: lưu trữ các Data Connection kết nối đếncác CSDL STG (Staging), SOR (System of Records) và DMT (Data Mart) Các dataconnection sẽ được tạo vào thời điểm dữ liệu được đẩy lên tầng tương ứng

2.1.3.2 Xây dựng tầng STAGING

Một bước quan trọng không kém sau khi trích xuất là chuyển đổi dữ liệu được chiếtxuất từ nhiều nguồn Hệ thống nguồn của datawahouse được tạo hầu như được xây dựngbởi nhiều chuyên gia IT khác nhau Hầu hết các công ty đều có dữ liệu tồn tại trong một

số hệ thống quản lý cơ sở dữ liệu khác nhau: MS Access, MS SQL Server, Oracle,Sybase, v.v Nhiều công ty cũng sẽ có nhiều dữ liệu của họ trong các tệp tin phẳng, bảngtính, hệ thống thư và các loại lưu trữ dữ liệu khác Khi xây dựng kho dữ liệu, dữ liệu từcác nguồn sẽ được liên hệ với nhau và được xử lý tại nguồn dữ liệu tập trung

Mỗi 1 bảng bên nguồn thường sẽ được chia ra làm 3 loại bảng trong STG: PREDAY,TODAY, MINUS (trừ các bảng giao dịch)

Trang 37

Khóa luận tốt nghiệp Quy trình xây dựng và kiểm thử data warehouse

Đầu tiên dữ liệu nguồn sẽ được đẩy vào bảng TODAY và PREDAY trên Staging(Truncate)

Sau đó Dùng lệnh minus giữa 2 bảng TODAY <> PREDAY để đẩy dữ liệu vào bảngMINUS trên Staging

Sau khi tất cả dữ liệu nằm trong staging, tất cả dữ liệu sẽ được định dạng Trước khiđịnh dạng dữ liệu, các bảng và cột giữa các hệ thống phải được tìm ra mối liên hệ vớinhau

2.1.3.3 Xây dựng tầng SOR

Dữ liệu từ nguồn STAGING sẽ được đẩy vào bảng TWT (Temp Work) tương ứng trênSOR nhằm lưu trữ các thông tin cần thiết, và chỉ bao gồm các giá trị code đối với các giátrị sẽ chuyển sang ID trên SOR

2.1.3.4 Xây dựng tầng Data Mart

Các luồng ETL xử lý dữ liệu từ nguồn SOR được tổng hợp thành các chủ đề khácnhau, bao gồm các bảng Dimession theo các chủ đề tương ứng cho Data Mart

2.1.4 Triển khai hệ thống

Sau khi đã thiết kế cũng như xây dựng được các thành phần của data warehouse, công

ty sẽ căn cứ vào đó để ước tính công việc và lên kế hoạch cho việc triển khai dự án Phạm

vi của mỗi dự án liên quan tới kho dữ liệu là vô cùng lớn chính vì thế lịch trình triển khai

dự án sẽ được chia thành từng giai đoạn

Trang 38

2.2 Đánh giá quy trình xây dựng data warehouse

2.2.1 Điểm mạnh

Quy trình xây dựng data warehouse bao gồm rất nhiều các giai đoạn nhưng tất cả đềuđược thiết lập một cách chi tiết rõ ràng dễ dàng quản lý cũng như thực hiện, các thànhviên trong đội dự án nắm được rõ công việc cần thực hiện, công việc không bị chồngchéo

Từng bước của quy trình đều được giám sát một cách cẩn thận chính bởi vậy nên giảmthiểu rủi ro, quản trị dự án cũng nắm được rõ tình hình thực hiện, có những biện phápquản lý hợp lý, kịp thời

2.2.2 Hạn chế

Đối với hệ thống data warehouse được công ty xây dựng do hệ thống tích hợp lớn nêncác yêu cầu về nghiệp vụ ban đầu có thể bị thay đổi không giống với tài liệu thiết kế banđầu và tính linh hoạt trong quy trình vẫn còn chưa cao nên hoạt động điều chỉnh theonhững thay đổi vẫn chưa hoàn toàn được đáp ứng

Tại bước xây dựng, mô hình dữ liệu được xây dựng theo mô hình hình sao, đơn giảntiết kiệm thời gian nhưng bộ nhớ lưu trữ lớn và người dùng không thể thấy được dữ liệu ởmức chi tiết

Trang 39

Tên cột Mô tả

CL_SCM_SEQ_NBR Số tự tăng duy nhất của giá trị phân loại trong đối tượng phân loại

trường hợp ngôn ngữ môi trường kho dữ liệu, sẽ được gán cho mỗi lầnxuất hiện phân loại để xác định

các báo cáo và tài liệu

Theo chuẩn của IBM Banking Data Model, dữ liệu chi tiết của DWH gồm 9 nội dung:Involved Party, Arrangement, Condition, Product, Location, Classification, Business

Direction Item, Event và Resource Item Đối với data warehouse lưu trữ dữ liệu hợp đồnggiao dịch của khách hàng trong hoạt động ngân hàng được xây dựng với những nhóm sau:

3.1.1 Nhóm Classification (CL)

Nhóm bảng này chứa những dữ liệu định nghĩa mang tính chất phân loại như loạikhách hàng gồm khách hàng cá nhân, tổ chức; loại hợp đồng gồm hợp đồng vay, hợpđồng mở thẻ; hợp đồng gửi tiết kiệm; các nhóm nợ

Bảng 3.1: Bảng các thuộc tính của bảng CV

Trang 40

IP_ID Mã chủ thể

3.1.2 Nhóm Involved party (IP)

Nhóm này chứa thông tin về các bên tham gia liên quan tới ngân hàng như khách hàng,nhà cung cấp, các ngân hàng đối tác, tổ chức tài chính, cụ thể trong kho dữ liệu là thôngtin về khách hàng, chi nhánh

❖ Bảng IP: lưu trữ thông tin về chủ thể

Ngày đăng: 29/03/2022, 23:03

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Lưu Đức Thắng, Data Warehouse và cách thiết kế Data Warehouse, Trung tâm phần mềm viễn thông Viettel Sách, tạp chí
Tiêu đề: Data Warehouse và cách thiết kế Data Warehouse
[2] Phạm Phương Thủy, Data Warehouse Guideline Software Testing, Công ty cổ phần giải pháp phần mềm tài chínhTiếng Anh Sách, tạp chí
Tiêu đề: Data Warehouse Guideline Software Testing
[3] Robert (Bob) Laberge (2011), The Data Warehouse Mentor: Practical Data Warehouse and Business Intelligence Insights, McGraw-Hill Education Sách, tạp chí
Tiêu đề: The Data Warehouse Mentor: Practical DataWarehouse and Business Intelligence Insights
Tác giả: Robert (Bob) Laberge
Năm: 2011
[4] William. H. Inmon (2005), Building the Data Warehouse, Wiley Publishing Inc, pp.71-91 Sách, tạp chí
Tiêu đề: Building the Data Warehouse
Tác giả: William. H. Inmon
Năm: 2005
[5] Paulraj Ponniah, Data Warehousing Fundamentals for IT , pp. 15 Website Sách, tạp chí
Tiêu đề: Data Warehousing Fundamentals for IT
[6] Công ty cổ phần giải pháp phần mềm tài chính https://www.fss.com.vn [7] Tổng quan về data warehouse https://www.tutorialspoint.com/dwh[8] Kiểm thử dữ liệu http://laptrinhx.com/topic/225 Link
[9] Mô hình dữ liệu http://searchdatamanagement.techtarget.com/definitio Link

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w