Bài viết Kiến trúc hồ dữ liệu: Lưu trữ và phân tích dữ liệu lớn trong các tổ chức tài chính - ngân hàng tập trung nghiên cứu kiến trúc hồ dữ liệu cho mô hình dữ liệu ngân hàng dựa trên cơ sở tham chiếu đến mô hình dữ liệu của hãng IBM. Tiếp theo bài báo phân tích vai trò và sự cần thiết của hồ dữ liệu, trình bày về quy trình xây dựng cũng như kiến trúc hồ dữ liệu phù hợp trong các tổ chức tài chính ngân hàng.
Trang 1trong các tổ chức tài chính- ngân hàng
Ngô Thùy Linh
Khoa Hệ thống thông tin quản lý, Trường Học viện Ngân hàng Ngày nhận: 29/04/2022 Ngày nhận bản sửa: 16/06/2022 Ngày duyệt đăng: 22/06/2022
Tóm tắt: Data lake (hồ dữ liệu) là khái niệm mới xuất hiện những năm gần đây
trong thời đại của dữ liệu lớn (big data) Mặc dù chủ đề về big data đã được
thảo luận nhưng vẫn còn nhiều thách thức trong nghiên cứu, đặc biệt là sự đa
dạng của dữ liệu Một trong những thách thức đó là làm thế nào để tích hợp và
truy vấn khối lượng dữ liệu lớn từ nhiều nguồn khác nhau khi phương thức lưu
trữ dữ liệu truyền thống là kho dữ liệu không đáp ứng được Data lake- Hồ dữ
liệu được đề xuất như một giải pháp cho vấn đề này Bài báo tập trung nghiên
cứu kiến trúc hồ dữ liệu cho mô hình dữ liệu ngân hàng dựa trên cơ sở tham
chiếu đến mô hình dữ liệu của hãng IBM Tiếp theo bài báo phân tích vai trò và
sự cần thiết của hồ dữ liệu, trình bày về quy trình xây dựng cũng như kiến trúc
hồ dữ liệu phù hợp trong các tổ chức tài chính ngân hàng Cuối cùng là thảo
luận về lợi ích của hồ dữ liệu giúp cho các bộ phận nghiệp vụ truy cập và phân
tích dữ liệu trên toàn bộ tổ chức, ngoài ra thách thức về công nghệ trong quá
Data lake architecture: big data storage and analysis in financial banking organizations
Abstract: Data Lake is one of the dominant concepts in the era of big data Although big data has been
discussed, it still has many research challenges, especially the variety of data It poses a huge difficulty
to efficiently integrate and query the large volume of diverse data in information silos with the traditional
approaches such as data warehouses Data lakes have been proposed as a solution to this problem This
paper focuses on studying data lake architecture for banking data model based on reference to IBM’s data
model Next, this paper analyzes the role and necessity of a data lake, presents the data lake execution
process and the right data lake architecture in financial banking organizations Finally, the author discusses
the benefits of data lakes in helping business departments access and analyze data across the organization, besides the technological challenges of implementing data lakes in financial and banking institutions also
described in this paper.
Keywords: data lake architecture, the financial banking organizations, data lake, data warehouse, big data.
Ngo, Thuy Linh
Email: linhnt@hvnh.edu.vn
Faculty of Management Information System, Banking Academy of Vietnam
Trang 2trình triển khai hồ dữ liệu tại các tổ chức tài chính ngân hàng cũng được nêu trong bài báo này.
Từ khóa: kiến trúc hồ dữ liệu, tổ chức tài chính ngân hàng, hồ dữ liệu, kho dữ liệu, dữ liệu lớn
1 Giới thiệu
Theo báo cáo của tập đoàn dữ liệu quốc
tế (IDC- International Data Corporation,
2021), năm 2020 có 64,2 ZB (Zettabyte1)
dữ liệu đã được tạo ra và lượng dữ liệu sinh
ra mỗi ngày lớn hơn tổng lượng dữ liệu
được tạo ra trong cả một năm ở thời điểm
những năm 2000 Câu hỏi đặt ra là: nên lưu
trữ bao nhiêu trong số đó? Nhiều tổ chức
nhận thấy rằng các phương pháp quản lý
dữ liệu truyền thống đang trở nên lỗi thời,
quá chậm để đưa ra phản hồi (Michael
Lock, 2017) Chẳng hạn như với giải pháp
xây dựng kho dữ liệu (data warehouse) đã
giúp các tổ chức doanh nghiệp tích hợp dữ
liệu từ nhiều hệ thống khác nhau trong các
bộ phận, phòng ban Cách thiết kế và triển
khai kho dữ liệu đã làm đơn giản hóa việc
truy cập dữ liệu, đồng thời hỗ trợ cho tổ
chức trong việc đưa ra câu trả lời cần thiết
trong kinh doanh Tuy nhiên, không thể
lường trước được các câu hỏi mang tính
chất quyết định và các báo cáo mà doanh
nghiệp có thể cần ngay theo thời gian thực,
giải pháp hiện tại mất quá nhiều thời gian
để đưa ra kết quả chuyên sâu từ dữ liệu thu
thập được Khối lượng dữ liệu tăng lên mỗi
ngày dẫn đến thách thức ngày càng lớn khi
kho dữ liệu phải đối mặt với vấn đề này
Trong kiến trúc dữ liệu hiện đại, việc thu
thập dữ liệu mới phải tương đối dễ dàng để
có thể tiến hành phân tích một cách nhanh
chóng Khối lượng dữ liệu đã bùng nổ khi
các doanh nghiệp khám phá ra giá trị của
các thông tin trên các phương tiện truyền
1 ZB = 10 21 byte
thông mạng xã hội, các nhận xét, bình luận, các ứng dụng cài đặt trên thiết bị thông minh Vào đầu những năm 2000, các tổ chức doanh nghiệp chưa nghĩ đến việc phải theo dõi “lượt thích” của khách hàng trên các kênh mạng xã hội Nhưng ngày nay, việc nắm bắt và phân tích các thông tin thực tế như vậy cũng có thể mang lại cơ hội kinh doanh quan trọng Một lần nữa có thể khẳng định dữ liệu là chìa khóa để tạo
ra các quyết định trong các tổ chức doanh nghiệp Do vậy, giải pháp về hồ dữ liệu (data lake) sẽ khắc phục hạn chế mà kho
dữ liệu chưa làm được Cụ thể, hồ dữ liệu cho phép lưu lại đầy đủ các thuộc tính của
dữ liệu nhằm mục đích trả lời các câu hỏi
có thể xuất hiện trong tương lai (Geoffrey Keating, 2021)
Theo báo cáo tổ chức nghiên cứu thị trường lớn nhất thế giới năm 2022 (Research and Markets, 2022), thị trường hồ dữ liệu đạt 7,4 tỷ USD năm 2021 Dự kiến thị trường này sẽ lên tới 30,2 tỷ USD vào năm 2027, với tốc độ tăng trưởng kép hàng năm (CAGR- Compounded Annual Growth Rate) là 26,4% trong giai đoạn 2022- 2027
Hồ dữ liệu vượt xa kho dữ liệu và đã trở thành một lựa chọn kinh tế cho các tổ chức bởi vì chi phí duy trì một hồ dữ liệu thấp hơn chi phí xây dựng cơ sở dữ liệu cho các kho dữ liệu
Với tốc độ tăng trưởng dữ liệu ngày một lớn
và đa dạng khiến cho việc lưu trữ dữ liệu theo cách truyền thống trong các tổ chức gặp nhiều hạn chế như đã đề cập ở trên, có thể nhận định rằng hồ dữ liệu là giải pháp thay thế tối ưu hiện nay Nội dung tiếp theo
Trang 3của bài báo sẽ trình bày tổng quan về hồ dữ
liệu; kiến trúc hồ dữ liệu cho mô hình dữ
liệu ngân hàng; và cuối cùng là thảo luận về
lợi ích, thách thức khi triển khai hồ dữ liệu
2 Tổng quan về hồ dữ liệu
2.1 Khái niệm và đặc điểm hồ dữ liệu
Vào tháng 10/2010, James Dixon, người
sáng lập và là cựu giám đốc công nghệ
(Chief Technology Officer- CTO) của
Pentaho, đã đưa ra thuật ngữ “Data Lake”
(Saurabh Gupta & Venkata Giri, 2018) Ý
tưởng thiết kế data lake- hồ dữ liệu là khu
vực lưu trữ tập trung, hợp nhất cho các dữ
liệu thô, không có cấu trúc, bán cấu trúc
và có cấu trúc, được lấy từ nhiều nguồn
và không có lược đồ xác định trước Các
hồ dữ liệu đã được tạo ra để lưu “dữ liệu
có giá trị tiềm ẩn” Giá trị của dữ liệu và
những hiểu biết sâu sắc thu được từ hồ có
thể là những ẩn số và thay đổi tùy theo câu
hỏi được đặt ra cũng như nghiên cứu đang
được thực hiện Hồ dữ liệu cũng cho phép
người dùng thực hiện các loại phân tích
khác nhau trên dữ liệu như ngôn ngữ truy
vấn cơ sở dữ liệu SQL (Structured Query
Language), phân tích dữ liệu lớn, phân tích
dữ liệu theo thời gian thực và học máy để
đưa ra các quyết định tốt hơn
Hồ dữ liệu chứa một lượng lớn dữ liệu thô
ở dạng nguyên bản cho đến khi các doanh
nghiệp xác định được việc sử dụng dữ liệu
đó như thế nào Nền tảng của hồ dữ liệu là
một hệ thống lưu trữ có thể chứa tất cả dữ
liệu trong một tổ chức, từ thông tin chất
lượng của nhà cung cấp, giao dịch của
khách hàng, đến dữ liệu hiệu suất sản phẩm
theo thời gian thực Hơn thế nữa, hồ dữ liệu
còn cung cấp thông tin chi tiết hữu ích có
thể được tùy chỉnh để đáp ứng nhu cầu và
mong muốn của khách hàng
Theo Saurabh Gupta & Venkata Giri
(2018), hồ dữ liệu có một số đặc điểm quan
trọng sau:
- Khả năng mở rộng quy mô cơ sở hạ tầng phần cứng
- Tính khả dụng: dữ liệu trong hồ dữ liệu phải chính xác và sẵn sàng cho tất cả người dùng ngay khi họ cần xử lý thông tin
- Khả năng tiếp cận: các mô hình truy cập được chia sẻ để đảm bảo dữ liệu có thể được truy cập bởi tất cả các ứng dụng
- Khả năng truy xuất nguồn gốc: lưu trữ toàn bộ dữ liệu của một tổ chức và quản
lý dữ liệu được lưu trữ trong suốt vòng đời của nó, từ định nghĩa, truy cập và lưu trữ
dữ liệu đến xử lý, phân tích và ứng dụng
- Các chính sách quản trị dữ liệu không được thực thi ràng buộc về dữ liệu
Đặc điểm của hồ dữ liệu cho thấy nó thực
sự cần thiết hỗ trợ cho các chiến lược dữ liệu trong tổ chức doanh nghiệp, đảm bảo lưu trữ và xử lý với 4 đặc tính của dữ liệu lớn là khối lượng, vận tốc, tính xác thực
và sự đa dạng nhằm đáp ứng kỳ vọng của khách hàng và sự toàn cầu hóa nhanh chóng của các nền kinh tế
2.2 Quy trình lập kế hoạch và xây dựng
hồ dữ liệu
Quy trình lập kế hoạch và xây dựng hồ dữ liệu theo các bước như Hình 1
Quy trình lập kế hoạch xây dựng hồ dữ liệu gồm các bước: xác định thách thức của tổ chức, xây dựng giải pháp chiến lược, dự đoán sự tăng trưởng của dữ liệu, lên kế hoạch về cơ sở hạ tầng, xác định chiến lược hoạt động Sau khi lập kế hoạch thì các bước cần thực hiện để xây dựng hồ dữ liệu: xác định nguồn dữ liệu và người dùng
hệ thống, xây dựng chiến lược thu thập dữ liệu, thiết lập chiến lược lưu trữ dữ liệu, xác định các mô hình phân tích dữ liệu, cuối cùng là các mục đích sử dụng dữ liệu Dựa trên cơ sở chung về quy trình lập kế
Trang 4hoạch và xây dựng hồ dữ liệu, quy trình
triển khai hồ dữ liệu cho ngân hàng được
đề xuất như sau (Indium Software, 2020):
- Xây dựng kiến trúc nghiệp vụ mô tả việc
theo dõi thông tin từ khách hàng/người
dùng cuối cho đến nền tảng kỹ thuật số của
ngân hàng trên các lớp khác nhau như chức
năng, bảo mật, ứng dụng, dữ liệu và cơ sở
hạ tầng
- Xây dựng mô hình dữ liệu cho hồ dữ liệu
sẽ hỗ trợ báo cáo hoạt động, báo cáo tổng
quan cũng như phân tích nâng cao
- Phát triển kiến trúc kỹ thuật của hồ dữ
liệu (hoặc nền tảng dữ liệu kết hợp) để thiết
lập một khuôn khổ tiêu chuẩn cho việc di
chuyển dữ liệu
- Phát triển đưa ra các khung để quản trị dữ
liệu, bảo mật, tích hợp, quản lý dữ liệu chủ
và siêu dữ liệu
- Xây dựng và triển khai các thành phần
như đường ống dữ liệu, cơ sở dữ liệu, thành
phần hồ dữ liệu, báo cáo, mô hình phân tích
và báo cáo tổng quan
- Vận hành các mô hình phân tích vào các
chức năng nghiệp vụ như tiếp thị, thu hút
khách hàng, lòng trung thành của khách hàng
Các tổ chức tài chính ngân hàng dựa trên quy trình xây dựng hồ dữ liệu được mô tả ở các giai đoạn trên để triển khai thực tế tại tổ chức
3 Kiến trúc hồ dữ liệu cho
mô hình dữ liệu ngân hàng
Trước khi đưa ra kiến trúc hồ
dữ liệu phục vụ cho lĩnh vực ngân hàng, cần tham chiếu đến một kiến trúc hồ dữ liệu chung, bài viết này tập trung tham chiếu đến mô hình hồ
dữ liệu của hãng International Business Machines (IBM) Ngoài IBM, còn có một số mô hình hồ dữ liệu của các nhà cung cấp khác như Hewlett Packard Enterprise (HPE), Microsoft Azure và Amazon Web Services (AWS)… Theo TechTarget (2022), Microsoft Azure
và AWS là những nhà cung cấp hồ dữ liệu dựa trên đám mây lớn nhất, còn IBM và HPE cũng là một trong các nhà cung cấp công nghệ lưu trữ lớn có thể giúp các doanh nghiệp xây dựng một hồ dữ liệu tại chỗ IBM cung cấp triển khai hồ dữ liệu thông qua các sản phẩm Power và Spectrum Scale Các tổ chức doanh nghiệp có thể lựa chọn hoặc xây dựng hồ dữ liệu tại chỗ, hoặc trên đám mây hoặc kết hợp cả hai, hơn nữa IBM cùng với đối tác Cloudera cung cấp khả năng phân tích, bảo mật cao và quản trị
dữ liệu hiệu quả Việc lựa chọn nhà cung cấp phụ thuộc vào loại nền tảng lưu trữ- tại chỗ hoặc đám mây- cũng như các loại dữ liệu và quản trị dữ liệu của tổ chức
Một trong những điểm nổi bật của mô hình
dữ liệu IBM so với các mô hình của các nhà cung cấp khác là có sự tách biệt giữa định nghĩa về bộ từ vựng nghiệp vụ hệ thống và
Nguồn: Saurabh Gupta & Venkata Giri (2018)
Hình 1 Quy trình lập kế hoạch và xây dựng hồ dữ liệu
Trang 5định nghĩa của bất kỳ cấu trúc liên quan
nào sẽ được sử dụng trong việc thiết kế hồ
dữ liệu Việc sử dụng các bộ từ vựng này
của IBM cho phép tất cả những người sử
dụng hồ sơ dữ liệu đều có cái nhìn thống
nhất về nghiệp vụ hệ thống Mặt khác khi
tổ chức cần định nghĩa trước về lược đồ dữ
liệu thì mô hình dữ liệu IBM với các định nghĩa rõ ràng về cấu trúc dữ liệu sẽ đảm bảo tính nhất quán của các kho được lưu trữ trong hồ dữ liệu (IBM, 2016)
Hình 2 cung cấp tóm tắt về sự tương tác chính của các thành phần khác nhau trong
mô hình hồ dữ liệu IBM, nơi lưu trữ và xử lý
Nguồn: IBM (2016)
Hình 2 Kiến trúc tham chiếu cho Hồ dữ liệu
Nguồn: Awadallah and Graham (2011)
Hình 3 Hệ thống cùng tồn tại hồ dữ liệu và kho dữ liệu
Trang 6dữ liệu lớn sử dụng nền tảng Hadoop cùng
một số hệ quản trị dữ liệu quan hệ truyền
thống khác để lưu trữ dữ liệu có cấu trúc
Trong kiến trúc tham chiếu Hồ dữ liệu ở
Hình 2, bộ từ vựng nghiệp vụ hệ thống phải
là cơ sở cho bất kỳ hoạt động tìm kiếm hoặc
khám phá nào được thực hiện bởi người
dùng trong các bộ phận phòng ban của tổ
chức doanh nghiệp và nhà khoa học dữ liệu
Mô hình vật lý thứ nguyên để triển khai các
cấu trúc cần thiết để xây dựng kho dữ liệu
Mô hình vật lý Hadoop sử dụng nền tảng công nghệ Hadoop để xử lý và làm việc với khối lượng dữ liệu lớn, mô hình vật lý này triển khai Sandbox hỗ trợ cho công việc nghiên cứu và phân tích dữ liệu của các nhà khoa học dữ liệu (IBM, 2016)
Với dữ liệu có cấu trúc thì kho dữ liệu là sự lựa chọn phù hợp để xây dựng khi đã biết lược đồ dữ liệu Ngược lại, hồ dữ liệu được triển khai để tích hợp một lượng lớn dữ liệu phi cấu trúc như nhật ký, hình ảnh, video
Bảng 1 Sự khác nhau giữa kho dữ liệu và hồ dữ liệu
Kiểu dữ
liệu Tất cả dữ liệu được lưu giữ bất kể nguồn và cấu trúc ban đầu Dữ liệu được giữ ở dạng thô, chỉ
được chuyển đổi khi đã sẵn sàng để sử dụng
Bao gồm dữ liệu được trích xuất từ các hệ thống giao dịch Dữ liệu được làm sạch và chuyển đổi Lịch sử Công nghệ dữ liệu lớn được sử dụng trong hồ dữ
liệu là tương đối mới. Không giống như dữ liệu lớn, khái niệm kho dữ liệu đã được sử dụng trong nhiều thập kỷ Thu thập
dữ liệu Tất cả các loại dữ liệu và cấu trúc, bán cấu trúc và không cấu trúc ở dạng ban đầu của chúng từ các
hệ thống nguồn
Dữ liệu có cấu trúc và sắp xếp chúng trong các lược đồ như được xác định cho mục đích xây dựng kho dữ liệu
Thời gian Các hồ dữ liệu có thể giữ lại tất cả dữ liệu Điều
này không chỉ bao gồm dữ liệu đang được sử dụng mà còn bao gồm dữ liệu có thể sử dụng trong tương lai Ngoài ra, dữ liệu được lưu giữ mọi lúc để có thể quay ngược thời gian và thực hiện phân tích
Trong quá trình phát triển kho dữ liệu, thời gian đáng kể được dành cho việc phân tích các nguồn dữ liệu khác nhau.
Người
dùng Hồ dữ liệu lý tưởng cho những người dùng muốn phân tích sâu như các nhà khoa học dữ liệu,
những người cần các công cụ phân tích tiên tiến với các khả năng như mô hình dự đoán và phân tích thống kê.
Kho dữ liệu lý tưởng cho người sử dụng vì được cấu trúc tốt, dễ sử dụng và dễ hiểu.
Chi phí Chi phí lưu trữ rẻ hơn so với kho dữ liệu Tương đối đắt hơn
Nhiệm vụ Chứa tất cả các dữ liệu và kiểu dữ liệu; nó cho
phép người dùng truy cập dữ liệu trước quá trình chuyển đổi, làm sạch và có cấu trúc
Cung cấp thông tin chi tiết về các câu hỏi được xác định trước cho các loại dữ liệu được xác định trước.
Thời gian
xử lý Thời gian xử lý nhanh Các hồ dữ liệu trao quyền cho người dùng truy cập dữ liệu trước khi nó
được chuyển đổi, làm sạch và có cấu trúc Do
đó, nó cho phép người dùng nhận được kết quả của họ nhanh hơn so với kho dữ liệu truyền thống.
Thời gian xử lý chậm hơn Kho dữ liệu cung cấp thông tin chi tiết về các câu hỏi được xác định trước cho các loại dữ liệu đã được xác định Vì vậy, bất kỳ thay đổi nào đối với kho dữ liệu đều cần thêm thời gian.
Lợi ích Tích hợp các loại dữ liệu khác nhau để đưa ra
những câu hỏi hoàn toàn mới Cung cấp các báo cáo và các chỉ số hiệu suất chính Hạn chế Dữ liệu được giữ ở dạng thô, chỉ được chuyển đổi
khi dữ liệu đó đã sẵn sàng để sử dụng Không có khả năng thay đổi.
Nguồn: David Taylor (2022)
Trang 7hoặc tài liệu và dữ liệu có cấu trúc Nếu dự
kiến dữ liệu của tổ chức tăng trưởng đáng
kể theo thời gian và được sinh ra với tốc độ
lớn, có thể tồn tại ở các dạng khác nhau, và
tiềm ẩn những thông tin có thể tạo ra giá trị
kinh doanh cao, thì trong trường hợp này,
kiến trúc hồ dữ liệu thích hợp hơn kiến trúc
kho dữ liệu Trong nhiều tổ chức, cả hai
giải pháp này đều cùng tồn tại (Awadallah
and Graham, 2011), thể hiện trong Hình 3
Sự khác nhau giữa kho dữ liệu và hồ dữ
liệu được trình bày ở Bảng 1
Bảng 1 mô tả sự khác nhau giữa kho dữ
liệu và hồ dữ liệu Khác với kho dữ liệu-
chỉ lưu trữ dữ liệu có cấu trúc đã được lựa
chọn và chuẩn hóa cho mục đích cụ thể,
còn hồ dữ liệu có thể tích hợp và lưu trữ
mọi loại dữ liệu ở định dạng gốc với bất
kỳ quy mô nào để phục vụ cho phân tích
dữ liệu trong tương lai Vì việc sử dụng dữ
liệu được xác định trước nên kiến trúc kho
dữ liệu yêu cầu lập kế hoạch cẩn thận: loại
dữ liệu nào sẽ được truy xuất, công cụ nào
sẽ được sử dụng để thu thập, tổ chức, xử
lý và truy xuất dữ liệu đó Ngược lại hồ dữ liệu lưu trữ dữ liệu thô, phi cấu trúc, bán cấu trúc và có cấu trúc mà không cần xử
lý trước nên giải pháp về hồ dữ liệu là một giải pháp thực tế và chi phí thấp Ngoài ra
hồ dữ liệu cũng rất linh hoạt và dễ quản lý, không có trở ngại nào trong việc giới thiệu các kiểu dữ liệu mới, giúp cho tổ chức sử dụng các ứng dụng khác nhau dễ dàng hơn
Và vì việc mở rộng quy mô không phải là một vấn đề trong hồ dữ liệu nên hồ dữ liệu
là một trong những kiến trúc được ưa thích cho dữ liệu lớn (David Taylor, 2022) Như vậy kho dữ liệu và hồ dữ liệu đều có những
ưu điểm và hạn chế, do đó chúng không thể thay thế nhau mà cùng tồn tại để bổ sung
hỗ trợ nhau
Dựa trên cơ sở tham chiếu đến các mô hình
ở Hình 2 và Hình 3, Hình 4 thể hiện kiến trúc hồ dữ liệu được xây dựng cho mô hình
dữ liệu ngân hàng được đưa ra bởi Ngân hàng Thế giới (World Bank)
Kiến trúc hồ dữ liệu cho mô hình dữ liệu ngân hàng được trình bày ở Hình 4 là một
Nguồn: Darko Golec (2019)
Hình 4 Kiến trúc hồ dữ liệu cho mô hình dữ liệu ngân hàng
Trang 8trong những kiến trúc hồ dữ liệu khả thi
về chi phí, khả năng mở rộng, bảo mật cho
mô hình dữ liệu ngân hàng (Darko Golec,
2019) Kiến trúc hồ dữ liệu này bao gồm
các thành phần chính sau:
- Vùng lưu trữ (Archive): Thu thập và lưu
trữ dữ liệu từ các nguồn bên ngoài theo lô
hoặc theo thời gian thực
- Vùng quản lý và ánh xạ (Master and
Map): vùng quản lý dữ liệu chủ và vùng
quản lý ánh xạ (mapping) dữ liệu
- Vùng cục bộ (Units): vùng quản lý dữ liệu
địa phương và vùng quản lý báo cáo
- Vùng tích hợp và báo cáo (Intergration
and Report): vùng quản lý kho dữ liệu và
vùng quản lý báo cáo
- Vùng mô hình và phân tích (Models and
Analytics): vùng sử dụng công cụ kinh
doanh thông minh và vùng phân tích dữ liệu
Một cách tổng quát thì toàn bộ dữ liệu lớn
được thu thập, lưu trữ và quản trị, ràng buộc
bởi các vùng cùng tồn tại (Coexistence
zone) với nhau trong hệ sinh thái đó, chẳng
hạn như các vùng: “Danh mục và Quản trị”
(Catalog and Governance), Quản lý siêu
dữ liệu (Metadata), Dòng dữ liệu, Bảo mật
và Truy cập Dữ liệu cho nhân viên, người
dùng hệ thống có thể được truy cập tại vùng
“thụ hưởng và phân phát” (Consumption
and Delivery) Kiến trúc hồ dữ liệu ở Hình
4 đã trình bày các phân vùng cùng tồn tại
để lưu trữ, tích hợp dữ liệu từ nhiều nguồn
bên trong và bên ngoài của tổ chức Để đáp
ứng được điều này thì kho dữ liệu được
thiết kế để lưu trữ dữ liệu có cấu trúc từ các
hệ thống nghiệp vụ Như vậy các tổ chức
tài chính ngân hàng có thể triển khai thực
hiện đồng thời hai giải pháp kho dữ liệu và
hồ dữ liệu để quản trị dữ liệu trong tổ chức
của mình như minh họa trong kiến trúc hồ
dữ liệu ở Hình 4
4 Lợi ích và thách thức triển khai hồ dữ
liệu
Một số lợi ích khi triển khai hồ dữ liệu
Thứ nhất, hồ dữ liệu cho phép tổ chức tài
chính ngân hàng lưu trữ và truy cập các loại
dữ liệu khác nhau, giúp cho việc chia sẻ và phân tích dữ liệu trên toàn doanh nghiệp trở nên nhanh chóng, dễ dàng hơn Theo báo cáo của Erik Nordmark (2020), tập đoàn ngân hàng Bắc Âu- Baltic mỗi ngày
có một lượng lớn dữ liệu phi cấu trúc được sinh ra từ các kênh tương tác và dữ liệu có cấu trúc về giao dịch của khách hàng được ghi lại ở các hệ thống nghiệp vụ khiến cho việc lưu trữ, tích hợp và phân tích dữ liệu trở nên khó khăn hơn Từ thực trạng này, ngân hàng đã tiến hành xây dựng triển khai
hồ dữ liệu để quản lý khối lượng lớn dữ liệu từ các nguồn dữ liệu bên trong và bên ngoài, cung cấp quyền truy cập dữ liệu trên toàn ngân hàng, đáp ứng được một số sáng kiến về chiến lược kinh doanh của ngân hàng Ngoài ra, việc phân tích dữ liệu trên
hồ dữ liệu còn hỗ trợ xử lý sự kiện theo thời gian thực Một số kết quả đạt được của ngân hàng Baltic khi triển khai hồ dữ liệu
và sử dụng kỹ thuật phân tích dữ liệu dựa trên trí tuệ nhân tạo là:
+ Chống rửa tiền và phân loại rủi ro + Dự đoán dòng tiền và phân nhóm hành
vi tài chính + Thực hiện mô hình chuyển nhượng thế chấp trên hồ dữ liệu
+ Các kế hoạch tốt nhất kế tiếp để quản lý quan hệ khách hàng
Cho đến nay, ngân hàng Baltic đã trải nghiệm một số khả năng, lợi thế mới từ việc lưu trữ và phân tích dữ liệu trên hồ dữ liệu Nhờ đó, ngân hàng cũng hiểu rõ hơn
về hành vi mua hàng của khách hàng và có thể khai thác dữ liệu giao dịch của họ để đưa
ra “hành động tốt nhất tiếp theo” phù hợp với nhu cầu của khách hàng vào đúng thời điểm Cùng với kỹ thuật phân tích dữ liệu dựa trên trí tuệ nhân tạo, ngân hàng cũng dự đoán được rủi ro khách hàng sẽ chấm dứt
Trang 9hợp đồng thế chấp của họ trong vòng hai
tháng tiếp theo (Erik Nordmark, 2020)
Như vậy có thể nhận định rằng hồ dữ liệu
giúp cho các tổ chức tài chính ngân hàng
truy cập và phân tích dữ liệu trên toàn bộ tổ
chức một cách dễ dàng Điều này còn được
thể hiện rõ hơn qua báo cáo của Research
and Markets (2021), một số ngân hàng đã
và đang tăng cường các hồ dữ liệu để tích
hợp dữ liệu trên nhiều lĩnh vực khác nhau
nhằm tạo ra một cơ sở dữ liệu trung tâm
Tập đoàn Ngân hàng Úc và New Zealand
(ANZ) đang thực hiện một dự án tổng hợp
tất cả các kho dữ liệu trên các lĩnh vực để
tạo ra một hồ dữ liệu trung tâm cho các hoạt
động ngân hàng Sự gia tăng thanh toán kỹ
thuật số của người tiêu dùng đã thúc đẩy
lượng dữ liệu được lưu trữ với các ngân
hàng trong mỗi giao dịch Do đó, cơ hội
cho phân tích dữ liệu lớn ngày càng tăng
Hơn nữa, Mox Bank Limited (Mox), một
ngân hàng ở Hồng Kông, đã đăng ký hơn
35.000 khách hàng trong tháng đầu tiên, sử
dụng các giải pháp từ AWS để thu thập,
lưu trữ, xử lý an toàn và phân tích dữ liệu
giao dịch, tận dụng dữ liệu thông tin chi
tiết để xây dựng trải nghiệm ngân hàng lấy
khách hàng làm trung tâm khi sử dụng các
dịch vụ từ Amazon dựa trên hồ dữ liệu
Việc triển khai các hồ dữ liệu trong lĩnh
vực ngân hàng phá vỡ số lượng các thông
tin silo (thông tin về một thực thể được lưu
trữ ở nhiều hệ thống khác nhau nhưng lại
không giống nhau) Lưu trữ dữ liệu trong
cơ sở hạ tầng được quản lý tập trung như
cơ sở hạ tầng hồ dữ liệu dựa trên Apache
Hadoop giúp cắt giảm số lượng silo thông
tin trong một tổ chức, giúp người dùng
trong toàn tổ chức có thể truy cập và có cái
nhìn thống nhất về dữ liệu (Research and
Markets, 2021)
Ngân hàng Quốc gia Canada là một trong
những tổ chức dịch vụ tài chính hàng đầu
của Canada tiếp cận dữ liệu lớn trên hồ dữ
liệu trong vòng chưa đầy 2 tuần Nhóm các công cụ phái sinh vốn chủ sở hữu toàn cầu (GED- Global Equity Derivatives Group) của ngân hàng quốc gia Canada là đơn vị
đi đầu trong việc cung cấp các giải pháp giao dịch chứng khoán nhằm quản lý các chứng khoán được giao dịch trao đổi như
cổ phiếu, quỹ, hợp đồng tương lai GED thu thập và xử lý khối lượng dữ liệu tài chính thị trường chứng khoán đang phát triển nhanh chóng, chẳng hạn như thông tin lịch sử thương mại và báo giá Trước đây, tổ chức gặp phải khó khăn trong việc
mở rộng nền tảng phân tích dữ liệu khi sử dụng môi trường công nghệ thông tin tại chỗ, môi trường phần cứng truyền thống
và việc lưu trữ dữ liệu có cấu trúc trên các
hệ quản trị cơ sở dữ liệu quan hệ không thể theo kịp tốc độ tăng trưởng dữ liệu của GED Ngân hàng cần một môi trường có khả năng mở rộng hơn để có thể phân tích
dữ liệu hiệu quả, đưa ra các thông tin chi tiết có ý nghĩa hơn GED cũng tìm kiếm một cách hiệu quả hơn để xử lý dữ liệu tài chính, ngân hàng cần xử lý và phân tích cả
dữ liệu phi cấu trúc và dữ liệu có cấu trúc, chẳng hạn như trong trrường hợp có một số lượng lớn các tệp nhật ký cần được phân tích dựa trên dữ liệu thị trường được cập nhật Từ thực trạng này, GED đã tiến hành triển khai xây dựng hồ dữ liệu trong vòng chưa đầy 2 tuần Họ đã sử dụng TickVault trên đám mây AWS, dễ dàng xử lý và phân tích hàng trăm terabyte dữ liệu thương mại
và dữ liệu báo giá lịch sử, bên cạnh đó vẫn
có thể xem xét dữ liệu từ 10 năm trước nếu cần thiết Các nhà phân tích kinh doanh của GED hiện có thể tiến hành phân tích giao dịch thương mại nhanh hơn nhiều so với trước đây: Các quy trình thao tác dữ liệu mất nhiều ngày giờ chỉ còn một phút trên hồ
dữ liệu Hơn nữa, việc truy vấn dữ liệu hiện tại và lịch sử chỉ còn trong vài giờ đồng hồ Giờ đây, GED có thể phục vụ khách hàng
Trang 10của mình tốt hơn Điều này được thể hiện
rõ hơn qua phát biểu của Pascal Bergeron,
Giám đốc giao dịch thuật toán (Director
of Algorithmic Trading) của Ngân hàng
Quốc gia Canada: “Chúng tôi có khả năng
phân tích sau giao dịch nhanh hơn và tốt
hơn bằng cách sử dụng TickVault và AWS
Nhờ đó, chúng tôi có thể cải thiện và tối ưu
hóa hoạt động giao dịch của mình và tạo
thêm doanh thu cho Ngân hàng Quốc gia
Canada Chúng tôi cũng có thể sử dụng dữ
liệu để xem cách chúng tôi có thể giao dịch
với giá tốt hơn cho khách hàng của mình”
(AWS, 2016)
Từ những minh chứng trên có thể khẳng
định rằng, lợi ích đầu tiên khi triển khai
hồ dữ liệu tại các tổ chức tài chính ngân
hàng đó là dữ liệu được lưu trữ tập trung
tại một nơi, từ đó giúp cho ngân hàng có
thể truy cập dữ liệu khác nhau theo thời
gian, kể cả truy vấn dữ liệu lịch sử, nhưng
vẫn đảm bảo các bộ phận nghiệp vụ có cái
nhìn chung thống nhất về dữ liệu vì đã khắc
phục được hiện tượng thông tin silo Việc
chia sẻ dữ liệu trở nên dễ dàng hơn kết hợp
với ứng dụng của trí tuệ nhân tạo để phân
tích, khai thác dữ liệu trong hồ dữ liệu giúp
cho ngân hàng thu hút và giữ chân khách
hàng, cũng như phát hiện, ngăn chặn các
rủi ro trong các giao dịch của khách hàng
hiệu quả hơn trước khi tổ chức triển khai
hồ dữ liệu
Lợi ích thứ hai mà hồ dữ liệu mang lại là
cung cấp cái nhìn tổng quan về khách hàng,
tăng cường khả năng dự đoán các xu hướng
tài chính cũng như cải thiện và cá nhân hóa
trải nghiệm của khách hàng Các tổ chức
dịch vụ tài chính triển khai hồ dữ liệu sử
dụng nhiều nguồn dữ liệu khác nhau để có
được cái nhìn toàn diện về khách hàng, tạo
ra trải nghiệm khách hàng được cá nhân hóa
hơn và hỗ trợ các chương trình giữ chân
khách hàng, chẳng hạn như chương trình
khách hàng thân thiết Một hồ dữ liệu được
quản lý tốt cho phép các tổ chức tập hợp tất
cả dữ liệu vào một nền tảng thống nhất và cung cấp cho các nhà tiếp thị quyền truy cập
có kiểm soát vào dữ liệu cần thiết cho việc nhắm đến các khách hàng mục tiêu Nền tảng trực quan hóa tương tác cung cấp các góc nhìn khác nhau về dữ liệu và cho phép các nhà tiếp thị lập hồ sơ khách hàng để phân tích (Zaloni, 2016) Cũng theo báo cáo của Research and Markets (2021), hơn 60%
tổ chức tài chính ở Hoa Kỳ tin rằng phân tích dữ liệu lớn mang lại lợi thế cạnh tranh đáng kể so với các đối thủ và hơn 90% công
ty tin rằng các sáng kiến dữ liệu lớn xác định
cơ hội thành công trong tương lai
Phát hiện và ngăn chặn gian lận trong giao
dịch của khách hàng tại ngân hàng là lợi
ích thứ ba mà hồ dữ liệu đem lại cho các
tổ chức tài chính ngân hàng Gian lận giao dịch, gian lận danh tính và rửa tiền là những mối quan tâm lớn đối với các tổ chức dịch
vụ tài chính, ngân hàng Một lý do là nhiều
kẻ gian lận có thể thao túng việc thanh toán nhanh hơn mức mà các nhà điều tra có thể kiểm tra Một hồ dữ liệu được quản lý tốt
có thể cho phép nhập dữ liệu theo thời gian thực và phát hiện gian lận tự động với các thuật toán phát hiện các dạng gian lận tiềm
ẩn trong khối lượng dữ liệu khổng lồ Tạo danh mục dữ liệu tập trung cung cấp giao diện người dùng trực quan để tìm kiếm
và phân tích trên tất cả dữ liệu và hỗ trợ các nhân viên nhanh chóng thực hiện phân tích dữ liệu tự phục vụ thông qua giao diện người dùng trực quan (Zaloni, 2016) Hơn nữa, hiệu quả thu hồi nợ của ngân hàng có thể cải thiện đáng kể bằng cách phân tích hiệu quả thu hồi dựa trên dữ liệu giao dịch của khách hàng được lưu trữ trong hồ dữ liệu, bên cạnh việc phân nhóm khách hàng nhằm xác định và ưu tiên khách hàng nào liên hệ sớm nhất sẽ giúp các tổ chức tài chính ngân hàng nâng cao hiệu quả thu nợ Bên cạnh đó, thị trường của khu vực Bắc