1. Trang chủ
  2. » Tài Chính - Ngân Hàng

Kiến trúc hồ dữ liệu: Lưu trữ và phân tích dữ liệu lớn trong các tổ chức tài chính - ngân hàng

13 9 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 13
Dung lượng 1,06 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Bài viết Kiến trúc hồ dữ liệu: Lưu trữ và phân tích dữ liệu lớn trong các tổ chức tài chính - ngân hàng tập trung nghiên cứu kiến trúc hồ dữ liệu cho mô hình dữ liệu ngân hàng dựa trên cơ sở tham chiếu đến mô hình dữ liệu của hãng IBM. Tiếp theo bài báo phân tích vai trò và sự cần thiết của hồ dữ liệu, trình bày về quy trình xây dựng cũng như kiến trúc hồ dữ liệu phù hợp trong các tổ chức tài chính ngân hàng.

Trang 1

trong các tổ chức tài chính- ngân hàng

Ngô Thùy Linh

Khoa Hệ thống thông tin quản lý, Trường Học viện Ngân hàng Ngày nhận: 29/04/2022 Ngày nhận bản sửa: 16/06/2022 Ngày duyệt đăng: 22/06/2022

Tóm tắt: Data lake (hồ dữ liệu) là khái niệm mới xuất hiện những năm gần đây

trong thời đại của dữ liệu lớn (big data) Mặc dù chủ đề về big data đã được

thảo luận nhưng vẫn còn nhiều thách thức trong nghiên cứu, đặc biệt là sự đa

dạng của dữ liệu Một trong những thách thức đó là làm thế nào để tích hợp và

truy vấn khối lượng dữ liệu lớn từ nhiều nguồn khác nhau khi phương thức lưu

trữ dữ liệu truyền thống là kho dữ liệu không đáp ứng được Data lake- Hồ dữ

liệu được đề xuất như một giải pháp cho vấn đề này Bài báo tập trung nghiên

cứu kiến trúc hồ dữ liệu cho mô hình dữ liệu ngân hàng dựa trên cơ sở tham

chiếu đến mô hình dữ liệu của hãng IBM Tiếp theo bài báo phân tích vai trò và

sự cần thiết của hồ dữ liệu, trình bày về quy trình xây dựng cũng như kiến trúc

hồ dữ liệu phù hợp trong các tổ chức tài chính ngân hàng Cuối cùng là thảo

luận về lợi ích của hồ dữ liệu giúp cho các bộ phận nghiệp vụ truy cập và phân

tích dữ liệu trên toàn bộ tổ chức, ngoài ra thách thức về công nghệ trong quá

Data lake architecture: big data storage and analysis in financial banking organizations

Abstract: Data Lake is one of the dominant concepts in the era of big data Although big data has been

discussed, it still has many research challenges, especially the variety of data It poses a huge difficulty

to efficiently integrate and query the large volume of diverse data in information silos with the traditional

approaches such as data warehouses Data lakes have been proposed as a solution to this problem This

paper focuses on studying data lake architecture for banking data model based on reference to IBM’s data

model Next, this paper analyzes the role and necessity of a data lake, presents the data lake execution

process and the right data lake architecture in financial banking organizations Finally, the author discusses

the benefits of data lakes in helping business departments access and analyze data across the organization, besides the technological challenges of implementing data lakes in financial and banking institutions also

described in this paper.

Keywords: data lake architecture, the financial banking organizations, data lake, data warehouse, big data.

Ngo, Thuy Linh

Email: linhnt@hvnh.edu.vn

Faculty of Management Information System, Banking Academy of Vietnam

Trang 2

trình triển khai hồ dữ liệu tại các tổ chức tài chính ngân hàng cũng được nêu trong bài báo này.

Từ khóa: kiến trúc hồ dữ liệu, tổ chức tài chính ngân hàng, hồ dữ liệu, kho dữ liệu, dữ liệu lớn

1 Giới thiệu

Theo báo cáo của tập đoàn dữ liệu quốc

tế (IDC- International Data Corporation,

2021), năm 2020 có 64,2 ZB (Zettabyte1)

dữ liệu đã được tạo ra và lượng dữ liệu sinh

ra mỗi ngày lớn hơn tổng lượng dữ liệu

được tạo ra trong cả một năm ở thời điểm

những năm 2000 Câu hỏi đặt ra là: nên lưu

trữ bao nhiêu trong số đó? Nhiều tổ chức

nhận thấy rằng các phương pháp quản lý

dữ liệu truyền thống đang trở nên lỗi thời,

quá chậm để đưa ra phản hồi (Michael

Lock, 2017) Chẳng hạn như với giải pháp

xây dựng kho dữ liệu (data warehouse) đã

giúp các tổ chức doanh nghiệp tích hợp dữ

liệu từ nhiều hệ thống khác nhau trong các

bộ phận, phòng ban Cách thiết kế và triển

khai kho dữ liệu đã làm đơn giản hóa việc

truy cập dữ liệu, đồng thời hỗ trợ cho tổ

chức trong việc đưa ra câu trả lời cần thiết

trong kinh doanh Tuy nhiên, không thể

lường trước được các câu hỏi mang tính

chất quyết định và các báo cáo mà doanh

nghiệp có thể cần ngay theo thời gian thực,

giải pháp hiện tại mất quá nhiều thời gian

để đưa ra kết quả chuyên sâu từ dữ liệu thu

thập được Khối lượng dữ liệu tăng lên mỗi

ngày dẫn đến thách thức ngày càng lớn khi

kho dữ liệu phải đối mặt với vấn đề này

Trong kiến trúc dữ liệu hiện đại, việc thu

thập dữ liệu mới phải tương đối dễ dàng để

có thể tiến hành phân tích một cách nhanh

chóng Khối lượng dữ liệu đã bùng nổ khi

các doanh nghiệp khám phá ra giá trị của

các thông tin trên các phương tiện truyền

1 ZB = 10 21 byte

thông mạng xã hội, các nhận xét, bình luận, các ứng dụng cài đặt trên thiết bị thông minh Vào đầu những năm 2000, các tổ chức doanh nghiệp chưa nghĩ đến việc phải theo dõi “lượt thích” của khách hàng trên các kênh mạng xã hội Nhưng ngày nay, việc nắm bắt và phân tích các thông tin thực tế như vậy cũng có thể mang lại cơ hội kinh doanh quan trọng Một lần nữa có thể khẳng định dữ liệu là chìa khóa để tạo

ra các quyết định trong các tổ chức doanh nghiệp Do vậy, giải pháp về hồ dữ liệu (data lake) sẽ khắc phục hạn chế mà kho

dữ liệu chưa làm được Cụ thể, hồ dữ liệu cho phép lưu lại đầy đủ các thuộc tính của

dữ liệu nhằm mục đích trả lời các câu hỏi

có thể xuất hiện trong tương lai (Geoffrey Keating, 2021)

Theo báo cáo tổ chức nghiên cứu thị trường lớn nhất thế giới năm 2022 (Research and Markets, 2022), thị trường hồ dữ liệu đạt 7,4 tỷ USD năm 2021 Dự kiến thị trường này sẽ lên tới 30,2 tỷ USD vào năm 2027, với tốc độ tăng trưởng kép hàng năm (CAGR- Compounded Annual Growth Rate) là 26,4% trong giai đoạn 2022- 2027

Hồ dữ liệu vượt xa kho dữ liệu và đã trở thành một lựa chọn kinh tế cho các tổ chức bởi vì chi phí duy trì một hồ dữ liệu thấp hơn chi phí xây dựng cơ sở dữ liệu cho các kho dữ liệu

Với tốc độ tăng trưởng dữ liệu ngày một lớn

và đa dạng khiến cho việc lưu trữ dữ liệu theo cách truyền thống trong các tổ chức gặp nhiều hạn chế như đã đề cập ở trên, có thể nhận định rằng hồ dữ liệu là giải pháp thay thế tối ưu hiện nay Nội dung tiếp theo

Trang 3

của bài báo sẽ trình bày tổng quan về hồ dữ

liệu; kiến trúc hồ dữ liệu cho mô hình dữ

liệu ngân hàng; và cuối cùng là thảo luận về

lợi ích, thách thức khi triển khai hồ dữ liệu

2 Tổng quan về hồ dữ liệu

2.1 Khái niệm và đặc điểm hồ dữ liệu

Vào tháng 10/2010, James Dixon, người

sáng lập và là cựu giám đốc công nghệ

(Chief Technology Officer- CTO) của

Pentaho, đã đưa ra thuật ngữ “Data Lake”

(Saurabh Gupta & Venkata Giri, 2018) Ý

tưởng thiết kế data lake- hồ dữ liệu là khu

vực lưu trữ tập trung, hợp nhất cho các dữ

liệu thô, không có cấu trúc, bán cấu trúc

và có cấu trúc, được lấy từ nhiều nguồn

và không có lược đồ xác định trước Các

hồ dữ liệu đã được tạo ra để lưu “dữ liệu

có giá trị tiềm ẩn” Giá trị của dữ liệu và

những hiểu biết sâu sắc thu được từ hồ có

thể là những ẩn số và thay đổi tùy theo câu

hỏi được đặt ra cũng như nghiên cứu đang

được thực hiện Hồ dữ liệu cũng cho phép

người dùng thực hiện các loại phân tích

khác nhau trên dữ liệu như ngôn ngữ truy

vấn cơ sở dữ liệu SQL (Structured Query

Language), phân tích dữ liệu lớn, phân tích

dữ liệu theo thời gian thực và học máy để

đưa ra các quyết định tốt hơn

Hồ dữ liệu chứa một lượng lớn dữ liệu thô

ở dạng nguyên bản cho đến khi các doanh

nghiệp xác định được việc sử dụng dữ liệu

đó như thế nào Nền tảng của hồ dữ liệu là

một hệ thống lưu trữ có thể chứa tất cả dữ

liệu trong một tổ chức, từ thông tin chất

lượng của nhà cung cấp, giao dịch của

khách hàng, đến dữ liệu hiệu suất sản phẩm

theo thời gian thực Hơn thế nữa, hồ dữ liệu

còn cung cấp thông tin chi tiết hữu ích có

thể được tùy chỉnh để đáp ứng nhu cầu và

mong muốn của khách hàng

Theo Saurabh Gupta & Venkata Giri

(2018), hồ dữ liệu có một số đặc điểm quan

trọng sau:

- Khả năng mở rộng quy mô cơ sở hạ tầng phần cứng

- Tính khả dụng: dữ liệu trong hồ dữ liệu phải chính xác và sẵn sàng cho tất cả người dùng ngay khi họ cần xử lý thông tin

- Khả năng tiếp cận: các mô hình truy cập được chia sẻ để đảm bảo dữ liệu có thể được truy cập bởi tất cả các ứng dụng

- Khả năng truy xuất nguồn gốc: lưu trữ toàn bộ dữ liệu của một tổ chức và quản

lý dữ liệu được lưu trữ trong suốt vòng đời của nó, từ định nghĩa, truy cập và lưu trữ

dữ liệu đến xử lý, phân tích và ứng dụng

- Các chính sách quản trị dữ liệu không được thực thi ràng buộc về dữ liệu

Đặc điểm của hồ dữ liệu cho thấy nó thực

sự cần thiết hỗ trợ cho các chiến lược dữ liệu trong tổ chức doanh nghiệp, đảm bảo lưu trữ và xử lý với 4 đặc tính của dữ liệu lớn là khối lượng, vận tốc, tính xác thực

và sự đa dạng nhằm đáp ứng kỳ vọng của khách hàng và sự toàn cầu hóa nhanh chóng của các nền kinh tế

2.2 Quy trình lập kế hoạch và xây dựng

hồ dữ liệu

Quy trình lập kế hoạch và xây dựng hồ dữ liệu theo các bước như Hình 1

Quy trình lập kế hoạch xây dựng hồ dữ liệu gồm các bước: xác định thách thức của tổ chức, xây dựng giải pháp chiến lược, dự đoán sự tăng trưởng của dữ liệu, lên kế hoạch về cơ sở hạ tầng, xác định chiến lược hoạt động Sau khi lập kế hoạch thì các bước cần thực hiện để xây dựng hồ dữ liệu: xác định nguồn dữ liệu và người dùng

hệ thống, xây dựng chiến lược thu thập dữ liệu, thiết lập chiến lược lưu trữ dữ liệu, xác định các mô hình phân tích dữ liệu, cuối cùng là các mục đích sử dụng dữ liệu Dựa trên cơ sở chung về quy trình lập kế

Trang 4

hoạch và xây dựng hồ dữ liệu, quy trình

triển khai hồ dữ liệu cho ngân hàng được

đề xuất như sau (Indium Software, 2020):

- Xây dựng kiến trúc nghiệp vụ mô tả việc

theo dõi thông tin từ khách hàng/người

dùng cuối cho đến nền tảng kỹ thuật số của

ngân hàng trên các lớp khác nhau như chức

năng, bảo mật, ứng dụng, dữ liệu và cơ sở

hạ tầng

- Xây dựng mô hình dữ liệu cho hồ dữ liệu

sẽ hỗ trợ báo cáo hoạt động, báo cáo tổng

quan cũng như phân tích nâng cao

- Phát triển kiến trúc kỹ thuật của hồ dữ

liệu (hoặc nền tảng dữ liệu kết hợp) để thiết

lập một khuôn khổ tiêu chuẩn cho việc di

chuyển dữ liệu

- Phát triển đưa ra các khung để quản trị dữ

liệu, bảo mật, tích hợp, quản lý dữ liệu chủ

và siêu dữ liệu

- Xây dựng và triển khai các thành phần

như đường ống dữ liệu, cơ sở dữ liệu, thành

phần hồ dữ liệu, báo cáo, mô hình phân tích

và báo cáo tổng quan

- Vận hành các mô hình phân tích vào các

chức năng nghiệp vụ như tiếp thị, thu hút

khách hàng, lòng trung thành của khách hàng

Các tổ chức tài chính ngân hàng dựa trên quy trình xây dựng hồ dữ liệu được mô tả ở các giai đoạn trên để triển khai thực tế tại tổ chức

3 Kiến trúc hồ dữ liệu cho

mô hình dữ liệu ngân hàng

Trước khi đưa ra kiến trúc hồ

dữ liệu phục vụ cho lĩnh vực ngân hàng, cần tham chiếu đến một kiến trúc hồ dữ liệu chung, bài viết này tập trung tham chiếu đến mô hình hồ

dữ liệu của hãng International Business Machines (IBM) Ngoài IBM, còn có một số mô hình hồ dữ liệu của các nhà cung cấp khác như Hewlett Packard Enterprise (HPE), Microsoft Azure và Amazon Web Services (AWS)… Theo TechTarget (2022), Microsoft Azure

và AWS là những nhà cung cấp hồ dữ liệu dựa trên đám mây lớn nhất, còn IBM và HPE cũng là một trong các nhà cung cấp công nghệ lưu trữ lớn có thể giúp các doanh nghiệp xây dựng một hồ dữ liệu tại chỗ IBM cung cấp triển khai hồ dữ liệu thông qua các sản phẩm Power và Spectrum Scale Các tổ chức doanh nghiệp có thể lựa chọn hoặc xây dựng hồ dữ liệu tại chỗ, hoặc trên đám mây hoặc kết hợp cả hai, hơn nữa IBM cùng với đối tác Cloudera cung cấp khả năng phân tích, bảo mật cao và quản trị

dữ liệu hiệu quả Việc lựa chọn nhà cung cấp phụ thuộc vào loại nền tảng lưu trữ- tại chỗ hoặc đám mây- cũng như các loại dữ liệu và quản trị dữ liệu của tổ chức

Một trong những điểm nổi bật của mô hình

dữ liệu IBM so với các mô hình của các nhà cung cấp khác là có sự tách biệt giữa định nghĩa về bộ từ vựng nghiệp vụ hệ thống và

Nguồn: Saurabh Gupta & Venkata Giri (2018)

Hình 1 Quy trình lập kế hoạch và xây dựng hồ dữ liệu

Trang 5

định nghĩa của bất kỳ cấu trúc liên quan

nào sẽ được sử dụng trong việc thiết kế hồ

dữ liệu Việc sử dụng các bộ từ vựng này

của IBM cho phép tất cả những người sử

dụng hồ sơ dữ liệu đều có cái nhìn thống

nhất về nghiệp vụ hệ thống Mặt khác khi

tổ chức cần định nghĩa trước về lược đồ dữ

liệu thì mô hình dữ liệu IBM với các định nghĩa rõ ràng về cấu trúc dữ liệu sẽ đảm bảo tính nhất quán của các kho được lưu trữ trong hồ dữ liệu (IBM, 2016)

Hình 2 cung cấp tóm tắt về sự tương tác chính của các thành phần khác nhau trong

mô hình hồ dữ liệu IBM, nơi lưu trữ và xử lý

Nguồn: IBM (2016)

Hình 2 Kiến trúc tham chiếu cho Hồ dữ liệu

Nguồn: Awadallah and Graham (2011)

Hình 3 Hệ thống cùng tồn tại hồ dữ liệu và kho dữ liệu

Trang 6

dữ liệu lớn sử dụng nền tảng Hadoop cùng

một số hệ quản trị dữ liệu quan hệ truyền

thống khác để lưu trữ dữ liệu có cấu trúc

Trong kiến trúc tham chiếu Hồ dữ liệu ở

Hình 2, bộ từ vựng nghiệp vụ hệ thống phải

là cơ sở cho bất kỳ hoạt động tìm kiếm hoặc

khám phá nào được thực hiện bởi người

dùng trong các bộ phận phòng ban của tổ

chức doanh nghiệp và nhà khoa học dữ liệu

Mô hình vật lý thứ nguyên để triển khai các

cấu trúc cần thiết để xây dựng kho dữ liệu

Mô hình vật lý Hadoop sử dụng nền tảng công nghệ Hadoop để xử lý và làm việc với khối lượng dữ liệu lớn, mô hình vật lý này triển khai Sandbox hỗ trợ cho công việc nghiên cứu và phân tích dữ liệu của các nhà khoa học dữ liệu (IBM, 2016)

Với dữ liệu có cấu trúc thì kho dữ liệu là sự lựa chọn phù hợp để xây dựng khi đã biết lược đồ dữ liệu Ngược lại, hồ dữ liệu được triển khai để tích hợp một lượng lớn dữ liệu phi cấu trúc như nhật ký, hình ảnh, video

Bảng 1 Sự khác nhau giữa kho dữ liệu và hồ dữ liệu

Kiểu dữ

liệu Tất cả dữ liệu được lưu giữ bất kể nguồn và cấu trúc ban đầu Dữ liệu được giữ ở dạng thô, chỉ

được chuyển đổi khi đã sẵn sàng để sử dụng

Bao gồm dữ liệu được trích xuất từ các hệ thống giao dịch Dữ liệu được làm sạch và chuyển đổi Lịch sử Công nghệ dữ liệu lớn được sử dụng trong hồ dữ

liệu là tương đối mới. Không giống như dữ liệu lớn, khái niệm kho dữ liệu đã được sử dụng trong nhiều thập kỷ Thu thập

dữ liệu Tất cả các loại dữ liệu và cấu trúc, bán cấu trúc và không cấu trúc ở dạng ban đầu của chúng từ các

hệ thống nguồn

Dữ liệu có cấu trúc và sắp xếp chúng trong các lược đồ như được xác định cho mục đích xây dựng kho dữ liệu

Thời gian Các hồ dữ liệu có thể giữ lại tất cả dữ liệu Điều

này không chỉ bao gồm dữ liệu đang được sử dụng mà còn bao gồm dữ liệu có thể sử dụng trong tương lai Ngoài ra, dữ liệu được lưu giữ mọi lúc để có thể quay ngược thời gian và thực hiện phân tích

Trong quá trình phát triển kho dữ liệu, thời gian đáng kể được dành cho việc phân tích các nguồn dữ liệu khác nhau.

Người

dùng Hồ dữ liệu lý tưởng cho những người dùng muốn phân tích sâu như các nhà khoa học dữ liệu,

những người cần các công cụ phân tích tiên tiến với các khả năng như mô hình dự đoán và phân tích thống kê.

Kho dữ liệu lý tưởng cho người sử dụng vì được cấu trúc tốt, dễ sử dụng và dễ hiểu.

Chi phí Chi phí lưu trữ rẻ hơn so với kho dữ liệu Tương đối đắt hơn

Nhiệm vụ Chứa tất cả các dữ liệu và kiểu dữ liệu; nó cho

phép người dùng truy cập dữ liệu trước quá trình chuyển đổi, làm sạch và có cấu trúc

Cung cấp thông tin chi tiết về các câu hỏi được xác định trước cho các loại dữ liệu được xác định trước.

Thời gian

xử lý Thời gian xử lý nhanh Các hồ dữ liệu trao quyền cho người dùng truy cập dữ liệu trước khi nó

được chuyển đổi, làm sạch và có cấu trúc Do

đó, nó cho phép người dùng nhận được kết quả của họ nhanh hơn so với kho dữ liệu truyền thống.

Thời gian xử lý chậm hơn Kho dữ liệu cung cấp thông tin chi tiết về các câu hỏi được xác định trước cho các loại dữ liệu đã được xác định Vì vậy, bất kỳ thay đổi nào đối với kho dữ liệu đều cần thêm thời gian.

Lợi ích Tích hợp các loại dữ liệu khác nhau để đưa ra

những câu hỏi hoàn toàn mới Cung cấp các báo cáo và các chỉ số hiệu suất chính Hạn chế Dữ liệu được giữ ở dạng thô, chỉ được chuyển đổi

khi dữ liệu đó đã sẵn sàng để sử dụng Không có khả năng thay đổi.

Nguồn: David Taylor (2022)

Trang 7

hoặc tài liệu và dữ liệu có cấu trúc Nếu dự

kiến dữ liệu của tổ chức tăng trưởng đáng

kể theo thời gian và được sinh ra với tốc độ

lớn, có thể tồn tại ở các dạng khác nhau, và

tiềm ẩn những thông tin có thể tạo ra giá trị

kinh doanh cao, thì trong trường hợp này,

kiến trúc hồ dữ liệu thích hợp hơn kiến trúc

kho dữ liệu Trong nhiều tổ chức, cả hai

giải pháp này đều cùng tồn tại (Awadallah

and Graham, 2011), thể hiện trong Hình 3

Sự khác nhau giữa kho dữ liệu và hồ dữ

liệu được trình bày ở Bảng 1

Bảng 1 mô tả sự khác nhau giữa kho dữ

liệu và hồ dữ liệu Khác với kho dữ liệu-

chỉ lưu trữ dữ liệu có cấu trúc đã được lựa

chọn và chuẩn hóa cho mục đích cụ thể,

còn hồ dữ liệu có thể tích hợp và lưu trữ

mọi loại dữ liệu ở định dạng gốc với bất

kỳ quy mô nào để phục vụ cho phân tích

dữ liệu trong tương lai Vì việc sử dụng dữ

liệu được xác định trước nên kiến trúc kho

dữ liệu yêu cầu lập kế hoạch cẩn thận: loại

dữ liệu nào sẽ được truy xuất, công cụ nào

sẽ được sử dụng để thu thập, tổ chức, xử

lý và truy xuất dữ liệu đó Ngược lại hồ dữ liệu lưu trữ dữ liệu thô, phi cấu trúc, bán cấu trúc và có cấu trúc mà không cần xử

lý trước nên giải pháp về hồ dữ liệu là một giải pháp thực tế và chi phí thấp Ngoài ra

hồ dữ liệu cũng rất linh hoạt và dễ quản lý, không có trở ngại nào trong việc giới thiệu các kiểu dữ liệu mới, giúp cho tổ chức sử dụng các ứng dụng khác nhau dễ dàng hơn

Và vì việc mở rộng quy mô không phải là một vấn đề trong hồ dữ liệu nên hồ dữ liệu

là một trong những kiến trúc được ưa thích cho dữ liệu lớn (David Taylor, 2022) Như vậy kho dữ liệu và hồ dữ liệu đều có những

ưu điểm và hạn chế, do đó chúng không thể thay thế nhau mà cùng tồn tại để bổ sung

hỗ trợ nhau

Dựa trên cơ sở tham chiếu đến các mô hình

ở Hình 2 và Hình 3, Hình 4 thể hiện kiến trúc hồ dữ liệu được xây dựng cho mô hình

dữ liệu ngân hàng được đưa ra bởi Ngân hàng Thế giới (World Bank)

Kiến trúc hồ dữ liệu cho mô hình dữ liệu ngân hàng được trình bày ở Hình 4 là một

Nguồn: Darko Golec (2019)

Hình 4 Kiến trúc hồ dữ liệu cho mô hình dữ liệu ngân hàng

Trang 8

trong những kiến trúc hồ dữ liệu khả thi

về chi phí, khả năng mở rộng, bảo mật cho

mô hình dữ liệu ngân hàng (Darko Golec,

2019) Kiến trúc hồ dữ liệu này bao gồm

các thành phần chính sau:

- Vùng lưu trữ (Archive): Thu thập và lưu

trữ dữ liệu từ các nguồn bên ngoài theo lô

hoặc theo thời gian thực

- Vùng quản lý và ánh xạ (Master and

Map): vùng quản lý dữ liệu chủ và vùng

quản lý ánh xạ (mapping) dữ liệu

- Vùng cục bộ (Units): vùng quản lý dữ liệu

địa phương và vùng quản lý báo cáo

- Vùng tích hợp và báo cáo (Intergration

and Report): vùng quản lý kho dữ liệu và

vùng quản lý báo cáo

- Vùng mô hình và phân tích (Models and

Analytics): vùng sử dụng công cụ kinh

doanh thông minh và vùng phân tích dữ liệu

Một cách tổng quát thì toàn bộ dữ liệu lớn

được thu thập, lưu trữ và quản trị, ràng buộc

bởi các vùng cùng tồn tại (Coexistence

zone) với nhau trong hệ sinh thái đó, chẳng

hạn như các vùng: “Danh mục và Quản trị”

(Catalog and Governance), Quản lý siêu

dữ liệu (Metadata), Dòng dữ liệu, Bảo mật

và Truy cập Dữ liệu cho nhân viên, người

dùng hệ thống có thể được truy cập tại vùng

“thụ hưởng và phân phát” (Consumption

and Delivery) Kiến trúc hồ dữ liệu ở Hình

4 đã trình bày các phân vùng cùng tồn tại

để lưu trữ, tích hợp dữ liệu từ nhiều nguồn

bên trong và bên ngoài của tổ chức Để đáp

ứng được điều này thì kho dữ liệu được

thiết kế để lưu trữ dữ liệu có cấu trúc từ các

hệ thống nghiệp vụ Như vậy các tổ chức

tài chính ngân hàng có thể triển khai thực

hiện đồng thời hai giải pháp kho dữ liệu và

hồ dữ liệu để quản trị dữ liệu trong tổ chức

của mình như minh họa trong kiến trúc hồ

dữ liệu ở Hình 4

4 Lợi ích và thách thức triển khai hồ dữ

liệu

Một số lợi ích khi triển khai hồ dữ liệu

Thứ nhất, hồ dữ liệu cho phép tổ chức tài

chính ngân hàng lưu trữ và truy cập các loại

dữ liệu khác nhau, giúp cho việc chia sẻ và phân tích dữ liệu trên toàn doanh nghiệp trở nên nhanh chóng, dễ dàng hơn Theo báo cáo của Erik Nordmark (2020), tập đoàn ngân hàng Bắc Âu- Baltic mỗi ngày

có một lượng lớn dữ liệu phi cấu trúc được sinh ra từ các kênh tương tác và dữ liệu có cấu trúc về giao dịch của khách hàng được ghi lại ở các hệ thống nghiệp vụ khiến cho việc lưu trữ, tích hợp và phân tích dữ liệu trở nên khó khăn hơn Từ thực trạng này, ngân hàng đã tiến hành xây dựng triển khai

hồ dữ liệu để quản lý khối lượng lớn dữ liệu từ các nguồn dữ liệu bên trong và bên ngoài, cung cấp quyền truy cập dữ liệu trên toàn ngân hàng, đáp ứng được một số sáng kiến về chiến lược kinh doanh của ngân hàng Ngoài ra, việc phân tích dữ liệu trên

hồ dữ liệu còn hỗ trợ xử lý sự kiện theo thời gian thực Một số kết quả đạt được của ngân hàng Baltic khi triển khai hồ dữ liệu

và sử dụng kỹ thuật phân tích dữ liệu dựa trên trí tuệ nhân tạo là:

+ Chống rửa tiền và phân loại rủi ro + Dự đoán dòng tiền và phân nhóm hành

vi tài chính + Thực hiện mô hình chuyển nhượng thế chấp trên hồ dữ liệu

+ Các kế hoạch tốt nhất kế tiếp để quản lý quan hệ khách hàng

Cho đến nay, ngân hàng Baltic đã trải nghiệm một số khả năng, lợi thế mới từ việc lưu trữ và phân tích dữ liệu trên hồ dữ liệu Nhờ đó, ngân hàng cũng hiểu rõ hơn

về hành vi mua hàng của khách hàng và có thể khai thác dữ liệu giao dịch của họ để đưa

ra “hành động tốt nhất tiếp theo” phù hợp với nhu cầu của khách hàng vào đúng thời điểm Cùng với kỹ thuật phân tích dữ liệu dựa trên trí tuệ nhân tạo, ngân hàng cũng dự đoán được rủi ro khách hàng sẽ chấm dứt

Trang 9

hợp đồng thế chấp của họ trong vòng hai

tháng tiếp theo (Erik Nordmark, 2020)

Như vậy có thể nhận định rằng hồ dữ liệu

giúp cho các tổ chức tài chính ngân hàng

truy cập và phân tích dữ liệu trên toàn bộ tổ

chức một cách dễ dàng Điều này còn được

thể hiện rõ hơn qua báo cáo của Research

and Markets (2021), một số ngân hàng đã

và đang tăng cường các hồ dữ liệu để tích

hợp dữ liệu trên nhiều lĩnh vực khác nhau

nhằm tạo ra một cơ sở dữ liệu trung tâm

Tập đoàn Ngân hàng Úc và New Zealand

(ANZ) đang thực hiện một dự án tổng hợp

tất cả các kho dữ liệu trên các lĩnh vực để

tạo ra một hồ dữ liệu trung tâm cho các hoạt

động ngân hàng Sự gia tăng thanh toán kỹ

thuật số của người tiêu dùng đã thúc đẩy

lượng dữ liệu được lưu trữ với các ngân

hàng trong mỗi giao dịch Do đó, cơ hội

cho phân tích dữ liệu lớn ngày càng tăng

Hơn nữa, Mox Bank Limited (Mox), một

ngân hàng ở Hồng Kông, đã đăng ký hơn

35.000 khách hàng trong tháng đầu tiên, sử

dụng các giải pháp từ AWS để thu thập,

lưu trữ, xử lý an toàn và phân tích dữ liệu

giao dịch, tận dụng dữ liệu thông tin chi

tiết để xây dựng trải nghiệm ngân hàng lấy

khách hàng làm trung tâm khi sử dụng các

dịch vụ từ Amazon dựa trên hồ dữ liệu

Việc triển khai các hồ dữ liệu trong lĩnh

vực ngân hàng phá vỡ số lượng các thông

tin silo (thông tin về một thực thể được lưu

trữ ở nhiều hệ thống khác nhau nhưng lại

không giống nhau) Lưu trữ dữ liệu trong

cơ sở hạ tầng được quản lý tập trung như

cơ sở hạ tầng hồ dữ liệu dựa trên Apache

Hadoop giúp cắt giảm số lượng silo thông

tin trong một tổ chức, giúp người dùng

trong toàn tổ chức có thể truy cập và có cái

nhìn thống nhất về dữ liệu (Research and

Markets, 2021)

Ngân hàng Quốc gia Canada là một trong

những tổ chức dịch vụ tài chính hàng đầu

của Canada tiếp cận dữ liệu lớn trên hồ dữ

liệu trong vòng chưa đầy 2 tuần Nhóm các công cụ phái sinh vốn chủ sở hữu toàn cầu (GED- Global Equity Derivatives Group) của ngân hàng quốc gia Canada là đơn vị

đi đầu trong việc cung cấp các giải pháp giao dịch chứng khoán nhằm quản lý các chứng khoán được giao dịch trao đổi như

cổ phiếu, quỹ, hợp đồng tương lai GED thu thập và xử lý khối lượng dữ liệu tài chính thị trường chứng khoán đang phát triển nhanh chóng, chẳng hạn như thông tin lịch sử thương mại và báo giá Trước đây, tổ chức gặp phải khó khăn trong việc

mở rộng nền tảng phân tích dữ liệu khi sử dụng môi trường công nghệ thông tin tại chỗ, môi trường phần cứng truyền thống

và việc lưu trữ dữ liệu có cấu trúc trên các

hệ quản trị cơ sở dữ liệu quan hệ không thể theo kịp tốc độ tăng trưởng dữ liệu của GED Ngân hàng cần một môi trường có khả năng mở rộng hơn để có thể phân tích

dữ liệu hiệu quả, đưa ra các thông tin chi tiết có ý nghĩa hơn GED cũng tìm kiếm một cách hiệu quả hơn để xử lý dữ liệu tài chính, ngân hàng cần xử lý và phân tích cả

dữ liệu phi cấu trúc và dữ liệu có cấu trúc, chẳng hạn như trong trrường hợp có một số lượng lớn các tệp nhật ký cần được phân tích dựa trên dữ liệu thị trường được cập nhật Từ thực trạng này, GED đã tiến hành triển khai xây dựng hồ dữ liệu trong vòng chưa đầy 2 tuần Họ đã sử dụng TickVault trên đám mây AWS, dễ dàng xử lý và phân tích hàng trăm terabyte dữ liệu thương mại

và dữ liệu báo giá lịch sử, bên cạnh đó vẫn

có thể xem xét dữ liệu từ 10 năm trước nếu cần thiết Các nhà phân tích kinh doanh của GED hiện có thể tiến hành phân tích giao dịch thương mại nhanh hơn nhiều so với trước đây: Các quy trình thao tác dữ liệu mất nhiều ngày giờ chỉ còn một phút trên hồ

dữ liệu Hơn nữa, việc truy vấn dữ liệu hiện tại và lịch sử chỉ còn trong vài giờ đồng hồ Giờ đây, GED có thể phục vụ khách hàng

Trang 10

của mình tốt hơn Điều này được thể hiện

rõ hơn qua phát biểu của Pascal Bergeron,

Giám đốc giao dịch thuật toán (Director

of Algorithmic Trading) của Ngân hàng

Quốc gia Canada: “Chúng tôi có khả năng

phân tích sau giao dịch nhanh hơn và tốt

hơn bằng cách sử dụng TickVault và AWS

Nhờ đó, chúng tôi có thể cải thiện và tối ưu

hóa hoạt động giao dịch của mình và tạo

thêm doanh thu cho Ngân hàng Quốc gia

Canada Chúng tôi cũng có thể sử dụng dữ

liệu để xem cách chúng tôi có thể giao dịch

với giá tốt hơn cho khách hàng của mình”

(AWS, 2016)

Từ những minh chứng trên có thể khẳng

định rằng, lợi ích đầu tiên khi triển khai

hồ dữ liệu tại các tổ chức tài chính ngân

hàng đó là dữ liệu được lưu trữ tập trung

tại một nơi, từ đó giúp cho ngân hàng có

thể truy cập dữ liệu khác nhau theo thời

gian, kể cả truy vấn dữ liệu lịch sử, nhưng

vẫn đảm bảo các bộ phận nghiệp vụ có cái

nhìn chung thống nhất về dữ liệu vì đã khắc

phục được hiện tượng thông tin silo Việc

chia sẻ dữ liệu trở nên dễ dàng hơn kết hợp

với ứng dụng của trí tuệ nhân tạo để phân

tích, khai thác dữ liệu trong hồ dữ liệu giúp

cho ngân hàng thu hút và giữ chân khách

hàng, cũng như phát hiện, ngăn chặn các

rủi ro trong các giao dịch của khách hàng

hiệu quả hơn trước khi tổ chức triển khai

hồ dữ liệu

Lợi ích thứ hai mà hồ dữ liệu mang lại là

cung cấp cái nhìn tổng quan về khách hàng,

tăng cường khả năng dự đoán các xu hướng

tài chính cũng như cải thiện và cá nhân hóa

trải nghiệm của khách hàng Các tổ chức

dịch vụ tài chính triển khai hồ dữ liệu sử

dụng nhiều nguồn dữ liệu khác nhau để có

được cái nhìn toàn diện về khách hàng, tạo

ra trải nghiệm khách hàng được cá nhân hóa

hơn và hỗ trợ các chương trình giữ chân

khách hàng, chẳng hạn như chương trình

khách hàng thân thiết Một hồ dữ liệu được

quản lý tốt cho phép các tổ chức tập hợp tất

cả dữ liệu vào một nền tảng thống nhất và cung cấp cho các nhà tiếp thị quyền truy cập

có kiểm soát vào dữ liệu cần thiết cho việc nhắm đến các khách hàng mục tiêu Nền tảng trực quan hóa tương tác cung cấp các góc nhìn khác nhau về dữ liệu và cho phép các nhà tiếp thị lập hồ sơ khách hàng để phân tích (Zaloni, 2016) Cũng theo báo cáo của Research and Markets (2021), hơn 60%

tổ chức tài chính ở Hoa Kỳ tin rằng phân tích dữ liệu lớn mang lại lợi thế cạnh tranh đáng kể so với các đối thủ và hơn 90% công

ty tin rằng các sáng kiến dữ liệu lớn xác định

cơ hội thành công trong tương lai

Phát hiện và ngăn chặn gian lận trong giao

dịch của khách hàng tại ngân hàng là lợi

ích thứ ba mà hồ dữ liệu đem lại cho các

tổ chức tài chính ngân hàng Gian lận giao dịch, gian lận danh tính và rửa tiền là những mối quan tâm lớn đối với các tổ chức dịch

vụ tài chính, ngân hàng Một lý do là nhiều

kẻ gian lận có thể thao túng việc thanh toán nhanh hơn mức mà các nhà điều tra có thể kiểm tra Một hồ dữ liệu được quản lý tốt

có thể cho phép nhập dữ liệu theo thời gian thực và phát hiện gian lận tự động với các thuật toán phát hiện các dạng gian lận tiềm

ẩn trong khối lượng dữ liệu khổng lồ Tạo danh mục dữ liệu tập trung cung cấp giao diện người dùng trực quan để tìm kiếm

và phân tích trên tất cả dữ liệu và hỗ trợ các nhân viên nhanh chóng thực hiện phân tích dữ liệu tự phục vụ thông qua giao diện người dùng trực quan (Zaloni, 2016) Hơn nữa, hiệu quả thu hồi nợ của ngân hàng có thể cải thiện đáng kể bằng cách phân tích hiệu quả thu hồi dựa trên dữ liệu giao dịch của khách hàng được lưu trữ trong hồ dữ liệu, bên cạnh việc phân nhóm khách hàng nhằm xác định và ưu tiên khách hàng nào liên hệ sớm nhất sẽ giúp các tổ chức tài chính ngân hàng nâng cao hiệu quả thu nợ Bên cạnh đó, thị trường của khu vực Bắc

Ngày đăng: 27/09/2022, 11:39

HÌNH ẢNH LIÊN QUAN

- Xây dựng mơ hình dữ liệu cho hồ dữ liệu sẽ hỗ trợ báo cáo hoạt động, báo cáo tổng  quan cũng như phân tích nâng cao. - Kiến trúc hồ dữ liệu: Lưu trữ và phân tích dữ liệu lớn trong các tổ chức tài chính - ngân hàng
y dựng mơ hình dữ liệu cho hồ dữ liệu sẽ hỗ trợ báo cáo hoạt động, báo cáo tổng quan cũng như phân tích nâng cao (Trang 4)
liệu thì mơ hình dữ liệu IBM với các định nghĩa rõ ràng về cấu trúc dữ liệu sẽ đảm  bảo tính nhất quán của các kho được lưu  trữ trong hồ dữ liệu (IBM, 2016) - Kiến trúc hồ dữ liệu: Lưu trữ và phân tích dữ liệu lớn trong các tổ chức tài chính - ngân hàng
li ệu thì mơ hình dữ liệu IBM với các định nghĩa rõ ràng về cấu trúc dữ liệu sẽ đảm bảo tính nhất quán của các kho được lưu trữ trong hồ dữ liệu (IBM, 2016) (Trang 5)
Hình 2 cung cấp tóm tắt về sự tương tác chính của các thành phần khác nhau trong  mơ hình hồ dữ liệu IBM, nơi lưu trữ và xử lý  - Kiến trúc hồ dữ liệu: Lưu trữ và phân tích dữ liệu lớn trong các tổ chức tài chính - ngân hàng
Hình 2 cung cấp tóm tắt về sự tương tác chính của các thành phần khác nhau trong mơ hình hồ dữ liệu IBM, nơi lưu trữ và xử lý (Trang 5)
Mơ hình vật lý Hadoop sử dụng nền tảng công nghệ Hadoop để xử lý và làm việc với  khối lượng dữ liệu lớn, mơ hình vật lý này  triển  khai  Sandbox  hỗ  trợ  cho  công  việc  nghiên cứu và phân tích dữ liệu của các nhà  khoa học dữ liệu (IBM, 2016) - Kiến trúc hồ dữ liệu: Lưu trữ và phân tích dữ liệu lớn trong các tổ chức tài chính - ngân hàng
h ình vật lý Hadoop sử dụng nền tảng công nghệ Hadoop để xử lý và làm việc với khối lượng dữ liệu lớn, mơ hình vật lý này triển khai Sandbox hỗ trợ cho công việc nghiên cứu và phân tích dữ liệu của các nhà khoa học dữ liệu (IBM, 2016) (Trang 6)
Bảng 1 mô tả sự khác nhau giữa kho dữ liệu và hồ dữ liệu. Khác với kho dữ liệu-  chỉ lưu trữ dữ liệu có cấu trúc đã được lựa  chọn  và  chuẩn  hóa  cho  mục  đích  cụ  thể,  còn hồ dữ liệu có thể tích hợp và lưu trữ  mọi loại dữ liệu ở định dạng gốc với b - Kiến trúc hồ dữ liệu: Lưu trữ và phân tích dữ liệu lớn trong các tổ chức tài chính - ngân hàng
Bảng 1 mô tả sự khác nhau giữa kho dữ liệu và hồ dữ liệu. Khác với kho dữ liệu- chỉ lưu trữ dữ liệu có cấu trúc đã được lựa chọn và chuẩn hóa cho mục đích cụ thể, còn hồ dữ liệu có thể tích hợp và lưu trữ mọi loại dữ liệu ở định dạng gốc với b (Trang 7)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm