CHƯƠNG 4: BIG DATA TRONG HOẠT ĐỘNG NGÂN HÀNG

Thông qua việc tìm hiểu học phần Công nghệ số trong hoạt động Ngân hàng, các học viên sẽ tìm hiểu rõ hơn về Big Data trong hoạt động ngành Ngân hàng. Nội dung Chương 4 tập trung vào việc trình bày chi tiết các nội dung liên quan đến Big Data như khái niệm, các đặc trưng, vai trò, các cơ hội và thách thức Big Data mang lại. Quan trọng hơn hết, trong Chương 4, các học viên sẽ nắm bắt được các ứng dụng Big Data trong ngành Ngân hàng, các điều kiện để ứng dụng Big Data trong ngành Ngân hàng và các nguồn dữ liệu Big Data torng hoạt động tiếp thị của ngành Ngân hàng.

Trang 1

TP Đà Nẵng, năm 2020

TRÌNH BÀY: NGÔ ĐỨC CHIẾN

Chương 4:

BIG DATA TRONG HOẠT ĐỘNG NGÂN HÀNG

Chương 4:

BIG DATA TRONG HOẠT ĐỘNG NGÂN HÀNG

Trang 2

Các ứng dụng của Big Data trong hoạt động Ngân hàng

Các điều kiện để ứng dụng Big Data trong hoạt động

Ngân hàng 2

3

Trang 3

G (i) Khái niệm Big Data

(ii) Các yếu tố nhận diện Big Data (iii) Các đặc trưng của Big Data (iv) Vai trò của Big Data

(v) Sự khác biệt giữa Big Data (Dữ liệu lớn) và Dữ liệu truyền thống (vi) Những cơ hội và thách thức khi ứng dụng Big data trong thống kê chính thức

Trang 4

G Khái niệm Big Data

Thuật ngữ Big Data (dữ liệu lớn) được sử dụng từ những năm 1990 và thực sự bùng nổ trong khoảng 10 năm trở lại đây

Big Data (Dữ liệu lớn) là thuật ngữ dùng để chỉ một tập hợp dữ liệu rất lớn và rất phức tạp đến nỗi những công cụ, ứng dụng xử lí dữ liệu truyền thống không thể nào đảm đương được

Trang 5

G Khái niệm Big Data

Kích cỡ của Big Data đang từng ngày tăng lên, và tính đến năm 2012 thì nó có thể nằm trong khoảng vài chục terabyte cho đến nhiều petabyte (1 petabyte = 1024 terabyte) chỉ cho một tập hợp dữ liệu mà thôi

Dữ liệu lớn bao gồm các thách thức như phân tích, thu thập, giám sát dữ liệu, tìm kiếm, chia sẻ, lưu trữ, truyền nhận, trực quan, truy vấn và tính riêng tư

Trang 7

G Các yếu tố nhận diện Big Data

Big Data được nhận diện trên ba khía cạnh chính:

(i) Dữ liệu (Data)(ii) Công nghệ (Technology)(iii) Quy mô (Size)

Trang 8

Thứ nhất, dữ liệu (data) bao gồm các định dạng khác nhau như hình ảnh, video,

âm nhạc… trên Internet

Vì các dữ liệu được cập nhật qua các thiết bị kết nối mạng từng giờ, từng phút, từng giây và đến từ nhiều nguồn khác nhau nên khối lượng dữ liệu này là rất lớn (Big)

Trang 9

Big Data được đo lường theo đơn vị Terabytes (TB), Petabytes (PB) và Exabytes (EB)

Trang 10

Yếu tố nhận diện thứ hai của Big Data là công nghệ (technology).

Công nghệ thường được thiết kế và hình thành một hệ sinh thái từ dưới đi lên để có khả năng xử lý các dữ liệu lớn và phức tạp

Trang 11

Một trong những hệ sinh thái mạnh nhất hiện nay phải kể đến Hadoop với khả năng

xử lý dữ liệu có thể được tăng lên cùng mức độ phức tạp của dữ liệu, năng lực này là một công cụ vô giá trong bất kỳ ứng dụng Big Data nào

Trang 12

Yếu tố nhận diện thứ ba của Big Data là quy mô dữ liệu.

Hiện nay vẫn chưa có câu trả lời chính xác cho câu hỏi dữ liệu thế nào gọi là lớn Theo ngầm hiểu thì khi dữ liệu vượt quá khả năng xử lý của các hệ thống truyền thống thì sẽ được xếp vào Big Data

Trang 13

G Các đặc trưng của Big Data

Dữ liệu lớn có 5 đặc trưng cơ bản (mô hình 5V):

(i) Khối lượng dữ liệu (Volume)(ii) Tốc độ (Velocity)

(iii) Đa dạng (Variety)(iv) Độ tin cậy/chính xác (Veracity)(v) Giá trị (Value)

Trang 14

(i) Khối lượng dữ liệu (Volume)

Kích cỡ của Big Data đang từng ngày tăng lên, và tính đến năm 2012 thì nó có thể nằm trong khoảng vài chục terabyte cho đến nhiều petabyte (1 petabyte = 1024 terabyte) chỉ cho một tập hợp dữ liệu

Dữ liệu lớn chúng ta sẽ sử dụng công nghệ “đám mây” mới đáp ứng khả năng lưu trữ được dữ liệu lớn

Trang 15

Tốc độ có thể hiểu theo 2 khía cạnh:

(a) Khối lượng dữ liệu gia tăng rất nhanh (mỗi giây có tới 72.9 triệu các yêu cầu

truy cập tìm kiếm trên web bán hàng của Amazon)

(b) Xử lý dữ liệu nhanh ở mức thời gian thực (real-time), có nghĩa được xử lý ngay tức thời ngay sau khi chúng phát sinh (tính đến bằng mili giây)

Trang 16

(iii) Đa dạng (Variety)

Trang 17

(iv) Độ tin cậy/chính xác (Veracity)

Với xu hướng phương tiện truyền thông xã hội (Social Media) và mạng xã hội (Social Network) ngày nay và sự gia tăng mạnh mẽ tính tương tác và chia sẻ của người dùng Mobile làm cho bức tranh xác định về độ tin cậy & chính xác của dữ liệu ngày một khó khăn hơn

Trang 20

G Sự khác biệt giữa Big Data và dữ liệu truyền thống

Dữ liệu lớn khác với dữ liệu truyền thống (ví dụ, kho dữ liệu - Data Warehouse) ở

4 điểm cơ bản:

(i) Dữ liệu đa dạng hơn(ii) Lưu trữ dữ liệu lớn hơn(iii) Truy vấn nhanh hơn(iv) Độ chính xác cao hơn

Trang 21

(i) Dữ liệu đa dạng hơn

Khi khai thác, phân tích dữ liệu lớn chúng ta không cần quan tâm đến kiểu dữ liệu

và định dạng của chúng

Trang 22

(ii) Lưu trữ dữ liệu lớn hơn

Lưu trữ dữ liệu truyền thống vô cùng phức tạpCông nghệ lưu trữ đám mây, phân phối lưu trữ dữ liệu phân tán và có thể kết hợp các dữ liệu phân tán lại với nhau một cách chính xác và xử lý nhanh trong thời gian thực

Trang 23

(iii) Truy vấn nhanh hơn

Dữ liệu lớn được cập nhật liên tục, trong khi đó kho dữ liệu truyền thống thì lâu lâu mới được cập nhật và trong tình trạng không theo dõi thường xuyên gây ra tình trạng lỗi cấu trúc truy vấn dẫn đến không tìm kiếm được thông tin đáp ứng theo yêu cầu

Trang 24

(iv) Độ chính xác cao hơn

Dữ liệu lớn khi đưa vào sử dụng thường được kiểm định lại dữ liệu với những điều kiện chặt chẽ, số lượng thông tin được kiểm tra thông thường rất lớn, và đảm bảo về nguồn lấy dữ liệu không có sự tác động của con người vào thay đổi số liệu thu thập

Trang 25

G Cơ hội khi ứng dụng Big Data trong thống kê

(i) Có thêm phương án giải quyết, xử lý và đối phó với những thách thức đối sản xuất số liệu thống kê chính thức

Trang 26

(ii) Có được đội ngũ nguồn nhân lực về quản lý và khai thác Big data vững vàng về chuyên môn và được trải qua kinh nghiệm thực tế

Trang 27

(iii) Có được những văn bản pháp lý bổ sung có thể giúp cho cơ quan thống kê chính thức có điều kiện để thực hiện được khai thác dữ liệu thông qua hồ sơ hành chính

Trang 28

(iv) Đem lại niềm tin của cộng đồng với thống kê chính thức do quá trình trình sản xuất số liệu thống kê chính thức với dữ liệu lớn hoàn toàn không có sự tác động chủ ý của con người

Trang 29

G Thách thức khi ứng dụng Big Data trong thống kê

(i) Vấn đề về tài chính (chi phí)

Trang 30

(ii) Chính sách, quy định Luật pháp về truy cập và sử dụng dữ liệu

Trang 31

(iii) Trình độ khai thác và quản lý dữ liệu

Trang 32

(iv) Hạ tầng công nghệ thông tin

Trang 42

G (i) Cần thay đổi tư duy trong đội ngũ quản lí ngân hàng về tầm quan trọng

của dữ liệu và các phương pháp xử lý dữ liệu hiện đại

Trang 43

G (ii) Ngân hàng phải xây dựng được quy trình liên quan đến dữ liệu từ khâu

thu thập dữ liệu đến sử dụng kết quả xử lý dữ liệu

Trang 44

G (iii) Ngân hàng phải xây dựng được quy trình liên quan đến dữ liệu từ khâu

thu thập dữ liệu đến sử dụng kết quả xử lý dữ liệu

Xác Xây Sử

Trang 48

* Phương pháp trích rút thông tin: Các thuật toán phân lớp như mạng neural hoặc

cây quyết định có thể được sử dụng để xác định những nội dung mà KH có thể hoặc không quan tâm đến Các thuật toán như hồi quy tuyến tính và láng giềng gần nhất nên được sử dụng để so sánh phản ứng của KH Hồi quy logistic cũng có thể được sử dụng để đo xác suất mà khách hàng sẽ kích vào một quảng cáo

* Dữ liệu: Hồ sơ KH, dữ liệu giao dịch được sử dụng để thêm thông tin cá nhân

Trang 49

* Phương pháp trích rút thông tin: Sử dụng mạng neural hoặc cây

quyết định để phân lớp, hàng xóm gần nhất và hồi quy tuyến tính cũng là các công cụ phân loại KH bằng cách so sánh họ với các KH khác

* Dữ liệu: Dữ liệu hồ sơ KH, dữ liệu giao dịch, dữ liệu về lượng kích chuột

gần đây vào URL và cookies

Trang 50

* Phương pháp trích rút thông tin: Cách tiếp cận ngẫu nhiên hoặc cây quyết định

cho thấy được hành vi KH tiếp tục hay từ bỏ sản phẩm Phân tích sống còn (survival analysis) cũng là một phương pháp phổ biến để dự đoán khi KH sẽ rời bỏ và là một công cụ mạnh dự đoán nguy cơ tăng và giảm trong sự sống còn KH

* Dữ liệu: Dữ liệu hồ sơ KH, dữ liệu giao dịch, dữ liệu cảm nhận của KH.

Trang 52

* Phương pháp trích rút thông tin: Sử dụng các thuật toán phân cụm để tìm ra các

mẫu có nghĩa trong các dữ liệu khách hàng, sau đó liên kết các mẫu này với các hành

vi thực sự của khách hàng

* Dữ liệu: Tất cả các dữ liệu của từng khách hàng cụ thể được sử dụng để phân

cụm

Trang 53

* Phương pháp trích rút thông tin: Thuật toán phân cụm, chẳng hạn như K-means,

giúp giải quyết vấn đề này bằng cách khai phá các mẫu giữa các hồ sơ KH và dữ liệu giao dịch Sau khi phân cụm, trí tuệ nhân tạo được sử dụng để liên kết các cụm đó với hành vi của KH

* Dữ liệu: Dữ liệu giao dịch của KH, dữ liệu hồ sơ KH có thể giúp thu hẹp hành

vi đối với mỗi KH cụ thể

Trang 54

* Phương pháp trích rút thông tin: Thuật toán phân cụm được sử dụng như một

thuật toán khởi tạo để xác định phân khúc khách hàng dựa trên sự phân biệt về giá cả, sau đó bài toán phân lớp sẽ được thực thi

* Dữ liệu: Các giao dịch và hồ sơ khách hàng sử dụng xác định hành vi, khả năng

chi tiêu của họ trong tương lai, phân nhóm dựa trên các tiêu chí đó

Trang 55

* Phương pháp trích rút thông tin: Thuật toán phân cụm, chẳng hạn như K-means,

có thể được sử dụng tìm ra đặc điểm cho thấy những KH này là quan trọng

* Dữ liệu: Dữ liệu cần để tính khả năng sinh lợi của KH bao gồm hành vi, xu

hướng, tần suất mua bán sản phẩm, thời gian và kiểu liên lạc tiếp thị Các dữ liệu này thường được lấy từ dữ liệu bán hàng và marketing

Trang 57

* Phương pháp trích rút thông tin: Các đánh giá trước hết được thực hiện bằng xử

lý ngôn ngữ tự nhiên, sau đó các thuật toán phân tích văn bản, chẳng hạn như Na#ve Bayes có thể phân tích tài liệu và trả về một giá trị cụ thể việc đánh giá của KH nằm trong khoảng từ -1 (tiêu cực) đến 1 (tích cực)

* Dữ liệu: Dữ liệu đánh giá của KH đối với các sản phẩm là các mạng xã hội,

blogs và các trang web chứa đánh giá của KH; Dữ liệu thu thập được từ các cuộc khảo sát với KH

Trang 58

* Phương pháp trích rút thông tin: Cây quyết định có thể được sử

dụng để xác định các thuộc tính quan trọng của một khách hàng có tầm ảnh hưởng; phân tích các liên kết và lý thuyết đồ thị có thể cung cấp một độ đo chính xác

* Dữ liệu: Dữ liệu hồ sơ KH và các dữ liệu có thể được lấy từ mạng xã hội, các

blogs và các trang web có sự đánh giá của KH

Trang 59

* Phương pháp trích rút thông tin: Thuật toán Na#ve Bayes được sử

dụng để phân loại văn bản và tài liệu, sau đó đưa ra những cảm nhận tích cực và tiêu cực của KH

* Dữ liệu: Phương tiện truyền thông xã hội như Facebook và Twitter là một nguồn

thông tin tốt để hình thành nguồn dữ liệu về cảm nhận của KH, trong đó Twitter cho phép tìm kiếm tất cả các tweets trên toàn bộ mạng

Trang 61

* Phương pháp trích rút thông tin: Sử dụng kỹ thuật phân tích liên kết dựa trên

liên kết giữa các sản phẩm để phân tích giỏ mua hàng Cây quyết định được sử dụng để lưu thời gian thích hợp của một tin nhắn tiếp thị dựa trên các giao dịch, chi trả trước đây của khách hàng

* Dữ liệu: Quá trình giao dịch trước đây của khách hàng là dữ liệu quan trọng nhất

trong trường hợp này Hồ sơ khách hàng cũng cần thiết để giúp dự đoán dự định của KH

Trang 62

* Phương pháp trích rút thông tin: Để tính khả năng và thói quen mua sắm của

khách hàng trong tương lai, sử dụng dữ liệu giao dịch trước đây của khách hàng đó

và áp dụng thuật toán phân lớp như hồi quy tuyến tính và cây quyết định

* Dữ liệu: Hồ sơ khách hàng và lịch sử giao dịch của họ là cần thiết trong trường

hợp này

Trang 63

* Phương pháp trích rút thông tin: Phân tích liên kết của các giao dịch

trước đây đã được chứng minh là hiệu quả trong tìm kiếm các sản phẩm bán cùng nhau Cây quyết định được lựa chọn khi muốn hiển thị các thuộc tính của các khách hàng đã mua các sản phẩm nhất định

* Dữ liệu: Kết hợp các dữ liệu từ hồ sơ khách hàng, dữ liệu giao dịch, và các sản

phẩm dịch vụ

Trang 65

* Phương pháp trích rút thông tin: Xây dựng một hồ sơ cá nhân của từng khách

hàng dựa trên tần suất tương tác trên mỗi kênh Các kiểu liên lạc cũng có thể được đo thông qua độ gắn kết của khách hàng với sản phẩm hoặc phân tích văn bản

* Dữ liệu: Dữ liệu từ các cookies, URL có thể được sử dụng để xác định khách

hàng đang tương tác trực tuyến trên kênh nào và họ đang sử dụng chúng cho mục đích gì

Trang 66

* Phương pháp trích rút thông tin: Các tương tác của khách hàng trên các kênh

trực tuyến thu được thông qua các tập tin cookies, URL Các kiểu tương tác trên các kênh có thể được đo bằng kết hợp phân tích văn bản và phân lớp cây quyết định

* Dữ liệu: Dữ liệu có thể sử dụng bao gồm hồ sơ của khách hàng, hiệu suất kênh,

thời gian, các cookies, trang web chứa mã JavaScript,

Trang 67

* Phương pháp trích rút thông tin: Cây quyết định được sử dụng để tính điểm cho

mỗi kênh thông tin dựa trên các tương tác trực tuyến/ngoại tuyến và ngược lại

* Dữ liệu: Đo lượng kích chuột, dấu vết và cookies cho thấy mức độ mà khách

hàng tham gia trực tuyến; hồ sơ khách hàng và thống kê quảng cáo từ tất cả các phương tiện được sử dụng để tính hiệu suất của mỗi kênh thông tin

Định dạng
Số trang	68
Dung lượng	5,88 MB