Thông qua việc tìm hiểu học phần Công nghệ số trong hoạt động Ngân hàng, các học viên sẽ tìm hiểu rõ hơn về Big Data trong hoạt động ngành Ngân hàng. Nội dung Chương 4 tập trung vào việc trình bày chi tiết các nội dung liên quan đến Big Data như khái niệm, các đặc trưng, vai trò, các cơ hội và thách thức Big Data mang lại. Quan trọng hơn hết, trong Chương 4, các học viên sẽ nắm bắt được các ứng dụng Big Data trong ngành Ngân hàng, các điều kiện để ứng dụng Big Data trong ngành Ngân hàng và các nguồn dữ liệu Big Data torng hoạt động tiếp thị của ngành Ngân hàng.
Trang 1TP Đà Nẵng, năm 2020
TRÌNH BÀY: NGÔ ĐỨC CHIẾN
Chương 4:
BIG DATA TRONG HOẠT ĐỘNG NGÂN HÀNG
Chương 4:
BIG DATA TRONG HOẠT ĐỘNG NGÂN HÀNG
Trang 2Các ứng dụng của Big Data trong hoạt động Ngân hàng
Các điều kiện để ứng dụng Big Data trong hoạt động
Ngân hàng 2
3
Trang 3G (i) Khái niệm Big Data
(ii) Các yếu tố nhận diện Big Data (iii) Các đặc trưng của Big Data (iv) Vai trò của Big Data
(v) Sự khác biệt giữa Big Data (Dữ liệu lớn) và Dữ liệu truyền thống (vi) Những cơ hội và thách thức khi ứng dụng Big data trong thống kê chính thức
Trang 4G Khái niệm Big Data
Thuật ngữ Big Data (dữ liệu lớn) được sử dụng từ những năm 1990 và thực sự bùng nổ trong khoảng 10 năm trở lại đây
Big Data (Dữ liệu lớn) là thuật ngữ dùng để chỉ một tập hợp dữ liệu rất lớn và rất phức tạp đến nỗi những công cụ, ứng dụng xử lí dữ liệu truyền thống không thể nào đảm đương được
Trang 5G Khái niệm Big Data
Kích cỡ của Big Data đang từng ngày tăng lên, và tính đến năm 2012 thì nó có thể nằm trong khoảng vài chục terabyte cho đến nhiều petabyte (1 petabyte = 1024 terabyte) chỉ cho một tập hợp dữ liệu mà thôi
Dữ liệu lớn bao gồm các thách thức như phân tích, thu thập, giám sát dữ liệu, tìm kiếm, chia sẻ, lưu trữ, truyền nhận, trực quan, truy vấn và tính riêng tư
Trang 7G Các yếu tố nhận diện Big Data
Big Data được nhận diện trên ba khía cạnh chính:
(i) Dữ liệu (Data)(ii) Công nghệ (Technology)(iii) Quy mô (Size)
Trang 8G Các yếu tố nhận diện Big Data
Thứ nhất, dữ liệu (data) bao gồm các định dạng khác nhau như hình ảnh, video,
âm nhạc… trên Internet
Vì các dữ liệu được cập nhật qua các thiết bị kết nối mạng từng giờ, từng phút, từng giây và đến từ nhiều nguồn khác nhau nên khối lượng dữ liệu này là rất lớn (Big)
Trang 9G Các yếu tố nhận diện Big Data
Big Data được đo lường theo đơn vị Terabytes (TB), Petabytes (PB) và Exabytes (EB)
Trang 10G Các yếu tố nhận diện Big Data
Yếu tố nhận diện thứ hai của Big Data là công nghệ (technology).
Công nghệ thường được thiết kế và hình thành một hệ sinh thái từ dưới đi lên để có khả năng xử lý các dữ liệu lớn và phức tạp
Trang 11G Các yếu tố nhận diện Big Data
Một trong những hệ sinh thái mạnh nhất hiện nay phải kể đến Hadoop với khả năng
xử lý dữ liệu có thể được tăng lên cùng mức độ phức tạp của dữ liệu, năng lực này là một công cụ vô giá trong bất kỳ ứng dụng Big Data nào
Trang 12G Các yếu tố nhận diện Big Data
Yếu tố nhận diện thứ ba của Big Data là quy mô dữ liệu.
Hiện nay vẫn chưa có câu trả lời chính xác cho câu hỏi dữ liệu thế nào gọi là lớn Theo ngầm hiểu thì khi dữ liệu vượt quá khả năng xử lý của các hệ thống truyền thống thì sẽ được xếp vào Big Data
Trang 13G Các đặc trưng của Big Data
Dữ liệu lớn có 5 đặc trưng cơ bản (mô hình 5V):
(i) Khối lượng dữ liệu (Volume)(ii) Tốc độ (Velocity)
(iii) Đa dạng (Variety)(iv) Độ tin cậy/chính xác (Veracity)(v) Giá trị (Value)
Trang 14G Các đặc trưng của Big Data
(i) Khối lượng dữ liệu (Volume)
Kích cỡ của Big Data đang từng ngày tăng lên, và tính đến năm 2012 thì nó có thể nằm trong khoảng vài chục terabyte cho đến nhiều petabyte (1 petabyte = 1024 terabyte) chỉ cho một tập hợp dữ liệu
Dữ liệu lớn chúng ta sẽ sử dụng công nghệ “đám mây” mới đáp ứng khả năng lưu trữ được dữ liệu lớn
Trang 15Tốc độ có thể hiểu theo 2 khía cạnh:
(a) Khối lượng dữ liệu gia tăng rất nhanh (mỗi giây có tới 72.9 triệu các yêu cầu
truy cập tìm kiếm trên web bán hàng của Amazon)
(b) Xử lý dữ liệu nhanh ở mức thời gian thực (real-time), có nghĩa được xử lý ngay tức thời ngay sau khi chúng phát sinh (tính đến bằng mili giây)
Trang 16G Các đặc trưng của Big Data
(iii) Đa dạng (Variety)
Trang 17G Các đặc trưng của Big Data
(iv) Độ tin cậy/chính xác (Veracity)
Với xu hướng phương tiện truyền thông xã hội (Social Media) và mạng xã hội (Social Network) ngày nay và sự gia tăng mạnh mẽ tính tương tác và chia sẻ của người dùng Mobile làm cho bức tranh xác định về độ tin cậy & chính xác của dữ liệu ngày một khó khăn hơn
Trang 20G Sự khác biệt giữa Big Data và dữ liệu truyền thống
Dữ liệu lớn khác với dữ liệu truyền thống (ví dụ, kho dữ liệu - Data Warehouse) ở
4 điểm cơ bản:
(i) Dữ liệu đa dạng hơn(ii) Lưu trữ dữ liệu lớn hơn(iii) Truy vấn nhanh hơn(iv) Độ chính xác cao hơn
Trang 21G Sự khác biệt giữa Big Data và dữ liệu truyền thống
(i) Dữ liệu đa dạng hơn
Khi khai thác, phân tích dữ liệu lớn chúng ta không cần quan tâm đến kiểu dữ liệu
và định dạng của chúng
Trang 22G Sự khác biệt giữa Big Data và dữ liệu truyền thống
(ii) Lưu trữ dữ liệu lớn hơn
Lưu trữ dữ liệu truyền thống vô cùng phức tạpCông nghệ lưu trữ đám mây, phân phối lưu trữ dữ liệu phân tán và có thể kết hợp các dữ liệu phân tán lại với nhau một cách chính xác và xử lý nhanh trong thời gian thực
Trang 23G Sự khác biệt giữa Big Data và dữ liệu truyền thống
(iii) Truy vấn nhanh hơn
Dữ liệu lớn được cập nhật liên tục, trong khi đó kho dữ liệu truyền thống thì lâu lâu mới được cập nhật và trong tình trạng không theo dõi thường xuyên gây ra tình trạng lỗi cấu trúc truy vấn dẫn đến không tìm kiếm được thông tin đáp ứng theo yêu cầu
Trang 24G Sự khác biệt giữa Big Data và dữ liệu truyền thống
(iv) Độ chính xác cao hơn
Dữ liệu lớn khi đưa vào sử dụng thường được kiểm định lại dữ liệu với những điều kiện chặt chẽ, số lượng thông tin được kiểm tra thông thường rất lớn, và đảm bảo về nguồn lấy dữ liệu không có sự tác động của con người vào thay đổi số liệu thu thập
Trang 25G Cơ hội khi ứng dụng Big Data trong thống kê
(i) Có thêm phương án giải quyết, xử lý và đối phó với những thách thức đối sản xuất số liệu thống kê chính thức
Trang 26G Cơ hội khi ứng dụng Big Data trong thống kê
(ii) Có được đội ngũ nguồn nhân lực về quản lý và khai thác Big data vững vàng về chuyên môn và được trải qua kinh nghiệm thực tế
Trang 27G Cơ hội khi ứng dụng Big Data trong thống kê
(iii) Có được những văn bản pháp lý bổ sung có thể giúp cho cơ quan thống kê chính thức có điều kiện để thực hiện được khai thác dữ liệu thông qua hồ sơ hành chính
Trang 28G Cơ hội khi ứng dụng Big Data trong thống kê
(iv) Đem lại niềm tin của cộng đồng với thống kê chính thức do quá trình trình sản xuất số liệu thống kê chính thức với dữ liệu lớn hoàn toàn không có sự tác động chủ ý của con người
Trang 29G Thách thức khi ứng dụng Big Data trong thống kê
(i) Vấn đề về tài chính (chi phí)
Trang 30G Thách thức khi ứng dụng Big Data trong thống kê
(ii) Chính sách, quy định Luật pháp về truy cập và sử dụng dữ liệu
Trang 31G Thách thức khi ứng dụng Big Data trong thống kê
(iii) Trình độ khai thác và quản lý dữ liệu
Trang 32G Thách thức khi ứng dụng Big Data trong thống kê
(iv) Hạ tầng công nghệ thông tin
Trang 42G (i) Cần thay đổi tư duy trong đội ngũ quản lí ngân hàng về tầm quan trọng
của dữ liệu và các phương pháp xử lý dữ liệu hiện đại
Trang 43G (ii) Ngân hàng phải xây dựng được quy trình liên quan đến dữ liệu từ khâu
thu thập dữ liệu đến sử dụng kết quả xử lý dữ liệu
Trang 44G (iii) Ngân hàng phải xây dựng được quy trình liên quan đến dữ liệu từ khâu
thu thập dữ liệu đến sử dụng kết quả xử lý dữ liệu
Xác Xây Sử
Trang 48* Phương pháp trích rút thông tin: Các thuật toán phân lớp như mạng neural hoặc
cây quyết định có thể được sử dụng để xác định những nội dung mà KH có thể hoặc không quan tâm đến Các thuật toán như hồi quy tuyến tính và láng giềng gần nhất nên được sử dụng để so sánh phản ứng của KH Hồi quy logistic cũng có thể được sử dụng để đo xác suất mà khách hàng sẽ kích vào một quảng cáo
* Dữ liệu: Hồ sơ KH, dữ liệu giao dịch được sử dụng để thêm thông tin cá nhân
Trang 49* Phương pháp trích rút thông tin: Sử dụng mạng neural hoặc cây
quyết định để phân lớp, hàng xóm gần nhất và hồi quy tuyến tính cũng là các công cụ phân loại KH bằng cách so sánh họ với các KH khác
* Dữ liệu: Dữ liệu hồ sơ KH, dữ liệu giao dịch, dữ liệu về lượng kích chuột
gần đây vào URL và cookies
Trang 50* Phương pháp trích rút thông tin: Cách tiếp cận ngẫu nhiên hoặc cây quyết định
cho thấy được hành vi KH tiếp tục hay từ bỏ sản phẩm Phân tích sống còn (survival analysis) cũng là một phương pháp phổ biến để dự đoán khi KH sẽ rời bỏ và là một công cụ mạnh dự đoán nguy cơ tăng và giảm trong sự sống còn KH
* Dữ liệu: Dữ liệu hồ sơ KH, dữ liệu giao dịch, dữ liệu cảm nhận của KH.
Trang 52* Phương pháp trích rút thông tin: Sử dụng các thuật toán phân cụm để tìm ra các
mẫu có nghĩa trong các dữ liệu khách hàng, sau đó liên kết các mẫu này với các hành
vi thực sự của khách hàng
* Dữ liệu: Tất cả các dữ liệu của từng khách hàng cụ thể được sử dụng để phân
cụm
Trang 53* Phương pháp trích rút thông tin: Thuật toán phân cụm, chẳng hạn như K-means,
giúp giải quyết vấn đề này bằng cách khai phá các mẫu giữa các hồ sơ KH và dữ liệu giao dịch Sau khi phân cụm, trí tuệ nhân tạo được sử dụng để liên kết các cụm đó với hành vi của KH
* Dữ liệu: Dữ liệu giao dịch của KH, dữ liệu hồ sơ KH có thể giúp thu hẹp hành
vi đối với mỗi KH cụ thể
Trang 54* Phương pháp trích rút thông tin: Thuật toán phân cụm được sử dụng như một
thuật toán khởi tạo để xác định phân khúc khách hàng dựa trên sự phân biệt về giá cả, sau đó bài toán phân lớp sẽ được thực thi
* Dữ liệu: Các giao dịch và hồ sơ khách hàng sử dụng xác định hành vi, khả năng
chi tiêu của họ trong tương lai, phân nhóm dựa trên các tiêu chí đó
Trang 55* Phương pháp trích rút thông tin: Thuật toán phân cụm, chẳng hạn như K-means,
có thể được sử dụng tìm ra đặc điểm cho thấy những KH này là quan trọng
* Dữ liệu: Dữ liệu cần để tính khả năng sinh lợi của KH bao gồm hành vi, xu
hướng, tần suất mua bán sản phẩm, thời gian và kiểu liên lạc tiếp thị Các dữ liệu này thường được lấy từ dữ liệu bán hàng và marketing
Trang 57* Phương pháp trích rút thông tin: Các đánh giá trước hết được thực hiện bằng xử
lý ngôn ngữ tự nhiên, sau đó các thuật toán phân tích văn bản, chẳng hạn như Na#ve Bayes có thể phân tích tài liệu và trả về một giá trị cụ thể việc đánh giá của KH nằm trong khoảng từ -1 (tiêu cực) đến 1 (tích cực)
* Dữ liệu: Dữ liệu đánh giá của KH đối với các sản phẩm là các mạng xã hội,
blogs và các trang web chứa đánh giá của KH; Dữ liệu thu thập được từ các cuộc khảo sát với KH
Trang 58* Phương pháp trích rút thông tin: Cây quyết định có thể được sử
dụng để xác định các thuộc tính quan trọng của một khách hàng có tầm ảnh hưởng; phân tích các liên kết và lý thuyết đồ thị có thể cung cấp một độ đo chính xác
* Dữ liệu: Dữ liệu hồ sơ KH và các dữ liệu có thể được lấy từ mạng xã hội, các
blogs và các trang web có sự đánh giá của KH
Trang 59* Phương pháp trích rút thông tin: Thuật toán Na#ve Bayes được sử
dụng để phân loại văn bản và tài liệu, sau đó đưa ra những cảm nhận tích cực và tiêu cực của KH
* Dữ liệu: Phương tiện truyền thông xã hội như Facebook và Twitter là một nguồn
thông tin tốt để hình thành nguồn dữ liệu về cảm nhận của KH, trong đó Twitter cho phép tìm kiếm tất cả các tweets trên toàn bộ mạng
Trang 61* Phương pháp trích rút thông tin: Sử dụng kỹ thuật phân tích liên kết dựa trên
liên kết giữa các sản phẩm để phân tích giỏ mua hàng Cây quyết định được sử dụng để lưu thời gian thích hợp của một tin nhắn tiếp thị dựa trên các giao dịch, chi trả trước đây của khách hàng
* Dữ liệu: Quá trình giao dịch trước đây của khách hàng là dữ liệu quan trọng nhất
trong trường hợp này Hồ sơ khách hàng cũng cần thiết để giúp dự đoán dự định của KH
Trang 62* Phương pháp trích rút thông tin: Để tính khả năng và thói quen mua sắm của
khách hàng trong tương lai, sử dụng dữ liệu giao dịch trước đây của khách hàng đó
và áp dụng thuật toán phân lớp như hồi quy tuyến tính và cây quyết định
* Dữ liệu: Hồ sơ khách hàng và lịch sử giao dịch của họ là cần thiết trong trường
hợp này
Trang 63* Phương pháp trích rút thông tin: Phân tích liên kết của các giao dịch
trước đây đã được chứng minh là hiệu quả trong tìm kiếm các sản phẩm bán cùng nhau Cây quyết định được lựa chọn khi muốn hiển thị các thuộc tính của các khách hàng đã mua các sản phẩm nhất định
* Dữ liệu: Kết hợp các dữ liệu từ hồ sơ khách hàng, dữ liệu giao dịch, và các sản
phẩm dịch vụ
Trang 65* Phương pháp trích rút thông tin: Xây dựng một hồ sơ cá nhân của từng khách
hàng dựa trên tần suất tương tác trên mỗi kênh Các kiểu liên lạc cũng có thể được đo thông qua độ gắn kết của khách hàng với sản phẩm hoặc phân tích văn bản
* Dữ liệu: Dữ liệu từ các cookies, URL có thể được sử dụng để xác định khách
hàng đang tương tác trực tuyến trên kênh nào và họ đang sử dụng chúng cho mục đích gì
Trang 66* Phương pháp trích rút thông tin: Các tương tác của khách hàng trên các kênh
trực tuyến thu được thông qua các tập tin cookies, URL Các kiểu tương tác trên các kênh có thể được đo bằng kết hợp phân tích văn bản và phân lớp cây quyết định
* Dữ liệu: Dữ liệu có thể sử dụng bao gồm hồ sơ của khách hàng, hiệu suất kênh,
thời gian, các cookies, trang web chứa mã JavaScript,
Trang 67* Phương pháp trích rút thông tin: Cây quyết định được sử dụng để tính điểm cho
mỗi kênh thông tin dựa trên các tương tác trực tuyến/ngoại tuyến và ngược lại
* Dữ liệu: Đo lượng kích chuột, dấu vết và cookies cho thấy mức độ mà khách
hàng tham gia trực tuyến; hồ sơ khách hàng và thống kê quảng cáo từ tất cả các phương tiện được sử dụng để tính hiệu suất của mỗi kênh thông tin