1. Trang chủ
  2. » Cao đẳng - Đại học

Nghiên cứu và xây dựng hệ thống phát hiện gian lận giao dịch thời gian thực

109 52 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 109
Dung lượng 3,69 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc Lập - Tự Do - Hạnh Phúc ĐỀ CƯƠNG CHI TIẾT TÊN ĐỀ TÀI: Nghiên cứu và xây dựng hệ thống phát hiện

Trang 1

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA CÔNG NGHỆ PHẦN MỀM

NGUYỄN PHI HÙNG

KHÓA LUẬN TỐT NGHIỆP NGHIÊN CỨU VÀ XÂY DỰNG HỆ THỐNG PHÁT HIỆN

GIAN LẬN GIAO DỊCH THỜI GIAN THỰC

Research And Building System For Real-Time Transaction Fraud

Detection

KỸ SƯ NGÀNH KỸ THUẬT PHẦN MỀM

Trang 2

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA CÔNG NGHỆ PHẦN MỀM

NGUYỄN PHI HÙNG – 17520068

KHÓA LUẬN TỐT NGHIỆP NGHIÊN CỨU VÀ XÂY DỰNG HỆ THỐNG PHÁT HIỆN

GIAN LẬN GIAO DỊCH THỜI GIAN THỰC

Research And Building System For Real-Time Transaction Fraud

Trang 3

THÔNG TIN HỘI ĐỒNG CHẤM KHÓA LUẬN TỐT NGHIỆP

Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số

……… ngày ……… của Hiệu trưởng Trường Đại học Công nghệ Thông tin

1 … - Chủ tịch

2 … - Thư ký

3 … - Uỷ viên

Trang 4

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

CỘNG HÒA XÃ HỘI CHỦ NGHĨA

VIỆT NAM Độc Lập - Tự Do - Hạnh Phúc

TP HCM, ngày … tháng … năm 2021

NHẬN XÉT KHÓA LUẬN TỐT NGHIỆP

(CỦA CÁN BỘ HƯỚNG DẪN)

Tên khóa luận:

NGHIÊN CỨU VÀ XÂY DỰNG HỆ THỐNG PHÁT HIỆN GIAN LẬN

GIAO DỊCH THỜI GIAN THỰC

Nguyễn Phi Hùng 17520068 TS Hồng Trung Dũng

TS Huỳnh Ngọc Tín

Đánh giá Khóa luận

1 Về cuốn báo cáo:

Số trang 86 Số chương 5

Số bảng số liệu 8 Số hình vẽ 26

Số tài liệu tham khảo 12 Sản phẩm 1

Một số nhận xét về hình thức cuốn báo cáo:

……… ……… ……… ……… ……… ……… ……… ……… ………

……… ……… ……… ……… ……… ……… ……… ……… ………

2 Về nội dung nghiên cứu:

Trang 6

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

CỘNG HÒA XÃ HỘI CHỦ NGHĨA

VIỆT NAM Độc Lập - Tự Do - Hạnh Phúc

TP HCM, ngày … tháng … năm 2021

NHẬN XÉT KHÓA LUẬN TỐT NGHIỆP

(CỦA CÁN BỘ PHẢN BIỆN)

Tên khóa luận:

NGHIÊN CỨU VÀ XÂY DỰNG HỆ THỐNG PHÁT HIỆN GIAN LẬN

GIAO DỊCH THỜI GIAN THỰC

Nguyễn Phi Hùng 17520068 TS Hồng Trung Dũng

TS Huỳnh Ngọc Tín

Đánh giá Khóa luận

5 Về cuốn báo cáo:

Số trang 86 Số chương 5

Số bảng số liệu 8 Số hình vẽ 26

Số tài liệu tham khảo 12 Sản phẩm 1

Một số nhận xét về hình thức cuốn báo cáo:

……… ……… ……… ……… ……… ……… ……… ……… ………

……… ……… ……… ……… ……… ……… ……… ……… ………

6 Về nội dung nghiên cứu:

Trang 8

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC

CÔNG NGHỆ THÔNG TIN

CỘNG HÒA XÃ HỘI CHỦ NGHĨA

VIỆT NAM Độc Lập - Tự Do - Hạnh Phúc

ĐỀ CƯƠNG CHI TIẾT

TÊN ĐỀ TÀI: Nghiên cứu và xây dựng hệ thống phát hiện gian lận giao dịch thời

gian thực

TÊN ĐỀ TÀI TIẾNG ANH: Research And Building System For Real-Time

Transaction Fraud Detection

Cán bộ hướng dẫn: TS.Hồng Trung Dũng, TS.Huỳnh Ngọc Tín

Thời gian thực hiện: Từ ngày 8/03/2021 đến ngày 13/06/2021

Sinh viên thực hiện: Nguyễn Phi Hùng - 17520068

Nội dung đề tài:

- Đặt vấn đề:

Hiện nay, vấn đề gian lận trong giao dịch đang xảy ra ở rất nhiều lĩnh vực

như ngân hàng trực tuyến, thương mại điện tử hay ví điện tử Những vấn đề này

không chỉ gây tổn thất về mặt doanh thu mà còn để lại những hậu quả lớn, ảnh

hưởng đến độ tin cậy, uy tín của các doanh nghiệp Tuy nhiên, việc phát hiện một

gian lận như vậy luôn là một thách thức

Với sự phát triển nhanh chóng của các hình thức giao dịch trực tuyến nói

chung hay thương mại điện tử, thanh toán điện tử nói riêng, vấn nạn gian lận trong

giao dịch trực tuyến ngày càng trở nên nổi cộm So với các hình thức giao dịch

truyền thống, giao dịch trực tuyến đang phải đối mặt với khối lượng chuyển tiền

lớn hơn đáng kể Giải quyết được bài toán này sẽ giúp doanh nghiệp có thể tiết

Trang 9

kiệm được thời gian và nguồn lực, đồng thời tăng trải nghiệm người dùng cũng như độ tin cậy, uy tín của doanh nghiệp.

- Thách thức:

Để giải quyết vấn đề này cần phải thu thập và phân tích dữ liệu giao dịch với khối lượng lớn, đòi hỏi phải có một cơ sở dữ liệu mạnh mẽ để lưu trữ và quản

lý ngoại tuyến, trực tuyến Ngoài ra, phải cần một hệ thống máy tính phân tán quy

mô lớn để chạy các thuật toán đáp ứng các yêu cầu về độ trễ đối với việc giao dịch, dự đoán Mô hình máy học phải luôn cập nhật hoặc đủ thông minh và tổng quát để có thể phát hiện được những hình thức gian lận mới

Trước đây, các phương pháp dựa trên quy tắc đã được nghiên cứu rộng rãi trong nhiều năm cho vấn đề phát hiện gian lận Tuy nhiên, các hình thức gian lận thay đổi nhanh chóng theo thời gian, nên đã làm giảm đáng kể hiệu quả của các quy tắc này Mặt khác, hầu hết các phương pháp trước đây khó có thể nắm bắt được các dạng gian lận phức tạp của các giao dịch trực tuyến hiện nay

- Kết quả mong đợi:

- Xây dựng hoàn thiện hệ thống phát hiện giao dịch gian lận trong thời gian thực

- Tích hợp được với hệ thống giao dịch của Ví điện tử MoMo để chạy thử

Trang 10

Thời gian Kế hoạch thực hiện Phân công Ghi chú

- Chuẩn bị báo cáo tiến độ KLTN giữa

kỳ

Nguyễn Phi Hùng

12/04/2021 -

2/05/2021

- Đưa ra các phương pháp cải tiến, tối ưu hoá về mặt hệ thống

- Tích hợp hệ thống với mô hình học máy

để dự đoán theo dữ liệu ngoại tuyến và trực tuyến

- Đề xuất các phương án dự phòng khi hệ

Nguyễn Phi Hùng

Trang 11

thống có sự cố bất ngờ xảy ra

- Xây dựng biểu đồ trực quan hoá các chỉ

số trong hệ thống để theo dõi hệ thống

- Thực hiện kiểm thử và sửa lỗi cho hệ thống

Nguyễn Phi Hùng

Trang 12

LỜI CẢM ƠN

Lời đầu tiên tôi xin được gửi lời cảm ơn tới Tiến sĩ Hồng Trung Dũng, phó

giám đốc trung tâm Công nghệ thông tin, công ty Cổ phần Dịch vụ Di động Trực

tuyến Anh đã chỉ dẫn tôi và cung cấp các kiến thức mới mà tôi chưa được tiếp cận

khi học tại trường

Bên cạnh đó, tôi muốn tỏ lòng biết ơn sâu sắc nhất tới Tiến sĩ Huỳnh Ngọc

Tín, khoa Công nghệ phần mềm, trường đại học Công Nghệ Thông Tin - ĐH Quốc

Gia TP.HCM, thầy đã tận tình hướng dẫn cho tôi trong suốt thời gian làm khóa luận

tốt nghiệp

Đồng thời, tôi xin gửi lời cảm ơn tới các anh, chị phòng Trí tuệ nhân tạo và

Dữ liệu lớn, trung tâm Công nghệ thông tin, công ty Cổ phần Dịch vụ Di động Trực

tuyến đã tạo điều kiện về cơ sở vật chất, hỗ trợ tôi thực hiện các tác vụ đòi hỏi chi phí

tính toán cao nhằm phục vụ cho sản phẩm cuối cùng

Cuối cùng lời cảm ơn trân quý xin được gửi đến những người thân yêu trong

gia đình đã luôn bên cạnh động viên, tạo những điều kiện tốt nhất để hoàn thành khóa

luận này

TP Hồ Chí Minh, ngày 13 tháng 6 năm 2021

Nguyễn Phi Hùng

Trang 13

MỤC LỤC

Chương 1 TỔNG QUAN ĐỀ TÀI 2

1.1 Động lực nghiên cứu 2

1.2 Mục tiêu đề tài 3

1.3 Đối tượng và phạm vi nghiên cứu 4

1.4 Nội dung và kế hoạch thực hiện 4

1.5 Đóng góp khóa luận 5

1.6 Bố cục khóa luận 6

Chương 2 CƠ SỞ LÝ THUYẾT 7

2.1 Mở đầu 7

2.2 Gian lận trong giao dịch trực tuyến 7

2.2.1 Định nghĩa 7

2.2.2 Một số kịch bản gian lận giao dịch 7

2.2.2.1 Lợi dụng người dùng có nhu cầu vay vốn 7

2.2.2.2 Giả mạo nhân viên chăm sóc khách hàng 8

2.2.2.3 Chiếm đoạt tài sản của người dùng 9

2.2.3 Phân tích các trường hợp gian lận giao dịch 9

2.2.4 Phân tích cách phát hiện gian lận giao dịch hiện tại 10

2.3 Định nghĩa bài toán và các nghiên cứu liên quan 12

2.3.1 Định nghĩa bài toán 12

2.3.2 Các nghiên cứu về hệ thống phát hiện gian lận 12

2.4 Vấn đề, thách thức và hướng giải quyết của bài toán 16

2.4.1 Vấn đề, thách thức của bài toán 16

Trang 14

2.4.1.1 Dữ liệu thời gian thực 17

2.4.1.2 Nhãn không cân bằng 18

2.4.1.3 Quy mô và khối lượng dữ liệu lớn 19

2.4.1.4 Hỗ trợ tính toán phức tạp thời gian thực 19

2.4.2 Hướng giải quyết của đề tài 20

Chương 3 PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG 21

3.1 Mở đầu 21

3.2 Phân tích và thiết kế kiến trúc tổng quan 21

3.3 Mô đun tích hợp dữ liệu 23

3.3.1 Tích hợp dữ liệu batching 23

3.3.2 Tích hợp dữ liệu streaming 24

3.4 Mô đun xử lý dữ liệu 26

3.4.1 Xử lý dữ liệu batching 26

3.4.2 Xử lý dữ liệu streaming 28

3.5 Mô đun lưu trữ dữ liệu 29

3.5.1 Bảng Offline Feature Store 31

3.5.2 Bảng Historical Data 31

3.6 Mô đun truy xuất dữ liệu 32

3.7 Mô đun trực quan hóa dữ liệu 34

Chương 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 36

4.1 Mở đầu 36

4.2 Tích hợp hệ thống và thực nghiệm 36

4.2.1 Tích hợp hệ thống 36

4.2.1.1 Tích hợp tầng service 37

Trang 15

4.2.1.2 Tích hợp tầng dữ liệu 38

4.2.2 Dữ liệu thực nghiệm 40

4.2.2.1 Bộ dữ liệu 40

4.2.3 Các bước thực nghiệm 44

4.3 Tiến hành thực nghiệm 44

4.4 Kết quả 45

4.4.1 Báo cáo về suất hệ thống 46

4.4.2 Báo cáo về hiệu quả kinh tế 47

4.5 Đánh giá 48

Chương 5 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 50

5.1 Kết quả đạt được 50

5.2 Những thuận lợi và khó khăn trong quá trình làm khóa luận 51

5.3 Hướng phát triển 52

PHỤ LỤC 55

Phụ lục 1: Giải thích các khái niệm, service ứng dụng trong đề tài 55

Khái niệm 1: Dữ liệu lớn 55

Khái niệm 2: Điện toán đám mây 57

Khái niệm 3: Thu thập và xử lý dữ liệu lớn với Cloud Pub/Sub và Cloud Dataflow 59

Khái niệm 4: Xử lý dữ liệu lớn với Cloud Dataflow 62

Khái niệm 5: Lưu trữ dữ liệu lớn với Cloud Bigtable và BigQuery 63

Khái niệm 6: Kiến trúc Lamda 66

Khái niệm 7: Kiến trúc Microservices 68

Trang 16

Khái niệm 8: Tự động hóa triển khai, scale-up và quản lý ứng dụng với Kubernetes 70Khái niệm 9: Quy trình tổng hợp, tính toán dữ liệu 75Phụ lục 2: Bản sao bài báo UIT-RBDML: HỆ THỐNG XỬ LÝ VÀ LƯU TRỮ DỮ LIỆU LỚN VỚI THỜI GIAN THỰC CHO DỊCH VỤ MÁY HỌC, Hội nghị khoa học Trẻ & nghiên cứu sinh UIT 2021 78

Trang 17

DANH MỤC HÌNH

Hình 2.1 Biểu đồ thống kê các thủ đoạn gian lận giao dịch phổ biến của ĐTLĐ năm

2020 Nguồn: Ví điện tử MoMo 9

Hình 2.2 Trạng thái giao dịch tẩu tán tiền không thành công sau khi Ví điện tử MoMo đã chặn luồng giao dịch của ví bị ATO Nguồn: Ví điện tử MoMo 11

Hình 2.3 Kiến trúc tổng quan hệ thống TitAnt Nguồn: Ant Financial 13

Hình 2.4 Kiến trúc tổng quan hệ thống của công ty thương mại điện tử Trung Quốc Nguồn: Tech Science Press 15

Hình 2.5 Mô tả việc sử dụng dữ liệu thời gian thực cho các thuật toán máy học Nguồn: towardsdatascience 17

Hình 2.6 Tỷ lệ nhãn huấn luyện không cần bằng trong bộ dữ liệu USCD Nguồn: libguides 18

Hình 3.1 Kiến trúc tổng quan hệ thống Sherlock 22

Hình 3.2 DAG thể hiện các bước tích hợp dữ liệu sử dụng Airflow 24

Hình 3.3 Mô tả việc tích hợp dữ liệu streaming 25

Hình 3.4 Pipeline tích hợp dữ liệu streaming sử dụng Cloud DataFlow 25

Hình 3.5 Bảng so sánh các tính năng nổi bật giữa Spark và Hadoop MapReduce Nguồn: medium 27

Hình 3.6 DAG thể hiện chi tiết các bước xử lý dữ liệu sử dụng Spark 28

Hình 3.7 Tổ chức kiến trúc của một ứng dụng Kubernetes Nguồn: kubernetes.io 29 Hình 3.8 Mô tả kiến trúc tổ chức dữ liệu trong Bigtable Nguồn: Google 30

Hình 3.9 Mô tả đoạn code kiểm tra thông tin giao dịch của Fraud Check service 33

Hình 3.10 Mô tả đoạn code tính toán features giao dịch của Aggregate data in realtime service 34

Hình 3.11 Mô tả một số câu query từ Prometheus để trực quan hoá chỉ số hệ thống bằng Grafana 35

Hình 4.1 Sơ đồ tuần tự quá trình hệ thống Sherlock nhận thông tin giao dịch 37

Hình 4.2 Sơ đồ tuần tự quá trình hệ thống Sherlock nhận dữ liệu streaming 38

Trang 18

Hình 4.3 Sơ đồ tuần tự quá trình hệ thống Sherlock nhận dữ liệu batching 39Hình 4.4 Biểu đồ tần suất giao dịch/giây được kiểm tra bởi hệ thống Sherlock theo ngày 46Hình 4.5 Biểu đồ độ trễ phản hồi khi kiểm tra trạng thái của giao dịch bởi hệ thống Sherlock trên từng giao dịch được đo bằng mili giây 46Hình 4.6 Biểu đồ tần số phát hiện gian lận theo loại giao dịch 47Hình 4.7 Biểu đồ tần số phát hiện ĐTLĐ lấy cắp tài khoản theo ngày 47Hình 4.8 Biểu đồ tần số giao dịch bị phát hiện do ĐTLĐ tạo và tổng giá trị số tiền được bảo vệ theo ngày 48Hình 4.9 Bảng chi tiết thể hiện những giao dịch bị phát hiện do ĐTLĐ tạo cao nhất trong tháng 48

Trang 19

DANH MỤC BẢNG

Bảng 3.1 Cấu trúc tổ chức bảng sherlock.ato_features trong Bigtable 31Bảng 3.2 Cấu trúc tổ chức bảng sherlock ato_historical_data trong Bigtable 32Bảng 4.1 Lược đồ và ý nghĩa của các trường dữ liệu của Bộ dữ liệu Lịch sử giao dịch người dùng 41Bảng 4.2 Lược đồ và ý nghĩa của các trường dữ liệu của Bộ dữ liệu Thiết bị người dùng 41Bảng 4.3 Lược đồ và ý nghĩa của các trường dữ liệu của Bộ dữ liệu Thông tin ngân hàng liên kết người dùng 42Bảng 4.4 Cấu trúc và ý nghĩa của các trường dữ liệu chính của Sự kiện Giao dịch 43Bảng 4.5 Cấu trúc và ý nghĩa của các trường dữ liệu chính của Sự kiện Thiết bị 43Bảng 4.6 Cấu trúc và ý nghĩa của các trường dữ liệu chính của Sự kiện Liên kết ngân hàng 43

Trang 20

DANH MỤC TỪ VIẾT TẮT

1 ATO Account Takeover – hình thức trộm cắp định danh

giúp kẻ xấu có thể truy cập vào tài khoản người dùng

2 GBG Công ty công nghệ toàn cầu về gian lận, vị trí và

dữ liệu nhận dạng thông minh

3 ĐTLĐ Đối tượng lừa đảo

4 CMND/CCCD Chứng minh nhân dân/Căn cước công dân

5 OTP One Time Password – là mật khẩu chỉ có hiệu lực

cho một phiên đăng nhập hoặc giao dịch, trên hệ thống máy tính hoặc thiết bị kỹ thuật số

6 GCP Google Cloud Platform – là một bộ service điện

toán đám mây chạy trên cùng một cơ sở hạ tầng của được cung cấp bởi Google

7 ANSI-SQL Ngôn ngữ tiêu chuẩn để truy cập và quản lý cơ sở

dữ liệu

9 CPU Central Processing Unit – là bộ xử lý trung tâm

của một bộ phận phần cứng

10 AWS Amazon Web Services – là một bộ service điện

toán đám mây chạy trên cùng một cơ sở hạ tầng của được cung cấp bởi Amazon

11 OLAP Online Analytical Processing – phương pháp xử

lý truy vấn dữ liệu lớn

Trang 21

12 ETL Extract Transform Load – trích xuất, biến đổi, tải

là quy trình chung sao chép dữ liệu từ một hoặc nhiều nguồn vào một hệ thống

13 RPS Requests per second – truy vấn mỗi giây là thước

đo phổ biến về lưu lượng tìm kiếm mà hệ thống truy xuất thông tin, chẳng hạn như công cụ tìm kiếm hoặc cơ sở dữ liệu, nhận được trong một giây

14 RAM Là một loại bộ nhớ khả biến cho phép truy xuất

đọc-ghi ngẫu nhiên đến bất kỳ vị trí nào trong bộ nhớ dựa theo địa chỉ bộ nhớ

15 DAG Directed Acyclic Graph – là một đồ thị bao gồm

các đỉnh và các cạnh, với mỗi cạnh hướng từ đỉnh này sang đỉnh khác, sao cho việc tuân theo các hướng đó sẽ không bao giờ tạo thành một vòng khép kín

16 RDD Resilient Distributed Dataset – là tính năng trên

Apache Spark, có thể lưu bản ghi bất biến và được phân vùng để xử lý dữ liệu một cách nhanh chóng

Trang 22

DANH MỤC TỪ TIẾNG ANH

Launching

Là hình thức thử nghiệm ngầm trong phạm vi nội

bộ để đánh giá các tác động bổ sung về tải và hiệu suất lên hệ thống trước khi đưa ra thông báo công khai về khả năng mới

2 Batching Là việc xử lý dữ liệu sau khi dữ liệu được gom

nhóm thành các lô (batch) với một số điều kiện nhất định

3 Streaming Là việc xử lý dữ liệu theo luồng, dữ liệu được xử

lý ngay lập tức hoặc trong khoảng thời gian rất ngắn

4 Pipeline Là một đường ống kết nối giữa các quá trình bằng

cách truyền dữ liệu thông qua các hình thức khác nhau

5 Features Là các đặc trưng, thuộc tính riêng rẽ mà ta có thể

xác định và đo đạc được khi quan sát một bộ dữ liệu nào đó

6 Features

Engineering

Là quá trình biến đổi dữ liệu thành các features đóng vai trò là đầu vào cho các mô hình máy học

7 Framework Là một khái niệm phần mềm trừu tượng, cung cấp

chức năng chung, có thể được thay đổi một cách chọn lọc bằng mã do người dùng viết bổ sung, do

đó cung cấp phần mềm dành riêng cho ứng dụng

8 Microservices Là một kỹ thuật phát triển phần mềm, một biến thể

của kiến trúc hướng dịch vụ cấu trúc một ứng dụng như một tập hợp các dịch vụ được ghép lỏng lẻo

9 Scale-up Là khái niệm mô tả việc nâng cấp, tăng kích thước

hay mở rộng quy mô của một ứng dụng

Trang 23

10 Dashboard Là một loại giao diện người dùng đồ họa thường

cung cấp cái nhìn nhanh về các chỉ số hiệu suất chính có liên quan đến một mục tiêu hoặc quy trình kinh doanh cụ thể

11 Report Là tập hợp những thông tin được thực hiện với

mục đích cụ thể nhằm thông tin chuyển tiếp hoặc tường trình, kể lại các sự kiện nhất định trong một hoàn cảnh hiện hành và có thể có hoặc không những nội dung kiến nghị, đề xuất

12 Service Là dịch vụ cung cấp các tính năng nhằm thỏa mãn

nhu cầu, mong muốn hoặc nguyện vọng của người dùng kỹ thuật

13 Production Là hoạt động chủ yếu trong các hoạt động kinh tế

14 Historical Là thuật ngữ chung có liên quan đến các sự kiện

trong quá khứ

15 Latency Là độ trễ thời gian giữa nguyên nhân và ảnh

hưởng của một số thay đổi vật lý trong hệ thống đang được quan sát

16 Pod Là đối tượng nhỏ nhất và đơn giản nhất của

Trang 24

MỞ ĐẦU

Hiện nay, vấn đề gian lận trong giao dịch đang xảy ra ở rất nhiều lĩnh vực như ngân hàng trực tuyến, thương mại điện tử hay ví điện tử Những vấn đề này không chỉ gây tổn thất về mặt doanh thu mà còn để lại những hậu quả lớn ảnh hưởng đến độ tin cậy, uy tín của các doanh nghiệp Tuy nhiên, việc phát hiện một gian lận như vậy luôn là một thách thức Với sự phát triển nhanh chóng của các hình thức giao dịch trực tuyến nói chung hay thương mại điện tử, thanh toán điện tử nói riêng, vấn nạn gian lận trong giao dịch trực tuyến ngày càng trở nên nổi cộm So với các hình thức giao dịch truyền thống, giao dịch trực tuyến đang phải đối mặt với khối lượng chuyển tiền lớn hơn đáng kể Giải quyết được bài toán này sẽ giúp doanh nghiệp có thể tiết kiệm được thời gian và nguồn lực, đồng thời tăng trải nghiệm người dùng cũng như

độ tin cậy, uy tín của doanh nghiệp Để giải quyết vấn đề này, đầu tiên trong khóa luận tôi thu thập và phân tích dữ liệu giao dịch với khối lượng lớn Bên cạnh đó, tôi nghiên cứu hệ thống cơ sở dữ liệu và máy tính phân tán quy mô lớn, phù hợp để chạy các thuật toán cần thiết và đáp ứng các yêu cầu về độ trễ đối với việc giao dịch, dự đoán gian lận trực tuyến Bước tiếp theo, tôi phân tích dữ liệu và tìm ra các phương pháp trích xuất và lưu trữ đặc trưng của dữ liệu giao dịch trực tuyến Cuối cùng, tôi thực hiện việc triển khai xây dựng một hệ thống xử lý dữ liệu lớn trong thời gian thực, tích hợp triển khai mô hình dự đoán trực tuyến có độ trễ thấp, đáp ứng độ chính xác cao cho giao dịch trực tuyến Để chứng minh sự hiệu quả, tôi tích hợp hệ thống đã xây dựng hệ thống với hệ thống giao dịch của Ví điện tử MoMo, chạy thử nghiệm theo phương pháp Dark Launching trong khoảng thời gian nhất định nhằm phát hiện giao dịch gian lận trực tuyến

Trang 25

Chương 1 TỔNG QUAN ĐỀ TÀI

1.1 Động lực nghiên cứu

Hiện nay, theo số liệu của GBG khu vực châu Á – Thái Bình Dương [1], có rất nhiều rủi ro gian lận ở khu vực châu Á – Thái Bình Dương trong thời gian xảy ra đại dịch Covid-19, các dịch vụ ngân hàng bán lẻ kỹ thuật số đang có nhu cầu tăng cao, từ ví điện tử, cho vay điện tử, kỹ thuật số, cho đến ứng dụng thẻ tín dụng kỹ thuật số Khả năng phát hiện những hành vi gian lận phức tạp và việc nhận dạng bị lạm dụng trong thanh toán, lừa đảo khối lượng lớn… đang trở nên ngày càng cấp bách Những vấn đề này không chỉ gây tổn thất về mặt doanh thu mà còn để lại những hậu quả lớn ảnh hưởng đến độ tin cậy, uy tín của các doanh nghiệp Việc tăng cường ứng dụng công nghệ cao,

có giải pháp tổng thể, phòng thủ nhiều lớp từ phát hiện, phản ứng, dự đoán, ngăn chặn các gian lận trong giao dịch trực tuyến là rất cần thiết cho bất kỳ một thế thống giao dịch nào

Trước đây, các phương pháp dựa trên quy tắc đã được nghiên cứu rộng rãi trong nhiều năm cho vấn đề phát hiện gian lận [2] Tuy nhiên, các hình thức gian lận thay đổi nhanh chóng theo thời gian, làm giảm đáng kể hiệu quả của các quy tắc này Sau đó, nhiều phương pháp dựa trên khai thác

dữ liệu đã được nghiên cứu [3] Hầu hết các phương pháp này hiện nay khó

có thể nắm bắt được các dạng gian lận phức tạp của giao dịch trực tuyến Các bài toán đã được triển khai trước đây đa số đều gặp những vấn đề chung về đặc điểm dữ liệu

Việc phát hiện giao dịch gian lận có thể giải quyết bằng cách truy xuất

và phân tích lịch sử giao dịch trong quá khứ nhưng việc này sẽ phần nào đó sẽ làm ảnh hưởng nhiều tới trải nghiệm của người dùng, không mang tính tức thời Phát hiện gian lận trong thời gian thực là nhiệm vụ phát hiện giao dịch trong khoản thời gian ngắn, nói đúng hơn là ngay tức thì tại thời điểm phát sinh giao dịch với khả năng phát hiện nhanh và duy trì được độ chính xác ở

Trang 26

mức cao Việc này cần đảm bảo độ trễ thấp để không ảnh hưởng tới trải nghiệm người dùng trong khi giao dịch Trong khóa luận này, việc nghiên cứu và xây dựng hệ thống sẽ tập trung vào phát hiện các giao dịch gian lận được phát sinh

từ tài khoản bị ATO Tôi đặt tên toàn bộ hệ thống là Sherlock cảm hứng từ Sherlock Holmes là một nhân vật thám tử tư hư cấu, do nhà văn người Anh Arthur Conan Doyle sáng tạo nên

1.2 Mục tiêu đề tài

Mục tiêu hàng đầu mà Sherlock hướng tới là một hệ thống phát hiện giao dịch gian lận có khả năng huấn luyện dữ liệu quy mô lớn ngoại tuyến trong vài giờ và dự đoán gian lận giao dịch trực tuyến trong thời gian thực Điều này sẽ giúp nhân lực công ty Cổ phần Dịch vụ Di động Trực tuyến có thể giảm bớt một phần công việc, tăng hiệu quả làm việc và tránh sai sót không đáng có từ việc quá tải trong tình trạng phải đối mặt với lượng hồ sơ giao dịch khổng lồ

Mặt khác, đề tài cũng hướng tới việc thiết kế pipeline thu thập, xử lý và lưu trữ dữ liệu lớn từ nhiều nguồn với cấu trúc dữ liệu phức tạp Cùng với việc

đề xuất phương pháp trích xuất, lưu trữ và tính toán đặc trưng dữ liệu, tích hợp

và ứng dụng các mô hình máy học một cách hiệu quả Đây đang là xu hướng trong ngành công nghiệp phần mềm hiện nay và trong cả tương lai khi công nghệ phần cứng hiện nay đã có thể đáp ứng được các công trình nghiên cứu

về trí tuệ nhân tạo

Để đáp ứng các mục tiêu nêu trên, cụ thể trong khóa luận này, tôi sẽ nghiên cứu về cơ sở lý thuyết và những công nghệ hiện đại ngày nay để có thể thiết kế, triển khai hệ thống một cách hoàn chỉnh Từ đó tích hợp vào hệ thống giao dịch của Ví điện tử MoMo để chạy thử nghiệm nhằm đánh giá hiệu quả

và giúp tăng trải nghiệm cho người dùng

Trang 27

1.3 Đối tượng và phạm vi nghiên cứu

Đối tượng là khách hàng sử dụng Ví điện tử MoMo và có phát sinh giao dịch trong thời gian chạy thử nghiệm hệ thống

Phạm vi của nghiên cứu trong đề tài này là tích hợp hệ thống đã xây dựng với hệ thống giao dịch của Ví điện tử MoMo, chạy thử nghiệm theo phương pháp Dark Launching trong khoảng thời gian nhất định

Ngoài ra, các vấn đề liên quan đến tối ưu hóa và xây dựng mô hình máy học, cùng với xây dựng ứng dụng hay hạ tầng của các hệ thống khác trong Ví điện tử MoMo không có thông tin liên quan mật thiết đến bài toán, tất cả đều ngoài khả năng của khóa luận này

1.4 Nội dung và kế hoạch thực hiện

Tổng quan, sau đây là những công việc và thời gian dự kiến thực hiện khóa luận:

Thời gian Kế hoạch thực hiện

8/03/2021 -

21/03/2021

- Phân tích và nghiên cứu nhu cầu bài toán

- Tìm hiểu và tham khảo một số hệ thống lớn có chủ đề liên quan tới bài toán

- Tìm hiểu nguồn dữ liệu phù hợp cho bài toán

- Nghiên cứu cách thu tập dữ liệu ngoại tuyến và trực tuyến

- Tìm hiểu cách triển khai hệ thống dự đoán trong thời gian thực

- Tìm hiểu độ đo để đánh giá hệ thống sau khi hoàn thành 22/03/2021 -

11/04/2021

- Nghiên cứu và thiết kế kiến trúc cho hệ thống

- Nghiên cứu và thiết kế cơ sở dữ liệu lưu trữ dữ liệu lớn ngoại tuyến và trực tuyến

- Xây dựng pipeline thu thập, xử lý dữ liệu ngoại tuyến và trực tuyến

- Xây dựng pipeline trích xuất, lưu trữ và tính toán đặc trưng dữ liệu từ nguồn dữ liệu ngoại tuyến và trực tuyến

- Chuẩn bị báo cáo tiến độ KLTN giữa kỳ

Trang 28

12/04/2021 -

2/05/2021

- Đưa ra các phương pháp cải tiến, tối ưu hóa về mặt hệ thống

- Tích hợp hệ thống với mô hình máy học để dự đoán theo

dữ liệu ngoại tuyến và trực tuyến

- Đề xuất các phương án dự phòng khi hệ thống có sự cố bất ngờ xảy ra

- Xây dựng biểu đồ trực quan hóa các chỉ số trong hệ thống để theo dõi hệ thống

- Triển khai hệ thống lên môi trường Production

- Tích hợp hệ thống thử nghiệm với hệ thống giao dịch của

Ví điện tử MoMo

3/05/2021 -

23/05/2021

- Thực hiện kiểm thử và sửa lỗi cho hệ thống

- Xây dựng báo cáo, tổng hợp kết quả thử nghiệm sau thời gian triển khai lên môi trường Production

Khóa luận đã đạt được nội dung sau:

- Đề xuất và triển khai một hệ thống có thể xử lý dữ liệu lớn, đáp ứng thời gian thực, nhằm tối ưu thời gian triển khai bài toán phát hiện gian lận giao dịch thời gian thực trong công ty Cổ phần Dịch vụ Di động Trực tuyến trên môi trường Production

- Tạo ra một framework kiến trúc hệ thống xử lý dữ liệu thời gian thực có thể tái sử dụng, giúp các bài toán máy học tại công ty Cổ phần Dịch vụ Di động Trực tuyến hiện thực hóa một cách dễ dàng và nhanh chóng các bước liên quan đến xử lý dữ liệu trong quá trình nghiên cứu bài toán

Công bố khoa học trong quá trình học tập và nghiên cứu khoa học tại trường:

o Nguyễn Phi Hùng, Phan Đức Anh, Phan Thế Duy, Nguyễn Văn Kiệt UIT-ODSMS: Hệ thống quản lý hỗ trợ hiến và nhận mô tạng

sử dụng công nghệ Blockchain The 22nd National Conference on

Trang 29

Electronics, Communications and Information Technology – ECIT 2019

REV-o SREV-on T Luu, Hung P Nguyen, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen Comparison Between Traditional Machine Learning Models and Neural Network Models for Vietnamese Hate Speech Detection 2020 RIVF International Conference on Computing and Communication Technologies (RIVF) – IEEE-2020

o Nguyễn Phi Hùng, Huỳnh Ngọc Tín UIT-RBDML: Hệ thống xử lý

và lưu trữ dữ liệu lớn với thời gian thực cho dịch vụ máy học Hội nghị khoa học Trẻ & nghiên cứu sinh UIT 2021

1.6 Bố cục khóa luận

Chương 1: TỔNG QUAN ĐỀ TÀI: Trình bày về phần động lực nghiên cứu,

mục tiêu, đối tượng và phạm vi tiếp cận đề tài, sơ lược về nội dung thực hiện cũng như tổng quan bố cục báo cáo

Chương 2: CƠ SỞ LÝ THUYẾT: Tìm hiểu các cơ sở lý thuyết, khái niệm

liên quan đến bài toán và công nghệ, kỹ thuật để xây dựng hệ thống

Chương 3: PHÂN TÍCH THIẾT KẾ HỆ THỐNG: Dựa trên các kỹ thuật

và công nghệ đã được tìm hiểu, phân tích và thiết kế kiến trúc tổng quan hệ thống, đề xuất cách tích hợp hệ thống với hệ thống bên ngoài

Chương 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ: Tiến hành thực

nghiệm, đo đạc và đánh giá kết quả của hệ thống dựa các chỉ số đã được định nghĩa

Chương 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN: Trình bày kết quả đạt

được, quá trình, kết luận và hướng phát triển cho hệ thống

Trang 30

Chương 2 CƠ SỞ LÝ THUYẾT

2.1 Mở đầu

Trong chương này, đề tài trình bày về khái niệm hay định nghĩa bài toán, bao gồm việc tìm hiểu và so sánh với những bài toán tương tự, khảo sát hiện trạng đối với đề tài, phân tích các hệ thống hiện tại, từ đó tổng hợp và đưa ra các vấn đề, thách thức,

đề xuất hướng giải quyết mà khóa luận có thể đáp ứng

2.2 Gian lận trong giao dịch trực tuyến

2.2.1 Định nghĩa

Gian lận là hành vi lừa dối có chủ đích không công bằng hoặc bất hợp pháp, tước đi quyền hợp pháp của nạn nhân Gian lận [4] có thể vi phạm luật dân sự (nghĩa là nạn nhân lừa đảo có thể kiện thủ phạm lừa đảo để tránh gian lận hoặc thu hồi tiền bồi thường), luật hình sự (nghĩa là thủ phạm lừa đảo có thể bị chính quyền chính phủ truy tố và bỏ tù), hoặc có thể không gây ra mất tiền, tài sản hoặc quyền hợp pháp nhưng vẫn là một yếu tố của một sai phạm dân sự hoặc hình sự khác Mục đích của gian lận có thể là lợi ích tiền tệ hoặc các lợi ích khác, ví dụ như lấy hộ chiếu, giấy thông hành hoặc bằng lái xe, hoặc gian lận thế chấp, trong đó thủ phạm có thể cố gắng có đủ điều kiện để thế chấp bằng cách khai báo sai sự thật

Giao dịch trực tuyến là hành vi cho phép người dùng thực hiện các giao dịch thông qua Internet

2.2.2 Một số kịch bản gian lận giao dịch

2.2.2.1 Lợi dụng người dùng có nhu cầu vay vốn

Người dùng có nhu cầu vay tiền nên liên hệ ĐTLĐ thông qua các bài đăng hỗ trợ cho vay trên mạng xã hội (giả mạo nhân viên công ty tài chính hoặc nhân viên ngân hàng) Sau khi trao đổi qua về thông tin hợp đồng vay

Trang 31

vốn ĐTLĐ yêu cầu người dùng cung cấp những thông tin cá nhân để được vay vốn như: CMND/CCCD, Tài khoản ngân hàng/số thẻ, mật khẩu, OTP

- Trường hợp người dùng cung cấp đầy đủ cả mật khẩu, OTP thì ĐTLĐ

sẽ đăng nhập tài khoản ví và tẩu tán tiền Trong trường hợp này ĐTLĐ thuyết phục người dùng cung cấp thông tin đăng nhập tài khoản ví để kiểm tra số dư tài khoản của người dùng, với mục đích kiểm tra số dư có đủ điều kiện vay hay không, nếu không cung cấp thì sẽ không được vay vốn

- Trường hợp người dùng chỉ cung cấp CMND/CCCD, thông tin ngân hàng: ĐTLĐ sẽ thuyết phục người dùng nhắn cú pháp chuyển hướng cuộc gọi với lý do đó là cú pháp xác nhận đăng ký vay, sau khi chuyển hướng cuộc gọi ĐTLĐ sẽ lấy được OTP thay đổi thiết bị đồng thời sẽ thực hiện cài lại mật khẩu Sau khi đăng nhập ví sẽ thay đổi thiết bị để đề phòng trường hợp người dùng phát hiện bị lừa đảo sẽ không thể đăng nhập ngay vào tài khoản ví ĐTLĐ sẽ tẩu tán tiền qua các hình thức chuyển tiền về một tài khoản ví khác, chuyển tiền về tài khoản ngân hàng không liên kết, thanh toán hàng hóa, dịch vụ

2.2.2.2 Giả mạo nhân viên chăm sóc khách hàng

ĐTLĐ giả mạo là nhân viên chăm sóc khách hàng thông báo người dùng được trúng thưởng thẻ quà tặng qua điện thoại di động, yêu cầu người dùng cung cấp thông tin đăng nhập tài khoản ví (OTP, mật khẩu) với lý do

là xác thực thông tin để trao thưởng hoặc thông báo tài khoản ví của người dùng đang bị lỗi cần phải cung cấp thông tin đăng nhập ví để hỗ trợ xác thực Sau khi đăng nhập tài khoản ví, ĐTLĐ sẽ tiến hành thay đổi mật khẩu

để đảm bảo người dùng phát hiện bị mất tiền thì vẫn không thể đăng nhập

ví ngay được ĐTLĐ sẽ tẩu tán tiền qua các hình thức chuyển tiền về một tài khoản ví khác, chuyển tiền về tài khoản ngân hàng không liên kết, thanh toán hàng hóa, dịch vụ Trong trường hợp này khi trao đổi với người dùng, ĐTLĐ có xác nhận với người dùng một số thông tin cá nhân như: Họ và

Trang 32

tên, ngày sinh, CMND/CCCD, email… nhằm tạo sự tin tưởng cho người dùng rằng người đang liên hệ đúng là nhân viên chăm sóc khách hàng

2.2.2.3 Chiếm đoạt tài sản của người dùng

ĐTLĐ chiếm đoạt tài sản của người dùng, sau đó dùng thiết bị có tài khoản ví và thông tin cá nhân của người dùng gọi chăm sóc khách hàng để yêu cầu nhân viên cung cấp hoặc làm mới mật khẩu Sau khi đăng nhập tài khoản ví, ĐTLĐ sẽ tẩu tán tiền qua các hình thức chuyển tiền về một tài khoản ví khác, chuyển tiền về tài khoản ngân hàng không liên kết, thanh toán hàng hóa, dịch vụ

2.2.3 Phân tích các trường hợp gian lận giao dịch

Hình 2.1 Biểu đồ thống kê các thủ đoạn gian lận giao dịch phổ biến của ĐTLĐ năm

2020 Nguồn: Ví điện tử MoMo

Có thể thấy, đặc điểm chung của các dạng thủ đoạn này cũng giống với các dạng lừa đảo khác đó là đánh vào lòng tham của các nạn nhân, như việc không cần mất phí vẫn nhận được phần quà giá trị lớn, đưa ra mức lãi suất đầu tư siêu lợi nhuận Tuy nhiên, các dạng thủ đoạn này nguy hiểm và dễ dẫn dụ hơn rất nhiều vì thực hiện có hệ thống, có sự bàn bạc và câu kết thực hiện một cách bài bản có kịch bản rõ ràng Tinh vi hơn nữa, các ĐTLĐ tạo thành một nhóm

Trang 33

cùng đưa ra những thông tin giả một cách ăn khớp với nhau, làm cho nạn nhân không thể biết được thông tin nào là thật, thông tin nào là giả Thực tế cho thấy, mặc dù dạng hành vi này không còn quá mới, tuy nhiên vẫn còn rất nhiều người trở thành nạn nhân

2.2.4 Phân tích cách phát hiện gian lận giao dịch hiện tại

Hiện tại, quy trình phát hiện ATO tại Ví điện tử MoMo sẽ được thực hiện

kể từ khi khách hàng gọi lên báo cáo hành vi gian lận của ĐTLĐ đối với tài khoản ví của khách hàng Thời gian xử lý những trường hợp ATO hoàn toàn phụ thuộc vào thời điểm mà khách hàng phản hồi lên bộ phận Chăm sóc khách hàng Thời gian này có thể mất đến 1-2 tuần, thậm chí là 1 tháng, tuỳ vào mức

độ nhận thức và nhu cầu của khách hàng Những khách hàng khi phát hiện ra tài khoản ví của mình bị đánh cắp và bị tẩu tán tiền đều rất hoảng hốt có nhu cầu ngăn chặn hành vi của ĐTLĐ, cũng như mong muốn lấy lại số tiền đã mất Bên cạnh đó, có rất nhiều trường hợp vì lý do cá nhân nên khách hàng không báo cáo hành vi của ĐTLĐ Việc này dẫn tới mất tài khoản, lộ thông tin cá nhân nhạy cảm và để lại nhiều hậu quả tài chính về sau Để bộ phận Chăm sóc khách hàng nắm được thông tin về tài khoản và giải quyết vấn đề, khách hàng

sẽ cần cung cấp các thông tin như:

- Họ và tên

- Số điện thoại (Tài khoản Ví điện tử MoMo)

- CMND/CCCD

- Ngân hàng liên kết

- Số dư tài khoản gần nhất

- Số tiền giao dịch lần cuối cùng

- Thông tin chi tiết về vấn đề đang gặp phải tại thời điểm báo cáo

Trang 34

Hình 2.2 Trạng thái giao dịch tẩu tán tiền không thành công sau khi

Ví điện tử MoMo đã chặn luồng giao dịch của ví bị ATO Nguồn: Ví

Trang 35

- Quy trình điều tra hành vi của ĐTLĐ rất phức tạp và tốn nhiều thời gian, nguồn lực về nhân sự và tài chính

2.3 Định nghĩa bài toán và các nghiên cứu liên quan

2.3.1 Định nghĩa bài toán

Phát hiện gian lận trong giao dịch là cố gắng phát hiện và xác định các hành vi gian lận khi ĐTLĐ cố gắng xâm nhập vào hệ thống và báo cáo chúng cho quản trị viên hệ thống nhằm có những hành động ngăn chặn cụ thể Trong những năm trước, các phương pháp phát hiện thông qua các mẫu gian lận hay quy tắc đã được sử dụng để phát hiện gian lận Những kỹ thuật này khá phức tạp và tốn thời gian

Mặc khác, với khối lượng lớn và phức tạp như hiện nay, việc áp dụng những phương pháp này đã không còn mang lại mang lại tính hiệu quả cao

Để nâng cao hiệu quả của việc phát hiện, các hệ thống phát hiện giao dịch gian lận hiện nay được áp dụng các phương pháp hiện đại như Khai thác

dữ liệu bao gồm các kỹ thuật thống kê, toán học, trí tuệ nhân tạo và máy học để trích xuất và xác định thông tin hữu ích từ cơ sở dữ liệu lớn Các hệ thống này có một số ưu điểm chính như: (1) Mẫu gian lận được thu thập tự động từ dữ liệu; (2) Dự đoán về “khả năng xảy ra gian lận” cho từng trường hợp; và (3) Phát hiện ra mẫu gian lận mới

2.3.2 Các nghiên cứu về hệ thống phát hiện gian lận

Tập đoàn Dịch vụ Tài chính Ant Financial, trước đây gọi là Alipay, là một công ty liên kết của Tập đoàn Alibaba Ant Financial là công ty FinTech

có giá trị cao nhất thế giới Hệ thống phát hiện giao dịch gian lận trực tuyến của Ant Financial có tên là TitAnt [5] Đây là một hệ thống phát hiện gian lận giao dịch có thể đào tạo dữ liệu quy mô lớn ngoại tuyến, trực tuyến và

dự đoán theo thời gian thực Phương pháp phát hiện của hệ thống là tiếp cận phát hiện giao dịch bất thường và sử dụng mô hình máy học để phân

Trang 36

loại, đánh giá những giao dịch “nghi ngờ” này Mặt khác, với khối lượng lớn và phức tạp như hiện nay, việc áp dụng những phương pháp này đã không còn mang lại mang lại tính hiệu quả cao

Hình 2.3 Kiến trúc tổng quan hệ thống TitAnt Nguồn: Ant Financial

Để đảm bảo phản hồi kịp thời đối với các yêu cầu phát hiện gian lận, hệ thống này đề xuất một service dự đoán độ trễ thấp, nền tảng lưu trữ cơ sở

dữ liệu mạnh mẽ và các thuật toán phân tán Như minh họa trong Hình 2.3,

hệ thống có hai phần chính, là đào tạo định kỳ ngoại tuyến và dự đoán thời gian thực trực tuyến

Trong phần đào tạo ngoại tuyến, nơi các mô hình được đào tạo theo thời gian cố định và các mô hình được tải lên bộ dự đoán trực tuyến để theo dõi giao dịch theo thời gian thực Khi người dùng bắt đầu yêu cầu giao dịch trong Alipay, nhật ký giao dịch sẽ được gửi định kỳ đến MaxCompute để tính toán ngoại tuyến MaxCompute hỗ trợ SQL và MapReduce để trích xuất các tính năng/nhãn cơ bản và xây dựng mạng giao dịch Đồng thời, KunPeng hỗ trợ đào tạo mô hình phân loại và phân tán quy mô lớn Các

mô hình phân loại và nhúng nút người dùng đã học được lưu trữ trong MaxCompute Dự đoán trực tuyến xảy ra tại Máy chủ Mô hình (MS), nơi

Trang 37

các tệp mô hình được cập nhật định kỳ Sau khi một giao dịch được tạo bởi người dùng trong Alipay, máy chủ Alipay ngay lập tức yêu cầu Máy chủ

Mô hình (MS) Sau đó, MS lấy dữ liệu liên quan từ Ali-HBase và đưa ra

dự đoán theo thời gian thực Nếu giao dịch bị phát hiện là gian lận, giao dịch đang diễn ra sẽ bị gián đoạn và người chuyển sẽ được thông báo

Hệ thống của Alipay được công bố vào ngày 18/06/2019, có thể cho thấy được cách thức nghiên cứu và triển khai của toàn bộ hệ thống Nhưng hệ thống này được hiện triển khai nội bộ và không công khai ra bên ngoài Bên cạnh việc phát hiện gian lận trong các giao dịch về công nghệ tài chính, việc phát hiện gian lận trong ngành thương mại điện tử trực tuyến cũng rất được quan tâm Với sự phát triển nhanh chóng của Internet di động và công nghệ tài chính, các giao dịch thương mại điện tử trực tuyến ngày càng gia tăng và mở rộng rất nhanh, trên toàn cầu mang lại nhiều tiện lợi và sẵn có cho cuộc sống của chúng ta, nhưng đồng thời, cơ hội thực hiện các hành vi gian lận cũng có đủ mọi hình thức và các kích cỡ Hơn nữa, không hoàn toàn giống như trong các lĩnh vực hiện có, do lượng dữ liệu khổng lồ được tạo ra trong thương mại điện tử, điều này làm cho các giao dịch gian lận diễn ra lén lút với các giao dịch chân chính hơn trước

Vào năm 2019, một công ty thương mại điện tử của Trung Quốc [6] đã đề xuất một cách tiếp cận mới có thể mở rộng và toàn diện để phát hiện gian lận trong các giao dịch thương mại điện tử trực tuyến được đề xuất với chủ yếu là bốn mô-đun logic, sử dụng phân tích dữ liệu lớn và thuật toán máy học để song song xử lý dữ liệu Kết quả thử nghiệm cho thấy cách tiếp cận chính xác và hiệu quả hơn để phát hiện các gian lận trong giao dịch thương mại điện tử trực tuyến và có thể scale-up để xử lý dữ liệu lớn nhằm thu được tài sản theo thời gian thực

Trang 38

Hình 2.4 Kiến trúc tổng quan hệ thống của công ty thương mại điện tử

Trung Quốc Nguồn: Tech Science Press

Hệ thống sử dụng Apache Spark on Yarn làm cơ sở hạ tầng để triển khai phân tán các thuật toán máy học với dữ liệu lớn nhằm nâng cao hiệu quả phát hiện gian lận Dựa trên Apache Spark, cách tiếp cận được đề xuất được thiết kế để cung cấp các biện pháp chống gian lận trong thời gian thực cho giao dịch thương mại điện tử trực tuyến và dễ dàng scale-up quy mô

Nó chủ yếu bao gồm bốn mô-đun logic: tiền xử lý dữ liệu giao dịch, hệ thống chuyên gia với cơ sở kiến thức và quy tắc, phát hiện gian lận bằng thuật toán máy học và khám phá mẫu hành vi lệch lạc Khung của phương pháp này được trình bày trong Hình 3 Dữ liệu lớn của các giao dịch thương mại điện tử trực tuyến, chẳng hạn như dữ liệu giao dịch và dữ liệu thanh toán, trước hết được xử lý lại trong mô-đun tiền xử lý dữ liệu giao dịch và được truyền đến mô-đun hệ thống chuyên gia dựa trên quy tắc, được thực hiện với nền tảng phát trực tuyến Spark và nền tảng phân tán Apache Kafka, để phát hiện xem các hành vi giao dịch trực tuyến có bất thường

Trang 39

hay không Sau đó, dữ liệu thông thường từ mô-đun hệ thống chuyên gia được sử dụng để chạy phân tích hành vi với các thuật toán CNN, Cây quyết định và SVM trong mô-đun phát hiện gian lận máy học Dựa trên kết quả phân loại máy học, chiến lược bỏ phiếu toàn diện được áp dụng để thu được kết quả phát hiện hành vi gian lận Hơn nữa, dữ liệu bình thường được kiểm tra từ các mô-đun trước đó được phân tích trong mô-đun phát hiện hành vi lệch lạc với các thuật toán phân cụm trong trường hợp mô hình gian lận mới của các giao dịch trực tuyến

Cũng như hệ thống TitAnt, hệ thống của công ty thương mại điện tử Trung Quốc này cũng chỉ lưu hành nội bộ và không công khai hệ thống ra bên ngoài, vì tính bảo mật

Ngoài ra, hiện hay cũng có những công ty cung cấp hệ thống về việc phát hiện gian lận Nhưng vì tính bảo mật dữ liệu cá nhân cho người dùng, chi phí sử dụng quá lớn và tính linh hoạt trong việc triển khai hệ thống nên các doanh nghiệp hiện nay đều có xu hướng xây dựng hệ thống phát hiện gian lận nội bộ

2.4 Vấn đề, thách thức và hướng giải quyết của bài toán

2.4.1 Vấn đề, thách thức của bài toán

Bài toán phát hiện gian lận là một bài toán phức tạp Có thể nhận thấy rằng

hệ thống phát hiện gian lận dễ bị lỗi, có tỷ lệ chính xác thấp hoặc đưa ra nhiều cảnh báo sai Các hệ thống thương mại điện tử vô cùng khó khăn trong việc xử lý vấn nạn gian lận buộc họ phải chịu tổn thất nặng nề Điều này xảy ra bởi vì các hệ thống phát hiện gian lận cần phải đối phó với nhiều thách thức mà không thể biết trước Một số thuộc tính thách thức mà việc phát hiện gian lận phải đối phó sẽ được trình bày trong phần này

Trang 40

2.4.1.1 Dữ liệu thời gian thực

Hình 2.5 Mô tả việc sử dụng dữ liệu thời gian thực cho các thuật toán

máy học Nguồn: towardsdatascience

Hành vi của ĐTLĐ thay đổi liên tục với những thủ đoạn tinh vi Vấn đề này nãy có ảnh hưởng trực tiếp tới các mô hình máy học Như mô hình học

có giám sát, mục đích là dự đoán biến mục tiêu y với một tập hợp các đặc điểm đầu vào X [7] Trong trường hợp huấn luyện được sử dụng để xây dựng mô hình, cả X và y tương ứng với dữ liệu đầu vào và biến mục tiêu Trong trường hợp mới mà mô hình dự đoán được áp dụng, X được biết đến, nhưng y không được biết tại thời điểm dự đoán và mối quan hệ giữa

dữ liệu đầu vào và biến mục tiêu có thể thay đổi Hay đặc biệt là trong học tập trực tuyến, nơi mô hình phát hiện được cập nhật ngay lập tức nhưng dựa trên dữ liệu lỗi thời, vì vậy khi dữ liệu mới đến, mô hình có thể bị sai lệch và đưa ra nhiều cảnh báo sai Vì vậy, việc sử dụng các dữ liệu thời gian thực (Xt+1) cho các thuật toán học thích ứng để xử lý vấn đề này là bắt buộc

Ngày đăng: 05/09/2021, 20:54

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w