HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc Lập - Tự Do - Hạnh Phúc ĐỀ CƯƠNG CHI TIẾT TÊN ĐỀ TÀI: Nghiên cứu và xây dựng hệ thống phát hiện
Trang 1ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA CÔNG NGHỆ PHẦN MỀM
NGUYỄN PHI HÙNG
KHÓA LUẬN TỐT NGHIỆP NGHIÊN CỨU VÀ XÂY DỰNG HỆ THỐNG PHÁT HIỆN
GIAN LẬN GIAO DỊCH THỜI GIAN THỰC
Research And Building System For Real-Time Transaction Fraud
Detection
KỸ SƯ NGÀNH KỸ THUẬT PHẦN MỀM
Trang 2ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA CÔNG NGHỆ PHẦN MỀM
NGUYỄN PHI HÙNG – 17520068
KHÓA LUẬN TỐT NGHIỆP NGHIÊN CỨU VÀ XÂY DỰNG HỆ THỐNG PHÁT HIỆN
GIAN LẬN GIAO DỊCH THỜI GIAN THỰC
Research And Building System For Real-Time Transaction Fraud
Trang 3THÔNG TIN HỘI ĐỒNG CHẤM KHÓA LUẬN TỐT NGHIỆP
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số
……… ngày ……… của Hiệu trưởng Trường Đại học Công nghệ Thông tin
1 … - Chủ tịch
2 … - Thư ký
3 … - Uỷ viên
Trang 4ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
CỘNG HÒA XÃ HỘI CHỦ NGHĨA
VIỆT NAM Độc Lập - Tự Do - Hạnh Phúc
TP HCM, ngày … tháng … năm 2021
NHẬN XÉT KHÓA LUẬN TỐT NGHIỆP
(CỦA CÁN BỘ HƯỚNG DẪN)
Tên khóa luận:
NGHIÊN CỨU VÀ XÂY DỰNG HỆ THỐNG PHÁT HIỆN GIAN LẬN
GIAO DỊCH THỜI GIAN THỰC
Nguyễn Phi Hùng 17520068 TS Hồng Trung Dũng
TS Huỳnh Ngọc Tín
Đánh giá Khóa luận
1 Về cuốn báo cáo:
Số trang 86 Số chương 5
Số bảng số liệu 8 Số hình vẽ 26
Số tài liệu tham khảo 12 Sản phẩm 1
Một số nhận xét về hình thức cuốn báo cáo:
……… ……… ……… ……… ……… ……… ……… ……… ………
……… ……… ……… ……… ……… ……… ……… ……… ………
2 Về nội dung nghiên cứu:
Trang 6ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
CỘNG HÒA XÃ HỘI CHỦ NGHĨA
VIỆT NAM Độc Lập - Tự Do - Hạnh Phúc
TP HCM, ngày … tháng … năm 2021
NHẬN XÉT KHÓA LUẬN TỐT NGHIỆP
(CỦA CÁN BỘ PHẢN BIỆN)
Tên khóa luận:
NGHIÊN CỨU VÀ XÂY DỰNG HỆ THỐNG PHÁT HIỆN GIAN LẬN
GIAO DỊCH THỜI GIAN THỰC
Nguyễn Phi Hùng 17520068 TS Hồng Trung Dũng
TS Huỳnh Ngọc Tín
Đánh giá Khóa luận
5 Về cuốn báo cáo:
Số trang 86 Số chương 5
Số bảng số liệu 8 Số hình vẽ 26
Số tài liệu tham khảo 12 Sản phẩm 1
Một số nhận xét về hình thức cuốn báo cáo:
……… ……… ……… ……… ……… ……… ……… ……… ………
……… ……… ……… ……… ……… ……… ……… ……… ………
6 Về nội dung nghiên cứu:
Trang 8ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC
CÔNG NGHỆ THÔNG TIN
CỘNG HÒA XÃ HỘI CHỦ NGHĨA
VIỆT NAM Độc Lập - Tự Do - Hạnh Phúc
ĐỀ CƯƠNG CHI TIẾT
TÊN ĐỀ TÀI: Nghiên cứu và xây dựng hệ thống phát hiện gian lận giao dịch thời
gian thực
TÊN ĐỀ TÀI TIẾNG ANH: Research And Building System For Real-Time
Transaction Fraud Detection
Cán bộ hướng dẫn: TS.Hồng Trung Dũng, TS.Huỳnh Ngọc Tín
Thời gian thực hiện: Từ ngày 8/03/2021 đến ngày 13/06/2021
Sinh viên thực hiện: Nguyễn Phi Hùng - 17520068
Nội dung đề tài:
- Đặt vấn đề:
Hiện nay, vấn đề gian lận trong giao dịch đang xảy ra ở rất nhiều lĩnh vực
như ngân hàng trực tuyến, thương mại điện tử hay ví điện tử Những vấn đề này
không chỉ gây tổn thất về mặt doanh thu mà còn để lại những hậu quả lớn, ảnh
hưởng đến độ tin cậy, uy tín của các doanh nghiệp Tuy nhiên, việc phát hiện một
gian lận như vậy luôn là một thách thức
Với sự phát triển nhanh chóng của các hình thức giao dịch trực tuyến nói
chung hay thương mại điện tử, thanh toán điện tử nói riêng, vấn nạn gian lận trong
giao dịch trực tuyến ngày càng trở nên nổi cộm So với các hình thức giao dịch
truyền thống, giao dịch trực tuyến đang phải đối mặt với khối lượng chuyển tiền
lớn hơn đáng kể Giải quyết được bài toán này sẽ giúp doanh nghiệp có thể tiết
Trang 9kiệm được thời gian và nguồn lực, đồng thời tăng trải nghiệm người dùng cũng như độ tin cậy, uy tín của doanh nghiệp.
- Thách thức:
Để giải quyết vấn đề này cần phải thu thập và phân tích dữ liệu giao dịch với khối lượng lớn, đòi hỏi phải có một cơ sở dữ liệu mạnh mẽ để lưu trữ và quản
lý ngoại tuyến, trực tuyến Ngoài ra, phải cần một hệ thống máy tính phân tán quy
mô lớn để chạy các thuật toán đáp ứng các yêu cầu về độ trễ đối với việc giao dịch, dự đoán Mô hình máy học phải luôn cập nhật hoặc đủ thông minh và tổng quát để có thể phát hiện được những hình thức gian lận mới
Trước đây, các phương pháp dựa trên quy tắc đã được nghiên cứu rộng rãi trong nhiều năm cho vấn đề phát hiện gian lận Tuy nhiên, các hình thức gian lận thay đổi nhanh chóng theo thời gian, nên đã làm giảm đáng kể hiệu quả của các quy tắc này Mặt khác, hầu hết các phương pháp trước đây khó có thể nắm bắt được các dạng gian lận phức tạp của các giao dịch trực tuyến hiện nay
- Kết quả mong đợi:
- Xây dựng hoàn thiện hệ thống phát hiện giao dịch gian lận trong thời gian thực
- Tích hợp được với hệ thống giao dịch của Ví điện tử MoMo để chạy thử
Trang 10Thời gian Kế hoạch thực hiện Phân công Ghi chú
- Chuẩn bị báo cáo tiến độ KLTN giữa
kỳ
Nguyễn Phi Hùng
12/04/2021 -
2/05/2021
- Đưa ra các phương pháp cải tiến, tối ưu hoá về mặt hệ thống
- Tích hợp hệ thống với mô hình học máy
để dự đoán theo dữ liệu ngoại tuyến và trực tuyến
- Đề xuất các phương án dự phòng khi hệ
Nguyễn Phi Hùng
Trang 11thống có sự cố bất ngờ xảy ra
- Xây dựng biểu đồ trực quan hoá các chỉ
số trong hệ thống để theo dõi hệ thống
- Thực hiện kiểm thử và sửa lỗi cho hệ thống
Nguyễn Phi Hùng
Trang 12LỜI CẢM ƠN
Lời đầu tiên tôi xin được gửi lời cảm ơn tới Tiến sĩ Hồng Trung Dũng, phó
giám đốc trung tâm Công nghệ thông tin, công ty Cổ phần Dịch vụ Di động Trực
tuyến Anh đã chỉ dẫn tôi và cung cấp các kiến thức mới mà tôi chưa được tiếp cận
khi học tại trường
Bên cạnh đó, tôi muốn tỏ lòng biết ơn sâu sắc nhất tới Tiến sĩ Huỳnh Ngọc
Tín, khoa Công nghệ phần mềm, trường đại học Công Nghệ Thông Tin - ĐH Quốc
Gia TP.HCM, thầy đã tận tình hướng dẫn cho tôi trong suốt thời gian làm khóa luận
tốt nghiệp
Đồng thời, tôi xin gửi lời cảm ơn tới các anh, chị phòng Trí tuệ nhân tạo và
Dữ liệu lớn, trung tâm Công nghệ thông tin, công ty Cổ phần Dịch vụ Di động Trực
tuyến đã tạo điều kiện về cơ sở vật chất, hỗ trợ tôi thực hiện các tác vụ đòi hỏi chi phí
tính toán cao nhằm phục vụ cho sản phẩm cuối cùng
Cuối cùng lời cảm ơn trân quý xin được gửi đến những người thân yêu trong
gia đình đã luôn bên cạnh động viên, tạo những điều kiện tốt nhất để hoàn thành khóa
luận này
TP Hồ Chí Minh, ngày 13 tháng 6 năm 2021
Nguyễn Phi Hùng
Trang 13MỤC LỤC
Chương 1 TỔNG QUAN ĐỀ TÀI 2
1.1 Động lực nghiên cứu 2
1.2 Mục tiêu đề tài 3
1.3 Đối tượng và phạm vi nghiên cứu 4
1.4 Nội dung và kế hoạch thực hiện 4
1.5 Đóng góp khóa luận 5
1.6 Bố cục khóa luận 6
Chương 2 CƠ SỞ LÝ THUYẾT 7
2.1 Mở đầu 7
2.2 Gian lận trong giao dịch trực tuyến 7
2.2.1 Định nghĩa 7
2.2.2 Một số kịch bản gian lận giao dịch 7
2.2.2.1 Lợi dụng người dùng có nhu cầu vay vốn 7
2.2.2.2 Giả mạo nhân viên chăm sóc khách hàng 8
2.2.2.3 Chiếm đoạt tài sản của người dùng 9
2.2.3 Phân tích các trường hợp gian lận giao dịch 9
2.2.4 Phân tích cách phát hiện gian lận giao dịch hiện tại 10
2.3 Định nghĩa bài toán và các nghiên cứu liên quan 12
2.3.1 Định nghĩa bài toán 12
2.3.2 Các nghiên cứu về hệ thống phát hiện gian lận 12
2.4 Vấn đề, thách thức và hướng giải quyết của bài toán 16
2.4.1 Vấn đề, thách thức của bài toán 16
Trang 142.4.1.1 Dữ liệu thời gian thực 17
2.4.1.2 Nhãn không cân bằng 18
2.4.1.3 Quy mô và khối lượng dữ liệu lớn 19
2.4.1.4 Hỗ trợ tính toán phức tạp thời gian thực 19
2.4.2 Hướng giải quyết của đề tài 20
Chương 3 PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG 21
3.1 Mở đầu 21
3.2 Phân tích và thiết kế kiến trúc tổng quan 21
3.3 Mô đun tích hợp dữ liệu 23
3.3.1 Tích hợp dữ liệu batching 23
3.3.2 Tích hợp dữ liệu streaming 24
3.4 Mô đun xử lý dữ liệu 26
3.4.1 Xử lý dữ liệu batching 26
3.4.2 Xử lý dữ liệu streaming 28
3.5 Mô đun lưu trữ dữ liệu 29
3.5.1 Bảng Offline Feature Store 31
3.5.2 Bảng Historical Data 31
3.6 Mô đun truy xuất dữ liệu 32
3.7 Mô đun trực quan hóa dữ liệu 34
Chương 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 36
4.1 Mở đầu 36
4.2 Tích hợp hệ thống và thực nghiệm 36
4.2.1 Tích hợp hệ thống 36
4.2.1.1 Tích hợp tầng service 37
Trang 154.2.1.2 Tích hợp tầng dữ liệu 38
4.2.2 Dữ liệu thực nghiệm 40
4.2.2.1 Bộ dữ liệu 40
4.2.3 Các bước thực nghiệm 44
4.3 Tiến hành thực nghiệm 44
4.4 Kết quả 45
4.4.1 Báo cáo về suất hệ thống 46
4.4.2 Báo cáo về hiệu quả kinh tế 47
4.5 Đánh giá 48
Chương 5 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 50
5.1 Kết quả đạt được 50
5.2 Những thuận lợi và khó khăn trong quá trình làm khóa luận 51
5.3 Hướng phát triển 52
PHỤ LỤC 55
Phụ lục 1: Giải thích các khái niệm, service ứng dụng trong đề tài 55
Khái niệm 1: Dữ liệu lớn 55
Khái niệm 2: Điện toán đám mây 57
Khái niệm 3: Thu thập và xử lý dữ liệu lớn với Cloud Pub/Sub và Cloud Dataflow 59
Khái niệm 4: Xử lý dữ liệu lớn với Cloud Dataflow 62
Khái niệm 5: Lưu trữ dữ liệu lớn với Cloud Bigtable và BigQuery 63
Khái niệm 6: Kiến trúc Lamda 66
Khái niệm 7: Kiến trúc Microservices 68
Trang 16Khái niệm 8: Tự động hóa triển khai, scale-up và quản lý ứng dụng với Kubernetes 70Khái niệm 9: Quy trình tổng hợp, tính toán dữ liệu 75Phụ lục 2: Bản sao bài báo UIT-RBDML: HỆ THỐNG XỬ LÝ VÀ LƯU TRỮ DỮ LIỆU LỚN VỚI THỜI GIAN THỰC CHO DỊCH VỤ MÁY HỌC, Hội nghị khoa học Trẻ & nghiên cứu sinh UIT 2021 78
Trang 17DANH MỤC HÌNH
Hình 2.1 Biểu đồ thống kê các thủ đoạn gian lận giao dịch phổ biến của ĐTLĐ năm
2020 Nguồn: Ví điện tử MoMo 9
Hình 2.2 Trạng thái giao dịch tẩu tán tiền không thành công sau khi Ví điện tử MoMo đã chặn luồng giao dịch của ví bị ATO Nguồn: Ví điện tử MoMo 11
Hình 2.3 Kiến trúc tổng quan hệ thống TitAnt Nguồn: Ant Financial 13
Hình 2.4 Kiến trúc tổng quan hệ thống của công ty thương mại điện tử Trung Quốc Nguồn: Tech Science Press 15
Hình 2.5 Mô tả việc sử dụng dữ liệu thời gian thực cho các thuật toán máy học Nguồn: towardsdatascience 17
Hình 2.6 Tỷ lệ nhãn huấn luyện không cần bằng trong bộ dữ liệu USCD Nguồn: libguides 18
Hình 3.1 Kiến trúc tổng quan hệ thống Sherlock 22
Hình 3.2 DAG thể hiện các bước tích hợp dữ liệu sử dụng Airflow 24
Hình 3.3 Mô tả việc tích hợp dữ liệu streaming 25
Hình 3.4 Pipeline tích hợp dữ liệu streaming sử dụng Cloud DataFlow 25
Hình 3.5 Bảng so sánh các tính năng nổi bật giữa Spark và Hadoop MapReduce Nguồn: medium 27
Hình 3.6 DAG thể hiện chi tiết các bước xử lý dữ liệu sử dụng Spark 28
Hình 3.7 Tổ chức kiến trúc của một ứng dụng Kubernetes Nguồn: kubernetes.io 29 Hình 3.8 Mô tả kiến trúc tổ chức dữ liệu trong Bigtable Nguồn: Google 30
Hình 3.9 Mô tả đoạn code kiểm tra thông tin giao dịch của Fraud Check service 33
Hình 3.10 Mô tả đoạn code tính toán features giao dịch của Aggregate data in realtime service 34
Hình 3.11 Mô tả một số câu query từ Prometheus để trực quan hoá chỉ số hệ thống bằng Grafana 35
Hình 4.1 Sơ đồ tuần tự quá trình hệ thống Sherlock nhận thông tin giao dịch 37
Hình 4.2 Sơ đồ tuần tự quá trình hệ thống Sherlock nhận dữ liệu streaming 38
Trang 18Hình 4.3 Sơ đồ tuần tự quá trình hệ thống Sherlock nhận dữ liệu batching 39Hình 4.4 Biểu đồ tần suất giao dịch/giây được kiểm tra bởi hệ thống Sherlock theo ngày 46Hình 4.5 Biểu đồ độ trễ phản hồi khi kiểm tra trạng thái của giao dịch bởi hệ thống Sherlock trên từng giao dịch được đo bằng mili giây 46Hình 4.6 Biểu đồ tần số phát hiện gian lận theo loại giao dịch 47Hình 4.7 Biểu đồ tần số phát hiện ĐTLĐ lấy cắp tài khoản theo ngày 47Hình 4.8 Biểu đồ tần số giao dịch bị phát hiện do ĐTLĐ tạo và tổng giá trị số tiền được bảo vệ theo ngày 48Hình 4.9 Bảng chi tiết thể hiện những giao dịch bị phát hiện do ĐTLĐ tạo cao nhất trong tháng 48
Trang 19DANH MỤC BẢNG
Bảng 3.1 Cấu trúc tổ chức bảng sherlock.ato_features trong Bigtable 31Bảng 3.2 Cấu trúc tổ chức bảng sherlock ato_historical_data trong Bigtable 32Bảng 4.1 Lược đồ và ý nghĩa của các trường dữ liệu của Bộ dữ liệu Lịch sử giao dịch người dùng 41Bảng 4.2 Lược đồ và ý nghĩa của các trường dữ liệu của Bộ dữ liệu Thiết bị người dùng 41Bảng 4.3 Lược đồ và ý nghĩa của các trường dữ liệu của Bộ dữ liệu Thông tin ngân hàng liên kết người dùng 42Bảng 4.4 Cấu trúc và ý nghĩa của các trường dữ liệu chính của Sự kiện Giao dịch 43Bảng 4.5 Cấu trúc và ý nghĩa của các trường dữ liệu chính của Sự kiện Thiết bị 43Bảng 4.6 Cấu trúc và ý nghĩa của các trường dữ liệu chính của Sự kiện Liên kết ngân hàng 43
Trang 20DANH MỤC TỪ VIẾT TẮT
1 ATO Account Takeover – hình thức trộm cắp định danh
giúp kẻ xấu có thể truy cập vào tài khoản người dùng
2 GBG Công ty công nghệ toàn cầu về gian lận, vị trí và
dữ liệu nhận dạng thông minh
3 ĐTLĐ Đối tượng lừa đảo
4 CMND/CCCD Chứng minh nhân dân/Căn cước công dân
5 OTP One Time Password – là mật khẩu chỉ có hiệu lực
cho một phiên đăng nhập hoặc giao dịch, trên hệ thống máy tính hoặc thiết bị kỹ thuật số
6 GCP Google Cloud Platform – là một bộ service điện
toán đám mây chạy trên cùng một cơ sở hạ tầng của được cung cấp bởi Google
7 ANSI-SQL Ngôn ngữ tiêu chuẩn để truy cập và quản lý cơ sở
dữ liệu
9 CPU Central Processing Unit – là bộ xử lý trung tâm
của một bộ phận phần cứng
10 AWS Amazon Web Services – là một bộ service điện
toán đám mây chạy trên cùng một cơ sở hạ tầng của được cung cấp bởi Amazon
11 OLAP Online Analytical Processing – phương pháp xử
lý truy vấn dữ liệu lớn
Trang 2112 ETL Extract Transform Load – trích xuất, biến đổi, tải
là quy trình chung sao chép dữ liệu từ một hoặc nhiều nguồn vào một hệ thống
13 RPS Requests per second – truy vấn mỗi giây là thước
đo phổ biến về lưu lượng tìm kiếm mà hệ thống truy xuất thông tin, chẳng hạn như công cụ tìm kiếm hoặc cơ sở dữ liệu, nhận được trong một giây
14 RAM Là một loại bộ nhớ khả biến cho phép truy xuất
đọc-ghi ngẫu nhiên đến bất kỳ vị trí nào trong bộ nhớ dựa theo địa chỉ bộ nhớ
15 DAG Directed Acyclic Graph – là một đồ thị bao gồm
các đỉnh và các cạnh, với mỗi cạnh hướng từ đỉnh này sang đỉnh khác, sao cho việc tuân theo các hướng đó sẽ không bao giờ tạo thành một vòng khép kín
16 RDD Resilient Distributed Dataset – là tính năng trên
Apache Spark, có thể lưu bản ghi bất biến và được phân vùng để xử lý dữ liệu một cách nhanh chóng
Trang 22DANH MỤC TỪ TIẾNG ANH
Launching
Là hình thức thử nghiệm ngầm trong phạm vi nội
bộ để đánh giá các tác động bổ sung về tải và hiệu suất lên hệ thống trước khi đưa ra thông báo công khai về khả năng mới
2 Batching Là việc xử lý dữ liệu sau khi dữ liệu được gom
nhóm thành các lô (batch) với một số điều kiện nhất định
3 Streaming Là việc xử lý dữ liệu theo luồng, dữ liệu được xử
lý ngay lập tức hoặc trong khoảng thời gian rất ngắn
4 Pipeline Là một đường ống kết nối giữa các quá trình bằng
cách truyền dữ liệu thông qua các hình thức khác nhau
5 Features Là các đặc trưng, thuộc tính riêng rẽ mà ta có thể
xác định và đo đạc được khi quan sát một bộ dữ liệu nào đó
6 Features
Engineering
Là quá trình biến đổi dữ liệu thành các features đóng vai trò là đầu vào cho các mô hình máy học
7 Framework Là một khái niệm phần mềm trừu tượng, cung cấp
chức năng chung, có thể được thay đổi một cách chọn lọc bằng mã do người dùng viết bổ sung, do
đó cung cấp phần mềm dành riêng cho ứng dụng
8 Microservices Là một kỹ thuật phát triển phần mềm, một biến thể
của kiến trúc hướng dịch vụ cấu trúc một ứng dụng như một tập hợp các dịch vụ được ghép lỏng lẻo
9 Scale-up Là khái niệm mô tả việc nâng cấp, tăng kích thước
hay mở rộng quy mô của một ứng dụng
Trang 2310 Dashboard Là một loại giao diện người dùng đồ họa thường
cung cấp cái nhìn nhanh về các chỉ số hiệu suất chính có liên quan đến một mục tiêu hoặc quy trình kinh doanh cụ thể
11 Report Là tập hợp những thông tin được thực hiện với
mục đích cụ thể nhằm thông tin chuyển tiếp hoặc tường trình, kể lại các sự kiện nhất định trong một hoàn cảnh hiện hành và có thể có hoặc không những nội dung kiến nghị, đề xuất
12 Service Là dịch vụ cung cấp các tính năng nhằm thỏa mãn
nhu cầu, mong muốn hoặc nguyện vọng của người dùng kỹ thuật
13 Production Là hoạt động chủ yếu trong các hoạt động kinh tế
14 Historical Là thuật ngữ chung có liên quan đến các sự kiện
trong quá khứ
15 Latency Là độ trễ thời gian giữa nguyên nhân và ảnh
hưởng của một số thay đổi vật lý trong hệ thống đang được quan sát
16 Pod Là đối tượng nhỏ nhất và đơn giản nhất của
Trang 24MỞ ĐẦU
Hiện nay, vấn đề gian lận trong giao dịch đang xảy ra ở rất nhiều lĩnh vực như ngân hàng trực tuyến, thương mại điện tử hay ví điện tử Những vấn đề này không chỉ gây tổn thất về mặt doanh thu mà còn để lại những hậu quả lớn ảnh hưởng đến độ tin cậy, uy tín của các doanh nghiệp Tuy nhiên, việc phát hiện một gian lận như vậy luôn là một thách thức Với sự phát triển nhanh chóng của các hình thức giao dịch trực tuyến nói chung hay thương mại điện tử, thanh toán điện tử nói riêng, vấn nạn gian lận trong giao dịch trực tuyến ngày càng trở nên nổi cộm So với các hình thức giao dịch truyền thống, giao dịch trực tuyến đang phải đối mặt với khối lượng chuyển tiền lớn hơn đáng kể Giải quyết được bài toán này sẽ giúp doanh nghiệp có thể tiết kiệm được thời gian và nguồn lực, đồng thời tăng trải nghiệm người dùng cũng như
độ tin cậy, uy tín của doanh nghiệp Để giải quyết vấn đề này, đầu tiên trong khóa luận tôi thu thập và phân tích dữ liệu giao dịch với khối lượng lớn Bên cạnh đó, tôi nghiên cứu hệ thống cơ sở dữ liệu và máy tính phân tán quy mô lớn, phù hợp để chạy các thuật toán cần thiết và đáp ứng các yêu cầu về độ trễ đối với việc giao dịch, dự đoán gian lận trực tuyến Bước tiếp theo, tôi phân tích dữ liệu và tìm ra các phương pháp trích xuất và lưu trữ đặc trưng của dữ liệu giao dịch trực tuyến Cuối cùng, tôi thực hiện việc triển khai xây dựng một hệ thống xử lý dữ liệu lớn trong thời gian thực, tích hợp triển khai mô hình dự đoán trực tuyến có độ trễ thấp, đáp ứng độ chính xác cao cho giao dịch trực tuyến Để chứng minh sự hiệu quả, tôi tích hợp hệ thống đã xây dựng hệ thống với hệ thống giao dịch của Ví điện tử MoMo, chạy thử nghiệm theo phương pháp Dark Launching trong khoảng thời gian nhất định nhằm phát hiện giao dịch gian lận trực tuyến
Trang 25Chương 1 TỔNG QUAN ĐỀ TÀI
1.1 Động lực nghiên cứu
Hiện nay, theo số liệu của GBG khu vực châu Á – Thái Bình Dương [1], có rất nhiều rủi ro gian lận ở khu vực châu Á – Thái Bình Dương trong thời gian xảy ra đại dịch Covid-19, các dịch vụ ngân hàng bán lẻ kỹ thuật số đang có nhu cầu tăng cao, từ ví điện tử, cho vay điện tử, kỹ thuật số, cho đến ứng dụng thẻ tín dụng kỹ thuật số Khả năng phát hiện những hành vi gian lận phức tạp và việc nhận dạng bị lạm dụng trong thanh toán, lừa đảo khối lượng lớn… đang trở nên ngày càng cấp bách Những vấn đề này không chỉ gây tổn thất về mặt doanh thu mà còn để lại những hậu quả lớn ảnh hưởng đến độ tin cậy, uy tín của các doanh nghiệp Việc tăng cường ứng dụng công nghệ cao,
có giải pháp tổng thể, phòng thủ nhiều lớp từ phát hiện, phản ứng, dự đoán, ngăn chặn các gian lận trong giao dịch trực tuyến là rất cần thiết cho bất kỳ một thế thống giao dịch nào
Trước đây, các phương pháp dựa trên quy tắc đã được nghiên cứu rộng rãi trong nhiều năm cho vấn đề phát hiện gian lận [2] Tuy nhiên, các hình thức gian lận thay đổi nhanh chóng theo thời gian, làm giảm đáng kể hiệu quả của các quy tắc này Sau đó, nhiều phương pháp dựa trên khai thác
dữ liệu đã được nghiên cứu [3] Hầu hết các phương pháp này hiện nay khó
có thể nắm bắt được các dạng gian lận phức tạp của giao dịch trực tuyến Các bài toán đã được triển khai trước đây đa số đều gặp những vấn đề chung về đặc điểm dữ liệu
Việc phát hiện giao dịch gian lận có thể giải quyết bằng cách truy xuất
và phân tích lịch sử giao dịch trong quá khứ nhưng việc này sẽ phần nào đó sẽ làm ảnh hưởng nhiều tới trải nghiệm của người dùng, không mang tính tức thời Phát hiện gian lận trong thời gian thực là nhiệm vụ phát hiện giao dịch trong khoản thời gian ngắn, nói đúng hơn là ngay tức thì tại thời điểm phát sinh giao dịch với khả năng phát hiện nhanh và duy trì được độ chính xác ở
Trang 26mức cao Việc này cần đảm bảo độ trễ thấp để không ảnh hưởng tới trải nghiệm người dùng trong khi giao dịch Trong khóa luận này, việc nghiên cứu và xây dựng hệ thống sẽ tập trung vào phát hiện các giao dịch gian lận được phát sinh
từ tài khoản bị ATO Tôi đặt tên toàn bộ hệ thống là Sherlock cảm hứng từ Sherlock Holmes là một nhân vật thám tử tư hư cấu, do nhà văn người Anh Arthur Conan Doyle sáng tạo nên
1.2 Mục tiêu đề tài
Mục tiêu hàng đầu mà Sherlock hướng tới là một hệ thống phát hiện giao dịch gian lận có khả năng huấn luyện dữ liệu quy mô lớn ngoại tuyến trong vài giờ và dự đoán gian lận giao dịch trực tuyến trong thời gian thực Điều này sẽ giúp nhân lực công ty Cổ phần Dịch vụ Di động Trực tuyến có thể giảm bớt một phần công việc, tăng hiệu quả làm việc và tránh sai sót không đáng có từ việc quá tải trong tình trạng phải đối mặt với lượng hồ sơ giao dịch khổng lồ
Mặt khác, đề tài cũng hướng tới việc thiết kế pipeline thu thập, xử lý và lưu trữ dữ liệu lớn từ nhiều nguồn với cấu trúc dữ liệu phức tạp Cùng với việc
đề xuất phương pháp trích xuất, lưu trữ và tính toán đặc trưng dữ liệu, tích hợp
và ứng dụng các mô hình máy học một cách hiệu quả Đây đang là xu hướng trong ngành công nghiệp phần mềm hiện nay và trong cả tương lai khi công nghệ phần cứng hiện nay đã có thể đáp ứng được các công trình nghiên cứu
về trí tuệ nhân tạo
Để đáp ứng các mục tiêu nêu trên, cụ thể trong khóa luận này, tôi sẽ nghiên cứu về cơ sở lý thuyết và những công nghệ hiện đại ngày nay để có thể thiết kế, triển khai hệ thống một cách hoàn chỉnh Từ đó tích hợp vào hệ thống giao dịch của Ví điện tử MoMo để chạy thử nghiệm nhằm đánh giá hiệu quả
và giúp tăng trải nghiệm cho người dùng
Trang 271.3 Đối tượng và phạm vi nghiên cứu
Đối tượng là khách hàng sử dụng Ví điện tử MoMo và có phát sinh giao dịch trong thời gian chạy thử nghiệm hệ thống
Phạm vi của nghiên cứu trong đề tài này là tích hợp hệ thống đã xây dựng với hệ thống giao dịch của Ví điện tử MoMo, chạy thử nghiệm theo phương pháp Dark Launching trong khoảng thời gian nhất định
Ngoài ra, các vấn đề liên quan đến tối ưu hóa và xây dựng mô hình máy học, cùng với xây dựng ứng dụng hay hạ tầng của các hệ thống khác trong Ví điện tử MoMo không có thông tin liên quan mật thiết đến bài toán, tất cả đều ngoài khả năng của khóa luận này
1.4 Nội dung và kế hoạch thực hiện
Tổng quan, sau đây là những công việc và thời gian dự kiến thực hiện khóa luận:
Thời gian Kế hoạch thực hiện
8/03/2021 -
21/03/2021
- Phân tích và nghiên cứu nhu cầu bài toán
- Tìm hiểu và tham khảo một số hệ thống lớn có chủ đề liên quan tới bài toán
- Tìm hiểu nguồn dữ liệu phù hợp cho bài toán
- Nghiên cứu cách thu tập dữ liệu ngoại tuyến và trực tuyến
- Tìm hiểu cách triển khai hệ thống dự đoán trong thời gian thực
- Tìm hiểu độ đo để đánh giá hệ thống sau khi hoàn thành 22/03/2021 -
11/04/2021
- Nghiên cứu và thiết kế kiến trúc cho hệ thống
- Nghiên cứu và thiết kế cơ sở dữ liệu lưu trữ dữ liệu lớn ngoại tuyến và trực tuyến
- Xây dựng pipeline thu thập, xử lý dữ liệu ngoại tuyến và trực tuyến
- Xây dựng pipeline trích xuất, lưu trữ và tính toán đặc trưng dữ liệu từ nguồn dữ liệu ngoại tuyến và trực tuyến
- Chuẩn bị báo cáo tiến độ KLTN giữa kỳ
Trang 2812/04/2021 -
2/05/2021
- Đưa ra các phương pháp cải tiến, tối ưu hóa về mặt hệ thống
- Tích hợp hệ thống với mô hình máy học để dự đoán theo
dữ liệu ngoại tuyến và trực tuyến
- Đề xuất các phương án dự phòng khi hệ thống có sự cố bất ngờ xảy ra
- Xây dựng biểu đồ trực quan hóa các chỉ số trong hệ thống để theo dõi hệ thống
- Triển khai hệ thống lên môi trường Production
- Tích hợp hệ thống thử nghiệm với hệ thống giao dịch của
Ví điện tử MoMo
3/05/2021 -
23/05/2021
- Thực hiện kiểm thử và sửa lỗi cho hệ thống
- Xây dựng báo cáo, tổng hợp kết quả thử nghiệm sau thời gian triển khai lên môi trường Production
Khóa luận đã đạt được nội dung sau:
- Đề xuất và triển khai một hệ thống có thể xử lý dữ liệu lớn, đáp ứng thời gian thực, nhằm tối ưu thời gian triển khai bài toán phát hiện gian lận giao dịch thời gian thực trong công ty Cổ phần Dịch vụ Di động Trực tuyến trên môi trường Production
- Tạo ra một framework kiến trúc hệ thống xử lý dữ liệu thời gian thực có thể tái sử dụng, giúp các bài toán máy học tại công ty Cổ phần Dịch vụ Di động Trực tuyến hiện thực hóa một cách dễ dàng và nhanh chóng các bước liên quan đến xử lý dữ liệu trong quá trình nghiên cứu bài toán
Công bố khoa học trong quá trình học tập và nghiên cứu khoa học tại trường:
o Nguyễn Phi Hùng, Phan Đức Anh, Phan Thế Duy, Nguyễn Văn Kiệt UIT-ODSMS: Hệ thống quản lý hỗ trợ hiến và nhận mô tạng
sử dụng công nghệ Blockchain The 22nd National Conference on
Trang 29Electronics, Communications and Information Technology – ECIT 2019
REV-o SREV-on T Luu, Hung P Nguyen, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen Comparison Between Traditional Machine Learning Models and Neural Network Models for Vietnamese Hate Speech Detection 2020 RIVF International Conference on Computing and Communication Technologies (RIVF) – IEEE-2020
o Nguyễn Phi Hùng, Huỳnh Ngọc Tín UIT-RBDML: Hệ thống xử lý
và lưu trữ dữ liệu lớn với thời gian thực cho dịch vụ máy học Hội nghị khoa học Trẻ & nghiên cứu sinh UIT 2021
1.6 Bố cục khóa luận
Chương 1: TỔNG QUAN ĐỀ TÀI: Trình bày về phần động lực nghiên cứu,
mục tiêu, đối tượng và phạm vi tiếp cận đề tài, sơ lược về nội dung thực hiện cũng như tổng quan bố cục báo cáo
Chương 2: CƠ SỞ LÝ THUYẾT: Tìm hiểu các cơ sở lý thuyết, khái niệm
liên quan đến bài toán và công nghệ, kỹ thuật để xây dựng hệ thống
Chương 3: PHÂN TÍCH THIẾT KẾ HỆ THỐNG: Dựa trên các kỹ thuật
và công nghệ đã được tìm hiểu, phân tích và thiết kế kiến trúc tổng quan hệ thống, đề xuất cách tích hợp hệ thống với hệ thống bên ngoài
Chương 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ: Tiến hành thực
nghiệm, đo đạc và đánh giá kết quả của hệ thống dựa các chỉ số đã được định nghĩa
Chương 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN: Trình bày kết quả đạt
được, quá trình, kết luận và hướng phát triển cho hệ thống
Trang 30Chương 2 CƠ SỞ LÝ THUYẾT
2.1 Mở đầu
Trong chương này, đề tài trình bày về khái niệm hay định nghĩa bài toán, bao gồm việc tìm hiểu và so sánh với những bài toán tương tự, khảo sát hiện trạng đối với đề tài, phân tích các hệ thống hiện tại, từ đó tổng hợp và đưa ra các vấn đề, thách thức,
đề xuất hướng giải quyết mà khóa luận có thể đáp ứng
2.2 Gian lận trong giao dịch trực tuyến
2.2.1 Định nghĩa
Gian lận là hành vi lừa dối có chủ đích không công bằng hoặc bất hợp pháp, tước đi quyền hợp pháp của nạn nhân Gian lận [4] có thể vi phạm luật dân sự (nghĩa là nạn nhân lừa đảo có thể kiện thủ phạm lừa đảo để tránh gian lận hoặc thu hồi tiền bồi thường), luật hình sự (nghĩa là thủ phạm lừa đảo có thể bị chính quyền chính phủ truy tố và bỏ tù), hoặc có thể không gây ra mất tiền, tài sản hoặc quyền hợp pháp nhưng vẫn là một yếu tố của một sai phạm dân sự hoặc hình sự khác Mục đích của gian lận có thể là lợi ích tiền tệ hoặc các lợi ích khác, ví dụ như lấy hộ chiếu, giấy thông hành hoặc bằng lái xe, hoặc gian lận thế chấp, trong đó thủ phạm có thể cố gắng có đủ điều kiện để thế chấp bằng cách khai báo sai sự thật
Giao dịch trực tuyến là hành vi cho phép người dùng thực hiện các giao dịch thông qua Internet
2.2.2 Một số kịch bản gian lận giao dịch
2.2.2.1 Lợi dụng người dùng có nhu cầu vay vốn
Người dùng có nhu cầu vay tiền nên liên hệ ĐTLĐ thông qua các bài đăng hỗ trợ cho vay trên mạng xã hội (giả mạo nhân viên công ty tài chính hoặc nhân viên ngân hàng) Sau khi trao đổi qua về thông tin hợp đồng vay
Trang 31vốn ĐTLĐ yêu cầu người dùng cung cấp những thông tin cá nhân để được vay vốn như: CMND/CCCD, Tài khoản ngân hàng/số thẻ, mật khẩu, OTP
- Trường hợp người dùng cung cấp đầy đủ cả mật khẩu, OTP thì ĐTLĐ
sẽ đăng nhập tài khoản ví và tẩu tán tiền Trong trường hợp này ĐTLĐ thuyết phục người dùng cung cấp thông tin đăng nhập tài khoản ví để kiểm tra số dư tài khoản của người dùng, với mục đích kiểm tra số dư có đủ điều kiện vay hay không, nếu không cung cấp thì sẽ không được vay vốn
- Trường hợp người dùng chỉ cung cấp CMND/CCCD, thông tin ngân hàng: ĐTLĐ sẽ thuyết phục người dùng nhắn cú pháp chuyển hướng cuộc gọi với lý do đó là cú pháp xác nhận đăng ký vay, sau khi chuyển hướng cuộc gọi ĐTLĐ sẽ lấy được OTP thay đổi thiết bị đồng thời sẽ thực hiện cài lại mật khẩu Sau khi đăng nhập ví sẽ thay đổi thiết bị để đề phòng trường hợp người dùng phát hiện bị lừa đảo sẽ không thể đăng nhập ngay vào tài khoản ví ĐTLĐ sẽ tẩu tán tiền qua các hình thức chuyển tiền về một tài khoản ví khác, chuyển tiền về tài khoản ngân hàng không liên kết, thanh toán hàng hóa, dịch vụ
2.2.2.2 Giả mạo nhân viên chăm sóc khách hàng
ĐTLĐ giả mạo là nhân viên chăm sóc khách hàng thông báo người dùng được trúng thưởng thẻ quà tặng qua điện thoại di động, yêu cầu người dùng cung cấp thông tin đăng nhập tài khoản ví (OTP, mật khẩu) với lý do
là xác thực thông tin để trao thưởng hoặc thông báo tài khoản ví của người dùng đang bị lỗi cần phải cung cấp thông tin đăng nhập ví để hỗ trợ xác thực Sau khi đăng nhập tài khoản ví, ĐTLĐ sẽ tiến hành thay đổi mật khẩu
để đảm bảo người dùng phát hiện bị mất tiền thì vẫn không thể đăng nhập
ví ngay được ĐTLĐ sẽ tẩu tán tiền qua các hình thức chuyển tiền về một tài khoản ví khác, chuyển tiền về tài khoản ngân hàng không liên kết, thanh toán hàng hóa, dịch vụ Trong trường hợp này khi trao đổi với người dùng, ĐTLĐ có xác nhận với người dùng một số thông tin cá nhân như: Họ và
Trang 32tên, ngày sinh, CMND/CCCD, email… nhằm tạo sự tin tưởng cho người dùng rằng người đang liên hệ đúng là nhân viên chăm sóc khách hàng
2.2.2.3 Chiếm đoạt tài sản của người dùng
ĐTLĐ chiếm đoạt tài sản của người dùng, sau đó dùng thiết bị có tài khoản ví và thông tin cá nhân của người dùng gọi chăm sóc khách hàng để yêu cầu nhân viên cung cấp hoặc làm mới mật khẩu Sau khi đăng nhập tài khoản ví, ĐTLĐ sẽ tẩu tán tiền qua các hình thức chuyển tiền về một tài khoản ví khác, chuyển tiền về tài khoản ngân hàng không liên kết, thanh toán hàng hóa, dịch vụ
2.2.3 Phân tích các trường hợp gian lận giao dịch
Hình 2.1 Biểu đồ thống kê các thủ đoạn gian lận giao dịch phổ biến của ĐTLĐ năm
2020 Nguồn: Ví điện tử MoMo
Có thể thấy, đặc điểm chung của các dạng thủ đoạn này cũng giống với các dạng lừa đảo khác đó là đánh vào lòng tham của các nạn nhân, như việc không cần mất phí vẫn nhận được phần quà giá trị lớn, đưa ra mức lãi suất đầu tư siêu lợi nhuận Tuy nhiên, các dạng thủ đoạn này nguy hiểm và dễ dẫn dụ hơn rất nhiều vì thực hiện có hệ thống, có sự bàn bạc và câu kết thực hiện một cách bài bản có kịch bản rõ ràng Tinh vi hơn nữa, các ĐTLĐ tạo thành một nhóm
Trang 33cùng đưa ra những thông tin giả một cách ăn khớp với nhau, làm cho nạn nhân không thể biết được thông tin nào là thật, thông tin nào là giả Thực tế cho thấy, mặc dù dạng hành vi này không còn quá mới, tuy nhiên vẫn còn rất nhiều người trở thành nạn nhân
2.2.4 Phân tích cách phát hiện gian lận giao dịch hiện tại
Hiện tại, quy trình phát hiện ATO tại Ví điện tử MoMo sẽ được thực hiện
kể từ khi khách hàng gọi lên báo cáo hành vi gian lận của ĐTLĐ đối với tài khoản ví của khách hàng Thời gian xử lý những trường hợp ATO hoàn toàn phụ thuộc vào thời điểm mà khách hàng phản hồi lên bộ phận Chăm sóc khách hàng Thời gian này có thể mất đến 1-2 tuần, thậm chí là 1 tháng, tuỳ vào mức
độ nhận thức và nhu cầu của khách hàng Những khách hàng khi phát hiện ra tài khoản ví của mình bị đánh cắp và bị tẩu tán tiền đều rất hoảng hốt có nhu cầu ngăn chặn hành vi của ĐTLĐ, cũng như mong muốn lấy lại số tiền đã mất Bên cạnh đó, có rất nhiều trường hợp vì lý do cá nhân nên khách hàng không báo cáo hành vi của ĐTLĐ Việc này dẫn tới mất tài khoản, lộ thông tin cá nhân nhạy cảm và để lại nhiều hậu quả tài chính về sau Để bộ phận Chăm sóc khách hàng nắm được thông tin về tài khoản và giải quyết vấn đề, khách hàng
sẽ cần cung cấp các thông tin như:
- Họ và tên
- Số điện thoại (Tài khoản Ví điện tử MoMo)
- CMND/CCCD
- Ngân hàng liên kết
- Số dư tài khoản gần nhất
- Số tiền giao dịch lần cuối cùng
- Thông tin chi tiết về vấn đề đang gặp phải tại thời điểm báo cáo
Trang 34Hình 2.2 Trạng thái giao dịch tẩu tán tiền không thành công sau khi
Ví điện tử MoMo đã chặn luồng giao dịch của ví bị ATO Nguồn: Ví
Trang 35- Quy trình điều tra hành vi của ĐTLĐ rất phức tạp và tốn nhiều thời gian, nguồn lực về nhân sự và tài chính
2.3 Định nghĩa bài toán và các nghiên cứu liên quan
2.3.1 Định nghĩa bài toán
Phát hiện gian lận trong giao dịch là cố gắng phát hiện và xác định các hành vi gian lận khi ĐTLĐ cố gắng xâm nhập vào hệ thống và báo cáo chúng cho quản trị viên hệ thống nhằm có những hành động ngăn chặn cụ thể Trong những năm trước, các phương pháp phát hiện thông qua các mẫu gian lận hay quy tắc đã được sử dụng để phát hiện gian lận Những kỹ thuật này khá phức tạp và tốn thời gian
Mặc khác, với khối lượng lớn và phức tạp như hiện nay, việc áp dụng những phương pháp này đã không còn mang lại mang lại tính hiệu quả cao
Để nâng cao hiệu quả của việc phát hiện, các hệ thống phát hiện giao dịch gian lận hiện nay được áp dụng các phương pháp hiện đại như Khai thác
dữ liệu bao gồm các kỹ thuật thống kê, toán học, trí tuệ nhân tạo và máy học để trích xuất và xác định thông tin hữu ích từ cơ sở dữ liệu lớn Các hệ thống này có một số ưu điểm chính như: (1) Mẫu gian lận được thu thập tự động từ dữ liệu; (2) Dự đoán về “khả năng xảy ra gian lận” cho từng trường hợp; và (3) Phát hiện ra mẫu gian lận mới
2.3.2 Các nghiên cứu về hệ thống phát hiện gian lận
Tập đoàn Dịch vụ Tài chính Ant Financial, trước đây gọi là Alipay, là một công ty liên kết của Tập đoàn Alibaba Ant Financial là công ty FinTech
có giá trị cao nhất thế giới Hệ thống phát hiện giao dịch gian lận trực tuyến của Ant Financial có tên là TitAnt [5] Đây là một hệ thống phát hiện gian lận giao dịch có thể đào tạo dữ liệu quy mô lớn ngoại tuyến, trực tuyến và
dự đoán theo thời gian thực Phương pháp phát hiện của hệ thống là tiếp cận phát hiện giao dịch bất thường và sử dụng mô hình máy học để phân
Trang 36loại, đánh giá những giao dịch “nghi ngờ” này Mặt khác, với khối lượng lớn và phức tạp như hiện nay, việc áp dụng những phương pháp này đã không còn mang lại mang lại tính hiệu quả cao
Hình 2.3 Kiến trúc tổng quan hệ thống TitAnt Nguồn: Ant Financial
Để đảm bảo phản hồi kịp thời đối với các yêu cầu phát hiện gian lận, hệ thống này đề xuất một service dự đoán độ trễ thấp, nền tảng lưu trữ cơ sở
dữ liệu mạnh mẽ và các thuật toán phân tán Như minh họa trong Hình 2.3,
hệ thống có hai phần chính, là đào tạo định kỳ ngoại tuyến và dự đoán thời gian thực trực tuyến
Trong phần đào tạo ngoại tuyến, nơi các mô hình được đào tạo theo thời gian cố định và các mô hình được tải lên bộ dự đoán trực tuyến để theo dõi giao dịch theo thời gian thực Khi người dùng bắt đầu yêu cầu giao dịch trong Alipay, nhật ký giao dịch sẽ được gửi định kỳ đến MaxCompute để tính toán ngoại tuyến MaxCompute hỗ trợ SQL và MapReduce để trích xuất các tính năng/nhãn cơ bản và xây dựng mạng giao dịch Đồng thời, KunPeng hỗ trợ đào tạo mô hình phân loại và phân tán quy mô lớn Các
mô hình phân loại và nhúng nút người dùng đã học được lưu trữ trong MaxCompute Dự đoán trực tuyến xảy ra tại Máy chủ Mô hình (MS), nơi
Trang 37các tệp mô hình được cập nhật định kỳ Sau khi một giao dịch được tạo bởi người dùng trong Alipay, máy chủ Alipay ngay lập tức yêu cầu Máy chủ
Mô hình (MS) Sau đó, MS lấy dữ liệu liên quan từ Ali-HBase và đưa ra
dự đoán theo thời gian thực Nếu giao dịch bị phát hiện là gian lận, giao dịch đang diễn ra sẽ bị gián đoạn và người chuyển sẽ được thông báo
Hệ thống của Alipay được công bố vào ngày 18/06/2019, có thể cho thấy được cách thức nghiên cứu và triển khai của toàn bộ hệ thống Nhưng hệ thống này được hiện triển khai nội bộ và không công khai ra bên ngoài Bên cạnh việc phát hiện gian lận trong các giao dịch về công nghệ tài chính, việc phát hiện gian lận trong ngành thương mại điện tử trực tuyến cũng rất được quan tâm Với sự phát triển nhanh chóng của Internet di động và công nghệ tài chính, các giao dịch thương mại điện tử trực tuyến ngày càng gia tăng và mở rộng rất nhanh, trên toàn cầu mang lại nhiều tiện lợi và sẵn có cho cuộc sống của chúng ta, nhưng đồng thời, cơ hội thực hiện các hành vi gian lận cũng có đủ mọi hình thức và các kích cỡ Hơn nữa, không hoàn toàn giống như trong các lĩnh vực hiện có, do lượng dữ liệu khổng lồ được tạo ra trong thương mại điện tử, điều này làm cho các giao dịch gian lận diễn ra lén lút với các giao dịch chân chính hơn trước
Vào năm 2019, một công ty thương mại điện tử của Trung Quốc [6] đã đề xuất một cách tiếp cận mới có thể mở rộng và toàn diện để phát hiện gian lận trong các giao dịch thương mại điện tử trực tuyến được đề xuất với chủ yếu là bốn mô-đun logic, sử dụng phân tích dữ liệu lớn và thuật toán máy học để song song xử lý dữ liệu Kết quả thử nghiệm cho thấy cách tiếp cận chính xác và hiệu quả hơn để phát hiện các gian lận trong giao dịch thương mại điện tử trực tuyến và có thể scale-up để xử lý dữ liệu lớn nhằm thu được tài sản theo thời gian thực
Trang 38Hình 2.4 Kiến trúc tổng quan hệ thống của công ty thương mại điện tử
Trung Quốc Nguồn: Tech Science Press
Hệ thống sử dụng Apache Spark on Yarn làm cơ sở hạ tầng để triển khai phân tán các thuật toán máy học với dữ liệu lớn nhằm nâng cao hiệu quả phát hiện gian lận Dựa trên Apache Spark, cách tiếp cận được đề xuất được thiết kế để cung cấp các biện pháp chống gian lận trong thời gian thực cho giao dịch thương mại điện tử trực tuyến và dễ dàng scale-up quy mô
Nó chủ yếu bao gồm bốn mô-đun logic: tiền xử lý dữ liệu giao dịch, hệ thống chuyên gia với cơ sở kiến thức và quy tắc, phát hiện gian lận bằng thuật toán máy học và khám phá mẫu hành vi lệch lạc Khung của phương pháp này được trình bày trong Hình 3 Dữ liệu lớn của các giao dịch thương mại điện tử trực tuyến, chẳng hạn như dữ liệu giao dịch và dữ liệu thanh toán, trước hết được xử lý lại trong mô-đun tiền xử lý dữ liệu giao dịch và được truyền đến mô-đun hệ thống chuyên gia dựa trên quy tắc, được thực hiện với nền tảng phát trực tuyến Spark và nền tảng phân tán Apache Kafka, để phát hiện xem các hành vi giao dịch trực tuyến có bất thường
Trang 39hay không Sau đó, dữ liệu thông thường từ mô-đun hệ thống chuyên gia được sử dụng để chạy phân tích hành vi với các thuật toán CNN, Cây quyết định và SVM trong mô-đun phát hiện gian lận máy học Dựa trên kết quả phân loại máy học, chiến lược bỏ phiếu toàn diện được áp dụng để thu được kết quả phát hiện hành vi gian lận Hơn nữa, dữ liệu bình thường được kiểm tra từ các mô-đun trước đó được phân tích trong mô-đun phát hiện hành vi lệch lạc với các thuật toán phân cụm trong trường hợp mô hình gian lận mới của các giao dịch trực tuyến
Cũng như hệ thống TitAnt, hệ thống của công ty thương mại điện tử Trung Quốc này cũng chỉ lưu hành nội bộ và không công khai hệ thống ra bên ngoài, vì tính bảo mật
Ngoài ra, hiện hay cũng có những công ty cung cấp hệ thống về việc phát hiện gian lận Nhưng vì tính bảo mật dữ liệu cá nhân cho người dùng, chi phí sử dụng quá lớn và tính linh hoạt trong việc triển khai hệ thống nên các doanh nghiệp hiện nay đều có xu hướng xây dựng hệ thống phát hiện gian lận nội bộ
2.4 Vấn đề, thách thức và hướng giải quyết của bài toán
2.4.1 Vấn đề, thách thức của bài toán
Bài toán phát hiện gian lận là một bài toán phức tạp Có thể nhận thấy rằng
hệ thống phát hiện gian lận dễ bị lỗi, có tỷ lệ chính xác thấp hoặc đưa ra nhiều cảnh báo sai Các hệ thống thương mại điện tử vô cùng khó khăn trong việc xử lý vấn nạn gian lận buộc họ phải chịu tổn thất nặng nề Điều này xảy ra bởi vì các hệ thống phát hiện gian lận cần phải đối phó với nhiều thách thức mà không thể biết trước Một số thuộc tính thách thức mà việc phát hiện gian lận phải đối phó sẽ được trình bày trong phần này
Trang 402.4.1.1 Dữ liệu thời gian thực
Hình 2.5 Mô tả việc sử dụng dữ liệu thời gian thực cho các thuật toán
máy học Nguồn: towardsdatascience
Hành vi của ĐTLĐ thay đổi liên tục với những thủ đoạn tinh vi Vấn đề này nãy có ảnh hưởng trực tiếp tới các mô hình máy học Như mô hình học
có giám sát, mục đích là dự đoán biến mục tiêu y với một tập hợp các đặc điểm đầu vào X [7] Trong trường hợp huấn luyện được sử dụng để xây dựng mô hình, cả X và y tương ứng với dữ liệu đầu vào và biến mục tiêu Trong trường hợp mới mà mô hình dự đoán được áp dụng, X được biết đến, nhưng y không được biết tại thời điểm dự đoán và mối quan hệ giữa
dữ liệu đầu vào và biến mục tiêu có thể thay đổi Hay đặc biệt là trong học tập trực tuyến, nơi mô hình phát hiện được cập nhật ngay lập tức nhưng dựa trên dữ liệu lỗi thời, vì vậy khi dữ liệu mới đến, mô hình có thể bị sai lệch và đưa ra nhiều cảnh báo sai Vì vậy, việc sử dụng các dữ liệu thời gian thực (Xt+1) cho các thuật toán học thích ứng để xử lý vấn đề này là bắt buộc