Đánh giá một số thuật toán học máy không giám sát sử dụng trong phát hiện gian lận thẻ tín dụng Thẻ tín dụng ngày càng tr ở nên phổ biến, điều đó kéo theo sự phát tri ển nhiều hành vi gi
Trang 1Đánh giá một số thuật toán học máy không giám sát sử dụng trong phát
hiện gian lận thẻ tín dụng Thẻ tín dụng ngày càng tr ở nên phổ biến, điều đó kéo theo sự phát tri ển nhiều hành vi gian l ận trong các giao d ịch của loại hình thanh toán này
Tóm tắt:
Thẻ tín dụng ngày càng tr ở nên phổ biến, điều đó kéo theo sự phát triển nhiều hành vi gian l ận trong các giao d ịch của loại hình thanh toán này Các ngân hàng cần xây dựng hệ thống nhận diện và cảnh báo những giao dịch gian l ận nhằm hạn chế thất thoát tài chín h Trong bài vi ết này, tác giả xây dựng mô hình phán đoán giao d ịch gian l ận dựa trên bốn thuật toán học máy không giám sát: One -class Support Vector Machine (One -class SVM), K -means, rừng cô l ập (Isolation forest) và Local outlier factor
(LOF) Từ đó đưa ra so sánh, đánh giá v ề thời gian thực hiện và hiệu quả của mỗi thuật toán
Từ khóa: Gian l ận thẻ tín dụng, học máy không giám sát
1 Giới thiệu
Thẻ tín dụng ngày càng tr ở nên phổ biến trong các hình th ức giao d ịch online và offline Đi cùng với sự phát triển và thịnh hành loại hình thanh toán này là các loại tội phạm lừa đảo sử dụng công nghệ cao Nhận diện những giao d ịch lừa đảo liên quan tới thanh toán th ẻ tín dụng là một chủ đề nghiên cứu đang đư ợc quan tâm trong lĩnh v ực trí tuệ nhân tạo và khoa học
dữ liệu Đồng thời, hoạt động này cũng đóng vai trò quan tr ọng đối với các ngân hàng, giúp các ngân hàng gi ảm thiểu các thất thoát do những lừa đảo trong các giao d ịch Nhiều kỹ thuật đã được đưa ra và thu đư ợc kết quả khả quan, tuy nhiên, độ chính xác và tốc độ xử lý vẫn là một trong những thách thức lớn nhất, bởi dữ liệu thường phân bố rất lệch và thay đổi theo th ời gian Các k ỹ thuật học máy có giám sát và không có giám sát đã đư ợc áp dụng trong phát hi ện lừa đảo trong các giao d ịch thẻ tín dụng
Học máy có giám sát hay còn g ọi là học có th ầy, là thuật toán dự đoán
nhãn/đầu ra của một dữ liệu mới dựa trên tập dữ liệu huấn luyện mà trong
đó mỗi mẫu dữ liệu đều đã được gán nhãn Khi đó, thông qua m ột quá trình
Trang 2huấn luyện, một mô hình s ẽ được xây dựng để cho ra các d ự đoán và khi các dự đoán bị sai thì mô hình này s ẽ được tinh chỉnh lại Việc huấn luyện
sẽ tiếp tục cho đến khi mô hình đ ạt đư ợc mức độ chính xác mong mu ốn trên dữ liệu huấn luyện
Trái với học máy có giám sát, h ọc không giám sát là t huật toán dự đoán nhãn của một dữ liệu mới dựa trên tập dữ liệu huấn luyện mà trong đó, t ất
cả các mẫu dữ liệu đều chưa đư ợc gán nhãn hay nói cách khác là ta không biết câu trả lời chính xác cho m ỗi dữ liệu đầu vào Khi đó, m ục tiêu c ủa thuật toán không gi ám sát không ph ải là tìm đ ầu ra chính xác mà s ẽ hướng tới việc tìm ra cấu trúc hoặc sự liên hệ trong dữ liệu để thực hiện một công việc nào đó
Mô hình h ọc máy có giám sát thư ờng thực hiện rất tốt với bộ dữ liệu cân bằng (số lượng dữ liệu giữa các lớp tư ơng đương nhau) Tuy nhiên, đ ối với
bộ dữ liệu không cân b ằng, tức là có sự chênh lệch rất lớn về mặt số lượng giữa các lớp, sẽ mất rất nhiều thời gian đ ể phân cụm những giao d ịch bình thường, trong khi phát hiện ra những dữ liệu ngoại lệ mới là vấn đề trọng tâm Trong khi đó, các thu ật toán học máy không giám sát có th ể xử lý tốt trong trường hợp dữ liệu mất cân bằng hoặc không đủ nhãn Một ưu điểm khác của học máy không giám sát là th ời gian c ập nhật mô hình ngắn, do
đó phù hợp để sử dụng trong phát hiện các gian lận trong giao dịch Chính
vì vậy, trong bài vi ết này, tác gi ả lựa chọn bốn thuật toán học máy không
có giám sát: One -class SVM, K-means, Isolation forest và LOF để đánh giá hiệu quả của chúng trong phát hi ện các lừa đảo trong giao d ịch thẻ tín dụng dựa trên bộ dữ liệu về giao dịch thẻ tín dụng của trang Kaggle (m ột trong những trang web chuyên v ề khoa h ọc dữ liệu) Đóng góp chính c ủa bài viết là đưa ra s ự so sánh các thu ật toán học máy bằng cách đưa ra các
độ đo về hiệu quả thực hiện trên cùng một bộ dữ liệu
2 Một số thuật toán h ọc m áy không có giám sát
Thuật toán One-class SVM
Đây là một thuật toán dùng để phân chia dữ liệu thành các nhóm riêng biệt bằng cách xây dựng một siêu phẳng (hyperplane) V ề mặt ý tư ởng, One-class SVM sử dụng thu ật toán để ánh xạ tập dữ liệu ban đầu vào không
Trang 3gian nhiều chiều hơn Khi đã ánh x ạ sang khôn g gian nhi ều chiều, One-class SVM s ẽ xem xét và ch ọn ra siêu phẳng phù h ợp nhất để phân lớp tập
dữ liệu đó
Scholkopf giới thiệu thuật toán One-class SVM (OC -SVM) vào năm 2001 Đây là thuật toán mở rộng của SVM Về cơ bản, thuật toán thực hiện tách tất cả các điểm dữ liệu khỏi điểm gốc (trong không gian đ ặc trưng F) và t ối
đa khoảng cách từ siêu phẳng này đến điểm gốc Việc phán đoán ngoại lệ dựa vào một hàm nhị phân Hàm này thu th ập các vùng trong không gian đầu vào nơi mật độ xác suất của dữ liệu tồn tại và trả về giá trị +1 nếu điểm nằm trong vùng thu thập các điểm dữ liệu huấn luyện và -1 đối với các vùng khác
Thuật toán K -means
K-means là thuật toán đơn gi ản và phổ biến nhất trong số các thuật toán học máy không giám sát M ục đích của thuật toán là phân chia các đ ối
tượng đã cho vào các cụm khác nhau, trong đó số lượng cụm được cho
trước Công việc phân cụm được xác lập dựa trên nguyên lý: Các điểm dữ liệu trong cùng một cụm thì ph ải có cùng m ột số tính chất nhất định Tức là giữa các điểm trong cùng một cụm phải có sự liên quan lẫn nhau Đối với máy tính thì các điểm trong một cụm sẽ là các điểm dữ liệu gần nhau
Thuật toán Isolation forest
Thuật toán này đư ợc đề xuất bởi Fei Tony Liu, Kai Ming Ting and Zhi -Hua Zhou vào năm 2006 H ầu hết các kỹ thuật dùng để phát hiện dị thường thường dựa trên định nghĩa “thế nào là bình thường” Từ đó, những gì
không nằm trong b ộ bình thư ờng thì được coi là b ộ dị thường Trong khi
đó, thuật toán Isolation forest lại dùng cách tiếp cận khác: Thay vì xây dựng mô hình nhận diện các bộ bình thường, nó tìm cách cô l ập các bộ dị thường trong tập dữ liệu Ưu điểm của cách tiếp cận này là tốc độ xử lý nhanh và đòi hỏi ít bộ nhớ
Thuật toán LOF
Trang 4
LOF được Markus M Breunig, Hans-Peter Kriegel, Raymond T Ng và Jor g Sander gi ới thiệu vào năm 2000 M ục đích của thuật toán là tìm các đi ểm
dị thường bằng cách đo độ lệch cục bộ của một điểm dữ liệu đối với các điểm lân cận nó LOF dùng chung một số kỹ thuật giống thuật toán
DBSCAN và OPTICS, ch ẳng hạn như khái ni ệm khoảng cách c ốt lõi (core distance) và kho ảng cách tiếp cận (reachability distance)
3 Dữ liệu và phương pháp đánh giá
Phương pháp thực hiện
Để đánh giá hiệu quả của các thuật toán trong phát hiện các giao dịch thẻ tín dụng, tác gi ả đề xuất các bư ớc thực hiện như sau:
Bước 1: Thực hiện tiền xử lý dữ liệu;
Bước 2: Tách dữ liệu giao dịch thành hai tập: huấn luyện và kiểm tra;
Bước 3: Thực hiện các thuật toán với tập dữ liệu huấn luyện để đưa ra mô hình phán đoán gian lận;
Bước 4: Sử dụng tập dữ liệu kiểm tra để tìm độ chính xác của các mô hình (Hình 1)
Trang 5
Dữ liệu
Trong bài viết này, dữ liệu về các giao dịch thẻ tín dụng trong hai ngày vào tháng 9/2013 của những khách hàng khu v ực châu Âu đư ợc sử dụng để đánh giá các thuật toán Tập dữ liệu được khai thác trên trang Kaggle
Bộ dữ liệu bao gồm 31 trường, bao gồm: Các trư ờng được đặt tên từ V1 đến V28 nhằm che giấu đi những thông tin nhạy cảm, cột Time, Amount và Class (cột Class thể hiện giao d ịch đó hợp lệ hay gian lận)
Bộ dữ liệu phân bố rất lệch, có 492 giao d ịch được ghi nh ận là gian lận (chiếm 0,172%) trong t ổng số 284.807 giao d ịch (Hình 2)
Trang 6
4 Các độ đo
Có nhiều độ đo khác nhau đ ể đánh giá hiệu quả của một thuật toán Các độ
đo này dựa trên số lượng giao dịch phát hiện đúng hoặc sai: False Positive (FP), False Negative (FN), True Positive (TP) và True Nagative (TN)
- True Positive: s ố lượng các giao dịch gian l ận đư ợc phân lo ại chính xác vào lớp gian lận
- True Negative: s ố lượng giao dịch hợp lệ được phát hi ện đúng
- False Positive: số lượng các giao d ịch không phải là gian l ận bị phân loại nhầm vào lớp gian l ận
- False Negative: s ố lượng giao d ịch gian l ận bị phân loại nhầm vào giao dịch hợp lệ
Accuracy là tỷ lệ giữa số điểm đư ợc dự đoán đúng và tổng số điểm trong tập dữ liệu kiểm thử
Trang 7
Precision
Precision là t ỷ lệ giao dịch gian l ận thật sự trong t ổng số các giao dịch được phán đoán là gian lận
Recall hay còn g ọi là độ nhạy
Recall là tỷ lệ những giao dịch đư ợc phán đoán đúng là gian l ận trong tổng
số các gian lận thực tế
F1-score
Đối với những tập dữ liệu không cân bằng (có sự chênh lệch rất lớn giữa số lượng giao dịch hợp lệ và giao dịch gian lận) thì Accuracry, Precision hay Recall không ph ản ánh đư ợc độ chính xác và hiệu quả của thuật toán Do vậy, cần sử dụng các đ ộ đo mới, một trong s ố đó là F1 -score
Trang 8
Receiver Operating Characteristic (ROC)
Để tránh chủ quan khi chỉ lựa chọn một ngưỡng để đánh giá mô hình, có một cách là duyệt qua hết tất cả các ngưỡng có th ể được và quan sát ảnh hưởng lên các tỷ lệ dự báo TPR và FPR Khi đó, sẽ dựng được đường cong ROC chứa tất cả các điểm TPR và FPR (Hình 3)
Hình 3 Minh h ọa độ đo ROC
Đối với bộ dữ liệu lệch, độ chính xác không đủ để đánh giá tính hiệu quả của thuật toán Do vậy, trong nội dung bài vi ết này, tác gi ả sử dụng độ đo F1-score và ROC
5 Đánh giá
Sau khi thực hiện các thuật toán để xây dựng mô hình và dự đoán trên cùng một nền tảng phần cứng, ta thấy đư ợc sự khác biệt rất lớn về thời gian thực hiện giữa các thu ật toán (Hình 4) One-class SVM c ần nhiều thời gian đ ể huấn luyện nhất, trong khi đó thu ật toán Isolation forest t ốn ít thời gian huấn luyện nhất Thời gian dự đoán của K-means ít nhất trong khi On -class
Trang 9SVM tốn rất nhiều thời gian đ ể đưa ra kết quả dự đoán
Xét về hiệu quả của thuật toán, Isolation forest là thu ật toán có hi ệu quả tốt nhất với ROC = 90,2% và F1 -score = 5,2%
6 Đề xuất hệ thống kiểm tra gian lận trong giao dịch thẻ tín dụng
Với thời gian dự đoán và tính chính xác đã nêu ở phần trên, các thu ật toán học máy không giám sát có th ể ứng dụng vào xây dựng hệ thống giám sát gian lận trong giao d ịch thẻ tín dụng nhằm giảm thiểu công sức con ngư ời Tác giả đề xuất hệ thống nhận diện gian l ận có hoạt động như trong Hình 5
Trang 10
Trong h ệ thống này, dữ liệu giao dịch lịch sử được đưa vào kho đ ể làm tập
dữ liệu huấn luyện Từ thuật toán học máy được lựa chọn và tập dữ liệu huấn luyện, hệ thống đưa ra mô hình nh ận diện gian lận Mỗi khi có phát sinh giao d ịch mới, hệ thống căn cứ vào dữ liệu giao dịch và dùng mô hình nhận diện gian l ận để phán đoán, sau đó module ra quy ết định sẽ xác định giao dịch là hợp lệ hay gian lận
Để cải thiện độ chính xác của hệ thống, dữ liệu giao dịch được cập nhật định kỳ vào kho để huấn luyện lại mô hình
7 Kết luận
Trong phát hi ện gian l ận, các thu ật toán h ọc máy không giám sát ti ến hành
mô hình sự phân bố dữ liệu vào một lớp và nh ận diện xem dữ liệu kiểm thử (dữ liệu về giao dịch) có thu ộc vào lớp này hay không Theo k ết quả thực nghiệm, thời gian xây dựng mô hình và phán đoán gian l ận của các thu ật toán nêu trên ng ắn và độ chính xác khá cao
Trong s ố bốn thuật toán học máy đã th ực nghiệm thì Isolation forest có đ ộ chính xác cao nh ất (với ROC = 90,2%) Tuy nhiên, t ỷ lệ phát hiện gian lận này chưa phải là tỷ lệ tốt nhất, do vậy cần phải làm giàu dữ liệu huấn luyện
và có những cải tiến để đạt kết quả cao hơn n ữa