Do đó, yêu cầu đặt ra là cần xây dựng một hệ thống thời gian thực trích rút được các thông tin thể hiện những hành vi bat thường trong quá trình hoạt động của đối tượng xắu và sử dụng
Trang 1TRƯỜNG DẠI HỌC BÁCH KHOA HÀ NỘI
Ghuyên ngành: Toần Tin
Giãng viên hướng dẫn: T8 Nguyễn Thị Ngọc Ảnh Goce
HA NOI, 10/2022
Trang 2CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập — Tự đo — Hạnh phúc
BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ
Hyg va tên tác giả luận văn : Phạm Ngục Quang AriL
ĐỀ tài luận văn: Thai pha motif cho đa chuỗi thời gian và phát hiện bắt
thường bảng các phương pháp học máy
Chuyên ngành: Toản tin
Mã số SV:20202959M
Tác giả, Người hướng dẫn khoa học và Hội đồng chẳm luân văn
xác nhận tác giả đã sửa chữa, bố sung luận văn theo biên bản họp Hội đồng
ngày 31/10/2022 với các nội dụng sau:
«_ Bổ sung thêm phản lời mỡ đầu
e_ Chỉnh sửa lỗi soạn tháo, câu chữ tại các trang 11, 14, 15, 18, 23, 29 œ_ Chỉnh sửa lại hình mô hình tổng quan 2.1 trang 19
Ngày 51 tháng 10 năm 2022
CHỈ TỊCH HỘI ĐỒNG
Trang 3ĐỀ TÀI LUẬN VĂN
1ên học tiên: Phạm Ngọc Quang Anh
Ma hue wien: 20202959M
Ten dé tai: Khai pha mot
thường bằng các phương pháp học máy
Mã để tài: 20215TOANTTN-KTI14
He: Thạc sĩ khoa học
Ngành: Toan Tin
Gần bộ hướng dén; ‘TS Nguyén 'Vhi Ngoc Anh
Đơn vi: Vion Toán ứng dung va ‘Tin học, Trường Đại học Bách khoa
Hà Nội
Chữ ký cũa GVTTD
Trang 4Lời cảm ơn
'Irước khi đi vào nội dưng luận văn, em xin có lời cảm ơn chân thành đến '18 Nguyễn Thị Ngọc Anh đã trợ giúp và tận tình hướng dẫn em hoàn thành tốt luận văn này, Em cũng xin gừi những lồi cảm ơn đến các thẫy cỏ Viện Toán ứng dụng và Tin học, trường Đại học Bách khoa Hà Nội dã giảng dạy những kiến
thức bổ ích cho em trong suốt quá trình học tập cao học
Ngoài ra, em cũng gii lời cẩm on tới đồng nghiệp và bạn lãnh đạo Viên Nghiên
cứu TĨng dụng công nghệ CMC đã hỗ trợ và tạo điều kiến thuận lợi cho em dé
hoàn thiện luận văn, đặc biệt là anh Hoàng Văn Dông đã siúp đỡ em rất nhiều trong quá trình shực hiện luận văn
Cuối cùng, em xin gửi lời cảm ơn đến tất cả các thành viên trong gia đình cm
đã quan tâm và tạo động lực cố gắng để cm hoàn thành luận văn nãy
Hà Nội, ngày 24 tháng 10 năm 2032
Học viên thực hiện
Pham Ngoc Quang Anh
Trang 51.1 Bai toan phát hiện bất thường| - 12
Bài toán phân lớp và một số thuật toán học máy] 14
Xay dumg bo thuoc tinh bat thudng va phan lp] 28
31
Trang 6
LUẬN VĂN THẠC SĨ PHAM NGOC QUANG ANH
Trang 7Danh mục ký hiệu, chữ viết tắt
phếp trừ của chuỗi thời gian
Trang 8LAN VAN THAC éf
Trang 92.1 Sơ đồ tổng quan của mô hình phân tích hành vi trên chuỗi thời
2.2 Mô tả chuỗi thời gian đơn giản: (a) Chuỗi thời gian (b) Phép trừ
chuỗi của chuối thời gian 2.3 Các hành vi của đối tượng được mô tả dựa trên chuỗi thời gian
2.5 Chuyến đối phép trừ chuối của chuối thời man don gian thành
B.2_ Chuỗi thời gian thể hiện hành vi thay đổi địa điểm mua hàng của
[3.3 Chuyển đổi chuỗi thời gian Tnh vi cha ting khán hàng thành
B.4 Biểu do hop vĩnh ø giá a quả phân lớp từ hành vi thay đổi địa
B.5_ Biểu đồ hộp đánh giá kết quả phân lớp từ hành vi thay đổi hàng,
hóa mua theo từng thuật toán| .- 41
B.6_ Biểu đồ hộp đánh giá kết quả phân lớp từ hành vi thay đổi cả địa
điểm và hàng hóa mua theo từng thuật toán| 42
Trang 10
B.3 Kết quả phát hiện bất thường dựa trên hành vi Tay đổi địa điểm| 39
38.4 Két qua phát hiện bất thường dưa trên hành vi thay đối hàng hoa
3.5 Kết quả phát hiện bất thường dựa trên hành vi thay doi cả địa
điểm và hàng hóa mua| - -: 41 3.6 Thời gian chạy trung bình của từng thuật toán| 42
3.7 Kích bản 4: Kết quả phát hiện bất thường dựa trên vi
điểm đánh giá từ thuật toán Random Forest| 43
8.8 Kich bản 5: Kết quá phát hiện bất thường đưa tre
điểm đánh giá từ các thuật toán học máy|] - 43
3:9 _ Thời gian chạy trung bình của kịch bản 4 và 5| .- 43
Trang 11Danh sách thuật toán
Trang 12Mở đầu
Lý do chọn đề tài
Phát hiện bất thường là một chủ đề quan trọng và đã được nghiên cứu trong
rất nhiều lĩnh vực [T0| tiêu biểu như phát hiện các cuộc tấn công đánh cắp dữ
liệu trong an ninh mạng J7|f| hay cảnh báo lỗi trong các hệ thống giám sát,
cam bién [36] Déi lĩnh vực kinh tế nói chung bài toán phát hiện bất thường phổ biến là phát hiện gian lận trong các hoạt động tài chính Phát hiện gian lận
là một bài toán cấp thiết của nhiều công ty, tổ chức như ngân hàng, bảo hiểm,
các cơ quan nhà nước [28] Vì vậy phát hiện gian lận tài chính được rất nhiều
các chuyên gia và nhà nghiên cứu quan tâm và thực hiện hàng loạt công trình
nghiên cứu trong nhiều năm gần đây HỊJ2Z|I28|I2J[HI
Cùng với sự phát triển của thời đại công nghệ số hiện nay, các giao dịch tài
chính bùng nổ với một lượng dữ liệu khổng lồ bởi sự phát triển của các hình
thức giao dịch qua mạng và đi động Các hình thức giao dịch này có chỉ phí thấp
và rất nhanh chóng, tiện lợi Từ sự phát triển này, việc xử lý giao dịch từ hàng,
triệu giao dịch với võ số loại hành vi khác nhau không còn hiệu quả với phương
thức xứ lý thủ công Do đó, yêu cầu đặt ra là cần xây dựng một hệ thống thời
gian thực trích rút được các thông tin thể hiện những hành vi bat thường trong
quá trình hoạt động của đối tượng xắu và sử dụng được cdc thong tin nay dé so
kháp, đối chiếu a ác định các đối tượng có dầu hiệu nghỉ vấn gian lận
Các công trình nghiên cứu liên quan
Dữ liệu chuỗi thời gian được sử dụng rộng rãi để mô tả quá trình hoạt động của đối tượng va phan tích các bất thường ẩn giấu bên trong [12] [19] [32] [38] 44] Mot
cách tiếp cận trong việc phân tích chuỗi thời gian là sử dụng các biểu diễn rời
bu 1A thuat toan SAX (Symbolic Aggregate approXimation)
rac, với ví dụ tiên bi:
Trang 13
LUẬN VĂN THẠC SĨ PHAM NGOC QUANG ANH
Khi các chuyên gia phân tích đánh gì ro một đối tượng nào đó, n
những cách họ thường sử dụng là xem xét quá trình hoạt động của đối tượng: này trong quá khứ Họ tổng kết những kinh nghiệm có được từ những đối tượng gian lận, sử dụng những kinh nghiệm này để đối chiếu với đối tượng đang được
xét và phân tích xem liệu các hành vi của đối tượng này có giống với những hành:
ột trong,
vi đáng ngờ hay không Trong phân tích chuỗi thời gian, các độ đo khoảng cách
được sử dụng để tính toán sự tương đồng giữa các chuỗi mô tá hanh vi Dé do
DTW (Dynamic Time Warping) thường được sử dụng vì tính linh hoạt trong
việc so khớp chuỗi thời gian [T4|[T7|JP0JJD2|]
Nhiều ứng dụng trí tuệ nhân tạo và khai phá dữ liệu được áp dụng để phát
hiện các yếu tố bất thường ẩn giấu trong dữ liệu HỊTỊH6|Đ8| Phân tích xâm nhập mạng sử dụng KNN 6|, AdaBoost [27][37] hoi quy logistic để xác
định các sự kiến bất thường là nguy ở của các cuộc tan cong mang Vorobyev
sử dụng các thuật toán thuộc lớp thuật toán cây quyết định HỮ| để giảm thiểu các kết quả phát hiện nhầm trong hệ thống chống gian lận của ngân hàng Các
gian lận trong giao dịch thẻ tín dụng được đánh giá dựa trên nhiều thuật toán
học máy để đưa ra kết quả tối ưu [ð|ỡ]
Mục đích nghiên cứu
Mục tiêu chính của luận văn là trình bày một mô hình áp dụng trong lĩnh vực
phát h ì tài chính Cụ thể, mô hình đề xuất giải quyết các vấn đề sau
ện gian lận giao
ø Xây dựng thuật toán khai phá motif đưa ra các motif hành vi, thói quen
bất thường mà những đối tượng gian lận sử dụng
« Phan lớp các đối tượng nhằm xác định nhóm đối tượng có hành vi bất
10
Trang 14LUẬN VĂN THẠC SĨ PHAM NGOC QUANG ANH
băng các thuật toán học máy Có nhiều loại hình siao dịch tài chính như gïao dịch vay ng, thế chấp, giao dịch tài khoản, giao dich qua thé tin dung trong đó phổ biến nhất là giao dịch nưua bán hàng hóa trực tiếp Mô hình đề xuất được áp dụng
eự thể vào hoạt động mua bán hàng hóa ca khách hàng với doanh nghiệp bán lẽ
Từ liệu trong giao dịch mưa báu hàng hóa bao gồm các thông tin về người
mua; thöng tỉn về hàng hóa như loại hình hàng hóa, giá thành; thöng tin giao
dich nhit dia điểm giao dịch, tổng chỉ phí giao dich, thai gian giao dich Luan văn tập trung phãn tích hành vì thay đổi địa điểm và loại hàng hóa mua của
khách hàng trong thời gian ba năm từ năm 2015 đến năm 2017
Cau trúc luận vấn và các đóng góp của tác giả
Nội dung chính sỗa luận văn dược trình bày trong ba phương
« Chương 1: Giới thiệu chung về bài toán phát hiện bất thường và các thuật tuán phân lớp trong học mấy,
« Chương 2: Trình bày phương pháp xây đựng mô hình nhận dạng motïf trong
tập chuỗi thời gian và sử dụng các thuật toán học máy để phân lốp Qua
đó, xác định được các đối tượng có hành vi bất thường
© Chương 3: Ấp dụng mô hình đưa ra với đữ liệu hoại đồng mua bằng,
‘lrong luận văn này, đóng góp chính của tác giả là xây dựng được sơ đỗ tổng
quan của mồ hình phần lớp mới dựa trên việc phân tích các thói quen trong giao
dịch của các đối tượng,
Trang 15Chương 1
Giới thiệu chung
1.1 Bài toán phát hiện bất thường
Phát hiện bat thường là bài toán nhận dạng motif trong dữ liệu mà không phù hợp với hành vị thông thường Những motif không phù hợp này thường được gọi
là điểm bắt thường, điểm ngoại lai, những quan sắt trái ngược, ngoại lệ trong,
nhiều ngữ cảnh khác nhau [T0
Phát hiệt bất thường được sử dụng rộng rãi trong nhiều lĩnh vực
e Phát hiện gian lận trong hành vi tiêu đùng thẻ tín dụng, bảo hiểm hay chăm
khỏe Fll[9) 22] 28}[35)
e Phát hiện xâm nhập trong an ninh mang [27][36][37]
e Phát hiện lỗi trong các hệ thống an toàn và các hoạt động giám sát [[I|T]
Một điểm/tập hợp bất thường được định nghĩa là một motif không phù hợp
với hành vi thông thường Vì vậy, một cách tiếp cận trực tiếp cho bài toán phát hiện bất thường, là xác định một vùng đại diện cho các hành vi bình thường và trích rút bất kỳ quan sát nào không thuộc vùng bình thường này là bất thường,
fo)
t bai toan phat hién bat thuéng bao gồm bồn khía cạnh chính: nguồn dữ
liệu đầu vào, các loại bất thường, nhãn của dữ liệu và đầu ra của quy trình phát
hiện bất thường [ữ]
1.1.1 Nguồn dữ liệu đầu vào
Mỗi điểm dữ liệu đầu vào của bài toán được mô tả dưới dạ
thuộc tính Các thuộc tính này có nhiều kiểu như nhị phân,
ng tập hợp các giá trị rồi rạc
12
Trang 16LUẬN VĂN THẠC SĨ PHAM NGOC QUANG ANH
hay liên tục Mỗi điểm dữ liệu có thể gồm chỉ một thuộc tính (đơn biến) hay
nhiều thuậc tính (da |
êu có thể có liên kết với nhau, chẳng hạn dữ liệu dạng chuỗi [TJ8], dữ liệu dạng đỏ thị 2Ø Trong dữ liêu dạng chuỗi, các điểm dữ liệu có tính thứ tự tuyến tính, ví đụ như chuỗi thời gian, chuỗi gen, chuỗi protein Trong dữ liệu dạng đồ thị, mỗi điểm dữ liệu được biểu diễn dưới dạng đỉnh của
đồ thị và liên kết với nhau bởi các cạnh
1.1.2 Các loại bất thường
Đặc trưng của bất thường được chia làm ba loại HŨ|
Bất thường điểm
Nếu một điểm dữ liệu eu thể được coi là dị thường với phần còn lại của tập dữ
liệu, điểm dữ liệu đó là một bất thường điểm Loại bat thường này xuất hiện phổ biến trong các bài toán phát hiện gian lận thẻ tín dụng Cụ thể, xét một thuộc tính số tiền tiêu dùng trong dữ liệu giao dịch thẻ tín dụng của các cá nhân, một giao dịch có số tiền tiêu đàng ở một thời điểm cao đột biến so với hoạt động tiêu dùng thông thường của cá nhân đó được coi là một bất thường điểm
Bất thường ngữ cảnh
Một điểm/tập dữ liệu là bất thường trong một ngữ cảnh cụ thể được gọi là một bất thường ngữ cảnh Ngữ cảnh trong tập dữ liệu có thể khoảng thời gian
cụ thể, hay các thông tin phân vùng không gian như độ cao, độ sâu Trong bài
tiêu dùng trung bình theo tuần cao
ập hợp các điểm dữ liệu liên quan có sự khác biệt với toàn bộ tập
dữ liệu thi đây là một bất thường nhóm Một điểm dữ liệu cụ thể trong loại bất
thường này có thể không phải là bất thường điểm, nhưng sự xuất hiện liên tục
các điểm này dẫn đến bất thường trong tập dữ liệu
18
Trang 17LUẬN VĂN THẠC SĨ PHAM NGOC QUANG ANH
1.1.3 Nhãn dữ liệu
Nhãn của một điểm dữ liệu xác định xem điểm này là bình thường hay bất thường Quá trình thu thập dữ liệu được gần nhãn chính xác là phức tạp Việc
gán nhãn thường được thực hiện một cách thủ công bởi chuyên gia dẫn đến việc
ton chi phí về mặt thời gian Thông thường, việc thu thập tập đã gán nhãn từ dữ
liệu bất thường khó khăn hơn việc lấy nhãn từ đữ liệu bình thường Phụ thuộc
êu, bài toàn phát hiện bất thường có thể được
vào số lượng nhãn của tập dữ
triển khai theo ba hướng H0[
e Phát hiện bất thường có giám sát: Tập dữ liệu luyên được đánh nhãn đầy
đủ với hai loại là bất thường và bình thường, Cách tiếp cận thông thường
là xây dựng mô hình phù hợp từ dữ liệu luyện sau đó dự đoán nhãn cho các
điểm dữ liệu bất kỳ
« Phát hiện bất thường bán giám sát: Tập dữ liệu luyện chỉ bao gồm các điểm
được gần nhãn bình thường Cách tiếp cận với trường hợp này là xây dựng,
một mô hình tương ứng với hành vi bình thường, và sử dụng mô hình này
để xác định ra các điểm bất thường trong tập đữ liệu
e Phát hiện bất thường không giám sát: Tạp dữ liệu không có nhãn Các kỹ thuật cho bài toán này dựa trên giả định ngầm các điểm dữ liệu bình thường
có tần suất xuất hiện nhiều hơn các điểm bắt thường trong tập dữ liệu [Z4]
1.1.4 Dâu ra của bài toán
Dầu ra của bài toán phát hiện bất thường gồm hai loại
ø Điểm số bất thường: Diểm dữ liệu đại diện cho hành vì của đối tượng được
tính điểm Sau đó xác định ra số lượng, điểm cụ thể có điểm bất thường cao
nhất hoặc đưa ra một ngưỡng điểm số để chọn các điểm bất thường
e Nhãn: Các đối tượng bất thường và bình thường được phân biệt qua nhãn
1.2_ Bài toán phân lớp và một số thuật toán học máy
1.2.1 Bài toán phân lớp
Phân lớp là quá trình tìm kiếm một mô hình phân biệt các lớp dữ liệu Mô
hình được xây đựng dựa trên việc phân tích tập đữ liệu luyện và được sử dụng
để dự đoán nhãn lớp của các đối tượng mà chưa biết thông tin nhãn [2T]
1
Trang 18LUẬN VĂN THẠC SĨ PHAM NGOC QUANG ANH
.C} va tap diém dit lieu X c R¢, ta tìm
m dữ liệu « € X, y= f(x) sé gan diém dit
gần vào lớp có xác suất gần nhãn cao nhất
1.2.2 Một số thuật toán học máy
K-láng giềng gần nhất
"Thuật toán K-lang giềng gần nhất (KNN) là một trong những thuật t:
giám sát đơn giản Thuật toán hoạt động dựa trên nguyên lý nhãn của đối tượng
được xác định dựa trên các đối tượng lân cận nó [T5] Cụ thể, nhãn của điểm
của điểm dữ liệu có thể được xác định qua việc chọn theo đa số (major voting)
nhãn trong K điểm gần nhất hay đánh trọng số cho mỗi điểm gần nhất rồi đưa
ta kết quả
KNN được ứng dụng trong việc phát hiện chuỗi trạng thái bất thường trong,
hoạt động vệ tính [Tf| Nghiên cứu của Mins-Yang Su [30] cing stt dung KNN dé phát hiện nhanh chóng các tình huống tấn công mạng dựa trên lưu lượng mạng, bất thường,
Cây quyết định
quyết dinh (Decision Tree) lA mot cay phan cấp có cấu trúc được dùng
để phân lớp các đối tượng dựa vào tập hợp các luật Thành phần của cây quyết
định bao gồm các nút biểu diễn cho cấu trúc của nhánh Có hai loại nút, nút
quyết định được sư dụng để ra quyết định và có nhiều nhánh nút lá là đầu ra
của nút quyết định và không có nhánh con [6]
Cây quyết định được ứng dụng trong việc phát hiện gian lận tín dụng và
thanh toán của ngân hàng [34j[H0|
Trang 19
LUẬN VĂN THẠC SĨ
Baggins [T|RI
Cu thé, ta chon ra k tập dữ liệu con từ tập dữ liệu luyện Ứng với mỗi tập
con này, ta chọn một tập thuộc tính con từ không gian thuộc tính và xây dựng
một cây quyết định phân lớp trên bộ dữ liệu này
y quyết định, nhãn của điểm dữ liệu dược xác
quyết định nà
Sau khi xây dựng được k
định dựa trên việc tổng hợp các kết quả đánh nhãn từ
sử dụng phương pháp bỏ phiếu đa số (majority voting) để đưa ra kết luận nhãn
Hồi quy logistic
Hồi quy logistie là thuật toán học máy phổ biến được sử dụng cho học có giám
sát, Thuật toán tước lượng xác suất phân lớp nhị phân dựa trên một hay nhiều
đặc trưng 5] Hồi quy logistic sử dụng hàm phi tuyến sigmoid dé lam ham phan lớp Cụ thể, với một điểm đữ liệu z e R# và bộ tham số œ = {¡}Jh›
Trang 20Chương 2
Xây dựng mô hình khai pha motif
cho chuỗi thời gian và phát hiện bất thường
Phân P.3] đến khai phá motif bất thường từ những chuỗi thời gian đã
được mô hình hóa Phần|3.4|mô tả quá trình xây dựng bộ thuộc tính bất thường
và phân lớp Cuối cùng, phần P.5] đưa ra các chỉ s
bất thường được sử dụng trong luận văn
ất mô hình tổng quan quy trình phân tích và phát hi:
Dữ liệu giao dịch trong kinh tế chứa đựng một lượng lớn thông tin thể hiện
hoạt động của các đối tượng Để xác định được các kịch bản gian lận được che
giẫu trong các hoạt g giao dịch này, ta cần xét một chuỗi các giao dịch liên tiếp do cùng một đối tượng thực hién [3]
Định nghĩa 2.1 Một chuỗi giao dịch liên tiếp do đối tượng thực hiện được gọi
là một hành 0i
"Yêu cầu đặt ra cho một mô hình phát hiện bất thường là tìm ra các motif của
các hành vi do các đối tượng gian lận thực hiện trư
lận Các motif bắt thường sẽ được sử dụng để tìm
Trang 21LUẬN VĂN THẠC SĨ PHAM NGOC QUANG ANH
tương đồng, từ đó xác định được các đối tượng bất thường có đấu hiệu gian lận
Trong quy trình đầu tiên của hệ thông, tập đữ liệu mô tả hành vi được tiền
xử lý để xây dựng bộ dữ liệu ứng với từng đối tượng giao dịch Mỗi bộ dữ liệu
b xếp theo trình tự thời gian để tạo thành các chuỗi thời gian mô tả quá
trình hoạt động của chủ thể giao dịch Chuỗi thời gian được xây dựng sẽ mô tả
một hoặc nhiều đặc trưng của giao dịch (tương ứng với chuỗi thời gian đơn và
)
Ví dụ 2.1 Trong trường hợp chỉ xét đến sự biến thiên của giá trị giao dịch ta
xây dựng chuỗi thời gian đơn theo thuộc tính tổng giá trị giao dịch theo từng
tháng Mặt khác, ta xây dựng chuỗi thời gian đa chiều trong trường hợp phan
tích thêm thuộc tính tổng lợi nhuận và số lượng giao dịch của đối tượng
ác định các motif trên chuỗi thời gian được đưa về tìm motif trên
ký hiệu, Quá trình tìm kiếm meotif cho chuỗi thời gian sẽ trích rút ra các motif hành vi dưới đạng chuỗi ký hiệu do các đối tượng xấu thường xuyên thực hiện , tổng hợp lại thành tập motif hành vi đáng ngờ Tap motif thu được
là cơ sở để đánh giá hành vi trong hoạt động giao dịch của các đối tượng
đó, ta pÌ y dựng một bộ thuộc tính thể hiện độ tương đồng của hành vi với
giữa các motif hành vi gian lận Bl
"Tổng hợp lại, mõ hình tổng quan của phương pháp được đề xuất gồm ba bước
e Thứ nhất: Tiền xử lý dữ liệu chuyển tập dữ liệu từ dạng tập hợp các giao
chuỗi thời gian tương ứng
dịch rời rạc theo từng thời điểm thành tập
với từng đối tượng
e Thứ hai: Tìm kiếm những motif hành vi đáng nghỉ ngờ trên các chuỗi thời gian của những đối tượng gian lận Chuỗi thời gian sẽ được chuyển đổi thành
18
Trang 22LUẬN VĂN THẠC SĨ PHAM NGOC QUANG ANH
các chuỗi ký hiệu Từ các chuỗi ký hiệu này, ta xây dựng ma trận tính toán
các khoảng cách và tìm kiếm các chuỗi trung tâm motif Kết quả thu được
là tập các motif đại diện cho hành vi của các đối tượng gian lận
e Thứ ba: Xây dựng bộ thuộc tính bất thường và thực hiện phân lớp
“Xây dựng tp, snub tới gen
Hình 3.1: Sơ đỗ tổng quan của mô hình phân tích hành vi trên chuỗi thời gian
2.2_ Mô hình hóa dữ liệu thành chuỗi thời gian
Kí hiệu Ø = {øi,oa ø„} là tập các đối tượng thực hiện hành vi giao dich
giao dịch của các đối tượng trong O
Với mỗi đối tượng ø¡ trong O, ta iy dựng được một chuỗi thời gian mö tả
hành vi giao dịch với các điểm dữ liêu là các giá trị thuộc tính của giao dịch
“Trong nhiều trường hợp các giao dịch cúa đối tượng không thể đánh giá đơn lẻ
'Ví dụ 2.2 Đánh giá hành vi thay đổi
trong khoảng thời gian lớn như tháng, năm
19
Trang 23
Trong khuôn khổ luận văn, ta chỉ xét đến các chuỗi thời gian có mốc thời gian
cố định, Ký hiệu tập mốc thời gian T = {1,]o<¡<m Ký hiệu 76! là chuỗi thời gian hành vi giao dịch của đối tượng ø¡ với tập móc thời gian 7 Trong đó
Trong d6, vi 1a gia trị thống kê từ những hành vi giao dịch cụ thể do đối tượng
ø¡ thực hiện trong khoảng thời gian (t.f;,¡) Chuỗi thời gian này thể hiện các hành vi như thay đối tần suất giao dịch giá trị giao dịch
“Ta xây dựng một chuỗi thời gian đơn giản mô tả hành vi giao dịch của đối
tượng
Định nghĩa 2/3 Một chuối thời gian 9 được gọi là chuối Ihầi gian đơn giãn
nếu thỏa mãn điều kiện sau
Trang 24LUẬN VĂN THẠC SĨ PHAM NGOC QUANG ANH
3: Mõ là chuỗi thời gian đơn giản: {a) Chuỗi thời gian (b} Phóp trữ cuaỗi của chuối thối gian.
Trang 25LUẬN VĂN THẠC SĨ PHAM NGOC QUANG ANH
Hình 3.3: Các hành vi của đối tượng được mỏ tả dựa tren chuỗi thời gian đơn giản
Chuỗi thời gian được xây dựng trong phần P.2] eó thông tỉn về các hành vi và
thói quen của các đối tượng trong quá khứ Ta tiếp tục phân tích các thong tin này, cụ thể là tìm các motif hành vi bất thường của đối tượng gian lận Hìnhj.4|
mô tả lại quy trình khai phá motif trong sơ đồ tổng quan
2.3.1 Xây dựng chuỗi ký hiệu
“Trong luận văn, việc chuyển đổi chuỗi thời gian thành chuỗi kí tự dựa trên phép
trừ của chuỗi thời gian được nên ở định nghĩa
chuỗi Z¿ của chuỗi thời gian đơn giản 5; là một chuỗi của
{1.0.—1} ta
sử dụng một phép chuyển để chuyển đổi nó thành một chuỗi ký hiệu
Định nghĩa 2.3 Phép chuyển chuỗi thời gian đơn giản thành một chuỗi ký hiệu
Trang 26LUẬN VĂN THẠC SĨ PHAM NGOC QUANG ANH
cae chuối sua đồi tượng xâu
Hình 3.4: Quy trình khai phá motif
Để đơn giản hóa chuỗi ký hiệu, ta có thể thu gọn lại các đãy ký hiệu xuất
lại
hiện lặp lại liên tục thành thành một ký hiệu đi kèm với chỉ số
Định nghĩa 2.4 Chuỗi ký hiệu thu gọn là biểu diễn rút gọn cho chuỗi ký hiệu
thông thường Trong chuỗi này mỗi kú hiệu đì kèm uới một chỉ số cho biết rằng
ký hiệu đó lặp lại bao nhiêu lần
: tổ hợp
cấu trúc này đại diện cho một motif hành vi trong giao dịch của đối tượng Ví
dụ u —1 sẽ tương ứng với motif 'eó biến động tăng và sau đó không đổi" Dé don
giản hóa, ta gọi các tổ hợp cấu trúc này là dạng
Ngoài ra, mỗi chuỗi ký hiệu sẽ có các tổ hợp cấu trúc
Định nghĩa 3.5 Dụng của chuỗi ký hiệu thu gọn là chuỗi các ký hiệu trong chuỗi ký hiệu thu gọn nhưng lược bỏ chỉ số
Tap chuỗi thời gian giao dịch TS được chuyển đổi thành tập các chuỗi ký hiệu
thu gọn SB để thực hiện quy trình tìm kiếm motif được mô tả ở Ta xay
tập chuỗi ký hiện § của đối tượng bao gồm tất e
ký hiệu thu gọn đang xét
Trang 27LUẬN VĂN THẠC SĨ PHAM NGOC QUANG ANH
Hink 2.5: Chuyển đổi phép Lrừ chuỗi của chuỗ: thời gian đưn giản Lhàn]: chuỗi ký hiệu,
Trang 28LUẬN VĂN THẠC SĨ PHAM NGOC QUANG ANH
2.3.2 Tìm kiếm motif bất thường
‘Xét tap hop A c SB la tị
các chuỗi thời gian giao dịch của đối tượng gỉ
ap hop các chuỗi ký hiệu thu gọn được chuyển đổi từ
m lận Quy trình khai phá motif
dựa trên ý tưởng xác định những hành vi do nhiều kẻ gian lận thực hiện có tính
khác biệt với những hành vi của những, đối tượng thông thường
Dinh nghia 2.6 Motif trong chuối ký hiệu là chuỗi ký hiệu đại diện cho tập
các chuỗi kú hiệu con tương đồng xuất hiện lặp lại trong tập kú hiệu
thời gian của các đối tượng xấu Tương ứng với việc chuyển đổi thành chuỗi ký
hiệu rời
ap lại nhiều lần trên
ạc, bài toán tìm kiếm motif trở thành bài toán tìm kiếm những chuỗi ký
hiệu con đặc trưng của những chuỗi ký hiệu thu gọn xuất hiện nhiều lần trong
tập dữ liệu của đối tượng gian lận 3]
Trong môi chuỗi ký hiệu cụ thể, chuỗi con của nó có số lượng đa dạng Ta
đưa ra một độ đo khoảng cách giữa các chuối để tổng hợp lại các chuỗi con có
sự "tương đồng" với nhau
Định nghĩa 3.7 Cho hai chudi S; uà S; là hai chuối ký hiệu thu gọn uới cùng dang
Trang 29LUẬN VĂN THẠC SĨ PHAM NGOC QUANG ANH
a u D(81,83) DiS., 83) DiS, 54) DiS,, 55}
Sy PE ũ Dị, G) DiS, Sy) DiS, 5) |
Bang 2.1: Minh hoa ma tran khoảng cách với 5 shuôi ký hiệu
Dịnh nghĩa 2.8 Ngường tương đồng H là giá trị xác định tưởng đồng giữa hai
chuỗi kỷ hiệu, Hai chuỗi có khoảng cách nhỏ hơn H thì hai chuỗi được coi là
tương đồng uà có cling mét motif hanh vt
'Từ tập chuỗi ký hiệu §, ta xác định các motif hành vi của đối tượng Một
motif cAn théa man điều kiện sau
« Là chuỗi có số lượng chuỗi tương đồng với nó cao nhất,
« Nêu có nhiều hơn một chuỗi thỏa mãn điều kiện trên thì motif 1A chudi có tổng khoảng cách tới tắt cả các chuỗi tương đồng với nó là nhỏ nhất
Trong trường hợp lổn tại fL nhất hai chuỗi thôa mãn diều kiện trên thì ta chọn ngẫu nhiên motif từ các chuỗi thảa mãn điều kiện
Trang 30LUẬN VĂN THẠC SỈ PHAM NGOC QUANG ANH
Sau khi tìm được một chuỗi trung tâm của motif, tập hợp cá
đồng với nó sẽ được đưa loại bỏ khỏi tập chuỗi
chuỗi trung tâm motif cho đến khi |S| = 0
shuối tương:
§ Tiếp tục tìm kiếm các
Gọi tập chuỗi trung tâm motif, hay tap motif thu dude la P Lite này, tập
motif vẫn cần được tiếp tục xử lý vì những khả năng dưới đây
e Ton tai một số motif có tần suất xuất hiện thấp trong Á
« Tồn tại một số motif xuất hiện trong tập dữ liệu giao dịch của các đối tượng,
bình thường với một tần suất đủ lớn dẫn đến motif không đại điện cho đối
tượng gian lận
Vi vay, dé dam bao tap motif bat thường đại điện cho các hành vi đáng ngờ của
đối tượng gian lận, ta đặt ra một chỉ số chon motif score
Định nghĩa 2.9 Với frormal(P) la ty 1@ s6 luong chuỗi ký hiệu của từng đối tượng bình thường chứa motif P trên tổng số đối tượng bình thường fasmay(P)
3ĩ
Trang 31lý lệ số lượng chuỗi ký hiệu của lừng đối tượng gian lận chứa molif X trên
tổng số đôi tượng có hành uì gian lận
“Thuật toán 1: Thuật toán khai phá motif trên chuỗi thời gian
Input: Tập chuỗi thời gian T9 ngưỡng tương dong R, ngudng chon motif threshold,
Output: Tập motif hành ví đáng nghỉ P
1 Chuyển đổi tập chuỗi thời gian 78 thành chuỗi ký hiệu 6B
3 Lọc tập chuỗi ký hiệu của đối tượng gian lăn A tit SB
3 Xác định các chuỗi con trên những chuồi ký hiệu trong A theo từng dạng
1 Xây dựng ma trặn khoảng cách từ các chuỗi con có dây kí tự mã hoá tìm được ở bước 3,
5 Tìm kiếm chuỗi trung tâm motif dựa trên ngưỡng tương rồng R
6 Loại bỏ các chuỗi con thuộc motif vừa tìm được và lặp lại bude 3, nếu không tìm được
đây kí tự lặp lại, chuyển sang bước 7
7 Tidp tục loe motif vai ngưỡng chọn motif threshold
8 Dừng thuật toán, kết luận tap motif P
Thu
lại và phổ biến của các đối tượng gian lận
t toán [1| trích rút được motif thể hiện thông tin hành vi xuất hiện lặp
Sau khi thực hiện quá trình khai phá motif, ta sẽ có các motif đại diện cho
ác hành vi lặp lại trong nhóm các đối tượng gian lận Ký hiệu tập các motif là
PP ={pi,ps py}- Tập motif này sẽ được sử dụng làm cơ sở cho quy trình phân lớp
2.4 Xây dựng bộ thuộc tính bất thường và phân lớp
Với mỗi kịch bản hành vi của đối tượng, ta xây dựng được tập các motif hành
vi gian lận Các hành vi giao dịch của đối tượng nếu có sự tương đồng với những, motif này sẽ có mức độ nghỉ ngờ gian lận cao Dây là cơ sở của việc xây dựng
bộ thuộc tính bắt thường J3]
28
Trang 32LUẬN VĂN THẠC SĨ PHAM NGOC QUANG ANH
một ví dụ tính giá trị của một thuộc tính bất thường
tượng Với mỗi loại hành vỉ
ta thực hiện phân lớp xác định các đối tượng gian lận Trong khuôn khổ luận
Tong hop lai, ta xây dựng tập thuộc tính # = {Fease, Fea
ứng với các loại hành vỉ giao dịch khác nhau của đố
Trang 33LUẬN VĂN THẠC SĨ PHAM NGOC QUANG ANH
Thuật toán 3: Thuật toán phãn lớp đỗi Lượng,
Input: Tap motif bất thường P, tập chuỗi thai sian luyện T8 tặp chuỗi thời gian K°ểm thử
'U8;„„; của tập đối Lượng Ú
Output
quad phần lớp đối tượcg đựa trên 'T;,„r
1 Chuyển đổi tập chuỗi thời gim: “8 và Tf6,.„ lâu lượt thành chuỗi ký liệu SE và 8B
3 Xây dựng bộ thuộc tính 7 từ 8ÿ và P
3, Xây dựng bộ thude tinh Mes: ti 6B, „, và Ð
4 Xây dựng mô hình phãn lớp Ƒ từ các tauập roán học máy Random Forest KNN,
AdaRoost, Decision Tree,
6 Kết hận nhấn cho tận dai
Ngoài ra, để đưa ra một kết quả phân lớp tổng quan dựa trên toàn bộ hành
vi của đối tượng, cụ thể là đựa trên đa chuỗi thời gian thể hiện các hành vi của đối tượng , ta sử dụng các điểm đánh giá bất thường cho từng hành vi ở mỗi mô hình học máy để xây dựng một bộ thuộc tỉnh mới để phân lắp đối tượng 'Irơng
luận văn, thuật toán được sử dụng để phân lớp đữ liệu trên bộ thuộc tính này
la, Logistics Regression
30
Trang 34Ma trận nghỉ ngờ (Confusion matrix) cho biết có số lượng đối tượng đưa vào
thuật toán phân lớp được phân lớp đúng và phân lớp sai vào từng lớp (bất thường
hay không bất thường)
Hình [2.7] m6 ta kết quả phân lớp đối tượng vào hai lớp '0 và '1 Ma trận cho biết rằng có lần lượt 518 đối tượng được phân đúng vào lớp '0'.25 đối tượng
được phân đúng vào lớp '1' và 60 đối tượng bị phân nhằm lớp (thực tế là lớp '0'
những bị phân lớp là *1’ và ngược lại)
Trang 35LẦN VĂN THẠG SĨ PHAM NGỌC QUANG ANH
« TP (False Positive): Số lượng đổi tượng được dự đoán có hành vị bat thường
nhưng thực tế không bắt thường
«Ẳ EN (False Nagative): Số lượng đối tượng được dự đoán không có hành vi
bất thường nhưng thực tế là bất thường
® TN (True Negative): Số lượng doanh nghiệp được dự đoán khöng có hành
vi bắt thường và thực tế đúng là không bắt thường
Khi đó, yếu tổ đánh giá Precision được đánh giá bởi công thức:
'Từ công thức trên, ta có thể thay yến tổ Precision thé hiện tỷ lệ số lượng dự
đoán đúng thực sự là bất thường trên số lượng dự đoán bất thường bởi mồ hình Yếu tổ Recall thể hiện tỷ lệ số lượng dự đoán đúng thực sự là bất thường trên
Trang 36
Bảng 3.1: Mô tả dữ liệu hoạt dong mua hang
Hình B-1|là một số bản ghỉ hoạt động mua hàng của khách hàng
Trang 37LUẬN VĂN THẠC SĨ PHAM NGỌC QUANG ANH
Trong luận văn, ta xét đến ba hành vi thay đổi của khách hàng
« Hành vi thay đồi địa điểm
« Hành vi thay đổi hàng hóa mua
« Hành vi mà khách hàng thay đổi cả địa điểm và hàng hóa mua
Hành vi thay đổi được tính theo tháng Với giai đoạn n = 3 năm (tương ứng với
36 tháng) ta xét tập thời gian 7 = {fu.h đạn}
M
Trang 38LUẬN VĂN THẠC SĨ PHAM NGOC QUANG ANH
Xét một khách hàng ø¡ trong tap khéch hang ©, Uf 14 tap céc địa điểm khách hang o; mua trong tháng (; HỶ là tập hàng hóa khách hàng ø¡ mua trong tháng
4; Hàm số hành vi thay đổi được xác định
+ Thay đổi địa điểm
Frlvitja)=1 néu Hi, % Hj
Fy (oitj ya) —0 trai lai
Fron tn) =0
+ Thay đổi cả địa điểm và hàng hóa mua
Fr(ointigy) 1 néu DY, ¢ Di, ¢ ae
Fic(ois tiga) = trai lai
Fx (9, ty) — 0
KF higu TS), TS, 794, lần lượt là chuối thời gian mô tả thay đổi địa điểm,
hàng hóa mua va thay đổi cả hai nhân tố của khách hàng ø¡ và được xác định
Psh — {USL U9, 190} với 9) — YN gala.)
T Shy — {TS TS, TSg} VOLTS} — YY Fix os tr) TSi¢ — {TS}, TH, TSh5} VATS! — Dig Fetes te}