1. Trang chủ
  2. » Tất cả

Khai phá motif cho đa chuỗi thời gian và phát hiện bất thường bằng các phương pháp học máy

77 5 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Khai phá motif cho đa chuỗi thời gian và phát hiện bất thường bằng các phương pháp học máy
Tác giả Phạm Ngọc Quang Anh
Người hướng dẫn TS. Nguyễn Thị Ngọc Anh
Trường học Trường Đại học Bách khoa Hà Nội
Chuyên ngành Toán Tin
Thể loại Luận văn thạc sĩ
Năm xuất bản 2022
Thành phố Hà Nội
Định dạng
Số trang 77
Dung lượng 2,21 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Chương 2Xây dựng mô hình khai phá motif cho chuỗi thời gian và phát hiện bất thường Nội dung chương 2 đề cập đến quy trình xây dựng mô hình khai phá motif vàphân lớp đối tượng sử dụng cá

Trang 1

HÀ NỘI, 10/2022

Trang 2

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

Độc lập – Tự do – Hạnh phúc

BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ

Họ và tên tác giả luận văn : Phạm Ngọc Quang Anh

Đề tài luận văn: Khai phá motif cho đa chuỗi thời gian và phát hiện bất

thường bằng các phương pháp học máy

Chuyên ngành: Toán tin

Mã số SV:20202959M

Tác giả, Người hướng dẫn khoa học và Hội đồng chấm luận vănxác nhận tác giả đã sửa chữa, bổ sung luận văn theo biên bản họp Hội đồngngày 31/10/2022 với các nội dung sau:

● Bổ sung thêm phần lời mở đầu

● Chỉnh sửa lỗi soạn thảo, câu chữ tại các trang 11, 14, 15, 18, 23, 29

● Chỉnh sửa lại hình mô hình tổng quan 2.1 trang 19

Ngày 31 tháng 10 năm 2022

Giáo viên hướng dẫn Tác giả luận văn

CHỦ TỊCH HỘI ĐỒNG

Trang 3

Tên học viên: Phạm Ngọc Quang Anh

Cán bộ hướng dẫn: TS Nguyễn Thị Ngọc Anh

Đơn vị: Viện Toán ứng dụng và Tin học, Trường Đại học Bách khoa

Hà Nội

Chữ ký của GVHD

Trang 4

Lời cảm ơn

Trước khi đi vào nội dung luận văn, em xin có lời cảm ơn chân thành đến TS.Nguyễn Thị Ngọc Anh đã trợ giúp và tận tình hướng dẫn em hoàn thành tốtluận văn này Em cũng xin gừi những lời cảm ơn đến các thầy cô Viện Toán ứngdụng và Tin học, trường Đại học Bách khoa Hà Nội đã giảng dạy những kiếnthức bổ ích cho em trong suốt quá trình học tập cao học

Ngoài ra, em cũng gửi lời cảm ơn tới đồng nghiệp và ban lãnh đạo Viện Nghiêncứu Ứng dụng công nghệ CMC đã hỗ trợ và tạo điều kiện thuận lợi cho em đểhoàn thiện luận văn, đặc biệt là anh Hoàng Văn Đông đã giúp đỡ em rất nhiềutrong quá trình thực hiện luận văn

Cuối cùng, em xin gửi lời cảm ơn đến tất cả các thành viên trong gia đình em

đã quan tâm và tạo động lực cố gắng để em hoàn thành luận văn này

Hà Nội, ngày 24 tháng 10 năm 2022

Học viên thực hiện

Phạm Ngọc Quang Anh

Trang 5

Danh mục ký hiệu, chữ viết tắt 4

1.1 Bài toán phát hiện bất thường 12

1.1.1 Nguồn dữ liệu đầu vào 12

1.1.2 Các loại bất thường 13

1.1.3 Nhãn dữ liệu 14

1.1.4 Đầu ra của bài toán 14

1.2 Bài toán phân lớp và một số thuật toán học máy 14

1.2.1 Bài toán phân lớp 14

1.2.2 Một số thuật toán học máy 15

2 Xây dựng mô hình khai phá motif cho chuỗi thời gian và phát hiện bất thường 17 2.1 Mô hình tổng quan 17

2.2 Mô hình hóa dữ liệu thành chuỗi thời gian 19

2.3 Khai phá motif 22

2.3.1 Xây dựng chuỗi ký hiệu 22

2.3.2 Tìm kiếm motif bất thường 25

2.4 Xây dựng bộ thuộc tính bất thường và phân lớp 28

2.5 Đánh giá kết quả phân lớp 31

2.5.1 Ma trận nghi ngờ 31

Trang 6

LUẬN VĂN THẠC SĨ PHẠM NGỌC QUANG ANH

2.5.2 Precision và Recall 312.5.3 Độ đo F 1 32

3 Ứng dụng mô hình phát hiện bất thường vào dữ liệu hoạt động

3.1 Mô tả bộ dữ liệu 333.2 Mô hình hóa 343.3 Kết quả 38

Trang 7

T tập mốc thời gian

Trang 8

LUẬN VĂN THẠC SĨ PHẠM NGỌC QUANG ANH

Trang 9

2.1 Sơ đồ tổng quan của mô hình phân tích hành vi trên chuỗi thời

gian 19

2.2 Mô tả chuỗi thời gian đơn giản: (a) Chuỗi thời gian (b) Phép trừ chuỗi của chuỗi thời gian 21

2.3 Các hành vi của đối tượng được mô tả dựa trên chuỗi thời gian đơn giản 22

2.4 Quy trình khai phá motif 23

2.5 Chuyển đổi phép trừ chuỗi của chuỗi thời gian đơn giản thành chuỗi ký hiệu 24

2.6 Tính toán giá trị thuộc tính 29

2.7 Minh họa một ma trận nghi ngờ 31

3.1 Dữ liệu hoạt động mua hàng 34

3.2 Chuỗi thời gian thể hiện hành vi thay đổi địa điểm mua hàng của khách hàng trong 3 năm 36

3.3 Chuyển đổi chuỗi thời gian hành vi của từng khách hàng thành chuỗi ký hiệu 37

3.4 Biểu đồ hộp đánh giá kết quả phân lớp từ hành vi thay đổi địa điểm theo từng thuật toán 40

3.5 Biểu đồ hộp đánh giá kết quả phân lớp từ hành vi thay đổi hàng hóa mua theo từng thuật toán 41

3.6 Biểu đồ hộp đánh giá kết quả phân lớp từ hành vi thay đổi cả địa điểm và hàng hóa mua theo từng thuật toán 42

Trang 10

Danh sách bảng

2.1 Minh họa ma trận khoảng cách với 5 chuỗi ký hiệu 26

2.2 Ma trận khoảng cách 27

2.3 Tìm kiếm chuỗi trung tâm motif 27

3.1 Mô tả dữ liệu hoạt động mua hàng 33

3.2 motif hành vi đáng nghi với R = 0.75 38

3.3 Kết quả phát hiện bất thường dựa trên hành vi thay đổi địa điểm 39 3.4 Kết quả phát hiện bất thường dựa trên hành vi thay đổi hàng hóa mua 40

3.5 Kết quả phát hiện bất thường dựa trên hành vi thay đổi cả địa điểm và hàng hóa mua 41

3.6 Thời gian chạy trung bình của từng thuật toán 42

3.7 Kịch bản 4: Kết quả phát hiện bất thường dựa trên việc tổng hợp điểm đánh giá từ thuật toán Random Forest 43

3.8 Kịch bản 5: Kết quả phát hiện bất thường dựa trên việc tổng hợp điểm đánh giá từ các thuật toán học máy 43

3.9 Thời gian chạy trung bình của kịch bản 4 và 5 43

Trang 11

1 Thuật toán khai phá motif trên chuỗi thời gian 28

Trang 12

Mở đầu

Lý do chọn đề tài

Phát hiện bất thường là một chủ đề quan trọng và đã được nghiên cứu trongrất nhiều lĩnh vực [10] tiêu biểu như phát hiện các cuộc tấn công đánh cắp dữliệu trong an ninh mạng [27][37] hay cảnh báo lỗi trong các hệ thống giám sát,cảm biến [36] Đối với lĩnh vực kinh tế nói chung, bài toán phát hiện bất thườngphổ biến là phát hiện gian lận trong các hoạt động tài chính Phát hiện gian lận

là một bài toán cấp thiết của nhiều công ty, tổ chức như ngân hàng, bảo hiểm,các cơ quan nhà nước [28] Vì vậy, phát hiện gian lận tài chính được rất nhiềucác chuyên gia và nhà nghiên cứu quan tâm và thực hiện hàng loạt công trìnhnghiên cứu trong nhiều năm gần đây [4][22][28][32][41]

Cùng với sự phát triển của thời đại công nghệ số hiện nay, các giao dịch tàichính bùng nổ với một lượng dữ liệu khổng lồ bởi sự phát triển của các hìnhthức giao dịch qua mạng và di động Các hình thức giao dịch này có chi phí thấp

và rất nhanh chóng, tiện lợi Từ sự phát triển này, việc xử lý giao dịch từ hàngtriệu giao dịch với vô số loại hành vi khác nhau không còn hiệu quả với phươngthức xử lý thủ công Do đó, yêu cầu đặt ra là cần xây dựng một hệ thống thờigian thực trích rút được các thông tin thể hiện những hành vi bất thường trongquá trình hoạt động của đối tượng xấu và sử dụng được các thông tin này để sokhớp, đối chiếu xác định các đối tượng có dấu hiệu nghi vấn gian lận

Các công trình nghiên cứu liên quan

Dữ liệu chuỗi thời gian được sử dụng rộng rãi để mô tả quá trình hoạt động củađối tượng và phân tích các bất thường ẩn giấu bên trong [12][19][32][38][44] Mộtcách tiếp cận trong việc phân tích chuỗi thời gian là sử dụng các biểu diễn rờirạc, với ví dụ tiêu biểu là thuật toán SAX (Symbolic Aggregate approXimation)

và các cải tiến của nó [2][13][33][42][43]

Trang 13

Khi các chuyên gia phân tích đánh giá rủi ro một đối tượng nào đó, một trongnhững cách họ thường sử dụng là xem xét quá trình hoạt động của đối tượngnày trong quá khứ Họ tổng kết những kinh nghiệm có được từ những đối tượnggian lận, sử dụng những kinh nghiệm này để đối chiếu với đối tượng đang đượcxét và phân tích xem liệu các hành vi của đối tượng này có giống với những hành

vi đáng ngờ hay không Trong phân tích chuỗi thời gian, các độ đo khoảng cáchđược sử dụng để tính toán sự tương đồng giữa các chuỗi mô tả hành vi Độ đoDTW (Dynamic Time Warping) thường được sử dụng vì tính linh hoạt trongviệc so khớp chuỗi thời gian [14][17][20][23][25]

Nhiều ứng dụng trí tuệ nhân tạo và khai phá dữ liệu được áp dụng để pháthiện các yếu tố bất thường ẩn giấu trong dữ liệu [1][11][16][26] Phân tích xâmnhập mạng sử dụng KNN [36], AdaBoost [27][37], hồi quy logistic [30] để xácđịnh các sự kiến bất thường là nguy cơ của các cuộc tấn công mạng Vorobyev

sử dụng các thuật toán thuộc lớp thuật toán cây quyết định [40] để giảm thiểucác kết quả phát hiện nhầm trong hệ thống chống gian lận của ngân hàng Cácgian lận trong giao dịch thẻ tín dụng được đánh giá dựa trên nhiều thuật toánhọc máy để đưa ra kết quả tối ưu [5][26]

Mục đích nghiên cứu

Mục tiêu chính của luận văn là trình bày một mô hình áp dụng trong lĩnh vựcphát hiện gian lận giao dịch tài chính Cụ thể, mô hình đề xuất giải quyết cácvấn đề sau

bất thường mà những đối tượng gian lận sử dụng

thường

chính xác hơn

Đối tượng và phạm vi nghiên cứu

Trong khuôn khổ luận văn, tác giả tiếp cận và phân tích những vấn đề của bàitoán phát hiện bất thường trong giao dịch tài chính thông qua sự kết hợp củaphương pháp khai phá motif trong lý thuyết nhận dạng và phát hiện bất thường

Trang 14

LUẬN VĂN THẠC SĨ PHẠM NGỌC QUANG ANH

bằng các thuật toán học máy Có nhiều loại hình giao dịch tài chính như giao dịchvay nợ, thế chấp, giao dịch tài khoản, giao dịch qua thẻ tín dụng trong đó phổbiến nhất là giao dịch mua bán hàng hóa trực tiếp Mô hình đề xuất được áp dụng

cụ thể vào hoạt động mua bán hàng hóa của khách hàng với doanh nghiệp bán lẻ

Dữ liệu trong giao dịch mua bán hàng hóa bao gồm các thông tin về ngườimua; thông tin về hàng hóa như loại hình hàng hóa, giá thành; thông tin giaodịch như địa điểm giao dịch, tổng chi phí giao dịch, thời gian giao dich Luậnvăn tập trung phân tích hành vi thay đổi địa điểm và loại hàng hóa mua củakhách hàng trong thời gian ba năm từ năm 2015 đến năm 2017

Cấu trúc luận văn và các đóng góp của tác giả

Nội dung chính của luận văn được trình bày trong ba chương

toán phân lớp trong học máy

tập chuỗi thời gian và sử dụng các thuật toán học máy để phân lớp Qua

đó, xác định được các đối tượng có hành vi bất thường

Trong luận văn này, đóng góp chính của tác giả là xây dựng được sơ đồ tổngquan của mô hình phân lớp mới dựa trên việc phân tích các thói quen trong giaodịch của các đối tượng

Trang 15

Giới thiệu chung

Phát hiện bất thường là bài toán nhận dạng motif trong dữ liệu mà không phùhợp với hành vi thông thường Những motif không phù hợp này thường được gọi

là điểm bất thường, điểm ngoại lai, những quan sát trái ngược, ngoại lệ trongnhiều ngữ cảnh khác nhau [10]

Phát hiệt bất thường được sử dụng rộng rãi trong nhiều lĩnh vực

• Phát hiện gian lận trong hành vi tiêu dùng thẻ tín dụng, bảo hiểm hay chămsóc sức khỏe [4][9][22][28][35]

• Phát hiện lỗi trong các hệ thống an toàn và các hoạt động giám sát [14][31].Một điểm/tập hợp bất thường được định nghĩa là một motif không phù hợpvới hành vi thông thường Vì vậy, một cách tiếp cận trực tiếp cho bài toán pháthiện bất thường, là xác định một vùng đại diện cho các hành vi bình thường vàtrích rút bất kỳ quan sát nào không thuộc vùng bình thường này là bất thường[10]

Một bài toán phát hiện bất thường bao gồm bốn khía cạnh chính: nguồn dữliệu đầu vào, các loại bất thường, nhãn của dữ liệu và đầu ra của quy trình pháthiện bất thường [10]

Mỗi điểm dữ liệu đầu vào của bài toán được mô tả dưới dạng tập hợp cácthuộc tính Các thuộc tính này có nhiều kiểu như nhị phân, các giá trị rời rạc

Trang 16

LUẬN VĂN THẠC SĨ PHẠM NGỌC QUANG ANH

hay liên tục Mỗi điểm dữ liệu có thể gồm chỉ một thuộc tính (đơn biến) haynhiều thuộc tính (đa biến)

Ngoài ra, các điểm dữ liệu có thể có liên kết với nhau, chẳng hạn dữ liệu dạngchuỗi [14][38], dữ liệu dạng đồ thị [29] Trong dữ liệu dạng chuỗi, các điểm dữliệu có tính thứ tự tuyến tính, ví dụ như chuỗi thời gian, chuỗi gen, chuỗi protein.Trong dữ liệu dạng đồ thị, mỗi điểm dữ liệu được biểu diễn dưới dạng đỉnh của

đồ thị và liên kết với nhau bởi các cạnh

Bất thường nhóm

Nếu một tập hợp các điểm dữ liệu liên quan có sự khác biệt với toàn bộ tập

dữ liệu thì đây là một bất thường nhóm Một điểm dữ liệu cụ thể trong loại bấtthường này có thể không phải là bất thường điểm, nhưng sự xuất hiện liên tụccác điểm này dẫn đến bất thường trong tập dữ liệu

Trang 17

1.1.3 Nhãn dữ liệu

Nhãn của một điểm dữ liệu xác định xem điểm này là bình thường hay bấtthường Quá trình thu thập dữ liệu được gán nhãn chính xác là phức tạp Việcgán nhãn thường được thực hiện một cách thủ công bởi chuyên gia dẫn đến việctốn chi phí về mặt thời gian Thông thường, việc thu thập tập đã gán nhãn từ dữliệu bất thường khó khăn hơn việc lấy nhãn từ dữ liệu bình thường Phụ thuộcvào số lượng nhãn của tập dữ liệu, bài toàn phát hiện bất thường có thể đượctriển khai theo ba hướng [10]

đủ với hai loại là bất thường và bình thường Cách tiếp cận thông thường

là xây dựng mô hình phù hợp từ dữ liệu luyện sau đó dự đoán nhãn cho cácđiểm dữ liệu bất kỳ

được gán nhãn bình thường Cách tiếp cận với trường hợp này là xây dựngmột mô hình tương ứng với hành vi bình thường, và sử dụng mô hình này

để xác định ra các điểm bất thường trong tập dữ liệu [39]

thuật cho bài toán này dựa trên giả định ngầm các điểm dữ liệu bình thường

có tần suất xuất hiện nhiều hơn các điểm bất thường trong tập dữ liệu [24]

Đầu ra của bài toán phát hiện bất thường gồm hai loại [10]

tính điểm Sau đó xác định ra số lượng điểm cụ thể có điểm bất thường caonhất hoặc đưa ra một ngưỡng điểm số để chọn các điểm bất thường

Phân lớp là quá trình tìm kiếm một mô hình phân biệt các lớp dữ liệu Môhình được xây dựng dựa trên việc phân tích tập dữ liệu luyện và được sử dụng

để dự đoán nhãn lớp của các đối tượng mà chưa biết thông tin nhãn [21]

Trang 18

LUẬN VĂN THẠC SĨ PHẠM NGỌC QUANG ANH

Cụ thể, cho tập nhãn lớp C= {1, 2, , C}và tập điểm dữ liệu X ⊂Rd, ta tìmmột hàm phân lớp f : Rd →C Với điểm dữ liệu x ∈ X, y = f (x) sẽ gán điểm dữliệu vào lớp có nhãn y

Ngoài ra, f :Rd →RC cũng là một hàm phân lớp với đầu ra là một vector thểhiện xác suất điểm dữ liệu được gán nhãn vào từng lớp Điểm dữ liệu sẽ đượcgán vào lớp có xác suất gán nhãn cao nhất

K-láng giềng gần nhất

giám sát đơn giản Thuật toán hoạt động dựa trên nguyên lý nhãn của đối tượngđược xác định dựa trên các đối tượng lân cận nó [15] Cụ thể, nhãn của điểmcủa điểm dữ liệu có thể được xác định qua việc chọn theo đa số (major voting)

ra kết quả

KNN được ứng dụng trong việc phát hiện chuỗi trạng thái bất thường tronghoạt động vệ tinh [14] Nghiên cứu của Ming-Yang Su [36] cũng sử dụng KNN đểphát hiện nhanh chóng các tình huống tấn công mạng dựa trên lưu lượng mạngbất thường

Cây quyết định

Cây quyết định (Decision Tree) là một cây phân cấp có cấu trúc được dùng

để phân lớp các đối tượng dựa vào tập hợp các luật Thành phần của cây quyếtđịnh bao gồm các nút biểu diễn cho cấu trúc của nhánh Có hai loại nút, nútquyết định được sư dụng để ra quyết định và có nhiều nhánh, nút lá là đầu racủa nút quyết định và không có nhánh con [6]

Cây quyết định được ứng dụng trong việc phát hiện gian lận tín dụng vàthanh toán của ngân hàng [34][40]

Rừng ngẫu nhiên

Rừng ngẫu nhiên (Random Forest) là thuật toán học kết hợp phát triển từthuật toán cây quyết định Ý tưởng thực hiện của thuật toán là luyện hàng loạtcác cây quyết định trên các tập dữ liệu con của tập luyện sinh nhờ phương pháp

Trang 19

Bagging [7][8].

con này, ta chọn một tập thuộc tính con từ không gian thuộc tính và xây dựngmột cây quyết định phân lớp trên bộ dữ liệu này

định dựa trên việc tổng hợp các kết quả đánh nhãn từ các cây quyết định này và

sử dụng phương pháp bỏ phiếu đa số (majority voting) để đưa ra kết luận nhãncuối cùng

AdaBoost

Được đề xuất bởi Yoav Freund và Robert Schapire [18], AdaBoost (AdaptiveBoosting) thuộc loại thuật toán học kết hợp và phân lớp Ý tưởng của thuậttoán là kết hợp các bộ phân lớp tồi để xây dựng một bộ phân lớp mạnh có tínhchính xác cao hơn [5]

Hồi quy logistic

Hồi quy logistic là thuật toán học máy phổ biến được sử dụng cho học có giámsát Thuật toán ước lượng xác suất phân lớp nhị phân dựa trên một hay nhiềuđặc trưng [5] Hồi quy logistic sử dụng hàm phi tuyến sigmoid để làm hàm phânlớp Cụ thể, với một điểm dữ liệu x ∈Rd và bộ tham số w = {w i } n

w i x i

Trang 20

Chương 2

Xây dựng mô hình khai phá motif cho chuỗi thời gian và phát hiện bất thường

Nội dung chương 2 đề cập đến quy trình xây dựng mô hình khai phá motif vàphân lớp đối tượng sử dụng các thuật toán học máy

Phần 2.1 đề xuất mô hình tổng quan quy trình phân tích và phát hiện bấtthường Phần 2.2 sẽ mô tả quy trình mô hình hóa dữ liệu thành chuỗi thời gian.Phần 2.3 sẽ đề cập đến khai phá motif bất thường từ những chuỗi thời gian đãđược mô hình hóa Phần 2.4 mô tả quá trình xây dựng bộ thuộc tính bất thường

và phân lớp Cuối cùng, phần 2.5 đưa ra các chỉ số đánh giá kết quả phát hiệnbất thường được sử dụng trong luận văn

Dữ liệu giao dịch trong kinh tế chứa đựng một lượng lớn thông tin thể hiệnhoạt động của các đối tượng Để xác định được các kịch bản gian lận được chegiấu trong các hoạt động giao dịch này, ta cần xét một chuỗi các giao dịch liêntiếp do cùng một đối tượng thực hiện [3]

Định nghĩa 2.1 Một chuỗi giao dịch liên tiếp do đối tượng thực hiện được gọi

là một hành vi

Yêu cầu đặt ra cho một mô hình phát hiện bất thường là tìm ra các motif củacác hành vi do các đối tượng gian lận thực hiện trước giao dịch phát sinh gianlận Các motif bất thường sẽ được sử dụng để tìm kiếm những hành vi giao dịch

Trang 21

tương đồng từ đó xác định được các đối tượng bất thường có dấu hiệu gian lận.

Trong quy trình đầu tiên của hệ thống, tập dữ liệu mô tả hành vi được tiền

xử lý để xây dựng bộ dữ liệu ứng với từng đối tượng giao dịch Mỗi bộ dữ liệuđược sắp xếp theo trình tự thời gian để tạo thành các chuỗi thời gian mô tả quátrình hoạt động của chủ thể giao dịch Chuỗi thời gian được xây dựng sẽ mô tảmột hoặc nhiều đặc trưng của giao dịch (tương ứng với chuỗi thời gian đơn vàchuỗi thời gian đa chiều)

Ví dụ 2.1 Trong trường hợp chỉ xét đến sự biến thiên của giá trị giao dịch, taxây dựng chuỗi thời gian đơn theo thuộc tính tổng giá trị giao dịch theo từngtháng Mặt khác, ta xây dựng chuỗi thời gian đa chiều trong trường hợp phântích thêm thuộc tính tổng lợi nhuận và số lượng giao dịch của đối tượng

Kết quả của quá trình tiền xử lý là các hành vi gian lận được thể hiện trựcquan trên các chuỗi thời gian Bài toán phát hiện bất thường ban đầu đượcchuyển thành tìm các motif trên tập chuỗi thời gian của những đối tượng xấu

Các chuỗi thời gian sẽ được chuyển đổi thành một biểu diễn rời rạc gọi là chuỗi

ký hiệu Việc xác định các motif trên chuỗi thời gian được đưa về tìm motif trêntập chuỗi ký hiệu Quá trình tìm kiếm motif cho chuỗi thời gian sẽ trích rút racác motif hành vi dưới dạng chuỗi ký hiệu do các đối tượng xấu thường xuyênthực hiện , tổng hợp lại thành tập motif hành vi đáng ngờ Tập motif thu được

là cơ sở để đánh giá hành vi trong hoạt động giao dịch của các đối tượng

Cuối cùng, sử dụng các thuật toán học máy, ta sẽ tiến hành phân lớp các đốitượng trong tập dữ liệu thành hai loại: bất thường hoặc bình thường Mức độtương đồng trong hành vi giao dịch của bản thân đối tượng đó với các hành vinằm trong tập motif hành vi đáng ngờ sẽ quyết định nhãn của đối tượng Do

đó, ta phải xây dựng một bộ thuộc tính thể hiện độ tương đồng của hành vi vớigiữa các motif hành vi gian lận [3]

Tổng hợp lại, mô hình tổng quan của phương pháp được đề xuất gồm ba bước

dịch rời rạc theo từng thời điểm thành tập các chuỗi thời gian tương ứngvới từng đối tượng

gian của những đối tượng gian lận Chuỗi thời gian sẽ được chuyển đổi thành

Trang 22

LUẬN VĂN THẠC SĨ PHẠM NGỌC QUANG ANH

các chuỗi ký hiệu Từ các chuỗi ký hiệu này, ta xây dựng ma trận tính toáncác khoảng cách và tìm kiếm các chuỗi trung tâm motif Kết quả thu được

là tập các motif đại diện cho hành vi của các đối tượng gian lận

Sơ đồ trong hình 2.1 mô tả sơ lược luồng dữ liệu và phương thức hoạt độngcủa mô hình tổng quan

Hình 2.1: Sơ đồ tổng quan của mô hình phân tích hành vi trên chuỗi thời gian.

Kí hiệu O = {o 1 , o 2 , , o n } là tập các đối tượng thực hiện hành vi giao dịch

và D là dữ liệu về giao dịch của các đối tượng trong O

hành vi giao dịch với các điểm dữ liệu là các giá trị thuộc tính của giao dịch.Trong nhiều trường hợp, các giao dịch của đối tượng không thể đánh giá đơn lẻ

mà cần phải tổng hợp lại trong một khoảng thời gian nhất định để đưa ra giátrị thích hợp

Ví dụ 2.2 Đánh giá hành vi thay đổi chi tiêu của chi nhánh công ty cần xéttrong khoảng thời gian lớn như tháng, năm

Trang 23

Trong khuôn khổ luận văn, ta chỉ xét đến các chuỗi thời gian có mốc thời gian

cố định Ký hiệu tập mốc thời gianT = {t i } 0≤i≤m Ký hiệu T Si là chuỗi thời gianhành vi giao dịch của đối tượng o i với tập mốc thời gian T Trong đó

Trong đó,v i

j là giá trị thống kê từ những hành vi giao dịch cụ thể do đối tượng

o i thực hiện trong khoảng thời gian [t j , t j+1 ) Chuỗi thời gian này thể hiện cáchành vi như thay đổi tần suất giao dịch, giá trị giao dịch, .

Ta xây dựng một chuỗi thời gian đơn giản mô tả hành vi giao dịch của đốitượng

Định nghĩa 2.2 Một chuỗi thời gian S được gọi là chuỗi thời gian đơn giảnnếu thỏa mãn điều kiện sau

Chuỗi Z = {z 1 , z 2 , , z m } với z j = v j+1 − v j là phép trừ chuỗi của chuỗi thời gianS

Hình 2.2 mô tả một chuỗi thời gian đơn giản và phép trừ chuỗi của chuỗi thời

O

Mỗi đối tượng có nhiều hành vi giao dịch khác nhau nên ta xây dựng một tậphợp chuỗi thời gian mô tả những hành vi giao dịch tương ứng

Trang 24

LUẬN VĂN THẠC SĨ PHẠM NGỌC QUANG ANH

Hình 2.2: Mô tả chuỗi thời gian đơn giản: (a) Chuỗi thời gian (b) Phép trừ chuỗi của chuỗi thời gian.

Trang 25

Hình 2.3: Các hành vi của đối tượng được mô tả dựa trên chuỗi thời gian đơn giản.

Chuỗi thời gian được xây dựng trong phần 2.2 có thông tin về các hành vi vàthói quen của các đối tượng trong quá khứ Ta tiếp tục phân tích các thông tinnày, cụ thể là tìm các motif hành vi bất thường của đối tượng gian lận Hình 2.4

mô tả lại quy trình khai phá motif trong sơ đồ tổng quan

Trong luận văn, việc chuyển đổi chuỗi thời gian thành chuỗi kí tự dựa trên phéptrừ của chuỗi thời gian được nêu ở định nghĩa 2.2 Cụ thể, với mỗi đối tượngo i,chuỗi Z i của chuỗi thời gian đơn giản S i là một chuỗi của số thuộc {1, 0, −1}, ta

sử dụng một phép chuyển để chuyển đổi nó thành một chuỗi ký hiệu

Định nghĩa 2.3 Phép chuyển chuỗi thời gian đơn giản thành một chuỗi ký hiệu

là thay thế các giá trị trong chuỗi thời gian đơn giản thành một mã ký hiệu Cụthể, 1 là u , 0 là l và −1 là d

Hình 2.5 mô tả quá trình chuyển từ chuỗi thời gian thành chuỗi ký hiệu

Trang 26

LUẬN VĂN THẠC SĨ PHẠM NGỌC QUANG ANH

Hình 2.4: Quy trình khai phá motif.

Để đơn giản hóa chuỗi ký hiệu, ta có thể thu gọn lại các dãy ký hiệu xuấthiện lặp lại liên tục thành thành một ký hiệu đi kèm với chỉ số lặp lại

Định nghĩa 2.4 Chuỗi ký hiệu thu gọn là biểu diễn rút gọn cho chuỗi ký hiệuthông thường Trong chuỗi này, mỗi ký hiệu đi kèm với một chỉ số cho biết rằng

ký hiệu đó lặp lại bao nhiêu lần

Ngoài ra, mỗi chuỗi ký hiệu sẽ có các tổ hợp cấu trúc riêng biệt Các tổ hợpcấu trúc này đại diện cho một motif hành vi trong giao dịch của đối tượng Ví

dụ u − l sẽ tương ứng với motif ’có biến động tăng và sau đó không đổi’ Để đơngiản hóa, ta gọi các tổ hợp cấu trúc này là dạng

Định nghĩa 2.5 Dạng của chuỗi ký hiệu thu gọn là chuỗi các ký hiệu trongchuỗi ký hiệu thu gọn nhưng lược bỏ chỉ số

Ví dụ 2.3 u 3 l 2 d 2 là chuỗi ký hiệu thu gọn của u − u − u − l − l − d − d Dạng của

u 3 l 2 d 2 là u − l − d

Tập chuỗi thời gian giao dịch TS được chuyển đổi thành tập các chuỗi ký hiệu

các chuỗi ký hiệu thu gọn đang xét

Trang 27

Hình 2.5: Chuyển đổi phép trừ chuỗi của chuỗi thời gian đơn giản thành chuỗi ký hiệu.

Trang 28

LUẬN VĂN THẠC SĨ PHẠM NGỌC QUANG ANH

các chuỗi thời gian giao dịch của đối tượng gian lận Quy trình khai phá motifdựa trên ý tưởng xác định những hành vi do nhiều kẻ gian lận thực hiện có tínhkhác biệt với những hành vi của những đối tượng thông thường

Định nghĩa 2.6 Motif trong chuỗi ký hiệu là chuỗi ký hiệu đại diện cho tậpcác chuỗi ký hiệu con tương đồng xuất hiện lặp lại trong tập ký hiệu

Cụ thể, ta tìm kiếm những motif hành vi được lặp lại nhiều lần trên các chuỗithời gian của các đối tượng xấu Tương ứng với việc chuyển đổi thành chuỗi kýhiệu rời rạc, bài toán tìm kiếm motif trở thành bài toán tìm kiếm những chuỗi kýhiệu con đặc trưng của những chuỗi ký hiệu thu gọn xuất hiện nhiều lần trongtập dữ liệu của đối tượng gian lận [3]

Trong môĩ chuỗi ký hiệu cụ thể, chuỗi con của nó có số lượng đa dạng Tađưa ra một độ đo khoảng cách giữa các chuỗi để tổng hợp lại các chuỗi con có

sự ’tương đồng’ với nhau

Định nghĩa 2.7 Cho hai chuỗi S 1 và S 2 là hai chuỗi ký hiệu thu gọn với cùngdạng

Kết quả của các độ đo khoảng cách giữa các chuỗi cùng dạng với nhau đượcthể hiện trong ma trận khoảng cách

Trang 29

Bảng 2.1: Minh họa ma trận khoảng cách với 5 chuỗi ký hiệu

tương đồng và có cùng một motif hành vi

motif cần thỏa mãn điều kiện sau

• Là chuỗi có số lượng chuỗi tương đồng với nó cao nhất

tổng khoảng cách tới tất cả các chuỗi tương đồng với nó là nhỏ nhất.Trong trường hợp tồn tại ít nhất hai chuỗi thỏa mãn điều kiện trên thì tachọn ngẫu nhiên motif từ các chuỗi thỏa mãn điều kiện

4

Ta lập ma trận khoảng cách với các chuỗi con này

Trang 30

LUẬN VĂN THẠC SĨ PHẠM NGỌC QUANG ANH

Tổng khoảng cách

Bảng 2.3: Tìm kiếm chuỗi trung tâm motif

Lúc này, S 2 sẽ được chọn là chuỗi trung tâm motif

Sau khi tìm được một chuỗi trung tâm của motif, tập hợp các chuỗi tươngđồng với nó sẽ được đưa loại bỏ khỏi tập chuỗi ký hiệuS Tiếp tục tìm kiếm cácchuỗi trung tâm motif cho đến khi |S| = ∅

motif vẫn cần được tiếp tục xử lý vì những khả năng dưới đây

• Tồn tại một số motif có tần suất xuất hiện thấp trong A

• Tồn tại một số motif xuất hiện trong tập dữ liệu giao dịch của các đối tượngbình thường với một tần suất đủ lớn dẫn đến motif không đại diện cho đốitượng gian lận

Vì vậy, để đảm bảo tập motif bất thường đại diện cho các hành vi đáng ngờ củađối tượng gian lận, ta đặt ra một chỉ số chọn motif score

Định nghĩa 2.9 Với f normal (P ) là tỷ lệ số lượng chuỗi ký hiệu của từng đốitượng bình thường chứa motif P trên tổng số đối tượng bình thường f anomaly (P )

Trang 31

là tỷ lệ số lượng chuỗi ký hiệu của từng đối tượng gian lận chứa motif X trêntổng số đối tượng có hành vi gian lận.

score(P ) = fnormal(P )

nhất định để đảm bảo tính đặc trưng của motif hành vi gian lận

Quy trình khai phá motif cụ thể được trình bày trong thuật toán 1

Thuật toán 1: Thuật toán khai phá motif trên chuỗi thời gian.

Input: Tập chuỗi thời gian TS, ngưỡng tương đồng R, ngưỡng chọn motif threshold.

Output: Tập motif hành vi đáng nghi P.

1 Chuyển đổi tập chuỗi thời gian TS thành chuỗi ký hiệu SB.

2 Lọc tập chuỗi ký hiệu của đối tượng gian lận A từ SB.

3 Xác định các chuỗi con trên những chuỗi ký hiệu trong A theo từng dạng.

4 Xây dựng ma trận khoảng cách từ các chuỗi con có dãy kí tự mã hoá tìm được ở bước 3.

5 Tìm kiếm chuỗi trung tâm motif dựa trên ngưỡng tương rồng R.

6 Loại bỏ các chuỗi con thuộc motif vừa tìm được và lặp lại bước 3, nếu không tìm được dãy kí tự lặp lại, chuyển sang bước 7.

7 Tiếp tục lọc motif với ngưỡng chọn motif threshold.

8 Dừng thuật toán, kết luận tập motif P.

Thuật toán 1 trích rút được motif thể hiện thông tin hành vi xuất hiện lặplại và phổ biến của các đối tượng gian lận

Sau khi thực hiện quá trình khai phá motif, ta sẽ có các motif đại diện chocác hành vi lặp lại trong nhóm các đối tượng gian lận Ký hiệu tập các motif là

P= {p 1 , p 2 , , pk} Tập motif này sẽ được sử dụng làm cơ sở cho quy trình phânlớp

Với mỗi kịch bản hành vi của đối tượng, ta xây dựng được tập các motif hành

vi gian lận Các hành vi giao dịch của đối tượng nếu có sự tương đồng với nhữngmotif này sẽ có mức độ nghi ngờ gian lận cao Đây là cơ sở của việc xây dựng

bộ thuộc tính bất thường [3]

Trang 32

LUẬN VĂN THẠC SĨ PHẠM NGỌC QUANG ANH

Xét một đối tượng o i với chuỗi ký hiệu s i thể hiện hành vi giao dịch case Vớitập motif bất thường Pcase của hành vi case, bộ thuộc tính Fcasei được xác định

fji thể hiện độ tương đồng của chuỗi s i với motif hành vi p j Hình 2.6 mô tảmột ví dụ tính giá trị của một thuộc tính bất thường

Hình 2.6: Tính toán giá trị thuộc tính.

Tổng hợp lại, ta xây dựng tập thuộc tính F = {F case 1 , F case 2 , , F case n } tươngứng với các loại hành vi giao dịch khác nhau của đối tượng Với mỗi loại hành vinày, ta thực hiện phân lớp xác định các đối tượng gian lận Trong khuôn khổ luậnvăn, việc phân lớp sử dụng các thuật toán học máy DecisionTree, RandomForest,AdaBoost và KNN

Trang 33

Thuật toán 2: Thuật toán phân lớp đối tượng.

Input: Tập motif bất thường P, tập chuỗi thời gian luyện TS, tập chuỗi thời gian kiểm thử

TS test của tập đối tượng O.

Output: Kết quả phân lớp đối tượng dựa trên TS test

1 Chuyển đổi tập chuỗi thời gian TS và TS test lần lượt thành chuỗi ký hiệu SB và SB test

2 Xây dựng bộ thuộc tính F từ SB và P.

3 Xây dựng bộ thuộc tính F test từ SB test và P.

4 Xây dựng mô hình phân lớp F từ các thuật toán học máy Random Forest, KNN,

AdaBoost, Decision Tree.

5 Phân lớp đối tượng O dựa trên F test

6 Kết luận nhãn cho tập đối tượng O.

Ngoài ra, để đưa ra một kết quả phân lớp tổng quan dựa trên toàn bộ hành

vi của đối tượng, cụ thể là dựa trên đa chuỗi thời gian thể hiện các hành vi củađối tượng , ta sử dụng các điểm đánh giá bất thường cho từng hành vi ở mỗi môhình học máy để xây dựng một bộ thuộc tính mới để phân lớp đối tượng Trongluận văn, thuật toán được sử dụng để phân lớp dữ liệu trên bộ thuộc tính này

là Logistic Regression

Trang 34

LUẬN VĂN THẠC SĨ PHẠM NGỌC QUANG ANH

Ma trận nghi ngờ (Confusion matrix) cho biết có số lượng đối tượng đưa vàothuật toán phân lớp được phân lớp đúng và phân lớp sai vào từng lớp (bất thườnghay không bất thường)

Hình 2.7 mô tả kết quả phân lớp đối tượng vào hai lớp ’0’ và ’1’ Ma trậncho biết rằng có lần lượt 518 đối tượng được phân đúng vào lớp ’0’,25 đối tượngđược phân đúng vào lớp ’1’ và 60 đối tượng bị phân nhầm lớp (thực tế là lớp ’0’nhưng bị phân lớp là ’1’ và ngược lại)

Hình 2.7: Minh họa một ma trận nghi ngờ.

Ta xét đến các chỉ số sau

và thực tế là bất thường

Trang 35

• FP (False Positive): Số lượng đối tượng được dự đoán có hành vi bất thườngnhưng thực tế không bất thường.

bất thường nhưng thực tế là bất thường

vi bất thường và thực tế đúng là không bất thường

Khi đó, yếu tố đánh giá Precision được đánh giá bởi công thức:

Trang 36

Dữ liệu hoạt động mua hàng được mô tả như sau

NGAY_MH Ngày mua hàng (ngày, tháng,

Bảng 3.1: Mô tả dữ liệu hoạt động mua hàng

Hình 3.1 là một số bản ghi hoạt động mua hàng của khách hàng

Trang 37

Hình 3.1: Dữ liệu hoạt động mua hàng.

Trong luận văn, ta xét đến ba hành vi thay đổi của khách hàng

36 tháng), ta xét tập thời gian T = {t 0 , t 1 , , t 35 }

Trang 38

LUẬN VĂN THẠC SĨ PHẠM NGỌC QUANG ANH

Xét một khách hàng o i trong tập khách hàng O, Dji là tập các địa điểm kháchhàng o i mua trong tháng t j Hji là tập hàng hóa khách hàng o i mua trong tháng

t j Hàm số hành vi thay đổi được xác định

j

F K (o i , t 0 ) = 0

Ký hiệu T SDi , T SHi , T SKi lần lượt là chuỗi thời gian mô tả thay đổi địa điểm,

Ngày đăng: 24/03/2023, 23:42

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w