Luận văn một số phương pháp xác Định cuộc gọi làm phiền

Học không gidm sat Unsupervised learning: Khong cé bat kì nhãn nào được cung cấp cho thuật toán học, thuật toán sé đi tìm cấu trúc bên trong dữ liệu để thực hiện các nhiệm vụ nhất địn

Trang 1

TRUONG DAI HOC BACH KHOA HA NOI

LUAN VAN THAC SI

Một số phương pháp xác định

cuộc gọi làm phiên NGUYÊN VĂN LONG nguyenlonggbtt@gmail.com

Ngành Toán Tin

Giảng viên hướng dẫn: TS Lê Chí Ngọc

Viện: Toán ứng dụng và Tin học chủ ký của GVHD

HÀ NỘI, 10/2022

Trang 2

CONG IIOA XA IIGI CIIU NGIIA VIST NAM

Độc lập — ‘Te do— Hanh phac

BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ

Ho va tén tác giả luận văn : Kguyễn Văn Long,

ĐỀ tài luận văn: Một số phương pháp xác định cuộc gợi lâm phiên

Chuyên ngành: Toán Từ

Ma sé SV: 20202826M

‘Tac giá, Người hưởng dẫn khoa học va 116i đổng chấm luận văn xác nhận tác giả đã sữa chữa, bố sung luận văn theo biên bản họp Hội đẳng,

ngày 31 tháng 10 năm 2022 với các nội đưng sau:

Sửa mội sô lỗi soạn thảo, câu chữ, công thức lại các trang 17, 22,

24, 26, 28, 30, 31, 33, 36, 37, 42

Nedy 31 thang 10 ndm 2022

CHỦ TỊCH HỘI ĐỒNG

Trang 3

Loi cam ơn

Tác giả xin gửi lời cảm ơn trân trọng sâu sắc nhất tới người thấy cố vấn của tác giả, TS Lê Chí Ngọc - người thầy đã đưa tác giả đến với lĩnh

vực Trí tuệ nhân tạo, người định hướng, trực tiễn hướng dẫn tác giả hết sức

nhiệt lình, chu đáo, luôn động viên về mặt tinh thần để tác giá có thể hoàn

thành luận vấn này Tác giả xin trân trọng cảm øn tới các thầy cô của Viện

Toán Ứng đụng và Tin học, Phòng dào tạo Bộ phận quán lý dào lạo sau

đại học, Trường Đại học Bách khoa Hà Nội đã tạo mọi điều kiện thuận lợi

để tác giả hoàn thành Inận văn này Đẳng thời, tác giả cũng gửi lời cảm dn

tới công ty Grooo International đã tạo điều kiện để tác giả có đủ cơ sở vật

chất thực hiện việc nghiên cứu, phát triển và ứng dụng mô hình dễ xuất vào thực lễ

Sau cùng, tác giả xin gửi lồi cảm ơn tới gia đình, người thân và bạn bè

đã luôn động viên giúp đỡ tác giả trong suốt quá trình thực hiện dễ tài Xin

chân thành cảm ơn mọi người!

Trang 4

Z ‹ ae a ”

Tém tat noi dung luan van

Cuộc gọi làm phiển ngày càng trở nên nghiêm trong và đã thu hút sự

chú ý dáng kể từ các nhà cung cấp viễn thông do tác hại rất lớn của nó

đối

cuộc goi làm phiền hiện tại phải đối mặt với hai thách thức lớn: khả năng

với tài chính và sự trải nghiệm của người đùng Các hệ thống ching

của những người gọi làm phiền để có

mở rộng dữ liệu và hành vi gian lậ

gắng vượt qua hệ thông Luận văn này trình bày các giải pháp kỹ thuật để

cố gắng giải quyết thách thức này Tắc giả đề xuất hai phương pháp phát

biện số điện thoại làm phiên gồm phương pháp sử dụng thuật toán Extreme

Gradient Boosting và phương pháp dựa trên dé thi sit dung Graph Neural

Network Đồng thời, lác giả

learning kết hợp bởi thuật toán Co-train và phương pháp Active learning

để xuất mội phương pháp Semi-supervised

để cải thiện hiệu suất phân loại vä lối ưu khả năng mở rộng dữ liệu Triển

khai trên tập dữ liệu được thu thập từ một ứng đụng chặn cuộc gọi làm phiền có tên là Iealler Kết quả của việc triển khai thể biện tính hiệu quả

của phương pháp được đề xuất

'Từ khỏa: SP/7;, XGBoost, Graph Neural Networks, Semi-Supervised learning, Co-train, Active learning

Ha N6i, nady Ll thang 10 ndm 2022

Giảng viên hướng dẫn Học viên

Trang 5

Muc luc

" 12 1 BY NOG i G6 Gos BEN DER SECIS HWE SEE OS 12 1.11 Tônggquan - 12

1.12 Phương pháp Học kêt hợp| 13

si TT áp Học chủ động| 16

ee ree 17 1.2.1 Cầu trúc mạng nơron| 17

[22 Thuậttoánlan uyên ngưgi] i9

1.3 Phương pháp dựa trên đồ thị .- 21

[31 Đôm] 21

152 MRO ON Ed oss xr oreuninccoe BREN 6 29 Chương 2: Mô hình đề xuât| 24 hị uật toán DĐ TÚ nd i i05 05ã0/esoas die Ben svm S cai 24 ¬ 28 By 4 Mô Tình Kết hợp, Thuật toán ¡Bông đào tạo và ae [OCHA cesta etme ecremmeieoni sane Ame 34 (Chương 3: Cài đặt thực nghiệm và đánh gia] 38 3.1 Phân tích thiết kê hệ thông| 38

hoe oe 6 g 8 4 0U See bot ee ee 4I Ba Kếtgumfenghiem] 46

Trang 7

Danh sach hinh ve

[[E7 Các hàm kích hoạt thường đũng: (a) Ham Sigmoid; (b)

làm ReLU va ham Softplus; (c) Ham Tai sa 19

1.8 Mạng perceptron nhiều lớp [I0]| - 20

1.9 HinhA D6 thi ctia mang xa hdi Zachary Karate Club; Hinh

B Hình ảnh hai chiều của các nút nhúng được tạo ra từ đỗ thi [34] DR, A Bete 18 lẾ'/82l&©⁄62/6/0G4M/4ồ7 47 6 0 8/38: &, BỤUg 23

bị uật toán Gradient Boostng Machinel 26

E:Z Khẩm phả vũng Tấn cận và chía sẻ thông tín giữa các nút

Trang 8

LAG ELATAS BRS E Sở 2

3.6 Mau dif liéu nhat ky cuộc gọi 28 ee Se Se ee 43

3.7 Số lugng cudc gọi theo thời điểm| 4

Bs Trung bình các cuộc gọi cĩ trong danh bạ của mơi loại số

GINO i 6 ý ý ý 66 ¿5 562 2036(008/63.0 66 g3 š 3 45

B9 Số lượng cuộc gọi đi và cuộc gọi đên của mơi loại số điện

thoại ©) i MOEN ví E2HCSN ín (92H HPASSSVOAVRSMIĐNH 6 SEAĐR2VE) W 45

3.10 Độ chính xác phân loại của mơi thuật tốn so sánh thay doi

Khi số lượng các phiên bản huấn luyện được gắn nhãn tăng

lDỊH |: 2 b6 809 0803 0606 S8 800 kg 010 Aù0 406 Mae oom 48

Trang 9

Danh sach bang

3.1 Câu trúc của bản ghi nhật ky dữ liệu 43

BE Möii l5 đặc ung đấu vio cho möhimiJ 46

47

3.4 Kêt quả của hai mô hình| 48

Trang 10

Convolutional Neural Network

Recurrent Neural Network

Long short-term memory

Graph Neuron Network

Extreme Gradicnt Boosting

Gradient Tree Boosting

Hybrid Graph Neuron Network

Trang 11

Mở đầu

Mặc dù là vấn đề lâu đời, nhưng các cuộc gọi quấy rối đặc biệt là các

cuộc gọi lừa đảo vẫn đang gây chú ý trên toàn cầu vì tác động mà chúng

mang

lài chính và sự trải nghiệm của người dùng Đặc

biệt với sự phát triển nhanh chóng của công nghệ Internet cùng với thời điểm đại dịch COVID-19 toàn cẩu, các cuộc gọi quấy rối và lừa đảo càng ngày càng gia tăng Những kẻ lừa đảo cố gắng dụ đỗ mọi người mua thuốc, vắc-xin giả, kêu gọi đầu tư, cho vay không hợp pháp, Những người này

Theo dif ligu nam 2020 cia Hiya (9 ước tính chỉ riêng Bắc Mỹ và Tây

Âu đã nhận được khoảng 157 tỷ cuộc gọi rác Người dùng ở những khu vực

đó đã bị ảnh hưởng trung bình 144 cuộc gọi làm phiền trong năm qua, 38%

của tất cả các cuộc gọi làm phiền din đến tổn thất tiền tệ, với trung bình

là $182.00 cho mỗi cuộc goi 6 Viét Nam, vao thang 7/2020, Bo TT&TT yêu cầu các nhà mang thực hiện các biện pháp ngăn chặn cuộc gọi giả mạo

(33) cuộc gọi rác trên cơ sở quy định của Luật Bảo vệ quyền lợi người

tiêu dùng và Nghị định số 91/2020/NĐ-CP của Thủ tướng Chính phủ Tính

đến cuối tháng 6 năm 2021, các nhà mạng trong nước đã chặn hơn 181.000 thuê bao phát tấn cuộc gọi rác, các nhà cung cấp dịch vụ viễn thông Việt

Nam đã ngăn chặn được hơn 56.65 triệu cuộc gọi giả mạo Có thể thấy đó

là sự thành công đáng kinh ngạc trong nỗ lực ngăn chặn cuộc gọi làm phiền

ở Việt Nam Tuy nhiên, thật không may, các doanh nghiệp hợp pháp cần thực hiện các cuộc gọi đi thường xuyên đến khách hàng tiềm năng dẫn đến

việc họ đang vô tình bị lọc ra hoặc gắn cờ bởi các hệ thống có ý định tốt

10

Trang 12

nhằm bảo vệ người tiêu dùng Hơn nữa, những kể lừa đảo càng ngày càng tỉnh vi và họ không ngừng nỗ lực để vượi qua các hệ thông chống cuộc gọi làm phiền

Khái niệm cuộc gợi làm phiền dùng để chỉ những cuộc gọi quấy rối,

quảng cáo, lừa đảo, phát tán phản mềm độc hại, Nói một cách đơn giản,

cuộc gợi làm phiền là loại cuộc gọi không mong muắn xảy ra khi một người hoà

ng ly gọi cho một số lượng người cực kỳ lớn cùng lúc

Có nhiều giải pháp khác nhau được phát triển trên thị trường để chặn

cụ thể đó Các giải pháp khác bao gồm danh sách những kẻ gọi làm phiền

đã biết để chặn cuộc gọi Hiện nay, giải pháp được quan tâm và tiềm năng

nhất đó là ứng đụng Máy học để đào Lạo mô hình phát hiện cuộc gọi làm

phiên

Với mong muỗn tạo một mô hình Máy học có khả năng phát hiện và

ngăn chặn những cuộc gọi làm phiển hiệu quả, góp phần bảo vệ và nâng cao trải nghiệm của người dùng, tôi để xuất để tài "Một số phương pháp

sảnh xác dịnh cuộc gọi làm phiền" làm dé tài luận văn của mình

Trang 13

Chương 1

Cơ sở lý thuyết

1.1 Máy học

1.1.1 Tổng quan

Máy học (Machine Learning) 4) là một lĩnh vực của trí tuệ nhân tạo

liên quan đến việc nghiên cứu và xây dựng các hệ thông cho phép máy tính

có thể học dựa trên dữ liệu để giải quyết những vấn đề cụ thể

Ứng dụng của Máy học trong những năm gần đây xuất hiện ở khắp mọi

nơi, từ việc nhận dạng khuôn mặt, vân tay, cử chỉ, tiếng nói đến các hệ

Máy học

ệu kinh tế,

số liệu nông nghiệp, ) và cả dữ liệu phi cấu trúc (hình ảnh, văn ban, tin

thống quản trị rủi ro tài chính, các mô hình xử lí ảnh y khoa

có thể ứng dụng hầu hết các loại dữ liệu từ cấu trúc (bảng số

hiệu âm thanh ) Các thuật toán Máy học thường được chia thành bốn loại

chính [14] gồm có:

Học có giám sát

Học có giám sát (Supervised learning): thuật toán học nhận một số ví

dụ huấn luyện và nhãn tương ứng để xây dựng một hàm dự đoán đầu ra mong muốn Đầu ra của một hàm có thể là một giá trị liên tục, thuật toán

này gọi là Hồi quy (Regression), hay thuật toán Phan loai (Classification)

với đầu ra dùng để dự đoán một nhãn phân loại cho một đối tượng đầu vào

Để xây dựng mô hình học có giám sát thường phải có sự nỗ lực từ con

người để gán nhãn cho tập dữ liệu

Học không giám sát

Trang 14

Học không gidm sat (Unsupervised learning): Khong cé bat kì nhãn

nào được cung cấp cho thuật toán học, thuật toán sé đi tìm cấu trúc bên

trong dữ liệu để thực hiện các nhiệm vụ nhất định, ví du như phân cụm

(Clustering), giảm số chiều của dữ liệu (Dimension reduction), tìm luật kết

hợp (Association),

Học bán giám sát

Học bán giám sát (Semi-supervised learning): là một lớp kỹ thuật Máy

học sử dụng cả các ví dụ được gắn nhãn và không được gắn nhãn khi huấn

luyện một mô hình Các ví dụ được gắn nhãn được sử dụng để tìm hiểu các

lớp của dữ liệu và các ví dụ không được gắn nhãn được sử dụng để tỉnh

chỉnh ranh

giữa các lớp

Học tăng cường

Hoe tang cuGng (Reinforcement learning): di liệu huấn luyện sẽ được

thuật toán học xây dựng mô hình, mô hình này dùng để dự đoán và nhận

phan hồi từ môi trường từ đó tự động cải thiện mô hình Một số bài toán

tiêu biểu cho hình thức học tăng cường là là công nghệ xe tự lái, tự động

chơi game,

1.1.2 Phương pháp Học kết hợp

Học kết hợp (Ensemble Learning) [37] là một cách tiếp cận nhằm tìm kiếm hiệu suất dự đoán tốt hơn cho mô hình Máy học bằng cách kết hợp các dự đoán từ nhiều bộ phân loại khác nhau Học kết hợp có thể được coi

là một cách để bù đấp cho các thuật toán học kém bằng cách thực hiện

nhiều tính toán bổ sung Sự thành công của một hệ thống học kết hợp phụ

thuộc vào sự đa dạng của các bộ phân loại, nếu mỗi bộ phân loại mắc các lỗi khác nhau, các bộ phân loại sẽ học được nhiều thông tin hơn, sự kết hợp

của các bộ phân loại này có thể làm giảm tổng lỗi và cải thiện mô hình

Học kết hợp được chia thành ba loại chính gồm:

Đóng bao

Đóng bao (Bagging) [I7] là một trong những thuật toán học kết hợp ra đời sớm nhất, trực quan và đơn giản nhất Ý tưởng của thuật toán này là dùng các tập hợp con khác nhau của dữ liệu để huấn luyện Mỗi tập hợp con

13

Trang 15

dữ liệu được sử dụng để huấn luyện một bộ phân loại khác nhau và cùng loại thuật toán Các hân loại riêng lẽ sau đó được kết hợp bằng cách bỏ

phiếu đa só, tức là đối với bất kỳ trường hợp nhất định nào, lớp được chọn

bởi hầu hết các bộ phân loại sẽ là quyết định tổng hợp cuối cùng Các thuật

Tăng cường (Boosting) (23) là một thuật toán tương tự như Đóng bao,

thuật toán này cũng tạo ra một nhóm các bộ phân loại bằng cách lấy mẫu lại dữ liệu, sau đó được kết hợp bằng cách bỏ phiều đa số Tuy nhiên, trong

thuật toán Tăng cường, tập dữ liệu huấn luyện cho mỗi bộ phân loại tiếp

theo tập trung vào trường hợp được phân loại sai bởi các bộ phân loại được

huấn luyện trước đó Thuật toán này xây dựng các bộ phân loại mà môi bộ phân loại sau sẽ học cách sửa chữa lỗi của các bộ phân loại trước tạo thành

một chuỗi các bộ phân loại mà cái sau sẽ tốt hơn cái trước Các thuật toán

tăng cường có thể kể đến như AdaBoost [22], Gradient Boosting Machine

[TZJ Stochastic Gradient Boosting [TT], XGBoost [3T], LightGBM [8|

14

Trang 16

Trong Xếp chồng (Stacking) (6 đầu tiên, tất cả các bộ phân loại khác

được huấn luyện bằng cách sử dụng dữ liệu có sẵn, sau đó một thuật toán

kết hợp được huấn luyện để đưa ra dự đoán cuối cùng bằng cách sử dụng

tất cả các dự đoán của các thuật toán khác làm đầu vào

Trang 17

1.1.3 Phương pháp Học chủ động

Học chủ dong (Active learning) [4] là một phương pháp Máy học tương tác với người dùng để gán nhãn các mẫu dữ liệu chưa được gán nhãn nhằm tối ưu hóa chất lượng mô hình dựa trên kiến thức của người gán nhãn

Thách thức chính của Học chủ động chính là tìm ra truy vấn tối ưu để đưa

cho người dùng gán nhãn Truy vấn tối ưu là quá trình tìm kiếm những cá

thể mà việc có nhãn của chúng sẽ được nhiều cải tiền nhất trong mô hình

với số lượng truy vấn ít nhất Hai chiến lược lựa chọn truy vấn gồm:

* Lấy mẫu không chắc chắn (Uncertainty sampling): là tập hợp các

kỹ thuật để xác định các mẫu không được gắn nhãn ở gần ranh giới quyết định trong mô hình học máy (Hình[1-4) Các mẫu dữ liệu này được mô hình cho rằng không chắc chắn trong việc dự đoán, hay có thể nói rằng đây là những mẫu mà mô hình "biết nó không biết"

i dave gin nhân được | @

vào dã lều đào tạo

khai mổ hình, SS due do to rn

* Lấy mẫu đa dạng (Diversity sampling): ý tưởng chính của lấy mẫu

đa dạng chính là xác định đâu là các điểm thiếu sót trong mô hình:

mô hình "không biết rằng nó không biết" hoặc xác định "ẩn số chưa biết" để khám phá và mở rộng ranh giới quyết định (Hình|

Trang 18

Hình 1.5: Lay mau đa dạng sẽ tìm thấy các mẫu khác biệt tối đa với các

mâu đào tạo hiện có (20)

1.2 Mạng nơ-ron nhân tạo

1.2.1 Cấu trúc mạng nơ-ron

Mạng nơ-ron nhân tao (Artificial Neural Network hay Neural network)

là một mô hình tính toán được xây dựng phỏng theo các mạng nơ-ron sinh

học 2 Các đơn vị cơ bản của mạng là các nơ-ron, một mạng nơ-ron

được cấu thành bởi các nơ-ron đơn lẻ được gọi là các percepton Các nơ-

là

ron có thể nhận một loạt đầu vào và trả về đầu ra tương ứng Hình [L6]

một nơ-ron nhân tạo điển hình, trong đó nơ-ron nhận ø đầu vào xị,xa, x„

với các trọng số tương ứng 9w, w2, , w„ và hệ số bias b Sau đó, tổng trọng

shy= Pe

quả đầu ra z

w¿x¡ + b chuyển qua một hàm kích hoạt ƒ và nơ-ron trả về kết

= ƒ(y) Đầu ra sẽ là đầu vào của nơ-ron tiếp theo Các nơ-ron

trong mạng kết nói với nhau theo một chiều duy nhất, quá trình này được

gọi là lan truyền tiến (Feedforward)

17

Trang 19

Hình 1.6: Ng-ron nhân tạo

Hàm kích hoat (Activation function) thường là một hàm phi tuyến, dùng

để ánh xạ tổng trọng số của đần vào thành đầu ra tưởng tứng phụ thuộc vào

vấn để của bài toán Một số hàm kích hoạt thường dùng như:

+ Hàm softplus, một phiên bản của ReLu:

softplus(x} — éag(1 4 e*).

Trang 20

Hình 1.7: Các hàm kích hoạt thường dùng: (a) Hàm Sigmoid; (b) Hàm

ReLU va ham Softplus; (c) Ham Tanh (27)

1.2.2 Thuật toán lan truyền ngược

Trong quá trình huấn luyện mạng nơ-ron, thuật toán lan truyền ngược

(Baekpropagation) 19] được sử dụng phổ biến nhất dùng để tối ưu hóa các

tham số trong một mô hình Đối với mạng như Hình[I:6| giả sử mục tiêu tối wu hóa cho đầu ra z là zọ, theo Quy tắc dây chuyén (Chain rule), dao hàm của z đối với w¿ và b như sau:

Trang 21

Qua trinh huấn luyện mạng nơ-ron nhân tạo gồm hai bước:

1 Lan truyền tiến: Cho một tập hợp các tham số và một đầu vào, mạng nơ-ron sẽ tính toán các giá trị tại mỗi nơ-ron theo thứ tự chuyển tiếp

2 Lan truyền ngược: Tính toán lỗi tại mỗi biến để được tối ưu hóa và

cập nhật các tham số với các đạo hàm riêng tương ứng của chúng

theo thứ tự ngược lại

Hai bước trên sẽ lặp đi lặp lại cho đến khi đạt được tối ưu mục tiêu

Mạng Perceptron nhiều lớp (Multi-layer Perceptron - MLP) 1a su két hợp của các tầng perceptron gồm 3 tầng ( Hình[T:8):

* Lớp đầu vào: Là lớp bên trái cùng của mạng thể hiện cho các đầu

Vào của mạng

* Lớp ẩn: Là lớp nằm giữa thể hiện cho việc suy luận logic của mạng

* Lớp đầu ra: Là lớp bên phải của mạng thể hiện cho các đầu ra của

Trang 22

Với sự bùng nổ trong lĩnh vực Máy học (đặc biệt là Học sâu), nhiều

kiến trúc mạng nơ-ron đã được ra đời Các kiến trúc mạng nơ-ron có tÌ

kể đến như: Mạng nơron truyền thẳng (Feedforward neural network)

Mạng nơ-ron tích chập (Convolutional neural network-CNN) [35], Mang

nơ-ron hồi quy (Recurrent neural network) [16] và một số kiến trúc mạng

nơ-ron hiện đại khác

1.3 Phương pháp dựa trên đồ thị

Một cạnh e = u,v c6 hai dinh œ và 9, được nối bởi e Trong trường hợp này,

ư được gọi là lân cận của v, hay nói cách khác, hai đỉnh này kề nhau Một

cạnh có thể là cạnh có hướng hoặc vô hướng Một đồ thị được gọi là đồ thị

có hướng nếu tất cả các cạnh đều có hướng hoặc ngược lại với đồ thị vô

hướng Bậc của đỉnh v, ký hiệu bởi Z(r) là số cạnh liên kết với v

Một số biểu diễn đại số cho đồ thị, được liệt kê như sau:

+ Ma trận kề (Adjaceney matrix): Cho đỗ thị G = (V,E) với m đỉnh

được biểu diễn bởi ma trận kề A € ï8"*”, trong đó:

Z 1 néu {wv/}€E và izZ/,

i,

0 trường hợp còn lại

Như vậy đây là ma trận đối xứng khi Œ vô hướng

» Ma trận bậc (Degree matrix): Cho đồ thị G = (V,E) với m đỉnh,

21

Trang 23

ma tran bac ctia né D € R"*" Ja mét ma tran chéo, trong đó

Dj = (vj)

13.2 Nhúng đồ thị

Nhúng đồ thị (Graph Embedding) là một nhánh các phương pháp biểu

diễn đổ thị dưới dạng vec-tơ Mục tiêu của nhúng đồ thị là thay vì biểu

diễn các nút trong đồ thị một cách riêng lẻ, phương pháp này tạo ra ánh xạ

thể hiện được cả mối quan hệ của các nút trong đồ thị phản ánh cấu trúc của đồ thị ban đầu Nói một cách khác, các véc tơ nhúng sẽ được tính toán dựa trên vị trí tương đối của nó với các nút liên quan và lân cận trên đồ thị

* Nhúng đồ thị (Graph Embedding): tương tự với nhúng nút, thay vì

mã hóa mỗi nút thì mã hóa mỗi đồ thị dưới dạng vec-tơ

Đối với nhúng nút, các phép nhúng có thể được xem như vấn dé ma hóa, hoặc chiều các nút vào một không gian nhúng, nơi các quan hệ hình

học trong không gian nhúng này tương ứng với các quan hệ, kết nói (nút,

cạnh) trong đồ thi ban dau Hinh [1.9] [L3 mô tả một ví dụ về nhúng của một mạng xã hội

2

Trang 24

Hình 1.9: Hình A Đồ thị của mạng xã hội Zachary Karate Club; Hình B

Hình ảnh hai chiều của các nút nhúng được tạo ra từ đồ thị 64)

Có nhiều phương pháp nhúng đồ thị, hai trong đó có thể kể đến như

DeepWalk [3], Node2Vec [T]:

* DeepWalk: Sử dụng các bước đi ngẫu nhiên để tạo ra nhúng Bước

đi ngẫu nhiên bắt đầu bằng nút đã chọn, sau đó di chuyển đến hàng

xóm ngẫu nhiên từ một nút hiện tại để biết một số bước xác định

Node2Vec: là một cải tiền của DeepWalk với sự khác biệt nhỏ trong

bước đi ngẫu nhiên Nó có các tham số P và Q Tham số Ø xác định

khả năng đi ngẫu nhiên sẽ phát hiện ra phần chưa được khám phá

của đồ thị, trong khí tham số P xác định khả năng đi ngẫu nhiên

sẽ trở về nút trước đó Tham số điều khiển phát hiện ra thông tin

xung quanh nút Tham số @ nhận nhiệm vụ phát hiện ra vùng lân cận

lớn hơn Các bước nhúng khác cũng tương tự như cách tiếp cận của

DeepWalk

Các cách tiếp cận tương tự như LINE (13] và TADW [5] cũng đạt được

những bước đột phá Tuy nhiên các phương pháp này có hai nhược điểm

nghiêm trọng Đầu tiên, các phương pháp này không có tham số nào được

chia sẻ giữa các nút trong bộ mã hóa, điều này dẫn đến tính kém hiệu quả

theo từng giai đoạn, nghĩa là số lượng tham số tăng tuyến tính với số lượng

nút Thứ hai các phương pháp nhúng trực tiếp thiếu khả năng tổng quát

hóa, chúng không xử lý các đồ thị động hoặc yếu với những đồ thị mới

23

Trang 25

Chương 2

Mô hình đề xuất

Trong luận văn này, tôi đề xuất thuật toán XGBoost làm bộ phân loại cơ

sở cho mô hình phân loại số điện thoại làm phiền Bên cạnh đó, một kiến trúc Graph Neuron Network (GNN) phù hợp cho dữ liệu bài toán phân loại

số điện thoại làm phiền được đẻ xuất, đồng thời kết hợp một số phương

pháp học bán giám sát để cải thiện mô hình, những đóng góp quan trọng

của tôi trong luân văn này được liệt kê như sau:

1 Sử dụng thuật toán XGBoost làm bộ phân loại cơ sở cho mô hình

phân loại số điện thoại làm phiền

sử dụng GNN với kiến trúc

tùy chỉnh cho kết quả tốt đối với dữ liệu đặc trưng của bài toán phân

2 Triển khai phương pháp dựa trên đồ thị

loại số điện thoại làm phiền

3 Cung cấp cái nhìn sâu sắc hơn về phương pháp kết hợp các thuật toán

học dựa trên đặc trưng và học dựa trên đồ thị sử dụng Đồng đào tạo

và Học chủ động với một số sửa đổi và cung cấp bằng chứng về tính hiệu quả đối với nghiên cứu

2.1 Thuật toán XGBoost

XGBoost (viết tắt của Extreme Gradient Boosting) là một thuật

toán nâng cấp từ thuật toán Gradient Boosting Machine (GBM) “Thuật

toán GBM sẽ tạo ra một loạt các mô hình yếu (weak learner) để học bổ sung

24

Trang 26

lẫn nhau, nói cách khác, trong GBM, các mô hình sau sẽ cố gắng học để

hạn chế lỗi của các mô hình trước Dé hạn chế được lỗi từ các mô hình trước, GBM tiền hành đánh trọng số cho các mô hình mới được thêm vào

dựa trên các cách tối ưu khác nhau Cụ thể, GBM xây dựng thuật toán nhằm

giải quyết bài toán tối ưu sau:

min L(y, Wy1+entn)-

với w„ là mô hình được thêm vào tiếp theo Khi đó, mô hình mới cần học để

cập nhật vào giá trị — nS LW ) Giá trị này còn gọi là pseudo-residuals,

được hiểu là biểu thị cho sự sai số của mô hình

25

Trang 27

Hình 2.1: Thuật toan Gradient Boosting Machine

Hình [2.]]thé hign qué trình học của thuật toán GBM Cụ thể, các bước

triển khai thuật toán như sau: Tại vòng lặp đầu tiên, khởi tạo giá trị pseudo-

residuals bằng nhau cho từng điểm dữ liệu, Huấn luyện mô hình mới được

thêm vào để cập nhật vào giá trị của pseudo-residuals đã có Tính toán

giá trị điểm tin cậy c¡ của mô hình vừa huắn luyện sau đó cập nhật mô

hình chính W = W + eaw; Cuối cùng, tính toán giá trị pseudo-residuals

=n L(Wn-1) để làm nhãn cho mô hình tiếp theo Quá trình cứ tiếp tục như vậy

Để nâng cao hiệu suất cho mô hình GBM, XGBoost có những cải tiến

to lớn về mặt tối ưu thuật toán, về sự kết hợp hoàn hảo giữa sức mạnh phần

mềm và phần cứng, giúp đạt được những kết quả vượt trội cả về thời gian

huấn luyện cũng như bộ nhớ sử dụng Đối với XGBoost, một thành phần

mới được thêm vào trong hàm mắt mát, lúc này hàm mục tiêu của mô hình

XGBoost có dạng:

26

Trang 28

trong đó các tham số của mô hình được ky hiéu [A @, 7 1A ham mat mat, O

là thành phần được thêm vào thường được gọi là hàm chính quy nhằm đo lường độ phức tạp của các cây được xây dựng và cân bằng độ phức tạp đối

với độ chính xác của mô hình Việc thêm vào thành phần chính quy giúp

đo lường các tham số thu được của mô hình học và tránh hiện Lượng mô hình quá khớp (overfitring) Nhiệm vụ tối ưu hàm mục tiêu ở đây sẽ là tối

ưu hóa để cân bằng giữa hàm mắt mát Ƒ và hàm chính quy €3

trong đó + là độ phức tạp của các lá trong cây quyết dịnh; 7 là sẽ lá trong

một cây quyết định; ^ là hệ số phóng đại hàm phạt; w là trọng số của các

1á

Với ý tưởng cửa thuật toán GBM, ở thời điểm ¿, mê hình tại thời điểm

nay sẽ bằng mô hình ở thời điểm r _ 1 kết hợp với mô hình mới:

Œ)

k=1

Khai triển xắp xi Taylor để tính gần đúng hai số hạng của hàm mắt mất

và đơn giản hóa hàm mục liêu, giả thiẾt rằng hầm tối ưu cho quá trình học tập là hàm MSE, biến đổi ta có công thức mới:

trong dé, ø; và h; là đạo hàm bậc nhất và bậc hai của hàm mắt mát MSE

Trong công thức (2.2.5), hàm mắt mát được xác định bằng tổng của các giá

27

Tiêu đề	Một số phương pháp xác định cuộc gọi làm phiền
Tác giả	Nguyễn Văn Long
Người hướng dẫn	TS. Lê Chí Ngọc
Trường học	Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành	Toán Tin
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2022
Thành phố	Hà Nội

Định dạng
Số trang	56
Dung lượng	2,35 MB