Học không gidm sat Unsupervised learning: Khong cé bat kì nhãn nào được cung cấp cho thuật toán học, thuật toán sé đi tìm cấu trúc bên trong dữ liệu để thực hiện các nhiệm vụ nhất địn
Trang 1TRUONG DAI HOC BACH KHOA HA NOI
LUAN VAN THAC SI
Một số phương pháp xác định
cuộc gọi làm phiên NGUYÊN VĂN LONG nguyenlonggbtt@gmail.com
Ngành Toán Tin
Giảng viên hướng dẫn: TS Lê Chí Ngọc
Viện: Toán ứng dụng và Tin học chủ ký của GVHD
HÀ NỘI, 10/2022
Trang 2CONG IIOA XA IIGI CIIU NGIIA VIST NAM
Độc lập — ‘Te do— Hanh phac
BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ
Ho va tén tác giả luận văn : Kguyễn Văn Long,
ĐỀ tài luận văn: Một số phương pháp xác định cuộc gợi lâm phiên
Chuyên ngành: Toán Từ
Ma sé SV: 20202826M
‘Tac giá, Người hưởng dẫn khoa học va 116i đổng chấm luận văn xác nhận tác giả đã sữa chữa, bố sung luận văn theo biên bản họp Hội đẳng,
ngày 31 tháng 10 năm 2022 với các nội đưng sau:
Sửa mội sô lỗi soạn thảo, câu chữ, công thức lại các trang 17, 22,
24, 26, 28, 30, 31, 33, 36, 37, 42
Nedy 31 thang 10 ndm 2022
CHỦ TỊCH HỘI ĐỒNG
Trang 3Loi cam ơn
Tác giả xin gửi lời cảm ơn trân trọng sâu sắc nhất tới người thấy cố vấn của tác giả, TS Lê Chí Ngọc - người thầy đã đưa tác giả đến với lĩnh
vực Trí tuệ nhân tạo, người định hướng, trực tiễn hướng dẫn tác giả hết sức
nhiệt lình, chu đáo, luôn động viên về mặt tinh thần để tác giá có thể hoàn
thành luận vấn này Tác giả xin trân trọng cảm øn tới các thầy cô của Viện
Toán Ứng đụng và Tin học, Phòng dào tạo Bộ phận quán lý dào lạo sau
đại học, Trường Đại học Bách khoa Hà Nội đã tạo mọi điều kiện thuận lợi
để tác giả hoàn thành Inận văn này Đẳng thời, tác giả cũng gửi lời cảm dn
tới công ty Grooo International đã tạo điều kiện để tác giả có đủ cơ sở vật
chất thực hiện việc nghiên cứu, phát triển và ứng dụng mô hình dễ xuất vào thực lễ
Sau cùng, tác giả xin gửi lồi cảm ơn tới gia đình, người thân và bạn bè
đã luôn động viên giúp đỡ tác giả trong suốt quá trình thực hiện dễ tài Xin
chân thành cảm ơn mọi người!
Trang 4Z ‹ ae a ”
Tém tat noi dung luan van
Cuộc gọi làm phiển ngày càng trở nên nghiêm trong và đã thu hút sự
chú ý dáng kể từ các nhà cung cấp viễn thông do tác hại rất lớn của nó
đối
cuộc goi làm phiền hiện tại phải đối mặt với hai thách thức lớn: khả năng
với tài chính và sự trải nghiệm của người đùng Các hệ thống ching
của những người gọi làm phiền để có
mở rộng dữ liệu và hành vi gian lậ
gắng vượt qua hệ thông Luận văn này trình bày các giải pháp kỹ thuật để
cố gắng giải quyết thách thức này Tắc giả đề xuất hai phương pháp phát
biện số điện thoại làm phiên gồm phương pháp sử dụng thuật toán Extreme
Gradient Boosting và phương pháp dựa trên dé thi sit dung Graph Neural
Network Đồng thời, lác giả
learning kết hợp bởi thuật toán Co-train và phương pháp Active learning
để xuất mội phương pháp Semi-supervised
để cải thiện hiệu suất phân loại vä lối ưu khả năng mở rộng dữ liệu Triển
khai trên tập dữ liệu được thu thập từ một ứng đụng chặn cuộc gọi làm phiền có tên là Iealler Kết quả của việc triển khai thể biện tính hiệu quả
của phương pháp được đề xuất
'Từ khỏa: SP/7;, XGBoost, Graph Neural Networks, Semi-Supervised learning, Co-train, Active learning
Ha N6i, nady Ll thang 10 ndm 2022
Giảng viên hướng dẫn Học viên
Trang 5Muc luc
" 12 1 BY NOG i G6 Gos BEN DER SECIS HWE SEE OS 12 1.11 Tônggquan - 12
1.12 Phương pháp Học kêt hợp| 13
si TT áp Học chủ động| 16
ee ree 17 1.2.1 Cầu trúc mạng nơron| 17
[22 Thuậttoánlan uyên ngưgi] i9
1.3 Phương pháp dựa trên đồ thị .- 21
[31 Đôm] 21
152 MRO ON Ed oss xr oreuninccoe BREN 6 29 Chương 2: Mô hình đề xuât| 24 hị uật toán DĐ TÚ nd i i05 05ã0/esoas die Ben svm S cai 24 ¬ 28 By 4 Mô Tình Kết hợp, Thuật toán ¡Bông đào tạo và ae [OCHA cesta etme ecremmeieoni sane Ame 34 (Chương 3: Cài đặt thực nghiệm và đánh gia] 38 3.1 Phân tích thiết kê hệ thông| 38
hoe oe 6 g 8 4 0U See bot ee ee 4I Ba Kếtgumfenghiem] 46
Trang 7Danh sach hinh ve
[[E7 Các hàm kích hoạt thường đũng: (a) Ham Sigmoid; (b)
làm ReLU va ham Softplus; (c) Ham Tai sa 19
1.8 Mạng perceptron nhiều lớp [I0]| - 20
1.9 HinhA D6 thi ctia mang xa hdi Zachary Karate Club; Hinh
B Hình ảnh hai chiều của các nút nhúng được tạo ra từ đỗ thi [34] DR, A Bete 18 lẾ'/82l&©⁄62/6/0G4M/4ồ7 47 6 0 8/38: &, BỤUg 23
bị uật toán Gradient Boostng Machinel 26
E:Z Khẩm phả vũng Tấn cận và chía sẻ thông tín giữa các nút
Trang 8LAG ELATAS BRS E Sở 2
3.6 Mau dif liéu nhat ky cuộc gọi 28 ee Se Se ee 43
3.7 Số lugng cudc gọi theo thời điểm| 4
Bs Trung bình các cuộc gọi cĩ trong danh bạ của mơi loại số
GINO i 6 ý ý ý 66 ¿5 562 2036(008/63.0 66 g3 š 3 45
B9 Số lượng cuộc gọi đi và cuộc gọi đên của mơi loại số điện
thoại ©) i MOEN ví E2HCSN ín (92H HPASSSVOAVRSMIĐNH 6 SEAĐR2VE) W 45
3.10 Độ chính xác phân loại của mơi thuật tốn so sánh thay doi
Khi số lượng các phiên bản huấn luyện được gắn nhãn tăng
lDỊH |: 2 b6 809 0803 0606 S8 800 kg 010 Aù0 406 Mae oom 48
Trang 9
Danh sach bang
3.1 Câu trúc của bản ghi nhật ky dữ liệu 43
BE Möii l5 đặc ung đấu vio cho möhimiJ 46
47
3.4 Kêt quả của hai mô hình| 48
Trang 10Convolutional Neural Network
Recurrent Neural Network
Long short-term memory
Graph Neuron Network
Extreme Gradicnt Boosting
Gradient Tree Boosting
Hybrid Graph Neuron Network
Trang 11Mở đầu
Mặc dù là vấn đề lâu đời, nhưng các cuộc gọi quấy rối đặc biệt là các
cuộc gọi lừa đảo vẫn đang gây chú ý trên toàn cầu vì tác động mà chúng
mang
lài chính và sự trải nghiệm của người dùng Đặc
biệt với sự phát triển nhanh chóng của công nghệ Internet cùng với thời điểm đại dịch COVID-19 toàn cẩu, các cuộc gọi quấy rối và lừa đảo càng ngày càng gia tăng Những kẻ lừa đảo cố gắng dụ đỗ mọi người mua thuốc, vắc-xin giả, kêu gọi đầu tư, cho vay không hợp pháp, Những người này
Theo dif ligu nam 2020 cia Hiya (9 ước tính chỉ riêng Bắc Mỹ và Tây
Âu đã nhận được khoảng 157 tỷ cuộc gọi rác Người dùng ở những khu vực
đó đã bị ảnh hưởng trung bình 144 cuộc gọi làm phiền trong năm qua, 38%
của tất cả các cuộc gọi làm phiền din đến tổn thất tiền tệ, với trung bình
là $182.00 cho mỗi cuộc goi 6 Viét Nam, vao thang 7/2020, Bo TT&TT yêu cầu các nhà mang thực hiện các biện pháp ngăn chặn cuộc gọi giả mạo
(33) cuộc gọi rác trên cơ sở quy định của Luật Bảo vệ quyền lợi người
tiêu dùng và Nghị định số 91/2020/NĐ-CP của Thủ tướng Chính phủ Tính
đến cuối tháng 6 năm 2021, các nhà mạng trong nước đã chặn hơn 181.000 thuê bao phát tấn cuộc gọi rác, các nhà cung cấp dịch vụ viễn thông Việt
Nam đã ngăn chặn được hơn 56.65 triệu cuộc gọi giả mạo Có thể thấy đó
là sự thành công đáng kinh ngạc trong nỗ lực ngăn chặn cuộc gọi làm phiền
ở Việt Nam Tuy nhiên, thật không may, các doanh nghiệp hợp pháp cần thực hiện các cuộc gọi đi thường xuyên đến khách hàng tiềm năng dẫn đến
việc họ đang vô tình bị lọc ra hoặc gắn cờ bởi các hệ thống có ý định tốt
10
Trang 12nhằm bảo vệ người tiêu dùng Hơn nữa, những kể lừa đảo càng ngày càng tỉnh vi và họ không ngừng nỗ lực để vượi qua các hệ thông chống cuộc gọi làm phiền
Khái niệm cuộc gợi làm phiền dùng để chỉ những cuộc gọi quấy rối,
quảng cáo, lừa đảo, phát tán phản mềm độc hại, Nói một cách đơn giản,
cuộc gợi làm phiền là loại cuộc gọi không mong muắn xảy ra khi một người hoà
ng ly gọi cho một số lượng người cực kỳ lớn cùng lúc
Có nhiều giải pháp khác nhau được phát triển trên thị trường để chặn
cụ thể đó Các giải pháp khác bao gồm danh sách những kẻ gọi làm phiền
đã biết để chặn cuộc gọi Hiện nay, giải pháp được quan tâm và tiềm năng
nhất đó là ứng đụng Máy học để đào Lạo mô hình phát hiện cuộc gọi làm
phiên
Với mong muỗn tạo một mô hình Máy học có khả năng phát hiện và
ngăn chặn những cuộc gọi làm phiển hiệu quả, góp phần bảo vệ và nâng cao trải nghiệm của người dùng, tôi để xuất để tài "Một số phương pháp
sảnh xác dịnh cuộc gọi làm phiền" làm dé tài luận văn của mình
Trang 13Chương 1
Cơ sở lý thuyết
1.1 Máy học
1.1.1 Tổng quan
Máy học (Machine Learning) 4) là một lĩnh vực của trí tuệ nhân tạo
liên quan đến việc nghiên cứu và xây dựng các hệ thông cho phép máy tính
có thể học dựa trên dữ liệu để giải quyết những vấn đề cụ thể
Ứng dụng của Máy học trong những năm gần đây xuất hiện ở khắp mọi
nơi, từ việc nhận dạng khuôn mặt, vân tay, cử chỉ, tiếng nói đến các hệ
Máy học
ệu kinh tế,
số liệu nông nghiệp, ) và cả dữ liệu phi cấu trúc (hình ảnh, văn ban, tin
thống quản trị rủi ro tài chính, các mô hình xử lí ảnh y khoa
có thể ứng dụng hầu hết các loại dữ liệu từ cấu trúc (bảng số
hiệu âm thanh ) Các thuật toán Máy học thường được chia thành bốn loại
chính [14] gồm có:
Học có giám sát
Học có giám sát (Supervised learning): thuật toán học nhận một số ví
dụ huấn luyện và nhãn tương ứng để xây dựng một hàm dự đoán đầu ra mong muốn Đầu ra của một hàm có thể là một giá trị liên tục, thuật toán
này gọi là Hồi quy (Regression), hay thuật toán Phan loai (Classification)
với đầu ra dùng để dự đoán một nhãn phân loại cho một đối tượng đầu vào
Để xây dựng mô hình học có giám sát thường phải có sự nỗ lực từ con
người để gán nhãn cho tập dữ liệu
Học không giám sát
Trang 14Học không gidm sat (Unsupervised learning): Khong cé bat kì nhãn
nào được cung cấp cho thuật toán học, thuật toán sé đi tìm cấu trúc bên
trong dữ liệu để thực hiện các nhiệm vụ nhất định, ví du như phân cụm
(Clustering), giảm số chiều của dữ liệu (Dimension reduction), tìm luật kết
hợp (Association),
Học bán giám sát
Học bán giám sát (Semi-supervised learning): là một lớp kỹ thuật Máy
học sử dụng cả các ví dụ được gắn nhãn và không được gắn nhãn khi huấn
luyện một mô hình Các ví dụ được gắn nhãn được sử dụng để tìm hiểu các
lớp của dữ liệu và các ví dụ không được gắn nhãn được sử dụng để tỉnh
chỉnh ranh
giữa các lớp
Học tăng cường
Hoe tang cuGng (Reinforcement learning): di liệu huấn luyện sẽ được
thuật toán học xây dựng mô hình, mô hình này dùng để dự đoán và nhận
phan hồi từ môi trường từ đó tự động cải thiện mô hình Một số bài toán
tiêu biểu cho hình thức học tăng cường là là công nghệ xe tự lái, tự động
chơi game,
1.1.2 Phương pháp Học kết hợp
Học kết hợp (Ensemble Learning) [37] là một cách tiếp cận nhằm tìm kiếm hiệu suất dự đoán tốt hơn cho mô hình Máy học bằng cách kết hợp các dự đoán từ nhiều bộ phân loại khác nhau Học kết hợp có thể được coi
là một cách để bù đấp cho các thuật toán học kém bằng cách thực hiện
nhiều tính toán bổ sung Sự thành công của một hệ thống học kết hợp phụ
thuộc vào sự đa dạng của các bộ phân loại, nếu mỗi bộ phân loại mắc các lỗi khác nhau, các bộ phân loại sẽ học được nhiều thông tin hơn, sự kết hợp
của các bộ phân loại này có thể làm giảm tổng lỗi và cải thiện mô hình
Học kết hợp được chia thành ba loại chính gồm:
Đóng bao
Đóng bao (Bagging) [I7] là một trong những thuật toán học kết hợp ra đời sớm nhất, trực quan và đơn giản nhất Ý tưởng của thuật toán này là dùng các tập hợp con khác nhau của dữ liệu để huấn luyện Mỗi tập hợp con
13
Trang 15dữ liệu được sử dụng để huấn luyện một bộ phân loại khác nhau và cùng loại thuật toán Các hân loại riêng lẽ sau đó được kết hợp bằng cách bỏ
phiếu đa só, tức là đối với bất kỳ trường hợp nhất định nào, lớp được chọn
bởi hầu hết các bộ phân loại sẽ là quyết định tổng hợp cuối cùng Các thuật
Tăng cường (Boosting) (23) là một thuật toán tương tự như Đóng bao,
thuật toán này cũng tạo ra một nhóm các bộ phân loại bằng cách lấy mẫu lại dữ liệu, sau đó được kết hợp bằng cách bỏ phiều đa số Tuy nhiên, trong
thuật toán Tăng cường, tập dữ liệu huấn luyện cho mỗi bộ phân loại tiếp
theo tập trung vào trường hợp được phân loại sai bởi các bộ phân loại được
huấn luyện trước đó Thuật toán này xây dựng các bộ phân loại mà môi bộ phân loại sau sẽ học cách sửa chữa lỗi của các bộ phân loại trước tạo thành
một chuỗi các bộ phân loại mà cái sau sẽ tốt hơn cái trước Các thuật toán
tăng cường có thể kể đến như AdaBoost [22], Gradient Boosting Machine
[TZJ Stochastic Gradient Boosting [TT], XGBoost [3T], LightGBM [8|
14
Trang 16Trong Xếp chồng (Stacking) (6 đầu tiên, tất cả các bộ phân loại khác
được huấn luyện bằng cách sử dụng dữ liệu có sẵn, sau đó một thuật toán
kết hợp được huấn luyện để đưa ra dự đoán cuối cùng bằng cách sử dụng
tất cả các dự đoán của các thuật toán khác làm đầu vào
Trang 171.1.3 Phương pháp Học chủ động
Học chủ dong (Active learning) [4] là một phương pháp Máy học tương tác với người dùng để gán nhãn các mẫu dữ liệu chưa được gán nhãn nhằm tối ưu hóa chất lượng mô hình dựa trên kiến thức của người gán nhãn
Thách thức chính của Học chủ động chính là tìm ra truy vấn tối ưu để đưa
cho người dùng gán nhãn Truy vấn tối ưu là quá trình tìm kiếm những cá
thể mà việc có nhãn của chúng sẽ được nhiều cải tiền nhất trong mô hình
với số lượng truy vấn ít nhất Hai chiến lược lựa chọn truy vấn gồm:
* Lấy mẫu không chắc chắn (Uncertainty sampling): là tập hợp các
kỹ thuật để xác định các mẫu không được gắn nhãn ở gần ranh giới quyết định trong mô hình học máy (Hình[1-4) Các mẫu dữ liệu này được mô hình cho rằng không chắc chắn trong việc dự đoán, hay có thể nói rằng đây là những mẫu mà mô hình "biết nó không biết"
i dave gin nhân được | @
vào dã lều đào tạo
khai mổ hình, SS due do to rn
* Lấy mẫu đa dạng (Diversity sampling): ý tưởng chính của lấy mẫu
đa dạng chính là xác định đâu là các điểm thiếu sót trong mô hình:
mô hình "không biết rằng nó không biết" hoặc xác định "ẩn số chưa biết" để khám phá và mở rộng ranh giới quyết định (Hình|
Trang 18Hình 1.5: Lay mau đa dạng sẽ tìm thấy các mẫu khác biệt tối đa với các
mâu đào tạo hiện có (20)
1.2 Mạng nơ-ron nhân tạo
1.2.1 Cấu trúc mạng nơ-ron
Mạng nơ-ron nhân tao (Artificial Neural Network hay Neural network)
là một mô hình tính toán được xây dựng phỏng theo các mạng nơ-ron sinh
học 2 Các đơn vị cơ bản của mạng là các nơ-ron, một mạng nơ-ron
được cấu thành bởi các nơ-ron đơn lẻ được gọi là các percepton Các nơ-
là
ron có thể nhận một loạt đầu vào và trả về đầu ra tương ứng Hình [L6]
một nơ-ron nhân tạo điển hình, trong đó nơ-ron nhận ø đầu vào xị,xa, x„
với các trọng số tương ứng 9w, w2, , w„ và hệ số bias b Sau đó, tổng trọng
shy= Pe
quả đầu ra z
w¿x¡ + b chuyển qua một hàm kích hoạt ƒ và nơ-ron trả về kết
= ƒ(y) Đầu ra sẽ là đầu vào của nơ-ron tiếp theo Các nơ-ron
trong mạng kết nói với nhau theo một chiều duy nhất, quá trình này được
gọi là lan truyền tiến (Feedforward)
17
Trang 19
Hình 1.6: Ng-ron nhân tạo
Hàm kích hoat (Activation function) thường là một hàm phi tuyến, dùng
để ánh xạ tổng trọng số của đần vào thành đầu ra tưởng tứng phụ thuộc vào
vấn để của bài toán Một số hàm kích hoạt thường dùng như:
+ Hàm softplus, một phiên bản của ReLu:
softplus(x} — éag(1 4 e*).
Trang 20Hình 1.7: Các hàm kích hoạt thường dùng: (a) Hàm Sigmoid; (b) Hàm
ReLU va ham Softplus; (c) Ham Tanh (27)
1.2.2 Thuật toán lan truyền ngược
Trong quá trình huấn luyện mạng nơ-ron, thuật toán lan truyền ngược
(Baekpropagation) 19] được sử dụng phổ biến nhất dùng để tối ưu hóa các
tham số trong một mô hình Đối với mạng như Hình[I:6| giả sử mục tiêu tối wu hóa cho đầu ra z là zọ, theo Quy tắc dây chuyén (Chain rule), dao hàm của z đối với w¿ và b như sau:
Trang 21Qua trinh huấn luyện mạng nơ-ron nhân tạo gồm hai bước:
1 Lan truyền tiến: Cho một tập hợp các tham số và một đầu vào, mạng nơ-ron sẽ tính toán các giá trị tại mỗi nơ-ron theo thứ tự chuyển tiếp
2 Lan truyền ngược: Tính toán lỗi tại mỗi biến để được tối ưu hóa và
cập nhật các tham số với các đạo hàm riêng tương ứng của chúng
theo thứ tự ngược lại
Hai bước trên sẽ lặp đi lặp lại cho đến khi đạt được tối ưu mục tiêu
Mạng Perceptron nhiều lớp (Multi-layer Perceptron - MLP) 1a su két hợp của các tầng perceptron gồm 3 tầng ( Hình[T:8):
* Lớp đầu vào: Là lớp bên trái cùng của mạng thể hiện cho các đầu
Vào của mạng
* Lớp ẩn: Là lớp nằm giữa thể hiện cho việc suy luận logic của mạng
* Lớp đầu ra: Là lớp bên phải của mạng thể hiện cho các đầu ra của
Trang 22Với sự bùng nổ trong lĩnh vực Máy học (đặc biệt là Học sâu), nhiều
kiến trúc mạng nơ-ron đã được ra đời Các kiến trúc mạng nơ-ron có tÌ
kể đến như: Mạng nơron truyền thẳng (Feedforward neural network)
Mạng nơ-ron tích chập (Convolutional neural network-CNN) [35], Mang
nơ-ron hồi quy (Recurrent neural network) [16] và một số kiến trúc mạng
nơ-ron hiện đại khác
1.3 Phương pháp dựa trên đồ thị
Một cạnh e = u,v c6 hai dinh œ và 9, được nối bởi e Trong trường hợp này,
ư được gọi là lân cận của v, hay nói cách khác, hai đỉnh này kề nhau Một
cạnh có thể là cạnh có hướng hoặc vô hướng Một đồ thị được gọi là đồ thị
có hướng nếu tất cả các cạnh đều có hướng hoặc ngược lại với đồ thị vô
hướng Bậc của đỉnh v, ký hiệu bởi Z(r) là số cạnh liên kết với v
Một số biểu diễn đại số cho đồ thị, được liệt kê như sau:
+ Ma trận kề (Adjaceney matrix): Cho đỗ thị G = (V,E) với m đỉnh
được biểu diễn bởi ma trận kề A € ï8"*”, trong đó:
Z 1 néu {wv/}€E và izZ/,
i,
0 trường hợp còn lại
Như vậy đây là ma trận đối xứng khi Œ vô hướng
» Ma trận bậc (Degree matrix): Cho đồ thị G = (V,E) với m đỉnh,
21
Trang 23ma tran bac ctia né D € R"*" Ja mét ma tran chéo, trong đó
Dj = (vj)
13.2 Nhúng đồ thị
Nhúng đồ thị (Graph Embedding) là một nhánh các phương pháp biểu
diễn đổ thị dưới dạng vec-tơ Mục tiêu của nhúng đồ thị là thay vì biểu
diễn các nút trong đồ thị một cách riêng lẻ, phương pháp này tạo ra ánh xạ
thể hiện được cả mối quan hệ của các nút trong đồ thị phản ánh cấu trúc của đồ thị ban đầu Nói một cách khác, các véc tơ nhúng sẽ được tính toán dựa trên vị trí tương đối của nó với các nút liên quan và lân cận trên đồ thị
* Nhúng đồ thị (Graph Embedding): tương tự với nhúng nút, thay vì
mã hóa mỗi nút thì mã hóa mỗi đồ thị dưới dạng vec-tơ
Đối với nhúng nút, các phép nhúng có thể được xem như vấn dé ma hóa, hoặc chiều các nút vào một không gian nhúng, nơi các quan hệ hình
học trong không gian nhúng này tương ứng với các quan hệ, kết nói (nút,
cạnh) trong đồ thi ban dau Hinh [1.9] [L3 mô tả một ví dụ về nhúng của một mạng xã hội
2
Trang 24Hình 1.9: Hình A Đồ thị của mạng xã hội Zachary Karate Club; Hình B
Hình ảnh hai chiều của các nút nhúng được tạo ra từ đồ thị 64)
Có nhiều phương pháp nhúng đồ thị, hai trong đó có thể kể đến như
DeepWalk [3], Node2Vec [T]:
* DeepWalk: Sử dụng các bước đi ngẫu nhiên để tạo ra nhúng Bước
đi ngẫu nhiên bắt đầu bằng nút đã chọn, sau đó di chuyển đến hàng
xóm ngẫu nhiên từ một nút hiện tại để biết một số bước xác định
Node2Vec: là một cải tiền của DeepWalk với sự khác biệt nhỏ trong
bước đi ngẫu nhiên Nó có các tham số P và Q Tham số Ø xác định
khả năng đi ngẫu nhiên sẽ phát hiện ra phần chưa được khám phá
của đồ thị, trong khí tham số P xác định khả năng đi ngẫu nhiên
sẽ trở về nút trước đó Tham số điều khiển phát hiện ra thông tin
xung quanh nút Tham số @ nhận nhiệm vụ phát hiện ra vùng lân cận
lớn hơn Các bước nhúng khác cũng tương tự như cách tiếp cận của
DeepWalk
Các cách tiếp cận tương tự như LINE (13] và TADW [5] cũng đạt được
những bước đột phá Tuy nhiên các phương pháp này có hai nhược điểm
nghiêm trọng Đầu tiên, các phương pháp này không có tham số nào được
chia sẻ giữa các nút trong bộ mã hóa, điều này dẫn đến tính kém hiệu quả
theo từng giai đoạn, nghĩa là số lượng tham số tăng tuyến tính với số lượng
nút Thứ hai các phương pháp nhúng trực tiếp thiếu khả năng tổng quát
hóa, chúng không xử lý các đồ thị động hoặc yếu với những đồ thị mới
23
Trang 25Chương 2
Mô hình đề xuất
Trong luận văn này, tôi đề xuất thuật toán XGBoost làm bộ phân loại cơ
sở cho mô hình phân loại số điện thoại làm phiền Bên cạnh đó, một kiến trúc Graph Neuron Network (GNN) phù hợp cho dữ liệu bài toán phân loại
số điện thoại làm phiền được đẻ xuất, đồng thời kết hợp một số phương
pháp học bán giám sát để cải thiện mô hình, những đóng góp quan trọng
của tôi trong luân văn này được liệt kê như sau:
1 Sử dụng thuật toán XGBoost làm bộ phân loại cơ sở cho mô hình
phân loại số điện thoại làm phiền
sử dụng GNN với kiến trúc
tùy chỉnh cho kết quả tốt đối với dữ liệu đặc trưng của bài toán phân
2 Triển khai phương pháp dựa trên đồ thị
loại số điện thoại làm phiền
3 Cung cấp cái nhìn sâu sắc hơn về phương pháp kết hợp các thuật toán
học dựa trên đặc trưng và học dựa trên đồ thị sử dụng Đồng đào tạo
và Học chủ động với một số sửa đổi và cung cấp bằng chứng về tính hiệu quả đối với nghiên cứu
2.1 Thuật toán XGBoost
XGBoost (viết tắt của Extreme Gradient Boosting) là một thuật
toán nâng cấp từ thuật toán Gradient Boosting Machine (GBM) “Thuật
toán GBM sẽ tạo ra một loạt các mô hình yếu (weak learner) để học bổ sung
24
Trang 26lẫn nhau, nói cách khác, trong GBM, các mô hình sau sẽ cố gắng học để
hạn chế lỗi của các mô hình trước Dé hạn chế được lỗi từ các mô hình trước, GBM tiền hành đánh trọng số cho các mô hình mới được thêm vào
dựa trên các cách tối ưu khác nhau Cụ thể, GBM xây dựng thuật toán nhằm
giải quyết bài toán tối ưu sau:
min L(y, Wy1+entn)-
với w„ là mô hình được thêm vào tiếp theo Khi đó, mô hình mới cần học để
cập nhật vào giá trị — nS LW ) Giá trị này còn gọi là pseudo-residuals,
được hiểu là biểu thị cho sự sai số của mô hình
25
Trang 27Hình 2.1: Thuật toan Gradient Boosting Machine
Hình [2.]]thé hign qué trình học của thuật toán GBM Cụ thể, các bước
triển khai thuật toán như sau: Tại vòng lặp đầu tiên, khởi tạo giá trị pseudo-
residuals bằng nhau cho từng điểm dữ liệu, Huấn luyện mô hình mới được
thêm vào để cập nhật vào giá trị của pseudo-residuals đã có Tính toán
giá trị điểm tin cậy c¡ của mô hình vừa huắn luyện sau đó cập nhật mô
hình chính W = W + eaw; Cuối cùng, tính toán giá trị pseudo-residuals
=n L(Wn-1) để làm nhãn cho mô hình tiếp theo Quá trình cứ tiếp tục như vậy
Để nâng cao hiệu suất cho mô hình GBM, XGBoost có những cải tiến
to lớn về mặt tối ưu thuật toán, về sự kết hợp hoàn hảo giữa sức mạnh phần
mềm và phần cứng, giúp đạt được những kết quả vượt trội cả về thời gian
huấn luyện cũng như bộ nhớ sử dụng Đối với XGBoost, một thành phần
mới được thêm vào trong hàm mắt mát, lúc này hàm mục tiêu của mô hình
XGBoost có dạng:
26
Trang 28trong đó các tham số của mô hình được ky hiéu [A @, 7 1A ham mat mat, O
là thành phần được thêm vào thường được gọi là hàm chính quy nhằm đo lường độ phức tạp của các cây được xây dựng và cân bằng độ phức tạp đối
với độ chính xác của mô hình Việc thêm vào thành phần chính quy giúp
đo lường các tham số thu được của mô hình học và tránh hiện Lượng mô hình quá khớp (overfitring) Nhiệm vụ tối ưu hàm mục tiêu ở đây sẽ là tối
ưu hóa để cân bằng giữa hàm mắt mát Ƒ và hàm chính quy €3
trong đó + là độ phức tạp của các lá trong cây quyết dịnh; 7 là sẽ lá trong
một cây quyết định; ^ là hệ số phóng đại hàm phạt; w là trọng số của các
1á
Với ý tưởng cửa thuật toán GBM, ở thời điểm ¿, mê hình tại thời điểm
nay sẽ bằng mô hình ở thời điểm r _ 1 kết hợp với mô hình mới:
Œ)
k=1
Khai triển xắp xi Taylor để tính gần đúng hai số hạng của hàm mắt mất
và đơn giản hóa hàm mục liêu, giả thiẾt rằng hầm tối ưu cho quá trình học tập là hàm MSE, biến đổi ta có công thức mới:
trong dé, ø; và h; là đạo hàm bậc nhất và bậc hai của hàm mắt mát MSE
Trong công thức (2.2.5), hàm mắt mát được xác định bằng tổng của các giá
27