Một số phương pháp xác định cuộc gọi làm phiền

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự do – Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ và tên tác giả luận văn : Nguyễn Văn Long Đề tài luận văn: Một số phương pháp

Trang 1

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

Giảng viên hướng dẫn: TS Lê Chí Ngọc

HÀ NỘI, 10/2022

Trang 2

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

Độc lập – Tự do – Hạnh phúc

BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ

Họ và tên tác giả luận văn : Nguyễn Văn Long

Đề tài luận văn: Một số phương pháp xác định cuộc gọi làm phiền

Chuyên ngành: Toán Tin

Mã số SV: 20202826M

Tác giả, Người hướng dẫn khoa học và Hội đồng chấm luận văn xác nhận tác giả đã sửa chữa, bổ sung luận văn theo biên bản họp Hội đồng ngày 31 tháng 10 năm 2022 với các nội dung sau:

Sửa một số lỗi soạn thảo, câu chữ, công thức tại các trang 17, 22,

Trang 3

Lời cảm ơn

Tác giả xin gửi lời cảm ơn trân trọng sâu sắc nhất tới người thầy cốvấn của tác giả, TS Lê Chí Ngọc - người thầy đã đưa tác giả đến với lĩnhvực Trí tuệ nhân tạo, người định hướng, trực tiếp hướng dẫn tác giả hết sứcnhiệt tình, chu đáo, luôn động viên về mặt tinh thần để tác giả có thể hoànthành luận văn này Tác giả xin trân trọng cảm ơn tới các thầy cô của ViệnToán Ứng dụng và Tin học, Phòng đào tạo Bộ phận quản lý đào tạo sauđại học, Trường Đại học Bách khoa Hà Nội đã tạo mọi điều kiện thuận lợi

để tác giả hoàn thành luận văn này Đồng thời, tác giả cũng gửi lời cảm ơntới công ty Grooo International đã tạo điều kiện để tác giả có đủ cơ sở vậtchất thực hiện việc nghiên cứu, phát triển và ứng dụng mô hình đề xuất vàothực tế

Sau cùng, tác giả xin gửi lời cảm ơn tới gia đình, người thân và bạn bè

đã luôn động viên giúp đỡ tác giả trong suốt quá trình thực hiện đề tài Xinchân thành cảm ơn mọi người!

Trang 4

Tóm tắt nội dung luận văn

Cuộc gọi làm phiền ngày càng trở nên nghiêm trọng và đã thu hút sựchú ý đáng kể từ các nhà cung cấp viễn thông do tác hại rất lớn của nóđối với tài chính và sự trải nghiệm của người dùng Các hệ thống chốngcuộc gọi làm phiền hiện tại phải đối mặt với hai thách thức lớn: khả năng

mở rộng dữ liệu và hành vi gian lận của những người gọi làm phiền để cốgắng vượt qua hệ thống Luận văn này trình bày các giải pháp kỹ thuật để

cố gắng giải quyết thách thức này Tác giả đề xuất hai phương pháp pháthiện số điện thoại làm phiền gồm phương pháp sử dụng thuật toán ExtremeGradient Boosting và phương pháp dựa trên đồ thị sử dụng Graph NeuralNetwork Đồng thời, tác giả đề xuất một phương pháp Semi-supervisedlearning kết hợp bởi thuật toán Co-train và phương pháp Active learning

để cải thiện hiệu suất phân loại và tối ưu khả năng mở rộng dữ liệu Triểnkhai trên tập dữ liệu được thu thập từ một ứng dụng chặn cuộc gọi làmphiền có tên là Icaller Kết quả của việc triển khai thể hiện tính hiệu quảcủa phương pháp được đề xuất

Từ khóa: SPIT, XGBoost, Graph Neural Networks, Semi-Supervised

learning, Co-train, Active learning.

Hà Nội, ngày 11 tháng 10 năm 2022

Giảng viên hướng dẫn Học viên

Kí và ghi rõ họ tên Kí và ghi rõ họ tên

Trang 5

Mục lục

1.1 Máy học 12

1.1.1 Tổng quan 12

1.1.2 Phương pháp Học kết hợp 13

1.1.3 Phương pháp Học chủ động 16

1.2 Mạng nơ-ron nhân tạo 17

1.2.1 Cấu trúc mạng nơ-ron 17

1.2.2 Thuật toán lan truyền ngược 19

1.3 Phương pháp dựa trên đồ thị 21

1.3.1 Đồ thị 21

1.3.2 Nhúng đồ thị 22

Chương 2: Mô hình đề xuất 24 2.1 Thuật toán XGBoost 24

2.2 Kiến trúc Graph Neural Network 28

2.3 Thuật toán Đồng đào tạo 32

2.4 Mô hình kết hợp thuật toán Đồng đào tạo và phương pháp Học chủ động 34

Chương 3: Cài đặt thực nghiệm và đánh giá 38 3.1 Phân tích thiết kế hệ thống 38

3.2 Dữ liệu 41

3.3 Kết quả thực nghiệm 46

Trang 6

Tổng kết 50

Trang 7

Danh sách hình vẽ

1.1 Thuật toán Đóng bao [15] 14

1.2 Thuật toán Tăng cường [15] 15

1.3 Thuật toán xếp chồng [15] 15

1.4 Lấy mẫu không chắc chắn sẽ tìm thấy các mẫu gần với ranh giới quyết định [20] 16

1.5 Lấy mẫu đa dạng sẽ tìm thấy các mẫu khác biệt tối đa với các mẫu đào tạo hiện có [20] 17

1.6 Nơ-ron nhân tạo 18

1.7 Các hàm kích hoạt thường dùng: (a) Hàm Sigmoid; (b) Hàm ReLU và hàm Softplus; (c) Hàm Tanh [27] 19

1.8 Mạng perceptron nhiều lớp [10] 20

1.9 Hình A Đồ thị của mạng xã hội Zachary Karate Club; Hình B Hình ảnh hai chiều của các nút nhúng được tạo ra từ đồ thị [34] 23

2.1 Thuật toán Gradient Boosting Machine 26

2.2 Khám phá vùng lân cận và chia sẻ thông tin giữa các nút [34] 29

2.3 Phương pháp tổng hợp bởi các nút lân cận [34] 30

2.4 Kiến trúc HybridGNNs 32

2.5 Thuật toán Đồng đào tạo 33

2.6 Thuật toán Co2AL 37

3.1 Ứng dụng Icaller chặn các cuộc gọi làm phiền 39

3.2 Lược đồ quan hệ các bảng dữ liệu trong cơ sở dữ liệu Icaller 40 3.3 Luồng hệ thống phát hiện số điện thoại làm phiền 41

Trang 8

3.5 Phân tích dữ liệu báo cáo 423.6 Mẫu dữ liệu nhật ký cuộc gọi 433.7 Số lượng cuộc gọi theo thời điểm 443.8 Trung bình các cuộc gọi có trong danh bạ của mỗi loại số

điện thoại 453.9 Số lượng cuộc gọi đi và cuộc gọi đến của mỗi loại số điện

thoại 453.10 Độ chính xác phân loại của mỗi thuật toán so sánh thay đổi

khi số lượng các phiên bản huấn luyện được gắn nhãn tăng

lên 48

Trang 9

Danh sách bảng

3.1 Cấu trúc của bản ghi nhật ký dữ liệu 43

3.2 Mô tả 15 đặc trưng đầu vào cho mô hình 46

3.3 Kết quả của mô hình XGBoost 47

3.4 Kết quả của hai mô hình 48

Trang 10

Convolutional Neural Network CNN

Hybrid Graph Neuron Network HybridGNN

Trang 11

Mở đầu

Mặc dù là vấn đề lâu đời, nhưng các cuộc gọi quấy rối đặc biệt là cáccuộc gọi lừa đảo vẫn đang gây chú ý trên toàn cầu vì tác động mà chúngmang lại rất lớn đối với tài chính và sự trải nghiệm của người dùng Đặcbiệt với sự phát triển nhanh chóng của công nghệ Internet cùng với thờiđiểm đại dịch COVID-19 toàn cầu, các cuộc gọi quấy rối và lừa đảo càngngày càng gia tăng Những kẻ lừa đảo cố gắng dụ dỗ mọi người mua thuốc,vắc-xin giả, kêu gọi đầu tư, cho vay không hợp pháp, Những người nàythường nghe có vẻ rất chuyên nghiệp khi họ gọi cho nạn nhân của họ, vìvậy mọi người rất dễ bị lừa, đặc biệt là khi chúng ta đang ở trong một giaiđoạn dễ bị tổn thương liên quan đến sức khỏe và tài chính như ở trong đạidịch COVID-19

Theo dữ liệu năm 2020 của Hiya [9], ước tính chỉ riêng Bắc Mỹ và Tây

Âu đã nhận được khoảng 157 tỷ cuộc gọi rác Người dùng ở những khu vực

đó đã bị ảnh hưởng trung bình 144 cuộc gọi làm phiền trong năm qua, 38%của tất cả các cuộc gọi làm phiền dẫn đến tổn thất tiền tệ, với trung bình

là $182.00 cho mỗi cuộc gọi Ở Việt Nam, vào tháng 7/2020, Bộ TT&TTyêu cầu các nhà mạng thực hiện các biện pháp ngăn chặn cuộc gọi giả mạo[33], cuộc gọi rác trên cơ sở quy định của Luật Bảo vệ quyền lợi ngườitiêu dùng và Nghị định số 91/2020/NĐ-CP của Thủ tướng Chính phủ Tínhđến cuối tháng 6 năm 2021, các nhà mạng trong nước đã chặn hơn 181.000thuê bao phát tán cuộc gọi rác, các nhà cung cấp dịch vụ viễn thông ViệtNam đã ngăn chặn được hơn 56,65 triệu cuộc gọi giả mạo Có thể thấy đó

là sự thành công đáng kinh ngạc trong nỗ lực ngăn chặn cuộc gọi làm phiền

ở Việt Nam Tuy nhiên, thật không may, các doanh nghiệp hợp pháp cầnthực hiện các cuộc gọi đi thường xuyên đến khách hàng tiềm năng dẫn đến

Trang 12

nhằm bảo vệ người tiêu dùng Hơn nữa, những kẻ lừa đảo càng ngày càngtinh vi và họ không ngừng nỗ lực để vượt qua các hệ thống chống cuộc gọilàm phiền.

Khái niệm cuộc gọi làm phiền dùng để chỉ những cuộc gọi quấy rối,quảng cáo, lừa đảo, phát tán phần mềm độc hại, Nói một cách đơn giản,cuộc gọi làm phiền là loại cuộc gọi không mong muốn xảy ra khi một ngườihoặc công ty gọi cho một số lượng người cực kỳ lớn cùng lúc

Có nhiều giải pháp khác nhau được phát triển trên thị trường để chặncác cuộc gọi làm phiền Một số giải pháp phân tích các cuộc gọi làm phiềnkhi mọi người gọi cho các nhà cung cấp dịch vụ để phàn nàn về một số sốđiện thoại nhất định và sau đó nhà cung cấp dịch vụ chặn các số điện thoại

cụ thể đó Các giải pháp khác bao gồm danh sách những kẻ gọi làm phiền

đã biết để chặn cuộc gọi Hiện nay, giải pháp được quan tâm và tiềm năngnhất đó là ứng dụng Máy học để đào tạo mô hình phát hiện cuộc gọi làmphiền

Với mong muốn tạo một mô hình Máy học có khả năng phát hiện vàngăn chặn những cuộc gọi làm phiền hiệu quả, góp phần bảo vệ và nângcao trải nghiệm của người dùng, tôi đề xuất đề tài "Một số phương phápxác định cuộc gọi làm phiền" làm đề tài luận văn của mình

Trang 13

có thể học dựa trên dữ liệu để giải quyết những vấn đề cụ thể.

Ứng dụng của Máy học trong những năm gần đây xuất hiện ở khắp mọinơi, từ việc nhận dạng khuôn mặt, vân tay, cử chỉ, tiếng nói đến các hệthống quản trị rủi ro tài chính, các mô hình xử lí ảnh y khoa, Máy học

có thể ứng dụng hầu hết các loại dữ liệu từ cấu trúc (bảng số liệu kinh tế,

số liệu nông nghiệp, ) và cả dữ liệu phi cấu trúc (hình ảnh, văn bản, tínhiệu âm thanh, ) Các thuật toán Máy học thường được chia thành bốn loạichính [14] gồm có:

Học có giám sát

Học có giám sát (Supervised learning): thuật toán học nhận một số ví

dụ huấn luyện và nhãn tương ứng để xây dựng một hàm dự đoán đầu ramong muốn Đầu ra của một hàm có thể là một giá trị liên tục, thuật toánnày gọi là Hồi quy (Regression), hay thuật toán Phân loại (Classification)với đầu ra dùng để dự đoán một nhãn phân loại cho một đối tượng đầu vào

Để xây dựng mô hình học có giám sát thường phải có sự nỗ lực từ conngười để gán nhãn cho tập dữ liệu

Học không giám sát

Trang 14

Học không giám sát (Unsupervised learning): Không có bất kì nhãnnào được cung cấp cho thuật toán học, thuật toán sẽ đi tìm cấu trúc bêntrong dữ liệu để thực hiện các nhiệm vụ nhất định, ví du như phân cụm(Clustering), giảm số chiều của dữ liệu (Dimension reduction), tìm luật kếthợp (Association),

Học bán giám sát

Học bán giám sát (Semi-supervised learning): là một lớp kỹ thuật Máyhọc sử dụng cả các ví dụ được gắn nhãn và không được gắn nhãn khi huấnluyện một mô hình Các ví dụ được gắn nhãn được sử dụng để tìm hiểu cáclớp của dữ liệu và các ví dụ không được gắn nhãn được sử dụng để tinhchỉnh ranh giới giữa các lớp

Học tăng cường

Học tăng cường (Reinforcement learning): dữ liệu huấn luyện sẽ đượcthuật toán học xây dựng mô hình, mô hình này dùng để dự đoán và nhậnphản hồi từ môi trường từ đó tự động cải thiện mô hình Một số bài toántiêu biểu cho hình thức học tăng cường là là công nghệ xe tự lái, tự độngchơi game,

1.1.2 Phương pháp Học kết hợp

Học kết hợp (Ensemble Learning) [37] là một cách tiếp cận nhằm tìmkiếm hiệu suất dự đoán tốt hơn cho mô hình Máy học bằng cách kết hợpcác dự đoán từ nhiều bộ phân loại khác nhau Học kết hợp có thể được coi

là một cách để bù đắp cho các thuật toán học kém bằng cách thực hiệnnhiều tính toán bổ sung Sự thành công của một hệ thống học kết hợp phụthuộc vào sự đa dạng của các bộ phân loại, nếu mỗi bộ phân loại mắc cáclỗi khác nhau, các bộ phân loại sẽ học được nhiều thông tin hơn, sự kết hợpcủa các bộ phân loại này có thể làm giảm tổng lỗi và cải thiện mô hình.Học kết hợp được chia thành ba loại chính gồm:

Đóng bao

Đóng bao (Bagging) [17] là một trong những thuật toán học kết hợp rađời sớm nhất, trực quan và đơn giản nhất Ý tưởng của thuật toán này làdùng các tập hợp con khác nhau của dữ liệu để huấn luyện Mỗi tập hợp con

Trang 15

dữ liệu được sử dụng để huấn luyện một bộ phân loại khác nhau và cùngloại thuật toán Các bộ phân loại riêng lẽ sau đó được kết hợp bằng cách bỏphiếu đa số, tức là đối với bất kỳ trường hợp nhất định nào, lớp được chọnbởi hầu hết các bộ phân loại sẽ là quyết định tổng hợp cuối cùng Các thuậttoán Đóng bao gồm Bagged Decision Trees [24], Random Subspaces [26],Random Forest [32],

Hình 1.1: Thuật toán Đóng bao [15]

Tăng cường

Tăng cường (Boosting) [23] là một thuật toán tương tự như Đóng bao,thuật toán này cũng tạo ra một nhóm các bộ phân loại bằng cách lấy mẫulại dữ liệu, sau đó được kết hợp bằng cách bỏ phiếu đa số Tuy nhiên, trongthuật toán Tăng cường, tập dữ liệu huấn luyện cho mỗi bộ phân loại tiếptheo tập trung vào trường hợp được phân loại sai bởi các bộ phân loại đượchuấn luyện trước đó Thuật toán này xây dựng các bộ phân loại mà mỗi bộphân loại sau sẽ học cách sửa chữa lỗi của các bộ phân loại trước tạo thànhmột chuỗi các bộ phân loại mà cái sau sẽ tốt hơn cái trước Các thuật toántăng cường có thể kể đến như AdaBoost [22], Gradient Boosting Machine[12], Stochastic Gradient Boosting [11], XGBoost [31], LightGBM [8],

Trang 16

Hình 1.2: Thuật toán Tăng cường [15].

Xếp chồng

Trong Xếp chồng (Stacking) [6], đầu tiên, tất cả các bộ phân loại khácđược huấn luyện bằng cách sử dụng dữ liệu có sẵn, sau đó một thuật toánkết hợp được huấn luyện để đưa ra dự đoán cuối cùng bằng cách sử dụngtất cả các dự đoán của các thuật toán khác làm đầu vào

[15]

Hình 1.3: Thuật toán xếp chồng [15]

Trang 17

1.1.3 Phương pháp Học chủ động

Học chủ động (Active learning) [4] là một phương pháp Máy học tươngtác với người dùng để gán nhãn các mẫu dữ liệu chưa được gán nhãn nhằmtối ưu hóa chất lượng mô hình dựa trên kiến thức của người gán nhãn.Thách thức chính của Học chủ động chính là tìm ra truy vấn tối ưu để đưacho người dùng gán nhãn Truy vấn tối ưu là quá trình tìm kiếm những cáthể mà việc có nhãn của chúng sẽ được nhiều cải tiến nhất trong mô hìnhvới số lượng truy vấn ít nhất Hai chiến lược lựa chọn truy vấn gồm:

• Lấy mẫu không chắc chắn (Uncertainty sampling): là tập hợp các

kỹ thuật để xác định các mẫu không được gắn nhãn ở gần ranh giớiquyết định trong mô hình học máy (Hình 1.4) Các mẫu dữ liệu nàyđược mô hình cho rằng không chắc chắn trong việc dự đoán, hay cóthể nói rằng đây là những mẫu mà mô hình "biết nó không biết"

Hình 1.4: Lấy mẫu không chắc chắn sẽ tìm thấy các mẫu gần với ranh giớiquyết định [20]

• Lấy mẫu đa dạng (Diversity sampling): ý tưởng chính của lấy mẫu

đa dạng chính là xác định đâu là các điểm thiếu sót trong mô hình:

mô hình "không biết rằng nó không biết" hoặc xác định "ẩn số chưabiết" để khám phá và mở rộng ranh giới quyết định (Hình 1.5)

Trang 18

Hình 1.5: Lấy mẫu đa dạng sẽ tìm thấy các mẫu khác biệt tối đa với cácmẫu đào tạo hiện có [20].

1.2.1 Cấu trúc mạng nơ-ron

Mạng nơ-ron nhân tạo (Artificial Neural Network hay Neural network)

là một mô hình tính toán được xây dựng phỏng theo các mạng nơ-ron sinhhọc [27] Các đơn vị cơ bản của mạng là các nơ-ron, một mạng nơ-ron

được cấu thành bởi các ron đơn lẻ được gọi là các percepton Các

nơ-ron có thể nhận một loạt đầu vào và trả về đầu ra tương ứng Hình 1.6 làmột nơ-ron nhân tạo điển hình, trong đó nơ-ron nhận n đầu vào x1, x2, , xnvới các trọng số tương ứng w1, w2, , wnvà hệ số bias b Sau đó, tổng trọng

số y = ∑ni=1wixi+ b chuyển qua một hàm kích hoạt f và nơ-ron trả về kếtquả đầu ra z = f (y) Đầu ra sẽ là đầu vào của nơ-ron tiếp theo Các nơ-rontrong mạng kết nối với nhau theo một chiều duy nhất, quá trình này đượcgọi là lan truyền tiến (Feedforward)

Trang 19

Hình 1.6: Nơ-ron nhân tạo

Hàm kích hoạt (Activation function) thường là một hàm phi tuyến, dùng

để ánh xạ tổng trọng số của đầu vào thành đầu ra tương tứng phụ thuộc vàovấn đề của bài toán Một số hàm kích hoạt thường dùng như:

Trang 20

Hình 1.7: Các hàm kích hoạt thường dùng: (a) Hàm Sigmoid; (b) HàmReLU và hàm Softplus; (c) Hàm Tanh [27].

1.2.2 Thuật toán lan truyền ngược

Trong quá trình huấn luyện mạng nơ-ron, thuật toán lan truyền ngược(Backpropagation) [19] được sử dụng phổ biến nhất dùng để tối ưu hóa cáctham số trong một mô hình Đối với mạng như Hình 1.6, giả sử mục tiêutối ưu hóa cho đầu ra z là z0, theo Quy tắc dây chuyền (Chain rule), đạohàm của z đối với wivà b như sau:

∆wi= η(z0− z) ∂ z

∂ wi

= η(z0− z)xi∂ f (y)

∂ y ,

Trang 21

∆b = η (z0− z)∂ z

∂ b

= η(z0− z)xi∂ f (y)

∂ y Quá trình huấn luyện mạng nơ-ron nhân tạo gồm hai bước:

1 Lan truyền tiến: Cho một tập hợp các tham số và một đầu vào, mạngnơ-ron sẽ tính toán các giá trị tại mỗi nơ-ron theo thứ tự chuyển tiếp

2 Lan truyền ngược: Tính toán lỗi tại mỗi biến để được tối ưu hóa vàcập nhật các tham số với các đạo hàm riêng tương ứng của chúngtheo thứ tự ngược lại

Hai bước trên sẽ lặp đi lặp lại cho đến khi đạt được tối ưu mục tiêu.Mạng Perceptron nhiều lớp (Multi-layer Perceptron - MLP) là sự kếthợp của các tầng perceptron gồm 3 tầng (Hình1.8):

• Lớp đầu vào: Là lớp bên trái cùng của mạng thể hiện cho các đầuvào của mạng

• Lớp ẩn: Là lớp nằm giữa thể hiện cho việc suy luận logic của mạng

• Lớp đầu ra: Là lớp bên phải của mạng thể hiện cho các đầu ra củamạng

Hình 1.8: Mạng perceptron nhiều lớp [10]

Trang 22

Với sự bùng nổ trong lĩnh vực Máy học (đặc biệt là Học sâu), nhiềukiến trúc mạng nơ-ron đã được ra đời Các kiến trúc mạng nơ-ron có thể

kể đến như: Mạng nơron truyền thẳng (Feedforward neural network) [7],Mạng nơ-ron tích chập (Convolutional neural network-CNN) [35], Mạngnơ-ron hồi quy (Recurrent neural network) [16], và một số kiến trúc mạngnơ-ron hiện đại khác

Một cạnh e = u, v có hai đỉnh u và v, được nối bởi e Trong trường hợp này,

uđược gọi là lân cận của v, hay nói cách khác, hai đỉnh này kề nhau Mộtcạnh có thể là cạnh có hướng hoặc vô hướng Một đồ thị được gọi là đồ thị

có hướng nếu tất cả các cạnh đều có hướng hoặc ngược lại với đồ thị vôhướng Bậc của đỉnh v, ký hiệu bởi d(v), là số cạnh liên kết với v

Một số biểu diễn đại số cho đồ thị, được liệt kê như sau:

• Ma trận kề (Adjacency matrix): Cho đồ thị G = (V, E) với n đỉnh

được biểu diễn bởi ma trận kề A ∈ Rn×n, trong đó:

Như vậy đây là ma trận đối xứng khi G vô hướng

• Ma trận bậc (Degree matrix): Cho đồ thị G = (V, E) với n đỉnh,

Trang 23

ma trận bậc của nó D ∈ Rn×n là một ma trận chéo, trong đó

Di j= d(vi)

1.3.2 Nhúng đồ thị

Nhúng đồ thị (Graph Embedding) là một nhánh các phương pháp biểudiễn đồ thị dưới dạng vec-tơ Mục tiêu của nhúng đồ thị là thay vì biểudiễn các nút trong đồ thị một cách riêng lẻ, phương pháp này tạo ra ánh xạthể hiện được cả mối quan hệ của các nút trong đồ thị phản ánh cấu trúccủa đồ thị ban đầu Nói một cách khác, các véc tơ nhúng sẽ được tính toándựa trên vị trí tương đối của nó với các nút liên quan và lân cận trên đồ thịvới giả thiết các nút tương tự trong đồ thị sẽ có khoảng cách gần nhau hơntrong không gian vec-tơ Sau khi nhúng đồ thị, các phép nhúng đã học cóthể được sử dụng làm đầu vào cho các tác vụ Máy học Có hai nhóm nhúngchính gồm nhúng nút (Node embedding) và nhúng đồ thị

• Nhúng nút (Node embedding): Mã hóa mỗi nút (đỉnh) của đồ thịdưới dạng vec-tơ nhằm biểu diễn thông tin vị trí và cấu trúc của cácnút lân cận của chúng

• Nhúng đồ thị (Graph Embedding): tương tự với nhúng nút, thay vì

mã hóa mỗi nút thì mã hóa mỗi đồ thị dưới dạng vec-tơ

Đối với nhúng nút, các phép nhúng có thể được xem như vấn đề mãhóa, hoặc chiếu các nút vào một không gian nhúng, nơi các quan hệ hìnhhọc trong không gian nhúng này tương ứng với các quan hệ, kết nối (nút,cạnh) trong đồ thị ban đầu Hình 1.9 mô tả một ví dụ về nhúng của mộtmạng xã hội

Trang 24

Hình 1.9: Hình A Đồ thị của mạng xã hội Zachary Karate Club; Hình B.Hình ảnh hai chiều của các nút nhúng được tạo ra từ đồ thị [34].

Có nhiều phương pháp nhúng đồ thị, hai trong đó có thể kể đến nhưDeepWalk [3], Node2Vec [1]:

• DeepWalk: Sử dụng các bước đi ngẫu nhiên để tạo ra nhúng Bước

đi ngẫu nhiên bắt đầu bằng nút đã chọn, sau đó di chuyển đến hàngxóm ngẫu nhiên từ một nút hiện tại để biết một số bước xác định

• Node2Vec: là một cải tiến của DeepWalk với sự khác biệt nhỏ trongbước đi ngẫu nhiên Nó có các tham số P và Q Tham số Q xác địnhkhả năng đi ngẫu nhiên sẽ phát hiện ra phần chưa được khám phácủa đồ thị, trong khi tham số P xác định khả năng đi ngẫu nhiên

sẽ trở về nút trước đó Tham số điều khiển P phát hiện ra thông tinxung quanh nút Tham số Q nhận nhiệm vụ phát hiện ra vùng lân cậnlớn hơn Các bước nhúng khác cũng tương tự như cách tiếp cận củaDeepWalk

Các cách tiếp cận tương tự như LINE [13] và TADW [5] cũng đạt đượcnhững bước đột phá Tuy nhiên các phương pháp này có hai nhược điểmnghiêm trọng Đầu tiên, các phương pháp này không có tham số nào đượcchia sẻ giữa các nút trong bộ mã hóa, điều này dẫn đến tính kém hiệu quảtheo từng giai đoạn, nghĩa là số lượng tham số tăng tuyến tính với số lượngnút Thứ hai, các phương pháp nhúng trực tiếp thiếu khả năng tổng quáthóa, chúng không xử lý các đồ thị động hoặc yếu với những đồ thị mới

Trang 25

Chương 2

Mô hình đề xuất

Trong luận văn này, tôi đề xuất thuật toán XGBoost làm bộ phân loại cơ

sở cho mô hình phân loại số điện thoại làm phiền Bên cạnh đó, một kiếntrúc Graph Neuron Network (GNN) phù hợp cho dữ liệu bài toán phân loại

số điện thoại làm phiền được đề xuất, đồng thời kết hợp một số phươngpháp học bán giám sát để cải thiện mô hình, những đóng góp quan trọngcủa tôi trong luân văn này được liệt kê như sau:

1 Sử dụng thuật toán XGBoost làm bộ phân loại cơ sở cho mô hìnhphân loại số điện thoại làm phiền

2 Triển khai phương pháp dựa trên đồ thị sử dụng GNN với kiến trúctùy chỉnh cho kết quả tốt đối với dữ liệu đặc trưng của bài toán phânloại số điện thoại làm phiền

3 Cung cấp cái nhìn sâu sắc hơn về phương pháp kết hợp các thuật toánhọc dựa trên đặc trưng và học dựa trên đồ thị sử dụng Đồng đào tạo

và Học chủ động với một số sửa đổi và cung cấp bằng chứng về tínhhiệu quả đối với nghiên cứu

XGBoost (viết tắt của Extreme Gradient Boosting) [31] là một thuậttoán nâng cấp từ thuật toán Gradient Boosting Machine (GBM) [12] Thuậttoán GBM sẽ tạo ra một loạt các mô hình yếu (weak learner) để học bổ sung

Trang 26

lẫn nhau, nói cách khác, trong GBM, các mô hình sau sẽ cố gắng học đểhạn chế lỗi của các mô hình trước Để hạn chế được lỗi từ các mô hìnhtrước, GBM tiến hành đánh trọng số cho các mô hình mới được thêm vàodựa trên các cách tối ưu khác nhau Cụ thể, GBM xây dựng thuật toán nhằmgiải quyết bài toán tối ưu sau:

Trang 27

Hình 2.1: Thuật toán Gradient Boosting Machine

Hình 2.1 thể hiện quá trình học của thuật toán GBM Cụ thể, các bướctriển khai thuật toán như sau: Tại vòng lặp đầu tiên, khởi tạo giá trị pseudo-residuals bằng nhau cho từng điểm dữ liệu, Huấn luyện mô hình mới đượcthêm vào để cập nhật vào giá trị của pseudo-residuals đã có Tính toángiá trị điểm tin cậy ci của mô hình vừa huấn luyện sau đó cập nhật môhình chính W = W + ciwi Cuối cùng, tính toán giá trị pseudo-residuals

−η δ

δ wL(Wn−1) để làm nhãn cho mô hình tiếp theo Quá trình cứ tiếp tụcnhư vậy

Để nâng cao hiệu suất cho mô hình GBM, XGBoost có những cải tiến

to lớn về mặt tối ưu thuật toán, về sự kết hợp hoàn hảo giữa sức mạnh phầnmềm và phần cứng, giúp đạt được những kết quả vượt trội cả về thời gianhuấn luyện cũng như bộ nhớ sử dụng Đối với XGBoost, một thành phầnmới được thêm vào trong hàm mất mát, lúc này hàm mục tiêu của mô hìnhXGBoost có dạng:

j(θ ) = L(θ ) + Ω(θ ) (2.1)

Trang 28

trong đó các tham số của mô hình được ký hiệu là θ , L là hàm mất mát, Ω

là thành phần được thêm vào thường được gọi là hàm chính quy nhằm đolường độ phức tạp của các cây được xây dựng và cân bằng độ phức tạp đốivới độ chính xác của mô hình Việc thêm vào thành phần chính quy giúp

đo lường các tham số thu được của mô hình học và tránh hiện tượng môhình quá khớp (overfitting) Nhiệm vụ tối ưu hàm mục tiêu ở đây sẽ là tối

ưu hóa để cân bằng giữa hàm mất mát L và hàm chính quy Ω

Với ý tưởng của thuật toán GBM, ở thời điểm t, mô hình tại thời điểmnày sẽ bằng mô hình ở thời điểm t − 1 kết hợp với mô hình mới:

Khai triển xấp xỉ Taylor để tính gần đúng hai số hạng của hàm mất mát

và đơn giản hóa hàm mục tiêu, giả thiết rằng hàm tối ưu cho quá trình họctập là hàm MSE, biến đổi ta có công thức mới:

Định dạng
Số trang	56
Dung lượng	2,03 MB

Tiêu đề	Một số phương pháp xác định cuộc gọi làm phiền
Tác giả	Nguyễn Văn Long
Người hướng dẫn	TS. Lê Chí Ngọc
Trường học	Viện Toán Ứng dụng và Tin học, Trường Đại học Bách khoa Hà Nội
Chuyên ngành	Toán Tin
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2022
Thành phố	Hà Nội