Đề tài phát hiện url lừa đảo sửdụng học liên kết

Sự cần thiết của sự hợp tác những nỗ lực trong việc phát hiện URL độc hại là điều hiển nhiên, nhưng như vậy sự hợp tác thường bị hạn chế bởi sự miễn cưỡng của các tập đoàn để chia sẻ dữ

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC KINH TẾ - TÀI CHÍNH

Giảng viên hướng dẫn: ThS Nguyễn Minh Thắng

Sinh viên thực hiện :

TP Hồ Chí Minh, năm 2024

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC KINH TẾ - TÀI CHÍNH

THÀNH PHỐ HỒ CHÍ MINH

ĐỒ ÁN CHUYÊN NGÀNH

Ngành: Công Nghệ Thông Tin

Chuyên ngành: An Toàn Thông Tin

TÊN ĐỀ TÀI: PHÁT HIỆN URL LỪA ĐẢO SỬ

DỤNG HỌC LIÊN KẾT

Giảng viên hướng dẫn: ThS Nguyễn Minh Thắng

Sinh viên thực hiện :

TP Hồ Chí Minh, năm 2024

Trang 3

LỜI CÁM ƠN

Trước tiên, em xin gởi lời cám ơn chân thành tới thầy hướng dẫn môn đồ án,Th.S Nguyễn Minh Thắng, người đã hướng dẫn nhóm em trong môn học này.Trong suốt quá trình học thầy đã kiên nhẫn hướng dẫn, giúp đỡ Sự hiểu biết sâu sắccũng như kinh nghiệm của thầy chính là tiền đề giúp nhóm đạt được những thànhtựu và kinh nghiệm quý báu

Để hoàn thành được đồ án môn học này, nhóm em xin chân thành cảm ơn BanGiám hiệu, các khoa, phòng và quý thầy, cô của trường Đại Học Kinh Tế TàiChính, những người đã tận tình giúp đỡ và tạo điều kiện cho em trong quá trình họctập Đặc biệt, em xin gửi lời cảm ơn sâu sắc đến thầy hướng dẫn môn đồ án, Th.SNgyễn Minh Thắng - người đã trực tiếp giảng dạy và hướng dẫn nhóm em thực hiện

đồ án này bằng tất cả lòng nhiệt tình và sự quan tâm sâu sắc

Mặc dù đã có những đầu tư nhất định trong quá trình làm bài song cũng khó

có thể tránh khỏi những sai sót, nhóm em kính mong nhận được ý kiến đóng gópcủa quý thầy cô để đồ án được hoàn thiện hơn

Nhóm em xin chân thành cảm ơn!

Sinh viên thực hiện

Phạm Thanh HiếuVương Quốc Việt

Trang 4

MỤC LỤC

LỜI CÁM ƠN 3

MỤC LỤC i

DANH MỤC CÁC KÍ HIỆU, CHỮ VIẾT TẮT iii

DANH MỤC CÁC BẢNG v

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ vi

MỞ ĐẦU 1

Chương 1 GIỚI THIỆU 3

1.1 TỔNG QUAN VỀ ĐỀ TÀI 3

1.2 Lý do chọn đề tài 4

1.3 CÁC CÔNG TRÌNH LIÊN QUAN 4

1.3.1 Malicious URL Detection 4

1.3.2 Technical Background 5

1.3.3 Phương pháp tiếp cận Blacklisting 8

1.3.4 Phương pháp tiếp cận heuristic 9

Chương 2 CƠ SỞ LÝ THUYẾT 10

2.1 KHÁI NIỆM 10

2.1.1 Framework 10

2.1.2 Pre-Training 11

2.1.3 Fine-Tuning 12

Chương 3 KẾT QUẢ THỰC NGHIỆM 16

3.1 THÍ NGHIỆM 16

3.1.1 Bộ dữ liệu 16

3.1.2 Cơ sở hạ tầng 17

3.1.3 Kết quả 17

Trang 5

-Chương 4 KẾT LUẬN VÀ HƯƠNG PHÁT TRIỂN 27

4.1 Kết luận 27

4.2 Hướng phát triển 27

TÀI LIỆU THAM KHẢO 28

MÔ TẢ CÔNG VIỆC 31

Trang 6

-DANH MỤC CÁC KÍ HIỆU, CHỮ VIẾT TẮT

2 BERT Bidirectional Encoder

Representations from Transformers

Các biểu diễn mã hóa hai chiều từ Transformers

7 TPR True Positive Rate tỷ lệ dương tính thực

8 FPR False Positive Rate tỷ lệ dương tính giả

9 GPT-3 Generative Pre-trained

Transformer 3

mô hình ngôn ngữ lớn được đào tạo trước trên bộ mã hóa Transformer

15 RF Rừng ngẫu nhiên Rừng ngẫu nhiên

16 AUC Khu vực dưới đường

cong ROC

Là một chỉ số hiệu suất được

sử dụng để đánh giá các mô hình phân loại

Trang 7

-DANH MỤC CÁC BẢNG

Bảng 3-1 So sánh các số liệu khác nhau của các mô hình thu được sau 30 kỷ nguyênđào tạo theo dữ liệu (i.i.d.) độc lập và được phân phối giống hệt nhau, trong đóFedAvg(*) biểu thị cách tiếp cận tinh chỉnh được cải thiện bằng cách khởi tạo cụcbộ 18Bảng 3-2 So sánh độ chính xác của mô hình theo ba kịch bản thử nghiệm với môhình được huấn luyện tập trung (2) thể hiện cài đặt phân phối dữ liệu thứ hai và (3)thể hiện cài đặt thứ ba Giá trị độ chính xác thu được bằng cách tính giá trị trungbình số học của độ chính xác kiểm tra trên tất cả các máy khách 19Bảng 3-3 So sánh các số liệu khác nhau của các mô hình được tinh chỉnh theoFedAvg trong ba kịch bản thử nghiệm riêng biệt 19Bảng 3-4 So sánh hiệu suất của các mô hình trước và sau khi cải tiến theo ba lầnphân phối dữ liệu 22Bảng 0-1 Mô tả công việc 31

Trang 8

-DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

Hình 1-1 Kiến trúc cơ bản của thuật toán FedAvg 6Hình 2-1 Phương pháp phân rã của Split Learning cho các mô hình được đào tạotrước 10Hình 2-2 Sơ đồ kiến trúc của Fed-URLBERT 12Hình 2-3 Sơ đồ minh họa về sự tích hợp của Học tập Liên kết và Học tập Phân chia 13Hình 3-1 Phân phối Lable với giá trị α là 0,7 18Hình 3-2So sánh độ chính xác của các mô hình trước và sau khi cải tiến trong giaiđoạn huấn luyện dưới các phân bố dữ liệu khác nhau 22Hình 3-3 Điều tra về tác động của tỷ lệ lấy mẫu khách hàng đến quá trình đào tạo

mô hình 24Hình 3-4 Comparison of Model Performance in Fine- Tuning 25

Trang 9

-MỞ ĐẦU

1 Giới thiệu chung

Tấn công lừa đảo là một loại tấn công mạng nhắm vào sự tin tưởng của ngườidùng bằng cách che dấu ý đồ ác ý của cuộc tấn công dưới dạng thông tin của cácnguồn có uy tín Mục tiêu là lấy cắp dữ liệu của nạn nhân như là thông tin tài khoảnngân hàng, thông tin đăng nhập, … với nhiều mục đích khác nhau như bán kiếm lợinhuận, thực hiện việc đánh cắp danh tính Bài báo này đề xuất một phương pháp đểtăng độ chính xác trong việc phát hiện URL độc hại bằng cách sử dụng các phươngpháp học máy

Trong bối cảnh mạng đang phát triển, việc phát hiện của các URL độc hại kêugọi sự hợp tác và kiến thức chia sẻ trên các miền Tuy nhiên, sự hợp tác thường bịcản trở bởi những lo ngại về quyền riêng tư và sự nhạy cảm trong kinh doanh.Federated learning sẽ giải quyết những vấn đề này bằng cách cho phépcộng tácnhiều khách hàng mà không cần trao đổi dữ liệu trực tiếp

Trong bài viết này, chúng tôi đề xuất Fed-URL BERT, một Mô hình đào tạotrước URL liên kết được thiết kế để giải quyết cả hai những lo ngại về quyền riêng

tư và nhu cầu cộng tác giữa các miền trong an ninh mạng Fed-URL BERT tận dụngviệc học phân tách để phân chia mô hình đào tạo trước thành máy khách và máychủ để phần máy khách chiếm ít tài nguyên tính toán và băng thông hơn Phươngpháp của chúng tôi đạt được hiệu suất tương đương với mô hình tập trung theo cảhai được phân phối độc lập và giống hệt nhau (IID) và hai kịch bản dữ liệu khôngphải IID Điều đáng chú ý là mô hình liên kết của chúng tôi cho thấy FPR giảmkhoảng 7% so với mô hình tập trung Ngoài ra, chúng tôi triển khai một giải phápthích ứng chiến lược tổng hợp cục bộ nhằm giảm thiểu tính không đồng nhất giữacác khách hàng, chứng tỏ sự cải thiện hiệu suất đầy hứa hẹn Nhìn chung, nghiêncứu của chúng tôi xác nhận khả năng ứng dụng của việc học tập liên kết

-

Trang 10

6-Transformer được đề xuất cho URL phân tích mối đe dọa, thiết lập nền tảng cho thếgiới thực nỗ lực hợp tác an ninh mạng

Từ những phân tích trên đây có thể thấy rằng, để ngăn chặn và giảm thiểu cácnguy cơ mất an toàn thông tin cho hệ thống thông tin cần phải có những giải pháphiệu quả trong việc phát hiện sớm quá trình hacker tấn công và đánh lừa ng ờiƣdùng Một cách hữu hiệu nhất để phát hiện tấn công trong giai đoạn đánh lừa lừađảo được sử dụng dựa trên việc phát hiện các URL độc hại

2 Cấu trúc đồ án

Nội dung đồ án được chia thành 3 chương sau:

Chương 1 GIỚI THIỆU

Chương 2 CƠ SỞ LÝ THUYẾT

Chương 3 KẾT QUẢ THỰC NGHIỆM

-

Trang 11

7-Chương 1 GIỚI THIỆU

Trong bối cảnh không ngừng phát triển của các mối đe dọa mạng, phát hiện vàgiảm thiểu các URL độc hại đã nổi lên như một thách thức then chốt trong an ninhmạng Phục vụ thường xuyên làm cổng lừa đảo, phân phối phần mềm độc hại vànhiều hình thức lừa đảo trên mạng, đặt ra các URL độc hại rủi ro lớn cho cả cá nhân

và tổ chức Theo báo cáo từ Cơ quan chống lừa đảo Group (APWG), riêng số lượngcác cuộc tấn công lừa đảo đã chứng kiến mức tăng hàng năm trên 150% kể từ đầu2019

Các biện pháp đối phó với mối đe dọa mạng thông thường dựa vào thu thập vàphân tích dữ liệu tập trung, thường được quản lý bởi các trung tâm dữ liệu trongmột tổ chức Tuy nhiên, cách tiếp cận này có thể không nắm bắt được mối đe dọa cụthể mô hình trên các ngành hoặc khu vực khác nhau và các cuộc đấu tranh với hiệuquả và khả năng mở rộng Sự cần thiết của sự hợp tác những nỗ lực trong việc pháthiện URL độc hại là điều hiển nhiên, nhưng như vậy sự hợp tác thường bị hạn chếbởi sự miễn cưỡng của các tập đoàn để chia sẻ dữ liệu, chủ yếu là do lo ngại về tínhbảo mật, quyền riêng tư và thông tin nhạy cảm trong kinh doanh

Với những rào cản này, việc sử dụng khung học tập liên kết để hợp tác giữacác tổ chức được coi là một giải pháp đầy hứa hẹn Học tập liên kết cho phép nhiều

tổ chức hợp tác đào tạo các mô hình để phát hiện các URL độc hại trong khi vẫn giữ

dữ liệu của chúng riêng tư Bằng cách đào tạo mô hình tại địa phương và chỉ chia sẻtham số mô hình, không phải dữ liệu thô, nó giải quyết các mối quan tâm về quyềnriêng tư và bảo mật dữ liệu Hơn nữa, liên bang khả năng thích ứng của học tập vớicác khả năng kỹ thuật khác nhau và cơ sở hạ tầng giữa các tổ chức cho phép mởrộng hơn hợp tác và phát hiện URL độc hại hiệu quả hơn

Các mô hình ngôn ngữ được đào tạo trước sử dụng Transformer kiến trúc đãcải tiến đáng kể nhiều loại các lĩnh vực, bao gồm xử lý ngôn ngữ tự nhiên, thị giác

-

Trang 12

8-máy tính và công nghệ phần mềm Gần đây nghiên cứu cũng đã chứng minh tiềmnăng của chúng trong việc phát hiện các URL độc hại, cho thấy tính hiệu quả củaTransformers và đào tạo trước về phân tích URL.

Tuy nhiên, việc đào tạo trước đòi hỏi lượng dữ liệu lớn, có thể dẫn đến chi phítính toán cao và thời gian sự đầu tư Thu thập đủ dữ liệu và tính toán nguồn lực vẫn

là một thách thức lớn

Do đó, việc phát triển các Máy biến áp được đào tạo trước theo liên đoànmang lại triển vọng ứng dụng đáng kể Cái này bài báo giới thiệu kiến trúc tiền đàotạo liên kết được thiết kế để phát hiện URL độc hại Khuôn khổ của chúng tôiliên quan đến việc đào tạo lại một mô hình được đào tạo trước dành riêng choURL theo cách liên kết và tinh chỉnh nó cho tác vụ phát hiện URL độc hại Cáchtiếp cận của chúng tôi kết hợp khả năng phân tích ngữ cảnh nâng cao của các môhình được đào tạo trước với hiệu quả của việc học liên kết trong việc xử lý dữ liệuphân tán Phương pháp này cho phép nhiều người tham gia cộng tác, sử dụng dữliệu cá nhân của họ nguồn lực để nâng cao hiệu suất mô hình mà không cần nhu cầulưu trữ hoặc xử lý tập trung Như vậy cách tiếp cận này dự kiến sẽ cải thiện tínhtổng quát của mô hình đồng thời đẩy nhanh việc thích ứng với các vấn đề mới nổicác mẫu URL độc hại

Thủ thuật tấn công Phishing được rất nhiều kẻ tấn công sử dụng để đánh cắpthông tin của người dùng làm ảnh hưởng đến các tổ chức tài chính và cá nhân Vìthế nhóm chúng em muốn tìm ra một giải pháp để khắc phục vấn đề này

Dưới đây là một số công trình liên quan đến đề tài này mà chúng tôi đã nghiêncứu và tham khảo để có thể hoàn thiện đề tài nghiên cứu này

-

Trang 13

9-1.3.1 Malicious URL Detection

Tính năng phát hiện URL độc hại có lịch sử nghiên cứu lâu dài, phát triển từcác phương pháp tiếp cận dựa trên quy tắc sang các phương pháp truyền thống dựatrên kỹ thuật tính năng thủ công và gần đây nhất là các phương pháp dựa trên họcsâu từ đầu đến cuối Mặc dù công việc trước đây đã đặt nền móng cho nghiên cứuphát hiện URL độc hại, nhưng trọng tâm của chúng tôi chủ yếu tập trung vào các

mô hình được đào tạo trước phổ biến hiện nay Do đó, chúng tôi chủ yếu xem xétcác nghiên cứu dựa trên kiến trúc Transformer trên văn bản tiếng Anh, thể hiện hiệusuất mạnh mẽ khi áp dụng trực tiếp vào phân loại URL Tài liệu sử dụng tiny-Bert,một phiên bản nhẹ của BERT, để trích xuất các phần nhúng URL để phát hiện URLđộc hại ở biên IoT, đạt độ chính xác 99% URL-Tran được đề xuất, sử dụng máybiến áp, vượt trội đáng kể so với các phương pháp học sâu khác trong việc phát hiệnURL lừa đảo với FPR thấp, đạt được TPR 86,80% với FPR là 0,01% và duy trì tínhmạnh mẽ trước các cuộc tấn công lừa đảo đối nghịch cổ điển Trọng tài đã đào tạotrình mã thông báo chuyên dụng cho dữ liệu URL, điều chỉnh nhiệm vụ đào tạotrước của mô hình BERT và PhishBERT được đề xuất, đạt được mức tăng TPR lầnlượt là 7% và 25% so với URLTran trên các tập dữ liệu khác nhau, trong khi vẫnduy trì FPR cực thấp Trọng tài sử dụng BERT để trích xuất tính năng từ dữ liệuURL và sử dụng mạng học sâu trong các tác vụ tiếp theo liên quan đến phát hiệnURL lừa đảo, đạt được độ chính xác 96,66% và vượt trội đáng kể so với đường cơ

sở được thiết lập bởi các phương pháp học máy truyền thống trên nhiều số liệu khácnhau Các nghiên cứu trước đây đã xác nhận đáng kể tính hợp lệ của các mô hìnhđược đào tạo trước để phát hiện URL độc hại Việc khám phá các mô hình được đàotạo trước URL liên kết của chúng tôi kết hợp các ưu điểm của việc học và đào tạotrước liên kết, mở rộng khả năng truy cập dữ liệu và cho phép người dùng có ít nănglực tính toán hơn được hưởng lợi từ các mô hình phức tạp

-

Trang 14

10-1.3.2 Technical Background

Nghiên cứu của chúng tôi dựa trên ba trụ cột công nghệ quan trọng: mô hình

cổ điển được đào tạo trước BERT, học tập liên kết và học tập phân tách Ở đây,chúng tôi giới thiệu các nguyên tắc cơ bản của ba công nghệ này

BERT: Trong nghiên cứu của mình, chúng tôi sử dụng kiến trúc BERT để đàotạo trước một mô hình URL cụ thể Vì vậy, bây giờ chúng tôi xem xét nền tảng củaBERT BERT là một mô hình ngôn ngữ đột phá được đào tạo trước trên bộ mã hóaTransformer Khối Trans-form bao gồm hai lớp con: lớp chú ý nhiều đầu và lớpmạng thần kinh chuyển tiếp được kết nối đầy đủ Bộ mã hóa áp dụng các kết nốicòn lại xung quanh mỗi lớp con BERT giới thiệu một phương pháp tiếp cận đượctối ưu hóa bằng cách xác định hai mục tiêu đào tạo – Mô hình ngôn ngữ ẩn (MLM)

và Dự đoán câu tiếp theo (NSP) Những mục tiêu này trao quyền cho mô hình đàotạo trước để học theo cách tự giám sát từ tập dữ liệu quy mô lớn, thúc đẩy sự hiểubiết sâu sắc về cấu trúc dữ liệu phức tạp và hiện tượng ngôn ngữ vốn có Chúng tôi

bỏ qua việc xây dựng chi tiết về nhiệm vụ NSP do tác động tối thiểu của nó đếnhiệu suất như đã được chứng minh trong các nghiên cứu trước đây và sự không liênquan của nó trong quá trình đào tạo trước URL của chúng tôi

H nh 1-1 Kiến trúc cơ bản của thuật toán FedAvg

Mô hình ngôn ngữ đeo mặt nạ: MLM là một nhiệm vụ liên quan đến việc dựđoán các mã thông báo gốc từ một ngôn ngữ đã được sửa đổi đầu vào trong đó một

số mã thông báo đã được thay thế Cụ thể, một tập hợp con các mã thông báo Y Xđược chọn từ chuỗi mã thông báo X và được thay thế bằng các mã thông báo khác

-

Trang 15

11-nhau Khi triển khai BERT, Y chiếm 15% số token trong X Trong số các tokennày, 80% được thay thế bằng token [MASK], 10% được thay thế bằng các tokenđược chọn ngẫu nhiên dựa trên phân phối unigram và 10% còn lại không thay đổi.BERT chọn độc lập từng mã thông báo trong Y bằng cách chọn ngẫu nhiên một tậphợp con Trong nghiên cứu của mình, chúng tôi cũng sử dụng MLM làm mục tiêuđào tạo trước cho các URL Trong giai đoạn tinh chỉnh, thường kết hợp một lớpđược kết nối đầy đủ vào mô hình BERT sẽ đẩy nhanh khả năng thích ứng của nóvới các tác vụ xuôi dòng, dẫn đến hiệu suất cao nhất trong một số lượng hạn chếthời đại đào tạo.

Federated Learning:

Học tập liên kết, một khái niệm được Google tiên phong vào năm 2017, đánhdấu một sự thay đổi đáng kể trong bối cảnh học máy Nó tạo điều kiện cho việc đàotạo phân tán các mô hình AI trên nhiều nút điện toán từ xa, loại bỏ nhu cầu truyền

dữ liệu trực tiếp Phương pháp này tỏ ra đặc biệt quan trọng trong bối cảnh màquyền riêng tư và bảo mật dữ liệu nghiêm ngặt là điều tối quan trọng, chẳng hạnnhư trong lĩnh vực chăm sóc sức khỏe, tài chính hoặc các khu vực chính phủ Tạiđây, chủ quyền dữ liệu được bảo toàn và dữ liệu được lưu giữ an toàn trên các máychủ gốc của nó Theo mô hình này, trọng tâm là trao đổi các tham số mô hình hoặchiểu biết sâu sắc về đào tạo hơn là dữ liệu thực tế, từ đó duy trì quyền riêng tư dữliệu Sự ra đời của học tập liên kết đã là nền tảng trong việc giải quyết các tháchthức về quyền riêng tư dữ liệu, tăng cường nỗ lực hợp tác giữa các tổ chức và thúcđẩy việc chia sẻ hiểu biết và kiến thức

Kiến trúc liên kết cổ điển được minh họa trong hình

Trong học liên kết theo kiến trúc máy khách-máy chủ, quy trình huấn luyện

mô hình được thực hiện cục bộ ở phía máy khách trong khi các giá trị gradient hoặctrọng số mô hình được tạo ra sẽ được gửi đến máy chủ Máy chủ chịu trách nhiệmtổng hợp chúng để tạo thành một mô hình toàn cầu, sau đó được phân phối cho từngkhách hàng cho giai đoạn đào tạo tiếp theo Đặc điểm cơ bản của học tập liên kếtnằm ở việc thay thế trao đổi dữ liệu bằng trao đổi trọng số mô hình hoặc giá trị

-

Trang 16

12-gradient Hiện tại, một trong những chiến lược hiệu quả nhất để tổng hợp mô hìnhtrong học tập liên kết là FedAvg và một trong những lĩnh vực nghiên cứu nổi bậtnhất trong cộng đồng học thuật tập trung vào hiệu suất và cải tiến các phương pháphọc tập liên kết theo phân phối dữ liệu Non-iid, chẳng hạn như như FedALA vàFedProx Học tập liên kết truyền thống triển khai đào tạo mô hình cho các kháchhàng địa phương Khi kích thước tham số của mô hình được đào tạo tăng lên, mộthậu quả không thể tránh khỏi sẽ nảy sinh trong đó ngày càng nhiều khách hàngkhông thể chịu được chi phí tính toán và lưu trữ liên quan đến việc đào tạo mô hình.Hiện tượng này làm suy yếu sự tham gia của khách hàng vào đào tạo liên kết, do đódẫn đến mất một phần độ phong phú của dữ liệu, như đã được chứng minh trong cácnghiên cứu trước đây Nghiên cứu của chúng tôi nhấn mạnh sự không phù hợp củacác phương pháp học liên kết dựa trên khách hàng truyền thống đối với các mô hìnhhọc máy được đào tạo trước, quy mô lớn Để đáp lại, chúng tôi đề xuất một phươngpháp học tập khách hàng thay thế, hiệu quả hơn.

Học phân tách: Học phân tách là một chiến lược học máy phân tích mạng lướithần kinh phức tạp thành nhiều phân đoạn, được xử lý và tính toán trên nhiều thiết

bị khác nhau Các kịch bản cho nhiều máy khách có thể dựa trên nhiều nút tính toánthông thường (Al-ices) + một nút tính toán cao (Bob) Trong chiến lược này, mỗikhách hàng cùng nhau đào tạo một mô hình hoàn chỉnh mà không tiết lộ dữ liệugốc, đồng thời phân bổ phần tính toán chuyên sâu của mô hình cho nút tính toáncao Trong học phân tách, mô hình thường được chia thành hai phần Alice thựchiện việc truyền tiến trên dữ liệu cục bộ của họ và truyền kết quả trung gian choBob Sau đó, Bob tiếp tục với quá trình truyền tiến và truyền lùi, đồng thời gửi lại

dữ liệu trung gian của quá trình truyền ngược cho Alices, như trong Hình 2 Tuynhiên, sự phối hợp của quá trình học giữa nhiều khách hàng xảy ra thông qua chế độtập trung hoặc ngang hàng chế độ -to-peer trong Split Learning, dẫn đến chi phíthời gian đào tạo cao

Các nghiên cứu trước đây đã chứng minh tính hiệu quả của việc kết hợp họctập phân tách với học tập liên kết Trong công việc này, chúng tôi áp dụng một khái

-

Trang 17

13-niệm tương tự nhưng sử dụng chiến lược phân chia khác để xây dựng URLBERT của mình Theo cách tiếp cận của chúng tôi, lớp BertEmbedding đượcđặt ở phía máy khách, trong khi các lớp Transformer được triển khai trên các máychủ hiệu suất cao.

Fed-1.3.3 Phương pháp tiếp cận Blacklisting.

Cách tiếp cận danh sách đen (danh sách đen) là một kỹ thuật phổ biến và cổđiển để phát hiện các URL độc hại, duy trì một danh sách các URL độc hại biếttrước Bất cứ khi nào có một URL mới được truy cập, một cơ sở dữ liệu được xácthực Nếu URL có trong danh sách đen, nó coi là độc hại và sau đó cảnh báo sẽ tạora; if no url sẽ cho là lành tính Danh sách đen thiếu khả năng duy trì danh sách đầy

đủ tất cả các URL độc hại có thể, bởi vì các URL mới có thể dễ dàng tạo hàng ngày,

do đó chúng không thể phát hiện các mối đe dọa mới Điều này đặc biệt quan tâmnghiêm trọng khi tấn công tạo ra các URL mới theo thuật toán và có thể bỏ qua tất

cả các danh sách đen Mặc dù có một số vấn đề phải đối mặt với danh sách đen, dotính đơn giản và hiệu quả của họ, họ tiếp tục là một trong những kỹ thuật sử dụngphổ biến nhất bởi nhiều hệ thống chống virus hiện nay

1.3.4 Phương pháp tiếp cận heuristic

Là một số dạng mở rộng của pháp luật dựa trên danh sách đen, trong đó ý kiến

mở rộng là tạo ra một “danh sách đen có chữ ký” Các dạng tấn công thông tin xácthực và dựa trên hành vi của chúng, chữ ký phân bổ cho kiểu tấn công này Hệthống phát hiện xâm nhập có thể quét các trang web cho các chữ ký hiệu và tăng cờnếu có một số hành vi đáng ngạc nhiên được tìm thấy Những giải pháp này có khảnăng hóa học tốt hơn danh sách đen, bởi vì chúng có khả năng phát hiện các mốinguy hiểm trong các URL mới Tuy nhiên, các chiến lực mạnh có thể được thiết kếchỉ cho một số giới hạn mối đe dọa chung, và không thể kiềm chế tất cả các loại tấncông Hơn nữa, bằng cách sử dụng các kỹ thuật obfuscation, nó không quá khó khăn

để trả chúng Một phiên bản công cụ có thể tốt hơn của pháp pháp tiếp theo

-

Trang 18

14-heuristic là cơ sở thực thi thông tin phân tích của trang web Ở đây cũng có ý kiến làtìm kiếm chữ ký của hoạt động độc hại tạo quy trình bất chấp, chuyển hương lặp lại.

-

Trang 19

15-Chương 2 CƠ SỞ LÝ THUYẾT

2.1.1 FED-URLBERT

Trong phần này, chúng tôi mô tả khuôn khổ tổng thể của Fed-URLBERT, sau

đó là thảo luận chi tiết về việc triển khai học tập liên kết trong cả giai đoạn tiền đàotạo và tinh chỉnh, sử dụng dữ liệu phi tập trung

H nh 2-2 Phương pháp phân rã của Split Learning cho các mô h nh được đào tạo

trước

2.1.2 Framework

Kiến trúc của Fed-URLBERT, như được mô tả trong Hình 3, bao gồm việcđào tạo trước và tinh chỉnh mô hình BERT trên dữ liệu URL bằng cách sử dụng cácnguyên tắc học liên kết và học phân tách Kiến trúc của chúng tôi áp dụng cách tiếpcận dựa trên khách hàng, trong đó một trung tâm tính toán xử lý các nhiệm vụ họctập chuyên sâu của bộ mã hóa BERT, trong khi những người tham gia được liên kếttập trung vào đào tạo cục bộ Tokenizer và mã hóa dữ liệu của riêng họ Trong giaiđoạn đào tạo trước, mô hình Bert W được phân chia thành Wclient và Wserver Cảmáy chủ trung tâm tính toán và những người tham gia được liên kết đều tham giacập nhật tham số tiến và lùi thông qua liên lạc liên kết Chi tiết cụ thể về khóa đào

-

Trang 20

16-tạo được cung cấp trong Phần III-B Trong giai đoạn tinh chỉnh, lớp ứng dụng củaBERT được phân phối giữa tất cả những người tham gia liên kết, được sử dụng đểtìm hiểu nhiệm vụ phát hiện URL độc hại ở phía máy khách liên kết Việc tổng hợptham số được tiến hành bằng Thuật toán trung bình liên kết, FedAvg, như được nêuchi tiết trong Phần III-C.

2.1.3 Pre-Training

Chúng tôi đào tạo trước các URL bằng cách sử dụng Mô hình ngôn ngữ đeomặt nạ (MLM) làm mục tiêu đào tạo Trong nhiệm vụ MLM, 15% mã thông báođược thay thế bằng [MASK], trong đó 10% không thay đổi và 10% khác được thaythế ngẫu nhiên bằng mã thông báo từ từ vựng Chúng tôi chia mô hình BERT thànhWclient và Wserver dựa trên các nguyên tắc học phân tách và tổng hợp các tham sốliên kết bằng thuật toán FedAvg, như được minh họa trong Hình 4

Mạng BertEmbedding của mô hình BERT được phân bổ cho Wclient, trongkhi BertEncode (thành phần mã hóa của Transformer), chứa tập tham số lớn hơn vàphát sinh chi phí tính toán đáng kể trong quá trình đào tạo, cùng với lớp mạngBertOnlyMLMHead, được gán cho Wserver của trung tâm tính toán Các kháchhàng được chọn đồng thời cung cấp dữ liệu cục bộ của họ vào các mô hình cục bộtương ứng Các đầu ra trung gian từ quá trình truyền chuyển tiếp của mô hình cục

bộ, ký hiệu là Zk,t, được truyền từ máy khách đến máy chủ Sau đó, quá trình lantruyền tiếp tục diễn ra trên mạng của máy chủ, Wserver,k,t, mang lại một đầu ra.Tiếp theo là quá trình truyền ngược, trong đó dZserver,k,t được gửi trở lại Wclient

để thực hiện các bước truyền ngược bổ sung Chu trình này hoàn thành một lần lặphuấn luyện, như được mô tả trong Thuật toán 1 Sau khi đạt đến số vòng đào tạođược chỉ định, máy chủ tổng hợp mô hình sẽ áp dụng sơ đồ Fed-dAvg để tổng hợpWclient và phân phối lại cho từng khách hàng Trung tâm tính toán cũng sẽ tổnghợp Wserver Wserver,k,t ở đây đại diện cho mạng phía máy chủ trong trung tâmtính toán cho khách hàng k trong đợt đào tạo thứ t Để cho phép thực hiện song songquá trình đào tạo và liên lạc với máy khách, một bản sao của Wclient được đặt chomỗi máy khách ở phía máy chủ Sau khi hoàn thành số lượng kỷ nguyên đào tạo đã

-

Trang 21

17-chỉ định, mô hình toàn cầu sẽ được tổng hợp và triển khai cho từng bản sao Zk,t đạidiện cho dữ liệu trung gian được truyền bởi khách hàng k trong vòng huấn luyệnthứ t Phương pháp đào tạo này không chỉ đảm bảo quyền riêng tư và bảo mật dữliệu khách hàng mà còn giảm chi phí tính toán cho những khách hàng có nguồn lựchạn chế Hơn nữa, nó giúp tăng cường hiệu quả giao tiếp trong quá trình đào tạo môhình và cải thiện độ tin cậy của mô hình được đào tạo.

2.1.4 Fine-Tuning

Trong giai đoạn tinh chỉnh, một lớp được kết nối đầy đủ sẽ được thêm vào đầu

mô hình trên mỗi máy khách cho phép phân loại URL nhị phân Mô hình trải quaquá trình đào tạo cục bộ bằng cách sử dụng dữ liệu tinh chỉnh trên từng khách hàng,một giai đoạn đòi hỏi tài nguyên tính toán tương đối thấp hơn và được mỗi ngườitham gia quản lý một cách khả thi Hiệu quả này xác nhận việc sử dụng phươngpháp học tập liên kết cổ điển [19] Việc tinh chỉnh mô hình hoàn chỉnh diễn ra cục

bộ tại mỗi máy khách, liên quan đến việc trao đổi các tham số mô hình giữa máykhách và máy chủ Việc tổng hợp tham số được thực thi tại máy chủ, như được mô

tả trong Thuật toán 2

Trong mỗi vòng huấn luyện, một tập hợp con ngẫu nhiên gồm n khách hàngđược chọn để huấn luyện Sau khi những khách hàng này hoàn thành quá trình đàotạo cục bộ, các mô hình cục bộ của họ, ký hiệu là Wk,t, sẽ được gửi đến máy chủ đểcập nhật mô hình toàn cầu Sau khi tất cả khách hàng tham gia hoàn tất quá trìnhđào tạo, máy chủ

H nh 2-3 Sơ đồ kiến trúc của Fed-URLBERT

-

Tiêu đề	Phát hiện URL lừa đảo sử dụng học liên kết
Tác giả	Vương Quốc Việt, Phạm Thanh Hiếu
Người hướng dẫn	ThS. Nguyễn Minh Thắng
Trường học	Trường Đại học Kinh tế - Tài chính Thành phố Hồ Chí Minh
Chuyên ngành	Công nghệ Thông tin
Thể loại	Đồ án chuyên ngành
Năm xuất bản	2024
Thành phố	Thành phố Hồ Chí Minh

Định dạng
Số trang	43
Dung lượng	4,17 MB