đề án này sử dụng phương pháp học sâu để phát hiện các URL độc hại dựa trên việc phân tích các yếu tố và mẫu trong URL.. Đề án phát hiện URL độc hại dựa trên học sâu là một hệ thống được
Trang 1HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
-Lê Minh Đăng
PHÁT HIỆN URL ĐỘC HẠI DỰA TRÊN HỌC SÂU
Chuyên ngành: Khoa học máy tính
Mã số: 8.48.01.01
TÓM TẮT ĐỀ ÁN TỐT NGHIỆP THẠC SĨ
HÀ NỘI - NĂM 2023
Trang 2Đề án tốt nghiệp được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Người hướng dẫn khoa học: PGS.TS HOÀNG XUÂN DẬU
Phản biện 1: ………
Phản biện 2: ………
Đề án tốt nghiệp sẽ được bảo vệ trước Hội đồng chấm đề án tốt nghiệp thạc sĩ tại Học viện Công nghệ Bưu chính Viễn thông
Vào lúc: giờ ngày tháng năm .
Có thể tìm hiểu đề án tốt nghiệp tại:
- Thư viện của Học viện Công nghệ Bưu chính viễn thông
Trang 3TÓM TẮT ĐỀ ÁN
An toàn thông tin trên không gian mạng đóng vai trò quan trọng trong việc bảo
vệ dữ liệu và hệ thống khỏi các mối đe dọa trực tuyến Với sự phát triển nhanh chóng của công nghệ thông tin và sự phổ biến của Internet, việc đảm bảo an toàn thông tin trở thành một thách thức ngày càng lớn đề án này sử dụng phương pháp học sâu để phát hiện các URL độc hại dựa trên việc phân tích các yếu tố và mẫu trong URL Điều này có thể giúp cải thiện khả năng phát hiện và ngăn chặn các hoạt động độc hại trên Internet
Đề án phát hiện URL độc hại dựa trên học sâu là một hệ thống được thiết kế để
tự động phân loại các là độc hại hay không Nó sử dụng phương pháp học sâu, một phương pháp trong lĩnh vực trí tuệ nhân tạo, để học từ dữ liệu huấn luyện và dự đoán xem một URL có khả năng là độc hại hay không
Mô hình học sâu được xây dựng thông qua quá trình huấn luyện trên dữ liệu
Mô hình học cách phân tích các yếu tố và mẫu trong URL để xác định xem nó có tính chất độc hại hay không Quá trình huấn luyện này sử dụng các thuật toán học sâu như mạng nơ-ron học sâu (deep neural networks) để tối ưu hóa và điều chỉnh các tham số của mô hình
Sau khi mô hình đã được huấn luyện, nó có thể được triển khai để phân loại các URL mới Khi một URL mới được cung cấp, mô hình sẽ áp dụng các kỹ thuật học sâu
đã học được để dự đoán xem URL đó có khả năng là độc hại hay không Kết quả từ
mô hình sẽ cho biết mức độ độc hại ước tính của URL đó
Đề án sử dụng tập dữ liệu Malicious URLs dataset thử nghiệm bao gồm
651.191 URL được gán các nhãn trong đó 428.103 được gán nhãn “benign”, 96.457 được gãn nhãn “defacement” URLs, 94.111 “phishing” URLs và 32.520 được gán nhãn “malware” URLs
Nội dung đề án được chưa thành 3 chương, cụ thể như sau:
Trang 4CHƯƠNG 1: TỔNG QUAN VỀ URL ĐỘC HẠI VÀ PHƯƠNG PHÁP PHÁT
HIỆN URL ĐỘC HẠI
Chương 1 sẽ tập trung vào giới thiệu về URL, URL độc hại và các phương pháp
để phát hiện chúng
Phần đầu tác giả giới thiệu tổng quan về URL URL là một chuỗi ký tự đại diện cho địa chỉ của một tài nguyên trên internet Cùng với đó giới thiệu về các thành phần của URL và lịch sử hình hình thành của URL
Tiếp theo tác giả giới thiệu tổng quan về URL độc hại và phân loại chúng URL đọc hại là các đường dẫn web được thiết kế để thực hiện các hoạt động độc hại hoặc gian lận
Cuối cùng tác giả giới thiệu các phương pháp và mô hình phát hiện URL độc hại đã tồn tại
Chương 1 đã giới thiệu khái quát về URL, URL độc hại và một số phương phát phát hiện URL độc hại Đồng thời cũng chỉ ra ưu và nhược điểm của các mô hình đã tồn tại và đưa ra ý tưởng cho đề án nghiên cứu dựa trên những ưu nhược điểm trên và cải tiến được đề xuất từ các nghiên cứu đó
Trang 5CHƯƠNG 2: PHÁT HIỆN URL ĐỘC HẠI DỰA TRÊN HỌC SÂU
Ở chương 2, tác giả đi sâu vào nghiên cứu các mô hình học máy, học sâu giúp người đọc hiểu biết và nhận dạng được các mô hình trí tuệ nhân tạo
Về học máy tác giả đưa ra các khái niệm và phân loại các mô hình học máy như: học có giám sat, học không giám sát, học tăng cương, học bán giám sát
Về học sâu tác giả giới thiệu về học sâu và các mô hình học sâu tiêu biểu như: DNN, CNN, LSTM, v.v
Chương này cũng đã trình bày về áp dụng mô hình học sâu CNN vào phát hiện URL độc hại Cùng với đó đưa ra kiến trúc mô hình và tiêu chuẩn đánh ra mô hình
Trang 6CHƯƠNG 3: THỬ NGHIỆM VÀ ĐÁNH GIÁ
Trong lĩnh vực trí tuệ nhân tạo nói chung và học sâu nói riêng, tập dữ liệu đóng vai trò quan trọng trong việc phát triển và đánh giá các thuật toán, ứng dụng Việc phân tích và đánh giá chất lượng của tập dữ liệu cũng là một yếu tố quan trọng để đảm bảo tính đúng đắn và đáng tin cậy của các kết quả thu được Trong chương 3 này, tác giả sẽ trình bày chi tiết về tập dữ liệu, phân tích và đánh giá các tập dữ liệu này Sau
đó xây dựng ứng dụng và chạy thử Chương 3 này tác giả cũng thực hiện tiền sử lý dữ liệu để có thể tích hợp với mô hình CNN Tác giã đã thực hiện chạy và thu được độ chính xác F1 = 98,99%
Chương 3 đã đi vào chi tiết thực nghiệm đề tài, việc lựa chọn tệp dữ liệu đào tạo sẽ quyết định sự thành công của mỗi mô hình Chính vì vậy tác giả đã lựa chọn kỹ lưỡng mô hình và bộ dữ liệu thử nghiệm Trong chương này cũng đã đi sâu vào phân tích và đánh giá mô hình Thông qua đấy sẽ định hướng tiếp theo cho sự mở rộng của
đề án
Trang 7KẾT LUẬN
Kết quả đạt được:
Đề án giới thiệu về URL, các URL độc hại, các phương pháp phát hiện URL độc hại Bên cạnh đó đề án cũng cung cấp các kiến thức về học máy, học sâu và sự khác nhau giữa chúng.
Trình bày chi tiết về mô hình CNN và phương pháp phát hiện URL độc hại sử dụng mô hình CNN Thu thập và tiền xử lý một tập dữ liệu lớn gồm các URL và huấn luyện mô hình trên đó Kết quả thử nghiệm cho thấy mô hình có thể đạt được độ đo F1 cao: 98.99% Đề án cũng xây dựng được một ứng dụng cho phép phân loại URL dựa trên mô hình học sâu CNN.
Hướng phát triển trong tương lai:
Đề án này có thể được phát triển theo các hướng:
Khám phá các kiến trúc mô hình khác nhau: Mặc dù mô hình CNN hoạt động tốt trong đề án này, nhưng có thể có các kiến trúc mô hình khác có thể đạt được kết quả tốt hơn nữa Ví dụ: sự kết hợp của các loại mạng nơ ron khác nhau, chẳng hạn như CNN, RNN, LSTM, có khả năng cải thiện hiệu suất.
Tăng kích thước của tập dữ liệu: Tập dữ liệu càng lớn thì mô hình có thể học càng nhiều và mô hình sẽ hoạt động tốt hơn Việc tăng kích thước của tập
dữ liệu có khả năng dẫn đến những cải tiến hơn nữa về độ chính xác của mô hình.
Kiểm tra mô hình trên một tập hợp URL đa dạng: Tập dữ liệu được sử dụng trong dự án này chủ yếu bao gồm các URL từ một nguồn duy nhất Thử nghiệm mô hình trên một nhóm URL đa dạng hơn, chẳng hạn như những URL
từ nhiều nguồn hoặc quốc gia, có thể mang lại đánh giá thực tế hơn về hiệu suất của nó.