Các phương pháp phát hiện URL độc hại

Một phần của tài liệu Phát hiện url độc hại dựa trên học sâu (Trang 20 - 24)

CHƯƠNG I TỔNG QUAN VỀ URL ĐỘC HẠI VÀ PHƯƠNG PHÁP PHÁT HIỆN

1.3 Các phương pháp phát hiện URL độc hại

Cách tiếp cận danh sách đen (blacklist) là một kỹ thuật phổ biến và cổ điển để phát hiện các URL độc hại, thường duy trì một danh sách các URL độc hại biết trước.

Mỗi khi có một URL mới được truy cập thì truy vấn cơ sở dữ liệu được thực hiện.

Nếu URL trong danh sách đen thì nó được coi là độc hại và sau đó cảnh báo được đưa ra, ngược lại URL đó là bình thường. Danh sách đen bị thiếu khả năng duy trì danh sách đầy đủ tất cả các URL độc hại có thể, vì các URL mới có thể dễ dàng được tạo hàng ngày, do đó làm cho chúng không thể phát hiện các mối đe dọa mới. Điều này đặc biệt nghiêm trọng khi kẻ tấn công tạo ra các URL mới theo thuật toán, và do đó có thể bỏ qua tất cả các danh sách đen. Mặc dù có một số vấn đề phải đối mặt với danh sách đen, nhưng do tính đơn giản và hiệu quả của chúng, các danh sách đen tiếp tục là một trong những kỹ thuật được sử dụng phổ biến nhất bởi nhiều hệ thống chống mã độc hiện nay.

Hiện nay có nhiều trung tâm, tổ chức phát triển một số công cụ ngăn chặn các URL độc hại miễn phí tới người dùng sử dụng danh sách đen chứa các URL độc hại, lừa đảo được cập nhật hàng ngày dựa trên báo cáo của người dùng cũng như các công cụ rò quét tự động…

Ưu điểm của phương pháp sử dụng danh sách đen: một trong những ưu điểm lớn nhất của phương pháp sử dụng danh sách đen là tính đơn giản của nó, tối ưu hoá quá trình truy vấn, xử lí, chỉ cần kiểm tra xem URL đang được truy cập có nằm trong danh sách đen hay không, nếu có thì từ chối truy cập các URL đó.

Nhược điểm của việc sử dụng danh sách đen để kiểm tra tính an toàn của một URL: danh sách đen là một danh sách không đầy đủ, mà nó cần được cập nhật liên tục vì các URL độc hại mới liên tục xuất hiện mỗi ngày. Mặc dù việc theo kịp những mối đe dọa này là một thách thức, nhưng việc chia sẻ thông tin về các URL có thể giúp tạo danh sách đen hiệu quả hơn. Tiện ích “Chống lừa đảo”1 cung cấp tính năng báo cáo cho phép người dùng có thể tố cáo các URL mà họ cho là độc hại hoặc nghi ngờ có dấu hiệu lừa đảo, làm có việc duy trì, cập nhật danh sách và bảo vệ người dùng một cách dễ dàng hơn do có sự đóng góp từ cộng đồng lớn.

1.3.2 Phát hiện dựa trên phân tích nội dung trang web

Đối với các phương pháp phân tích nội dung trang web thường mất rất nhiều nỗ lực tính toán mà chưa kể tải băng thông để lấy nội dung trước khi phân tích. Một số hệ thống cũng đánh chặn và phân tích đầy đủ nội dung website trước khi nó được tải về.

Ưu điểm của phương pháp phân tích nội dung là có thể phát hiện ra các trang web không muốn truy cập với độ chính xác cao.

Nhược điểm của phương pháp này là nó phải gánh chịu thời gian chạy cao hơn so với phương pháp danh sách đen, do phải tải nội dung về rồi phân tích, dẫn đến tốn nhiều thời gian và băng thông hơn phương pháp danh sách đen.

1 Tham khảo https://chongluadao.vn

1.3.3 Phát hiện dựa trên phân tích URL

Phương pháp phát hiện dựa trên phân tích URL đang ngày càng phát triển trong những năm trở lại đây. Phương pháp này cho phép chỉ cần dựa trên các URL lành tính có thể phát hiện ra những URL độc hại. Thông thường các URL được thiết kế bởi các nhà thiết kế trang web, mỗi nhà thiết kế trang web lại có sở thích, cách sử dụng của mình để chọn tên miền, rồi sau đó xây dựng các cấu trúc tập tin dưới tên miền. URL của một số trang web được thiết kế theo cách đặc biệt, nhưng chưa hẳn đã là các Web độc hại. Thường thì các trang web độc hại được tạo ra bởi các quy tắc và thủ tục được xác định trước. Do vậy mà một lượng lớn các URL độc hại đã được tạo ra từ các luật đó trong thời gian ngắn. Dựa vào thủ tục đặt tên khác nhau giữa các URL lành tính và các URL độc hại mà có thể tìm thấy sự khác nhau của 2 nhóm này.

Phương pháp này là một cách tiếp cận khác với những phương pháp đã từng tồn tại. Theo đó, phương pháp này phân tích chuỗi ký tự trong URL để khẳng định URL có chứa nội dung độc hại hay không. Đặc biệt, phương pháp này đưa ra dự đoán với URL chỉ dựa trên tính năng từ vựng và máy chủ của URL mà không cần kiểm tra nội dung thực tế của trang web. Một hệ thống tốt có thể phân tích và phân loại được hàng triệu URL.

Ưu điểm của phương pháp phát hiện web độc hại dựa trên phân tích URL là cải thiện hiệu suất của phương pháp danh sách đen, theo đó hệ thống tải nhẹ hơn, chi phí thấp hơn so với hệ thống tải của phương pháp phân tích nội dung. Đồng thời, phương pháp này còn có một số ưu điểm khác:

 Phương pháp này không cần có sự hiểu biết trước về cấu trúc các URL, chẳng hạn làm thế nào để phân tích URL dựa vào tên miền,…

 Phương pháp này có thể làm việc và sử dụng một cách độc lập như một phép đo. Mặt khác, nó cũng có thể kết hợp với các phương pháp, tính năng hữu ích để đạt được hiệu quả tốt hơn.

 Phương pháp này tính toán rất hiệu quả, có thể phân loại một lượng lớn URL trong một khoảng thời gian ngắn.

Nhược điểm của phương pháp phát hiện web độc hại dựa trên phân tích URL:

 Dễ bị lừa dối và che giấu địa chỉ URL: Kẻ tấn công có thể dễ dàng tạo ra các địa chỉ URL giả mạo, làm cho việc phân tích URL trở nên không đáng tin cậy. Họ cũng có thể sử dụng các kỹ thuật che giấu để làm cho các đường dẫn độc mất đi tính nhận dạng.

 Khả năng thay đổi nhanh chóng: Các kẻ tấn công có thể nhanh chóng thay đổi đường dẫn URL hoặc thậm chí sử dụng các dịch vụ viết lại URL để tránh bị phát hiện, làm cho việc theo dõi trở nên khó khăn.

 Hạn chế trong việc phát hiện hành vi độc hại sau khi tải trang: Phân tích URL tập trung vào địa chỉ trang web và không thể phát hiện các hành vi độc hại được kích hoạt sau khi trang đã tải xong, chẳng hạn như JavaScript độc hại.

 Nguy cơ phát hiện sai lầm và chặn các trang web hợp pháp: Có khả năng các địa chỉ URL hợp pháp bị sai lầm hiểu là độc hại, dẫn đến chặn trang web không đáng bị chặn.

 Khả năng bỏ sót các hình thức tấn công phức tạp: Phân tích URL thường không đủ mạnh để phát hiện các hình thức tấn công phức tạp như SQL injection, XSS và CSRF.

 Cần sử dụng kỹ thuật bổ sung để cải thiện độ chính xác: Để tăng cường khả năng phát hiện, phương pháp này thường cần được kết hợp với các phương pháp và công cụ bổ sung, làm tăng phức tạp và tốn thời gian của quá trình phân tích.

1.3.4 Phát hiện dựa trên thống kê, học máy, học sâu

Trong thời gian gần đây, một cách tiếp cận được sử dụng phổ biến là trích xuất các đặc trưng của URL, sau đó áp dụng các mô hình học máy. Kỹ thuật thường được sử dụng để trích xuất các đặc trưng của URL là Bag-of-words (BoW) và một trong các mô hình học máy được sử dụng phổ biến nhất là máy vectơ hỗ trợ (SVM). Dù giải pháp dựa trên học máy có thể được sử dụng thay vì phương pháp lập danh sách đen, nó vẫn tồn tại nhiều vấn đề như dữ liệu thử nghiệm không có tính khái quát hoá

cao. Ngoài ra số lượng từ duy nhất trích xuất từ các URL là rất lớn dẫn đến mô hình học máy phải đối mặt với những hạn chế về bộ nhớ trong quá trình đào tạo.

Để giảm thiểu các vấn đề còn tồn động ở trên, người ta chuyển sang sử dụng các kỹ thuật học máy hiện đại, thường được gọi là học sâu với việc nhúng các kí tự (character embedding). Học sâu sử dụng nhiều lớp ẩn trong đó mỗi lớp thực hiện phép chiếu phi tuyến tính để tìm hiểu các biểu diễn của nhiều mức độ trừu tượng và chúng được áp dụng cho nhiều ứng dụng an ninh mạng. Với sự giúp đỡ của các mô hình học sâu, các hệ thống trí tuệ nhân tạo (AI) đã đạt được hiệu suất ở cấp độ con người trong một số lĩnh vực và thậm chí còn vượt trội so với con người trong một số ứng dụng thị giác máy tính. Chúng có thể tự động trích xuất các đặc điểm từ các dữ liệu đầu vào thô. Một số mô hình học sâu được sử dụng phổ biến để phát hiện các URL độc hại như: Convolutional Neural Network (CNN), Long Short Term Memory (LSTM),…

Một phần của tài liệu Phát hiện url độc hại dựa trên học sâu (Trang 20 - 24)

Tải bản đầy đủ (PDF)

(61 trang)