Nghiên cứu phát hiện url độc dựa trên phương pháp học máy

Giới thiệu về URL

URL, viết tắt của Uniform Resource Locator (Định vị Tài nguyên thống nhất), là địa chỉ dùng để tham chiếu tới các tài nguyên trên Internet URL giúp cung cấp khả năng siêu liên kết cho các trang web, cho phép truy cập dễ dàng đến các tài nguyên khác nhau qua địa chỉ mạng hoặc liên kết mạng Chính vì vậy, URL đóng vai trò quan trọng trong việc định vị và kết nối thông tin trên mạng Internet.

(hay liên kết) [1] b) Các thành phần của URL

- URL đơn giản đƣợc chia thành 2 thành phần chính: Scheme (giao thức kết nối) và Authotiry (nhà cung cấp) [1, 2]

Phần Scheme trong URL, gồm các chữ cái theo sau dấu hai chấm, thể hiện giao thức mà trình duyệt web và máy chủ sử dụng để giao tiếp URL phổ biến nhất là các địa chỉ web, nhưng còn có các loại URL khác với các Scheme khác nhau Vì vậy, bạn có thể gặp các Scheme như "http", "https", "ftp" hay các dạng khác phù hợp với từng loại giao thức Việc hiểu rõ phần Scheme giúp người dùng nhận biết được loại giao thức và đảm bảo truy cập an toàn, hiệu quả hơn.

Giao thức truyền tải văn bản siêu văn bản (HTTP) là nền tảng quan trọng của web, quy định các hành động của máy chủ web và trình duyệt nhằm đáp ứng các lệnh nhất định HTTP giúp các trình duyệt gửi yêu cầu và máy chủ trả về dữ liệu phù hợp, đảm bảo hoạt động trơn tru của internet Đây là giao thức cơ bản quyết định cách các thông điệp được truyền tải giữa các thiết bị, đóng vai trò không thể thiếu trong việc truy cập và trao đổi dữ liệu trực tuyến.

- Giao thức HTTP an toàn (HTTPS): Đây là một dạng HTTP hoạt động trên một lớp bảo mật, đƣợc mã hóa để truyền tải thông tin an toàn hơn

- Giao thức truyền tập tin (File Transfer Protocol - FTP): Giao thức này thường được sử dụng để truyền file qua Internet

- Authority: Phần Authority của một URL (phần bắt đầu sau hai dấu gạch chéo) đƣợc chia thành các phần nhỏ

Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn

Hình 1.1 Ví dụ về URL

Trong ví dụ đơn giản này, toàn bộ phần “www.example.com” được gọi là hostname, có vai trò chuyển đổi thành địa chỉ IP để truy cập website Nếu biết địa chỉ IP, người dùng có thể nhập trực tiếp vào trình duyệt thay vì sử dụng hostname, giúp tiết kiệm thời gian truy cập Hostname là thành phần chính trong hệ thống DNS, giúp liên kết tên miền dễ nhớ với địa chỉ IP của máy chủ Việc hiểu rõ chức năng của hostname giúp nâng cao kiến thức về hoạt động của Internet và tối ưu hóa trải nghiệm truy cập trực tuyến.

Tên miền cấp cao nhất, như ".com", là phần cao nhất trong hệ thống tên miền phân cấp, giúp chuyển đổi địa chỉ IP thành địa chỉ dễ nhớ Những tên miền này do ICANN quản lý và cấp phát, gồm các loại phổ biến như com, net, gov Hầu hết các quốc gia có tên miền cấp cao nhất hai chữ cái, ví dụ như us (Mỹ), vn (Việt Nam), ca (Canada) Ngoài ra, còn có các tên miền cấp cao nhất bổ sung như museum, do tổ chức cá nhân tài trợ và quản lý, cùng các tên miền dùng chung như club, life, news, phục vụ các mục đích khác nhau.

- Tên miền phụ (Subdomain): Vì DNS là một hệ thống phân cấp, cả hai phần

Trong URL ví dụ, “www” và “example” đều được xem là tên miền phụ Phần “www” là tên miền phụ của tên miền cấp cao nhất “.com”, còn phần “www” cũng là tên miền phụ của tên miền chính “example” Chính vì vậy, các công ty có tên đăng ký thường sử dụng các tên miền phụ như “www” để phân biệt và xác định rõ địa chỉ trang web của mình trong hệ thống tên miền.

“google.com” đƣợc chia thành các tên miền phụ nhƣ “www.google.com”,

Phần Authority của URL, bắt đầu với các ví dụ như “news.google.com” hoặc “mail.google.com”, thể hiện quyền lực của tên miền trong việc xác định độ tin cậy và mức độ uy tín của trang web Các URL khác có thể phức tạp hơn nhưng vẫn bao gồm thành phần này để cung cấp thông tin về nguồn gốc và độ an toàn của website Authority của URL đóng vai trò quan trọng trong tối ưu hóa công cụ tìm kiếm (SEO), giúp nâng cao thứ hạng trang web trên các kết quả tìm kiếm Ngoài ra, thành phần này còn bao gồm hai yếu tố khác, góp phần tăng cường độ tin cậy và độ uy tín của URL trong mắt người dùng và các công cụ tìm kiếm.

Trong các URL truyền thống, phần Authority có thể chứa tên người dùng và mật khẩu của trang web đang truy cập, thường nằm trước tên máy chủ và theo sau dấu @ Hiện nay, kiểu cấu trúc này ít phổ biến hơn, và người dùng ít gặp hơn trong các URL hiện đại Ví dụ, một URL có dạng “//username:password@www.example.com” đã bao gồm thông tin người dùng, giúp xác thực truy cập một cách dễ dàng.

Số port là thiết bị mạng sử dụng địa chỉ IP để nhận thông tin đến máy tính phù hợp trên mạng Khi có lưu lượng truy cập, số port giúp máy tính biết ứng dụng nào đang nhận dữ liệu Thông thường, port không hiển thị trên thanh URL khi duyệt web, nhưng có thể thấy trong các ứng dụng mạng như trò chơi yêu cầu nhập URL Nếu URL chứa port, nó xuất hiện sau tên máy chủ và trước dấu hai chấm, giúp xác định chính xác dịch vụ hoặc ứng dụng đang truy cập.

Ví dụ: “//www.example.com:8080”

Thành phần bổ sung của URL: Có ba phần bổ sung của URL mà có thể thấy sau phần Authority: đường dẫn, truy vấn và phân mảnh

Đường dẫn (path) của URL dẫn trình duyệt hoặc các ứng dụng khác đến đúng máy chủ trên mạng Nó hoạt động giống như đường dẫn trong Windows, macOS hoặc Linux, dẫn đến thư mục hoặc tệp tin chính xác trên máy chủ Đường dẫn bắt đầu bằng dấu gạch chéo, phân cách các thư mục và tệp tin bằng dấu gạch chéo, ví dụ như: www.example.com/folder/subfolder/filename.html, giúp định vị chính xác nội dung cần truy cập.

Phần truy vấn trong URL giúp xác định các yếu tố không thuộc thành phần của cấu trúc đường dẫn cố định, bắt đầu bằng dấu hỏi chấm và theo sau đường dẫn hoặc tên máy chủ nếu không có đường dẫn Ví dụ, khi tìm kiếm “wi-fi extender” trên Amazon, URL có phần truy vấn như sau: https://www.amazon.com/s/ref=nb_sb_noss_2?url=search-lias%3Daps&field-keywords=wi-fi+extender.

Phân mảnh (fragment) là thành phần cuối cùng của URL, bắt đầu bằng dấu thăng (#), dùng để xác định vị trí cụ thể trên trang web Khi các nhà thiết kế tạo liên kết neo (anchor) cho văn bản như tiêu đề, việc sử dụng phân mảnh trong URL giúp trình duyệt tải trang và chuyển đến vị trí mong muốn một cách dễ dàng Liên kết neo, URL, và phân mảnh thường được kết hợp để tạo thành mục lục trang web, hỗ trợ người dùng trong việc điều hướng hiệu quả hơn.

Tổng quan về URL độc

URL độc (Malicious URL) được định nghĩa là các đường dẫn có ảnh hưởng tiêu cực đến người dùng, có thể chuyển hướng đến các tài nguyên lừa đảo, đánh cắp dữ liệu hoặc thực thi mã độc trên thiết bị của người dùng Những URL này còn có thể ẩn trong các liên kết tải xuống tưởng chừng an toàn và dễ dàng lây lan qua việc chia sẻ tệp, tin nhắn trên các mạng xã hội, gây nguy hiểm lớn cho người dùng.

- Malicious iframes [3]: Các HTML iframe chứa nội dung các Website, videos độc hại, lừa đảo, spam…

Hình 1.2 Ví dụ về URL độc

IFrame có thể được chèn trực tiếp vào mã của template hoặc thông qua các đoạn mã JavaScript để thực thi Tuy nhiên, việc này có thể dẫn đến lỗ hổng bảo mật XSS (Cross-Site Scripting), làm cho trang web dễ bị tấn công bởi phần mềm độc hại JavaScript Khi trình duyệt tải xuống và thực thi tệp js độc hại, phần mềm malware có thể lây lan, chạy các mã độc nhằm tải xuống các phần mềm độc hại khác hoặc chuyển hướng người dùng đến các trang web có nội dung độc hại Do đó, việc phòng ngừa và kiểm tra mã nguồn là vô cùng cần thiết để bảo vệ an toàn cho hệ thống website và người dùng.

Hình 1.3 Mô tả khai thác của các trang chèn mã độc Javascript

- URL trang web lừa đảo [3]

Một trong những mối đe dọa phổ biến mà tin tặc thường sử dụng là các trang web lừa đảo Khác với các phương pháp lây nhiễm phần mềm độc hại, lừa đảo dựa trên kỹ thuật xã hội nhằm khiến người dùng tự nguyện cung cấp thông tin cá nhân cho các tội phạm trực tuyến.

Hình 1.4 Trang web giả mạo trang ebay

Các trang giả mạo thường dễ nhầm lẫn với các trang hợp pháp, khiến người dùng dễ tin tưởng vào đó là các trang chính thống Các trang bán hàng trực tuyến như Amazon hoặc eBay thường xuyên bị tấn công bởi các trang giả mạo, bởi vì người dùng thường xuyên truy cập vào những nền tảng này với mục đích mua sắm, và hầu hết họ thanh toán bằng thẻ ghi nợ hoặc thẻ tín dụng, tạo cơ hội cho hacker lợi dụng.

Hình 1.5 Trang giả mạo Paypal yêu cầu người dùng cập nhật thông tin thẻ c) Một số kỹ thuật tấn công sử dụng URL độc

Drive-by Download là hình thức tấn công mạng trong đó người dùng vô tình tải xuống mã độc vào máy tính hoặc thiết bị di động chỉ bằng cách nhấp vào một URL độc hại Đây là mối đe dọa trực tiếp gây ra rủi ro cho dữ liệu cá nhân và hệ thống của người dùng, đòi hỏi sự cảnh giác cao khi duyệt internet.

Spam Email Generator là các chương trình tạo và gửi số lượng lớn email không mong muốn, phổ biến trong các hoạt động lừa đảo trực tuyến Mã độc hại có thể xâm nhập vào hệ thống thông qua các email generator này, gây nguy hiểm cho bảo mật dữ liệu Các phần mềm gián điệp, spam, và mã độc có thể đính kèm vào các email do email generator tạo ra, sau đó được gửi tới các địa chỉ trong danh bạ của máy bị nhiễm để mở rộng phạm vi lây nhiễm Sử dụng email generator một cách thiếu kiểm soát có thể dẫn đến rủi ro cao về an ninh mạng và lây lan các phần mềm độc hại.

Phishing là hình thức tấn công mạng kết hợp với phần mềm độc hại, sử dụng các trang web hoặc email giả mạo nhằm lừa người dùng tiết lộ thông tin bí mật như mật khẩu, số tài khoản và thông tin cá nhân Kẻ tấn công thường tạo ra các trang web hoặc email có hình thức giống hệt các nền tảng phổ biến như ngân hàng hoặc công ty phát hành thẻ tín dụng để dụ người dùng cung cấp thông tin cá nhân Những thông tin này sau đó được sử dụng để trộm tiền trực tiếp trong tài khoản hoặc phục vụ các mục đích phạm pháp khác.

Các phương pháp phát hiện URL độc

Phát hiện URL độc dựa trên tập dấu hiệu

a) Phương pháp tiếp cận Blacklisting

Phương pháp tiếp cận danh sách đen (blacklist) là kỹ thuật phổ biến để phát hiện URL độc hại dựa trên việc duy trì danh sách các URL đã biết là nguy hiểm Khi một URL mới được truy cập, hệ thống sẽ kiểm tra trong cơ sở dữ liệu danh sách đen, nếu có trong danh sách, URL được coi là độc hại và cảnh báo sẽ hiển thị; ngược lại, URL được xác định là an toàn Tuy nhiên, danh sách đen gặp hạn chế trong việc cập nhật đầy đủ các URL độc hại mới, vì các URL này có thể xuất hiện hàng ngày, khiến phương pháp này dễ bỏ sót các mối đe dọa mới Đặc biệt, các hacker có thể tạo ra các URL mới theo thuật toán để vượt qua danh sách đen, khiến phương pháp này trở nên kém hiệu quả Mặc dù có một số nhược điểm, phương pháp danh sách đen vẫn được ưa chuộng nhờ tính đơn giản và khả năng triển khai nhanh chóng.

Trong các hệ thống chống virus hiện nay, phương pháp tiếp cận heuristic vẫn giữ vai trò quan trọng, là một trong những kỹ thuật phổ biến nhất để phát hiện và ngăn chặn các phần mềm độc hại Phương pháp này giúp xác định các hành vi khả nghi của phần mềm, từ đó nâng cao khả năng chống lại các mối đe dọa mới và chưa được xác định rõ ràng.

Phương pháp mở rộng dựa trên danh sách đen với "danh sách đen có chữ ký" giúp hệ thống phát hiện các tấn công dựa trên hành vi và đặc điểm nhận diện mẫu mã độc Các phát hiện thường dựa trên việc quét các trang web để tìm ký hiệu nhận diện của các kiểu tấn công, từ đó có thể phát hiện mối đe dọa trong các URL mới, tăng khả năng khái quát Tuy nhiên, phương pháp này vẫn có giới hạn trong khả năng tổng quát hóa tất cả các loại tấn công và dễ bị vượt qua bằng các kỹ thuật obfuscation Phương pháp heuristic phân tích động cơ thực thi của trang web để phát hiện hoạt động độc hại như quy trình bất thường hoặc chuyển hướng lặp lại cũng là một hướng tiếp cận hiệu quả trong việc phát hiện xâm nhập.

Trong phương pháp này, sử dụng biểu thức chính quy được xem là một phương pháp khá hữu hiệu để phát hiện các lỗ hổng bảo mật Ví dụ điển hình là việc phát hiện các URL chứa mã XSS bằng cách áp dụng các regex phù hợp, giúp nâng cao khả năng bảo vệ hệ thống khỏi các mối đe dọa từ tấn công XSS.

^(http|https)(://) Bắt đầu bằng http hoặc https

(.+) Các ký tự bất kỳ

(\%3C)|) Ký tự > hoặc mã URL của nó Kết quả các URL có chứa các thẻ html bất kỳ đều bị khớp và đƣợc nhận dạng

Các phương pháp này đôi khi yêu cầu truy cập trực tiếp vào trang web, khiến các URL có thể trở thành mục tiêu của các cuộc tấn công Vì vậy, chúng thường được thực hiện trong môi trường kiểm soát như máy ảo hoặc sandbox dùng một lần để đảm bảo an toàn Những kỹ thuật này đòi hỏi nhiều tài nguyên và yêu cầu thực thi mã để hoạt động hiệu quả Một hạn chế của các phương pháp này là trang web có thể không kích hoạt cuộc tấn công ngay sau khi truy cập, làm cho các hành vi độc hại khó bị phát hiện kịp thời Tuy nhiên, ưu điểm của chúng là khả năng thực thi các cuộc tấn công phức tạp trong môi trường được kiểm soát, giảm thiểu rủi ro cho hệ thống thực tế.

- Đơn giản dễ xây dựng và sử dụng

- Có thể đóng góp thành cơ sở dữ liệu chung để chia sẻ

- Khó phát hiện các URL độc hại mới xuất hiện

- Thời gian dài có thể làm cơ sở dữ liệu cồng kềnh với các dữ liệu cũ không còn giá trị.

Phát hiện URL độc sử dụng phương pháp học máy

Phát hiện URL độc hại dựa trên học máy là phương pháp tiên tiến và hiệu quả trong bảo mật mạng Phương pháp này sử dụng các thuật toán phân loại để xác định các URL độc hại dựa trên đặc điểm, thuộc tính và hành vi của chúng Nhờ vào khả năng phân tích dữ liệu lớn và tự động hóa, kỹ thuật này giúp nâng cao khả năng phát hiện và ngăn chặn các mối đe dọa từ các URL độc hại một cách nhanh chóng và chính xác.

16 Ưu nhược điểm: Ƣu điểm:

- Có tính linh hoạt cao

Mô hình có khả năng phát hiện các URL độc hại dựa trên dữ liệu huấn luyện ban đầu, giúp giảm thiểu nhu cầu lưu trữ dữ liệu lâu dài và tiết kiệm chi phí lưu trữ.

- Cần lượng lớn dữ liệu đã được phân loại trước, chi phí thu thập cao

- Để tăng độ chính xác cần thời gian thử nghiệm và đánh giá lâu dài.

Một số công cụ hỗ trợ phát hiện URL độc

URL Void

URL Void là công cụ quét web uy tín giúp phân tích các địa chỉ web bằng nhiều engine và danh sách đen như Google SafeBrowsing, Norton SafeWeb, và MyWOT để phát hiện các trang web tiềm ẩn nguy hiểm Người dùng cần nhập thủ công đường link vào hệ thống, và URLVoid sẽ hiển thị trạng thái an toàn hoặc nguy hiểm dựa trên các engine đánh giá Ngoài ra, người dùng có thể kiểm tra danh sách đe dọa (threat log) để xem chi tiết các mối đe dọa tiềm tàng.

- Tương thích trên nhiều trình duyệt khác nhau

Hệ thống hỗ trợ nhiều công cụ hữu ích như quét tệp, quét địa chỉ IP và phân tích trang web để xác định các vấn đề kỹ thuật Ngoài ra, người dùng có thể tải xuống mã nguồn của trang web mà không cần duyệt qua nó, giúp tiết kiệm thời gian và nâng cao hiệu quả công việc Các chức năng này đều đảm bảo URL không bị chỉnh sửa, mang đến sự an toàn và tin cậy khi thực hiện các hoạt động phân tích và quản lý trang web.

- Với việc chỉ có 6 máy quét chống vi-rút khiến nó kém hiệu quả

- Việc đánh giá và quét đƣợc bắt đầu một cách riêng biệt nên cũng không thuận tiện

UnMask Parasites

Unmask Parasites là công cụ bảo mật đơn giản giúp quét website và phát hiện các liên kết spam, mã độc hoặc chuyển hướng liên kết nguy hiểm Công cụ này giúp quản trị viên xác định các website bị xâm nhập mà không cần biết trước Bằng cách tải về trang web, Unmask Parasites phân tích mã HTML, đặc biệt tập trung vào các liên kết ngoài, iframe và mã JavaScript để phát hiện các mối đe dọa tiềm tàng.

- Công cụ khá đơn giản nhƣng mang lại nhiều hiệu quả

- Hiệu quả trong việc làm nổi bật các iframe độc hại

- Dịch vụ này chỉ hữu ích nếu người dùng đã nghi ngờ rằng có điều gì đó lạ đang xảy ra trên trang web của họ

- Công cụ sử dụng phương pháp phỏng đoán để phát hiện mã đáng ngờ, nên có nguy cơ là nó sẽ phát hiện giả.

PhishTank

Lừa đảo qua mạng (phishing) dễ nhận biết qua URL, đặc biệt đối với các ngân hàng và trang web nhạy cảm, nhờ các biện pháp phòng chống như sử dụng hệ số index của các trang lừa đảo trong PhishTank Người dùng có thể góp phần bằng cách thêm các trang lừa đảo vào danh sách của PhishTank Tuy nhiên, cần lưu ý rằng PhishTank không phải là một công cụ bảo mật, mà chỉ là một dịch vụ miễn phí được OpenDNS tạo ra để hỗ trợ nhận diện các trang phishing.

Dr.Web Anti-Virus Link Checker

Dr.Web Anti-Virus Link Checker là addon bảo vệ trình duyệt Chrome, Firefox, Opera và IE, sử dụng engine diệt virus trực tuyến của Dr.Web để kiểm tra các liên kết tải về, phát hiện nội dung độc hại một cách nhanh chóng Tiện ích tự động quét nội dung tải xuống cũng như các liên kết trên mạng xã hội như Facebook, Vk.com và Google+, giúp người dùng an toàn khi duyệt web Dịch vụ này có mặt từ năm 2003 và nhận được cập nhật định kỳ để nâng cao khả năng bảo vệ.

- Phát hiện và kiểm tra các liên kết không đúng định dạng

- Quét nhanh trên tất cả các link mạng xã hội Facebook, Vk.com, Google+

- Tự động quét nội dung tải về

- Tốc độ phát hiện cao và tốc độ quét cao

- Không xung đột với các chương trình chống vi-rút được cài đặt khác

- Quét các tập tin tải về nhƣng tối đa chỉ 12MB

Comodo Site Inspector

Đây là công cụ miễn phí giúp phát hiện malware và lỗ hổng bảo mật, phù hợp cho người dùng kiểm tra URL hoặc các nhà quản trị web thực hiện kiểm tra hàng ngày nhằm đảm bảo an toàn Quá trình kiểm tra mất thời gian bởi vì Comodo tải toàn bộ các trang được chỉ định và chạy chúng trong môi trường sandbox cô lập để phát hiện mối đe dọa một cách hiệu quả.

- Tự động quét phần mềm độc hại hàng ngày của tất cả các trang web

- Kiểm tra hàng ngày xem trang web của người dùng có trong bất kỳ danh sách đen Internet nào

- Thông báo ngay nếu phát hiện sự cố

- Báo cáo đầy đủ và tƣ vấn giảm thiểu mối đe dọa

Việc kiểm tra hàng ngày là cần thiết để đảm bảo an toàn hệ thống Comodo tự động tải về và chạy tất cả các trang web được chỉ định trong môi trường trình duyệt cách ly (sandbox), giúp phát hiện các mối đe dọa tiềm ẩn một cách hiệu quả Quá trình này tiêu tốn một chút thời gian nhưng mang lại lợi ích lớn trong việc bảo vệ máy tính và dữ liệu của bạn hàng ngày.

Một số công cụ khác

URL ngắn xuất hiện phổ biến trên Web ngày nay, nhưng người dùng thường không biết chính xác đằng sau đó là gì Công cụ UnShorten.it giúp kéo dài URL ngắn để người dùng có thể xem rõ hơn nội dung đích, đồng thời tích hợp quét URL qua các công cụ uy tín như WOT để đánh giá độ tin cậy của website Chỉ cần dán URL ngắn vào dịch vụ, người dùng sẽ nhận được URL đầy đủ của trang đích, mô tả, đánh giá WOT và hình thu nhỏ website Ngoài ra, UnShorten.it còn cung cấp tiện ích mở rộng cho Chrome và Firefox để dễ dàng kiểm tra URL trực tiếp khi duyệt web.

VirusTotal cung cấp hai công cụ chính cho người dùng: một công cụ đăng tải để quét file nghi vấn và một chương trình quét link nhằm kiểm tra an toàn của website trước khi truy cập Công cụ này sử dụng nhiều engine diệt virus, phân tích file và URL, cung cấp các báo cáo chi tiết về liệu file hoặc website có bị nhiễm độc hay nằm trong mạng botnet hay không Các engine của VirusTotal được cập nhật liên tục mỗi 15 phút để đảm bảo độ chính xác cao nhất Ngoài ra, Norton Safe Web là một công cụ đáng tin cậy giúp người dùng kiểm tra độ an toàn của website một cách nhanh chóng và hiệu quả.

Norton Safe Web giúp người dùng dễ dàng nhận biết link có an toàn hay không thông qua một cái nhìn tổng quan rõ ràng Chương trình còn cung cấp bảng tóm tắt các "mối đe dọa" đã được phát hiện trên đường link, bao gồm các yếu tố như Computer Threats, Identity Threats và Annoyances, giúp người dùng hiểu rõ về mức độ nguy hiểm của liên kết đó Bên cạnh Norton Safe Web, SiteAdvisor của McAfee cũng là một công cụ uy tín cung cấp các đánh giá về độ an toàn của website, hỗ trợ người dùng tránh xa các mối đe dọa mạng nhanh chóng và hiệu quả.

McAfee giúp người dùng kiểm tra độ an toàn của các liên kết bằng cách cung cấp nút "Download anything on your computer" để xác nhận Ngoài ra, McAfee còn cung cấp danh sách các liên kết outbound chứa liên kết của họ, giúp người dùng dễ dàng kiểm tra và quản lý các liên kết ngoài một cách an toàn.

Sucuri cung cấp cho người dùng báo cáo chi tiết về tên miền của trang web, giúp xác định các vấn đề bảo mật Ngoài ra, dịch vụ này còn cung cấp danh sách đen các trang web và phần mềm đã hết hạn, phát hiện các phần mềm độc hại (malware), mã JavaScript độc hại, iFrames độc hại, cùng với các dấu hiệu bất thường và sự hiện diện của thư rác Browser Defender là một công cụ bảo vệ trình duyệt giúp phát hiện và ngăn chặn các mối đe dọa trực tuyến.

Browser Defender giúp người dùng nhận biết link có an toàn hay không một cách nhanh chóng Nếu người dùng nghi ngờ "quyết định" của Browser Defender là

"sai", người dùng có thể report tới miền trang web g) Online Link Scan

Online Link Scan là công cụ tổng hợp các tính năng của các công cụ quét liên kết, giúp người dùng kiểm tra độ an toàn của các liên kết một cách nhanh chóng và hiệu quả Công cụ này sẽ quét liên kết và cung cấp các báo cáo chi tiết, cho phép bạn nhận biết liệu liên kết đó có an toàn để truy cập hay không Một trong những tính năng nổi bật của Online Link Scan là hỗ trợ Google Safe Browsing Diagnostic, giúp kiểm tra liên kết dựa trên dữ liệu của Google để đảm bảo an toàn tối đa cho người dùng Sử dụng Online Link Scan giúp bảo vệ bạn khỏi các rủi ro về an ninh mạng và Công cụ này là giải pháp lý tưởng để kiểm tra liên kết một cách toàn diện và dễ dàng.

Google Safe Browsing Diagnostic là công cụ cung cấp báo cáo chi tiết về các tên miền hoặc liên kết web, giúp người dùng kiểm tra độ an toàn của website Được phát triển bởi Google dựa trên Safe Browsing API, một phần của hạ tầng tìm kiếm, nên người dùng hoàn toàn có thể tin tưởng vào độ chính xác và độ uy tín của công cụ này Để sử dụng, chỉ cần thêm URL của website muốn kiểm tra vào sau địa chỉ http://www.google.com/safebrowsing/diagnostic?site= Công cụ sẽ cung cấp thông tin chẩn đoán cho website gồm 4 điểm chính, giúp người dùng xác định mức độ an toàn của site một cách dễ dàng và nhanh chóng.

- Trạng thái danh sách dịch vụ hiện tại

- Điều gì đã xảy ra khi Google truy cập trang web này?

- Có phải trang web này đã hoạt động với vai trò trung gian để phát tán thêm phần mềm độc hại không?

- Trang web có lưu trữ phần mềm độc hại không?

Lưu ý rằng những thông tin Google cung cấp chỉ căn cứ vào trạng thái site trong 90 ngày gần nhất.

Đề xuất mô hình phát hiện URL độc

Thực trạng phát tán URL độc tại Việt Nam

Trong tuần 43 năm 2018, theo Trung tâm Xử lý Tấn công Mạng Internet Việt Nam (VNCERT), có ít nhất 27 trang web đặt tại Việt Nam bị lợi dụng để thực hiện các cuộc tấn công phishing, cho thấy sự gia tăng đáng kể trong hoạt động tấn công lừa đảo trực tuyến Đến tuần 44, số lượng trang web bị lợi dụng để tấn công phishing giảm còn ít nhất 17 trang, phản ánh xu hướng giảm nhưng vẫn cảnh báo về mức độ rủi ro cao của các hình thức tấn công này tại Việt Nam Các số liệu này được trích xuất từ hệ thống kỹ thuật của Cục An Toàn Thông Tin, góp phần nâng cao nhận thức về an ninh mạng trong cộng đồng.

Hình 1.6 Thống kê trang Web bị lợi dụng tấn công phishing

Việt Nam có đông đảo người dùng các dịch vụ, ứng dụng nước ngoài miễn phí và trả phí như mạng xã hội, dịch vụ thanh toán, Apple, Paypal, v.v Do đó, người dùng dễ gặp phải các URL độc hại dẫn đến các trang web lừa đảo gây thiệt hại về tài chính và dữ liệu cá nhân.

Mô hình phát hiện URL độc

Dựa trên phân tích các công cụ trong phần 1.3 và thống kê về việc phát tán URL độc tại Việt Nam, tác giả đề xuất mô hình phát hiện URL độc hiệu quả như hình 1.8, giúp nâng cao khả năng chống lại các mối đe dọa mạng và bảo vệ an ninh thông tin.

Hình 1.8 Kiến trúc mô hình phát hiện URL độc

- Hình trên mô tả kiến trúc mô hình phát hiện URL độc do tác giả đề xuất

Mô hình phát hiện URL độc sẽ kết hợp cả hai phương pháp phổ biến hiện nay gồm dựa trên tập dấu hiệu và kỹ thuật phân loại hành vi Phương pháp dựa trên tập dấu hiệu giúp nhận diện URL độc dựa trên các đặc điểm đặc trưng đã xác định, trong khi kỹ thuật phân loại hành vi phân tích các hành vi truy cập để xác định các URL nguy hiểm Việc kết hợp cả hai phương pháp này giúp nâng cao hiệu quả phát hiện và giảm thiểu rủi ro từ các URL độc hại.

Cơ sở dữ liệu dấu hiệu

Phát hiện URL độc sử dụng tập dấu hiệu

Phát hiện URL độc sử dụng kỹ thuật phân loại hành vi

Phương pháp phân loại hành vi URL

Các hành vi của URL

Phương pháp phát hiện URL độc dựa trên tập dấu hiệu, trong đó tác giả thu thập các dấu hiệu đã biết phân biệt giữa URL độc hại và URL sạch Các dấu hiệu này đóng vai trò là nền tảng quan trọng giúp xác định chính xác và nhanh chóng về tính độc hại của URL Áp dụng phương pháp này giúp nâng cao hiệu quả phát hiện các URL độc trong quá trình bảo mật hệ thống.

Trong phương pháp phát hiện URL độc dựa trên kỹ thuật phân loại hành vi, tác giả sẽ khảo sát và trích xuất các hành vi, đặc trưng cơ bản để phân biệt giữa URL độc và URL sạch Các đặc trưng này sẽ làm cơ sở xác định hành vi nào phù hợp với URL độc và hành vi nào phù hợp với URL sạch Đồng thời, để nâng cao hiệu quả phân biệt, báo cáo sẽ sử dụng một số thuật toán phân loại phổ biến hiện nay Các chi tiết về các hành vi, đặc trưng của URL cũng như thuật toán phân loại sẽ được trình bày kỹ hơn trong các phần tiếp theo của báo cáo.

Kết chương

Như vậy trong chương 1, báo cáo đã trình bày về một số vấn đề sau:

- Trình bày khái niệm về URL và URL độc, bên cạnh đó trong báo cáo cũng phân loại một số loại URL độc phổ biến

Các nguy cơ mất an toàn thông tin từ việc phát tán URL độc càng trở nên nghiêm trọng hơn khi các hacker sử dụng các kỹ thuật tấn công tinh vi để phát tán các liên kết độc hại Việc phân tích thống kê về các nguy cơ này cho thấy rằng hành vi chia sẻ URL độc có thể dẫn đến các cuộc tấn công phishing, cài đặt phần mềm độc hại và xâm nhập trái phép hệ thống thông tin Các kỹ thuật tấn công phổ biến như khai thác lỗ hổng qua liên kết giả mạo, sử dụng URL ngắn để che giấu nội dung độc hại, cùng với việc lợi dụng các nền tảng truyền thông xã hội để phát tán URL độc đều làm tăng nguy cơ bị tấn công và gây thiệt hại cho an ninh mạng của tổ chức Vì vậy, việc nhận diện nguy cơ và áp dụng các biện pháp phòng ngừa hiệu quả là vô cùng cần thiết để bảo vệ hệ thống thông tin khỏi các mối đe dọa từ việc phát tán URL độc hại.

- Khảo sát và đánh giá một số phương pháp và công cụ phát hiện URL độc

- Đề xuất mô hình phát hiện URL độc bằng cách sử dụng tập dấu hiệu và phân tích hành vi URL

PHÁT HIỆN URL ĐỘC SỬ DỤNG HỌC MÁY

Tổng quan về phát hiện URL độc sử dụng học máy

Hình 2.1 Mô hình phát hiện URL độc sử dụng học máy

Mô hình phát hiện URL độc được chia thành hai giai đoạn chính: huấn luyện và phát hiện Trong giai đoạn huấn luyện, cần thu thập và thống kê các URL độc và URL sạch, sau đó trích xuất thuộc tính và gán nhãn cho từng URL để tạo thành tập dữ liệu Các thuộc tính này giúp xác định chính xác URL nào là sạch và URL nào là độc, và sẽ được trình bày chi tiết trong phần sau của báo cáo Tập dữ liệu sau đó được chia thành hai phần là dữ liệu huấn luyện và dữ liệu kiểm thử, dùng để đào tạo các thuật toán học máy Quá trình huấn luyện giúp mô hình phân loại các URL mới, đánh giá độ chính xác qua tập kiểm thử để xác định URL phạm vi sạch hay độc.

Trích chọn thuộc tính và gán nhãn

Thuật toán học máy Huấn luyện dữ liệu

Giai đoạn phát hiện Giai đoạn huấn luyện

URLTrích chọn thuộc tính

Trong giai đoạn phát hiện, bộ huấn luyện đạt kết quả phân loại cao, đảm bảo độ chính xác cao trong quá trình nhận diện và phân loại các đối tượng Những kết quả phân loại chính xác này giúp nâng cao hiệu quả và độ tin cậy của hệ thống trong quá trình phát hiện, đảm bảo các bước tiếp theo diễn ra chính xác và hiệu quả hơn.

Trong quá trình phát hiện, bước đầu tiên là thu thập tất cả các URL cần kiểm tra Tiếp theo, các URL này sẽ được trích xuất các thuộc tính đặc trưng để phục vụ cho công tác phân loại Các thuộc tính này sau đó được đưa vào bộ phân lớp, nơi sử dụng thuật toán học máy để phân tích và xác định xem URL đó là sạch hay độc hại Giai đoạn huấn luyện mô hình đóng vai trò quan trọng, giúp cải thiện độ chính xác của quá trình phân loại URL qua việc áp dụng bộ dữ liệu huấn luyện phù hợp.

2.1.1 Lựa chọn thuật toán phân loại URL độc

Trong lĩnh vực học máy, hai phương pháp chính được áp dụng rộng rãi là supervised learning (học có giám sát) và unsupervised learning (học không giám sát), đóng vai trò cốt lõi trong nhiều ứng dụng thực tế Ngoài ra, còn có các phương pháp khác như semi-supervised learning (học bán giám sát) và reinforcement learning (học tăng cường) nhằm mở rộng khả năng của hệ thống học máy Hiểu rõ khái niệm cơ bản của hai phương pháp phổ biến nhất này là chìa khóa để áp dụng hiệu quả trong các dự án trí tuệ nhân tạo hiện nay.

Supervised Learning (SL) là kỹ thuật học máy dựa trên việc học từ tập dữ liệu đã được gán nhãn trước, bao gồm nhiều bộ dữ liệu theo cặp {x, y}, trong đó x là dữ liệu thô và y là nhãn Nhiệm vụ chính của SL là dự đoán đầu ra dựa trên đầu vào, với quá trình huấn luyện hoàn toàn do con người chỉ định nhãn Kỹ thuật này phù hợp cho các bài toán dự đoán (regression) và phân loại (classification) Mục tiêu của SL là xây dựng một hàm gọi là h(x) có thể xuất ra giá trị y mong muốn cho dữ liệu mới, thông qua việc tối ưu hóa các tham số phù hợp.

26 bài toán khác nhau Việc học từ tập dữ liệu (training) cũng chính là tìm ra bộ tham số học cho hàm h(x)

Học không giám sát (UL) là kỹ thuật của machine learning giúp tìm ra các mô hình hoặc cấu trúc ẩn bên trong dữ liệu không được gán nhãn trước đó Khác với học có giám sát (SL), UL không xác định được kết quả đầu ra trước mà phụ thuộc vào tập dữ liệu huấn luyện, nên kết quả có thể khác nhau dựa trên dữ liệu và thuật toán sử dụng Trong UL, tập dữ liệu không được nhãn từ con người, yêu cầu máy tính tự học hoàn toàn mà không có sự can thiệp của người Do đó, giá trị đầu ra của học không giám sát phụ thuộc lớn vào thuật toán, làm nổi bật tính tự động và tự phát hiện của phương pháp này trong máy học.

Trong bài báo này, tác giả tập trung nghiên cứu và áp dụng hai thuật toán học máy chính là Thuật toán rừng ngẫu nhiên (Random Forest) và Support Vector Machine (SVM), mỗi phương pháp đều sử dụng các thuật toán riêng biệt để tối ưu hóa hiệu quả.

Random Forest là một thuật toán học máy mạnh mẽ dùng để phân lớp và hồi quy, hoạt động bằng cách xây dựng hàng ngàn cây quyết định đa dạng và độc lập để đưa ra dự đoán chính xác hơn Thuật toán này gồm các giai đoạn huấn luyện và thử nghiệm, giúp nâng cao độ chính xác và khả năng tổng quát của mô hình Hình 2.2 minh họa rõ sơ đồ hoạt động của thuật toán Random Forest, thể hiện quá trình tạo dựng nhiều cây quyết định khác nhau để cải thiện hiệu quả dự đoán.

Hình 2.2 Sơ đồ thuật toán Random Forest

Trong quá trình huấn luyện, thuật toán bắt đầu bằng việc tạo mẫu bootstrap từ dữ liệu gốc và xây dựng nhiều cây phân loại và hồi quy (CART) chưa tỉa Khoảng một phần ba dữ liệu của mỗi mẫu bị bỏ lại trong dữ liệu OOB, được sử dụng để ước lượng lỗi dự đoán khi thêm cây vào rừng Sau khi hoàn tất các phân tách, dữ liệu được dự đoán tại mỗi bootstrap bằng kỹ thuật tăng trưởng cây Trong giai đoạn thử nghiệm, dữ liệu thử nghiệm được đưa vào rừng để bắt đầu quy trình dự đoán, và nút cuối cùng được dự đoán bằng trung bình các dự đoán từ tất cả các cây trong rừng.

Tập dữ liệu huấn luyện

Tập dữ liệu thử nghiệm

Kết quả của bộ dự đoán

Kết quả của bộ dự đoán 2

Kết quả của bộ dự đoán 3

Kết quả của bộ dự đoán n

Support vector machine (SVM) là thuật toán phổ biến và hiệu quả trong phân lớp và hồi quy Được đề xuất bởi Vladimir N Vapnik và cộng sự vào năm 1963 tại Nga, SVM trở nên nổi bật trong những năm 1990 nhờ khả năng xử lý các bài toán phi tuyến tính bằng phương pháp Kernel Trick Chính khả năng giải quyết cả bài toán phân lớp và hồi quy khiến SVM thường được gọi là SVMs, trở thành công cụ quan trọng trong lĩnh vực học máy.

 SVC (Support Vector Classification): dùng cho các bài toán phân lớp

Support Vector Regression (SVR) là phương pháp hồi quy sử dụng trong phân tích dữ liệu Ý tưởng của Support Vector Machine (SVM) là tìm một siêu phẳng tối ưu để phân tách dữ liệu, chia không gian thành các miền khác nhau Siêu phẳng này đảm bảo margin của hai lớp dữ liệu là bằng nhau và lớn nhất có thể, trong đó margin được định nghĩa là khoảng cách từ các điểm gần nhất của mỗi lớp tới mặt phân chia.

Khoảng cách từ một điểm tới một siêu mặt phẳng

Công thức tính khoảng cách có thể được mở rộng cho không gian có chiều d Khoảng cách từ một điểm (vector) đến siêu mặt phẳng (hyperplane) được xác định rõ ràng qua phương trình của hyperplane Công thức này giúp xác định chính xác khoảng cách từ điểm đến hyperplane trong không gian nhiều chiều, hỗ trợ các ứng dụng trong học máy và tối ưu hoá Việc hiểu rõ cách tính khoảng cách này rất quan trọng trong các bài toán phân lớp và phân tích dữ liệu đa chiều, góp phần nâng cao hiệu quả của các thuật toán và mô hình.

Hình 2.3 Ví dụ mô tả thuật toán SVM

Hình 2.3 cho thấy có vô số các đường phân tách chính xác hai lớp dữ liệu, nhưng đâu là đường tốt nhất? Trong các đường thẳng minh họa, hai đường lệch về phía lớp màu đỏ có thể gây ra phân lớp sai, khiến điểm đỏ bị phân vào lớp xanh trong tương lai Vấn đề then chốt là tìm ra tiêu chuẩn để đo lường "hạnh phúc" của mỗi lớp, dựa trên khoảng cách gần nhất từ các điểm của lớp đó tới đường phân chia Định nghĩa mức độ "hạnh phúc" của một lớp tỉ lệ thuận với khoảng cách này, giúp chọn ra mặt phân tách tối ưu, hạn chế sai lệch trong phân lớp dữ liệu.

Hình 2.4 Margin của hai classes

Việc mở rộng khoảng cách margin trong SVM giúp nâng cao hiệu quả phân lớp bởi sự phân chia giữa hai lớp rõ ràng hơn Tối ưu hóa trong SVM tập trung vào việc tìm ra đường phân chia sao cho khoảng cách (margin) giữa các lớp là lớn nhất, từ đó cải thiện độ chính xác và khả năng Generalization của mô hình Đây là yếu tố quan trọng để xây dựng các mô hình phân lớp mạnh mẽ và đáng tin cậy trong các bài toán thực tế.

Xây dựng bài toán tối ưu

Trong tập huấn luyện, các cặp dữ liệu gồm vector thể hiện đầu vào của một điểm dữ liệu và nhãn tương ứng, trong đó nhãn được xác định bởi các thuộc tính như "độc hại" hoặc "không độc hại" Các điểm dữ liệu này có thể có màu sắc khác nhau để biểu thị nhãn, ví dụ như màu xanh với nhãn 1 và màu đỏ tròn với nhãn -1 Quan sát một điểm dữ liệu bất kỳ, ta thấy khoảng cách từ điểm đó tới mặt phân chia quyết định có thể được tính toán dựa trên cặp dữ liệu và mặt phân chia này Việc hiểu rõ vị trí của điểm dữ liệu so với mặt phân chia là yếu tố quan trọng trong các thuật toán phân lớp, giúp xác định nhãn của điểm dữ liệu mới chính xác hơn.

Với mặt phần chia nhƣ trên, margin đƣợc tính là khoảng cách gần nhất từ 1 điểm tới mặt đó (bất kể điểm nào trong hai lớp):

Bài toán tối ƣu trong SVM chính là bài toán tìm và b sao cho margin này đạt giá trị lớn nhất:

THỰC NGHIỆM VÀ ĐÁNH GIÁ

Lựa chọn công cụ thực nghiệm

Thực nghiệm được thực hiện trên môi trường có cấu hình phần cứng là:

- Bộ xử lý: (Intel (R) Core(TM) i7-4510U CPU @ 2.00GHz 2.60 GHz)

- Hệ điều hành Windows 10; Kiểu hệ thống: 64-bit OS, x64 based processor

- Trong luận văn này sẽ sử dụng công cụ Weka làm công cụ chính hỗ trợ thực nghiệm

3.1.1 Giới thiệu về công cụ Weka

Weka, viết tắt của Waikato Environment for Knowledge Analysis, là phần mềm khai thác dữ liệu phát triển bởi Đại học Waikato, New Zealand Phần mềm này nhằm xây dựng một công cụ hiện đại hỗ trợ phát triển và ứng dụng các kỹ thuật máy học vào các bài toán khai thác dữ liệu thực tế Weka giúp người dùng dễ dàng thực hiện các nhiệm vụ phân tích dữ liệu và mô hình hoá để đưa ra quyết định chính xác và hiệu quả.

Năm 1993, Đại học Waikato tại New Zealand bắt đầu dự án phát triển phần mềm Weka Đến năm 1997, nhóm nghiên cứu quyết định xây dựng lại Weka từ đầu bằng ngôn ngữ Java, tích hợp các thuật toán mô hình hóa dữ liệu tiên tiến Weka đã trở thành công cụ phân tích dữ liệu phổ biến, hỗ trợ thực hiện các kỹ thuật học máy và khai thác dữ liệu dễ dàng và hiệu quả.

2005, Weka nhận giải thưởng “SIGKDD Data Mining and Knowledge Discovery Service Award”

- WEKA đƣợc xây dựng bằng ngôn ngữ Java, cấu trúc gồm hơn 600 lớp, tổ chức thành 10 packages với các tính năng chính:

+ Một tập các công cụ tiền xử lý dữ liệu, các giải thuật học máy, khai phá dữ liệu và các phương pháp thí nghiệm đánh giá

+ Giao điện đồ họa (gồm cả tính nnawg hiển thị hóa dữ liệu)

Weka là một công cụ mạnh mẽ cho phép so sánh các giải thuật học máy và khai phá dữ liệu, hỗ trợ nghiên cứu và phát triển các mô hình dự đoán Trang web chính của Weka tại https://www.cs.waikato.ac.nz/ml/weka/ cung cấp đầy đủ thông tin về phần mềm, bao gồm các phiên bản mới nhất, tài liệu hướng dẫn, link tải xuống và các hỗ trợ kỹ thuật Các chức năng của Weka bao gồm xử lý dữ liệu, lựa chọn thuật toán phù hợp và đánh giá hiệu quả của các giải thuật học máy, giúp người dùng dễ dàng áp dụng vào các dự án khai phá dữ liệu thực tế.

Các chức năng chính của phần mềm:

- Khảo sát dữ liệu: tiền xử lí dữ liệu, phân lớp, gom nhóm dữ liệu, và khai thác luật kết hợp

- Thực nghiệm mô hình: cung cấp phương tiện để kiểm chứng, đánh giá các mô hình học

- Biểu diễn trực quan dữ liệu bằng nhiều dạng đồ thị khác nhau

Trang chủ của công cụ Weka (trong luận văn này sử dụng phiên bản 3.8.3)

Hình 3 1 Giao diện trang chủ của công cụ Weka (Weka GUI Chooser) Trên giao diện này, người dùng lựa chọn các ứng dụng muốn sử dụng, gồm có:

 Simple CLI (Simple Command-line Interfaces ):

Giao diện đơn giản kiểu dòng lệnh nhƣ (MS-DOS)

Hình 3 2 Giao diện trang chủ

Workbench là giao diện người dùng đồ họa thống nhất tích hợp tất cả các plugin đã cài đặt, giúp người dùng dễ dàng quản lý và tùy chỉnh môi trường làm việc Với khả năng cấu hình cao, Workbench cho phép người dùng chỉ định các ứng dụng và plugin sẽ hiển thị, đồng thời thiết lập các cài đặt liên quan để tối ưu hóa quá trình làm việc Đây là công cụ mạnh mẽ giúp nâng cao hiệu suất và sự linh hoạt trong quá trình sử dụng các phần mềm kỹ thuật.

Hình 3 3 Giao diện trang chủ của Workbench

Môi trường KnowledgeFlow cho phép người dùng tương tác đồ họa kéo/thả, thiết kế cấu hình để xử lý dữ liệu trực tiếp Người dùng có thể kéo các hộp biểu diễn thuật toán học máy và các nguồn dữ liệu quanh màn hình, sau đó nối chúng lại với nhau để tạo thành các cấu hình tùy chỉnh Tính năng này giúp đơn giản hóa quá trình xử lý dữ liệu, tối ưu hóa hiệu suất và nâng cao trải nghiệm người dùng trong xây dựng các hệ thống trí tuệ nhân tạo.

Trong hệ thống xử lý dữ liệu, 40 luồng dữ liệu được thiết lập bằng cách kết nối các thành phần như nguồn dữ liệu, công cụ tiền xử lý, thuật toán học máy, phương pháp đánh giá và mô hình trực quan hóa Khi các bộ lọc và thuật toán học máy có khả năng nâng cao hiệu quả, dữ liệu sẽ được tải lên và xử lý một cách tích cực hơn, giúp tối ưu hoá quy trình phân tích và ra quyết định.

Hình 3 4 Giao diện trang chủ của KnowledgeFlow

Môi trường Experimenter cho phép tiến hành các thí nghiệm và kiểm tra thống kê các bước của quá trình phân loại và hồi quy, giúp người dùng xác định phương pháp và tham số tối ưu cho vấn đề của mình Nó tự động hóa quy trình thử nghiệm bằng cách chạy các trình phân loại và bộ lọc với các cài đặt khác nhau, thu thập dữ liệu thống kê hiệu suất và thực hiện các kiểm tra quan trọng Ngoài ra, Experimenter còn hỗ trợ phân phối tải công việc trên nhiều máy tính thông qua lời gọi phương thức từ xa Java, cho phép thiết lập và vận hành các thử nghiệm quy mô lớn một cách dễ dàng và hiệu quả.

Hình 3 5 Giao diện trang chủ của Experiment

 Explorer (Trong luận văn này chủ yếu sử dụng môi trường này):

Môi trường WEKA cung cấp khả năng khai phá dữ liệu toàn diện, cho phép người dùng truy cập dễ dàng qua menu và biểu mẫu Người dùng có thể tải dữ liệu từ tệp, tạo cây quyết định và thực hiện các phân tích một cách nhanh chóng Explorer hướng dẫn bằng các tùy chọn trực quan, giúp người dùng dễ dàng điền vào biểu mẫu, trong khi các mẹo công cụ hữu ích hỗ trợ giải thích chức năng của từng mục khi di chuột qua Giá trị mặc định hợp lý giúp đảm bảo kết quả phù hợp với ít tác động nhất, tuy nhiên người dùng cần hiểu rõ ý nghĩa cũng như tác động của các thiết lập để hiểu rõ kết quả phân tích dữ liệu.

Hình 3 6 Giao diện trang chủ của Explorer

3.1.2 Tìm hiểu ứng dụng Explorer của công cụ Weka

Explorer cho phép sử dụng tất cả các khả năng của WEKA để khai phá dữ liệu, bao gồm tiền xử lý, phân lớp, phân cụm và chọn thuộc tính nhằm tối ưu hóa quá trình phân tích dữ liệu Ngoài ra, Explorer còn hỗ trợ hiển thị dữ liệu trực quan giúp người dùng dễ dàng phân tích và đưa ra quyết định Các chức năng trong Explorer được thiết kế để mang lại trải nghiệm toàn diện trong khai thác dữ liệu, phục vụ đắc lực cho các dự án phân tích dữ liệu thông minh.

 Preprocess (Tiền xử lý dữ liệu):

- Chức năng Preprocess cho phép xử lý dữ liệu đang xét Trước hết, luận văn sẽ đề cập đến kiểu tập dữ liệu đƣợc phép sử dụng trong WEKA

ARFF là định dạng dữ liệu chuyên biệt của phần mềm WEKA, được tổ chức theo cấu trúc quy định để phù hợp với các thuật toán phân tích dữ liệu Tập tin *.ARFF bao gồm các thành phần chính như phần tiêu đề và phần dữ liệu, giúp xác định các thuộc tính đặc trưng của dữ liệu và dữ liệu mẫu một cách rõ ràng Định dạng này hỗ trợ người dùng trong việc chuẩn bị dữ liệu để thực hiện các tác vụ khai thác dữ liệu và máy học một cách hiệu quả.

- Header: chứa khai báo quan hệ (@relation), danh sách các thuộc tính (@attribute) gồm tên và kiểu dữ liệu

Dữ liệu trong tệp ARFF bao gồm nhiều dòng bắt đầu từ ký tự "@data", mỗi dòng thể hiện giá trị của các thuộc tính cho một mẫu dữ liệu Những giá trị thiếu sẽ được biểu diễn bằng dấu "?", và tất cả các giá trị trong phần dữ liệu phải tuyệt đối khớp với thông tin đã khai báo trong phần Header Hỗ trợ nhiều kiểu dữ liệu khác nhau trong ARFF giúp đảm bảo tính chính xác và phù hợp của dữ liệu cho các thuật toán học máy.

 numeric: là kiểu dữ liệu số, gồm số thực và số nguyên

 nominal: là kiểu dữ liệu định danh

 string: là kiểu dữ liệu dạng chuỗi

 date: là kiểu dữ liệu thời gian (ngày tháng năm, giờ phút giây)

Hình 3 7 Ví dụ minh họa tập dữ liệu *.ARFF

Preprocess hỗ trợ nhiều phương thức nhập dữ liệu, bao gồm nhập dữ liệu từ các tập tin định dạng như ARFF và CSV, hoặc đọc dữ liệu từ URL để mở rộng khả năng xử lý dữ liệu đa dạng Ngoài ra, người dùng còn có thể kết nối và nhập dữ liệu trực tiếp từ các cơ sở dữ liệu thông qua JDBC, giúp tích hợp dữ liệu một cách linh hoạt và hiệu quả Bên cạnh đó, preprocess cũng cho phép tạo dữ liệu mới từ các dữ liệu đã có, hỗ trợ quá trình xử lý dữ liệu trở nên thuận tiện và linh hoạt hơn trong các dự án phân tích dữ liệu.

Các công cụ tiền xử lý dữ liệu của WEKA đƣợc gọi là Filters, bao gồm:

 Lựa chọn thuộc tính (Attribute selection)

 Chuyển đổi (Transforming) và kết hợp (Combining) các thuộc tính Preprocess còn hỗ trợ hiển thị thông tin về dữ liệu đang xét:

 Tập dữ liệu: tên, số mẫu, số thuộc tính

 Các thuộc tính và thông tin chi tiết về thuộc tính nhƣ: tên, kiểu dữ liệu, giá trị thuộc tính, tỷ lệ %

 Biểu đồ minh họa thông tin

This feature also allows users to edit and save data in various formats, including CSV, JSON, ARFF, XRFF, and C4.5 file formats, ensuring flexibility and compatibility for different data management needs.

 Classify (Phân lớp dữ liệu):

Classify là công cụ dùng để huấn luyện và kiểm tra các mô hình học máy, bao gồm phân loại và dự đoán hồi quy Chức năng này cung cấp nhiều thuật toán phân lớp đa dạng, được phân thành các nhóm dựa trên lý thuyết hoặc chức năng, giúp tối ưu hóa quá trình xây dựng mô hình chính xác và hiệu quả.

 Trees: DecisionStump, J48, RandomForest, RandomTree, REPTree, M5P,

 Các phương pháp phân lớp dựa trên luật

Ngoài ra, Classify còn cung cấp các loại gợi ý để kiểm tra nhƣ:

 Sử dụng bộ dữ liệu huấn luyện (Using training set) để phục vụ cho việc đánh giá

 Sử dụng bộ dữ liệu kiểm thử đƣợc cung cấp (Supplied test set) để phục vụ cho việc đánh giá

 Xác thực chéo (Cross-validation) với chỉ số Folds Khi đó tập dữ liệu huấn luyện sẽ được chia đều thành k tập (Folds) có kích thước xấp xỉ nhau

 Chỉ định tỷ lệ chia tập dữ liệu (Percentage split)

 Nhiều hơn nữa (More options):

- Output model: Hiển thị bộ phân lớp học đƣợc

- Output per-class stats: Hiển thị các thông tin thống kê về precision/recall đối với mỗi lớp

- Output entropy evaluation measures: Hiển thị đánh giá độ hỗn tạp (entropy) của tập dữ liệu

- Output confusion matrix: Hiển thị thông tin về ma trận lỗi phân lớp (confusion matrix) đối với phân lớp học đƣợc

- Store predictions for visualization: Các dự đoán của bộ phân lớp được lưu lại trong bộ nhớ, để có thể đƣợc hiển thị sau đó

- Output predictions: Hiển thị chi tiết các dự đoán đối với tập kiểm tra

- Cost-sensitive evaluation: Các lỗi (của bộ phân lớp) đƣợc xác định dựa trên ma trận chi phí (cost matrix) chỉ định

- Random seed for XVal / % Split: Chỉ định giá trị random seed đƣợc sử dụng cho quá trình lựa chọn ngẫu nhiên các ví dụ cho tập kiểm tra

Danh sách kết quả (Result list) cung cấp một số chức năng hữu ích:

 Save model: Lưu lại mô hình tương ứng với bộ phân lớp học được vào trong một tập tin nhị phân (binary file)

 Load model: Đọc lại một mô hình đã được học trước đó từ một tập tin nhị phân

 Re-evaluate model on current test set: Đánh giá một mô hình (bộ phân lớp) học được trước đó đối với tập kiểm tra (test set) hiện tại

Để nâng cao hiệu quả phân loại, cần trực quan hóa các lỗi của bộ phân loại bằng cách hiển thị cửa sổ biểu đồ thể hiện kết quả phân lớp Các ví dụ được phân lớp chính xác sẽ được biểu diễn bằng ký hiệu dấu chéo (x), trong khi các ví dụ bị phân lớp sai sẽ được thể hiện bằng ký hiệu ô vuông (�) Việc này giúp dễ dàng nhận diện và phân tích các điểm dữ liệu gây lỗi, từ đó cải thiện độ chính xác của mô hình.

 Cluster (Phân cụm dữ liệu):

Một số chỉ số liên quan đến kết quả thực nghiệm

 Hệ số tương quan (Correlation coefficient)

Hệ số tương quan đo lường mối quan hệ tuyến tính giữa hai biến, phản ánh cả về cường độ và hướng của mối liên hệ Nó nằm trong phạm vi từ -1 đến +1, trong đó dấu cộng thể hiện mối tương quan tích cực và dấu trừ thể hiện mối tương quan tiêu cực Hệ số tương quan bằng -1 cho thấy mối quan hệ tiêu cực hoàn hảo, trong khi hệ số bằng +1 biểu thị mối quan hệ tích cực hoàn hảo Việc hiểu rõ hệ số tương quan giúp xác định chính xác mức độ liên hệ giữa các biến trong phân tích dữ liệu.

 n ví dụ huấn luyện từ X , Y ; gọi đến ,

 Huấn luyện một cây phân loại hoặc hồi quy

Tính trung bình các dự đoán từ tất cả các cây phân loại riêng lẻ trên : ̂ ∑

Tính độ lệch chuẩn của các dự đoán từ tất cả các cây phân loại riêng lẻ trên :

 Sai số tuyệt đối trung bình (Mean absolute error)

MAE (Mean Absolute Error) đo lường mức độ trung bình của các lỗi dự đoán trong một tập hợp dữ liệu, phản ánh độ chính xác của mô hình dự đoán mà không xem xét hướng của lỗi Đây là trung bình của các sự khác biệt tuyệt đối giữa dự đoán và dữ liệu thực tế, trong đó tất cả các lỗi đều có trọng số bằng nhau Công thức tính MAE giúp xác định mức độ chính xác của mô hình dự đoán, là một chỉ số quan trọng trong phân tích dữ liệu và machine learning.

 Độ lệch trung bình bình phương gốc (Root mean squared error)

Là bình phương của sai số tuyệt đối trung bình, được tính theo công thức:

 Sai số tương đối tuyệt đối (Relative absolute error)

 Lỗi bình phương tương đối gốc (Root relative squared error)

3.2.1 Kịch bản và dữ liệu thực nghiệm

- Dữ liệu thực nghiệm trên thế giới

Trong luận văn này, tác giả sử dụng lại bộ dữ liệu do nhóm nghiên cứu của Đỗ Xuân Chợ xây dựng trong nghiên cứu [20], đây là bộ dữ liệu về URL có độ chính xác và chi tiết cao Bộ dữ liệu này được coi là tiêu chuẩn về URL, phù hợp cho các dự án phân tích và nghiên cứu liên quan đến URL Sử dụng dữ liệu đáng tin cậy giúp đảm bảo tính chính xác và độ tin cậy của kết quả nghiên cứu về URL trong luận văn.

[14, 15, 16, 17] Nhƣ vậy, đối với bộ dữ liệu trên thế giới, luận văn thu thập đƣợc khoảng 470.000 URL Trong đó có khoảng 70.000 URL độc và 400.000 URL sạch

- Dữ liệu thực nghiệm về URL độc đƣợc thu thập tại Việt Nam

Để đảm bảo luận văn phù hợp với môi trường thực tế tại Việt Nam, nghiên cứu đã sử dụng bộ dữ liệu thu thập tại Cục An Toàn Thông Tin Việt Nam, gồm 111,986 URL độc lập Bộ dữ liệu này giúp đề xuất các giải pháp xác thực phù hợp với bối cảnh Việt Nam, từ đó nâng cao tính khả thi và ứng dụng thực tiễn của các phương pháp nghiên cứu trong lĩnh vực an toàn thông tin.

Dựa trên bộ dữ liệu thu thập được, tác giả đã trộn và chia dữ liệu một cách ngẫu nhiên, trong đó 80% để huấn luyện mô hình và 20% để kiểm thử và phát hiện Tiêu chí đánh giá hiệu quả của mô hình đóng vai trò quan trọng trong quá trình phân tích dữ liệu, giúp xác định mức độ chính xác và tin cậy của các kết quả.

Khi xây dựng mô hình học máy, việc đánh giá độ hiệu quả của mô hình là bước quan trọng để xác định khả năng phân loại chính xác và so sánh các mô hình khác nhau Các chỉ số đánh giá thường được sử dụng bao gồm độ chính xác (Accuracy), đo lường tỷ lệ dự đoán đúng so với tổng số điểm trong tập dữ liệu kiểm thử Độ chính xác được tính bằng tỷ lệ giữa số điểm dự đoán đúng và tổng số điểm trong dữ liệu kiểm thử, giúp đánh giá chính xác của mô hình trong việc dự đoán kết quả.

- Số đúng dương (TP- True positive): số URL độc được phân loại URL độc

- Số sai âm (FN - False negative): số URL độc đƣợc phân loại URL sạch

- Số đúng âm (TN- True negative): số URL sạch đƣợc phân loại URL sạch

- Số sai dương (FP - False positive): số URL sạch được phân loại URL độc

Confusion matrix giúp cung cấp cái nhìn rõ hơn về hiệu quả của mô hình phân loại, ngoài độ chính xác (Accuracy) phản ánh tỷ lệ dữ liệu được phân loại đúng Trong đó, nó cho thấy chính xác từng lớp cụ thể, lớp nào được phân loại đúng nhiều nhất và những lớp dễ bị nhầm lẫn Việc phân tích confusion matrix là bước quan trọng để đánh giá sâu hơn về hiệu suất của mô hình và những điểm cần cải thiện.

Bạn có thể sử dụng ma trận nhầm lẫn (Confusion Matrix) để đánh giá hiệu quả của mô hình, bằng cách hiển thị số điểm dữ liệu thực sự thuộc vào mỗi lớp và dự đoán của mô hình cho từng lớp Ma trận này giúp xác định chính xác, nhầm lẫn và độ chính xác của các dự đoán, từ đó tối ưu hóa hiệu suất của hệ thống phân loại Sử dụng Confusion Matrix là phương pháp quan trọng trong phân tích dữ liệu để theo dõi và cải thiện độ chính xác của mô hình.

Bảng 2.2 Thành phần trong Confusion matrix

URL độc thực tế TP FN

Trong hệ thống kiểm tra URL sạch thực tế FP TN, độ chính xác (Precision) đo lường tỷ lệ các điểm true positive trong tổng số điểm được phân loại là dương tính (TP + FP) Giá trị precision cao đồng nghĩa với việc hệ thống có khả năng phân loại các điểm dương tính chính xác cao, giúp giảm thiểu các kết quả sai sót và nâng cao độ tin cậy của dữ liệu Do đó, nâng cao độ chính xác là yếu tố quan trọng để đảm bảo hiệu quả của quy trình kiểm duyệt URL sạch.

Độ bao phủ (Recall) là tỷ lệ phần trăm điểm true positive trong tổng số các điểm thực sự là positive (TP+FN), giúp đánh giá khả năng phát hiện các điểm dương tính của mô hình Một giá trị recall cao đồng nghĩa với tỷ lệ bỏ sót các điểm thực sự positive thấp hơn, thể hiện mức độ nhạy của mô hình trong việc nhận diện các điểm positive Vì vậy, độ bao phủ đóng vai trò quan trọng trong việc đánh giá hiệu quả của các thuật toán phân loại, đặc biệt trong các ứng dụng yêu cầu phát hiện chính xác các điểm positive.

* 100% (3.3) Độ đo (F1-score): là harmonic mean của precision và recall F1 càng cao, bộ phân loại càng tốt

FPR (tỷ lệ đoán nhầm) đƣợc tính theo công thức sau:

3.2.2 Kết quả thực nghiệm a) Kết quả thực nghiệm huấn luyện

Bảng 2.3 Kết quả thực nghiệm huấn luyện model phát hiện URL độc sử dụng thuật toán RF Độ đo

Accuracy Precision Recall F1-score FPR FNR

Bảng 2.4 Kết quả thực nghiệm huấn luyện model phát hiện URL độc sử dụng thuật toán SVM Độ đo Nhân sử dụng

Accuracy Precision Recall F1-score FPR FNR

Dựa trên bảng 2.3 và 2.4, thuật toán RF cho thấy hiệu quả vượt trội hơn so với SVM trong bài nghiên cứu Kết quả so sánh giữa các phương pháp này được trình bày rõ ràng trong luận văn, đồng thời phù hợp với kết quả thực nghiệm đã được thực hiện trong nghiên cứu Điều này cho thấy thuật toán RF có khả năng xử lý dữ liệu tốt hơn và đạt hiệu quả cao hơn trong các bài toán phân loại và dự đoán.

Kết quả nghiên cứu này thấp hơn nhiều so với các kết quả đã được công bố trong các nghiên cứu trước đó, chủ yếu do luận văn đã sử dụng nhiều URL phishing thực tế tại Việt Nam chưa có trong cơ sở dữ liệu chính thức Điều này dẫn đến việc một số hành vi phishing chưa được ghi nhận đầy đủ, ảnh hưởng đến độ chính xác của kết quả.

Kết luận chương 3

- Mô tả công cụ weka hỗ trợ phân tích và đánh giá dữ liệu

Tiến thành đã thực hiện thử nghiệm đánh giá mô hình phát hiện URL độc bằng phương pháp học máy Kết quả thực nghiệm cho thấy, khi sử dụng các thuộc tính và đặc trưng của URL được trình bày, mô hình này mang lại hiệu quả phát hiện URL độc tốt nhất.

52 khi sử dụng thuật toán Random foress Từ kết quả này, tác giả sẽ áp dụng mô hình phát hiện URL độc vào ứng dụng phát hiện URL độc

XÂY DỰNG ỨNG DỤNG PHÁT HIỆN URL ĐỘC

Tiêu đề	Nghiên cứu phát hiện url độc dựa trên phương pháp học máy
Tác giả	Dương Sỹ Mạnh
Người hướng dẫn	TS. Đỗ Xuân Chợ
Trường học	Đại học Mở Hà Nội
Chuyên ngành	Công nghệ Thông tin
Thể loại	Luận văn Thạc sĩ
Năm xuất bản	2022
Thành phố	Hà Nội

Định dạng
Số trang	74
Dung lượng	3,34 MB