1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phát hiện website lừa đảo dựa trên mô hình phân lớp random forest

60 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phát Hiện Website Lừa Đảo Dựa Trên Mô Hình Phân Lớp Random Forest
Tác giả Lý Thanh Tùng
Người hướng dẫn TS. Nguyễn Đình Hoa Cương
Trường học Trường Đại Học Kinh Tế Huế
Chuyên ngành Hệ Thống Thông Tin Kinh Tế
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2019
Thành phố Huế
Định dạng
Số trang 60
Dung lượng 1,24 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Cấu trúc

  • PHẦN I. MỞ ĐẦU (11)
    • 1. Lý do chọn đề tài (11)
    • 2. Mục tiêu nghiên cứu (11)
    • 3. Đối tượng nghiên cứu (12)
    • 4. Phương pháp nghiên cứu (12)
    • 5. Cấu trúc của Khóa luận (12)
  • PHẦN II. NỘI DUNG NGHIÊN CỨU (13)
  • CHƯƠNG I. CƠ SỞ LÝ THUYẾT (13)
    • 1.1. Tổng quan về khai phá dữ liệu (13)
      • 1.1.1. Nhu cầu phát hiện tri thức từ dữ liệu (13)
      • 1.1.2. Khai phá dữ liệu (14)
      • 1.1.3. Các lĩnh vực ứng dụng (16)
    • 1.2. Các phương pháp khai phá dữ liệu (16)
      • 1.2.1. Khai phá luật kết hợp (16)
        • 1.2.1.1. Giới thiệu về Luật kết hợp (16)
        • 1.2.1.2. Thuật toán Apriori (17)
        • 1.2.1.3. Thuật toán FP-Growth (17)
        • 1.2.1.4. Ứng dụng Khai phá luật kết hợp (18)
      • 1.2.2. Phân cụm (18)
        • 1.2.2.1. Phân cụm phẳng (18)
        • 1.2.2.2. Phân cụm phân cấp (19)
      • 1.2.3. Phân lớp (19)
        • 1.2.3.1. Mơ hình phân lớp Nạve Bayes (19)
        • 1.2.3.2. Mô hình phân lớp K-NN (20)
        • 1.2.3.3. Mô hình phân lớp Support Vector Machines (21)
        • 1.2.3.4. Mô hình phân lớp Mạng Nơ-ron nhân tạo (22)
      • 1.2.4. Hồi quy (23)
    • 1.3. Phát biểu bài toán nghiên cứu (24)
    • 1.4. Lý thuyết về mô hình phân lớp Random Forest (24)
      • 1.4.1. Giới thiệu chung (24)
      • 1.4.2. Cơ sở lý thuyết (24)
        • 1.4.2.1. Khái niệm (24)
        • 1.4.2.2. Cây quyết định (25)
        • 1.4.2.3. Random Forest (26)
      • 1.4.3. Nguyên tắc hoạt động (26)
      • 1.4.4. Ứng dụng (27)
    • 1.5. Các công trình liên quan (27)
  • CHƯƠNG II. XÂY DỰNG MÔ HÌNH PHÂN LỚP VÀ ỨNG DỤNG DỰ ĐOÁN (34)
    • 2.1. Mô tả bộ dữ liệu (34)
      • 2.1.1. Giới thiệu và mô tả dữ liệu (34)
      • 2.1.2. Thông tin thuộc tính (35)
    • 2.2. Xây dựng mô hình (41)
    • 2.3. Phương pháp đánh giá mô hình (41)
      • 2.3.1. Tổng quan về Receiver Operating Characteristic (41)
      • 2.3.2. Xây dựng ROC để đánh giá (42)
    • 2.4. Xây dựng ứng dụng dự đoán website lừa đảo (43)
  • CHƯƠNG III. THÍ NGHIỆM VÀ KẾT QUẢ (44)
    • 3.1. Thiết lập thí nghiệm (44)
      • 3.1.1. Phân lớp với các bộ phân lớp cơ bản (44)
      • 3.1.2. Phân lớp với mô hình Random Forest (47)
      • 3.1.3. Thiết lập mô hình đánh giá (47)
      • 3.1.4. Thiết lập ứng dụng dự đoán website lừa đảo (51)
        • 3.1.4.1. Chuẩn bị bộ dữ liệu Unlabel (51)
        • 3.1.4.2. Tạo ứng dụng sử dụng Java Swing (53)
    • 3.2. Kết quả thí nghiệm (55)
  • PHẦN III. KẾT LUẬN (56)
    • 1. Kết quả đạt được (56)
    • 2. Hạn chế của đề tài (56)
    • 3. Hướng phát triển của đề tài (56)

Nội dung

NỘI DUNG NGHIÊN CỨU

1.1.Tổng quan về khai phá dữ liệu

1.1.1 Nhu cầu phát hiện tri thức từdữliệu

Tốc độ gia tăng dữ liệu do con người tạo ra, lưu giữ và truyền dẫn đang diễn ra mạnh mẽ, đáp ứng nhu cầu đa dạng trong đời sống xã hội Sự phát triển công nghệ đã tạo ra các thiết bị xử lý, lưu trữ và truyền dẫn dữ liệu, dẫn đến hiện tượng "bùng nổ thông tin".

Sự phát triển công nghệ phần cứng máy tính đã thúc đẩy sự tiến bộ của công nghệ cơ sở dữ liệu (CSDL) và công nghệ mạng, ảnh hưởng đến tổ chức, quản lý CSDL và truyền dẫn dữ liệu Công nghệ CSDL không ngừng phát triển để đáp ứng nhu cầu quản lý dữ liệu, đặc biệt trong lĩnh vực quản lý Nhiều hệ quản trị cơ sở dữ liệu đã được phát triển, nâng cao năng lực quản trị Một ví dụ rõ ràng là sự xuất hiện của các CSDL có kích thước lên tới hàng trăm TB (1TB = 1000 GB) Đồng thời, sự phát triển của công nghệ mạng về quy mô và tốc độ cũng đã góp phần vào việc tăng cường khả năng truyền dẫn thông tin.

Để thích ứng với hoàn cảnh hiện tại, các phương pháp và công cụ xử lý dữ liệu đã được phát triển Mục tiêu chính là xây dựng và cải tiến các phương pháp này nhằm phát hiện tri thức tiềm ẩn trong cơ sở dữ liệu, tạo nên nền tảng cho lĩnh vực phát hiện tri thức.

Trường Đại học Kinh tế Huế

CƠ SỞ LÝ THUYẾT

Tổng quan về khai phá dữ liệu

1.1.1 Nhu cầu phát hiện tri thức từdữliệu

Tốc độ gia tăng vượt bậc về dung lượng dữ liệu do con người tạo ra, lưu trữ và truyền dẫn, cùng với nhu cầu ngày càng cao trong mọi lĩnh vực của đời sống xã hội và sự phát triển công nghệ, đã dẫn đến "hiện tượng bùng nổ thông tin".

Sự phát triển của công nghệ phần cứng máy tính đã thúc đẩy sự tiến bộ trong công nghệ cơ sở dữ liệu (CSDL) và công nghệ mạng Công nghệ CSDL không ngừng phát triển để đáp ứng nhu cầu quản lý dữ liệu, đặc biệt trong quản lý Nhiều hệ quản trị cơ sở dữ liệu đã được phát triển, nâng cao năng lực quản lý dữ liệu Một ví dụ rõ ràng là sự xuất hiện của các CSDL có kích thước hàng trăm TB Đồng thời, sự phát triển của công nghệ mạng về quy mô và tốc độ đã cải thiện đáng kể khả năng truyền dẫn thông tin.

Để thích ứng với hoàn cảnh hiện tại, các phương pháp và công cụ xử lý dữ liệu lớn đã được phát triển Mục tiêu chính của việc xây dựng và phát triển những phương pháp này là nhằm phát hiện tri thức tiềm ẩn trong cơ sở dữ liệu, thuộc lĩnh vực phát hiện tri thức.

Trường Đại học Kinh tế Huế

Sơ đồ1 1: Tiến hóa của công nghệ cơ sởdữliệu theo quan điểm của J.Han và M.Kamber

Nguồn: Nguyễn Hà Nam, Nguyễn Trí Thành, Hà Quang Huy (2016)

Khai phá dữ liệu là quá trình phân loại, sắp xếp và phân tích các tập dữ liệu lớn nhằm xác định các mẫu và thiết lập mối liên hệ Mục tiêu của quá trình này là chuyển đổi bộ dữ liệu thành một cấu trúc dễ hiểu, từ đó giúp giải quyết các vấn đề liên quan đến phân tích dữ liệu.

Trường Đại học Kinh tế Huế

Hình 1 1 Quy trình khai phá dữliệu Nguồn:https://bienuit.wordpress.com/khaiphadulieu

Quá trình khai phá dữliệu bao gồm:

-Bước 1: Xác định vấn đề, lĩnh vực cần nghiên cứu và dữ liệu liên quan để giải quyết vấn đề(Problem understanding and data understanding).

-Bước 2: Chuẩn bịdữ liệu (Data preparation), bao gồm các quá trình làm sạch dữliệu

(Data cleaning), tích hợp dữliệu (Data integration), chọn dữliệu (Data selection), biến đổi dữ liệu (Data transformation).

Bước 3 trong quy trình là khai phá dữ liệu, trong đó cần xác định nhiệm vụ khai thác và lựa chọn kỹ thuật phù hợp Kết quả của bước này mang lại một nguồn tri thức thô quý giá.

-Bước 4: Đánh giá (Evaluation): dựa trên một số tiêu chí tiến hành kiểm tra và lọc nguồn tri thức thu được.

Bước 5 trong quy trình là triển khai (Deployment), nơi chúng ta dựa vào kết quả đánh giá và chọn lọc nguồn tri thức để thực hiện việc áp dụng các ứng dụng và công cụ vào thực tiễn nhằm thu được lợi ích tối đa.

Trường Đại học Kinh tế Huế

Khai phá dữ liệu có ứng dụng rộng rãi trong nhiều lĩnh vực khác nhau Trong thiên văn học, nó giúp nhận dạng và phân loại nhanh chóng các sự kiện bầu trời theo thời gian thực Trong tin sinh học, khai phá dữ liệu hỗ trợ phân tích hệ thống nhằm khám phá kiến thức mới Trong thương mại điện tử, nó được sử dụng để phân khúc thị trường, phân tích giỏ hàng và dự báo hành vi khách hàng Với sự gia tăng tỉ lệ người dùng internet, việc phát hiện kẻ lừa đảo trực tuyến trở thành một vấn đề quan trọng, và khai phá dữ liệu đóng vai trò trong việc này Ngoài ra, trong quảng cáo, khai phá dữ liệu giúp thu thập thông tin người dùng để đề xuất quảng cáo phù hợp với sở thích của họ Các lĩnh vực khác như bào chế thuốc, viễn thông, thể thao giải trí, đầu tư và chăm sóc sức khỏe cũng có thể ứng dụng khai phá dữ liệu.

Các phương pháp khai phá dữ liệu

1.2.1 Khai phá luật kết hợp

1.2.1.1 Giới thiệu vềLuật kết hợp

Khai phá luật kết hợp là quá trình tìm kiếm các mẫu có tần suất cao và các mối quan hệ giữa các tập hợp đối tượng trong cơ sở dữ liệu giao dịch, cơ sở dữ liệu quan hệ hoặc các kho chứa thông tin khác Mục tiêu chính là xác định tất cả các tập phổ biến có trong dữ liệu.

Bài toán của Luật kết hợp được diễn giải như sau.

Cho biết = { , , … , } là tập các giao dịch với là số các giao dịch có trong

Tập hợp $T = \{a_1, a_2, \ldots, a_n\}$ là một tập gồm $n$ mục khác nhau xuất hiện trong không gian Mỗi giao dịch được định nghĩa là một tập hợp các mục xuất hiện đồng thời, với $X \subseteq T$ Trong đó, $X$ và $T$ là các tập mục liên quan.

Một luật kết hợp được biểu diễn bời công thức:

Một giao dịch chứa một tập mục nếu nó là tập con của tập mục đó Độ hỗ trợ của một tập mục trong một tập giao dịch là số giao dịch chứa tập mục đó, được viết tắt là Support Để đo độ mạnh của một luật kết hợp, chúng ta sử dụng hai chỉ số: độ hỗ trợ và độ tin cậy Độ hỗ trợ của một luật là tỷ lệ phần trăm (%) các giao dịch trong tập chứa cả hai mục Nó giúp xác định mức độ phổ biến của các giao dịch chứa tập mục trong tổng số tất cả các giao dịch Công thức tính độ hỗ trợ là một yếu tố quan trọng trong phân tích dữ liệu.

Trường Đại học Kinh tế Huế

(2) Độ tin cậy của luật = > là tỉlệ % các giao dịch trong chứa cả và trên tổng sốcác giao dịch trong chỉchứa Công thức tính độtin cậy (confidence):

(3) Những luật kết hợp thỏa mãn điều kiện độhỗ trợtối thiểu ( _ ) và độtin cậy tối thiểu ( _ )được gọi là các luật mạnh.

Nhìn chung, khai phá luật kết hợp là một quá trình gồm 2 bước sau:

-Bước 1: Tìm tất cả các tập mục thường xuyên Tập mục thường xuyên là tập mục mà độhỗtrợcủa nó lớn hơn hoặc bằng _

-Bước 2: Tạo các luật kết hợp mạnh từ tập mục thường xuyên Luật kết hợp mạnh là những luật có độhỗtrợ và độtin cậy lớn hơn _ và _ tương ứng.

Apriori [2] là một thuật toán được giới thiệu lần đầu vào năm 1994 bởi R.Agrawal và

R.Srikant, nhằm khai phá tập mục phổbiến nhịphân.

Thuật toán này thực hiện lặp lại việc tìm kiếm theo mức, sửdụng thông tinởmức để duyệt mức + 1 Thuật toán này được tiến hành như sau:

Các tập mục thường xuyên có độ dài 1 được tạo ra bằng cách duyệt qua toàn bộ dữ liệu để đếm sự xuất hiện của từng phần tử, với điều kiện giá trị này phải lớn hơn hoặc bằng một ngưỡng nhất định Kết quả của quá trình đếm này được ký hiệu là L.

L được sử dụng để tìm kiếm các tập mục thường xuyên có độ dài 2 Quá trình này được lặp lại cho đến khi không còn tìm thấy tập mục thường xuyên có độ dài k thỏa mãn điều kiện đã đề ra.

Thuật toán FP-Growth [2]được giới thiệu năm 2000 bời Jiawei Hai Jian Pei và Yiwen

Yin nhằm khắc phục hai nhược điểm của Thuật toán Apriori đó là:

- Chi phí lớn cho một số lượng lớn các tậpứng cử.

- Đòi hỏi lặp lại nhiều lần duyệt CSDL, đểkiểm tra tất cảcác tậpứng cử.

Thuật toán này được tiến hành như sau:

Trường Đại học Kinh tế Huế

Duyệt qua cơ sở dữ liệu lần đầu tiên để tính toán độ hỗ trợ của tất cả các 1-itemset, sau đó loại bỏ những mục có độ hỗ trợ thấp hơn ngưỡng min_sup Các mục còn lại sẽ được sắp xếp theo thứ tự giảm dần của độ hỗ trợ.

(cũng tức là giảm dần theo sốlần xuất hiện trong CSDL), sau đó ta nhận được danh sách L đã sắp xếp.

- Duyệt CSDL lần hai, với mỗi tác vụt, loại bỏcác mục không đủ độhỗtrợ, các mục còn lại theo thứtựgiảm dần độhỗtrợ được đưa vào cây FP-tree.

- Tìm các tập mục phổ biến trên cây FP-tree đã xây dựng mà không duyện lại CSDL nữa.

1.2.1.4 Ứng dụng Khai phá luật kết hợp

Khai phá luật kết hợp có nhiều ứng dụng quan trọng, bao gồm phân tích để hỗ trợ kinh doanh, tìm hiểu thói quen mua sắm của khách hàng, phát hiện vi phạm bản quyền tài liệu, gợi ý và hỗ trợ chẩn đoán bệnh tật, cũng như hỗ trợ ra quyết định trong lĩnh vực chứng khoán Ngoài ra, các kỹ thuật mới như luật kết hợp hiếm và luật kết hợp âm đã được phát triển để nâng cao khả năng và mở rộng phạm vi ứng dụng của khai phá luật kết hợp.

Phân cụm (Clustering) là quá trình nhóm dữ liệu thành các "cụm" nhằm phát hiện các mẫu phân bố dữ liệu trong lĩnh vực ứng dụng Đây là một phương pháp học máy không giám sát, nhằm khám phá các nhóm tự nhiên và phân phối thống kê của dữ liệu.

Giải thuật k-means là một phương pháp phân cụm phẳng, nhận đầu vào là tập dữ liệu D với n phần tử và số lượng cụm đầu ra k Kết quả của thuật toán là k cụm dữ liệu được phân loại rõ ràng.

Giải thuật k-means được trình bày như sau:

1 Chọn ngẫu nhiên k phần tửtrong tập làm trọng tâm ban đầu cho các cụm.

2 Phân các phần tử dữ liệu trong vào các cụm dựa vào độ tương đồng của nó với trọng tâm của các cụm Phần tửdữliệu sẽ được phân vào cụm có độ tương đồng lớn nhất.

3 Tính lại trọng tâm của các cụm.

4 Nhảy đến bước 2 cho đến khi quá trình hội tụ (không có sựgán lại các phần tửdữ liệu giữa các cụm, hay trọng tâm của các cụm là không đổi).

Trường Đại học Kinh tế Huế

Khác với các giải thuật phân cụm phẳng, thuật toán phân cụm phân cấp tạo ra một cấu trúc cây cho các cụm dữ liệu Các phương pháp phân cụm phân cấp phổ biến bao gồm thuật toán phân cụm gộp, thuật toán Birch, thuật toán Diana và một số thuật toán khác.

Phân cụm là một phương pháp quan trọng trong khai phá dữ liệu, bao gồm nhiều kỹ thuật như phân cụm dựa vào mật độ, phân cụm theo lưới, phân cụm theo mô hình, phân cụm đơn định, phân cụm cho dữ liệu có chiều lớn, phân cụm dựa trên ràng buộc, phân cụm theo lô và phân cụm gia tăng Các phương pháp này giúp tổ chức và phân loại dữ liệu một cách hiệu quả.

Phân lớp (Classification) là một phương pháp dự đoán cho phép phân loại đối tượng vào các lớp đã định Đây là một hình thức phân tích dữ liệu phổ biến, giúp tạo ra các mô hình mô tả các lớp dữ liệu quan trọng, từ đó nâng cao khả năng hiểu biết về dữ liệu Phân lớp không chỉ giúp hiểu rõ hơn về dữ liệu mà còn được sử dụng để dự đoán nhãn lớp cho dữ liệu đầu vào Mô hình phân lớp dựa trên các tập dữ liệu có sẵn, được chuyển đổi thành các vector với số chiều tương ứng với các trường trong dữ liệu.

Dựa trên tập dữ liệu dạng vector, các thuật toán chuyên biệt sẽ được áp dụng để thiết lập ánh xạ $f(x) = y$, với $y$ là tập các nhãn và $x$ là vector có nhiều chiều Mô hình $f(x)$ được hình thành thông qua quá trình học.

Phát biểu bài toán nghiên cứu

Gọi = { , , , … }là tập dữliệu mô tảwebsite Mỗi website được mô tảbởi

30 thuộc tính Hay nói các khác xi được diễn đạt như một vector trong không gian 30 chiều.

Và = { , }là tập các nhãn lớp được áp dụng cho từng website với = Phishing

–lừa đảo và = Legitimate–hợp pháp.

Bài toán phát hiện website lừa đảo được phát biểu như sau:

Gọi là hàm phát hiện website lừa đảo

Lý thuyết về mô hình phân lớp Random Forest

Phương pháp chung của Random Forest [8] được tạo ra bởi Tin Kam Ho vào năm

1995 bằng các sửdụng phương pháp không gian con ngẫu nhiên (Random Subspace Method).

Thuật toán này, xuất hiện khoảng 10 năm trước, đã nhanh chóng trở thành một trong những phương pháp khai thác dữ liệu phổ biến và hiệu quả nhất hiện nay.

Như tên gọi của nó, Random Forest dựa trên cơ sở:

2 Forest = Rừng, nhiều cây quyết định.

Random Forest là một thuật toán thuộc họ cây quyết định, hoạt động bằng cách xây dựng nhiều cây quyết định để dự đoán kết quả Kết quả cuối cùng được xác định dựa trên dự đoán của cây quyết định nào chiếm ưu thế nhất Để đảm bảo rằng các cây quyết định không đưa ra cùng một câu trả lời, Random Forest áp dụng phương pháp chọn ngẫu nhiên các thuộc tính trong quá trình xây dựng.

Theo Wikipedia, Random Forest là một phương pháp học máy hiệu quả cho các nhiệm vụ phân loại và hồi quy Phương pháp này hoạt động bằng cách xây dựng nhiều cây quyết định trong quá trình đào tạo và từ đó đưa ra các nhãn lớp cho phân loại hoặc dự đoán giá trị trung bình cho hồi quy từ các cây riêng lẻ.

Trường Đại học Kinh tế Huế

1.4.2.2 Cây quyết định Đơn vị cơ bản của một khu rừng đó chính là cây Tương tự như vậy, đơn vị cơ bản nhất của RF là những cây quyết định Cây quyết địnhđược định nghĩalà một cấu trúc luồng dạng cây với mỗi nút trung gian (không phải nút lá) đại diện cho mỗi phép thửtrên một thuộc tính Mỗi nhánh đại diện cho mỗi đầu ra (kết quả) của phép thử Và mỗi nút lá (nút cuối cùng) đại diện cho mỗi nhãn lớp Nút trên cùng của cây được gọi là nút gốc Bằng cách đi theo các giá trị thuộc tính trên cây, ta sẽbiết giá trịdự đoán.Một đường đi từ nút gốc đến một nút lá biểu đạt dự đoán phân lớp cho một bộ dữ liệu tương ứng Cây quyết định có thể dễ dàng chuyển đổi thành các luật phân lớp.

Sơ đồ1 2 Quy trình quyết định dự đoán nhiệt độ- Cây quyết định cơ bản

Nguồn:https://medium.com/random-forest

Trường Đại học Kinh tế Huế

Random Forest (RF) là một thuật toán học máy có giám sát, kết hợp nhiều cây quyết định để tạo thành một mô hình duy nhất Mặc dù mỗi cây quyết định có thể đưa ra dự đoán không chính xác, nhưng khi kết hợp lại, chúng mang đến kết quả chính xác hơn thông qua việc trung bình hóa.

Khi bạn dự định đi du lịch vào kỳ nghỉ hè nhưng không biết nên chọn điểm đến nào, bước đầu tiên là hỏi ý kiến từ bạn bè Họ sẽ chia sẻ những trải nghiệm và cảm nhận về những nơi họ đã từng đến Dựa vào những phản hồi này, bạn có thể nhận được những lời khuyên hữu ích Tiếp theo, việc hỏi thêm nhiều người bạn khác sẽ giúp bạn thu thập nhiều ý kiến khác nhau Cuối cùng, bạn có thể lựa chọn những địa điểm nhận được nhiều lời khuyên nhất để đưa ra quyết định cho chuyến đi của mình Đây là một ví dụ điển hình về phương pháp rừng ngẫu nhiên trong việc tìm kiếm thông tin.

Thuật toán RF sử dụng kỹ thuật Bootstrap Aggregating (Bagging) nhằm nâng cao độ chính xác và ổn định cho các thuật toán học máy trong phân lớp và hồi quy.

- RF là một thuật toán đơn giản.

- Có thểsửdụng cho bài toán Phân lớp và Hồi quy.

- Có thểlàm việc được với các dữliệu thiếu giá trị.

-Tránh được trường hợp Overfitting tập dữliệu.

- Có thểtạo mô hình cho các giá trịphân loại.

- Khối lượng tính toán lớn nhưng với công nghệngày càng phát triển thìđiều này ngày càng được khắc phục.

- Một số lượng lớn cây có thể làm cho thuật toán bị chậm và không hiệu quả đối với các dự đoán theo thời gian thực.

Random Forest hoạt động bằng cách đánh giá nhiều cây quyết định ngẫu nhiên, và lấy ra kết quả được đánh giá tốt nhất trong sốkết quảtrảvề.

Mã giải cho hoạt động của RF [9]:

-Bước 1: Chọn ngẫu nhiên“ ”thuộc tính từtập“ ”thuộc tính.Để <

-Bước 2: Từtập“ ”thuộc tính, tính toán ra nút“ ”là tốt nhất cho nút phân loại.

Trường Đại học Kinh tế Huế

-Bước 4: Lặp lại bước 1-3cho đến khi đạt đến“ ”nút.

-Bước 5: Lặp lại bước 1-4đểtạo ra“ ”cây.

Sau các bước trên chúng ta có một Random Forest.

Các bước dự đoán sửdụng Random Forest đã huấn luyện:

-Bước 1: Lấy các thuộc tính kiểm thửvà sửdụng các Cây quyết định đã tạo ra để dự đoán kết quả, lưu nó vào một danh sách.

-Bước 2: Tính toán số lượng trên toàn bộrừng cho từng kết quả.

-Bước 3: Lấy kết quảcó số lượng lớn nhất làm kết quảcuối cho mô hình.

Thuật toán Random Forest được sửdụng trong rất nhiều lĩnh vực khác nhau như Ngân hàng, Chứng khoán, Y học và Thương mại điện tử.

Trong ngành ngân hàng, việc phân tích dữ liệu khách hàng giúp phát hiện những người có khả năng sử dụng dịch vụ thường xuyên và trả nợ đúng hạn Đồng thời, nó cũng hỗ trợ trong việc nhận diện các hành vi gian lận và những khách hàng có ý định lừa đảo.

Trong lĩnh vực chứng khoán, việc phân tích hành vi của cổ phiếu trong tương lai là rất quan trọng, giúp nhà đầu tư dự đoán khả năng biến động của giá cổ phiếu và đưa ra các quyết định đầu tư hợp lý.

Trong Y học, việc xác định sự kết hợp chính xác của các thành phần là rất quan trọng Nó cũng giúp phân tích lịch sử y tế của bệnh nhân nhằm xác định bệnh một cách hiệu quả.

Và cuối cùng, trong Thương mại điện tử, nó được sửdụng để xác định xem khách hàng có thực sựthích sản phẩm đó hay không.

Các công trình liên quan

Ozgur Koray Sahingoz và cộng sự (2019) đã phát triển một phương pháp phát hiện lừa đảo từ URL dựa trên học máy, tạo ra một hệ thống chống lừa đảo thời gian thực Hệ thống này sử dụng bảy thuật toán phân loại khác nhau cùng với các tính năng được trích xuất từ xử lý ngôn ngữ tự nhiên.

Hệ thống xử lý ngôn ngữ này có những đặc điểm nổi bật như: tính độc lập ngôn ngữ, khả năng sử dụng một lượng lớn dữ liệu lừa đảo và dữ liệu hợp pháp, thực thi thời gian thực, phát hiện các trang web mới, độc lập với các dịch vụ bên thứ ba và sử dụng các phân loại giàu tính năng Để đánh giá hiệu suất của hệ thống, một bộ dữ liệu mới đã được xây dựng và kết quả thử nghiệm được thực hiện trên hệ thống.

Trường Đại học Kinh tế Huế đã tiến hành nghiên cứu và so sánh các thuật toán phân lớp, trong đó thuật toán RF sử dụng các tính năng dựa trên NLP đạt hiệu suất tốt nhất với tỷ lệ chính xác 97,98% trong việc phát hiện các URL lừa đảo.

Routhu Srinivasa Rao và Alwyn Roshan Pais (2018) đã phát triển một phương pháp phát hiện lừa đảo trang web dựa trên học máy, giới thiệu một mô hình phân loại mới với các tính năng heuristic trích xuất từ URL, mã nguồn và dịch vụ bên thứ ba Mô hình này được đánh giá bằng tám thuật toán học máy, trong đó thuật toán RF đạt độ chính xác cao nhất là 99.31% Các thí nghiệm tiếp theo với các phân loại rừng ngẫu nhiên khác nhau cho thấy phân loại PCA-RF đạt độ chính xác 99.55%, vượt trội hơn so với các mô hình cơ sở hiện có.

Shinelle Hutchinson và cộng sự (2018) đã phát triển một phương pháp phát hiện website lừa đảo dựa trên mô hình phân lớp Random Forest Trong nghiên cứu, họ phân tích quá trình phát hiện lừa đảo qua web bằng cách sử dụng RF, tập trung vào một số tính năng URL quan trọng Các tính năng này đã được xác định và nghiên cứu, cho thấy rằng hiệu quả và hiệu suất phát hiện lừa đảo đã được cải thiện đáng kể.

S.Jagadeesan (2018) [13]đã giới thiệu phương pháp phân tích lừa đảo URL bằng cách sử dụng Random Forest Trong phương pháp của Jagadeesan, ông chỉ sử dụng thông tin về

URL của trang web để xác định xem trang web đó có phải là trang web lừa đảo hay hợp pháp.

Người dùng không cần truy cập vào trang web để xác định tính lừa đảo của nó, giúp tránh tiếp xúc với mã độc hại Jagadeesan đã thảo luận về việc sử dụng dữ liệu meta của các URL để đánh giá tính chất của chúng Các thuật toán RF và SVM có thể được áp dụng cho tập dữ liệu chứa các đặc điểm này, với thuật toán RF mang lại lợi ích là không yêu cầu quá nhiều dữ liệu.

Ebubekir Buber, Banu Diri và Ozgur Koray Sahingoz (2017) đã phát triển một phương pháp để phát hiện các cuộc tấn công lừa đảo từ URL thông qua các kỹ thuật NLP Nghiên cứu này giải thích đặc điểm của loại tấn công này và đề xuất một hệ thống dựa trên máy học để nhận diện chúng Hệ thống được giới thiệu đã sử dụng nhiều tính năng được trích xuất từ các kỹ thuật NLP.

Trường Đại học Kinh tế Huế đã triển khai việc kiểm tra các URL liên quan đến Tấn công lừa đảo trước khi mở chúng, sử dụng một số tính năng được trích xuất Nhiều thử nghiệm đã được thực hiện trên hệ thống, và kết quả cho thấy thuật toán hiệu quả nhất trong các thử nghiệm là thuật toán

RF với tỷlệthành công là 89.90%.

Shraddha Parekh và cộng sự (2018) đã phát triển một phương pháp mới nhằm phát hiện trang web lừa đảo thông qua URL Lừa đảo là hành vi bất hợp pháp, trong đó người dùng bị lừa vào các trang web giả mạo để thu thập thông tin cá nhân hoặc tài chính Với sự tiến bộ của công nghệ, các phương pháp lừa đảo cũng ngày càng tinh vi hơn, đòi hỏi phải có các biện pháp bảo mật và phát hiện hiệu quả hơn Bài viết này tập trung vào việc giới thiệu một mô hình sử dụng thuật toán RF để phát hiện các trang web lừa đảo qua phương pháp phân tích URL.

Abdulhamit Subasi và cộng sự (2017) đã giới thiệu phương pháp phát hiện lừa đảo thông minh bằng cách sử dụng phân loại Random Forest, định nghĩa trang web lừa đảo là những trang giả mạo công ty uy tín để đánh cắp thông tin cá nhân Mặc dù nhiều giải pháp đã được đề xuất, việc loại bỏ hoàn toàn mối đe dọa này là không khả thi Khai thác dữ liệu là kỹ thuật hứa hẹn để phát hiện các cuộc tấn công lừa đảo Trong nghiên cứu, một hệ thống thông minh được trình bày nhằm phân loại trang web thành hợp pháp hoặc lừa đảo bằng các kỹ thuật khai thác dữ liệu khác nhau Độ chính xác phân loại, diện tích dưới đường cong ROC và F-measure được sử dụng để đánh giá hiệu suất Kết quả cho thấy phương pháp RF đạt độ chính xác cao nhất 97.36%, với thời gian xử lý nhanh, có khả năng phát hiện lừa đảo trên nhiều loại trang web khác nhau.

Lee Jin Lee, Doo Ho Park và Chang Hoon Lee (2015) đã giới thiệu một phương pháp phát hiện lừa đảo dựa trên Web Heuristic Trong những năm gần đây, các cuộc tấn công lừa đảo đã gia tăng đáng kể trên các dịch vụ công nghệ Web, ảnh hưởng nghiêm trọng đến bảo mật trực tuyến Để ngăn chặn các cuộc tấn công này, nhiều kỹ thuật chống lừa đảo đã được triển khai, mỗi kỹ thuật mang lại những lợi ích riêng.

Trường Đại học Kinh tế Huế vẫn đang đối mặt với vấn đề lừa đảo chưa được loại bỏ hoàn toàn Bài báo nghiên cứu chi tiết về lừa đảo và phân loại quá trình tấn công thành hai giai đoạn: Giai đoạn hạ cánh và Giai đoạn tấn công Họ cũng đề xuất một phương pháp phát hiện lừa đảo dựa trên các trang Web Heuristic, cho thấy độ chính xác phát hiện đạt 98.90% khi sử dụng thuật toán RF.

Kang Leng Chiew và cộng sự (2019) đã giới thiệu khung lựa chọn tính năng kết hợp mới cho hệ thống phát hiện lừa đảo dựa trên học máy Bài viết đề xuất tính năng Hybrid Ensemble cho hệ thống này.

Feature Selection (HEFS) Trong giai đoạn đầu tiên của HEFS, thuật toán Cumulative

Hàm phân phối gradient (CDF-g) đã được khai thác để tạo ra các tập hợp tính năng chính, sau đó được kết hợp với tập hợp dữ liệu nhiễu để hình thành các tập hợp tính năng thức cấp Giai đoạn tiếp theo tạo ra các tính năng cơ bản từ các tập hợp tính năng thức cấp bằng cách sử dụng tập hợp nhiễu loạn chức năng Kết quả thí nghiệm cho thấy HEFS hoạt động tốt nhất khi tích hợp với mô hình phân lớp RF, với khả năng phân biệt chính xác 94.6% giữa các trang web lừa đảo và hợp pháp, chỉ sử dụng 20.8% các tính năng ban đầu Trong một thử nghiệm khác, tổng cộng 10 tính năng cơ bản đã được sử dụng.

RandomForest cho thấy ưu thế vượt trội so với 48 tính năng được sử dụng trong các phân loại SVM, Naive Bayes, C4.5, JRip và Part Kỹ thuật HEFS cũng đã đạt được kết quả hứa hẹn khi được kiểm định với bộ dữ liệu lừa đảo nổi tiếng từ kho lưu trữ UCI Vì vậy, HEFS là một phương pháp lựa chọn tính năng thực tiễn và phù hợp cho các hệ thống phát hiện lừa đảo dựa trên học máy.

XÂY DỰNG MÔ HÌNH PHÂN LỚP VÀ ỨNG DỤNG DỰ ĐOÁN

Mô tả bộ dữ liệu

2.1.1 Giới thiệu và mô tảdữliệu

The Phishing Website Dataset 1 is sourced from the UCI repository, primarily collected from archives such as PhishTank, MillerSmiles, and Google search repositories by Rami Mustafa A.

Mohammad (Đại học Huddersfield), Lee McCluskey (Đại học Huddersfield) và Fadi Thabtah

Đại học Canada Dubai cung cấp thông tin quan trọng về cách nhận biết một website lừa đảo hay hợp pháp, bao gồm 31 thuộc tính (1 thuộc tính nhãn lớp) và 11055 trường hợp nghiên cứu.

Bảng 2.1 Bảng các thuộc tính của bộdữliệu Phishing Website

Trường Đại học Kinh tế Huế

Nguồn:https://archive.ics.uci.edu/datasets/PhishingWebsites Chú giải:

“1” có nghĩa là lừa đảo.

“0” có nghĩa là nghi ngờ.

“-1” có nghĩa là hợp pháp.

Các thuộc tính trong bộ dữ liệu này đã được chứng minh là hợp lý và hiệu quả trong việc dự đoán các trang web lừa đảo Mỗi thuộc tính sẽ được mô tả chi tiết như sau:

Khi một địa chỉ IP được sử dụng thay cho tên miền URL, người dùng nên cẩn trọng vì đây có thể là dấu hiệu cho thấy ai đó đang cố gắng đánh cắp thông tin của họ Ngoài ra, địa chỉ IP cũng có thể được chuyển đổi thành mã thập lục phân.

Luật: Nếu tên miền có địa chỉIP là lừa đảo.Trường hợp còn lại là hợp pháp.

Độ dài của URL có thể là một chỉ số quan trọng để nhận diện các trang web lừa đảo Những kẻ lừa đảo thường sử dụng URL dài để che giấu các phần đáng ngờ trong thanh địa chỉ Qua việc phân tích dữ liệu, chúng tôi đã xác định rằng nếu độ dài của URL lớn hơn hoặc bằng 54 ký tự, thì khả năng URL đó là lừa đảo là rất cao.

Luật:Độdài URL < 54 là hợp pháp và nếu nằm trong khoảng từ 54 đến 75 là nghi ngờ.

Trường hợp còn lại là lừa đảo.

Trường Đại học Kinh tế Huế

- Sửdụng dịch vụrút ngắn URL: Rút ngắn URL là một phương pháp trên World Wide

Một URL có thể được rút ngắn đáng kể mà vẫn dẫn đến trang web mong muốn thông qua việc sử dụng chuyển hướng HTTP trên một tên miền ngắn, liên kết đến trang web có URL dài.

Luật: Có sửdụng dịch vụrút ngắn URL là lừa đảo.Trường hợp còn lại là hợp pháp.

- Sửdụng biểu tượng: Việc sử dụng biểu tượng “@” khiến trình duyệt bỏ qua mọi thứ trước “@” và địa chỉthực thường theo sau “@”.

Luật: URL có biểu tượng “@” =>lừa đảo.Trường hợp còn lại là hợp pháp.

Chuyển hướng bằng cách sử dụng gạch chéo "//" trong đường dẫn URL cho thấy người dùng sẽ được chuyển đến một trang web khác Nếu URL bắt đầu bằng "http", "//" sẽ xuất hiện ở vị trí thứ 6, trong khi nếu bắt đầu bằng "https", "//" sẽ nằm ở vị trí thứ 7.

Luật: Vịtrí xuất hiện cuối cùng của “//” trong URL >7 là lừa đảo.Trường hợp còn lại còn hợp pháp.

- Tiền tốvà hậu tốtrong tên miền: Biểu tượng dấu (-) hiếm khi được sửdụng trong các

URL hợp pháp Những kẻlừa đảo có xu hướng thêm tiền tốhoặc hậu tố được phân tách bằng

(-) vào tên miền để người dùng cảm thấy rằng họ đang xửlý một trang web hợp pháp.

Luật: Tên miền có sửdụng (-) là lừa đảo.Trường hợp còn lại là hợp pháp.

Tên miền phụ và nhiều tên miền phụ là khái niệm quan trọng trong quản lý tên miền Một tên miền bao gồm các tên miền cấp cao theo mã quốc gia, như “vn” trong ví dụ “hce.edu.vn” Để phân loại URL, chúng tôi bỏ qua “www” và “.vn” Nếu số dấu “.” lớn hơn 1, URL sẽ được coi là nghi ngờ, và nếu lớn hơn 2, nó sẽ được phân loại là lừa đảo Ngược lại, nếu URL không có tên miền phụ, nó sẽ được xem là hợp pháp.

Luật: Sốdấu chấm trong tên miền bằng 1 là hợp pháp Sốdấu chấm trong tên miền bằng

2 là nghi ngờ.Trường hợp còn lại là lừa đảo.

Giao thức Secure Sockets Layer (SSL) đóng vai trò quan trọng trong việc bảo vệ dữ liệu trực tuyến Mặc dù HTTP giúp tạo ấn tượng về tính hợp pháp của trang web, nhưng chỉ riêng điều này là không đủ Chứng chỉ SSL cần thiết để đảm bảo an toàn và bảo mật thông tin cho người dùng.

HTTP bao gồm phạm vi của tổ chức phát hành và tuổi của chứng chỉ Qua việc kiểm tra dữ liệu, chúng tôi nhận thấy rằng chứng chỉ uy tín thường có độ tuổi tối thiểu là hai năm.

Trường Đại học Kinh tế Huế

Sử dụng HTTP từ các nhà phát hành đáng tin cậy với chứng nhận có độ tuổi từ 1 năm trở lên là hợp pháp Ngược lại, việc sử dụng HTTP từ các nhà phát hành không đáng tin cậy có thể gây nghi ngờ và trong nhiều trường hợp, có thể được coi là lừa đảo.

Độ dài đăng ký tên miền là một yếu tố quan trọng để xác định độ tin cậy của một trang web Thực tế cho thấy, các trang web lừa đảo thường chỉ tồn tại trong thời gian ngắn, với các tên miền lừa đảo dài nhất chỉ được sử dụng trong vòng 1 năm Ngược lại, các tên miền đáng tin cậy thường được đăng ký trước vài năm.

Luật: Tên miền hết hạn sau 1 năm làlừa đảo Còn không là hợp pháp.

Favicon là biểu tượng đặc trưng liên kết với một trang web cụ thể, giúp người dùng nhận diện trang web trong thanh địa chỉ Nếu favicon được tải lên từ một tên miền khác, trang web đó có thể bị coi là lừa đảo.

Luật:Favcon được tải từtên miền bên ngoài là hợp pháp Còn không là nghi ngờ.

Sử dụng cổng không chuẩn là một tính năng quan trọng trong việc xác thực sự tăng giảm của dịch vụ trên máy chủ Để kiểm soát sự xâm nhập hiệu quả, chỉ nên mở những cổng cần thiết, vì nhiều tường lửa và máy chủ Proxy có cài đặt mặc định.

Network Address Translation (NAT) giúp bảo vệ mạng bằng cách chặn hầu hết các cổng và chỉ mở những cổng được lựa chọn Nếu tất cả các cổng đều mở, kẻ lừa đảo có thể dễ dàng truy cập vào nhiều dịch vụ, từ đó đe dọa thông tin người dùng.

Bảng 2.2 trình bày một sốcổng quan trọng nhất và trạng thái thường xuyên của chúng.

Bảng 2.2 Một sốcổng quan trọng của trang web

PORT Service Ý nghĩa Trạng thái thường xuyên

21 FTP Chuyển tập tin từmáy chủnày sang máy chủkhác Đóng

22 SSH Giao thức truyền tâp tin an toàn Đóng

23 Telnet Tương tác hai chiều bằng văn bản Đóng

80 HTTP Giao thức truyền tải siêu văn bản Mở

443 HTTPS Giao thức truyền tải siêu văn bản được bảo mật Mở

445 SMB Cung cấp quyền truy cập chung vào các tệp, máy in, cổng kết nối. Đóng

1433 MSSQL Lưu trữ và truy xuất dữ liệu theo yêu cầu của các ứng dụng phần mềm khác. Đóng

1521 ORACLE Truy cập cơ sởdữliệu oracle từtrang web Đóng

3306 MySQL Truy cập cơ sởdữliệu MySQL từtrang web Đóng

Cho phép truy cập từxa và cộng tác từxa Đóng

Nguồn:https://archive.ics.uci.edu/phishing-website-features

Trường Đại học Kinh tế Huế

Luật: Cổng được sửdụng khác với trạng thái thường xuyên là lừa đảo Còn không là lợp pháp.

- HTTPS Token trong tên miền của URL: những kẻlừa đảo có thểthêm phần “HTTPS” vào phần tên miền của URL để đánh lừa người dùng.

Luật: Sử dụng “HTTPS” trong phần tên miền của URL là lừa đảo Còn không là hợp pháp.

Xây dựng mô hình

Để đánh giá hiệu quả của mô hình phân lớp Random Forest trong dự đoán các trang web lừa đảo, chúng tôi đã so sánh với một số mô hình phân lớp cơ bản khác.

Nạve Bayes; (ii) K-nn (IBk); (iii) SVM; (iv) MultilayerPerceptron.

Việc xây dựng mô hình phân lớp bằng Random Forest cũng như các bộphân lớp cơ bản gồm các bước sau:

-Bước 1: Tiến hành chia tập dữliệu Phishing Data thành hai bộ: Bộdữliệu huấn luyện

(Training Set) và Bộdữliệu kiểm thử(Test Set) theo tỉlệ70 và 30.

-Bước 2: Tải bộ dữliệu huấn luyện vào bộ nhớ và tiến hành huấn luyện mô hình với

-Bước 3: Kiểm thửmô hình bằng bộdữliệu kiểm thử.

Phương pháp đánh giá mô hình

2.3.1 Tổng quan vềReceiver Operating Characteristic

Receiver Operating Characteristic (ROC) là công cụ phổ biến để đánh giá hiệu suất của các mô hình phân loại Đồ thị ROC minh họa hiệu quả của hệ thống phân loại nhị phân khi thay đổi ngưỡng phân loại.

ROC được tạo ra bằng cách biểu diễn tỷlệdựbáo true positive rate (TPR) dựa trên tỷlệ dựbáo failse positive rate (FPR) tại các ngưỡng khác nhau.

Trường Đại học Kinh tế Huế

Đường cong ROC là một công cụ quan trọng trong việc đánh giá hiệu năng của mô hình Mô hình có đường ROC càng gần với đỉnh trên cùng bên trái cho thấy hiệu năng càng cao Ngược lại, nếu đường ROC gần với đường chéo, hiệu năng của mô hình sẽ thấp hơn.

2.3.2 Xây dựng ROC để đánh giá Để so sánh hiệu năng của các mơ hình phân lớp cơ bản như Nạve Bayes; K-nn (IBk);

SVM; MultilayerPerceptron đối với mô hình Random Forest, chúng tôi sử dụng công cụ

Quy trình xây dựng ROC trong Knowledge Flow bao gồm:

-Bước 1: Tải bộdữliệu kiểm thửvào ArffLoader trong DataSource.

-Bước 2: Chọn thuộc tính làm nhãn lớp ở ClassAssigner và nối dataset tới

-Bước 3: Chọn các bộ phân lớp Random Forest; Nạve Bayes; K-nn (IBk); SVM

(SMO); MultilayerPerceptron và thiết lập các thông số của bộ phân lớp đó trong Classifier.

Mỗi bộphân lớp sẽ ứng với một trình hiệu suất đánh giá ClassifierPerformanceEvaluator.

-Bước 4: Đưa kết quả trên vào ModelPerfomanceChart trong Visualization và lưu kết quả vào ImageSaver đểlấy hìnhảnh kết quả.

Trường Đại học Kinh tế Huế

Hình 2 2 Mô hìnhđánh giá ROC trên Knowledge Flow.

Xây dựng ứng dụng dự đoán website lừa đảo

Trong khóa luận này, chúng tôi phát triển một ứng dụng nhằm dự đoán nhãn lớp cho các bộ dữ liệu không nhãn bằng cách sử dụng mô hình phân lớp Random Forest Bộ dữ liệu chính mà chúng tôi áp dụng trong nghiên cứu này là bộ dữ liệu Phishing Website với các nhãn lớp tương ứng.

Kết quả (Result) có hai giá trị là Lừa đảo (Phishing) tương ứng với “1”, và Hợp pháp

Chúng tôi bắt đầu bằng cách tạo một bộ dữ liệu không nhãn lớp (Unlabel Set) từ bộ dữ liệu kiểm thử (Test Set), trong đó các trường hợp của bộ Unlabel sẽ được loại bỏ nhãn lớp, tương ứng với giá trị "-1".

Sau đó, tạo giao diện và viết code cóứng dụng dự đoán với các chức năng sau:

- Chọn bộdữliệu từ thư mục mìnhđã lưu, sau đó ứng dụng sẽchia bộdữliệu theo tỉlệ

70% Training Set và 30% Test Set.

- Chọn bộdữliệu Unlabel Set muốn dự đoán nhãn lớp.

Tiến hành huấn luyện mô hình với phương pháp 10-fold Cross Validation và kiểm thử lại mô hình bằng bộ Test Set đã được chia, sử dụng mô hình phân lớp Random Forest.

- Cuối cùng là tiến hành dự đoán nhãn lớp cho bộdữliệu Unlabel Set và xuất kết quảra bảng kết quả.

Trường Đại học Kinh tế Huế

THÍ NGHIỆM VÀ KẾT QUẢ

Ngày đăng: 28/08/2023, 20:48

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
1. Techblog (2019). Data mining là gì? Tìm hiểu về các công cụ khai phá dữ liệu phổ biến,&lt;https://tech.vccloud.vn/news-20181117104818209.htm&gt Sách, tạp chí
Tiêu đề: Data mining là gì? Tìm hiểu về các công cụ khai phá dữ liệu phổ biến
Tác giả: Techblog
Năm: 2019
3. Thành Nam (2016). Tìm hiểu về Naive Bayes Classification (phân loại Bayes đơn giản).&lt;https://batnamv.wordpress.com/2016/08/03/ml-tim-hieu-ve-naive-bayes-classification-phan-loai-bayes-don-gian/&gt Sách, tạp chí
Tiêu đề: Tìm hiểu về Naive Bayes Classification (phân loại Bayes đơn giản)
Tác giả: Thành Nam
Năm: 2016
4. Nguyễn Văn Hiếu (2017). Thuật toán K láng giềng gần nhất.&lt;http://bis.net.vn/forums/t/370.aspx&gt Sách, tạp chí
Tiêu đề: Thuật toán K láng giềng gần nhất
Tác giả: Nguyễn Văn Hiếu
Năm: 2017
5. Trần Nguyên Long (2017). Một chút về thuật toán SVM (Support Vector Machine algorithm). Viblo. &lt;https://viblo.asia/p/mot-chut-ve-thuat-toan-svm-support-vector-machine-algorithm-OeVKBgGAZkW&gt Sách, tạp chí
Tiêu đề: Một chút về thuật toán SVM (Support Vector Machine algorithm)
Tác giả: Trần Nguyên Long
Nhà XB: Viblo
Năm: 2017
6. Giới thiệu tổng quan về Mạng Nơron nhân tạo (Artificial Neural Network- ANN).&lt;http://nawapi.gov.vn/index.php?option=com_content&amp;view=article&amp;id=3238%3Agii-thiu-tng-quan-v-mng-nron-nhan-to-artificial-neural-network-ann&amp;catid=70%3Anhim-v-chuyen-mon-ang-thc-hin&amp;Itemid=135&amp;lang=vi&gt Sách, tạp chí
Tiêu đề: Giới thiệu tổng quan về Mạng Nơron nhân tạo (Artificial Neural Network- ANN)
8. Wiki (2019). Random forest WiKi. &lt;https://en.wikipedia.org/wiki/Random_forest &gt Sách, tạp chí
Tiêu đề: Random forest WiKi
Tác giả: Wiki
Năm: 2019
9. Couhp (2018). Random Forest, thế nào là một rừng ngẫu nhiên.&lt;https://couhpcode.wordpress.com/2018/01/24/random-forest-the-nao-la-mot-rung-ngau-nhien/&gt Sách, tạp chí
Tiêu đề: Random Forest, thế nào là một rừng ngẫu nhiên
Tác giả: Couhp
Năm: 2018
10. Sahingoz O.K., Buber E., Demir O. và cộng sự. (2019). Machine learning based phishing detection from URLs. Expert Systems with Applications Sách, tạp chí
Tiêu đề: Machine learning based phishing detection from URLs
Tác giả: Sahingoz O.K., Buber E., Demir O
Nhà XB: Expert Systems with Applications
Năm: 2019
11. Rao R.S. và Pais A.R. (2018). Detection of phishing websites using an efficient feature- based machine learning framework. Neural Computing and Applications Sách, tạp chí
Tiêu đề: Detection of phishing websites using an efficient feature- based machine learning framework
Tác giả: Rao R.S., Pais A.R
Nhà XB: Neural Computing and Applications
Năm: 2018
12. Hutchinson S., Zhang Z., và Liu Q. (2018). Detecting Phishing Websites with Random Forest. Machine Learning and Intelligent Communications. Springer International Publishing, Cham Sách, tạp chí
Tiêu đề: Detecting Phishing Websites with Random Forest
Tác giả: Hutchinson S., Zhang Z., Liu Q
Nhà XB: Springer International Publishing
Năm: 2018
14. Buber E., Diri B., và Sahingoz O.K. (2017). Detecting phishing attacks from URL by using NLP techniques. 2017 International Conference on Computer Science and Engineering (UBMK), Antalya Sách, tạp chí
Tiêu đề: Detecting phishing attacks from URL by using NLP techniques
Tác giả: Buber E., Diri B., Sahingoz O.K
Nhà XB: 2017 International Conference on Computer Science and Engineering (UBMK)
Năm: 2017
15. Parekh S., Parikh D., Kotak S. và cộng sự. (2018). A New Method for Detection of Phishing Websites: URL Detection. 2018 Second International Conference on Inventive Communication and Computational Technologies (ICICCT), Coimbatore.Trường Đại học Kinh tế Huế Sách, tạp chí
Tiêu đề: A New Method for Detection of Phishing Websites: URL Detection
Tác giả: Parekh S., Parikh D., Kotak S
Nhà XB: 2018 Second International Conference on Inventive Communication and Computational Technologies (ICICCT)
Năm: 2018
7. Wikipedia (2018). Phân tích hồi quy.&lt;https://vi.wikipedia.org/w/index.php?title=Ph%C3%A2n_t%C3%ADch_h%E1%BB%93i_quy&amp;oldid=40342346&gt Khác

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w