Một số thuật toán phân lớp và ứng dụng phát hiện xâm lược trái phép, báo cáo hệ thống thông tin hay dành cho các bạn sinh viên các trường đại hocjc ao đẳng Một số thuật toán phân lớp và ứng dụng phát hiện xâm lược trái phép
Trang 12
Một Số Thuật Toán Phân Lớp Và Ứng Dụng Phát Hiện Xâm Nhập Trái Phép
Trang 32
ĐẶT VẤN ĐỀ
Trang 42 Phân loại hệ thống phát hiện xâm nhập.
3 Kiến trúc của hệ thống phát hiện xâm nhập
4 Các kỹ thuật phát hiện xâm nhập trái phép.
5 Kỹ thuật khai phá dữ liệu trong phát hiện xâm
nhập trái phép
Trang 62
PHÂN LOẠI IDS
IDS; Data mining; Ba thuật tốn Nạve Bayes, DC, SVM; Nguyễn 6
- Cài đặt, bảo trì đơn giản
- Tránh bị tấn cơng bởi một host cụ thể
- Xãy ra trường hợp báo động giả
- Khơng phân tích được lưu lượng
đã mã hố
- Phải luơn cập nhật thường xuyên
- Khĩ biết được việc mạng bị tấn cơng
- Giới hạn về băng thơng
- Hacker vận dụng phân mãnh chồng chéo
- Hệ điều hành cùng thoả hiệp
- HIDS cần thiết lập trên từng host
- Khơng cĩ khả năng phát hiện, thăm dị mạng
- Cần tài nguyên host để thực hiện
- Tấn cơng từ chối dịch vụ (Dos)
Trang 72
KIẾN TRÚC CỦA IDS
Ngăn chặn (Prevention)
Giám sát xâm nhập (IM)
Kiểm tra xâm nhập (IS)
Trang 82
KIẾN TRÚC CỦA IDS
IDS; Data mining; Ba thuật tốn Nạve Bayes, DC, SVM; Nguyễn 8
2 Cơ sở hạ tầng
IDS
Thêm cơ sở hạ tầng IDS
Thơng báo
Giám sát
Hệ thống bảo
vệ
Nhiệm vụ của IDS
Trang 102
KIẾN TRÚC CỦA IDS
IDS; Data mining; Ba thuật tốn: Nạve Bayes, DC, SVM; Nguyễn 10
4 Giải pháp Kiến trúc đa tác
nhân:
Trang 112
CÁC KỸ THUẬT PHÁT HIỆN XÂM NHẬP TRÁI PHÉP
1) Phát hiện dựa vào dấu hiệu bất thường
2) Phát hiện dựa trên sự bất thường
3) Phát hiện dựa và phân tích trạng thái giao thức.
4) Phát hiện dựa trên mô hình.
Trang 122
KỸ THUẬT DATA MINING TRONG IDS
IDS; Data mining; Ba thuật tốn: Nạve Bayes, DC, SVM; Nguyễn 12
Connection/
session records
Packets/
event (ASCII) Raw audit data
models
Evaluationfeedback
Trang 132
MỘT SỐ KỸ THUẬT PHÂN LỚP
1 Tổng quan về khai phá dữ liệu
2 Một số kỹ thuật phân lớp dữ liệu.
3 Phân lớp dựa trên phương pháp học Nạve Bayes
4 Phân lớp dựa trên cây quyết định.
5 Kỹ thuật phân loại máy vector hỗ trợ.
Trang 142
TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
IDS; Data mining; Ba thuật tốn: Nạve Bayes, DC, SVM; Nguyễn 14
Khái niệm về khai phá dữ liệu
Ứng dụng trong khai phá dữ liệu
Các bài tốn trong khai phá dữ liệu
Tiến trình trong khai phá dữ liệu
Trang 15Các tiêu chí đánh giá thuật toán phân lớp.
Các phương pháp đánh giá độ chính xác của
mô hình phân lớp.
Trang 162
Phân lớp Nạve Bayes
Học theo xác suất:
• Tính các xác suất rõ ràng cho các giả thuyết.
• Một trong những hướng thiết thực cho một số vấn
đề thuộc phương pháp học.
Cĩ tăng trưởng:
• Mỗi mẫu huấn luyện cĩ thể tăng/giảm dần khả
năng đúng của một giả thuyết.
• Tri thức ưu tiên cĩ thể kết hợp với dữ liệu quan sát.
IDS; Data mining; Ba thuật tốn: Nạve Bayes, DC, SVM; Nguyễn 16
Trang 172
Phân lớp Nạve Bayes
Dự đốn theo xác suất: Dự đốn nhiều giả thuyết, trọng số cho bởi khả năng xảy ra của chúng.
Chuẩn: Tất cả loại phân lớp nào cũng theo một chuẩn nhất định Nhằm để tạo ra quyết định ưu tiên đối với từng thuật tốn.
Thuật tốn này dựa theo định lý Bayes để áp dụng:
P(C|X)= P(X|C).P(C)/P(X)
- P(X) là hằng số cho tất cả các lơp.
Trang 182
Phân lớp Cây quyết định
Là một cây phân cấp cĩ cấu trúc được dùng để phân lớp các đối tượng dựa vào dãy các luật.
Việc xây dựng cây quyết định được tiến hành một cách đề qui Lần lượt từ nút gốc đến tận nút lá.
Gốc● ● Nhánh● ● ●Nhánh● ● ● LáLáLáLáLáLá
IDS; Data mining; Ba thuật tốn: Nạve Bayes, DC, SVM; Nguyễn 18
Trang 192
Phân lớp Cây quyết định
Hai giai đoạn tạo cây quyết định.
Xây dựng cây:
Bắt đầu, lấy tất cả các mẫu huấn luyện đều ở gốc
Phân chia các mẫu dựa trên các thuộc tính được chọn
Kiểm tra các thuộc tính được chọn dựa trên một độ đo thông kê hoặc
heuristic
Thu gọn cây:
Xác định và loại bỏ những nhánh nhiễu hoặc tách khỏi nhóm
Mỗi một đường dẫn từ gốc đến lá trong cây tạo thành một luật
Mỗi cặp giá trị thuộc tính trên một đường dẫn tạo nên một sự liên quan
Trang 202
Phân lớp Cây quyết định
Thuật toán căn bản
Xây dựng một cây đệ qui phân chia và xác định đắc tính từ trên xuống.
Các thuộc tính được xem rõ ràng, rời rạc.
Tham lam (có thể truyền cực đại cục bộ).
Nhiều dạng khác nhau: ID3, C4.5, CART, CHAID.
Điểm khác biệt chính: tiêu chuẩn/thuộc tính phân chia, độ đo để lựa chọn
Độ lợi thông tin.
Gini index: - số thống kê bảng ngẫu nhiên (contingency table statistic).
Trang 21P i
i
i y x R y x
D = {( , ) | ∈ , ∈ { − 1 , 1 }} =1
Trang 222
Thực Nghiệm
IDS; Data mining; Ba thuật tốn: Nạve Bayes, DC, SVM; Nguyễn 22
1 Phát biểu bài tốn
Thu thập dữ liệu trên mạng
Tiền xử lý dữ liệu
Giải nén dữ liệu
Chọn lựa thuộc tính Xây dựng bộ phân lớp
Trang 232
Thực Nghiệm
a Thu thập dữ liệu
Tập dữ liệu bao gồm 1 kiểu bình thường, 22 kiểu tấn công.
Chia thành 4 lớp: Từ chối dịch vụ (DOS), trinh sát hệ thống (probe), chiếm quyền hệ thống (U2L), khai thác điểm yếu (R2L).
b Rút trích dữ liệu
Trong tập dữ liệu KDD Cup 1999 ta trích chọn 10% trong số dữ liệu này để làm thực nghiệm Bao gồm 91.059 bảng ghi và có 41 thuộc tính Phân phối của các bảng ghi như sau:
Trang 24a Phân lớp dựa trên cây quyết định:
Kết quả Sử dụng cây quyết định như bộ phân lớp nhị phân
Thời gian học Thời gian kiểm thử Mức độ đúng (%)
Trang 26b Phân lớp dựa trên nạve bayes:
Thời gian học (s) Thời gian kiểm thử (s) Mức độ đúng (%)
Trang 272
Thực Nghiệm
2 Kết quả thực nghiệm.
c Phân lớp dựa trên svm:
Kết quả Sử dụng SVM như bộ phân lớp nhị phân
Thời gian học Thời gian kiểm thử Mức độ đúng (%)
Probe 1643,2 100,82 88,7
Trang 30SVM 126,37 115,36 100,82 86,73 96,58
IDS; Data mining; Ba thuật tốn: Nạve Bayes, DC, SVM; Nguyễn 30
Trang 31Tổng quan về các kỹ thuật sử dụng trong phát hiện xâm nhập trái phép: dấu hiệu, sự bất thường, trạng thái giao thức, kỹ thuật khai phá
dữ liệu.
Đặc biệt nghiên cứu đến 3 thuật toán, DC,
Trang 322KẾT LUẬN
IDS; Data mining; Ba thuật tốn: Nạve Bayes, DC, SVM; Nguyễn 32
2 Về mặt thực nghiệm.
Dựa trên kỹ thuật phân lớp sử dụng tập dự liệu mơ phỏng tấn cơng KDD99 và trình bày
mơ hình bài tốn.
Đã đánh giá được độ chính xác và thời gian của ba thuật tốn phân lớp trên tập dữ liệu mơ phỏng.
Qua thực nghiệm kỹ thuật phân lớp cây quyết định là tốt nhất so với hai thuật tốn cịn lại.
Trang 332
XIN CHÂN THÀNH CẢM ƠN
(SCB 2012)