1. Trang chủ
  2. » Công Nghệ Thông Tin

Nghiên cứu hệ thống phát hiện xâm nhập IDS cho máy chủ dịch vụ (Luận văn thạc sĩ)

77 300 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 77
Dung lượng 1,37 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Nghiên cứu hệ thống phát hiện xâm nhập IDS cho máy chủ dịch vụNghiên cứu hệ thống phát hiện xâm nhập IDS cho máy chủ dịch vụNghiên cứu hệ thống phát hiện xâm nhập IDS cho máy chủ dịch vụNghiên cứu hệ thống phát hiện xâm nhập IDS cho máy chủ dịch vụNghiên cứu hệ thống phát hiện xâm nhập IDS cho máy chủ dịch vụNghiên cứu hệ thống phát hiện xâm nhập IDS cho máy chủ dịch vụNghiên cứu hệ thống phát hiện xâm nhập IDS cho máy chủ dịch vụNghiên cứu hệ thống phát hiện xâm nhập IDS cho máy chủ dịch vụNghiên cứu hệ thống phát hiện xâm nhập IDS cho máy chủ dịch vụNghiên cứu hệ thống phát hiện xâm nhập IDS cho máy chủ dịch vụ

Trang 2

LUẬN VĂN THẠC SĨ KỸ THUẬT

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS NGUYỄN CHIẾN TRINH

HÀ NỘI – 2018

Trang 3

LỜI CAM ĐOAN

Tôi cam đoan đây là công trình nghiên cứu của riêng tôi Nội dung của luận văn có tham khảo và sử dụng các tài liệu, thông tin được đăng tải trên những tạp chí

và các trang web theo danh mục tài liệu tham khảo Tất cả các tài liệu tham khảo đều có xuất xứ rõ ràng và được trích dẫn hợp pháp

Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định cho lời cam đoan của mình

Tác giả luận văn

Phùng Văn Thuần

Trang 4

LỜI CẢM ƠN

Học viên xin chân thành cảm ơn các thầy, cô trong Khoa Quốc tế và Đào tạo Sau đại học và Khoa Công nghệ thông tin 1, Học viện Bưu chính Viễn thông đã tạo điều kiện thuận lợi cho học viên trong quá trình học tập và nghiên cứu Lời cảm ơn trân trọng xin gửi tới Ban Giám hiệu Trường Đại học Công nghệ Giao thông vận tải

đã tạo điều kiện về thời gian, công việc để học viên theo học khóa đào tạo thạc sỹ này Và học viên xin chân thành cảm ơn Tiến sĩ Nguyễn Chiến Trinh là người đã trực tiếp tận tình hướng dẫn học viên hoàn thành luận văn

Học viên chân thành cảm ơn bạn bè và gia đình đã sát cánh giúp học viên có được kết quả như ngày hôm nay

Học viên xin trân trọng cảm ơn!

Tác giả luận văn

Phùng Văn Thuần

Trang 5

MỤC LỤC

LỜI CAM ĐOAN i

LỜI CẢM ƠN ii

DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT v

DANH MỤC CÁC BẢNG vi

DANH MỤC CÁC HÌNH VẼ vii

MỞ ĐẦU 1

Chương 1: TỔNG QUAN VỀ IDS 4

1.1 Khái quát về IDS 4

1.1.1 Lịch sử phát triển của IDS 5

1.1.2 Lợi ích chung của IDS 6

1.1.3 Những thành phần không phải IDS 6

1.2.Phân loại IDS 7

1.2.1 Hệ thống phát hiện xâm nhập dựa trên host 7

1.2.2 Hệ thống phát hiện xâm nhập dựa trên mạng 8

1.2.3 Phát hiện xâm nhập IDS lai 9

1.3.Kiến trúc IDS 9

1.4.Cơ chế phát hiện xâm nhập IDS 11

1.5.Kết chương 12

Chương 2: MỘT SỐ KỸ THUẬT PHÂN TÍCH LƯU LƯỢNG PHÁT HIỆN TẤN CÔNG MẠNG 13

2.1 Tổng quan về các phương pháp, mô hình phân tích và phát hiện lưu lượng bất thường 13

2.2.Lưu lượng mạng bất thường 18

2.2.1 Khái niệm về lưu lượng mạng bất thường 18

2.2.2 Nguyên nhân gây ra lưu lượng mạng bất thường 20

2.2.3 Phân tích và phát hiện lưu lượng mạng bất thường 21

2.3.Một số phương pháp phân tích và phát hiện lưu lượng bất thường điển hình 22

2.3.1 Phương pháp dựa trên mô hình Markov 22

2.3.2 Phương pháp dựa trên mạng Bayesian 23

2.3.3 Phương pháp dựa trên phân tích thống kê 23

2.3.4 Phương pháp dựa trên phân cụm 26

Trang 6

2.3.5 Phương pháp máy vector hỗ trợ 26

2.3.6 Phương pháp dựa trên hệ chuyên gia 27

2.3.7 Phương pháp dựa trên luật học máy 28

2.3.8 Phương pháp dựa trên khai phá dữ liệu 29

2.3.9 Phương pháp dựa trên PCA 31

2.4.Kết chương 33

Chương 3: ỨNG DỤNG PCA XÂY DỰNG IDS CHO MÁY CHỦ DỊCH VỤ 34

3.1 Thuật toán phân tích thành phần chính PCA 34

3.1.1 Giới thiệu 34

3.1.2 Thuật toán PCA 35

3.1.3 Phương pháp phân tích và phát hiện lưu lượng bất thường dựa trên PCA 41

3.1.4 Thiết lập mức ngưỡng 44

3.2 Mô hình hệ thống phân tích dữ liệu bất thường trên PCA 44

3.3 Kiến trúc hệ thống giám sát máy chủ dịch vụ thi trắc nghiệm 46

3.3.1 Phạm vi thu thập dữ liệu 46

3.2.2 Kiến trúc tổng thể của hệ thống giám sát 47

3.2.3 Máy trinh sát 47

3.3 Nhận dạng, phân loại bất thường và khả năng kết hợp phát hiện lưu lượng bất thường với phát hiện tấn công mạng dựa trên mẫu dấu hiệu 53

3.4 Mô hình phát hiện lưu lượng bất thường trên máy chủ dịch vụ 54

3.4.1 Các loại tấn công phổ biến đối với máy chủ dịch vụ: 56

3.5 Mô phỏng thử nghiệm phát hiện tấn công của PCA trên máy chủ dịch vụ: 58

3.5.1 Tập dữ liệu thử nghiệm 58

3.5.2 Mô phỏng thử nghiệm phát hiện bất thường và một số loại tấn công 60

KẾT LUẬN VÀ KIẾN NGHỊ 63

TÀI LIỆU THAM KHẢO 65

Trang 7

DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT

DNS Domain Name System Hệ thống tên miền

IDS Intrussion Detection System Hệ thống phát hiện tấn công xâm

nhập

ISP Internet Service Provider Nhà cung cấp dịch vụ Internet

IP Internet Protocol Giao thức Internet

PC Principal Component Thành phần chính

PCA Principal Component Analysis Phân tích thành phần chính

SVD Singular Value Decompossition

SVM Support Vector Machine Véc tơ máy hỗ trợ

TCP Transmision Control Protocol Giao thức điều khiển truyền tin

VPN Vitual Private Network Mạng riêng ảo

Trang 8

DANH MỤC CÁC BẢNG

Bảng 1.1 Ưu điểm, nhược điểm của hệ thống phát hiện xâm nhập dựa trên host 7

Bảng 1.3 Ưu điểm, nhược điểm của hệ thống phát hiện xâm nhập dựa trên mẫu dấu hiệu 11 Bảng 1.4 Ưu điểm, nhược điểm của hệ thống phát hiện xâm nhập dựa trên sự bất thường12 Bảng 2.1 Các phương pháp phân tích và phát hiện lưu lượng bất thường 14

Bảng 2.2 Tổng kết tóm tắt một số ưu, nhược điểm của nhóm phương pháp phát hiện lưu lượng bất thường 16

Bảng 2.3 Các nguyên nhân điển hình gây ra lưu lượng mạng bất thường 20

Bảng 3.1 Thuộc tính dùng trong thử nghiệm của tập dữ liệu NSL – KDD 59

Bảng 3.2 Kết quả phát hiện của PCA với một số loại tấn công 61

Trang 9

DANH MỤC CÁC HÌNH VẼ

Hình 1.1 Kiến trúc IDS 4

Hình 1.2 IDS dựa trên host 7

Hình 1.3 IDS dựa vào mạng 8

Hình 2.1 Biểu diễn các tập dữ liệu bình thường và bất thường thu được từ mạng trên toạ độ hai chiều 18

Hình 2.2 Mô hình hệ thống phát hiện bất thường dựa trên tập luật 28

Hình 3.1 Minh họa PCA: tìm trục tọa độ mới sao cho dữ liệu biến thiên lớn nhất 35

Hình 3.2 PCA trong mặt phẳng 2D 41

Hình 3.3 Mô hình chung hệ thống phân tích và phát hiện lưu lượng bất thường dựa trên PCA 45

Hình 3.4 Hệ thống mạng thi trắc nghiệm có kết nối Internet 46

Hình 3.5 Kiến trúc tổng thể của hệ thống giám sát 47

Hình 3.6 Cấu trúc thiết bị trinh sát 48

Hình 3.7 Hệ thống phần mềm trinh sát 49

Hình 3.8 Một số sự kiện thu được tại trung tâm giám sát 52

Hình 3.8 Mô hình kết hợp phát hiện bất thường và mẫu dấu hiệu 55

Trang 10

và được quan tâm đến trong mọi thời điểm

Vấn đề bảo mật được đặt ra và những đóng góp lớn trong việc hạn chế và ngăn chặn bảo mật, như Firewall ngăn chặn những kết nối không đáng tin cậy, mã hóa làm tăng độ an toàn cho việc truyền dữ liệu, các chương trình diệt virus với các các

cơ sở dữ liệu được cập nhật Những yêu cầu trên dẫn đến yêu cầu phải có một phương pháp bảo mật mới hỗ trợ cho những phương pháp bảo mật truyền thống Hệ thống phát hiệm xâm nhập IDS (Intruction Detection System) là một hệ thống giám sát lưu thông mạng có khả năng phát hiện các hoạt động khả nghi hay các hành động xâm nhập trái phép trên hệ thống mạng trong tiến trình tấn công, cung cấp thông tin nhận biết và đưa ra cảnh báo cho hệ thống, người quản trị

Từ những lý do trên, học viên lựa chọn đề tài “Nghiên cứu hệ thống phát hiện

xâm nhập IDS cho máy chủ dịch vụ ” cho luận văn Thạc sĩ của mình

Trang 11

▪ Mục đích nghiên cứu

- Nghiên cứu hệ thống phát hiện xâm nhập IDS cho máy chủ dịch vụ

- Nghiên cứu các kỹ thuật phân tích lưu lượng dựa trên thống kê, học máy nhằm phát hiện sớm các dấu hiệu tấn công bởi các phần mềm độc hại

- Nghiên cứu hệ thống phát hiện xâm nhập trái phép dựa trên phân tích lưu lượng mạng bất thường

- Đề xuất xây dựng hệ thống phát hiện xâm nhập trái phép IDS cho máy chủ dịch

vụ Xây dựng hệ thống IDS cho các thiết bị mạng, thiết lập các hệ thống thu thập thông tin cho các vùng lưu lượng mạng, kết hợp với hệ thống IDS cho các máy chủ tạo thành một hệ thống cho toàn mạng

▪ Đối tượng và phạm vi nghiên cứu

- Tập trung vào phân tích rủi ro, lỗ hổng của mạng, cách thức tấn công, nhược điểm của giao thức TCP/IP và phương pháp bảo vệ mạng khỏi tấn công Tìm hiểu kiến thức về các hệ thống dò tìm phát hiện xâm nhập (IDS), cấu trúc hệ thống, phương pháp phân loại, cách thức dò tìm xâm nhập và phương pháp xử

lý dữ liệu Nghiên cứu các mô hình thống kê, các thành phần của hệ thống bao gồm chủ thể và đối tượng, hồ sơ, bản ghi, luật hoạt động

- Nghiên cứu giải pháp dò tìm xâm nhập thời gian thực cho máy chủ dịch vụ Trình bày mô hình, cấu trúc và một số kết quả được hệ thống IDS thử nghiệm cho máy chủ dịch vụ

▪ Phương pháp nghiên cứu

- Kết hợp nghiên cứu lý thuyết, tìm hiểu mô hình, cấu trúc và một số kết quả thu được từ hệ thống IDS, thử nghiệm cho máy chủ dịch vụ

Trang 12

Nội dung của luận văn được chia thành 3 chương với những nội dung cụ thể như sau:

Chương 1: TỔNG QUAN VỀ IDS

- Khái quát về IDS

- Phân loại IDS

- Phân tích lưu lượng mạng điển hình

- Phân tích lưu lượng mạng dựa trên học máy và khai phá dữ liệu

- Phân tích lưu lượng bất thường

Trang 13

Chương 1: TỔNG QUAN VỀ IDS

1.1 Khái quát về IDS

Hệ thống phát hiện xâm nhập [31] (Intrusion Detection System - IDS) là hệ thống phần cứng hoặc phần mềm có chức năng giám sát lưu thông mạng, tự động theo dõi các sự kiện xảy ra trên hệ thống máy tính, phân tích để phát hiện ra các vấn

đề liên quan đến an ninh, bảo mật và đưa ra cảnh báo cho nhà quản trị

IDS cũng có thể phân biệt giữa những tấn công vào hệ thống từ bên trong (từ những người trong hệ thống) hay tấn công từ bên ngoài (từ những hacker) IDS phát hiện dựa trên các dấu hiệu đặc biệt về các nguy cơ đã biết (tương tự như các phần mềm dựa virus dựa vào các dấu hiệu đặc biệt để phát hiện và diệt virus) hay dựa trên so sánh lưu lượng mạng hiện tại với baseline (thông số đo đạc chuẩn của hệ thống) để tìm ra các dấu hiệu khác thường

Hình 1.1 Kiến trúc IDS

Một hệ thống phát hiện xâm nhập trái phép cần thỏa mãn những yêu cầu sau:

✓ Tính chính xác (Accuracy): IDS không được coi là hành động thông thường trong môi trường hệ thống là những hành động bất thường hay lạm dụng (hành động thông thường bị coi là bất thường được gọi là false positive)

Trang 14

✓ Hiệu năng (Performance): Hiệu năng của IDS phải đủ để phát hiện xâm nhập trái phép trong thời gian thực (hành động xâm nhập trái phép phải được phát hiện trước khi xảy ra tổn thương nghiêm trọng đến hệ thống

✓ Tính trọn vẹn (Completeness): IDS không được bỏ qua một xâm nhập trái phép nào (xâm nhập không bị phát hiện gọi là false negative) Đây là một điều kiện khó có thể thỏa mãn được vì gần như không thể có tất cả thông tin về các tấn công

từ quá khứ, hiện tại và tương lai

✓ Chịu lỗi (False Tolerance): Bản thân IDS phải có khả năng chống lại tấn công

✓ Khả năng mở rộng (Scalability): IDS phải có khả năng xử lý trong trạng thái xấu nhất là không bỏ xót thông tin Yêu cầu này có liên quan đến hệ thống mà các

sự kiện tương quan đến từ nhiều nguồn tài nguyên với số lượng host nhỏ Với sự phát triển nhanh và mạnh của mạng máy tính, hệ thống có thể bị quá tải bởi sự tăng trưởng của số lượng sự kiện

1.1.1 Lịch sử phát triển của IDS

Trên thế giới: Ra đời đầu tiên cách đây khoảng 30 năm, khái niệm phát hiện xâm nhập xuất hiện qua một bài báo của James Anderson Khi đó người ta cần IDS với mục đích là dò tìm và nghiên cứu các hành vi bất thường và thái độ của người

sử dụng trong mạng, phát hiện ra các việc lạm dụng đặc quyền để giám sát tài sản

hệ thống mạng Các nghiên cứu về hệ thống phát hiện xâm nhập được nghiên cứu chính thức từ năm 1983 đến năm 1988 trước khi được sử dụng tại mạng máy tính của không lực Hoa Kỳ Cho đến tận năm 1996, các khái niệm IDS vẫn chưa được phổ biến, một số hệ thống IDS chỉ được xuất hiện trong phòng thí nghiệm và các viện nghiên cứu Tuy nhiên trong thời gian này, một số công nghệ IDS bắt đầu phát triển dựa trên sự bùng nổ của công nghệ thông tin Đến năm 1997 IDS mới được biết đến rộng rãi và thực sự đem lại lợi nhuận với sự đi đầu của công ty ISS, một năm sau đó Cisco nhận ra tầm quan trọng của IDS và đã mua lại một công ty cung cấp giải pháp IDS tên là Wheel Group

Trang 15

1.1.2 Lợi ích chung của IDS

Ưu điểm của hệ thống là có thể phát hiện được những kiểu tấn công chưa biết trước Tuy nhiên, hệ thống này lại sinh ra nhiều cảnh báo sai do định nghĩa quá chung về cuộc tấn công Thống kê cho thấy trong hệ thống này, hầu hết các cảnh báo là cảnh báo sai, trong đó có nhiều cảnh báo là từ những hành động bình thường, chỉ có một vài hành động là có ý đồ xấu, hầu hết các hệ thống đều có ít khả năng giới hạn các cảnh báo nhầm

Sử dụng hệ thống IDS để nâng cao khả năng quản lý và bảo vệ mạng, lợi ích mà

nó đem lại rất lớn Một mặt nó giúp hệ thống an toàn trước những nguy cơ tấn công, mặt khác nó cho phép nhà quản trị nhận dạng và phát hiện những nguy cơ tiềm ẩn dựa trên những phân tích và báo cáo được IDS cung cấp Từ đó, hệ thống IDS có thể góp phần loại trừ một cách đáng kể những lỗ hổng về bảo mật trong môi trường mạng

1.1.3 Những thành phần không phải IDS

Các thiết bị bảo mật dưới đây không phải IDS:

- Hệ thống đăng nhập mạng được sử dụng để phát hiện lỗ hổng đối với vấn đề từ chối dịch vụ (DoS) trên một mạng nào đó Ở đó sẽ có hệ thống kiểm tra lưu lượng mạng

- Các công cụ đánh giá lỗ hổng kiểm tra lỗi và lỗ hổng trong hệ điều hành, dịch

vụ mạng (các bộ quét bảo mật)

- Các sản phẩm chống virus đã thiết kế để phát hiện phần mềm mã nguy hiểm như virus Trojan horse, worm Mặc dù những tính năng mặc định có thể rất giống hệ thống phát hiện xâm nhập và thường cũng cấp một công cụ phát hiện

lỗ hổng bảo mật hiệu quả

- Tường lửa (firewall)

- Các hệ thống bảo mật/mật mã, ví dụ như VPN, SSL, S/MIME, Kerberos, Radius…

Trang 16

1.2 Phân loại IDS

Chức năng cơ bản của IDS là phát hiện người xâm nhập, IDS có các dạng chính như:

- Hệ thống phát hiện xâm nhập dựa trên host (Host IDS)

- Hệ thống phát hiện xâm nhập dựa trên mạng (Network IDS)

- Hệ thống lai (Hybrid IDS – Distributed IDS)

Mỗi dạng của IDS đều có những ưu điểm và khuyết điểm riêng được trình bày ở phần sau

1.2.1 Hệ thống phát hiện xâm nhập dựa trên host

Hệ thống phát hiện xâm nhập dựa trên host (Host IDS) - Bằng cách cài đặt một phần mềm trên tất cả các máy chủ, IDS dựa trên máy chủ quan sát tất cả các hoạt động hệ thống, như các file log và những lưu lượng mạng thu thập được Hệ thống dựa trên máy chủ cũng theo dõi hệ điều hành, ghi nhận các sự kiện và những thông điệp báo lỗi trên hệ thống máy chủ

Hình 1:

Hình 1.2 IDS dựa trên host Bảng 1.1 Ưu điểm, nhược điểm của hệ thống phát hiện xâm nhập dựa trên host

- HIDS sẽ phân tích trước khi mã

hóa và sau khi giải mã

- Cho phép xác định một cuộc tấn

công đã thành công hay chưa

- Yêu cầu một đại lý trên mỗi máy chủ muốn để bảo vệ

- Yêu cầu một đại lý có thể hỗ trợ nhiều hệ điều hành

Trang 17

(NIDS có thể phát hiện các cuộc

tấn công, nhưng nó không xác định

được các cuộc tấn công đã thành

công chưa.)

- Không yêu cầu phần cứng IDS

chuyên dụng

1.2.2 Hệ thống phát hiện xâm nhập dựa trên mạng

NIDS (Network IDS) liên quan đến việc đặt một IDS dành riêng cho một đoạn mạng rõ ràng mà theo dõi lưu lượng truy cập thông qua phân đoạn này Một NIDS

có thể được đặt trên các phân đoạn quan trọng trên toàn mạng để cung cấp bảo vệ cho toàn bộ mạng

Hình 1.3 IDS dựa vào mạng

Trong hình trên, tất cả lưu lượng truy cập Internet là thông qua router, giao thông được phản ánh cho một cổng giám sát trên một IDS NIDS thông thường bao gồm một cổng giám sát cắm vào các đoạn mạng mà ta muốn theo dõi Cổng giám sát dễ dàng bị quá tải và sẽ có một số luồng giao thông bị bỏ sót mà có thể chứa các cuộc tấn công chống lại mạng Vì vậy, ta cần phải đặt IDS cẩn thận, hợp lý để đảm bảo cổng giám sát sẽ không bị quá tải

Trang 18

Bảng 1.2 Ưu điểm, nhược điểm của hệ thống phát hiện xâm nhập dựa trên mạng

- Một NIDS duy nhất có thể bảo vệ

phần lớn mạng trong hệ thống

- Phát hiện tấn công dựa trên mạng,

chẳng hạn như port scan hoặc ping

rà soát

- Yêu cầu cài đặt trên một đoạn mạng mà việc giám sát các cổng không bị quá tải

- Yêu cầu phải giám sát các thành phần khác nhau của mạng sử dụng nhiều thiết bị IDS

- Yêu cầu phải tập hợp các giao thông bị phân mảnh (giao thông

IP được chia thành nhiều mảnh IP)

- Đòi hỏi CPU đáng kể và nhiều tài nguyên bộ nhớ để có thể phân tích lưu lượng truy cập theo dõi trong thời gian thực

- Không thể phát hiện các cuộc tấn công có trong thông tin liên lạc

mã hóa

1.2.3 Phát hiện xâm nhập IDS lai

Những hệ thống IDS lai (Distributed (Hybrid) IDS) là những hệ thống nhằm kết hợp những ưu điểm của mỗi dạng IDS, cũng như việc tối thiểu hóa những hạn chế Trong hệ thống lai, cả những bộ cảm biến và những máy chủ đểu báo về một trung tâm quản trị

Ngoài khả năng kết hợp được những điểm mạnh của hai dạng IDS, các hệ IDS lai còn có thể kết hợp được hai cơ chế là dựa trên dấu hiệu và cơ chế phát hiện bất thường

1.3 Kiến trúc IDS

Kiến trúc của hệ thống IDS bao gồm các thành phần chính:

- Thành phần thu thập thông tin (Information Collection)

- Thành phần phát hiện (Detection)

- Thành phần phản ứng (Response)

Trang 19

Trong ba thành phần thì thành phần phân tích gói tin là quan trọng nhất và ở thành phần này bộ cảm biến đóng vai trò quyết định

Bộ cảm biến được tích hợp với các thành phần thu thập dữ liệu – một bộ tạo sự kiện Cách thu thập này được xác định bởi chính sách tạo sự kiện để định nghĩa chế

độ lọc thông tin sự kiện

Bộ tạo sự kiện (hệ điều hành, mạng, ứng dụng) cung cấp một số chính sách thích hợp cho các sự kiện, có thể là một bản ghi ác sự kiện của hệ thống hoặc các gói mạng Số chính sách này cùng với thông tin chính sách có thể được lưu trong hệ thống được bảo vệ hoặc bên ngoài

Vai trò của bộ cảm biến dùng để lọc thông tin và loại bỏ dữ liệu không tương thích Vì vậy có thể phát hiện được các hành động nghi ngờ Bộ phân tích sử dụng

cơ sở dữ liệu chính sách phát hiện cho mục này Thêm vào đó, cơ sở dữ liệu giữ các tham số cấu hình, gồm có các chế độ truyền thông ví hệ thống đáp trả Bộ cảm biến cũng có cơ sở dữ liệu của riêng nó, gồm dữ liệu lưu về các xâm nhập phức tạp tiềm

ẩn IDS có thể được sắp đặt tập trung (ví dụ như được tích hợp vào trong tường lửa) hoặc phân tán Một IDS phân tán gồm nhiều IDS khác nhau trên một mạng lớn, tất

cả chúng truyền thông với nhau

IDS có khả năng dò tìm và phát hiện những cuộc tấn công vào hệ thống mạng IDS tạo ra một báo động khi nó biết có sự xâm nhập bất thường vào hệ thống IDS dựa trên các tiêu chí báo động cho phép nó có thể xác định được các cuộc tấn công Tất nhiên, để có thể phát hiện các cuộc tấn công, một hoặc nhiều hệ thống IDS phải được đặt một cách thích hợp trong mạng, hoặc cài đặt các thiết bị mạng lưới giám sát lưu lượng truy cập trên mạng hoặc cài đặt như máy trạm theo dõi hệ điều hành

và ứng dụng đáng ngờ IDS còn có khả năng phát hiện các cuộc tấn công tinh vi sử dụng các kỹ thuật lẩn tránh để qua mặt các IDS mà thâm nhập không bị phát hiện

Trang 20

1.4 Cơ chế phát hiện xâm nhập IDS

Mục đích của hệ thống IDS là nhằm cảnh báo cho người quản trị khi phát hiện xâm nhập Những hệ thống báo trộm kích hoạt một tín hiệu dựa trên sự chuyển động của đầu dò Các hệ thống IDS cũng có hai dạng cơ chế kích hoạt (triggering mechanism):

- Phát hiện sử dụng sai (dựa trên những dấu hiệu)

Phát hiện sử dụng sai còn được gọi là phát hiện dựa trên dấu hiệu (signature – base detection) Phát hiện sử dụng sai đòi hỏi những file dấu hiệu (signature) để nhận dạng những hành động xâm nhập Những file dấu hiệu sử dụng trong phương pháp phát hiện sử dụng sai thì tương tự như những file dấu hiệu trong những phần mềm diệt virus

Bảng 1.3 Ưu điểm, nhược điểm của hệ thống phát hiện xâm nhập dựa trên mẫu dấu

hiệu

- Có ít nhất cảnh báo nhầm hơn

kiểu phát hiện sự bất thường

- Không theo dõi những mẫu lưu

lượng hay tìm kiếm những sự bất

thường

- Theo dõi những hoạt động đơn

giản để tìm sự tương xứng đối với

bất kỳ dấu hiệu nào đã được định

- Không phát hiện những thay đổi của những cuộc tấn công đã biết

- Khả năng quản trị cơ sở dữ liệu những dấu hiệu là công việc mất nhiều thời gian cũng như khó khăn

- Giống như tường lửa, bộ cảm biến phải duy trì trạng thái dữ liệu trong bộ nhớ để tìm lại nhanh hơn, nhưng mà bộ nhớ thì giới hạn

Trang 21

- Phát hiện sự bất thường (dựa trên mô tả sơ lược)

Khi tìm thấy sự bất thường, một tín hiệu cảnh báo sẽ được kích hoạt Chính vì dạng phát hiện này tìm kiếm những bất thường nên người quản trị bảo mật phải định nghĩa đâu là những hoạt động, lưu lượng bất thường

Người quản trị bảo mật có thể định nghĩa những hoạt động bình thường bằng cách tạo ra những bản mô tả sơ lược nhóm người dùng (user group profile) Mỗi profile được sử dụng như là định nghĩa cho người sử dụng thông thường và hoạt động mạng Nếu một người dùng làm lệch quá xa những gì họ định nghĩa trong profile, hệ thống IDS sẽ phát sinh cảnh báo

Bảng 1.4 Ưu điểm, nhược điểm của hệ thống phát hiện xâm nhập dựa trên sự bất

thường

- Kẻ xâm nhập sẽ không bao giờ

biết lúc nào có hoặc không phát

sinh cảnh báo bởi vì họ không có

quyền truy cập vào những profile

sử dụng để phát hiện những cuộc

tấn công

- Không dựa trên một tập những

dấu hiệu đã được định dạng hay

những đợt tấn công đã được biết

- Thời gian chuẩn bị ban đầu cao

- Không có sự bảo vệ trong suốt

thời gian khởi tạo ban đầu

- Thường xuyên cập nhập profile

khi thói quen người dùng thay đổi

- Khó khăn trong việc định nghĩa

- Phân loại IDS theo dựa trên host và dựa trên mạng

- Kiến trúc và thành phần của hệ thống phát hiện IDS

- Cơ chế hoạt động – phát hiện xâm nhập của hệ thống IDS

Trang 22

Chương 2: MỘT SỐ KỸ THUẬT PHÂN TÍCH LƯU LƯỢNG

Mỗi nhóm, phương pháp, mô hình đề có thể được phân chia thành nhiều loại khác nhau, tùy theo mỗi phương pháp, kỹ thuật đặc trưng được sử dụng Ví dụ, nhóm thống kê gồm: mô hình hoạt động dựa trên số đo ngưỡng (mức ngưỡng được thiết lập dựa trên ước lượng hoặc kinh nghiệm từ khoảng thời gian trước đó), mô hình phân bố xác suất, mô hình chuỗi thời gian (sử dụng chuỗi dữ liệu thời gian),

mô hình đa biến/đơn biến (sử dụng đa biến hoặc một biến), mô hình Markov Nhóm

mô hình, phương pháp dựa vào tri thức bao gồm: hệ chuyên gia, phân tích mẫu dấu hiệu, phân tích chuyển đổi trạng thái Mô hình, phương pháp dựa vào khai phá dữ liệu và học máy bao gồm: phân cụm, mạng nơ-ron, logic mờ, hệ miễn dịch nhân tạo, máy véc tơ hỗ trợ

Phương pháp, mô hình thống kê (statistical model) thường giả định tỷ lệ sự kiện (dữ liệu) bình thường chiếm sác xuất cao trong mô hình trong khi sự kiện bất thường chiếm tỷ lệ nhỏ Phương pháp thống kê dựa trên giả định mô hình tuân theo một phân bố thống kê biết trước (parametric model) trong điều kiện bình thường Những phân bố thường dùng là phân bố chuẩn, Chi-square, mô hình hồi quy… Những sự kiện có xác xuất thấp hoặc có độ lệch vượt một ngưỡng nhất định từ mô hình giả định bị coi là bất thường Một hướng nghiên cứu khác là không giả định phân bố biết trước mà dựa trên dữ liệu thực nghiệm (non-parametric model) Hướng nghiên cứu này sử dụng các đặc tính thống kê của dữ liệu ở trạng thái bình thường

Trang 23

để thiết lập một tập dữ liệu tham chiếu (normal behavior profile) Tập này được hình thành từ những dữ liệu “sạch” Lưu lượng các luồng tin trên mạng được quan sát, thu thập và so sánh với độ lệch hoặc khoảng cách với tập tham chiếu này để phát hiện ra bất thường

Bảng 2.1 Các phương pháp phân tích và phát hiện lưu lượng bất thường

Nhóm thống kê Nhóm tri thức Nhóm học máy và khai phá

- Mạng Neural nhân tạo

- Giải thuật di truyền

- Swarm Intelligence

Phương pháp, mô hình tri thức (Knowledge model) xây dựng các luật hoặc mẫu dấu hiệu để phát hiện bất thường Về căn bản, hệ thống cần thu thập thông tin tri thức về những loại bất thường khác nhau Các loại dữ liệu cần biểu diễn sao cho dễ dàng xử lý Các luật, tri thức phải được cập nhật thường xuyên Phương pháp này thường mất nhiều thời gian và tài nguyên để xây dựng tri thức Trong lĩnh vực phát hiện bất thường, phương pháp tri thức ít phổ biến hơn so với phương pháp thống kê

và khai phá dữ liệu/học máy

Phương pháp khai phá dữ liệu và học máy (Data mining/Machine Learning) thường áp dụng phân cụm (Clustering) hoặc phân lớp (Classification) để phát hiện bất thường Mục tiêu quan trọng khi áp dụng khai phá dữ liệu vào bài toán phát hiện

Trang 24

bất thường là dự đoán thông tin mới chưa biết và giảm khối lượng dữ liệu cần xử lý Khai phá dữ liệu có thể dùng để trợ giúp cho quá trình học máy Khi áp dụng học máy, có thể dựa trên những dữ liệu đã biết để tự động hóa quá trình đánh giá, so sánh và cải tiến hiệu suất dự đoán Học máy về căn bản là một khả năng một chương trình hoặc hệ thống cải thiện dần hiệu suất bằng tự học theo thời gian khi thực hiện một công việc Kết quả trước đó được phân tích để sửa sai và độ chính xác dựa trên kỹ thuật học máy tự động được cải thiện Điều này có nghĩa thông tin thu thập gần đây được dùng để thay đổi sự thực thi Nhược điểm của phương pháp này là tốn nhiều tài nguyên do mức độ tính toán phức tạp

Trong học máy, một phương pháp hay sử dụng là phân lớp (classification) Mục đích của phân lớp là học từ những dữ liệu huấn luyện rồi áp dụng để phân lớp những dữ liệu mới Phương pháp này yêu cầu dữ liệu huấn luyện phải gắn nhãn (đã phận loại bất thường và bình thường) Phân lớp xác định các quan sát dữ liệu mới thuộc lớp nào dựa trên dữ liệu huấn luyện đã phận loại Đường ranh giới phân loại giữa các lớp dữ liệu có thể ở dưới dạng tuyến tính hoặc phi tuyến Trong nhiều trường hợp phương pháp phân lớp giống với phương pháp: giám sát, không giám sát và bán giám sát

• Phương phát giám sát (Supervised): Phương pháp này yêu cầu phải có tập dữ liệu đã phân loại thành lớp bình thường và bất thường Mỗi loại bất thường cần được đánh dấu nhãn riêng (ví dụ mỗi loại tấn công có tên riêng) Từ tập dữ liệu đã đánh nhãn có thể xây dựng được mô hình dự đoán cho từng lớp bình thường và bất thường Do vậy, phương pháp giám sát mô hình hóa tất cả các hành vi bình thường

và bất thường trong quá trình huấn luyện (training) hệ thống Mô hình đã học sau huấn luyện được sử dụng để phát triển dấu hiệu bất thường với dữ liệu đã biết và thường có độ phức tạp cao Để huấn luyện được hệ thống cần nhiều dữ liệu đã đánh nhãn Tuy nhiên, việc phân loại, đánh nhãn cho dữ liệu, nhất là các loại bất thường khác nhau rất khó thực hiện được Những dữ liệu bất thường có số lượng không nhiều nếu so sánh với dự liệu bình thường gây trở ngại cho việc mô hình hóa và tăng độ chính xác khi phân loại Phương pháp thường dùng để thu được tập dữ liệu

Trang 25

đánh nhãn là tạo ra những dữ liệu mô phỏng gần với thực tế theo một kịch bản đã được lập trình

• Phương pháp bán giám sát (Semi-supervised): Phương pháp bán giám sát chỉ huấn luyện với dữ liệu lớp bình thường và không có các lớp bất thường khác nhau Phương pháp này con gọi là phương pháp một lớp (one-class) Cách làm này phát hiện được bất thường từ sự khác biệt với lớp bình thường đã huấn luyện nhưng không phân biệt được các loại bất thường

• Phương pháp không giám sát (Unsupervised): Phương pháp này không cần huấn luyện với các dữ liệu như hai phương pháp trên mà phát hiện bất thường trực tiếp trên dữ liệu đầu vào Tuy nhiên, phương pháp không giám sát yêu cầu số lượng

dữ liệu bình thường phải lớn hơn nhiều so với dữ liệu bất thường (ví dụ: 90% dữ liệu là bình thường) Khi yêu cầu trên vi phạm, tỉ lệ cảnh báo sai sẽ rất cao

Bảng 2.2 Tổng kết tóm tắt một số ưu, nhược điểm của nhóm phương pháp phát

hiện lưu lượng bất thường

Nhóm

phương

pháp

Thống kê - Dựa trên phân bố thống

kê biết trước hoặc dựa trên

thực nghiệm Các tham số

của trạng thái bình thường

thu được từ dữ liệu thực

nghiệm

- Áp dụng phân bố thống kê không thể

mô hình hóa được toàn bộ trạng thái của hệ thống

- Khó thiết lập các tham số, ví dụ mức ngưỡng

- Nếu hành vi hợp lệ nhưng gây đột biến lưu lượng có thể dẫn đến cảnh báo sai

Học máy - Cập nhật thông tin các

lớp có thể cải tiến hiệu

- Yêu cầu số lượng dữ liệu lớn

- Phải huấn luyện trước thông tin các lớp

Trang 26

vi coi là hợp lệ)

Các mô hình giải pháp và các phương pháp, kỹ thuật được sử dụng đa dạng cho thấy tính chất phức tạp của việc phát hiện lưu lượng bất thường Một giải pháp kỹ thuật đưa ra trong nghiên cứu có thể đồng thời thuộc các phương pháp khác nhau Trên thực tế, một hệ thống phát hiện bất thường có thể kết hợp nhiều phương pháp

Do tính chất đa dạng, phức tạp của của nguồn dữ liệu lưu lượng trên mạng, một giải pháp toàn diện không thể có được trong thực tiễn Vì vậy, việc phân loại như trên chỉ mang tính chất tương đối

Phân tích và phát hiện lưu lượng bất thường là một yếu tố quan trọng để xem xét mức độ an ninh mạng và hiệu năng của các mạng truyền thông Theo [8,6,9], trong những nguyên nhân gây ra lưu lượng bất thường, những hoạt động có hại như tấn công mạng, lây lan sâu, mạng lưới botnet… hiện đang chiếm tỉ lệ cao Vì vậy nhiều nghiên cứu về lĩnh vực này tập trung khai thác khía cạnh liên quan đến vấn đề phát hiện tấn công hoặc xâm phạm trái phép trên mạng

Trong lĩnh vực an ninh mạng, có hai xu hướng chính để phát hiện tấn công hoặc xâm nhập mạng là: dựa trên dấu hiệu và dựa vào hành vi bất thường [8,6,9] Các kỹ thuật phát hiện dựa trên dấu hiệu bất thường đòi hỏi phải biết trước mẫu dữ liệu tấn công (mẫu dấu hiệu được lưu sẵn trong cơ sử dữ liệu) và phải thu thập dữ liệu lưu lượng (các sự kiện) từ mạng để so sánh với các mẫu dấu hiệu lưu sẵn, do đó có

Trang 27

nhiều hạn chế Phương pháp thứ hai không đòi hỏi mẫu dấu hiệu biết trước, cho phép phát hiện lưu lượng bất thường dựa trên hành vi, từ đó cho phép phát hiện được những kiểu tấn công mới Chính vì vậy, các phương pháp phân tích và phát hiện lưu lượng bất thường mở ra khả năng mới trong phát hiện tấn công mạng

2.2 Lưu lượng mạng bất thường

2.2.1 Khái niệm về lưu lượng mạng bất thường

Theo [32], “bất thường” được định nghĩa là “sự sai lệch hoặc vượt ra khỏi phạm vi

của một thủ tục, quy tắc hoặc khuôn dạng bình thường” Lưu lượng mạng bất thường (sau đây có thể gọi tắt là lưu lượng bất thường) là lưu lượng của những luồng thông tin không tuân theo ứng xử, hành vi thông thường Sự biến đổi bất thường này có thể do nhiều nguyên nhân khác nhau

Hình 2.1 Biểu diễn các tập dữ liệu bình thường và bất thường thu được từ mạng

trên toạ độ hai chiều [21]

Bất thường hay ngoại lai (outlier) đã được cộng đồng toán học – thống kê

nghiên cứu từ khá sớm [9] Bất thường được xem như dữ liệu không tuân thủ một chuẩn mực xác định trước của một tập dữ liệu bình thường Hình 2.1 là ví dụ về dữ liệu bình thường và dữ liệu bất thường được thu từ mạng, được biểu diễn theo hệ

Trang 28

tọa độ hai chiều Các tập dữ liệu bình thường là N1 và N2, các điểm dữ liệu O1, O2

và dữ liệu trong tập O3 là bất thường

Theo [24,25], bất thường là những sự kiện ảnh hưởng đến tính sẵn sàng và hiệu năng của mạng Một cách hiểu khác là những sự kiện gây tổn hại đến hệ thống mạng, thiết bị mạng, dịch vụ mạng… mà người quản lý, điều hành hoặc quản trị mạng cần quan tâm

Bất thường có thể xảy ra từ nhiều góc độ khác nhau: từ góc độ quản lý như những

sự kiện hỏng hóc thiết bị mạng, đường truyền, lỗi trong cấu hình… hoặc từ góc độ của người dùng như sự tăng đột ngột số lượng truy nhập của khách hàng… đến những hoạt động tấn công, xâm nhập, phát tán thư rác, sâu máy tính…

Mặt khác, xét theo mô hình phân lớp TCP/IP, bất thường có thể xuất hiện tại bất kỳ lớp nào Bất thường có thể xảy ra do truyền dẫn tại lớp vật lý do cáp quang bị đứt, giao diện trên router bị hỏng, tại lớp mạng do lỗi cấu hình định tuyến, tại lớp ứng dụng do người dùng, do tin tặc bị tấn công vào hệ thống tên miền, khai thác lỗ hổng

cơ sở dữ liệu và ứng dụng v.v Một số bất thường có thể gây ra đột biến tại nhiều lớp [25,15]

Các bất thường hay xảy ra chỉ ở một lớp, song chúng có thể ảnh hưởng sang lớp khác Ví dụ, một bất thường xảy ra ở lớp vật lý, đơn cử do đứt cáp quang hay nhiễu kênh chẳng hạn Bất thường này sẽ lan tỏa và có tác động trực tiếp vào biến đổi lưu lượng mạng ở lớp cao hơn, ví dụ lớp ứng dụng Nếu người quản trị mạng phát hiện sớm được, lưu lượng mạng sẽ được tái định tuyến để tránh tuyến bị lỗi, nhiễu nhằm khôi phục lại lưu lượng bình thường của ứng dụng Mặt khác, một bất thường ở lớp cao cũng có thể gây ra gián đoạn ở lớp vật lý Ví dụ tấn công của sâu Nimda gây ra lưu lượng bất thường ở lớp ứng dụng, có thể gây ra biến động lớn ở lưu lượng lớp mạng và ảnh hưởng đến lưu lượng của các ứng dụng khác [25]

Vì vậy để phát hiện bất thường tại mỗi lớp đều cần có những thuộc tính mô tả đặc trưng cho lớp đó Ví dụ: tấn công dò tìm mật khẩu, lưu lượng mạng nếu tính theo khối lượng thì không thay đổi nên cần có thêm thuộc tính khác, chẳng hạn số lần đăng nhập không thành công Với sự cố tắc nghẽn mạng hay số lượng truy cập tăng

Trang 29

vọt, lưu lượng mạng có khối lượng tăng đột biến Việc xét thêm dữ liệu của nhiều ứng dụng khác nhau sẽ làm tăng độ phức tạp của hệ thống phát hiện Do đó tùy thuộc vào từng ứng dụng cần có tập thuộc tính dữ liệu đặc trưng của ứng dụng đó Việc xét bất thường cho từng ứng dụng khác nhau nằm ngoài phạm vi nghiên cứu

của luận văn Luận văn này chỉ tập trung vào phát hiện bất thường chủ yếu liên

quan đến lưu lượng mạng được mô tả bởi các dữ liệu thuộc tính tại máy chủ dịch

vụ

2.2.2 Nguyên nhân gây ra lưu lượng mạng bất thường

Bất thường xảy ra có thể do nhiều nguyên nhân Bảng sau liệt kê những nguyên nhân điển hình nhất gây ra sự kiện bất thường trong lưu lượng mạng

Bảng 2.3 Các nguyên nhân điển hình gây ra lưu lượng mạng bất thường

Tắc nghẽn Mạng, đường truyền bị quá tải do gửi quá nhiều gói tin Tăng đột biến số lượng

truy cập người dùng

Số lượng truy nhập của người dùng quá nhiều vào một website, một máy chủ

Sự cố hệ thống Lỗi hỏng hóc thiết bị dẫn đến tăng/giảm lưu lượng đột

biến (giảm ở tuyến có lỗi, tăng ở tuyến khác), do tái định tuyến…

• Do sự tăng đột biến của số lượng truy nhập người dùng vào mạng (vào các trang tin tức, máy chủ, cơ sở dữ liệu )

• Các sự cố hệ thống: lỗi hỏng hóc thiết bị, đường truyền dẫn đến tăng/giảm lưu lượng mạng (giảm ở tuyến có thiết bị lỗi, tăng sang tuyến khác, có thể do tái định tuyến)

Trang 30

• Các hành vi quét thăm dò mạng hoặc tấn công mạng (làm tràn ngập băng thông, tràn lưu lượng gây ra đột biến tăng lưu lượng mạng, gây ra hiện tượng tắc nghẽn cục bộ, tấn công từ chối dịch vụ, sâu, virus…)

2.2.3 Phân tích và phát hiện lưu lượng mạng bất thường

Phân tích và phát hiện lưu lượng mạng bất thường nghĩa là cần phân tích, xác

định một tập hợp hoặc một phạm vi giới hạn những dữ liệu được coi là bình thường của các luồng tin và thực hiện theo dõi, so sánh dữ liệu tiếp nhận được với những

dữ liệu được coi là bình thường này Nếu dữ liệu không nằm trong tập dữ liệu bình thường sẽ được coi là bất thường

Các công trình nghiên cứu về phân tích và phát hiện lưu lượng mạng bất thường

đến nay chủ yếu dựa trên một nguyên lý căn bản nhất, đó là chỉ ra các đặc tính lưu

lượng mạng trong điều kiện hoạt động bình thường (tạo thành đường cơ sở -

baseline) theo một cách nào đó và xác định được sự khác biệt của lưu lượng mạng

đo được trong so sánh với lưu lượng mạng bình thường đã nêu Ranh giới của sự khác biệt chính là mức ngưỡng (Threshould) thường biến động theo thời gian Do

đó cần sự quan sát, theo dõi lưu lượng theo thời gian Thông thường, lưu lượng

mạng được coi là bình thường khi được quan sát, theo dõi, đo đạc trong điều kiện hoạt động được giả thiết là không có sự cố mạng không có đột biến lưu lượng do tắc nghẽn hay nguyên nhân gây bất thường như đã nêu ở Bảng 2.3

Phát hiện bất thường nhằm giúp cho người quản trị mạng phát hiện sớm những

nguyên nhân như: nguy cơ tắc nghẽn, sự cố lỗi thiết bị trên mạng, lỗi của luồng tin, thay đổi tuyến trên mạng, đột biến lưu lượng người dùng các ứng dụng/dịch vụ…Trên cơ sở đó, người quản trị mạng có thể kích hoạt các công cụ điều khiển luồng, chống tắc nghẽn, cân bằng tải, tái định tuyến, khắc phục sự cố lỗi trên mạng, ngăn chặn tấn công mạng

Quá trình phân tích, phát hiện và xử lý bất thường gồm các giai đoạn như sau:

• Thu thập lưu lượng mạng

• Tiền xử lý dữ liệu, trích chọn (tách) các thuộc tính dữ liệu cần thiết

Trang 31

• Phân tích, phát hiện bất thường: dựa trên các mẫu dữ liệu thu thập từ lưu lượng mạng, phân tích và tìm ra những dữ liệu có dấu hiệu bất thường để có cảnh báo sớm

• Xác định nguyên nhân, nhận dạng và phân loại bất thường, phân tích để tìm ra nguồn gốc của bất thường

• Tìm cách ngăn chặn, cập nhật tập luật các chương trình phòng chống, cải tiến các phương pháp phát hiện, hệ thống bảo vệ hiện có

Lưu lượng mạng được thu thập phục vụ ba mục đích: 1) Tạo tập lưu lượng mạng bình thường (đường cơ sở 2); 2) Tạo các tập dữ liệu đo lưu lượng mạng thực tế theo thời gian để so sánh với tập bình thường 3) Đo lưu lượng mạng thực tế ở vị trí nào

có ý nghĩa quan trọng Trong chương 3, luận văn sẽ trình bày một trường hợp cụ thể

về việc đặt các bộ đo thu thập lưu lượng mạng

Dữ liệu thu thập được có thể chứa nhiễu và các thông tin không cần thiết Vì vậy, bước tiền xử lý dữ liệu, trích chọn thuộc tính sẽ nhằm loại bỏ những thông tin không cần thiết, lựa chọn những thuộc tính quan trọng nhất

Phân tích và phát hiện lưu lượng bất thường là giai đoạn quan trọng nhất của toàn

bộ quá trình phân tích, phát hiện và xử lý bất thường

2.3 Một số phương pháp phân tích và phát hiện lưu lượng bất thường điển hình

2.3.1 Phương pháp dựa trên mô hình Markov

Mô hình Markov[8,6,20] (Markov Model) phát hiện bất thường bằng cách giám sát hệ thống tại các chu kỳ cố định và lưu giữ trạng thái của hệ thống, đó là xác xuất của mỗi trạng thái tại từng chu kỳ Trạng thái của hệ thống thay đổi khi xuất hiện sự kiện và sự kiện bất thường được phát hiện nếu xác suất xuất hiện của trạng thái đó là thấp

Trang 32

2.3.2 Phương pháp dựa trên mạng Bayesian

Đây là phương pháp giám sát dựa trên biểu diễn sự mã hóa xác xuất mối quan

hệ giữa các biến[8,6,12] Phương pháp này có thể giả định các biến độc lập hoặc phụ thuộc nhau và có khả năng phát hiện bất thường với nhiều lớp Mạng Bayesian (Bayesian Network) sử dụng để mô hình hóa hệ thống dựa trên các thuộc tính (biến)

và xác xuất giữa những thuộc tính này với lớp bất thường Với một quan sát cần kiểm tra, phương pháp này tính xác xuất trong các lớp dữ liệu đã phân loại khác nhau, bao gồm cả bình thường và bất thường Giá trị tính được lớn nhất dùng để xác định lớp cho quan sát đó

Mạng Bayesian hoạt động trên nguyên tắc mô tả mối quan hệ phụ thuộc giữa các biến, nó có thể hoạt động được trong trường hợp dữ liệu không đầy đủ và phân bố không đều như dữ liệu mạng Ưu điểm của mạng Bayesian là tính ổn định với dữ liệu đồng thời nó có khả năng đoán trước được kết quả của một hành

vi do sử dụng mối quan hệ nhân quả Các hệ thống phát hiện bất thường dựa trên mạng Bayesian là mô hình của Valdes, có khả năng phát hiện các chuỗi tấn công phân tán trong khi từng tấn công tách biệt không sinh ra cảnh báo Mô hình này sử dụng hệ thống Bayesian để xây dựng mối quan hệ nguyên nhân kết quả giữa tấn công và các yếu tố quan sát Sau đó dựa trên phân bố xác suất của các yếu tố quan sát được để tính xác suất có tấn công Một mô hình khác là của Kruegel sử dụng cách tiếp cận là sử dụng nhiều bộ cảm ứng khác nhau, đầu ra của các bộ cảm ứng này được tập hợp để sinh ra cảnh báo Các bộ cảm ứng sẽ sử dụng phương pháp Bayesian

Tóm lại việc sử dụng mạng Bayesian cho phát hiện bất thường có ưu điểm là giảm được tỷ lệ cảnh báo sai Tuy nhiên nó có hạn chế là hiệu suất hoạt động giảm khi các yếu tố quan sát tăng lên

2.3.3 Phương pháp dựa trên phân tích thống kê

Sử dụng thống kê để xác định các sự kiện bất thường được sử dụng rộng rãi trong các hệ thống phát hiện truy nhập từ nhiều năm nay Hệ thống hoạt động trên nguyên tắc thu thập dữ liệu của các thông số trên mạng và áp dụng một số kỹ

Trang 33

thuật thống kê trên dữ liệu được thu thập để tạo ra các tập hồ sơ cho các thông số trong thời điểm hoạt động bình thường, ví dụ hệ thống có thể nghiên cứu sự phân phối của các thông số được giám sát Hệ thống sau đó sẽ xem xét sự khác nhau giữa thông số đang xem xét ở thời điểm hiện tại với tệp hồ sơ của nó, thông thường nếu dữ liệu của thông số hiện tại cao hơn thì nhiều khả năng hệ thống bị tấn công

Hệ thống có thể sử dụng nhiều quy luật đơn giản để phát hiện ra sự khác nhau Sử dụng ngưỡng ( Threshold) là cách đơn giản nhất, khi thông số được theo dõi vượt quá ngưỡng đặt ra thì có cảnh báo Các hệ thống sử dụng phân tích thống kê điển hình là Haystack (Smaha, 1988), IDES (Lunt et al, 1988), EMERALD (Porras and Neumann, 1997) Haystack (Smaha,1988) được phát triển cho việc phát hiện xâm nhập dựa trên tệp thông tin người dùng log Hệ thống được phát triển cho cả 2 phương thức dựa trên so sánh mẫu và dựa trên bất thường Đối với phương pháp dựa trên bất thường, từ các thống kê điều kiện trước đây hệ thống trên cả 2 loại : từng người dùng riêng lẻ và mô hình nhóm người dùng Rất nhiều đặc điểm trong phiên làm việc của người dùng được theo dõi, bao gồm : thời gian làm việc, số lượng tệp tạo ra, số lượng trang được in ra… chúng sẽ được mô hình hóa như là các biến độc lập và ngẫu nhiên Đối với từng đặc điểm, hệ thống sẽ xác định một khoảng giá trị được coi là bình thường, trong một phiên làm việc nếu yếu tố quan sát có giá trị nằm ngoài khoảng bình thường thì h ệ thống sẽ tính điểm dựa trên phân bố xác suất, một cảnh báo sẽ được sinh ra nếu điểm quá cao Ngoài ra đối với người dùng Haystack còn xác định quyền cho từng người, nếu hành vi của

ai đó vượt qua quyền được cho phép thì sẽ bị coi là bất thường Nhược điểm lớn nhất của hệ thống Haystack là thiết kế chỉ chạy offline, không giám sát được thời gian thực IDES (Intrusion Detection Expert System – Lunt, 1988) là một trong những lớp hệ thống phát hiện xâm nhập đầu tiên Dự án IDES được phát triển trong một số năm,sau khi hoàn thành thì nó được cải tiến thành NIDES (Next Generation Intrusion Detection Expert System) Các hệ thống IDES dựa trên nguyên tắc hành vi người dùng trong các trường hợp thích hợp sẽ được tổng kết, tính toán thống kê, sau đó các hành động hiện tại sẽ được so sánh cùng các tệp hồ

Trang 34

sơ tự nghiên cứu, và sự chênh lệch có thể được đánh dấu như là hành vi bất thường IDES theo dõi ba loại đối tượng : người dùng, các host truy cập từ xa, các

hệ thống đích Trong đó có khoảng 36 thông số được xem xét: 25 cho người dùng,

6 cho các host truy cập từ xa, và 5 cho các hệ thống đích IDES đo đạc các thông

số này trong mỗi phiên người dùng và dựa vào các tham số đó sinh ra các tệp hồ

sơ, chúng cũng được cập nhật để phản ánh hành vi của người dùng từng ngày IDES sau đó cũng sử dụng một hệ chuyên gia để kiểm tra từng bản ghi mới ngoài những bản ghi đã biết Ngoài ra hệ thống còn gán cho các bản ghi một trọng số đi kèm, cứ 30 ngày trọng số này giảm đi một nửa nhằm phân biệt các sự kiện xảy ra

từ lâu với các sự kiện mới Nhược điểm của phương pháp này là chỉ tính thống kê trên từng yếu tố quan sát nên không phát hiện được các cuộc tấn công ảnh hưởng trên diện rộng, tác động đến nhiều thành phần khác nhau của hệ thống EMERALD (Event Monitoring Enabling Responses to Anomalous Live Disturbances – Porras and Naumann, 1997) là một hệ thống phát hiện xâm nhập có khả năng mở rộng

và tích hợp cùng các hệ thống khác, nó tập trung vào việc phát hiện những xâm nhập từ bên ngoài, và được thiết kế để hoạt động tốt trên 3 mức: mức phân tích dịch

vụ, mức domain, mức cho các tổ chức Kiến trúc của EMERALD được xây dựng trên các hệ thống theo dõi EMERALD địa phương, chúng được phân bố và hoạt động tương đối độc lập trên các mức khác nhau Mỗi hệ thống theo dõi kết nối với các hệ thống theo dõi khác thông qua mạng, chúng kết hợp việc phân tích dựa trên dấu hiệu và thống kê hồ sơ để tạo ra khả năng bảo vệ thời gian thực cho các dịch vụ người dùng mạng rộng lớn trên Internet Một hệ thống theo dõi EMERALD bao gồm 4 thành phần chính: đối tượng tài nguyên (resource object), phương tiện hồ sơ (profiler engine), phương tiện dấu hiệu (signature engine) và thiết bị giải quyết chung (universal resolver) Đối tượng tài nguyên nắm bắt tất cả các thông số cấu hình, duy trì danh sách các hệ thống khác có kết nối đến nó … Phương tiện hồ sơ thực hiện một số thao tác phát hiện bất thường trên các dữ liệu

đã được kiểm tra, nó có thể phát triển trên các thành phần IDES và NIDES, các

hồ sơ dữ liệu được cung cấp dưới dạng các lớp từ thành phần đối tượng tài

Trang 35

nguyên Phương tiện dấu hiệu cung cấp khả năng phát hiện dựa trên dấu hiệu, nó hoạt động cùng với một tập các quy tắc nhỏ Thiết bị giải quyết chung đóng vai trò bộ xử lý trung tâm, nó tổng hợp các dữ liệu từ các thành phần địa phương, quyết định có hay không một sự xâm nhập xảy ra hoặc quyết định một phản ứng nào được sinh ra Nó đồng thời cũng quản lý sự kết nối giữa các hệ thống theo dõi Thiết bị giải quyết chung sử dụng một hệ chuyên gia để đưa ra kết luận từ các thông báo của phương tiện hồ sơ, phương tiện dấu hiệu và hệ thống theo dõi khác.

2.3.4 Phương pháp dựa trên phân cụm

Phân cụm là việc gán các đối tượng vào các nhóm gọi là cụm (Cluster) sao cho các đối tượng trong cụm có độ tương đồng giống nhau so với những cụm khác[8,6,12] Nếu một đối tượng nằm ngoài những cụm đã biết, đó có thể là dấu hiệu bất thường Phương pháp này thường mặc định là các cụm có nhiều phân tử hoặc có mật độ cao

là bình thường, ngược lại là bất thường Phần lớn các phương pháp áp dụng cho dữ liệu có thuộc tính liên tục Các phương pháp phân cụm thường dùng trong phát hiện lưu lượng bất thường là phân hoạch (Partitioning), và mật độ (Density) Điển hình

là phương pháp dựa trên thuật toán K-means và thuật toán phát hiện ngoại lai cục

bộ LOF (Local Outlier Factor)

2.3.5 Phương pháp máy vector hỗ trợ

Trong SVM (Support Vector Machine) [8,6,12], vector đầu vào được ánh xạ sang không gian thuộc tính cấp cao hơn Sức mạnh của SVM nằm ở khả năng phân chia vùng biên thành những siêu mặt phẳng được quyết định bởi vector hỗ trợ Điều này sẽ tạo ra các giá trị ngoại lai tốt hơn Về cơ bản, SVM phân loại cho lớp nhị phân, ví dụ tách các vector huấn luyện thành các vector siêu phẳng khác nhau Tỷ lệ giữa mặt siêu phẳng và số lượng dữ liệu bị sót khi phân loại có thể điều chỉnh được SVM thường có độ chính xác cao khi đầy đủ dữ liệu huấn luyện SVM có thể chỉ cần huấn luyện với một lớp dữ liệu bình thường (One-class SVM) hoặc với nhiều lớp khác nhau, bao gồm nhiều lớp bất thường SVM có thể sử dụng hàm tuyến tính hoặc phi tuyến tính (dùng hàm kernel) để phân chia các lớp

Trang 36

2.3.6 Phương pháp dựa trên hệ chuyên gia

Phương pháp này được áp dụng từ rất sớm trong lĩnh vực dò lỗi hay phát hiện bất thường trong mạng Trong hệ chuyên gia, một cơ sở dữ liệu toàn diện chứa tập luật miêu tả hành vi của hệ thống được sử dụng để xác định nếu một lỗi nào

đó xảy ra Trên thực tế phương pháp này ít được áp dụng do hệ thống chạy quá chậm không đáp ứng được yêu cầu của các ứng dụng thời gian thực và phụ thuộc nhiều vào cơ sở tri thức về các triệu chứng lỗi trước đó Những triệu chứng này

có thể là: dung lượng đường truyền bị quá tải, số lượng kết nối TCP mở nhiều trên mức cho phép, thông lượng đạt mức tối đa… Phương pháp này còn có một nhược điểm là phụ thuộc khá nhiều vào người quản trị mạng và không đáp ứng kịp khi hệ thống mạng được mở rộng do mỗi khi hệ thống có sự thay đổi thì cần

có sự bổ sung về tập luật Người ta có thể sử dụng mô hình hệ chuyên gia FCMs (fuzzy cognitive maps) để khắc phục nhược điểm này FCM có thể được sử dụng

để tạo ra một mô hình thông minh có sự thừa kế và tác động qua lại với nhau của các triệu chứng mạng

Cơ chế hoạt động của phương pháp dựa vào tập luật có thể xác định như sau:

- Giả thiết các sự kiện phát triển theo một trình tự nhất định

- Mô tả hành vi hoạt động bình thường của hệ thống dưới dạng các luật đã được rút gọn nhất có thể Ví dụ như A1A2 => B1, sự kiện A1 xảy ra xong đến sự kiện A2 thì có thể xảy ra sự kiện B1 tiếp theo

- Ta có một tập luật, so sánh các chuỗi sự kiện đưa vào với tập luật, nếu các sự kiện đưa vào phù hợp với vế trái của một luật mà không trùng với về phải của luật thì có thể xem xét xác định bất thường ở đây Như ở ví dụ trên trong thực tế

sự kiện A1, sự kiện A2 xảy cuối cùng lại dẫn đến sự kiện C1 xảy ra thì có thể kết luận là có sự kiện bất thường diễn ra ở đây

Trang 37

Hình 2.2 Mô hình hệ thống phát hiện bất thường dựa trên tập luật

2.3.7 Phương pháp dựa trên luật học máy

Phương pháp học các luật có thể mô hình hóa trạng thái bình thường của hệ thống[8,12,20] Các phương pháp cây quyết định (Decision Tree) như C4.5/C5.0.ID3, Random Forest v.v học các luật dựa trên dữ liệu huấn luyện Những quan sát không thỏa mãn những luật đã học được coi là bất thường Phương pháp dựa trên luật học máy có thể áp dụng cho nhiều lớp cũng như là một lớp Mỗi luật có một giá trị phản án mức độ tin cậy của luật Đó có thể là tỷ lệ giữa số lượng

dữ liệu đã phân lớp thành công bởi luật và tổng số dữ liệu sử dụng bởi luật Sau đó với mỗi quan sát dữ liệu cần tìm luật tốt nhất Giá trị mức độ tin cây gắn liền với luật lựa chọn cho biết mức độ tin cậy gắn liền với luật được lựa chọn cho biết lớp của quan sát tương ứng (lớp bình thường hoặc một lớp bất thường)

Một số phương pháp khác là luật kết hợp (Association Rule Mining) có thể hoạt động như phương pháp không giám sát hoặc một lớp Phương pháp luật kết hợp sử dụng giá trị ngưỡng để loại bỏ những luật ít có khả năng xảy ra Những biến hoặc thuộc tính hay gắn liền với nhau được kết hợp trong các tập (Itemset) Luật kết hợp hữu ích khi cần phân tích kỹ hơn về đặc điểm lớp dữ liệu bình thường hoặc mỗi lớp bất thường

Trang 38

2.3.8 Phương pháp dựa trên khai phá dữ liệu

Trong thời đại công nghệ thông tin, các hệ thống thông tin có thể lưu trữ một khối lượng lớn dữ liệu về hoạt động hằng ngày của chúng Từ khối dữ liệu này, chúng ta có thể áp dụng các kỹ thuật trong Khai phá dữ liệu (KPDL) để lấy ra những thông tin hữu ích mà chúng ta quan tâm Các thông tin thu được có thể vận dụng ngược trở lại nhằm cải thiện hiệu năng của hệ thống thông tin ban đầu

Định nghĩa về KPDL được phát biểu như sau: “KPDL là việc sử dụng dữ liệu lịch

sử để khám phá những quy tắc và cải thiện những quyết định trong tương lai.” Với một cách tiếp cận mang tính ứng dụng hơn, Tiến sỹ Fayyad đã đưa ra một định nghĩa khác: “KPDL thường được xem là việc khám phá tri thức trong các cơ sở dữ liệu, là một quá trình trích dẫn những thông tin ẩn, trước đây chưa biết và có khả năng hưu ích dưới dạng các quy luật, ràng buộc, qui tắc trong cơ sở dữ liệu” Nói chung, KPDL là một quá trình học tri thức mới từ những dữ liệu thu thập được trước đó

KPDL có năm giai đoạn chính và có thể được lập lại nhiều lần ở một hay nhiều giai đoạn, chúng bao gồm:

- Tìm hiểu nghiệp vụ và dữ liệu

- Chuẩn bị dữ liệu

- Mô hình hóa dữ liệu

- Hậu xử lý và đánh giá mô hình

- Triển khai tri thức

Tham gia chính trong quá trình KPDL là các nhà tư vấn và phát triển chuyên nghiệp trong lĩnh vực KPDL

Trong giai đoạn tìm hiểu nghiệp vụ và dữ liệu, nhà tư vấn nghiên cứu kiến thức

về lĩnh vực sẽ áp dụng, bao gồm các tri thức cấu trúc về hệ thống và tri thức, các nguồn dữ liệu hiện hữu, ý nghĩa, vai trò và tầm quan trọng của các thực thể dữ liệu Việc nghiên cứu này được thực hiện qua việc tiếp xúc giữa nhà tư vấn và người dùng Khác với phương pháp giải quyết vấn đề truyền thống khi bài toán được xác định chính xác ở bước đầu tiên, nhà tư vấn tìm hiểu các yêu cầu sơ khởi của người

Ngày đăng: 28/02/2018, 11:51

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w