1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luan van nghien cuu xam nhap trai phep IDS

87 146 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 87
Dung lượng 1,48 MB
File đính kèm Luan_Van_Nghien_Cuu_Xam_Nhap_Trai_Phep_IDS.rar (1 MB)

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Vấn đề bảo mật được đặt ra và những đóng góp lớn trong việc hạn chế và ngăn chặn bảo mật, như Firewall ngăn chặn những kết nối không đáng tin cậy, mã hóa làm tăng độ an toàn cho việc truyền dữ liệu, các chương trình diệt virus với các các cơ sở dữ liệu được cập nhật. Những yêu cầu trên dẫn đến yêu cầu phải có một phương pháp bảo mật mới hỗ trợ cho những phương pháp bảo mật truyền thống. Hệ thống phát hiệm xâm nhập IDS (Intruction Detection System) là một hệ thống giám sát lưu thông mạng có khả năng phát hiện các hoạt động khả nghi hay các hành động xâm nhập trái phép trên hệ thống mạng trong tiến trình tấn công, cung cấp thông tin nhận biết và đưa ra cảnh báo cho hệ thống, nhà quản trị.

Trang 1

MỤC LỤC

LỜI CAM ĐOAN i

LỜI CẢM ƠN ii

DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT vi

DANH MỤC CÁC BẢNG vii

DANH MỤC CÁC HÌNH VẼ viii

MỞ ĐẦU 1

Chương 1: TỔNG QUAN VỀ IDS 6

1.1 Khái quát về IDS 6

1.1.1 Lịch sử phát triển của IDS 7

1.1.2 Lợi ích chung của IDS 7

1.1.3 Những thành phần không phải IDS 8

1.2 Phân loại IDS 8

1.2.1 Hệ thống phát hiện xâm nhập dựa trên host (Host IDS) 9 1.2.2 Hệ thống phát hiện xâm nhập dựa trên mạng (NIDS) .10 1.2.3 Phát hiện xâm nhập IDS lai (Distributed (Hybrid) IDS) 11 1.3 Kiến trúc IDS 11

1.4 Cơ chế phát hiện xâm nhập IDS 13

1.5 Kết chương 14

Chương 2: MỘT SỐ KỸ THUẬT PHÂN TÍCH LƯU LƯỢNG PHÁT HIỆN TẤN CÔNG MẠNG 15

2.1 Tổng quan về các phương pháp, mô hình phân tích và phát hiện lưu lượng bất thường 15

2.2 Lưu lượng mạng bất thường 20

2.2.1 Khái niệm về lưu lượng mạng bất thường 20

2.2.2 Nguyên nhân gây ra lưu lượng mạng bất thường 22

2.2.3 Phân tích và phát hiện lưu lượng mạng bất thường 23

2.3 Một số phương pháp phân tích và phát hiện lưu lượng bất thường điển hình 24

2.3.1 Phương pháp dựa trên mô hình Markov 24

2.3.2 Phương pháp dựa trên mạng Bayesian 25

Trang 2

2.3.3 Phương pháp dựa trên phân tích thống kê 25

2.3.4 Phương pháp dựa trên phân cụm 28

2.3.5 Phương pháp máy vector hỗ trợ (SVM) 28

2.3.6 Phương pháp dựa trên hệ chuyên gia (Ruler base) 29

2.3.7 Phương pháp dựa trên luật học máy 30

2.3.8 Phương pháp dựa trên khai phá dữ liệu 31

2.3.9 Phương pháp dựa trên PCA 33

2.4 Kết chương 35

Chương 3: ỨNG DỤNG PCA XÂY DỰNG IDS CHO MÁY CHỦ DỊCH VỤ 36

3.1 Thuật toán phân tích thành phần chính PCA 36

3.1.1 Giới thiệu 36

3.1.2 Thuật toán PCA 37

3.1.3 Phương pháp phân tích và phát hiện lưu lượng bất thường dựa trên PCA .43 3.1.4 Thiết lập mức ngưỡng 45

3.2 Mô hình hệ thống phân tích dữ liệu bất thường trên PCA 46 3.3 Kiến trúc hệ thống giám sát máy chủ dịch vụ thi trắc nghiệm 47

3.3.1 Phạm vi thu thập dữ liệu 47

3.2.2 Kiến trúc tổng thể của hệ thống giám sát 49

3.2.3 Máy trinh sát 49

3.3 Nhận dạng, phân loại bất thường và khả năng kết hợp phát hiện lưu lượng bất thường với phát hiện tấn công mạng dựa trên mẫu dấu hiệu 54

3.4 Mô hình phát hiện lưu lượng bất thường trên máy chủ dịch vụ 55

3.4.1 Các loại tấn công phổ biến đối với máy chủ dịch vụ: 58

3.5 Mô phỏng thử nghiệm phát hiện tấn công của PCA trên máy chủ dịch vụ: 59

3.5.1 Tập dữ liệu thử nghiệm 59

3.5.2 Mô phỏng thử nghiệm phát hiện bất thường và một số loại tấn công 62

KẾT LUẬN VÀ KIẾN NGHỊ 65

TÀI LIỆU THAM KHẢO 67

Trang 3

DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT

DNS Domain Name System Hệ thống tên miền

IDS Intrussion Detection

System

Hệ thống phát hiện tấn côngxâm nhập

ISP Internet Service Provider Nhà cung cấp dịch vụ

Trang 4

DANH MỤC CÁC BẢNG

Bảng 1.1 Ưu điểm, nhược điểm của hệ thống phát hiện xâm nhập dựa trên host (Host IDS)

9

Bảng 1.3 Ưu điểm, nhược điểm của hệ thống phát hiện xâm nhập dựa trên mẫu dấu hiệu13 Bảng 1.4 Ưu điểm, nhược điểm của hệ thống phát hiện xâm nhập dựa trên sự bất thường .14

Bảng 2.1 Các phương pháp phân tích và phát hiện lưu lượng bất thường 16

Bảng 2.2 Tổng kết tóm tắt một số ưu, nhược điểm của nhóm phương pháp phát hiện lưu lượng bất thường 18

Bảng 2.3 Các nguyên nhân điển hình gây ra lưu lượng mạng bất thường 22

Bảng 3.1 Thuộc tính dùng trong thử nghiệm của tập dữ liệu NSL – KDD 61

Bảng 3.2 Kết quả phát hiện của PCA với một số loại tấn công 63

Trang 5

DANH MỤC CÁC HÌNH VẼ

Hình 1.1 Kiến trúc IDS 6

Hình 1.2 IDS dựa trên host 9

Hình 1.3 IDS dựa vào mạng 10

Hình 2.1 Biểu diễn các tập dữ liệu bình thường và bất thường thu được từ mạng trên toạ độ hai chiều 20

Hình 2.2 Mô hình hệ thống phát hiện bất thường dựa trên tập luật 30

Hình 3.1 Minh họa PCA: tìm trục tọa độ mới sao cho dữ liệu biến thiên lớn nhất 37

Hình 3.2 PCA trong mặt phẳng 2D (2 thành phần chính) 43

Hình 3.3 Mô hình chung hệ thống phân tích và phát hiện lưu lượng bất thường dựa trên PCA 46

Hình 3.4 Hệ thống mạng thi trắc nghiệm có kết nối Internet 48

Hình 3.5 Kiến trúc tổng thể của hệ thống giám sát 48

Hình 3.6 Cấu trúc thiết bị trinh sát 49

Hình 3.7 Hệ thống phần mềm trinh sát 51

Hình 3.8 Một số sự kiện thu được tại trung tâm giám sát 54

Hình 3.8 Mô hình kết hợp phát hiện bất thường và mẫu dấu hiệu 57

Trang 6

MỞ ĐẦU

Kể từ khi ra đời, Internet không ngừng phát triển và mở rộng

đã mang lại rất nhiều tiện ích hữu dụng như: hệ thống thư điện tử(email), trò chuyện trực tuyến (chat), tìm kiếm dữ liệu, trao đổithông tin Khả năng kết nối trên toàn thế giới đang mang lại thuậntiện cho tất cả mọi người, nhưng nó cũng tiềm ẩn những nguy cơkhó lường đe dọa tới mọi mặt của đời sống xã hội Việc mất trộmthông tin trên mạng gây ảnh hưởng đến tính riêng tư cho các cánhân, những vụ lừa đảo, tấn công gây từ chối dịch vụ gây ảnhhưởng lớn đến hoạt động kinh doanh cho các công ty và gây phiềntoái cho người sử dụng Internet làm cho vấn đề bảo mật trên mạngluôn là một vấn đề nóng và được quan tâm đến trong mọi thờiđiểm

Vấn đề bảo mật được đặt ra và những đóng góp lớn trong việchạn chế và ngăn chặn bảo mật, như Firewall ngăn chặn những kếtnối không đáng tin cậy, mã hóa làm tăng độ an toàn cho việctruyền dữ liệu, các chương trình diệt virus với các các cơ sở dữ liệuđược cập nhật Những yêu cầu trên dẫn đến yêu cầu phải có mộtphương pháp bảo mật mới hỗ trợ cho những phương pháp bảo mậttruyền thống Hệ thống phát hiệm xâm nhập IDS (IntructionDetection System) là một hệ thống giám sát lưu thông mạng cókhả năng phát hiện các hoạt động khả nghi hay các hành độngxâm nhập trái phép trên hệ thống mạng trong tiến trình tấn công,cung cấp thông tin nhận biết và đưa ra cảnh báo cho hệ thống,nhà quản trị

Từ những lý do trên, học viên lựa chọn đề tài “Nghiên cứu hệ thống phát hiện xâm nhập IDS cho máy chủ dịch vụ ” cho

luận văn Thạc sĩ của mình

Trang 8

niệm phát hiện xâm nhập xuất hiện qua một bài báo của JamesAnderson Khi đó người ta cần IDS với mục đích là dò tìm và nghiêncứu các hành vi bất thường và thái độ của người sử dụng trongmạng, phát hiện ra các việc lạm dụng đặc quyền để giám sát tàisản hệ thống mạng Các nghiên cứu về hệ thống phát hiện xâmnhập được nghiên cứu chính thức từ năm 1983 đến năm 1988trước khi được sử dụng tại mạng máy tính của không lực Hoa Kỳ.Cho đến tận năm 1996, các khái niệm IDS vẫn chưa được phổ biến,một số hệ thống IDS chỉ được xuất hiện trong phòng thí nghiệm vàcác viện nghiên cứu Tuy nhiên trong thời gian này, một số côngnghệ IDS bắt đầu phát triển dựa trên sự bùng nổ của công nghệthông tin Đến năm 1997 IDS mới được biết đến rộng rãi và thực sựđem lại lợi nhuận với sự đi đầu của công ty ISS, một năm sau đóCisco nhận ra tầm quan trọng của IDS và đã mua lại một công tycung cấp giải pháp IDS tên là Wheel Group.

- Hiện nay, trên thế giới có rất nhiều sản phẩm giám sát anninh mạng ở mức công nghiệp (Enterprise - Level) có khả năng tíchhợp nhiều chức năng: phát hiện xâm nhập (detection), giám sát(monitoring) và ngăn chặn (blocking) Nhiều hệ thống phần mềmđược tích hợp vào các thiết bị máy tính chuyên dụng có cấu trúcrack-mount để cắm trực tiếp vào các tủ mạng và chạy theo cácchế độ thời gian thực (real time) Một số hệ thống còn tích hợpluôn firewall Đa phần các sản phẩm này của Mỹ có chất lượng vàtính năng đảm bảo an toàn cao Tuy nhiên, giá của các hệ thốngthiết bị này rất cao thông thường từ 25.000USD đến 35.000USD.Tại Việt Nam chỉ một số cơ quan, đơn vị lớn về ứng dụng công

Trang 9

nghệ thông tin mua các sản phẩm bảo vệ an ninh này để sử dụngbảo vệ mạng máy tính của mình Trong nước đã có một số đơn vịcung cấp giải pháp an ninh mạng như BKAV, Công ty Cổ phần giảipháp IDS Việt Nam, Cisco Việt Nam… nhưng giá thành khá cao vàkhông phải đơn vị nào cũng có đủ khả năng về tài chính để chi trả.Hiện nay đã có một số đề tài nghiên cứu phòng chống thâmnhập trái phép IDS trên Linux như Snort tuy có khả năng phát hiệnxâm nhập nhưng việc ngăn chặn còn khó khăn khi phát hiện Việc

sử dụng trên mã nguồn mở đòi hỏi người quản trị phải nắm khávững về nền tảng Linux

Xuất phát từ nhu cầu trên, để xây dựng và triển khai được một

hệ thống giám sát IDS đủ mạnh nhưng lại tiết kiệm được chi phí,phù hợp với các tổ chức, đơn vị có quy mô vừa và nhỏ, học viên đãnghiên cứu và lựa chọn giải pháp phần mềm hệ thống giám sát anninh IDS

- Nghiên cứu hệ thống phát hiện xâm nhập trái phép dựa trên phân tích lưu lượngmạng bất thường

- Đề xuất xây dựng hệ thống phát hiện xâm nhập trái phép IDScho máy chủ dịch vụ Xây dựng hệ thống IDS cho các thiết bịmạng, thiết lập các hệ thống thu thập thông tin cho các vùng

Trang 10

lưu lượng mạng, kết hợp với hệ thống IDS cho các máy chủ tạothành một hệ thống cho toàn mạng.

Đối tượng và phạm vi nghiên cứu

- Tập trung vào phân tích rủi ro, lỗ hổng của mạng, cách thức tấncông, nhược điểm của giao thức TCP/IP và phương pháp bảo vệmạng khỏi tấn công Tìm hiểu kiến thức về các hệ thống dò tìmphát hiện xâm nhập (IDS), cấu trúc hệ thống, phương phápphân loại, cách thức dò tìm xâm nhập và phương pháp xử lý dữliệu Nghiên cứu các mô hình thống kê, các thành phần của hệthống bao gồm chủ thể và đối tượng, hồ sơ, bản ghi, luật hoạtđộng

- Nghiên cứu giải pháp dò tìm xâm nhập thời gian thực cho máychủ dịch vụ Trình bày mô hình, cấu trúc và một số kết quảđược hệ thống IDS thử nghiệm cho máy chủ dịch vụ

Phương pháp nghiên cứu

- Kết hợp nghiên cứu lý thuyết, tìm hiểu mô hình, cấu trúc và một

số kết quả thu được từ hệ thống IDS, thử nghiệm cho máy chủ dịch

vụ

Nội dung của luận văn được chia thành 3 chương với những nội dung cụ thể như sau:

Chương 1: TỔNG QUAN VỀ IDS

- Khái quát về IDS

- Phân loại IDS

- Kiến trúc và thành phần IDS

- Cơ chế hoạt động IDS

- Kết luận chương

Trang 11

Chương 2: MỘT SỐ KỸ THUẬT PHÂN TÍCH LƯU LƯỢNG PHÁT HIỆNTẤN CÔNG MẠNG

- Phân tích lưu lượng mạng điển hình

- Phân tích lưu lượng mạng dựa trên học máy và khai phá

Trang 12

Chương 1: TỔNG QUAN VỀ IDS

1.1 Khái quát về IDS

Hệ thống phát hiện xâm nhập [31] (Intrusion Detection System

- IDS) là hệ thống phần cứng hoặc phần mềm có chức năng giámsát lưu thông mạng, tự động theo dõi các sự kiện xảy ra trên hệthống máy tính, phân tích để phát hiện ra các vấn đề liên quanđến an ninh, bảo mật và đưa ra cảnh báo cho nhà quản trị

IDS cũng có thể phân biệt giữa những tấn công vào hệ thống từbên trong (từ những người trong hệ thống) hay tấn công từ bênngoài (từ những hacker) IDS phát hiện dựa trên các dấu hiệu đặcbiệt về các nguy cơ đã biết (tương tự như các phần mềm dựa virusdựa vào các dấu hiệu đặc biệt để phát hiện và diệt virus) hay dựatrên so sánh lưu lượng mạng hiện tại với baseline (thông số đo đạcchuẩn của hệ thống) để tìm ra các dấu hiệu khác thường

Hình 1.1 Kiến trúc IDSMột hệ thống phát hiện xâm nhập trái phép cần thỏa mãnnhững yêu cầu sau:

 Tính chính xác (Accuracy): IDS không được coi là hành độngthông thường trong môi trường hệ thống là những hành động bất

Trang 13

thường hay lạm dụng (hành động thông thường bị coi là bấtthường được gọi là false positive).

 Hiệu năng (Performance): Hiệu năng của IDS phải đủ để pháthiện xâm nhập trái phép trong thời gian thực (hành động xâmnhập trái phép phải được phát hiện trước khi xảy ra tổn thươngnghiêm trọng đến hệ thống

 Tính trọn vẹn (Completeness): IDS không được bỏ qua mộtxâm nhập trái phép nào (xâm nhập không bị phát hiện gọi là falsenegative) Đây là một điều kiện khó có thể thỏa mãn được vì gầnnhư không thể có tất cả thông tin về các tấn công từ quá khứ, hiệntại và tương lai

 Chịu lỗi (False Tolerance): Bản thân IDS phải có khả năngchống lại tấn công

 Khả năng mở rộng (Scalability): IDS phải có khả năng xử lýtrong trạng thái xấu nhất là không bỏ xót thông tin Yêu cầu này cóliên quan đến hệ thống mà các sự kiện tương quan đến từ nhiềunguồn tài nguyên với số lượng host nhỏ Với sự phát triển nhanh vàmạnh của mạng máy tính, hệ thống có thể bị quá tải bởi sự tăngtrưởng của số lượng sự kiện

1.1.1 Lịch sử phát triển của IDS

Trên thế giới: Ra đời đầu tiên cách đây khoảng 30 năm, kháiniệm phát hiện xâm nhập xuất hiện qua một bài báo của JamesAnderson Khi đó người ta cần IDS với mục đích là dò tìm và nghiêncứu các hành vi bất thường và thái độ của người sử dụng trongmạng, phát hiện ra các việc lạm dụng đặc quyền để giám sát tàisản hệ thống mạng Các nghiên cứu về hệ thống phát hiện xâmnhập được nghiên cứu chính thức từ năm 1983 đến năm 1988trước khi được sử dụng tại mạng máy tính của không lực Hoa Kỳ.Cho đến tận năm 1996, các khái niệm IDS vẫn chưa được phổ biến,

Trang 14

một số hệ thống IDS chỉ được xuất hiện trong phòng thí nghiệm vàcác viện nghiên cứu Tuy nhiên trong thời gian này, một số côngnghệ IDS bắt đầu phát triển dựa trên sự bùng nổ của công nghệthông tin Đến năm 1997 IDS mới được biết đến rộng rãi và thực sựđem lại lợi nhuận với sự đi đầu của công ty ISS, một năm sau đóCisco nhận ra tầm quan trọng của IDS và đã mua lại một công tycung cấp giải pháp IDS tên là Wheel Group.

1.1.2 Lợi ích chung của IDS

Ưu điểm của hệ thống là có thể phát hiện được những kiểu tấncông chưa biết trước Tuy nhiên, hệ thống này lại sinh ra nhiềucảnh báo sai do định nghĩa quá chung về cuộc tấn công Thống kêcho thấy trong hệ thống này, hầu hết các cảnh báo là cảnh báosai, trong đó có nhiều cảnh báo là từ những hành động bìnhthường, chỉ có một vài hành động là có ý đồ xấu, hầu hết các hệthống đều có ít khả năng giới hạn các cảnh báo nhầm

Sử dụng hệ thống IDS để nâng cao khả năng quản lý và bảo vệmạng, lợi ích mà nó đem lại rất lớn Một mặt nó giúp hệ thống antoàn trước những nguy cơ tấn công, mặt khác nó cho phép nhàquản trị nhận dạng và phát hiện những nguy cơ tiềm ẩn dựa trênnhững phân tích và báo cáo được IDS cung cấp Từ đó, hệ thốngIDS có thể góp phần loại trừ một cách đáng kể những lỗ hổng vềbảo mật trong môi trường mạng

1.1.3 Những thành phần không phải IDS

Các thiết bị bảo mật dưới đây không phải IDS:

- Hệ thống đăng nhập mạng được sử dụng để phát hiện lỗ hổngđối với vấn đề từ chối dịch vụ (DoS) trên một mạng nào đó Ở

đó sẽ có hệ thống kiểm tra lưu lượng mạng

Trang 15

- Các công cụ đánh giá lỗ hổng kiểm tra lỗi và lỗ hổng trong hệđiều hành, dịch vụ mạng (các bộ quét bảo mật).

- Các sản phẩm chống virus đã thiết kế để phát hiện phần mềm

mã nguy hiểm như virus Trojan horse, worm Mặc dù nhữngtính năng mặc định có thể rất giống hệ thống phát hiện xâmnhập và thường cũng cấp một công cụ phát hiện lỗ hổng bảomật hiệu quả

- Tường lửa (firewall)

- Các hệ thống bảo mật/mật mã, ví dụ như VPN, SSL, S/MIME,Kerberos, Radius…

1.2 Phân loại IDS

Chức năng cơ bản của IDS là phát hiện người xâm nhập, IDS có cácdạng chính như:

- Hệ thống phát hiện xâm nhập dựa trên host (Host IDS)

- Hệ thống phát hiện xâm nhập dựa trên mạng (NetworkIDS)

- Hệ thống lai (Hybrid IDS – Distributed IDS)

Mỗi dạng của IDS đều có những ưu điểm và khuyết điểm riêngđược trình bày ở phần sau

1.2.1 Hệ thống phát hiện xâm nhập dựa trên

host (Host IDS)

Bằng cách cài đặt một phần mềm trên tất cả các máy chủ, IDSdựa trên máy chủ quan sát tất cả các hoạt động hệ thống, như cácfile log và những lưu lượng mạng thu thập được Hệ thống dựa trênmáy chủ cũng theo dõi hệ điều hành, ghi nhận các sự kiện vànhững thông điệp báo lỗi trên hệ thống máy chủ

Trang 16

Hình 1:

Hình 1.2 IDS dựa trên hostBảng 1.1 Ưu điểm, nhược điểm của hệ thống phát hiện xâm nhập

dựa trên host (Host IDS)

- HIDS sẽ phân tích trước khi

mã hóa và sau khi giải mã

Trang 17

Hình 1.3 IDS dựa vào mạngTrong hình trên, tất cả lưu lượng truy cập Internet là thông quarouter, giao thông được phản ánh cho một cổng giám sát trên mộtIDS NIDS thông thường bao gồm một cổng giám sát cắm vào cácđoạn mạng mà ta muốn theo dõi Cổng giám sát dễ dàng bị quá tải

và sẽ có một số luồng giao thông bị bỏ sót mà có thể chứa cáccuộc tấn công chống lại mạng Vì vậy, ta cần phải đặt IDS cẩnthận, hợp lý để đảm bảo cổng giám sát sẽ không bị quá tải

Trang 18

Bảng 1.2 Ưu điểm, nhược điểm của hệ thống phát hiện xâm nhập dựa

scan hoặc ping rà soát

- Yêu cầu cài đặt trên một đoạn mạng mà việc giám sát các cổng không bị quá tải

- Yêu cầu phải giám sát các thành phần khác nhau của mạng sử dụng nhiều thiết

bị IDS

- Yêu cầu phải tập hợp các giao thông bị phân mảnh (giao thông IP được chia thành nhiều mảnh IP)

- Đòi hỏi CPU đáng kể và nhiều tài nguyên bộ nhớ

để có thể phân tích lưu lượng truy cập theo dõi trong thời gian thực

- Không thể phát hiện các cuộc tấn công có trong thông tin liên lạc mã hóa

1.2.3 Phát hiện xâm nhập IDS lai (Distributed (Hybrid)

IDS)

Những hệ thống IDS lai là những hệ thống nhằm kết hợp những

ưu điểm của mỗi dạng IDS, cũng như việc tối thiểu hóa những hạnchế Trong hệ thống lai, cả những bộ cảm biến và những máy chủđểu báo về một trung tâm quản trị

Trang 19

Ngoài khả năng kết hợp được những điểm mạnh của hai dạngIDS, các hệ IDS lai còn có thể kết hợp được hai cơ chế là dựa trêndấu hiệu và cơ chế phát hiện bất thường.

1.3 Kiến trúc IDS

Kiến trúc của hệ thống IDS bao gồm các thành phần chính:

- Thành phần thu thập thông tin (Information collection)

độ lọc thông tin sự kiện

Bộ tạo sự kiện (hệ điều hành, mạng, ứng dụng) cung cấp một số chính sách thíchhợp cho các sự kiện, có thể là một bản ghi ác sự kiện của hệ thống hoặc các góimạng Số chính sách này cùng với thông tin chính sách có thể được lưu trong hệthống được bảo vệ hoặc bên ngoài

Vai trò của bộ cảm biến dùng để lọc thông tin và loại bỏ dữ liệu không tươngthích Vì vậy có thể phát hiện được các hành động nghi ngờ Bộ phân tích sử dụng

cơ sở dữ liệu chính sách phát hiện cho mục này Thêm vào đó, cơ sở dữ liệu giữ cáctham số cấu hình, gồm có các chế độ truyền thông ví hệ thống đáp trả Bộ cảm biếncũng có cơ sở dữ liệu của riêng nó, gồm dữ liệu lưu về các xâm nhập phức tạp tiềm

ẩn IDS có thể được sắp đặt tập trung (ví dụ như được tích hợp vào trong tường lửa)hoặc phân tán Một IDS phân tán gồm nhiều IDS khác nhau trên một mạng lớn, tất

cả chúng truyền thông với nhau

IDS có khả năng dò tìm và phát hiện những cuộc tấn công vào hệ thống mạng.IDS tạo ra một báo động khi nó biết có sự xâm nhập bất thường vào hệ thống IDSdựa trên các tiêu chí báo động cho phép nó có thể xác định được các cuộc tấn công.Tất nhiên, để có thể phát hiện các cuộc tấn công, một hoặc nhiều hệ thống IDS phảiđược đặt một cách thích hợp trong mạng, hoặc cài đặt các thiết bị mạng lưới giámsát lưu lượng truy cập trên mạng hoặc cài đặt như máy trạm theo dõi hệ điều hành

Trang 20

và ứng dụng đáng ngờ IDS còn có khả năng phát hiện các cuộc tấn công tinh vi sửdụng các kỹ thuật lẩn tránh để qua mặt các IDS mà thâm nhập không bị phát hiện.

Trang 21

1.4 Cơ chế phát hiện xâm nhập IDS

Mục đích của hệ thống IDS là nhằm cảnh báo cho người quản trịkhi phát hiện xâm nhập Những hệ thống báo trộm kích hoạt mộttín hiệu dựa trên sự chuyển động của đầu dò Các hệ thống IDScũng có hai dạng cơ chế kích hoạt (triggering mechanism):

- Phát hiện sử dụng sai (dựa trên những dấu hiệu)

Phát hiện sử dụng sai còn được gọi là phát hiện dựa trên dấuhiệu (signature – base detection) Phát hiện sử dụng sai đòi hỏinhững file dấu hiệu (signature) để nhận dạng những hành độngxâm nhập Những file dấu hiệu sử dụng trong phương pháp pháthiện sử dụng sai thì tương tự như những file dấu hiệu trong nhữngphần mềm diệt virus

Bảng 1.3 Ưu điểm, nhược điểm của hệ thống phát hiện xâm nhập

dựa trên mẫu dấu hiệu

- Có ít nhất cảnh báo nhầm

hơn kiểu phát hiện sự bất

thường

- Không theo dõi những mẫu

lưu lượng hay tìm kiếm

những sự bất thường

- Theo dõi những hoạt động

đơn giản để tìm sự tương

xứng đối với bất kỳ dấu

hiệu nào đã được định

- Không phát hiện những thay đổi của những cuộc tấn công đã biết

- Khả năng quản trị cơ sở

dữ liệu những dấu hiệu làcông việc mất nhiều thời gian cũng như khó khăn

- Giống như tường lửa, bộ cảm biến phải duy trì trạng thái dữ liệu trong

bộ nhớ để tìm lại nhanh hơn, nhưng mà bộ nhớ thìgiới hạn

Trang 22

- Phát hiện sự bất thường (dựa trên mô tả sơ lược)

Khi tìm thấy sự bất thường, một tín hiệu cảnh báo sẽ được kíchhoạt Chính vì dạng phát hiện này tìm kiếm những bất thường nênngười quản trị bảo mật phải định nghĩa đâu là những hoạt động,lưu lượng bất thường

Người quản trị bảo mật có thể định nghĩa những hoạt động bìnhthường bằng cách tạo ra những bản mô tả sơ lược nhóm ngườidùng (user group profile) Mỗi profile được sử dụng như là địnhnghĩa cho người sử dụng thông thường và hoạt động mạng Nếumột người dùng làm lệch quá xa những gì họ định nghĩa trongprofile, hệ thống IDS sẽ phát sinh cảnh báo

Bảng 1.4 Ưu điểm, nhược điểm của hệ thống phát hiện xâm nhập

dựa trên sự bất thường

- Kẻ xâm nhập sẽ không bao

giờ biết lúc nào có hoặc

không phát sinh cảnh báo

bởi vì họ không có quyền

truy cập vào những profile

sử dụng để phát hiện

những cuộc tấn công

- Không dựa trên một tập

những dấu hiệu đã được

định dạng hay những đợt

tấn công đã được biết

- Thời gian chuẩn bị ban đầu cao

- Không có sự bảo vệ trongsuốt thời gian khởi tạo ban đầu

- Thường xuyên cập nhập profile khi thói quen người dùng thay đổi

- Khó khăn trong việc định nghĩa các hành động thông thường

- Cảnh báo nhầm

1.5 Kết chương

Chương 1 trình bày tổng quan về cơ sở lý thuyết, các nghiên cứu liên quan đến IDS, đề tài luận văn bao gồm các nội dung cơ bản như sau:

- Tổng quan về hệ thống phát hiện xâm nhập IDS, các ưu

điểm, nhược điểm của hệ thống phát hiện xâm nhập IDS.

Trang 23

- Phân loại IDS theo dựa trên host và dựa trên mạng.

- Kiến trúc và thành phần của hệ thống phát hiện IDS.

- Cơ chế hoạt động – phát hiện xâm nhập của hệ thống

IDS.

Chương 2: MỘT SỐ KỸ THUẬT PHÂN TÍCH LƯU

LƯỢNG PHÁT HIỆN TẤN CÔNG MẠNG

2.1 Tổng quan về các phương pháp, mô hình phân tích

và phát hiện lưu lượng bất thường

Trong một số năm qua, nhiều giải pháp đã được đưa ra để phântích và phát hiện lưu lượng bất thường [8,6,20,12,] Các mô hình,phương pháp phân tích và phát hiện lưu lượng bất thường có thểđược chia thành các nhóm chính là: nhóm phương pháp thống kê,nhóm phương pháp dựa vào tri thức, nhóm các phương pháp dựavào khai phá dữ liệu và học máy

Mỗi nhóm, phương pháp, mô hình đề có thể được phân chiathành nhiều loại khác nhau, tùy theo mỗi phương pháp, kỹ thuậtđặc trưng được sử dụng Ví dụ, nhóm thống kê gồm: mô hình hoạtđộng dựa trên số đo ngưỡng (mức ngưỡng được thiết lập dựa trênước lượng hoặc kinh nghiệm từ khoảng thời gian trước đó), môhình phân bố xác suất, mô hình chuỗi thời gian (sử dụng chuỗi dữliệu thời gian), mô hình đa biến/đơn biến (sử dụng đa biến hoặcmột biến), mô hình Markov Nhóm mô hình, phương pháp dựa vàotri thức bao gồm: hệ chuyên gia, phân tích mẫu dấu hiệu, phântích chuyển đổi trạng thái Mô hình, phương pháp dựa vào khai phá

dữ liệu và học máy bao gồm: phân cụm, mạng nơ-ron, logic mờ, hệmiễn dịch nhân tạo, máy vector hỗ trợ

Trang 24

Phương pháp, mô hình thống kê (statistical model) thường giảđịnh tỷ lệ sự kiện (dữ liệu) bình thường chiếm sác xuất cao trong

mô hình trong khi sự kiện bất thường chiếm tỷ lệ nhỏ Phươngpháp thống kê dựa trên giả định mô hình tuân theo một phân bốthống kê biết trước (parametric model) trong điều kiện bìnhthường Những phân bố thường dùng là phân bố chuẩn, Chi-square, mô hình hồi quy… Những sự kiện có xác xuất thấp hoặc có

độ lệch vượt một ngưỡng nhất định từ mô hình giả định bị coi làbất thường Một hướng nghiên cứu khác là không giả định phân bốbiết trước mà dựa trên dữ liệu thực nghiệm (non-parametricmodel) Hướng nghiên cứu này sử dụng các đặc tính thống kê của

dữ liệu ở trạng thái bình thường để thiết lập một tập dữ liệu thamchiếu (normal behavior profile) Tập này được hình thành từ những

dữ liệu “sạch” Lưu lượng các luồng tin trên mạng được quan sát,thu thập và so sánh với độ lệch hoặc khoảng cách với tập thamchiếu này để phát hiện ra bất thường

Bảng 2.1 Các phương pháp phân tích và phát hiện lưu lượng bất

- Phân tích chuyểntrạng thái

Trang 25

- Entropy

- Wavelet

- Mạng Neural nhân tạo

- Giải thuật di truyền

- Swarm IntelligencePhương pháp, mô hình tri thức (Knowledge model) xây dựng cácluật hoặc mẫu dấu hiệu để phát hiện bất thường Về căn bản, hệthống cần thu thập thông tin tri thức về những loại bất thườngkhác nhau Các loại dữ liệu cần biểu diễn sao cho dễ dàng xử lý.Các luật, tri thức phải được cập nhật thường xuyên Phương phápnày thường mất nhiều thời gian và tài nguyên để xây dựng tri thức.Trong lĩnh vực phát hiện bất thường, phương pháp tri thức ít phổbiến hơn so với phương pháp thống kê và khai phá dữ liệu/họcmáy

Phương pháp khai phá dữ liệu và học máy (Datamining/Machine Learning) thường áp dụng phân cụm (Clustering)hoặc phân lớp (Classification) để phát hiện bất thường Mục tiêuquan trọng khi áp dụng khai phá dữ liệu vào bài toán phát hiện bấtthường là dự đoán thông tin mới chưa biết và giảm khối lượng dữliệu cần xử lý Khai phá dữ liệu có thể dùng để trợ giúp cho quátrình học máy Khi áp dụng học máy, có thể dựa trên những dữ liệu

đã biết để tự động hóa quá trình đánh giá, so sánh và cải tiến hiệusuất dự đoán Học máy về căn bản là một khả năng một chươngtrình hoặc hệ thống cải thiện dần hiệu suất bằng tự học theo thờigian khi thực hiện một công việc Kết quả trước đó được phân tích

để sửa sai và độ chính xác dựa trên kỹ thuật học máy tự độngđược cải thiện Điều này có nghĩa thông tin thu thập gần đây đượcdùng để thay đổi sự thực thi Nhược điểm của phương pháp này làtốn nhiều tài nguyên do mức độ tính toán phức tạp

Trang 26

Trong học máy, một phương pháp hay sử dụng là phân lớp(classification) Mục đích của phân lớp là học từ những dữ liệuhuấn luyện rồi áp dụng để phân lớp những dữ liệu mới Phươngpháp này yêu cầu dữ liệu huấn luyện phải gắn nhãn (đã phận loạibất thường và bình thường) Phân lớp xác định các quan sát dữ liệumới thuộc lớp nào dựa trên dữ liệu huấn luyện đã phận loại Đườngranh giới phân loại giữa các lớp dữ liệu có thể ở dưới dạng tuyếntính hoặc phi tuyến Trong nhiều trường hợp phương pháp phân lớpgiống với phương pháp: giám sát, không giám sát và bán giám sát.

 Phương phát giám sát (Supervised): Phương pháp này yêucầu phải có tập dữ liệu đã phân loại thành lớp bình thường và bấtthường Mỗi loại bất thường cần được đánh dấu nhãn riêng (ví dụmỗi loại tấn công có tên riêng) Từ tập dữ liệu đã đánh nhãn có thểxây dựng được mô hình dự đoán cho từng lớp bình thường và bấtthường Do vậy, phương pháp giám sát mô hình hóa tất cả cáchành vi bình thường và bất thường trong quá trình huấn luyện(training) hệ thống Mô hình đã học sau huấn luyện được sử dụng

để phát triển dấu hiệu bất thường với dữ liệu đã biết và thường có

độ phức tạp cao Để huấn luyện được hệ thống cần nhiều dữ liệu

đã đánh nhãn Tuy nhiên, việc phân loại, đánh nhãn cho dữ liệu,nhất là các loại bất thường khác nhau rất khó thực hiện được.Những dữ liệu bất thường có số lượng không nhiều nếu so sánh với

dự liệu bình thường gây trở ngại cho việc mô hình hóa và tăng độchính xác khi phân loại Phương pháp thường dùng để thu được tập

dữ liệu đánh nhãn là tạo ra những dữ liệu mô phỏng gần với thực

tế theo một kịch bản đã được lập trình

 Phương pháp bán giám sát (Semi-supervised): Phương phápbán giám sát chỉ huấn luyện với dữ liệu lớp bình thường và không

Trang 27

có các lớp bất thường khác nhau Phương pháp này con gọi làphương pháp một lớp (one-class) Cách làm này phát hiện đượcbất thường từ sự khác biệt với lớp bình thường đã huấn luyệnnhưng không phân biệt được các loại bất thường

 Phương pháp không giám sát (Unsupervised): Phương phápnày không cần huấn luyện với các dữ liệu như hai phương pháptrên mà phát hiện bất thường trực tiếp trên dữ liệu đầu vào Tuynhiên, phương pháp không giám sát yêu cầu số lượng dữ liệu bìnhthường phải lớn hơn nhiều so với dữ liệu bất thường (ví dụ: 90% dữliệu là bình thường) Khi yêu cầu trên vi phạm, tỉ lệ cảnh báo sai sẽrất cao

Bảng 2.2 Tổng kết tóm tắt một số ưu, nhược điểm của nhóm

phương pháp phát hiện lưu lượng bất thường

- Dựa trên phân bố

thống kê biết trước

hoặc dựa trên thực

- Khó thiết lập các tham số, ví

dụ mức ngưỡng

- Nếu hành vi hợp lệ nhưng gâyđột biến lưu lượng có thể dẫnđến cảnh báo sai

Học

máy

- Cập nhật thông tin

các lớp có thể cảitiến hiệu suất hệ

- Yêu cầu số lượng dữ liệu lớn

- Phải huấn luyện trước thôngtin các lớp

Trang 28

- Độ chính xác cao

nếu có đầy đủ thôngtin huấn luyện cáclớp

- Tốn nhiều tài nguyên hệthống, huấn luyện mất nhiềuthời gian

có bất thường

- Để hoạt động hiệu quả cầncập nhật tri thức thườngxuyên

- Duy trì và phát triển tập trithức rất phức tạp và mấtnhiều thời gian vì phải mô tảhết tất cả những tri thức (vídụ: loại bất thường, nhữnghành vi coi là hợp lệ)

Các mô hình giải pháp và các phương pháp, kỹ thuật được sửdụng đa dạng cho thấy tính chất phức tạp của việc phát hiện lưulượng bất thường Một giải pháp kỹ thuật đưa ra trong nghiên cứu

có thể đồng thời thuộc các phương pháp khác nhau Trên thực tế,một hệ thống phát hiện bất thường có thể kết hợp nhiều phươngpháp Do tính chất đa dạng, phức tạp của của nguồn dữ liệu lưulượng trên mạng, một giải pháp toàn diện không thể có được trongthực tiễn Vì vậy, việc phân loại như trên chỉ mang tính chất tươngđối

Phân tích và phát hiện lưu lượng bất thường là một yếu tố quantrọng để xem xét mức độ an ninh mạng và hiệu năng của cácmạng truyền thông Theo [8,6,9], trong những nguyên nhân gây ralưu lượng bất thường, những hoạt động có hại như tấn công mạng,lây lan sâu, mạng lưới botnet… hiện đang chiếm tỉ lệ cao Vì vậy

Trang 29

nhiều nghiên cứu về lĩnh vực này tập trung khai thác khía cạnhliên quan đến vấn đề phát hiện tấn công hoặc xâm phạm trái phéptrên mạng.

Trong lĩnh vực an ninh mạng, có hai xu hướng chính để phát hiện tấn công hoặcxâm nhập mạng là: dựa trên dấu hiệu và dựa vào hành vi bất thường [8,6,9] Các kỹthuật phát hiện dựa trên dấu hiệu bất thường đòi hỏi phải biết trước mẫu dữ liệu tấncông (mẫu dấu hiệu lưu sẵn trong cơ sử dữ liệu) và phải thu thập dữ liệu lưu lượng(các sự kiện) từ mạng để so sánh với các mẫu dấu hiệu lưu sẵn, do đó có nhiều hạnchế Phương pháp thứ hai không đòi hỏi mẫu dấu hiệu biết trước, cho phép pháthiện lưu lượng bất thường dựa trên hành vi, từ đó cho phép phát hiện được nhữngkiểu tấn công mới Chính vì vậy, các phương pháp phân tích và phát hiện lưu lượngbất thường mở ra khả năng mới trong phát hiện tấn công mạng

2.2 Lưu lượng mạng bất thường

Theo [32], “bất thường” được định nghĩa là “sự sai lệch hoặc vượt

ra khỏi phạm vi của một thủ tục, quy tắc hoặc khuôn dạng bìnhthường” Lưu lượng mạng bất thường (sau đây có thể gọi tắt là lưulượng bất thường) là sự lưu lượng của những luồng thông tin khôngtuân theo ứng xử, hành vi thông thường Sự biến đổi bất thườngnày có thể do nhiều nguyên nhân khác nhau

Trang 30

Hình 2.1 Biểu diễn các tập dữ liệu bình thường và bất thường thu

được từ mạng trên toạ độ hai chiều [21]

Bất thường hay ngoại lai (outlier) đã được cộng đồng toán học

– thống kê nghiên cứu từ khá sớm [9] Bất thường được xem như

dữ liệu không tuân thủ một chuẩn mực xác định trước của một tập

dữ liệu bình thường Hình 2.1 là ví dụ về dữ liệu bình thường và dữliệu bất thường được thu từ mạng, được biểu diễn theo hệ tọa độhai chiều Các tập dữ liệu bình thường là N1 và N2, các điểm dữ liệuO1, O2 và dữ liệu trong tập O3 là bất thường

Theo [24,25], bất thường là những sự kiện ảnh hưởng đến tính sẵnsàng và hiệu năng của mạng Một cách hiểu khác là những sự kiệngây tổn hại đến hệ thống mạng, thiết bị mạng, dịch vụ mạng… màngười quản lý, điều hành hoặc quản trị mạng cần quan tâm

Bất thường có thể xảy ra từ nhiều góc độ khác nhau: từ góc độquản lý như những sự kiện hỏng hóc thiết bị mạng, đường truyền,lỗi trong cấu hình… hoặc từ góc độ của người dùng như sự tăngđột ngột số lượng truy nhập của khách hàng… đến những hoạtđộng tấn công, xâm nhập, phát tán thư rác, sâu máy tính…

Trang 31

Mặt khác, xét theo mô hình phân lớp TCP/IP, bất thường có thểxuất hiện tại bất kỳ lớp nào Bất thường có thể xảy ra do truyềndẫn tại lớp vật lý do cáp quang bị đứt, giao diện trên router bịhỏng, tại lớp mạng do lỗi cấu hình định tuyến, tại lớp ứng dụng dongười dùng, do tin tặc bị tấn công vào hệ thống tên miền, khaithác lỗ hổng cơ sở dữ liệu và ứng dụng v.v Một số bất thường cóthể gây ra đột biến tại nhiều lớp [25,15].

Các bất thường hay xảy ra chỉ ở một lớp, song chúng có thể ảnhhưởng sang lớp khác Ví dụ, một bất thường xảy ra ở lớp vật lý,đơn cử do đứt cáp quang hay nhiễu kênh chẳng hạn Bất thườngnày sẽ lan tỏa và có tác động trực tiếp vào biến đổi lưu lượngmạng ở lớp cao hơn, ví dụ lớp ứng dụng Nếu người quản trị mạngphát hiện sớm được, lưu lượng mạng sẽ được tái định tuyến đểtránh tuyến bị lỗi, nhiễu nhằm khôi phục lại lưu lượng bình thườngcủa ứng dụng Mặt khác, một bất thường ở lớp cao cũng có thểgây ra gián đoạn ở lớp vật lý Ví dụ tấn công của sâu Nimda gây ralưu lượng bất thường ở lớp ứng dụng, có thể gây ra biến động lớn ởlưu lượng lớp mạng và ảnh hưởng đến lưu lượng của các ứng dụngkhác [25]

Vì vậy để phát hiện bất thường tại mỗi lớp đều cần có những thuộctính mô tả đặc trưng cho lớp đó Ví dụ: tấn công dò tìm mật khẩu,lưu lượng mạng nếu tính theo khối lượng thì không thay đổi nêncần có thêm thuộc tính khác, chẳng hạn số lần đăng nhập khôngthành công Với sự cố tắc nghẽn mạng hay số lượng truy cập tăngvọt, lưu lượng mạng có khối lượng tăng đột biến Việc xét thêm dữliệu của nhiều ứng dụng khác nhau sẽ làm tăng độ phức tạp của

hệ thống phát hiện Do đó tùy thuộc vào từng ứng dụng cần có tậpthuộc tính dữ liệu đặc trưng của ứng dụng đó

Trang 32

Việc xét bất thường cho từng ứng dụng khác nhau nằm ngoài

phạm vi nghiên cứu của luận văn Luận văn này chỉ tập trung vào phát hiện bất thường chủ yếu liên quan đến lưu lượng mạng được

mô tả bởi các dữ liệu thuộc tính tại máy chủ dịch vụ.

Bất thường xảy ra có thể do nhiều nguyên nhân Bảng sau liệt

kê những nguyên nhân điển hình nhất gây ra sự kiện bất thườngtrong lưu lượng mạng

Bảng 2.3 Các nguyên nhân điển hình gây ra lưu lượng mạng bất

thường

Tắc nghẽn Mạng, đường truyền bị quá tải do gửi quá

nhiều gói tinTăng đột biến số

lượng truy cập người

dùng

Số lượng truy nhập của người dùng quánhiều vào một website, một máy chủ

Sự cố hệ thống Lỗi hỏng hóc thiết bị dẫn đến tăng/giảm lưu

lượng đột biến (giảm ở tuyến có lỗi, tăng ởtuyến khác), do tái định tuyến…

 Nguyên nhân tắc nghẽn mạng: đây là bản chất tự nhiên củamạng chuyển mạch gói Môi trường mạng hội tụ như hiện nayvới sự xuất hiện ngày càng nhiều các loại hình dịch vụ, ứngdụng, tắc nghẽn là hiện tượng rất phổ biến

 Do sự tăng đột biến của số lượng truy nhập người dùng vàomạng (vào các trang tin tức, máy chủ, cơ sở dữ liệu, )

 Các sự cố hệ thống: lỗi hỏng hóc thiết bị, đường truyền dẫn đếntăng/giảm lưu lượng mạng (giảm ở tuyến có thiết bị lỗi, tăngsang tuyến khác, có thể do tái định tuyến)

Trang 33

 Các hành vi quét thăm dò mạng hoặc tấn công mạng (làm trànngập băng thông, tràn lưu lượng gây ra đột biến tăng lưu lượngmạng, gây ra hiện tượng tắc nghẽn cục bộ, tấn công từ chối dịch

vụ, sâu, virus…)

thường

Phân tích và phát hiện lưu lượng mạng bất thường nghĩa là cần

phân tích, xác định một tập hợp hoặc một phạm vi giới hạn những

dữ liệu được coi là bình thường của các luồng tin và thực hiện theodõi, so sánh dữ liệu tiếp nhận được với những dữ liệu được coi làbình thường này Nếu dữ liệu không nằm trong tập dữ liệu bìnhthường sẽ được coi là bất thường

Các công trình nghiên cứu về phân tích và phát hiện lưu lượngmạng bất thường đến nay chủ yếu dựa trên một nguyên lý căn bản

nhất, đó là chỉ ra các đặc tính lưu lượng mạng trong điều kiện hoạt động bình thường (tạo thành đường cơ sở - baseline) theo một

cách nào đó và xác định được sự khác biệt của lưu lượng mạng đođược trong so sánh với lưu lượng mạng bình thường đã nêu Ranhgiới của sự khác biệt chính là mức ngưỡng (Threshould) thường

biến động theo thời gian Do đó cần sự quan sát, theo dõi lưu

lượng theo thời gian Thông thường, lưu lượng mạng được coi làbình thường khi được quan sát, theo dõi, đo đạc trong điều kiệnhoạt động được giả thiết là không có sự cố mạng không có độtbiến lưu lượng do tắc nghẽn hay nguyên nhân gây bất thường như

đã nêu ở Bảng 2.3

Phát hiện bất thường nhằm giúp cho người quản trị mạng phát

hiện sớm những nguyên nhân như: nguy cơ tắc nghẽn, sự cố lỗithiết bị trên mạng, lỗi của luồng tin, thay đổi tuyến trên mạng, độtbiến lưu lượng người dùng các ứng dụng/dịch vụ…Trên cơ sở đó,

Trang 34

người quản trị mạng có thể kích hoạt các công cụ điều khiểnluồng, chống tắc nghẽn, cân bằng tải, tái định tuyến, khắc phục sự

cố lỗi trên mạng, ngăn chặn tấn công mạng

Quá trình phân tích, phát hiện và xử lý bất thường gồm các giaiđoạn như sau:

 Thu thập lưu lượng mạng

 Tiền xử lý dữ liệu, trích chọn (tách) các thuộc tính dữ liệu cầnthiết

 Phân tích, phát hiện bất thường: dựa trên các mẫu dữ liệu thuthập từ lưu lượng mạng, phân tích và tìm ra những dữ liệu có dấuhiệu bất thường để có cảnh báo sớm

 Xác định nguyên nhân, nhận dạng và phân loại bất thường,phân tích để tìm ra nguồn gốc của bất thường

 Tìm cách ngăn chặn, cập nhật tập luật các chương trìnhphòng chống, cải tiến các phương pháp phát hiện, hệ thống bảo vệhiện có

Lưu lượng mạng được thu thập phục vụ ba mục đích: 1) Tạo tậplưu lượng mạng bình thường (đường cơ sở 2); 2) Tạo các tập dữliệu đo lưu lượng mạng thực tế theo thời gian để so sánh với tậpbình thường 3) Đo lưu lượng mạng thực tế ở vị trí nào có ý nghĩaquan trọng Trong chương 3, luận văn sẽ trình bày một trường hợp

cụ thể về việc đặt các bộ đo thu thập lưu lượng mạng

Dữ liệu thu thập được có thể chứa nhiễu và các thông tin khôngcần thiết Vì vậy, bước tiền xử lý dữ liệu, trích chọn thuộc tính sẽnhằm loại bỏ những thông tin không cần thiết, lựa chọn nhữngthuộc tính quan trọng nhất

Phân tích và phát hiện lưu lượng bất thường là giai đoạn quantrọng nhất của toàn bộ quá trình phân tích, phát hiện và xử lý bấtthường

Trang 35

2.3 Một số phương pháp phân tích và phát hiện lưu lượng bất thường điển hình

Mô hình Markov[8,6,20] (Markov Model) phát hiện bất thườngbằng cách giám sát hệ thống tại các chu kỳ cố định và lưu giữtrạng thái của hệ thống, đó là xác xuất của mỗi trạng thái tại từngchu kỳ Trạng thái của hệ thống thay đổi khi xuất hiện sự kiện và

sự kiện bất thường được phát hiện nếu xác suất xuất hiện củatrạng thái đó là thấp

Trang 36

2.3.2 Phương pháp dựa trên mạng Bayesian

Đây là phương pháp giám sát dựa trên biểu diễn sự mã hóaxác xuất mối quan hệ giữa các biến[8,6,12] Phương pháp này cóthể giả định các biến độc lập hoặc phụ thuộc nhau và có khả năngphát hiện bất thường với nhiều lớp Mạng Bayesian (BayesianNetwork) sử dụng để mô hình hóa hệ thống dựa trên các thuộctính (biến) và xác xuất giữa những thuộc tính này với lớp bấtthường Với một quan sát cần kiểm tra, phương pháp này tính xácxuất trong các lớp dữ liệu đã phân loại khác nhau, bao gồm cảbình thường và bất thường Giá trị tính được lớn nhất dùng để xácđịnh lớp cho quan sát đó

Mạng Bayesian hoạt động trên nguyên tắc mô tả mối quan hệ phụ thuộcgiữa các biến, nó có thể hoạt động được trong trường hợp dữ liệu không đầy đủ vàphân bố không đều như dữ liệu mạng Ưu điểm của mạng Bayesian là tính ổnđịnh với dữ liệu đồng thời nó có khả năng đoán trước được kết quả của một hành

vi do sử dụng mối quan hệ nhân quả Các hệ thống phát hiện bất thường dựa trênmạng Bayesian là mô hình của Valdes, có khả năng phát hiện các chuỗi tấn côngphân tán trong khi từng tấn công tách biệt không sinh ra cảnh báo Mô hình này sửdụng hệ thống Bayesian để xây dựng mối quan hệ nguyên nhân kết quả giữatấn công và các yếu tố quan sát Sau đó dựa trên phân bố xác suất của các yếu tốquan sát được để tính xác suất có tấn công Một mô hình khác là của Kruegel sửdụng cách tiếp cận là sử dụng nhiều bộ cảm ứng khác nhau, đầu ra của các bộcảm ứng này được tập hợp để sinh ra cảnh báo Các bộ cảm ứng sẽ sử dụngphương pháp Bayesian

Tóm lại việc sử dụng mạng Bayesian cho phát hiện bất thường có ưu điểm

là giảm được tỷ lệ cảnh báo sai Tuy nhiên nó có hạn chế là hiệu suất hoạt độnggiảm khi các yếu tố quan sát tăng lên

Trang 37

Sử dụng thống kê để xác định các sự kiện bất thường được sử dụng rộng rãitrong các hệ thống phát hiện truy nhập từ nhiều năm nay Hệ thống hoạt độngtrên nguyên tắc thu thập dữ liệu của các thông số trên mạng và áp dụng một số kỹthuật thống kê trên dữ liệu được thu thập để tạo ra các tập hồ sơ cho các thông sốtrong thời điểm hoạt động bình thường, ví dụ hệ thống có thể nghiên cứu sự phânphối của các thông số được giám sát Hệ thống sau đó sẽ xem xét sự khác nhaugiữa thông số đang xem xét ở thời điểm hiện tại với tệp hồ sơ của nó, thôngthường nếu dữ liệu của thông số hiện tại cao hơn thì nhiều khả năng hệ thống bịtấn công Hệ thống có thể sử dụng nhiều quy luật đơn giản để phát hiện ra sựkhác nhau Sử dụng ngưỡng ( Threshold) là cách đơn giản nhất, khi thông số đượctheo dõi vượt quá ngưỡng đặt ra thì có cảnh báo Các hệ thống sử dụng phân tíchthống kê điển hình là Haystack (Smaha, 1988), IDES (Lunt et al, 1988),EMERALD (Porras and Neumann, 1997) Haystack (Smaha,1988) được phát triểncho việc phát hiện xâm nhập dựa trên tệp thông tin người dùng log Hệ thốngđược phát triển cho cả 2 phương thức dựa trên so sánh mẫu và dựa trên bấtthường Đối với phương pháp dựa trên bất thường, từ các thống kê điều kiện trướcđây hệ thống trên cả 2 loại : từng người dùng riêng lẻ và mô hình nhóm ngườidùng Rất nhiều đặc điểm trong phiên làm việc của người dùng được theo dõi, baogồm : thời gian làm việc, số lượng tệp tạo ra, số lượng trang được in ra… chúng sẽđược mô hình hóa như là các biến độc lập và ngẫu nhiên Đối với từng đặc điểm,

hệ thống sẽ xác định một khoảng giá trị được coi là bình thường, trong mộtphiên làm việc nếu yếu tố quan sát có giá trị nằm ngoài khoảng bình thường thì

hệ thống sẽ tính điểm dựa trên phân bố xác suất, một cảnh báo sẽ được sinh ranếu điểm quá cao Ngoài ra đối với người dùng Haystack còn xác định quyền chotừng người, nếu hành vi của ai đó vượt qua quyền được cho phép thì sẽ bị coi là bấtthường Nhược điểm lớn nhất của hệ thống Haystack là thiết kế chỉ chạy offline,không giám sát được thời gian thực IDES (Intrusion Detection Expert System –Lunt, 1988) là một trong những lớp hệ thống phát hiện xâm nhập đầu tiên Dự ánIDES được phát triển trong một số năm,sau khi hoàn thành thì nó được cải tiến

Trang 38

thành NIDES (Next Generation Intrusion Detection Expert System) Các hệ thốngIDES dựa trên nguyên tắc hành vi người dùng trong các trường hợp thích hợp sẽđược tổng kết, tính toán thống kê, sau đó các hành động hiện tại sẽ được so sánhcùng các tệp hồ sơ tự nghiên cứu, và sự chênh lệch có thể được đánh dấu như làhành vi bất thường IDES theo dõi ba loại đối tượng : người dùng, các host truycập từ xa, các hệ thống đích Trong đó có khoảng 36 thông số được xem xét: 25cho người dùng, 6 cho các host truy cập từ xa, và 5 cho các hệ thống đích IDES

đo đạc các thông số này trong mỗi phiên người dùng và dựa vào các tham số đósinh ra các tệp hồ sơ, chúng cũng được cập nhật để phản ánh hành vi của ngườidùng từng ngày IDES sau đó cũng sử dụng một hệ chuyên gia để kiểm tra từngbản ghi mới ngoài những bản ghi đã biết Ngoài ra hệ thống còn gán cho các bảnghi một trọng số đi kèm, cứ 30 ngày trọng số này giảm đi một nửa nhằm phân biệtcác sự kiện xảy ra từ lâu với các sự kiện mới Nhược điểm của phương pháp này

là chỉ tính thống kê trên từng yếu tố quan sát nên không phát hiện được các cuộctấn công ảnh hưởng trên diện rộng, tác động đến nhiều thành phần khác nhau của

hệ thống EMERALD (Event Monitoring Enabling Responses to Anomalous LiveDisturbances – Porras and Naumann, 1997) là một hệ thống phát hiện xâm nhập

có khả năng mở rộng và tích hợp cùng các hệ thống khác, nó tập trung vào việcphát hiện những xâm nhập từ bên ngoài, và được thiết kế để hoạt động tốt trên 3mức: mức phân tích dịch vụ, mức domain, mức cho các tổ chức Kiến trúc củaEMERALD được xây dựng trên các hệ thống theo dõi EMERALD địa phương,chúng được phân bố và hoạt động tương đối độc lập trên các mức khác nhau Mỗi

hệ thống theo dõi kết nối với các hệ thống theo dõi khác thông qua mạng, chúngkết hợp việc phân tích dựa trên dấu hiệu và thống kê hồ sơ để tạo ra khả năngbảo vệ thời gian thực cho các dịch vụ người dùng mạng rộng lớn trên Internet.Một hệ thống theo dõi EMERALD bao gồm 4 thành phần chính: đối tượng tàinguyên (resource object), phương tiện hồ sơ (profiler engine), phương tiện dấuhiệu (signature engine) và thiết bị giải quyết chung (universal resolver) Đối tượngtài nguyên nắm bắt tất cả các thông số cấu hình, duy trì danh sách các hệ thống

Trang 39

khác có kết nối đến nó … Phương tiện hồ sơ thực hiện một số thao tác phát hiệnbất thường trên các dữ liệu đã được kiểm tra, nó có thể phát triển trên các thànhphần IDES và NIDES, các hồ sơ dữ liệu được cung cấp dưới dạng các lớp từ thànhphần đối tượng tài nguyên Phương tiện dấu hiệu cung cấp khả năng phát hiện dựatrên dấu hiệu, nó hoạt động cùng với một tập các quy tắc nhỏ Thiết bị giải quyếtchung đóng vai trò bộ xử lý trung tâm, nó tổng hợp các dữ liệu từ các thànhphần địa phương, quyết định có hay không một sự xâm nhập xảy ra hoặc quyếtđịnh một phản ứng nào được sinh ra Nó đồng thời cũng quản lý sự kết nốigiữa các hệ thống theo dõi Thiết bị giải quyết chung sử dụng một hệ chuyên gia

để đưa ra kết luận từ các thông báo của phương tiện hồ sơ, phương tiện dấu hiệu

và hệ thống theo dõi khác

Phân cụm là việc gán các đối tượng vào các nhóm gọi là cụm(cluster) sao cho các đối tượng trong cụm có độ tương đồng giốngnhau so với những cụm khác[8,6,12] Nếu một đối tượng nằmngoài những cụm đã biết, đó có thể là dấu hiệu bất thường.Phương pháp này thường mặc định là các cụm có nhiều phân tửhoặc có mật độ cao là bình thường, ngược lại là bất thường Phầnlớn các phương pháp áp dụng cho dữ liệu có thuộc tính liên tục.Các phương pháp phân cụm thường dùng trong phát hiện lưulượng bất thường là phân hoạch (partitioning), và mật độ (density).Điển hình là phương pháp dựa trên thuật toán K-means và thuậttoán phát hiện ngoại lai cục bộ LOF (Local Outlier Factor)

Trong SVM (Support Vector Machine) [8,6,12], vector đầu vàođược ánh xạ sang không gian thuộc tính cấp cao hơn Sức mạnhcủa SVM nằm ở khả năng phân chia vùng biên thành những siêumặt phẳng được quyết định bởi vector hỗ trợ Điều này sẽ tạo racác giá trị ngoại lai tốt hơn Về cơ bản, SVM phân loại cho lớp nhị

Trang 40

phân, ví dụ tách các vector huấn luyện thành các vector siêuphẳng khác nhau Tỷ lệ giữa mặt siêu phẳng và số lượng dữ liệu bịsót khi phân loại có thể điều chỉnh được SVM thường có độ chínhxác cao khi đầy đủ dữ liệu huấn luyện SVM có thể chỉ cần huấnluyện với một lớp dữ liệu bình thường (One-class SVM) hoặc vớinhiều lớp khác nhau, bao gồm nhiều lớp bất thường SVM có thể sửdụng hàm tuyến tính hoặc phi tuyến tính (dùng hàm kernel) đểphân chia các lớp.

base)

Phương pháp này được áp dụng từ rất sớm trong lĩnh vực dòlỗi hay phát hiện bất thường trong mạng Trong hệ chuyên gia,một cơ sở dữ liệu toàn diện chứa tập luật miêu tả hành vi của hệthống được sử dụng để xác định nếu một lỗi nào đó xảy ra Trênthực tế phương pháp này ít được áp dụng do hệ thống chạy quáchậm không đáp ứng được yêu cầu của các ứng dụng thời gianthực và phụ thuộc nhiều vào cơ sở tri thức về các triệu chứng lỗitrước đó Những triệu chứng này có thể là: dung lượng đườngtruyền bị quá tải, số lượng kết nối TCP mở nhiều trên mức chophép, thông lượng đạt mức tối đa… Phương pháp này còn có mộtnhược điểm là phụ thuộc khá nhiều vào người quản trị mạng vàkhông đáp ứng kịp khi hệ thống mạng được mở rộng do mỗi khi

hệ thống có sự thay đổi thì cần có sự bổ sung về tập luật Người

ta có thể sử dụng mô hình hệ chuyên gia FCMs (fuzzy cognitivemaps) để khắc phục nhược điểm này FCM có thể được sử dụng đểtạo ra một mô hình thông minh có sự thừa kế và tác động qua lạivới nhau của các triệu chứng mạng

Ngày đăng: 01/04/2019, 11:26

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Nguyễn Hà Dương, Hoàng Đăng Hải (2015), “Phát hiện lưu lượng mạng bất thường sử dụng phương pháp PCA trong lựa chọn đặc tính dữ liệu”, Tạp chí Khoa học công nghệ, Chuyên san các công trình nghiên cứu về điện tử, viễn thông và công nghệ thông tin, Học viện công nghệ Bưu chính viễn thông, tập 53-số 2C, tr. 52- 64 Sách, tạp chí
Tiêu đề: Phát hiện lưulượng mạng bất thường sử dụng phương pháp PCA trong lựa chọnđặc tính dữ liệu
Tác giả: Nguyễn Hà Dương, Hoàng Đăng Hải
Năm: 2015
[2] Nguyễn Hà Dương (2015), “Một số phương pháp phát hiện bất thường trong lưu lượng mạng”, trong Kỷ yếu Hội thảo quốc gia 2015 về điện tử, truyền thông và công nghệ thông tin (REV-ECIT 2015) tr.92-95 Sách, tạp chí
Tiêu đề: Một số phương pháp phát hiện bấtthường trong lưu lượng mạng
Tác giả: Nguyễn Hà Dương
Năm: 2015
[3] Nguyễn Hà Dương, Hoàng Đăng Hải (2016) “Phát hiện lưu lượng mạng bất thường trong điều kiện dữ liệu huấn luyện chứa ngoại lai,” Tạp chí Khoa học công nghệ thông tin và truyền thông, Học viện công nghệ Bưu chính viễn thông, Bộ thông tin và Truyền thông, tập 1, số 1, tr.3-15 Sách, tạp chí
Tiêu đề: Phát hiện lưulượng mạng bất thường trong điều kiện dữ liệu huấn luyện chứangoại lai
[4] Hoàng Đăng Hải, Nguyễn Chung Tiến, Bùi Thanh Phong, Nguyễn Hà Dương, Nguyễn Trường Giang (2010), “Đề xuất giải pháp thiết kế thiết bị sensor cho hệ thống theo dõi an toàn mạng,”Hội nghị ICT.Rda’10.TIẾNG ANH Sách, tạp chí
Tiêu đề: Đề xuất giảipháp thiết kế thiết bị sensor cho hệ thống theo dõi an toàn mạng,”"Hội nghị ICT.Rda’10
Tác giả: Hoàng Đăng Hải, Nguyễn Chung Tiến, Bùi Thanh Phong, Nguyễn Hà Dương, Nguyễn Trường Giang
Năm: 2010
[6] S. A1-Haj Baddar, A. Merlo, M. Migliardi (2014), “Anomaly detection in computer network: Astate-of-the art review,” Jounrnal of Wireless Mobile Sách, tạp chí
Tiêu đề: Anomaly detection incomputer network: Astate-of-the art review
Tác giả: S. A1-Haj Baddar, A. Merlo, M. Migliardi
Năm: 2014
[8] M. Bhuyan, D. Bhattacharyya, J. Kalita (2014), “Network anomaly detection:Methods, system and tools” IEEE Comunications Survays Tutorials, Vol.16, No.1, pp.303-336 Sách, tạp chí
Tiêu đề: Network anomaly detection:Methods, system and tools” "IEEE Comunications Survays Tutorials
Tác giả: M. Bhuyan, D. Bhattacharyya, J. Kalita
Năm: 2014
[10] D. Brauckhoff, K. Salamatian, M. May (2009), “Applying PCA for traffic anomaly detection: Problems and solutions,” in Proc. of IEEE Conference on Computer Communications (INFOCOM2009) Sách, tạp chí
Tiêu đề: Applying PCA for trafficanomaly detection: Problems and solutions,” in Proc. of
Tác giả: D. Brauckhoff, K. Salamatian, M. May
Năm: 2009
[11] C. Callegari, L. Gazzarrini, S. Giodano, M. Pagano, and T. Pepe “A Novel PCA – Based Network Anomally Detection,” in IEEE Conference on Communications (ICC), pp. 1 – 5 June. 2011 Sách, tạp chí
Tiêu đề: A Novel PCA– Based Network Anomally Detection,” in
[12] V. Chandola, A. Banerje, V. Kummar, (2009). “Anomaly Detection: A Survey”, ACM Computing Surveys, Vol. 41, Issue 3, Article No. 15 Sách, tạp chí
Tiêu đề: Anomaly Detection: A Survey”,"ACM Computing Surveys
Tác giả: V. Chandola, A. Banerje, V. Kummar
Năm: 2009
[13] D. David (2011), “A performance analysis of Snort and Suricata Network Intrusion Detection and Prevention Engines,”. In Proc. of The Fiffth International Conference on Digital Society (ICDS 2011), pp. 187-192 Sách, tạp chí
Tiêu đề: A performance analysis of Snort and Suricata NetworkIntrusion Detection and Prevention Engines,”. In Proc. of "The Fiffth InternationalConference on Digital Society (ICDS 2011)
Tác giả: D. David
Năm: 2011
[15] A. Delimargas, E. Skevakis, H. Halabian, H. I. Lambadaris (2015), “IPCA for network traffic anomally detection,” IEEE MILCOM2015, pp. 617-622 Sách, tạp chí
Tiêu đề: IPCA fornetwork traffic anomally detection,” "IEEE MILCOM2015
Tác giả: A. Delimargas, E. Skevakis, H. Halabian, H. I. Lambadaris
Năm: 2015
[16] Nguyen Ha Duong, Hoang Dang Hai (2015), “A semi-supervised model for network traffic anomaly detection,” in Proc. of 17 th IEEE International Conference on Advanced Communication Technology (ICACT), Korea, pp.70-75 Sách, tạp chí
Tiêu đề: A semi-supervised model fornetwork traffic anomaly detection,” in Proc. of "17"th" IEEE International Conferenceon Advanced Communication Technology (ICACT)
Tác giả: Nguyen Ha Duong, Hoang Dang Hai
Năm: 2015
[17] Nguyen Ha Duong, Hoang Dang Hai (2015), “A model for network traffic anomaly detection,” Transactions on Advanced Communications Technolpgy (TACT) Vol. 4, Issue 4, pp. 644-650 Sách, tạp chí
Tiêu đề: A model for network trafficanomaly detection,” "Transactions on Advanced Communications Technolpgy(TACT)
Tác giả: Nguyen Ha Duong, Hoang Dang Hai
Năm: 2015
[18] D. Dunia, Q. Qin (1997), “Multimedimensional fault diagnosis using a subspace approach,” in American Control Conference Sách, tạp chí
Tiêu đề: Multimedimensional fault diagnosis using asubspace approach,” in
Tác giả: D. Dunia, Q. Qin
Năm: 1997
[19] L. Ertoz, E. Eilertson, A. Lazarevic, P. Tan, V. Kumar, and J. Srivastava (2004),” The MINDS – Minnesota Intrustion Detection System,” Next Generation Data Mining, MIT Press Sách, tạp chí
Tiêu đề: Next GenerationData Mining
Tác giả: L. Ertoz, E. Eilertson, A. Lazarevic, P. Tan, V. Kumar, and J. Srivastava
Năm: 2004
[21] V.J. Hodge, J. Austin (2004), “A survey of outlier detection methodologies,” Artifical Intelligence Review, Vol.22, Issue, 2, pp.85-126 Sách, tạp chí
Tiêu đề: A survey of outlier detectionmethodologies,” "Artifical Intelligence Review
Tác giả: V.J. Hodge, J. Austin
Năm: 2004
[22] J. E. Jackson (1980), “Principal componet and Factor Analysis:Part 1: Principal Components”, Journal of Quality Technology, Vol.12, pp. 201-213 Sách, tạp chí
Tiêu đề: Principal componet and Factor Analysis:Part 1: Principal Components”, "Journal of Quality Technology
Tác giả: J. E. Jackson
Năm: 1980
[23] I. T. Jolliffe (2002), “Principal component Analysis”, Springer Verlag, New York, 3 rd ed Sách, tạp chí
Tiêu đề: Principal component Analysis
Tác giả: I. T. Jolliffe
Năm: 2002
[28] Principal Component Analysis, https://en.wikipedia.org/wiki/Principal_ component_analysis Link
[34] The KDD Archive, 76 cup dataset (1999), http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html Link

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN

w