Vấn đề bảo mật được đặt ra và những đóng góp lớn trong việc hạn chế và ngăn chặn bảo mật, như Firewall ngăn chặn những kết nối không đáng tin cậy, mã hóa làm tăng độ an toàn cho việc truyền dữ liệu, các chương trình diệt virus với các các cơ sở dữ liệu được cập nhật. Những yêu cầu trên dẫn đến yêu cầu phải có một phương pháp bảo mật mới hỗ trợ cho những phương pháp bảo mật truyền thống. Hệ thống phát hiệm xâm nhập IDS (Intruction Detection System) là một hệ thống giám sát lưu thông mạng có khả năng phát hiện các hoạt động khả nghi hay các hành động xâm nhập trái phép trên hệ thống mạng trong tiến trình tấn công, cung cấp thông tin nhận biết và đưa ra cảnh báo cho hệ thống, nhà quản trị.
Trang 1MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT vi
DANH MỤC CÁC BẢNG vii
DANH MỤC CÁC HÌNH VẼ viii
MỞ ĐẦU 1
Chương 1: TỔNG QUAN VỀ IDS 6
1.1 Khái quát về IDS 6
1.1.1 Lịch sử phát triển của IDS 7
1.1.2 Lợi ích chung của IDS 7
1.1.3 Những thành phần không phải IDS 8
1.2 Phân loại IDS 8
1.2.1 Hệ thống phát hiện xâm nhập dựa trên host (Host IDS) 9 1.2.2 Hệ thống phát hiện xâm nhập dựa trên mạng (NIDS) .10 1.2.3 Phát hiện xâm nhập IDS lai (Distributed (Hybrid) IDS) 11 1.3 Kiến trúc IDS 11
1.4 Cơ chế phát hiện xâm nhập IDS 13
1.5 Kết chương 14
Chương 2: MỘT SỐ KỸ THUẬT PHÂN TÍCH LƯU LƯỢNG PHÁT HIỆN TẤN CÔNG MẠNG 15
2.1 Tổng quan về các phương pháp, mô hình phân tích và phát hiện lưu lượng bất thường 15
2.2 Lưu lượng mạng bất thường 20
2.2.1 Khái niệm về lưu lượng mạng bất thường 20
2.2.2 Nguyên nhân gây ra lưu lượng mạng bất thường 22
2.2.3 Phân tích và phát hiện lưu lượng mạng bất thường 23
2.3 Một số phương pháp phân tích và phát hiện lưu lượng bất thường điển hình 24
2.3.1 Phương pháp dựa trên mô hình Markov 24
2.3.2 Phương pháp dựa trên mạng Bayesian 25
Trang 22.3.3 Phương pháp dựa trên phân tích thống kê 25
2.3.4 Phương pháp dựa trên phân cụm 28
2.3.5 Phương pháp máy vector hỗ trợ (SVM) 28
2.3.6 Phương pháp dựa trên hệ chuyên gia (Ruler base) 29
2.3.7 Phương pháp dựa trên luật học máy 30
2.3.8 Phương pháp dựa trên khai phá dữ liệu 31
2.3.9 Phương pháp dựa trên PCA 33
2.4 Kết chương 35
Chương 3: ỨNG DỤNG PCA XÂY DỰNG IDS CHO MÁY CHỦ DỊCH VỤ 36
3.1 Thuật toán phân tích thành phần chính PCA 36
3.1.1 Giới thiệu 36
3.1.2 Thuật toán PCA 37
3.1.3 Phương pháp phân tích và phát hiện lưu lượng bất thường dựa trên PCA .43 3.1.4 Thiết lập mức ngưỡng 45
3.2 Mô hình hệ thống phân tích dữ liệu bất thường trên PCA 46 3.3 Kiến trúc hệ thống giám sát máy chủ dịch vụ thi trắc nghiệm 47
3.3.1 Phạm vi thu thập dữ liệu 47
3.2.2 Kiến trúc tổng thể của hệ thống giám sát 49
3.2.3 Máy trinh sát 49
3.3 Nhận dạng, phân loại bất thường và khả năng kết hợp phát hiện lưu lượng bất thường với phát hiện tấn công mạng dựa trên mẫu dấu hiệu 54
3.4 Mô hình phát hiện lưu lượng bất thường trên máy chủ dịch vụ 55
3.4.1 Các loại tấn công phổ biến đối với máy chủ dịch vụ: 58
3.5 Mô phỏng thử nghiệm phát hiện tấn công của PCA trên máy chủ dịch vụ: 59
3.5.1 Tập dữ liệu thử nghiệm 59
3.5.2 Mô phỏng thử nghiệm phát hiện bất thường và một số loại tấn công 62
KẾT LUẬN VÀ KIẾN NGHỊ 65
TÀI LIỆU THAM KHẢO 67
Trang 3DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT
DNS Domain Name System Hệ thống tên miền
IDS Intrussion Detection
System
Hệ thống phát hiện tấn côngxâm nhập
ISP Internet Service Provider Nhà cung cấp dịch vụ
Trang 4DANH MỤC CÁC BẢNG
Bảng 1.1 Ưu điểm, nhược điểm của hệ thống phát hiện xâm nhập dựa trên host (Host IDS)
9
Bảng 1.3 Ưu điểm, nhược điểm của hệ thống phát hiện xâm nhập dựa trên mẫu dấu hiệu13 Bảng 1.4 Ưu điểm, nhược điểm của hệ thống phát hiện xâm nhập dựa trên sự bất thường .14
Bảng 2.1 Các phương pháp phân tích và phát hiện lưu lượng bất thường 16
Bảng 2.2 Tổng kết tóm tắt một số ưu, nhược điểm của nhóm phương pháp phát hiện lưu lượng bất thường 18
Bảng 2.3 Các nguyên nhân điển hình gây ra lưu lượng mạng bất thường 22
Bảng 3.1 Thuộc tính dùng trong thử nghiệm của tập dữ liệu NSL – KDD 61
Bảng 3.2 Kết quả phát hiện của PCA với một số loại tấn công 63
Trang 5DANH MỤC CÁC HÌNH VẼ
Hình 1.1 Kiến trúc IDS 6
Hình 1.2 IDS dựa trên host 9
Hình 1.3 IDS dựa vào mạng 10
Hình 2.1 Biểu diễn các tập dữ liệu bình thường và bất thường thu được từ mạng trên toạ độ hai chiều 20
Hình 2.2 Mô hình hệ thống phát hiện bất thường dựa trên tập luật 30
Hình 3.1 Minh họa PCA: tìm trục tọa độ mới sao cho dữ liệu biến thiên lớn nhất 37
Hình 3.2 PCA trong mặt phẳng 2D (2 thành phần chính) 43
Hình 3.3 Mô hình chung hệ thống phân tích và phát hiện lưu lượng bất thường dựa trên PCA 46
Hình 3.4 Hệ thống mạng thi trắc nghiệm có kết nối Internet 48
Hình 3.5 Kiến trúc tổng thể của hệ thống giám sát 48
Hình 3.6 Cấu trúc thiết bị trinh sát 49
Hình 3.7 Hệ thống phần mềm trinh sát 51
Hình 3.8 Một số sự kiện thu được tại trung tâm giám sát 54
Hình 3.8 Mô hình kết hợp phát hiện bất thường và mẫu dấu hiệu 57
Trang 6MỞ ĐẦU
Kể từ khi ra đời, Internet không ngừng phát triển và mở rộng
đã mang lại rất nhiều tiện ích hữu dụng như: hệ thống thư điện tử(email), trò chuyện trực tuyến (chat), tìm kiếm dữ liệu, trao đổithông tin Khả năng kết nối trên toàn thế giới đang mang lại thuậntiện cho tất cả mọi người, nhưng nó cũng tiềm ẩn những nguy cơkhó lường đe dọa tới mọi mặt của đời sống xã hội Việc mất trộmthông tin trên mạng gây ảnh hưởng đến tính riêng tư cho các cánhân, những vụ lừa đảo, tấn công gây từ chối dịch vụ gây ảnhhưởng lớn đến hoạt động kinh doanh cho các công ty và gây phiềntoái cho người sử dụng Internet làm cho vấn đề bảo mật trên mạngluôn là một vấn đề nóng và được quan tâm đến trong mọi thờiđiểm
Vấn đề bảo mật được đặt ra và những đóng góp lớn trong việchạn chế và ngăn chặn bảo mật, như Firewall ngăn chặn những kếtnối không đáng tin cậy, mã hóa làm tăng độ an toàn cho việctruyền dữ liệu, các chương trình diệt virus với các các cơ sở dữ liệuđược cập nhật Những yêu cầu trên dẫn đến yêu cầu phải có mộtphương pháp bảo mật mới hỗ trợ cho những phương pháp bảo mậttruyền thống Hệ thống phát hiệm xâm nhập IDS (IntructionDetection System) là một hệ thống giám sát lưu thông mạng cókhả năng phát hiện các hoạt động khả nghi hay các hành độngxâm nhập trái phép trên hệ thống mạng trong tiến trình tấn công,cung cấp thông tin nhận biết và đưa ra cảnh báo cho hệ thống,nhà quản trị
Từ những lý do trên, học viên lựa chọn đề tài “Nghiên cứu hệ thống phát hiện xâm nhập IDS cho máy chủ dịch vụ ” cho
luận văn Thạc sĩ của mình
Trang 8niệm phát hiện xâm nhập xuất hiện qua một bài báo của JamesAnderson Khi đó người ta cần IDS với mục đích là dò tìm và nghiêncứu các hành vi bất thường và thái độ của người sử dụng trongmạng, phát hiện ra các việc lạm dụng đặc quyền để giám sát tàisản hệ thống mạng Các nghiên cứu về hệ thống phát hiện xâmnhập được nghiên cứu chính thức từ năm 1983 đến năm 1988trước khi được sử dụng tại mạng máy tính của không lực Hoa Kỳ.Cho đến tận năm 1996, các khái niệm IDS vẫn chưa được phổ biến,một số hệ thống IDS chỉ được xuất hiện trong phòng thí nghiệm vàcác viện nghiên cứu Tuy nhiên trong thời gian này, một số côngnghệ IDS bắt đầu phát triển dựa trên sự bùng nổ của công nghệthông tin Đến năm 1997 IDS mới được biết đến rộng rãi và thực sựđem lại lợi nhuận với sự đi đầu của công ty ISS, một năm sau đóCisco nhận ra tầm quan trọng của IDS và đã mua lại một công tycung cấp giải pháp IDS tên là Wheel Group.
- Hiện nay, trên thế giới có rất nhiều sản phẩm giám sát anninh mạng ở mức công nghiệp (Enterprise - Level) có khả năng tíchhợp nhiều chức năng: phát hiện xâm nhập (detection), giám sát(monitoring) và ngăn chặn (blocking) Nhiều hệ thống phần mềmđược tích hợp vào các thiết bị máy tính chuyên dụng có cấu trúcrack-mount để cắm trực tiếp vào các tủ mạng và chạy theo cácchế độ thời gian thực (real time) Một số hệ thống còn tích hợpluôn firewall Đa phần các sản phẩm này của Mỹ có chất lượng vàtính năng đảm bảo an toàn cao Tuy nhiên, giá của các hệ thốngthiết bị này rất cao thông thường từ 25.000USD đến 35.000USD.Tại Việt Nam chỉ một số cơ quan, đơn vị lớn về ứng dụng công
Trang 9nghệ thông tin mua các sản phẩm bảo vệ an ninh này để sử dụngbảo vệ mạng máy tính của mình Trong nước đã có một số đơn vịcung cấp giải pháp an ninh mạng như BKAV, Công ty Cổ phần giảipháp IDS Việt Nam, Cisco Việt Nam… nhưng giá thành khá cao vàkhông phải đơn vị nào cũng có đủ khả năng về tài chính để chi trả.Hiện nay đã có một số đề tài nghiên cứu phòng chống thâmnhập trái phép IDS trên Linux như Snort tuy có khả năng phát hiệnxâm nhập nhưng việc ngăn chặn còn khó khăn khi phát hiện Việc
sử dụng trên mã nguồn mở đòi hỏi người quản trị phải nắm khávững về nền tảng Linux
Xuất phát từ nhu cầu trên, để xây dựng và triển khai được một
hệ thống giám sát IDS đủ mạnh nhưng lại tiết kiệm được chi phí,phù hợp với các tổ chức, đơn vị có quy mô vừa và nhỏ, học viên đãnghiên cứu và lựa chọn giải pháp phần mềm hệ thống giám sát anninh IDS
- Nghiên cứu hệ thống phát hiện xâm nhập trái phép dựa trên phân tích lưu lượngmạng bất thường
- Đề xuất xây dựng hệ thống phát hiện xâm nhập trái phép IDScho máy chủ dịch vụ Xây dựng hệ thống IDS cho các thiết bịmạng, thiết lập các hệ thống thu thập thông tin cho các vùng
Trang 10lưu lượng mạng, kết hợp với hệ thống IDS cho các máy chủ tạothành một hệ thống cho toàn mạng.
Đối tượng và phạm vi nghiên cứu
- Tập trung vào phân tích rủi ro, lỗ hổng của mạng, cách thức tấncông, nhược điểm của giao thức TCP/IP và phương pháp bảo vệmạng khỏi tấn công Tìm hiểu kiến thức về các hệ thống dò tìmphát hiện xâm nhập (IDS), cấu trúc hệ thống, phương phápphân loại, cách thức dò tìm xâm nhập và phương pháp xử lý dữliệu Nghiên cứu các mô hình thống kê, các thành phần của hệthống bao gồm chủ thể và đối tượng, hồ sơ, bản ghi, luật hoạtđộng
- Nghiên cứu giải pháp dò tìm xâm nhập thời gian thực cho máychủ dịch vụ Trình bày mô hình, cấu trúc và một số kết quảđược hệ thống IDS thử nghiệm cho máy chủ dịch vụ
Phương pháp nghiên cứu
- Kết hợp nghiên cứu lý thuyết, tìm hiểu mô hình, cấu trúc và một
số kết quả thu được từ hệ thống IDS, thử nghiệm cho máy chủ dịch
vụ
Nội dung của luận văn được chia thành 3 chương với những nội dung cụ thể như sau:
Chương 1: TỔNG QUAN VỀ IDS
- Khái quát về IDS
- Phân loại IDS
- Kiến trúc và thành phần IDS
- Cơ chế hoạt động IDS
- Kết luận chương
Trang 11Chương 2: MỘT SỐ KỸ THUẬT PHÂN TÍCH LƯU LƯỢNG PHÁT HIỆNTẤN CÔNG MẠNG
- Phân tích lưu lượng mạng điển hình
- Phân tích lưu lượng mạng dựa trên học máy và khai phá
Trang 12Chương 1: TỔNG QUAN VỀ IDS
1.1 Khái quát về IDS
Hệ thống phát hiện xâm nhập [31] (Intrusion Detection System
- IDS) là hệ thống phần cứng hoặc phần mềm có chức năng giámsát lưu thông mạng, tự động theo dõi các sự kiện xảy ra trên hệthống máy tính, phân tích để phát hiện ra các vấn đề liên quanđến an ninh, bảo mật và đưa ra cảnh báo cho nhà quản trị
IDS cũng có thể phân biệt giữa những tấn công vào hệ thống từbên trong (từ những người trong hệ thống) hay tấn công từ bênngoài (từ những hacker) IDS phát hiện dựa trên các dấu hiệu đặcbiệt về các nguy cơ đã biết (tương tự như các phần mềm dựa virusdựa vào các dấu hiệu đặc biệt để phát hiện và diệt virus) hay dựatrên so sánh lưu lượng mạng hiện tại với baseline (thông số đo đạcchuẩn của hệ thống) để tìm ra các dấu hiệu khác thường
Hình 1.1 Kiến trúc IDSMột hệ thống phát hiện xâm nhập trái phép cần thỏa mãnnhững yêu cầu sau:
Tính chính xác (Accuracy): IDS không được coi là hành độngthông thường trong môi trường hệ thống là những hành động bất
Trang 13thường hay lạm dụng (hành động thông thường bị coi là bấtthường được gọi là false positive).
Hiệu năng (Performance): Hiệu năng của IDS phải đủ để pháthiện xâm nhập trái phép trong thời gian thực (hành động xâmnhập trái phép phải được phát hiện trước khi xảy ra tổn thươngnghiêm trọng đến hệ thống
Tính trọn vẹn (Completeness): IDS không được bỏ qua mộtxâm nhập trái phép nào (xâm nhập không bị phát hiện gọi là falsenegative) Đây là một điều kiện khó có thể thỏa mãn được vì gầnnhư không thể có tất cả thông tin về các tấn công từ quá khứ, hiệntại và tương lai
Chịu lỗi (False Tolerance): Bản thân IDS phải có khả năngchống lại tấn công
Khả năng mở rộng (Scalability): IDS phải có khả năng xử lýtrong trạng thái xấu nhất là không bỏ xót thông tin Yêu cầu này cóliên quan đến hệ thống mà các sự kiện tương quan đến từ nhiềunguồn tài nguyên với số lượng host nhỏ Với sự phát triển nhanh vàmạnh của mạng máy tính, hệ thống có thể bị quá tải bởi sự tăngtrưởng của số lượng sự kiện
1.1.1 Lịch sử phát triển của IDS
Trên thế giới: Ra đời đầu tiên cách đây khoảng 30 năm, kháiniệm phát hiện xâm nhập xuất hiện qua một bài báo của JamesAnderson Khi đó người ta cần IDS với mục đích là dò tìm và nghiêncứu các hành vi bất thường và thái độ của người sử dụng trongmạng, phát hiện ra các việc lạm dụng đặc quyền để giám sát tàisản hệ thống mạng Các nghiên cứu về hệ thống phát hiện xâmnhập được nghiên cứu chính thức từ năm 1983 đến năm 1988trước khi được sử dụng tại mạng máy tính của không lực Hoa Kỳ.Cho đến tận năm 1996, các khái niệm IDS vẫn chưa được phổ biến,
Trang 14một số hệ thống IDS chỉ được xuất hiện trong phòng thí nghiệm vàcác viện nghiên cứu Tuy nhiên trong thời gian này, một số côngnghệ IDS bắt đầu phát triển dựa trên sự bùng nổ của công nghệthông tin Đến năm 1997 IDS mới được biết đến rộng rãi và thực sựđem lại lợi nhuận với sự đi đầu của công ty ISS, một năm sau đóCisco nhận ra tầm quan trọng của IDS và đã mua lại một công tycung cấp giải pháp IDS tên là Wheel Group.
1.1.2 Lợi ích chung của IDS
Ưu điểm của hệ thống là có thể phát hiện được những kiểu tấncông chưa biết trước Tuy nhiên, hệ thống này lại sinh ra nhiềucảnh báo sai do định nghĩa quá chung về cuộc tấn công Thống kêcho thấy trong hệ thống này, hầu hết các cảnh báo là cảnh báosai, trong đó có nhiều cảnh báo là từ những hành động bìnhthường, chỉ có một vài hành động là có ý đồ xấu, hầu hết các hệthống đều có ít khả năng giới hạn các cảnh báo nhầm
Sử dụng hệ thống IDS để nâng cao khả năng quản lý và bảo vệmạng, lợi ích mà nó đem lại rất lớn Một mặt nó giúp hệ thống antoàn trước những nguy cơ tấn công, mặt khác nó cho phép nhàquản trị nhận dạng và phát hiện những nguy cơ tiềm ẩn dựa trênnhững phân tích và báo cáo được IDS cung cấp Từ đó, hệ thốngIDS có thể góp phần loại trừ một cách đáng kể những lỗ hổng vềbảo mật trong môi trường mạng
1.1.3 Những thành phần không phải IDS
Các thiết bị bảo mật dưới đây không phải IDS:
- Hệ thống đăng nhập mạng được sử dụng để phát hiện lỗ hổngđối với vấn đề từ chối dịch vụ (DoS) trên một mạng nào đó Ở
đó sẽ có hệ thống kiểm tra lưu lượng mạng
Trang 15- Các công cụ đánh giá lỗ hổng kiểm tra lỗi và lỗ hổng trong hệđiều hành, dịch vụ mạng (các bộ quét bảo mật).
- Các sản phẩm chống virus đã thiết kế để phát hiện phần mềm
mã nguy hiểm như virus Trojan horse, worm Mặc dù nhữngtính năng mặc định có thể rất giống hệ thống phát hiện xâmnhập và thường cũng cấp một công cụ phát hiện lỗ hổng bảomật hiệu quả
- Tường lửa (firewall)
- Các hệ thống bảo mật/mật mã, ví dụ như VPN, SSL, S/MIME,Kerberos, Radius…
1.2 Phân loại IDS
Chức năng cơ bản của IDS là phát hiện người xâm nhập, IDS có cácdạng chính như:
- Hệ thống phát hiện xâm nhập dựa trên host (Host IDS)
- Hệ thống phát hiện xâm nhập dựa trên mạng (NetworkIDS)
- Hệ thống lai (Hybrid IDS – Distributed IDS)
Mỗi dạng của IDS đều có những ưu điểm và khuyết điểm riêngđược trình bày ở phần sau
1.2.1 Hệ thống phát hiện xâm nhập dựa trên
host (Host IDS)
Bằng cách cài đặt một phần mềm trên tất cả các máy chủ, IDSdựa trên máy chủ quan sát tất cả các hoạt động hệ thống, như cácfile log và những lưu lượng mạng thu thập được Hệ thống dựa trênmáy chủ cũng theo dõi hệ điều hành, ghi nhận các sự kiện vànhững thông điệp báo lỗi trên hệ thống máy chủ
Trang 16Hình 1:
Hình 1.2 IDS dựa trên hostBảng 1.1 Ưu điểm, nhược điểm của hệ thống phát hiện xâm nhập
dựa trên host (Host IDS)
- HIDS sẽ phân tích trước khi
mã hóa và sau khi giải mã
Trang 17Hình 1.3 IDS dựa vào mạngTrong hình trên, tất cả lưu lượng truy cập Internet là thông quarouter, giao thông được phản ánh cho một cổng giám sát trên mộtIDS NIDS thông thường bao gồm một cổng giám sát cắm vào cácđoạn mạng mà ta muốn theo dõi Cổng giám sát dễ dàng bị quá tải
và sẽ có một số luồng giao thông bị bỏ sót mà có thể chứa cáccuộc tấn công chống lại mạng Vì vậy, ta cần phải đặt IDS cẩnthận, hợp lý để đảm bảo cổng giám sát sẽ không bị quá tải
Trang 18Bảng 1.2 Ưu điểm, nhược điểm của hệ thống phát hiện xâm nhập dựa
scan hoặc ping rà soát
- Yêu cầu cài đặt trên một đoạn mạng mà việc giám sát các cổng không bị quá tải
- Yêu cầu phải giám sát các thành phần khác nhau của mạng sử dụng nhiều thiết
bị IDS
- Yêu cầu phải tập hợp các giao thông bị phân mảnh (giao thông IP được chia thành nhiều mảnh IP)
- Đòi hỏi CPU đáng kể và nhiều tài nguyên bộ nhớ
để có thể phân tích lưu lượng truy cập theo dõi trong thời gian thực
- Không thể phát hiện các cuộc tấn công có trong thông tin liên lạc mã hóa
1.2.3 Phát hiện xâm nhập IDS lai (Distributed (Hybrid)
IDS)
Những hệ thống IDS lai là những hệ thống nhằm kết hợp những
ưu điểm của mỗi dạng IDS, cũng như việc tối thiểu hóa những hạnchế Trong hệ thống lai, cả những bộ cảm biến và những máy chủđểu báo về một trung tâm quản trị
Trang 19Ngoài khả năng kết hợp được những điểm mạnh của hai dạngIDS, các hệ IDS lai còn có thể kết hợp được hai cơ chế là dựa trêndấu hiệu và cơ chế phát hiện bất thường.
1.3 Kiến trúc IDS
Kiến trúc của hệ thống IDS bao gồm các thành phần chính:
- Thành phần thu thập thông tin (Information collection)
độ lọc thông tin sự kiện
Bộ tạo sự kiện (hệ điều hành, mạng, ứng dụng) cung cấp một số chính sách thíchhợp cho các sự kiện, có thể là một bản ghi ác sự kiện của hệ thống hoặc các góimạng Số chính sách này cùng với thông tin chính sách có thể được lưu trong hệthống được bảo vệ hoặc bên ngoài
Vai trò của bộ cảm biến dùng để lọc thông tin và loại bỏ dữ liệu không tươngthích Vì vậy có thể phát hiện được các hành động nghi ngờ Bộ phân tích sử dụng
cơ sở dữ liệu chính sách phát hiện cho mục này Thêm vào đó, cơ sở dữ liệu giữ cáctham số cấu hình, gồm có các chế độ truyền thông ví hệ thống đáp trả Bộ cảm biếncũng có cơ sở dữ liệu của riêng nó, gồm dữ liệu lưu về các xâm nhập phức tạp tiềm
ẩn IDS có thể được sắp đặt tập trung (ví dụ như được tích hợp vào trong tường lửa)hoặc phân tán Một IDS phân tán gồm nhiều IDS khác nhau trên một mạng lớn, tất
cả chúng truyền thông với nhau
IDS có khả năng dò tìm và phát hiện những cuộc tấn công vào hệ thống mạng.IDS tạo ra một báo động khi nó biết có sự xâm nhập bất thường vào hệ thống IDSdựa trên các tiêu chí báo động cho phép nó có thể xác định được các cuộc tấn công.Tất nhiên, để có thể phát hiện các cuộc tấn công, một hoặc nhiều hệ thống IDS phảiđược đặt một cách thích hợp trong mạng, hoặc cài đặt các thiết bị mạng lưới giámsát lưu lượng truy cập trên mạng hoặc cài đặt như máy trạm theo dõi hệ điều hành
Trang 20và ứng dụng đáng ngờ IDS còn có khả năng phát hiện các cuộc tấn công tinh vi sửdụng các kỹ thuật lẩn tránh để qua mặt các IDS mà thâm nhập không bị phát hiện.
Trang 211.4 Cơ chế phát hiện xâm nhập IDS
Mục đích của hệ thống IDS là nhằm cảnh báo cho người quản trịkhi phát hiện xâm nhập Những hệ thống báo trộm kích hoạt mộttín hiệu dựa trên sự chuyển động của đầu dò Các hệ thống IDScũng có hai dạng cơ chế kích hoạt (triggering mechanism):
- Phát hiện sử dụng sai (dựa trên những dấu hiệu)
Phát hiện sử dụng sai còn được gọi là phát hiện dựa trên dấuhiệu (signature – base detection) Phát hiện sử dụng sai đòi hỏinhững file dấu hiệu (signature) để nhận dạng những hành độngxâm nhập Những file dấu hiệu sử dụng trong phương pháp pháthiện sử dụng sai thì tương tự như những file dấu hiệu trong nhữngphần mềm diệt virus
Bảng 1.3 Ưu điểm, nhược điểm của hệ thống phát hiện xâm nhập
dựa trên mẫu dấu hiệu
- Có ít nhất cảnh báo nhầm
hơn kiểu phát hiện sự bất
thường
- Không theo dõi những mẫu
lưu lượng hay tìm kiếm
những sự bất thường
- Theo dõi những hoạt động
đơn giản để tìm sự tương
xứng đối với bất kỳ dấu
hiệu nào đã được định
- Không phát hiện những thay đổi của những cuộc tấn công đã biết
- Khả năng quản trị cơ sở
dữ liệu những dấu hiệu làcông việc mất nhiều thời gian cũng như khó khăn
- Giống như tường lửa, bộ cảm biến phải duy trì trạng thái dữ liệu trong
bộ nhớ để tìm lại nhanh hơn, nhưng mà bộ nhớ thìgiới hạn
Trang 22- Phát hiện sự bất thường (dựa trên mô tả sơ lược)
Khi tìm thấy sự bất thường, một tín hiệu cảnh báo sẽ được kíchhoạt Chính vì dạng phát hiện này tìm kiếm những bất thường nênngười quản trị bảo mật phải định nghĩa đâu là những hoạt động,lưu lượng bất thường
Người quản trị bảo mật có thể định nghĩa những hoạt động bìnhthường bằng cách tạo ra những bản mô tả sơ lược nhóm ngườidùng (user group profile) Mỗi profile được sử dụng như là địnhnghĩa cho người sử dụng thông thường và hoạt động mạng Nếumột người dùng làm lệch quá xa những gì họ định nghĩa trongprofile, hệ thống IDS sẽ phát sinh cảnh báo
Bảng 1.4 Ưu điểm, nhược điểm của hệ thống phát hiện xâm nhập
dựa trên sự bất thường
- Kẻ xâm nhập sẽ không bao
giờ biết lúc nào có hoặc
không phát sinh cảnh báo
bởi vì họ không có quyền
truy cập vào những profile
sử dụng để phát hiện
những cuộc tấn công
- Không dựa trên một tập
những dấu hiệu đã được
định dạng hay những đợt
tấn công đã được biết
- Thời gian chuẩn bị ban đầu cao
- Không có sự bảo vệ trongsuốt thời gian khởi tạo ban đầu
- Thường xuyên cập nhập profile khi thói quen người dùng thay đổi
- Khó khăn trong việc định nghĩa các hành động thông thường
- Cảnh báo nhầm
1.5 Kết chương
Chương 1 trình bày tổng quan về cơ sở lý thuyết, các nghiên cứu liên quan đến IDS, đề tài luận văn bao gồm các nội dung cơ bản như sau:
- Tổng quan về hệ thống phát hiện xâm nhập IDS, các ưu
điểm, nhược điểm của hệ thống phát hiện xâm nhập IDS.
Trang 23- Phân loại IDS theo dựa trên host và dựa trên mạng.
- Kiến trúc và thành phần của hệ thống phát hiện IDS.
- Cơ chế hoạt động – phát hiện xâm nhập của hệ thống
IDS.
Chương 2: MỘT SỐ KỸ THUẬT PHÂN TÍCH LƯU
LƯỢNG PHÁT HIỆN TẤN CÔNG MẠNG
2.1 Tổng quan về các phương pháp, mô hình phân tích
và phát hiện lưu lượng bất thường
Trong một số năm qua, nhiều giải pháp đã được đưa ra để phântích và phát hiện lưu lượng bất thường [8,6,20,12,] Các mô hình,phương pháp phân tích và phát hiện lưu lượng bất thường có thểđược chia thành các nhóm chính là: nhóm phương pháp thống kê,nhóm phương pháp dựa vào tri thức, nhóm các phương pháp dựavào khai phá dữ liệu và học máy
Mỗi nhóm, phương pháp, mô hình đề có thể được phân chiathành nhiều loại khác nhau, tùy theo mỗi phương pháp, kỹ thuậtđặc trưng được sử dụng Ví dụ, nhóm thống kê gồm: mô hình hoạtđộng dựa trên số đo ngưỡng (mức ngưỡng được thiết lập dựa trênước lượng hoặc kinh nghiệm từ khoảng thời gian trước đó), môhình phân bố xác suất, mô hình chuỗi thời gian (sử dụng chuỗi dữliệu thời gian), mô hình đa biến/đơn biến (sử dụng đa biến hoặcmột biến), mô hình Markov Nhóm mô hình, phương pháp dựa vàotri thức bao gồm: hệ chuyên gia, phân tích mẫu dấu hiệu, phântích chuyển đổi trạng thái Mô hình, phương pháp dựa vào khai phá
dữ liệu và học máy bao gồm: phân cụm, mạng nơ-ron, logic mờ, hệmiễn dịch nhân tạo, máy vector hỗ trợ
Trang 24Phương pháp, mô hình thống kê (statistical model) thường giảđịnh tỷ lệ sự kiện (dữ liệu) bình thường chiếm sác xuất cao trong
mô hình trong khi sự kiện bất thường chiếm tỷ lệ nhỏ Phươngpháp thống kê dựa trên giả định mô hình tuân theo một phân bốthống kê biết trước (parametric model) trong điều kiện bìnhthường Những phân bố thường dùng là phân bố chuẩn, Chi-square, mô hình hồi quy… Những sự kiện có xác xuất thấp hoặc có
độ lệch vượt một ngưỡng nhất định từ mô hình giả định bị coi làbất thường Một hướng nghiên cứu khác là không giả định phân bốbiết trước mà dựa trên dữ liệu thực nghiệm (non-parametricmodel) Hướng nghiên cứu này sử dụng các đặc tính thống kê của
dữ liệu ở trạng thái bình thường để thiết lập một tập dữ liệu thamchiếu (normal behavior profile) Tập này được hình thành từ những
dữ liệu “sạch” Lưu lượng các luồng tin trên mạng được quan sát,thu thập và so sánh với độ lệch hoặc khoảng cách với tập thamchiếu này để phát hiện ra bất thường
Bảng 2.1 Các phương pháp phân tích và phát hiện lưu lượng bất
- Phân tích chuyểntrạng thái
Trang 25- Entropy
- Wavelet
- Mạng Neural nhân tạo
- Giải thuật di truyền
- Swarm IntelligencePhương pháp, mô hình tri thức (Knowledge model) xây dựng cácluật hoặc mẫu dấu hiệu để phát hiện bất thường Về căn bản, hệthống cần thu thập thông tin tri thức về những loại bất thườngkhác nhau Các loại dữ liệu cần biểu diễn sao cho dễ dàng xử lý.Các luật, tri thức phải được cập nhật thường xuyên Phương phápnày thường mất nhiều thời gian và tài nguyên để xây dựng tri thức.Trong lĩnh vực phát hiện bất thường, phương pháp tri thức ít phổbiến hơn so với phương pháp thống kê và khai phá dữ liệu/họcmáy
Phương pháp khai phá dữ liệu và học máy (Datamining/Machine Learning) thường áp dụng phân cụm (Clustering)hoặc phân lớp (Classification) để phát hiện bất thường Mục tiêuquan trọng khi áp dụng khai phá dữ liệu vào bài toán phát hiện bấtthường là dự đoán thông tin mới chưa biết và giảm khối lượng dữliệu cần xử lý Khai phá dữ liệu có thể dùng để trợ giúp cho quátrình học máy Khi áp dụng học máy, có thể dựa trên những dữ liệu
đã biết để tự động hóa quá trình đánh giá, so sánh và cải tiến hiệusuất dự đoán Học máy về căn bản là một khả năng một chươngtrình hoặc hệ thống cải thiện dần hiệu suất bằng tự học theo thờigian khi thực hiện một công việc Kết quả trước đó được phân tích
để sửa sai và độ chính xác dựa trên kỹ thuật học máy tự độngđược cải thiện Điều này có nghĩa thông tin thu thập gần đây đượcdùng để thay đổi sự thực thi Nhược điểm của phương pháp này làtốn nhiều tài nguyên do mức độ tính toán phức tạp
Trang 26Trong học máy, một phương pháp hay sử dụng là phân lớp(classification) Mục đích của phân lớp là học từ những dữ liệuhuấn luyện rồi áp dụng để phân lớp những dữ liệu mới Phươngpháp này yêu cầu dữ liệu huấn luyện phải gắn nhãn (đã phận loạibất thường và bình thường) Phân lớp xác định các quan sát dữ liệumới thuộc lớp nào dựa trên dữ liệu huấn luyện đã phận loại Đườngranh giới phân loại giữa các lớp dữ liệu có thể ở dưới dạng tuyếntính hoặc phi tuyến Trong nhiều trường hợp phương pháp phân lớpgiống với phương pháp: giám sát, không giám sát và bán giám sát.
Phương phát giám sát (Supervised): Phương pháp này yêucầu phải có tập dữ liệu đã phân loại thành lớp bình thường và bấtthường Mỗi loại bất thường cần được đánh dấu nhãn riêng (ví dụmỗi loại tấn công có tên riêng) Từ tập dữ liệu đã đánh nhãn có thểxây dựng được mô hình dự đoán cho từng lớp bình thường và bấtthường Do vậy, phương pháp giám sát mô hình hóa tất cả cáchành vi bình thường và bất thường trong quá trình huấn luyện(training) hệ thống Mô hình đã học sau huấn luyện được sử dụng
để phát triển dấu hiệu bất thường với dữ liệu đã biết và thường có
độ phức tạp cao Để huấn luyện được hệ thống cần nhiều dữ liệu
đã đánh nhãn Tuy nhiên, việc phân loại, đánh nhãn cho dữ liệu,nhất là các loại bất thường khác nhau rất khó thực hiện được.Những dữ liệu bất thường có số lượng không nhiều nếu so sánh với
dự liệu bình thường gây trở ngại cho việc mô hình hóa và tăng độchính xác khi phân loại Phương pháp thường dùng để thu được tập
dữ liệu đánh nhãn là tạo ra những dữ liệu mô phỏng gần với thực
tế theo một kịch bản đã được lập trình
Phương pháp bán giám sát (Semi-supervised): Phương phápbán giám sát chỉ huấn luyện với dữ liệu lớp bình thường và không
Trang 27có các lớp bất thường khác nhau Phương pháp này con gọi làphương pháp một lớp (one-class) Cách làm này phát hiện đượcbất thường từ sự khác biệt với lớp bình thường đã huấn luyệnnhưng không phân biệt được các loại bất thường
Phương pháp không giám sát (Unsupervised): Phương phápnày không cần huấn luyện với các dữ liệu như hai phương pháptrên mà phát hiện bất thường trực tiếp trên dữ liệu đầu vào Tuynhiên, phương pháp không giám sát yêu cầu số lượng dữ liệu bìnhthường phải lớn hơn nhiều so với dữ liệu bất thường (ví dụ: 90% dữliệu là bình thường) Khi yêu cầu trên vi phạm, tỉ lệ cảnh báo sai sẽrất cao
Bảng 2.2 Tổng kết tóm tắt một số ưu, nhược điểm của nhóm
phương pháp phát hiện lưu lượng bất thường
- Dựa trên phân bố
thống kê biết trước
hoặc dựa trên thực
- Khó thiết lập các tham số, ví
dụ mức ngưỡng
- Nếu hành vi hợp lệ nhưng gâyđột biến lưu lượng có thể dẫnđến cảnh báo sai
Học
máy
- Cập nhật thông tin
các lớp có thể cảitiến hiệu suất hệ
- Yêu cầu số lượng dữ liệu lớn
- Phải huấn luyện trước thôngtin các lớp
Trang 28- Độ chính xác cao
nếu có đầy đủ thôngtin huấn luyện cáclớp
- Tốn nhiều tài nguyên hệthống, huấn luyện mất nhiềuthời gian
có bất thường
- Để hoạt động hiệu quả cầncập nhật tri thức thườngxuyên
- Duy trì và phát triển tập trithức rất phức tạp và mấtnhiều thời gian vì phải mô tảhết tất cả những tri thức (vídụ: loại bất thường, nhữnghành vi coi là hợp lệ)
Các mô hình giải pháp và các phương pháp, kỹ thuật được sửdụng đa dạng cho thấy tính chất phức tạp của việc phát hiện lưulượng bất thường Một giải pháp kỹ thuật đưa ra trong nghiên cứu
có thể đồng thời thuộc các phương pháp khác nhau Trên thực tế,một hệ thống phát hiện bất thường có thể kết hợp nhiều phươngpháp Do tính chất đa dạng, phức tạp của của nguồn dữ liệu lưulượng trên mạng, một giải pháp toàn diện không thể có được trongthực tiễn Vì vậy, việc phân loại như trên chỉ mang tính chất tươngđối
Phân tích và phát hiện lưu lượng bất thường là một yếu tố quantrọng để xem xét mức độ an ninh mạng và hiệu năng của cácmạng truyền thông Theo [8,6,9], trong những nguyên nhân gây ralưu lượng bất thường, những hoạt động có hại như tấn công mạng,lây lan sâu, mạng lưới botnet… hiện đang chiếm tỉ lệ cao Vì vậy
Trang 29nhiều nghiên cứu về lĩnh vực này tập trung khai thác khía cạnhliên quan đến vấn đề phát hiện tấn công hoặc xâm phạm trái phéptrên mạng.
Trong lĩnh vực an ninh mạng, có hai xu hướng chính để phát hiện tấn công hoặcxâm nhập mạng là: dựa trên dấu hiệu và dựa vào hành vi bất thường [8,6,9] Các kỹthuật phát hiện dựa trên dấu hiệu bất thường đòi hỏi phải biết trước mẫu dữ liệu tấncông (mẫu dấu hiệu lưu sẵn trong cơ sử dữ liệu) và phải thu thập dữ liệu lưu lượng(các sự kiện) từ mạng để so sánh với các mẫu dấu hiệu lưu sẵn, do đó có nhiều hạnchế Phương pháp thứ hai không đòi hỏi mẫu dấu hiệu biết trước, cho phép pháthiện lưu lượng bất thường dựa trên hành vi, từ đó cho phép phát hiện được nhữngkiểu tấn công mới Chính vì vậy, các phương pháp phân tích và phát hiện lưu lượngbất thường mở ra khả năng mới trong phát hiện tấn công mạng
2.2 Lưu lượng mạng bất thường
Theo [32], “bất thường” được định nghĩa là “sự sai lệch hoặc vượt
ra khỏi phạm vi của một thủ tục, quy tắc hoặc khuôn dạng bìnhthường” Lưu lượng mạng bất thường (sau đây có thể gọi tắt là lưulượng bất thường) là sự lưu lượng của những luồng thông tin khôngtuân theo ứng xử, hành vi thông thường Sự biến đổi bất thườngnày có thể do nhiều nguyên nhân khác nhau
Trang 30Hình 2.1 Biểu diễn các tập dữ liệu bình thường và bất thường thu
được từ mạng trên toạ độ hai chiều [21]
Bất thường hay ngoại lai (outlier) đã được cộng đồng toán học
– thống kê nghiên cứu từ khá sớm [9] Bất thường được xem như
dữ liệu không tuân thủ một chuẩn mực xác định trước của một tập
dữ liệu bình thường Hình 2.1 là ví dụ về dữ liệu bình thường và dữliệu bất thường được thu từ mạng, được biểu diễn theo hệ tọa độhai chiều Các tập dữ liệu bình thường là N1 và N2, các điểm dữ liệuO1, O2 và dữ liệu trong tập O3 là bất thường
Theo [24,25], bất thường là những sự kiện ảnh hưởng đến tính sẵnsàng và hiệu năng của mạng Một cách hiểu khác là những sự kiệngây tổn hại đến hệ thống mạng, thiết bị mạng, dịch vụ mạng… màngười quản lý, điều hành hoặc quản trị mạng cần quan tâm
Bất thường có thể xảy ra từ nhiều góc độ khác nhau: từ góc độquản lý như những sự kiện hỏng hóc thiết bị mạng, đường truyền,lỗi trong cấu hình… hoặc từ góc độ của người dùng như sự tăngđột ngột số lượng truy nhập của khách hàng… đến những hoạtđộng tấn công, xâm nhập, phát tán thư rác, sâu máy tính…
Trang 31Mặt khác, xét theo mô hình phân lớp TCP/IP, bất thường có thểxuất hiện tại bất kỳ lớp nào Bất thường có thể xảy ra do truyềndẫn tại lớp vật lý do cáp quang bị đứt, giao diện trên router bịhỏng, tại lớp mạng do lỗi cấu hình định tuyến, tại lớp ứng dụng dongười dùng, do tin tặc bị tấn công vào hệ thống tên miền, khaithác lỗ hổng cơ sở dữ liệu và ứng dụng v.v Một số bất thường cóthể gây ra đột biến tại nhiều lớp [25,15].
Các bất thường hay xảy ra chỉ ở một lớp, song chúng có thể ảnhhưởng sang lớp khác Ví dụ, một bất thường xảy ra ở lớp vật lý,đơn cử do đứt cáp quang hay nhiễu kênh chẳng hạn Bất thườngnày sẽ lan tỏa và có tác động trực tiếp vào biến đổi lưu lượngmạng ở lớp cao hơn, ví dụ lớp ứng dụng Nếu người quản trị mạngphát hiện sớm được, lưu lượng mạng sẽ được tái định tuyến đểtránh tuyến bị lỗi, nhiễu nhằm khôi phục lại lưu lượng bình thườngcủa ứng dụng Mặt khác, một bất thường ở lớp cao cũng có thểgây ra gián đoạn ở lớp vật lý Ví dụ tấn công của sâu Nimda gây ralưu lượng bất thường ở lớp ứng dụng, có thể gây ra biến động lớn ởlưu lượng lớp mạng và ảnh hưởng đến lưu lượng của các ứng dụngkhác [25]
Vì vậy để phát hiện bất thường tại mỗi lớp đều cần có những thuộctính mô tả đặc trưng cho lớp đó Ví dụ: tấn công dò tìm mật khẩu,lưu lượng mạng nếu tính theo khối lượng thì không thay đổi nêncần có thêm thuộc tính khác, chẳng hạn số lần đăng nhập khôngthành công Với sự cố tắc nghẽn mạng hay số lượng truy cập tăngvọt, lưu lượng mạng có khối lượng tăng đột biến Việc xét thêm dữliệu của nhiều ứng dụng khác nhau sẽ làm tăng độ phức tạp của
hệ thống phát hiện Do đó tùy thuộc vào từng ứng dụng cần có tậpthuộc tính dữ liệu đặc trưng của ứng dụng đó
Trang 32Việc xét bất thường cho từng ứng dụng khác nhau nằm ngoài
phạm vi nghiên cứu của luận văn Luận văn này chỉ tập trung vào phát hiện bất thường chủ yếu liên quan đến lưu lượng mạng được
mô tả bởi các dữ liệu thuộc tính tại máy chủ dịch vụ.
Bất thường xảy ra có thể do nhiều nguyên nhân Bảng sau liệt
kê những nguyên nhân điển hình nhất gây ra sự kiện bất thườngtrong lưu lượng mạng
Bảng 2.3 Các nguyên nhân điển hình gây ra lưu lượng mạng bất
thường
Tắc nghẽn Mạng, đường truyền bị quá tải do gửi quá
nhiều gói tinTăng đột biến số
lượng truy cập người
dùng
Số lượng truy nhập của người dùng quánhiều vào một website, một máy chủ
Sự cố hệ thống Lỗi hỏng hóc thiết bị dẫn đến tăng/giảm lưu
lượng đột biến (giảm ở tuyến có lỗi, tăng ởtuyến khác), do tái định tuyến…
Nguyên nhân tắc nghẽn mạng: đây là bản chất tự nhiên củamạng chuyển mạch gói Môi trường mạng hội tụ như hiện nayvới sự xuất hiện ngày càng nhiều các loại hình dịch vụ, ứngdụng, tắc nghẽn là hiện tượng rất phổ biến
Do sự tăng đột biến của số lượng truy nhập người dùng vàomạng (vào các trang tin tức, máy chủ, cơ sở dữ liệu, )
Các sự cố hệ thống: lỗi hỏng hóc thiết bị, đường truyền dẫn đếntăng/giảm lưu lượng mạng (giảm ở tuyến có thiết bị lỗi, tăngsang tuyến khác, có thể do tái định tuyến)
Trang 33 Các hành vi quét thăm dò mạng hoặc tấn công mạng (làm trànngập băng thông, tràn lưu lượng gây ra đột biến tăng lưu lượngmạng, gây ra hiện tượng tắc nghẽn cục bộ, tấn công từ chối dịch
vụ, sâu, virus…)
thường
Phân tích và phát hiện lưu lượng mạng bất thường nghĩa là cần
phân tích, xác định một tập hợp hoặc một phạm vi giới hạn những
dữ liệu được coi là bình thường của các luồng tin và thực hiện theodõi, so sánh dữ liệu tiếp nhận được với những dữ liệu được coi làbình thường này Nếu dữ liệu không nằm trong tập dữ liệu bìnhthường sẽ được coi là bất thường
Các công trình nghiên cứu về phân tích và phát hiện lưu lượngmạng bất thường đến nay chủ yếu dựa trên một nguyên lý căn bản
nhất, đó là chỉ ra các đặc tính lưu lượng mạng trong điều kiện hoạt động bình thường (tạo thành đường cơ sở - baseline) theo một
cách nào đó và xác định được sự khác biệt của lưu lượng mạng đođược trong so sánh với lưu lượng mạng bình thường đã nêu Ranhgiới của sự khác biệt chính là mức ngưỡng (Threshould) thường
biến động theo thời gian Do đó cần sự quan sát, theo dõi lưu
lượng theo thời gian Thông thường, lưu lượng mạng được coi làbình thường khi được quan sát, theo dõi, đo đạc trong điều kiệnhoạt động được giả thiết là không có sự cố mạng không có độtbiến lưu lượng do tắc nghẽn hay nguyên nhân gây bất thường như
đã nêu ở Bảng 2.3
Phát hiện bất thường nhằm giúp cho người quản trị mạng phát
hiện sớm những nguyên nhân như: nguy cơ tắc nghẽn, sự cố lỗithiết bị trên mạng, lỗi của luồng tin, thay đổi tuyến trên mạng, độtbiến lưu lượng người dùng các ứng dụng/dịch vụ…Trên cơ sở đó,
Trang 34người quản trị mạng có thể kích hoạt các công cụ điều khiểnluồng, chống tắc nghẽn, cân bằng tải, tái định tuyến, khắc phục sự
cố lỗi trên mạng, ngăn chặn tấn công mạng
Quá trình phân tích, phát hiện và xử lý bất thường gồm các giaiđoạn như sau:
Thu thập lưu lượng mạng
Tiền xử lý dữ liệu, trích chọn (tách) các thuộc tính dữ liệu cầnthiết
Phân tích, phát hiện bất thường: dựa trên các mẫu dữ liệu thuthập từ lưu lượng mạng, phân tích và tìm ra những dữ liệu có dấuhiệu bất thường để có cảnh báo sớm
Xác định nguyên nhân, nhận dạng và phân loại bất thường,phân tích để tìm ra nguồn gốc của bất thường
Tìm cách ngăn chặn, cập nhật tập luật các chương trìnhphòng chống, cải tiến các phương pháp phát hiện, hệ thống bảo vệhiện có
Lưu lượng mạng được thu thập phục vụ ba mục đích: 1) Tạo tậplưu lượng mạng bình thường (đường cơ sở 2); 2) Tạo các tập dữliệu đo lưu lượng mạng thực tế theo thời gian để so sánh với tậpbình thường 3) Đo lưu lượng mạng thực tế ở vị trí nào có ý nghĩaquan trọng Trong chương 3, luận văn sẽ trình bày một trường hợp
cụ thể về việc đặt các bộ đo thu thập lưu lượng mạng
Dữ liệu thu thập được có thể chứa nhiễu và các thông tin khôngcần thiết Vì vậy, bước tiền xử lý dữ liệu, trích chọn thuộc tính sẽnhằm loại bỏ những thông tin không cần thiết, lựa chọn nhữngthuộc tính quan trọng nhất
Phân tích và phát hiện lưu lượng bất thường là giai đoạn quantrọng nhất của toàn bộ quá trình phân tích, phát hiện và xử lý bấtthường
Trang 352.3 Một số phương pháp phân tích và phát hiện lưu lượng bất thường điển hình
Mô hình Markov[8,6,20] (Markov Model) phát hiện bất thườngbằng cách giám sát hệ thống tại các chu kỳ cố định và lưu giữtrạng thái của hệ thống, đó là xác xuất của mỗi trạng thái tại từngchu kỳ Trạng thái của hệ thống thay đổi khi xuất hiện sự kiện và
sự kiện bất thường được phát hiện nếu xác suất xuất hiện củatrạng thái đó là thấp
Trang 362.3.2 Phương pháp dựa trên mạng Bayesian
Đây là phương pháp giám sát dựa trên biểu diễn sự mã hóaxác xuất mối quan hệ giữa các biến[8,6,12] Phương pháp này cóthể giả định các biến độc lập hoặc phụ thuộc nhau và có khả năngphát hiện bất thường với nhiều lớp Mạng Bayesian (BayesianNetwork) sử dụng để mô hình hóa hệ thống dựa trên các thuộctính (biến) và xác xuất giữa những thuộc tính này với lớp bấtthường Với một quan sát cần kiểm tra, phương pháp này tính xácxuất trong các lớp dữ liệu đã phân loại khác nhau, bao gồm cảbình thường và bất thường Giá trị tính được lớn nhất dùng để xácđịnh lớp cho quan sát đó
Mạng Bayesian hoạt động trên nguyên tắc mô tả mối quan hệ phụ thuộcgiữa các biến, nó có thể hoạt động được trong trường hợp dữ liệu không đầy đủ vàphân bố không đều như dữ liệu mạng Ưu điểm của mạng Bayesian là tính ổnđịnh với dữ liệu đồng thời nó có khả năng đoán trước được kết quả của một hành
vi do sử dụng mối quan hệ nhân quả Các hệ thống phát hiện bất thường dựa trênmạng Bayesian là mô hình của Valdes, có khả năng phát hiện các chuỗi tấn côngphân tán trong khi từng tấn công tách biệt không sinh ra cảnh báo Mô hình này sửdụng hệ thống Bayesian để xây dựng mối quan hệ nguyên nhân kết quả giữatấn công và các yếu tố quan sát Sau đó dựa trên phân bố xác suất của các yếu tốquan sát được để tính xác suất có tấn công Một mô hình khác là của Kruegel sửdụng cách tiếp cận là sử dụng nhiều bộ cảm ứng khác nhau, đầu ra của các bộcảm ứng này được tập hợp để sinh ra cảnh báo Các bộ cảm ứng sẽ sử dụngphương pháp Bayesian
Tóm lại việc sử dụng mạng Bayesian cho phát hiện bất thường có ưu điểm
là giảm được tỷ lệ cảnh báo sai Tuy nhiên nó có hạn chế là hiệu suất hoạt độnggiảm khi các yếu tố quan sát tăng lên
Trang 37Sử dụng thống kê để xác định các sự kiện bất thường được sử dụng rộng rãitrong các hệ thống phát hiện truy nhập từ nhiều năm nay Hệ thống hoạt độngtrên nguyên tắc thu thập dữ liệu của các thông số trên mạng và áp dụng một số kỹthuật thống kê trên dữ liệu được thu thập để tạo ra các tập hồ sơ cho các thông sốtrong thời điểm hoạt động bình thường, ví dụ hệ thống có thể nghiên cứu sự phânphối của các thông số được giám sát Hệ thống sau đó sẽ xem xét sự khác nhaugiữa thông số đang xem xét ở thời điểm hiện tại với tệp hồ sơ của nó, thôngthường nếu dữ liệu của thông số hiện tại cao hơn thì nhiều khả năng hệ thống bịtấn công Hệ thống có thể sử dụng nhiều quy luật đơn giản để phát hiện ra sựkhác nhau Sử dụng ngưỡng ( Threshold) là cách đơn giản nhất, khi thông số đượctheo dõi vượt quá ngưỡng đặt ra thì có cảnh báo Các hệ thống sử dụng phân tíchthống kê điển hình là Haystack (Smaha, 1988), IDES (Lunt et al, 1988),EMERALD (Porras and Neumann, 1997) Haystack (Smaha,1988) được phát triểncho việc phát hiện xâm nhập dựa trên tệp thông tin người dùng log Hệ thốngđược phát triển cho cả 2 phương thức dựa trên so sánh mẫu và dựa trên bấtthường Đối với phương pháp dựa trên bất thường, từ các thống kê điều kiện trướcđây hệ thống trên cả 2 loại : từng người dùng riêng lẻ và mô hình nhóm ngườidùng Rất nhiều đặc điểm trong phiên làm việc của người dùng được theo dõi, baogồm : thời gian làm việc, số lượng tệp tạo ra, số lượng trang được in ra… chúng sẽđược mô hình hóa như là các biến độc lập và ngẫu nhiên Đối với từng đặc điểm,
hệ thống sẽ xác định một khoảng giá trị được coi là bình thường, trong mộtphiên làm việc nếu yếu tố quan sát có giá trị nằm ngoài khoảng bình thường thì
hệ thống sẽ tính điểm dựa trên phân bố xác suất, một cảnh báo sẽ được sinh ranếu điểm quá cao Ngoài ra đối với người dùng Haystack còn xác định quyền chotừng người, nếu hành vi của ai đó vượt qua quyền được cho phép thì sẽ bị coi là bấtthường Nhược điểm lớn nhất của hệ thống Haystack là thiết kế chỉ chạy offline,không giám sát được thời gian thực IDES (Intrusion Detection Expert System –Lunt, 1988) là một trong những lớp hệ thống phát hiện xâm nhập đầu tiên Dự ánIDES được phát triển trong một số năm,sau khi hoàn thành thì nó được cải tiến
Trang 38thành NIDES (Next Generation Intrusion Detection Expert System) Các hệ thốngIDES dựa trên nguyên tắc hành vi người dùng trong các trường hợp thích hợp sẽđược tổng kết, tính toán thống kê, sau đó các hành động hiện tại sẽ được so sánhcùng các tệp hồ sơ tự nghiên cứu, và sự chênh lệch có thể được đánh dấu như làhành vi bất thường IDES theo dõi ba loại đối tượng : người dùng, các host truycập từ xa, các hệ thống đích Trong đó có khoảng 36 thông số được xem xét: 25cho người dùng, 6 cho các host truy cập từ xa, và 5 cho các hệ thống đích IDES
đo đạc các thông số này trong mỗi phiên người dùng và dựa vào các tham số đósinh ra các tệp hồ sơ, chúng cũng được cập nhật để phản ánh hành vi của ngườidùng từng ngày IDES sau đó cũng sử dụng một hệ chuyên gia để kiểm tra từngbản ghi mới ngoài những bản ghi đã biết Ngoài ra hệ thống còn gán cho các bảnghi một trọng số đi kèm, cứ 30 ngày trọng số này giảm đi một nửa nhằm phân biệtcác sự kiện xảy ra từ lâu với các sự kiện mới Nhược điểm của phương pháp này
là chỉ tính thống kê trên từng yếu tố quan sát nên không phát hiện được các cuộctấn công ảnh hưởng trên diện rộng, tác động đến nhiều thành phần khác nhau của
hệ thống EMERALD (Event Monitoring Enabling Responses to Anomalous LiveDisturbances – Porras and Naumann, 1997) là một hệ thống phát hiện xâm nhập
có khả năng mở rộng và tích hợp cùng các hệ thống khác, nó tập trung vào việcphát hiện những xâm nhập từ bên ngoài, và được thiết kế để hoạt động tốt trên 3mức: mức phân tích dịch vụ, mức domain, mức cho các tổ chức Kiến trúc củaEMERALD được xây dựng trên các hệ thống theo dõi EMERALD địa phương,chúng được phân bố và hoạt động tương đối độc lập trên các mức khác nhau Mỗi
hệ thống theo dõi kết nối với các hệ thống theo dõi khác thông qua mạng, chúngkết hợp việc phân tích dựa trên dấu hiệu và thống kê hồ sơ để tạo ra khả năngbảo vệ thời gian thực cho các dịch vụ người dùng mạng rộng lớn trên Internet.Một hệ thống theo dõi EMERALD bao gồm 4 thành phần chính: đối tượng tàinguyên (resource object), phương tiện hồ sơ (profiler engine), phương tiện dấuhiệu (signature engine) và thiết bị giải quyết chung (universal resolver) Đối tượngtài nguyên nắm bắt tất cả các thông số cấu hình, duy trì danh sách các hệ thống
Trang 39khác có kết nối đến nó … Phương tiện hồ sơ thực hiện một số thao tác phát hiệnbất thường trên các dữ liệu đã được kiểm tra, nó có thể phát triển trên các thànhphần IDES và NIDES, các hồ sơ dữ liệu được cung cấp dưới dạng các lớp từ thànhphần đối tượng tài nguyên Phương tiện dấu hiệu cung cấp khả năng phát hiện dựatrên dấu hiệu, nó hoạt động cùng với một tập các quy tắc nhỏ Thiết bị giải quyếtchung đóng vai trò bộ xử lý trung tâm, nó tổng hợp các dữ liệu từ các thànhphần địa phương, quyết định có hay không một sự xâm nhập xảy ra hoặc quyếtđịnh một phản ứng nào được sinh ra Nó đồng thời cũng quản lý sự kết nốigiữa các hệ thống theo dõi Thiết bị giải quyết chung sử dụng một hệ chuyên gia
để đưa ra kết luận từ các thông báo của phương tiện hồ sơ, phương tiện dấu hiệu
và hệ thống theo dõi khác
Phân cụm là việc gán các đối tượng vào các nhóm gọi là cụm(cluster) sao cho các đối tượng trong cụm có độ tương đồng giốngnhau so với những cụm khác[8,6,12] Nếu một đối tượng nằmngoài những cụm đã biết, đó có thể là dấu hiệu bất thường.Phương pháp này thường mặc định là các cụm có nhiều phân tửhoặc có mật độ cao là bình thường, ngược lại là bất thường Phầnlớn các phương pháp áp dụng cho dữ liệu có thuộc tính liên tục.Các phương pháp phân cụm thường dùng trong phát hiện lưulượng bất thường là phân hoạch (partitioning), và mật độ (density).Điển hình là phương pháp dựa trên thuật toán K-means và thuậttoán phát hiện ngoại lai cục bộ LOF (Local Outlier Factor)
Trong SVM (Support Vector Machine) [8,6,12], vector đầu vàođược ánh xạ sang không gian thuộc tính cấp cao hơn Sức mạnhcủa SVM nằm ở khả năng phân chia vùng biên thành những siêumặt phẳng được quyết định bởi vector hỗ trợ Điều này sẽ tạo racác giá trị ngoại lai tốt hơn Về cơ bản, SVM phân loại cho lớp nhị
Trang 40phân, ví dụ tách các vector huấn luyện thành các vector siêuphẳng khác nhau Tỷ lệ giữa mặt siêu phẳng và số lượng dữ liệu bịsót khi phân loại có thể điều chỉnh được SVM thường có độ chínhxác cao khi đầy đủ dữ liệu huấn luyện SVM có thể chỉ cần huấnluyện với một lớp dữ liệu bình thường (One-class SVM) hoặc vớinhiều lớp khác nhau, bao gồm nhiều lớp bất thường SVM có thể sửdụng hàm tuyến tính hoặc phi tuyến tính (dùng hàm kernel) đểphân chia các lớp.
base)
Phương pháp này được áp dụng từ rất sớm trong lĩnh vực dòlỗi hay phát hiện bất thường trong mạng Trong hệ chuyên gia,một cơ sở dữ liệu toàn diện chứa tập luật miêu tả hành vi của hệthống được sử dụng để xác định nếu một lỗi nào đó xảy ra Trênthực tế phương pháp này ít được áp dụng do hệ thống chạy quáchậm không đáp ứng được yêu cầu của các ứng dụng thời gianthực và phụ thuộc nhiều vào cơ sở tri thức về các triệu chứng lỗitrước đó Những triệu chứng này có thể là: dung lượng đườngtruyền bị quá tải, số lượng kết nối TCP mở nhiều trên mức chophép, thông lượng đạt mức tối đa… Phương pháp này còn có mộtnhược điểm là phụ thuộc khá nhiều vào người quản trị mạng vàkhông đáp ứng kịp khi hệ thống mạng được mở rộng do mỗi khi
hệ thống có sự thay đổi thì cần có sự bổ sung về tập luật Người
ta có thể sử dụng mô hình hệ chuyên gia FCMs (fuzzy cognitivemaps) để khắc phục nhược điểm này FCM có thể được sử dụng đểtạo ra một mô hình thông minh có sự thừa kế và tác động qua lạivới nhau của các triệu chứng mạng