Chúng không loại trừ phương pháp nhận dạng tấncông dựa vào mẫu tấn công đã biết truyền thống, mà chỉ thêm vào một kênh hữu íchcho người quản trị mạng biết được những tấn công, bất thường
Trang 1LỜI CÁM ƠN
Lời đầu tiên tôi xin cám ơn chân thành và sâu sắc nhất đến Thầy TS TRỊNH NGỌC MINH, Thầy đã dành rất nhiều thời gian hướng dẫn tôi một cách tận tâm, sâu sát và giúp tôi vượt qua những thời điểm khó khăn nhất về luận văn này.
Tiếp theo tôi xin gởi lời cám ơn chân thành và trân trọng nhất đến quý Thầy
Cô Trường Đại Học Công Nghệ Thông Tin đã truyền đạt nhiều kiến thức quý báu cho tôi trong suốt quá trình học tập tại đây
Xin gởi lời cám ơn đến Thầy GS TSKH HOÀNG VĂN KIẾM, Thầy TS ĐỖ VĂN NHƠN đã có những góp ý hết sức quý báu cho bản luận văn này
Xin cám ơn các bạn học, bạn hữu, đồng nghiệp đã có những góp ý và động viên trong suốt thời gian qua Xin cám ơn Thầy ThS HUỲNH NGỌC TÍN, một người bạn, đã góp ý rất nhiều cho luận văn
Cám ơn các anh/chị Quản trị mạng Trường Đại Học Công Nghệ Thông Tin
đã tạo điều kiện tốt nhất cho chúng tôi trong suốt gần ba năm học tập tại đây.
Cuối cùng xin cám ơn Gia Đình, Dì Năm, Má, và bé Rô Be (Anh Tuấn) luôn luôn động viên tôi trong những lúc khó khăn nhất.
TP Hồ Chí Minh, tháng 10 – 2007
TRẦN NGỌC THANH
Trang 2LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của tôi, với sự hướng dẫn củaThầy TS TRỊNH NGỌC MINH Các kết quả nêu trong luận văn là hoàn toàn trungthực và chưa được công bố trong bất kỳ một công trình nào khác
TRẦN NGỌC THANH
Trang 3MỤC LỤC
LỜI CÁM ƠN i
LỜI CAM ĐOAN ii
MỤC LỤC iii
DANH MỤC CÁC TỪ VIẾT TẮT vi
DANH MỤC CÁC HÌNH vii
DANH MỤC CÁC BẢNG ix
MỞ ĐẦU 1
CHƯƠNG 1: TỔNG QUAN 2
1.1 Giới thiệu 2
1.2 Mục tiêu nghiên cứu của luận văn 3
1.3 Giới thiệu các chương mục của luận văn 4
1.4 Những đóng góp của luận văn 5
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT TẤN CÔNG VÀ PHÁT HIỆN TẤN CÔNG TRÊN MẠNG 6
2.1 Các loại IDS 6
2.2 Ứng dụng khai thác dữ liệu để phát hiện tấn công, xâm nhập 9
2.2.1 Misuse IDS 9
2.2.2 Anomaly-Based IDS 11
2.3 Hành động của IDS 13
2.4 Kỹ thuật tấn công, xâm nhập 13
2.5 Phân loại tấn công 17
2.5.1 U2R (User to Root) 17
2.5.2 R2L (Remote to Local) 17
2.5.3 DoS (Land, SYN flood, mailbomb, smurf, teardrop,…) 17
2.5.4 Probes 18
2.5.5 Data 20
Trang 42.6 Kết luận 20
CHƯƠNG 3: XÂY DỰNG ĐẶC TRƯNG TRÊN MẠNG 21
3.1 Xây dựng đặc trưng 21
3.2 Cải tiến xây dựng đặc trưng 27
3.3 Các đặc trưng mới thêm vào và ý nghĩa của chúng 31
3.4 Thuật toán xây dựng đặc trưng 33
3.5 Gán trọng số các đặc trưng 35
3.6 Chuẩn hóa đặc trưng 38
3.7 Kết luận 45
CHƯƠNG 4: BẢN ĐỒ TỰ TỔ CHỨC 46
4.1 Giới thiệu 46
4.2 Thuật toán bản đồ tự tổ chức 48
4.3 Chất lượng bản đồ tự tổ chức 52
4.4 Các phương pháp trực quan bản đồ tự tổ chức 52
4.5 Phát hiện tấn công ứng dụng bản đồ tự tổ chức 53
4.6 Kết luận 53
CHƯƠNG 5: THIẾT KẾ VÀ CÀI ĐẶT CHƯƠNG TRÌNH 54
5.1 Thiết kế các phân hệ chương trình 54
5.2 Cài đặt chương trình 63
5.2.1 Phát hiện tấn công 64
5.2.2 Bắt gói dữ liệu mạng 64
5.2.3 SOM 65
5.3 Kết luận 65
CHƯƠNG 6: THỰC NGHIỆM VÀ ĐÁNH GIÁ 66
6.1 Mô tả môi trường thực nghiệm 66
6.2 Dữ liệu thực nghiệm 68
6.3 Huấn luyện bản đồ tự tổ chức 71
6.4 Tấn công giả lập và tìm ngưỡng cảnh báo phù hợp 76
6.4.1 Phương pháp tìm ngưỡng cảnh báo 76
Trang 56.4.2 Các cuộc tấn công thử nghiệm 77
6.4.3 Ứng dụng ngưỡng cảnh báo vào thực nghiệm 87
6.5 Thử nghiệm khả năng phát hiện tấn công khi loại bỏ một số đặc trưng 91
6.6 Kết luận 91
CHƯƠNG 7: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 92
7.1 Kết luận 92
7.2 Hướng phát triển 92
TÀI LIỆU THAM KHẢO 94
Tiếng Việt 94
Tiếng Anh 94
WEBSITE THAM KHẢO 95
PHỤ LỤC 96
A KỸ THUẬT BẮT GÓI DỮ LIỆU TRÊN MẠNG 96
A.1.Dùng thư viện C# 96
A.2.Dùng thư viện winpcap 98
B GIAO THỨC TRÊN MẠNG 102
B.1 Bộ giao thức TCP/IP 102
B.2 Cấu trúc gói IP 104
B.3 Cấu trúc gói TCP 105
B.4 Cấu trúc gói UDP (User Datagram Protocol) 106
C MỘT SỐ TẤN CÔNG DOS VÀ DÒ TÌM THÔNG TIN 107
C.1 Tấn công DoS 107
C.2 Dò tìm thông tin (Probes) 108
Trang 6DANH MỤC CÁC TỪ VIẾT TẮT
TCP/IP : Transmission Control Protocol/Internet Protocol).
Trang 7DANH MỤC CÁC HÌNH
Hình 1.1 Tình hình phát triển số lượng máy tính trên Internet 2
Hình 1.2 Malware mới xuất hiện mỗi tháng trong năm 2006 3
Hình 2.1 Sơ đồ tổng thể vị trí đặt IDS 7
Hình 2.2 Vai trò của Network IDP (Intrusion Detection and Prevention) trong mô hình phòng thủ sáu lớp 8
Hình 2.3 Sự khác nhau giữa Misuse Detection và Anomaly Detection 9
Hình 2.4 Quy trình phát hiện xâm nhập mạng dựa vào tập dữ liệu gán nhãn 10
Hình 2.5 Quy trình phát hiện xâm nhập dựa vào tập dữ liệu không gán nhãn 12
Hình 2.6 Năm pha tấn công, xâm nhập 15
Hình 2.7 Quy trình bắt tay 3 bước 19
Hình 3.1 Khoảng cách mẫu C so với vectơ trọng số A của nơron có dữ liệu học ánh xạ và vectơ B của nơron không có dữ liệu học ánh xạ vào 26
Hình 3.2 Mô hình bắt gói dữ liệu và xây dựng đặc trưng trên mạng 34
Hình 4.1 Vectơ trọng số của nơron chiến thắng (màu sậm) và các vectơ trọng số của những nơron lân cận được cập nhật hướng về mẫu dữ liệu đầu vào x 47
Hình 4.2 Những vùng lân cận bán kính 1, 2, 3 của nơron màu sậm 47
Hình 4.3 Các hàm tốc độ học 50
Hình 5.1 Các phân hệ chương trình 54
Hình 5.2 Bắt gói dữ liệu mạng và tạo vectơ đặc trưng 55
Hình 5.3 Chuẩn hóa dữ liệu 56
Hình 5.4 Huấn luyện và tính chất lượng bản đồ 57
Hình 5.5 Biểu đồ vectơ đặc trưng trung bình 61
Hình 5.6 Biểu đồ các đặc trưng của các vectơ trọng số 61
Hình 5.7 Dò tìm tấn công 62
Hình 5.8 Lớp ứng dụng phát hiện tấn công 64
Hình 5.9 Lớp bắt gói dữ liệu mạng và xây dựng đặc trưng trên mạng 64
Trang 8Hình 5.10 Lớp bản đồ SOM 65
Hình 6.1 Môi trường thực nghiệm 67
Hình 6.2 Vectơ dữ liệu được tạo ra từ máy bị virus 70
Hình 6.3 Biểu đồ lưu lượng mạng ngay trên máy bị virus 70
Hình 6.4 Màn hình phát hiện tấn công SYN Scan 89
Hình 6.5 Màn hình phát hiện tấn công TCP Connected Scan 89
Hình B.1 Quá trình truyền dữ liệu giữa 2 ứng dụng trên 2 máy tính 103
Hình B.2 Cấu trúc gói IP 104
Hình B.3 Cấu trúc gói TCP 105
Hình B.4 Cấu trúc gói UDP 106
Trang 9DANH MỤC CÁC BẢNG
Bảng 3.1 Các đặc trưng của kết nối TCP 22
Bảng 3.2 Đặc trưng lưu lượng mạng được xây dựng trong khoảng 2 giây 23
Bảng 3.3 Các đặc trưng trên mạng được đề xuất 31
Bảng 3.4 Các đặc trưng cần chuẩn hóa 38
Bảng 3.5 Các mẫu vectơ với vectơ 1 và 2 được xây dựng từ máy bị virus, còn vectơ 3 từ một máy kết nối tới máy chủ bình thường 40
Bảng 6.1 Các bản đồ SOM 75
Bảng 6.2 Giá trị tổng cộng các đặc trưng của nơron có trung bình lớn nhất 76
Bảng 6.3 Thống kê khoảng cách từ các mẫu tấn công đến vectơ trọng số có chỉ số trung bình cao nhất 83
Bảng 6.4 Ngưỡng cảnh báo được đề nghị 83
Bảng 6.5 Kết quả phát hiện tấn công sử dụng ngưỡng cảnh báo được đề nghị 86
Bảng 6.6 Kết quả thực nghiệm ngày thứ ba 88
Bảng 6.7 Kết quả thực nghiệm các ngày trong tuần (trừ ngày thứ ba) 90
Trang 10MỞ ĐẦU
Việc bùng nổ thông tin trên hệ thống mạng toàn cầu đem lại sự thuận lợi chocon người Giờ đây ta có thể tìm bất cứ thông tin gì trên Internet chỉ bằng vài từkhóa Song song với những thuận lợi chúng ta cũng phải đối mặt với nhiều tháchthức, một trong những thách thức đó là vấn đề virus, tấn công, xâm nhập
Kỹ thuật phát hiện tấn công, xâm nhập ngày càng được chú trọng phát triển,với phương pháp truyền thống là dựa vào mẫu tấn công, xâm nhập đã biết Phươngpháp này cho thấy có nhiều hạn chế khi mà các cuộc tấn công mới xuất hiện mỗingày một nhiều
Luận văn được phát triển tiếp theo những thành công, cũng như hạn chế củanhững đề tài [5], [6], [11], [12] trước đó, với kỹ thuật phát hiện tấn công, xâm nhậpdựa vào khai thác dữ liệu (data mining) Phương pháp này có khả năng phát hiện tấncông, xâm nhập, virus dạng hướng thời gian, diễn ra nhanh và khá chính xác màkhông cần mẫu tấn công đã biết Chúng không loại trừ phương pháp nhận dạng tấncông dựa vào mẫu tấn công đã biết truyền thống, mà chỉ thêm vào một kênh hữu íchcho người quản trị mạng biết được những tấn công, bất thường đang diễn ra trên hệthống mạng của mình
Luận văn đã xây dựng và triển khai thực nghiệm với những phần như bắt gói
dữ liệu trên mạng, xây dựng và gán trọng số cho các đặc trưng, huấn luyện dữ liệu,
dò tìm tấn công offline và online
Với những thành công trên và mặc dù đã rất cố gắng thì luận văn cũng cònnhiều hạn chế do nhiều yếu tố như thời gian, kỹ thuật,… Hy vọng trong thời giantới tôi có nhiều điều kiện để tiếp tục phát triển luận văn này Rất mong sự góp ý củaQuý Thầy Cô, đồng nghiệp, các anh/chị và các bạn hữu
Trang 11CHƯƠNG 1: TỔNG QUAN1.1 Giới thiệu
Với sự phát triển nhanh chóng của hệ thống mạng toàn cầu, đến tháng07/2007 đã có hơn 480 triệu host trên Internet (hình 1.1) [W1]; nhiều công cụhướng dẫn tấn công, xâm nhập hệ thống có sẵn trên Internet và dễ sử dụng hơn; sâumáy tính, virus, spyware, Trojan horse,… với tốc độ xuất hiện mới rất nhanh(hình 1.2) [9]; Những vấn đề trên làm cho an toàn hệ thống mạng được quan tâmhơn bao giờ hết Trong đó, phát hiện tấn công, xâm nhập được chú trọng nghiên cứunhiều nhất từ các nhà khoa học, an ninh mạng, điển hình là Hội nghị quốc tế RAID(Recent Advances in Intrusion Detection) về phát hiện tấn công, xâm nhập mỗi năm
tổ chức đều đặn, và lần thứ 10 diễn ra tại Queensland, Australia vào tháng 09-2007[W2] (lần 9 tại Hamburg, Germany, ngày 20 đến 22/09/2006)
Hình 1.1 Tình hình phát triển số lượng máy tính trên Internet.
Trang 12Hình 1.2 Malware mới xuất hiện mỗi tháng trong năm 2006.
Tại Việt Nam đã có những đề tài nghiên cứu tấn công thử nghiệm, và giúpcác doanh nghiệp được bảo mật hơn [1], [2] Các nghiên cứu này cho thấy bảo mật,phòng chống tấn công, xâm nhập ở Việt Nam chưa cao Vì vậy, bảo mật hệ thốngmáy tính ở Việt Nam cần được quan tâm nhiều hơn Những hệ thống bảo mật nênthiết kế triển khai làm nhiều tầng lớp hỗ trợ cho nhau, trong đó các hệ thống pháthiện tấn công, xâm nhập trái phép (IDS) nên được xây dựng để bảo vệ tính toànvẹn, sẵn sàng, và bảo mật cho hệ thống mạng
1.2 Mục tiêu nghiên cứu của luận văn
Luận văn tập trung nghiên cứu và xây dựng một ứng dụng với phương pháptiếp cận là phát hiện tấn công bằng phân tích và nhận biết những hoạt động bấtthường trên mạng ứng dụng bản đồ tự tổ chức (SOM) Phương pháp này có khảnăng nhận dạng tấn công hướng thời gian, diễn ra nhanh mà không dựa vào các mẫutấn công đã biết như phương pháp truyền thống
Trang 131.3 Giới thiệu các chương mục của luận văn
Chương 1: Tổng quan
Giới thiệu tổng quan về bối cảnh lựa chọn đề tài, mục tiêu nghiên cứu vànhững đóng góp của luận văn
Chương 2: Cơ sở lý thuyết tấn công và phát hiện tấn công trên mạng
Chương 2 trình bày các loại và phương pháp phát hiện tấn công, xâm nhập,trong đó sẽ đi sâu vào giới thiệu những điểm mạnh, hạn chế và kỹ thuật phát hiệntấn công, xâm nhập dựa vào học giám sát và học không giám sát trong khai thác dữliệu Thiết kế các vị trí đặt hệ thống phát hiện tấn công, xâm nhập Đồng thờichương này cũng trình bày các kỹ thuật tấn công, xâm nhập
Chương 3: Xây dựng đặc trưng trên mạng
Chương 3 giới thiệu và đánh giá phương pháp xây dựng đặc trưng từ WenkeLee, Salvatore J Stolfo [11] Đề xuất bộ đặc trưng mới phù hợp với việc nhận dạngtấn công theo thời gian thực Xây dựng cũng như chuẩn hóa các đặc trưng này.Chương này còn đề xuất phương pháp gán trọng số cho các đặc trưng để giảm tỷ lệcảnh báo sai
Chương 4: Bản đồ tự tổ chức
Vì luận văn ứng dụng bản đồ tự tổ chức (SOM) nên chương này sẽ trình bàythuật toán SOM, các hàm tốc độ học, hàm lân cận, biểu diễn trực quan trên SOM
Và trình bày phương pháp phát hiện tấn công ứng dụng SOM
Chương 5: Thiết kế và cài đặt chương trình
Chương này thiết kế và cài đặt chương trình phát hiện tấn công, xâm nhậphướng thời gian, diễn ra nhanh trên mạng theo thời gian thực Đề xuất việc xây
Trang 14dựng các phân hệ chương trình như bắt gói dữ liệu, xây dựng đặc trưng, chuẩn hóa,huấn luyện SOM, dò tìm tấn công,…
Chương 6: Thực nghiệm và đánh giá
Đưa ứng dụng vào thực nghiệm và đánh giá kết quả phát hiện tấn công, xâmnhập hướng thời gian, diễn ra nhanh với một số cuộc tấn công thử nghiệm Trìnhbày phương pháp tìm ngưỡng cảnh báo phù hợp để cân bằng giữa tỷ lệ cảnh báo sai
và bỏ sót cảnh báo khi có tấn công Ứng dụng ngưỡng cảnh báo đề xuất vào thựcnghiệm
Chương 7: Kết luận và hướng phát triển
1.4 Những đóng góp của luận văn
- Cải tiến bộ đặc trưng của Wenke Lee, Salvatore J Stolfo [11] đề xuất, để mô
hình hệ thống mạng tốt hơn, và có khả năng nhận dạng tấn công theo thờigian thực
- Đưa ra phương pháp, thuật toán xây dựng, gán trọng số các đặc trưng để
giảm tỷ lệ cảnh báo sai Luận văn cũng đã khắc phục được hạn chế từphương pháp phát hiện tấn công do Aykut Oksuz [5] đề xuất
- Đưa ra phương pháp để tìm ngưỡng cảnh báo phù hợp và ứng dụng ngưỡng
này vào thực nghiệm
- Cài đặt khá hoàn chỉnh chương trình phát hiện tấn công bằng ngôn ngữ C# từ
bắt gói dữ liệu mạng, tạo vectơ đặc trưng, chuẩn hóa dữ liệu, huấn luyện bản
đồ tự tổ chức (SOM), vẽ bản đồ, cho tới khâu dò tìm tấn công theo thời gianthực trên mạng
- Tổng hợp, phân tích, đánh giá các phương pháp phát hiện tấn công và các kỹ
thuật tấn công trên mạng
Trang 15CHƯƠNG 2: CƠ SỞ LÝ THUYẾT TẤN CÔNG VÀ PHÁT
HIỆN TẤN CÔNG TRÊN MẠNG
Chương 2 trình bày các loại và phương pháp phát hiện tấn công, xâm nhập,trong đó đi sâu vào giới thiệu những điểm mạnh, hạn chế của kỹ thuật phát hiện tấncông, xâm nhập dựa vào học giám sát và học không giám sát trong khai thác dữliệu Đồng thời chương này cũng trình bày các kỹ thuật tấn công, xâm nhập
Ghi chú: trong chương này và các chương sau để đơn giản ta gọi “hệ thống
phát hiện tấn công, xâm nhập” là IDS
2.1 Các loại IDS
Tùy vào việc quan sát và nơi đặt IDS mà hình thành nên những loại IDSkhác nhau:
- IDS đặt tại máy tính bằng việc quan sát các tập tin log, system calls,
sử dụng CPU, bộ nhớ, ổ cứng, được gọi là Host-based IDS.
Ưu điểm: quan sát được những gì đang thực sự diễn ra trên máytính
Hạn chế: không biết được trạng thái hoạt động của toàn mạng.Cũng như nếu quan sát dựa vào log file thì không thể phát hiện xâmnhập theo thời gian thực
- IDS đặt tại một đoạn mạng và quan sát các gói dữ liệu mạng, các kết
nối mạng,… thì được gọi là Network-based IDS
Ưu điểm: quan sát được những trao đổi, các kết nối mạng,…
Trang 16 Hạn chế: khó quan sát được nội dung các gói dữ liệu mạng đãđược mã hóa, đồng thời cũng không thể biết được những gì đang diễn
ra tại các máy tính trong mạng
Dưới đây là sơ đồ thiết kế vị trí đặt IDS:
Hình 2.3 Sơ đồ tổng thể vị trí đặt IDS.
Tùy theo phương pháp phát hiện tấn công, xâm nhập mà có thể phân hai loạiHost-based IDS và Network-based IDS ra những loại nhỏ hơn Phương pháp truyền
Trang 17thống về phát hiện tấn công, xâm nhập dựa trên việc lưu lại các mẫu đã biết của cáccuộc tấn công, chúng so sánh các đặc trưng kết nối mạng với mẫu tấn công để pháthiện ra tấn công, xâm nhập Phương pháp này gọi là Signature-Based IDS Một ứngdụng mã nguồn mở nổi tiếng về IDS dạng này là Snort (tham khảo tại tranghttp://www.snort.org/)
Signature-Based IDS có ưu điểm và hạn chế sau:
Ưu điểm: nhận biết khá chính xác các loại tấn công, xâm nhập đãbiết được chữ ký (signature)
Hạn chế: không thể phát hiện được các tấn công, xâm nhập chưa
biết được chữ ký Thậm chí nếu mẫu mới về tấn công được phát hiện,thì những mẫu này phải được cập nhật bằng tay vào hệ thống
Do hạn chế của phương pháp phát hiện tấn công, xâm nhập dựa trênsignature, phương pháp dựa trên kỹ thuật khai thác dữ liệu (data mining) đã đượcnghiên cứu phát triển
Trang 18Hình 2.4 Vai trò của Network IDP (Intrusion Detection and Prevention) trong mô hình
phòng thủ sáu lớp.
Một hệ thống mạng muốn an toàn, bảo mật cần phải được bảo vệ bằng nhiềutầng lớp, trong đó hệ thống phát hiện tấn công, xâm nhập đóng một vai trò rất quantrọng
2.2 Ứng dụng khai thác dữ liệu để phát hiện tấn công, xâm nhập
Có thể phát hiện tấn công, xâm nhập dựa vào tập dữ liệu huấn luyện được
gán nhãn, dạng này gọi là misuse detection Và học từ tập dữ liệu huấn luyện được
gán nhãn gọi là học giám sát (học có Thầy, có chuyên gia)
Hoặc phát hiện tấn công dựa vào gom nhóm tập dữ liệu bình thường không
gán nhãn, phương pháp này gọi là anomaly detection Và việc học từ tập dữ liệu
không gán nhãn gọi là học không giám sát
Hình 2.5 Sự khác nhau giữa Misuse Detection và Anomaly Detection.
Trang 19Hình 2.6 Quy trình phát hiện xâm nhập mạng dựa vào tập dữ liệu gán nhãn.
Ưu điểm và hạn chế của Misuse IDS:
Trang 20 Ưu điểm: phân loại khá chính xác những loại tấn công, xâm nhập đã cótrong tập dữ liệu huấn luyện.
Hạn chế: không thể phát hiện xâm nhập nếu chúng chưa xảy ra trongtập dữ liệu huấn luyện Và khi tập dữ liệu huấn luyện lớn thì việc gánnhãn là một công việc rất khó khăn
2.2.2 Anomaly-Based IDS
Kỹ thuật phát hiện được xây dựng dựa trên các mẫu bình thường thông qua
việc học không giám sát Kỹ thuật này có khả năng phát hiện ra các tấn công, xâmnhập, virus hướng thời gian mới, và có tên gọi là hệ thống phát hiện tấn công, xâm
nhập dựa vào bất thường (Anomaly-Based IDS) Trong quá trình dò tìm tấn công
với kỹ thuật Anomaly-Based IDS các mẫu dữ liệu được so sánh với các mẫu bình
thường đã được học trước đó, nếu vượt quá một ngưỡng cho trước thì mẫu này xem
Trang 21Hình 2.7 Quy trình phát hiện xâm nhập dựa vào tập dữ liệu không gán nhãn.
Ưu điểm và hạn chế của Anomaly-Based IDS:
Ưu điểm: tập dữ liệu huấn luyện không cần gán nhãn Có khả năngnhận biết các dạng tấn công, xâm nhập chưa biết
Hạn chế: những lúc trạng thái mạng bất thường nhưng chưa hẳn là đang
bị tấn công Nhưng cảnh báo ở những trường hợp này cho người quảntrị mạng biết cũng rất tốt Tuy nhiên, một hạn chế nữa của phương phápnày khi hệ thống mạng bình thường, nhưng những tình huống bìnhthường này chưa được học trong quá trình huấn luyện sẽ dẫn đến cảnhbáo sai
Mặc dù phương pháp anomaly-based IDS có hạn chế, nhưng chính phươngpháp này giải quyết được hạn chế của phương pháp học giám sát là sử dụng tập dữliệu huấn luyện không cần gán nhãn Và cũng giải quyết được hạn chế của việc dòtìm xâm nhập dựa vào mẫu xâm nhập đã biết là có khả năng nhận dạng tấn côngmới Vì trên thực tế, khi mà hệ thống mạng phát triển nhanh và ngày càng nhiều các
kỹ thuật tấn công, xâm nhập, sâu máy tính, virus,… mới, thì rất khó để có được một
Trang 22tập dữ liệu được gán nhãn đủ lớn để mô tả các kết nối mạng bình thường và tấncông, xâm nhập.
2.3 Hành động của IDS
Sau khi các hệ IDS đã phát hiện ra tấn công, xâm nhập thì có một trong haihành động sau đây:
- Gởi tín hiệu đến firewall để ngăn chặn tấn công, hoặc gởi tín hiệu đến switch
để chuyển port nơi phát sinh ra tấn công vào VLAN riêng để xử lý Trườnghợp này gọi là hệ thống phát hiện và ngăn chặn xâm nhập
- Chỉ đưa ra cảnh báo cho người quản trị mạng xử lý
2.4 Kỹ thuật tấn công, xâm nhập
Có rất nhiều kỹ thuật để tấn công vào hệ thống mạng như: Trojans,backdoor, sniffers, exploits, buffer overflows, SQL injection, Deny of Service(DoS),… Theo [8] hầu hết các công cụ xâm nhập thường khai thác các điểm yếu từcác nơi sau:
- Hệ điều hành: Nhiều người quản trị mạng cài đặt hệ điều hành cấu hình mặc
định và không cập nhật các bản vá lỗi Rất nhiều lỗ hổng tiềm tàng ở đây
- Ứng dụng: rất khó khăn để kiểm tra hết các điểm yếu bảo mật của các ứng
dụng Có nhiều cách để khai thác tấn công các lỗi bảo mật ứng dụng
- Tính năng nâng cao chương trình: Nhiều chương trình có nhiều tính năng
nâng cao mà người dùng ít sử dụng tới Đây cũng là nơi dễ lợi dụng để khaithác tấn công Ví dụ: Macro trong Microsoft Word, Excel là nơi có thể chứacác đoạn mã độc hại
- Cấu hình sai: hệ thống có thể bị cấu hình sai, hay cấu hình ở mức bảo mật
thấp nhất nhằm tăng tính dễ sử dụng cho người dùng
Trang 23Mục đích kẻ tấn công là làm sao để khai thác một trong bốn đặc tính về bảomật:
- Active attack: thay đổi hệ thống, mạng khi tấn công làm ảnh hưởng đến tính
toàn vẹn, sẵn sàng, và xác thực của dữ liệu
- Passive attack: cố gắng thu thập thông tin từ hệ thống, mạng làm phá vỡ tính
bí mật dữ liệu
Dựa vào nguồn gốc tấn công có thể phân loại tấn công làm 2 loại: tấn công
từ bên trong, và tấn công từ bên ngoài:
- Tấn công từ bên trong: thường người tấn công ở ngay trong hệ thống mạng
Người sử dụng muốn truy cập, lấy thông tin nhiều hơn quyền cho phép
- Tấn công từ bên ngoài: tấn công từ bên ngoài Internet hay các kết nối truy
cập từ xa
Có 5 pha (phase) tấn công, xâm nhập mà các kẻ tấn công thường dùng:
Trang 24Hình 2.8 Năm pha tấn công, xâm nhập.
Pha 1: Khảo sát thu thập thông tin
Thu thập thông tin về nơi cần tấn công như phát hiện các host, địa chỉ IP, cácdịch vụ mạng
Pha 2: Dò tìm
Sử dụng các thông tin thu thập được từ pha 1 để sử dụng tìm kiếm thêmthông tin lỗ hổng, điểm yếu của hệ thống mạng Các công cụ thường được sử dụngcho quá trình này là: các công cụ dùng quét cổng, quét dãy địa chỉ IP, dò tìm lỗhổng,…
Khảo sát thu thập thông tin
Trang 25Pha 3: Xâm nhập
Các lỗ hổng, điểm yếu được dò tìm trong 2 pha trên được sử dụng khai thác
để xâm nhập vào hệ thống Ở pha này kẻ tấn công có thể dùng các kỹ thuật như:tràn vùng đệm dựa trên stack, từ chối dịch vụ (DoS – Denial of Service) và bắt cócphiên làm việc (session hijacking)
Pha 4: Duy trì xâm nhập
Một khi kẻ tấn công đã xâm nhập được vào hệ thống, bước tiếp theo là làmsao để duy trì các xâm nhập này để có thể khai thác và xâm nhập tiếp trong tươnglai Một vài kỹ thuật như backdoors, Trojans Một khi kẻ tấn công đã làm chủ hệthống chúng có thể sử dụng hệ thống để tấn công vào hệ thống khác, trường hợp
này hệ thống bị lợi dụng gọi là: zombie system.
Pha 5: Che đậy, xóa dấu vết
Một khi kẻ tấn công đã xâm nhập và cố gắng duy trì xâm nhập Bước tiếptheo là phải làm sao xóa hết dấu vết để không còn chứng cứ pháp lý xâm nhập Kẻtấn công phải xóa các tập tin log, xóa các cảnh báo từ hệ thống phát hiện xâm nhập
Pha 2 (dò tìm) và pha 3 (xâm nhập) kẻ tấn công thường làm lưu lượng, kếtnối mạng thay đổi khác với lúc mạng bình thường rất nhiều Nếu phân tích kỹ cácbất thường này để rút trích ra các đặc trưng hữu ích của mạng có thể từ đó phântích, phát hiện các xâm nhập như: quét cổng, quét dãy địa chỉ IP, tấn công từ chốidịch vụ (DoS),…
Hầu hết các cuộc tấn công đều tiến hành tuần tự 5 pha trên Làm sao để nhậnbiết tấn công, xâm nhập ngay từ hai pha đầu tiên (khảo sát thông tin và dò tìm thôngtin) là hết sức quan trọng, vì sẽ hạn chế tấn công, xâm nhập ở những pha tiếp theo.Ngay tại pha thứ 3 là xâm nhập, pha này không dễ dàng đối với kẻ tấn công Dovậy, khi không thể xâm nhập được vào hệ thống, để phá hoại có nhiều khả năng kẻ
Trang 26tấn công sẽ sử dụng tấn công từ chối dịch vụ để ngăn cản không cho các người dùnghợp lệ truy xuất tài nguyên phục vụ công việc.
Khảo sát thông tin, dò tìm thông tin, tấn công từ chối dịch vụ, cũng nhưvirus,… thông thường có tính chất hướng thời gian và có thể sử dụng phương phápkhai thác dữ liệu để nhận dạng chúng Trong các phần sau sẽ trình bày ứng dụngSOM để nhận dạng một cách hiệu quả, theo thời gian thực những dạng tấn côngnày
2.5 Phân loại tấn công
Theo [7] có thể phân tấn công, xâm nhập thành 5 nhóm sau đây:
2.5.1 U2R (User to Root)
Người tấn công sử dụng tài khoản người dùng bình thường để truy cập vào
hệ thống và tìm cách nâng quyền của mình lên cao hơn Tài khoản có thể kẻ tấncông có được bằng sniff mật khẩu, dùng dictionary attack, hay social engineering.Các tấn công phổ biến của dạng này là buffer overflow, loadmodule,…
2.5.2 R2L (Remote to Local)
Là trường hợp người tấn công có khả năng gởi gói dữ liệu mạng đến hệthống từ xa nhưng không có tài khoản truy cập vào hệ thống này Và cố gắng đểtruy cập vào hệ thống bằng việc khai thác lỗ hổng, đoán tài khoản và mật khẩu,…Một số tấn công ở dạng này là dictionary, sendmail,…
2.5.3 DoS (Land, SYN flood, mailbomb, smurf, teardrop,…)
Gồm DoS và DDoS:
Tấn công dùng tài nguyên hệ thống làm hệ thống không đáp ứng được yêu cầu người dùng hợp lệ
Trang 27Dạng tấn công này có thể tấn công trên các máy chủ, ứng dụng, hay toàn bộ
hệ thống mạng
Tấn công từ chối dịch vụ có thể phân làm 2 loại:
- DoS đơn giản: tấn công từ một hệ thống đến một hệ thống
- Distributed DoS (DDoS): tấn công từ nhiều hệ thống đến một hệ thống
Phương pháp tấn công DoS:
- Làm tắt nghẽn mạng với lưu lượng gởi đến mạng rất lớn, vì vậy ngăn không
cho các lưu lượng hợp lệ truyền đi trên mạng
- Ngăn các kết nối giữa 2 thiết bị, dẫn đến ngăn chặn truy cập đến dịch vụ
- Ngăn chặn một máy tính, thiết bị cụ thể nào đó không truy cập được một
dịch vụ
- Ngăn dịch vụ cung cấp cho một hệ thống hay một máy tính cụ thể hợp lệ
Có nhiều tấn công DoS được giới thiệu trong [1], [8] như: SYN Flooding,smurf, fraggle, Land, teardrop,…
Như vậy, qua khảo sát điển hình tấn công DoS và dò tìm, ta thấy lưu lượng,kết nối mạng với một số đặc trưng như băng thông, số lượng kết nối đến một hosttăng vọt,… khác lúc bình thường rất nhiều Đây cũng là một cơ sở để lựa chọn đặctrưng phù hợp để phát hiện tấn công, xâm nhập hướng thời gian trên mạng
2.5.4 Probes
Là loại tấn công dò tìm thông tin trên mạng
Dò tìm thông tin có thể chia làm 3 loại sau:
Trang 28- Dò tìm cổng: xác định cổng và dịch vụ nào đang mở Một số cổng thường
ứng với các dịch vụ: FPT (21), Telnet (23), HTTP (80), SMTP (25), POP3(110), HTTPS (443)
- Dò tìm mạng: xác định dãy IP của mạng
- Dò tìm điểm yếu: Dò các điểm yếu của hệ thống
Dưới đây là một số dạng dò tìm phổ biến:
- SYN Scan: dạng quét này không hoàn thành bắt tay 3 bước trong TCP
(TCP/IP three-way handshake) (Hình 2.7) Kẻ tấn công gởi gói SYN đếnmáy cần thăm dò, nếu nhận phản hồi bằng gói SYN/ACK là có thể đoáncổng đang mở, nếu nhận gói RST có thể là cổng không mở
Hình 2.9 Quy trình bắt tay 3 bước.
- XMAS: gởi gói dữ liệu với gói FIN, URG, PSH Nếu port mở thì không có
trả lời, nhưng nếu cổng đóng thì máy bị quét sẽ trả lời bằng gói RST/ACK
Trang 29XMAS không hoạt động được đối với Windows vì được cấu hình theo RFC
793 của TCP/IP
- FIN: tương tự như XMAS nhưng chỉ cờ FIN được bật lên
Phần mềm nổi tiếng về dò tìm thông tin là NMAP (“Network Mapper”)(tham khảo tại trang http://insecure.org/nmap/ )
Loại IDS dựa vào chữ ký tấn công được dùng rộng rãi từ lâu và vẫn đangđược phát triển Những năm gần đây, IDS dựa vào bất thường đã được nghiên cứu,thử nghiệm, cho thấy có khả năng phát hiện được các dạng tấn công mới, góp phầntăng cường khả năng nhận biết tấn công trong mô hình phòng thủ mạng nhiều tầng
Qua khảo sát các cuộc tấn công cho thấy nhiều cuộc tấn công làm lưu lượngmạng thay đổi nhiều, đây cũng là cơ sở để xây dựng các đặc trưng trong chương 3tiếp theo
Trang 30CHƯƠNG 3: XÂY DỰNG ĐẶC TRƯNG TRÊN MẠNG
Chương 3 trình bày phương pháp xây dựng những đặc trưng, cũng như chuẩnhóa, gán trọng số các đặc trưng này
Với bản luận văn, chương này hết sức quan trọng, chính là cơ sở để tập hợp
dữ liệu đầu vào cho SOM
3.1 Xây dựng đặc trưng
Sau khi đã bắt được các gói dữ liệu trên mạng, các gói dữ liệu này có rấtnhiều thuộc tính, làm sao có thể rút trích ra những đặc trưng đại diện cho thông tinkết nối mạng, để từ đó mô hình được hệ thống mạng ở tình trạng bình thường hayđang có những xâm nhập, tấn công
Rút trích các đặc trưng và chuẩn hóa các đặc trưng của kết nối mạng để làmđầu vào các thuật toán khai thác dữ liệu là phần hết sức quan trọng Nếu các đặctrưng được rút trích hay chuẩn hóa không tốt thì dùng thuật toán gì cũng không chokết quả tốt được
Wenke Lee, Salvatore J Stolfo [11], Wenke Lee [12] ứng dụng luật kết hợp(Association Rules) và chuỗi phổ biến (Frequent Episodes) để khám phá ra tri thứcnhằm nhận dạng tấn công Đối với hệ thống mạng đối tượng cần bảo vệ là máy chủ(host), dịch vụ (service),… nên Wenke Lee, Salvatore J Stolfo khi ứng dụng luậtkết hợp và chuỗi phổ biến chỉ quan tâm đến những đối tượng này gọi là các đặctrưng tham chiếu (reference features), các đặc trưng khác phải kết hợp với nhữngđặc trưng tham chiếu này để tìm ra chuỗi phổ biến Từ chuỗi phổ biến mà WenkeLee, Salvatore J Stolfo đạt được tri thức khám phá các mẫu tấn công, xâm nhập.Đối với mỗi mẫu tấn công, xâm nhập được sử dụng như là các hướng dẫn để xây
Trang 31dựng thêm các đặc trưng khác Ta có thể ứng dụng khai thác dữ liệu trên những đặctrưng này để phân lớp, gom nhóm tốt hơn.
Dưới đây là bảng các đặc trưng do Wenke Lee, Salvatore J Stolfo [11] đề xuất:
duration Thời gian của kết nối
protocol Giao thức như tcp, udp,…
service Dịch vụ mạng trên destination như http, telnet, smtp,… flag trạng thái bình thường hay lỗi của kết nối
sourcebytes số bytes từ source đến destination host
destbytes số bytes từ destination đến source host
Land 1 nếu kết nối cùng host/port; 0 ngược lại
fragment số fragment bị lỗi
urgent số gói dữ liệu urgent
Bảng 3.1 Các đặc trưng của kết nối TCP.
Count Số lượng kết nối đến cùng host như kết nối đang xét trong
khoảng thời gian 2 giây vừa qua
SYNErrorRate % số kết nối có SYN bị lỗi
REJErrorRate % số kết nối có REJ bị lỗi
SameSrvRate % số kết nối có cùng service
DiffSrvRate % số kết nối đến những service khác nhau
SrvCount Số lượng kết nối đến cùng dịch vụ như kết nối đang xét
trong khoảng thời gian 2 giây vừa qua
Những đặc trưng (features) bên dưới liên quan đến các kếtnối có cùng dịch vụ như kết nối đang xét
Trang 32SrvSYNErrorRate % số kết nối có SYN bị lỗi.
SrvREJErrorRate % số kết nối có REJ bị lỗi
SrvDiffHostRate % số kết nối đến những host khác nhau
Bảng 3.2 Đặc trưng lưu lượng mạng được xây dựng trong khoảng 2 giây.
Ngoài ra, Wenke Lee, Salvatore J Stolfo [11] còn đưa các đặc trưng thuộc
về phiên làm việc của kết nối Các đặc trưng này chỉ phù hợp phân tích offline
Ta đặt:
- TN (True Negative): trường hợp mạng bình thường và IDS không cảnh báo
- TP (True Positive): trường hợp mạng bị tấn công và IDS có cảnh báo
- FN (False Negative): trường hợp mạng bị tấn công nhưng IDS không cảnh
John Zhong Lei, Ali Ghorbani [6] dựa trên việc xây dựng các đặc trưng từbảng 3.1, bảng 3.2 và các đặc trưng thuộc phiên làm việc, sau đó dùng bản đồ tự tổchức (SOM) để phân lớp trên tập dữ liệu KDD-CUP 99 [W3] với 4,898,431 kết nốimạng mô phỏng hệ thống mạng của Không Quân Mỹ với nhiều loại tấn công khác
Trang 33nhau do MIT Lincoln Lab mô phỏng, phân lớp khá chính xác dữ liệu bình thường
và dữ liệu tấn công với accuracy, recall, precision hơn 97% [6] Tuy nhiên, đây chỉ
là thử nghiệm trên tập dữ liệu offline và trong thực tế những cuộc tấn công, xâmnhập, virus với tốc độ xuất hiện mới rất nhanh, nên không thể có được một tập dữliệu gán nhãn đầy đủ Vì vậy phương pháp này không hiệu quả khi ứng dụng thực tế
để nhận dạng tấn công theo thời gian thực nhưng chính nó là thử nghiệm quan trọngcho thấy sự khác nhau giữa dữ liệu mạng bình thường và khi có tấn công
Vào tháng 02/2007, Aykut Oksuz [5] trong đề tài của mình cũng sử dụng cácđặc trưng trên bảng 3.1 và bảng 3.2 để phát hiện tấn công theo thời gian thực,nhưng khi thử nghiệm cho kết quả không chính xác Aykut Oksuz [5] dùng chươngtrình mã nguồn mỡ IDSnet để phát triển thêm phân hệ xây dựng các đặc trưng vàphát triển phân hệ bản đồ tự tổ chức SOM với cách tiến hành thử nghiệm như sau:
- Dùng phần mềm Nsasoft Network Security Auditor để tạo ra các
lưu lượng mạng đến ứng dụng IDSnet
- Lưu chúng vào một tập tin với khoảng 10,000 gói dữ liệu để sử
dụng cho quá trình huấn luyện SOM
- Sau đó cũng tạo ra lưu lượng mạng bình thường kết hợp với traffic
tấn công dò tìm thông tin được tạo ra từ phần mềm NMAP bằng cách quét tất
cả các cổng (port) trên máy đích cài chương trình IDSnet
- Huấn luyện SOM với bản đồ 10 dòng và 10 cột với dữ liệu khoảng
10,000 gói IP bình thường Trọng số ban đầu được gán từ [0, 100]
- Sau khi bản đồ SOM được hình thành, các nơron trên bản đồ SOM
có chứa mẫu dữ liệu học ánh xạ vào thì Aykut Oksuz xem là những nơronbình thường, ngược lại những nơron không chứa mẫu dữ liệu học nào thìđược xem như là nơron bất thường đại diện cho các mẫu tấn công
- Cho khoảng 1,500 gói dữ liệu tấn công dò tìm thông tin cổng được
tạo ra từ phần mềm NMAP để kiểm tra, nhưng chỉ có 28 gói dữ liệu là rơivào các nơron bất thường, còn lại đều ánh xạ vào các nơron bình thường
Trang 34Điều này chứng tỏ rằng phương pháp dò tìm tấn công do Aykut Oksuz [5]đưa ra đã có kết quả không tốt Aykut Oksuz cho rằng kết quả thử nghiệm không tốt
do 2 nguyên nhân sau:
- Ứng dụng phân hệ xây dựng đặc trưng và bản đồ tự tổ chức
(SOM) được phát triển từ một sản phẩm mã nguồn mở IDSnet nên không thểkiểm soát được thuật toán xây dựng đặc trưng và bản đồ tự tổ chức có chạyđúng đắn không
- Các đặc trưng được sử dụng từ Wenke Lee, Salvatore J Stolfo
[11] không đủ để mô hình hệ thống ở trạng thái bình thường và khi bị tấncông, xâm nhập Cần thêm những đặc trưng mới
Ngoài hai nguyên nhân do chính tác giả dự đoán tại sao thử nghiệm chưathành công, còn một khả năng nữa là phương pháp phát hiện tấn công do tác giả đềxuất với mẫu dữ liệu mới đưa vào nếu gần nơron bình thường thì mẫu dữ liệu này làbình thường, ngược lại là tấn công Nhưng một mẫu dữ liệu rất xa vectơ trọng sốcủa nơron bình thường, nhưng nơron này vẫn có thể là nơron chiến thắng Và mộttrường hợp nữa khi huấn luyện bản đồ SOM nếu tất cả nơron đều có mẫu học ánh
xạ vào thì phương pháp này không thể ứng dụng được Khi đó các nơron đều đạidiện cho dữ liệu bình thường, mà không có một nơron nào đại diện cho lớp tấncông
Trang 35Hình 3.10 Khoảng cách mẫu C so với vectơ trọng số A của nơron có dữ liệu học ánh
xạ và vectơ B của nơron không có dữ liệu học ánh xạ vào.
Hình 3.1 ở trên, minh họa trường hợp mẫu dữ liệu tấn công C không đượccảnh báo do nơron chiến thắng là nơron có vectơ trọng số là A vì d1 < d2 Với d1 làkhoảng cách từ mẫu C đến vectơ trọng số A và d2 là khoảng cách từ mẫu C đếnvectơ trọng số B
Trong luận văn này đã khắc phục được phần nào cả 3 nguyên nhân dẫn đếnthử nghiệm không thành công ở trên, đó là:
- Chương trình được cài đặt mới bằng ngôn ngữ C# từ khâu bắt gói
dữ liệu, xây dựng đặc trưng, chuẩn hóa và gán trọng số dữ liệu, huấn luyện
Trang 36bản đồ SOM, cho đến dò tìm tấn công online và offline,… nên hoàn toàn cóthể kiểm soát được thuật toán, mã nguồn.
- Thêm vào một số đặc trưng như: chủ thể là nguồn (source),… để
mô hình hệ thống mạng chính xác hơn Ngoài ra loại bỏ những đặc trưng ảnhhưởng đến việc nhận dạng tấn công theo thời gian thực trên mạng và nhữngđặc trưng không cần thiết
- Các đặc trưng được gán trọng số phù hợp để hạn chế tình trạng
cảnh báo sai
- Đưa ra một phương pháp dò tìm mới đó là: sau khi bản đồ SOM
được huấn luyện các nơron không có mẫu dữ liệu học nào ánh xạ vào sẽđược loại bỏ Dựa vào các nơron còn lại sẽ tìm ra vectơ trọng số của nơron
có đặc trưng trung bình với chỉ số cao nhất để phục vụ cho việc phát hiện tấncông, virus hướng thời gian Bản đồ sẽ được xây dựng theo từng ngày phục
vụ việc dò tìm tấn công được chính xác hơn
Với việc khắc phục cả 3 nguyên nhân trên, thử nghiệm cho thấy có khả năngphát hiện tấn công, virus hướng thời gian, diễn ra nhanh và khá chính xác
3.2 Cải tiến xây dựng đặc trưng
Các đặc trưng do Wenke Lee, Salvatore J Stolfo [11] đề xuất được xây dựngdựa trên tập dữ liệu offline bằng cách sắp xếp các đặc trưng này theo từng kết nối
và theo thời gian, nên một số đặc trưng không thích hợp cho việc dò tìm tấn côngtheo thời gian thực Các đặc trưng đó là:
- Duration: một kết nối có thể diễn ra nhiều giờ liền, do vậy nếu để
kết nối kết thúc xong mới phát hiện tấn công thì không có nhiều ý nghĩa vìnhư vậy người quản trị sẽ không có được biện pháp xử lý kịp thời
- Sourcebytes: tổng số lượng bytes gửi từ địa chỉ nguồn (Source
IP) đến địa chỉ đích (Destination IP) trong kết nối Tương tự như đặc trưng
Trang 37duration ở trên ta không thể chờ kết nối kết thúc để hình thành nên đặc trưngnày phục vụ cho việc dò tìm tấn công được.
- Destbytes: tổng số lượng bytes gửi từ địa chỉ đích đến địa chỉ
nguồn Tương tự như Sourcebytes, đặc trưng này cũng không phù hợp choviệc dò tìm tấn công theo thời gian thực
Ngoài ba đặc trưng trên không phù hợp cho việc nhận dạng tấn công theothời gian thực, còn có một số đặc trưng cũng không cần thiết như:
- Land: kết nối có địa chỉ nguồn và địa chỉ đích giống nhau thì đánh
dấu là 1, ngược lại đánh dấu là 0 Kết nối này nhằm mục đích dò tìm tấncông Land, đây là một dạng tấn công DoS vì khi một thiết bị nhận được mộtgói dữ liệu có IP nguồn và IP đích bằng nhau có khả năng bị treo máy Tuynhiên, lỗi này các thiết bị gần như đã khắc phục và không bị ảnh hưởng Ta
có thể đưa ra luật dễ dàng để nhận dạng tấn công dạng này Do vậy, khôngcần hình thành nên đặc trưng land
- Protocol: vì tính chất của giao thức TCP, UDP, và ICMP là khác
nhau nên nhiều đặc trưng hình thành cho giao thức TCP không dùng đượccho giao thức UDP Như vậy giao thức TCP và UDP nên tách ra riêng Vàgiao thức ICMP người tấn công có thể sử dụng để quét IP, hay tấn côngSmurf, hoàn toàn có thể đưa luật chuyên gia vào để nhận dạng
- Flag: tình trạng kết nối bình thường hay lỗi Bản thân các đặc
trưng lỗi REJ, lỗi SYN đã cho biết trạng thái của kết nối
Trong bảng 3.2, các đặc trưng được xây dựng trong khoảng 2 giây do WenkeLee, Salvatore J Stolfo đề xuất ở trên chỉ xoay quanh chủ thể đích (destination), cầnthêm vào các đặc trưng dựa trên chủ thể nguồn (source), như vậy bộ đặc trưng sẽ
mô hình hệ thống mạng tổng quát hơn
Trang 38Bộ đặc trưng mới được đề xuất là:
1 CountConToDest TCP: Tổng kết nối đến DestIP
UDP: Tổng gói UDP đến DestIP
TCP/UDP
2 CountConToPort TCP: Tổng kết nối đến port
giống DestPort đang xét
UDP: Tổng gói UDP đến port giống DestPort đang xét
6 SourceByte Số lượng byte gởi đến DestIP TCP/UDP
7 DestByte Số lượng byte từ DestIP gởi đi TCP/UDP
8 NumberUrgentToDest Số lượng gói đến DestIP có cờ
URG
TCP
9 NumberFragmentToDest Đếm số lượng gói gửi đến
DestIP bị fragment trong khoảng thời gian
TCP
Trang 3910 SYNErrRateToDest Tỷ lệ kết nối đến DestIP bị lỗi
SYN (<=2 giây)
TCP
11 SYNErrRateToPort Tỷ lệ kết nối đến port như port
kết nối đang xét bị lỗi SYN (<=2 giây)
TCP
12 SYNErrRateFromSource Tỷ lệ kết nối từ SourceIP giống
SourceIP đang xét bị lỗi SYN (<=2 giây)
TCP
13 REJErrRateToDest Tỷ lệ kết nối đến DestIP bị lỗi
REJECT (<=2 giây)
TCP
14 REJErrRateToPort Tỷ lệ kết nối đến port như port
kết nối đang xét bị lỗi REJECT(<=2 giây)
TCP
15 REJErrRateFromSource Tỷ lệ kết nối từ SourceIP giống
SourceIP đang xét bị lỗi REJ (<=2 giây)
18 FastConRateFromSource Tỷ lệ kết nối diễn ra nhanh
(<=2 giây) từ SourceIP giống SourceIP đang xét
TCP
19 SamePortRateToDest TCP: Tỷ lệ kết nối đến DestIP
có DestPort như kết nối hiện hành (<=2 giây)
TCP/UDP
Trang 40UDP: Tỷ lệ gói UDP đến DestIP có DestPort như kết nốihiện hành (<=2 giây)
Bảng 3.3 Các đặc trưng trên mạng được đề xuất.
Các đặc trưng trên được tính toán xây dựng trong khoảng thời gian w giây Ởđây w được chọn là 2 giây dựa trên cách xây dựng của Wenke Lee, Salvatore J.Stolfo [11] Nếu chọn w lớn thì độ phức tạp trong tính toán để xây dựng đặc trưng
sẽ cao Trong thực nghiệm cho thấy 2 giây là thời gian đủ để thống kê tính toán pháthiện tấn công, xâm nhập hướng thời gian, diễn ra nhanh
3.3 Các đặc trưng mới thêm vào và ý nghĩa của chúng
- Nhóm 1: các đặc trưng được xây dựng theo phương pháp thống kê các kết nối
diễn ra trong khoảng thời gian trước đó 2 giây so với kết nối đang xét xoayquanh địa chỉ nguồn (Source IP) Chúng có khả năng mô hình những cuộctấn công hay virus phát sinh ra từ một địa chỉ nguồn tới các địa chỉ đích khácnhau hay tạo ra nhiều kết nối đến một địa chỉ đích khác:
CountConFromSource: tổng kết nối từ địa chỉ nguồn giống địa
chỉ nguồn của gói dữ liệu đang xét đến những địa chỉ đích trongkhoảng thời gian 2 giây
SYNErrRateFromSource: tổng kết nối bị lỗi SYN từ địa chỉ
nguồn giống địa chỉ nguồn của gói dữ liệu đang xét đến những địa chỉđích trong khoảng thời gian 2 giây
REJErrRateFromSource: tổng kết nối bị lỗi REJ từ địa chỉ
nguồn giống địa chỉ nguồn của gói dữ liệu đang xét đến những địa chỉđích trong khoảng thời gian 2 giây