Phát hiện tấn công bằng phân tích hoạt động mạng ứng dụng bản đồ tự tổ chức (SOM)

Chúng không loại trừ phương pháp nhận dạng tấncông dựa vào mẫu tấn công đã biết truyền thống, mà chỉ thêm vào một kênh hữu íchcho người quản trị mạng biết được những tấn công, bất thường

Trang 1

LỜI CÁM ƠN

Lời đầu tiên tôi xin cám ơn chân thành và sâu sắc nhất đến Thầy TS TRỊNH NGỌC MINH, Thầy đã dành rất nhiều thời gian hướng dẫn tôi một cách tận tâm, sâu sát và giúp tôi vượt qua những thời điểm khó khăn nhất về luận văn này.

Tiếp theo tôi xin gởi lời cám ơn chân thành và trân trọng nhất đến quý Thầy

Cô Trường Đại Học Công Nghệ Thông Tin đã truyền đạt nhiều kiến thức quý báu cho tôi trong suốt quá trình học tập tại đây

Xin gởi lời cám ơn đến Thầy GS TSKH HOÀNG VĂN KIẾM, Thầy TS ĐỖ VĂN NHƠN đã có những góp ý hết sức quý báu cho bản luận văn này

Xin cám ơn các bạn học, bạn hữu, đồng nghiệp đã có những góp ý và động viên trong suốt thời gian qua Xin cám ơn Thầy ThS HUỲNH NGỌC TÍN, một người bạn, đã góp ý rất nhiều cho luận văn

Cám ơn các anh/chị Quản trị mạng Trường Đại Học Công Nghệ Thông Tin

đã tạo điều kiện tốt nhất cho chúng tôi trong suốt gần ba năm học tập tại đây.

Cuối cùng xin cám ơn Gia Đình, Dì Năm, Má, và bé Rô Be (Anh Tuấn) luôn luôn động viên tôi trong những lúc khó khăn nhất.

TP Hồ Chí Minh, tháng 10 – 2007

TRẦN NGỌC THANH

Trang 2

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của tôi, với sự hướng dẫn củaThầy TS TRỊNH NGỌC MINH Các kết quả nêu trong luận văn là hoàn toàn trungthực và chưa được công bố trong bất kỳ một công trình nào khác

TRẦN NGỌC THANH

Trang 3

MỤC LỤC

LỜI CÁM ƠN i

LỜI CAM ĐOAN ii

MỤC LỤC iii

DANH MỤC CÁC TỪ VIẾT TẮT vi

DANH MỤC CÁC HÌNH vii

DANH MỤC CÁC BẢNG ix

MỞ ĐẦU 1

CHƯƠNG 1: TỔNG QUAN 2

1.1 Giới thiệu 2

1.2 Mục tiêu nghiên cứu của luận văn 3

1.3 Giới thiệu các chương mục của luận văn 4

1.4 Những đóng góp của luận văn 5

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT TẤN CÔNG VÀ PHÁT HIỆN TẤN CÔNG TRÊN MẠNG 6

2.1 Các loại IDS 6

2.2 Ứng dụng khai thác dữ liệu để phát hiện tấn công, xâm nhập 9

2.2.1 Misuse IDS 9

2.2.2 Anomaly-Based IDS 11

2.3 Hành động của IDS 13

2.4 Kỹ thuật tấn công, xâm nhập 13

2.5 Phân loại tấn công 17

2.5.1 U2R (User to Root) 17

2.5.2 R2L (Remote to Local) 17

2.5.3 DoS (Land, SYN flood, mailbomb, smurf, teardrop,…) 17

2.5.4 Probes 18

2.5.5 Data 20

Trang 4

2.6 Kết luận 20

CHƯƠNG 3: XÂY DỰNG ĐẶC TRƯNG TRÊN MẠNG 21

3.1 Xây dựng đặc trưng 21

3.2 Cải tiến xây dựng đặc trưng 27

3.3 Các đặc trưng mới thêm vào và ý nghĩa của chúng 31

3.4 Thuật toán xây dựng đặc trưng 33

3.5 Gán trọng số các đặc trưng 35

3.6 Chuẩn hóa đặc trưng 38

3.7 Kết luận 45

CHƯƠNG 4: BẢN ĐỒ TỰ TỔ CHỨC 46

4.1 Giới thiệu 46

4.2 Thuật toán bản đồ tự tổ chức 48

4.3 Chất lượng bản đồ tự tổ chức 52

4.4 Các phương pháp trực quan bản đồ tự tổ chức 52

4.5 Phát hiện tấn công ứng dụng bản đồ tự tổ chức 53

4.6 Kết luận 53

CHƯƠNG 5: THIẾT KẾ VÀ CÀI ĐẶT CHƯƠNG TRÌNH 54

5.1 Thiết kế các phân hệ chương trình 54

5.2 Cài đặt chương trình 63

5.2.1 Phát hiện tấn công 64

5.2.2 Bắt gói dữ liệu mạng 64

5.2.3 SOM 65

5.3 Kết luận 65

CHƯƠNG 6: THỰC NGHIỆM VÀ ĐÁNH GIÁ 66

6.1 Mô tả môi trường thực nghiệm 66

6.2 Dữ liệu thực nghiệm 68

6.3 Huấn luyện bản đồ tự tổ chức 71

6.4 Tấn công giả lập và tìm ngưỡng cảnh báo phù hợp 76

6.4.1 Phương pháp tìm ngưỡng cảnh báo 76

Trang 5

6.4.2 Các cuộc tấn công thử nghiệm 77

6.4.3 Ứng dụng ngưỡng cảnh báo vào thực nghiệm 87

6.5 Thử nghiệm khả năng phát hiện tấn công khi loại bỏ một số đặc trưng 91

6.6 Kết luận 91

CHƯƠNG 7: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 92

7.1 Kết luận 92

7.2 Hướng phát triển 92

TÀI LIỆU THAM KHẢO 94

Tiếng Việt 94

Tiếng Anh 94

WEBSITE THAM KHẢO 95

PHỤ LỤC 96

A KỸ THUẬT BẮT GÓI DỮ LIỆU TRÊN MẠNG 96

A.1.Dùng thư viện C# 96

A.2.Dùng thư viện winpcap 98

B GIAO THỨC TRÊN MẠNG 102

B.1 Bộ giao thức TCP/IP 102

B.2 Cấu trúc gói IP 104

B.3 Cấu trúc gói TCP 105

B.4 Cấu trúc gói UDP (User Datagram Protocol) 106

C MỘT SỐ TẤN CÔNG DOS VÀ DÒ TÌM THÔNG TIN 107

C.1 Tấn công DoS 107

C.2 Dò tìm thông tin (Probes) 108

Trang 6

DANH MỤC CÁC TỪ VIẾT TẮT

TCP/IP : Transmission Control Protocol/Internet Protocol).

Trang 7

DANH MỤC CÁC HÌNH

Hình 1.1 Tình hình phát triển số lượng máy tính trên Internet 2

Hình 1.2 Malware mới xuất hiện mỗi tháng trong năm 2006 3

Hình 2.1 Sơ đồ tổng thể vị trí đặt IDS 7

Hình 2.2 Vai trò của Network IDP (Intrusion Detection and Prevention) trong mô hình phòng thủ sáu lớp 8

Hình 2.3 Sự khác nhau giữa Misuse Detection và Anomaly Detection 9

Hình 2.4 Quy trình phát hiện xâm nhập mạng dựa vào tập dữ liệu gán nhãn 10

Hình 2.5 Quy trình phát hiện xâm nhập dựa vào tập dữ liệu không gán nhãn 12

Hình 2.6 Năm pha tấn công, xâm nhập 15

Hình 2.7 Quy trình bắt tay 3 bước 19

Hình 3.1 Khoảng cách mẫu C so với vectơ trọng số A của nơron có dữ liệu học ánh xạ và vectơ B của nơron không có dữ liệu học ánh xạ vào 26

Hình 3.2 Mô hình bắt gói dữ liệu và xây dựng đặc trưng trên mạng 34

Hình 4.1 Vectơ trọng số của nơron chiến thắng (màu sậm) và các vectơ trọng số của những nơron lân cận được cập nhật hướng về mẫu dữ liệu đầu vào x 47

Hình 4.2 Những vùng lân cận bán kính 1, 2, 3 của nơron màu sậm 47

Hình 4.3 Các hàm tốc độ học 50

Hình 5.1 Các phân hệ chương trình 54

Hình 5.2 Bắt gói dữ liệu mạng và tạo vectơ đặc trưng 55

Hình 5.3 Chuẩn hóa dữ liệu 56

Hình 5.4 Huấn luyện và tính chất lượng bản đồ 57

Hình 5.5 Biểu đồ vectơ đặc trưng trung bình 61

Hình 5.6 Biểu đồ các đặc trưng của các vectơ trọng số 61

Hình 5.7 Dò tìm tấn công 62

Hình 5.8 Lớp ứng dụng phát hiện tấn công 64

Hình 5.9 Lớp bắt gói dữ liệu mạng và xây dựng đặc trưng trên mạng 64

Trang 8

Hình 5.10 Lớp bản đồ SOM 65

Hình 6.1 Môi trường thực nghiệm 67

Hình 6.2 Vectơ dữ liệu được tạo ra từ máy bị virus 70

Hình 6.3 Biểu đồ lưu lượng mạng ngay trên máy bị virus 70

Hình 6.4 Màn hình phát hiện tấn công SYN Scan 89

Hình 6.5 Màn hình phát hiện tấn công TCP Connected Scan 89

Hình B.1 Quá trình truyền dữ liệu giữa 2 ứng dụng trên 2 máy tính 103

Hình B.2 Cấu trúc gói IP 104

Hình B.3 Cấu trúc gói TCP 105

Hình B.4 Cấu trúc gói UDP 106

Trang 9

DANH MỤC CÁC BẢNG

Bảng 3.1 Các đặc trưng của kết nối TCP 22

Bảng 3.2 Đặc trưng lưu lượng mạng được xây dựng trong khoảng 2 giây 23

Bảng 3.3 Các đặc trưng trên mạng được đề xuất 31

Bảng 3.4 Các đặc trưng cần chuẩn hóa 38

Bảng 3.5 Các mẫu vectơ với vectơ 1 và 2 được xây dựng từ máy bị virus, còn vectơ 3 từ một máy kết nối tới máy chủ bình thường 40

Bảng 6.1 Các bản đồ SOM 75

Bảng 6.2 Giá trị tổng cộng các đặc trưng của nơron có trung bình lớn nhất 76

Bảng 6.3 Thống kê khoảng cách từ các mẫu tấn công đến vectơ trọng số có chỉ số trung bình cao nhất 83

Bảng 6.4 Ngưỡng cảnh báo được đề nghị 83

Bảng 6.5 Kết quả phát hiện tấn công sử dụng ngưỡng cảnh báo được đề nghị 86

Bảng 6.6 Kết quả thực nghiệm ngày thứ ba 88

Bảng 6.7 Kết quả thực nghiệm các ngày trong tuần (trừ ngày thứ ba) 90

Trang 10

MỞ ĐẦU

Việc bùng nổ thông tin trên hệ thống mạng toàn cầu đem lại sự thuận lợi chocon người Giờ đây ta có thể tìm bất cứ thông tin gì trên Internet chỉ bằng vài từkhóa Song song với những thuận lợi chúng ta cũng phải đối mặt với nhiều tháchthức, một trong những thách thức đó là vấn đề virus, tấn công, xâm nhập

Kỹ thuật phát hiện tấn công, xâm nhập ngày càng được chú trọng phát triển,với phương pháp truyền thống là dựa vào mẫu tấn công, xâm nhập đã biết Phươngpháp này cho thấy có nhiều hạn chế khi mà các cuộc tấn công mới xuất hiện mỗingày một nhiều

Luận văn được phát triển tiếp theo những thành công, cũng như hạn chế củanhững đề tài [5], [6], [11], [12] trước đó, với kỹ thuật phát hiện tấn công, xâm nhậpdựa vào khai thác dữ liệu (data mining) Phương pháp này có khả năng phát hiện tấncông, xâm nhập, virus dạng hướng thời gian, diễn ra nhanh và khá chính xác màkhông cần mẫu tấn công đã biết Chúng không loại trừ phương pháp nhận dạng tấncông dựa vào mẫu tấn công đã biết truyền thống, mà chỉ thêm vào một kênh hữu íchcho người quản trị mạng biết được những tấn công, bất thường đang diễn ra trên hệthống mạng của mình

Luận văn đã xây dựng và triển khai thực nghiệm với những phần như bắt gói

dữ liệu trên mạng, xây dựng và gán trọng số cho các đặc trưng, huấn luyện dữ liệu,

dò tìm tấn công offline và online

Với những thành công trên và mặc dù đã rất cố gắng thì luận văn cũng cònnhiều hạn chế do nhiều yếu tố như thời gian, kỹ thuật,… Hy vọng trong thời giantới tôi có nhiều điều kiện để tiếp tục phát triển luận văn này Rất mong sự góp ý củaQuý Thầy Cô, đồng nghiệp, các anh/chị và các bạn hữu

Trang 11

CHƯƠNG 1: TỔNG QUAN1.1 Giới thiệu

Với sự phát triển nhanh chóng của hệ thống mạng toàn cầu, đến tháng07/2007 đã có hơn 480 triệu host trên Internet (hình 1.1) [W1]; nhiều công cụhướng dẫn tấn công, xâm nhập hệ thống có sẵn trên Internet và dễ sử dụng hơn; sâumáy tính, virus, spyware, Trojan horse,… với tốc độ xuất hiện mới rất nhanh(hình 1.2) [9]; Những vấn đề trên làm cho an toàn hệ thống mạng được quan tâmhơn bao giờ hết Trong đó, phát hiện tấn công, xâm nhập được chú trọng nghiên cứunhiều nhất từ các nhà khoa học, an ninh mạng, điển hình là Hội nghị quốc tế RAID(Recent Advances in Intrusion Detection) về phát hiện tấn công, xâm nhập mỗi năm

tổ chức đều đặn, và lần thứ 10 diễn ra tại Queensland, Australia vào tháng 09-2007[W2] (lần 9 tại Hamburg, Germany, ngày 20 đến 22/09/2006)

Hình 1.1 Tình hình phát triển số lượng máy tính trên Internet.

Trang 12

Hình 1.2 Malware mới xuất hiện mỗi tháng trong năm 2006.

Tại Việt Nam đã có những đề tài nghiên cứu tấn công thử nghiệm, và giúpcác doanh nghiệp được bảo mật hơn [1], [2] Các nghiên cứu này cho thấy bảo mật,phòng chống tấn công, xâm nhập ở Việt Nam chưa cao Vì vậy, bảo mật hệ thốngmáy tính ở Việt Nam cần được quan tâm nhiều hơn Những hệ thống bảo mật nênthiết kế triển khai làm nhiều tầng lớp hỗ trợ cho nhau, trong đó các hệ thống pháthiện tấn công, xâm nhập trái phép (IDS) nên được xây dựng để bảo vệ tính toànvẹn, sẵn sàng, và bảo mật cho hệ thống mạng

1.2 Mục tiêu nghiên cứu của luận văn

Luận văn tập trung nghiên cứu và xây dựng một ứng dụng với phương pháptiếp cận là phát hiện tấn công bằng phân tích và nhận biết những hoạt động bấtthường trên mạng ứng dụng bản đồ tự tổ chức (SOM) Phương pháp này có khảnăng nhận dạng tấn công hướng thời gian, diễn ra nhanh mà không dựa vào các mẫutấn công đã biết như phương pháp truyền thống

Trang 13

1.3 Giới thiệu các chương mục của luận văn

Chương 1: Tổng quan

Giới thiệu tổng quan về bối cảnh lựa chọn đề tài, mục tiêu nghiên cứu vànhững đóng góp của luận văn

Chương 2: Cơ sở lý thuyết tấn công và phát hiện tấn công trên mạng

Chương 2 trình bày các loại và phương pháp phát hiện tấn công, xâm nhập,trong đó sẽ đi sâu vào giới thiệu những điểm mạnh, hạn chế và kỹ thuật phát hiệntấn công, xâm nhập dựa vào học giám sát và học không giám sát trong khai thác dữliệu Thiết kế các vị trí đặt hệ thống phát hiện tấn công, xâm nhập Đồng thờichương này cũng trình bày các kỹ thuật tấn công, xâm nhập

Chương 3: Xây dựng đặc trưng trên mạng

Chương 3 giới thiệu và đánh giá phương pháp xây dựng đặc trưng từ WenkeLee, Salvatore J Stolfo [11] Đề xuất bộ đặc trưng mới phù hợp với việc nhận dạngtấn công theo thời gian thực Xây dựng cũng như chuẩn hóa các đặc trưng này.Chương này còn đề xuất phương pháp gán trọng số cho các đặc trưng để giảm tỷ lệcảnh báo sai

Chương 4: Bản đồ tự tổ chức

Vì luận văn ứng dụng bản đồ tự tổ chức (SOM) nên chương này sẽ trình bàythuật toán SOM, các hàm tốc độ học, hàm lân cận, biểu diễn trực quan trên SOM

Và trình bày phương pháp phát hiện tấn công ứng dụng SOM

Chương 5: Thiết kế và cài đặt chương trình

Chương này thiết kế và cài đặt chương trình phát hiện tấn công, xâm nhậphướng thời gian, diễn ra nhanh trên mạng theo thời gian thực Đề xuất việc xây

Trang 14

dựng các phân hệ chương trình như bắt gói dữ liệu, xây dựng đặc trưng, chuẩn hóa,huấn luyện SOM, dò tìm tấn công,…

Chương 6: Thực nghiệm và đánh giá

Đưa ứng dụng vào thực nghiệm và đánh giá kết quả phát hiện tấn công, xâmnhập hướng thời gian, diễn ra nhanh với một số cuộc tấn công thử nghiệm Trìnhbày phương pháp tìm ngưỡng cảnh báo phù hợp để cân bằng giữa tỷ lệ cảnh báo sai

và bỏ sót cảnh báo khi có tấn công Ứng dụng ngưỡng cảnh báo đề xuất vào thựcnghiệm

Chương 7: Kết luận và hướng phát triển

1.4 Những đóng góp của luận văn

- Cải tiến bộ đặc trưng của Wenke Lee, Salvatore J Stolfo [11] đề xuất, để mô

hình hệ thống mạng tốt hơn, và có khả năng nhận dạng tấn công theo thờigian thực

- Đưa ra phương pháp, thuật toán xây dựng, gán trọng số các đặc trưng để

giảm tỷ lệ cảnh báo sai Luận văn cũng đã khắc phục được hạn chế từphương pháp phát hiện tấn công do Aykut Oksuz [5] đề xuất

- Đưa ra phương pháp để tìm ngưỡng cảnh báo phù hợp và ứng dụng ngưỡng

này vào thực nghiệm

- Cài đặt khá hoàn chỉnh chương trình phát hiện tấn công bằng ngôn ngữ C# từ

bắt gói dữ liệu mạng, tạo vectơ đặc trưng, chuẩn hóa dữ liệu, huấn luyện bản

đồ tự tổ chức (SOM), vẽ bản đồ, cho tới khâu dò tìm tấn công theo thời gianthực trên mạng

- Tổng hợp, phân tích, đánh giá các phương pháp phát hiện tấn công và các kỹ

thuật tấn công trên mạng

Trang 15

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT TẤN CÔNG VÀ PHÁT

HIỆN TẤN CÔNG TRÊN MẠNG

Chương 2 trình bày các loại và phương pháp phát hiện tấn công, xâm nhập,trong đó đi sâu vào giới thiệu những điểm mạnh, hạn chế của kỹ thuật phát hiện tấncông, xâm nhập dựa vào học giám sát và học không giám sát trong khai thác dữliệu Đồng thời chương này cũng trình bày các kỹ thuật tấn công, xâm nhập

Ghi chú: trong chương này và các chương sau để đơn giản ta gọi “hệ thống

phát hiện tấn công, xâm nhập” là IDS

2.1 Các loại IDS

Tùy vào việc quan sát và nơi đặt IDS mà hình thành nên những loại IDSkhác nhau:

- IDS đặt tại máy tính bằng việc quan sát các tập tin log, system calls,

sử dụng CPU, bộ nhớ, ổ cứng, được gọi là Host-based IDS.

 Ưu điểm: quan sát được những gì đang thực sự diễn ra trên máytính

 Hạn chế: không biết được trạng thái hoạt động của toàn mạng.Cũng như nếu quan sát dựa vào log file thì không thể phát hiện xâmnhập theo thời gian thực

- IDS đặt tại một đoạn mạng và quan sát các gói dữ liệu mạng, các kết

nối mạng,… thì được gọi là Network-based IDS

 Ưu điểm: quan sát được những trao đổi, các kết nối mạng,…

Trang 16

 Hạn chế: khó quan sát được nội dung các gói dữ liệu mạng đãđược mã hóa, đồng thời cũng không thể biết được những gì đang diễn

ra tại các máy tính trong mạng

Dưới đây là sơ đồ thiết kế vị trí đặt IDS:

Hình 2.3 Sơ đồ tổng thể vị trí đặt IDS.

Tùy theo phương pháp phát hiện tấn công, xâm nhập mà có thể phân hai loạiHost-based IDS và Network-based IDS ra những loại nhỏ hơn Phương pháp truyền

Trang 17

thống về phát hiện tấn công, xâm nhập dựa trên việc lưu lại các mẫu đã biết của cáccuộc tấn công, chúng so sánh các đặc trưng kết nối mạng với mẫu tấn công để pháthiện ra tấn công, xâm nhập Phương pháp này gọi là Signature-Based IDS Một ứngdụng mã nguồn mở nổi tiếng về IDS dạng này là Snort (tham khảo tại tranghttp://www.snort.org/)

Signature-Based IDS có ưu điểm và hạn chế sau:

 Ưu điểm: nhận biết khá chính xác các loại tấn công, xâm nhập đãbiết được chữ ký (signature)

 Hạn chế: không thể phát hiện được các tấn công, xâm nhập chưa

biết được chữ ký Thậm chí nếu mẫu mới về tấn công được phát hiện,thì những mẫu này phải được cập nhật bằng tay vào hệ thống

Do hạn chế của phương pháp phát hiện tấn công, xâm nhập dựa trênsignature, phương pháp dựa trên kỹ thuật khai thác dữ liệu (data mining) đã đượcnghiên cứu phát triển

Trang 18

Hình 2.4 Vai trò của Network IDP (Intrusion Detection and Prevention) trong mô hình

phòng thủ sáu lớp.

Một hệ thống mạng muốn an toàn, bảo mật cần phải được bảo vệ bằng nhiềutầng lớp, trong đó hệ thống phát hiện tấn công, xâm nhập đóng một vai trò rất quantrọng

2.2 Ứng dụng khai thác dữ liệu để phát hiện tấn công, xâm nhập

Có thể phát hiện tấn công, xâm nhập dựa vào tập dữ liệu huấn luyện được

gán nhãn, dạng này gọi là misuse detection Và học từ tập dữ liệu huấn luyện được

gán nhãn gọi là học giám sát (học có Thầy, có chuyên gia)

Hoặc phát hiện tấn công dựa vào gom nhóm tập dữ liệu bình thường không

gán nhãn, phương pháp này gọi là anomaly detection Và việc học từ tập dữ liệu

không gán nhãn gọi là học không giám sát

Hình 2.5 Sự khác nhau giữa Misuse Detection và Anomaly Detection.

Trang 19

Hình 2.6 Quy trình phát hiện xâm nhập mạng dựa vào tập dữ liệu gán nhãn.

Ưu điểm và hạn chế của Misuse IDS:

Trang 20

 Ưu điểm: phân loại khá chính xác những loại tấn công, xâm nhập đã cótrong tập dữ liệu huấn luyện.

 Hạn chế: không thể phát hiện xâm nhập nếu chúng chưa xảy ra trongtập dữ liệu huấn luyện Và khi tập dữ liệu huấn luyện lớn thì việc gánnhãn là một công việc rất khó khăn

2.2.2 Anomaly-Based IDS

Kỹ thuật phát hiện được xây dựng dựa trên các mẫu bình thường thông qua

việc học không giám sát Kỹ thuật này có khả năng phát hiện ra các tấn công, xâmnhập, virus hướng thời gian mới, và có tên gọi là hệ thống phát hiện tấn công, xâm

nhập dựa vào bất thường (Anomaly-Based IDS) Trong quá trình dò tìm tấn công

với kỹ thuật Anomaly-Based IDS các mẫu dữ liệu được so sánh với các mẫu bình

thường đã được học trước đó, nếu vượt quá một ngưỡng cho trước thì mẫu này xem

Trang 21

Hình 2.7 Quy trình phát hiện xâm nhập dựa vào tập dữ liệu không gán nhãn.

Ưu điểm và hạn chế của Anomaly-Based IDS:

 Ưu điểm: tập dữ liệu huấn luyện không cần gán nhãn Có khả năngnhận biết các dạng tấn công, xâm nhập chưa biết

 Hạn chế: những lúc trạng thái mạng bất thường nhưng chưa hẳn là đang

bị tấn công Nhưng cảnh báo ở những trường hợp này cho người quảntrị mạng biết cũng rất tốt Tuy nhiên, một hạn chế nữa của phương phápnày khi hệ thống mạng bình thường, nhưng những tình huống bìnhthường này chưa được học trong quá trình huấn luyện sẽ dẫn đến cảnhbáo sai

Mặc dù phương pháp anomaly-based IDS có hạn chế, nhưng chính phươngpháp này giải quyết được hạn chế của phương pháp học giám sát là sử dụng tập dữliệu huấn luyện không cần gán nhãn Và cũng giải quyết được hạn chế của việc dòtìm xâm nhập dựa vào mẫu xâm nhập đã biết là có khả năng nhận dạng tấn côngmới Vì trên thực tế, khi mà hệ thống mạng phát triển nhanh và ngày càng nhiều các

kỹ thuật tấn công, xâm nhập, sâu máy tính, virus,… mới, thì rất khó để có được một

Trang 22

tập dữ liệu được gán nhãn đủ lớn để mô tả các kết nối mạng bình thường và tấncông, xâm nhập.

2.3 Hành động của IDS

Sau khi các hệ IDS đã phát hiện ra tấn công, xâm nhập thì có một trong haihành động sau đây:

- Gởi tín hiệu đến firewall để ngăn chặn tấn công, hoặc gởi tín hiệu đến switch

để chuyển port nơi phát sinh ra tấn công vào VLAN riêng để xử lý Trườnghợp này gọi là hệ thống phát hiện và ngăn chặn xâm nhập

- Chỉ đưa ra cảnh báo cho người quản trị mạng xử lý

2.4 Kỹ thuật tấn công, xâm nhập

Có rất nhiều kỹ thuật để tấn công vào hệ thống mạng như: Trojans,backdoor, sniffers, exploits, buffer overflows, SQL injection, Deny of Service(DoS),… Theo [8] hầu hết các công cụ xâm nhập thường khai thác các điểm yếu từcác nơi sau:

- Hệ điều hành: Nhiều người quản trị mạng cài đặt hệ điều hành cấu hình mặc

định và không cập nhật các bản vá lỗi Rất nhiều lỗ hổng tiềm tàng ở đây

- Ứng dụng: rất khó khăn để kiểm tra hết các điểm yếu bảo mật của các ứng

dụng Có nhiều cách để khai thác tấn công các lỗi bảo mật ứng dụng

- Tính năng nâng cao chương trình: Nhiều chương trình có nhiều tính năng

nâng cao mà người dùng ít sử dụng tới Đây cũng là nơi dễ lợi dụng để khaithác tấn công Ví dụ: Macro trong Microsoft Word, Excel là nơi có thể chứacác đoạn mã độc hại

- Cấu hình sai: hệ thống có thể bị cấu hình sai, hay cấu hình ở mức bảo mật

thấp nhất nhằm tăng tính dễ sử dụng cho người dùng

Trang 23

Mục đích kẻ tấn công là làm sao để khai thác một trong bốn đặc tính về bảomật:

- Active attack: thay đổi hệ thống, mạng khi tấn công làm ảnh hưởng đến tính

toàn vẹn, sẵn sàng, và xác thực của dữ liệu

- Passive attack: cố gắng thu thập thông tin từ hệ thống, mạng làm phá vỡ tính

bí mật dữ liệu

Dựa vào nguồn gốc tấn công có thể phân loại tấn công làm 2 loại: tấn công

từ bên trong, và tấn công từ bên ngoài:

- Tấn công từ bên trong: thường người tấn công ở ngay trong hệ thống mạng

Người sử dụng muốn truy cập, lấy thông tin nhiều hơn quyền cho phép

- Tấn công từ bên ngoài: tấn công từ bên ngoài Internet hay các kết nối truy

cập từ xa

Có 5 pha (phase) tấn công, xâm nhập mà các kẻ tấn công thường dùng:

Trang 24

Hình 2.8 Năm pha tấn công, xâm nhập.

Pha 1: Khảo sát thu thập thông tin

Thu thập thông tin về nơi cần tấn công như phát hiện các host, địa chỉ IP, cácdịch vụ mạng

Pha 2: Dò tìm

Sử dụng các thông tin thu thập được từ pha 1 để sử dụng tìm kiếm thêmthông tin lỗ hổng, điểm yếu của hệ thống mạng Các công cụ thường được sử dụngcho quá trình này là: các công cụ dùng quét cổng, quét dãy địa chỉ IP, dò tìm lỗhổng,…

Khảo sát thu thập thông tin

Trang 25

Pha 3: Xâm nhập

Các lỗ hổng, điểm yếu được dò tìm trong 2 pha trên được sử dụng khai thác

để xâm nhập vào hệ thống Ở pha này kẻ tấn công có thể dùng các kỹ thuật như:tràn vùng đệm dựa trên stack, từ chối dịch vụ (DoS – Denial of Service) và bắt cócphiên làm việc (session hijacking)

Pha 4: Duy trì xâm nhập

Một khi kẻ tấn công đã xâm nhập được vào hệ thống, bước tiếp theo là làmsao để duy trì các xâm nhập này để có thể khai thác và xâm nhập tiếp trong tươnglai Một vài kỹ thuật như backdoors, Trojans Một khi kẻ tấn công đã làm chủ hệthống chúng có thể sử dụng hệ thống để tấn công vào hệ thống khác, trường hợp

này hệ thống bị lợi dụng gọi là: zombie system.

Pha 5: Che đậy, xóa dấu vết

Một khi kẻ tấn công đã xâm nhập và cố gắng duy trì xâm nhập Bước tiếptheo là phải làm sao xóa hết dấu vết để không còn chứng cứ pháp lý xâm nhập Kẻtấn công phải xóa các tập tin log, xóa các cảnh báo từ hệ thống phát hiện xâm nhập

Pha 2 (dò tìm) và pha 3 (xâm nhập) kẻ tấn công thường làm lưu lượng, kếtnối mạng thay đổi khác với lúc mạng bình thường rất nhiều Nếu phân tích kỹ cácbất thường này để rút trích ra các đặc trưng hữu ích của mạng có thể từ đó phântích, phát hiện các xâm nhập như: quét cổng, quét dãy địa chỉ IP, tấn công từ chốidịch vụ (DoS),…

Hầu hết các cuộc tấn công đều tiến hành tuần tự 5 pha trên Làm sao để nhậnbiết tấn công, xâm nhập ngay từ hai pha đầu tiên (khảo sát thông tin và dò tìm thôngtin) là hết sức quan trọng, vì sẽ hạn chế tấn công, xâm nhập ở những pha tiếp theo.Ngay tại pha thứ 3 là xâm nhập, pha này không dễ dàng đối với kẻ tấn công Dovậy, khi không thể xâm nhập được vào hệ thống, để phá hoại có nhiều khả năng kẻ

Trang 26

tấn công sẽ sử dụng tấn công từ chối dịch vụ để ngăn cản không cho các người dùnghợp lệ truy xuất tài nguyên phục vụ công việc.

Khảo sát thông tin, dò tìm thông tin, tấn công từ chối dịch vụ, cũng nhưvirus,… thông thường có tính chất hướng thời gian và có thể sử dụng phương phápkhai thác dữ liệu để nhận dạng chúng Trong các phần sau sẽ trình bày ứng dụngSOM để nhận dạng một cách hiệu quả, theo thời gian thực những dạng tấn côngnày

2.5 Phân loại tấn công

Theo [7] có thể phân tấn công, xâm nhập thành 5 nhóm sau đây:

2.5.1 U2R (User to Root)

Người tấn công sử dụng tài khoản người dùng bình thường để truy cập vào

hệ thống và tìm cách nâng quyền của mình lên cao hơn Tài khoản có thể kẻ tấncông có được bằng sniff mật khẩu, dùng dictionary attack, hay social engineering.Các tấn công phổ biến của dạng này là buffer overflow, loadmodule,…

2.5.2 R2L (Remote to Local)

Là trường hợp người tấn công có khả năng gởi gói dữ liệu mạng đến hệthống từ xa nhưng không có tài khoản truy cập vào hệ thống này Và cố gắng đểtruy cập vào hệ thống bằng việc khai thác lỗ hổng, đoán tài khoản và mật khẩu,…Một số tấn công ở dạng này là dictionary, sendmail,…

2.5.3 DoS (Land, SYN flood, mailbomb, smurf, teardrop,…)

Gồm DoS và DDoS:

Tấn công dùng tài nguyên hệ thống làm hệ thống không đáp ứng được yêu cầu người dùng hợp lệ

Trang 27

Dạng tấn công này có thể tấn công trên các máy chủ, ứng dụng, hay toàn bộ

hệ thống mạng

Tấn công từ chối dịch vụ có thể phân làm 2 loại:

- DoS đơn giản: tấn công từ một hệ thống đến một hệ thống

- Distributed DoS (DDoS): tấn công từ nhiều hệ thống đến một hệ thống

Phương pháp tấn công DoS:

- Làm tắt nghẽn mạng với lưu lượng gởi đến mạng rất lớn, vì vậy ngăn không

cho các lưu lượng hợp lệ truyền đi trên mạng

- Ngăn các kết nối giữa 2 thiết bị, dẫn đến ngăn chặn truy cập đến dịch vụ

- Ngăn chặn một máy tính, thiết bị cụ thể nào đó không truy cập được một

dịch vụ

- Ngăn dịch vụ cung cấp cho một hệ thống hay một máy tính cụ thể hợp lệ

Có nhiều tấn công DoS được giới thiệu trong [1], [8] như: SYN Flooding,smurf, fraggle, Land, teardrop,…

Như vậy, qua khảo sát điển hình tấn công DoS và dò tìm, ta thấy lưu lượng,kết nối mạng với một số đặc trưng như băng thông, số lượng kết nối đến một hosttăng vọt,… khác lúc bình thường rất nhiều Đây cũng là một cơ sở để lựa chọn đặctrưng phù hợp để phát hiện tấn công, xâm nhập hướng thời gian trên mạng

2.5.4 Probes

Là loại tấn công dò tìm thông tin trên mạng

Dò tìm thông tin có thể chia làm 3 loại sau:

Trang 28

- Dò tìm cổng: xác định cổng và dịch vụ nào đang mở Một số cổng thường

ứng với các dịch vụ: FPT (21), Telnet (23), HTTP (80), SMTP (25), POP3(110), HTTPS (443)

- Dò tìm mạng: xác định dãy IP của mạng

- Dò tìm điểm yếu: Dò các điểm yếu của hệ thống

Dưới đây là một số dạng dò tìm phổ biến:

- SYN Scan: dạng quét này không hoàn thành bắt tay 3 bước trong TCP

(TCP/IP three-way handshake) (Hình 2.7) Kẻ tấn công gởi gói SYN đếnmáy cần thăm dò, nếu nhận phản hồi bằng gói SYN/ACK là có thể đoáncổng đang mở, nếu nhận gói RST có thể là cổng không mở

Hình 2.9 Quy trình bắt tay 3 bước.

- XMAS: gởi gói dữ liệu với gói FIN, URG, PSH Nếu port mở thì không có

trả lời, nhưng nếu cổng đóng thì máy bị quét sẽ trả lời bằng gói RST/ACK

Trang 29

XMAS không hoạt động được đối với Windows vì được cấu hình theo RFC

793 của TCP/IP

- FIN: tương tự như XMAS nhưng chỉ cờ FIN được bật lên

Phần mềm nổi tiếng về dò tìm thông tin là NMAP (“Network Mapper”)(tham khảo tại trang http://insecure.org/nmap/ )

Loại IDS dựa vào chữ ký tấn công được dùng rộng rãi từ lâu và vẫn đangđược phát triển Những năm gần đây, IDS dựa vào bất thường đã được nghiên cứu,thử nghiệm, cho thấy có khả năng phát hiện được các dạng tấn công mới, góp phầntăng cường khả năng nhận biết tấn công trong mô hình phòng thủ mạng nhiều tầng

Qua khảo sát các cuộc tấn công cho thấy nhiều cuộc tấn công làm lưu lượngmạng thay đổi nhiều, đây cũng là cơ sở để xây dựng các đặc trưng trong chương 3tiếp theo

Trang 30

CHƯƠNG 3: XÂY DỰNG ĐẶC TRƯNG TRÊN MẠNG

Chương 3 trình bày phương pháp xây dựng những đặc trưng, cũng như chuẩnhóa, gán trọng số các đặc trưng này

Với bản luận văn, chương này hết sức quan trọng, chính là cơ sở để tập hợp

dữ liệu đầu vào cho SOM

3.1 Xây dựng đặc trưng

Sau khi đã bắt được các gói dữ liệu trên mạng, các gói dữ liệu này có rấtnhiều thuộc tính, làm sao có thể rút trích ra những đặc trưng đại diện cho thông tinkết nối mạng, để từ đó mô hình được hệ thống mạng ở tình trạng bình thường hayđang có những xâm nhập, tấn công

Rút trích các đặc trưng và chuẩn hóa các đặc trưng của kết nối mạng để làmđầu vào các thuật toán khai thác dữ liệu là phần hết sức quan trọng Nếu các đặctrưng được rút trích hay chuẩn hóa không tốt thì dùng thuật toán gì cũng không chokết quả tốt được

Wenke Lee, Salvatore J Stolfo [11], Wenke Lee [12] ứng dụng luật kết hợp(Association Rules) và chuỗi phổ biến (Frequent Episodes) để khám phá ra tri thứcnhằm nhận dạng tấn công Đối với hệ thống mạng đối tượng cần bảo vệ là máy chủ(host), dịch vụ (service),… nên Wenke Lee, Salvatore J Stolfo khi ứng dụng luậtkết hợp và chuỗi phổ biến chỉ quan tâm đến những đối tượng này gọi là các đặctrưng tham chiếu (reference features), các đặc trưng khác phải kết hợp với nhữngđặc trưng tham chiếu này để tìm ra chuỗi phổ biến Từ chuỗi phổ biến mà WenkeLee, Salvatore J Stolfo đạt được tri thức khám phá các mẫu tấn công, xâm nhập.Đối với mỗi mẫu tấn công, xâm nhập được sử dụng như là các hướng dẫn để xây

Trang 31

dựng thêm các đặc trưng khác Ta có thể ứng dụng khai thác dữ liệu trên những đặctrưng này để phân lớp, gom nhóm tốt hơn.

Dưới đây là bảng các đặc trưng do Wenke Lee, Salvatore J Stolfo [11] đề xuất:

duration Thời gian của kết nối

protocol Giao thức như tcp, udp,…

service Dịch vụ mạng trên destination như http, telnet, smtp,… flag trạng thái bình thường hay lỗi của kết nối

sourcebytes số bytes từ source đến destination host

destbytes số bytes từ destination đến source host

Land 1 nếu kết nối cùng host/port; 0 ngược lại

fragment số fragment bị lỗi

urgent số gói dữ liệu urgent

Bảng 3.1 Các đặc trưng của kết nối TCP.

Count Số lượng kết nối đến cùng host như kết nối đang xét trong

khoảng thời gian 2 giây vừa qua

SYNErrorRate % số kết nối có SYN bị lỗi

REJErrorRate % số kết nối có REJ bị lỗi

SameSrvRate % số kết nối có cùng service

DiffSrvRate % số kết nối đến những service khác nhau

SrvCount Số lượng kết nối đến cùng dịch vụ như kết nối đang xét

trong khoảng thời gian 2 giây vừa qua

Những đặc trưng (features) bên dưới liên quan đến các kếtnối có cùng dịch vụ như kết nối đang xét

Trang 32

SrvSYNErrorRate % số kết nối có SYN bị lỗi.

SrvREJErrorRate % số kết nối có REJ bị lỗi

SrvDiffHostRate % số kết nối đến những host khác nhau

Bảng 3.2 Đặc trưng lưu lượng mạng được xây dựng trong khoảng 2 giây.

Ngoài ra, Wenke Lee, Salvatore J Stolfo [11] còn đưa các đặc trưng thuộc

về phiên làm việc của kết nối Các đặc trưng này chỉ phù hợp phân tích offline

Ta đặt:

- TN (True Negative): trường hợp mạng bình thường và IDS không cảnh báo

- TP (True Positive): trường hợp mạng bị tấn công và IDS có cảnh báo

- FN (False Negative): trường hợp mạng bị tấn công nhưng IDS không cảnh

John Zhong Lei, Ali Ghorbani [6] dựa trên việc xây dựng các đặc trưng từbảng 3.1, bảng 3.2 và các đặc trưng thuộc phiên làm việc, sau đó dùng bản đồ tự tổchức (SOM) để phân lớp trên tập dữ liệu KDD-CUP 99 [W3] với 4,898,431 kết nốimạng mô phỏng hệ thống mạng của Không Quân Mỹ với nhiều loại tấn công khác

Trang 33

nhau do MIT Lincoln Lab mô phỏng, phân lớp khá chính xác dữ liệu bình thường

và dữ liệu tấn công với accuracy, recall, precision hơn 97% [6] Tuy nhiên, đây chỉ

là thử nghiệm trên tập dữ liệu offline và trong thực tế những cuộc tấn công, xâmnhập, virus với tốc độ xuất hiện mới rất nhanh, nên không thể có được một tập dữliệu gán nhãn đầy đủ Vì vậy phương pháp này không hiệu quả khi ứng dụng thực tế

để nhận dạng tấn công theo thời gian thực nhưng chính nó là thử nghiệm quan trọngcho thấy sự khác nhau giữa dữ liệu mạng bình thường và khi có tấn công

Vào tháng 02/2007, Aykut Oksuz [5] trong đề tài của mình cũng sử dụng cácđặc trưng trên bảng 3.1 và bảng 3.2 để phát hiện tấn công theo thời gian thực,nhưng khi thử nghiệm cho kết quả không chính xác Aykut Oksuz [5] dùng chươngtrình mã nguồn mỡ IDSnet để phát triển thêm phân hệ xây dựng các đặc trưng vàphát triển phân hệ bản đồ tự tổ chức SOM với cách tiến hành thử nghiệm như sau:

- Dùng phần mềm Nsasoft Network Security Auditor để tạo ra các

lưu lượng mạng đến ứng dụng IDSnet

- Lưu chúng vào một tập tin với khoảng 10,000 gói dữ liệu để sử

dụng cho quá trình huấn luyện SOM

- Sau đó cũng tạo ra lưu lượng mạng bình thường kết hợp với traffic

tấn công dò tìm thông tin được tạo ra từ phần mềm NMAP bằng cách quét tất

cả các cổng (port) trên máy đích cài chương trình IDSnet

- Huấn luyện SOM với bản đồ 10 dòng và 10 cột với dữ liệu khoảng

10,000 gói IP bình thường Trọng số ban đầu được gán từ [0, 100]

- Sau khi bản đồ SOM được hình thành, các nơron trên bản đồ SOM

có chứa mẫu dữ liệu học ánh xạ vào thì Aykut Oksuz xem là những nơronbình thường, ngược lại những nơron không chứa mẫu dữ liệu học nào thìđược xem như là nơron bất thường đại diện cho các mẫu tấn công

- Cho khoảng 1,500 gói dữ liệu tấn công dò tìm thông tin cổng được

tạo ra từ phần mềm NMAP để kiểm tra, nhưng chỉ có 28 gói dữ liệu là rơivào các nơron bất thường, còn lại đều ánh xạ vào các nơron bình thường

Trang 34

Điều này chứng tỏ rằng phương pháp dò tìm tấn công do Aykut Oksuz [5]đưa ra đã có kết quả không tốt Aykut Oksuz cho rằng kết quả thử nghiệm không tốt

do 2 nguyên nhân sau:

- Ứng dụng phân hệ xây dựng đặc trưng và bản đồ tự tổ chức

(SOM) được phát triển từ một sản phẩm mã nguồn mở IDSnet nên không thểkiểm soát được thuật toán xây dựng đặc trưng và bản đồ tự tổ chức có chạyđúng đắn không

- Các đặc trưng được sử dụng từ Wenke Lee, Salvatore J Stolfo

[11] không đủ để mô hình hệ thống ở trạng thái bình thường và khi bị tấncông, xâm nhập Cần thêm những đặc trưng mới

Ngoài hai nguyên nhân do chính tác giả dự đoán tại sao thử nghiệm chưathành công, còn một khả năng nữa là phương pháp phát hiện tấn công do tác giả đềxuất với mẫu dữ liệu mới đưa vào nếu gần nơron bình thường thì mẫu dữ liệu này làbình thường, ngược lại là tấn công Nhưng một mẫu dữ liệu rất xa vectơ trọng sốcủa nơron bình thường, nhưng nơron này vẫn có thể là nơron chiến thắng Và mộttrường hợp nữa khi huấn luyện bản đồ SOM nếu tất cả nơron đều có mẫu học ánh

xạ vào thì phương pháp này không thể ứng dụng được Khi đó các nơron đều đạidiện cho dữ liệu bình thường, mà không có một nơron nào đại diện cho lớp tấncông

Trang 35

Hình 3.10 Khoảng cách mẫu C so với vectơ trọng số A của nơron có dữ liệu học ánh

xạ và vectơ B của nơron không có dữ liệu học ánh xạ vào.

Hình 3.1 ở trên, minh họa trường hợp mẫu dữ liệu tấn công C không đượccảnh báo do nơron chiến thắng là nơron có vectơ trọng số là A vì d1 < d2 Với d1 làkhoảng cách từ mẫu C đến vectơ trọng số A và d2 là khoảng cách từ mẫu C đếnvectơ trọng số B

Trong luận văn này đã khắc phục được phần nào cả 3 nguyên nhân dẫn đếnthử nghiệm không thành công ở trên, đó là:

- Chương trình được cài đặt mới bằng ngôn ngữ C# từ khâu bắt gói

dữ liệu, xây dựng đặc trưng, chuẩn hóa và gán trọng số dữ liệu, huấn luyện

Trang 36

bản đồ SOM, cho đến dò tìm tấn công online và offline,… nên hoàn toàn cóthể kiểm soát được thuật toán, mã nguồn.

- Thêm vào một số đặc trưng như: chủ thể là nguồn (source),… để

mô hình hệ thống mạng chính xác hơn Ngoài ra loại bỏ những đặc trưng ảnhhưởng đến việc nhận dạng tấn công theo thời gian thực trên mạng và nhữngđặc trưng không cần thiết

- Các đặc trưng được gán trọng số phù hợp để hạn chế tình trạng

cảnh báo sai

- Đưa ra một phương pháp dò tìm mới đó là: sau khi bản đồ SOM

được huấn luyện các nơron không có mẫu dữ liệu học nào ánh xạ vào sẽđược loại bỏ Dựa vào các nơron còn lại sẽ tìm ra vectơ trọng số của nơron

có đặc trưng trung bình với chỉ số cao nhất để phục vụ cho việc phát hiện tấncông, virus hướng thời gian Bản đồ sẽ được xây dựng theo từng ngày phục

vụ việc dò tìm tấn công được chính xác hơn

Với việc khắc phục cả 3 nguyên nhân trên, thử nghiệm cho thấy có khả năngphát hiện tấn công, virus hướng thời gian, diễn ra nhanh và khá chính xác

3.2 Cải tiến xây dựng đặc trưng

Các đặc trưng do Wenke Lee, Salvatore J Stolfo [11] đề xuất được xây dựngdựa trên tập dữ liệu offline bằng cách sắp xếp các đặc trưng này theo từng kết nối

và theo thời gian, nên một số đặc trưng không thích hợp cho việc dò tìm tấn côngtheo thời gian thực Các đặc trưng đó là:

- Duration: một kết nối có thể diễn ra nhiều giờ liền, do vậy nếu để

kết nối kết thúc xong mới phát hiện tấn công thì không có nhiều ý nghĩa vìnhư vậy người quản trị sẽ không có được biện pháp xử lý kịp thời

- Sourcebytes: tổng số lượng bytes gửi từ địa chỉ nguồn (Source

IP) đến địa chỉ đích (Destination IP) trong kết nối Tương tự như đặc trưng

Trang 37

duration ở trên ta không thể chờ kết nối kết thúc để hình thành nên đặc trưngnày phục vụ cho việc dò tìm tấn công được.

- Destbytes: tổng số lượng bytes gửi từ địa chỉ đích đến địa chỉ

nguồn Tương tự như Sourcebytes, đặc trưng này cũng không phù hợp choviệc dò tìm tấn công theo thời gian thực

Ngoài ba đặc trưng trên không phù hợp cho việc nhận dạng tấn công theothời gian thực, còn có một số đặc trưng cũng không cần thiết như:

- Land: kết nối có địa chỉ nguồn và địa chỉ đích giống nhau thì đánh

dấu là 1, ngược lại đánh dấu là 0 Kết nối này nhằm mục đích dò tìm tấncông Land, đây là một dạng tấn công DoS vì khi một thiết bị nhận được mộtgói dữ liệu có IP nguồn và IP đích bằng nhau có khả năng bị treo máy Tuynhiên, lỗi này các thiết bị gần như đã khắc phục và không bị ảnh hưởng Ta

có thể đưa ra luật dễ dàng để nhận dạng tấn công dạng này Do vậy, khôngcần hình thành nên đặc trưng land

- Protocol: vì tính chất của giao thức TCP, UDP, và ICMP là khác

nhau nên nhiều đặc trưng hình thành cho giao thức TCP không dùng đượccho giao thức UDP Như vậy giao thức TCP và UDP nên tách ra riêng Vàgiao thức ICMP người tấn công có thể sử dụng để quét IP, hay tấn côngSmurf, hoàn toàn có thể đưa luật chuyên gia vào để nhận dạng

- Flag: tình trạng kết nối bình thường hay lỗi Bản thân các đặc

trưng lỗi REJ, lỗi SYN đã cho biết trạng thái của kết nối

Trong bảng 3.2, các đặc trưng được xây dựng trong khoảng 2 giây do WenkeLee, Salvatore J Stolfo đề xuất ở trên chỉ xoay quanh chủ thể đích (destination), cầnthêm vào các đặc trưng dựa trên chủ thể nguồn (source), như vậy bộ đặc trưng sẽ

mô hình hệ thống mạng tổng quát hơn

Trang 38

Bộ đặc trưng mới được đề xuất là:

1 CountConToDest TCP: Tổng kết nối đến DestIP

UDP: Tổng gói UDP đến DestIP

TCP/UDP

2 CountConToPort TCP: Tổng kết nối đến port

giống DestPort đang xét

UDP: Tổng gói UDP đến port giống DestPort đang xét

6 SourceByte Số lượng byte gởi đến DestIP TCP/UDP

7 DestByte Số lượng byte từ DestIP gởi đi TCP/UDP

8 NumberUrgentToDest Số lượng gói đến DestIP có cờ

URG

TCP

9 NumberFragmentToDest Đếm số lượng gói gửi đến

DestIP bị fragment trong khoảng thời gian

TCP

Trang 39

10 SYNErrRateToDest Tỷ lệ kết nối đến DestIP bị lỗi

SYN (<=2 giây)

TCP

11 SYNErrRateToPort Tỷ lệ kết nối đến port như port

kết nối đang xét bị lỗi SYN (<=2 giây)

TCP

12 SYNErrRateFromSource Tỷ lệ kết nối từ SourceIP giống

SourceIP đang xét bị lỗi SYN (<=2 giây)

TCP

13 REJErrRateToDest Tỷ lệ kết nối đến DestIP bị lỗi

REJECT (<=2 giây)

TCP

14 REJErrRateToPort Tỷ lệ kết nối đến port như port

kết nối đang xét bị lỗi REJECT(<=2 giây)

TCP

15 REJErrRateFromSource Tỷ lệ kết nối từ SourceIP giống

SourceIP đang xét bị lỗi REJ (<=2 giây)

18 FastConRateFromSource Tỷ lệ kết nối diễn ra nhanh

(<=2 giây) từ SourceIP giống SourceIP đang xét

TCP

19 SamePortRateToDest TCP: Tỷ lệ kết nối đến DestIP

có DestPort như kết nối hiện hành (<=2 giây)

TCP/UDP

Trang 40

UDP: Tỷ lệ gói UDP đến DestIP có DestPort như kết nốihiện hành (<=2 giây)

Bảng 3.3 Các đặc trưng trên mạng được đề xuất.

Các đặc trưng trên được tính toán xây dựng trong khoảng thời gian w giây Ởđây w được chọn là 2 giây dựa trên cách xây dựng của Wenke Lee, Salvatore J.Stolfo [11] Nếu chọn w lớn thì độ phức tạp trong tính toán để xây dựng đặc trưng

sẽ cao Trong thực nghiệm cho thấy 2 giây là thời gian đủ để thống kê tính toán pháthiện tấn công, xâm nhập hướng thời gian, diễn ra nhanh

3.3 Các đặc trưng mới thêm vào và ý nghĩa của chúng

- Nhóm 1: các đặc trưng được xây dựng theo phương pháp thống kê các kết nối

diễn ra trong khoảng thời gian trước đó 2 giây so với kết nối đang xét xoayquanh địa chỉ nguồn (Source IP) Chúng có khả năng mô hình những cuộctấn công hay virus phát sinh ra từ một địa chỉ nguồn tới các địa chỉ đích khácnhau hay tạo ra nhiều kết nối đến một địa chỉ đích khác:

 CountConFromSource: tổng kết nối từ địa chỉ nguồn giống địa

chỉ nguồn của gói dữ liệu đang xét đến những địa chỉ đích trongkhoảng thời gian 2 giây

 SYNErrRateFromSource: tổng kết nối bị lỗi SYN từ địa chỉ

nguồn giống địa chỉ nguồn của gói dữ liệu đang xét đến những địa chỉđích trong khoảng thời gian 2 giây

 REJErrRateFromSource: tổng kết nối bị lỗi REJ từ địa chỉ

nguồn giống địa chỉ nguồn của gói dữ liệu đang xét đến những địa chỉđích trong khoảng thời gian 2 giây

Định dạng
Số trang	117
Dung lượng	2,1 MB