TRƯỜNG ĐẠI HKHOA CÔNG NGH SINH VIÊN: XÂY DỰNG MÔ HÌNH PHÁT HI DỰA TRÊN PHÂN TÍCH GÓI TIN S I HỌC TÀI NGUYÊN VÀ MÔI TRƯỜNG HÀ N KHOA CÔNG NGHỆ THÔNG TIN SINH VIÊN: NGUYỄN VŨ THU HOÀI NG
Trang 1TRƯỜNG ĐẠI H
KHOA CÔNG NGH
SINH VIÊN:
XÂY DỰNG MÔ HÌNH PHÁT HI
DỰA TRÊN PHÂN TÍCH GÓI TIN S
I HỌC TÀI NGUYÊN VÀ MÔI TRƯỜNG HÀ N
KHOA CÔNG NGHỆ THÔNG TIN
SINH VIÊN: NGUYỄN VŨ THU HOÀI
NG MÔ HÌNH PHÁT HIỆN ĐỘT NHẬP M
A TRÊN PHÂN TÍCH GÓI TIN SỬ DỤNG PHƯƠ
PHÁP N-GRAM
Hà Nội – Năm 2015
NG HÀ NỘI
P MẠNG PHƯƠNG
Trang 2TRƯỜNG ĐẠI H
KHOA CÔNG NGH
XÂY DỰNG MÔ HÌNH PHÁT HI
DỰA TRÊN PHÂN TÍCH GÓI TIN S
Chuyên ngành:
Mã ngành:
NG
I HỌC TÀI NGUYÊN VÀ MÔI TRƯỜNG HÀ N
KHOA CÔNG NGHỆ THÔNG TIN
NGUYỄN VŨ THU HOÀI
NG MÔ HÌNH PHÁT HIỆN ĐỘT NHẬP M
A TRÊN PHÂN TÍCH GÓI TIN SỬ DỤNG PHƯƠ
PHÁP N-GRAM
Chuyên ngành: Công nghệ thông tin
Mã ngành:
NGƯỜI HƯỚNG DẪN: Ths.NGUYỄN VĂN HÁCH
Hà Nội – Năm 2015
NG HÀ NỘI
P MẠNG
NG PHƯƠNG
ĂN HÁCH
Trang 3LỜI CẢM ƠN
Trên thực tế không có sự thành công nào mà không gắn liền với sự hỗ trợ giúp đỡ dù ít hay nhiều, dù gián tiếp hay trực tiếp của người khác Trong suốt thời gian học tập tại giảng đường Đại Học Tài Nguyên Và Môi Trường
Hà Nội Em đã nhận được sự quan tâm sâu sắc của quý thầy cô là giảng viên trong trường Đặc biệt là quý thầy cô trong khoa Công Nghệ Thông Tin
Với lòng biết ơn sâu sắc nhất, em xin gửi lời cảm ơn tới quý thầy cô Trường Đại Học Tài Nguyên Môi Trường nói chung và thầy cô khoa Công Nghệ Thông Tin nói riêng đã dành hết tâm huyết của mình để truyền đạt hết vốn kiến thức quý báu của mình cho chúng em trong thời gian học tập tại trường
Trong thời gian này, Nhà trường đã tạo điều kiện cho chúng em được làm đồ án bảo vệ tốt nghiệp để chúng em nâng cao kiến thức của mình, và trong thời gian làm đồ án em đã nhận được sự tận tình chỉ bảo của Thầy Nguyễn Văn Hách là thầy giáo hướng dẫn tại trường Đại Học Tài Nguyên và Môi Trường Hà Nội Thầy đã tận tâm hướng dẫn em, cung cấp đầy đủ các mẫu tài liệu cũng như xem xét và góp ý đồ án của em, trả lời thắc mắc của sinh viên Không có sự giúp đỡ của Thầy chúng em khó có thể hoàn thành tốt
đồ án này Em xin chân thành cảm ơn thầy
Đồ án tốt nghiệp của em làm trong khoảng thời gian ngắn và còn nhiều
bỡ ngỡ và sai sót, rất mong quý thầy cô tận tình giúp đỡ, góp ý cho đồ án tốt nghiệp của em được hoàn thiện hơn
Cuối cùng chúng em xin kính chúc quý thầy cô luôn mạnh khỏe, hạnh phúc và thành công trên sự nghiệp “Người lái đò cao cả” để dìu dắt những thế
hệ trẻ chúng em thành công hơn trong bước đường đời
Trân trọng !
Trang 4LỜI CAM ĐOAN
Tên em là Nguyễn Vũ Thu Hoài sinh viên lớp ĐH1C2 – Khoa Công Nghệ Thông Tin – Trường Đại Học Tài Nguyên và Môi Trường Hà Nội
Em xin cam đoan toàn bộ nội dung của đề án do em tự học tập, nghiên cứu và xây dựng thông qua sách báo, internet Không sao chép hay sử dụng bài làm của bất kì ai khác, mọi tài liệu đều được trích dẫn cụ thể
Em xin chịu hoàn toàn trách nhiệm về lời cam đoan của mình trước quý thầy cô trong khoa và nhà trường
NGƯỜI CAM ĐOAN
Nguyễn Vũ Thu Hoài
Trang 5MỤC LỤC
MỞ ĐẦU 1
CHƯƠNG I: TỔNG QUAN VỀ ĐỀ TÀI PHÁT HIỆN ĐỘT NHẬP … … 4
1.1 Các vấn đề an toàn hệ thống thông tin và các phương pháp đảm bảo an toàn 4
1.1.1 Các yêu cầu đảm bảo tính an toàn cho hệ thông thông tin 5
1.1.2 Các dạng tấn công, đột nhập thường gặp 6
1.2 Một số phương pháp phát hiện đột nhập 12
1.2.1 Các phương pháp dựa trên kỹ thuật phân tích dữ liệu 12
1.2.2 Các phương pháp dựa trên nguồn dữ liệu 13
1.3 Một số phương pháp phòng chống tấn công đột nhập mạng 15
1.3.1 Các biện pháp ngăn chặn đột nhập mạng 15
1.3.2 Giải pháp phát hiện đột nhập mạng IDS 18
1.4 Mô tả bài toán đề xuất trong đồ án 19
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT ỨNG DỤNG TRONG PHÁT HIỆN ĐỘT NHẬP MẠNG 20
2.1 Khái quát về phân tích payload 20
2.1.1 Gói tin và payload 20
2.1.2 Ứng dụng của phân tích payload vào hệ phát hiện đột nhập mạng 22
2.2 Phân tích payload sử dụng phương pháp n-gram 24
2.2.1 Giới thiệu về phương pháp n-gram 24
2.2.2 Phân tích payload sử dụng n-gram 25
2.2.3 Lựa chọn giá trị n trong quá trình phân tích payload 26
2.3 Giải pháp lưu trữ và đối sánh n-gram sử dụng bộ lọc Bloom 27
2.3.1 Bộ lọc bloom 28
Trang 62.3.2 Lưu trữ n-gram với bộ lọc bloom 30
2.3.3 Giải thuật trích xuất n-gram 31
2.3.4 Bộ lọc Bloom nội dung xấu 33
2.3.5 Một số giải pháp nâng cao hiệu quả bộ phát hiện 34
CHƯƠNG 3: XÂY DỰNG MÔ HÌNH PHÁT HIỆN ĐỘT NHẬP SỬ DỤNG PHƯƠNG PHÁP N-GRAM 37
3.1 Sơ đồ khối hệ thống cài đặt thử nghiệm và thủ tục chương trình 37
3.1.1 Sơ đồ khối hệ thống cài đặt thử nghiệm 37
3.1.2 Thủ tục chạy chương trình 39
3.2 Cài đặt thử nghiệm và đánh giá 42
3.2.1 Cấu hình cài đặt 42
3.2.2 Thu thập và tiền xử lý dữ liệu 43
3.2.3 Huấn luyện mô hình 44
3.2.4 Kiểm thử quá trình phát hiện của mô hình 47
3.2.5 Thủ tục chạy chương trình 48
3.2.6 Một số kết quả và đánh giá 48
3.3 Kết chương 50
KẾT LUẬN 51
Kết quả đạt được 51
Hướng nghiên cứu trong tương lai 51
TÀI LIỆU THAM KHẢO 52
Trang 7DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
MTU Max Transmission Unit Kích thước tối đa của đơn vị dữ
liệu được truyền IDS Intrusion Detection System Hệ thống phát hiện xâm nhập NIDS Network-based Instrusion
Detection Systems
Hệ thống phát hiện đột nhập mạng
detection systems
Hệ thống phát hiện đột nhập cho trạm
detection
Phát hiện tải trọng bất thường
Trang 8DANH MỤC CÁC BẢNG
Bảng 3.1 So sánh tỷ lệ cảnh báo sai FP giữa Anagram (Binary Based) và PAYL
(Freq Based) với cùng tỷ lệ phát hiện là 100% 49
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1 Các chương trình phá hoại 7
Hình 1.2 Tấn công gián đoạn 9
Hình 1.3 Tấn công nghe trộm 10
Hình 1.4 Tấn công giả mạo 11
Hình 1.5 Tấn công thay đổi gói tin 11
Hình 1.6 Mô tả NIDS 14
Hình 1.7 Mô tả HIDS 15
Hình 1.8 Các mức ngăn chặn đột nhập 16
Hình 2.1 Cấu trúc của gói tin IP 21
Hình 2.2 Một bộ lọc Bloom m bit với 4 hàm hash 29
Hình 2.3 Chèn 5-gram vào một bộ lọc Bloom 31
Hình 2.4 Mô hình hóa ngẫu nhiên 35
Hình 2.5 Kiểm thử ngẫu nhiên 36
Hình 3.1 Mô hình hệ phát hiện tấn công đột nhập dựa trên payload Anagram 38
Hình 3.2 Khởi chạy Memcached 39
Hình 3.3 Khởi chạy ActiveMQ 40
Hình 3.4 Khởi chạy chương trình Anagram 40
Hình 3.5 Kết thúc traning và bắt đầu pha phát hiện 41
Hình 3.6 Kết thúc pha phát hiện 41
Hình 3.7 Tập các mẫu traffic thu thập cho quá trình kiểm thử mô hình 44
Hình 3.8 Tỷ lệ phát hiện n-gram đơn nhất mới khi tăng số mẫu huấn luyện 46
Hình 3.9 Tỷ lệ cảnh báo sai (FP) khi tăng thời gian huấn luyện mô hình 47
Trang 9MỞ ĐẦU
1 Lý do chọn đề tài
Từ khi ra đời mạng Internet đã mở ra một làn sóng mới về xu hướng phát triển của xã hội, đó là sự phát triển như vũ bão của thời đại công nghệ thông tin và truyền thông Sự bùng nổ của công nghệ thông tin đã và đang ảnh hưởng sâu rộng tới mọi lĩnh vực của cuộc sống Đặc biệt cùng với sự phát triển của Internet, nhiều dịch vụ trực tuyến cũng phát triển mạnh mẽ như các dịch vụ thương mại điện tử, thanh toán trực tuyến… Lợi ích Internet mang lại như: cho phép mọi người truy cập, khai thác và chia sẻ thông tin
Mạng Internet mang lại rất nhiều tiện ích hữu dụng cho người sử dụng, một trong các tiện ích phổ thông của Internet là hệ thống thư điện tử (email), trò chuyện trực tuyến (chat), công cụ tìm kiếm (search engine), các dịch vụ thương mại và chuyển ngân và các dịch vụ về y tế giáo dục như là chữa bệnh
từ xa hoặc tổ chức các lớp học ảo Chúng cung cấp một khối lượng thông tin
và dịch vụ khổng lồ trên Internet
Song song với những tiến bộ và lợi ích mang lại, Internet cũng là không gian rộng mở cho kẻ xấu lợi dụng thực hiện những vụ tấn công, đột nhập, truy cập trái phép để đánh cắp, thay đổi thông tin làm ảnh hưởng không chỉ tới lợi ích cá nhân mà còn có thể xâm hại đến lợi ích quốc gia thông qua các hệ thống máy tính và mạng của người dùng Vì thế, bên cạnh việc phát triển các dịch vụ và ứng dụng trên mạng, vấn đề an toàn mạng và bảo mật thông tin cũng là một thách thức lớn cần được quan tâm nghiên cứu thường xuyên Có rất nhiều công cụ và kiểu mô hình dữ liệu để kiểm tra và bảo vệ an ninh mạng Trong đó phải kể tới phương pháp N-gram, một mô hình dữ liệu an ninh mạng tiên tiến và mạnh mẽ hiện nay với những ưu điểm nổi bật
2 Mục tiêu của đề tài
Trang 10- Phân tích gói tin sử dụng phương pháp N-gram và ứng dụng vào phát hiện tấn công đột nhập mạng
- Xây dựng mô hình phát hiện tấn công đột nhập sử dụng phương pháp N-gram
3 Phương pháp nghiên cứu đề tài
- Nghiên cứu tài liệu, thu thập, đánh giá
- Trao đổi với giảng viên hướng dẫn
- Kiểm nghiệm chương trình
4 Đối tượng và phạm vi nghiên cứu đề tài
- Đối tượng nghiên cứu: Phân tích gói tin sử dụng phương pháp n-Gram
và ứng dụng xây dựng mô hình phát hiện đột nhập mạng
- Phạm vi nghiên cứu: Trường Đại học Tài nguyên và Môi trường Hà Nội
5 Tổng quan về đề tài
- Chương 1: Tổng quan về đề tài phát hiện đột nhập: Trình bày một
cách tổng quan về các vấn đề đảm bảo an toàn cho thông tin và hệ thống, phân loại các phương pháp phát hiện đột nhập hiện có và các kỹ thuật xử lý
dữ liệu thường dùng cho các mô hình phát hiện đột nhập Chương này cũng trình bày khái quát về hướng tiếp cận của mô hình đề xuất cho việc xây dựng một hệ thống phát hiện đột nhập mạng
- Chương 2: Cơ sở lý thuyết ứng dụng trong phát hiện đột nhập
mạng: Nghiên cứu sâu về các kỹ thuật phân tích payload, bao gồm phương
pháp phân tích payload dựa trên n-gram và phương pháp phân tích payload
dựa trên đối sánh mẫu
- Chương 3: Xây dựng hệ phát hiện đột nhập mạng áp dụng phương
pháp phân tích payload với n-gram: Chương này sẽ đi vào chi tiết các bước
Trang 11xây dựng cài đặt và đánh giá một hệ thống phát hiện đột nhập mạng dựa trên
kỹ thuật phân tích payload với n-gram đã phân tích ở chương hai