Mạng nơ-ron là một phương pháp học máy được chọn trong luận văn để ứng dụng cho bài toán phát hiện xâm nhập theo phương pháp học máy... Việc áp dụng các mô hình học máy, mà cụ thể là mạn
Trang 1NGUYỄN XUÂN DŨNG
NGHIÊN CỨU ỨNG DỤNG MÔ HÌNH MẠNG NƠ-RON
TRONG BÀI TOÁN PHÁT HIỆN XÂM NHẬP
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Trang 2NGUYỄN XUÂN DŨNG
NGHIÊN CỨU ỨNG DỤNG MÔ HÌNH MẠNG NƠ-RON
TRONG BÀI TOÁN PHÁT HIỆN XÂM NHẬP
Chuyên ngành: Công nghệ thông tin
Mã số: 60.48.02.01
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Người hướng dẫn khoa học: TS Lê Hồng Trang
NGHỆ AN, 2017
Trang 3LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được
ai công bố trong bất kỳ công trình nào khác
Hà Nội, ngày ….tháng … năm …
Người thực hiện
Nguyễn Xuân Dũng
Trang 4LỜI CẢM ƠN
Lời đầu tiên, tôi xin chân thành gửi tới lời cảm ơn sâu sắc đến thầy
TS Lê Hồng Trang, người đã gợi ý đề tài và tận tình hướng dẫn cho tôi hoàn thành luận văn cao học này
Tôi cũng xin gửi lời cảm ơn chân thành tới Ban Giám hiệu Trường Đại học Vinh, Khoa Sau đại học, các thầy cô giáo trong khoa Công nghệ thông tin, truyền đạt và tạo điều kiện học tập tốt nhất cho tôi suốt quá trình học cao học cũng như thời gian thực hiện luận văn cao học
Một lần nữa tôi chân thành cảm ơn!
Trang 5MỤC LỤC
Trang
LỜI CAM ĐOAN I LỜI CẢM ƠN II MỤC LỤC III DANH MỤC CÁC CHỮ VIẾT TẮT V DANH MỤC CÁC HÌNH VI
MỞ ĐẦU 1
CHƯƠNG 1: BÀI TOÁN PHÁT HIỆN XÂM NHẬP MẠNG 4
1.1 Khái niệm về xâm nhập mạng 4
1.2 Các tiếp cận phát hiện xâm nhập mạng 4
1.3 Kết luận chương 10
CHƯƠNG 2: HỆ THỐNG PHÁT HIỆN XÂM NHẬP MẠNG 11
2.1 Tổng quan 11
2.2 Phát hiện bất thường 11
2.3 Một số phương pháp 12
2.3.1 Phương pháp sử dụng hệ chuyên gia 12
2.3.2 Phương pháp dựa vào thống kê và phân tích dữ liệu 13
2.3 Kết luận chương 14
CHƯƠNG 3: ÁP DỤNG MÔ HÌNH MẠNG NƠ-RON NHIỀU TẦNG CHO BÀI TOÁN PHÁT HIỆN XÂM NHẬP 15
3.1 Mạng nơ-ron và áp dụng cho bài toán phát hiện xâm nhập 15
3.2 Thực nghiệm mô hình 19
3.2.1 Dữ liệu 19
3.2.2 Một số thao tác tiền xử lý 19
3.3 Kết quả thực thi 23
3.4 Kết luận chương 26
Trang 6KẾT LUẬN 27 DANH MỤC CÁC TÀI LIỆU THAM KHẢO 28
Trang 7DANH MỤC CÁC CHỮ VIẾT TẮT
Intrusion Detection System
Hệ thống phát hiện truy nhập
dựa trên ứng dụng
Detection System
Hệ thống phát hiện xâm nhập
dựa trên máy trạm
Trang 8DANH MỤC CÁC HÌNH
Hình 1.1 Mô hình NIDS 6
Hình 1.2 IDS đặt trong miền DMZ 7
Hình 1.3 Mô hình HIDS 9
Hình 1.4 Mô hình lai ghép giữa NIDS và HIDS 10
Hình 2.1 Mô hình sử dụng hệ chuyên gia 13
Hình 3.1 Kiểm tra dữ liệu 15
Hình 3.2 Mạng MLP tổng quát 16
Hình 3.3 Điều chỉnh lại trọng số trong cơ chế lan truyền ngược 18
Hình 3.4 Ví dụ siêu phẳng với lề cực đại trong R 2 22
Hình 3.5 Giao diện chương trình phát hiện xâm nhập mạng nơ-ron 24
Hình 3.6 Thông số các lớp đầu vào và đầu ra của mạng nơ-ron 24
Hình 3.7 Quá trình học của mạng nơ-ron 25
Hình 3.8 Kết quả test trên một dòng dữ liệu (0,1,0 là trạng thái DOS) 25
Hình 3.9 Kết quả test trên 22544 dòng dữ liệu 26
Trang 9MỞ ĐẦU Đặt vấn đề
Thế kỷ 21, sự bùng nổ internet toàn cầu và ngày càng phát triển mạnh
mẽ và ảnh hưởng hầu hết tất cả các lĩnh vực trong đời sống con người Tuy nhiên những lo ngại về các mối đe dọa ngày càng gia tăng đến tính bảo mật, tính toàn vẹn, an toàn về thông tin gây ra hậu quả nghiêm trọng về kinh tế, xã hội, chính trị Những bất ổn về mạng internet trên thế giới ảnh hưởng tới Việt Nam và không ít lần các hệ thống website nổi tiếng bị tấn công bởi các mục đích khác nhau Chính vì vậy cần phải có biện pháp phát hiện sớm các cuộc tấn công mạng để từ đó có giải pháp thích hợp để xử lý
Giải quyết vấn đề
Một số hệ thống phát hiện xâm nhập (IDS – Intrusion Detection System)
nhằm phát hiện và ngăn chặn sớm các cuộc tấn công mạng Hướng tiếp cận để xây dựng IDS thường theo các tiếp cận dưới đây
- Hệ chuyên gia: Phương pháp này sử dụng dò lỗi trong mạng, hệ thống
sẽ dựa vào các luật được định nghĩa khi có cuộc tấn công sẽ so sánh các đặc trưng, dấu hiệu của gói tin với tập luật đã có Ưu điểmcủa phương pháp này là
dễ định nghĩa nhưng phát hiện thấp vì có thể thêm các luật mới với cơ chế hoạt động không phức tạp Nhược điểm là không có luật cho các kiểu tấn công mới dẫn đến hệ thống không phát hiện được khi mà số lượng luật nhiều làm hệ thống hoạt động chậm Thêm vào đó khả năng cập nhập luật mới phụ thuộc vào sự am hiểu của người quản trị
- Ứng dụng học máy: Với mục đích khắc phục việc phải cập nhật các
luật mới có thể tạo ra xung đột trong tập luật đã có IDS dựa trên mạng nơ-ron một số lượng nhất định các mẫu dữ liệu được thu thập để phát hiện bất thường Mạng nơ-ron là một phương pháp học máy được chọn trong luận văn để ứng dụng cho bài toán phát hiện xâm nhập theo phương pháp học máy
Trang 10Lý do chọn đề tài
Bài toán phát hiện xâm nhập và chống tấn công ngày càng nhận được sự quan tâm rộng rãi trong cả khía cạnh nghiên cứu và ứng dụng Trong bối cảnh phát triển nhanh chóng của các công nghệ mạng và các thiết bị di động, lượng
dữ liệu thu thập và xử lý của các hệ thống chống thâm nhập do đó sẽ rất lớn Việc áp dụng các mô hình học máy, mà cụ thể là mạng nơ-ron, cho bài toán phát hiện xâm nhập là hướng đi có tiềm năng để tìm ra được một công cụ hiệu quả Với mong muốn tìm hiểu sâu hơn về mạng nơ-ron và ứng dụng của nó giải bài toán phát hiện và chống xâm nhập mạng trái phép, tôi chọn đề tài làm nội dung cho luận văn thạc sĩ
Đối tượng và phạm vi sử dụng của đề tài
Luận văn tập tìm hiểu về bài toán phát hiện xâm nhập và một số phương pháp phổ biến để giải quyết bài toán Trọng tâm của luận văn nghiên cứu áp dụng mô hình mạng MLP để giải bài toán phát hiện xâm nhập với dữ liệu lấy từ KDD cup 99 Ngoài ra đề tài cũng đề cập đến việc sử dụng mô hình SVM trong việc xử lý dữ liệu nhằm nâng cao kết quả thực nghiệm
Nội dung luận văn gồm 3 chương:
Chương 1: Bài toán phát hiện xâm nhập mạng
Chương này đưa ra các khái niệm về xâm nhập mạng và các tiếp cận
phát hiện xâm nhập.Chương 1 cũng giới thiệu về các hệ thống phát hiện xâm nhập từ đó lựa chọn hệ thống để xây dựng mô hình
Chương 2: Hệ thống phát hiện xâm nhậpmạng
Chương này trình bày tổng quan hệ thống phát hiện xâm nhập và một
số phương pháp phổ biến.Qua đó liên hệ cho việc phát triển xây dựng mô hình IDS thích hợp với yêu cầu bài toán cần đặt ra
Chương 3: Áp dụng mô hình mạng nơ-ron nhiều tầng cho bài toán phát hiện xâm nhập
Trang 11Trình bày việc áp dụng mô hình mạng nơ-ron nhiều tầng cho bài toán phát hiện xâm nhập Một số thao tác tiền xử lý dữ liệu được trình bày Mô hình được thực thi và thực nghiệm với một số dữ liệu, các kết quả được đưa ra và phân tích
Trang 12CHƯƠNG 1: BÀI TOÁN PHÁT HIỆN XÂM NHẬP MẠNG
1.1 Khái niệm về xâm nhập mạng
Tấn công mạng hay còn gọi là xâm nhập mạng trái phép được hiểu là hành động nhằm tổn hại đến tính toàn vẹn, bảo mật của các tài nguyên mạng Sandeep Gutta[1] định nghĩa tấn công mạng là các hoạt động đe dọa tính toàn vẹn và bảo mật của một hệ thống mạng máy tính Mục đích của việc tấn công
có thể là để truy cập trái phép thông tin, phá hủy thông tin, hay phá vỡ hoạt động bình thường của hệ thống
1.2 Các tiếp cận phát hiện xâm nhập mạng
Trước hết hệ thống phát hiện xâm nhập IDS liên quan đến việc phát hiện các hoạt động tấn công Do đó công cụ bảo mật mạng này sử dụng cả hai
kỹ thuật chính Kỹ thuật thứ nhất là phát hiện dị thường nhằm tìm ra vấn đề phát hiện xâm nhập liên quan đến các sai lệnh so với hệ thống thông thường hoặc trong hành vi người dùng Kỹ thuật thứ hai sử dụng phát hiện dấu hiệu
để phân biệt giữa các mẫu tấn công không bình thường và dấu hiệu phát hiện xâm phạm đã biết Cả hai phương pháp đều có những ưu điểm và nhược điểm cũng như ứng dụng hợp lý
Khi xem xét đến vùng chứa dữ liệu được sử dụng cho việc phát hiện xâm nhập, chúng ta có phân loại khác được sử dụng ở đây dưới dạng kiểu hệ thống được bảo vệ Nhóm công cụ IDS sử dụng thông tin được lấy từ một host (hệ thống) – IDS host (HIDS) và các IDS sử dụng thông tin thu được từ đoạn mạng cục bộ (IDS mạng) Hai loại chính của HIDS có thể phân biệt là:
- Hệ thống này kiểm tra các kết nối mạng gửi đến và gửi đi của một host
Ở đây có một sự liên quan của những cố gắng kết nối trái phép với TCP hoặc các cổng UDP và cũng có thể phát hiện việc quét cổng gửi tới
- Các hệ thống kiểm tra lưu lượng mạng (các gói mạng) đang cố gắng truy cập vào host Các hệ thống này bảo vệ host bằng cách chặn gói nghi ngờ và
Trang 13xem xét đến vấn đề trọng tải của đường truyền (kiểm tra gói)
- Các hệ thống kiểm tra hoạt động đăng nhập vào lớp mạng của host được bảo vệ (HostSentry) Vai trò này là để kiểm tra các cố gắng đăng nhập và đăng xuất, tìm kiếm các hoạt động không bình thường trên một hệ thống ở những khoảng thời gian không mong đợi, các vị trí mạng cụ thể hoặc phát hiện nhiều cố gắng đăng nhập (điển hình là các cố gắng thất bại)
- Hệ thống kiểm tra các hoạt động siêu người dùng, người có quyền ưu tiên cao nhất (kiểm tra bản ghi) IDS quét các hoạt động bất thường, hoạt động của siêu người dùng được tăng hoặc hoạt động đã thực hiện ở những thời điểm cụ thể,…
- Hệ thống kiểm tra tính toàn vẹn file (Tripwire, AIDE) Các công cụ có khả năng này (bộ kiểm tra tính toàn vẹn) cho phép phát hiện bất cứ sự thay đổi nào xảy ra đối với các file quan trọng cho hệ điều hành
- Hệ thống kiểm tra trạng thái thanh ghi (chỉ cho hệ thống Windows) Chúng được thiết kế để phát hiện bất kỳ những thay đổi không hợp lệ nào trong thanh ghi hệ thống và cảnh báo cho quản trị viên hệ thống Ba hệ thống phát hiện xâm nhập phổ biến được trình bày trong các mục tiếp theo
Hệ thống phát hiện xâm nhập dựa vào mạng
Hệ thống phát hiện xâm nhập dựa vào mạng (NIDS) là hệ thống tập hợp gói tin để phân tích sâu bên trong mà không làm thay đổi cấu trúc gói tin, giám sát toàn bộ mạng con bằng cách kiểm soát, phân tích các luồng thông tin trên mạng và hoạt động của nhiều máy trạm nội bộ, NIDS kiểm soát các gói
tin trên mạng bằng cách kết nối vào Hub, Switch được cấu hình Port
mirroring hoặc Network tap để có thể bắt các gói tin, phân tích nội dung nhận
được và từ đó sinh ra các cảnh báo đến trạm quản trị nhằm tìm ra biện pháp ngăn chặn những xâm nhập xa hơn
Trang 14Hình 1.1 Mô hình NIDS 1
Port mirroring là cơ chế của Switch mạng để gửi một bản sao của tất cả các gói tin trên mạng khi nó đi qua cổng của Switch tới một thiết bị giám sát mạng trên cổng khác của Switch đó Nó thường được sử dụng để các thiết bị
mạng có thể giám sát luồng tin trên mạng
Network tap là một thiết bị phần cứng như: máy tính, Router, Switchvà
nối với các hệ thống khác Network tap có ít nhất là 3 cổng kết nối, một cổng
A, một cổng B, một cổng giám sát và cho qua tất cả các dữ liệu giữa A và B vì thế giao tiếp giữa hai điểm A và B vẫn diễn ra bình thường, tuy nhiên dữ liệu trao đổi đã bị Network tạo sao chép và đưa vào thiết bị giám sát thông qua cổng giám sát[1]
Trong NIDS, các Sensor được đặt ở các điểm cần kiểm tra trong mạng,
thường là trước miền DMZ (hay còn gọi là vùng an toàn) hoặc ở vùng biên
của mạng, các Sensor bắt tất cả các gói tin lưu thông trên mạng và phân tích
nội dung bên trong của từng gói tin để phát hiện các dấu hiệu tấn công trong mạng Hình 1.2 cho thấy nếu đặt trong trường hợp này IDS sẽ theo dõi tất cả lưu lượng vào/ra trong miền DMZ
1 http://www.ipmac.com.vn/technology-corner/bao-mat-he-thong-voi-he-thong-idsips-phan-1
Trang 15Hình 1.2 IDS đặt trong miền DMZ 2
Cách thức hoạt động của NIDS chia làm hai hệ thống đó là hệ thống phát hiện truy cập dựa trên giao thức (PIDS) và hệ thống phát hiện truy nhập dựa trên ứng dụng (APIDS).PIDS và APIDS được sử dụng để giám sát các giao vận và giao thức không hợp lệ hoặc không mong muốn trên luồng dữ liệu hoặc hạn chế các ngôn ngữ giao tiếp PIDS chứa một hệ thống hoặc một thành phần thường được đặt ngay trước một máy chủ, giám sát và phân tích các giao thức trao đổi giữa các thiết bị được nối mạng[1]
Ưu điểm:
- Quản lý được cả một network segment (gồm nhiều host)
- Trong suốt với người sử dụng lẫn kẻ tấn công
- Cài đặt và bảo trì đơn giản, không ảnh hưởng tới mạng
- Tránh DOS ảnh hưởng tới một host nào đó
- Có khả năng xác định lỗi ở tầng Network
Trang 16- Không thể phân tích các dữ liệu đã được mã hóa (VD: SSL, SSH, IPSec )
- NIDS đòi hỏi phải được cập nhật các signature mới nhất để thực sự
an toàn
- Có độ trễ giữa thời điểm bị tấn công với thời điểm phát báo động Khi báo động được phát hiện, hệ thống có thể đã bị tổn hại
- Không cho biết việc tấn công có thành công hay không
- Hạn chế lớn nhất là giới hạn băng thông Những bộ dò mạng phải nhận tất cả các lưu lượng mạng, sắp xếp lại những lưu lượng đó và phân tích chúng Khi tốc độ mạng tăng lên thì khả năng của đầu dò
cũng phải tăng theo
Hệ thống phát hiện xâm nhập dựa trên máy trạm
Hệ thống phát hiện xâm nhập dựa trên máy trạm (HIDS) là thiết bị bảo mật cho việc phát hiện các tấn công trực tiếp tới một máy chủ, nó theo dõi các hoạt động bất thường trên các Host riêng biệt HIDS được cài đặt bằng một phần mềm trên máy chủ theo dõi hệ điều hành, các cuộc gọi hệ thống, lịch sử (audit log) và những thông điệp báo lỗi trên hệ thống máy chủ Khi phát hiện xâm nhập trái phép hệ thống ghi nhận những việc mà người tấn công đã làm trên máy chủ tấn công, tuy nhiên không phải tất cả các cuộc tấn công đều được thực hiện qua mạng và cũng có thể giành quyền truy nhập ở mức vật lý vào hệ thống máy tính
Trang 17Hình 1.3 Mô hình HIDS 3
Ưu điểm:
- Có khả năng xác định user liên quan tới event
- HIDS có khả năng phát hiện tấn công diễn ra trên một máy
- Có thể phân tích các dữ liệu mã hóa
- Cung cấp các thông tin về host trong lúc cuộc tấn công diễn ra trên host này
Nhược điểm
- Thông tin từ HIDS là không đáng tin cậy ngay khi sự tấn công vào host này thành công
- Khi hệ điều hành bị sập do tấn công, đồng thời HIDS cũng sập
- HIDS phải được thiết lập trên từng host cần giám sát
- HIDS không có khả năng phát hiện các cuộc dò quét mạng (Nmap, Netcat )
- HIDS cần tài nguyên trên host để hoạt động
- HIDS có thể không hiệu quả khi bị DOS
3 https://quantrimang.com/host-based-ids-va-network-based-ids-phan-1-38250
Trang 18Hệ thống phát hiện xâm nhập lai ghép
Đây là hệ thống lai ghép giữa NIDS và HIDS Sự kết hợp một hoặc nhiều các thành phần thích hợp của hai hệ thống lại với nhau Các thông tin thu thập được trên máy trạm kết hợp với thông tin thu thập được ở trên mạng
để có sự phân tích chi tiết về hiện trạng của hệ thống mạng Hình 1.4 mô phỏng IDS lai trong việc nâng cao chất lượng giám sát mạng
Hình 1.4 Mô hình lai ghép giữa NIDS và HIDS [1]
1.3 Kết luận chương
Chương này trình bày khái niệm xâm nhập mạng và các tiếp cận phát hiện xâm nhập Chương 1 cũng giới thiệu các IDS đã được phát triển và sử dụng hiện nay, bên cạnh đó nêu rõ ưu nhược điểm của mỗi loại cũng như cách thức hoạt động Trong chương tiếp theo luận văn trình bày một số phương pháp phổ biến để xây dựng mô hình IDS