DSpace at VNU: Đánh giá hiệu quả một số thuật toán trong phát hiện xâm nhập mạng tài liệu, giáo án, bài giảng , luận văn...
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
-
TRẦN THỊ HƯƠNG
ĐÁNH GIÁ HIỆU QUẢ MỘT SỐ THUẬT TOÁN TRONG PHÁT HIỆN
XÂM NHẬP MẠNG
LUẬN VĂN THẠC SĨ KHOA HỌC
Hà Nội – 2016
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
-
TRẦN THỊ HƯƠNG
ĐÁNH GIÁ HIỆU QUẢ MỘT SỐ THUẬT TOÁN TRONG PHÁT HIỆN
XÂM NHẬP MẠNG
Chuyên ngành: Cơ sở Toán học cho Tin học
LUẬN VĂN THẠC SĨ KHOA HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Lê Trọng Vĩnh
Trang 3MỤC LỤC
DANH MỤC HÌNH VẼ iii
DANH MỤC BẢNG BIỂU iv
DANH MỤC CÁC TỪ VIẾT TẮT v
LỜI CẢM ƠN vi
LỜI MỞ ĐẦU 1
Chương 1: Tổng quan về phát hiện xâm nhập mạng 3
1.1 Giới thiệu 3
1.2 Xâm nhập 4
1.2.1 Khái niệm 4
1.2.2 Một số kiểu xâm nhập phổ biến 4
1.2.3 Một số giải pháp ngăn chặn xâm nhập truyền thống 6
1.3 Hệ thống phát hiện xâm nhập mạng 7
1.3.1 Định nghĩa 7
1.3.2 Phân loại hệ thống phát hiện xâm nhập mạng 8
1.4 Một số cách tiếp cận cho bài toán phát hiện xâm nhập 11
1.4.1 Cách tiếp cận dựa vào luật 11
1.4.2 Cách tiếp cận dựa vào thống kê 12
1.4.3 Cách tiếp cận dựa vào học máy 13
1.4.4 Hướng tiếp cận của luận văn 16
Chương 2: Phát hiện xâm nhập mạng dựa vào học máy 17
2.1 Hồi quy logistic 18
2.2 Máy véc-tơ hỗ trợ 21
2.2.1 SVM tuyến tính 22
2.2.2 SVM phi tuyến tính 26
2.3 Mạng nơ-ron nhân tạo 27
2.3.1 Mô hình mạng nơ-ron nhân tạo 28
2.3.2 Phát hiện xâm nhập dựa vào mạng nơ-ron 33
2.4 Rút gọn đặc trưng 36
Trang 4Chương 3: Đánh giá hiệu quả của một số thuật toán học máy 41
trong việc phát hiện xâm nhập mạng 41
3.1 Bộ dữ liệu KDD CUP 99 41
3.2 Tiền xử lý dữ liệu 45
3.2.1 Chuyển các giá trị phi số sang số 46
3.2.2 Chuẩn hóa giá trị đầu vào 50
3.3 Kết quả thực nghiệm 52
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 58
CÁC CÔNG BỐ LIÊN QUAN 60
TÀI LIỆU THAM KHẢO 61
Trang 5DANH MỤC HÌNH VẼ
Hình 1.1 Hệ thống phát hiện xâm nhập NIDS 9
Hình 1.2 Hệ thống phát hiện xâm nhập HIDS 10
Hình 2.1 Quá trình phát hiện xâm nhập dựa vào học máy 18
Hình 2.2 Hình dạng hàm sigmoid 19
Hình 2.3 Một siêu phẳng phân chia dữ liệu học thành hai lớp 22
Hình 2.4 Dữ liệu không phân tách tuyến tính 25
Hình 2.5 Hàm ánh xạ từ không gian hai chiều sang không gian ba chiều 27
Hình 2.6 Mô phỏng một perceptron 28
Hình 2.7 Mô phỏng mạng nơ-ron ba lớp 30
Hình 2.8 Các bước huấn luyện mạng nơ-ron 33
Hình 2.9 Các bước kiểm tra dữ liệu với mô hình mạng nơ-ron sau khi huấn luyện 34 Hình 2.10 Sơ đồ huấn luyện mạng nơ-ron trong hệ thống phát hiện xâm nhập 35
Hình 2.11 Phát hiện gói tin bất thường sử dụng mạng nơ-ron 36
Hình 3.1 Độ đo Information Gain của 41 thuộc tính 55
Trang 6DANH MỤC BẢNG BIỂU
Bảng 3.1 Mô tả các đặc trưng của bộ dữ liệu KDD cup 99 41
Bảng 3.2 Bảng phân bố số lượng các kiểu trạng thái kết nối trong 45
Bảng 3.3 Bảng chuyển đổi đối với các loại giao thức 46
Bảng 3.4 Bảng chuyển đổi các trạng thái cờ kết nối 46
Bảng 3.5 Bảng chuyển đổi đối với các loại dịch vụ 47
Bảng 3.6 Bảng phân bố và chuyển đổi nhãn của các trạng thái mạng 48
Bảng 3.7 Các kiểu tấn công mới trong bộ dữ liệu 50
Bảng 3.8 Giá trị nhỏ nhất và lớn nhất của các cột trong tập “Whole KDD 99” 51
Bảng 3.9 Kết quả chạy chương trình trên các thuật toán học máy 54
Bảng 3.10 Kết quả thực nghiệm khi sử dụng 31 đặc trưng 56
Trang 7DANH MỤC CÁC TỪ VIẾT TẮT
Viết tắt Ý nghĩa
IDS Intrusion Detection System
NIDS Network- Based Intrusion Detection System HIDS Host- Based Intrusion Detection System
ANN Artificial Neural Network
Trang 8LỜI CẢM ƠN
Trước tiên, em xin được gửi lời cảm ơn chân thành nhất của mình tới
PGS.TS Lê Trọng Vĩnh, trường Đại học Khoa học Tự nhiên, Đại học Quốc gia
Hà Nội đã dành nhiều công sức hướng dẫn em thực hiện luận văn này cũng như trong suốt quá trình học tập và làm việc tại trường
Em cũng xin chân thành cảm ơn các thầy cô trong Bộ môn Tin học, trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội đã nhiệt tình truyền đạt kiến thức, kinh nghiệm, phương pháp nghiên cứu và cả sự say mê khoa học tới nhiều lứa học viên cao học trong đó có em
Em cũng xin gửi lời cảm ơn sâu sắc tới gia đình, bạn bè, anh chị em những người đã luôn sát cánh bên em, giúp đỡ quan tâm, động viên trong suốt quá trình học tập cũng như trong thời gian thực hiện đề tài này
Với sự chỉ bảo tận tình của các thầy, các cô, em đã rất cố gắng để hoàn thành luận văn này Tuy nhiên, do em còn nhiều điểm hạn chế nên luận văn còn tồn tại nhiều thiếu sót Em kính mong tiếp tục nhận được những ý kiến góp ý của các thầy, các cô cũng như các bạn học viên để em có thể phát triển đề tài này hơn nữa Một lần nữa em xin gửi tới tất cả mọi người lời cảm ơn chân thành nhất
Học viên Trần Thị Hương
Trang 9LỜI MỞ ĐẦU
Thế kỷ XXI, chứng kiến sự phát triển nhanh chóng của Internet và những ảnh hưởng sâu rộng tới mọi lĩnh vực đời sống của con người Song song với những lợi ích
mà mạng máy tính đem lại thì nó cũng trở thành mục tiêu lợi dụng của những kẻ tấn công, xâm nhập trái phép nhằm thực hiện những mưu đồ xấu, đe dọa tới tính an toàn về bảo mật thông tin của các tổ chức hay những người dùng kết nối mạng Mặc dù, mỗi hệ thống máy tính đều có những cơ chế tự bảo vệ riêng nhưng có thể chưa đủ để phát hiện hay ngăn chặn những cuộc tấn công ngày một tinh vi hơn Vấn đề đặt ra là làm sao xây dựng được một hệ thống có thể phát hiện sớm và có hiệu quả các cuộc tấn công hay xâm nhập trái phép từ đó đưa ra những cảnh báo và biện pháp xử lý kịp thời Một số các hệ thống phát hiện xâm nhập mạng truyền thống được áp dụng khá phổ biến và rộng rãi trên thế giới như hệ thống phát hiện xâm nhập dựa trên tập luật, phân tích thống kê,…Các hệ thống trên đã phát hiện tốt những cuộc tấn công đã biết với tỷ lệ cảnh báo sai thấp Tuy nhiên, chúng tại tỏ ra kém hiệu quả đối với những cuộc tấn công mới, đồng thời phải luôn cập nhật luật mới
Một vài nghiên cứu gần đây [1][5] đưa ra một hướng tiếp cận mới dựa vào học máy cho bài toán phát hiện xâm nhập mạng Từ những nghiên cứu và thực nghiệm trên những bộ dữ liệu chuẩn, các tác giả chỉ ra rằng các thuật toán dựa vào học máy có khả năng học và tiếp thu những tri thức mới từ những tri thức đã biết từ đó giúp phân loại những mẫu đã được học, dự đoán tốt những mẫu mới (các kiểu tấn công mới) Điều này hứa hẹn sẽ đem lại một cách tiếp cận hiệu quả cho bài toán phát hiện xâm nhập.Vì vậy, luận văn sẽ tập trung đi theo hướng tiếp cận này và lựa chọn ba thuật toán điển hình đang nhận được sự quan tâm nghiên cứu gần đây là hồi quy logistic, máy véc-tơ
hỗ trợ, mạng nơ-ron nhân tạo Đồng thời tiến hành xây dựng các hệ thống phát hiện xâm nhập dựa vào các thuật toán học máy từ đó phân tích và đánh giá hiệu quả của từng thuật toán trong việc phát hiện xâm nhập
Trang 10Luận văn “Đánh giá hiệu quả một số thuật toán trong phát hiện xâm nhập mạng” được chia làm ba chương với nội dung như sau:
Chương 1: Tổng quan: Hệ thống hóa các vấn đề liên quan tới phát hiện xâm
nhập mạng và hệ thống phát hiện xâm nhập mạng Ngoài ra, chương một cũng trình bày một số cách tiếp cận chính để giải quyết vấn đề phát hiện xâm nhập mạng
Chương 2: Phát hiện xâm nhập mạng dựa vào học máy: Trình bày một số
thuật toán học máy có giám sát điển hình như hồi quy logistic, máy véc-tơ hỗ trợ, mạng nơ-ron nhân tạo cho bài toán phát hiện xâm nhập, cũng như việc áp dụng các thuật toán giải quyết bài toán này Bên cạnh đó, trong chương này cũng trình bày vấn đề rút gọn
các đặc trưng sử dụng độ đo information gain để giảm thiểu chi phí tính toán và thời
gian phát hiện
Chương 3: Đánh giá hiệu quả của một số thuật toán trong việc phát hiện xâm nhập mạng: Tiến hành thực nghiệm các thuật toán học máy đã nêu trong chương
hai trên nhiều bộ dữ liệu chuẩn (KDD CUP 99), từ đó có những đánh giá, nhận xét và
so sánh về tỷ lệ phát hiện xâm nhập cùng thời gian phát hiện của mỗi mô hình
Trang 11Chương 1: Tổng quan về phát hiện xâm nhập mạng
1.1 Giới thiệu
Trong những năm gần đây, sự phát triển như vũ bão của mạng Internet đem lại những lợi ích không nhỏ cho con người bao gồm cả đời sống, công nghệ, kinh tế, xã hội, Bên cạnh đó thì Interner cũng trở thành môi trường lý tưởng cho những kẻ xấu lợi dụng để thực hiện hành vi xâm nhập trái phép, tấn công vào những hệ thống máy tính của các cá nhân hay tổ chức gây ra những thiệt hại nghiêm trọng Vì vậy, vấn đề
an ninh và bảo mật ngày càng được quan tâm
Khi triển khai một hệ thống thông tin thì cũng đồng nghĩa với việc xây dựng cơ chế bảo vệ chặt chẽ, an toàn cho hệ thống thông tin của doanh nghiệp, tổ chức là góp phần quan trọng vào việc duy trì tính bền vững của hệ thống Để làm được điều đó, thì tất cả những hệ thống này cần trang bị những công cụ đủ mạnh, am hiểu cách xử lý để đối phó với những phương thức tấn công vào hệ thống mạng Một bức tường lửa không thể đủ mạnh để có thể chống đỡ mọi ý đồ xâm nhập vào hệ thống Vì vậy, ngoài việc
am hiểu sâu sắc các vấn đề bảo mật của những người quản trị an ninh mạng thì cũng rất cần những hệ thống, hay công cụ có thể trợ giúp đặc lực cho việc đảm bảo an toàn của các hệ thống
Nhiệm vụ bảo mật thông tin và bảo vệ môi trường mạng vì vậy mà rất nặng nề
và khó đoán định trước Nhưng tựu chung lại, các nhiệm vụ trên gồm bốn hướng chính là: bảo đảm an toàn cho phía máy chủ, bảo đảm an toàn cho phía khách, bảo mật thông tin trên đường truyền và phát hiện xâm nhập mạng Trong đó, phát hiện xâm nhập
mạng (intrusion detection) hiện đang là một trong những vấn đề được quan tâm hàng
đầu hiện nay bởi sự gia tăng nhanh chóng của các cuộc xâm nhập trái phép Những kẻ xâm nhập ngày càng nguy hiểm, tinh vi và phức tạp hơn Vì thế, trong nghiên cứu này, luận văn tập trung vào việc nghiên cứu bài toán phát hiện xâm nhập mạng, xây dựng và đánh giá các mô hình phát hiện xâm nhập mạng
Trang 121.2 Xâm nhập
1.2.1 Khái niệm
Hiện nay vẫn chưa có định nghĩa chính xác về thuật ngữ xâm nhập Mỗi chuyên gia trong lĩnh vực an toàn thông tin luận giải thuật ngữ này theo ý hiểu của mình Tuy nhiên, định nghĩa của Kendall năm 1999 được biết đến rộng rãi nhất Tác giả đã đưa ra khái niệm về xâm nhập như sau:
“Tấn công hay còn gọi là xâm nhập mạng là những hoạt động có chủ đích, lợi
dụng các tổn thương của hệ thống thông tin nhằm phá vỡ tính sẵn sàng, tính toàn vẹn
và tính bảo mật của hệ thống” [8]
1.2.2 Một số kiểu xâm nhập phổ biến
Có rất nhiều kiểu xâm nhập mạng khác nhau và thường được phân thành các
loại chính: tấn công từ chối dịch vụ, kiểu thăm dò, tấn công chiếm quyền “root”, tấn
công điều khiển từ xa Phần dưới đây sẽ trình bày chi tiết về các kiểu tấn công này
a) Tấn công từ chối dịch vụ
Tấn công từ chối dịch vụ (Denial of Service) hay viết tắt DoS là kiểu tấn công
làm cho một hệ thống nào đó bị quá tải không thể cung cấp dịch vụ, làm gián đoạn hoạt động của hệ thống hoặc hệ thống phải ngưng hoạt động [8]
Tùy theo phương thức thực hiện mà nó được biết dưới nhiều tên gọi khác nhau Bắt đầu là lợi dụng sự yếu kém của giao thức TCP để thực hiện tấn công từ chối dịch
vụ DoS Ngoài ra còn có kiểu tấn công từ chối dịch vụ phân tán DDoS (Distributed
Denial of Service) và mới nhất là tấn công từ chối dịch vụ theo phương pháp phản xạ
DRDoS (Distributed Reflection of Service)
Trang 13tiếp ICMP tới địa chỉ Broadcast của các mạng với địa chỉ nguồn là mục tiêu cần tấn công, tấn công “gây lụt” UDP…
Tấn công dịch vụ phân tán DDoS xuất hiện vào năm 1999, so với tấn công DoS
cổ điển, sức mạnh của DDoS cao hơn gấp nhiều lần Hầu hết các cuộc tấn công DDoS nhằm vào việc chiếm dụng băng thông gây nghẽn mạch hệ thống dẫn đến hệ thống ngưng hoạt động Để thực hiện thì kẻ tấn công tìm cách chiếm dụng và điều khiển nhiều máy tính/mạng máy tính trung gian, từ nhiều nơi để đồng loạt gửi ào ạt các gói tin với số lượng rất lớn nhằm chiếm dụng tài nguyên và làm nghẽn đường truyền của một mục tiêu xác định nào đó
b) Tấn công thăm dò
Đối với kiểu tấn công thăm dò (Probe), tin tặc quét mạng hoặc máy tính để tìm
ra điểm yếu dễ tấn công mà thông qua đó tin tặc có thể thu thập thông tin trái phép về tài nguyên, các lỗ hổng hoặc dịch vụ của hệ thống Các kiểu tấn công thăm dò như: Sniffing, Ping Sweep, Ports Scanning,… [8]
Ví dụ: Sniffer là một hình thức nghe lén trên hệ thống mạng dựa trên những đặc điểm của cơ chế TCP/IP Sniffer ban đầu là một kỹ thuật bảo mật, được phát triển nhằm giúp các nhà quản trị mạng khai thác mạng hiệu quả hơn và có thể kiểm tra các
dữ liệu ra vào mạng cũng như các dữ liệu trong mạng Sau này, kẻ tấn công dùng phương pháp này để lấy cắp mật khẩu hay các thông tin nhạy cảm khác Biến thể của sniffer là các chương trình nghe lén bất hợp pháp như: công cụ nghe lén yahoo, ăn cắp mật khẩu của thư điện tử,…
c) Tấn công chiếm quyền root
Kiểu tấn công chiếm quyền root (User to Root) viết tắt là U2R, tin tặc với quyền
của một người dùng bình thường cố gắng để đạt được quyền truy nhập cao nhất (đặc quyền của người quản trị) vào hệ thống một cách bất hợp pháp [8] Cách thức phổ biến của kiểu tấn công này là gây tràn bộ đệm
Trang 14Kiểu tấn công này ít gặp hơn so với hai kiểu tấn công DoS và probe Tuy nhiên, đây cũng là loại tấn công rất nguy hiểm do kẻ tấn công chiếm được quyền cao nhất và chúng có thể kiểm soát toàn bộ hệ thống
d) Tấn công điều khiển từ xa
Đây là kiểu tấn công điều khiển từ một máy tính từ xa có tên tiếng anh là
“remote to local” hay R2L Ban đầu, kẻ tấn công không có tài khoản trong hệ thống
nhưng chúng lại cố gắng gửi các gói tin đến một máy tính trong một hệ thống thông qua mạng Sau đó, chúng khai thác các lỗ hổng bảo mật để truy cập trái phép nhưng với tư cách của một người dùng cục bộ [8] Cách tấn công phổ biến của loại này là đoán mật khẩu thông qua phương pháp từ điển brute-force, FTP Write,
1.2.3 Một số giải pháp ngăn chặn xâm nhập truyền thống
Một số các biện pháp ngăn chặn xâm nhập được sử dụng khá phổ biến như:
tường lửa (firewall), mã hóa, xác thực, quyền truy cập,…
a) Tường lửa
Tường lửa có thể là phần mềm hay phần cứng được thiết kế để ngăn chặn những truy cập trái phép và cho phép các truy cập hợp pháp được lưu thông dựa trên một tập luật và các tiêu chuẩn khác Ngoài ra tường lửa còn có thể mã hóa, giải mã hay ủy quyền cho các giao dịch giữa các miền bảo mật khác nhau Một số loại tường lửa có chức năng chuyên dụng như: tường lửa lọc gói, cổng ứng dụng, cổng mức mạch…
Tường lửa có một số điểm yếu như:
(i) Không chống được các tấn công từ bên trong mạng Tường lửa luôn giả sử rằng kẻ xấu chỉ ở bên ngoài mạng, còn mọi trạm bên trong mạng là đánh tin cậy
(ii) Không chống được sự lây nhiễm và phá hoại của các chương trình virus hay