Đối tượng nghiên cứu của luận án là nghiên cứu các phương pháp phân tích và phát hiện lưu lượng bất thường dựa trên phân tích thành phần chính PCA, đề xuất một số đóng góp mới, cụ thể gồ
Trang 1BỘ THÔNG TIN VÀ TRUYỀN THÔNG
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Mã số: 62.52.02.08
TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT
Hà Nội - 2017
Trang 2Công trình được hoàn thành tại: Học viện Công nghệ
Bưu chính Viễn thông
Người hướng dẫn khoa học:PGS TSKH Hoàng Đăng Hải
Phản biện 1:………
………
Phản biện 2:………
………
Phản biện 3………
………
Luận án sẽ được bảo vệ trước Hội đồng chấm luận án cấp Học viện tại:………
………
Vào hồi giờ ngày tháng năm Có thể tìm hiểu luận án tại thư viện:……… Thư viện Quốc gia Việt Nam
Thư viện Học viện Công nghệ Bưu chính Viễn thông
Trang 3MỞ ĐẦU
Phát hiện lưu lượng mạng bất thường đã là một chủ đề nghiên cứu được quan tâm nhiều trong những năm qua Bất thường có thể do nhiều nguyên nhân như: hỏng hóc thiết bị mạng, lỗi đường truyền, lỗi cấu hình, tăng đột ngột số lượng truy nhập của khách hàng, các hoạt động tấn công của tin tặc, phát tán thư rác, sâu máy tính v.v
Để xác định nguyên nhân và xử lý, việc đầu tiên cần thực hiện là
thu thập dữ liệu về lưu lượng mạng, tiến hành phân tích và phát hiện dấu hiệu bất thường Sau đó cần phân loại nguồn gốc, xác định nguyên nhân và xử lý các bất thường căn cứ theo nguyên nhân Phân tích và phát hiện bất thường là giai đoạn quan trọng trong toàn bộ quá trình và là phạm vi nghiên cứu của luận án Cụ thể, trọng tâm của luận án là trên cơ sở lưu lượng mạng thu thập được cần có phương pháp xác định xem lưu lượng đó có phải là bất thường hay không để đưa ra cảnh báo
Đối tượng nghiên cứu của luận án là nghiên cứu các phương pháp phân tích và phát hiện lưu lượng bất thường dựa trên phân tích thành phần chính (PCA), đề xuất một số đóng góp mới, cụ thể gồm:
- Đề xuất một công thức mới cho tính khoảng cách dựa trên công thức Minkowski có bổ sung thêm trọng số
- Đề xuất một phương pháp mới có tên là dPCA sử dụng công thức tính khoảng cách nêu trên dPCA hoạt động phân cấp dùng 1 mức ngưỡng và 2 mức ngưỡng
- Đề xuất hai phương pháp phát hiện và khử ngoại lai trong tập dữ liệu mẫu là: phương pháp udPCA và phương pháp K-means trong kết hợp với phương pháp dPCA
- Đề xuất một mô hình kết hợp giữa phát hiện xâm nhập dựa trên dấu hiệu và phát hiện bất thường theo phương pháp dPCA được tích hợp vào một hệ thống giám sát cho phân tích và phát hiện lưu lượng
Trang 4bất thường, phát hiện tấn công mạng trên phân đoạn mạng có kết nối Internet
Phương pháp nghiên cứu được sử dụng trong luận án là nghiên
cứu mô hình toán học kết hợp với mô phỏng, thử nghiệm
Cấu trúc của luận án gồm phần mở đầu, 4 chương nội dung, phần kết luận Nội dung chính của các chương như sau:
- Chương 1: Cơ sở lý thuyết và các nghiên cứu liên quan
- Chương 2: Phương pháp phân tích và phát hiện lưu lượng bất thường dPCA
- Chương 3: Phương pháp khử ngoại lai trong tập dữ liệu mẫu
- Chương 4: Hệ thống giám sát với phương pháp phát hiện lưu lượng bất thường
CHƯƠNG 1: CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU
LIÊN QUAN 1.1 Thu thập lưu lượng mạng Internet
Hiện nay, phương pháp cơ bản để thu thập lưu lượng là theo gói tin hoặc luồng tin Để phát hiện bất thường, các nghiên cứu cho thấy rằng cần tách lưu lượng thu được thành dữ liệu thuộc tính Các thuộc tính gồm số byte, số gói tin, địa chỉ IP, cổng nguồn/ đích v.v… Việc lựa chọn thuộc tính dữ liệu rất quan trọng vì ảnh hưởng trực tiếp đến hiệu suất c ng như độ chính xác phát hiện
1.2 Tổng quan về các phương pháp, mô hình phân tích và phát hiện lưu lượng bất thường
Trong một số năm qua, nhiều giải pháp đã được đưa ra để phân tích và phát hiện lưu lượng bất thường Mặc dù các giải pháp hết sức
đa dạng, song chúng thường được phân loại theo ba nhóm chính là: 1) nhóm dựa vào thống kê, 2) nhóm dựa vào khai phá dữ liệu và học máy, 3) nhóm dựa vào tri thức Việc phân loại mang tính chất tương đối vì thực tế một phương pháp có thể đồng thời thuộc các nhóm
Trang 5khác nhau Phương pháp thống kê dựa trên giả định mô hình tuân theo một phân bố thống kê biết trước hoặc dựa trên dữ liệu thực nghiệm trong điều kiện bình thường từ đó so sánh với độ lệch hoặc khoảng cách với điều kiện bình thường để phát hiện ra bất thường
1.3 Phương pháp phân tích và phát hiện lưu lượng bất thường dựa trên PCA (gọi tắt là phương pháp PCA)
Đây là phương pháp thuộc nhóm thống kê, dựa trên thuật toán phân tích thành phần chính (Principal Component Analysis) làm nền tảng PCA là thuật toán thống kê sử dụng phương pháp biến đổi tuyến tính trực giao nhằm chuyển một tập hợp các quan sát có sự tương quan thành tập các giá trị tuyến tính không tương quan được gọi là thành phần chính (Principal Component - gọi tắt là PC) Tập
hợp quan sát với dữ liệu p-chiều được ánh xạ sang miền m-chiều
(miền con hay không gian con có m thành phần chính) Số lượng
thành phần chính có thể bằng hoặc ít hơn các biến ban đầu
Phương pháp chung để phân tích và phát hiện bất thường là tính khoảng cách thống kê của mỗi tập dữ liệu quan sát tới tâm hay trung bình thống kê của tập dữ liệu Khoảng cách phổ biến là Euclidean, Mahalanobis Những phương pháp PCA điển hình là phương pháp phân tích từng thành phần chính, phương pháp phân tích phần dư
(dựa trên nhóm PC cuối), phương pháp dựa trên thống kê T 2 hay khoảng cách Mahalanobis (sử dụng PC chủ yếu và thứ yếu)
1.4 Nhận xét, đánh giá
Qua khảo sát các công trình nghiên cứu phân tích và phát hiện lưu lượng mạng bất thường dựa trên PCA tới nay, có thể đưa ra một số nhận xét, đánh giá như sau:
Vẫn chưa có một công thức bao quát cho tính khoảng cách để từ
đó tìm ra các tham số phù hợp với mục tiêu giảm độ phức tạp tính toán song vẫn đạt hiệu quả
Trang 6 Vấn đề sử dụng những thành phần chính nào hiệu quả và giảm được số chiều dữ liệu khi xét đến độ phức tạp của thuật toán
Đối với các phương pháp PCA sử dụng tập dữ liệu mẫu, ngoại lai
có thể xuất hiện trong tập dữ liệu mẫu làm sai lệch profile Vì vậy việc làm sạch tập dữ liệu mẫu trước khi tạo profile là điều cần thiết Các nghiên cứu dựa trên PCA tới nay chưa có đề xuất cụ thể nào về phương pháp loại bỏ ngoại lai trong tập dữ liệu mẫu mà thường giả thiết tập mẫu không chứa ngoại lai khi thử nghiệm
Việc lựa chọn vị trí thu thập, lựa chọn các thuộc tính lưu lượng cần thu thập c ng góp phần quan trọng vào nâng cao hiệu quả phát hiện bất thường
CHƯƠNG 2: PHƯƠNG PHÁP PHÂN TÍCH VÀ PHÁT HIỆN
LƯU LƯỢNG BẤT THƯỜNG 2.1 Mở đầu
Chương 2 trình bày về mô hình chung hệ thống phân tích và phát hiện lưu lượng bất thường với dựa trên PCA, đề xuất phương pháp dPCA và thử nghiệm, đánh giá phương pháp đề xuất
2.2 Mô hình hệ thống dựa trên phương pháp PCA
Hệ thống hoạt động theo hai pha:
Pha tạo profile: Hệ thống cần tạo trước profile với dữ liệu sạch (dữ liệu không chứa bất thường Pha này hoạt động ngoại tuyến (offline)
Trang 7Pha phát hiện: Pha này hoạt động trực tuyến online ỗi quan sát mới chứa các thuộc tính dữ liệu cần chuyển sang miền con của PCA từ áp dụng phương pháp phân tích, phát hiện bất thường
Mô hình chung của hệ thống phân tích, phát hiện lưu lượng bất thường dựa trên PCA bao gồm những thành phần sau:
Thu thập, tiền xử l dữ liệu, tách thuộc tính
Bộ biến đổi PCA: Dữ liệu sau quá trình chuẩn hóa được biến đổi
để chuyển sang miền dữ liệu của PCA
Module phân tích và phát hiện bất thường: thực hiện việc phân tích những thành phần chính nào sử dụng để phát hiện bất thường, tính khoảng cách, thiết lập mức ngưỡng, tạo tập tham số trạng thái bình thường (profile) Từ profile đã tạo sẽ so sánh với những
dữ liệu cần kiểm tra để phát hiện bất thường
Cảnh báo: Kết quả phát hiện được đưa ra cảnh báo
2.3 Công thức tính khoảng cách thống kê trong phân tích và phát hiện lưu lượng bất thường
Việc xác định hệ thống ở trạng thái bình thường hay bất thường phụ thuộc vào độ lệch hay khoảng cách thống kê (gọi tắt là khoảng cách) của điểm đang xét từ trạng thái bình thường Các phương pháp tính khoảng cách phổ biến là khoảng cách Euclidean, bình phương Euclidean, Mahalanobis Những phương pháp khác như khoảng cách Mahattan (hay City Block), khoảng cách Minkowski, khoảng cách Canberra chủ yếu chỉ được sử dụng trong các bài toán thống kê Luận án đề xuất áp dụng công thức Minkowski bổ sung trọng số trong miền con PCA như sau:
Khi chuyển sang miền con PCA, khoảng cách Minkowski từ mỗi quan sát đến tâm (gốc tọa độ của miền con PCA) sẽ là:
1
p c i i
Trang 8Tuy nhiên, mỗi biến có thể có độ biến thiên hoặc đơn vị khác nhau Đồng thời, trong miền con PCA, không cần thiết phải tính
khoảng cách cho tất cả p thành phần chính Vì vậy, luận án bổ sung trọng số wi phù hợp với mỗi biến để làm giảm sự sai lệch trong công
thức tính khoảng cách như sau:
q c
2.4 Phương pháp PCA
Phương pháp dPCA (Distance-based anomaly detection method
in PCA subspace là phương pháp phân tích và phát hiện bất thường trong miền con PCA và sử dụng công thức tính khoảng cách (2.13)
2.4.1 Lựa chọn các tham số để tính khoảng cách trong dPCA
Bằng cách thay đổi các trọng số wi và tham số c, ta có thể thiết lập
linh hoạt các tham số cho công thức tính khoảng cách (2.13)
Khi c=2, wi=1, công thức (2.13) trở thành:
Trang 9Về lý thuyết có thể chọn nhiều giá trị wi khác nhau nhưng cách thường dùng là chuẩn hóa theo phương sai Do trị riêng λi đóng vai trò là phương sai trong miền con PCA nên có thể chuẩn hóa với λi
2
2 2
Công thức 2.19 tương đương với công thức của phương pháp
PCA trong các nghiên cứu đã khảo sát áp dụng thống kê T 2
Khi c=1, wi =1 công thức (2.13) trở thành khoảng cách Manhattan
trong miền con PCA:
Do trị riêng đóng vai trò là phương sai trong miền con PCA nên
có thể chuẩn hóa các giá trị |yi| với căn bậc hai của trị riêng
2
2
- wi=1 phù hợp khi tính d với các thành phần chính khi sự
chênh lệch giữa các trị riêng không lớn, đặc biệt là những PC thứ yếu
- wi ≠ 1 phù hợp khi tính d với các thành phần chính khi
có sự chênh lệch đáng kể giữa các trị riêng Sự chênh lệch thường nằm ở những PC chủ yếu hoặc khi dùng tất
cả PC để tính khoảng cách
- Độ phức tạp của thuật toán tính khoảng cách:
Trang 10o Khi c=2 độ phức tạp là O(kn2) với k là số PC được sử dụng,
n là số lượng quan sát được tính khoảng cách
o Khi c=1 độ phức tạp là O(kn) Do đó có thể sử dụng c=1 để
giảm độ phức tạp tạp trong tính khoảng cách của dPCA so với các công trình nghiên cứu điển hình dựa trên PCA trước đây
2.4.2 Sự phân cấp của dPCA
Hình 2.3 mô tả chế độ hoạt động của phương pháp dPCA
PC thứ yếu
Phân tích từng PC
Hình 2.1 Phân cấp trong phương pháp dPCA
Trong đó dPCA hoạt động theo 2 cấp:
Cấp 1: dPCA sử dụng PC thứ yếu để tính khoảng cách Trong trường hợp cần thiết có thể sử dụng tất cả PC và bỏ qua cấp 2 Phương pháp này cần 1 mức ngưỡng cho khoảng cách được gọi là dPCA1T (dPCA with 1 threshold) Khi sử dụng tất cả PC để tính
khoảng cách d, có thể phát hiện được bất thường có đột biến xuất
hiện ở những PC khác nhau Tuy nhiên sử dụng tất cả PC để tính
khoảng cách với dPCA1T chỉ được áp dụng khi số thuộc tính p
ban đầu không quá lớn vì sẽ tốn nhiều tài nguyên của hệ thống và
nên đặt trọng số wi ≠ 1
Cấp 2: Cấp 2 có các chế độ hoạt động
Trang 11- Hoạt động song song với cấp 1: Chế độ song song sử dụng PC chủ yếu để tính khoảng cách đồng thời với khoảng cách dùng PC thứ yếu tại cấp 1
- Hoạt động dự phòng cho cấp 1: Chế độ dự phòng chỉ sử dụng PC chủ yếu để tính khoảng cách với những dữ liệu đã được phát hiện
là bình thường tại cấp 1 để tìm những bất thường mà cấp 1 có thể
bỏ sót Ưu điểm của phương pháp này là không cần tính đồng thời tất cả dữ liệu với cả 2 cấp do đó giảm được số lượng dữ liệu mà cấp 2 cần xử l Nhược điểm là phải chờ sau khi cấp 1 xử lý xong, dữ liệu coi là bình thường mới chuyển đến cấp 2
- Xét từng PC để phát hiện bất thường nếu cần thiết: phương pháp này khó phân tích đồng thời nhiều PC và phải thiết lập mức ngưỡng cho từng PC
dPCA1T chỉ sử dụng một mức ngưỡng cho khoảng cách Khoảng cách được tính theo công thức (2.13) dùng PC thứ yếu hoặc dùng tất
cả PC
Khi sử dụng cả PC thứ yếu và PC chủ yếu để tính khoảng cách, mỗi khoảng cách cần có một mức ngưỡng riêng nên phương pháp này được luận án đặt tên là dPCA2T (dPCA with 2 thresholds) dPCA2T có thể phát hiện thêm bất thường với khoảng cách sử dụng
PC chủ yếu nhưng đồng thời c ng làm tăng tỷ lệ cảnh báo sai
Do phát hiện c ng lúc bất thường ở cả PC chủ yếu và thứ yếu, phương pháp này cho kết quả phát hiện bất thường TPR cao hơn một chút so với chỉ sử dụng PC thứ yếu Tuy nhiên phương pháp 2 mức ngưỡng thường c ng trả giá bằng tỷ lệ cảnh báo sai cao hơn và tốn nhiều tài nguyên hơn Trong những hệ thống thực tế, thông thường số lượng dữ liệu bình thường chiếm đa số so với bất thường
Vì vậy nếu tỷ lệ cảnh báo sai tăng lên một chút c ng làm cho số lượng dữ liệu bình thường phát hiện sai là bất thường tăng lên nhiều
Trang 12Ví dụ: dữ liệu bình thường chiếm 90%, bất thường chiếm 10%, như vậy chỉ 1% dữ liệu bình thường phát hiện nhầm là bất thường c ng gây ra số lượng lớn cảnh báo sai Do đó tính khoảng cách với cả PC chủ yếu và thứ yếu liên tục có thể vừa tốn năng lực xử lý, tài nguyên của hệ thống vừa làm tăng cảnh báo sai không cần thiết
Khi trạng thái bình thường trong profile thiết lập tốt, phần lớn những bất thường trong PC chủ yếu đã được phát hiện với PC thứ yếu tại cấp 1 Trong trường hợp số lượng bất thường phát hiện được với cấp 2 không hiệu quả vì cấp 1 đã hoạt động tốt thì t y theo điều kiện thực tế có thể giảm tần suất kiểm tra tại cấp 2 hoặc tắt hẳn cấp 2 nhằm giảm tỷ lệ cảnh báo sai trong điều kiện dữ liệu bình thường chiếm đa số và giảm mức độ tính toán
2.4.3 Thiết lập mức ngưỡng
Thiết lập mức ngưỡng là một vấn đề khó trong các phương pháp phát hiện lưu lượng bất thường nói chung Mức ngưỡng là tham số rất nhạy cảm giữa tỷ lệ phát hiện bất thường chính xác đúng và tỷ
lệ cảnh báo sai (phát hiện nhầm dữ liệu bình thường là bất thường).Trong luận án, mức ngưỡng được tính dựa trên hàm phân bố tích
l y thực nghiệm (Empirical cumulative distribution function - ECDF) Đây là hàm ước tính dựa trên dữ liệu thực nghiệm của hàm
phân bố tích lu Từ α là tỷ lệ cảnh báo sai ước lượng, ta có thể tính khoảng cách với mức ngưỡng dN tương ứng với (1- α) của hàm phân
bố tích l y thực nghiệm Ví dụ: với α = 5%, mức ngưỡng lựa chọn
tương ứng với 95% của ECDF Tùy thuộc áp dụng dPCA1T hoặc dPCA2T, sẽ cần thiết lập một hoặc hai mức ngưỡng với ECDF
Trang 13nối có tổng cộng 14 thuộc tính Các thông số đánh giá độ chính xác dựa trên các thông số phổ biến của những nghiên cứu đã có bao gồm:
- TPR (True Positive Rate): Tỷ lệ giữa số quan sát bất thường phát hiện đúng và tổng số quan sát bất thường thử nghiệm
- FPR (False Positive Rate): Tỷ lệ giữa số quan sát bình thường bị phát hiện sai là bất thường và tổng số quan sát bình thường
Để so sánh với các kết quả của những nghiên cứu điển hình đã có, biểu đồ và các bảng thể hiện các nhóm tham số như sau:
- Nhóm 1: nhóm sử dụng công thức (2.13) với c=2 và wi=1 tương
đương phương pháp phân tích phần dư của những nghiên cứu đã có
Trên biểu đồ ký hiệu tham số (c=2, w=1)
- Nhóm 2: nhóm sử dụng công thức (2.13) với c=1, wi=1/ tương
đương phương pháp sử dụng thống kê T 2
của những nghiên cứu đã
có Trên biểu đồ dạng cột nhóm này có ký hiệu tham số (c=2, w<>1)
- Nhóm 3: nhóm sử dụng công thức (2.13) với c=1,wi=1 Trên biểu
đồ nhóm này có ký hiệu tham số (c=1, w=1)
- Nhóm 4: nhóm sử dụng công thức (2.13) với c=1, wi =1 / i
Trên biểu đồ nhóm này có ký hiệu tham số ( c=1, w<>1)
k là số thành phần chính được sử dụng để tính khoảng cách
TP là số kết nối phát hiện đúng
Kết quả thử nghiệm thể hiện trên hình 2.3, bảng 2.3 và bảng 2.6
Nhận xét: Khi k=3, dPCA1T (nhóm 3 và nhóm 4) cho kết quả TP
và TPR cao hơn nhóm 1, xấp xỉ nhóm 2 Tỷ lệ cảnh báo sai FPR của nhóm 3 và nhóm 4 nhỏ hơn nhóm 1 và xấp xỉ nhóm 2 Khi tăng số
lượng PC lên k=5, dPCA1T (nhóm 3 và nhóm 4) cho kết quả TP và
TPR cao hơn nhóm 1và nhóm 2 Tỷ lệ FPR của nhóm 3 và nhóm 4
nhỏ hơn nhóm 1 và xấp xỉ nhóm 2 Khi k=14 (tất cả PC), dPCA1T
nhóm 3 kém hơn nhóm 1 và 2, song dPCA1T nhóm 4 cho kết quả tốt