1. Trang chủ
  2. » Luận Văn - Báo Cáo

Hệ thống phát hiện xâm nhập mạng dựa theo phát hiện bất thường

57 13 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 57
Dung lượng 1,63 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

37 Hình 18: Mô hình của hệ thống phát hiện xâm nhập mạng dựa trên bất thường theo chuỗi thời gian ..... Do đó việc phát hiện tấn công dựa trên bất thường bằng cách khai thác các dữ liệu

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan Luận văn “Hệ thống phát hiện xâm nhập mạng dựa theo bất thường” là công trình nghiên cứu của riêng tôi Các số liệu được công bố trong Luận văn là hoàn toàn trung thực và chưa từng được công bố trong công trình khoa học nào khác

Tôi đã trích dẫn đầy đủ các tài liệu tham khảo, công trình nghiên cứu có liên quan trong nước và quốc tế Tôi cam đoan không sao chép, sử dụng lại bất cứ số liệu, kết quả nghiên cứu khác mà không ghi rõ tài liệu tham khảo Ngoài các tài liệu tham khảo có liên quan thì luận văn này là kết quả nghiên cứu của cá nhân tôi

Hà Nội, tháng 11/2018

Hoàng Thanh Tùng

Trang 4

LỜI CẢM ƠN

Trước tiên, tôi xin gửi lời cảm ơn sâu sắc tới PGS.TS Nguyễn Linh Giang,

người đã tận tình chỉ bảo tôi từ những bước nghiên cứu đầu tiên cho đến khi hoàn

thành luận văn này

Tôi xin chân thành cảm ơn các thầy cô trong bộ môn Truyền thông mạng -

Đại học Bách khoa Hà Nội đã hỗ trợ tôi rất nhiều về kiến thức chuyên môn trong

quá trình thực hiện, hoàn thành đề tài

Cuối cùng, xin gửi lời cảm ơn tới gia đình và bạn bè, nguồn động viên tinh

thần to lớn với tôi, luôn cổ vũ và tin tưởng tôi

Hà Nội, tháng 11/2018

Hoàng Thanh Tùng

Trang 5

MỤC LỤC

LỜI CAM ĐOAN 1

LỜI CẢM ƠN 2

MỤC LỤC 3

DANH MỤC HÌNH VẼ 5

DANH MỤC BẢNG BIỂU 6

MỞ ĐẦU 7

Lý do chọn đề tài 7

Mục đích nghiên cứu 8

Nội dung cơ bản 8

Đối tượng và phạm vi nghiên cứu 8

Phương pháp nghiên cứu 9

CHƯƠNG 1: TỔNG QUAN PHÁT HIỆN XÂM NHẬP MẠNG DỰA TRÊN BẤT THƯỜNG 10

1.1 Tổng quan về tình hình an toàn thông tin mạng 10

1.2 Giải pháp phát hiện xâm nhập mạng 12

1.3 Tổng quan phát hiện xâm nhập mạng dựa trên bất thường 14

CHƯƠNG 2: KỸ THUẬT PHÁT HIỆN BẤT THƯỜNG THEO CHUỖI THỜI GIAN 20

2.1 Các vấn đề cần giải quyết của kỹ thuật phát hiện bất thường theo chuỗi thời gian 20

2.2 Các kỹ thuật chuyển đổi dữ liệu 21

2.3 Các kỹ thuật phát hiện bất thường 23

2.4 Các vấn đề thực tế trong quá trình giám sát, phát hiện xâm nhập mạng 28

2.5 Lựa chọn kỹ thuật áp dụng 30

Trang 6

CHƯƠNG 3: ÁP DỤNG KỸ THUẬT PHÁT HIỆN BẤT THƯỜNG THEO CHUỖI

THỜI GIAN TRONG PHÁT HIỆN XÂM NHẬP MẠNG 32

3.1 Yêu cầu hệ thống cần xây dựng 32

3.2 Các công cụ, giải pháp đã có để giải quyết bài toán thực tế 32

3.2.1 IBM Qradar 32

3.2.2 Splunk 34

3.2.3 Elastic stack (ELK) 34

3.2.4 Skyline 35

3.2.5 Graphite 37

3.3 Mô hình triển khai phát hiện xâm nhập mạng sử dụng kỹ thuật phát hiện bất thường theo chuỗi thời gian 39

CHƯƠNG 4: CÀI ĐẶT VÀ ĐÁNH GIÁ KẾT QUẢ THỬ NGHIỆM 42

4.1 Cài đặt hệ thống 42

4.2 Các kịch bản phát hiện xâm nhập mạng dựa trên bất thường 44

4.3 Dữ liệu thử nghiệm 44

4.4 Đánh giá kết quả thử nghiệm 46

KẾT LUẬN 50

1 Kết quả đạt được: 50

2 Hạn chế: 50

3 Hướng phát triển: 50

DANH MỤC TÀI LIỆU THAM KHẢO 52

Trang 7

DANH MỤC HÌNH VẼ

Hình 1: Thống kê tấn công DdoS vào các quốc gia 11

Hình 2: Phân loại các phương pháp phát hiện bất thường 15

Hình 3: Dữ liệu điên tâm đồ của bệnh nhân 16

Hình 4: Chuỗi thời gian tuần hoàn và lặp lại 17

Hình 5: Chuỗi thời gian có chu kỳ và lặp lại 18

Hình 6:Chuỗi thời gian có tính chu kỳ nhưng không lặp lại 18

Hình 7: Chuỗi thời gian không có tính chu kỳ và không lặp lại 19

Hình 8: Chuỗi thời gian nhiệt độ các tháng trong năm 20

Hình 9: Ví dụ rời rạc hóa và gán nhãn giá trị 22

Hình 10: Ngưỡng bất thường sử dụng giá trị 3 sigma 26

Hình 11: Dữ liệu thu thập trong tấn công DDos 29

Hình 12: Các thời điểm đăng nhập sai cao bât thường 29

Hình 13: Kiến trúc giải pháp SIEM của IBM Qradar 33

Hình 14: Các thành phần trong hệ thống Elastic stack 34

Hình 15: Kiến trúc của công cụ phát hiện bất thường thời gian thực skyline 35

Hình 16: Giao diện quan sát kết quả phân tích của skyline 36

Hình 17: Kiến trúc của giải pháp lưu trữ dữ liệu chuỗi thời gian Graphite 37

Hình 18: Mô hình của hệ thống phát hiện xâm nhập mạng dựa trên bất thường theo chuỗi thời gian 40

Hình 19: Sơ đồ triển khai mức logic của hệ thống 42

Hình 20: Kết quả thử nghiệm phát hiện tấn công tài khoản 47

Hình 21: Kết quả thử nghiệm tấn công Ddos máy chủ web 47

Hình 22: Kết quả thử nghiệm tấn công Ping Of Death máy chủ 48

Trang 8

DANH MỤC BẢNG BIỂU

Bảng 1: Chuỗi con tạo thành khi dịch chuyển cửa sổ với từng giá trị bước nhảy 25Bảng 2: Cấu trúc lưu trữ dữ liệu của Whisper 39Bảng 3: Danh sách các gói phần mềm cần cài đặt 44

Trang 9

MỞ ĐẦU

Lý do chọn đề tài

Trong thời đại internet phát triển như hiện nay thì việc đảm bảo an toàn thông tin là một việc làm vô cùng cần thiết của bất cứ một cá nhân, tổ chức, quốc gia nào Hiện nay nhờ có sự phát triển bùng nổ của công nghệ dữ liệu lớn (big data) thì việc thu thập các dữ liệu mạng, dữ liệu hoạt động của các ứng dụng, người dùng, thiết bị mạng … trở nên dễ dàng hơn Các dữ liệu này được lưu trữ và sắp xếp theo thời gian vận hành thực tế Do đó việc phát hiện tấn công dựa trên bất thường bằng cách khai thác các dữ liệu hoạt động của hệ thống theo chuỗi thời gian là vô cùng cần thiết và khả thi với điều kiện hiện nay Đây là hướng nghiên cứu khả quan và ứng dụng cao trong thực tiễn

Phát hiện xâm nhập mạng (Network intrusion dectection) là một nhánh nghiên cứu quan trọng của an toàn thông tin mạng (network security) Có hai phương pháp chính được sử dụng để phát hiện xâm nhập mạng đó là: phát hiện dựa trên hành vi không hợp pháp (misuse detection) và phát hiện dựa trên bất thường (anomaly detection) Phát hiện dựa trên hành không hợp pháp được thực hiện bằng cách định nghĩa các các mẫu/dấu hiệu tấn công đã biết Trong khi đó phát hiện tấn công dựa theo bất thường có khả năng phát hiện các tấn công chưa biết Có nhiều kĩ thuật được sử dụng để phát hiện bất thường: sử dụng học máy, tuân thủ chính sách, thống kê Việc phát hiện bất thường dựa trên chuỗi thời gian (time series) hiện là một nhánh nghiên cứu mới đang được áp dụng trong nhiều ngành dựa trên dữ liệu thu thập lớn và lưu trữ theo thời gian thực

Vì vậy, tôi đã chọn nghiên cứu đề tài “Hệ thống phát hiện xâm nhập mạng dựa trên bất thường”, với mục đích đưa ra được một công cụ có thể phát hiện các tấn

công trong hệ thống mạng máy tính

Trang 10

Mục đích nghiên cứu

- Nghiên cứu các vấn đề lý thuyết liên quan tới đề tài (các phương pháp phát hiện bất thường phổ biến, các kỹ thuật tấn công hệ thống mạng, các kỹ thuật lưu trữ và xử lý

dữ liệu lớn, các giải thuật sử dụng để cài đặt);

- Mô hình hóa bài toán “Phát hiện xâm nhập mạng dựa theo phát hiện bất thường”

và đề xuất mô hình giải quyết dựa trên phát hiện bất thường theo chuỗi thời gian

- Đánh giá kết quả của hệ thống đã xây dựng thông qua các kịch bản thử nghiệm

Nội dung cơ bản

Nội dung cơ bản của luận văn tập trung vào việc lý giải tại sao cần xây dựng

hệ thống phát hiện tấn công mạng dựa trên phát hiện bất thường theo chuỗi thời gian Thông qua các kỹ thuật phát hiện bất thường, luận văn sẽ đưa ra các thành phần cần có của hệ thống phát hiện xâm nhập mạng bất thường và mô tả quá trình cài đặt hệ thống trong thực tế Cuối cùng là phần xây dựng các kịch bản thử nghiệm

để đánh giá hệ thống đã xây dựng

Đối tượng và phạm vi nghiên cứu

Đối tượng nghiên cứu chính của luận văn là nghiên cứu phương pháp phát hiện bất thường trên dữ liệu chuỗi thời gian Để đạt được kết quả nghiên cứu, chúng tôi tiến hành thực hiện các nội dung nghiên cứu sau:

- Các phương pháp thu thập, xử lý dữ liệu chuỗi thời gian

- Các kỹ thuật phát hiện chuỗi bất thường trên dữ liệu chuỗi thời gian

- Các kỹ thuật tấn công mạng và khả năng phát hiện bằng phát hiện bất thường theo chuỗi thời gian

- Các công cụ thu thập, lưu trữ và phân tích dữ liệu chuỗi thời gian

Dữ liệu chuỗi thời gian có thể có hai hay nhiều chiều Phạm vi nghiên cứu của luận văn này là dữ liệu chuỗi thời gian có hai chiều, trong đó có một chiều là thời gian

Trang 11

Phương pháp nghiên cứu

- Nghiên cứu các phương pháp phát hiện bất thường trên dữ liệu chuỗi thời gian đã được công bố từ trước đến nay để từ đề xuất ra mô hình hệ thống phát hiện xâm nhập mạng bất thường

- Cài đặt hệ thống trên thực tế

- Xây dựng các bộ dữ liệu thực nghiệm

- Thực nghiệm và đánh giá, so sánh phương pháp được đề xuất trong luận văn với các phương pháp phát hiện tấn công xâm nhập mạng khác

Dựa trên mục đích và nhiệm vụ của đề tài, nội dung luận văn của tôi được trình bày gồm các phần sau:

CHƯƠNG 1: TỔNG QUAN VỀ BÀI TOÁN

Trình bày khái quát các vấn đề về an toàn an ninh mạng và các phương pháp tiếp cận để phát hiện xâm nhập mạng dựa trên bất thường

CHƯƠNG 2: KỸ THUẬT PHÁT HIỆN BẤT THƯỜNG THEO CHUỖI THỜI GIAN

Trình bày các cơ sở lý thuyết phát hiện bất thường theo chuỗi thời gian: khái niệm, giải thuật phát hiện, các kỹ thuật liên quan để xử lý, giải quyết vấn đề

CHƯƠNG 3: ÁP DỤNG KỸ THUẬT PHÁT HIỆN BẤT THƯỜNG THEO CHUỖI THỜI GIAN TRONG PHÁT HIỆN XÂM NHẬP MẠNG

Trình bày mô hình để áp dụng kỹ thuật phát hiện bất thường theo chuỗi thời gian, các công cụ đã có giải quyết bài toán

CHƯƠNG 4: CÀI ĐẶT VÀ ĐÁNH GIÁ KẾT QUẢ THỬ NGHIỆM

Trình bày quá trình cài đặt, thử nghiệm phát hiện các kịch bản phát hiện xâm nhập mạng và đánh giá kết quả

CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

Tổng kết các vấn đề đã làm được trong luận văn và các vấn đề cần tiếp tục hoàn thiện

Trang 12

CHƯƠNG 1: TỔNG QUAN PHÁT HIỆN XÂM NHẬP MẠNG DỰA TRÊN

BẤT THƯỜNG

1.1 Tổng quan về tình hình an toàn thông tin mạng

Ngày nay, cùng với sự phát triển của khoa học kỹ thuật thì việc ứng dụng công nghệ thông tin, Internet vào đời sống hàng ngày là nhu cầu hết sức quan trọng và cần thiết Tuy nhiên đi liền với những tiện lợi mà mạng và Internet mang lại thì vẫn còn tồn tại rất nhiều các vấn đề, đó là các vụ tấn công mạng ngày một ra tăng Môi trường Internet tại Việt Nam hiện có nhiều yếu tố gây mất an toàn như không có cơ chế định danh người dùng, khó kiểm soát các giao tiếp và thiếu sự phối hợp, giám sát giữa các tổ chức quản lý internet Điều này dẫn tới sự bùng nổ của các hành vi như lấy cắp tài khoản, viết và phát tán virus máy tính, tấn công website…, mang lại nhiều nguy cơ tiềm tàng cho an ninh mạng

Thực trạng an toàn thông tin tại Việt Nam ngày càng diễn biến phức tạp và nguy hiểm Các cuộc tấn công mạng có quy mộ, mức độ phức tạp và được chuẩn bị một cách kỹ lưỡng Trong đó, các mục tiêu tấn công đang dần chuyển dịch từ các mục tiêu cá nhân sang các mục tiêu là các tập đoàn kinh tế lớn hay nghiêm trọng hơn là các hệ thống thông tin quan trọng của quốc gia Theo thống kê của các chuyên gia an ninh mạng, trong 9 tháng đầu năm 2017 đã ghi nhận có 9.964 sự cố tấn công vào hệ thống mạng của các cá nhân, tổ chức tại Việt Nam

Các cuộc tấn công bao gồm cả 3 loại hình chính: Malware, Phishing, và Deface Trong đó, tấn công bằng mã độc (malware) phát tán chiếm nhiều nhất với 4.595 lần chiếm 46% tổng số các cuộc tấn công Trong số các nạn nhân của loại hình malware này có tới hơn 20 website có tên miền gov.vn Cũng theo báo cáo, cho đến nay mới chỉ có 2/3 số website này đã được khắc phục

Tuy nhiên trong 4 tháng đầu năm 2018 lại là sự bùng nổ của loại hình tấn công lừa đảo (phishing) nhằm đánh cắp các thông tin nhạy cảm, như tên đăng nhập, mật khẩu hay thông tin về các loại thẻ tín dụng của người dùng Theo thống kê, các vụ tấn công lừa đảo vẫn tiếp tục tăng dần Chỉ riêng tháng 1/2018 đã ghi nhận hơn

Trang 13

1.000 website giả mạo, nhằm thu thập thông tin cá nhân của người dùng thông qua các chương trình khuyến mại, tặng quà tri ân cho khách hàng Không chỉ dừng lại ở các hình thức tấn công bằng cách gửi email giả mạo hay popup lừa đảo mà hiện nay tấn công Phishing còn được kẻ xấu khai thác qua các hình thức khác như: tin nhắn điện thoại, facebook messenger

Theo thống kê của hãng bảo mật Kaspersky Lab, các tổ chức, doanh nghiệp tại Việt Nam đã phải hứng chịu những cuộc tấn công từ chối dịch vụ (DDoS) bùng nổ

Hình 1: Thống kê tấn công DdoS vào các quốc gia

Trang 14

trong quý IV năm 2017 Mức độ gia tăng rất mạsnh từ 0,59% (so với toàn cầu) trong quý III năm 2017 lên đến 1,26% trong quý cuối cùng của năm

Qua đó đưa Việt Nam lên vị trí thứ 5 toàn cầu trong danh sách các quốc gia bị tấn công nhiều nhất trong quý 4 năm 2017 Những quốc gia dẫn đầu lần lượt là: Trung Quốc (59,18%), Mỹ (16%), Hàn Quốc (10,21%), Vương quốc Anh (2,7%) Trên thế giới trong những tháng đầu năm 2018 cũng xẩy ra nhiều cuộc tấn công nguy hiểm, đặc biệt có thể kể đến các cuộc tấn công chiếm quyền điều khiển các máy chủ, máy tính các nhân nhằm mục đích đào tiền ảo Cụ thể vào ngày 6/3/2018, Windows Defender bất ngờ phát hiện ra hơn 80.000 trường hợp của một

số biến thể của Dofoil và đã phát báo động với bộ phận nghiên cứu của Microsoft Windows Defender, sau đó trong vòng 12 giờ đã có hơn 400.000 trường hợp được ghi nhận đã bị tấn công

Như những gì đã diễn ra cho thấy hiện nay chưa có biện pháp hữu hiệu nào đảm bảo an ninh an mạng tại Việt Nam cũng như quốc tế Vì công nghệ càng phát triển thì kéo theo các cuộc tấn công sẽ ngày càng tinh vi hơn, diễn ra nhanh hơn và rộng hơn Với nền công nghệ 4.0, internet kết nối vạn vật (IOT) thì việc đảm bảo an toàn an ninh thông tin sẽ trở nên vất vả cam go hơn đối với những nhà quản trị và chuyên gia an ninh mạng

1.2 Giải pháp phát hiện xâm nhập mạng

Hệ thống phát hiện xâm nhập – IDS là một hệ thống giám sát lưu lượng mạng nhằm phát hiện hiện tượng bất thường, các hoạt động trái xâm nhập phép và hệ thống IDS có thể phân biệt được những tấn công từ bên trong (nội bộ) hay tấn công

từ bên ngoài (từ các tin tặc)

IDS phát hiện dựa trên các dấu hiệu đặc biệt về các nguy cơ đã biết (giống như cách các phần mềm diệt virus dựa vào các dấu hiệu đặc biệt để phát hiện và diệt virus) hay dựa trên so sánh lưu thông mạng hiện tại với baseline (thông số đo đạt chuẩn của hệ thống có thể chấp nhận được ngay tại thời điểm hiện tại) để tìm ra các dấu hiệu khác thường

Tính năng quan trọng nhất của hệ thống phát hiện xâm nhập - IDS là:

Trang 15

- Giám sát lưu lượng mạng và các hoạt động khả nghi

- Cảnh báo về tình trạng mạng cho hệ thống và nhà quản trị

- Kết hợp với các hệ thống giám sát, tường lửa, diệt virus tạo thành một hệ thống bảo mật hoàn chỉnh

Phân loại IDS (hệ thống phát hiện xâm nhập)

- NIDS: hệ thống phát hện xâm nhập mạng Hệ thống sẽ tập hợp gói tin để phân tích sâu bên trong mà không làm thay đổi cấu trúc gói tin NIDS có thể là phần mềm triển khai trên server hoặc dạng thiết bị tích hợp appliance

- HIDS: hệ thống phát hiện xâm nhập điểm cuối, theo dõi các hoạt động bất thường trên các host riêng biệt HIDS được cài đặt trực tiếp trên các máy (host) cần theo dõi

Mỗi thành phần tham gia trong kiến trúc mạng đều có chức năng, điểm mạnh, điểm yếu khác nhau Sử dụng, khai thác đúng mục đích sẽ đem lại hiệu quả cao IDS là một trong những thành phần quan trọng trong các giải pháp bảo vệ hệ thống Khi triển khai có thể giúp hệ thống:

- Theo dõi các hoạt động bất thường đối với hệ thống

- Xác định ai đang tác động đến hệ thống và cách thức như thế nào

- Các hoạt động xâm nhập xảy ra tại vị trí nào trong cấu trúc mạng

Ưu điểm, hạn chế của hệ thống phát hiện xâm nhập:

- Ưu điểm:

 Cung cấp một cách nhìn toàn diện về toàn bộ lưu lượng mạng

 Giúp kiểm tra các sự cố xảy ra với hệ thống mạng

 Sử dụng để thu thập bằng chứng cho điều tra và ứng cứu sự cố

- Hạn chế:

 Có thể gây ra tình trạng báo động nhầm nếu cấu hình không hợp lý

 Khả năng phân tích lưu lượng bị mã hóa tương đối thấp

 Chi phí triển khai và vận hành hệ thống tương đối lớn

Việc phát hiện xâm nhập mạng dựa trên phân tích các cuộc tấn công đã biết thường được định nghĩa bằng các dấu hiệu hoặc các mẫu tấn công sau khi phân tích

Trang 16

các hình thức tấn công mà tin tặc đã sử dụng Các mẫu này sẽ được cập nhật vào theo các phần mềm phòng chống mã độc, và các hệ thống phát hiện xâm nhập trái phép IDS

Với các tấn công mới chưa có mẫu hình thức này thường không hiệu quả hoặc tin tặc có thể dễ dàng tạo ra các biến thể để vượt qua các lớp kiểm soát trên Vì vậy giải pháp phát hiện xâm nhập mạng dựa trên bất thường được sử dụng để không bỏ sót các tấn công này

1.3 Tổng quan phát hiện xâm nhập mạng dựa trên bất thường

1.3.1 Phân loại các phương pháp phát hiện bất thường

Bất thường: là các mẫu trong dữ liệu trong dữ liệu không tuân theo các quy chuẩn hoặc các hành vi thông thường

Phát hiện bất thường: là bài toán đi tìm các mẫu bất thường trong dữ liệu đã thu thập

Bằng việc theo dõi liên tục các nhật ký của các thành phần trong hệ thống mạng, các chuyên gia an ninh mạng có thể theo dõi một cách rõ ràng hơn tất cả các vấn đề xảy ra trong hệ thống của mình quản lý Giải pháp này đòi hỏi phải thu thập một lượng lớn dữ liệu hoạt động của các thành phần trong hệ thống: nhật ký hoạt động hệ điều hành, nhật ký ứng dụng web, cơ sở dữ liệu, nhật ký của thành phần lớp mạng như tường lửa, máy chủ phân giải tên miền DNS, các thiết bị định tuyến Trước đây khi chưa có các công nghệ xử lý dữ liệu lớn và chi phí lưu trữ dữ liệu còn đắt thì giải pháp này thường rất tốn kém và không đáp ứng được yêu cầu về tốc

độ xử lý

Từ những năm 2010 trở lại đây các công nghệ này đã có nhiều bước phát triển, chi phí lưu trữ giảm đi, nhiều giải pháp thương mại hay miễn phí ra đời đáp ứng được nhu cầu này Do đó việc phân tích các dữ liệu này và phát hiện bất thường hay các điểm ngoại lai đang được áp dụng nhiều với các công ty, tổ chức Hình dưới đây

Trang 17

là tổng quan phân loại các kỹ thuật phát hiện bất thường dựa trên dữ liệu thu thập:

Với các hệ thống phát hiện xâm nhập thông thường kỹ thuật thường sử dụng các giá trị ngưỡng Sau khi định nghĩa các ngưỡng hoặc khoảng giá trị bình thường,

hệ thống sẽ coi các giá trị thu thập nằm ngoài khoảng này là bất thường và sẽ tiến hành cảnh báo Tuy nhiên việc định nghĩa, cấu hình các giá trị ngưỡng này thường chỉ có thể áp dụng đối với các chuyên gia có độ hiểu biết sâu sắc về hoạt động của

hệ thống, và thường khó để áp dụng đại trà

1.3.2 Phát hiện bất thường theo chuỗi thời gian

Chuỗi thời gian: là một chuỗi các điểm dữ liệu, được đo theo từng khoảng khắc thời gian liền nhau theo một tần suất thời gian thống nhất Đây là định nghĩa được sử dụng phổ biến trong các ngành thống kê, xử lý tín hiệu, kinh tế lượng và tài chính Chuỗi thời gian thường được vẽ theo các đồ thị

Phân tích chuỗi thời gian: bao gồm các phương pháp để phân tích dữ liệu chuỗi thời gian, để từ đó trích xuất ra được các thuộc tính thống kê có ý nghĩa và các đặc điểm của dữ liệu

Phát hiện bất thường theo dữ liệu chuỗi thời gian: là việc sử dụng các mô hình tính toán để tìm ra các điểm bất thường từ dữ liệu chuỗi thời gian thu được

Khai phá dữ liệu chuỗi thời gian được ứng dụng rộng rãi trong nhiều lĩnh vực như y học, kinh tế, tài chính, chứng khoán, quản lý mạng truyền thông, … Các lĩnh vực nghiên cứu như y học và dịch vụ tài chính … thường cần độ chính xác rất cao Trong khi đó, những chuỗi bất thường trên dữ liệu chuỗi thời gian thường ảnh

Hình 2: Phân loại các phương pháp phát hiện bất thường

Trang 18

hưởng rất nhiều đến kết quả khai phá dữ liệu Vì vậy việc xác định các chuỗi bất thường trên dữ liệu chuỗi thời gian đóng vai trò rất quan trọng và thường được dùng như bước tiền xử lý cho những bài toán khai phá dữ liệu chuỗi thời gian

Mặc dù có nhiều kỹ thuật phát hiện bất thường khác nhau tuy nhiên tuy nhiên hầu hết các kỹ thuật này hầu hết tập trung vào phát hiện các điểm có giá trị khác biệt so với các giá trị thông thường mà không xem xét trên toàn bộ thời gian thu thập Xem xét ví dụ dưới đây thu được từ điện tâm đồ của 1 bệnh nhân, các giá trị cao thấp sẽ đan xen lần lượt theo chu kỳ Như vậy thời điểm giá trị thấp thì không phải là bất thường, tuy nhiên nếu các xem xét một chuỗi các giá trị con này nằm trong một chu kỳ ta sẽ thấy nếu chu kỳ mà chỉ có các giá trị thấp sẽ là bất thường

Hình 3: Dữ liệu điên tâm đồ của bệnh nhân

Vấn đề cần giải quyết của việc phát hiện bất thường theo chuỗi thời gian không giống như việc phát hiện bất thường thông thường Có rất nhiều kỹ thuật khác nhau được áp dụng trong tìm kiếm bất thường nhưng với không có nhiều kỹ thuật áp dụng phát hiện bất thường cho dữ liệu chuỗi thời gian Các nghiên cứu thường áp dụng cho từng lãnh vực riêng biệt mà không có nhiều nghiên cứu áp

Trang 19

dụng chéo giữa các lĩnh vực và đánh giá cụ thể ưu điểm nhược điểm, hiệu năng của từng phương pháp

Có 2 đặc điểm quan trọng của chuỗi thời gian cần xem xét là: tính chu kỳ và tính lặp lại Sự kết hợp của 2 đặc điểm này sẽ tạo ra 4 loại chuỗi thời gian khác nhau Giả sử chúng ta có một tập các dữ liệu, mỗi dữ liệu gồm n điểm theo chuỗi

thời gian là T = {t1, t2, , tn} Quan sát các kết quả từ nhiều lần thu thập của tập

các điểm thời gian này ta sẽ thấy có các dạng như sau:

- Tuần hoàn và lặp lại: Khi các giá trị tại một lần thu thập tuần hoàn theo một chu kỳ vừa giữa các lần thu thập ta đều thu được kết quả tương đối giống nhau (lặp lại) Ví dụ với các giá trị ti từ 0-100 giống với 100-200, và 200-300, khoảng thời

gian 500-600 có sự khác biệt nhưng vẫn lặp lại ở các lần thu thập khác Đồng thời giá trị ti từ các lần thu thập khác nhau có giá trị khá giống nhau

Hình 4: Chuỗi thời gian tuần hoàn và lặp lại

Trang 20

- Không có tính chu kỳ và lặp lại : Giá trị chuỗi thời gian ở hình dưới đây có

sự lặp lại theo chu kỳ ở 1 lần thu thập, nhưng ở các lần thu thập khác nhau ta thấy

các giá trị có sự tương đồng

- Có tính chu kỳ nhưng không lặp lại : Dữ liệu ở 1 lần thu thập có sự lặp lại theo chu kỳ nhưng lại không giống nhau ở các lần thu thập khác nhau

Hình 5: Chuỗi thời gian có chu kỳ và lặp lại

Hình 6:Chuỗi thời gian có tính chu kỳ nhưng không lặp lại

Trang 21

- Không có tính chu kỳ và không lặp lại: Tại một lần thu thập dữ liệu tại các điểm thời gian không lặp lại theo chu kỳ nào và giữa các lần thu thập khác nhau cũng không có sự tương đồng

Hình 7: Chuỗi thời gian không có tính chu kỳ và không lặp lại

Trang 22

CHƯƠNG 2: KỸ THUẬT PHÁT HIỆN BẤT THƯỜNG THEO CHUỖI THỜI

Vấn đề 1 : Phát hiện bất thường theo ngữ cảnh trong chuỗi thời gian

Trong bài toán này, dữ liệu thu thập có lặp lại theo một chu kỳ tuần hoàn Trong một chu kỳ nếu tồn tại một số giá trị bất thường khác biệt với các giá trị cùng thời điểm tương ứng ở chu kỳ khác thì đó sẽ điểm bất thường Ở đây chúng ta phát hiện sự bất thường qua việc thay đổi đột ngột về giá trị so với ngữ cảnh thông thường mà nó phải xảy ra Hình minh họa dưới đây thể hiện sự thay xuống thấp bất thường về nhiệt độ thời tiết tại tháng 6 đột ngột thấp bất thường so với các năm trước

Vấn đề 2 : Phát hiện chuỗi thời gian con bất thường trong một chuỗi thời gian

Một vấn đề khác của phát hiện bất thường là là tìm một chuỗi con bất thường trong một chuỗi dữ liệu thời gian lặp lại theo chu kỳ như ngày, tuần tháng Nếu như quan sát trong thời gian ngắn thì sẽ khó phát hiện ra sự bất thường

Hình 8: Chuỗi thời gian nhiệt độ các tháng trong năm

Trang 23

Nếu một chuỗi con này được coi là một đơn vị dài được coi như một giá trị hoặc chuyển đổi thành một giá trị đại diện thì vấn đề này sẽ tương tự như vấn đề 1

Những thách thức của bài toán phát hiện chuỗi bất thường

- Có nhiều loại bất thường trong dữ liệu chuỗi thời gian, bao gồm: một phần của chuỗi thời gian là bất thường hoặc toàn bộ chuỗi thời gian là bất thường

- Khó xác định chính xác độ dài của chuỗi con trong bài toán phát hiện chuỗi con bất thường

- Các chuỗi thời gian kiểm thử và chuỗi thời gian huấn luyện có thể có độ dài khác nhau

- Khó xác định các độ đo tương tự/khoảng cách tốt nhất có thể được sử dụng cho các loại chuỗi thời gian khác nhau Các độ đo đơn giản như khoảng cách Euclid luôn luôn không hoạt động tốt vì chúng rất nhạy với những giá trị ngoại lệ và chúng cũng không thể được sử dụng khi các chuỗi thời gian có độ dài khác nhau

- Hiệu suất của nhiều thuật toán phát hiện bất thường trong dữ liệu chuỗi thời gian có nhiễu thường rất thấp, độ nhiễu trong dữ liệu chuỗi thời gian là một thách thức lớn đối với bài toán phát hiện chuỗi bất thường

- Chuỗi thời gian trong các ứng dụng thực tế thường dài và khi độ dài tăng thì

độ phức tạp tính toán cũng tăng lên

2.2 Các kỹ thuật chuyển đổi dữ liệu

Một phương pháp đơn giản để kết hợp dữ liệu gọi là xấp xỉ giá trị theo khoảng PAA (Piecewise Aggregate Approximation) Để giảm độ dài chuỗi thời gian có n điểm thành chuỗi có w điểm, dữ liệu chuỗi thời gian được chia thành w khoảng

Trang 24

bằng nhau Giá trị trung bình của toàn bộ khoảng đó được tính làm giá trị đại diện xấp xỉ thay thế cho toàn bộ khoảng dữ liệu đó

Cụ thể như sau: Cho một chuỗi thời gian C = {c1,c2,…cn} có độ dài n, chuyển thành chuỗi thời gianc có w điểm C = {c1,c2,…cw} Giá trị C tại điêm thứ I được tính bằng công thức:

Nếu w đủ lớn và gần bằng n thì chuỗi sau khi biến đổi sẽ gần giống với chuỗi ban đầu Nếu w quá nhỏ thì sau khi biến đổi chuỗi mới sẽ bị mất nhiều thông tin

2.2.2 Rời rạc hóa

Mục tiêu chính của kỹ thuật này là chuyển chuỗi thời gian thành các ký

tự thay thế Phương pháp này sử dụng các miền biên độ của chuỗi thời gian Điều này sẽ tận dụng được các giải thuật phát hiện bất thường cho chuỗi ký tự Một điểm lợi là sẽ tăng cường được hiệu năng tính toán Tuy nhiên việc rời rạc hóa dữ liệu cũng dẫn đến mất mát thông tin so với dữ liệu gốc

Phương pháp này thực hiện qua các bước sau:

Hình 9: Ví dụ rời rạc hóa và gán nhãn giá trị

Trang 25

(i) Chia các khoảng biên độ của các giá trị chuỗi thời gian thành các vùng khác nhau được đại diện bằng các ký tự chữ cái hoặc số

(ii) Thực hiện biến đổi dữ liệu chuỗi thời gian bằng cách thay thế mọi giá trị với các ký tự thay thế tương ứng với khoảng giá trị tương ứng Hình dưới đây thể hiện một ví dụ đơn giản của việc rời rạc hóa dữ liệu, khi các giá trị đo được chia thành các khoảng giá trị đều nhau

Các giá trị thời gian nằm trong khoảng từ 0-3 được chia thành 3 khoảng đều nhau và các khoảng được gán nhãn là a, b, c Ký tự đại diện cho toàn bộ chuỗi thời gian sau khi biến đổi là bbccabaacc

Kỹ thuật rời rạc hóa dựa hoàn toàn vào cách chia khoảng cũng như cách gán nhãn dữ liệu Ở ví dụ trên việc lựa chọn có thể thay thế bằng số nguyên hoặc chữ cái Tuy nhiên việc sử dụng chữ cái thường phổ biến hơn, cách dùng số nguyên đặt tên cho khoảng Trong ví dụ trên nếu số nguyên 1,2,3 được dùng để đặt tên thay cho a,b,c thì sẽ dễ liên tưởng đến sự so sánh về mặt giá trị: các điểm thời gian ở khoảng

c đại diện bằng số 3 gần khoảng b đại diện bằng số 2 hơn là khoảng a đại diện cho khoảng 1 Điều này sẽ không gặp phải nếu sử dụng các ký tự chữ cái

Một vấn đề nữa là cách chia các khoảng giá trị, có một số cách phổ biến thường dùng như sau:

Chia thành các khoảng đều: Miền giá trị được chia thành n khoảng cách đều

và mỗi khoảng được thay thế bằng một ký tự duy nhất, giống ví dụ ở trên

Chia đều theo tần suất: Miền giá trị được chiaw đều để đảm bảo mỗi miền có

số điểm dữ liệu như nhau

Phân cụm: Miền giá trị được chia thành các khoảng không đều nhau, mỗi khoảng sẽ được chia bằng cách phân nhóm các điểm giá trị thời gian gần nhau thành một vùng Một kỹ thuật phổ biến thường được sử dụng là xấp xỉ gộp ký hiệu hóa (Symbolic Aggregate approXimation – SAX) thường được sử dụng trong bài toán phát hiện sự lặp lại hoặc phát hiện bất thường trên chuỗi thời gian

2.3 Các kỹ thuật phát hiện bất thường

Qui trình phát hiện chuỗi bất thường bao gồm 3 bước chính sau đây:

Trang 26

- Tính điểm bất thường (anomaly score) của mỗi chuỗi con được rút trích từ chuỗi thời gian ban đầu

- Tổng hợp điểm bất thường của các chuỗi con để tính điểm bất thường của chuỗi thời gian ban đầu Cách tổng hợp này được thực hiện bằng nhiều phương pháp khác nhau, ví dụ như: (1) lấy trung bình các điểm bất thường của các chuỗi con, (2) lấy trung bình của k điểm bất thường của k chuỗi con đầu tiên, …

- Đánh dấu chuỗi bất thường cho những chuỗi thời gian có điểm bất thường lớn hơn ngưỡng đã thiết lập

2.3.1 Dựa vào cửa sổ trượt

Kỹ thuật này chia nhỏ các chuỗi thời gian thành các chuỗi con có kích thước bằng nhau thông qua một cửa sổ có kích thước xác định, mỗi chuỗi con này gọi là một cửa sổ Cửa sổ trượt giả sử có độ dài m trượt trên dữ liệu huấn luyện và dữ liệu thử nghiệm Mỗi bước di chuyển sẽ dịch chuyển qua h điểm dữ liệu thời gian Điểm bất thường của tập dữ liệu thử nghiệm được tính bằng cách tổng hợp điểm bất thường của mỗi khung cửa sổ Cụ thể như sau:

1 Cho tập dữ liệu huấn luyện gồm n dữ liệu chuỗi thời gian, Strain = {S1,S2, ,Sn}, trích rút p cửa sổ từ chuỗi thời gian Si: si1,si2,…sip với p được tính bởi |Si| + m – 1 khi trượt cửa sổ có kích thước m Tương tự với tập dữ liệu thử nghiệm Stest = {T1,T2,…,Tn}, chia mỗi chuỗi dữ liệu thành Ti thành |Ti| + m -1 cửa sổ : ti1, ti2,… tip

2 Điểm dữ liệu bất thường cho mỗi cửa sổ thử nghiệm kí hiệu A(tij) được tính giống như với tập huấn luyện Công thức tính có thể dùng các độ đo khoảng cách như Eculid, Manhattan …

Nếu chuỗi được tạo ra bằng cách trước một bước dịch chuyển có độ dài là 1 điểm dữ liệu trên chuỗi gốc, cần xem xét tất cả các khả năng chồng lấn dữ liệu giữa các chuỗi, đôi số lần tính toán toán điểm cho các chuỗi con bằng với độ dài của chuỗi thời gian Đồng thời dữ liệu giữa 2 chuỗi con gần nhau sẽ bị trùng lập dẫn đến một điểm dữ liệu trên chuỗi gốc có thể bị coi là bất thường trên 2 chuỗi con khác nhau Cụ thể với một cửa sổ trượt có độ dài m, mỗi lần trượt sẽ dịch chuyển qua h

Trang 27

điểm dữ liệu để tạo ra một chuỗi con mới Nếu h = 1 thì xác suất phát hiện điểm bất thường trong chuỗi con sinh ra từ chuỗi gốc là 1, nhưng nếu h > 1 thì khả năng có thể phát hiện ra chuỗi con bất thường sẽ giảm xuống

Xem xét một ví dụ sau sẽ thấy rõ điều này: giả sử một tập huấn luyện gồm n chuỗi thời gian giống nhau là abcabcabc là bình thường, với mỗi ký tự thay thế cho một giá trị thực Nếu cửa sổ có độ dài là 3, dữ liệu huấn luyện với bước dịch h bất

kỳ sẽ bao gồm các chuỗi con sau: abc, bca, cab Lấy một chuỗi thời gian dùng để thử nghiệm giả sử là abccabcabc sẽ phát hiện ra c là sau chuỗi abc là giá trị bất thường

Bước dịch h Chuỗi con (kích thước cửa sổ w =3)

1 abc, bcc, cca, cab, abc, bca, cab, abc

2 abc, cca, abc, cab

Bảng 1: Chuỗi con tạo thành khi dịch chuyển cửa sổ với từng giá trị bước nhảy

Với h =1,2 điểm dữ liệu bất thường là c nằm trong chuỗi bcc và cca vì dễ thấy sự thiếu vắng một giá trị b hoặc c ( giá trị c bị lặp lại) do đó sau khi tính toán chuỗi con này sẽ là chuỗi con bất thường Với h = 3,4 sẽ không tìm ra được chuỗi con bất thường thì các điểm giá trị trên các chuỗi con đều gồm đủ 3 giá trị a,b,c vì vậy dù áp dụng công thức tính nào thì điểm bất thường của các chuỗi con này đều giống nhau Vì thế giá trị bước dịch h cần được lựa chọn cẩn thận và thường được đưa ra bằng cách xem xét độ dài của vùng dữ liệu bất thường trên chuỗi dữ liệu thời gian cần xem xét

2.3.2 Dựa vào sác xuất

Phát hiện bất thường dựa trên các mô hình xác suất được sử dụng rộng rãi trong thông kê hầu hết được sử dụng để tìm kiếm các mẫu quan sát ngoại lai Kỹ thuật này sẽ sử dụng các mô hình xác suất thống kê để tính toán trực tiếp trên dữ liệu bình thường, khi đó các điểm bất thường sẽ không thỏa mãn các mô hình này

Trang 28

Vì vậy điểm mấu chốt là cần tính toán mô hình trên dữ liệu bình thường sau đó ước lượng xác suất để áp dụng trong thực tế

Một mô hình dự đoán cơ bản dựa trên kỹ thuật phát hiện bất thường bao gồm những điều sau đây bước (26):

1 Lựa một mô hình dự đoán phù hợp bằng chuỗi thời gian trên dữ liệu huấn luyện bằng cách thử sử dụng m điểm giá trị trước trong chuỗi để dự đoán kết quả của điểm thứ m+1

2 Sử dụng mô hình dự báo được xây dựng ở bước 1, với mỗi điểm trong dữ liệu chuỗi thời gian thử nghiệm dự đoán kết quả dựa trên quan sát trên mô hình với các dữ liệu từ m điểm trước đó

Mô hình cơ bản thường dùng là 3 sigma để dự đoán bất thường như sau:

Hình 10: Ngưỡng bất thường sử dụng giá trị 3 sigma

Đây là mô hình phổ biến và khá đơn giản để sử dụng.Với μ là giá trị trung bình và σ là giá trị phương sai hay còn gọi là sigma của tập dữ liệu Với dữ liệu thông thường tuân theo quy tắc phân phối chuẩn thì tỉ lệ các giá trị của điểm thời gian thu thập thông thường sẽ như sau:

- 68% của tất cả các giá trị nằm giữa [μ -σ, mean + σ]

- 95% của tất cả các giá trị nằm giữa [μ -2 * σ, μ + 2 * σ]

Ngày đăng: 27/02/2021, 23:52

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[8]. Skyline an open-source framework for real-time anomaly detection using Python, https://github.com/etsy/skyline/wiki Link
[9]. Splunk document detecting anomalies http://docs.splunk.com/Documentation/Splunk/7.2.0/Search/Detectinganomalies [10]. Graphite document guidehttps://graphite.readthedocs.io/en/latest/index.html Link
[11]. IBM Security QRadar SIEM V7.3.0 Product Documentation https://www-01.ibm.com/support/docview.wss?uid=swg27049537 Link
[21]. Elastic Stack and Product Documentation, https://www.elastic.co/learn [22]. Varun Chandola. Anomaly detection for symbolic sequences and timeseries data : Ph.d dissertation Link
[34]. Việt Nam thuộc top 10 quốc gia bị tấn công DDoS nhiều nhất https://congnghe.tuoitre.vn/viet-nam-thuoc-top-10-quoc-gia-bi-tan-cong-ddos-nhieu-nhat-20180226095210865.htm Link
[1]. Chandola, V., Banerjee, A. and Kumar, V., 2009. Anomaly detection: A survey. ACM computing surveys , 41(3), p.15 Khác
[2]. Dorothy E. Denning. An intrusion-detection model. Software Engineering, IEEE Transactions on, (2):222–232, 1987 Khác
[3]. Aleksandar Lazarevic, Levent Ertoz, Vipin Kumar, Aysel Ozgur, and Jaideep Srivastava. A comparative study of anomaly detection schemes in network intrusion detection. Proc. SIAM, 2003 Khác
[4]. Pedro Garcia-Teodoro, J. Diaz-Verdejo, Gabriel Maci´a-Fern´andez, and Enrique V´azquez. Anomaly-based network intrusion detection: Techniques, systems and challenges. computers & security, 28(1):18–28, 2009 Khác
[5]. Gupta, M., Gao, J., Aggarwal, C.C. and Han, J., 2014. Outlier detection for temporal data: A survey. IEEE Transactions on Knowledge and Data Engineering, 26(9), pp.2250-2267 Khác
[7]. Nguyen Linh Giang, Le Tuan Anh, Pham Duy, Tran Duc Quy, Anomaly detection by statistical analysis and neural networks, RIFV2007, Proceedings of RIFV2007, Addendum contribution, pp 137-141. 2007 Khác
[14]. Sheng Zhang, Amit Chakrabarti, James Ford, and Fillia Makedon. Attack detection in time series for recommender systems. In KDD ’06: Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining, pages 809–814, New York, NY, USA, 2006. ACM Khác
[15]. Manuele Bicego and Vittorio Murino. Investigating hidden markov models’ capabilities in 2d shape classification. IEEE Trans. Pattern Anal.Mach. Intell., 26(2):281–286, 2004 Khác
[16]. Haibin Cheng, Pang-Ning Tan, Christopher Potter, and Steven Klooster. Detection and characterization of anomalies in multivariate time series. In Proceedings of the ninth SIAM International Conference on Data Mining, 2009 Khác
[17]. Junshui Ma and Simon Perkins. Online novelty detection on temporal sequences. In KDD ’03: Proceedings of the ninth ACM SIGKDDinternational conference on Knowledge discovery and data mining, pages 613–618, New York, NY, USA, 2003. ACM Khác
[18]. Qingtao Wu and Zhiqing Shao. Network anomaly detection using time series analysis. In Proceedings of the Joint International Conference on Autonomic and Autonomous Systems and International Conference on Networking and Services, page 42, Washington, DC, USA, 2005. IEEE Computer Society Khác
[19]. Li Wei, Nitin Kumar, Venkata Lolla, Eamonn J. Keogh, Stefano Lonardi, and Chotirat Ratanamahatana. Assumption-free anomaly detection in time series. In Proceedings of the 17th international conference on Scientific and statistical database management, pages 237–240, Berkeley, CA, US, 2005.Lawrence Berkeley Laboratory Khác
[20]. B. Pincombe. Anomaly detection in time series of graphs using arma processes. ASOR BULLETIN, 24(4):2–10, 2005 Khác
[23]. M. Basseville, M. Abdelghani, and A. Benveniste. Subspace-based fault detection algorithms for vibration monitoring. Automatica, 36:101–109, 2000 Khác
[24]. Stephanie Forrest, Christina Warrender, and Barak Pearlmutter. Detecting intrusions using system calls: Alternate data models. In Proceedings of the 1999 IEEE ISRSP, pages 133–145, Washington, DC, USA, 1999. IEEE Computer Society Khác

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w