BÀI TOÁN PHÁT HIỆN BẤT THƯỜNG▰ Dữ liệu bất thường ▻ Tách biệt khỏi các dữ liệu khác ▰ Nguyên nhân ▻ Lỗi nhập liệu, đo đạc ▻ Bản chất của quá trình sinh dữ liệu ▰ Ứng dụng phát hiện bất
Trang 1Khoa học dữ liệu
Bài 7 - Phát hiện bất thường
Trang 2BÀI TOÁN PHÁT HIỆN
BẤT THƯỜNG
Anomaly detection
2
1
Trang 3BÀI TOÁN PHÁT HIỆN BẤT THƯỜNG
▰ Dữ liệu bất thường
▻ Tách biệt khỏi các dữ liệu khác
▰ Nguyên nhân
▻ Lỗi nhập liệu, đo đạc
▻ Bản chất của quá trình sinh dữ liệu
▰ Ứng dụng phát hiện bất thường
▻ Phát hiện hành vi xấu
▻ Marketting
Trang 4BÀI TOÁN PHÁT HIỆN BẤT THƯỜNG
▰ Bài toán: Cho n điểm dữ liệu, tìm k điểm
bất thường nhất
▰ Cần định nghĩa "bất thường":
▻ VD: Phần dư trong mô hình hồi quy lớn
▰ Các hướng tiếp cận:
▻ Dựa vào thống kê
▻ Dựa vào khoảng cách
▻ Dựa vào mật độ
4
Chiều cao và Cân nặng
Trang 5PHÁT HIỆN BẤT THƯỜNG BẰNG THỐNG KÊ
Trang 6PHÁT HIỆN BẤT THƯỜNG BẰNG THỐNG KÊ
6
▰ Đưa dữ liệu về phân bố chuẩn
▰ Ví dụ: sử dụng mô hình hồi quy
a Xác định (huấn luyện) mô hình hồi quy
b Tính toán các phần dư (residuals) của dữ liệu
c Các phần dư theo phân bố chuẩn
i nếu mô hình hồi quy đúng
d Tính kì vọng, phương sai của ri
e Tính thống kê Ti của các mẫu dữ liệu ri
Chiều cao và Cân nặng
Trang 7PHÁT HIỆN BẤT THƯỜNG BẰNG THỐNG KÊ
▰ Ưu điểm
a Nhanh, tính toán đơn giản
b Có cơ sở lý thuyết xác suất thống kê
▰ Nhược điểm
a Thường chỉ kiểm tra các đặc trưng đơn lẻ (1 cột của bảng)
b Không phải lúc nào cũng có phân bố của dữ liệu
Chiều cao và Cân nặng
Trang 8PHÁT HIỆN BẤT THƯỜNG BẰNG KHOẢNG CÁCH
i có quá ít điểm "lân cận"
Có ít hơn M = (1-p) x n điểm trong khoảng cách Dmin
Trang 9PHÁT HIỆN BẤT THƯỜNG BẰNG KHOẢNG CÁCH
▰ Tăng tốc độ tính toán
▻ Sử dụng các cấu trúc tìm kiếm không gian
▻ Cây k-d (k-d tree), cây bóng (ball tree)
▻ Tìm các điểm gần x
i (khoảng cách nhỏ hơn Dmin)
▻ Nếu có ít nhất M điểm thì "bình thường"
Trang 11GaussianMixture
Trang 12PHÁT HIỆN BẤT THƯỜNG
TRÊN CHUỖI THỜI GIAN
Anomaly detection in time series
12
2
Trang 13CHUỖI THỜI GIAN
▻ Dự đoán: giá cả, thời tiết, lượng tiêu thụ
▻ Bất thường: hành vi xấu, tấn công mạng
Trang 14PHÂN TÍCH CHUỖI THỜI GIAN: ĐỒ THỊ
Trang 15PHÂN TÍCH CHUỖI THỜI GIAN: MÔ HÌNH DỰ ĐOÁN
▰ Xây dựng mô hình dự đoán
Trang 16PHÂN TÍCH CHUỖI THỜI GIAN: MÔ HÌNH DỰ ĐOÁN
Trang 17GIÁ TRỊ TRUNG BÌNH
▰ Dự đoán tín hiệu tiếp theo bằng giá trị trung
bình của các tín hiệu trước đó
▰ Phần dư
▰ Kiểm tra
Trang 18GIÁ TRỊ TRUNG BÌNH
▰ Lựa chọn ngưỡng quá cao
▻ Không phát hiện được bất thường
▰ Lựa chọn ngưỡng quá thấp
▻ Dễ “báo động giả”
18
Trang 19GIÁ TRỊ TRUNG BÌNH
▰ Lựa chọn ngưỡng quá cao
▻ Không phát hiện được bất thường
▰ Lựa chọn ngưỡng quá thấp
▻ Dễ “báo động giả”
Trang 20GIÁ TRỊ TRUNG BÌNH VÀ PHƯƠNG SAI
▰ Có thể tính toán “trực tuyến”
▻ Không cần lưu trữ các giá trị phía
trước
20
Trang 21PHÁT HIỆN BẤT THƯỜNG BẰNG Z-Score
▰ Tính giá trị trung bình
▰ Tính giá trị phương sai
▰ Tính giá trị trung bình chuyển động
▰ Tính Z-score
Trang 22PHÁT HIỆN BẤT THƯỜNG BẰNG Z-Score
▰ Tính Z-score
▰ Bất thường |Tt| > 2
▰ Độ tin cậy 95%
22
Trang 23PHÁT HIỆN BẤT THƯỜNG QUA PHÂN CỤM
▰ Cắt các chuỗi tín hiệu bình thường thành các đoạn
Trang 24PHÁT HIỆN BẤT THƯỜNG QUA PHÂN CỤM
▰ Một chuỗi tín hiệu bất kì
▻ Tách thành nhiều đoạn độ dài h
▻ Khôi phục lại bằng tâm cụm gần nhất
▰ Tính trung bình bình phương sai số giữa chuỗi tín hiệu gốc
và chuỗi tín hiệu khôi phục
▻ Bất thường: sai số lớn
24