1. Trang chủ
  2. » Thể loại khác

Khoa học dữ liệu Bài 7 - Phát hiện bất thường

24 10 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 24
Dung lượng 631,22 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

BÀI TOÁN PHÁT HIỆN BẤT THƯỜNG▰ Dữ liệu bất thường ▻ Tách biệt khỏi các dữ liệu khác ▰ Nguyên nhân ▻ Lỗi nhập liệu, đo đạc ▻ Bản chất của quá trình sinh dữ liệu ▰ Ứng dụng phát hiện bất

Trang 1

Khoa học dữ liệu

Bài 7 - Phát hiện bất thường

Trang 2

BÀI TOÁN PHÁT HIỆN

BẤT THƯỜNG

Anomaly detection

2

1

Trang 3

BÀI TOÁN PHÁT HIỆN BẤT THƯỜNG

▰ Dữ liệu bất thường

▻ Tách biệt khỏi các dữ liệu khác

▰ Nguyên nhân

▻ Lỗi nhập liệu, đo đạc

▻ Bản chất của quá trình sinh dữ liệu

▰ Ứng dụng phát hiện bất thường

▻ Phát hiện hành vi xấu

▻ Marketting

Trang 4

BÀI TOÁN PHÁT HIỆN BẤT THƯỜNG

▰ Bài toán: Cho n điểm dữ liệu, tìm k điểm

bất thường nhất

▰ Cần định nghĩa "bất thường":

▻ VD: Phần dư trong mô hình hồi quy lớn

▰ Các hướng tiếp cận:

▻ Dựa vào thống kê

▻ Dựa vào khoảng cách

▻ Dựa vào mật độ

4

Chiều cao và Cân nặng

Trang 5

PHÁT HIỆN BẤT THƯỜNG BẰNG THỐNG KÊ

Trang 6

PHÁT HIỆN BẤT THƯỜNG BẰNG THỐNG KÊ

6

▰ Đưa dữ liệu về phân bố chuẩn

▰ Ví dụ: sử dụng mô hình hồi quy

a Xác định (huấn luyện) mô hình hồi quy

b Tính toán các phần dư (residuals) của dữ liệu

c Các phần dư theo phân bố chuẩn

i nếu mô hình hồi quy đúng

d Tính kì vọng, phương sai của ri

e Tính thống kê Ti của các mẫu dữ liệu ri

Chiều cao và Cân nặng

Trang 7

PHÁT HIỆN BẤT THƯỜNG BẰNG THỐNG KÊ

▰ Ưu điểm

a Nhanh, tính toán đơn giản

b Có cơ sở lý thuyết xác suất thống kê

▰ Nhược điểm

a Thường chỉ kiểm tra các đặc trưng đơn lẻ (1 cột của bảng)

b Không phải lúc nào cũng có phân bố của dữ liệu

Chiều cao và Cân nặng

Trang 8

PHÁT HIỆN BẤT THƯỜNG BẰNG KHOẢNG CÁCH

i có quá ít điểm "lân cận"

Có ít hơn M = (1-p) x n điểm trong khoảng cách Dmin

Trang 9

PHÁT HIỆN BẤT THƯỜNG BẰNG KHOẢNG CÁCH

▰ Tăng tốc độ tính toán

▻ Sử dụng các cấu trúc tìm kiếm không gian

▻ Cây k-d (k-d tree), cây bóng (ball tree)

▻ Tìm các điểm gần x

i (khoảng cách nhỏ hơn Dmin)

▻ Nếu có ít nhất M điểm thì "bình thường"

Trang 11

GaussianMixture

Trang 12

PHÁT HIỆN BẤT THƯỜNG

TRÊN CHUỖI THỜI GIAN

Anomaly detection in time series

12

2

Trang 13

CHUỖI THỜI GIAN

▻ Dự đoán: giá cả, thời tiết, lượng tiêu thụ

▻ Bất thường: hành vi xấu, tấn công mạng

Trang 14

PHÂN TÍCH CHUỖI THỜI GIAN: ĐỒ THỊ

Trang 15

PHÂN TÍCH CHUỖI THỜI GIAN: MÔ HÌNH DỰ ĐOÁN

▰ Xây dựng mô hình dự đoán

Trang 16

PHÂN TÍCH CHUỖI THỜI GIAN: MÔ HÌNH DỰ ĐOÁN

Trang 17

GIÁ TRỊ TRUNG BÌNH

▰ Dự đoán tín hiệu tiếp theo bằng giá trị trung

bình của các tín hiệu trước đó

▰ Phần dư

▰ Kiểm tra

Trang 18

GIÁ TRỊ TRUNG BÌNH

▰ Lựa chọn ngưỡng quá cao

▻ Không phát hiện được bất thường

▰ Lựa chọn ngưỡng quá thấp

▻ Dễ “báo động giả”

18

Trang 19

GIÁ TRỊ TRUNG BÌNH

▰ Lựa chọn ngưỡng quá cao

▻ Không phát hiện được bất thường

▰ Lựa chọn ngưỡng quá thấp

▻ Dễ “báo động giả”

Trang 20

GIÁ TRỊ TRUNG BÌNH VÀ PHƯƠNG SAI

▰ Có thể tính toán “trực tuyến”

▻ Không cần lưu trữ các giá trị phía

trước

20

Trang 21

PHÁT HIỆN BẤT THƯỜNG BẰNG Z-Score

▰ Tính giá trị trung bình

▰ Tính giá trị phương sai

▰ Tính giá trị trung bình chuyển động

▰ Tính Z-score

Trang 22

PHÁT HIỆN BẤT THƯỜNG BẰNG Z-Score

▰ Tính Z-score

▰ Bất thường |Tt| > 2

▰ Độ tin cậy 95%

22

Trang 23

PHÁT HIỆN BẤT THƯỜNG QUA PHÂN CỤM

▰ Cắt các chuỗi tín hiệu bình thường thành các đoạn

Trang 24

PHÁT HIỆN BẤT THƯỜNG QUA PHÂN CỤM

▰ Một chuỗi tín hiệu bất kì

▻ Tách thành nhiều đoạn độ dài h

▻ Khôi phục lại bằng tâm cụm gần nhất

Tính trung bình bình phương sai số giữa chuỗi tín hiệu gốc

và chuỗi tín hiệu khôi phục

▻ Bất thường: sai số lớn

24

Ngày đăng: 23/05/2021, 03:40

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w