Nghiên cứu này tập trung vào bài toán phát hiện bất thường ở người. Chúng tôi tiến hành đánh giá phương pháp tiên tiến Future frame prediction trên video có độ phân giải thấp, đồng thời đưa ra đề xuất hàm độ lỗi cải thiện hiệu quả cho trường hợp này.
Trang 1MỘT HÀM LỖI CHO PHÁT HIỆN BẤT THƯỜNG TRÊN VIDEO GIÁM SÁT
Vũ Ngọc Tú, Đinh Thanh Toàn, Trần Minh Tùng, Võ Duy Nguyên, Nguyễn Tấn Trần Minh Khang
Trường Đại Học Công Nghệ Thông Tin Đại học Quốc gia Thành phố Hồ Chí Minh {18520184,18521504}@gm.uit.edu.vn, tungtm.ncs@grad.uit.edu.vn,{nguyenvd, khangnttm}@uit.edu.vn
Tóm tắt—Thành phố thông minh triển khai hệ thống
camera kết hợp trí tuệ nhân tạo nhằm hỗ trợ cho hoạt
động giám sát an ninh, trong đó việc phát hiện các sự kiện
bất thường rất được quan tâm Các sự kiện bất thường
(abnormal event) là các tình huống hiếm xảy ra, khó lường
trước, phụ thuộc rất nhiều vào ngữ cảnh và chất lượng
của video đầu vào Nghiên cứu này tập trung vào bài toán
phát hiện bất thường ở người Chúng tôi tiến hành đánh
giá phương pháp tiên tiến Future frame prediction trên
video có độ phân giải thấp, đồng thời đưa ra đề xuất hàm
độ lỗi cải thiện hiệu quả cho trường hợp này Kết quả thực
nghiệm trên bộ dữ liệu UCSD Ped1, Subway Entrance cho
thấy hiệu quả của phương pháp đề xuất, kết quả cải thiện
lần lượt là 0.79%, 1.90% Bên cạnh đó, nghiên cứu cung
cấp các khảo sát thực nghiệm mở rộng trên 2 bộ dữ liệu
UCSD Ped2, CUHK Avenue làm cơ sở cho các nghiên cứu
sau này.
Từ khóa—Phát hiện bất thường, học không giám sát,
học sâu, dự đoán khung hình trong video.
I GIỚI THIỆU Bất thường trong video giám sát được định nghĩa là
những sự kiện hoặc hành động mà không ngờ tới và hiếm
khi xảy ra trong thực tế [1], [2] Bài toán phát hiện bất
thường trong video giám sát nhận vào một chuỗi frame
và trả về nhãn của từng frame (bất thường, bình thường)
như mô tả trong Hình 1 Đây là một trong những bài toán
vô cùng quan trọng và cần thiết trong việc hỗ trợ quản
lý thành phố, khu dân cư Tuy nhiên, do những thách
thức lớn về chất lượng video, sự đa dạng của ngữ cảnh
và sự kiện bất thường, cho đến gần đây nhiều nghiên
cứu mới đạt được những tiến bộ đáng kể trong việc giải
quyết bài toán [3], [4], [5] Để hướng tới việc quản lý
thành phố và khu dân cư, nghiên cứu sẽ tập trung những
sự kiện, hành động bất thường liên quan tới người
Thách thức lớn nhất của bài toán là do định nghĩa của
bất thường không cụ thể mà phụ thuộc rất nhiều vào ngữ
cảnh, một sự kiện có thể là bất thường ở ngữ cảnh này
nhưng đối với những ngữ cảnh khác thì sự kiện đó lại là
bình thường Ví dụ đi xe đạp trong làn đường dành cho
người đi bộ là bất thường, nhưng khi đi xe đạp trong đường phố thì đây lại là một sự kiện bình thường
Mô hình
(Bất thường, Bất thường, Bất thường, Bất thường, Bất thường)
Hình 1: Bài toán nhận vào 1 video (nhiều frame ảnh)
cho biết nhãn của từng frame trong video: bình thường hay bất thường.
Có hai hướng giải quyết chính cho bài toán phát hiện bất thường: (1) nhóm phương pháp học không giám sát [4], [6], [5], [7], (2) nhóm phương pháp học có giám sát yếu [3], [8], [9] Trong đó, nhóm phương pháp học không giám sát tập trung vào việc dự đoán, tái tạo lại khung hình hiện tại dựa trên thông tin của khung hình trước đó Sau đó khung hình tái tạo sẽ được so sánh với frame thực tế để thực hiện phân loại frame đó là bình thường hay bất thường [4], [6] Với nhóm phương pháp này, chỉ cần định nghĩa bình thường với việc sử dụng tập huấn luyện đầy đủ, có thể giảm bớt tỉ lệ phát hiện bỏ sót các frame bất thường Trong nhóm phương pháp này, Future frame prediction [6] là một trong những phương pháp đã mở đầu cho những bước tiến lớn trong việc giải quyết bài toán phát hiện bất thường Trong quá trình huấn luyện, phương pháp có đầu vào là một frame hiện tại và các frame trong quá khứ ở trạng thái bình thường, phương pháp này sẽ huấn luyện mô hình tạo ra một frame tiếp theo (bình thường) Trong quá trình kiểm tra, mô hình đã huấn luyện sinh ra frame mới và so sánh với frame thực tế để quyết định frame đó có bất thường hay không Tuy nhiên, phương
Trang 2pháp này cho thấy hiệu suất kém khi chạy trên các bộ
dữ liệu có chất lượng thấp Để giải quyết vấn đề này,
nghiên cứu đề xuất sử dụng các đặc trưng Histogram
Of Gradients (HOG) [10] bổ sung vào hàm độ lỗi để
giải quyết tình trạng hình dáng đối tượng không chi tiết,
một tích chất đặc trưng trong video có độ phân giải thấp
Đóng góp chính của bài báo này bao gồm:
• Đối với việc dự đoán frame tương lai, dựa trên
phương pháp được đề xuất bởi [6] nghiên cứu đề
xuất thêm thông tin về đặc trưng HOG trong hàm
độ lỗi huấn luyện mô hình
• Thực nghiệm và đánh giá, phân tích kết quả trên
4 bộ dữ liệu đã được công bố: UCSD Ped 1 [11],
UCSD Ped 2 [11], Subway Entrance [12] và CUHK
Avenue [13] Từ đó chứng minh tính hiệu quả của
hàm lỗi này trong bài toán phát hiện bất thường
Nội dung còn lại của bài báo được cấu trúc như sau
Phần II cung cấp tổng quan về các nghiên cứu liên quan
Phần III trình bày hàm lỗi mới cho bài toàn phát hiện
bất thường Phần IV trình bày thực nghiệm và và các
đánh giá, phân tích về kết quả thực nghiệm Cuối cùng
là trình bày kết quả và hướng nghiên cứu tương lai sẽ
được trình bày trong phần V
II CÁC NGHIÊN CỨU LIÊN QUAN
A Kỹ thuật rút trích đặc trưng truyền thống
Các kỹ thuật xử lý rút trích đặc trưng trên ảnh và
video bao gồm các đặc trưng cục bộ (local features),
đặc trưng toàn cục (global features), đặc trưng chuyển
động (motion features), đặc trưng không gian – thời
gian (spatial-temporal features), đặc trưng ngoại hình
(appearance features), tư thế người (human pose), thông
tin hình ảnh (visual information), thông tin thời gian
(temporal information), thông tin ngữ cảnh (context
in-formation): SIFT, SURF, MBH, HOG, Color Histogram,
Dense trajectory, Couboid, Onset, Actionlet, Poselet
Trong các phương pháp này, một phương pháp được sử
dụng nhiều nhất hiện nay là phương pháp Histogram of
gradients (HOG) HOG là phương pháp biểu diễn đặc
trưng trong ảnh được đề xuất bởi vào năm 1986 và sau
đó được sử dụng rộng rãi sau nghiên cứu [10] vào năm
2005 Trong đặc trưng HOG, phân phối của hướng của
đạo hàm trong ảnh được sử dụng làm đặc trưng Đạo
hàm của một ảnh khá hữu dụng bởi vì giá trị của đạo
hàm lớn ở những vùng góc, cạnh của ảnh
B Các phương pháp phát hiện bất thường giám sát yếu
Trong khoảng thời gian gần đây, sự phổ biến của
camera giám sát cũng như gia tăng số lượng dữ liệu
video chia sẻ trên các nền tảng mạng xã hội (Youtube, Facebook, ) cho phép thu thập được một số lượng lớn các video bất thường Tuy nhiên khi gán nhãn dữ liệu, việc xác định chính xác khoảng thời gian diễn ra sự kiện bất thường là một việc khó khăn, khi làm ở mức frame thì mức độ thách thức còn tăng lên cao hơn
Vì vậy đối với các bộ dữ liệu lớn đã công bố các nhà nghiên cứu thường chỉ gán nhãn ở mức video - nghĩa là gán video đó có bất thường hay không Việc gán nhãn như vậy được gọi là giám sát yếu (weakly supervised) Nhóm phương pháp phát hiện bất thường giám sát yếu chủ yếu gồm 3 thành phần chính: i) Xử lý nhãn ii) Trích xuất đặc trưng iii) Xác định bất thường dựa trên các đặc trưng được trích xuất Tuy nhiên, hạn chế của phương pháp này là nó chỉ hiệu quả trên những bộ dữ liệu có bất thường Do đó, các phương pháp giám sát yếu chỉ phù hợp khi thực hiện đối với các bất thường được định nghĩa rộng như đánh nhau, ẩu đả
Intensity difference
Unet
Generator/ Frame Predictor
Anomaly or not? Score
Frame predictor module
Anomaly decision module
Hình 2: Tổng quan kiến trúc của phương pháp học không
giám sát.
C Các phương pháp phát hiện bất thường không giám sát
Theo định nghĩa bất thường là những sự kiện rất hiếm khi xảy ra trong thực tế, trong khi đó những sự kiện bình thường lại xảy ra thường xuyên Dựa vào định nghĩa đó, nhóm phương pháp học không giám sát tập trung chủ yếu vào thu thập các video bình thường làm tập huấn luyện, rồi sau đó học các trường hợp bình thường để phát hiện bất thường Việc quyết định một khung hình
có bất thường hay không dựa chủ yếu vào so sánh giữa frame thực tế và frame tái tạo lại Hướng tiếp cận bằng nhóm phương pháp này cho phép mô hình áp dụng được trong nhiều ngữ cảnh, xử lý nhiều loại bất thường hơn Chỉ cần xây dựng một tập huấn luyện định nghĩa bình thường đủ tốt, hướng phương pháp sẽ cho phép mô hình
dự đoán với tỉ lệ sai sót thấp
Trang 3Hình 3: Tổng quan kiến trúc huấn luyện mô hình Future frame prediction [6].
Vì những ưu điểm của nhóm phương pháp học không
giám sát, nhóm quyết định sử dụng phương pháp Future
frame prediction [6] - một trong những phương pháp tân
tiến nhất hiện nay trong giám sát bất thường làm phương
pháp nền tảng để cải thiện Nghiên cứu này tập trung
vào thay thế một hàm độ lỗi mới trong thành phần dự
đoán frame tương lai để tăng khả năng dự đoán frame
bình thường của Hình 2
III PHƯƠNG PHÁP THỰC NGHIỆM
Trên các bộ dữ liệu được thu thập trước đây, đa phần
từ các CCTV, có độ phân giải thấp Việc sử dụng phương
pháp so sánh dựa trên các điểm ảnh dẫn đến sai lệch lớn,
ảnh hưởng kết quả đánh giá Trong trường hợp đó, dựa
trên phương pháp Future frame prediction được đề xuất
trong [6] được mô tả trong Hình 3, nghiên cứu sử dụng
đặc trưng thủ công HOG để biểu diễn đặc trưng người
cho thấy xu hướng của các giá trị trong vùng điểm ảnh
quan tâm
A Kiến trúc tổng quan
Kiến trúc tổng quan của phương pháp gồm 3 thành
phần chính được trình bày trong Hình 4 Với đầu vào là
một video với t frame liên tiếp I1, I2, , It, It+1 Mục
tiêu của bài toán là xác định frame It+1 có bất thường
hay không
• Thành phần dự đoán frame tương lai: Từ các frame
I1, I2, , It, phương pháp dự đoán frame tương lai
bình thường cho frame It+1 Kết quả dự đoán được
ký hiệu là ˆIt+1 Để huấn luyện ˆIt+1 gần với It+1,
phương pháp dựa trên nền tảng mạng sinh đối ngẫu
- GAN (generative adversarial network) [14] với 2
thành phần sinh và phân biệt Trong đó, hàm mục
tiêu sẽ bổ sung được thêm những ràng buộc về
ngoại hình và chuyển động để tăng thêm khả năng
frame được dự đoán là frame bình thường
• Thành phần xác định bất thường: Dựa vào sự khác nhau giữa ˆIt+1 và It+1, thành phần sẽ trả ra được điểm số bình thường (normal score) của frame ảnh, điểm số này nằm trong khoảng [0,1] Từ đó dựa vào
1 ngưỡng được xác định sẵn (thông thường được chọn là 0.5) để quyết định là frame đó là frame bình thường hay bất thường (nếu frame có điểm vượt quá 0.5 sẽ được coi là frame bình thường, ngược lại thì sẽ bị coi là bất thường)
B Hàm độ lỗi đề xuất
Với ảnh đầu vào I, đặc trưng HOG của ảnh I được
ký hiệu là h(I) Dựa trên nền của phương pháp Future frame prediction, chúng tôi thay đổi hàm mục tiêu của thành phần dự đoán frame mới với sự bổ sung thêm của hàm độ lỗi HOG (Hình 4) được định nghĩa như sau:
Lhog=X|h( ˆI) − h(I)| (1) Kết hợp lại với hàm độ lỗi gốc của phương pháp Future frame prediction, chúng tôi đề xuất hàm mục tiêu của thành phần dự đoán frame như sau:
LG = λintLint( ˆIt+1, It+1) + λgdLgd( ˆIt+1, It+1)+
λopLop( ˆIt+1, It+1) + λadvLadv( ˆIt+1, It+1)+
λhogLhog( ˆIt+1, It+1) (2) Với LG ký hiệu cho hàm độ lỗi của thành phần generator Lgd ký hiệu cho hàm độ lỗi của giá trị đạo hàm trong ảnh Lop ký hiệu cho hàm độ lỗi của giá trị optical flow Ladv ký hiệu cho hàm độ lỗi của của kết quả trả về từ Discriminator Lhog ký hiệu cho hàm độ lỗi của giá trị HOG
Việc chỉ sử dụng cường độ của gradient làm độ lỗi về hình dáng của đối tượng sẽ khiến cho mô hình dự đoán
Trang 4Generator (Unet)
Intensity/ Gradient
Discriminator
Flownet2
Flownet2
HOG Loss
Generator Loss
Hình 4: Tổng quan kiến trúc huấn luyện của phương pháp đề xuất.
chỉ tập trung tối ưu vào những chi tiết đường nét tổng
thể của video Tuy nhiên trong các video có độ phân
giải thấp, những đặc trưng về đường nét của các đối
tượng như người lại không rõ ràng nên sẽ thường bị bỏ
qua Vậy nên việc sử dụng hàm HOG trích xuất ra được
thông tin về góc cạnh cục bộ trong quá trình huấn luyện
mô hình dự đoán frame giúp bổ sung được những thông
tin về hình dáng của đối tượng, giúp cho mô hình dự
đoán frame dự đoán các frame bất thường chính xác,
chi tiết hơn khi áp dụng trên các video có độ phân giải
thấp
IV PHÂN TÍCH KẾT QUẢ THỰC NGHIỆM
A Bộ dữ liệu
Giới thiệu tổng quan về 4 bộ dữ liệu sử dụng trong
quá trình thực nghiệm, một vài ví dụ về các bộ dữ liệu
được trình bày trong Hình 5
• Bộ dữ liệu CUHK Avenue [13] chứa 16 video huấn
luyện và 21 video đánh giá với tổng cộng 47 sự kiện
bất thường bao gồm ném đồ vật, chạy, nhảy, che
khuất Kích thước của người có thể thay đổi vì vị
trí và góc của camera
• Bộ dữ liệu UCSD [11] gồm 2 phiên bản: UCSD
Pedestrian 1 (Ped 1) và UCSD Pedestrian 2 (Ped
2) Bộ UCSD Pedestrian 1 (Ped 1) gồm 34 video
huấn luyện và 36 video đánh giá với 40 sự kiện bất thường Tất cả các trường hợp bất thường này liên quan tới việc đi xe đạp, xe máy vào đường dành cho người đi bộ Bộ UCSD Pedestrian 2 (Ped 2) bao gồm 16 video huấn luyện và 12 video đánh giá với 12 sự kiện bất thường Định nghĩa của Ped
2 cũng giống với Ped 1 Sự khác biệt lớn nhất giữa
2 bộ này không chỉ ở kích thước bộ dữ liệu và góc quay mà còn ở độ phân giải của video Ped 1 có độ phân giải 238x158 so với 360 x 240 của Ped 2
• Bộ dữ liệu Subway Entrance dataset [12] chứa 1 video duy nhất được chia ra thành 2 phần dùng để huấn luyện và đánh giá Bộ huấn luyện bao gồm 20,000 frame đầu tiên của video, phần đánh giá gồm 116524 frame còn lại
B Độ đo đánh giá
Trong các nghiên cứu phát hiện bất thường [3], [4], [6], [5], một độ đo đánh giá được tính bằng độ đo Recerver Operation Characteristic (ROC) bằng cách thay đổi dần dần ngưỡng của điểm bình thường Sau đó diện tích ở dưới đường cong - Area Under Curve (AUC) được tích lũy thành một con số duy nhất trong khoảng [0,1]
để đánh giá hiệu suất của phương pháp Giá trị càng cao cho thấy hiệu suất phát hiện bất thường càng tốt
Trang 5Độ phân giải thấp Độ phân giải cao
Bảng I: Kết quả thực nghiệm của 2 phương pháp Future frame prediction
Ride a bike
UCSD Ped 1
Ride a bike
UCSD Ped 2
Enter without payment
Subway Entrance CUHK Avenue
Throwing object
Hình 5: Một vài mẫu dữ liệu bình thường và bất thường
trên 4 bộ: UCSD Ped 1, UCSD Ped 2, CUHK Avenue
và Subway Entrance.
C Cài đặt thực nghiệm
Dữ liệu thực nghiệm được chia thành 2 tập: tập huấn
luyện (train), và tập kiểm tra (test) theo bài báo [6] Toàn
bộ quá trình thực nghiệm được triển khai trên GeForce
RTX 2080 Ti GPU với bộ nhớ 11019MiB Chúng tôi
tiến hành huấn luyện trên phiên bản cài đặt bằng Pytorch
của Future frame prediction1 Để huấn luyện mô hình
Future frame prediction, nghiên cứu thiết lập thông số
môi trường dựa trên cấu hình mặc định được cung cấp
trong mã nguồn cùng với một vài tinh chỉnh về số lượng
epoch và kích thước batch size Thông số tinh chỉnh được
trình bày trong Bảng II
Bảng II: Các thông số mô hình tinh chỉnh trong quá
trình huấn luyện
D Phân tích kết quả
Trong bài báo này, để đánh giá khả năng phát hiện bất thường, chúng tôi thực nghiệm phương pháp đề xuất trên
4 bộ dữ liệu gồm: UCSD Ped 1, UCSD Ped 2, CUHK Avenue và Subway Entrance Kết quả của thực nghiệm được trình bày trong Bảng I
Dựa vào bảng kết quả, có thể thấy phương pháp đạt được kết quả nhỉnh hơn khi thực nghiệm trên 2 bộ dữ liệu
có chất lượng hình ảnh thấp (UCSD Ped 1, Subway) Với
bộ Ped 1, kết quả ROC-AUC của phương pháp đề xuất nhỉnh hơn 0.74% so với phương pháp gốc Trên phương pháp Subway phương pháp đề xuất cũng cao hơn 1.9% Đối với 2 bộ dữ liệu Ped 2 và Avenue có chất lượng hình ảnh cao, phương pháp đề xuất chỉ có kết quả nhỏ hơn phương pháp gốc rất ít (0.1% và 0.13%) Từ kết quả này, có thể thấy việc sử dụng đặc trưng HOG đã trích xuất bổ sung thêm những đặc trưng của các đối tượng, từ đó giúp cải thiện kết quả của phương pháp Tuy nhiên, đối với những bộ dữ liệu có độ phân giải cao, đối tượng đã khá chi tiết vì thế nên đặc trưng này không có ảnh hưởng tốt
Trong khi đó, từ bảng III, có thể thấy mức tiêu thụ tài nguyên tính toán của phương pháp đề xuất cao hơn một chút so với phương pháp ban đầu Tuy nhiên, do
sự thay đổi chỉ diễn ra ở hàm lỗi trong quá trình huấn luyện và không đòi hỏi phải thêm dữ liệu nên sự khác biệt chỉ nằm ở thời gian của quá trình huấn luyện mô hình Đối với mức sử dụng bộ nhớ hoặc thời gian kiểm tra, dự đoán bất thường khi đưa vào thực tế của mô hình
đề xuất gần như không chênh lệch so với mô hình ban đầu Vì vậy, có thể thấy rằng phương pháp đề xuất cải
1 https://github.com/feiyuhuahuo/Anomaly_Prediction
Bảng III: Mức tiêu thụ tài nguyên tính toán của phương pháp được tính theo 2 tiêu chí: bộ nhớ và thời gian xử lý
Bộ nhớ đơn vị tính theo đơn vị Megabyte (MB), thời gian được đo theo đơn vị là giây (s)
FFP ký hiệu cho Future Frame Prediction [6]
Trang 6thiện kết quả với mức tài nguyên tính toán sử dụng hợp
lý
Trong bài báo này, nghiên cứu đã đề xuất một hàm độ
lỗi mới cho việc dự đoán frame cho phương pháp phát
hiện bất thường Phương pháp này cho thấy khả năng
xử lý tốt trên các bộ dữ liệu có chất lượng độ phân giải
thấp (UCSD Ped 1, Subway Entrance) và vẫn duy trì
được kết quả tốt trên các bộ dữ liệu có chất lượng độ
phân giải cao (UCSD Ped 2, CUHK Avenue)
Từ những kết quả đạt được, chúng tôi đề xuất hướng
nghiên cứu tiếp theo sử dụng kết hợp các phương pháp
trích xuất đặc trưng trên ảnh và các phương pháp trích
xuất sử dụng học sâu hiện đại hơn
LỜI CẢM ƠN Chúng tôi xin chân thành cảm ơn Phòng thí nghiệm
Truyền thông Đa phương tiện (MMLab) của Trường Đại
học Công nghệ Thông tin, ĐHQG-HCM đã hỗ trợ chúng
tôi trong quá trình thực hiện nghiên cứu này
[1] S Zhu, C Chen, and W Sultani, “Video anomaly detection for
smart surveillance,” CoRR, vol abs/2004.00222, 2020 [Online].
Available: https://arxiv.org/abs/2004.00222
[2] G Pang, C Shen, L Cao, and A V D Hengel, “Deep
learning for anomaly detection,” ACM Computing Surveys,
vol 54, no 2, pp 1–38, Mar 2021 [Online] Available:
https://doi.org/10.1145/3439950
[3] Z Zaheer, A Mahmood, M Astrid, and S.-I Lee, CLAWS:
Clustering Assisted Weakly Supervised Learning with Normalcy
376.
[4] W Liu, W Luo, Z Li, P Zhao, and S Gao, “Margin learning
embedded prediction for video anomaly detection with a few
anomalies,” in Proceedings of the Twenty-Eighth International
Conferences on Artificial Intelligence Organization, Aug 2019.
[Online] Available: https://doi.org/10.24963/ijcai.2019/419
[5] M Z Zaheer, J ha Lee, M Astrid, and S.-I Lee, “Old is gold: Redefining the adversarially learned one-class classifier training paradigm,” 2020.
[6] W Liu, W Luo, D Lian, and S Gao, “Future frame prediction
for anomaly detection - a new baseline,” in 2018 IEEE/CVF
pp 6536–6545.
[7] H Park, J Noh, and B Ham, “Learning memory-guided normality for anomaly detection,” in 2020
https://doi.org/10.1109/cvpr42600.2020.01438 [8] R Morais, V Le, T Tran, B Saha, M Mansour, and S Venkatesh, “Learning regularity in skeleton trajectories for anomaly detection in videos,” in 2019
https://doi.org/10.1109/cvpr.2019.01227 [9] B Wan, Y Fang, X Xia, and J Mei, “Weakly supervised video anomaly detection via center-guided discriminative
learning,” in 2020 IEEE International Conference on Multimedia
https://doi.org/10.1109/icme46284.2020.9102722 [10] N Dalal and B Triggs, “Histograms of oriented gradients for
human detection,” in 2005 IEEE Computer Society Conference
2005, pp 886–893 vol 1.
[11] V Mahadevan, W Li, V Bhalodia, and N Vasconcelos,
“Anomaly detection in crowded scenes,” in 2010 IEEE Computer
2010, pp 1975–1981.
[12] A Adam, E Rivlin, I Shimshoni, and D Reinitz, “Robust real-time unusual event detection using multiple fixed-location
monitors,” IEEE Transactions on Pattern Analysis and Machine
Available: https://doi.org/10.1109/tpami.2007.70825 [13] C Lu, J Shi, and J Jia, “Abnormal event detection at 150 fps
in matlab,” in 2013 IEEE International Conference on Computer
[14] I Goodfellow, J Pouget-Abadie, M Mirza, B Xu, D Warde-Farley, S Ozair, A Courville, and Y Bengio, “Generative
adversarial networks,” Communications of the ACM, vol 63,
no 11, pp 139–144, Oct 2020 [Online] Available: https://doi.org/10.1145/3422622