1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Incremental learning for anomaly detection (Đồ Án môn học Đồ Án 1)

66 1 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Incremental learning for anomaly detection (Đồ Án môn học Đồ Án 1)
Tác giả Đoàn Danh Dự
Người hướng dẫn ThS. Nguyễn Thành Hiệp
Trường học Trường Đại Học Công Nghệ Thông Tin, Đại Học Quốc Gia TP. Hồ Chí Minh
Chuyên ngành Khoa học máy tính, Phân tích dữ liệu, Học máy
Thể loại Đồ án
Năm xuất bản 2024
Thành phố Tp. Hồ Chí Minh
Định dạng
Số trang 66
Dung lượng 5,33 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Cấu trúc

  • 1.1. Giới thiệu tổng quan (8)
  • 1.2. Bài toán phát hiện bất thường trong video (9)
  • 1.3. Phân loại các sự kiện bất thường (10)
  • 1.4. Bố cục bài báo cáo (11)
  • 3.1. Đ n c nh ơ ả (17)
    • 3.1.1. CASIA Action(đ n) ơ (17)
    • 3.1.2. Subway(đơn) (18)
    • 3.1.3. UCSD Pedestrian(đ n) ơ (19)
    • 3.1.4. Street Scene(đ n) ơ (20)
    • 3.1.5. CUHK Avenue(đ n) ơ (21)
  • 3.2. Đa c nh ả (22)
    • 3.2.1. UCF-Crime(đa) (22)
    • 3.2.2. ShanghaiTech(đa) (23)
    • 3.2.3. XD-Violence(đa) (24)
    • 3.2.4. NWPU Campus (25)
    • 3.2.5. UMN Crowd Abnormality(đa) (26)
    • 3.2.6. Anomalous Behavior Database(đa) (27)
  • 3.3. Thảo luận về các bộ dữ liệu (29)
  • 4.1. Các ph ươ ng pháp h c và giám sát ọ (30)
    • 4.1.1. H c có giám sát ọ (30)
    • 4.1.2. H c t giám sát ọ ự (31)
    • 4.1.3. H c giám sát y u ọ ế (33)
    • 4.1.4. H c không giám sát ọ (36)
  • 4.2. Trích xuất đặc trưng (39)
    • 4.2.1. Các lo i đ c tr ng ạ ặ ư (40)
      • 4.2.1.1. Đ c tr ng không gian (Spatial Features) ặ ư (40)
      • 4.2.1.2. Đ c tr ng th i gian (Temporal Features) ặ ư ờ (40)
      • 4.2.1.3. Đ c tr ng không-th i gian (Spatiotemporal Features) ặ ư ờ (40)
      • 4.2.1.4. Đ c tr ng ng nghĩa (Textual Features) ặ ư ữ (40)
    • 4.2.2. Các bộ trích xuất đặc trưng sâu (41)
      • 4.2.2.1. M ng n -ron tích ch p (CNNs) ạ ơ ậ (41)
      • 4.2.2.2. Autoencoders (AEs) (41)
      • 4.2.2.3. M ng đ i kháng sinh (GANs) ạ ố (42)
      • 4.2.2.4. Các mô hình tu n t sâu (Sequential Deep Learning) ầ ự (43)
      • 4.2.2.5. Mô hình ngôn ng th giác (Vision-Language Models - VLMs) ữ ị 36 4.2.2.6. Mô hình lai (Hybrid Models) (44)
  • 4.3. Th o lu n v các ph ả ậ ề ươ ng pháp (46)

Nội dung

Bài khảo sát này nghiên cứu các phương pháp phát hiện bất thường từ truyềnthống đến dựa trên học sâu, mở rộng vượt ra ngoài các mô hình huấn luyện có giám sáttruyền thống để bao gồm cả c

Giới thiệu tổng quan

Với nhu cầu ngày càng tăng về an ninh, đặc biệt tại các khu vực công cộng như sân bay, nhà ga, siêu thị, trường học và các con đường đông đúc, camera giám sát ngày càng được sử dụng phổ biến để theo dõi hoạt động hàng ngày và phát hiện các sự kiện bất thường Theo báo cáo của IHS Markit, lượng dữ liệu từ các camera giám sát đã tăng mạnh từ 566PB năm 2015 lên đến 2500PB mỗi ngày vào cuối năm 2019, phản ánh xu hướng mở rộng của hệ thống an ninh bằng công nghệ camera.

Tuy nhiên, quá trình giám sát và chú ý liên tục này đòi hỏi nhiều công sức của con người Đây một công việc mệt mỏi vì các sự kiện bất thường chỉ xảy ra 0.01% thời gian, trong khi 99.9% thời gian giám sát là lãng phí [2] Hơn nữa, hệ thống giám sát tạo ra lượng lớn dữ liệu video dư thừa, đòi hỏi không gian lưu trữ không cần thiết. Để giảm thiểu công sức con người và chi phí lưu trữ, việc xây dựng một hệ thống giám sát hiệu quả để phát hiện bất kỳ hành vi kỳ lạ nào có thể dẫn đến các tình huống nguy hiểm là rất cần thiết Điều này đòi hỏi những nghiên cứu sâu và toàn diện về phát hiện bất thường trong video Vì thế, phát hiện bất thường đã trở thành một lĩnh vực nghiên cứu sôi động trong những năm gần đây Với mục đích hiện thực hóa một quy trình tự động để phát hiện các sự kiện bất thường, nhiều phương pháp tiên tiến đã được đề xuất Ý tưởng chính là trước tiên học các mẫu hành vi bình thường từ video huấn luyện, sau đó trích xuất các biểu diễn của các trường hợp bình thường Nếu có bất kỳ sự kiện nào lệch khỏi các biểu diễn này, một sự kiện bất thường sẽ được phát hiện.

Việc giám sát video và phát hiện bất thường vẫn đối mặt với nhiều thách thức, đặc biệt trong giai đoạn trích xuất đặc trưng do các yếu tố như che khuất, chồng chéo, nền lộn xộn, nhiễu cảm biến, ánh sáng yếu và thay đổi nền động gây ảnh hưởng đến hiệu suất hệ thống [3] Hơn nữa, khả năng phát hiện bất thường còn phụ thuộc vào ngữ cảnh của cảnh quay, vì một hành động có thể được xem là bất thường trong một cảnh nhưng lại bình thường trong cảnh khác [4] Điều này đòi hỏi cần có một lượng lớn dữ liệu huấn luyện để xác định chính xác các trường hợp xảy ra trong thực tế.

Các phương pháp truyền thống phát hiện bất thường trong video gặp nhiều hạn chế về khả năng tự động trích xuất đặc trưng Sự tiến bộ nhanh chóng của các kỹ thuật học sâu đã mở ra các hướng đi mới hiệu quả hơn trong lĩnh vực này Nhờ ứng dụng học sâu, các nhà nghiên cứu đã phát triển các phương pháp sáng tạo, vượt trội so với phương pháp truyền thống và khắc phục những hạn chế của học máy cũ.

Trong những năm gần đây, bên cạnh các mô hình phát hiện bất thường dựa trên học sâu sử dụng phương pháp học có giám sát, các tiếp cận mới như học bán giám sát, tự giám sát và không giám sát đã xuất hiện Những phương pháp này mang lại giải pháp tiềm năng cho các thách thức của các phương pháp truyền thống, chẳng hạn như yêu cầu dữ liệu gán nhãn đầy đủ và khả năng nắm bắt các mẫu không gian-thời gian phức tạp.

Bài toán phát hiện bất thường trong video

Các hành động, sự kiện hoặc đối tượng mang đặc điểm sai lệch hoặc thay đổi so với tiêu chuẩn, trạng thái bình thường hoặc kỳ vọng sẽ được xem là bất thường Việc nhận biết các yếu tố bất thường giúp xác định các vấn đề tiềm ẩn hoặc những sự kiện cần chú ý trong nhiều lĩnh vực khác nhau Điều này đóng vai trò quan trọng trong việc phân tích và xử lý các tình huống liên quan đến bất thường giúp đảm bảo an toàn và hiệu quả.

Trong các tình huống học có giám sát với dữ liệu nhãn sẵn về các khung hình, phát hiện bất thường trong video đóng vai trò quan trọng để nâng cao hiệu quả và độ chính xác của hệ thống Các phương pháp phát hiện bất thường trong video dựa trên việc sử dụng các thuật toán học máy để nhận diện các hành vi hoặc hiện tượng không bình thường, góp phần nâng cao an ninh và giám sát Việc xác định các bất thường trong video giúp giảm thiểu sai sót và nâng cao khả năng phản ứng nhanh với các tình huống nguy hiểm hoặc bất thường xảy ra Các nghiên cứu gần đây tập trung vào việc phát triển các mô hình có khả năng tự học và phân tích dữ liệu video có nhãn, từ đó cải thiện độ chính xác của việc phát hiện các sự kiện bất thường Điều này không chỉ giúp tối ưu hóa các hệ thống giám sát mà còn mở rộng khả năng ứng dụng trong các lĩnh vực an ninh, quản lý giao thông và kiểm tra chất lượng trong công nghiệp.

Trong một video \(V_i\), ta có các khung hình được đánh số từ 1 đến \(n\): \(\{f_{i,1}, f_{i,2}, , f_{i,n}\}\) Đối với mỗi khung hình, ta trích xuất các đặc trưng quan trọng, ký hiệu là \(x_{i,j}\) Mô hình \(M\) nhận các đặc trưng của khung hình \(f_{i,j}\) và dự đoán xác suất là \(S(f_{i,j}) = M(x_{i,j})\) Tổng xác suất của toàn bộ video \(V_i\) được tính bằng tổng xác suất của các khung hình trong nó, giúp hệ thống phân loại và phân tích chính xác nội dung của video.

S ( f i , j ) Đi m s b t thể ố ấ ường S ( V i )này được so sánh v i m t ngớ ộ ưỡng đã được xác đ nhị trước, T , và chúng ta có th đ nh nghĩa nhãn nh phân d đoán ể ị ị ự Y ^ i cho video.

 1 chỉ ra rằng V i là bất thường và 0 là bình thường

Nhãn thực của video được biểu diễn là Y_i thuộc tập {0, 1}, nhằm xác định sự hiện diện hoặc vắng mặt của một đặc điểm nhất định trong video Mục tiêu của quá trình huấn luyện mô hình M là tối thiểu hóa sự khác biệt giữa nhãn dự đoán Y^_i và nhãn thực Y_i trên tất cả các video trong tập huấn luyện, từ đó đảm bảo độ chính xác cao và khả năng tổng quát tốt cho các video chưa thấy trong dữ liệu huấn luyện Việc tối ưu hóa này giúp mô hình học tốt các đặc điểm của dữ liệu, nâng cao hiệu suất dự đoán trong thực tế.

Phân loại các sự kiện bất thường

Tùy thu c vào s lộ ố ượng th c th có m t trong ho t đ ng b t thự ể ặ ạ ộ ấ ường, b tấ thường có th để ược chia thành hai lo i khác nhau: b t thạ ấ ường d a trên m tự ộ th c th và b t thự ể ấ ường d a trên s tự ự ương tác [1].

Bất thường dựa trên một thực thể được định nghĩa là khi một sự kiện hoặc hành vi của một cá nhân khác biệt rõ rệt so với các thực thể xung quanh Ví dụ điển hình của bất thường dựa trên một thực thể là hành động lái xe đi sai hướng trên đường, thể hiện sự không phù hợp so với hành vi chung của các phương tiện khác trên cùng tuyến đường Kiến thức này giúp nhận diện các hành vi bất thường dựa trên đặc điểm cá nhân, từ đó hỗ trợ phát hiện các tình huống cần chú ý hoặc xử lý phù hợp.

 Bất thường dựa trên sự tương tác coi một sự kiện là bất thường nếu nhiều sự kiện bình thường khi thực hiện riêng lẻ, nhưng lại tương tác với nhau theo cách khác biệt Một số ví dụ về bất thường dựa trên sự tương tác là tai nạn xe hơi, hoặc một nhóm người đứng tụ tập trong cuộc bạo loạn.

Ngoài ra, phát hi n b t thệ ấ ường còn có th để ược phân lo i các m c đ khácạ ở ứ ộ nhau nh frame, pixel ho c duel pixel ư ặ

 Ở cấp độ pixel, nếu một pixel trong khung hình được phát hiện là bất thường, toàn bộ khung hình sẽ được coi là bất thường

 Ở cấp độ frame, nếu 40% pixel trong frame được phát hiện là bất thường, thì frame đó được coi là bất thường

 Ở cấp độ duel pixel, phải thỏa mãn hai điều kiện:

+ Phải đáp ứng tiêu chí ở cấp độ frame;

+ Nếu một tỷ lệ β% pixel bị phát hiện là bất thường thì khung hình đó được coi là bất thường Thông số β này do người dùng xác định.

Bố cục bài báo cáo

Các ph n ti p theo c a bài báo cáo này có c u trúc nh sau:ầ ế ủ ấ ư

Chương 2 xem xét các kh o sát trả ước đây được th c hi n trong lĩnh v c phát ự ệ ự hi n b t thệ ấ ường video Các b d li u tiêu chu n độ ữ ệ ẩ ượ ử ục s d ng trong xây d ng và đánh giá các mô hình phát hi n b t thự ệ ấ ường được trình bày trong

Chương 3 Chương 4 phác th o m t h th ng phân lo i các kỹ thu t đã đả ộ ệ ố ạ ậ ược áp d ng trong bài toán phát hi n b t thụ ệ ấ ường trong video đượ ử ục s d ng trong quá kh Ti p theo đó, chứ ế ương 5 cung c p phân tích so sánh, nh n xét, đánh ấ ậ giá các phương pháp gi a các mô hình hi n đ i Cu i cùng, các hữ ệ ạ ố ướng nghiên c u trong tứ ương cùng k t lu n đế ậ ược trình bày trong các Chương 6 và 7.

Chương 2 CÁC NGHIÊN CỨU LIÊN QUAN

Trong lĩnh v c phát hi n b t thự ệ ấ ường, nhi u bài báo kh o sát đã đề ả ược th c hi nự ệ trong th p k qua.ậ ỷ

Bài khảo sát đầu tiên công bố năm 2018 tập trung vào các kỹ thuật học sâu cho phát hiện bất thường trong video, chú trọng đặc biệt đến các phương pháp không giám sát và bán giám sát Các mô hình được phân loại dựa trên cấu trúc, không gian-thời gian và hình sinh, mang ý nghĩa quan trọng trong lĩnh vực này Đáng chú ý, bài báo này được xuất bản trước khi phương pháp Multiple Instance Learning (MIL) trở nên phổ biến, góp phần nâng cao hiệu quả phát hiện bất thường trong các nghiên cứu sau này.

Nghiên cứu của Chalapathy và các cộng sự đã khai thác vai trò quan trọng của các phương pháp phát hiện bất thường dựa trên học sâu để giải quyết các thách thức trong giám sát an ninh mạng Các công trình này tập trung vào các lĩnh vực như Internet of Things, phát hiện xâm nhập và video giám sát, chia thành các loại chính gồm phương pháp không giám sát, bán giám sát, lai ghép và mô hình mạng nơ-ron một lớp (One-Class Neural Network) Phương pháp học sâu được chia thành các lớp phù hợp để xử lý các vấn đề giám sát an ninh mạng đa dạng và phức tạp, góp phần nâng cao hiệu quả phát hiện các hành vi bất thường.

M t kh o sát khác c a Ramachandraộ ả ủ [9] và các c ng s ch y u t p trung vàoộ ự ủ ế ậ vi c phát hi n b t thệ ệ ấ ường trong m t c nh đ n, đ ng th i làm n i b t s khácộ ả ơ ồ ờ ổ ậ ự bi t v i phát hi n b t thệ ớ ệ ấ ường đa c nh S khác bi t quan tr ng n m ch , phátả ự ệ ọ ằ ở ỗ hi n b t thệ ấ ường c nh đ n có th liên quan đ n các b t thả ơ ể ế ấ ường ph thu c vào vụ ộ ị trí c th , trong khi phát hi n đa c nh thì không Bài kh o sát này cũng làm rõụ ể ệ ả ả các b d li u chu n độ ữ ệ ẩ ượ ử ục s d ng cho phát hi n trong m t c nh đ n so v iệ ộ ả ơ ớ nhi u c nh và các quy trình đánh giá liên quan Kh o sát phân lo i các nghiênề ả ả ạ c u trứ ước đây trong phát hi n b t thệ ấ ường thành ba nhóm chính: phương pháp d a trên kho ng cách, xác su t, và tái c u trúc.ự ả ấ ấ

Trong các công trình nghiên cứu, Nayak và các cộng sự đã phân loại các phương pháp học sâu thành các nhóm chính như có giám sát, không giám sát, bán giám sát và học không giám sát Các phương pháp học sâu được phân thành nhiều danh mục khác nhau, bao gồm các phương pháp dựa trên quỹ đạo, mô hình toàn cục, mô hình lưới, mô hình học biểu diễn, mô hình phân biệt, mô hình dự đoán, mô hình sinh sâu, mạng nơ-ron mô tả sâu và mô hình lai sâu Nghiên cứu này cũng tập trung phân tích chi tiết các tiêu chí đánh giá hiệu suất, such as yêu cầu dữ liệu, cường độ tính toán, tiêu chí đánh giá hiệu quả, giúp lựa chọn phương pháp phù hợp với mục tiêu và điều kiện dự án.

M t công trình khác c a Pangộ ủ [11] và các c ng s đã t p trung vào các kỹ thu tộ ự ậ ậ h c sâu cho phát hi n b t thọ ệ ấ ường và khám phá các thách th c khác nhau trongứ bài toán phát hi n b t thệ ấ ường, bao g m m t cân b ng l p trong d li u, phátồ ấ ằ ớ ữ ệ hi n b t thệ ấ ường ph c t p, s hi n di n c a các m u nhi u trong các phứ ạ ự ệ ệ ủ ẫ ễ ương pháp bán giám sát y u, Ngoài ra, bài báo cũng đã gi i thi u m t h th ng phânế ớ ệ ộ ệ ố lo i các phạ ương pháp phát hi n b t thệ ấ ường d a trên h c sâu, bao g m ba danhự ọ ồ m c chính: h c sâu đ trích xu t đ c tr ng, h c bi u di n s bình thụ ọ ể ấ ặ ư ọ ể ễ ự ường, và h c đi m s b t thọ ể ố ấ ường end-to-end.

Trong nghiên cứu của mình, Mohammad Baradaran và Robert Bergevin đã tập trung vào các phương pháp bán giám sát, đặc biệt là các tình huống dữ liệu bị gán nhãn hạn chế, nhằm nâng cao khả năng phân loại trong dữ liệu video bằng cách khai thác các đặc điểm không gian và thời gian quan trọng Các trích xuất đặc trưng này đóng vai trò quan trọng trong việc phát hiện bấn thực bất thường trong các nhiệm vụ bán giám sát, giúp mô hình chuyên chề nhận diện các mẫu phức tạp trong dữ liệu Các tác giả đã phân tích rõ các điểm mạnh và yêu cầu của các phương pháp khác nhau trong việc phát hiện bất thường, phân loại các phương pháp học sâu bán giám sát thành sáu nhóm chính: tái cấu trúc, đoán, ghi nhãn, tập trung vào đa tạ độ, phân đoán, và học đa nhiệm Đặc biệt, phân tích này cho thấy các đặc điểm và ưu điểm của từng nhóm, cũng như hiệu quả của các kỹ thuật trích xuất đặc trưng trong từng phương pháp khác nhau.

M t bài kh o sát g n đây khác c a Nomicaộ ả ầ ủ [13] đã cung c p phân tích sâu v cácấ ề kỹ thu t h c máy đ phát hi n b t thậ ọ ể ệ ấ ường trong h th ng giám sát video Bàiệ ố kh o sát này phân lo i các phả ạ ương pháp thành ba nhóm chính: có giám sát, bán giám sát, và không giám sát, làm n i b t các đi m m nh, đi m y u và kh năngổ ậ ể ạ ể ế ả áp d ng c a t ng phụ ủ ừ ương pháp Tuy nhiên, bài kh o sát này không đ c p đ nả ề ậ ế nh ng s khác bi t quan tr ng gi a các lo i đ c tr ng – ch ng h n nh đ cữ ự ệ ọ ữ ạ ặ ư ẳ ạ ư ặ tr ng th i gian, không gian, văn b n và đ c tr ng k t h p Nh ng s khác bi tư ờ ả ặ ư ế ợ ữ ự ệ này có nh hả ưởng l n đ n vi c ch n các b trích xu t đ c tr ng, t đó tác đ ngớ ế ệ ọ ộ ấ ặ ư ừ ộ đ n hi u qu c a các mô hình phát hi n.ế ệ ả ủ ệ

M t bài kh o sát g n đây độ ả ầ ược xu t b n b i Yangấ ả ở [14] và các c ng s vào nămộ ự

Năm 2024, các phương pháp phát hiện băt thề ường trong video được phân loại thành các nhóm không giám sát, bán giám sát, hoàn toàn không giám sát và có giám sát Nghiên cứu này đã xác định các đặc điểm quan trọng của từng phương pháp, như khả năng trích xuất đặc trưng và phân tích tần số, đồng thời làm rõ vai trò của xử lý các đặc trưng không gian-thời gian và sự biến đổi của ánh sáng Dù có sự so sánh chi tiết giữa các phương pháp khác nhau, nghiên cứu vẫn chưa đạt đến mô hình ngôn ngữ – thị giác, mặc dù đây là lĩnh vực đang phát triển trong nghiên cứu AI.

Chương 3 CÁC BỘ DỮ LIỆU

Ph n này sẽ trình bài m t h th ng t ng h p các b d li u n i ti ng và đầ ộ ệ ố ổ ợ ộ ữ ệ ổ ế ược dùng nhi u trong vi c xây d ng cũng nh đánh giá các mô hình phát hi n b tề ệ ự ư ệ ấ thường trong video B ng dả ưới đây th ng kê các thông s c a các b d li u.ố ố ủ ộ ữ ệ

B ng ả CÁC B D LI UỘ Ữ Ệ 1 Các bộ dữ liệu phát hiện bất thường trong video.

Số l ượ n g video Độ dài

Single scene, indoor only, limited number of anomalies

Single scene, indoor only, limited number of anomalies

Bikers, small carts, walking across walkways

Small size, single scene, only outdoor, only vehicle anomalies

Bikers, small carts, walking across walkways

Small size, single scene, only outdoor, only vehicle anomalies

Strange action, Wrong direction, Abnormal object

Small size, single scene, outdoor only, camera shake

Biking in Restricted Areas single geographic location

Abuse, arson, assault, burglary, robbery

Imbalance between normal and abnormal classes, variation in video quality

Jaywalking, illegal U- turns, pets, ticketing

Single geographic location, single scene, outdoor only

Limited number of anomalies, variation in video quality

Single- person, group interaction, trajectory

Only university setting anomalies, single geographic location

5 300 50 mins walk, run, bend, jump ~300 70:30 Small dataset size, simple actions UMN Crowd

~250 50:50 Short video length, limited scenarios

~500 60:40 illumination effects, scene clutter, variable target appearance, rapid motion, and camera jitter

Các b d li u này có th chia thành hai nhóm: đ n c nh nghĩa là độ ữ ệ ể ơ ả ược ghi t i ạ m t đ a đi m và đa c nh nghĩa là độ ị ể ả ược ghi l i t i các đ a đi m khác nhau.ạ ạ ị ể

Đ n c nh ơ ả

CASIA Action(đ n) ơ

B d li u CASIA Action ộ ữ ệ [22] là lo i d li u RGB c nh đ n, nghĩa là đạ ữ ệ ả ơ ược ghi l i b ng các c m bi n màu t i m t đ a đi m nh t đ nh b d li u nàyạ ằ ả ế ạ ộ ị ể ấ ị ộ ữ ệ bao g m các ho t đ ng ngoài tr i c a con ngồ ạ ộ ờ ủ ườ ượi đ c ghi l i t các gócạ ừ nhìn khác nhau.

Trong bài viết này, chúng tôi mô tả tám loại hành động của người bao gồm đi bộ, chạy, cúi, nhảy, ngã, lang thang, đâm xe và nhiều hành động khác, với số lượng hơn 24 loại hành động đa dạng Ngoài ra, còn có các loại tương tác giữa hai người như cãi nhau, đánh nhau, theo dõi, bắt giữ, tách ra, ghép và tách ghép, cũng như các vụ va chạm chung Các video thu thập được ghi lại bằng ba camera không hiển thị rõ hình dạng để đảm bảo đa góc nhìn, bao gồm góc ngang, góc xiên và góc nhìn từ trên xổ xuống Các video này được quay với khung hình 25 fps, và độ phân giải của các khung hình đã giảm xuống còn 320×240, mỗi video có độ dài từ 5 đến 30 giây tùy thuộc vào loại hành động.

Hình CÁC B D LI UỘ Ữ Ệ 1 nh minh h a cho b d li u CASIA ActionẢ ọ ộ ữ ệ [22].

Subway(đơn)

B d li u Subwayộ ữ ệ [15] g m hai video đồ ược thu th p b ng camera CCTV,ậ ằ ghi l i các góc nhìn khác nhau c a m t ga tàu ng m ạ ủ ộ ầ

 Video đầu tiên tập trung vào khu vực "cổng vào", nơi mọi người đi qua cửa xoay và vào sân ga, quay lưng về phía camera

 Video thứ hai được đặt ở khu vực "cổng ra", quan sát hành khách đi lên cầu thang, đối diện với camera

Video này có thời lượng khoảng 2 giây, ghi lại các bộ thủ bị sai hướng và dường như đang lang thang, diễn ra trong môi trường trong nhà Bên cạnh đó, nội dung của video được ghi hình ở định dạng grayscale (thang độ xám), giúp làm nổi bật các chi tiết trong hình ảnh.

15 FPS, đ phân gi i 512 × 384 và t ng c ng có 125.475 khung hình.ộ ả ổ ộ

 Các sự kiện bất thường trong bộ dữ liệu này chủ yếu bao gồm:

+ Nhảy qua hoặc chen lấn qua cửa soát vé.

+ Nhân viên vệ sinh lau chùi tường.

Hình CÁC B D LI UỘ Ữ Ệ 2 nh minh h a cho b d li u SubwayẢ ọ ộ ữ ệ [15].

UCSD Pedestrian(đ n) ơ

Hệ thống phát hiện bất thường của UCSD [16][25] sử dụng camera chất lượng cao để giám sát liên tục các khu vực đông người Dữ liệu thu thập từ camera này giúp xác định các hành vi bất thường trong đám đông lớn, góp phần nâng cao hiệu quả quản lý và an ninh trong các khu vực đông đúc.

Trong các video bình thường, hiện tượng người đi bộ ngủ say xảy ra do các nguyên nhân chính như sự xuất hiện của các chất kích thích trong cơ thể hoặc các vấn đề về giấc ngủ Các nguyên nhân này thường dẫn đến tình trạng người đi bộ không kiểm soát được hành vi của mình, gây ra nguy hiểm cho bản thân và cộng đồng Ngoài ra, các triệu chứng của người đi bộ ngủ có thể bao gồm các chuyển động bất thường và không nhận thức được hành vi của mình trong lúc ngủ Việc nhận biết rõ các nguyên nhân và biểu hiện của hiện tượng này rất quan trọng để đảm bảo an toàn khi tham gia giao thông.

Các b t thấ ường ph bi n bao g m ngổ ế ồ ười đi xe đ p, trạ ượt ván, xe đ y nh ,ẩ ỏ người đi b qua l i đi ho c trên c , và ngộ ố ặ ỏ ười dùng xe lăn.

Dữ liệu của tập này được chia thành hai tập con, Peds1 và Peds2, mỗi tập chứa các chuỗi hình ảnh khác nhau Cả hai đều gồm chuỗi hình ảnh được ghi lại ở tốc độ 10 FPS với độ phân giải 238 × 158 cho Pedestrian 1 và 360 × 240 cho Pedestrian 2 Các tập dữ liệu bao gồm video huấn luyện chưa có các hành vi bình thường và video kiểm tra chưa các kỹ năng bất thường hoặc đáng chú ý Ngoài ra, còn có một camera cố định ghi lại dữ liệu để phát hiện các hành vi bất thường, đặt trên thang máy nhằm quan sát các lối đi bộ của người đi qua.

 Tập dữ liệu Pedestrian 1 (Peds1) bao gồm 34 video huấn luyện bình thường và 36 video kiểm tra bất thường của các nhóm người đi bộ hướng về phía máy quay và ra xa máy quay Các trường hợp bất thường chủ yếu liên quan đến các phương tiện bất thường, chẳng hạn như xe đạp và ô tô vào đám đông

Dữ liệu Pedestrian 2 (Ped2) gồm 16 video huấn luyện và 12 video kiểm tra, chứa 12 loại sự kiện bất thường Các cảnh trong Ped2 chủ yếu tập trung vào chuyển động của người đi bộ song song với mặt phẳng của máy quay, giúp nâng cao độ chính xác trong phát hiện bất thường Định nghĩa về sự kiện bất thường trong Ped2 tương tự như trong Ped1, phù hợp cho các mục tiêu phát hiện hành vi bất thường trong các môi trường giám sát video.

Hình CÁC B D LI UỘ Ữ Ệ 3 nh minh h a cho b d li u UCSD Pedestrian1Ả ọ ộ ữ ệ [16].

Hình CÁC B D LI UỘ Ữ Ệ 4 nh minh h a cho b d li u UCSD Pedestrian2Ả ọ ộ ữ ệ [16].

Street Scene(đ n) ơ

Dưới đây là các câu chính thể hiện ý nghĩa của đoạn văn, được tối ưu hóa cho SEO: Dữ liệu Street Scene gồm một bộ dữ liệu đa dạng, độ phủ rộng vào năm 2020, nhằm phục vụ các nghiên cứu về nhận diện hình ảnh đô thị Bộ dữ liệu này chứa hơn 203.257 chuỗi hình ảnh, trong đó có 46 video đào tạo và 35 video kiểm thử, với tổng cộng 56.847 khung hình dùng để huấn luyện và 146.410 khung hình để kiểm thử Các dữ liệu này được phân chia rõ ràng, giúp hỗ trợ hiệu quả cho các mô hình nhận diện và phân đoạn đối tượng trong môi trường đô thị đông đúc.

(1280x720), được trích xu t t các video g c v i t c đ khung hình 15ấ ừ ố ớ ố ộ FPS

Bản ghi này phản ánh tình hình giao thông phức tạp với nhiều hoạt động diễn ra trên đường, bao gồm hơn 205 sự kiện như xe ô tô chạy, rẽ, dừng, đỗ, người đi bộ sang đường hoặc đi bộ trên làn xe đạp Các video cũng ghi nhận các tình huống thay đổi làn, biển báo, đèn tín hiệu và cảnh báo về cây cối và xe cộ xung quanh, cho thấy tình hình giao thông diễn biến đa dạng và cần sự chú ý cao độ từ người tham gia giao thông.

Tài nguyên dữ liệu lớn là nguồn tài nguyên toàn diện có giá trị cho nghiên cứu và phát triển hệ thống Tuy nhiên, một thách thức đáng lưu ý là dữ liệu chất lượng cao tập trung vào một số nhân tố đích thực, điều này hạn chế khả năng tổng quát hóa của các mô hình được huấn luyện dựa trên dữ liệu này.

Hình CÁC B D LI UỘ Ữ Ệ 5 nh minh h a cho b d li u Street SceneẢ ọ ộ ữ ệ [19].

CUHK Avenue(đ n) ơ

Dữ liệu của CUHK Avenue là một nguồn tài nguyên đồ họa đa dạng, được sử dụng rộng rãi trong phát triển bài hát thể hiện trong video, do các nhà nghiên cứu tại Đại học Trung Quốc (CUHK) nghiên cứu và phát triển Dataset này chủ yếu thu thập từ khuôn viên của CUHK, tập trung vào các bài hát thường gặp trong các môi trường đô thị và đường phố công cộng, với tổng cộng 30.652 khung hình Trong đó, 15.328 khung hình được sử dụng để huấn luyện, còn lại 15.324 khung hình là để kiểm tra, đảm bảo chất lượng và độ chính xác của hệ thống.

B d li u ghi l i nhi u hành vi b t thộ ữ ệ ạ ề ấ ường, bao g m c các b t thồ ả ấ ường v t lý nh đánh nhau và ch y nhanh, và các b t thậ ư ạ ấ ường phi v t lý nh tậ ư ụ t p không bình thậ ường và hướng di chuy n sai.ể

Nhiều thách thức quan trọng đã được đề ra cho các mô hình học sâu trong lĩnh vực giám sát video, bao gồm việc xử lý rung nhạc của camera trong nhiều khung hình và phát hiện các hành vi bất thường trong tập huấn luyện và dữ liệu thực tế Ngoài ra, điều kiện ánh sáng khác nhau, độ phân giải thấp và các hoạt động của con người cũng đặt ra những thách thức lớn cho các mô hình phát triển nhằm nâng cao khả năng nhận biết chính xác.

Hình CÁC B D LI UỘ Ữ Ệ 6 nh minh h a cho b d li u CUHK AvenueẢ ọ ộ ữ ệ [17].

Đa c nh ả

UCF-Crime(đa)

B d li u UCF-Crimeộ ữ ệ [2] là m t b d li u quy mô l n và độ ộ ữ ệ ớ ượ ử ục s d ng r ng rãi trong các nghiên c u g n đây, v i cách ti p c n đa c nh, bao g mộ ứ ầ ớ ế ậ ả ồ các video giám sát dài không ch nh s a, v i m c tiêu mô ph ng 13 lo iỉ ử ớ ụ ỏ ạ b t thấ ường th c t có ý nghĩa l n đ i v i an toàn công c ng Các b tự ế ớ ố ớ ộ ấ thường trong b d li u này bao g m các hành vi nh L m d ng, B t gi ,ộ ữ ệ ồ ư ạ ụ ắ ữ Phóng h a, T n công, Tai n n giao thông, Tr m c p, N , Đánh nhau, Cỏ ấ ạ ộ ắ ổ ướp bóc, B n súng, Tr m, Ăn c p c a hàng và Phá ho i.ắ ộ ắ ở ử ạ

Mười người chú thích đã được đào tạo để thu thập video từ các nền tảng như YouTube và LiveLeak, sử dụng các truy vấn tìm kiếm văn bản phù hợp Họ đã giám sát thực tế mà chưa chỉnh sửa nội dung, đảm bảo các video có hình ảnh rõ ràng và phù hợp Ngoài ra, số lượng video bình thường đã được cập nhật lên đến 1.900 video, phản ánh mức độ phong phú của dữ liệu thu thập.

Các chú thích thời gian đã được thu thập một cách kỹ lưỡng bằng cách gắn chúng vào từng đoạn video, giúp đảm bảo độ chính xác cao trong quá trình phân tích Việc tính trung bình các chú thích này góp phần nâng cao độ tin cậy của dữ liệu, hỗ trợ cho các nghiên cứu về xử lý dữ liệu video và tự động nhận dạng nội dung Quá trình này là bước quan trọng trong việc tối ưu hóa các hệ thống xử lý video tự động, mang lại hiệu quả cao hơn trong việc trích xuất thông tin và cải thiện trải nghiệm người dùng.

B d li u độ ữ ệ ược chia thành t p hu n luy n, g m 800 video bình thậ ấ ệ ồ ường và 810 video b t thấ ường, và t p test, g m 150 video bình thậ ồ ường và 140 video b t thấ ường

Vì sở hữu linh hoạt các skin bất thường khác nhau, UCF-Crime là nguồn tài nguyên toàn diện hỗ trợ đánh giá mức độ phát triển bất thường trong các tình huống thực tế Tài nguyên này giúp phân tích chính xác các đặc điểm bất thường, góp phần nâng cao hiệu quả trong công tác phòng chống tội phạm và an ninh.

Hình CÁC B D LI UỘ Ữ Ệ 7 nh minh h a cho b d li u UCF-CrimeẢ ọ ộ ữ ệ [2].

ShanghaiTech(đa)

B d li u ShanghaiTechộ ữ ệ [18] [26] được phát hành vào năm 2016, v iớ

330 video hu n luy n ch có các s ki n bình thấ ệ ỉ ự ệ ường và 107 video test v i 130 s ki n b t thớ ự ệ ấ ường T ng s khung hình là 317,398, v i 17,090ổ ố ớ khung hình b t thấ ường

B d li u độ ữ ệ ược ghi l i b ng camera RGB v i đ phân gi i 856 × 480 t cạ ằ ớ ộ ả ở ố đ 24 FPS, nhìn ra các l i đi b c a ngộ ố ộ ủ ười đi b B d li u bao g m 13ộ ộ ữ ệ ồ c nh (đa c nh) v i đi u ki n ánh sáng ph c t p, góc quay khác nhau vàả ả ớ ề ệ ứ ạ nhi u lo i s ki n b t thề ạ ự ệ ấ ường, ch y u liên quan đ n các v t th l , đi saiủ ế ế ậ ể ạ hướng và các hành đ ng l ộ ạ

 Hành động lạ: các hành vi như chạy, cướp, đẩy, nhảy, nhảy qua hàng rào, làm rơi, ném đồ vật và đánh nhau

 Đi sai hướng: có trường hợp mọi người thường đi theo hướng bình thường, nhưng có người đi ngược lại.

 Vật thể bất thường: là trường hợp một người mang theo một vật thể lạ, chẳng hạn như xe đạp hoặc xe đẩy em bé.

Hình CÁC B D LI UỘ Ữ Ệ 8 nh minh h a cho b d li u ShanghaiTechẢ ọ ộ ữ ệ [18].

XD-Violence(đa)

B d li u XD-Violenceộ ữ ệ [20] là m t b d li u quy mô l n và đa c nh, cóộ ộ ữ ệ ớ ả t ng th i gian lên đ n 217 gi và 4,754 video ch a ch nh s a B d li uổ ờ ế ờ ư ỉ ử ộ ữ ệ này bao g m 2,405 video có c nh b o l c, bao g m sáu lo i b o l c thồ ả ạ ự ồ ạ ạ ự ể ch t: L m d ng, Tai n n xe, N , Đánh nhau, B o lo n và B n súng vàấ ạ ụ ạ ổ ạ ạ ắ 2,349 video không b o l c, t t c đ u có tín hi u âm thanh và nhãn y uạ ự ấ ả ề ệ ế được thu th p t c phim và các tình hu ng th c t ậ ừ ả ố ự ế

B d li u độ ữ ệ ược chia thành t p hu n luy n g m 3,954 video và t p thậ ấ ệ ồ ậ ử nghi m g m 800 video, trong đó có 500 video b o l c và 300 video khôngệ ồ ạ ự b o l c.ạ ự

Mục tiêu chính của bài viết là phát hiện bộ lọc dữ liệu và giám sát yêu cầu có nhãn trong các video được cung cấp trong tập huấn Phương pháp này giúp giảm thiểu công sức lao động so với việc gán nhãn thủ công trên từng khung hình, nâng cao hiệu quả và độ chính xác trong quá trình phân loại dữ liệu video.

Hình CÁC B D LI UỘ Ữ Ệ 9 nh minh h a cho b d li u XD-ViolenceẢ ọ ộ ữ ệ [20].

NWPU Campus

Tại khuôn viên trường NWPU, hệ thống camera đã được lắp đặt tại 43 điểm để giám sát hoạt động ngoài trời nhằm đảm bảo an ninh Các camera này giúp ghi lại hình ảnh của người đi bộ và phương tiện qua lại, góp phần nâng cao an toàn cho sinh viên và nhân viên nhà trường Đặc biệt, hệ thống camera còn giúp phát hiện các hoạt động đáng nghi hoặc bất thường, qua đó nâng cao khả năng phát hiện, ngăn chặn các vụ việc tiêu cực Đến nay, đã có hơn 30 tình nguyện viên tham gia thực hiện các hoạt động kiểm tra, giám sát nhằm duy trì môi trường học tập an toàn và an ninh.

Việc bao gồm các yếu tố về an toàn giao thông như đội mũ bảo hiểm, tuân thủ tốc độ và quy định lưu thông là rất quan trọng để đảm bảo an toàn trên đường Hành vi đi bộ, đạp xe, lái xe và các hoạt động hàng ngày cần tuân thủ đúng các quy tắc giao thông nhằm giảm thiểu tai nạn Các loại hình bảo hiểm như bảo hiểm tai nạn, bảo hiểm nhóm, bảo hiểm theo câu chuyện, bảo hiểm từ trí, và bảo hiểm ngoài hình góp phần bảo vệ người tham gia giao thông trong các tình huống rủi ro Việc hiểu rõ và chú trọng đến các yếu tố này là chìa khóa để nâng cao an toàn và ý thức giao thông của cộng đồng.

Kênh này có tổng cộng 305 video huấn luyện và 242 video test, với tổng cộng hơn 1,6 triệu bình luận Các video trong danh sách test được chú thích rõ ràng bằng khung hình, giúp xác định rõ các hiển thị hoặc không hiển thị của các skin bất thự Tất cả các nội dung đều được thiết kế để hỗ trợ quá trình huấn luyện hiệu quả và chính xác hơn.

Bộ dữ liệu này chứa các đặc điểm điềm báo về các yếu tố như sự biến đổi của khí hậu, các cơn đaảo dữ liệu, bao gồm các biểu hiện tiêu cực và tích cực liên quan đến môi trường Đây còn là bộ dữ liệu đầu tiên được thiết kế để dự đoán các ương trong video, giúp nâng cao khả năng phân tích và dự báo chính xác hơn.

Hình CÁC B D LI UỘ Ữ Ệ 10 nh minh h a cho b d li u NWPU CampusẢ ọ ộ ữ ệ [20].

UMN Crowd Abnormality(đa)

B d li u UMNộ ữ ệ [23] được phát hành vào năm 2009 mô ph ng m t khuỏ ộ v c đông ngự ười, n i các di n viên di chuy n t do t i m t đ a đi m nh tơ ễ ể ự ạ ộ ị ể ấ đ nh và sau đó ch y thoát v i hành vi b t thị ạ ớ ấ ường Vì v y, b d li u nàyậ ộ ữ ệ được coi là b d li u đa c nh, nghĩa là độ ữ ệ ả ược ghi l i t i các đ a đi m khácạ ạ ị ể nhau.

Bản dữ liệu này tổng hợp 11 đoạn video ngắn, với độ dài tổng cộng 4 phút 17 giây và 7.739 khung hình Các video bắt đầu bằng hành vi bình thường, sau đó chuyển sang hành vi bất thường, bao gồm một chú bé trong nhà và hai chú bé ngoài trời.

Các video có cùng tỷ lệ khung hình 30 FPS và độ phân giải 640×480 được ghi lại bằng camera tĩnh Dữ liệu đánh dấu (ground truth) bao gồm các chú thích thời gian (temporal annotation), giúp xác định chính xác các sự kiện diễn ra trong video Điều này đảm bảo tính nhất quán trong phân tích và xử lý dữ liệu video.

Hình CÁC B D LI UỘ Ữ Ệ 11 nh minh h a cho b d li u UMN CrowdẢ ọ ộ ữ ệ

Anomalous Behavior Database(đa)

B d li u Anomalous Behavior Databaseộ ữ ệ [24] được phát hành vào năm 2010 b i Đ i h c Yorkở ạ ọ , bao g m tám video (đa c nh) đồ ả ược ghi l i trong các đi uạ ề ki n khó khăn khác nhau, ch ng h n nh hi u ng chi u sáng, s l n x nệ ẳ ạ ư ệ ứ ế ự ộ ộ c a c nh, s thay đ i ngo i hình c a m c tiêu, chuy n đ ng nhanh và rungủ ả ự ổ ạ ủ ụ ể ộ l c c a camera Các chu i hình nh trong b d li u này ch y u t p trungắ ủ ỗ ả ộ ữ ệ ủ ế ậ vào các ho t đ ng c a con ngạ ộ ủ ười và phương ti n các đ a đi m công c ngệ ở ị ể ộ nh t đ nh, ch ng h n nh sân bay, sông, bi n và trên tàu.ấ ị ẳ ạ ư ể

Video về hoạt động hàng ngày trên chuyến tàu, ghi lại hình ảnh chân thực với 19.218 khung hình RGB độ phân giải 288×386, tốc độ 25 FPS, phản ánh điều kiện ánh sáng thay đổi liên tục và hiện tượng rung lắc camera Đây là một clip thử thách với nội dung đặc biệt khi ghi nhận sự di chuyển bất thường của một hành khách trên tàu.

 Belleview: Video này bao gồm các xe ô tô di chuyển qua một ngã tư Video được ghi lại ở định dạng thang độ xám với độ phân giải 320 × 240, tốc độ khung hình 10 FPS, và tổng cộng có 2.918 khung hình Sự kiện bất thường là các xe ô tô vào con đường chính từ bên trái hoặc bên phải.

Video về chiếc thuyền qua lại trên biển ghi lại một hiện tượng bất thường, thu hút sự chú ý của người xem Được ghi hình ở định dạng RGB với độ phân giải 720×576 pixel, video có tốc độ khung hình 19 FPS và tổng cộng 450 khung hình, mang đến hình ảnh rõ nét và chân thực về sự kiện này.

Video về cảnh một chiếc thuyền đi qua trên sông như một hiện tượng bất thường, được ghi lại dưới định dạng RGB với độ phân giải 720p, thể hiện rõ nét các chi tiết của sự kiện này.

576, tốc độ khung hình 5 FPS, và tổng cộng có 250 khung hình.

Video mô tả một chiếc thuyền kayak vượt qua trên sông, tạo thành một cảnh tượng đặc biệt và thu hút sự chú ý Được ghi hình ở định dạng RGB với độ phân giải 320×, video này vừa thể hiện nét đẹp tự nhiên vừa mang lại trải nghiệm sống động cho người xem.

240, tốc độ khung hình 30 FPS, và tổng cộng có 1.050 khung hình.

 Camouflage: Video này minh họa một người đi bộ trong trang phục ngụy trang Chuyển động đúng được học như hành vi bình thường, và ngược lại là hành vi bất thường Video được ghi lại ở định dạng RGB với độ phân giải 320 × 240, tốc độ khung hình 30 FPS, và tổng cộng có 1.629 khung hình.

Video ghi lại cảnh mọi người đi bộ thành hàng tại sân bay, thể hiện sự sắp xếp trật tự trong khu vực Tuy nhiên, sự kiện bất thường xảy ra khi mọi người di chuyển theo hướng sai so với quy trình thông thường Quay ở định dạng RGB với độ phân giải 300 × 300, tốc độ khung hình 25 FPS, tổng cộng có 2.200 khung hình, giúp ghi nhận rõ ràng các chuyển động trong khoảnh khắc này Đây là một hình ảnh rõ nét về hành vi di chuyển không đúng hướng tại sân bay.

Hình CÁC B D LI UỘ Ữ Ệ 12 nh minh h a cho b d li u Anomalous BehaviorẢ ọ ộ ữ ệ

Thảo luận về các bộ dữ liệu

Các nghiên c u hi n t i đã trình bày m t lo t các b d li u phong phú và ứ ệ ạ ộ ạ ộ ữ ệ đa d ng, bao ph nhi u tình hu ng bình thạ ủ ề ố ường và b t thấ ường.

Nh ng b d li u này khác nhau t b đ n c nh, ch t p trung vào các tình ữ ộ ữ ệ ừ ộ ơ ả ỉ ậ hu ng c th và b t thố ụ ể ấ ường, nh b d li u UCSD Pedestrian, đ n các b ư ộ ữ ệ ế ộ d li u đa c nh và các đi u ki n b t thữ ệ ả ề ệ ấ ường tương ng nh b d li u ứ ư ộ ữ ệ UCF-Crime và XD-Violence.

Tuy nhiên, có m t s xu hộ ố ướng và thách th c quan tr ng c n đứ ọ ầ ược gi i ả quy t:ế

 Phần lớn các bộ dữ liệu phát hiện bất thường công khai có sự hạn chế về sự đa dạng của môi trường và chỉ giới hạn trong một cảnh cụ thể, ví dụ như bộ dữ liệu ShanghaiTech và CUHK Avenue Điều này có thể cản trở khả năng tổng quát của các mô hình được huấn luyện trên các bộ dữ liệu này khi áp dụng vào các tình huống khác.

Trong nhiều bộ dữ liệu, số lượng sự kiện bất thường thường bị hạn chế và lặp lại, phản ánh tính chất đặc thù của từng tập dữ liệu Ví dụ, bộ dữ liệu CUHK Avenue chỉ chứa ba loại sự kiện bất thường, trong khi các bộ dữ liệu khác có thể có tới mười một loại sự kiện khác nhau Điều này cho thấy sự đa dạng và giới hạn trong phạm vi các loại sự kiện bất thường được ghi nhận trong các bộ dữ liệu khác nhau.

Các dữ liệu hình ảnh thường chứa các biến thể và nhiễu không cân bằng, khiến việc phân tích trở nên khó khăn Việc cân bằng dữ liệu là cần thiết để cải thiện độ chính xác của các mô hình máy học, đặc biệt trong các lĩnh vực như nhận diện hành vi và phát hiện sự cố Tuy nhiên, trong thực tiễn, dữ liệu không cân bằng vẫn là một thách thức lớn, ảnh hưởng đến hiệu quả của các thuật toán Các mô hình học sâu cần được huấn luyện trên dữ liệu đã được xử lý để đảm bảo khả năng phân biệt chính xác các lớp khác nhau, kể cả khi dữ liệu không đều Chính vì vậy, việc sử dụng các kỹ thuật cân bằng dữ liệu là yếu tố quan trọng giúp các mô hình đạt hiệu suất tối ưu trong các bài toán thực tế.

Ph n này sẽ trình bày m t h th ng phân lo i các phầ ộ ệ ố ạ ương pháp phát hi n b tệ ấ thường trong video theo hai hướng ti p c n: ế ậ

 Dựa trên các phương pháp học và giám sát, bao gồm các phương pháp có giám sát, tự giám sát, bán giám sát (như Học nhiều lớp) và các phương pháp không giám sát (Phân loại một lớp, Tái cấu trúc và Dự đoán khung hình tương lai).

Các kỹ thuật trích xuất đặc trưng hiện đại bao gồm các bộ trích xuất sâu như CNN, Autoencoders, GANs, cùng các mô hình học sâu tuần tự như LSTM và Vision Transformers, đa dạng hóa khả năng phân tích dữ liệu Ngoài ra, các mô hình ngôn ngữ-thị giác và các mô hình lai cũng đóng vai trò quan trọng trong việc nâng cao hiệu quả trích xuất đặc trưng Các loại đặc trưng được khai thác gồm có đặc trưng không gian, thời gian, không gian-thời gian và văn bản, tạo thành nền tảng cho các ứng dụng trí tuệ nhân tạo và phân tích dữ liệu phức tạp.

Các ph ươ ng pháp h c và giám sát ọ

H c có giám sát ọ

Trong hệ thống giám sát chất lượng, các thuật toán được phát triển để sử dụng dữ liệu đã được gán nhãn rõ ràng như "bình thường" hoặc "bật thẳng," giúp mô hình phân biệt giữa các trạng thái dựa trên nhãn này Tuy nhiên, việc sử dụng các phương pháp giám sát trong phát hiện bất thường trong video gặp khá nhiều khó khăn, chủ yếu do khó khăn trong việc thu thập dữ liệu có nhãn chính xác, chi tiết từng khung hình và hạn chế về tài nguyên Các dữ liệu bất thường thường rất hiếm và đa dạng, gây khó khăn cho quá trình huấn luyện mô hình để phân biệt chính xác các trạng thái có nhãn rõ ràng Thêm vào đó, giới hạn về công suất và thời gian làm hạn chế khả năng thu thập dữ liệu phong phú và chính xác, khiến việc phát hiện bất thường trong video vẫn còn nhiều thử thách Mặc dù giám sát có tiềm năng mạnh mẽ trong việc phát hiện các sự kiện bất thường, nhưng những khó khăn này hạn chế hiệu quả của nó trong thực tế, đặc biệt là khi dữ liệu huấn luyện không đủ phong phú và chính xác.

M t nghiên c u tiêu bi u c a ộ ứ ể ủ [27] đã gi i thi u m t phớ ệ ộ ương pháp để phát hi n và đ nh v b t thệ ị ị ấ ường trong các c nh đông đúc s d ng M ngả ử ụ ạ

Mạng nơ-ron tích chập (CNNs) là một phương pháp xử lý dữ liệu không gian-thời gian, phù hợp cho phân tích các chuỗi video Các CNN có khả năng trích xuất thông tin về hình dạng và chuyển động từ dữ liệu video, giúp nâng cao hiệu quả trong các môi trường đông đúc Thiết kế của CNN tập trung vào các điểm nhấn chuyển động để nâng cao độ chính xác và độ bền của mô hình Công nghệ này đặc biệt hữu ích trong các ứng dụng yêu cầu nhận diện chuyển động chính xác, từ đó cải thiện khả năng xử lý trong các môi trường thực tế phức tạp.

Các công trình trước đây đã nghiên cứu về việc nâng cao độ chính xác trong phát hiện bất thường bằng cách sử dụng các phương pháp học sâu như Generative Adversarial Network có điều kiện (cGAN) Phương pháp này sử dụng dữ liệu có nhãn để huấn luyện mô hình, giúp cách phát hiện tự nhiên hơn và tăng khả năng cân bằng dữ liệu trong quá trình đào tạo Ngoài ra, các nghiên cứu còn đề cập đến việc xây dựng mô hình phát hiện bất thường có giám sát một cách hiệu quả, nhằm nâng cao độ tin cậy và chính xác của hệ thống.

“Ensemble Active Learning Generative Adversarial Network” (EAL-GAN).

Trong tháng này, chúng tôi đã giới thiệu kiến trúc một bộ sinh (generator) kết hợp với một mạng phân biệt (discriminator), nhằm tự động học mối quan hệ trong dữ liệu và phát hiện các mẫu bất thường Mục tiêu của hệ thống là giảm thiểu số lượng nhãn dữ liệu cần gán thủ công, giúp tiết kiệm chi phí và nâng cao hiệu quả trong quá trình xử lý dữ liệu Các mô hình này giúp cân bằng giữa khả năng sinh dữ liệu chất lượng và giảm thiểu chi phí gán nhãn trong thực tế.

H c t giám sát ọ ự

Phương pháp t giám sát bao g m vi c hu n luy n các mô hình s d ngự ồ ệ ấ ệ ử ụ d li u không đữ ệ ược gán nhãn rõ ràng cho các b t thấ ường Thay vào đó, các mô hình h c cách nh n di n các s ki n b t thọ ậ ệ ự ệ ấ ường b ng cách gi i quy tằ ả ế các nhi m v y quy n (proxy tasks), t đó t o ra các tín hi u giám sát tệ ụ ủ ề ừ ạ ệ ừ chính d li u Nh ng nhi m v này đữ ệ ữ ệ ụ ược thi t k đ liên quan đ n m cế ế ể ế ụ tiêu chính là phát hi n các b t thệ ấ ường, giúp mô hình phát tri n s hi uể ự ể bi t v các m u bình thế ề ẫ ường trong d li u mà không c n s giám sát tr cữ ệ ầ ự ự ti p t các m u d li u có nhãn v các s ki n b t thế ừ ẫ ữ ệ ề ự ệ ấ ường Tuy nhiên, phương pháp này yêu c u thi t k và l a ch n c n th n các nhi m v yầ ế ế ự ọ ẩ ậ ệ ụ ủ quy n (proxy tasks) đ đ m b o r ng các đ c tr ng h c đề ể ả ả ằ ặ ư ọ ược là h u íchữ cho vi c nh n di n các s ki n b t thệ ậ ệ ự ệ ấ ường.

Trong công trình của [29], các nhà nghiên cứu đề xuất một phương pháp dựa trên giám sát và học đa nhiệm cho tự động phân loại Phương pháp này bao gồm việc huấn luyện một mạng N-channel Tích chập 3D (3D CNN) để xử lý dữ liệu không yêu cầu dữ liệu có nhãn, giúp nâng cao hiệu quả và giảm thiểu sự phụ thuộc vào dữ liệu đã chú thích.

Nh ng nhi m v này bao g m xác đ nh hữ ệ ụ ồ ị ướng chuy n đ ng c a đ iể ộ ủ ố tượng (mũi tên th i gian), nh n di n các b t thờ ậ ệ ấ ường v chuy n đ ngề ể ộ b ng cách so sánh đ i tằ ố ượng trong các khung hình liên ti p và gián đo n,ế ạ và tái t o ngo i hình c a đ i tạ ạ ủ ố ượng d a trên các khung hình trự ước và sau đó B ng cách h c t d li u video v hành vi bình thằ ọ ừ ữ ệ ề ường c a đ i tủ ố ượng, mô hình tr nên thành th o trong vi c phát hi n các b t thở ạ ệ ệ ấ ường khi có sự l ch kh i hành vi đã h c Phệ ỏ ọ ương pháp này cho phép phát hi n b tệ ấ thường hi u qu ngay c khi không có nhãn rõ ràng.ệ ả ả

Các tác gi ti p t c công trình c a h trongả ế ụ ủ ọ [30] Các c i ti n m i baoả ế ớ g m vi c tích h p các phồ ệ ợ ương pháp phát hi n đ i tệ ố ượng tiên ti n nhế ư YOLOv5, dòng quang h c, và ọ lo i bạ ỏ n n, giúp c i thi n vi c phát hi n cácề ả ệ ệ ệ đ i tố ượng chuy n đ ng nhanh và nh ng đ i tể ộ ữ ố ượng n m ngoài các l p đãằ ớ được xác đ nh trị ước H cũng ọ thêm các kh i transformer vào ki n trúc,ố ế khám phá c M ng N -ron Tích ch p 2D và 3D (CvT) đ n m b t t t h nả ạ ơ ậ ể ắ ắ ố ơ các s ph thu c không gian-th i gian ph c t p Nh ng c p nh t nàyự ụ ộ ờ ứ ạ ữ ậ ậ nâng cao đáng k đ chính xác phát hi n và kh năng thích ng trong vi cể ộ ệ ả ứ ệ nh n di n các s ki n b t thậ ệ ự ệ ấ ường trong chu i video.ỗ

H c giám sát y u ọ ế

Khác với các phương pháp có giám sát, việc thu thập nhãn cho các mục tiêu trong khung hình của các đoạn video dài gặp nhiều khó khăn về mặt thời gian và công sức Do đó, các chuyên gia đánh giá có thể tự gán nhãn cho các mẫu dữ liệu, giúp giảm thiểu việc phụ thuộc vào quá trình xử lý thủ công và nâng cao hiệu quả trong việc phân tích video dài Phương pháp này không những tiết kiệm thời gian mà còn giúp cải thiện độ chính xác của dữ liệu huấn luyện trong các hệ thống nhận diện và phân loại video.

Phân đoạn trong video đóng vai trò quan trọng trong việc phân loại các phân đoạn có chứa các sự kiện quan trọng Mô hình giám sát yếu dựa trên học máy MIL (Multiple Instance Learning) lần đầu tiên được giới thiệu bởi Sultani và cộng sự để xử lý các video có nhãn yếu Trong phương pháp này, video được coi là tập hợp các túi dữ liệu, trong đó các túi này được trích xuất đặc trưng qua các đặc trưng không gian-thời gian để phân loại Các đặc trưng này sau đó được xử lý để dự đoán các đoạn video tiêu cực hoặc tích cực, giúp nâng cao độ chính xác của mô hình Mục tiêu chính của phương pháp là tăng độ nhạy trong phát hiện các phần quan trọng của video và giảm độ nhạy trong các phân đoạn bình thường, từ đó cải thiện khả năng phân đoạn chính xác hơn.

Phương pháp này có thể gây ra nhãn nhiễu do các nhãn yếu không cung cấp thông tin chính xác về vị trí cụ thể của các bất thường trong các phân đoạn Điều này dẫn đến sự mơ hồ trong mô hình học, khiến nó ít chính xác hơn trong việc nhận diện hành vi bình thường và bất thường Thêm vào đó, phụ thuộc vào nhãn cấp phân đoạn đôi khi gây ra việc gán các khung hình không liên quan, làm phức tạp quá trình huấn luyện mô hình.

Các công trình khác đã giải quyết vấn đề này, ví dụ như phương pháp mới của các tác giả [31] trong phát hiện bất thường giám sát yếu (WSVAD), sử dụng Mạng Nơ-ron Tích chập đồ thị (GCN) để làm sạch nhãn nhiễu và nâng cao độ chính xác của hệ thống phân loại hành động giám sát Thêm vào đó, các tác giả [32] đã đề xuất phương pháp WSVAD nhúng nhị phân (BE-WSVAD), sáng tạo trong việc nhúng nhị phân vào mô-đun phát hiện bất thường dựa trên GCN, giúp nâng cao hiệu quả và độ tin cậy của quá trình phát hiện bất thường trong giám sát.

Trong nghiên cứu mới nhất, phương pháp MIL truyền thống được nâng cao bằng việc tích hợp Mạng Nơ-ron Tích chập Thời gian (TCN) và Mất mát Nội bộ Túi (IBL) độc đáo IBL tập trung vào phát hiện các điểm số bất thường trong từng túi (video), sử dụng chiến lược nhấn mạnh vào sự khác biệt lớn hơn giữa các điểm số trong các túi tích cực (chứa bất thường) và các túi tiêu cực (không chứa bất thường) Đồng thời, TCN giúp mô hình hiệu quả hơn trong việc nắm bắt các động lực thời gian quan trọng trong video, một khía cạnh thường bị bỏ qua trong các phương pháp MIL tiêu chuẩn.

Các tác giả [34][35] đề xuất phương pháp tự lý giải dựa trên phân cụm nhị phân các đặc trưng không gian-thời gian của video nhằm giảm nhiễu nhãn trong các video bất thường Phương pháp này sử dụng kỹ thuật phân cụm để tạo ra nhãn giả, giúp loại bỏ nhiễu nhãn và nâng cao hiệu suất phát hiện bất thường tổng thể Bên cạnh đó, phương pháp còn cải thiện hiệu quả của mạng neural thông qua việc tối ưu hóa bằng mất mát khoảng cách phân cụm, đảm bảo kết quả chính xác hơn trong phân tích video.

Các phương pháp MIL truyền thống thường bỏ qua sự tương tác phức tạp của các đặc trưng theo thời gian Trong nghiên cứu [36], phương pháp bắt đầu với bộ trích xuất đặc trưng nhận thức quan hệ, giúp nắm bắt các đặc trưng CNN đa tỷ lệ từ video Điểm độc đáo của phương pháp này là sự tích hợp giữa sự chú ý tự động và Các Trường Ngẫu nhiên Điều kiện (CRFs), tận dụng khả năng chú ý để bắt các mối quan hệ đặc trưng ngắn hạn và CRFs để học sự phụ thuộc giữa các đặc trưng Phương pháp này mang lại phân tích toàn diện hơn về các chuyển động và tương tác phức tạp, hỗ trợ hiệu quả cho phát hiện bất thường trong video.

Phương pháp Học Đặc trưng Thời gian Mạnh mẽ đã được đề xuất để phân tích các video chủ yếu chứa các sự kiện bình thường, đặc biệt là các bất thường tinh vi thể hiện qua những khác biệt nhỏ so với các sự kiện thông thường Phương pháp này cải thiện tính bền vững của kỹ thuật MIL đối với các mẫu tiêu cực trong video bất thường bằng cách sử dụng các đặc trưng thời gian mạnh mẽ Ngoài ra, nó còn tích hợp các lớp học sâu giãn nở và cơ chế chú ý tự động để bắt các phụ thuộc thời gian dài và ngắn, nâng cao khả năng phát hiện các bất thường tinh vi trong video.

Hơn nữa, [38] đã giới thiệu “MIST: Khung tự huấn luyện nhiều instance cho phát hiện bất thường video” như một phương pháp mới cho WSVAD MIST khác biệt với MIL truyền thống bằng cách giới thiệu một bộ tạo nhãn giả với chiến lược lấy mẫu liên tục thưa để có nhãn giả cấp đoạn chính xác hơn và một bộ mã hóa đặc trưng tăng cường chú ý tự động để tập trung vào các vùng bất thường trong các khung hình Thêm vào đó, [39] giới thiệu một khung học quan hệ thời gian giám sát yếu mới (WSTR) Khung này, sử dụng I3D để trích xuất đặc trưng và kết hợp các bộ phân loại cấp đoạn và phân loại video top-k cho giám sát yếu, là phương pháp đầu tiên áp dụng công nghệ transformer trong bối cảnh này.

Trong [40], một phương pháp mới có tên CLIPTSA sử dụng các đặc trưng Viễn thị Ngôn ngữ (ViT) cho WSVAD Không giống như các mô hình truyền thống như C3D hoặc I3D, CLIPTSA sử dụng các đặc trưng hình ảnh được mã hóa Viễn thị Ngôn ngữ (ViT) từ CLIP [41] để trích xuất các biểu diễn phân biệt một cách hiệu quả Nó tích hợp cơ chế Chú ý Tự động Thời gian (TSA) để mô hình hóa cả các sự phụ thuộc thời gian dài và ngắn, qua đó nâng cao hiệu suất phát hiện trong VAD.

Một công trình gần đây đề xuất khung giám sát yếu mới mang tên Văn bản Dẫn hướng với Hướng dẫn Bình thường (TPWNG), sử dụng mô hình CLIP để căn chỉnh mô tả văn bản với các khung hình video nhằm tạo ra nhãn giả chính xác Phương pháp này tinh chỉnh CLIP để phù hợp với miền sử dụng, sử dụng mất mát xếp hạng và xử lý sự không nhất quán phân phối, đồng thời giới thiệu cơ chế hướng dẫn bằng văn bản có thể học từ các hướng dẫn hình ảnh bình thường để tăng cường khả năng căn chỉnh văn bản-video Ngoài ra, khung này còn tích hợp một mô-đun tạo nhãn giả dựa trên hướng dẫn bình thường để suy luận nhãn giả đáng tin cậy cho từng khung hình, cùng một mô-đun học thích ứng bối cảnh thời gian để linh hoạt bắt các phụ thuộc thời gian trong các sự kiện video, từ đó nâng cao hiệu quả giám sát video tự động.

H c không giám sát ọ

Các phương pháp dạy trên đề cao việc tái tạo độ bộc lộ của các đặc trưng trong video hoạt động theo nguyên lý lấy mẫu các skin bình thường để đảm bảo tái tạo hiệu quả nhất các đặc trưng đã học, trong khi các skin bất thường hoặc không bình thường sẽ lệch khỏi đặc trưng này một cách rõ ràng và do đó khó tái tạo hơn Do đó, mô hình học cách biểu diễn hoặc “tái tạo” đặc trưng nhằm giúp dữ liệu bình thường hóa các đặc trưng, trong khi các bất thường sẽ được phát hiện dựa trên mức độ kém hiệu quả của mô hình tái tạo.

Nh ng phữ ương pháp này đ c bi t phù h p khi d li u b t thặ ệ ợ ữ ệ ấ ường có nhãn còn thi u Trong quá trình hu n luy n, ch có video bình thế ấ ệ ỉ ường được xem xét, trong khi trong quá trình ki m tra, mô hình để ược đánh giá trên c video bình thả ường và b t thấ ường đ đánh giá kh năng phát hi nể ả ệ b t thấ ường c a nó.ủ

M c dù các mô hình này kh thi, có th m r ng và ti t ki m chi phí, tuyặ ả ể ở ộ ế ệ nhiên, hi u qu c a các mô hình này ph thu c r t nhi u vào ch t lệ ả ủ ụ ộ ấ ề ấ ượng và tính toàn di n c a d li u hu n luy n bình thệ ủ ữ ệ ấ ệ ường N u d li u bìnhế ữ ệ thường không đ i di n cho t t c các bi n th bình thạ ệ ấ ả ế ể ường có th có,ể hi u su t c a mô hình trong vi c phát hi n b t thệ ấ ủ ệ ệ ấ ường có th b nhể ị ả hưởng.

Mô hình phân biệt đột biến khác được xây dựng dựa trên các đặc điểm nhằm phân loại chính xác các biến thể lành tính hoặc gây bệnh Các bước gán nhãn bao gồm nhận diện các biến thể bình thường và xác định các sai lệch có ý nghĩa, chủ yếu là sai lệch lành tính Sự khác biệt này xuất phát từ việc các mẫu bình thường trước đó đã được nghiên cứu, dù không phải lúc nào cũng chứa biến thể gây bệnh, vẫn có thể giúp phân loại chính xác hơn.

Các kỹ thu t h c sâu, đ c bi t là M ng N -ron Tích ch p (CNN) ho cậ ọ ặ ệ ạ ơ ậ ặ autoencoder [43] [44] đượ ử ục s d ng r ng rãi cho phộ ương pháp này M tộ autoencoder c g ng h c m t đ i di n nén c a d li u đ u vào và sau đóố ắ ọ ộ ạ ệ ủ ữ ệ ầ tái t o d li u g c t đ i di n này Trong quá trình hu n luy n, mô hìnhạ ữ ệ ố ừ ạ ệ ấ ệ h c cách gi m thi u l i tái t o gi a đ u vào và đ u ra Sau khi hu nọ ả ể ỗ ạ ữ ầ ầ ấ luy n, khi mô hình g p d li u m i, nó sẽ c g ng tái t o l i d a trênệ ặ ữ ệ ớ ố ắ ạ ạ ự nh ng gì nó đã h c S khác bi t gi a đ u ra tái t o và đ u vào g c đữ ọ ự ệ ữ ầ ạ ầ ố ược đo lường, thường là l i tái t o M t l i tái t o cao ch ra r ng đ u vào khácỗ ạ ộ ỗ ạ ỉ ằ ầ bi t rõ r t so v i nh ng gì mô hình coi là "bình thệ ệ ớ ữ ường", đi u này có nghĩaề là đ u vào có th là m t b t thầ ể ộ ấ ường.

Trong công trình của tác giả [45], họ đã đề xuất một phương pháp đánh giá tính bình thường của các khung hình trong chuỗi video dựa trên các mô hình tái tạo Phương pháp này sử dụng hai autoencoder: một autoencoder có các lớp tích hợp và một autoencoder không có Các mô hình xử lý đầu vào khác nhau: một mô hình sử dụng các đặc trưng đã thiết kế như HOG và HOF để nâng cao khả năng nhận diện, trong khi mô hình còn lại dựa trên việc phân tích chuỗi 10 khung hình liên tiếp, căn cứ theo trục thời gian Việc tái tạo các khung hình này giúp xác định mức độ bất thường của chúng, qua đó đánh giá tính bình thường hoặc bất thường của từng khung trong chuỗi video.

S phát tri n c a các phự ể ủ ương pháp tái t oạ

Tái t o là m t thành ph n quan tr ng trong các framework h c khôngạ ộ ầ ọ ọ giám sát và thường được phân lo i trong m t s mô hình h c nh t đ nhạ ộ ố ọ ấ ị nh phân lo i m t l p (OCC) ho c h c không giám sát, ch y u do nh nư ạ ộ ớ ặ ọ ủ ế ấ m nh vi c hu n luy n ch s d ng l p video "bình thạ ệ ấ ệ ỉ ử ụ ớ ường".

Trong mô hình OCC, quá trình đào tạo dựa trên dữ liệu tập luyện, hay còn gọi là "bình thường", là bước khởi đầu để xây dựng cấu trúc hệ thống Sau giai đoạn kiểm tra, nếu phát hiện các lỗi cần thiết, hệ thống sẽ quay trở lại giai đoạn "bất thường" để điều chỉnh và nâng cao hiệu quả hoạt động Quá trình này giúp hệ thống tự thích nghi và tối ưu hóa hiệu suất trong môi trường hoạt động thực tế.

M t khác, h c không giám sát t p trung vào vi c hi u c u trúc ho c phânặ ọ ậ ệ ể ấ ặ ph i trong chính d li u Nó h c cách tái t o d li u mà không c n nhãnố ữ ệ ọ ạ ữ ệ ầ rõ ràng ch ra cái gì là bình thỉ ường ho c b t thặ ấ ường.

Trong công trình của NH [46], các tác giả đã đề xuất một phương pháp mới gọi là Generative Cooperative Learning, kết hợp giữa generator và discriminator cùng nhau huấn luyện dựa trên hình thức mục tiêu chung Họ thiết kế mô hình dựa trên autoencoder để tái tạo các biểu diễn bình thường hóa và phát hiện bất thường một cách hiệu quả Thông qua các mục tiêu huấn luyện, discriminator học cách ước lượng xác suất của các trường hợp bất thường, giúp nâng cao khả năng phát hiện bất thường thông qua quá trình tái tạo dữ liệu Phương pháp này mang lại cải tiến đáng kể trong việc xác định các điểm bất thường một cách chính xác và hiệu quả hơn.

Phương pháp này t n d ng gi đ nh r ng các b t thậ ụ ả ị ằ ấ ường ít ph bi n h nổ ế ơ các s ki n bình thự ệ ường và r ng các s ki n bình thằ ự ệ ường th hi n tínhể ệ nh t quán theo th i gian, giúp phát hi n b t thấ ờ ệ ấ ường hi u qu h n.ệ ả ơ

Phương pháp học không giám sát sử dụng các mô hình phân cụm và mô hình sinh để nâng cao khả năng tái tạo dữ liệu mới trong quá trình phát triển Đầu tiên, các đoạn video được trích xuất thành các đặc trưng từ các mạng nơ-ron tích hợp 3D (3D-CNN), sau đó đưa vào mô hình phân cụm để nhóm các đoạn không có nhãn Mô hình phân cụm này còn được bổ sung thêm nhiễu Gaussian vào dữ liệu đầu vào để tăng khả năng tổng quát và giúp mô hình học các đặc trưng không gắn nhãn hiệu một cách hiệu quả Quá trình này giúp cải thiện khả năng tái tạo dữ liệu mới và nâng cao hiệu quả của mô hình học không giám sát.

Phương pháp d đoán khung hình tự ương lai:

Các phương pháp đa dạng được phát triển trong lĩnh vực tái tạo hình ảnh và video, nhằm nâng cao chất lượng và độ chính xác của các phương pháp này Một số video bình thường trước đây thường bị gán nhãn sai, gây ảnh hưởng đến hiệu quả của quá trình tái tạo Để giải quyết thách thức này, các nhà nghiên cứu tập trung vào việc tái tạo các khung hình tương lai dựa trên các khung hình video trước đó, đồng thời xem xét các ràng buộc dòng quang phổ để đảm bảo tính nhất quán chuyển động Phương pháp này được gọi là "phương pháp dự đoán", trong đó mạng sinh đối tượng đối gần (GANs) đóng vai trò quan trọng trong việc nâng cao khả năng dự đoán chính xác cho hệ thống.

[48] [18] Xây d ng trên n n t ng này, mô hình HSTGCNNự ề ả [49] tích h pợ m t c ch D đoán Khung Hình Tộ ơ ế ự ương Lai (FFP) tinh vi, giúp làm tinh ch nh quy trình phát hi n b t thỉ ệ ấ ường B ng cách k t h p các bi u di nằ ế ợ ể ễ đ th phân c p, mô hình không ch d đoán các khung hình tồ ị ấ ỉ ự ương lai mà còn mã hóa các tương tác ph c t p gi a các cá nhân và chuy n đ ng c aứ ạ ữ ể ộ ủ h , t đó cung c p m t h th ng phát hi n b t thọ ừ ấ ộ ệ ố ệ ấ ường m nh mẽ và nh nạ ậ th c v ng c nh h n.ứ ề ữ ả ơ

M t h th ng lai k t h p tái t o dòng và d đoán khung hình đã độ ệ ố ế ợ ạ ự ược gi iớ thi u b iệ ở [50] H th ng này phát hi n các s ki n b t thệ ố ệ ự ệ ấ ường trong video b ng cách ghi nh các m u ho t đ ng bình thằ ớ ẫ ạ ộ ường và d đoán cácự khung hình tương lai Nó s d ng m t autoencoder tăng cử ụ ộ ường b nh độ ớ ể tái t o dòng chính xác và m t Autoencoder đ d đoán khung hình Cácạ ộ ể ự b t thấ ường được làm n i b t b i các l i l n h n trong tái t o dòng và dổ ậ ở ỗ ớ ơ ạ ự đoán khung hình sau đó.

Trích xuất đặc trưng

Các lo i đ c tr ng ạ ặ ư

4.2.1.1 Đ c tr ng không gian (Spatial Features)ặ ư Đ c tr ng không gian t p trung vào các thu c tính hình nh nh hìnhặ ư ậ ộ ả ư d ng, k t c u, màu s c, và v trí đ i tạ ế ấ ắ ị ố ượng trong khung hình.

Ban đ u, các kỹ thu t truy n th ng nh Gaussian Mixture Modelsầ ậ ề ố ư ho c các đ c tr ng th công (handcrafted features) đặ ặ ư ủ ược s d ngử ụ

[51] [52] Tuy nhiên, h c sâu cho phép trích xu t đ c tr ng t đ ng,ọ ấ ặ ư ự ộ nâng cao kh năng nh n di n chi ti t không gian ph c t p.ả ậ ệ ế ứ ạ

4.2.1.2 Đ c tr ng th i gian (Temporal Features)ặ ư ờ Đ c tr ng th i gian bi u th s thay đ i ho c chuy n đ ng trongặ ư ờ ể ị ự ổ ặ ể ộ video, ch ng h n nh t c đ đ i tẳ ạ ư ố ộ ố ượng ho c các bi n đ i môi trặ ế ổ ường gi a các khung hình ữ

Phương pháp Optical Flow [18] đã đượ ử ục s d ng đ trích xu t các đ cể ấ ặ tr ng này, giúp nh n di n các hành vi b t thư ậ ệ ấ ường kéo dài qua nhi uề khung [2] [43].

4.2.1.3 Đ c tr ng không-th i gian (Spatiotemporal Features)ặ ư ờ

K t h p c đ c tr ng không gian và th i gian mang l i m t góc nhìnế ợ ả ặ ư ờ ạ ộ toàn di n h n, giúp nh n di n chính xác các b t thệ ơ ậ ệ ấ ường c v m t vả ề ặ ị trí và th i gian x y raờ ả [18] [53].

4.2.1.4 Đ c tr ng ng nghĩa (Textual Features)ặ ư ữ Đ c tr ng ng nghĩa đặ ư ữ ược xây d ng thông qua các mô hình ngôn ngự ữ th giác (Vision-Language Models - VLMs) Các mô hình nh CLIP ho cị ư ặBLIP giúp tăng cường kh năng phân tích b ng cách k t h p thông tinả ằ ế ợ th giác và văn b n, giúp mô hình hi u sâu h n v ng c nh c a videoị ả ể ơ ề ữ ả ủ

Các bộ trích xuất đặc trưng sâu

4.2.2.1 M ng n -ron tích ch p (CNNs)ạ ơ ậ

Mạng N -ron Tích chập 2D (2D CNNs) giúp xử lý các dữ liệu không gian, cho phép phân tích chi tiết các yếu tố cấu trúc trong ảnh Trong công trình [58], nhóm nghiên cứu đã sử dụng Faster R-CNN, một loại kiến trúc CNN đặc biệt, nhờ vào độ chính xác cao và khả năng kép trong việc phân loại đối tượng và hiệu quả trong phân lớp đối tượng trong từng khung hình video Điều này có nghĩa là nó có khả năng phân loại các đối tượng trong các khung hình video một cách chính xác và nhanh chóng, góp phần hỗ trợ trong các nhiệm vụ xác định và phân loại bất kỳ đối tượng nào thường xuyên xuất hiện.

Mạng N-ron Tích chập 3D (3D CNNs) nâng cao khả năng phân tích dữ liệu video bằng cách kết hợp thông tin thời gian và không gian, giúp đánh giá hiệu quả các đặc trưng không gian-thời gian trong video Các mô hình như C3D và I3D đã cải thiện rõ rệt hiệu suất các hệ thống nhận dạng, đạt các kết quả SOTA trong lĩnh vực Nhiều nghiên cứu, bao gồm cả các dự án như [31] và [38], đã sử dụng kiến trúc 3D CNN để nâng cao hiệu quả trích xuất đặc trưng không gian-thời gian, từ đó tối ưu hóa khả năng phân tích các đối tượng và hoạt động trong video.

Autoencoders (AEs) được sử dụng trong phát hiện bỏ thận trong video (VAD) nhờ khả năng học không giám sát của chúng AEs mã hóa dữ liệu vào một không gian có chiều thấp rồi tái tạo lại dữ liệu đó, giúp phát hiện các đặc trưng chính mà không cần nhãn dữ liệu Điều này rất quan trọng trong việc phát hiện bỏ thận, khi các mẫu bất thường thường hiếm và không có định nghĩa rõ ràng Nhờ đó, AEs có thể phát hiện hiệu quả các mẫu bất thường trong dữ liệu video một cách tự động và chính xác.

Trong công trình của [43], phương pháp sử dụng autoencoder tích chập hoàn toàn để nâng cao khả năng học các đặc trưng chuyển động trong video dài, giúp phát hiện các dị thường một cách hiệu quả Phương pháp này linh hoạt và có thể ứng dụng đa dạng trong phân tích tính bình thường theo thời gian, đoán khung hình, và phát hiện sự bất thường trong video.

GANs g m hai ph n: m t b sinh (generator) t o ra d li u th c t vàồ ầ ộ ộ ạ ữ ệ ự ế m t b phân bi t (discriminator) phân bi t gi a d li u độ ộ ệ ệ ữ ữ ệ ược sinh ra và d li u th t Thông qua quá trình đ i kháng này, GANs h c hi uữ ệ ậ ố ọ ệ qu phân ph i c a d li u th c Kh năng này đ c bi t h u ích trongả ố ủ ữ ệ ự ả ặ ệ ữ vi c phát hi n b t thệ ệ ấ ường, vì GANs có th t o ra d li u gi ng nh cácể ạ ữ ệ ố ư instance bình thường, giúp d dàng phát hi n các b t thễ ệ ấ ường l chệ kh i m u h c đỏ ẫ ọ ược này [60].

Vi c s d ng GANs trong các phệ ử ụ ương pháp d a trên tái t o đ c bi tự ạ ặ ệ đáng chú ý; các phương pháp này tái t o d li u đ u vào (nh cácạ ữ ệ ầ ư đo n video) b ng cách s d ng các bi u di n c p cao đạ ằ ử ụ ể ễ ấ ược h c t cácọ ừ video bình thường [28] Gi thuy t là b t thả ế ấ ường, do là các đ u vàoầ ngoài phân ph i, sẽ khó tái t o chính xác h n so v i d li u bìnhố ạ ơ ớ ữ ệ thường, làm cho l i tái t o tr thành m t ch s kh thi đ phát hi nỗ ạ ở ộ ỉ ố ả ể ệ

Nh đã th y trong công trình c aư ấ ủ [18], GANs được s d ng đ dử ụ ể ự đoán các khung hình tương lai, sau đó được tái t o, th hi n s linhạ ể ệ ự ho t và hi u qu c a chúng trong các tác v phát hi n b t thạ ệ ả ủ ụ ệ ấ ường. Trong lĩnh v c này, GANs cùng v i AEs đã cho th y hi u qu trongự ớ ấ ệ ả vi c n m b t các m u ph c t p trong d li u video, giúp xác đ nhệ ắ ắ ẫ ứ ạ ữ ệ ị chính xác h n các ho t đ ng b t thơ ạ ộ ấ ường Vi c s d ng k t h p chúngệ ử ụ ế ợ cho phép h c các bi u di n c p cao và t o ra d li u th c t , nâng caoọ ể ễ ấ ạ ữ ệ ự ế kh năng phát hi n b t thả ệ ấ ường m t cách chính xác và hi u qu ộ ệ ả

4.2.2.4 Các mô hình tu n t sâu (Sequential Deep Learning)ầ ự

Long Short-Term Memory (LSTM) là một loại mạng nơ-ron chuyên dụng cho xử lý dữ liệu theo chuỗi, phù hợp để phân tích các chuỗi thời gian và dữ liệu sequential LSTM giúp xử lý tốt các dữ liệu theo thời gian, đặc biệt trong các ứng dụng như xử lý ngôn ngữ tự nhiên (NLP) và phân tích video, nhờ khả năng ghi nhớ và tích hợp các mẫu dài hạn Công nghệ này rất quan trọng trong việc theo dõi và xác định các bước di chuyển theo thời gian trong các đoạn video, phục vụ các phân tích không gian – thời gian chính xác.

Vision Transformers (ViT) sử dụng cơ chế chú ý (attention) để mô hình hóa dữ liệu theo chuỗi, giúp tập trung vào các đặc trưng quan trọng của dữ liệu đầu vào Những nỗ lực này giúp cải thiện khả năng trích xuất đặc trưng trong không gian và thời gian của video, từ đó nâng cao hiệu quả phát hiện bất thường Phương pháp này ưu tiên các đặc trưng quan trọng nhất, giúp mô hình hiểu rõ hơn về các mẫu thói quen trong video và các mối quan hệ không gian-thời gian liên quan đến các sự kiện Swin Transformer, một biến thể của ViT, tập trung vào việc suy luận các khung hình, bằng cách xây dựng các mối liên hệ không gian-thời gian phức tạp để nâng cao khả năng phát hiện bất thường trong video, đặc biệt trong các nhiệm vụ giám sát.

4.2.2.5 Mô hình ngôn ng th giác (Vision-Language Models - ữ ị VLMs)

Các kỹ thuật truyền thống thường dựa vào các đặc trưng không gian-thời gian, giúp hệ thống nhận biết sự thay đổi trong các tình huống thực tế để cải thiện khả năng phản ứng Các hệ thống này đòi hỏi phải có cái nhìn sâu sắc hơn về ngữ nghĩa, đảm bảo độ chính xác cao trong việc nhận diện và phân tích dữ liệu Trong đó, các trường Vision-Language tích hợp việc huấn luyện mô hình sử dụng mã hóa hình ảnh và văn bản, cho phép phân tích toàn diện các tình huống giám sát phù hợp với nhiều ứng dụng khác nhau, nâng cao hiệu quả trong việc xử lý dữ liệu đa phương tiện.

S gia tăng đáng chú ý c a các b trích xu t đ c tr ng vision-languageự ủ ộ ấ ặ ư s d ng h c đ i kháng (contrastive learning) nh CLIPử ụ ọ ố ư [56] và BLIP

[41] cũng nh m m c đích căn ch nh gi a hình nh và ngôn ng , h aằ ụ ỉ ữ ả ữ ứ h n mang l i m t s thay đ i mang tính cách m ng trong cách th c xẹ ạ ộ ự ổ ạ ứ ử lý và gi i thích video giám sát Các mô hình này đả ược thi t k đ làmế ế ể phong phú thêm n i ộ dung video v i s hi u bi t ng nghĩa sâu s c,ớ ự ể ế ữ ắ hi u qu thu h p kho ng cách gi a d li u d a trên pixel đ n gi n vàệ ả ẹ ả ữ ữ ệ ự ơ ả s gi i thích gi ng con ngự ả ố ườ ơi h n v n i dung videoề ộ [57] Thêm vào đó, các mô hình ngôn ng s d ng ph đ văn b n đữ ử ụ ụ ề ả ược s d ngử ụ trong vi c truy xu t b t thệ ấ ấ ường t video b ng văn b n nh trongừ ằ ả ư [64]

Trong phương pháp của Câu [57], mô hình VadClip thường được sử dụng để phân tích video Wu và cộng sự đã kết hợp các đặc trưng của mô hình CLIP với một hệ thống nhánh đôi nhằm mã hóa hình ảnh và văn bản một cách đồng bộ Hệ thống này bao gồm một bộ điều chỉnh (LGT-Adapter) giúp mô hình hiểu rõ hơn về nội dung hình ảnh và văn bản trong quá trình phát hiện bất thường Ngoài ra, có một nhánh thực hiện phân loại bằng cách sử dụng các đặc trưng hình ảnh, trong khi nhánh còn lại căn cứ vào dữ liệu hình ảnh và văn bản để nâng cao độ chính xác trong phát hiện bất thường Phương pháp này giúp cải thiện hiệu quả trong việc phân tích và nhận diện các sự kiện bất thường trong video một cách chính xác hơn.

Nguyễn Lợi đã tạo ra các đoạn văn bản sử dụng phần mềm xử lý ngôn ngữ tự nhiên kết hợp với video bằng SwinBERT, góp phần nâng cao khả năng hiểu nghĩa của các nội dung đa phương tiện Phương pháp này giúp phân tích ý nghĩa của nội dung video vượt ra ngoài giới hạn của pixel, cải thiện khả năng phát hiện bất thường trong các video một cách hiệu quả.

4.2.2.6 Mô hình lai (Hybrid Models)

Nghiên cứu đã phát triển các trích xuất đặc trưng trong các bối cảnh khác nhau để tối ưu hóa kỹ thuật trích xuất đặc trưng Các phương pháp này giúp cải thiện việc khai thác thông tin không gian và thời gian trong quá trình phân tích video Nhờ đó, quá trình xử lý dữ liệu video trở nên hiệu quả hơn, nâng cao khả năng nhận diện và phân loại đối tượng trong các hệ thống thị giác máy tính.

Dưới đây là các câu chính thể hiện ý nghĩa của đoạn văn một cách mạch lạc và phù hợp với quy tắc SEO:1 "Mô hình lai giữa U-Net và Vision Transformer (ViViT) đã được đề xuất để nâng cao hiệu quả phân đoạn video."2 "U-Net, với kiến trúc encoder-decoder và các kết nối skip, giúp giữ lại thông tin không gian chi tiết trong quá trình xử lý hình ảnh."3 "ViViT được cập nhật bởi các nhà nghiên cứu để phù hợp với nhiệm vụ phân tích video, mã hóa hiệu quả thông tin không gian và thời gian."4 "Mô hình này kết hợp thông tin không gian chi tiết của U-Net với khả năng học thông tin động của Transformer, giúp nâng cao độ chính xác trong phân đoạn video."5 "ViViT có khả năng phân tích các đặc trưng đa chiều của video, phù hợp với các yêu cầu phức tạp trong thị giác máy tính."

Ngày đăng: 12/07/2025, 14:13

HÌNH ẢNH LIÊN QUAN

Hình CÁC B  D  LI U Ộ Ữ Ệ .1.  nh minh h a cho b  d  li u CASIA Action Ả ọ ộ ữ ệ [22]. - Incremental learning for anomaly detection (Đồ Án môn học Đồ Án 1)
nh CÁC B D LI U Ộ Ữ Ệ .1. nh minh h a cho b d li u CASIA Action Ả ọ ộ ữ ệ [22] (Trang 18)
Hình CÁC B  D  LI U Ộ Ữ Ệ .2.  nh minh h a cho b  d  li u Subway Ả ọ ộ ữ ệ [15]. - Incremental learning for anomaly detection (Đồ Án môn học Đồ Án 1)
nh CÁC B D LI U Ộ Ữ Ệ .2. nh minh h a cho b d li u Subway Ả ọ ộ ữ ệ [15] (Trang 19)
Hình CÁC B  D  LI U Ộ Ữ Ệ .4.  nh minh h a cho b  d  li u UCSD Pedestrian2 Ả ọ ộ ữ ệ [16]. - Incremental learning for anomaly detection (Đồ Án môn học Đồ Án 1)
nh CÁC B D LI U Ộ Ữ Ệ .4. nh minh h a cho b d li u UCSD Pedestrian2 Ả ọ ộ ữ ệ [16] (Trang 20)
Hình CÁC B  D  LI U Ộ Ữ Ệ .3  nh minh h a cho b  d  li u UCSD Pedestrian1 Ả ọ ộ ữ ệ [16]. - Incremental learning for anomaly detection (Đồ Án môn học Đồ Án 1)
nh CÁC B D LI U Ộ Ữ Ệ .3 nh minh h a cho b d li u UCSD Pedestrian1 Ả ọ ộ ữ ệ [16] (Trang 20)
Hình CÁC B  D  LI U Ộ Ữ Ệ .5.  nh minh h a cho b  d  li u Street Scene Ả ọ ộ ữ ệ [19]. - Incremental learning for anomaly detection (Đồ Án môn học Đồ Án 1)
nh CÁC B D LI U Ộ Ữ Ệ .5. nh minh h a cho b d li u Street Scene Ả ọ ộ ữ ệ [19] (Trang 21)
Hình CÁC B  D  LI U Ộ Ữ Ệ .6.  nh minh h a cho b  d  li u CUHK Avenue Ả ọ ộ ữ ệ [17]. - Incremental learning for anomaly detection (Đồ Án môn học Đồ Án 1)
nh CÁC B D LI U Ộ Ữ Ệ .6. nh minh h a cho b d li u CUHK Avenue Ả ọ ộ ữ ệ [17] (Trang 22)
Hình CÁC B  D  LI U Ộ Ữ Ệ .7.  nh minh h a cho b  d  li u UCF-Crime Ả ọ ộ ữ ệ [2]. - Incremental learning for anomaly detection (Đồ Án môn học Đồ Án 1)
nh CÁC B D LI U Ộ Ữ Ệ .7. nh minh h a cho b d li u UCF-Crime Ả ọ ộ ữ ệ [2] (Trang 23)
Hình CÁC B  D  LI U Ộ Ữ Ệ .8.  nh minh h a cho b  d  li u ShanghaiTech Ả ọ ộ ữ ệ [18]. - Incremental learning for anomaly detection (Đồ Án môn học Đồ Án 1)
nh CÁC B D LI U Ộ Ữ Ệ .8. nh minh h a cho b d li u ShanghaiTech Ả ọ ộ ữ ệ [18] (Trang 24)
Hình CÁC B  D  LI U Ộ Ữ Ệ .9.  nh minh h a cho b  d  li u XD-Violence Ả ọ ộ ữ ệ [20]. - Incremental learning for anomaly detection (Đồ Án môn học Đồ Án 1)
nh CÁC B D LI U Ộ Ữ Ệ .9. nh minh h a cho b d li u XD-Violence Ả ọ ộ ữ ệ [20] (Trang 25)
Hình CÁC B  D  LI U Ộ Ữ Ệ .10.  nh minh h a cho b  d  li u NWPU Campus Ả ọ ộ ữ ệ [20]. - Incremental learning for anomaly detection (Đồ Án môn học Đồ Án 1)
nh CÁC B D LI U Ộ Ữ Ệ .10. nh minh h a cho b d li u NWPU Campus Ả ọ ộ ữ ệ [20] (Trang 26)
Hình CÁC B  D  LI U Ộ Ữ Ệ .11.  nh minh h a cho b  d  li u UMN Crowd Ả ọ ộ ữ ệ - Incremental learning for anomaly detection (Đồ Án môn học Đồ Án 1)
nh CÁC B D LI U Ộ Ữ Ệ .11. nh minh h a cho b d li u UMN Crowd Ả ọ ộ ữ ệ (Trang 27)
w