Lời đầu tiên, em xin gửi lời cảm ơn chân thành nhất đến TS. Lê Văn Quốc Anh. Trong quá trình học tập và tìm hiểu bộ môn Hệ thống giao thông thông minh (ITS), em đã nhận được sự quan tâm giúp đỡ, hướng dẫn rất tận tình, tâm huyết của Thầy. Thầy đã giúp em tích lũy thêm nhiều kiến thức để có cái nhìn sâu sắc và hoàn thiện hơn về hệ thống giao thông thông minh (ITS). Từ những kiến thức mà Thầy truyền tải, em đã dần hiểu hơn về các hệ thống giao thông thông minh. Trong bài tiểu luận này, em xin trình bày lại những gì mà mình đã tìm hiểu về công nghệ “ An Intelligent Video Analysis Method for Abnormal Event Detection in Intelligent Transportation Systems” gửi đến Thầy.Có lẽ kiến thức là vô hạn mà sự tiếp nhận kiến thức cả bản thân mỗi người luôn tồn tại những hạn chế nhất định. Do đó, trong quá trình hoàn thành bài tiểu luận, chắc chắn không tránh khỏi những thiếu sót. Bản thân em rất mong nhận được những góp ý đến từ thầy để bài tiệu luận của em được hoàn thiện hơn.Kính chúc Thầy sức khỏe, hạnh phúc thành công trên con đường sự nghiệp giảng dạy.LỜI MỞ ĐẦU2CHƯƠNG 1: TỔNG QUAN VỀ PHƯƠNG PHÁP PHÂN TÍCH VIDEO THÔNG MINH CHO PHÁT HIỆN SỰ KIỆN BẤT THƯỜNG TRONG HỆ THỐNG GIAO THÔNG51.1 Hệ thống giao thông thông minh (ITS):51.2 Giới thiệu về phương pháp phân tích video thông minh để phát hiện sự kiện bất thường trong hệ thống giao thông:71.3 Kiến thức nền tảng:11CHƯƠNG 2: XÂY DỰNG PHƯƠNG PHÁP PHÂN TÍCH VIDEO THÔNG MINH CHO PHÁT HIỆN SỰ KIỆN BẤT THƯỜNG TRONG HỆ THỐNG GIAO THÔNG142.1. Phát hiện các khung hình dư thừa trong một đoạn video dài (Detection of Redundant Frames in a Long Video):142.2. Trích suất SOS dựa trên phân đoạn siêu khung (Extraction of SOI Based on Superframe Segmentation):152.3. Trích xuất các đặc điểm hình ảnh (Extraction of Visual Features):172.4. Biến đổi véc tơ từ của văn bản câu hỏi (Word Vector Transformation of Question Text):192.5. Kết hợp các tính năng trực quan và véc tơ căn bản (Combination of Visual Features and Text Vectors):20CHƯƠNG 3: NHẬN ĐỊNH VÀ LIÊN HỆ THỰC TIỄN CÔNG NGHỆ22“An Intelligent Video Analysis Method for Abnormal Event Detection in Intelligent Transportation Systems”223.1. Tại sao phải áp dụng Giải pháp phân tích video để phát hiện sự kiện bất thường trong giao thông :223.2. Những vị trí cần lắp camera để giám sát giao thông và ứng dụng phương pháp phân tích video thông minh để phát hiện sự cố :233.3. Cải thiện hiệu quả hoạt động phân tích đối tượng khả nghi dựa trên phương pháp phân tích video thông minh :24KẾT LUẬN33TÀI LIỆU THAM KHẢO34
TỔNG QUAN VỀ PHƯƠNG PHÁP PHÂN TÍCH VIDEO THÔNG
Hệ thống giao thông thông minh (ITS)
Hệ thống Giao thông thông minh (ITS) là việc ứng dụng kỹ thuật công nghệ gồm cảm biến, thiết bị điều khiển, điện tử, công nghệ thông tin và viễn thông trong quản lý và điều phối hệ thống giao thông vận tải ITS giúp nâng cao hiệu quả điều hành, giảm ùn tắc, nâng cao an toàn và tối ưu hóa hệ thống giao thông đô thị Công nghệ tiên tiến trong ITS mang lại giải pháp thông minh cho các đô thị hiện đại, góp phần phát triển bền vững và nâng cao trải nghiệm của người tham gia giao thông.
Hình 1.1: Hệ thống kết nối các phương tiện tham gia giao thông
Hệ thống ITS (Intelligent Transportation Systems) là công nghệ tiên tiến được phát triển trên thế giới để giải quyết các vấn đề giao thông như tai nạn, ùn tắc và cung cấp thông tin giao thông chính xác ITS tận dụng các tiến bộ của công nghệ thông tin và viễn thông để liên kết con người, hệ thống đường bộ và phương tiện giao thông thành một mạng lưới thông tin đa chiều Nhờ đó, ITS giúp tối ưu hóa quá trình lưu thông, giảm thiểu ùn tắc và nâng cao an toàn giao thông.
Các cảm biến được lắp đặt trên mặt đường để thu thập dữ liệu về luồng giao thông, khí hậu và thời tiết Thông tin này được hệ thống máy tính phân tích và xử lý để cung cấp cho tài xế các cảnh báo về tình hình giao thông như tai nạn, ùn tắc và dự báo thời tiết Nhờ đó, các tài xế có thể lựa chọn giải pháp di chuyển tối ưu, giúp hạn chế tai nạn và ùn tắc, đảm bảo hành trình an toàn, nhanh chóng và hiệu quả hơn trên đường.
Các thành phần chính của Hệ thống Giao thông Thông minh (ITS) gồm con người, phương tiện tham gia giao thông và cơ sở hạ tầng giao thông, đều được liên kết chặt chẽ nhằm đảm bảo hiệu quả hoạt động của hệ thống Hệ thống ITS nhằm mục tiêu nâng cao an toàn giao thông, giảm thiểu ùn tắc và tối ưu hóa quản lý lưu lượng phương tiện Việc tích hợp đầy đủ các thành phần này giúp hệ thống hoạt động linh hoạt, đáp ứng nhanh chóng các tình huống xảy ra trên đường Nhờ vào sự phối hợp hiệu quả giữa con người, phương tiện và cơ sở hạ tầng, ITS góp phần tăng cường an toàn, nâng cao hiệu quả vận tải và phát triển bền vững hệ thống giao thông.
Giúp hoàn thiện kết cấu hạ tầng đường bộ và xử lý khẩn cấp các sự cố giao thông.
Hiện đại hoá các trạm thu phí tự động và trạm cân điện tử…
Giảm tai nạn, ùn tắc giao thông và giảm ô nhiễm môi trường…
Tiết kiệm thời gian, tiền bạc và nhiên liệu, tạo điều kiện thuận lợi tối đa cho việc đi lại và vận chuyển hàng hóa.
Quản lý các đường trục giao thông chính, điều tiết việc đi lại của phương tiện trên đường bằng biển báo điện tử.
Chúng tôi tập trung xây dựng hệ thống thông tin cho người đi đường nhằm nâng cao nhận thức về văn hóa giao thông Hệ thống này còn hỗ trợ quy trình khai thác và điều hành hệ thống giao thông công cộng một cách hiệu quả, góp phần giảm thiểu tình trạng kẹt xe và nâng cao sự tiện lợi cho người tham gia giao thông.
Góp phần trong việc sản xuất các phương tiện thông minh, nâng cao hiệu quả của thiết bị an toàn giao thông.
Giới thiệu về phương pháp phân tích video thông minh để phát hiện sự kiện bất thường trong hệ thống giao thông
Hệ thống giao thông thông minh (ITS) góp phần nâng cao hiệu quả quản lý giao thông và đảm bảo an toàn cho phương tiện cũng như người đi bộ trên các tuyến đường đã được giám sát Nhờ đó, ITS đã thu hút sự quan tâm lớn từ các nhà nghiên cứu trong lĩnh vực này Tuy nhiên, tình hình trật tự an toàn giao thông đường bộ vẫn đang đối mặt với những thách thức ngày càng nghiêm trọng, khi tai nạn giao thông vẫn thường xuyên xảy ra, đặt ra yêu cầu cần tiếp tục cải thiện các giải pháp an toàn giao thông.
Việc phát hiện các vụ tai nạn giao thông nhanh chóng, chính xác và tránh những rắc rối về an toàn giao thông là một thách thức lớn Camera quay video, là nguồn dữ liệu quan trọng trong việc giám sát giao thông, được lắp đặt ở mọi góc của các ngã tư và đang mở rộng với tốc độ tăng trưởng hàng năm 20% Phân tích dữ liệu video lớn từ các camera này đã thu hút sự chú ý của giới học thuật và ngành công nghiệp, nhằm nâng cao an toàn công cộng và giảm thiểu tai nạn Trong bối cảnh xử lý dữ liệu phát triển nhanh, việc khai thác dữ liệu hữu ích từ video trở thành mục tiêu chiến lược trong phát triển hệ thống quản lý giao thông thông minh (ITS) Một phương pháp phân tích video thông minh được phát triển để tự động phát hiện các sự kiện bất thường, góp phần nâng cao hiệu quả phản ứng và xác minh trách nhiệm pháp lý trong các vụ tai nạn giao thông.
"Intelligent Video Analysis Method for Abnormal Event Detection in Intelligent Transportation Systems" is an effective tool for achieving enhanced traffic safety and management This innovative approach plays a crucial role in assessing the level of intelligence within Intelligent Transportation Systems (ITS) By accurately detecting abnormal events through advanced video analysis, the method contributes to more efficient traffic management and improves overall transportation safety Implementing such intelligent analysis techniques is essential for developing smarter, more responsive ITS infrastructure.
Việc tự động mô tả nội dung các video dài là một thử thách lớn trong lĩnh vực thị giác máy tính, đặc biệt khi so sánh với khả năng dễ dàng của con người trong việc ghi chú và mô tả các sự kiện xảy ra tại từng thời điểm Công nghệ này có tiềm năng ứng dụng rộng rãi trong giám sát video và hỗ trợ người mù, giúp các cơ quan giao thông phân tích luồng giao thông, nhận dạng phương tiện và phát hiện vi phạm luật giao thông dựa trên dữ liệu từ camera tại các giao lộ Tuy nhiên, mô tả nội dung video còn phức tạp hơn so với mô tả hình ảnh tĩnh, vì nó đòi hỏi hiểu biết về nhiều cảnh liên tiếp để tạo thành các đoạn mô tả phù hợp Hiện nay, phần lớn các nghiên cứu tập trung vào mô tả các đoạn video ngắn hoặc clip nhỏ, trong khi các video thực tế dài hàng trăm phút cần nhiều thời gian và chi phí để xử lý và trích xuất thông tin hiệu quả.
Truy xuất sự kiện và mô tả các video dài thường được thúc đẩy bởi những tiến bộ trong nhận dạng phân đoạn quan tâm (SOI), lựa chọn khung hình chính và tạo ngữ nghĩa hình ảnh S Sah [1] đề xuất phương pháp trích xuất SOI dựa trên chất lượng khung hình video, sử dụng các thuật toán học sâu để mã hóa và giải mã các phân đoạn video, từ đó chuyển đổi các khung hình chính thành chú thích văn bản để người dùng đánh giá và lựa chọn thông tin Lu và Grau man [2] đề xuất thuật toán tạo tóm tắt video dựa trên yếu tố chất lượng hình ảnh nhằm chọn ra các video phụ tiêu biểu thể hiện các sự kiện chính của video dài Wolf [3] sử dụng chuỗi khung hình chính trong phân đoạn video để biểu thị sự thay đổi nội dung, giúp giảm lượng dữ liệu cần xử lý và nâng cao hiệu quả truy xuất video.
Hình 1.2: Phân đoạn video dài và truy suất sự kiện cụ thể
Tất cả các phương pháp xử lý video đều tập trung vào việc chọn khung chính trong video dài và sử dụng chúng để mô tả nội dung thay cho toàn bộ video Tuy nhiên, các phương pháp này chỉ dựa vào một nguồn tham chiếu duy nhất là video để truy xuất dữ liệu Trong thực tế, nội dung video thường được liên kết với các dạng dữ liệu khác như âm thanh hoặc văn bản, ví dụ như phụ đề phim hoặc lời bình của khán giả đi kèm trực tiếp với video Những chế độ liên quan này đóng vai trò quan trọng không kém trong việc truy xuất các khoảnh khắc liên quan đến người dùng.
Trong video liên tục về cảnh đường phố, các tình nguyện viên chuẩn bị và phân phát thức ăn cho người vô gia cư, thể hiện rõ quá trình từ chuẩn bị đến hành động phát đồ ăn Khi muốn trích dẫn một khoảnh khắc cụ thể, như ông già ngồi trên đường, cần sử dụng các từ khóa mô tả hành động, đối tượng hoặc đặc điểm giúp xác định chính xác khoảnh khắc đó, đặc biệt khi các đối tượng quan trọng như người già xuất hiện nhiều khung hình khác nhau.
Dựa trên ví dụ này, chúng ta có thể sử dụng ngôn ngữ tự nhiên để xác định vị trí các khoảnh khắc quan trọng trong video, bao gồm phần đầu và phần cuối phù hợp với mô tả văn bản đã cho Đây là một nhiệm vụ đòi hỏi sự hiểu biết sâu sắc về cả ngôn ngữ và nội dung video, góp phần vào các ứng dụng truy xuất video như tìm kiếm các phân đoạn cụ thể trong video dài hoặc truy tìm các đoạn B-roll mong muốn trong các thư viện lớn như Adobe Stock, Getty hoặc Shutterstock Công nghệ “Phương pháp phân tích video thông minh” giúp giải quyết các hạn chế về tính toán quy mô lớn và thời gian tiêu hao trong phân tích nội dung, từ đó nâng cao hiệu quả tổ chức và truy xuất nội dung video một cách chính xác và nhanh chóng.
The article "Abnormal Event Detection in Intelligent Transportation Systems" introduces a novel approach for describing and retrieving long video events, significantly enhancing the effectiveness and accuracy of semantic descriptions This method improves retrieval performance while reducing response time, leading to more efficient monitoring and management in intelligent transportation systems.
-Phương pháp này có thể được tóm tắt như sau:
Một phương pháp phân tích video thông minh dựa trên VQA đã được đề xuất để phát hiện các sự kiện bất thường trong hệ thống giao thông thông minh Phương pháp này tập trung vào việc phát hiện biên độ chuyển động của các đoạn video dài, giúp loại bỏ hiệu quả các khung hình dư thừa, từ đó giảm thiểu số lượng khung hình cần xử lý sau này Điều này góp phần tối ưu quá trình phân tích video và nâng cao hiệu suất của hệ thống giám sát giao thông.
Thuật toán phân đoạn siêu khung dựa trên tính năng hợp nhất giúp chia nhỏ video dài thành các đoạn quan trọng gọi là SOI (Segments of Interest) Phương pháp này tối ưu hóa quá trình xác định các sự kiện chính trong video, nâng cao hiệu quả xử lý và phân tích nội dung Việc sử dụng thuật toán này đảm bảo các đoạn phân chia chính xác, phục vụ tốt cho các ứng dụng như nhận diện sự kiện, phân loại nội dung và trích xuất thông tin quan trọng trong video dài.
Mô hình ngôn ngữ được đào tạo để phản hồi chính xác dựa trên câu hỏi Văn bản tạo ra, nhằm xác định phân đoạn video phù hợp nhất với nội dung câu hỏi Việc mô hình tối ưu hóa để chọn ra kết quả có độ khớp cao nhất giúp nâng cao hiệu quả trong việc liên kết câu hỏi với các phân đoạn video phù hợp Đây là phương pháp giúp cải thiện trải nghiệm người dùng trong các hệ thống tìm kiếm và xử lý nội dung video dựa trên văn bản.
Một nghiên cứu kiểm chứng thử nghiệm mở rộng đã được thực hiện trên các bộ dữ liệu điểm chuẩn như SumMe và Hollywood2, cho thấy hiệu suất vượt trội trong việc đánh giá và phân tích dữ liệu Các bộ dữ liệu này đã chứng minh khả năng của phương pháp trong việc cung cấp kết quả chính xác và đáng tin cậy, góp phần nâng cao chất lượng nghiên cứu và ứng dụng thực tế.
Kiến thức nền tảng
Truy xuất sự kiện video dài (Long Video Event Retrieval):
Với sự phát triển nhanh chóng của công nghệ Internet và sự phổ biến của các thiết bị đa phương tiện, nguồn tài nguyên video ngày càng đa dạng và phong phú hơn Sự bùng nổ của nội dung video đã mở ra nhiều cơ hội mới cho các nhà sáng tạo nội dung và doanh nghiệp tiếp cận khách hàng hiệu quả hơn Việc tối ưu SEO cho các video trở nên cần thiết để nâng cao khả năng tiếp cận và thúc đẩy lượt xem, giúp tăng cường hiệu quả truyền thông trực tuyến.
Mỗi phút có tới 100 giờ video được tải lên YouTube, nhưng nhiều video thiếu chú thích và mô tả nội dung chuyên nghiệp, gây khó khăn cho việc truy xuất nhanh các tài nguyên video cần thiết Việc thiếu chú thích chính xác ảnh hưởng đến khả năng giám sát theo thời gian thực các video giao thông và các nội dung quan trọng khác Để giải quyết vấn đề này, phương pháp mô tả sự kiện trong video bằng ngôn ngữ tự nhiên đã được đề xuất, cho phép người dùng đặt câu hỏi và truy xuất các sự kiện cần thiết thông qua khớp câu trả lời Hiện nay, các phương pháp nhúng ngôn ngữ video sâu đã được sử dụng rộng rãi để nâng cao hiệu quả truy xuất sự kiện trong video, như được đề xuất trong các nghiên cứu [4]–[8].
Các phương pháp nhúng tính năng video và ngôn ngữ tự nhiên giúp cải thiện khả năng truy xuất sự kiện trong video Ví dụ, tài liệu [9] sử dụng video giám sát tại nhà để xác định các sự kiện hàng ngày dựa trên các giới từ không gian cố định như “ngang qua” và “thông qua” Bên cạnh đó, tài liệu [10] đề xuất phương pháp căn chỉnh các hướng dẫn bằng văn bản với các đoạn video, nhưng kỹ thuật này chỉ phù hợp với các video có cấu trúc rõ ràng do hạn chế trong căn chỉnh theo thứ tự hướng dẫn Trong khi đó, các video giám sát thực tế thường chứa các cảnh mở rộng, không giới hạn, đòi hỏi các phương pháp linh hoạt hơn để xử lý.
Mô tả ngữ nghĩa của video (Video Semantic Description):
Mô tả ngữ nghĩa video tập trung vào việc phân tách các sự kiện quan trọng dựa trên nhãn thời gian và tạo ra các câu mô tả phù hợp Các nghiên cứu trước đây về tổng hợp video ít chú trọng đến đầu vào ngôn ngữ tự nhiên, mặc dù một số thuật toán đã sử dụng văn bản liên quan hoặc thẻ danh mục để truy vấn nội dung và xác định các sự kiện chính Ngoài ra, tài liệu tham khảo đã tổng hợp các mô tả văn bản của từng khối video để làm rõ nội dung toàn bộ video.
Bộ dữ liệu được sử dụng trong phương pháp này không chứa các biểu thức quan hệ và có phạm vi ứng dụng hạn chế Do đó, phương pháp này không phù hợp để truy xuất các sự kiện trong các kịch bản giám sát thực tế Việc thiếu các biểu thức quan hệ khiến cho khả năng phân tích và nhận diện sự kiện trở nên hạn chế, ảnh hưởng đến hiệu quả của hệ thống giám sát.
Chú thích video có trả lời câu hỏi của hệ thống (Video Captioning With Question Answering):
Hệ thống trả lời câu hỏi liên quan đến thị giác máy và xử lý ngôn ngữ tự nhiên là một hệ thống mở, miễn phí, lấy hình ảnh và câu hỏi ngôn ngữ tự nhiên làm đầu vào để tạo ra câu trả lời bằng ngôn ngữ tự nhiên Việc kết hợp thuật toán thị giác máy với thuật toán xử lý ngôn ngữ tự nhiên để xây dựng mô hình kết hợp đã trở thành phương pháp phổ biến nhất để giải quyết các vấn đề của hệ thống trả lời câu hỏi Mô hình này thường sử dụng kiến trúc học sâu để trích xuất đặc điểm trực quan từ hình ảnh và mạng thần kinh hồi quy để tạo mô tả văn bản từ hình ảnh đó Ma và cộng sự đã sử dụng ba mạng thần kinh tích chập (CNN) để thực hiện nhiệm vụ hỏi đáp dựa trên hình ảnh, góp phần nâng cao hiệu suất của hệ thống trả lời câu hỏi hình ảnh.
Các nghiên cứu trước đó, như của Malinowski và Fritz, đã tích hợp các công nghệ mới nhất trong xử lý ngôn ngữ tự nhiên và thị giác máy tính để phát triển phương pháp tự động trả lời câu hỏi về hình ảnh Ren và cộng sự đã kết hợp mạng nơ-ron và ngữ nghĩa trực quan để nâng cao độ chính xác trong dự đoán câu trả lời dựa trên hình ảnh, đặc biệt trên các bộ dữ liệu điểm chuẩn video Một hệ thống VQA thành công đòi hỏi khả năng hiểu biết chi tiết về hình ảnh và khả năng lý luận phức tạp hơn so với các hệ thống tạo phụ đề hình ảnh chung chung Ngoài ra, Agrawal và cộng sự đã đề xuất mô hình VQA trực quan mở, cho phép cung cấp câu trả lời bằng ngôn ngữ tự nhiên chính xác bằng cách nhập hình ảnh và câu hỏi ngôn ngữ tự nhiên liên quan vào hệ thống.
XÂY DỰNG PHƯƠNG PHÁP PHÂN TÍCH VIDEO THÔNG MINH
Phát hiện các khung hình dư thừa trong một đoạn video dài (Detection of
Các camera giám sát giao thông thường thu thập dữ liệu video với tốc độ 25 khung hình mỗi giây để đảm bảo video mượt mà và liên tục trong 24 giờ, dẫn đến sản xuất hàng trăm nghìn đến hàng triệu khung hình Việc xử lý lượng lớn khung hình này tốn nhiều thời gian và khó đáp ứng yêu cầu giám sát theo thời gian thực Video dài thường chứa nhiều khung hình tĩnh vô dụng, gây tiêu tốn thời gian xử lý Để nâng cao hiệu quả, cần phát hiện và loại bỏ các khung hình thừa và vô nghĩa trong các video dài nhằm cải thiện tốc độ xử lý.
Trong nghiên cứu này, phương pháp phát hiện biên độ chuyển động dựa trên các điểm quan tâm không gian thời gian cục bộ giúp nâng cao hiệu quả trong việc xác định các khung dư thừa trong video Thuật toán phát hiện điểm quan tâm cải tiến theo không gian thời gian cho phép tính toán chính xác các điểm quan tâm từng khung hình, kết hợp với ức chế bao quanh và các ràng buộc cục bộ, thời gian để phát hiện các điểm quan tâm tĩnh Khi số lượng và vị trí các điểm quan tâm không thay đổi trong một video, nội dung video này được xem là không đổi, giúp loại bỏ các khung dư thừa không thay đổi dài hạn Việc phát hiện số lượng điểm quan tâm không hợp lệ thấp hơn ngưỡng cho phép gỡ bỏ các khung không cần thiết, trong khi tính chất lặp lại của các khung hình đảm bảo việc loại bỏ các khung thừa không làm ảnh hưởng đến nội dung chính của video.
Trích suất SOS dựa trên phân đoạn siêu khung (Extraction of SOI Based on
Trong phần trước, đã loại bỏ một lượng lớn khung hình dư thừa trong video dài bằng cách so sánh các thay đổi về số lượng hộp phát hiện chuyển động, điều này giúp giảm thiểu khung hình không cần thiết và cải thiện tốc độ xử lý tổng thể Việc trích xuất tính năng và so khớp các khung hình trong video dài sẽ được thực hiện sau, nhằm tối ưu quá trình phân đoạn video Phần này tập trung vào việc phân đoạn video dài đã loại bỏ khung dư thừa, sau đó trích xuất tính năng SOI để truy xuất các sự kiện quan trọng trong video một cách chính xác hơn.
Phân đoạn siêu khung video chia chuỗi video thành các phần hoặc tập hợp con cụ thể theo quy tắc nhất định và trích xuất SOI giúp nâng cao khả năng phân tích nội dung video Nghiên cứu [25] đề xuất phương pháp đánh giá chất lượng hình ảnh để phân loại nhanh các hình ảnh chuyên nghiệp chất lượng cao và ảnh chụp nhanh chất lượng thấp Lấy cảm hứng từ đó, phương pháp này kết hợp các đặc trưng cấp thấp như độ tương phản, độ sắc nét và màu sắc với các đặc trưng ngữ nghĩa cao cấp như thông tin về sự chú ý và khuôn mặt Sự kết hợp tuyến tính của các đặc trưng này giúp xác định mức độ hấp dẫn của từng phân đoạn video, từ đó phân đoạn video dài thành các phần dựa trên mức độ thú vị, tối ưu hóa quá trình phân tích nội dung video.
Trong bài viết này, phương pháp trong [25] để tính điểm tương phản C được trình bày rõ ràng Mỗi khung hình trong video được chuyển đổi thành hình ảnh thang độ xám, sau đó xử lý qua bộ lọc thông thấp để nâng cao chất lượng Hình ảnh đã chuyển đổi sau đó được lấy mẫu lại với chiều cao cố định là 64 pixel, và chiều rộng được điều chỉnh theo tỷ lệ khung hình để duy trì tỷ lệ ban đầu Độ sắc nét, một chỉ số quan trọng phản ánh chất lượng khung hình, được tính bằng cách chuyển đổi khung hình sang ảnh thang độ xám và đo bình phương hiệu của các giá trị thang độ xám của các pixel liền kề, giúp phù hợp với cảm nhận chủ quan của con người về hình ảnh rõ nét Ngoài ra, màu sắc cũng đóng vai trò quan trọng trong phân đoạn video, vì theo các nghiên cứu về độ mặn sinh học, màu sắc vừa là yếu tố kích thích cảm xúc của con người, vừa là phản ứng hành vi chủ quan do hệ thị giác của con người rất nhạy cảm với các biến đổi về màu sắc bên ngoài.
Mối quan hệ về không gian ảnh hưởng đáng kể đến mức độ nổi bật của thị giác, ví dụ như các khu vực có độ tương phản cao hơn dễ thu hút sự chú ý hơn Quá trình xử lý hình ảnh trong video bao gồm chuyển đổi sang không gian màu HSV, lọc thông thấp, lấy mẫu lại và điều chỉnh kích thước khung hình, sau đó tính điểm bão hòa màu trung bình S để đánh giá sự nổi bật Ngoài ra, trong phân đoạn video, việc xem xét các thông tin ngữ nghĩa cấp cao như thông tin khuôn mặt và các đặc trưng trực quan động dựa trên độ dốc thời gian là vô cùng quan trọng để xác định các khung gây chú ý Các phương pháp phát hiện khuôn mặt giúp gán điểm số cho từng khuôn mặt, từ đó tổng hợp thành điểm chú ý khuôn mặt F để nâng cao khả năng truy xuất sự kiện video Sự kết hợp tuyến tính các đặc trưng đa phương thức giúp tính điểm mức độ thú vị (SOI) cho video, trong đó điểm cuối cùng phản ánh mức độ hấp dẫn của nội dung Các yếu tố như chú ý, độ tương phản, màu sắc, độ sắc nét và tác động trên khuôn mặt được tích hợp qua phép tính phi tuyến để xác định ranh giới dài của video dựa trên điểm thú vị, giúp phân đoạn nội dung chính xác hơn.
Thông tin về khuôn mặt đóng vai trò quan trọng trong phân tích video, tuy nhiên, không phải mọi khuôn mặt đều xuất hiện trong tất cả các video, do đó hệ số ảnh hưởng η được tích hợp vào điểm số Khuôn mặt để phản ánh mức độ ảnh hưởng Điểm thú vị cắt siêu khung cuối cùng được tính dựa trên phương trình (1), giúp xác định chính xác các phần quan trọng của video Quá trình phân đoạn video dài thành các đoạn nhỏ dựa trên các yếu tố đặc trưng khác nhau, trong đó các khung hình chính từ video gốc tạo nên các phân đoạn phụ đề, giúp tối ưu quá trình phân đoạn và phân phối nội dung Như minh họa trong Hình 2, các đoạn video được phân đoạn theo điểm số các yếu tố đặc trưng, tạo thành nhiều SOI (Segment of Interest) phục vụ cho quá trình phân tích và xử lý dữ liệu hiệu quả hơn.
Trích xuất các đặc điểm hình ảnh (Extraction of Visual Features)
Quá trình xử lý video dài giúp chuyển đổi thành các SOI và loại bỏ các khung dư thừa, chỉ giữ lại các phân đoạn chứa các sự kiện chính của video Để truy xuất sự kiện hiệu quả bằng câu hỏi văn bản dựa trên ngôn ngữ tự nhiên, mô hình cần kết hợp đặc trưng cục bộ và ngữ cảnh toàn cục của video, trong đó các SOI được biểu thị bằng các điểm bắt đầu và kết thúc liên quan đến các sự kiện của toàn bộ video Mô hình nhúng chung phối hợp câu hỏi, đặc trưng của SOI và tham số mô hình θ để trích xuất đặc trưng phù hợp Mạng tích chập sâu được sử dụng để trích xuất cả đặc trưng cục bộ từng khung hình và đặc trưng toàn cục của SOI, qua đó tổng hợp trung bình tất cả các khung trong SOI để xây dựng đặc trưng video cao cấp Khi có các câu hỏi liên quan đến sự kiện trong video, hệ thống có thể định vị chính xác các cảnh tương ứng và khóa khoảnh khắc bắt đầu của sự kiện, từ đó mã hóa các đặc điểm của sự kiện đó Ví dụ, nếu câu hỏi là “ai đó đang đi xe đạp”, thuật toán có thể xác định vị trí cảnh có sự kiện đạp xe và mã hóa đặc điểm của sự kiện này qua các tính năng hình ảnh toàn cục và ngữ cảnh Trong quá trình này, mô hình VGG đã được huấn luyện trên ImageNet để trích xuất các đặc trưng cục bộ, toàn cục và điểm cuối tạm thời từ các khung hình, giúp tối ưu hóa quá trình truy xuất các sự kiện trong video.
Hình 2.1: Phân đoạn video dài thành các phân đoạn bằng thuật toán phân đoạn siêu khung
Biến đổi véc tơ từ của văn bản câu hỏi (Word Vector Transformation of
Văn bản câu hỏi bao gồm ngôn ngữ tự nhiên cần được xử lý trước để sử dụng hiệu quả trong các hệ thống AI Quá trình xử lý bắt đầu bằng việc phân tách các câu hỏi thành các từ riêng biệt dựa trên dấu cách và dấu chấm câu, kể cả các từ có chứa số Nghiên cứu của Teney và cộng sự [28] cho thấy phần lớn câu hỏi trong bộ dữ liệu VQA có độ dài ngắn, với chỉ khoảng 0,25% câu hỏi dài hơn 15 từ, giúp tối ưu quá trình phân tích và xử lý dữ liệu.
Hình 2.2: Hệ thống mô hình trả lời câu hỏi trực quan
Để nâng cao hiệu quả tính toán, bài viết chỉ giữ lại 15 từ khi tách câu nhằm tối ưu quá trình xử lý Hiệu suất của thuật toán đề xuất được xác minh qua phân tích định lượng và định tính, với các thí nghiệm được chia thành các bước chính theo từng phần của thuật toán Phần đầu tập trung vào việc xác minh khả năng phân đoạn video dài và trích xuất SOI dựa trên phát hiện biên độ chuyển động, trong khi phần thứ hai đánh giá thuật toán truy xuất sự kiện video dài dựa trên các câu hỏi bằng văn bản Cuối cùng, độ chính xác và độ tin cậy của thuật toán được kiểm tra qua các tình huống lưu lượng truy cập thực tế Trong các cảnh ngoài trời, đặc biệt phức tạp và thay đổi liên tục, các nhân vật và sự kiện không còn duy nhất, dẫn đến khả năng các sự kiện trùng lặp hoặc xen kẽ nhau trên trục thời gian; các từ trong video sau đó được chuyển đổi thành vectơ bằng mô hình word2vec để xử lý hiệu quả hơn.
300 chiều Cuối cùng, các vectơ từ được gửi đến LSTM để trích xuất các đặc điểm ngôn ngữ, trong đó trình tự nhúng của câu hỏi có kích thước 15.300.
Sau khi thu được vectơ đặc trưng video P θ V
Trong quá trình xử lý, nó được hợp nhất với văn bản câu hỏi P θ L vào cùng một không gian vectơ thông qua hàm biến đổi phi tuyến Sau đó, hai vectơ này được kết hợp và biểu diễn bằng công thức J θ (q, v, τ) = | P θ V (v, τ) − P θ L (q)|, giúp cải thiện khả năng biểu diễn và phân tích dữ liệu một cách hiệu quả hơn.
Mô hình được xây dựng và đào tạo bằng hàm mất mát nhằm xác định thời điểm sự kiện gần với mô tả trong văn bản câu hỏi Để nâng cao khả năng phân biệt các hành vi tinh tế, mô hình còn được huấn luyện với các mẫu phủ định từ các SOI khác nhau của cùng một video và từ các video khác, theo phương pháp của Hendricks et al [29], trong đó hàm mất mát xếp hạng được định nghĩa là max(0, x − y + b) Quy trình VQA dựa trên hình ảnh đa mục tiêu phát hiện mối quan hệ, lấy cảm hứng từ nghiên cứu về mục tiêu quan hệ trong ảnh, trong đó mô hình phát hiện mối quan hệ mục tiêu được đào tạo trước để thay thế đặc trưng hình ảnh ban đầu bằng đặc trưng mối quan hệ xuất hiện Đồng thời, đặc điểm ngoại hình và tiền tố quan hệ được chuyển đổi sang không gian véc tơ có kích thước cố định, rồi tích hợp và gửi đến bộ phân loại để tạo đầu ra câu trả lời Cấu trúc của mô hình gồm trích xuất đặc trưng hình ảnh bằng CNN, sau đó dùng LSTM để dự đoán kết quả, sử dụng vectơ đặc trưng kết hợp giữa đặc trưng hình ảnh và vị từ quan hệ của mô hình ngoại hình để cung cấp thông tin hình ảnh cho hệ thống Mô hình nhận diện hình ảnh bao gồm hai phần chính: phát hiện mục tiêu và phán đoán mối quan hệ mục tiêu.
Kết hợp các tính năng trực quan và véc tơ căn bản (Combination of Visual
3.1 T i sao ph i áp d ng Gi i pháp phân tích video đ phát hi n s ki nải áp dụng Giải pháp phân tích video để phát hiện sự kiện ụng Giải pháp phân tích video để phát hiện sự kiện ải áp dụng Giải pháp phân tích video để phát hiện sự kiện ể phát hiện sự kiện ện sự kiện ự kiện ện sự kiện b t thất thường trong giao thông : ường trong giao thông :ng trong giao thông :
Hình 3.1: Hình ảnh tình hình kẹt xe tại TP Hồ Chí Minh
Trong sự phát triển của xã hội, lưu lượng giao thông ngày càng tăng cao, đặc biệt tại các thành phố lớn như TP Hồ Chí Minh và Hà Nội Để đảm bảo công tác quản lý giao thông hiệu quả hơn, các cơ quan chức năng đã tích cực lắp đặt hệ thống camera giao thông nhằm theo dõi sát sao tình hình, phát hiện kịp thời các bất thường và nâng cao hiệu quả điều hành đô thị.
Giải pháp Camera giám sát giao thông và phân tích video thông minh giúp phát hiện kịp thời các sự cố bất thường, từ đó nâng cao hiệu quả trong việc quan sát và theo dõi toàn thành phố Công nghệ này góp phần đảm bảo an ninh, trật tự đô thị đồng thời giảm thiểu chi phí nhân sự cho các cơ quan chức năng Với hệ thống giám sát hiện đại, bạn có thể quản lý giao thông liên tục 24/7, không kể ngày đêm, dù ở bất kỳ địa điểm nào, giúp xử lý nhanh chóng các tình huống khẩn cấp và duy trì an toàn đô thị một cách hiệu quả.