Bài viết đề xuất sử dụng DNN biểu diễn các thuộc tính thuộc về nội dung cho các hình ảnh trong video. Những thuộc tính rút trích được sẽ làm tiền đề cho việc lập chỉ mục và tìm kiếm cho các hệ thống truy vấn video.
Trang 1TÓM TẮT: Deep Neural Networks (DNN) - Một thuật toán học máy sử dụng mạng neural nhân tạo nhiều tầng vào các lĩnh
vực xử lý ảnh, xử lý âm thanh, xử lý ngôn ngữ tự nhiên… đang nhận được sự quan tâm của các nhà khoa học trên thế giới Trong bài báo này, chúng tôi đề xuất sử dụng DNN biểu diễn các thuộc tính thuộc về nội dung cho các hình ảnh trong video Những thuộc tính rút trích được sẽ làm tiền đề cho việc lập chỉ mục và tìm kiếm cho các hệ thống truy vấn video Để thực hiện công việc này, chúng tôi xây dựng một số mô hình DNN phổ biến hiện nay như Faster R-CNN Inception Resnet v2, SSD Mobile v2, Faster R-CNN Resnet để đánh giá độ chính xác trên tập dữ liệu thu thập được từ kho nội dung của Đài Phát thanh và Truyền hình Vĩnh Long Kết quả thực nghiệm cho thấy phương pháp có sử dụng DNN đạt độ chính xác cao từ 86% đến 95% Đây cũng là cơ sở cho những nghiên cứu có liên quan trong việc lựa chọn mô hình phù hợp cho việc trích xuất nội dung từ video nhằm phục vụ cho việc truy vấn video dựa vào nội dung theo hướng tiếp cận dữ liệu lớn
Từ khóa: Truy vấn video, Deep Neural Networks, Faster R-CNN Resnet, SSD Mobilenet
I GIỚI THIỆU
Hiện nay, video đang là một trong những phương thức truyền tải thông tin dễ dàng tiếp cận được nhiều người dùng trên thế giới Với ưu điểm trực quan, sinh động, hình ảnh của video bao hàm nhiều nội dung mà không cần thể hiện cụ thể bằng ngôn ngữ Tận dụng những nội dung này phục vụ cho việc lưu trữ và tìm kiếm chính là thách thức đặt
ra cho các nhà quản trị kênh truyền thông đa phương tiện Từ thực tế đó, bài toán đề xuất được đặt ra và mô tả như sau: Đầu vào là nội dung mà người dùng muốn tìm kiếm, đầu ra là danh sách các video có chứa nội dung đó Khái niệm nội dung ở đây chính là những thông tin được thể hiện bằng hình ảnh mà không cần từ ngữ cụ thể Bài toán này có tính ứng dụng cao trong các hệ thống phục vụ truy vấn video bởi các công cụ tìm kiếm thông thường chỉ dựa trên tên và một số
ít thông tin của video, dễ bỏ qua những tìm kiếm chuyên sâu vào nội dung Những năm gần đây, nhiều phương pháp truy vấn video dựa vào nội dung đã được đưa ra Năm 2016, Đỗ Văn Tiến, Lâm Quang Vũ, Phan Lê Sang, Ngô Đức Thành, Lê Đình Duy, Dương Anh Đức đã đề xuất một hệ thống phát hiện cảnh bạo lực trong video dựa vào thuộc tính biểu diễn qua ba mô hình DNN phổ biến như Alex Net, UavNet, VGG để đánh giá độ chính xác trên tập dữ liệu chuẩn VSD 2014 [1] Kết quả thực nghiệm cho thấy, độ chính xác khi sử dụng DNN là 48,12 % cao hơn so với phương pháp tốt nhất không sử dụng DNN là 13 % Năm 2018 Mr Braveen M đề xuất một phương pháp truy xuất video dựa trên nội dung với các đa thức trực giao [2] Hệ thống này đề xuất nhận dạng các khung hình chính từ các hình ảnh đầu vào
và sử dụng màu sắc, kết cấu, góc cạnh và hình dạng của nội dung trực quan Sau đó các đặc trưng này sẽ được lập chỉ mục, đối sánh và phục vụ truy xuất Phương pháp này chỉ được thực nghiệm trên 20 video và chỉ sử dụng đặc trưng từ hình ảnh Tháng 7/2018 Mrs S Renukadevi cũng đề xuất một mô hình tìm kiếm video dựa vào kỹ thuật phân cụm trích xuất đặc trưng và mô hình cây quyết định [3] Hệ thống thực nghiệm trên tập dữ liệu gồm 100 video bằng 3 kỹ thuật phân cụm trích xuất đặc trưng và đạt độ chính xác cao nhất là 37% Cũng trong năm 2018, Le Wang, Jinliang Zang, Qilin Zhang, Zhenxing Niu, Gang Hua và Nanning Zheng đề xuất CNN có trọng số thời gian theo thời gian (ATW CNN) để nhận dạng hành động trong video [4] Kết quả thử nghiệm trên bộ dữ liệu UCF-101 và HMDB-51 cho thấy hiệu suất nhận dạng các phân đoạn video có liên quan khi sử dụng mô hình này tăng đáng kể Và đóng góp của chúng tôi trong nghiên cứu này chính là các tập dữ liệu đã được lập chỉ mục sau khi thực nghiệm; phương pháp rút trích nội dung video dựa vào đặc trưng đối tượng trên hình ảnh; cải tiến các mạng Deep Neural Network trong quá trình nghiên cứu; so sánh, đánh giá về độ chính xác và thời gian của các phương pháp đề xuất để cung cấp thêm cơ sở khoa học cho các nghiên cứu về sau Trong nội dung bài báo, chúng tôi tập trung chủ yếu vào việc áp dụng ba kiến trúc mô hình Deep Neural Network hiện đại trong phát hiện đối tượng, cụ thể là Faster R-CNN Resnet, Faster R-CNN Inception Resnet v2, Single Shot Detector Mobilenet v2
II CÔNG VIỆC LIÊN QUAN
A Deep Neural Network
Deep Neural Network [5] là hệ thống cấu trúc thần kinh phức tạp gồm nhiều đơn vị neural network mà trong đó, ngoài các lớp nguồn vào (input), nguồn ra (output) thì có nhiều lớp ẩn (hidden layer) Mỗi lớp này sẽ thực hiện một kiểu phân loại và sắp xếp riêng trong một quá trình gọi là “phân cấp tính năng” và mỗi lớp đảm nhiệm một trọng trách riêng, output của lớp này sẽ là input của lớp sau Deep Neural Network được xây dựng với mục đích mô phỏng hoạt động não bộ phức tạp của con người và được áp dụng vào nhiều lĩnh vực khác nhau, mang lại thành công và những hiệu quả đáng kinh ngạc
Trang 2Hình 1 Mô hình Deep Neural Network [5]
B Faster R-CNN
Đây là kiến trúc mô hình cải thiện về cả tốc độ huấn luyện và phát hiện được đề xuất bởi Shaoqing Ren và các cộng sự tại Microsoft Research trong bài báo năm 2016 có tiêu đề Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks (RPN) [6] Kiến trúc Faster R-CNN này là đỉnh cao của họ model R-CNN
và tiếp tục đạt được kết quả gần như tốt nhất trong các nhiệm vụ nhận diện đối tượng
Hàm tính toán độ đo Loss (L) được xác định bởi công thức (1), (2)
𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿({𝑝𝑝𝑖𝑖}, {𝑡𝑡𝑖𝑖}) = 𝑁𝑁1
𝑐𝑐𝑐𝑐𝑐𝑐∑ 𝐿𝐿𝑖𝑖 𝑐𝑐𝑐𝑐𝑐𝑐(𝑝𝑝𝑖𝑖, 𝑝𝑝𝑖𝑖∗)+ λ 𝑁𝑁1
𝑟𝑟𝑟𝑟𝑟𝑟 ∑ 𝑝𝑝𝑖𝑖 𝑖𝑖∗ 𝐿𝐿𝑟𝑟𝑟𝑟𝑟𝑟(𝑡𝑡𝑖𝑖, 𝑡𝑡𝑖𝑖∗) (1) 𝑆𝑆𝑆𝑆𝐿𝐿𝐿𝐿𝑡𝑡ℎ𝐿𝐿1𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿(𝑥𝑥, 𝑦𝑦) = �0.5(𝑥𝑥𝑖𝑖− 𝑦𝑦𝑖𝑖)2 𝑛𝑛ế𝑢𝑢 |𝑥𝑥𝑖𝑖− 𝑦𝑦𝑖𝑖| < 1
|𝑥𝑥𝑖𝑖− 𝑦𝑦𝑖𝑖| − 0.5 𝑛𝑛𝑛𝑛ượ𝑐𝑐 𝑙𝑙ạ𝑖𝑖 (2)
Với i là index của anchor trong mini-batch và pi là xác suất dự đoán của anchor i là một đối tượng Giá trị nhãn ground-truth pi∗ là 1 nếu anchor là positive và là 0 khi anchor là negative
+ ti là một vector 4 chiều biểu diễn giá trị tọa độ của bounding box đã được dự đoán
+ ti∗ là vector 4 chiều biểu diễn giá trị tọa độ của ground-truth box tương ứng với positive anchor
+ 𝐿𝐿𝑐𝑐𝑐𝑐𝑐𝑐 là log loss của 2 lớp (object và non-object)
+ 𝐿𝐿𝑟𝑟𝑟𝑟𝑟𝑟 dùng SmoothL1Loss
C MobileNet v2
Các mô hình DNN vừa được giới thiệu, tuy có độ chính xác cao, nhưng đều có một điểm hạn chế chung đó là không phù hợp với các ứng dụng trên mobile hay các hệ thống nhúng có khả năng tính toán thấp Nếu muốn phát triển các mô hình trên cho các ứng dụng thời gian thực thì cần phải có cấu hình cực kì mạnh mẽ (GPU/TPU) còn đối với các
hệ thống nhúng (Raspberry Pi, Nano pc…) hay các ứng dụng chạy trên smart phone, cần có một mô hình "nhẹ" hơn Trên cùng tập dữ liệu ImageNet, MobileNet v2 có độ chính xác không hề thua kém các mô hình khác như VGG16, VGG19 trong khi lượng parameters chỉ khoảng 3.5 M (khoảng 1/40 số tham số của VGG16) [7]
Bảng 1 Phác thảo kiến trúc mạng MobileNet v2
Type/Stride Filter Shape Input size
Conv dw /s2 3 × 3 × 64 dw 112 × 112 × 64 Conv /s1 1 × 1 × 64 × 128 56 × 56 × 128 Conv dw/s1 3 × 3 × 256 dw 56 × 56 × 128 Conv /s1 1 × 1 × 128 × 256 56 × 56 × 128 Conv dw /s2 3 × 3 × 256 dw 56 × 56 × 128
Trang 35xConv/s1 1 × 1 × 512 × 512 14 × 14 × 512 Conv dw/s2 3 × 3 × 512 dw 14 × 14 × 512 Conv/s1 1 × 1 × 512 × 1024 7× 7 × 512 Conv dw/s2 3× 3 × 1024 dw 7 × 7 × 1024 Conv /s1 1 × 1 × 1024 × 1024 7 × 7 × 1024
III MÔ HÌNH ĐỀ XUẤT
Hệ thống tìm kiếm video dựa vào nội dung mà chúng tôi đề xuất có quy trình thực hiện như sau: Từ file video đầu vào thực hiện cắt ra thành các frame hình, tiếp theo chúng tôi sẽ phát hiện đối tượng (nội dung) trên hình ảnh đó Kết thúc quá trình xử lý video nguồn, kết quả thu được là một tệp văn bản tương ứng đối với nội dung của video đã được trích xuất Các văn bản ở dạng thô cần được chuyển sang một dạng biểu diễn nào đó để xử lý Quá trình đó là lập chỉ mục cho tệp văn bản để hỗ trợ việc tìm kiếm thông tin của người dùng Các thông tin rút trích được sẽ được lập chỉ mục và lưu vào cơ sở dữ liệu của công cụ tìm kiếm dưới dạng văn bản (text) để phục vụ cho quá trình tiếp theo là truy vấn Hệ thống chỉ mục thu được là danh sách các từ khóa, chỉ rõ các từ khóa nào xuất hiện ở video nào, địa chỉ nào Bài toán phát hiện đối tượng được chia thành 3 thành phần chính: Tiền xử lý, rút trích đặc trưng và phân loại Kết quả phân loại sẽ dựa vào quá trình huấn luyện, cho biết dữ liệu ảnh thuộc loại nào và có độ chính xác là bao nhiêu Chi tiết các giai đoạn thực hiện của hệ thống tìm kiếm video dựa vào nội dung mà chúng tôi đề xuất lần lượt như sau:
Hình 3 Mô hình tổng quát phương pháp đề xuất
• Phase 1- Huấn luyện mô hình: Giai đoạn huấn luyện được chia thành 3 bước chính: Bước tiền xử lý ảnh, bước
trích chọn đặc trưng và bước huấn luyện
a) Tiền xử lý: Đầu vào của hệ thống là các video Các video này sẽ được trích xuất thành các frame ảnh, để tránh
bỏ sót khung hình, chúng tôi thực hiện lấy 1 hình trên 1 giây [8] làm dữ liệu đầu vào cho quá trình trích xuất đặc trưng tiếp theo Sau đó sẽ chọn lọc những hình ảnh có chứa đối tượng cần nhận dạng để thực hiện việc gán nhãn dữ liệu Toàn bộ quá trình này sẽ thực hiện với sự tư vấn và giám sát của các chuyên gia về nội dung Trải qua giai đoạn tiền xử lý dữ liệu, chúng tôi sẽ nhận được một tập ảnh có chứa các đối tượng được gán nhãn có độ tin cậy cao Trong bước này thực hiện xác định khối ROI của từng hành động dựa trên việc
Trang 4gán nhãn bằng tay Trong bài báo này chúng tôi sử dụng một tool có sẵn là labeling Quá trình này về cơ bản
là vẽ các hộp xung quanh đối tượng trong ảnh Sau khi gán nhãn dữ liệu chia dữ liệu thành các tệp train/test Chuyển đổi các tệp XML thành các tệp CSV và sau đó tạo TFRecords từ các tệp này Tệp train TFRecords này được đưa để đào tạo mô hình Cuối cùng các giá trị được đưa vào mô hình để đánh giá
b) Trích chọn đặc trưng: Để có thể phát hiện và phân loại được đối tượng, chúng tôi tiến hành rút trích đặc
trưng trên tập dữ liệu đã được tiền xử lý ở bước 1 Chúng tôi đề xuất phương pháp rút trích đặc trưng với 3 mô hình mạng: Resnet, Inception Resnet và MobileNet v2 Chúng tôi cũng thực hiện thay đổi kích thước của max pooling nhằm đưa ra những đánh giá khách quan và đa dạng hơn
c) Huấn luyện mô hình: Tập dữ liệu sau khi rút trích đặc trưng sẽ được huấn luyện trên ba mô hình mạng SSD
Mobilenet v2, Faster R-CNN Inception ResNet và Faster R-CNN Resnet Mỗi mô hình mạng như vậy được huấn luyện trên cùng một môi trường giống nhau, chúng tôi giám sát trong quá trình huấn luyện dựa vào chỉ
số Loss của từng kiến trúc mạng đã được trình bày trong phần 2.2 để đưa ra quyết định điểm dừng huấn luyện
Cả ba mô hình được huấn luyện cho đến khi chỉ số Loss không được cải thiện (không giảm) sau số lần học nhất định chúng tôi sẽ dừng huấn luyện mô hình và chuyển sang giai đoạn kiểm thử để so sánh, đánh giá mô hình
• Phase 2- Giai đoạn nhận dạng được chia thành 3 bước chính: Bước tiền xử lý ảnh, bước trích chọn đặc trưng và
bước nhận dạng
a) Tiền xử lý: Chúng tôi cũng tiến hành trích xuất frame ảnh từ video đầu vào như đã trình bày ở Phần III mục
1a Theo tiêu chuẩn của video, mỗi giây chúng ta sẽ trích xuất được 25-30 frame Những frame ảnh này sẽ được đưa vào bước 2 để trích chọn đặc trưng
b) Trích chọn đặc trưng: Cũng giống như bước trích chọn đặc trưng ở Phần III Mục 1b, chúng tôi cũng thực
hiện phương pháp rút trích đặc trưng với 3 mô hình mạng: Resnet, Inception Resnet và MobileNet v2
c) Nhận dạng đối tượng: Từ bước 1 và bước 2, dựa vào các thuật toán phân loại như đã trình bày ở Phần II và
CSDL huấn luyện, ta tiến hành đưa ảnh đầu vào để xác nhận đối tượng và đưa ra kết quả Đặt một ngưỡng 0.5
để quy định độ chính xác khi nhận dạng, nếu lớn hơn ngưỡng này tức là đối tượng này tồn tại trong CSDL huấn luyện kết quả trả về sẽ là một id của đối tượng đó
IV KẾT QUẢ THỰC NGHIỆM
A Mô i trường cài đặt và tập dữ liệu
Để đánh giá phương pháp đề xuất chúng tôi sử dụng dữ liệu là tập hình ảnh được trích xuất từ các video được phát sóng của Đài Phát thanh và Truyền hình Vĩnh Long bao gồm thời sự, chuyên mục, giải trí Để so sánh và đánh giá các mô hình, chúng tôi thực hiện phương pháp đề xuất trên ba mô hình SSD Mobilenet v2, Faster R-CNN Inception ResNet v2 và Faster R-CNN Resnet trong cùng một môi trường Google Colab với Ubuntu 18.04, cấu hình RAM 12GB
và dùng GPU Nvidia Tesla P100 Thư viện hỗ trợ huấn luyện mô hình mạng sử dụng là Tensorflow GPU phiên bản 2.3.0 Tập dữ liệu gồm 1,539 ảnh với 38 bộ phân lớp được chia theo tỉ lệ 80 % (1231 ảnh) cho tập Training và 20 % (308 ảnh) cho tập Test Chất lượng tập dữ liệu ảnh hưởng trực tiếp đến kết quả về độ chính xác khi huấn luyện mô hình mạng Trong nghiên cứu này, chúng tôi gán 38 nhãn bằng công cụ gán nhãn dữ liệu LabelImg Tập dữ liệu huấn luyện được sử dụng trong giai đoạn huấn luyện và tập dữ liệu kiểm thử được sử dụng cho kiểm thử độ chính xác
Bảng 2 Mô tả chi tiết tập dữ liệu huấn luyện
STT Video Độ dài (phút) Dung lượng (MB) Số ảnh trích xuất Dung lượng ảnh trích xuất (MB)
B Kết quả thực nghiệm
Đối với mô hình mạng nơron trong quá trình huấn luyện đều có các tham số riêng và rất đặc trưng trong mô hình như tốc độ học (Learning rate), số lần lặp (Iteration), kích thước ảnh đầu vào (Image size) Bên cạnh đó việc lựa chọn mô hình cho quá trình trích xuất đặc trưng (backbone) cũng đóng vai trò quan trọng trong quá trình huấn luyện Tất cả các những thiết đặt này đều ảnh hưởng tới các yếu tố như độ chính xác, tốc độ, thời gian xử lý và tài nguyên của
hệ thống Chúng tôi tiến hành thực nghiệm theo 2 kịch bản
Trang 5Mô hình mạng Learning rate Batch size classes Num Scales Score
converter
Num step IoU Image size
• Kịch bản 2: Chúng tôi sử dụng cho ba mô hình Faster R-CNN Resnet, Faster R-CNN Inception Resnet v2 và
SSD MobileNet v2 nhưng thay đổi max pooling từ kích thước mặc định 3×3 sang kích thước 2×2 với số bước học là 100.000 bước
1 Kết quả kịch bản 1
d) Classification Loss Faster R-CNN Inception
Resnet v2
Resnet v2
f) Total Loss Faster R-CNN Inception
Resnet v2
Từ hình 4c cho thấy, giá trị Loss_value của mô hình Faster R-CNN Resnet là rất thấp dưới 10 % (Loss_value < 0.01) so với các mô hình còn lại (Hình 4a đến hình 4i) sau khi trải qua khoảng 50.000 lần huấn luyện Cụ thể mô hình SSD Mobilenet v2 có Classification Loss là 0.8, localization Loss là 0.1; mô hình Faster R-CNN Inception Resnet v2
có Classification Loss là 0.09 và localization Loss là 0.07; mô hình Faster R-CNN Resnet có Classification Loss là 0.01 và localization Loss là 0.05 Điều này có nghĩa là mức độ sai sót khi dự đoán phân loại đối tượng và số lần huấn luyện của mô hình Faster R-CNN Resnet là thấp nhất so với các mô hình còn lại
Với bài toán phân lớp, các mô hình cần được đánh giá về độ chính xác phân lớp đối tượng Hình 5 và bảng 4 mô
tả độ chính xác phân lớp của ba mô hình qua hai độ đo AP và mAP
Trang 6Hình 5 Biểu đồ biểu diễn độ chính xác từng lớp
Kết quả thực nghiệm khi huấn luyện trên 3 mô hình lần lượt như sau:
Bảng 4 Mô tả chi tiết kết quả thực nghiệm
Dựa vào kết quả thực nghiệm ở bảng 4, khi đánh giá các mô hình với độ đo mAP, phương pháp Faster R-CNN Resnet cho kết quả đạt cao nhất với mAP = 0,95 cho cả 38 đối tượng (hình 6) Hai mô hình SSD Mobilenet v2 và Faster-R-CNN Inception Resnet v2 cho thấy kết quả mAP thấp hơn lần lượt là 0.93 và 0.86 Cả ba mô hình chúng tôi huấn luyện trên cùng một môi trường, trong đó thời gian huấn luyện không bằng nhau: 7 giờ 12 phút cho mô hình mạng Faster R-CNN Resnet; 6 giờ 41 phút cho mô hình mạng Faster R-CNN Inception Resnet v2; 5 giờ 27 phút với
mô hình SSD MobileNet v2
Tương tự, Chúng ta có thể thấy rằng mô hình mạng Faster R-CNN Resnet có thời gian huấn luyện và nhận dạng lâu nhất so với các mô hình khác nhưng độ đo mAP là cao nhất (hình 6 và hình 7) Mô hình SSD Mobilenet có thời gian huấn luyện nhanh, đạt tốc độ nhanh đáng kể so với thời gian huấn luyện của mô hình Faster R-CNN Resnet và Faster R-CNN Inception-Resnet v2 nhưng độ đo mAP là thấp nhất Điều này phù hợp với mục đích xây dựng mạng SSD Mobilenet có kiến trúc đơn giản, phù hợp cho mô hình xử lý thời gian thực với độ chính xác chấp nhận được
2 Kết quả kịch bản 2
Để đánh giá chỉ số Loss của ba mô hình, chúng tôi dựa vào Classification Loss, Localization Loss và Total Loss của mỗi mô hình Kết quả được trình bày trong hình 8
Trang 7Dựa vào hình 8c, 8f và 8i ta có thể thấy total loss là tối thiểu khi số bước tăng đến 100.000 bước Từ Hình 8d cho thấy, giá trị Loss_value của mô hình Faster R-CNN Inception Resnet v2 là rất thấp dưới 10 % (Loss_value < 0.01)
so với các mô hình còn lại (hình 8a đến hình 8i) sau khi trải qua khoảng 100.000 lần huấn luyện Cụ thể mô hình Faster R-CNN Resnet có Classification Loss là 0.03, localization Loss là 0.02; mô hình Faster R-CNN InceptionResnet v2 có Classification Loss là 0.01 và localization Loss là 0.02; mô hình SSD MobileNet v2 có Classification Loss là 0.8 và localization Loss là 0.07 Điều này có nghĩa là mức độ sai sót khi dự đoán phân loại đối tượng và số lần huấn luyện của
mô hình Faster R-CNN Inception Resnet v2 là thấp nhất so với các mô hình còn lại trong kịch bản này Hình 9 và bảng
5 mô tả độ chính xác phân lớp của ba mô hình qua hai độ đo AP và mAP Về độ chính xác trung bình (AP), mô hình Faster R-CNN Inception Resnet v2 có kết quả phân lớp ổn định nhất so với hai mô hình còn lại
Kết quả thực nghiệm khi huấn luyện trên 3 mô hình trong kịch bản 2 lần lượt như sau:
Bảng 5 Mô tả chi tiết kết quả thực nghiệm trong kịch bản 2
Dựa vào kết quả thực nghiệm ở bảng 7, khi đánh giá các mô hình với độ đo mAP, phương pháp Faster R-CNN Inception Resnet cho kết quả đạt cao nhất với mAP = 0.95 cho cả 38 đối tượng (hình 10) Hai mô hình Faster R-CNN Resnet và SSD Mobilenet v2 cho thấy kết quả mAP thấp hơn lần lượt là 0.94 và 0.88 Cả ba mô hình chúng tôi huấn luyện trên cùng một môi trường, trong đó thời gian huấn luyện cho từng mô hình như sau: 16 giờ 10 phút cho mô hình mạng Faster R-CNN Resnet; 15 giờ 41 phút cho mô hình mạng Faster R-CNN Inception Resnet v2; 8 giờ 38 phút với
mô hình SSD MobileNet v2
Tương tự, chúng ta có thể thấy rằng mô hình mạng SSDMobileNet v2 có thời gian huấn luyện và nhận dạng nhanh hơn mô hình Faster R-CNN Inception Resnet v2 và chậm hơn mô hình Faster R-CNN Resnet nhưng độ đo mAP
là thấp nhất (hình 10 và hình 11) Điều này phù hợp với mục đích xây dựng mạng SSD Mobilenet có kiến trúc đơn giản
Trang 8nhưng có độ chính xác chấp nhận được Sau khi tăng số bước học thì độ đo mAP của mô hình Faster R-CNN Inception Resnet v2 cũng đã tăng lên và đạt cao nhất trong 3 mô hình Nhóm thuật toán ResNet và Inception đi theo tiêu chí là độ chính xác quan trọng hơn tốc độ (và quả thật nhóm thuật toán thuộc họ này có độ chính xác khá cao) MobileNet cung cấp cho chúng ta một mô hình khá nhỏ gọn, sử dụng SSD, mục tiêu của nhóm này là có thể xử lý được trên các thiết bị
di động và thời gian xử lý là thời gian thực
Dựa vào kết quả thực nghiệm này, chúng ta có thể kết luận mô hình cải tiến từ mô hình Faster R-CNN Inception Resnet v2 là mô hình phù hợp nhất để rút trích nội dung video trong bài toán này Đồng thời, khi so sánh với các nghiên cứu trước đây được trình bày trong Phần I - Giới thiệu thì phương pháp đề xuất trong bài báo đã đạt độ chính xác 96 %, cao hơn 47.88 % so với độ chính xác của nghiên cứu [1], cao hơn so với độ chính xác của nghiên cứu [2]
27 %, cao hơn độ chính xác của nghiên cứu [3] 59 % Điều này khẳng định rằng sử dụng Deep Neural Networks để biểu diễn các thuộc tính nội dung có trong video nhằm phục vụ cho việc lập chỉ mục tìm kiếm thật sự là một hướng nghiên cứu có hiệu quả cao, khả quan cho các hệ thống truy vấn video có dữ liệu lớn
V KẾT LUẬN
Trong nghiên cứu này, chúng tôi đã trình bày phương pháp sử dụng Deep Neural Networks để biểu diễn các thuộc tính nội dung có trong video trên tập các ảnh gồm 38 nhãn Khi thực hiện và huấn luyện bằng Deep Neural Network cụ thể là kiến trúc mạng Faster R-CNN Resnet, Faster R-CNN Inception Resnet v2, Single Shot Detector Mobilenet v2, ta thấy được là phương pháp này đều đạt độ chính xác cao từ 86 % đến 95 % cho các mô hình kiến trúc Đồng thời phương pháp này cũng chứng minh được sự thay đổi của độ chính xác tùy theo bộ tham số sử dụng Các kết
quả thực nghiệm cũng thể hiện tính khả thi của phương pháp khi áp dụng trên các công cụ tìm kiếm, cả về độ chính xác
và thời gian thực hiện Phương pháp có ưu điểm là tận dụng được khả năng xử lý của mạng nơron sâu cho cả thao tác trích xuất đặc trưng và phân loại đối tượng Tuy nhiên, nhược điểm của phương pháp là cần được thực hiện tối ưu
nhằm tìm ra bộ tham số tốt nhất do việc huấn luyện trên mạng nơron sâu là một hoạt động tiêu tốn tài nguyên và thời gian, nghiên cứu này chưa thực hiện tối ưu một cách triệt để các tham số của thuật toán
TÀI LIỆU THAM KHẢO
phát hiện cảnh bạo lực trong video," Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX “Nghiên cứu cơ bản và ứng dụng Công
nghệ thông tin (FAIR'9), 2016
[2] B M, "Content based video retrieval with orthogonal polynomials," Anna University, 2018
[3] S Renukadevi, "Spectral cluster based temporal feature extraction and b tree indexing for video retrieval," Periyar University,
2018
[4] P B F C F D F F C G Giuseppe Amato, "The VISIONE video search system: exploiting off-the-shelf text search engines
for large-scale video retrieval," International Conference on Multimedia Modeling, 2020
[5] S S Pramila Shinde, "A Review of Machine Learning and Deep Learning Applications," ICCUBEA, 2018
[6] K H R G J S Shaoqing Ren, "Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks,"
Advances in Neural Information Processing Systems 28, 2015
[7] A H M Z A Z L.-C C Mark Sandler, "MobileNetV2: Inverted Residuals and Linear Bottlenecks," The IEEE Conference on
Computer Vision and Pattern Recognition (CVPR), 2018
XXIII: Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông, 2020
Trang 9such as Faster R-CNN Inception Resnet v2, SSD Mobile v2, Faster R-CNN Resnet to evaluate the accuracy on the collected data set from the content repository of Vinh Long Radio and Television Station Experimental results show that the method using DNN achieves high accuracy from 86% to 95% This is also the basis for related studies in choosing the right model for extracting content from video to serve the big data-oriented content-based video query