1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phác thảo kịch bản cho nội dung

17 1,3K 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 17
Dung lượng 875,87 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Đây là mục giới thiệu về hệ thống Content Based Video Retrieval(CBVR) , khả năng trích các video với các truy vấn được phác thảo, phác thảo truy vấn của chúng tôi mô tả cả nội dung và chuyển động trong clip. Chúng tôi đề cập đầu vào ở mức trung bình giống như một phác thảo kịch bản.Khi mọi người gợi nhớ lại sự kiện, chẳng hạn người trong video. Họ vẽ phác thảo sự kiện theo trí nhớ của họ. Chúng tôi cho rằng các bản phác thảo là tốt cho tập đầu vào của hệ thống CBVR. Sự khác biệt về ngữ nghĩa là khá mơ hồ vì thế đặt ra một thách thức về mặt tính toán.

Trang 1

Phác thảo kịch bản cho nội dung

dựa trên truy vấn video

Tác giả:

J P Collomosse, G McNeill and Y Qian

Centre for Vision, Speech and Signal Processing,

University of Surrey

Guildford, UK

{J.Collomosse, Y.Qiang}@ surrey.ac.uk

Tìm hiểu và dịch :

Nguyễn Trường Sơn 20112078

Trang 2

Mục lục

Trang 3

Kế thừa

Chúng tôi trình bày nội dung cuốn “Content Based Video Retrieval(CBVR)” Đóng góp của chúng tôi là xây dựng mô hình xác suất của các video Dẫn đến một thuật toán phù hợp với mô tả phác thảo các đối tượng trọng video Chúng tôi chứng minh rằng mô hình của mình phù hợp với các clip trong điều kiện máy quay tĩnh và động, chuyển động của vật là thẳng va dao động Chúng tôi đánh giá trên hai bộ video thực và một tập video mô tả chuyển động hình dáng mà màu sắc

Các thuật ngữ :

Sketch based retrieval SBR : Phác thảo dựa trên phục hồi

Querying by visual example QVE : Truy vấn bằng ví dụ trực quan

Content Based Video Retrieval(CBVR) : Hệ thống trích xuất video dựa trên nội dung

1 Giới thiệu

Đây là mục giới thiệu về hệ thống Content Based Video Retrieval(CBVR) , khả năng trích các video với các truy vấn được phác thảo, phác thảo truy vấn của chúng tôi mô tả cả nội dung và chuyển động trong clip Chúng tôi đề cập đầu vào ở mức trung bình giống như một phác thảo kịch bản

Khi mọi người gợi nhớ lại sự kiện, chẳng hạn người trong video Họ vẽ phác thảo sự kiện theo trí nhớ của họ Chúng tôi cho rằng các bản phác thảo là tốt cho tập đầu vào của hệ thống CBVR Sự khác biệt về ngữ nghĩa là khá mơ hồ vì thế đặt ra một thách thức về mặt tính toán

Đóng góp của chúng tôi là một thuật toán phù hợp với mô tả đối tượng để phác thảo video Kết hợp giữa không gian và chuyển động yếu để sắp xếp phù hợp các video Chúng tôi đề xuất một

mô hình xác suất , mô hình tự hồi quy, dựa trên hệ thống Linear Dynamical Systems (LDSs), mã hóa hình đạng màu sắc thông qua thông số của một đối tượng phác thảo Chúng tôi đánh giá thuật toán của chúng tôi dựa trên thực tế và tổng hợp video trong chương 5

Trang 4

1.1 Các công việc lên quan tới hệ thống

Gắn các từ khóa để dễ dàng thực hiện và tránh mâu thuẫn trong quá trình xử lý Truy vấn bằng ví

dụ trực quan QVE cung cấp một lựa chọn thay thế, những thành công gần đây với “bag of world” nhanh chóng xác định được đối tượng trong một clip dài từ truy vấn ảnh

Phần lớn sketch based retrieval (SBR) thường tập chung vào việc thu hồi hình ảnh Các câu hỏi thường bao gồm các màu sắc và kết cấu được xác định trước, các thông tin được tăng cường bằng cách mô tả hình dạng và màu sắc đã được giới thiệu trước Nhưng kĩ thuật này đã được mở rộng cho video thông qua key-frame, tuy nhiên nó không có thành phần tạm thời để phục vụ truy vấn và không có tính hiện thực cao

Mặc dù hệ thống tìm video dựa trên chuyển động đã được đề suất, tuy nhiên chỉ một số ít hệ thống thể hiện rõ truy vấn dựa trên phác thảo chuyển động Tuy nhiên phương pháp tiếp cận mô hình này không phải là máy quay chuyển động, cũng không phải là cấu trúc không gian trong một cảnh Ngược lại Chang et al.’s VideoQ thông qua một cách tiếp cận chặt chẽ, phân đoạn video frame thành các vùng và phù hợp trên cả không gian thuộc tính và chuyển động ở cấp khu vực Tuy nhiên, hệ thống của chúng tôi khác với hệ thống videoQ, và hệ thống SBR khác, trong một số cách thức khác

Tồn tại hệ thống SBR yêu cầu phác thảo để chỉ ra chính xác các đối tượng VideoQ cũng đòi hỏi người dùng xác định chính xác tốc độ của đối tượng Tuy nhiên nghiên cứu mới đây cho thấy rằng bản phác thảo CBVR thường không chính xác với sự xuất hiện của cả hình dáng và chuyển động của đối tượng Không có dấu hiệu của tốc độ và chỉ một vài đối tượng được phác thảo Hơn nữa các đối tượng cùng xuất hiện trong phác thảo thường xuất hiện tại các thời điểm khác nhau trong clip Chúng tôi đã đề xuất một mô hình của không gian và chuyển động mà cả hai có thể tương thích với sự mô hồ trong phác thảo Ngoài ra chung tôi cho phép nhiều khu vực sẽ được tổng hợp và dãn nhãn cho nhiều đối tượng phác thảo đơn Chúng tôi cho rằng video hoàn toàn có thể tách ra thành từng khu vực có ý nghĩa như trong videoQ Thật vậy chúng tôi muốn phân đoạn video dựa trên khu vực sau đó tổng hợp theo mô hình xác suất của chúng tôi

2 Tổng quan về phân tích cú pháp phác thảo.

Trong phác thảo chúng tôi yêu cầu người dùng cho biết nét nền trước, hoặc một chuyển động trong bản vẽ của họ

Trang 5

Cho một truy vấn chúng tôi sử dụng thuật toán của chúng tôi để phân tích và nhóm các phác thảo thành đối tượng Sau đó khai thác để có được đối tượng được miêu tả trong bản phác thảo Những đối tượng đó là đầu vào cho thuật toán CBVR của chúng tôi

2.1 Mô tả đối tượng phác thảo

Thuật toán phân tích cú pháp phác thảo của chúng tôi dựa trên một nghiên cứu trước đó Chúng tôi thấy rằng người dùng phác thảo dựa trên phép xấp sỉ hình dạng và đồng nhất Các chữ tượng hình để mô tả đồ vật và chuyển động Các đối tượng được mô tả trên một nền và chuyển động tương đối trên nền tĩnh không phụ thuộc vào chuyển động của máy ảnh Điều quan trọng là phác thảo không thể hiện thông số tốc độ hay thông số chuyển động Phác thảo mô tả đối tượng trong không gian và chỉ vài đối tượng nổi bật trên một truy vấn

Hai bước trong quá trình phân tích phác thảo:

Nhận dạng các đối tượng trong phác thảo

Chia nhóm các đối tượng phổ biến như con người, mũi tên, và nhóm các đối tượng còn lại

Chúng tôi trích một số tính năng nhận dạng đối tượng

Trang 6

1 GMM phân phối màu sắc trong các đối tượng phác thảo

2 Mô tả đối tượng chung về độ lệch, hướng, khu vực

3 Tỉ lệ nền trong đối tượng

4 Xác suất để đối tượng đó là người

5 Hướng của đối tượng

Dấu hiệu chuyển động được liên kết với đối tượng phù hợp Bằng cách này mỗi đối tượng phác thảo mang nhiều ý nghĩa Sau đó sẽ tìm những video phù hợp

3 Tiền xử lý video

Trước khi video được đưa vào cơ sở dữ liệu phải qua bước tiền xử lý Cắt video thành các đoạn với công cụ phát hiện chuyển cảnh Để bù đắp trong việc chuyển động của camera người dùng có

xu hướng phác thảo theo chuyển động của camera trong phác thảo của họ Chúng tôi cũng làm như vậy để thực hiện so sánh

Chúng tôi phân tích từng frame hình ảnh thành các khu vực theo giả thiết đồng nhất về màu sắc trong khu vực Máy dò cơ thể cũng được sử dụng, vì nhiều khả năng một khu vực có thể là một phần trên cơ thể Phân vùng của chúng tôi tốt hơn phân vùng ở cấp đối tượng thô của phác thảo truy vấn, Nhiều vùng sau đó tổng hợp lại để được đối tượng duy nhất Cuối cùng chúng tôi tính

Trang 7

toán xác suất để vùng có thể là nền trong ảnh Đối với mỗi khung hình chúng tôi áp dụng nó với mỗi khung hình trước đó để xây dựng một danh sách cách khung hình liền kề So sánh khu hình hiện tại với các khung hình trước để tạo một bản đồ khung nền Tính điểm cho từng vùng với các đối tượng được phác thảo

4 So sánh và trích rút video.

Phần này chúng tôi sẽ giải thích quá trình clip được trích rút phù hợp với phác thảo

Chúng tôi kết hợp phác thảo vào trong clip bằng cách mở rộng chuyện động của đối tượng thành quy đạo trong khung hình Sau đó sử dụng công cụ tìm kiếm đối tượng dựa trên chuyển động với quy đạo đó Gọi là trùng khớp nếu đối tượng trong khung hình rất gần với phác thảo Một đối tượng rỗng là đối tượng chưa được thể hiện trong khu vực, điều này cho phép chúng ta chỉ chon những khu vực xấp xỉ phác thảo, tức là phác thảo không cần phải mô tả tất các các vùng trong khung

Chúng ta so sánh dựa trên đối tượng chuyện động với quỹ đạo, vì thể nên một số đối tượng xuất hiện trong clip có thể không xuất hiện trong phác thảo Do tính chất gần đúng và đầy đủ của phác thảo và phân vùng mong muốn không quan sát được Đó là điều hiển nhiên phù hợp với thuật toán và xác suất Bây giờ chúng ta chính thức sử dụng phương pháp này để sinh các video

4.1 Mô hình xác suất.

Đầu tiên chúng tôi giới thiệu về các kí hiệu được sử dụng trong mô hình của chúng tôi Thời gian thực hiện t, một clip bao gồm T khung, đối tượng chỉ mục u, U tập các đối tượng được xác định trong phác thảo Mỗi đối tượng u được liên kết với Linear Dynamical System (LDS) nơi mà chúng chuyển động với quy đạo tương ứng Một đối tượng được đại diện bởi một LDS duy nhất Tất cả các trạng thái LDSs tại thời điểm t được lưu trong vector Zt = (Zt1, Zt2 ZtU) Vì vậy nếu u=1 tại thời điểm t=9 có 1.74 đơn vị độ dài của quy đạo thì z9 =1.74

Khung t được kí hiệu Xt Với mỗi khung hình chúng tôi mô tả quan sát được bằng vector

ct=(ct,1;ct,2; ;ct,Nt ) Và ct,n thuộc một trong U+1 đối tượng từ 1,2 U, null Ví dụ tại thời điểm t=6 tại khu vực n=4 có đối tượng u=2 thì nghĩa là c6,4 =2

Giải thích: N là số khu vực trong một frame

Trang 8

Chúng thường sử dụng các kí hiệu X C Z để thay thế các khu vực không khung hình, các trạng thái , nhãn tương ứng

Ở đây : Xt là frame tại thời điểm t

Zt là tập các trạng thái LDSs của tất cả đối tượng tại thời điểm t (U đối tượng )

Ct tập các đối tượng được quan sát trong frame Xt.

Ví dụ

Theo sự ví dụ hình 3 chúng ta thấy được sự phân bố chung được thể hiện theo:

Giải thích công thức:

Trang 9

Phân phối trên toàn bộ video p(X,Z,C) bằng tích của : tổng phân phối trên c, tổng phân phối z trên tất cả các đối tượng nhân với tổng phân phối trên zt với điều kiện zt-1 trên toàn bộ video, phân phối trên X1 điều kiên z1, c1 , phôi phối trên X2 điều kiện c1, X1, z2, c2, tổng phân phối của tất cả các frame Xt trên toàn bộ khung hình với điều kiện ct-2, Xt-2, ct-1, Xt-1, zt, ct

Với ct=(ct,1;ct,2; ;ct,Nt ), các nhãn được giả định là độc lập với nhau

Chúng tôi đã sử dụng một xác xuất phân bố đều p(ct;n = u) = 1/(U + 1)

4.1.1 Phân phối phản xạ

Các đối tượng trong phác thảo cũng xuất hiện ở các bước thời gian trước đó điều đó có nghĩa là

có một thành phần hồi quy Sự xuất hiện của một đối tượng có thể làm thay đổi một clip, do đó

nó có thể không chính xác ngay cả bản phác thảo vẽ chính xác cho toàn bộ thời gian clip

Cấu trúc tự hồi quy của mô hình ưu tiên sự kết hợp các biến tạp thời trong việc ghi nhãn đối tượng do đó cung cấp một giải pháp mạnh mẽ cho vấn đề này Chúng tôi kết hợp chúng thông qua một lát cắt xiên (frame to frame) qA và lát cắt bên trong (sketch-to frame) qW

Các biểu thức qw và qa kết hợp so sánh các đối tượng đơn và phụ thuộc vào thời gian trước đó Nhớ lại chương 2 chúng ta mô tả đối tượng bằng một tập thuộc tính, chúng tôi cũng coi trọng trọng tâm của đối tượng bằng việc xem xét LDS của nó Để so sánh một đối tượng phác thảo với video Chúng tôi nhóm tất cả các khu vực giao nhau và tính toán dựa trên khu vực được tổng hợp Những tính năng được tính toán theo : khu vực, trọng tâm, mô tả hình dáng dựa trên mặt nạ sau đó đánh giá điểm số trung bình cho khu vực của đối tượng Số điểm được định nghĩa cho người là tối đa

Chúng tôi đề cập đến vecto đặc trưng cho đối tượng u trong khung hình t nhận các giá trị của nhãn ct là Tương tự như vậy là vector đặc trưng cho các đối tượng phác thảo/ mô hình đối tượng được cung cấp bởi trạng thái Lưu ý rằng trọng tâm của thay đổi theo thời gian

Khi đó qW và qA đượng tính toán theo công thức sau:

Trang 10

Trong đó :

Au là khu vực của đối tượng u, N là phân phối Gaussian, ∑ là ma trận phương hiệp của đối tượng Nói cách khác chúng ta so sánh đối tượng phác thảo và đối tượng video bằng cánh sử dụng phương pháp Gaus p là trọng số so sánh

Phân bố màu sắc của mỗi đối tượng được mô tả bới một GMM, vì thế chúng ta không thể sử dụng khoảng cách euclide so sánh khi đánh giá Gaussian Chúng tôi sử dụng một phương pháp

so sánh của Kullback-Leibler dựa trên các phép biến đổi nhanh chóng, ở đây GMMs được mô tả bằng tần suất màu sách trung bình của mỗi thành phần

Cho hai phân phối màu sách GMMs G1 và G2 với hàm mật độ g1(x) và g2(x)

Chúng tôi xác định khoảng cách tương đối giữa chúng theo công thức :

Chúng tôi sử dụng các hệ số để làm cân bằng tỉ trọng giữa chúng

4.1.2 Phân phối chuyển đổi.

Đối với một đối tượng u, phân phối ban đầu p(z1 ) và phân phối chuyển đổi p(ztu| zt-1u) mô tả về cách mà đối tượng chuyển động Các tín hiệu chuyển động thường chỉ chỉ hướng chuyển động vì thế chúng tôi buộc phải giả thiết về tốc độ và phạm vi chuyển động của một đối tượng Sự phân

bố chuyển đổi được thực hiện bởi:

Trang 11

Trong đó vu là vector hướng chuyển động Mặc dù điều này làm cho mô hình phụ thuộc vào các clip Lưu ý rằng phân phối chuyển đổi chỉ liên quan tới chuyển động của đối tượng theo mô hình quỹ đạo

4.2 Suy luận giá trị của các biến ẩn.

Khi đã xác định rõ mô hình Điều chúng tôi quan tâm là tính toán các giá trị

p(clip|sketch) = p(X|modelparameters) Chúng tôi cũng quan tâm tới các giá trị ẩn của trạng thái

ztvà nhãn ct điều đó cho phép chúng tôi đánh giá video với bản phác thảo đã cho

Trang 12

Giả định được cho với giá trị ct Mô hình có U+1 đối tượng với các trạng thái LDSs tương ứng, Với biểu thức qa không phụ thuộc vào zt, vì thế các thành phần hồi quy có thể bỏ qua zt Ở đây chúng tôi sử dụng tất cả các khung T cho phép chúng tôi sử dụng phương trình backwardKalman khi cập nhập trạng thái ẩn zt ← argmaxztp(zt|X,C) hay tìm zt để cực đại hóa p(zt|X,C)

Với giá trị ẩn trạng thái Z và tất cả các giá trị ẩn nhãn C(kí hiệu là C\) chúng ta cập nhật theo :

← argmax p(|X,C, C\)

Giải thích: Chúng ta cập nhật các giá trị theo các giá trị ẩn Z và các giá trị trước đó theo một vòng hồi quy.Mỗi một vòng hồi quy đòi hỏi phải có (u+1)r đánh giá , với r là biến số thúc đẩy sự cân bằng giữa tốc độ và sự chính xác, trong thử nghiệm chúng tôi tìm được r =8 là phù hợp Các giá trị p(X; Z; C) thường nhỏ là cần tới 10-20 vòng lặp ICM để giá trị hội tụ về cực đại

5 Đánh giá và thảo luận

Chúng tôi đánh giá hệ thống CBVR của chúng tôi sử dụng ba bộ dữ liệu

(i) Đoạn video tổng hợp chứa các trường hợp điều khiển trong phòng thí nghiệm

(ii) Một tập hợp các nhóm video nhỏ của bộ dữ liệu mở KTH

(iii) Một tập hợp dữ liệu video thực được tổng hợp từ các bộ phim truyền hình và các cảnh

quay thể thao (TSF)

Chúng tôi đã chọn các TSF của chúng tôi để thiết lập giống với các VideoQ[2] của bộ

dữ liệu thử nghiệm, không được công bố

5.1 Tổng hợp (Lab-based) đánh giá video

Các tập dữ liệu chứa 72 clips về các cảnh quay 2D di chuyển trong mặt phẳng (Hình 6) Clip bao gồm tất cả các sự kết hợp của 3 hình, 4 màu và 3 hướng chuyển động, có và không có sự lộn xộn nền Hình 6a chứa một bản phác thảo truy vấn mẫu miêu tả một hình di chuyển trên một nền, 3 clip đầu sẽ được lấy, và độ chính xác của một clip sẽ được xếp hạng Một clip được tích lũy có

độ chính xác là 0,25 cho mỗi biến phù hợp; do đó điểm số được phân phối:

Average Precision (AP) là (độ chính xác tích lũy của các clip/độ chính xác tích lũy tối đa đạt được) nơi Trung bình AP trên dải cho ra một Mean Average Precision (MAP) of 0.91

Thuật toán của chúng tôi giải quyết các phác thảo không rõ ràng bằng cách tìm kiếm bằng chứng cho các đối tượng chỉ phác thảo; không LDS được tạo ra cho các đối tượng không được phác thảo (Các đối tượng NULL) and do đó, họ đã bỏ qua

Trang 13

Vì vậy, các truy vấn của hình 6b đều hỗ, chúng tôi đã sửa đổi chính xác các tỉ số của chúng tôi

để xem xét màu sắc, hình và chỉ các chuyển động; sự phân bố tỉ số là: Các clip phù hợp nhất (Điểm 1) được xếp hạng cac nhất MAP là 0.85

Hình 7 khu vực Precision-Recall trung bình trên 30 câu truy vấn(Miêu tả 15 hình di chuyển với nền, và cũng như 15 không có) Ở đây, chúng tôi sử dụng SYN nhị phân so sánh với KTH và TSF; một sự kết hợp chính xác với độ chính xác để làm cho tất cả các thuộc tính có liên quan (chuyển động, hình, ect ) là cần thiết cho độ chính xác của 1 Chúng tôi nhận được một MAP tổng thể (0.88) cho SYN, một đại diện lý tưởng để so sánh video thực đối lập

5.2 Đánh giá Real Video

Chúng tôi đánh giá hệ thống của chúng tôi bằng việc sử dụng 200 đoạn clip dữ liệu hoạt động độc lập của KTP [17] Chúng tôi đã chọn 25 clip của các hoạt động đang chạy và đang đi bộ tới nhiều hướng khác nhau Thiết lập các truy vấn bao gồm các bản phác thảo với các tín hiệu chuyển động

Hình 7 khu Precision-Recall được tính trung bình trên tất cả các truy vấn(MAP=0.74) Hiệu năng

so sánh với SYN cho thấy khả năng mở rộng tốt, và chính xác các tập hợp của phân đoạn trên

Ngày đăng: 07/04/2016, 22:53

HÌNH ẢNH LIÊN QUAN

Hình 7 khu vực Precision-Recall trung bình trên 30 câu truy vấn(Miêu tả 15 hình di chuyển với  nền, và cũng như 15 không có) - Phác thảo kịch bản cho nội dung
Hình 7 khu vực Precision-Recall trung bình trên 30 câu truy vấn(Miêu tả 15 hình di chuyển với nền, và cũng như 15 không có) (Trang 13)
Hình 8: Bộ dữ liệu TSF; ví dụ truy vấn trích và lấy ra các clip tốt nhất, đã được thảo luận trong  SEC - Phác thảo kịch bản cho nội dung
Hình 8 Bộ dữ liệu TSF; ví dụ truy vấn trích và lấy ra các clip tốt nhất, đã được thảo luận trong SEC (Trang 14)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w