Tìm tập các khối tương tự với khối truy vấnBước 1: Tính tổng trọng số dùng tính điểm của qi qi = niwi ni : Tổng số vector đặc trưng của khối truy vấn có đi qua node i w i : Trọng số của
Trang 1ĐỒ ÁN 3
Khảo sát đặc trưng 3D-SIFT và
mô hình gom nhóm phân cấp
Trang 3Lựa chọn tập dữ liệu
Tập dữ liệu được lựa chọn “Action as Space-Time Shape” - Lena Gorelick, Moshe Blank, Eli Shechtman, Michal Irani and Ronen Basri.
Tập dữ liệu gồm 92 video mô tả về 10 hành động của con người như “đi”, “chạy”, “nhảy”, “nghiêng”, “đưa 1 tay”, “đưa 2 tay”,….
http://www.wisdom.weizmann.ac.il/~vision/SpaceTimeActions.html
07/18/2024
3
Trang 5Phương pháp trích chọn đặc trưng
07/18/2024
5
Trang 6Bước 1: Random Sampling
Lấy mẫu ngẫu nhiên trong các video tại các thời điểm, thời gian, qui mô khác
nhau
6
Trang 7Bước 1 (mở rộng): phát hiện điểm
Trang 8Bước 1 (mở rộng): phát hiện điểm
cực trị
Sử dụng DOG 3D để tìm ra keypoint
: Biến tỷ lệ Gaussian : Ảnh rút trích
: Hàm không gian tỷ lệ của Ảnh I
: Bộ lọc DOG3D
8
Trang 9Bước 1 (mở rộng): phát hiện điểm
Trang 10Bước 1 (mở rộng): định vị interest point.
Lọc các điểm keypoint sau:
Điểm có độ tương phản thấp(không ổn định khi ảnh bị nhiễu),
Các điểm trên biên cạnh
Sử dụng 3D Hessian
10
Trang 11Bước 2
Xác định hướng và độ lớn tại điểm hấp dẫn (interest point)
07/18/2024
11
Trang 12Bước 2: Xác định hướng và biên độ của điểm
interest point
được điểm hấp dẫn bất biến với sự quay ảnh
Gaussian (khung Gaussian) chứa các điểm lân
12
Trang 13Bước 2: Xác định hướng và biên độ của điểm interest
point
: độ lớn vector định hướng
L(x,y,t): Ảnh Gaussian với tỷ lệ nhỏ nhất
: Hướng của vector
Trang 14Bước 2: Xác định hướng và biên độ của điểm
interest point
Lx1,y,t)
=L(x+1,y,t)-L(x-Ly1,t)
=L(x,y+1,t)-L(x,y-Lt1)
Trang 1515
Bước 2: Xác định hướng và biên độ của điểm
interest point
Trang 16Bước 2: Xây dựng Orientation Histogram
Xác định
Tính độ lớn tại mỗi điểm:
Điểm cực đại của Histogram là đại diện cho hướng chính
16
Trang 17Bước 3: Mô tả vector đặc trưng
3DSIFT
Xác định các thành phần của SIFT description
07/18/2024
17
Trang 18Bước 3: Mô tả vector đặc trưng
Trang 19Bước 3: Mô tả vector đặc trưng
3DSIFT
Mỗi block biểu diễn bởi vector đặc trứng 32 (8x4) thành phần
Bit=(bit1, bit2, …, bit8) i=1,…,64;
t=1…4
Vector đặc trưng tại điểm trọng yếu gồm 64(4x4x4) vector block nối tiếp nhau
U=(B 1t , B 2t , … , B 64t )
07/18/2024
19
Trang 21Building the Vocabulary Tree
Mỗi “Visual Word” là một đặc trưng 3D-SIFT
Lượng tử hóa các “Visual Word” và đưa vào cây
Sử dụng thuật toán Hiererachical k-Means
k: số nhánh của cây
L: chiều cao của cây
07/18/2024
21
Trang 22Building the Vocabulary Tree
22
Trang 23Building the Vocabulary Tree
07/18/2024
23
Trang 24Building the Vocabulary Tree
24
Trang 25Building the Vocabulary Tree
Khối_1
07/18/2024
25
Trang 26Building the Vocabulary Tree
Khối_2
26
Trang 27Building the Vocabulary Tree
Khối_3
07/18/2024
27
Trang 28Thuật toán H-k-means: Chia dữ liệu một cách
đệ qui thành các cụm
Nhập vào giá trị của k
Chia dữ liệu thành k cụm; tại k cụm, lặp:
Tính k/cách giữa các vector với tâm của mỗi cụm
Chọn k vector có khoảng cách gần tâm nhất
28
Trang 29k = 3
Building the Vocabulary Tree
07/18/2024
29
Trang 30Building the Vocabulary Tree
30
Trang 31Building the Vocabulary Tree
07/18/2024
31
Trang 32Building the Vocabulary Tree
32
Trang 33Building the Vocabulary Tree
07/18/2024
33
Trang 34Building the Vocabulary Tree
34
Trang 35Building the Vocabulary Tree
07/18/2024
35
Trang 36Building the Vocabulary Tree
36
Trang 37Building the Vocabulary Tree
07/18/2024
37
Trang 38Building the Vocabulary Tree
38
Trang 39Building the Vocabulary Tree
07/18/2024
39
Trang 40Building the Vocabulary Tree
1
1
1 1 1
2
2
2
40
Trang 41Building the Vocabulary Tree
07/18/2024
41
Trang 42 Trọng số w i được gán tại mỗi Node theo công thức:
Trang 44 Mỗi node sẽ được liên đới với 1 “Inverted file”.
Inverted file tại mỗi node lưu trữ 2 thông tin:
Trang 462 So khớp video (video – matching) 46
Trang 47Mô hình truy vấn
Frame sampling
Frame sampling So khớp các So khớp các khốikhối So khớp So khớp videovideo
Tập các video kết quả được xếp hạng
Tập các video kết quả được xếp hạng
Trang 48Lượng tử hóa mỗi vecto đặc trưng thành một visual word
Lượng tử hóa mỗi vecto đặc trưng thành một visual word
Một danh sách các visual word
Một danh sách các visual word
Danh sách gồm F khối gần tương tự với khối truy vấn
Danh sách gồm F khối gần tương tự với khối truy vấn
Trang 491 So khớp khối
1.1 Trích rút đặc
trưng
1.2 Truy vấn, xác định tập các khối tương tự khối truy
vấn
07/18/2024
49
Trang 5050
Trang 53 size: kích thước của tập các vector 3D-SIFT của khối truy vấn.
level là số tầng của cây.
k là số node con của mỗi node cha.
qi là vector 3D-SIFT thứ i của khối truy vấn.
di là vector 3D-SIFT thứ i của cây từ vựng
07/18/2024
53
Trang 541.2 Truy vấn
Giải thuật tìm tập các visual word trên cây cho mỗi vecto SIFT.
For i = 1 to size// xét mỗi mức của cây
VSs =VSs U findVS(qi)//tìm tập visual word gần với qi đang xét
54
Trang 55Giải thuật tìm visual word gần nhất với vecto truy vấn:
For i = 1 to level // xét mỗi mức của cây
for j =1 to k // xét k node con ở mỗi mức
for k = 0 to 2048 // số chiều của vecto 3D-SIFT
Trang 56B Tìm tập các khối tương tự với khối truy vấn
Bước 1: Tính tổng trọng số (dùng tính điểm) của qi
qi = niwi
ni : Tổng số vector đặc trưng của khối truy vấn có đi qua node i
w i : Trọng số của node i
Để tính ni: Thống kê số lần xuất hiện của các visual word của
cùng một khối truy vấn tại node i.
4
3
56
1.2 Truy vấn
Trang 57Bước 2: Xác định độ liên quan giữa vector truy vấn và vector CSDL
Trang 58Trong bài toán này, chuẩn được chọn sử dụng là chuẩn 2
58
1.2 Truy vấn
Trang 5959
1.2 Truy vấn
Trang 60Đưa vào một video, với mỗi khối, thu được kết quả là một tập gồm A các khối tương tự với khối truy vấn, đã được
xếp hạng dựa trên điểm(score) đã tính toán trước đó
Sau khi so khớp các khối của video truy vấn ta được
Tập Mf chứa một tập các khối
q, r: là video truy vấn và cideo trong CSDL
t q , t r : nhãn thời gian (timestamps) của khối truy vấn và khối trong CSDL
:điểm của khối được so khớp
a: xác định vị trí khối trong tổng số các khối được chọn a=1, A.
𝑠 (𝑓 𝑎 )
60
1.2 Truy vấn
Trang 622.1 So khớp tuần tự dựa trên
histogram
khối của video đó đã được so khớp, ký hiệu là
r: tên của video đang xét có trong CSDL
1.52
2.5 3 3.5 4 4.5
4
3
62
Trang 632.1 So khớp tuần tự dựa trên
histogram
Bước 2: Xét histogram của tập các Hr, kết quả trả về là
một tập chứa các video có hr lớn hơn ngưỡng và sắp thứ
Trang 64Tối ưu hóa so khớp dựa trên histogram sử dụng score
Tính tổng điểm của mỗi video, ký hiệu là
Sử dụng để thay thế trong công thức (1)
64
Trang 652.2 So khớp dựa trên đường chéo (diagonal)
phương pháp heuristic trả về kết quả nhanh hơn
Xét tập Mf đã có từ phần trước của mỗi khối trong CSDL
Xây dựng ma trận M cho mỗi video truy vấn
Trang 662.2 So khớp dựa trên đường chéo (diagonal)
Bước 1: Xác định tất cả các đường
chéo trong ma trận
Đường chéo là đường chứa liên tiếp
các số khác 0 và biểu diễn các khối
được so khớp của 2 video
66
Trang 672.2 So khớp dựa trên đường chéo (diagonal)
chiều dài nhỏ hơn ngưỡng cho
Trang 68Bước 3: Tính điểm cho mỗi đường
chéo còn lại
Nếu giá trị này lớn hơn ngưỡng cho
trước thì giữ lại và kết quả là thu
được một tập N đường chéo có
Trang 69Bước 4: Đối với tập N các
đường chéo được giữ lại,
Sau đó tính tổng điểm của
đường chéo mới này
07/18/2024
69
2.2 So khớp dựa trên đường chéo (diagonal)
Trang 702.1 So khớp tuần tự dựa trên
histogram
Tương tự histogram, với mỗi video truy vấn, kết quả trả
về là một tập chứa các video có lớn hơn ngưỡng và sắp thứ tự giảm dần
Trang 72 Dữ liệu thực nghiệm TRECVID 2011, gồm 12000 video, với mỗi video chúng ta thực hiện:
frames.
và index những frames tương tự nhau dựa trên các điểm
đã được xếp hạng bằng phương pháp inverted files.
Trang 73 Hiệu quả của hệ thống truy tìm hành vi được đánh giá bằng các độ đo thông dụng trong lĩnh vực truy vấn thông tin: Precision(độ chính xác), Recall(độ bao phủ), Average Precision(AP - độ chính xác trung bình), Mean Average Precision (MAP - độ chính xác trung bình toàn cục) …
Cho trước truy vấn là video Gọi N ret là tổng video được trả về, N rel là số lượng video liên quan trong những video trả về, N hit là tổng số video liên quan tính trên toàn bộ cơ sở dữ liệu, độ chính xác và độ bao phủ được tính theo công thức dưới đây:
5 Đánh giá kết quả.
5.2 Đánh giá kết quả(Precision, Recall, MAP)
Trang 74 Độ chính xác trung bình(AP): chú trọng đến việc các video liên quan nhiều được trả về sớm, tức là video càng liên quan đến truy vấn thì càng trả về thứ tự đầu trong danh sách xếp hạng.
Trang 75 Mean Average Precision (MAP): độ chính xác trung bình toàn cục, đánh giá hiệu quả trên nhiều truy vấn khác nhau MAP được tính bằng cách lấy trung bình các giá trị độ chính xác trung bình Khi kết
quả trả về ở vị trí cao thì MAP sẽ cao
Ví dụ: để đánh giá hiệu quả của một hệ thống truy tìm video, ta thực hiện N truy vấn và thu được tập
Trang 76 Hệ thống truy vấn video:
5 Đánh giá kết quả.
5.3 Kết quả thực nghiệm và thảo luận.
Trang 77Phương pháp trích chọn đặc trưng:
Điểm nổi bật dựa trên biểu diễn trích chọn cận cảnh: chúng ta
so sánh các điểm nổi bật dựa trên trích chọn cận cảnh, dựa trên việc đưa ra mô hình SIFT Với việc thực hiên lặp đi lặp lại bước này, chúng ta so sánh các cảnh nổi bật được trính chọn theo cách thức sau:
1 Phương pháp “global compensation”, cách thức thông qua global motion compensation.
2 Phương thức xem xét không gian nổi bật của cận cảnh trích chọn, nó được coi như là”xem xét không gian cần quan tâm”
3 Phương thức xem xét thời gian nổi bật cho cận cảnh trích chọn, cái đó được coi như là “xem xét thời gian nổi bật”
4 Phương thức xem xét cả không gian và thời gian nổi bật cho hành vi trích chọn bối cảnh, coi như là “không gian và thời gian nổi bật”(3D-SIFT)
5 Đánh giá kết quả.
5.3 Kết quả thực nghiệm và thảo luận.
Trang 78Hình 1 so sánh MAP cho hiệu quả chi phí mô hình SIFT: (1) xem xét không gian nổi bật;(2) xem xét thời gian nổi bật; (3) không gian và thời gian nổi bật (3D-SIFT); (4)
Trang 79Hình 2 So sách độ bao phủ cho các phương pháp sử dụng
Trang 80Phương pháp truy vấn video:
Việc truy vấn theo ba phương pháp
1 Histogram-based Sequence Matching
2 Optimized Histogram-based Sequence Matching
Using Scores.
3 Diagonal-based Sequence Matching
cho kết quả như sau
5 Đánh giá kết quả.
5.3 Kết quả thực nghiệm và thảo luận.
Trang 815 Đánh giá kết quả.
5.3 Kết quả thực nghiệm và thảo luận.
Trang 82Bảng 1 Tính toán chi phí phức tạp của xây dựng offline,
khác với tìm kiếm online
5 Đánh giá kết quả.
5.4 Hiệu quả tính toán.
Trang 83Tài liệu tham khảo
07/18/2024
83
1 An Efficient Video Copy Detection Method Combining
Vocabulary Tree and Inverted File
Xuan Li, Bing Li, Weiming Hu,Jinfeng Yang - 2011
2 Actor-independent action search using spatiotemporal
vocabulary with appearance hashing
Rongrong Ji, Hongxun Yao, Xiaoshuai Sun
3 A 3-Dimensional SIFT Descriptor and its Application to Action
Recognition – 2007
Paul Scovanne, Saad Ali, Mubarak Shah
4 Scalable recognition with a vocabulary tree.
D Nister and H Stewenius