Bài báo này đề xuất phương pháp sử dụng kết hợp đặc trưng âm thanh, đặc trưng thị giác và thông tin văn bản để nâng cao chất lượng gom cụm kết quả tìm kiếm video. Mặc dù hướng tiếp cận kết hợp đa đặc trưng đã được giới thiệu trong các lớp bài toán như tìm kiếm video (video retrieval), phân lớp video (video classification) nhưng đóng góp chính của bài báo này là phân tích ưu điểm của từng loại đặc trưng cụ thể làm cơ sở cho việc kết hợp đa đặc trưng và là công trình đầu tiên sử dụng kết hợp đặc trưng âm thanh, đặc trưng thị giác và thông tin văn bản đi kèm video để giải quyết bài toán gom cụm kết quả tìm kiếm video. Mời các bạn cùng tham khảo!
Trang 1Nâng cao chất lượng gom cụm kết quả tìm kiếm video sử dụng kết hợp đặc trưng âm thanh, đặc trưng thị giác và thông tin văn bản
Nguyễn Quang Phúc, Nguyễn Thị Anh Thư, Ngô Đức Thành, Lê Đình Duy, Nguyễn Hoàng Tú Anh
Phòng Thí nghiệm Truyền thông Đa phương tiện Đại học Công nghệ Thông tin, ĐHQG-HCM Thành phố Hồ Chí Minh, Việt Nam Email: {phucnq,thunta,thanhnd,ldduy,anhnht}@uit.edu.vn
Tóm tắt—Bài báo này đề xuất phương pháp sử dụng
kết hợp đặc trưng âm thanh, đặc trưng thị giác và thông
tin văn bản để nâng cao chất lượng gom cụm kết quả tìm
kiếm video Mặc dù hướng tiếp cận kết hợp đa đặc trưng
đã được giới thiệu trong các lớp bài toán như tìm kiếm
video (video retrieval), phân lớp video (video classification)
nhưng đóng góp chính của bài báo này là phân tích ưu
điểm của từng loại đặc trưng cụ thể làm cơ sở cho việc kết
hợp đa đặc trưng và là công trình đầu tiên sử dụng kết
hợp đặc trưng âm thanh, đặc trưng thị giác và thông tin
văn bản đi kèm video để giải quyết bài toán gom cụm kết
quả tìm kiếm video Các thí nghiệm được tiến hành trên
kết quả tìm kiếm video của YouTube với phương pháp kết
hợp đề xuất cho kết quả tốt hơn so với việc chỉ áp dụng
từng loại đặc trưng riêng lẻ trong quá trình gom cụm
video.
Từ khóa—gom cụm video, đặc trưng âm thanh, đặc
trưng thị giác, độ tương tự kết hợp.
I GIỚI THIỆU Ngày nay, với sự phát triển mạnh mẽ của công nghệ
truyền thông và kỹ thuật số cùng với sự bùng nổ của
mạng Internet, số lượng video được chia sẻ trên Web
ngày càng nhiều Để tìm kiếm video trên Web, người
dùng phải cung cấp từ khóa tìm kiếm trên các công cụ
tìm kiếm video (ví dụ như YouTube, Google Video) Kết
quả tìm kiếm được trình bày như một danh sách phẳng
với các video được xếp theo độ liên quan với từ khóa
truy vấn Để tìm được video mong muốn, người dùng
phải “tốn công” duyệt qua toàn bộ danh sách Hơn nữa,
các kết quả tìm kiếm là rất đa đạng và thường bị phân
mảnh hoặc bị chi phối bởi các video không phù hợp
(đặc biệt trong những trường hợp như người dùng gửi
truy vấn quá ngắn hoặc truy vấn mơ hồ do tính đa nghĩa
của từ khóa truy vấn)
Giả định người dùng đang quan tâm tới một vấn đề
cụ thể nhưng không đưa ra được từ khóa phù hợp Do
đó, kết quả tìm kiếm video trả về có thể thuộc nhiều thể
loại, chủ đề khác nhau và gây khó khăn trong việc tìm kiếm Trường hợp xấu hơn xảy ra khi kết quả của các chủ đề khác áp đảo chủ đề mà người dùng quan tâm Trong kịch bản như vậy, việc gom cụm kết quả tìm kiếm video là cần thiết nhằm giúp người dùng dễ dàng xác định video cần tìm Nói cách khác, thay vì phải duyệt qua một danh sách phẳng kết quả tìm kiếm gồm nhiều video thuộc nhiều chủ đề trộn lẫn với nhau thì người dùng được cung cấp một cái nhìn trực quan hơn thông qua kết quả gom cụm video theo từng chủ đề cụ thể Qua đó, người dùng có thể dễ dàng xác định được video
mà họ quan tâm một cách nhanh chóng và bỏ qua các cụm video không thích hợp
Tóm lại, với một danh sách video trả về từ kết quả tìm kiếm của một truy vấn bất kỳ trên các kênh video trực tuyến, bài toán gom cụm kết quả tìm kiếm video là xác định các video có nội dung tương tự nhau và gom chúng lại trong cùng một cụm Dữ liệu đầu vào và đầu
ra của bài toán được minh họa trực quan ở Hình 1 Đầu vào là danh sách video trả về từ kết quả tìm kiếm video trên Web, đầu ra là các cụm video
Gom cụm kết quả tìm kiếm trên Web được nghiên cứu rộng rãi trước đây Các công trình chủ yếu tập trung vào
dữ liệu văn bản (phổ biến là gom cụm trang Web) [6], [8], [9] và dữ liệu hình ảnh [3], [5], [11] Gần đây, có một số công trình nghiên cứu gom cụm kết quả tìm kiếm video [1], [7], [12] So với dữ liệu dạng văn bản hay hình ảnh thì dữ liệu video có cấu trúc phức tạp hơn Nội dung của video chứa đựng đồng thời các đặc trưng về
âm thanh (audio), thị giác (visual) hay văn bản (textual) Điều này đặt ra nhiều thách thức trong việc biểu diễn
và so khớp video Trong [12], tác giả biểu diễn video dựa trên đặc trưng thị giác Cụ thể, mỗi frame được biểu diễn thành một véc tơ đặc trưng trong không gian màu HSV (Hue Saturation Value) Sau đó, video được biểu diễn bởi một véc tơ đặc trưng được tính bằng cách lấy
Trang 2Hình 1 Minh họa trực quan dữ liệu đầu vào và đầu ra cho bài toán
gom cụm kết quả tìm kiếm video.
trung bình tất cả các véc tơ biểu diễn cho các frame của
video Độ tương đồng giữa các video được quy về việc
tính khoảng cách giữa các véc tơ biểu diễn chúng Với
hướng tiếp cận này thì tính ngữ nghĩa trong thông tin
văn bản đi kèm video (ví dụ như tiêu đề (title), mô tả
(description), các thẻ từ khóa (tags)) không được xem
xét Trong [1], [7], các tác giả đã khai thác các thông
tin được trích xuất từ đặc trưng thị giác và thông tin văn
bản đi kèm video nhằm cải thiện chất lượng gom cụm
video Tuy nhiên, các phương pháp rút trích đặc trưng
biểu diễn video được sử dụng vẫn còn khá đơn giản và
hiệu quả của từng loại đặc trưng trong quá trình gom
cụm video chưa được phân tích rõ ràng
Trong bài báo này, chúng tôi tập trung vào việc phân
tích ưu điểm của từng loại đặc trưng cụ thể làm cơ sở
cho việc kết hợp đa đặc trưng Từ đó, đề xuất phương
pháp kết hợp đặc trưng âm thanh, đặc trưng thị giác và
thông tin văn bản đi kèm video nhằm nâng cao chất
lượng gom cụm video
Các mục tiếp theo của bài báo được tổ chức như sau:
mục II giới thiệu phương pháp kết hợp đặc trưng đề
xuất, mục III trình bày các thực nghiệm, mục IV thảo
luận về hướng phát triển
II PHƯƠNG PHÁP ĐỀ XUẤT
A Mô hình kết hợp đặc trưng âm thanh, đặc trưng thị
giác và thông tin văn bản
Theo quan sát trực quan, các video có nội dung tương
tự nhau thường có thể hiện thị giác (sự xuất hiện của
các đối tượng, hình ảnh) giống nhau Vì vậy, việc sử
dụng đặc trưng thị giác để gom cụm video sẽ trở nên
hiệu quả Tuy nhiên, với sự đa dạng của dữ liệu video
trên Web, những video thuộc cùng một chủ đề có thể có
những đối tượng và hình ảnh khác nhau Khi đó, việc
khai thác nội dung ngữ nghĩa được trích xuất từ thông tin văn bản đi kèm video có thể giúp gom các video tương đồng ngữ nghĩa về cùng một cụm Do đó, đặc trưng thị giác và thông tin văn bản đi kèm video sẽ hỗ trợ, bổ sung cho nhau để biểu diễn video một cách hiệu quả giúp nâng cao chất lượng gom cụm video Tuy nhiên, việc tận dụng nội dung ngữ nghĩa của thông tin văn bản
đi kèm video sẽ thực sự hiệu quả khi chúng được mô tả đúng với nội dung thực sự của video Dữ liệu video trên các kênh video trực tuyến thường được tải lên bởi nhiều người dùng, các thông tin văn bản đi kèm video cũng được người dùng khai báo Trong thực tế, vì những mục đích riêng (ví dụ như thu hút lượt xem) hoặc do cảm nhận chủ quan, người dùng có thể mô tả các thông tin văn bản đi kèm không đúng với nội dung thực sự của video Trong những trường hợp tương tự như vậy, chúng tôi tin rằng việc khai thác kết hợp đặc trưng âm thanh được trích xuất trực tiếp từ nội dung video (ví dụ như những video về ca nhạc thường có các âm thanh như tiếng reo hò, tiếng vỗ tay; những video đua xe thì âm thanh đi kèm là tiếng động cơ xe, ) sẽ góp phần cải thiện chất lượng gom cụm video
Để làm rõ những phân tích trên, một ví dụ minh họa được thể hiện ở Hình 2 Trong ví dụ này, cả bốn video đều giới thiệu về “xe hơi” nên sẽ được gom vào cùng một cụm Video 1 và video 3 có thể hiện thị giác tương đối giống nhau nên việc khai thác đặc trưng thị giác sẽ giúp gom 2 video này với nhau Tuy nhiên, video 2 và video 4 có thể hiện thị giác khác so với video 1 và video
3 Khi đó, việc tận dụng thông tin văn bản đi kèm video cùng với đặc trưng âm thanh được trích xuất từ nội dung video (như tiếng động cơ xe) sẽ giúp gom video 2 và video 4 vào chung cụm với video 1 và video 3
Từ những phân tích trên, chúng tôi đề xuất mô hình kết hợp đặc trưng âm thanh, đặc trưng thị giác và thông
Hình 2 Minh họa cụm bốn video thuộc chủ đề “xe hơi” từ danh sách kết quả tìm kiếm video của truy vấn “Aston”.
Trang 3Hình 3 Mô hình kết hợp đặc trưng âm thanh, đặc trưng thị giác và
thông tin văn bản giải quyết bài toán gom cụm kết quả tìm kiếm video.
tin văn bản đi kèm video nhằm nâng cao chất lượng
gom cụm video (xem Hình 3)
B Trích xuất đặc trưng, biểu diễn và so khớp video
1) Đặc trưng âm thanh (Audio): Như đã phân tích
ở trên, đặc trưng âm thanh đóng một vai trò quan
trọng trong quá trình gom cụm video Trong bài báo
này, chúng tôi sử dụng MFCC (Mel-Frequency Cepstral
Coefficients) [13] như là một loại đặc trưng âm thanh
được trích xuất từ video Mượn ý tưởng từ mô hình BoW
(Bag-of-Words) trong biểu diễn dữ liệu văn bản, sau khi
đặc trưng âm thanh (biểu diễn dạng tập các véc tơ) được
trích xuất từ tập dữ liệu video, quá trình gom cụm các
đặc trưng tạo từ điển được tiến hành Cuối cùng, mỗi
video sẽ được biểu diễn bởi một véc tơ đặc trưng với
số chiều tương ứng với số từ trong từ điển Độ tương tự
giữa các video được tính là khoảng cách giữa các véc
tơ đại diện chúng Quá trình tính độ tương tự video dựa
trên đặc trưng âm thanh được thể hiện ở Hình 4
Hình 4 Minh họa quá trình tính độ tương tự video dựa trên đặc trưng
âm thanh (MFCC) được biểu diễn theo mô hình BoW.
2) Đặc trưng thị giác (Visual): Để tăng độ chính xác
so khớp video thì một trong những yêu cầu quan trọng
là các điểm đặc trưng cục bộ (local keypoint features)
được rút trích từ các frame phải bất biến với những biến
đổi về độ sáng, tỉ lệ co giãn, phép xoay, Một trong
những phương pháp rút trích và mô tả các đặc trưng cục
bộ đáp ứng yêu cầu trên được sử dụng phổ biến nhất
hiện nay là Scale-Invariant Feature Transform (SIFT) [4]
Hình 5 Minh họa quá trình tính độ tương tự video dựa trên đặc trưng thị giác (SIFT) được biểu diễn theo mô hình BoW.
bao gồm các bước chính là phát hiện và mô tả các điểm đặc trưng Các điểm đặc trưng sẽ được phát hiện và mô
tả trên từng frame của mỗi video Để phát hiện các điểm đặc trưng, chúng tôi sử dụng bộ phát hiện đặc trưng phổ biến Hessian-Affine [10] Với mỗi đặc trưng, một véc
tơ 128 chiều được tạo ra từ bộ mô tả SIFT Như vậy, mỗi frame của video sẽ được biểu diễn bao gồm một tập các véc tơ đặc trưng 128 chiều Video được biểu diễn bằng tập hợp tập các véc tơ đặc trưng biểu diễn cho từng frame
Tương tự như quá trình biểu diễn video với đặc trưng
âm thanh, chúng tôi cũng sử dụng mô hình BoW để biểu diễn và tính độ tương tự video theo đặc trưng thị giác Quá trình tính độ tương tự video dựa trên đặc trưng thị giác được thể hiện ở Hình 5
3) Thông tin văn bản (Textual): Thông tin văn bản đi
kèm video (ví dụ như tiêu đề (title), mô tả (description), các thẻ từ khóa (tags)) góp phần quan trọng thể hiện nội dung ngữ nghĩa video giúp cải thiện chất lượng gom cụm video Tuy nhiên, vấn đề đặt ra là thông tin văn bản có
ý nghĩa tương tự nhau nhưng có thể được diễn đạt với nhiều từ ngữ khác nhau (điều này chủ yếu là do tính linh hoạt vốn có của ngôn ngữ tự nhiên cho phép người dùng thể hiện cùng một nội dung nhưng với các ngôn từ khác nhau) Trong bài báo này, chúng tôi đề xuất sử dụng từ điển WordNet [2] để tính độ tương tự ngữ nghĩa giữa các từ thể hiện trong thông tin văn bản đi kèm video Sau khi nghiên cứu rộng rãi một số phương pháp, chúng tôi đề xuất sử dụng phương pháp của Li để tính
độ tương tự ngữ nghĩa giữa các từ, phương pháp này có
sự tương quan tốt nhất với sự đánh giá của con người về mức độ tương tự ngữ nghĩa giữa các từ như được trình bày trong báo cáo [15]
Độ tương tự giữa các video dựa trên thông tin văn bản đi kèm sử dụng từ điển WordNet được thể hiện ở Hình 6
Trang 4Hình 6 Minh họa quá trình tính độ tương tự video dựa trên thông tin
văn bản đi kèm sử dụng từ điển WordNet.
C Gom cụm video
Quá trình gom cụm video dựa trên sự kết hợp đặc
trưng âm thanh, đặc trưng thị giác và thông tin văn bản
được thực hiện qua 3 bước sau:
Bước 1 Độ tương tự giữa các video theo từng đặc
trưng cụ thể sẽ được tính theo các phương pháp được
trình bày ở mục trước đó
Bước 2 Với hai video bất kỳ X và Y , độ tương tự
kết hợp đa đặc trưng được tính theo công thức sau:
mỗi đặc trưng i
w i ∗ Sim i (X, Y ) (1)
trong đó, Sim (X, Y ) là độ tương tự kết hợp đa đặc
trưng giữa hai video X và Y , Sim i (X, Y )là độ tương
tự giữa hai video X và Y theo đặc trưng i, w i là trọng
số của đặc trưng i.
Bước 3 Áp dụng thuật toán gom cụm dữ liệu để thực
hiện gom cụm video dựa trên độ tương tự kết hợp đa
đặc trưng
III THỰC NGHIỆM
A Bộ dữ liệu video
Chúng tôi sử dụng phần mềm mã nguồn mở TubeKit1
để tải dữ liệu video thực từ YouTube thông qua YouTube
API Chúng tôi tải về khoảng 80 đến 100 video (thời
lượng mỗi video từ 2 đến 10 phút) cho mỗi truy vấn và
thực hiện loại bỏ một số video biệt lập, ít liên quan đến
truy vấn tìm kiếm Sự loại bỏ này là hợp lý bởi vì chúng
tôi đang thử nghiệm tính năng hậu xử lý gom cụm kết
quả tìm kiếm video chứ không phải là tìm kiếm chính
xác của một công cụ tìm kiếm video
Thí nghiệm được tiến hành trên bộ dữ liệu gồm 884
video của 10 truy vấn với các từ khóa khác nhau Thông
tin chi tiết về bộ dữ liệu video được mô tả ở Bảng I
1 www.tubekit.org
Bảng I
BỘ DỮ LIỆU VIDEO THỬ NGHIỆM
B Phương pháp đánh giá
Để đánh giá chất lượng gom cụm video Chúng tôi
sử dụng 2 độ đo phổ biến là Entropy và Purity [14] Entropy của mỗi cụm phản ánh sự phân tán video thuộc các chủ đề trong mỗi cụm, giá trị Entropy đánh giá chất lượng gom cụm tổng thể được tính là trung bình cộng của tất cả các Entropy của các cụm Với tập dữ
liệu gồm n video thuộc k loại (chủ đề) được gán nhãn thủ công, ký hiệu là C j , j = 1, , k và thuật toán gom cụm n video vào k cụm P i với i = 1, , k Entropy
đánh giá chất lượng gom cụm toàn cục cho tất cả các cụm được tính toán theo công thức sau:
i
n i
n
j
n ij
n i log n ij
trong đó n i là số video trong cụm P i , n ij là số video
trong cụm P i thuộc chủ đề C j và n là tổng số video
trong tất cả các cụm
Kết quả gom cụm là hoàn hảo nếu mỗi cụm chỉ chứa video thuộc cùng một chủ đề duy nhất Khi đó, giá trị Entropy sẽ bằng không Nói một cách tổng quát, giá trị Entropy càng nhỏ thì cho chất lượng gom cụm tốt hơn Purity phản ánh độ tinh khiết của các cụm Purity của một cụm được xác định dựa trên số video thuộc chủ đề
mà xuất hiện nhiều nhất trong cụm đó Purity đánh giá chất lượng gom cụm toàn cục cho tất cả các cụm được tính toán theo công thức sau với các ký hiệu có ý nghĩa tương tự như trong công thức tính Entropy:
P urity =
i
n i
n (max j
n ij
n i
Ngược lại với Entropy, giá trị Purity càng lớn thì cho kết quả gom cụm tốt hơn
C Cài đặt thực nghiệm
Nhằm mục đích so sánh, đánh giá kết quả gom cụm video với phương pháp đề xuất, chúng tôi tiến hành cài
Trang 5đặt các thí nghiệm sau:
• A (Audio): Gom cụm video dựa trên độ tương tự
theo đặc trưng âm thanh
• V (Visual): Gom cụm video dựa trên độ tương tự
theo đặc trưng thị giác
• T (Textual): Gom cụm video dựa trên độ tương tự
theo thông tin văn bản đi kèm video
• A-V-T (Audio-Visual-Textual) (hướng tiếp cận của
chúng tôi): Gom cụm video dựa trên độ tương tự
kết hợp đặc trưng âm thanh, đặc trưng thị giác và
theo thông tin văn bản đi kèm video
Để xem xét sự tương quan giữa các đặc trưng trong
mô hình kết hợp, chúng tôi thử nghiệm phương pháp kết
hợp đặc trưng đề xuất với các bộ trọng số khác nhau
ứng với từng đặc trưng được thể hiện trong Bảng II
Bảng II TRỌNG SỐ KẾT HỢP CÁC ĐẶC TRƯNG
Trọng
số
Âm
thanh
(Audio)
Thị giác (Visual) (Textual) Văn bản Tổng
tsA 0.60 0.30 0.10 1.00
tsB 0.35 0.50 0.15 1.00
tsC 0.20 0.60 0.20 1.00
Để gom cụm video, chúng tôi sử dụng thuật toán
K-Medoids (một thuật toán gom cụm phổ biến) vì hai lý
do sau: (i) trọng tâm của cụm là một đối tượng cụ thể
(tâm thật), (ii) độ tương tự giữa các đối tượng chỉ cần
tính một lần (điều này là phù hợp với đầu vào là độ đo
tương tự kết hợp đa đặc trưng giữa các video được xử
lý tính toán trước đó)
Đối với bài toán gom cụm tổng quát thì số cụm được
khai báo linh động bởi người dùng Số cụm càng ít thì
tỷ lệ các đối tượng khác nhau được gom về cùng một
cụm càng cao, số cụm càng nhiều thì tỷ lệ các đối tượng
giống nhau được gom vào các cụm khác nhau càng lớn
Trong bài báo này, để công bằng trong việc đánh giá
giữa các phương pháp thực nghiệm, chúng tôi tiến hành
thử nghiệm thuật toán gom cụm với số cụm đầu vào
tương ứng với số chủ đề của mỗi truy vấn
D Kết quả thực nghiệm
Kết quả gom cụm video ứng với các truy vấn khác
nhau đánh giá theo Entropy và Purity được thể hiện ở
Hình 7 và Hình 8
Kết quả thể hiện ở Hình 7 cho thấy trên hầu hết các
bộ dữ liệu video của các truy vấn, phương pháp sử dụng
đặc trưng âm thanh (A) và đặc trưng thị giác (V) cho
kết quả gom cụm video tốt hơn (đạt giá trị Entropy thấp
hơn) so với phương pháp sử dụng thông tin văn bản
đi kèm (T) Điều này cho thấy xu hướng những video
Hình 7 Kết quả gom cụm video được đánh giá theo Entropy.
tương tự nhau (thuộc cùng chủ đề) thường có những đối tượng hình ảnh cụ thể và âm thanh tương tự nhau Tuy nhiên, kết quả thí nghiệm cũng cho thấy rằng mỗi đặc trưng đều có ưu thế riêng đối với mỗi bộ dữ liệu video của từng truy vấn Phương pháp kết hợp đa đặc trưng của chúng tôi (A-V-T) được thử nghiệm với các bộ trọng
số khác nhau cho mỗi đặc trưng đều cho kết quả gom cụm video tốt hơn so với các phương pháp sử dụng từng đặc trưng riêng lẻ (A), (V), (T) Điều này chứng minh tính hiệu quả của việc kết hợp đặc trưng âm thanh, đặc trưng thị giác và thông tin văn bản đi kèm video trong quá trình gom cụm video Phương pháp V-T (tsA), A-V-T (tsB) cho kết quả gom cụm video tốt nhất (đạt giá trị Entropy thấp nhất chứng minh xác suất phân bố các video thuộc cùng một chủ đề vào các cụm khác nhau là thấp nhất) Điều này cho thấy rằng trong chiến lược kết hợp đa đặc trưng giải quyết bài toán gom cụm kết quả tìm kiếm video thì đặc trưng âm thanh và đặc trưng thị giác chiếm ưu thế hơn so với thông tin văn bản đi kèm video
Kết quả thể hiện ở Hình 8 cho thấy phương pháp
A-V-T (tsA), A-V-A-V-T (tsB) cũng cho kết quả gom cụm video tốt nhất (đạt giá trị Purity cao nhất chứng minh tỉ lệ phân bố những video thuộc cùng một chủ đề vào cùng một cụm là cao nhất)
Minh họa kết quả trực quan gom cụm video được thể hiện ở Hình 9
Kết quả gom cụm video thể hiện ở Hình 9 bao gồm
6 cụm video liên quan đến truy vấn “Scorpion” Cụm
1 bao gồm những video ca nhạc thể hiện bởi ban nhạc Scorpions Cụm 2 bao gồm những video liên quan đến động vật (con bọ cạp) Cụm 3 bao gồm những video game Cụm 4 gồm những video giới thiệu về mũ bảo hiểm thương hiệu Scorpion Cụm 5 gồm những video tập Yoga (Scorpion Pose) Cụm 6 gồm những video liên
Trang 6Hình 8 Kết quả gom cụm video được đánh giá theo Purity.
Hình 9 Minh họa trực quan một phần kết quả gom cụm video với
truy vấn “Scorpion”.
quan đến một loại xe chuyên dụng thu hoạch gỗ thông
(Ponsse Scorpion) Từ kết quả trực quan gom cụm video,
chúng tôi quan sát thấy rằng đa số các video thuộc cùng
chủ đề đều được gom trong cùng một cụm Thông qua
kết quả gom cụm video, người dùng có thể xác định
được những video mà họ quan tâm một cách dễ dàng
hơn thay vì phải duyệt qua một danh sách phẳng các kết
quả tìm kiếm như trước đây
IV KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Trong bài báo này, chúng tôi đề xuất phương pháp kết
hợp đặc trưng âm thanh, đặc trưng thị giác được trích
xuất trực tiếp từ nội dung video cùng với các thông tin
văn bản đi kèm video dựa trên những phân tích về ưu
điểm của từng loại đặc trưng Kết quả thí nghiệm cho
thấy rằng phương pháp kết hợp đề xuất giúp cải thiện chất lượng gom cụm video so với các phương pháp sử dụng từng đặc trưng riêng lẻ
Hướng phát triển tiếp theo là có thể khai thác thêm các thông tin được trích xuất từ đặc trưng chuyển động (motion features) của video Thử nghiệm và đánh giá kết quả gom cụm video dựa trên việc kết hợp các bộ đặc trưng khác nhau nhằm xây dựng bộ đặc trưng phù hợp cho bài toán gom cụm kết quả tìm kiếm video
LỜI CẢM ƠN Nghiên cứu được tài trợ bởi Đại học Quốc gia Thành phố Hồ Chí Minh (ĐHQG-HCM) trong khuôn khổ Đề tài mã số C2015-26-02
TÀI LIỆU THAM KHẢO [1] A Hindle, J Shao, D Lin, J Lu and R Zhang, “Clustering Web Video Search Results Based on Integration of Multiple Features,”
In WWW, pp 53-73, 2011.
[2] C Fellbaum, ed., “WordNet: An electronic lexical database,” Language, Speech, and Communication MIT Press, Cambridge, USA, 1998.
[3] D Cai, X He, Z Li, W.Y Ma, J.R Wen, “Hierarchical clustering
of www image search results using visual, textual and link information,” In ACM Multimedia, pp 952-959, 2004 [4] D G Lowe, “Distinctive Image Features from Scale-Invariant Keypoints,” International Journal of Computer Vision, 60, 2, pp 91-110, 2004.
[5] F Jing, C Wang, Y Yao, K Deng, L Zhang, W.Y Ma, “Igroup: web image search results clustering,” In ACM Multimedia, pp 377-384, 2006.
[6] G Mecca, S Raunich, A Pappalardo, “A new algorithm for clustering search results,” Data Knowl, Eng.62(3), pp 504-522, 2007.
[7] H Huang, Y Lu, F Zhang, and S Sun, “A multi-modal clustering method for web videos,” In Trustworthy Computing and Services,
pp 163-169, 2013.
[8] H Zeng, Q He, Z Chen, W Ma, and J Ma, “Learning to cluster web search results,” In Proceedings of ACM SIGIR ’04, 2004 [9] J Park, X Gao, and P Andreae, “Query directed web page clustering using suffix tree and wikipedia links,” In Advanced Data Mining and Applications, pp 91-99, 2012.
[10] K Mikolajczyk, T Tuytelaars, C Schmid, A Zisserman, J Matas, F Schaffalitzky, T Kadir, and L Van Gool, “A comparison
of affine region detectors,” International journal of computer vision, vol 65, no 1-2, pp 43-72, 2005.
[11] M Rege, M Dong, and J Hua, “Clustering Web Images with Multi-modal Features,” In Proceedings of the 15th International Conference on Multimedia, pp 317-320, 2007.
[12] S Liu, M Zhu, Q Zheng, “Mining similarities for clustering web video clips,” In CSSE (4), pp 759-762, 2008.
[13] U Srinivasan, S Pfeiffer, S Nepal, M Lee, L Gu, S Barrass,
“A Survey of Mpeg-1 Audio, Video and Semantic Analysis Techniques,” Multimedia Tools and Applications, 27(1), pp
105-141, 2005.
[14] Y Zhao, G Karypis, “Criterion functions for document clus-tering: experiments and analysis,” Technical Report TR01-40, Department of Computer Science, University of Minnesota, 2001 [15] Y.H Li, Z Bandar and D McLean, “An approach for measuring semantic similarity using multiple information sources,” IEEE Transactions on Knowledge and Data Engineering, vol 15, no.
4, pp 871-882, 2003.