Nâng cao chất lượng gom cụm kết quả tìm kiếm video sử dụng kết hợp đặc trưng âm thanh, đặc trưng thị giác và thông tin văn bản

Bài báo này đề xuất phương pháp sử dụng kết hợp đặc trưng âm thanh, đặc trưng thị giác và thông tin văn bản để nâng cao chất lượng gom cụm kết quả tìm kiếm video. Mặc dù hướng tiếp cận kết hợp đa đặc trưng đã được giới thiệu trong các lớp bài toán như tìm kiếm video (video retrieval), phân lớp video (video classification) nhưng đóng góp chính của bài báo này là phân tích ưu điểm của từng loại đặc trưng cụ thể làm cơ sở cho việc kết hợp đa đặc trưng và là công trình đầu tiên sử dụng kết hợp đặc trưng âm thanh, đặc trưng thị giác và thông tin văn bản đi kèm video để giải quyết bài toán gom cụm kết quả tìm kiếm video. Mời các bạn cùng tham khảo!

Trang 1

Nguyễn Quang Phúc, Nguyễn Thị Anh Thư, Ngô Đức Thành, Lê Đình Duy, Nguyễn Hoàng Tú Anh

Phòng Thí nghiệm Truyền thông Đa phương tiện Đại học Công nghệ Thông tin, ĐHQG-HCM Thành phố Hồ Chí Minh, Việt Nam Email: {phucnq,thunta,thanhnd,ldduy,anhnht}@uit.edu.vn

Tóm tắt—Bài báo này đề xuất phương pháp sử dụng

kết hợp đặc trưng âm thanh, đặc trưng thị giác và thông

tin văn bản để nâng cao chất lượng gom cụm kết quả tìm

kiếm video Mặc dù hướng tiếp cận kết hợp đa đặc trưng

đã được giới thiệu trong các lớp bài toán như tìm kiếm

video (video retrieval), phân lớp video (video classification)

nhưng đóng góp chính của bài báo này là phân tích ưu

điểm của từng loại đặc trưng cụ thể làm cơ sở cho việc kết

hợp đa đặc trưng và là công trình đầu tiên sử dụng kết

hợp đặc trưng âm thanh, đặc trưng thị giác và thông tin

văn bản đi kèm video để giải quyết bài toán gom cụm kết

quả tìm kiếm video Các thí nghiệm được tiến hành trên

kết quả tìm kiếm video của YouTube với phương pháp kết

hợp đề xuất cho kết quả tốt hơn so với việc chỉ áp dụng

từng loại đặc trưng riêng lẻ trong quá trình gom cụm

video.

Từ khóa—gom cụm video, đặc trưng âm thanh, đặc

trưng thị giác, độ tương tự kết hợp.

I GIỚI THIỆU Ngày nay, với sự phát triển mạnh mẽ của công nghệ

truyền thông và kỹ thuật số cùng với sự bùng nổ của

mạng Internet, số lượng video được chia sẻ trên Web

ngày càng nhiều Để tìm kiếm video trên Web, người

dùng phải cung cấp từ khóa tìm kiếm trên các công cụ

tìm kiếm video (ví dụ như YouTube, Google Video) Kết

quả tìm kiếm được trình bày như một danh sách phẳng

với các video được xếp theo độ liên quan với từ khóa

truy vấn Để tìm được video mong muốn, người dùng

phải “tốn công” duyệt qua toàn bộ danh sách Hơn nữa,

các kết quả tìm kiếm là rất đa đạng và thường bị phân

mảnh hoặc bị chi phối bởi các video không phù hợp

(đặc biệt trong những trường hợp như người dùng gửi

truy vấn quá ngắn hoặc truy vấn mơ hồ do tính đa nghĩa

của từ khóa truy vấn)

Giả định người dùng đang quan tâm tới một vấn đề

cụ thể nhưng không đưa ra được từ khóa phù hợp Do

đó, kết quả tìm kiếm video trả về có thể thuộc nhiều thể

loại, chủ đề khác nhau và gây khó khăn trong việc tìm kiếm Trường hợp xấu hơn xảy ra khi kết quả của các chủ đề khác áp đảo chủ đề mà người dùng quan tâm Trong kịch bản như vậy, việc gom cụm kết quả tìm kiếm video là cần thiết nhằm giúp người dùng dễ dàng xác định video cần tìm Nói cách khác, thay vì phải duyệt qua một danh sách phẳng kết quả tìm kiếm gồm nhiều video thuộc nhiều chủ đề trộn lẫn với nhau thì người dùng được cung cấp một cái nhìn trực quan hơn thông qua kết quả gom cụm video theo từng chủ đề cụ thể Qua đó, người dùng có thể dễ dàng xác định được video

mà họ quan tâm một cách nhanh chóng và bỏ qua các cụm video không thích hợp

Tóm lại, với một danh sách video trả về từ kết quả tìm kiếm của một truy vấn bất kỳ trên các kênh video trực tuyến, bài toán gom cụm kết quả tìm kiếm video là xác định các video có nội dung tương tự nhau và gom chúng lại trong cùng một cụm Dữ liệu đầu vào và đầu

ra của bài toán được minh họa trực quan ở Hình 1 Đầu vào là danh sách video trả về từ kết quả tìm kiếm video trên Web, đầu ra là các cụm video

Gom cụm kết quả tìm kiếm trên Web được nghiên cứu rộng rãi trước đây Các công trình chủ yếu tập trung vào

dữ liệu văn bản (phổ biến là gom cụm trang Web) [6], [8], [9] và dữ liệu hình ảnh [3], [5], [11] Gần đây, có một số công trình nghiên cứu gom cụm kết quả tìm kiếm video [1], [7], [12] So với dữ liệu dạng văn bản hay hình ảnh thì dữ liệu video có cấu trúc phức tạp hơn Nội dung của video chứa đựng đồng thời các đặc trưng về

âm thanh (audio), thị giác (visual) hay văn bản (textual) Điều này đặt ra nhiều thách thức trong việc biểu diễn

và so khớp video Trong [12], tác giả biểu diễn video dựa trên đặc trưng thị giác Cụ thể, mỗi frame được biểu diễn thành một véc tơ đặc trưng trong không gian màu HSV (Hue Saturation Value) Sau đó, video được biểu diễn bởi một véc tơ đặc trưng được tính bằng cách lấy

Trang 2

Hình 1 Minh họa trực quan dữ liệu đầu vào và đầu ra cho bài toán

gom cụm kết quả tìm kiếm video.

trung bình tất cả các véc tơ biểu diễn cho các frame của

video Độ tương đồng giữa các video được quy về việc

tính khoảng cách giữa các véc tơ biểu diễn chúng Với

hướng tiếp cận này thì tính ngữ nghĩa trong thông tin

văn bản đi kèm video (ví dụ như tiêu đề (title), mô tả

(description), các thẻ từ khóa (tags)) không được xem

xét Trong [1], [7], các tác giả đã khai thác các thông

tin được trích xuất từ đặc trưng thị giác và thông tin văn

bản đi kèm video nhằm cải thiện chất lượng gom cụm

video Tuy nhiên, các phương pháp rút trích đặc trưng

biểu diễn video được sử dụng vẫn còn khá đơn giản và

hiệu quả của từng loại đặc trưng trong quá trình gom

cụm video chưa được phân tích rõ ràng

Trong bài báo này, chúng tôi tập trung vào việc phân

tích ưu điểm của từng loại đặc trưng cụ thể làm cơ sở

cho việc kết hợp đa đặc trưng Từ đó, đề xuất phương

pháp kết hợp đặc trưng âm thanh, đặc trưng thị giác và

thông tin văn bản đi kèm video nhằm nâng cao chất

lượng gom cụm video

Các mục tiếp theo của bài báo được tổ chức như sau:

mục II giới thiệu phương pháp kết hợp đặc trưng đề

xuất, mục III trình bày các thực nghiệm, mục IV thảo

luận về hướng phát triển

II PHƯƠNG PHÁP ĐỀ XUẤT

A Mô hình kết hợp đặc trưng âm thanh, đặc trưng thị

giác và thông tin văn bản

Theo quan sát trực quan, các video có nội dung tương

tự nhau thường có thể hiện thị giác (sự xuất hiện của

các đối tượng, hình ảnh) giống nhau Vì vậy, việc sử

dụng đặc trưng thị giác để gom cụm video sẽ trở nên

hiệu quả Tuy nhiên, với sự đa dạng của dữ liệu video

trên Web, những video thuộc cùng một chủ đề có thể có

những đối tượng và hình ảnh khác nhau Khi đó, việc

khai thác nội dung ngữ nghĩa được trích xuất từ thông tin văn bản đi kèm video có thể giúp gom các video tương đồng ngữ nghĩa về cùng một cụm Do đó, đặc trưng thị giác và thông tin văn bản đi kèm video sẽ hỗ trợ, bổ sung cho nhau để biểu diễn video một cách hiệu quả giúp nâng cao chất lượng gom cụm video Tuy nhiên, việc tận dụng nội dung ngữ nghĩa của thông tin văn bản

đi kèm video sẽ thực sự hiệu quả khi chúng được mô tả đúng với nội dung thực sự của video Dữ liệu video trên các kênh video trực tuyến thường được tải lên bởi nhiều người dùng, các thông tin văn bản đi kèm video cũng được người dùng khai báo Trong thực tế, vì những mục đích riêng (ví dụ như thu hút lượt xem) hoặc do cảm nhận chủ quan, người dùng có thể mô tả các thông tin văn bản đi kèm không đúng với nội dung thực sự của video Trong những trường hợp tương tự như vậy, chúng tôi tin rằng việc khai thác kết hợp đặc trưng âm thanh được trích xuất trực tiếp từ nội dung video (ví dụ như những video về ca nhạc thường có các âm thanh như tiếng reo hò, tiếng vỗ tay; những video đua xe thì âm thanh đi kèm là tiếng động cơ xe, ) sẽ góp phần cải thiện chất lượng gom cụm video

Để làm rõ những phân tích trên, một ví dụ minh họa được thể hiện ở Hình 2 Trong ví dụ này, cả bốn video đều giới thiệu về “xe hơi” nên sẽ được gom vào cùng một cụm Video 1 và video 3 có thể hiện thị giác tương đối giống nhau nên việc khai thác đặc trưng thị giác sẽ giúp gom 2 video này với nhau Tuy nhiên, video 2 và video 4 có thể hiện thị giác khác so với video 1 và video

3 Khi đó, việc tận dụng thông tin văn bản đi kèm video cùng với đặc trưng âm thanh được trích xuất từ nội dung video (như tiếng động cơ xe) sẽ giúp gom video 2 và video 4 vào chung cụm với video 1 và video 3

Từ những phân tích trên, chúng tôi đề xuất mô hình kết hợp đặc trưng âm thanh, đặc trưng thị giác và thông

Hình 2 Minh họa cụm bốn video thuộc chủ đề “xe hơi” từ danh sách kết quả tìm kiếm video của truy vấn “Aston”.

Trang 3

Hình 3 Mô hình kết hợp đặc trưng âm thanh, đặc trưng thị giác và

thông tin văn bản giải quyết bài toán gom cụm kết quả tìm kiếm video.

tin văn bản đi kèm video nhằm nâng cao chất lượng

gom cụm video (xem Hình 3)

B Trích xuất đặc trưng, biểu diễn và so khớp video

1) Đặc trưng âm thanh (Audio): Như đã phân tích

ở trên, đặc trưng âm thanh đóng một vai trò quan

trọng trong quá trình gom cụm video Trong bài báo

này, chúng tôi sử dụng MFCC (Mel-Frequency Cepstral

Coefficients) [13] như là một loại đặc trưng âm thanh

được trích xuất từ video Mượn ý tưởng từ mô hình BoW

(Bag-of-Words) trong biểu diễn dữ liệu văn bản, sau khi

đặc trưng âm thanh (biểu diễn dạng tập các véc tơ) được

trích xuất từ tập dữ liệu video, quá trình gom cụm các

đặc trưng tạo từ điển được tiến hành Cuối cùng, mỗi

video sẽ được biểu diễn bởi một véc tơ đặc trưng với

số chiều tương ứng với số từ trong từ điển Độ tương tự

giữa các video được tính là khoảng cách giữa các véc

tơ đại diện chúng Quá trình tính độ tương tự video dựa

trên đặc trưng âm thanh được thể hiện ở Hình 4

Hình 4 Minh họa quá trình tính độ tương tự video dựa trên đặc trưng

âm thanh (MFCC) được biểu diễn theo mô hình BoW.

2) Đặc trưng thị giác (Visual): Để tăng độ chính xác

so khớp video thì một trong những yêu cầu quan trọng

là các điểm đặc trưng cục bộ (local keypoint features)

được rút trích từ các frame phải bất biến với những biến

đổi về độ sáng, tỉ lệ co giãn, phép xoay, Một trong

những phương pháp rút trích và mô tả các đặc trưng cục

bộ đáp ứng yêu cầu trên được sử dụng phổ biến nhất

hiện nay là Scale-Invariant Feature Transform (SIFT) [4]

Hình 5 Minh họa quá trình tính độ tương tự video dựa trên đặc trưng thị giác (SIFT) được biểu diễn theo mô hình BoW.

bao gồm các bước chính là phát hiện và mô tả các điểm đặc trưng Các điểm đặc trưng sẽ được phát hiện và mô

tả trên từng frame của mỗi video Để phát hiện các điểm đặc trưng, chúng tôi sử dụng bộ phát hiện đặc trưng phổ biến Hessian-Affine [10] Với mỗi đặc trưng, một véc

tơ 128 chiều được tạo ra từ bộ mô tả SIFT Như vậy, mỗi frame của video sẽ được biểu diễn bao gồm một tập các véc tơ đặc trưng 128 chiều Video được biểu diễn bằng tập hợp tập các véc tơ đặc trưng biểu diễn cho từng frame

Tương tự như quá trình biểu diễn video với đặc trưng

âm thanh, chúng tôi cũng sử dụng mô hình BoW để biểu diễn và tính độ tương tự video theo đặc trưng thị giác Quá trình tính độ tương tự video dựa trên đặc trưng thị giác được thể hiện ở Hình 5

3) Thông tin văn bản (Textual): Thông tin văn bản đi

kèm video (ví dụ như tiêu đề (title), mô tả (description), các thẻ từ khóa (tags)) góp phần quan trọng thể hiện nội dung ngữ nghĩa video giúp cải thiện chất lượng gom cụm video Tuy nhiên, vấn đề đặt ra là thông tin văn bản có

ý nghĩa tương tự nhau nhưng có thể được diễn đạt với nhiều từ ngữ khác nhau (điều này chủ yếu là do tính linh hoạt vốn có của ngôn ngữ tự nhiên cho phép người dùng thể hiện cùng một nội dung nhưng với các ngôn từ khác nhau) Trong bài báo này, chúng tôi đề xuất sử dụng từ điển WordNet [2] để tính độ tương tự ngữ nghĩa giữa các từ thể hiện trong thông tin văn bản đi kèm video Sau khi nghiên cứu rộng rãi một số phương pháp, chúng tôi đề xuất sử dụng phương pháp của Li để tính

độ tương tự ngữ nghĩa giữa các từ, phương pháp này có

sự tương quan tốt nhất với sự đánh giá của con người về mức độ tương tự ngữ nghĩa giữa các từ như được trình bày trong báo cáo [15]

Độ tương tự giữa các video dựa trên thông tin văn bản đi kèm sử dụng từ điển WordNet được thể hiện ở Hình 6

Trang 4

Hình 6 Minh họa quá trình tính độ tương tự video dựa trên thông tin

văn bản đi kèm sử dụng từ điển WordNet.

C Gom cụm video

Quá trình gom cụm video dựa trên sự kết hợp đặc

trưng âm thanh, đặc trưng thị giác và thông tin văn bản

được thực hiện qua 3 bước sau:

Bước 1 Độ tương tự giữa các video theo từng đặc

trưng cụ thể sẽ được tính theo các phương pháp được

trình bày ở mục trước đó

Bước 2 Với hai video bất kỳ X và Y , độ tương tự

kết hợp đa đặc trưng được tính theo công thức sau:

mỗi đặc trưng i

w i ∗ Sim i (X, Y ) (1)

trong đó, Sim (X, Y ) là độ tương tự kết hợp đa đặc

trưng giữa hai video X và Y , Sim i (X, Y )là độ tương

tự giữa hai video X và Y theo đặc trưng i, w i là trọng

số của đặc trưng i.

Bước 3 Áp dụng thuật toán gom cụm dữ liệu để thực

hiện gom cụm video dựa trên độ tương tự kết hợp đa

đặc trưng

III THỰC NGHIỆM

A Bộ dữ liệu video

Chúng tôi sử dụng phần mềm mã nguồn mở TubeKit1

để tải dữ liệu video thực từ YouTube thông qua YouTube

API Chúng tôi tải về khoảng 80 đến 100 video (thời

lượng mỗi video từ 2 đến 10 phút) cho mỗi truy vấn và

thực hiện loại bỏ một số video biệt lập, ít liên quan đến

truy vấn tìm kiếm Sự loại bỏ này là hợp lý bởi vì chúng

tôi đang thử nghiệm tính năng hậu xử lý gom cụm kết

quả tìm kiếm video chứ không phải là tìm kiếm chính

xác của một công cụ tìm kiếm video

Thí nghiệm được tiến hành trên bộ dữ liệu gồm 884

video của 10 truy vấn với các từ khóa khác nhau Thông

tin chi tiết về bộ dữ liệu video được mô tả ở Bảng I

1 www.tubekit.org

Bảng I

BỘ DỮ LIỆU VIDEO THỬ NGHIỆM

B Phương pháp đánh giá

Để đánh giá chất lượng gom cụm video Chúng tôi

sử dụng 2 độ đo phổ biến là Entropy và Purity [14] Entropy của mỗi cụm phản ánh sự phân tán video thuộc các chủ đề trong mỗi cụm, giá trị Entropy đánh giá chất lượng gom cụm tổng thể được tính là trung bình cộng của tất cả các Entropy của các cụm Với tập dữ

liệu gồm n video thuộc k loại (chủ đề) được gán nhãn thủ công, ký hiệu là C j , j = 1, , k và thuật toán gom cụm n video vào k cụm P i với i = 1, , k Entropy

đánh giá chất lượng gom cụm toàn cục cho tất cả các cụm được tính toán theo công thức sau:

i

n i

n

j

n ij

n i log n ij

trong đó n i là số video trong cụm P i , n ij là số video

trong cụm P i thuộc chủ đề C j và n là tổng số video

trong tất cả các cụm

Kết quả gom cụm là hoàn hảo nếu mỗi cụm chỉ chứa video thuộc cùng một chủ đề duy nhất Khi đó, giá trị Entropy sẽ bằng không Nói một cách tổng quát, giá trị Entropy càng nhỏ thì cho chất lượng gom cụm tốt hơn Purity phản ánh độ tinh khiết của các cụm Purity của một cụm được xác định dựa trên số video thuộc chủ đề

mà xuất hiện nhiều nhất trong cụm đó Purity đánh giá chất lượng gom cụm toàn cục cho tất cả các cụm được tính toán theo công thức sau với các ký hiệu có ý nghĩa tương tự như trong công thức tính Entropy:

P urity =

i

n i

n (max j

n ij

n i

Ngược lại với Entropy, giá trị Purity càng lớn thì cho kết quả gom cụm tốt hơn

C Cài đặt thực nghiệm

Nhằm mục đích so sánh, đánh giá kết quả gom cụm video với phương pháp đề xuất, chúng tôi tiến hành cài

Trang 5

đặt các thí nghiệm sau:

• A (Audio): Gom cụm video dựa trên độ tương tự

theo đặc trưng âm thanh

• V (Visual): Gom cụm video dựa trên độ tương tự

theo đặc trưng thị giác

• T (Textual): Gom cụm video dựa trên độ tương tự

theo thông tin văn bản đi kèm video

• A-V-T (Audio-Visual-Textual) (hướng tiếp cận của

chúng tôi): Gom cụm video dựa trên độ tương tự

kết hợp đặc trưng âm thanh, đặc trưng thị giác và

theo thông tin văn bản đi kèm video

Để xem xét sự tương quan giữa các đặc trưng trong

mô hình kết hợp, chúng tôi thử nghiệm phương pháp kết

hợp đặc trưng đề xuất với các bộ trọng số khác nhau

ứng với từng đặc trưng được thể hiện trong Bảng II

Bảng II TRỌNG SỐ KẾT HỢP CÁC ĐẶC TRƯNG

Trọng

số

Âm

thanh

(Audio)

Thị giác (Visual) (Textual) Văn bản Tổng

tsA 0.60 0.30 0.10 1.00

tsB 0.35 0.50 0.15 1.00

tsC 0.20 0.60 0.20 1.00

Để gom cụm video, chúng tôi sử dụng thuật toán

K-Medoids (một thuật toán gom cụm phổ biến) vì hai lý

do sau: (i) trọng tâm của cụm là một đối tượng cụ thể

(tâm thật), (ii) độ tương tự giữa các đối tượng chỉ cần

tính một lần (điều này là phù hợp với đầu vào là độ đo

tương tự kết hợp đa đặc trưng giữa các video được xử

lý tính toán trước đó)

Đối với bài toán gom cụm tổng quát thì số cụm được

khai báo linh động bởi người dùng Số cụm càng ít thì

tỷ lệ các đối tượng khác nhau được gom về cùng một

cụm càng cao, số cụm càng nhiều thì tỷ lệ các đối tượng

giống nhau được gom vào các cụm khác nhau càng lớn

Trong bài báo này, để công bằng trong việc đánh giá

giữa các phương pháp thực nghiệm, chúng tôi tiến hành

thử nghiệm thuật toán gom cụm với số cụm đầu vào

tương ứng với số chủ đề của mỗi truy vấn

D Kết quả thực nghiệm

Kết quả gom cụm video ứng với các truy vấn khác

nhau đánh giá theo Entropy và Purity được thể hiện ở

Hình 7 và Hình 8

Kết quả thể hiện ở Hình 7 cho thấy trên hầu hết các

bộ dữ liệu video của các truy vấn, phương pháp sử dụng

đặc trưng âm thanh (A) và đặc trưng thị giác (V) cho

kết quả gom cụm video tốt hơn (đạt giá trị Entropy thấp

hơn) so với phương pháp sử dụng thông tin văn bản

đi kèm (T) Điều này cho thấy xu hướng những video

Hình 7 Kết quả gom cụm video được đánh giá theo Entropy.

tương tự nhau (thuộc cùng chủ đề) thường có những đối tượng hình ảnh cụ thể và âm thanh tương tự nhau Tuy nhiên, kết quả thí nghiệm cũng cho thấy rằng mỗi đặc trưng đều có ưu thế riêng đối với mỗi bộ dữ liệu video của từng truy vấn Phương pháp kết hợp đa đặc trưng của chúng tôi (A-V-T) được thử nghiệm với các bộ trọng

số khác nhau cho mỗi đặc trưng đều cho kết quả gom cụm video tốt hơn so với các phương pháp sử dụng từng đặc trưng riêng lẻ (A), (V), (T) Điều này chứng minh tính hiệu quả của việc kết hợp đặc trưng âm thanh, đặc trưng thị giác và thông tin văn bản đi kèm video trong quá trình gom cụm video Phương pháp V-T (tsA), A-V-T (tsB) cho kết quả gom cụm video tốt nhất (đạt giá trị Entropy thấp nhất chứng minh xác suất phân bố các video thuộc cùng một chủ đề vào các cụm khác nhau là thấp nhất) Điều này cho thấy rằng trong chiến lược kết hợp đa đặc trưng giải quyết bài toán gom cụm kết quả tìm kiếm video thì đặc trưng âm thanh và đặc trưng thị giác chiếm ưu thế hơn so với thông tin văn bản đi kèm video

Kết quả thể hiện ở Hình 8 cho thấy phương pháp

A-V-T (tsA), A-V-A-V-T (tsB) cũng cho kết quả gom cụm video tốt nhất (đạt giá trị Purity cao nhất chứng minh tỉ lệ phân bố những video thuộc cùng một chủ đề vào cùng một cụm là cao nhất)

Minh họa kết quả trực quan gom cụm video được thể hiện ở Hình 9

Kết quả gom cụm video thể hiện ở Hình 9 bao gồm

6 cụm video liên quan đến truy vấn “Scorpion” Cụm

1 bao gồm những video ca nhạc thể hiện bởi ban nhạc Scorpions Cụm 2 bao gồm những video liên quan đến động vật (con bọ cạp) Cụm 3 bao gồm những video game Cụm 4 gồm những video giới thiệu về mũ bảo hiểm thương hiệu Scorpion Cụm 5 gồm những video tập Yoga (Scorpion Pose) Cụm 6 gồm những video liên

Trang 6

Hình 8 Kết quả gom cụm video được đánh giá theo Purity.

Hình 9 Minh họa trực quan một phần kết quả gom cụm video với

truy vấn “Scorpion”.

quan đến một loại xe chuyên dụng thu hoạch gỗ thông

(Ponsse Scorpion) Từ kết quả trực quan gom cụm video,

chúng tôi quan sát thấy rằng đa số các video thuộc cùng

chủ đề đều được gom trong cùng một cụm Thông qua

kết quả gom cụm video, người dùng có thể xác định

được những video mà họ quan tâm một cách dễ dàng

hơn thay vì phải duyệt qua một danh sách phẳng các kết

quả tìm kiếm như trước đây

IV KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

Trong bài báo này, chúng tôi đề xuất phương pháp kết

hợp đặc trưng âm thanh, đặc trưng thị giác được trích

xuất trực tiếp từ nội dung video cùng với các thông tin

văn bản đi kèm video dựa trên những phân tích về ưu

điểm của từng loại đặc trưng Kết quả thí nghiệm cho

thấy rằng phương pháp kết hợp đề xuất giúp cải thiện chất lượng gom cụm video so với các phương pháp sử dụng từng đặc trưng riêng lẻ

Hướng phát triển tiếp theo là có thể khai thác thêm các thông tin được trích xuất từ đặc trưng chuyển động (motion features) của video Thử nghiệm và đánh giá kết quả gom cụm video dựa trên việc kết hợp các bộ đặc trưng khác nhau nhằm xây dựng bộ đặc trưng phù hợp cho bài toán gom cụm kết quả tìm kiếm video

LỜI CẢM ƠN Nghiên cứu được tài trợ bởi Đại học Quốc gia Thành phố Hồ Chí Minh (ĐHQG-HCM) trong khuôn khổ Đề tài mã số C2015-26-02

TÀI LIỆU THAM KHẢO [1] A Hindle, J Shao, D Lin, J Lu and R Zhang, “Clustering Web Video Search Results Based on Integration of Multiple Features,”

In WWW, pp 53-73, 2011.

[2] C Fellbaum, ed., “WordNet: An electronic lexical database,” Language, Speech, and Communication MIT Press, Cambridge, USA, 1998.

[3] D Cai, X He, Z Li, W.Y Ma, J.R Wen, “Hierarchical clustering

of www image search results using visual, textual and link information,” In ACM Multimedia, pp 952-959, 2004 [4] D G Lowe, “Distinctive Image Features from Scale-Invariant Keypoints,” International Journal of Computer Vision, 60, 2, pp 91-110, 2004.

[5] F Jing, C Wang, Y Yao, K Deng, L Zhang, W.Y Ma, “Igroup: web image search results clustering,” In ACM Multimedia, pp 377-384, 2006.

[6] G Mecca, S Raunich, A Pappalardo, “A new algorithm for clustering search results,” Data Knowl, Eng.62(3), pp 504-522, 2007.

[7] H Huang, Y Lu, F Zhang, and S Sun, “A multi-modal clustering method for web videos,” In Trustworthy Computing and Services,

pp 163-169, 2013.

[8] H Zeng, Q He, Z Chen, W Ma, and J Ma, “Learning to cluster web search results,” In Proceedings of ACM SIGIR ’04, 2004 [9] J Park, X Gao, and P Andreae, “Query directed web page clustering using suffix tree and wikipedia links,” In Advanced Data Mining and Applications, pp 91-99, 2012.

[10] K Mikolajczyk, T Tuytelaars, C Schmid, A Zisserman, J Matas, F Schaffalitzky, T Kadir, and L Van Gool, “A comparison

of affine region detectors,” International journal of computer vision, vol 65, no 1-2, pp 43-72, 2005.

[11] M Rege, M Dong, and J Hua, “Clustering Web Images with Multi-modal Features,” In Proceedings of the 15th International Conference on Multimedia, pp 317-320, 2007.

[12] S Liu, M Zhu, Q Zheng, “Mining similarities for clustering web video clips,” In CSSE (4), pp 759-762, 2008.

[13] U Srinivasan, S Pfeiffer, S Nepal, M Lee, L Gu, S Barrass,

“A Survey of Mpeg-1 Audio, Video and Semantic Analysis Techniques,” Multimedia Tools and Applications, 27(1), pp

105-141, 2005.

[14] Y Zhao, G Karypis, “Criterion functions for document clus-tering: experiments and analysis,” Technical Report TR01-40, Department of Computer Science, University of Minnesota, 2001 [15] Y.H Li, Z Bandar and D McLean, “An approach for measuring semantic similarity using multiple information sources,” IEEE Transactions on Knowledge and Data Engineering, vol 15, no.

4, pp 871-882, 2003.

Định dạng
Số trang	6
Dung lượng	1,45 MB