Khác nhau từ tác phẩm hiện có trong đó hầu hết các kỹthuật lý luận ngữ nghĩa dựa trên WordNet đã được sử dụng để lựa chọn máydò[27, 20, 19], chúng tôi khám phá thông tin ngữ cảnh gắn liề
Trang 1TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI
KHOA CÔNG NGHỆ THÔNG TIN _
BÀI TẬP LỚN
CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN
Đề tài:
TÌM HIỂU CHUYỂN NGỮ NGHĨA BỐI CẢNH TRÊN NGUỒN KHÔNG
ĐỒNG NHẤT CHO TÌM KIẾM VIDEO TƯƠNG ỨNG
Sinh viên thực hiện: Trịnh Xuân Hinh
Trần Hậu TinPhạm Văn ThànhNhóm 5
Lớp KHMT1-K4Giảng viên hướng dẫn: Ths Nguyễn Hương Lan
Hà Nội, 5/2013
Trang 2M C L C ỤC LỤC ỤC LỤC
L I NÓI Đ UỜI NÓI ĐẦU ẦU 1
I GI I THI UỚI THIỆU ỆU 2
II CÔNG VI CỆU LIÊN QUAN 4
III FLICK B I C NH TỐI CẢNH TƯƠNG TỰ( FCS): ẢNH TƯƠNG TỰ( FCS): ƯƠNG TỰ( FCS):NG T ( FCS):Ự( FCS): 7
IV NG NGHĨA CHUY N B I C NHỮ NGHĨA CHUYỂN BỐI CẢNH ỂN BỐI CẢNH ỐI CẢNH TƯƠNG TỰ( FCS): ẢNH TƯƠNG TỰ( FCS): 9
4.1 Dò l c ngo i tuy n:ọc ngoại tuyến: ại tuyến: ến: 11
4.2 Thích ng tr c tuy n c a truy v n dò tứng trực tuyến của truy vấn dò tương đồng ực tuyến của truy vấn dò tương đồng ến: ủa truy vấn dò tương đồng ấn dò tương đồng ương đồngng đ ngồng 12
V TH NGHI MỬ NGHIỆM ỆU 16
5.1 B d li u và đánh giáộ dữ liệu và đánh giá ữ liệu và đánh giá ệu và đánh giá 16
5.2 Truy v n dò Tấn dò tương đồng ương đồngng t Đo lực tuyến của truy vấn dò tương đồng ường 17ng 5.3 ẢNH TƯƠNG TỰ( FCS):nh hưởng của ngữ nghĩa ngữ cảnh Chuyểnng c a ng nghĩa ng c nh Chuy nủa truy vấn dò tương đồng ữ liệu và đánh giá ữ liệu và đánh giá ảnh Chuyển ển 19
5.3.1 Tham s đ nh y:ố độ nhạy: ộ dữ liệu và đánh giá ại tuyến: 20
5.3.2 T c đ hi u quố độ nhạy: ộ dữ liệu và đánh giá ệu và đánh giá ảnh Chuyển 20
5.4 Th c hi n d a trên các lo i truy v n:ực tuyến của truy vấn dò tương đồng ệu và đánh giá ực tuyến của truy vấn dò tương đồng ại tuyến: ấn dò tương đồng 21
5.5 So sánh các phương đồngng pháp theo t ng giai đo n:ừng giai đoạn: ại tuyến: 22
VI K T LU NẾT LUẬN ẬN 24
VII TÀI LI U THAM KH OỆU ẢNH TƯƠNG TỰ( FCS): 25
Trang 4LỜI NÓI ĐẦU
Tìm kiếm video tự động dựa trên phát hiện khái niệm ngữ nghĩa gần đây đã nhậnđược sự chú ý đáng kể Vì số lượng các máy dò có sẵn là nhỏ hơn so với kích thướccủa ngôn ngữ con người nhiều, một trong những thách thức lớn là lựa chọn thíchhợp để phát hiện các truy vấn người dùng phản ứng Trong bài báo này, chúng tôi
đề xuất một phương pháp mới đó thúc đẩy nguồn tri thức không đồng nhất chomiền tìm kiếm video thích nghi Đầu tiên, thay vì sử dụng WordNet như công trìnhhiện có hầu hết, chúng ta khai thác các thông tin ngữ cảnh kết hợp với hình ảnhFlickr để ước lượng truy vấn tương tự phát hiện Kết quả đo đạc, tên Flickr bối cảnhtương tự (FCS), phản ánh số liệu thống kê xuất hiện đồng thời của các từ trong bốicảnh hình ảnh hơn là ngữ liệu văn bản Bắt đầu từ một máy dò ban đầu thiết lậpđược xác định bởi FCS, cách tiếp cận của chúng tôi novelly chuyển bối cảnh ngữnghĩa học được từ miền thử nghiệm dữ liệu để thích nghi tinh chỉnh các truy vấntương tự máy dò Bối cảnh ngữ nghĩa xuyên fer quá trình cung cấp một phương tiệnhiệu quả để đối phó với sự thay đổi miền giữa nguồn kiến thức bên ngoài (ví dụ,Flickr ngữ cảnh) và dữ liệu thử nghiệm, mà là một vấn đề quan trọng trong tìmkiếm video Với sự hiểu biết của chúng tôi, công việc này đại diện cho nghiên cứuđầu tiên nhằm giải quyết những vấn đề thách thức của sự thay đổi tên miền trongtìm kiếm video Thí nghiệm rộng rãi trên 120 truy vấn văn bản trên TRECVID2005-2008 tập hợp dữ liệu chứng minh tính hiệu quả của chuyển bối cảnh ngữnghĩa cho miền tìm kiếm video thích nghi Kết quả cũng cho thấy FCS là phù hợp
để đo truy vấn tương tự dò, sản xuất hiệu suất tốt hơn để các biện pháp phổ biếnkhác
Trang 5I GIỚI THIỆU
Thúc đẩy bởi số lượng ngày càng tăng của video tích lũy từ một loạt các ứngdụng, có một nhu cầu phát triển hệ thống tự động để tìm kiếm nội dung cóhiệu quả và hiệu quả Khác nhau từ các tài liệu văn bản, trong đó từ nhữngthực thể tự nhiên để tìm kiếm ngữ nghĩa, một đoạn video có thể truyền đạt ýnghĩa ngữ nghĩa hỗn hợp đó là khó khăn cho máy tính để nhận ra, ví dụ, cómột khoảng cách ngữ nghĩa cũng được biết đến giữa các tính năng cấp thấptính toán và ngữ nghĩa mức độ cao Tiến bộ gần đây trong nghiên cứu đaphương tiện đã cho thấy sự tiến bộ đáng khích lệ trong việc sử dụng một tậphợp các mô tả trung gian, phát hiện khái niệm cụ thể là ngữ nghĩa, thu hẹpkhoảng cách ngữ nghĩa Các máy dò là phân loại tự động chỉ mục nội dungvideo với khái niệm ngữ nghĩa chung chung, chẳng hạn như cây và nước.Việc lập chỉ mục của các khái niệm này cho phép người dùng truy cập vàomột cơ sở dữ liệu video bằng cách truy vấn văn bản Trong quá trình tìmkiếm, video clip có nhiều khả năng chứa các khái niệm ngữ nghĩa liên quanđến các từ truy vấn được trả về cho người sử dụng Kịch bản hồi video nàyđược gọi chung là dựa trên khái niệm
tìm kiếm video
Tuy nhiên, do thiếu đào tạo tay dán nhãn mẫu và giới hạn các nguồn tàinguyên tính toán,số lượng phát hiện khái niệm có sẵn cho đến nay vẫn còntrong quy mô của hàng trăm, mà là nhỏ hơn nhiều so với kích thước củangôn ngữ con người Vì vậy, một trong những vấn đề mở là cơ sở phươngpháp tìm kiếm này là sự lựa chọn của máy dò thích hợp cho các truy vấn, đặcbiệt là khi kết hợp trực tiếp từ thất bại Ví dụ, cho một truy vấn tìm thấy bứcảnh của một cái gì đó đốt cháy với ngọn lửa có thể nhìn thấy, cháy nổ vàkhói có thể là phát hiện phù hợp Đặc biệt, tìm kiếm video quy mô lớn màcác thể loại dữ liệu thử nghiệm có thể thay đổi thời gian, mục tiêu đặc điểm
dữ liệu tên miền cần được xem xét trong quá trình lựa chọn dò Ví dụ, mộtmáy dò quân đội có thể liên quan nhiều đến một truy tìm thấy những ảnhphương tiện trong việc tìm kiếm tin tức phát sóng lưu trữ video do nhiều sựkiện tin tức về cuộc chiến tranh (và do đó video hiển thị xe quân sự) ở TrungĐông,, nhưng các mối quan hệ có thể không giữ trong video tài liệu Điềunày mang lại một câu hỏi đầy thách thức: làm thế nào để thích nghi chọn dòkhái niệm dựa trên các dữ liệu tên miền mục tiêu? Bài viết này đề xuất mộtphương pháp mới mà chuyển bối cảnh ngữ nghĩa giữa các nguồn không đồngnhất cho miền tìm kiếm video tương ứng Ở đây bối cảnh ngữ nghĩa có thể
là truy vấn máy dò tương tự hoặc dò từng cặp tương tự, suy ra từ các nguồn
Trang 6kiến thức khác nhau Khác nhau từ tác phẩm hiện có trong đó hầu hết các kỹthuật lý luận ngữ nghĩa dựa trên WordNet đã được sử dụng để lựa chọn máydò[27, 20, 19], chúng tôi khám phá thông tin ngữ cảnh gắn liền với hình ảnhFlickr cho truy vấn máy dò tương tự ước lượng tốt hơn.
Hình 1: Kiến trúc hệ thống cho tên miền tìm kiếm video thích nghi, minh họa sử dụng một truy vấn từ TRECVID 2007.Điểm giống nhau ngữ cảnh Flickr là thứ nhất
áp dụng cho chọn thiết lập máy dò liên quan, sau đó thích nghi hoàn thiện qua chuyển bối cảnh ngữ nghĩa học từ miền dữ liệu mục tiêu Năng suất tìm kiếm về mặt chính xác trung bình trên top 10 ảnh chụp đoạn video được cải thiện 164% sau khi thích ứng miền Danh sách thứ hạng video chụp được được sắp xếp từ trái sang phải và trên xuống dưới (false positives “khi một người dùng không có quyền truy cập vẫn có thể truy cập vào được hệ thống thì được gọi là false positive” được đánh dấu trong hộp màu đỏ)
Đo lường này, được đặt tên Flickr bối cảnh tương tự (FCS), là căn cứ trên số liệuthống kê xuất hiện đồng thời của hai từ trong bối cảnh hình ảnh (ví dụ, thẻ, tiêu đề,
mô tả vv), mặc nhiên phản ánh đồng thời từ trong bối cảnh hình ảnh chứ không phải
là văn bản ngữ liệu Lợi thế này của FCS cho phép một lựa chọn thích hợp hơn củamáy dò để tìm kiếm dữ liệu hình ảnh và video Ví dụ, hai từ Cầu và Sân vận động
có sự liên quan ngữ nghĩa cao trong WordNet, vì cả hai đều rất gần với một xâydựng tổ tiên chung trong hệ thống phân cấp WordNet Tuy nhiên, khi người dùngnâng mức truy vấn tìm bức ảnh của một cây cầu, sân vận động là rõ ràng khôngphải là một phát hiện hữu ích vì nó hiếm khi xuất hiện với cây cầu trong hình ảnh /video Trong khi cho cùng một truy vấn, FCS có thể đề nghị một máy dò phù hợphơn Sông (x Phần 3)
Để đối phó với sự thay đổi miền giữa nguồn kiến thức bên ngoài (ví dụ, Flickr ngữcảnh) và dữ liệu thử nghiệm, chúng tôi đề xuất một thuật toán mới mà hiệu quả lọc
Trang 7ban đầu lựa chọn phát hiện dựa trên ngữ nghĩa bối cảnh học từ miền dữ liệu mụctiêu Chúng tôi xây dựng vấn đề này như một quá trình chuyển bối cảnh ngữ nghĩa
sử dụng kỹ thuật theo quy tắc đa dạng Một nguyên tắc cơ bản của xây dựng của
chúng tôi là các máy dò lựa chọn phải phù hợp với mục tiêu đặc điểm dữ liệu tên
miền Phương pháp của chúng tôi là rất chung chung theo nghĩa là nó có khả năng
học tập những kiến thức miền mục tiêu mà không cần bất kỳ dẫn chú thích thêm.Hình 1 sử dụng một truy vấn từ TRECVID 2007 điểm chuẩn để minh hoạ thêmthích ứng khung tìm kiếm video miền được đề xuất Cho một truy vấn tìm thấynhững ảnh với một người đi bộ hoặc đi xe đạp, các máy dò khái niệm sau {xe đạp,người, đi bộ, đi bộ Chạy, ngựa, chó, giao thông} bắt đầu được lựa chọn bởi FCS từmột hồ bơi máy dò quy định tại LSCOM [18] Mặc dù chúng tôi thấy rằng hầu hếtcác máy dò được lựa chọn phù hợp, một vài trong số đó là không phù hợp với ýnghĩa tổng thể của truy vấn này, chẳng hạn như ngựa và chó (được lựa chọn bởinhững lời truy vấn tương ứng cưỡi và đi bộ tương ứng) Thông qua chuyển ngữcảnh ngữ nghĩa tự động học được từ các dữ liệu thử nghiệm, phương pháp tiếp cậncủa chúng tôi đảm bảo tính nhất quán ngữ nghĩa của các máy dò được lựa chọn.Như thể hiện trong hình 1, nó loại bỏ thành công các khái niệm ngựa và chó, trongkhi đồng thời bổ sung thêm một phát hiện mới ban ngày ngoài trời vào các thiết lậptinh tế bởi vì nó thường xuyên xuất hiện với hầu hết các khái niệm được lựa chọntheo các thử nghiệm miền bối cảnh ngữ nghĩa Quá trình thích ứng này được cảithiện đáng kể hiệu suất tìm kiếm 164% về độ chính xác trung bình trong top 10 bứcảnh phim được xếp hạng
II CÔNG VIỆC LIÊN QUAN
Hệ thống tìm kiếm video truyền thống thường được chiết xuất tính năng cấp thấpcho phù hợp với trực tiếp với người sử dụng truy vấn [26] Cách tiếp cận nàythường xuyên phải đối mặt với những khó khăn trong việc xử lý các truy vấn ngữnghĩa do sự tồn tại của khoảng cách ngữ nghĩa
Gần đây, dựa trên khái niệm tìm kiếm video đã được đề xuất bằng cách tổng hợpmột tập hợp các máy dò ngữ nghĩa trước khi được đào tạo để thu hẹp khoảng cáchngữ nghĩa Các khái niệm ngữ nghĩa bao gồm một loạt các chủ đề, chẳng hạn nhưcác đối tượng (ví dụ, ô tô và xe đạp), cảnh (ví dụ, núi và sa mạc), các sự kiện (ví dụ,Hội nghị và giải trí lý) vv Các máy dò khái niệm có thể hoạt động hữu ích như ngữnghĩa các bộ lọc cho tìm kiếm video [27, 20, 29] Một khuôn khổ tìm kiếm videonày liên quan đến hai nỗ lực quan trọng phát hiện khái niệm ẩn và lựa chọn trựctuyến của các máy dò để tìm kiếm hiệu quả Chung kỹ thuật phát hiện khái niệm đãđược nghiên cứu bởi nhiều nghiên cứu trong những năm gần đây [28, 12] Để xácđịnh một tập hợp các khái niệm để phát hiện, nỗ lực hợp tác đã được gộp lại để
Trang 8đánh giá tính hữu dụng, khả năng quan sát, và tính khả thi của khái niệm [18], dẫnđến một quy mô lớn khái niệm bản luận cho đa phương tiện (LSCOM) trong đó baogồm một từ vựng của hơn 2000 khái niệm và chú thích của 449 khái niệm VớiLSCOM, hai bộ phát hiện, Columbia374 [36] và VIREO-374 [12], đã được pháthành, bao gồm cả tính năng cấp thấp, 374 phát hiện khái niệm (mô hình phân loại),
và điểm phát hiện trên TRECVID 2005, Äì2008 bộ dữ liệu 374 khái niệm là mộttập hợp con của LSCOM với hơn 10 mẫu dương tính được chú thích Ngoài ra, pháthiện một thiết lập thường được sử dụng là MediaMill-101 [28], có-ing 101 pháthiện khái niệm Trên cơ sở bộ phát hiện, dựa trên khái niệm tìm kiếm videođược thực hiện thông qua các lựa chọn dò thích hợp để giải thích ngữ nghĩa truyvấn Việc lựa chọn có thể được thực hiện hoặc thông qua các văn bản phù hợp giữacác từ truy vấn và tên khái niệm [27, 20], hoặc dựa trên điểm số phát hiện của cácmáy dò để truy vấn ví dụ hình ảnh / video [4, 27, 29] Chúng tôi chỉ tập trung vàoviệc xem xét các lựa chọn dựa trên văn bản, vì thực tế nó sẽ là khá khó khăn chongười sử dụng để có được những ví dụ cho các truy vấn của họ Chúng tôi phânchia rộng rãi công trình hiện có cho textbased truy vấn lập bản đồ dò thành hai loạidựa trên nguồn kiến thức thông qua: 1) Mục đích chung bản thể học[27, 20, 19, 30], 2) quy mô lớn Web ngữ liệu [20, 8] Trước đây có giới hạn kiến thức chuyên môn, trong khi sau này có tốt hơn vùng phủ sóng của nội dung, nhưng
nó cũng là ồn ào Bản thể học lập bản đồ dựa trên là căn cứ trên mục đích chung
từ vựng như WordNet [6] Thông qua việc sử dụng thông tin từ WordNet, ví dụ tần
số từ và cấu trúc phân cấp, một số kỹ thuật lập luận bản thể học đã được phát triển
để ước lượng Quan hệ ngôn ngữ của từ Cho một truy vấn văn bản, các máy dò cóthể được chọn trực tuyến dựa trên họ hàng của chúng với những lời truy vấn Cụthể, RES [24] trong đó sử dụng nội dung thông tin để đo lường Quan hệ từ đượcthông qua trong [27, 20] Ngoài ra, Lesk Quan hệ ngữ nghĩa [17] đã được sử dụngtrong [19] để lựa chọn phát hiện Kỹ thuật lập bản đồ dựa trên bản thể học phổ biếnkhác bao gồm Wu & Palmer (WUP) [34], và Jiang & Conrath (JCN) [10] Với các
kỹ thuật lý luận bản thể học, một tác phẩm gần đây trong [30] xây dựng một khônggian vector, tên là bản thể học làm giàu không gian ngữ nghĩa (OSS), bằng cáchxem xét các cặp Quan hệ của các khái niệm Trong cơ chế một cửa, cả hai từ truyvấn và phát hiện khái niệm được biểu diễn như là vectơ, và đo lường Quan hệ suy ra
từ cơ chế một cửa có công đức của toàn cầu nhất quán So với thông tin phong phú
có sẵn trên mạng, kiến thức trong WordNet có nguồn gốc từ nhỏ hơn nhiều và lỗithời corpora (ví dụ, nội dung thông tin được ước lượng từ điển Brown) Thiếu sótlớn của corpora như vậy là phạm vi bảo hiểm thấp từ truy vấn phổ biến và ước tínhkhả năng thiên vị của từ / khái niệm tần số, kích thích nghiên cứu về khai thác các
cơ sở dữ liệu lớn nhất có sẵn trên trái đất Trong [20], Neo và cộng sự mở rộng các
từ truy vấn sử dụng các bài báo internet để giải thích rõ hơn về ngữ nghĩa truy vấn
Trang 9Được mở rộng từ truy vấn này sau đó được sử dụng để lựa chọn phát hiện, hoặcbằng cách phù hợp với văn bản trực tiếp hoặc dựa trên các kỹ thuật lý luận ngữnghĩa bản thể học Một công việc gần đây hơn trong [8] cố gắng để ước tính nộidung thông tin của các từ dựa trên hai trang web dựa trên corpora:
1) mẫu của các trang web mà đã được tải về sử dụng thuật ngữ trong WordNet nhưcác truy vấn;
2) tất cả các trang web lập chỉ mục của Google (khái niệm tần số ước tính hiệu quảbằng cách truy cập trang Google)
Với các trang web dựa trên nội dung thông tin, lựa ch n khái ni m đã đọc ngoại tuyến: ệu và đánh giá ược thựcc th cực tuyến của truy vấn dò tương đồng
hi n s d ng JCN [10] cho tìm ki m video.ệu và đánh giá ử dụng JCN [10] cho tìm kiếm video ụng JCN [10] cho tìm kiếm video ến: Các công trình khác cho vi c ệu và đánh giá ướcctính quan h t s d ng thông tin t các Web bao g m kho ng cách Googleệu và đánh giá ừng giai đoạn: ử dụng JCN [10] cho tìm kiếm video ụng JCN [10] cho tìm kiếm video ừng giai đoạn: ồng ảnh Chuyểnbình thườngng hóa (NGD) [5] và Flickr kho ng cách [33], mà đã không đảnh Chuyển ược thựcc thử dụng JCN [10] cho tìm kiếm video.nghi m trong b i c nh v tìm ki m video Tệu và đánh giá ố độ nhạy: ảnh Chuyển ề tìm kiếm video Tương tự như [8], NGD cũng được ến: ương đồngng t nh [8], NGD cũng đực tuyến của truy vấn dò tương đồng ư ược thựcc
s d ng các trang s truy c p đử dụng JCN [10] cho tìm kiếm video ụng JCN [10] cho tìm kiếm video ố độ nhạy: ập được trả về bởi Google để ước tính ược thựcc tr v b i Google đ ảnh Chuyển ề tìm kiếm video Tương tự như [8], NGD cũng được ởng của ngữ nghĩa ngữ cảnh Chuyển ển ướcc tính quan h t ệu và đánh giá ừng giai đoạn:Trong đi m cho r ng t t c các nh ng phép đo này ph bi n đ u đển ằng tất cả các những phép đo này phổ biến đều được dựa ấn dò tương đồng ảnh Chuyển ữ liệu và đánh giá ổ biến đều được dựa ến: ề tìm kiếm video Tương tự như [8], NGD cũng được ược thựcc d aực tuyến của truy vấn dò tương đồngtrên tài li u văn b n và do đó có th không ph n ánh m i quan h ệu và đánh giá ảnh Chuyển ển ảnh Chuyển ố độ nhạy: ệu và đánh giá xu t hi n ấn dò tương đồng ệu và đánh giá
đ ng th i ồng ờng t trong hình nh / video, kho ng cách Flickr đã đừng giai đoạn: ảnh Chuyển ảnh Chuyển ược thựcc đ xu t b ngề tìm kiếm video Tương tự như [8], NGD cũng được ấn dò tương đồng ằng tất cả các những phép đo này phổ biến đều được dựacách đo tương đồngng t hình nh d a trên các tính năng th giác Phực tuyến của truy vấn dò tương đồng ảnh Chuyển ực tuyến của truy vấn dò tương đồng ị giác Phương pháp này, ương đồngng pháp này,
m c dù đ y h a h n trong ti t l ặc dù đầy hứa hẹn trong tiết lộ ầy hứa hẹn trong tiết lộ ứng trực tuyến của truy vấn dò tương đồng ẹn trong tiết lộ ến: ộ dữ liệu và đánh giá xu t hi n đ ng th i ấn dò tương đồng ệu và đánh giá ồng ờng th giác, là tính toán máyị giác Phương pháp này,tính đ t ti n đ ề tìm kiếm video Tương tự như [8], NGD cũng được ển ướcc tính Quan h c a c p danh t t c các t truy v n phệu và đánh giá ủa truy vấn dò tương đồng ặc dù đầy hứa hẹn trong tiết lộ ấn dò tương đồng ảnh Chuyển ừng giai đoạn: ấn dò tương đồng ổ biến đều được dựa
bi n mà m t ngến: ộ dữ liệu và đánh giá ường ử dụng JCN [10] cho tìm kiếm video ụng JCN [10] cho tìm kiếm video.i s d ng có th s d ng Trong bài báo này, nh đển ử dụng JCN [10] cho tìm kiếm video ụng JCN [10] cho tìm kiếm video ư ược thựcc mô
t trong ph n ti p theo, chúng tôi áp d ng thông tin ng c nh k t h p v iảnh Chuyển ầy hứa hẹn trong tiết lộ ến: ụng JCN [10] cho tìm kiếm video ữ liệu và đánh giá ảnh Chuyển ến: ợc thực ớchình nh Flickr đ đo Quan h t , mà là hi u qu nh NGD t tìm ki m webảnh Chuyển ển ệu và đánh giá ừng giai đoạn: ệu và đánh giá ảnh Chuyển ư ừng giai đoạn: ến:
c a Google và cũng ph n ánh ủa truy vấn dò tương đồng ảnh Chuyển xu t hi n đ ng th i ấn dò tương đồng ệu và đánh giá ồng ờng hình nh c a các t (x Ph nảnh Chuyển ủa truy vấn dò tương đồng ừng giai đoạn: ầy hứa hẹn trong tiết lộ 5.2) Trong khi vi c l a ch n phát hi n đã đệu và đánh giá ực tuyến của truy vấn dò tương đồng ọc ngoại tuyến: ệu và đánh giá ược thựcc nghiên c u trong công trìnhứng trực tuyến của truy vấn dò tương đồngkhác nhau, v n đ thay đ i tên mi n trong tìm ki m video v n ch a đấn dò tương đồng ề tìm kiếm video Tương tự như [8], NGD cũng được ổ biến đều được dựa ề tìm kiếm video Tương tự như [8], NGD cũng được ến: ẫn chưa được ư ược thựccnghiên c u đ y đ Trong cách ti p c n hi n t i [27, 8, 19, 30], các máy dòứng trực tuyến của truy vấn dò tương đồng ầy hứa hẹn trong tiết lộ ủa truy vấn dò tương đồng ến: ập được trả về bởi Google để ước tính ệu và đánh giá ại tuyến:
được thựcc ch n sẽ đọc ngoại tuyến: ược thựcc áp d ng tr c ti p đ đáp ng m t truy v n mà không xemụng JCN [10] cho tìm kiếm video ực tuyến của truy vấn dò tương đồng ến: ển ứng trực tuyến của truy vấn dò tương đồng ộ dữ liệu và đánh giá ấn dò tương đồngxét d li u đ c tr ng c a mi n m c tiêu K t khi l a ch n đữ liệu và đánh giá ệu và đánh giá ặc dù đầy hứa hẹn trong tiết lộ ư ủa truy vấn dò tương đồng ề tìm kiếm video Tương tự như [8], NGD cũng được ụng JCN [10] cho tìm kiếm video ển ừng giai đoạn: ực tuyến của truy vấn dò tương đồng ọc ngoại tuyến: ược thựcc th c hi nực tuyến của truy vấn dò tương đồng ệu và đánh giá
d a trên m t trong hai b n th h c ho c các ngu n web, thay đ i tên mi nực tuyến của truy vấn dò tương đồng ộ dữ liệu và đánh giá ảnh Chuyển ển ọc ngoại tuyến: ặc dù đầy hứa hẹn trong tiết lộ ồng ổ biến đều được dựa ề tìm kiếm video Tương tự như [8], NGD cũng được
x y ra trong h u h t các trảnh Chuyển ầy hứa hẹn trong tiết lộ ến: ườngng h p trong tìm ki m video Trong bài báo này,ợc thực ến:chúng tôi xem xét v n đ đ y thách th c này thông qua các l a ch n thích ngấn dò tương đồng ề tìm kiếm video Tương tự như [8], NGD cũng được ầy hứa hẹn trong tiết lộ ứng trực tuyến của truy vấn dò tương đồng ực tuyến của truy vấn dò tương đồng ọc ngoại tuyến: ứng trực tuyến của truy vấn dò tương đồngphát hi n d a trên b i c nh h c ng nghĩa t mi n m c tiêu Nh m t th c tệu và đánh giá ực tuyến của truy vấn dò tương đồng ố độ nhạy: ảnh Chuyển ọc ngoại tuyến: ữ liệu và đánh giá ừng giai đoạn: ề tìm kiếm video Tương tự như [8], NGD cũng được ụng JCN [10] cho tìm kiếm video ư ộ dữ liệu và đánh giá ực tuyến của truy vấn dò tương đồng ến:
đ nh n ra t m quan tr ng c a vi c đ i phó v i thay đ i d li u tên mi n, cóển ập được trả về bởi Google để ước tính ầy hứa hẹn trong tiết lộ ọc ngoại tuyến: ủa truy vấn dò tương đồng ệu và đánh giá ố độ nhạy: ớc ổ biến đều được dựa ữ liệu và đánh giá ệu và đánh giá ề tìm kiếm video Tương tự như [8], NGD cũng đượcnhi u cách ti p c n mi n truy n h c phát tri n trong máy h c t p c ng đ ngề tìm kiếm video Tương tự như [8], NGD cũng được ến: ập được trả về bởi Google để ước tính ề tìm kiếm video Tương tự như [8], NGD cũng được ề tìm kiếm video Tương tự như [8], NGD cũng được ọc ngoại tuyến: ển ọc ngoại tuyến: ập được trả về bởi Google để ước tính ộ dữ liệu và đánh giá ồng[2, 23] và lĩnh v c ng d ng khác nhau, ch ng h n nh phân lo i văn b nực tuyến của truy vấn dò tương đồng ứng trực tuyến của truy vấn dò tương đồng ụng JCN [10] cho tìm kiếm video ẳng hạn như phân loại văn bản ại tuyến: ư ại tuyến: ảnh Chuyển[35], x lý ngôn ng t nhiên [ 9], và g n đây nh t, ng nghĩa khái ni m phátử dụng JCN [10] cho tìm kiếm video ữ liệu và đánh giá ực tuyến của truy vấn dò tương đồng ầy hứa hẹn trong tiết lộ ấn dò tương đồng ữ liệu và đánh giá ệu và đánh giá
Trang 10hi n [37, 11] Khác v i nh ng tác ph m đệu và đánh giá ớc ữ liệu và đánh giá ẩm được tất cả các thiết kế cho nhiệm vụ ược thực ấn dò tương đồng ảnh Chuyểnc t t c các thi t k cho nhi m vến: ến: ệu và đánh giá ụng JCN [10] cho tìm kiếm video.phân lo i, phại tuyến: ương đồngng pháp ti p c n c a chúng tôi nh m m c đích thích ng v iến: ập được trả về bởi Google để ước tính ủa truy vấn dò tương đồng ằng tất cả các những phép đo này phổ biến đều được dựa ụng JCN [10] cho tìm kiếm video ứng trực tuyến của truy vấn dò tương đồng ớc
s gi ng nhau truy v n phát hi n, không mô hình phân lo i, cho tên mi n tìmực tuyến của truy vấn dò tương đồng ố độ nhạy: ấn dò tương đồng ệu và đánh giá ại tuyến: ề tìm kiếm video Tương tự như [8], NGD cũng được
ki m video thích nghi.ến:
III FLICK BỐI CẢNH TƯƠNG TỰ( FCS):
Việc thực hành ngày càng tăng của chia sẻ hình ảnh trực tuyến đã dẫn đếnmột số lượng lớn các hình ảnh người tiêu dùng có thể truy cập trực tuyến.Ngoài các nội dung hình ảnh phong phú, một khía cạnh hấp dẫn của các hoạtđộng chia sẻ hình ảnh như vậy là thông tin ngữ cảnh được tạo ra bởi người
sử dụng để mô tả các bức ảnh Như thể hiện trong hình 2 (a), các thông tinngữ cảnh phong phú bao gồm tiêu đề, thẻ, mô tả và bình luận, mà đã được sửdụng cho các ứng dụng khác nhau, chẳng hạn như biểu tượng của thế hệ hìnhảnh [16], từ khóa định hướng [32] ảnh, và dựa trên địa điểm tổ chức [1].Trong phần này, chúng tôi khám phá thông tin bối cảnh như vậy để đo lườngtương tự từ, nhằm phản ánh của họ
Hình 2: (a) thông tin ngữ cảnh phong phú kết hợp với một hình ảnh Flickr (b) Tổng
số hình ảnh quay trở lại sử dụng từ khóa tìm kiếm dựa trên trong bối cảnh hình ảnhFlickr
Trang 11thống kê xuất hiện đồng thời trong dữ liệu hình ảnh chứ không phải là corpora vănbản được sử dụng trong [27, 20, 19, 8, 5] Với hai từ, chúng tôi tính toán họ hàngcủa chúng dựa trên số lượng hình ảnh Flickr liên kết với chúng Với số lượng kếtquả trả về của Flickr, chúng tôi áp dụng NGD bắt nguồn từ lý thuyết phức tạpKolmogorov để ước tính từ khoảng cách [5]:
trong đó h (x) là số hình ảnh liên quan với từ x trong bối cảnh của họ, và h (x, y) là
số hình ảnh liên quan đến cả hai từ x và y; N là tổng số các hình ảnh trên Flickr, đó
là tạm ước tính như 3,5 tỷ USD vào thời điểm chúng tôi đã làm các thí nghiệm CácNGD sau đó được chuyển lên Flickr bối cảnh tương tự (FCS) sử dụng một hạt nhânGaussian, được định nghĩa như:
đâu tham số ρ là theo kinh nghiệm bộ máy khi từng đôi số trung bình - khôn ngoanNGD giữa ngẫu nhiên vũng tập hợp các từ Đường tương tự của đặt ρ đã trưng bày
để có hiệu quả cho nhiệm vụ phân loại cơ sở nhân [ 38 ] Thí dụ của tính FCS đượctrình bày trong Hình 2 ( b )
Ưu điểm chính của việc sử dụng thông tin ngữ cảnh đầy đủ thay vì thẻ mình là bảohiểm tốt hơn của từ Hình 3 cho thấy tần số của 374 LSCOM khái niệm trong nhiềunguồn khác nhau bao gồm cả Google tìm kiếm web, Flickr bối cảnh hình ảnh / thẻ,
và LSCOM dẫn các chú thích trên TRECVID 2005 bộ phát triển (43.873 bức ảnh)
Rõ ràng là Google tìm kiếm web có bảo hiểm tốt nhất: các khái niệm hiếm nhất vẫncòn xuất hiện trong 2120 trang web Ngoài ra, nó có thể được nhìn thấy rõ ràng rằngphạm vi khái niệm về bối cảnh Flickr là tốt hơn nhiều so với thẻ Flickr Chỉ có 2khái niệm có tần số không trong bối cảnh, trong khi trong các thẻ, 53 khái niệm đãkhông được tìm thấy Mặc dù vùng phủ sóng của bối cảnh Flickr là không tốt nhưtìm kiếm web của Google, như sẽ được hiển thị trong các thí nghiệm, nó có côngđức của phản ánh hình ảnh xuất hiện đồng thời của các từ
Nó là đáng giá để chỉ ra rằng các nguồn dựa trên web có thực sự nhiễu Ví dụ, độchính xác của các thẻ Flickr đã được tìm thấy vào khoảng 50% [15] Vấn đề nhiễucũng tồn tại trong nhiều trang web được lập chỉ mục của Google Một trang web cóthể chứa nhiều đoạn văn của văn bản thảo luận về chủ đề sự khác biệt, kết quả ướctính sai lệch của từ xuất hiện đồng thời Tuy nhiên, như đã được ghi nhận trong [5],tiếng ồn như vậy có thể được một phần làm tăng kích thước cơ sở dữ liệu khổng lồ
Trang 12Điều này có thể được giải thích bằng trực giác bởi thực tế là hai từ không liên quan
có thể thỉnh thoảng cùng xảy ra do nhiễu, nhưng có lẽ không thường xuyên Nóicách khác, khi cơ sở dữ liệu tăng kích thước, số lượng xuất hiện đồng thời của hai
từ có liên quan chủ yếu sẽ tăng với tốc độ nhanh hơn nhiều so với giữa hai từ khôngliên quan Trong khi chúng tôi tin rằng các kỹ thuật như thẻ định hướng [32] và nộidung dựa trên hình ảnh kiểm điểm (Flickr khoảng cách [33]) là đầy hứa hẹn để giảmbớt vấn đề tiếng ồn, thực tế FCS là một cách dễ dàng hơn và rẻ hơn để đo lường thịgiác đồng sự xuất hiện của tất cả các từ trong từ vựng của con người
IV NGỮ NGHĨA CHUYỂN BỐI CẢNH
Phần này mô tả thuật toán bối cảnh của chúng tôi chuyển ngữ nghĩa Chúng tôi bắtđầu bằng cách xác định một vài ký hiệu Hãy để C = {c1, c2, • • •, cm} là một từvựng ngữ nghĩa của các khái niệm m và {Xtrn, Ytrn} là một dữ liệu huấn luyệnđược thiết lập, trong đó Ytrn là nhãn tập dữ liệu chuẩn của Xtrn Dựa trên tập huấnluyện, một phân loại / máy phát hiện được phát triển cho từng khái niệm ci bằngcách sử dụng bất kỳ thuật toán học có giám sát, chẳng hạn như SVMs Một mảnhthông tin hữu ích mà có thể được học từ tập huấn luyện là mối quan hệ giữa cáckhái niệm, có thể dễ dàng tính toán dựa trên mối tương quan của nhãn tập dữ liệuchuẩn Chính thức, được biểu diễn như
{Xtrn , Ytrn } → {Wtrn , D}, (3)trong đó D biểu thị một chức năng phát hiện khái niệm cho các khái niệm m vàWtrn ∈ Rm × m biểu thị mối quan hệ khái niệm cặp Wij giá trị lớn trong Wtrn cónghĩa là hai khái niệm ci và cj thường xuyên cùng xảy ra (ví dụ, xe hơi và đườngbộ) Chức năng phát hiện sau đó được áp dụng cho một dữ liệu mục tiêu thiết lậpXtgt chứa n mẫu thử và tạo ra số điểm phát hiện:
Với wq và phát hiện khái niệm Ftgt số điểm, số điểm liên quan của các mẫu ở Xtgt
để q được tính như:
trong đó f (q) ∈ R1 × được sử dụng để sắp xếp các mẫu truy vấn đáp ứng q Trong thực tế, nó không phải là cần thiết để xem xét tất cả các máy dò có sẵn mcho mỗi từ truy vấn Một phát hiện thực tế phổ biến là sử dụng một wq thưa thớtbằng cách chọn k có liên quan dò cho mỗi từ truy vấn, và sau đó vùng chứa được
Trang 13lựa chọn từ tất cả các từ để đánh giá f (q) Phương trình 5 trực tiếp áp dụng họctương tự từ các nguồn bên ngoài, tức là, s (q, c), trộn lẫn các máy dò được huấnluyện riêng lẻ từ một tập huấn luyện Trong khi kiến thức bên ngoài là được thừahưởng một phần không thể thiếu quan trọng là s (q, ci) đang được thừa hưởng mộtphần không thể thiếu quan trọng là s (q, ci) và f (ci) không xem xét các đặc điểm dữliệu của tên miền mục tiêu Các Xtgt có thể là trong một lĩnh vực cụ thể hơn nhữngkiến thức bên ngoài, trong khi cũng khác nhau từ phân phối dữ liệu của Xtrn tậphuấn luyện Phần này đề cập vấn đề này bằng cách trình bày thuật toán bước mộthai cuốn tiểu thuyết ngữ nghĩa chuyển ngữ cảnh Cụ thể, thuật toán nhằm mục đíchchuyển bối cảnh ngữ nghĩa suy ra từ tên miền mục tiêu để thích ứng với f (ci) và s(q, ci) Sự thích nghi trước đây là offline được tiến hành bởi các khi Xtgt đến, trongkhi sau này được tính toán trên bay khi truy vấn được phát hành Chuyển ngữ nghĩabối cảnh offline.Do ban đầu phát hiện số điểm Ftgt và mối quan hệ khái niệm matrận Wtrn, trong đó có nguồn gốc từ tập huấn luyện Xtrn chuyển bối cảnh ngữnghĩa offline thích ứng với mối quan hệ khái niệm Wtrn theo để nhắm mục tiêumiền dữ liệu đặc trưng.Các mối quan hệ khái niệm thích nghi, Wtgt, tiếp tục lọcphát hiện số điểm:
trong đó F là số điểm dò lọc Bước này về cơ bản là một quá trình dựa trên bối cảnhkhái niệm hợp nhất, đó là đề xuất ban đầu trong [13], trong đó chúng ta đặt tên cho
nó như miền thích ứng phổ biến ngữ nghĩa
Chuyển ngữ nghĩa bối cảnh trực tuyến Vector w cho một truy vấn q được ướclượng từ nguồn kiến thức bên ngoài, rõ ràng là không thể mô tả chính xác các truyvấn dò tương tự trong một tên miền mới Chuyển ngữ nghĩa bối cảnh trực tuyếnnhằm mục đích đồng thời thích nghi và cập nhật w f (q) dựa trên mục tiêu đặc điểm
trong đó w và f (q) có chứa các cập nhật tương tự truy vấn, phát hiện và lọc điểmtruy vấn liên quan tương ứng này Trong phần tiếp theo, chúng tôi giới thiệu ngắngọn của chúng tôi xây dựng cho chuyển offline, trên cơ sở đó chúng tôi lấy đượcthuật toán chuyển trực tuyến, mà là trọng tâm chính của bài viết này
Trang 144.1 Dò lọc ngoại tuyến:
Trước tiên chúng ta xây dựng các chuyển bối cảnh ngữ nghĩa Offline cho các sànglọc của khái niệm máy dò điểm xem xét thực tế là sự phân bố dữ liệu có thể thayđổi giữa X và X, để xử lý vấn đề này, chuyển bối cảnh ngữ nghĩa nên được điều tra
để suy ra một khái niệm tốt hơn mối quan hệ W
Để đạt được điều này, chúng tôi xác định một hàm mạo hiểm:
Trong đó: F là khái niệm máy dò điểm đã lọc wtgt mối quan hệ phù hợp
Cụ thể, hàm rủi ro có chứa hai thành phần: hạn chế thống nhất trong nội bộ miền vàthay đổi liên miền chính tắc, định nghĩa là:
trong đó f (ci) là số điểm dự đoán cho khái niệm về c trên mẫu thử nghiệm trongphạm vi của mục tiêu; w và w đại diện cho các mối quan hệ của khái niệm c và ctrong huấn luyện và kiểm tra dữ liệu mục tiêu tương ứng; λ nắm bắt được sự cânbằng giữa hai thuật ngữ
Hàm rủi ro này có thể được giải thích trực quan như sau:
Thứ nhất, hạn chế thống nhất trong nội bộ miền đảm bảo điểm phát hiện khái niệmtương tự nếu hai khái niệm liên quan chặt chẽ với nhau, ví dụ wij là lớn Nói cáchkhác, giảm thiểu J làm cho các điểm phát hiện phù hợp với các khái niệm mối quan
hệ Thứ hai, sự thay đổi liên miền chính tắc có nghĩa là khái niệm phù hợp mối quan
hệ Wtgt không nên đi chệch quá nhiều từ ban đầu là một Wtrn Giả thuyết tương tựcũng được áp dụng trong phân loại phương pháp tiếp cận học tập chuyển giao như[35] Do đó làm giảm giá trị của J cho phép sàng lọc đồng thời cả số điểm phát hiện
và khái niệm mối quan hệ Để giảm thiểu J, chúng tôi viết lại nó thành dạng matrận: