Our framework then automatically extracts the relevant audio and video features.. Using the training data, our proposed k-NN– based model selects the nearest feature vectors and their co
Trang 1VI N ĐÀO T O SAU Đ I H C Ệ Ạ Ạ Ọ
BÁCH KHOA HÀ N I Ộ
o0o
TI U LU N KHOA H C Ể Ậ Ọ TÍNH TOÁN KH P N I VÀ DI Đ NG Ắ Ơ Ộ
Descriptive and Subjective Captioning of Behavioral Videos.
Gi ng viên hả ướng d n: ẫ PGS Ngô H ng S nồ ơ
H c viên th c hi n: ọ ự ệ Bùi Khánh Trình
Đoàn Văn V nơ
Trang 2L i m đ u ờ ở ầ
Nh ng nh n xét do ngữ ậ ười dùng t o ra trong các phạ ương ti n truy nệ ề thông xã h i tr c tuy n g n đây đã tr nên ngày càng độ ự ế ầ ở ược chú ý nh m tư ộ ngu n chú thích mô t chung cho các đ i tồ ả ố ượng kỹ thu t s nh nh ho cậ ố ư ả ặ video B i vì m i ngở ỗ ười có trình đ chuyên môn khác nhau nên ch t lộ ấ ượng
c a ý ki n ủ ế c a h có th khác nhau t r t h u ích cho đ n hoàn toàn vôủ ọ ể ừ ấ ữ ế
d ng M c đích c a chúng tôi là cung c p s h tr t đ ng cho vi c ki mụ ụ ủ ấ ự ỗ ợ ự ộ ệ ể soát các ý ki n ế h u ích do ngữ ười dùng t o ra t các ngu n công khai c aạ ừ ồ ủ các đ i tố ượng kỹ thu t s Sau khi xây d ng m t tiêu chu n vàng có ngu nậ ố ự ộ ẩ ồ
g c t các ý ki n ố ừ ế h u ích và không h u ích, chúng tôi s d ng các phữ ữ ử ụ ương pháp h c t p máy chu n đ phát tri n m t trình phân lo i h u ích, khámọ ậ ẩ ể ể ộ ạ ữ phá tác đ ng c a các tính năng d a trên bi u c m khuôn m t, cú pháp, ngộ ủ ự ể ả ặ ữ
Trang 3nghĩa và các bi u hi n thu c tính ngôn ng c a ngể ệ ộ ữ ủ ười nói Sau đó chúng tôi
áp d ng mô hình hi n t i v phát hi n t n su t s d ng trình phân lo i đãụ ệ ạ ề ệ ầ ấ ử ụ ạ
h c đ đi u tra các m u trong văn hoá nh n xét c a hai n n t ng truy nọ ể ề ẫ ậ ủ ề ả ề thông xã h i ph bi n Chúng tôi nh n th y r ng t l ph bi n c a ý ki nộ ổ ế ậ ấ ằ ỷ ệ ổ ế ủ ế
H U ÍCH là n n t ng c th và ch u nh hỮ ề ả ụ ể ị ả ưởng nhi u h n t phề ơ ừ ương ti nệ truy n thông khi nh n xét v (ngề ậ ề ười, đ a đi m, s ki n), kho ng th i gianị ể ự ệ ả ờ (ví d năm c a s ki n) và m c đ phân c c gi a các bình lu n.ụ ủ ự ệ ứ ộ ự ữ ậ
Gi i thi u ớ ệ
ROC Comment, v i m c đích t o ra các nh n xét v ngôn ng tớ ụ ạ ậ ề ữ ự nhiên d a trên các hành vi trong video Chúng tôi t p trung vào lĩnh v c nóiự ậ ự
trước công chúng mà nhi u ngề ười coi đó là n i s hãi l n nh t c a h ỗ ợ ớ ấ ủ ọ Chúng tôi thu th p m t b d li u c a 196 đo n phim nói trậ ộ ộ ữ ệ ủ ạ ước công chúng t 49 cá nhân và t p h p 12173 nh n xét, do h n 500 ngừ ậ ợ ậ ơ ườ ội đ c lâp đánh giá Sau đó chúng tôi đào t o mô hình d a trên k-NearestNeighbor (k-ạ ự NN) b ng cách trích xu t các tính năng đ n (ví d : âm lằ ấ ơ ụ ượng) và khuôn
m t (ví d : cặ ụ ười) V i m t video m i, chúng tôi trích xu t các tính năng vàớ ộ ớ ấ
ch n các nh n xét g n nh t s d ng mô hình k-NN Chúng tôi ti p t c l cọ ậ ầ ấ ử ụ ế ụ ọ các nh n xét b ng cách nhóm chúng b ng DBScan và lo i tr các nh n xétậ ằ ằ ạ ừ ậ không liên quan Mô hình đã được tri n khai tr c tuy n, cho phép các cáể ự ế nhân t i lên các video c a h và nh n đả ủ ọ ậ ược các nh n xét m và di n gi i.ậ ở ễ ả
Hãy tưởng tượng r ng b n mu n nh n đằ ạ ố ậ ược ph n h i đ nh tính vả ồ ị ề bài phát bi u mà b n chu n b M t kh năng n a là đ ghi l i chính mìnhể ạ ẩ ị ộ ả ữ ể ạ
và chia s video v i nh ng ngẻ ớ ữ ười mà b n tin tạ ưởng Tuy nhiên, quá trình
đó không đ m b o ph n h i ngay l p t c và m t s ngả ả ả ồ ậ ứ ộ ố ườ ẫi v n c m th yả ấ không tho i mái chia s video c a h Đả ẻ ủ ọ ược thúc đ y b i nh ng ti n bẩ ở ữ ế ộ
g n đây v hình nh và chú thích video t đ ng, chúng tôi khám phá ýầ ề ả ự ộ
tưởng t đ ng t o các nh n xét ch quan cho các video Nh ng nghiên c uự ộ ạ ậ ủ ữ ứ
trước v ph đ t đ ng nh m t o ra m t mô t ngôn ng t nhiên v cácề ụ ề ự ộ ằ ạ ộ ả ữ ự ề
đ i tố ượng và các ho t đ ng trong m t hình nh / video Các video nh nóiạ ộ ộ ả ư
trước công chúng ho c video ph ng v n vi c làm ch a đặ ỏ ấ ệ ư ược nghiên c uứ trong ng c nh này Vi c t o bình lu n v hành vi trong video v n là m tữ ả ệ ạ ậ ề ẫ ộ
n l c khó khăn - ch y u b i vì nó không ch là phân tích các đi m nhỗ ự ủ ế ở ỉ ể ả
ho c thu c tính c a dãy hình nh mà còn hi u đặ ộ ủ ả ể ược s bi n thiên c aự ế ủ
nh ng khác bi t đó có th thêm vào các đ xu t ho c mô t có th th cữ ệ ể ề ấ ặ ả ể ự
hi n đệ ược liên quan đ n th gi i th c (ví d nói trế ế ớ ự ụ ước công chúng)
Trang 4Trong bài báo này, chúng tôi t p trung vào lĩnh v c nói trậ ự ước công chúng, gây ra s lo l ng, s hãi và th m chí là các cu c t n công ho ngự ắ ợ ậ ộ ấ ả
lo n S d ng giao di n c a chúng tôi (Nh n xét c a ROC), b t kỳ ai cũngạ ử ụ ệ ủ ậ ủ ấ
có th ghi l i bài phát bi u và nh n ý ki n ể ạ ể ậ ế nh n xét v ch t lậ ề ấ ượng c a nóủ
mà không ph i chia s video v i ngả ẻ ớ ười khác
Đ đào t o mô hình này, chúng tôi đã thu th p m t b d li u c aể ạ ậ ộ ộ ữ ệ ủ
196 đo n phim nói trạ ước công chúng t 49 cá nhân v i 12173 ý ki n ừ ớ ế từ
h n 500 con ngơ ười M i ngỗ ười cung c p ý ki n ấ ế ch quan v kỹ năng nóiủ ề
trước công chúng c a ngủ ười nói Đ i v i m i nh n xét, chúng tôi sẽ t o raố ớ ỗ ậ ạ
th b t đ u b ng # h u ích đ tóm t t nh n xét S li u c a chúng tôi choẻ ắ ầ ằ ữ ể ắ ậ ố ệ ủ
th y r ng các video là t nhiên, đấ ằ ự ược thu th p b ng cách cho phép ngậ ằ ười tham gia ghi l i chính mình trong môi trạ ường c a h b ng máy tính xáchủ ọ ằ tay c a h Video đủ ọ ược đánh giá đ c l p, đ a ra nhãn ch quan và di nộ ậ ư ủ ễ
gi i, cùng v i thông tin v th i gian liên quan đ n nh ng hành vi đó x y raả ớ ề ờ ế ữ ả trong video H th ng c a chúng tôi sẽ t đ ng chi t xu t các tính năng âmệ ố ủ ự ộ ế ấ thanh (ví d : âm lụ ượng) và video (ví d : n cụ ụ ười) t video đào t o và s pừ ạ ắ
x p các tính năng v i các nh n xét do con ngế ớ ậ ườ ại t o ra đ hu n luy n môể ấ ệ hình d a trên k-neighbour (k-NN) Trong giai đo n th nghi m, ngự ạ ử ệ ười dùng t i lên m t video t đó chúng tôi trích xu t các tính năng m t và tínhả ộ ừ ấ ặ năng âm thanh S d ng c a s th i gian, sau đó chúng tôi k t h p các tínhử ụ ử ổ ờ ế ợ năng trong video th nghi m và ch n k (= 10) c a s trong các video đàoử ệ ọ ử ổ
t o có các vect tính tạ ơ ương t T nh ng c a s đã ch n, chúng tôi thuự ừ ữ ử ổ ọ
th p nh n xét Đ phát hi n các ý ki n không liên quan và quá riêng bi t,ậ ậ ể ệ ế ệ chúng tôi gom
Figure 1: Using our interface, a user can record and upload his or her video Our framework then automatically extracts the relevant audio and video features Using the training data, our proposed k-NN– based model selects the nearest feature vectors and their corresponding comments Using pairwise BLEU
scores and DBScan, the outlier comments are identified and filtered from the output.
Trang 5c m ý ki n đã ch n và tìm ra nh ng đi m ngoài cùng s d ng m t đ d aụ ế ọ ữ ể ử ụ ậ ộ ự trên clustering (DBScan) [7] Chúng tôi s d ng đi m BLEU [10] làm ch sử ụ ể ỉ ố
đ g n c a thu t toán phân c m Do đó, giao di n phát tri n c a chúng tôiộ ầ ủ ậ ụ ệ ể ủ
có th l y các nh n xét có liên quan cho các video th nghi m m i b ngể ấ ậ ử ệ ớ ằ cách phân tích các bi u hi n trên khuôn m t và các thu c tính khác c aể ệ ặ ộ ủ
người tham gia Chúng tôi tích h p mô hình c a mình v i giao di n ngợ ủ ớ ệ ười dùng d a trên web hoàn ch nh, hoàn toàn tự ỉ ự đ ngộ (http://tinyurl.com/roccomment) và cho phép các cá nhân t i lên và ghi l iả ạ các video c a h và nh n đủ ọ ậ ược các k t lu n m , ý ki n xây d ng, v i cácế ậ ở ế ự ớ
th tóm t t nh n xét c a h Đ xác nh n tính h p l nh n xét c a ROCẻ ắ ậ ủ ọ ể ậ ợ ệ ậ ủ Comment, chúng tôi đã ti n hành nghiên c u ngế ứ ười dùng v i 30 ngớ ười tham gia K t qu nghiên c u cho th y r ng nh ng ngế ả ứ ấ ằ ữ ười tham gia đã
nh n đậ ược các nh n xét và th h u ích.ậ ẻ ữ
T ng quan ổ
Trong vài năm g n đây, đã có m t s quan tâm ngày càng tăng đ i v iầ ộ ự ố ớ
ph đ hình nh t đ ng trong c t m nhìn máy tính l n c ng đ ng x lýụ ề ả ự ộ ả ầ ẫ ộ ồ ử ngôn ng t nhiên M c tiêu c a ph đ hình nh t đ ng là đ t o ra môữ ự ụ ủ ụ ề ả ự ộ ể ạ
t dả ường nh con ngư ườ ủi c a m t hình nh Các phộ ả ương pháp mô t hìnhả
nh hi n t i có th đ c phân lo i thành hai nhóm: (1) cách ti p c n d a
trên k-nearest-neighbor (k-NN) và (2) cách ti p c n sâu d a trên m ng n -ế ậ ự ạ ơ ron (deep neural network–based)
Các mô hình d a trên k-NN đ n gi n là khái ni m và đã đự ơ ả ệ ược hi nể
th đ làm vi c t t cho hình nh captioning [4,11] Nh ng phị ể ệ ố ả ữ ương pháp này d a vào t p d li u hu n luy n bao g m m t b s u t p l n các hìnhự ậ ữ ệ ấ ệ ồ ộ ộ ư ậ ớ
nh, m i nhãn đ c g n nhãn v i m t ho c nhi u ph đ do con ng i
t o ra Các phạ ương pháp này trích xu t k hình nh đào t o mà h u h t làấ ả ạ ầ ế
tương t nh m t hình nh th nghi m và t o ra m t chú thích m i d aự ư ộ ả ử ệ ạ ộ ớ ự trên ph đ c a con ngụ ề ủ ườ ại t o ra các hình nh đào t o Các kỹ thu t sauả ạ ậ
x lý ti p theo đã đử ế ược áp d ng đ c i thi n kh năng t ng quát và tínhụ ể ả ệ ả ổ liên quan c a ph đ ủ ụ ề
Các mô hình mô t hình nh d a trên m ng n -ron (deep neuralả ả ự ạ ơ network–based) cùng nhau h c m t mô hình ngôn ng th n kinh cho phọ ộ ữ ầ ụ
đ trong d li u hu n luy n và s p x p các vùng hình nh khác nhau b ngề ữ ệ ấ ệ ắ ế ả ằ các t ho c c m t từ ặ ụ ừ ương ng trong các chú thích [10,17] M c dù các môứ ặ
Trang 6hình này ho t đ ng t t trong th c t , nh ng chúng khó đào t o h n và đòiạ ộ ố ự ế ư ạ ơ
h i s lỏ ố ượng l n d li u đào t o đ tránh b l m d ng.ớ ữ ệ ạ ể ị ạ ụ
M t s bài báo g n đây cũng đã nghiên c u v n đ chú thích videoộ ố ầ ứ ấ ề
t đ ng V i m t đo n video ng n, các phự ộ ớ ộ ạ ắ ương pháp này t o ra m t câuạ ộ ngôn ng t nhiên mô t các đ i tữ ự ả ố ượng và các ho t đ ng x y ra trong clipạ ộ ả
đó M t s công vi c bao g m t o ra m t bi u di n ng nghĩa c a n iộ ố ệ ồ ạ ộ ể ễ ữ ủ ộ dung th giác thông qua đào t o m t trị ạ ộ ường ng u nhiên có đi u ki n [12],ẫ ề ệ
s d ng m ng n -ron xo n và tái di n [16] và s d ng m t c u trúc câyử ụ ạ ơ ắ ễ ử ụ ộ ấ
ph thu c và m ng n -ron sâu [18] đ t o mô t c a video clip ng n.ụ ộ ạ ơ ể ạ ả ủ ắ
Trong bài báo này, chúng tôi mô t cách chúng tôi áp d ng k-NN đả ụ ể
t đ ng t o ra ý ki n ự ộ ạ ế gi i thích và h u ích cho các video hành vi, m t v nả ữ ộ ấ
đ ch a đề ư ược khám phá trước đây
H th ng ệ ố
Chúng tôi đã phát tri n m t h th ng trên web, n i m i ngể ộ ệ ố ơ ọ ười có thể
t i lên video đã ghi hình trả ước ho c ghi l i các đo n video nói trặ ạ ạ ước công chúng và t đ ng nh n các nh n xét M t ví d đ u ra đự ộ ậ ậ ộ ụ ầ ược th hi n trongể ệ hình 2 Người dùng có th xemể
video c a h trong khi đ c cácủ ọ ọ
nh n xét Hình 1 cho th y ch cậ ấ ứ
năng t ng th c a h th ngổ ể ủ ệ ố
Nh n xét ROC Chúng tôi đã chi tậ ế
xu t các tính năng m t và tínhấ ặ
đ n đi u t các video đào t o vàơ ệ ừ ạ
nh n đậ ược ý ki n v i timestampsế ớ
t ngừ ười bình lu n Các tính năng sau đó đậ ược s p x p theo ý ki n b ngắ ế ế ằ cách s d ng d u th i gian Module t o bình lu n bao g m mô hình d aử ụ ấ ờ ạ ậ ồ ự trên k-NN và phương pháp l c d a trên c m T m t video th nghi m,ọ ự ụ ừ ộ ử ệ
mô hình d a trên k-NN ch n các bình lu n s d ng các tính năng c aự ọ ậ ử ụ ủ video Sau đó chúng tôi s d ng DBScan, m t phử ụ ộ ương pháp phân nhóm d aự trên m t đ , và tìm ra các đi m ngoài cùng trong t p h p các ý ki n đãậ ộ ể ậ ợ ế
ch n.ọ
Trang 7B d li u ộ ữ ệ
B d li u c a chúng tôi bao g m 196 video c a 49 cá nhân đ a raộ ữ ệ ủ ồ ủ ư bài phát bi u trể ước máy tính c a h Nh ng ngủ ọ ữ ười tham gia đã được tuy nể
d ng t Amazon Mechanical Turk Đ đ t đụ ừ ể ạ ượ ực s đa d ng trong h s l uạ ồ ơ ư
tr c a chúng tôi, chúng tôi đã không áp đ t b t kỳ h n ch nào đ i v iữ ủ ặ ấ ạ ế ố ớ
vi c tuy n d ng Có 22 n và 27 nam gi i, v i đ tu i t 20 đ n 60 tu i.ệ ể ụ ữ ớ ớ ộ ổ ừ ế ổ Chúng tôi đã cho các di n gi m t s l a ch n gi a năm ch đ : s thíchễ ả ộ ự ự ọ ữ ủ ề ở
a thích; Làm th nào đ tìm th y vé máy bay giá r ; Làm th nào th c s
h c t p x y ra bên ngoài l p h c; Vì sao tr em nên xem truy n hình ítọ ậ ả ớ ọ ẻ ề
h n; Và m t bài di n văn t t nghi p gi tơ ộ ễ ố ệ ả ưởng Chúng tôi yêu c u h nóiầ ọ chuy n trệ ước máy nh web c a h trong kho ng không riêng t trongả ủ ọ ả ư kho ng hai phút Đ thu th p nh n xét v video, chúng tôi đã tuy n d ngả ể ậ ậ ề ể ụ
nh ng ngữ ười đánh giá t Amazon Mechanical Turk ("Turkers") và yêu c uừ ầ
h đ a ra ít nh t ba nh n xét cho m i video, v i thông tin v d u th iọ ư ấ ậ ỗ ớ ề ấ ờ gian, trong ba lo i: c ch c th , s thân thi n và gi ng nói (M t bìnhạ ử ỉ ơ ể ự ệ ọ ộ
lu n đã đậ ược yêu c u cho m i th lo i.) H n 500 ngầ ỗ ể ạ ơ ười (v i t l ch pớ ỷ ệ ấ
nh n 95 ph n trăm) đã bình lu n v các video Đ t o th b t đ u b ng #,ậ ầ ậ ề ể ạ ẻ ắ ầ ằ chúng tôi đã l y m t s nh n xét m u và tìm ki m các t khoá trongấ ộ ố ậ ẫ ế ừ
nh ng nh n xét đó M i t khóa đã đữ ậ ỗ ừ ược liên k t v i nhi u th b t đ uế ớ ề ẻ ắ ầ
b ng # Sau đó, đ i v i m i nh n xét trong t p hu n luy n, n u nó ch aằ ố ớ ỗ ậ ậ ấ ệ ế ứ
b t kỳ t khoá nào, m t hashtag sẽ đấ ừ ộ ược gán liên quan đ n nó đ gi mế ể ả tính đ n đi u.ơ ệ
Thách th c ứ
Trong t p d li u, h th ng đã ph i đ i m t v i m t s thách th cậ ữ ệ ệ ố ả ố ặ ớ ộ ố ứ chính liên quan đ n video hành vi th c t Các video đế ự ế ược ghi l i b i 49 cáạ ở nhân, dưới ánh sáng khác nhau và v i các đ phân gi i khác nhau, nhớ ộ ả ả
hưởng đ n các tính năng đế ược trích xu t Các loa khác nhau có kho ngấ ả cách khác nhau t micrô c a chúng, d n đ n bi n th âm lừ ủ ẫ ế ế ể ượng trong t pậ
d li u c a chúng tôi M t s ngữ ệ ủ ộ ố ười có n n l n x n - ví d nh hình nhề ộ ộ ụ ư ả khuôn m t trong n n - làm tăng ti ng n trong khi theo dõi khuôn m t vàặ ề ế ồ ặ phát hi n n cệ ụ ười Chúng tôi đã bình thường hoá t t c các tính năng đấ ả ược
gi i nén, m t m c đ nào đó, có th gi i quy t nh ng v n đ này M tả ở ộ ứ ộ ể ả ế ữ ấ ề ộ
s thách th c c h u đã đố ứ ố ữ ược đ a ra trong khi thu th p ý ki n ư ậ ế t ngừ ười
Th Nhĩ Kỳ Ngổ ười Th Nhĩ Kỳ bình lu n v video không ph i là chuyên giaổ ậ ề ả
và đã có nhi u c p đ kỹ năng, ngu n g c và giáo d c khác nhau K t quề ấ ộ ồ ố ụ ế ả
Trang 8là, có m t s khác bi t l n v ch t lộ ự ệ ớ ề ấ ượng c a các ý ki n ủ ế trong t p hu nậ ấ luy n c a chúng tôi M t s nh n xét v m t văn h c không chính xác, ítệ ủ ộ ố ậ ề ặ ọ đáng tin c y và ít có th m quy n đ i v i ngậ ẩ ề ố ớ ười dùng cu i Đ l c chúng ra,ố ể ọ chúng tôi đã s d ng c m m t đ d a trên các nh n xét T đ ng lo i bử ụ ụ ậ ộ ự ậ ự ộ ạ ỏ
nh ng câu không đúng ng pháp v n là m t ph n c a công vi c trongữ ữ ẫ ộ ầ ủ ệ
tương lai c a chúng ta.ủ
Khai thác tính năng
Chúng tôi đã trích xu t c tính năng bi u hi n kỳ ấ ả ể ệ qu c, và bi u hi nặ ể ệ trên khuôn m t t các video đào t o và th nghi m Chúng tôi s d ngặ ừ ạ ử ệ ử ụ công c phân tích gi ng nói mã ngu n m Praat [3] đ trích xu t các tínhụ ọ ồ ở ể ấ năng đ n đi u Các tính năng tiên ti n quan tr ng bao g m pitch, cơ ệ ế ọ ồ ường độ
gi ng nói, t n s c a ba formants đ u tiên (F1, F2, F3), và băng thôngọ ầ ố ủ ầ trung bình Chúng tôi đã chi t xu t n cế ấ ụ ườ ằi b ng cách s d ng khuôn khử ụ ổ SHORE [19] Giá tr c a cị ủ ường đ n cộ ụ ười là m t s nguyên dộ ố ương gi a 0ữ
và 100, trong đó 0 cho th y không có n cấ ụ ười và 100 cho th y m t n cấ ộ ụ ười
đ y đ Chúng tôi cũng đã trích xu t m t phép đo chuy n đ ng c thầ ủ ấ ộ ể ộ ơ ể
b ng cách ằ ước tính đ l ch đi m nh gi a các khung hình liên ti p T t cộ ệ ể ả ữ ế ấ ả các tính năng này đã được trích xu t đ t o thành b n ch p 10 mili giây.ấ ể ạ ả ụ
Đ i v i các tính năng trên khuôn m t, chúng tôi đã l y trung bình các tínhố ớ ặ ấ năng được trích xu t t ấ ừ các khung n m gi a các c a s 10-milli giây Đằ ữ ử ổ ể
gi m thi u s khác nhau gi a nhi u video, chúng tôi đã chu n hóa t t cả ể ự ữ ề ẩ ấ ả các tính năng được trích xu t Đ i v i đào t o và th nghi m, chúng tôiấ ố ớ ạ ử ệ xem xét phân đo n dài m t giây và t ng h p các tính năng trong toàn bạ ộ ổ ợ ộ giây b ng cách l y trung bình t t c 10 mili giây trong phân đo n đó.ằ ấ ấ ả ạ
Trang 9Tính năng nh n xét ậ
Figure 3: An example of comment generation from a user's video From the uploaded video, features are extracted and feature vectors are created ( v l ) Using the k-NN model, the nearest feature vector that has comments
associated with it are selected From those comments, we perform clustering and identify the outliers.
Phương pháp c a chúng tôi k t h p các vector đ c tr ng b ngủ ế ợ ặ ư ρ ằ cách tìm ra m c trung bình c a chúng T m i m t trong nh ng vect v aứ ủ ừ ỗ ộ ữ ơ ừ
được t o ra, mô hình c a chúng ta tìm k vector g n nh t t ạ ủ ầ ấ ừ t p hu nậ ấ luy n s d ng kho ng cách Euclidean làm thệ ử ụ ả ước đo kho ng cách Nh m iả ư ỗ
nh n xét trong t p hu n luy n có d u th i gian, đ i v i m i láng gi ng k,ậ ậ ấ ệ ấ ờ ố ớ ỗ ề chúng ta sẽ tìm th y nh ng ý ki n ấ ữ ế không quá giây Sau đó, chúng tôi đ aτ ư
ra các nh n xét đ c đáo Trong công trình này, chúng ta đ t = 100, = 5,ậ ộ ặ ρ τ
và k = 10 Các thông s đã đố ượ ực l a ch n b ng cách ch y mô hình này trênọ ằ ạ
m t b xác nh n nh c a năm video và ch n m t trong nh ng t t nh t,ộ ộ ậ ỏ ủ ọ ộ ữ ố ấ
d a trên s phán đoán c a con ngự ự ủ ười Chúng tôi đã lo i b các nh n xét cạ ỏ ậ ụ
th theo gi i tính b ng cách thay th "anh y" và "cô y" b ng "anh / côể ớ ằ ế ấ ấ ằ y" và "c a anh y" và "c a mình" v i
"người đó"
Sau khi ch n các ý ki n ọ ế t cácừ
vector đ c tính g n nh t, chúng taặ ầ ấ
tính đi m s BLEU theo c p S d ngể ố ặ ử ụ
đi m s BLEU nh là m t thể ố ư ộ ước đo
g n nhau, chúng tôi gom c m ý ki n ầ ụ ế
b ng cách s d ng m t đ d a trênằ ử ụ ậ ộ ự
clustering (DBScan) DBScan có thể
khám phá các c m v i các hình d ngụ ớ ạ
tùy ý và các tham s đ u vào khôngố ầ
xác đ nh và nhãn các đi m ngo i l , không th gán cho b t kỳ c m nào Sị ể ạ ệ ể ấ ụ ử
Trang 10d ng DBScan, chúng tôi lo i b nh ng ý ki n ụ ạ ỏ ữ ế ngoài ý ki n ế t đ u ra Hìnhừ ầ
3 cho th y cách nh n xét đấ ậ ược hi n th cho ngể ị ười dùng Hình 4 cho th yấ các đi m chính c a thu t toán c a h th ng.ể ủ ậ ủ ệ ố
Đánh giá
Đ đánh giá nh n xét c a ROC Comment, chúng tôi đã ti n hànhể ậ ủ ế nghiên c u ngứ ười dùng v i n = 30 ngớ ười Th Nhĩ Kỳ Trong hổ ướng d n c aẫ ủ chúng tôi, chúng tôi đã cung c p liên k t t i Nh n xét c a ROC Comment,ấ ế ớ ậ ủ
hướng nh ng ngữ ười tham gia ghi l i đo n video nói trạ ạ ước công chúng kho ng hai phút và h i 10 câu h i trong m t cu c kh o sát tr c tuy n.ả ỏ ỏ ộ ộ ả ự ế
M c tiêu c a chúng tôi là đánh giá c ý ki n ụ ủ ả ế và h th ng đã đệ ố ượ ạc t o ra,
t ng th Vì lý do này, chúng tôi đã không áp đ t m t kho ng th i gianổ ể ặ ộ ả ờ chu n b bài phát bi u trẩ ị ể ước khi thu âm Trong mười câu h i, b y m c tiêuỏ ả ụ
được đánh giá đ đánh giá tính h u ích, ch t lể ữ ấ ượng và tính chính xác c aủ các nh n xét và th b t đ u b ng # Ba ngậ ẻ ắ ầ ằ ười kia h i li u ngỏ ệ ười dùng có nghĩ ý ki n ế t m t thu t toán c aừ ộ ậ ủ
con người hay máy tính và t i sao.ạ
Trong b y câu h i đ u tiên, chúng tôiả ỏ ầ
đã h i li u h có đ ng ý hay khôngỏ ệ ọ ồ
đ ng ý v i b n báo cáo, và nh ngồ ớ ả ữ
người tham gia tr l i b ng cách đ aả ờ ằ ư
ra giá tr t m t đ n sáu, trong đó cóị ừ ộ ế
nghĩa là không đ ng ý và sáu có nghĩa là đ ng ý m nh mẽ Các báo cáo vàồ ồ ạ
x p h ng trung bình (v i đ l ch tiêu chu n) đế ạ ớ ộ ệ ẩ ược th hi n trong Hình 5.ể ệ
B n báo cáo b n và năm đả ố ược trình bày v i tình c m ngớ ả ượ ạ ớc l i v i các báo cáo khác đ làm cho nh ng ngể ữ ười tham gia chú ý
Nh ng ngữ ười tham gia cho r ng nh n xét là khá h u ích (kho ngằ ậ ữ ả 3.53 / 6.00), và các th b t đ u b ng # g n đúng (trung bình 3,33 / 6,00).ẻ ắ ầ ằ ầ Tuy nhiên, h đ ng ý r ng "bình lu n không phù h p trong b i c nh bàiọ ồ ằ ậ ợ ố ả phát bi u" (3,90 / 6,00) Ngể ười dùng nh n th y các nh n xét ph n nàoậ ấ ậ ầ
n m ngoài ng c nh ,b i vì trong d li u hu n luy n c a chúng tôi, m t sằ ữ ả ở ữ ệ ấ ệ ủ ộ ố
nh n xét có tính ng c nh c th Tuy nhiên, n u lo i b nh ng ngậ ữ ả ụ ể ế ạ ỏ ữ ười tham gia đã đ a ra sáu (đ ng ý) cho "nh n xét không phù h p trong ngư ồ ậ ợ ữ
c nh phát bi u c a tôi", chúng tôi nh n th y r ng đi m trung bình c aả ể ủ ậ ấ ằ ể ủ tính h u d ng c a ý ki n ữ ụ ủ ế tr thành 4.23 Đi u này ch ra r ng, n u chúngở ề ỉ ằ ế
ta xác đ nh các nh n xét theo ng c nh c th và lo i b nh ng ý ki n ị ậ ữ ả ụ ể ạ ỏ ữ ế đó,