Mục tiêu của luận án nhằm nghiên cứu và đề xuất chuẩn hóa đặc trưng, chuẩn hóa khoảng cách để nâng cao hiệu quả so sánh độ tương tự. Phản hồi liên quan: đề xuất kỹ thuật hiệu chỉnh trong số và dịch chuyển truy vấn.
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM
HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
Trang 2Công trình được hoàn thành tại: Học viện Khoa học và Công nghệ -
Viện Hàn lâm Khoa học và Công nghệ Việt Nam
Người hướng dẫn khoa học 1: PGS TS Ngô Quốc Tạo
Người hướng dẫn khoa học 2: PGS TS Nguyễn Hữu Quỳnh
Có thể tìm hiểu luận án tại:
- Thư viện Học viện Khoa học và Công nghệ
- Thư viện Quốc gia Việt Nam
Trang 3M ¶u
Tính cßp thi∏t cıa ∑ tài
VÓi s¸ phát tri∫n m§nh m≥ cıa Internet cho phép dπ dàng xây d¸ng, l˜u tr˙ các cÏ s d˙liªu a ph˜Ïng tiªn lÓn Nhi∑u hª thËng tìm ki∏m v´n b£n và £nh nh˜ Google, Yahoo phát tri∫nm§nh m≥ trong nh˙ng n´m g¶n ây nh˜ng v®n ch˜a áp ˘ng ˜Òc nhu c¶u ng˜Ìi dùng Bênc§nh nh˙ng ti∏n bÎ trong CBIR, ng˜Ìi dùng v®n g∞p khó kh´n trong viªc tìm ki∏m thông tinliên quan t¯ t™p £nh lÓn không Áng nhßt K∏t qu£ tìm ki∏m ch˜a §t ˜Òc nh˜ mong muËn.Nhi∑u nghiên c˘u trong lænh v¸c CBIR ∏n nay v®n ang cË g≠ng nâng cao hiªu qu£
Mˆc tiêu, ph§m vi nghiên c˘u cıa lu™n án
Thông th˜Ìng mÎt hª thËng tra c˘u £nh d¸a vào nÎi dung ˜Òc miêu t£ nh˜ Hình 0.1
Hình 0.1 Hª thËng tra c˘u £nh d¸a vào nÎi dung
1
Trang 4Mˆc tiêu cıa lu™n án :
— So sánh Î t˜Ïng t¸ : Nghiên c˘u và ∑ xußt chu©n hoá ∞c tr˜ng, chu©n hoá kho£ngcách ∫ nâng cao hiªu qu£ so sánh Î t˜Ïng t¸
— Ph£n hÁi liên quan : ∑ xußt kˇ thu™t hiªu chønh trÂng sË và d‡ch chuy∫n truy vßn
— ánh chø sË và tra c˘u : Vector ∞c tr˜ng cıa tßt c£ các £nh trong cÏ s d˙ liªu ˜Òctrích rút tr˜Óc và l˜u tr˙ trong hª qu£n tr‡ cÏ s d˙ liªu Rút gÂn không gian tìm ki∏ms˚ dˆng ti∏p c™n tËi ˜u Pareto K∏t qu£ tra c˘u là t™p £nh có kho£ng cách nh‰ nhßtho∞c ˜Òc d¸ báo cùng lÓp so vÓi £nh truy vßn
Ph§m vi nghiên c˘u cıa lu™n án :
— S˚ dˆng mÎt sË t™p £nh ˜Òc s˚ dˆng nhi∑u trong nghiên c˘u v∑ CBIR Xây d¸ng cÏs d˙ liªu ∞c tr˜ng d¸a trên mÎt sË ph˜Ïng pháp trích rút ∞c tr˜ng tËt
— ∑ xußt mÎt sË kˇ thu™t c£i thiªn Î chính xác trong CBIR trên mÎt sË t™p £nh
— Cài ∞t th¸c nghiªm cho các ∑ xußt, so sánh và ánh giá Î chính xác
Ph˜Ïng pháp và nÎi dung nghiên c˘u
Ph˜Ïng pháp nghiên c˘u : TÍng hÒp các thông tin liên quan trong lænh v¸c CBIR, l¸a chÂncác cách ti∏p c™n ã ˜Òc áp dˆng thành công, ti∏n hành th˚ nghiªm vÓi các t™p d˙ liªu £nhchu©n trong các bài báo khoa hÂc và ánh giá k∏t qu£
NÎi dung nghiên c˘u : Nghiên c˘u tÍng quan v∑ tra c˘u £nh d¸a vào nÎi dung Nghiênc˘u cách k∏t hÒp nhi∑u ∞c tr˜ng t¯ ó phát hiªn các quy lu™t, ràng buÎc cÏ b£n cıa k∏t hÒpnhi∑u ∞c tr˜ng Nghiên c˘u mÎt sË kˇ thu™t gi£m kho£ng trËng ng˙ nghæa trong CBIR
K∏t qu£ §t ˜Òc cıa lu™n án
∑ xußt chu©n hoá c£i ti∏n cho phép nâng cao hiªu qu£ Ëi sánh Î t˜Ïng t¸, ∑ xußt kˇthu™t hiªu chønh trÂng sË và d‡ch chuy∫n truy vßn trong tÍ hÒp ∞c tr˜ng [CT6] ∑ xußt s˚dˆng tËi ˜u Pareto xây d¸ng t™p ˘ng viên trên không gian k∏t hÒp a ∞c tr˜ng ∫ nâng cao
Î chính xác tra c˘u [CT7]
Trang 5Hình 0.2 Hª thËng ∑ xußt
3
Trang 6Các ti∏p c™n toàn cˆc th¸c hiªn trích rút các ∞c tr˜ng trên toàn bÎ £nh, các ∞c tr˜ng
˜Òc tính toán d¸a trên các thuÎc tính màu s≠c, k∏t cßu ho∞c hình d§ng cıa £nh MÎt sË ∞ctr˜ng ˜Òc trích rút theo cách ti∏p c™n toàn cˆc nh˜ : l˜Òc Á màu, t˜Ïng quan màu, mô menmàu, Gabor wavelet, bi∏n Íi Gabor, GIST ˜Òc s˚ dˆng trong các công trình [CT6], [CT7]
Trang 71.2 K∏t hÒp a ∞c tr˜ng trong CBIR
Nhi∑u nghiên c˘u CBIR s˚ dˆng k∏t hÒp nhi∑u ∞c tr˜ng tr¸c quan gÁm các ki∫u màu s≠c,k∏t cßu và hình d§ng, mÈi ki∫u gÁm nhi∑u bÎ ∞c tr˜ng ◊u i∫m nh¨m nhßn m§nh óng góptheo ki∫u H§n ch∏ là không £m b£o tính công b¨ng gi˙a các bÎ ∞c tr˜ng trong cùng mÎtki∫u vì các bÎ ∞c tr˜ng có nh˙ng óng góp tích c¸c khác nhau
Các hª thËng tra c˘u cÏ s d˙ liªu £nh ph˘c t§p s˚ dˆng các ∞c tr˜ng th˜Ìng ˜Òc tríchrút b¨ng nhi∑u thu™t toán khác nhau vÓi nhi∑u nguÁn khác nhau, nên không ph£i tßt c£ nh˙ng
∞c tr˜ng này có cùng ph§m vi
∫ £m b£o s¸ bình Øng trên mÈi thành ph¶n ∞c tr˜ng trong cùng mÎt véc tÏ ∞c tr˜ng.ChØng h§n nh˜ trong bi∫u diπn k∏t cßu b∑ m∞t, mÎt thành ph¶n có th∫ là trung bình trong khithành ph¶n khác có th∫ là Î lªch chu©n Lúc này nhßt thi∏t ph£i chu©n hoá d˙ liªu tr˜Óc khith¸c hiªn viªc tính Î t˜Ïng t¸ gi˙a các véc tÏ ∞c tr˜ng cıa £nh truy vßn vÓi các £nh
Chu©n hóa min-max cho phép chuy∫n d˙ liªu v∑ ph§m vi [0, 1] nh˜ sau :
{tijk} 7! { ˜tijk}, 8 k, ˜tijk = tijk min{tijk}
max{tijk} min{tijk}, (1.1)trong ó min{tijk} và max {tijk} là giá tr‡ nh‰ nhßt và lÓn nhßt cıa chuÈi thành ph¶n k theo
bÎ ∞c tr˜ng tij cıa tßt c£ các £nh trong cÏ s d˙ liªu
5
Trang 81.3.3 Chu©n hóa Gauss
{tijk} 7! { ˜tijk}, 8 k, ˜tijk = tijk µk
Ph£n hÁi liên quan trong CBIR ˜Òc hi∫u nh˜ sau :
B˜Óc 1 : Máy tính ˜a ra các k∏t qu£ tra c˘u khi t§o (top k ) thông qua £nh truy vßn.B˜Óc 2 : Ng˜Ìi dùng cung cßp ánh giá trên k∏t qu£ top k , ánh giá theo ki∫u nh˜ “liênquan” ho∞c “không liên quan” vÓi nh™n th˘c cıa chính ng˜Ìi dùng ó
B˜Óc 3 : Máy hÂc và th˚ l§i L∞p l§i b˜Óc 2
T¯ t™p k∏t qu£ top k mÎt sË ph˜Ïng pháp th˜Ìng s˚ dˆng kˇ thu™t ph£n hÁi liên quan nh˜hiªu chønh trÂng sË và d‡ch chuy∫n truy vßn ; m rÎng truy vßn ; kˇ thu™t hÂc máy MÈi ph˜Ïngpháp có cách hÂc khác nhau trong viªc s˚ dˆng thông tin cıa ng˜Ìi dùng
CBIR s˚ dˆng ph£n hÁi liên quan
Kˇ thu™t hiªu chønh trÂng sË hÂc quan tâm cıa ng˜Ìi dùng b¨ng cách i∑u chønh trÂng
sË cıa mÈi ∞c tr˜ng cıa truy vßn và trÂng sË cıa mÈi chi∑u trong cùng mÎt ∞c tr˜ng, ˜Òc
Trang 9i∑u chønh sau mÈi l¶n l∞p Các trÂng sË lÓn ˜Òc gán cho nh˙ng ∞c tr˜ng có s¸ phân biªt tËtgi˙a các £nh liên quan và không liên quan ∫ t´ng c˜Ìng Î chính xác tra c˘u.
hÂc
D˙ liªu bao gÁm truy vßn và các £nh, mÈi truy vßn liên quan ∏n mÎt sË các £nh S¸ liênquan cıa các £nh Ëi vÓi truy vßn ˜Òc cho bi mÎt nhãn, k˛ hiªu mÎt lo§i ( ˜a ra trong hußnluyªn và d¸ báo trong ki∫m tra) D˙ liªu ki∫m tra gÁm mÎt truy vßn mÓi và các £nh liên quan
Các truy vßn ˜Òc ˜a vào các hª thËng tìm ki∏m và các £nh x∏p h§ng cao nhßt ˜Òc tr£v∑ (top rank) Nh˜ v™y, mÈi truy vßn liên quan vÓi nhi∑u £nh Con ng˜Ìi ánh giá d¸a vào s¸liên quan trên các c∞p £nh-truy vßn S¸ ánh giá liên quan th˜Ìng theo nhi∑u m˘c Î Conng˜Ìi ánh giá liên quan theo quan i∫m cıa trung bình các ng˜Ìi dùng Các nhãn bi∫u diπns¸ liên quan sau ó ˜Òc gán cho các c∞p £nh-truy vßn
Mˆc ích s˚ dˆng các kˇ thu™t hÂc máy ∫ th¸c hiªn nhiªm vˆ x∏p h§ng D˙ liªu bao gÁmtruy vßn và các £nh, trong ó mÈi truy vßn liên quan ∏n mÎt sË £nh Thu™t toán sau ó truyc™p mÎt t™p ki∫m tra, t™p mÓi cıa các c∞p truy vßn - £nh vÓi mˆc ích d¸ báo các nhãn x∏ph§ng sau cùng có kh£ n´ng tËt nhßt Î phù hÒp xác ‡nh thông qua mÎt hàm lÈi
7
Trang 101.7.4 Phân lÓp £nh
1.7.4.1 Kˇ thu™t Adaboost
ây là ph˜Ïng pháp cho phép c£i thiªn Î chính xác cıa bßt k˝ các thu™t toán hÂc nào,cho phép k∏t hÒp các ph˜Ïng pháp phân lÓp y∏u thành mÎt phân lÓp m§nh hÏn
1.7.4.2 Support Vector Machine (SVM)
SVM ph‰ng oán k∏t qu£ tra c˘u theo các m®u hußn luyªn D¸a vào k∏t qu£ tra c˘u, ng˜Ìidùng l¸a chÂn các £nh liên quan và các £nh không liên quan t§o thành t™p m®u d˜Ïng và t™pm®u âm t˜Ïng ˘ng Sau khi hÂc t™p m®u hußn luyªn, b¨ng cách s˚ dˆng SVM, bÎ phân lÓpSVM f (x ) s≥ d¶n i∑u chønh theo mˆc ích tra c˘u cıa ng˜Ìi dùng
T™p Pareto là mÎt t™p ch˘a tßt c£ các i∫m có ít nhßt mÎt mˆc tiêu tËi ˜u trong khi £mb£o không thay Íi các mˆc tiêu khác Các i∫m nh˜ v™y ˜Òc gÂi là các i∫m tËi ˜u Pareto.Pareto front ¶u tiên bao gÁm mÎt t™p các i∫m không b‡ làm trÎi
Hai chø sË ˜Òc s˚ dˆng là Precision (Pr- Î chính xác) và recall (Re - Î hÁi t˜ng) Pr
là tø sË cıa sË các £nh liên quan ˜Òc tra c˘u (E) vÓi tÍng sË £nh ˜Òc tra c˘u (D) : Pr = E
D
Re là tø sË cıa sË các £nh liên quan ˜Òc tra c˘u (E) vÓi toàn bÎ sË £nh liên quan có trong cÏs d˙ liªu (A) : Re = E
A
Trang 11K∏t lu™n ch˜Ïng 1
Ch˜Ïng 1 giÓi thiªu mÎt sË ∞c tr˜ng th˜Ìng ˜Òc s˚ dˆng và s¸ k∏t hÒp các ∞c tr˜ng.Trong ch˜Ïng ã phân tích nh˙ng khó kh´n khi áp dˆng chu©n hoá Gauss và phân tích nh˙ngtÁn t§i cıa các kˇ thu™t nh¨m gi£m kho£ng trËng ng˙ nghæa trong CBIR
9
Trang 12Hình 2.1 Mô hình hª thËng IR 3 FCM
Trang 132.1 Chu©n hoá ∞c tr˜ng d¸a vào phân cˆm mÌ FCM
Kh£o sát trên mÎt sË t™p £nh chu©n cho thßy h¶u h∏t d˙ liªu ∞c tr˜ng gËc phân bË khôngtheo Gauss ∑ xußt b‰ gi£ thi∏t d˙ liªu các thành ph¶n ∞c tr˜ng theo phân bË Gauss, phâncˆm ∫ t§o ra các vùng Áng nhßt, chu©n hoá các thành ph¶n theo lu™t 3 trên mÈi cˆm K∏tnh™p k∏t qu£ theo mÈi cˆm ∫ ˜Òc mÎt giá tr‡ chu©n hoá duy nhßt
‡nh nghæa 2.1 [CT6] Cho t™p d˙ liªu {It
i}1iN ˜Òc phân thành C cˆm s˚ dˆng FCM vÓitham sË p > 1 Î lªch chu©n cˆm c (1 c C ) ˜Òc tính nh˜ sau :
t,c,j def
=
vuu
PN i=1⌘t,c,ip (It
i[j ])2
PN i=1⌘t,c,ip V
2 t,c[j ] (2.3)
‡nh nghæa 2.2 [CT6] Phép chu©n hóa 3 FCM
Trang 14Mªnh ∑ 2.2 [CT6] Phép chu©n hóa 3 FCM b£o toàn th˘ t¸, nghæa là : I [j] I0[j]) ˜I[j ]
˜
I0[j ]
Chu©n hoá £m b£o k∏t qu£ tính Î t˜Ïng t¸ chính xác hÏn, c£i thiªn t™p k∏t qu£ top-k hi∫nth‡ cho ng˜Ìi dùng, t¯ ó nâng cao hiªu qu£ truy vßn
Giá tr‡ kho£ng cách £nh truy vßn vÓi mÈi £nh cÏ s d˙ liªu ˜Òc chu©n hoá theo Thu™ttoán 2.1
Thu™t toán 2.1 Chu©n hoá d˙ liªu kho£ng cách 3 FCM theo t¯ng bÎ [CT6]
¶u vào: {˜It
i}1iN /* T™p các véc tÏ ∞c tr˜ng ã chu©n hoá theo lu™t 3 FCM */{Vt,c}1 cC t /* T™p các tâm theo t¯ng bÎ ∞c tr˜ng */{ t,c,j}1 cC t ,1 j M t /* Î lªch chu©n */h¨ng sË p = p(t) > 1, C = C (t)2 N+, C 2
o
1 cC t(D)
theo Công th˘c (2.3)(B˜Óc 2 và 3, s˚ dˆng Công th˘c (2.1), (2.3), (2.4) thay th∏ d˙ liªu ∞c tr˜ng b¨ng giá tr‡kho£ng cách là các sË th¸c d˜Ïng vô h˜Óng.)
4: Return
(n
Vt,c(D)oCt(D)c=1 ,n
(D) t,c
o
1 cC t(D)
)
‡nh nghæa 2.3 [CT6] Cho truy vßn Q thì Î o kho£ng cách cıa bÎ ∞c tr˜ng th˘ t và Î
Trang 15‡nh nghæa 2.4 [CT6] T™p Áng thu™n (Agreement (AGR)) gi˙a Î o kho£ng cách toàn bÎ
và Î o kho£ng cách theo bÎ ∞c tr˜ng ˜Òc ‡nh nghæa nh˜ sau
✓score(It
Trang 16Thu™t toán 2.2 Hiªu chønh trÂng sË Î o kho£ng cách toàn cˆc [CT6]
¶u vào: {It
i}1 iN /* CÏ s d˙ liªu ∞c tr˜ng ã ˜Òc chu©n hoá */{Vt,c}1cCt /* Tâm cıa các cˆm theo bÎ ∞c tr˜ng trong ¶u ra cıa thu™t toán phâncˆm FCM */
{ t,c,j}1cCt,1j Mt /* Î lªch chu©n cıa các cˆm theo bÎ ∞c tr˜ng trong ¶u ra cıathu™t toán chu©n hoá ∞c tr˜ng */
o
1 cC t(D)
/* Î lªch chu©n cıa các cˆm trên t™p giá tr‡ kho£ng cách bÎ theo bÎ
∞c tr˜ng trong ¶u ra cıa Thu™t toán 2.1 */
/* Véc tÏ ∞c tr˜ng m˘c thßp Q cıa £nh truy vßn Lmax sË l¶n l∞p ph£n hÁi, K : sË £nh
có Î o kho£ng cách toàn cˆc so vÓi Q là thßp nhßt */
¶u ra: T™p trÂng sË {wt}1 tT
1: Khi t§o 8 t = 1, T , wt = 1
T
2: Chu©n hóa t¯ng bÎ t cıa Q theo 3 FCM (thu™t toán chu©n hoá ∞c tr˜ng)
3: for l = 1 to Lmax do
4: for Each Ii 2 {Ii}1iN,8 t = 1, T do
5: Chu©n hoá Î o kho£ng cách cho bÎ t b¨ng cách : Dt
t def
= It
i 2 AGRt/| It
i Q¯t | 3 t
Trang 17AGRt có s¸ Áng nhßt cao v∑ ∞c tr˜ng, khi #AGRt 2 và #AGR⇤
t 1 ( £m b£o có s¸thay Íi), truy vßn mÓi ˘ng vÓi bÎ ∞c tr˜ng t ˜Òc l™p l§i nh˜ sau :
Qt,new def
B£ng 2.1 Các miêu t£ £nh và hàm kho£ng cách s˚ dˆng trong th¸c nghiªm
Miêu t£ Ki∫u SË chi∑u Hàm kho£ng cách
L˜Òc Á t¸ t˜Ïng quan màu Màu 64 L1
Các phép lÂc Gabor K∏t cßu 48 Canberra
Các mô men Wavelet K∏t cßu 40 L2
2.4.3.1 Phân bË d˙ liªu và chßt l˜Òng truy vßn
Các Hình 2.2, 2.3, 2.4, 2.5, 2.6, 2.7 là so sánh k∏t qu£ thành ph¶n th˘ n´m cıa chu©nhoá ∞c tr˜ng 3 và chu©n hoá ∑ xußt 3 FCM Qua phép chu©n hoá 3 FCM , các giá tr‡thành ph¶n ∞c tr˜ng th˘ 5 “rÏi vào” [-1,1] nhi∑u hÏn chu©n hoá 3
15
Trang 18-2 -1 0 1 2 3 4
Gia tri 0
1000 2000 3000 4000 5000 6000
500 1000 1500 2000 2500 3000 3500 4000 4500
2.4.3.2 Hiªu qu£ Î chính xác tra c˘u s˚ dˆng kˇ thu™t hiªu chønh trÂng sË và
d‡ch chuy∫n truy vßn
Ph˜Ïng pháp ∑ xußt (k˛ hiªu là IR-ThreeSigmaFCM ) ˜Òc so sánh vÓi ph˜Ïng pháp cÏs PowerTool (PowerTool chu©n hoá ∞c tr˜ng 3 và s˚ dˆng kˇ thu™t hiªu chønh trÂng sË).Hình2.9(a) cho bi∏t trung bình Î chính xác theo k∏t qu£ top k Trˆc hoành bi∫u diπn trac˘u theo các tr˜Ìng hÒp top k là 20, 40, 60, 80, 100, 120, 140, 160, 180, 200 Trˆc tung bi∫udiπn trung bình Î chính xác cıa các £nh tr£ v∑ theo top k sau 5 l¶n l∞p ph£n hÁi liên quan
Trang 19-1.5 -1 -0.5 0 0.5 1 1.5
Gia tri 0
50 100 150 200 250 300 350
1000 2000 3000 4000 5000 6000
Á cho bi∏t trung bình mÈi vòng ph£n hÁi liên quan kˇ thu™t ∑ xußt ∑u cao hÏn Hình2.10(b)
là bi∫u Á so sánh Î chính xác và Î hÁi t˜ng cıa kˇ thu™t ∑ xußt và PowerTool trung bìnhsau ba vòng ph£n hÁi liên quan
∑ xußt trong ch˜Ïng ã nâng cao hiªu n´ng v∑ Î chính xác cıa hª thËng CBIR NÎi dung
∑ xußt gÁm chu©n hoá ∞c tr˜ng, hiªu chønh trÂng sË Î t˜Ïng t¸ truy vßn và d‡ch chuy∫n
17
Trang 20-1.5 -1 -0.5 0 0.5 1 1.5
Gia tri 0
50 100 150 200 250
50 100 150 200 250 300 350 400 450 500
Trang 210.1 0.2 0.3 0.4 0.5 0.6 0.7
Do hoi tuong
0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7
3σ-FCM 3σ
(a)
20 40 60 80 100 120 140 160 180 200
So anh ket qua tra ve (k)
0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65
3σ-FCM 3σ
IR-THREESIGMAFCM
Round 1 Round 3 Round 5
(a)
20 40 60 80 100 120 140 160 180 200
So anh ket qua tra ve (k)
0.3 0.4 0.5 0.6 0.7 0.8 0.9
IR-THREESIGMAFCM PowerTool
(a)
Do hoi tuong
0.3 0.4 0.5 0.6 0.7 0.8 0.9
IR-THREESIGMA-FCM PowerTool (MARS)
Trang 22Hình 3.1 Hª thËng ∑ xußt
Trang 233.1 MÎt sË tính chßt hình th˘c d¸a trên kˇ thu™t Pareto
front a m˘c sâu trong không gian tÍ hÒp ∞c tr˜ng
Gi£ thi∏t {Ei | i = 1, N } là mÎt cÏ s d˙ liªu ∞c tr˜ng cıa N £nh, ˜Òc trích rút theo T
bÎ ∞c tr˜ng trong sË các ki∫u ∞c tr˜ng tr¸c quan gÁm màu s≠c, k∏t cßu và hình d§ng Î okho£ng cách t˜Ïng ˘ng cıa mÈi bÎ ∞c tr˜ng gi˙a £nh truy vßn Q và £nh I , Dt
Q(I ),8 t = 1, T MÈi £nh I 2 E có T kho£ng cách so vÓi truy vßn Q t˜Ïng ˘ng vÓi T bÎ ∞c tr˜ng Không giantìm ki∏m các £nh I có Î t˜Ïng t¸ so vÓi £nh truy vßn Q cˆ th∫ ˜Òc cho bi :
EQ ={(I , (DQ1(I ), , DQT(I ))| I 2 E}, (3.1)TÁn t§i mÎt ánh x§ ⇡Q, là song ánh trong không gian tìm ki∏m EQ, nh˜ là
⇡Q :EQ ! E(I , (D1
Q(I ), , DT
∫ Ïn gi£n, khi Q cË ‡nh, ta ∞t I ⌘ ⇡Q(I ) 2 E và A ⌘ {⇡Q(I )/8 I 2 A} ⇢ E, 8 I 2 EQ,
8 A ⇢ EQ
‡nh nghæa 3.1 [CT7] (TrÎi Pareto) Cho I1 và I2 là hai i∫m cıa không gian tìm ki∏m EQ,
I1 trÎi hÏn I2 hay I2 b‡ làm trÎi bi I1 (k˛ hiªu I1 Q I2) n∏u và chø n∏u
Trang 24Pareto front hay t™p Pareto là t™p ch˘a tßt c£ các i∫m có ít nhßt mÎt kho£ng cách tËithi∫u Các i∫m này ˜Òc gÂi là các i∫m tËi ˜u Pareto.
‡nh nghæa 3.3 [CT7] (Pareto front a m˘c sâu) 3.3.1 Pareto front Î sâu th˘ l ˜Òc ‡nhnghæa nh˜ sau :
‡nh nghæa 3.4 [CT7] (HÒp Pareto) ChoEA⇢ E và L là Î sâu cıa Pareto front, hÒp Paretocıa t™p con EA (k˛ hiªu PFUL(EA)) ˜Òc ‡nh nghæa nh˜ sau
Hª thËng trong công trình [CT7] ho§t Îng theo Thu™t toán 3.1 nh˜ sau :
Trang 25Thu™t toán 3.1 PFCBIR (Tra c˘u s˚ dˆng Pareto front a m˘c Î sâu) [CT7]
¶u vào: E CÏ s d˙ liªu ∞c tr˜ng
K SË i∫m cıa t™p là hÒp các Pareto front a m˘c sâu
¶u ra: T™p £nh k∏t qu£ tho£ mãn
/* Tra c˘u khi t§o */
1: EQ Tính Î t˜Ïng t¸ mÈi £nh vÓi £nh truy vßn Q
/* Tra c˘u s˚ dˆng thông tin ph£n hÁi */
5: while ng˜Ìi dùng ch˜a tho£ mãn do
6: Q0 NB+ /* S˚ dˆng kˇ thu™t hiªu chønh truy vßn ˜Òc miêu t£ trong mˆc 2.3.2( ∑xußt [CT6]) */
7: EQ 0 Tính l§i Î t˜Ïng t¸ mÈi £nh vÓi truy vßn hiªu chønh Q0 /* Tính Î t˜Ïng t¸d¸a vào kˇ thu™t hiªu chønh trÂng sË ∑ xußt trong [CT6] */
Q 0 EQ 0 /* Xây d¸ng t™p ˘ng viên Pareto theo ‡nh nghæa3.3s˚ dˆng thu™t toántìm ˘ng viên ây là t™p ki∫m tra */
9: Xây d¸ng mÎt hàm quy∏t ‡nh phân lÓp ki∫u nh˜ SVM, AdaBoost, cho t™p ki∫m tra
10: NB T™p ki∫m tra /* Hi∫n th‡ top k £nh t˜Ïng t¸ nhßt vÓi Q0 t¯ t™p ki∫m tra, ˜Òcs≠p x∏p gi£m d¶n theo giá tr‡ d¸ báo cıa hàm phân lÓp */
11: C™p nh™t t™p hußn luyªn : {NB+, NB } NB /* T™p hußn luyªn ˜Òc xây d¸ng t¯l¸a chÂn cıa ng˜Ìi dùng trên top k k∏t qu£ */
Ph˜Ïng pháp ∑ xußt ˜Òc so sánh vÓi ba ph˜Ïng pháp tra c˘u £nh s˚ dˆng ph£n hÁiliên quan : Tong và cÎng s¸ (Support vector machine active learning for image retrieval ), Tieu
23