Ph ng pháp SURF Speed Up Robust Feature .... Ph ng pháp pháp Nạve Bayes NB.. Ph ng pháp Linear Least Square Fit LLSF .... DANH M C CÁC T VI T T T ROI Regions Of Interest SIFT Scale-invar
Trang 3L I CAM OAN
Tôi xin cam đoan đây là công trình nghiên c u c a b n thân Các s li u,
k t qu trình bày trong lu n v n này là trung th c Nh ng t li u đ c s d ng trong lu n v n có ngu n g c và trích d n rõ ràng, đ y đ
H c viên
Nguy n c N ng
Trang 4L I C M N
Tôi xin bày t lòng bi t n sâu s c đ n TS Ph m Tr n V đã h ng d n nhi t tình, t n tâm trong su t quá trình tôi th c hi n lu n v n này
Tôi xin chân thành c m n Quý th y cô trong Khoa Công ngh thông tin
tr ng i h c L c H ng đã t o đi u ki n thu n l i cho tôi trong su t th i gian
h c t p và nghiên c u t i tr ng
Tôi c ng xin chân thành c m n Quý th y cô ngoài tr ng đã t n tâm d y
b o tôi trong su t quá trình h c t p và giúp đ tôi trong quá trình nghiên c u
Xin chân thành c m n nh ng ng i thân trong gia đình, cùng các anh ch
em, b n bè, đ ng nghi p đã giúp đ , đ ng viên tôi trong quá trình th c hi n và hoàn thành lu n v n này
ng Nai, ngày 12 tháng 12 n m 2012
H c viên
Nguy n c N ng
Trang 5M C L C
L I CAM OAN I
L I C M N II
M C L C III DANH M C HÌNH VI DANH M C B NG VIII DANH M C CÁC T VI T T T IX
M U 1
CH NG 1: T NG QUAN V PHÂN LO I HÌNH NH 4
1.1 T ng quan v phân lo i hình nh 4
1.1.1 Gi i thi u v bài toán phân lo i 4
1.1.2 T ng quan 4
1.2 Quy trình phân lo i nh 9
CH NG 2: CÁC PH NG PHÁP TRÍCH CH N C TR NG VÀ O T NG NG GI A CÁC NH 10
2.1 Harris 10
2.2 SIFT (Scale Invarian Feature Transform) 12
2.2.1 Phát hi n c c tr 12
2.2.2 nh v chính xác đi m khóa 15
2.2.3 Gán h ng cho các đi m khóa 18
2.2.4 Xây d ng b mô t c c b 19
2.3 Harris-Laplace 21
2.3.1 Không gian t l 21
2.3.2 Hàm Harris thích nghi t l 24
2.3.3 S l a ch n t l t đ ng 25
2.3.4 Thu t toán phát hi n đi m b t đ ng 26
2.4 Harris-Affine 28
2.4.1 M c tiêu 29
2.4.2 Ma tr n Moment c p hai Affine 29
2.4.3 K thu t phát hi n đi m b t đ ng 33
Trang 62.5 Ph ng pháp SURF (Speed Up Robust Feature) 39
2.5.1 nh tích h p (integral image) 40
2.5.2 Phát hi n Fast-Hessian: 40
2.5.3 S bi u di n khơng gian t l : 42
2.5.4 nh v đi m quan tâm 43
2.5.5 B mơ t đi m quan tâm và so kh p 44
2.6 So sánh - K t lu n 49
2.7 L a ch n đ c tr ng 51
CH NG 3: CÁC PH NG PHÁP PHÂN LO I NH 55
3.1 T ng quan 55
3.2 Các p h ng pháp phân lo i nh 57
3.2.1 Ph ng pháp phân lo i K-Means (tham kh o web) 57
3.2.2 Ph ng pháp pháp Nạve Bayes (NB) 62
3.2.3 Ph ng pháp Support Vector Machine (SVM) 64
3.2.4 Ph ng pháp K-Nearest Neighbor (KNN) 65
3.2.5 Ph ng pháp Linear Least Square Fit (LLSF) 66
3.2.6 Ph ng pháp Centroid – based vector 67
3.2.7 K t lu n 68
CH NG 4: NG D NG C TR NG B T BI N K T H P K-MEAN TRONG PHÂN LO I NH 69
4.1 Bài tốn phân lo i nh 69
4.1.1 Mơ hình bài tốn phân lo i nh 70
4.1.2 Thu t tốn s d ng: 70
4.2 Hi n th c bài tốn 73
4.2.1 Mơi tr ng 73
4.1.2 Cơng c s d ng 73
4.1.3 D li u 74
4.1.4 Ch ng trình 74
4.1.5 ánh giá 77
K T LU N VÀ KI N NGH 80
Trang 8DANH M C HÌNH
Hinh 1.1: Quy trình hu n luy n nh 9
Hình 1.2: Quy trình ki m th nh 9
Hình 2.1 Mô ph ng vi c tính toán các DoG nh t các nh k m 13
Hình 2.2: M i đi m nh đ c so sánh v i 26 láng gi ng c a nó 14
Hình 2.3 Các giai đo n l a ch n các đi m khóa 16
Hình 2.4 B mô t đi m khóa 19
Hình 2.5 M t th hi n đa t l c a m t tín hi u 22
Hình 2.6 Các m c khác nhau trong m t th hi n không gian t l 23
Hình 2.7 Ví d v các t l đ c tr ng 26
Hình 2.8 Phát hi n đi m quan tâm b t bi n t l 28
Hình 2.9 i m quan tâm b t bi n t l trong các nh b bi n đ i affine 30 Hình 2.10 Bi u đ gi i thích phép chu n hóa affine 32
Hình 2.11 Phát hi n l p l i c a m t đi m quan tâm b t bi n affine 37
Hình 2.12 Phát hi n đi m quan tâm b t bi n affine 39
Hình 2.13: T trái sang ph i: đ o hàm riêng b c hai c a hàm Gaussian 41 Hình 2.14: Thay vì l p l i vi c gi m kích c nh (bên trái), vi c s d ng nh tích h p cho phép t ng t l l c v i giá tr không đ i (bên ph i) 42
Hình 2.15: Bi u đ t l phát hi n S l ng đi m quan tâm đ c phát hi n trên m i octave phân rã nhanh chóng 43
Hình 2.16: Nh ng đi m quan tâm đ c phát hi n trên m t cánh đ ng hoa h ng d ng 44
Hình 2.17: Phép l c Haar wavelet đ tính toán đ c tr ng x (bên trái) và y h ng (bên ph i) Vùng đen có tr ng s -1 và vùng tr ng có tr ng s +1 45
Hình 2.18: Gán h ng: m t c a s d ch h ng c a kích th c 3 phát hi n h ng tr i c a các đ c tr ng Haar wavelet có tr ng s Gaussian m i đi m m u trong vòng tròn láng gi ng quanh đi m quan tâm 46
Hình 2.19: Chi ti t c a nh Graffiti th hi n kích th c c a c a s b mô t h ng các t l khác nhau 46
Hình 2.20: xây d ng b mô t , m t khung l i h ng b c hai v i 4x4 vùng con hình vuông đ c đ t trên các đi m quan tâm (bên trái) m i hình vuông đ c tr ng wavelet đ c tính toán S chia nh 2x2 c a m i hình vuông t ng ng v i các tr ng th c c a b mô t Nh ng cái này là t ng c a dx, dy, |dx| và |dy|, tính toán t ng đ i h ng c a l i (bên ph i) 47
Hình 2.21 Các m c mô t c a mi n con đ i di n cho tính ch t c a m u
c ng đ c b n Hình trái: trong tr ng h p c a m t mi n con đ ng nh t, t t
c các giá tr là t ng đ i th p Hình gi a: s có m t c a t n s trong x h ng,
Trang 9giá tr c a là cao, nh ng t t c các tr ng h p khác v n th p N u c ng đ
t ng d n theo x h ng, c và đ u cao 48
Hình 2.22: N u đ t ng ph n gi a hai đi m quan tâm khác nhau (t i trên n n sáng v i sáng trên n n t i), ng viên s không đ c xem là so kh p có giá tr 49
Hình 2.24: So sánh v góc nhìn (Bên trái) nh so sánh (bên ph i) 50
Hình 2.25: So sánh v c ng đ sáng (Bên trái) nh so sánh (bên ph i) 50 Hình 2.26: So sánh v t l (Bên trái) nh so sánh (bên ph i) 51
Hình 3.1: Mô hình SVM 64
Hình 4.1 Ví d v bài toán phân lo i nh 69
Hình 4.2 S đ ch c n ng nh n d ng đ i t ng 70
Hình 4.3: Ph ng pháp SURF 71
Hình 4.4: Ph ng pháp Hessian-Laplace 71
Hình 4.4: Ph ng pháp SIFT 72
Hình 4.5: giao di n ch ng trình 74
Hình 4.6: Công đo n rút trích đ c tr ng 75
Hình 4.7: m t ph n góc nhìn c a t p đ c tr ng 75
Hình 4.8: Công đo n phân c m các đ c tr ng 76
Hình 4.9: Sau khi phân thành 2 c m 76
Hình 4.10: c tr ng nhóm 1 (class1.lhu) 77
Hình 4.11: K t qu ki m th 77
Trang 10DANH M C B NG
B ng 2.1: M t s ph ng pháp l a ch n đ c tr ng 52
B ng 4.1: B ng so sánh k t qu các ph ng pháp 72
B ng 4.2: Môi tr ng th c nghi m 73
B ng 4.3: Công c mã ngu n m s d ng 73
B ng 4.4: 4 nhóm nh và s l ng m u dùng trong th c nghi m 78
B ng 4.5: K t qu ki m ch ng sau khi ch y ch ng trình 79
B ng 4.6: Xác su t c a ch ng trình 79
Trang 11DANH M C CÁC T VI T T T
ROI Regions Of Interest
SIFT Scale-invariant feature transform
SURF Speeded-up Robust Features
BAN Bayesian Networks Augmented Naive Bayes NBC Naive Bayes Classifiers
PCA Principal Components Analysis
JSD Jensen-Shannon divergence
DoG difference-of-Gaussian
BDA biased Discriminant analysis
MDA Mutiple Discriminant analysis
DA Discriminant analysis
SMMS symmetric maximized minimal distance in
subspace CBIR Content-based image retrieval
BOF Bags of Features
Trang 12BOW Bags of Words
CLDA Constrained linear discriminant analysis
VQ Vector-Quantization
Trang 13th c t là kh i l ng thông tin quá l n, vi c phân l p d li u th công là đi u không
th H ng gi i quy t là m t ch ng trình máy tính t đ ng phân l p các thông tin
d li u trên
Trong các lo i d li u thì hình nh là lo i d li u ph bi n mà con ng i
th ng g p ph i Chính vì l đó mà hãng Google đã đ a thêm ch c n ng tìm ki m hình nh vào th vi n ch c n ng c a mình, các công c tìm ki m hình nh ngày càng t ng lên Nh m t ng s l ng truy c p, h đã không ng ng phát tri n module tìm ki m hình nh c ng nh các module khác c a mình V y h đã làm ra sao v i
kh i l ng hình nh đ s đ n nh v y ? Mô hình bi u di n hình nh ph bi n
hi n nay là mô hình không gian vector, trong đó m i hình nh đ c bi u di n b ng
m t vector c a các đi m đ c tr ng (keypoint) Tuy nhiên bài toán khai phá d li u hình nh th ng g p ph i m t s khó kh n nh tính nhi u chi u c a nh, đ nhi u
c a nh, đ bi n d ng … ng th i, khi x lý các bài toán phân l p t đ ng thì
c ng g p ph i m t s khó kh n là đ xây d ng đ c b phân l p có đ tin c y cao đòi h i ph i có m t l ng các m u d li u hu n luy n t c là các hình nh đã đ c gán nhãn ch đ l p t ng ng Các d li u hu n luy n này th ng r t hi m và đ t
vì đ i h i th i gian và công s c c a con ng i Do v y, c n ph i có h th ng x lý hình nh hi u qu và m t ph ng pháp h c không c n nhi u d li u đ c phân lo i
và có kh n ng t n d ng đ c các ngu n d li u ch a phân lo i r t phong phú nh
hi n nay Nh n th y đây là l nh v c mang tính khoa h c cao, ng d ng r t nhi u trong các bài toán th c t ví d nh : ng d ng l c n i dung nh, bài toán phân l p
Trang 14sau tìm ki m, … Tác gi quy t đ nh ch n đ tài “Nghiên c u và xây d ng b l c
nh thông qua phân lo i nh k t h p v i gom c m.” là m t vi c làm không ch
có ý ngh a khoa h c, mà còn mang tính th c ti n
Trong lu n v n s trình bày m t s thu t toán phân l p tiêu bi u và đ a ra
h ng th c nghi m cho h th ng phân l p
Lu n v n áp d ng phân tích thành ph n đ c tr ng b t bi n c a t m nh c th
là thu t toán Scale-invariant feature transform (SIFT) ph c v cho vi c ti n hành
rút l y nh ng đ c tr ng b t bi n c a nh sau đó dùng gi i thu t clustering đ ti n hành phân l p Th c nghi m cho th y đ chính xác t ng đ i, phù h p đ áp d ng vào h th ng phân l p t đ ng
M c tiêu c a lu n v n:
- Nghiên c u các k thu t x lý hình nh đ l y ra đ c các vector đ c tr ng
- Nghiên c u các ph ng pháp gom c m d li u đi n hình là K-Means nh m
- Xây d ng b d li u dùng đ hu n luy n máy
- Xây d ng quy trình phân lo i nh
- Hi n th c quy trình phân lo i nh
B c c trình bày c a lu n v n:
Ch ng 1: Gi i thi u t ng quan v bài toán phân lo i nh và đ a ra quy trình phân lo i
Trang 16CH NG 1: T NG QUAN V PHÂN LO I HÌNH NH
1.1 T ng quan v phân lo i hình nh
1.1.1 Gi i thi u v bài tốn phân lo i
Phân lo i hình nh là m t trong nhi u l nh v c đ c chú ý nh t và đã đ c nghiên c u trong nh ng n m g n đây
Phân lo i hình nh (hay Image Classification ho c Image Categorization)
là quá trình gán các nh vào m t hay nhi u l p nh đã đ c xác đ nh t tr c
Ng i ta cĩ th phân lo i nh b ng cách th cơng, t c là nhìn vào n i dung t m
nh sau đĩ gán chúng vào m t hay nhi u l p c th nào đĩ H th ng qu n lý t p tin nh g m nhi u nh cho nên vi c làm này s t n r t nhi u th i gian, cơng s c
và do đĩ là khơng kh thi Do v y mà ph i cĩ các ph ng pháp phân lo i t
đ ng phân lo i t đ ng, ng i ta s d ng các ph ng pháp máy h c trong trí
tu nhân t o nh cây quy t đ nh, Nạve Bayes, K láng gi ng g n nh t, gi i thu t clustering, …
M t trong nh ng ng d ng quan tr ng nh t c a phân lo i nh t đ ng là
ng d ng trong các h th ng tìm ki m nh T m t t p con các nh đã phân l p
l p) ho c thơng qua m t đ ph thu c (đo đ ph thu c c a nh vào l p) Trong
tr ng h p cĩ nhi u l p thì phân lo i đúng sai s là vi c xem m t nh cĩ thu c vào m t l p duy nh t nào đĩ hay khơng
1.1.2 T ng quan
X lý nh, phân lo i nh trong nh ng n m g n đây là l nh v c đang đ c
gi i khoa h c quan tâm khơng nh ng trong n c mà cịn ngồi n c Các cơng trình liên quan đ n v n đ x lý nh đ c bi t là phân lo i nh đã đ c cơng b
nh sau:
Trang 17Ngoài n c:
• tài “ Beyond Bags of Features: Spatial Pyramid Matching for Recognizing Natural Scene Categories” c a đ ng tác gi Svetlana Lazebnik, Cordelia Schmid, Jean Ponce [2]
Trong đ tài này tác gi đ a ra ph ng pháp xác đ nh lo i quang
c nh d a vào đ x p x hình h c toàn c c Trong nh ng n m g n thì các công trình nghiên c u đã đ a ra các khái ni m v đ c tr ng c c b và đ c
tr ng toàn c c nh ng vi c tính toán trên các đ c tr ng này còn g p r t nhi u h n ch vì lý do có r t nhi u đ c tr ng trong m t b c nh khi n cho
vi c tính toán tr nên ph c t p và hao t n nhi u tài nguyên h th ng Chính vì l đó mà các tác gi trong đ tài [2] đã nghiên c u và đ a ra khái
ni m Bags of Features hay Bags of Words (BOF hay BOW) nh m m c đích gi m thi u th i gian tính toán cho h th ng
• Bài báo “Boosting Image Classification with LDA-based Feature Combination for Digital Photograph Management” c a đ ng tác gi Xuezheng Liu, Lei Zhang, Mingjing Li, Hongjiang Zhang, Dingxing Wang [3]
ã có s d ng thu t toán LDA đ gán tên l p cho nh ng thu c tính
mà đã rút ra đ c LDA – SVM th ng đ c th y trong các đ tài tính toán ho c làm vi c trên v n b n LDA dùng đ gán nhãn vào các đ c tr ng sau đó các đ c tr ng s đ c tính toán và phân vào các nhóm theo m t tiêu chí nào đó nh vào SVM Trong đ tài [3] các tác gi đã dùng LDA cho vi c gán nhãn các đ c tr ng hình nh nh m m c đích tránh s d ng thu t toán phân c m, m t trong nh ng nguyên nhân gây hao t n tài nguyên h th ng khi ph i làm vi c trên m t s l ng l n các đ c tr ng
• Bài báo “Unsupervised real-time constrained linear discriminant analysis
to hyperspectral image classification”, Qian Du, Department of Electrical and Computer Engineering, Missisippi State University, MS 39762, USA Accepted 14 August 2006 [17]
Khi s l ng các đ c tr ng tr lên nhi u thì vi c tính toán s g p nhi u khó kh n tác gi Qian Du [17] đã c i thi n đ c thu t toán CLDA theo cách không giám sát nh m m c đích các đ c tr ng đ c phân vào các nhóm trong khi các khái ni m nhóm đó là ch a có V n d CLDA là m t
ph ng pháp có giám sát t c là các đ c tr ng c n đ c gán cho m t tr ng
s , m t nhãn nào đó mà đã có khái ni m tr c đó Trong th c t thì vi c làm này g p khó kh n vì ph i phân đ nh rõ ràng tr ng s hay tên nhóm
tr c
Trang 18• Bài báo “SVM-KNN: Discriminative Nearest Neighbor Classification for Visual Category Recognition” c a đ ng tác gi Hao Zhang, Alexander C Berg, Michael Maire, Jitendra Malik thu c khoa khoa h c máy tính tr ng
đ i h c Berkeley, California [15]
V i m i nh c n phân lo i s rút ra nh ng đ c tr ng sau đó l y ra vùng lân c n c a các đi m đ c tr ng này và tính toán kho ng cách cho các
đ c tr ng, dùng thu t toán KNN-SVM đ tính tr ng s cho các đi m đ c
tr ng đó V i m i nh c n phân lo i s tìm ra trong c s d li u k láng
gi ng g n nh t g n nh t, n u m i nh này thu c vào m t nhóm thì s k t thúc ti n trình phân lo i, ng c l i dùng SVM cho k đi m đ c tr ng đó
ó là ý t ng c a bài báo [15] nh ng khi th c hi n l i g p ph i khó kh n
là vi c tính đ c k láng gi ng g n nh t l i tr lên lâu và hao t n nhi u tài nguyên máy tính
• Bài báo “Image Classification using Super-Vector Coding of Local Image Descriptors” c a tác gi XiZhou, Kai Yu, Tong Zhang, Thomas S Huang.[9]
Trong bài báo tác gi đã đ xu t m t ph ng th c m i trong vi c phân lo i nh đó là s d ng vector đ miêu t nh c c b Công vi c đ c
• tài “Object Recognitionusing Local Descriptors” c a tác gi Javier Ruiz và Patricio Loncomila thu c trung tâm nghiên c u khoa h c Chile.[10]
Trong đ tài tác gi đã s d ng đ c tr ng c c b b t bi n đ xác
th c đ i t ng trong nh, m c đích chính là dùng đ tìm nh và c ng đã
đ a ra cách xây d ng c s d li u đ c i ti n t c đ tìm ki m đó là s
d ng Kd-trees
Trang 19• Bài báo “Object Recognition from Local Scale-Invariant Features” c a tác
gi David G Lowe, thu c khoa khoa h c máy tính, tr ng đ i h c British Columbia [9]
David G Lowe c ng chính là tác gi đ a ra khái ni m v đ c tr ng
c c b b t bi n Local Scale-Invariant Features (SIFT), đ c ng d ng nhi u trong các bài tốn truy tìm nh, phân lo i nh và xác th c
Các đ c tr ng hình nh bao g m nhi u lo i: màu s c, k t c u, hình
d ng, … tuy nhiên các đ c tr ng này ít nhi u l i ph thu c vào khơng gian
nh, bi n đ i nh
Trong cơng vi c xác đ nh đ i t ng trong nh, tác gi đã l u tr các
đ c tr ng và đánh ch m c cho chúng khi các nh tham gia truy v n s
đ c rút ra các đ c tr ng SIFT và đem ra so sánh v i các đ c tr ng đã cĩ trong c s d li u Vi c làm này s làm hao t n r t nhi u th i gian tính tốn c a h th ng
• Bài báo “Texture classification of aerial image based on bayesian network augmanted nạve bayes”, YU Xin, ZHENG Zhaobao, ZHANG Haitao, YE Zhiwei [16]
Bài báo đã cĩ s so sánh hai ph ng th c Bayesian Networks Augmented Naive Bayes (BAN) và Naive Bayes Classifiers (NBC) and PCA-NBC trong phân lo i nh và nh n th y BAN ch y t t h n NBC và PCA-NBC
• Bài báo “Speeded-up Robust Features (SURF), Herbert Bay, Andreas Ess, Tinne Tuytelaars, Luc Van Gool, 12/2007 [14]
Bài báo v i mong mu n thay th đ c tr ng SIFT b ng SURF và s
d ng ma tr n Hessian đ đo b phát hi n đ c tr ng, nh m ng d ng trong các h th ng camera
• Bài báo “Recognizing Indoor Scenes”, Ariadna Quattoni, Antonio Torralba.[12]
Trong khi các cơng c xác đ nh quang c nh ch t p trung khơng gian ngồi tr i thì bài báo đã ch n khơng gian trong nhà đ xác đ nh, vì
nh ng nh c đi m c a các cơng c xác đ nh lo i quang c nh ngồi tr i s kém linh ho t trong khơng gian trong nhà, tác gi bài báo đã đ a ra m t
ph ng th c hi n đ i đĩ là Regions Of Interest (ROI), t m g i vùng đ c
tr ng b ng cách di chuy n khung đ i chi u đ c l p v i nhau
• Bài báo “Combining Local and Global Image Feature for Object Class Recognition” c a tác gi Dimitri A Lisin, Marwan A Mattar, Matthew B Blaschko, Mark C Benfield, Erik G Learned-Miller [4]
Trang 20Bài báo đã nêu ra r ng các đ c tr ng toàn c c hay c c b đ u có th dùng đ xác đ nh đ i t ng trong t m nh
Các đ tài trên m i m t đ tài m nh v m t đi m nh ng ch a th c
s đ a ra đ c cách t i u trên m t t p nh l n V i các đ nh d ng nh
*.PNG, *.PGM thì đ c tr ng SIFT đ c rút ra nhanh, nh ng v i đ nh d ng
*.JPG thì còn là tr ng i ng th i trong vi c đ i sánh hai nh v i nhau SIFT còn h n ch v m t th i gian th c hi n do s l ng t p key point còn quá l n
Trong n c:
Trong n c tuy còn ít đ tài nghiên c u v l nh v c phân lo i nh, mà ch
t p chung ch y u vào nghiên c u các công c đ i sánh nh, tìm nh nh ng có
s d ng các đ c tr ng b t bi n cùng các k thu t phân c m và cây quy t đ nh
i n hình cho v n đ này có các bài báo sau:
• tài “Gi i thi u ng d ng ph ng pháp phân lo i d a trên đ i t ng (Object-based classification) trong thành l p b n đ r ng t nh v tinh”,
Ts V Anh Tuân [18]
ây là đ tài đã phân lo i nh d a vào ph ng pháp phân lo i có
ki m đ nh và phân lo i d a vào decision tree
• tài “ ph ng pháp trích ch n đ c tr ng nh trong thu t toán h c máy tìm ki m nh áp d ng vào bài toán tìm ki m s n ph m”, Nguy n Th Hoàn [20]
tài có gi i thi u và ng d ng đ c tr ng SIFT cho bài toán c a mình
th ng liên m ng meta-N ron không nh ng áp d ng vào các đ c tr ng màu
s c, hình d ng và v trí c a nh mà còn có th áp d ng cho các đ c tr ng
l ng t khác Các đ c tr ng l ng t b t k rút trích t nh s qua các
Trang 21m ng N ron con cho ra các output c c b Các output c a các m ng con
s là ngõ vào c a m ng meta-N ron đ cho ra các k t qu output cu i cùng c a toàn h th ng liên m ng
1.2 Quy trình phân lo i nh
Hinh 1.1: Quy trình hu n luy n nh
Hình 1.2: Quy trình ki m th nh
i v i t p hu n luy n thì s l ng nh c n nhi u vì th ti n trình hu n luy n s r t lâu i m quan tr ng n m ch rút đ c tr ng, ph i xác đ nh đ c
tr ng thích h p cho bài toán vì nh h ng đ n đ chính xác c a ch ng trình
Trang 222.1 Harris
Phát hi n góc (corner detection) ho c m t thu t ng t ng quát h n là phát
hi n đi m quan tâm (interest point detection) là m t h ng ti p c n đ c s
d ng trong các h th ng th giác máy tính đ trích ch n các lo i đ c tr ng và suy
lu n ra các n i dung c a m t nh Vi c phát hi n góc đ c dùng th ng xuyên trong phát hi n, theo dõi chuy n đ ng, mô hình 3D và nh n d ng đ i t ng
M t góc đ c xác đ nh b i n i giao nhau c a hai c nh M t góc c ng có
th đ c xác đ nh nh m t đi m có hai h ng khác nhau trong m t vùng c c b
c a đi m đó M t đi m quan tâm là m t đi m trong m t nh mà đi m này có v trí đ c xác đ nh t t và có th đ c phát hi n nhanh chóng i u này có ngh a là
m t đi m quan tâm có th là m t góc nh ng c ng có th là m t đi m đ n có giá
tr c ng đ c c đ i ho c c c ti u c c b , các đi m k t thúc c a đ ng th ng
ho c m t đi m trên m t đ ng cong mà đó đ cong là t i đa c c b Trên th c
t , h u h t các ph ng pháp phát hi n góc phát hi n các đi m h n là các góc nói riêng
Ph ng pháp phát hi n góc Harris là m t ph ng pháp phát hi n đi m quan tâm ph bi n vì nó b t bi n đ i v i phép quay, thay đ i đ sáng và t p nhi u nh Ph ng pháp này d a trên hàm t ng quan t đ ng c c b c a m t
Trang 23tín hi u; đó hàm t ng quan t đ ng c c b đo các thay đ i c c b c a tín hi u
v i các m nh nh đ c d ch chuy n m t l ng nh theo các h ng khác nhau
Cho tr c s d ch chuy n ( x, y) và m t đi m (x,y), hàm t ng quan t
đ ng đ c đ nh ngh a nh sau:
( , ) = [ ( , ) ( + x, + y)] (2.1) Trong đó I(·,·) bi u th hàm nh và (xi,yi) là các đi m trong c a s W đ t
v trí (x,y) nh đ c d ch chuy n đ c x p x b i phép khai tri n Taylor đ c
l t b t thành các h ng th c b c nh t
( + x, + y) I( , ) + [ ( , ) ( , )] x
y (2.2) đây Ix(·,·) và Iy(·,·) bi u th các đ o hàm t ng ph n t ng ng theo x và
= [ x y] ( , ) x
yđây ma tr n C(x,y) b t gi c u trúc c ng đ c a m t vùng lân c n c c
b quanh đi m (x,y) L y 1, 2 là các giá tr riêng c a ma tr n C(x,y) Các giá
tr riêng này t o nên m t s mô t b t bi n đ i v i phép quay Có 3 tr ng h p
c n đ c xét:
1 N u c 1, 2 đ u nh , đ hàm t ng quan t đ ng c c b không thay
đ i (t c là ít thay đ i t i c(x,y) theo b t k h ng nào) thì vùng nh n m trong
Trang 24c a s g n nh không thay đ i v c ng đ T c là trong tr ng h p này, không
có đi m quan tâm nào đ c tìm th y t i đi m nh (x,y)
2 N u m t giá tr riêng là l n và m t giá tr riêng là nh , thì ch có các
d ch chuy n c c b theo m t h ng (d c theo đ nh đó) gây nên s thay đ i nh c(x,y) và thay đ i đáng k h ng tr c giao, đi u này bi u th cho m t c nh
3 N u c hai giá tr riêng đ u l n, thì các s d ch chuy n theo b t k
h ng nào c ng s đ a đ n k t qu là làm t ng đáng k ; đi u này bi u th cho
m t góc
Thu t toán này đ n gi n d hi u, phát hi n đ c nhanh chóng các đi m quan tâm trong nh tuy nhiên ph ng pháp này không b t bi n đ i v i vi c thay
đ i t l và các phép bi n đ i affine
2.2 SIFT (Scale Invarian Feature Transform)
ây là m t trong nh ng ph ng pháp hi u qu đ trích ch n các đi m b t
bi n t các nh đ c dùng đ th c hi n so kh p tin c y gi a các t m nhìn khác nhau c a cùng m t đ i t ng ho c quang c nh Ph ng pháp này đ c g i là
“Phép bi n đ i đ c trong b t bi n t l ” (Scale Invariant Feature Transform – SIFT) vì nó bi n đ i d li u nh thành các t a đ b t bi n t l có liên quan t i các đ c tr ng c c b Thu t toán này g m 4 giai đo n chính: phát hi n các c c tr trong không gian t l , đ nh v chính xác đi m khóa, gán h ng cho các đi m khóa, xây d ng đ c tr ng
th , s d ng m t hàm liên t c t l đ c hi u nh không gian t l
Dùng hàm Gaussian làm hàm nhân c a không gian t l Vì v y, không gian t l c a m t nh đ c xác đ nh b i hàm L(x,y, ), hàm này đ c t o ra t phép cu n Gaussian bi n thiên t l , G(x,y, ), v i nh đ u vào I(x,y):
( , , ) = ( , , ) ( , ) trong đó * là phép toán cu n theo x và y, và
( , , ) = 1
2
Trang 25phát hi n hi u qu các v trí đi m khóa n đ nh trong không gian t l ,
ta s d ng các c c tr không gian t l trong hàm Difference-of-Gaussian đ c
cu n v i nh đó, D(x,y, ), hàm này có th đ c tính t s chênh l ch gi a hai t
l lân c n đ c phân bi t b i th a s k:
D(x,y, ) = (G(x,y,k ) - G(x,y, ))*I(x,y) = L(x,y,k ) – L(x,y, ) (2.3)
Hình 2.1 Mô ph ng vi c tính toán các DoG nh t các nh k m
Hình 2.1 th hi n m t ph ng pháp hi u qu cho vi c xây d ng hàm D(x,y, ) nh ban đ u đ c cu n theo ki u gia t ng v i các hàm Gaussian đ
t o ra các nh đ c phân bi t b i th a s k trong không gian t l , đ c x p thành ch ng c t bên trái Ta chia m i quãng c a không gian t l (ngh a là g p đôi ) thành s kho ng (s là s nguyên), vì v y k = 21/s
Trang 26Hình 2.2: M i đi m nh đ c so sánh v i 26 láng gi ng c a nó
tìm giá tr c c đ i và c c ti u đ a ph ng c a hàm D(x,y, ), m i đi m
m u đ c so sánh v i 8 láng gi ng trong nh hi n th i và 9 láng gi ng trong t l trên và d i (Hình 2.2) Nó đ c ch n ch khi l n h n t t c các láng gi ng này ho c nh h n t t c chúng Chi phí c a s ki m tra này là khá nh vì trên
th c t h u h t các đi m m u s b lo i b sau vài l n ki m tra đ u tiên
2.2.1.1 T n s l y m u theo t l
S xác đ nh th c nghi m c a t n s l y m u làm t ng t i đa tính n đ nh
c a các c c tr xác đ nh t n s l y m u ng i ta s d ng m t b s u t p g m
32 nh th c g m nhi u lo i khác nhau, bao g m các c nh ngoài tr i, các m t
ng i, các b c nh trên không và các nh k ngh Sau đó m i nh ph i ch u m t dãy các phép bi n đ i, bao g m phép quay, thay đ i t l , thay đ i đ sáng và đ
t ng ph n, và thêm t p nhi u nh B i vì các thay đ i này là không t nhiên, nên có th d đoán chính xác n i mà m i đ c tr ng trong nh g c s xu t hi n trong nh đã bi n đ i, chú ý đ n phép đo tính l p l i và đ chính xác v trí đ i
v i m i đ c tr ng K t qu là, kh n ng l p l i cao nh t đ c đ t đ n khi l y
m u 3 t l cho m i quãng
Th c nghi m cho th y kh n ng l p l i c a các đi m khóa không t ng khi nhi u t l h n đ c l y m u Lý do là vì có nhi u c c tr đ a ph ng h n đ c phát hi n, nh ng tính trung bình các c c tr này ít n đ nh và vì v y ít có kh
n ng đ c phát hi n trong nh đã b bi n đ i S l ng các đi m khóa t ng lên cùng v i vi c l y m u t ng c a các t l và t ng s l ng các so kh p chính xác
c ng t ng Vì s thành công c a vi c nh n d ng đ i t ng th ng ph thu c nhi u vào s l ng các đi m khóa đ c so kh p chính xác, ch không ph i t l
Trang 27ph n tr m so kh p chính xác c a chúng, nên đ i v i nhi u ng d ng, s t i u
h n khi s d ng m t l ng l n các m u t l Tuy nhiên, chi phí tính toán c ng
t ng cùng v i s l ng này, vì v y qua th c nghi m chúng ta ch c n ch n 3 m u
2.2.1.2 T n s l y m u trong m t vùng không gian
Vì chúng ta đã xác đ nh t n s l y m u trên m i quãng c a không gian t
l , cho nên ph i xác đ nh t n s l y m u trong m t vùng nh liên quan t i t l
c a vi c làm tr n Bi t r ng c c tr có th g n nhau m t cách tùy ý, nên s có
m t s cân b ng t ng đ i gi a t n s l y m u và t l phát hi n
D nhiên, n u ta làm tr n nh tr c khi phát hi n c c tr thì s lo i b m t cách hi u qu các t n s không gian cao nh t B i v y, đ làm t ng tính h u ích
c a d li u vào thì nh có th đ c m r ng đ t o ra nhi u đi m m u h n chúng
có m t trong nh g c Ta t ng g p đôi kích th c c a nh đ u vào s d ng phép
n i suy tuy n tính tr c khi xây d ng m c đ u tiên c a hình chóp Khi phép toán
t ng đ ng có th đ c th c thi m t cách hi u qu b ng vi c s d ng các b
l c kho ng tr ng subpixel trên nh g c, thì vi c g p đôi nh d n đ n s th c thi
có hi u qu h n Gi s r ng nh g c có m t v t m t i thi u = 0.5 và vì v y,
nh đ c g p đôi có = 1.0 liên quan t i kho ng cách đi m nh m i c a nó
i u này có ngh a là c n làm tr n m t chút tr c khi t o ra quãng đ u tiên c a không gian t l Vi c nhân đôi nh làm t ng s l ng các đi m khóa n đ nh b i
m t th a s là 4, nh ng ch a tìm th y các c i ti n đáng k h n n a đ i v i th a
s m r ng l n h n
2.2.2 nh v chính xác đi m khóa
M t khi m t đi m khóa ng c đ c tìm th y b ng vi c so sánh m t đi m
nh v i các láng gi ng c a nó, thì b c ti p theo là th c hi n đi u ch nh chi ti t
v i d li u lân c n cho v trí, t l , và t l c a các đ cong ch y u Thông tin này cho phép lo i b các đi m có đ t ng ph n th p ho c đ c đ nh v kém d c biên
Th c thi ban đ u c a h ng ti p c n này đã đ nh v m t cách đ n gi n các
đi m khóa v trí và t l c a đi m m u trung tâm Tuy nhiên, g n đây ng i ta
s d ng m t ph ng pháp khác đó là làm phù h p m t hàm b c hai 3D cho các
Trang 28đi m m u đ a ph ng đ xác đ nh v trí n i suy c a đi m c c đ i, và các th nghi m đã cho th y r ng ph ng pháp này mang l i s c i ti n đáng k cho vi c
so kh p và đ n đ nh Ph ng pháp này s d ng phép khai tri n Taylor (t i đa
là d ng b c hai) c a hàm không gian t l , D(x,y, ), đ c thay đ i đ nh g c
Hình 2.3 Các giai đo n l a ch n các đi m khóa (a) nh g c v i 233x189
đi m nh (b) 832 v trí đi m khóa ban đ u các đi m c c đ i và c c ti u c a hàm Difference-of-Gau ssian Các đi m khóa đ c th hi n nh các vect cho
bi t t l , h ng và v trí (c) Sau khi áp d ng m t ng ng lên đ t ng ph n t i thi u, còn l i 729 đi m khóa (d) 536 đi m khóa cu i cùng đ c gi l i sau khi
áp d ng m t ng ng cho t l c a các đ cong ch y u
Theo đ xu t c a Brown thì ma tr n Hessian và đ o hàm c a D đ c x p
x b ng vi c s d ng các đ chênh l ch gi a các đi m m u lân c n N u offset
Trang 29x l n h n 0.5 b t k chi u nào, thì có ngh a là c c tr đó n m g n v i m t đi m
m u khác h n Trong tr ng h p này, đi m m u đ c thay đ i và th c hi n phép
n i suy thay cho đi m đó Offset cu i cùng x đ c c ng thêm v h ng v trí
đi m m u c a nó đ có đ c s c l ng n i suy cho v trí c a c c tr đó
Giá tr hàm c c tr , D(x), có ích cho vi c lo i b các c c tr không n
đ nh có đ t ng ph n th p Có th đ t đ c đi u này b ng vi c th ph ng trình (2.18) vào (2.17), ta đ c:
D(x) = D +1
2
D
x x Thông qua các thí nghi m ng i ta nh n th y r ng, t t c các c c tr có giá
tr |D(x)| nh h n 0.03 đ u đ c lo i b
Hình 2.3 cho th y hi u qu c a vi c l a ch n đi m khóa trên m t nh t nhiên tránh quá nhi u s l n x n, s d ng m t nh có đ phân gi i th p v i 233x189 đi m nh và các đi m khóa đ c th hi n nh các vect cho bi t v trí,
t l , và h ng c a m i đi m khóa (vi c gán h ng đ c miêu t sau) Hình 2.3(a) th hi n nh g c, nh này đ c th hi n v i đ t ng ph n th p d n các hình ti p theo Hình 2.3(b) ch ra 832 đi m khóa t t c các đi m c c đ i và c c
ti u đ c phát hi n b i hàm Difference-of-Gaussian, trong khi đó hình 2.3(c) ch
ra 729 đi m khóa còn l i sau khi lo i b các đi m có |D( )| nh h n 0.03 Ph n (d) s đ c gi i thích trong m c ti p theo
* Lo i b các đáp ng biên
i v i tính n đ nh, không đ đ lo i b các đi m khóa có đ t ng ph n
th p Dù v trí d c theo biên đ c xác đ nh t i nh ng hàm Difference-of- Gaussian v n có m t đáp ng m nh d c theo các biên và vì v y không n đ nh khi có các l ng nh t p nhi u
nh đ c xác đ nh t i trong hàm Difference-of-Gaussian s có m t đ cong l n ch y u ngang qua biên ngo i tr đ cong nh h ng tr c giao Các
đ cong ch y u có th đ c tính t ma tr n Hessian 2x2, H, đ c tính v trí và
t l c a đi m khóa:
= (2.6) Các đ o hàm đ c c l ng b ng vi c l y các đ chênh l ch gi a các
đi m m u láng gi ng
Trang 30Các giá tr riêng c a ma tr n H t ng ng v i các đ cong ch y u c a D
L y là giá tr riêng v i c ng đ l n nh t và là giá tr riêng v i c ng đ nh
h n Khi đó, ta có th tính t ng các giá tr riêng t d u v t c a H và tích c a
chúng đ c tính t giá tr c a đ nh th c:
Tr(H) = Dxx + Dyy = + ,
Det(H) = DxxDyy – (Dxy)2= Trong tr ng h p không ch c x y ra đó là đ nh th c có giá tr âm, các đ cong có các d u hi u khác nhau vì v y đi m b lo i b không ph i là m t c c tr
L y r là t l gi a giá tr riêng có c ng đ l n nh t và giá tr riêng có c ng đ
nh h n, đ = r Khi đó,
( )( ) =
( + )
=( + ) =( + 1)
Bi u th c (r+1)2/rnh n giá tr c c ti u khi hai giá tr riêng b ng nhau và
nó t ng cùng v i r Vì v y, đ ki m tra xem t l c a các đ cong ch y u có
d i m t ng ng r nào đó không, ta ch c n ki m tra:
( )( ) <
( + 1)
Các thí nghi m cho th y s d ng giá tr r = 10, s lo i b đ c các đi m khóa có t l gi a các đ cong ch y u l n h n 10 S chuy n ti p t Hình 2.3(c) sang Hình 2.3(d) th hi n các tác đ ng c a thao tác này
2.2.3 Gán h ng cho các đi m khóa
B ng vi c gán m t h ng thích h p cho m i đi m khóa d a trên các đ c tính nh c c b , b mô t đi m khóa đ c trình bày ph n sau có liên quan t i
h ng này và vì v y đ t đ c s b t bi n đ i v i phép quay nh
gán m t h ng c c b cho m i đi m khóa ta s d ng h ng gradient
c a nh T l c a đi m khóa đ c dùng đ l a ch n nh đ c làm tr n Gaussian, L, v i t l g n nh t, đ th c hi n t t c các tính toán theo ki u b t
bi n t l i v i m i m u nh, L(x,y), t l này, c ng đ gradient, m(x,y),
và h ng, (x,y), đ c tính toán tr c s d ng đ chênh l ch đi m nh:
( , ) = ( + 1, ) ( 1, ) + ( , + 1) ( , 1) ( , ) = tan ( , + 1) ( , 1) ( + 1, ) ( 1, )
Trang 31M t bi u đ h ng đ c thi t l p t các h ng gradient c a các đi m m u
trong ph m vi m t vùng lân c n xung quanh đi m khóa Bi u đ h ng có 36 bin
bao ph 360 đ c a t t c các h ng M i m u đ c thêm vào bi u đ đ c gán
tr ng s b i đ l n gradient c a nó và b i m t c a s hình tròn Gaussian v i
g p 1.5 l n t l c a đi m khóa đó
Các đ nh trong bi u đ h ng t ng ng v i các h ng bao quát các
gradient c c b D a vào bi u đ h ng ta có th xác đ nh đ c đ nh cao nh t
trong bi u đ và khi đó b t k đ nh c c b nào khác n m trong ph m vi 80% so
v i đ nh cao nh t đ u đ c dùng đ t o ra m t đi m khóa v i cùng h ng đó Vì
v y, đ i v i các v trí có nhi u đ nh có c ng đ t ng t nhau, thì s có nhi u
đi m khóa đ c t o ra cùng v trí và t l đó nh ng các h ng thì khác nhau
Ch có kho ng 15% đi m đ c gán nhi u h ng, nh ng nh ng đi m này góp
ph n đáng k cho tính n đ nh c a vi c so kh p Cu i cùng, m t đ ng parabol
đ c làm phù h p v i 3 giá tr c a bi u đ g n v i m i đ nh nh t đ n i suy v
trí c a đ nh đó đ mang l i đ chính xác t t h n
2.2.4 Xây d ng b mô t c c b
Các thao tác trên đã gán v trí, t l và h ng cho m i đi m khóa Các
tham s này áp đ t cho h t a đ 2D c c b đ mô t m t vùng nh c c b B c
ti p theo là tính toán m t b mô t cho vùng nh c c b đó đ có th b t bi n đ i
v i các thay đ i còn l i nh thay đ i đ sáng ho c đi m nhìn 3D
Hình 2.4 B mô t đi m khóa đ c t o ra b ng cách: đ u tiên tính toán
đ l n và h ng gradient m i đi m m u trong m t vùng xung quanh v trí đi m
khóa, nh hình bên trái Các h ng này đ c gán tr ng s b i m t c a s
Trang 32Gaussian, đ c bi u th b i đ ng tròn ph ngoài Sau đó các m u này đ c gom l i thành các bi u đ h ng tóm t t n i dung trên 4x4 vùng con, đ c th
hi n hình ph i, v i chi u dài m i m i tên t ng đ ng v i t ng các c ng đ gradient g n v i h ng đó trong ph m vi c a vùng đó
Hình 2.4 minh h a cho vi c tính toán b mô t đi m khóa u tiên các đ
l n và h ng gradient nh đ c l y m u quanh v trí đi m khóa, s d ng t l
c a đi m khóa đ l a ch n m c m Gaussian cho nh đ t đ n s b t bi n v
h ng, thì các t a đ c a b mô t và các h ng gradient b quay có liên quan
t i h ng c a đi m khóa thu n ti n trong vi c tính toán b mô t , các gradient ph i đ c tính tr c cho t t c các m c c a hình chóp Các gradient này
đ c minh h a b i các m i tên nh m i v trí m u hình bên trái c a hình 2.4
Hàm gán tr ng s Gaussian v i b ng m t n a chi u r ng c a c a s b
mô t đ c dùng đ gán m t tr ng s cho c ng đ c a m i đi m m u i u này
đ c minh h a b ng m t c a s hình tròn th hi n hình bên trái c a hình 2.4
M c đích c a c a s Gaussian này là tránh các thay đ i đ t ng t trong b mô t khi có các thay đ i nh v trí c a c a s , và ít quan tâm đ n các gradient xa
v trí trung tâm c a b mô t
Hình bên ph i c a hình 2.4 th hi n b mô t đi m khóa Nó chú ý đ n s thay đ i đáng k các v trí gradient b ng vi c t o ra các bi u đ h ng trên 4x4 vùng m u Hình này th hi n 8 h ng cho m i bi u đ , v i chi u dài c a m i
m i tên t ng ng v i đ l n c a m i m c (entry) c a bi u đ
tránh t t c các nh h ng biên là đi u th t s quan tr ng, đó b mô
t thay đ i đ t ng t vì m t m u thay đ i liên t c t m t bi u đ này sang m t
bi u đ khác ho c t m t h ng này sang h ng khác Vì v y, s d ng phép n i suy tuy n tính b c 3 đ phân b giá tr c a m i m u gradient vào các bin bi u đ
g n k M t khác, m i entry trong m t bin đ c t ng lên nhi u l n b i tr ng s
là 1-d cho m i chi u, trong đó d là kho ng cách c a m u t giá tr trung tâm c a bin đó đ c đo d i d ng các đ n v c a kho ng cách bin bi u đ
B mô t đ c t o nên t m t vect ch a các giá tr c a t t c các entry
c a bi u đ h ng, t ng ng v i các chi u dài c a các m i tên hình bên ph i
c a hình 2.4 Hình này th hi n m t m ng 4x4 các bi u đ v i 8 bin h ng Vì
v y, m t vect đ c tr ng có 4x4x8 =128 ph n t đ mô t cho m i đi m khóa
Cu i cùng, vect đ c tr ng đ c s a đ i đ gi m các tác đ ng c a s thay
đ i v đ sáng u tiên, vect đ c chu n hóa theo chi u dài đ n v S thay
đ i v đ t ng ph n c a nh t c là m i giá tr đi m nh đ c nhân v i m t
Trang 33h ng s s làm t ng các gradient b i cùng h ng s đó, cho nên phép chu n hóa vect s xóa b đ c s thay đ i v đ t ng ph n Thay đ i đ sáng t c là m t
h ng s đ c thêm vào m i đi m nh, đi u này s không nh h ng đ n các giá
tr gradient, vì giá tr gradient đ c tính t các đ chênh l ch c a đi m nh B i
v y, b mô t b t bi n đ i v i các thay đ i affine v đ sáng Tuy nhiên, các thay
đ i đ sáng phi tuy n tính c ng có th x y ra d a trên s bão hòa c a camera
ho c d a trên các thay đ i v s chi u sáng mà chúng nh h ng đ n các b m t 3D v i các h ng khác nhau b i các l ng khác nhau Các nh h ng này có th gây nên s thay đ i l n các c ng đ liên quan đ i v i m t s gradient, nh ng
ít có kh n ng nh h ng đ n các h ng gradient Vì v y, gi m đ c tác đ ng
c a các c ng đ gradient l n b ng vi c l y ng ng đ i v i các giá tr trong vect đ n v đ c tr ng cho m i c ng đ là không v t quá 0.2, sau đó chu n hóa l i chi u dài đ n v i u này có ngh a là vi c so kh p các c ng đ đ i v i các gradient l n không còn quan tr ng n a, và s phân b c a các h ng có t m quan tr ng r t l n Giá tr 0.2 đ c xác đ nh b ng th c nghi m s d ng các nh
có các đ chi u sáng khác nhau cho cùng các đ i t ng 3D
nh t là vài mét, vì v y th t vô ngh a khi th o lu n khái ni m “cây” m c nanomet ho c kilomet V i c s l p lu n này, thì các đ i t ng trong th gi i
xu t hi n theo các cách khác nhau tùy thu c t l quan sát n u ng i ta nh m vào vi c mô t chúng Vì v y khái ni m t l là c c k quan tr ng
c bi t, s c n thi t đ i v i vi c th hi n đa t l n y sinh khi thi t k các ph ng pháp phân tích t đ ng và thu nh n thông tin t các phép đo th gi i
th c có th trích ch n b t k thông tin nào t d li u nh, rõ ràng ng i ta
ph i t ng tác v i d li u nh b ng cách s d ng các toán t nào đó Ki u thông tin có th thu đ c ph n l n đ c xác đ nh b i m i quan h gi a kích th c c a các c u trúc hi n th c trong d li u đó và kích th c c a các toán t Vài v n đ
r t c b n trong x lý nh t p trung vào toán t nào đ c dùng, n i áp d ng
Trang 34chúng và chúng ph m vi nh th nào N u các v n đ này không đ c quan
tâm thích đáng thì vi c gi i thích cho s đáp ng c a toán t có th r t khó kh n
Tuy nhiên, trong các hoàn c nh khác nhau có th không là hi n nhiên đ
xác đ nh tr c t l nào là thích h p M t ví d cho tr ng h p nh v y là h
th ng th giác v i nhi m v phân tích các c nh ch a bi t Bên c nh các đ c tính
đa t l v n có c a các đ i t ng th gi i th c, thì m t h th ng nh v y ph i
đ i m t v i các v n đ nh phép ánh x theo lu t g n xa đ a đ n các thay đ i v
kích th c, t p nhi u c ng b đ a vào trong quá trình thu nh n nh, và d li u
s n có là các t p d li u hai chi u ph n ánh các đ c tính gián ti p c a m t th
gi i 3 chi u có th đ i phó v i các v n đ này, m t công c c n thi t là m t
lý thuy t hình th c cho cách mô t các c u trúc nh các t l khác nhau
* S th hi n không gian t l : đ nh ngh a và các ý t ng c b n
Hình 2.5 M t th hi n đa t l c a m t tín hi u là m t t p có th t c a
các tín hi u thu nh n đ c d đ nh đ th hi n tín hi u g c các m c t l khác
nhau
Lý thuy t không gian t l là m t n n t ng cho các thao tác th giác g n
đây, lý thuy t này đ c phát tri n b i c ng đ ng th giác máy tính đ x lý b n
ch t đa t l đ c đ c p trên c a d li u nh M t v n đ chính đ ng sau c u
trúc c a nó là n u không cho tr c thông tin v các t l thích h p đ i v i m t
t p d li u cho tr c thì ch có m t ph ng pháp duy nh t cho h th ng th giác
không ràng bu c là th hi n d li u vào nhi u m c t l khác nhau i u này
có ngh a là tín hi u g c nên đ c nhúng vào m t h m t tham s c a các tín hi u
thu nh n, đó các c u trúc có t l nh đ c nén liên ti p (Hình 2.5) M t ý
t ng nh v y nên đ c th c hi n nh th nào trong th c t ? M t yêu c u c t
y u là các c u trúc các t l thô trong m t th hi n đa t l s là các s đ n
Trang 35V i đi u ki n ban đ u L(.; t) = f Khi đó, d a vào th hi n này, các đ o hàm không gian t l b t k t l t nào đ u đ c xác đ nh b i:
( ; ) = … ( ; ) = … g( ; )
Hình 2.6 Các m c khác nhau trong m t th hi n không gian t l c a m t
nh hai chi u các m c t l t = 0, 2, 8, 32, 128 và 512 cùng v i các hình gi t
n c m c xám bi u th các giá tr c c ti u c c b m i t l
Trang 36Hình 2.6 th hi n m t ví d ng v i m t nh hai chi u đây, đ nh n
m nh các bi n đ i c c b trong m t nh c p xám, các giá tr c c ti u c c b trong các nh c p xám m i t l đ c bi u th b i các hình gi t n c màu đen Chúng ta có th th y r ng ph n l n các hình gi t n c nh là do t p nhi u và k t
c u đ c phát hi n các t l nh Sau khi làm tr n, các nút b m trên bàn phím
hi n ra rõ ràng h n, trong khi đó các t l l n h n các nút này h p thành m t
kh i H n n a, các c u trúc nh t i h n (nh máy tính, dây, và ng nghe đi n tho i) xu t hi n nh các hình gi t n c đ n các t l l n h n Ví d này minh
h a cho các ki u phân tích hình d ng có th b c mà các phân tích này có th
đ c đ t đ n b ng vi c thay đ i tham s t l trong th hi n không gian t l đó Các m i liên h gi a các c u trúc nh các t l khác nhau đ c t o ra theo cách này đ c g i là các c u trúc theo đ sâu (deep structures)
2.3.2 Hàm Harris thích nghi t l
Ph ng pháp phát hi n đi m quan tâm Harris d a trên ma tr n moment
c p hai Ma tr n moment c p hai, còn g i là ma tr n t ng quan t đ ng, th ng
đ c dùng cho vi c phát hi n đ c tr ng ho c mô t các c u trúc nh c c b Ma
tr n này đ c làm thích nghi v i các thay đ i v t l , làm cho nó đ c l p v i đ phân gi i c a nh Ma tr n moment c p hai thích nghi t l (scale-adapted second moment matrix) đ c đ nh ngh a nh sau:
( , ) ( , ) (2.7) đây là t l tích phân, là t l vi phân và L là phép đ o hàm đ c tính theo h ng a Ma tr n này mô t s phân b gradient trên m t vùng lân c n
c c b xung quanh m t đi m Các đ o hàm đ a ph ng đ c tính v i các hàm nhân Gaussian có kích th c đ c xác đ nh b i t l c c b (t l vi phân - differentiation scale) Sau đó, các đ o hàm này đ c tính trung bình trong vùng lân c n c a đi m đó b ng vi c làm tr n v i c a s Gaussian có kích th c (t
l tích phân - integration scale) Các giá tr riêng c a ma tr n này mô t hai s thay đ i tín hi u ch y u trong vùng lân c n c a m t đi m c tính này cho phép trích ch n các đi m, mà đ i v i chúng c hai đ cong đ u đáng k , đi u này có ngh a là s thay đ i tín hi u là đáng k các h ng tr c giao t c là các góc, các m i n i v.v Các đi m nh v y n đ nh trong các đi u ki n chi u sáng tùy ý và đ i di n cho m t nh M t trong nh ng ph ng pháp phát hi n đi m quan tâm tin c y nh t, đó là ph ng pháp Harris, d a theo nguyên t c này Phép
đo Harris k t h p d u v t và đ nh th c c a ma tr n moment c p hai đ c xác
đ nh nh sau:
Trang 37= ( , , ) ( , , ) (2.8) Các giá tr c c đ i c c b c a cornerness xác đ nh v trí c a các đi m quan
tâm, đó đ c xác đ nh thông qua th c nghi m
2.3.3 S l a ch n t l t đ ng
S l a ch n t l t đ ng và các đ c tính c a các t l đ c ch n đã đ c nghiên c u r ng rãi Ý t ng là l a ch n t l đ c tr ng c a m t c u trúc c c b ,
mà đ i v i nó m t hàm cho tr c đ t đ c m t c c tr trên t t c các t l Liên quan t i vi c l a ch n t l t đ ng, thu t ng characteristic tr c tiên đ c p
đ n m t s vi c là t l đ c ch n c l ng chi u dài đ c tr ng (characteristic
length) c a các c u trúc nh t ng ng, theo cách t ng t nh khái ni m v chi u dài đ c tr ng đ c dùng trong V t lý T l đ c ch n là đ c tr ng theo ngh a đ nh l ng, vì nó đo đ c t l mà đó có s gi ng nhau t i đa gi a toán
t phát hi n đ c tr ng và các c u trúc nh c c b S c l ng t l này s tuân
th hoàn toàn v i s b t bi n t l khi có s thay đ i t l c a m u nh
Cho m t đi m trong m t nh và m t toán t l a ch n t l chúng ta tính toán các đáp ng c a toán t đó cho m t t p các t l n (Hình 2.7) T l đ c
tr ng t ng ng v i c c tr đ a ph ng c a các đáp ng đó Chú ý r ng có th có vài c c đ i ho c c c ti u, đó là các t l đ c tr ng t ng ng v i các c u trúc
nh khác nhau đ c đ t vào gi a đi m này T l đ c tr ng không ph thu c nhi u vào đ phân gi i c a nh Nó liên quan t i c u trúc và không liên quan t i
đ phân gi i mà đó c u trúc đ c miêu t T l gi a các scale mà đó các c c
tr đ c tìm th y cho các đi m t ng ng là th a s t l th c s gi a các vùng lân c n c a đi m đó N u có quá ít đi m quan tâm đ c phát hi n thì n i dung
nh đ c miêu t không tin c y cho m y H n n a, các cu c thí nghi m đã cho
th y r ng hàm Laplacian-of-Gaussian tìm đ c t l ph n tr m cao nh t c a các
t l đ c tr ng chính xác đ c cho b i công th c sau:
|LoG( , )| = ( , ) + ( , ) (2.9)
Trang 38Hình 2.7 Ví d v các t l đ c tr ng
Hình 2.7 minh h a cho các t l đ c tr ng Hàng trên th hi n hai nh
đ c l y v i các chi u dài c c b khác nhau Dòng d i th hi n các đáp ng
c a hàm Fnorm(x, n) trên các t l , đó Fnorm là hàm LoG chu n (công th c 2.9) Các t l đ c tr ng này n m trong kho ng 10.1 và 3.89 đ i v i nh trái và nh
ph i T l gi a các t l t ng ng là th a s t l (2.9) gi a hai nh Bán kính
c a các vòng tròn b ng 3 l n t l đ c tr ng
Khi kích th c c a hàm nhân LoG kh p v i kích th c c a c u trúc like thì đáp ng đó đ t đ c m t c c tr Vì v y, hàm nhân LoG có th đ c gi i thích nh m t b l c so kh p Hàm LoG đ c làm thích nghi t t v i vi c phát
blob-hi n đ m màu (blob) vì tính đ i x ng tròn c a nó, nh ng nó c ng cung c p m t
s c l ng t t v t l đ c tr ng cho các c u trúc c c b khác nh các góc, các
c nh, các hình chóp và đa m i n i
2.3.4 Thu t toán phát hi n đi m b t đ ng
M c này trình bày chi ti t v thu t toán phát hi n các đi m đ c tr ng b t
bi n t l Ph ng pháp Harris-Laplace dùng hàm Harris thích nghi t l (công
th c 2.8) đ xác đ nh các đi m trong không gian t l Sau đó, nó l a ch n các
đi m mà đ i v i chúng hàm Laplacian-of-Gaussian (công th c 2.9) đ t đ c
m t giá tr c c đ i trên kh p t l Ng i ta đ xu t 2 thu t toán Thu t toán th
nh t là thu t toán l p đ phát hi n đ ng th i v trí và t l c a các vùng đ c
tr ng Thu t toán th hai là m t thu t toán đ n gi n, ít chính xác nh ng hi u qu
h n nhi u
Trang 392.3.4.1 Thu t toán
Thu t toán này bao g m hai b c: phát hi n đi m đa t l (multi-scale point) và l a ch n l p đi l p l i t l và v trí u tiên ta xây d ng m t th hi n không gian t l v i hàm Harris cho các t l đ c ch n tr c n = n 0, v i là
th a s t l gi a hai m c liên ti p ( = 1.4 ) m i m c c a s th hi n này ta trích ch n các đi m quan tâm b ng vi c phát hi n các đi m c c đ i đ a ph ng trong 8 láng gi ng c a đi m x S d ng m t ng ng đ lo i b các đi m c c đ i
c a góc (cornerness) nh , vì chúng ít n đ nh d i các thay đ i trong các đi u
ki n nh Ma tr n µ(x, n) đ c tính v i t l tích phân I= nvà t l c c b
D=s n, s là m t h ng s (thi t l p 0.7 trong các thí nghi m) Sau đó đ i v i m i
đi m ta áp d ng thu t toán l p đ phát hi n đ ng th i v trí và t l c a các đi m quan tâm Các c c tr trên t l c a hàm LoG đ c dùng đ l a ch n t l cho các đi m quan tâm Lo i b các đi m mà đ i v i chúng đáp ng c a hàm LoG không đ t đ c c c tr nào và đáp ng d i ng ng Cho m t đi m x ban đ u
n u dùng m t t l nh h n (1.1) trong thu t toán s mang l i đ chính xác t t
h n cho v trí x và t l I Cho tr c các đi m ban đ u đ c phát hi n v i kho ng cách t l = 1.4, vòng l p ki m tra c n th n dãy các t l t I v i t thu c vào [0.7, …, 1.4], đi u này t ng ng v i kho ng cách gi a hai m c trong không gian t l g n v i t l c a đi m ban đ u là I Chú ý r ng các đi m ban
Trang 40hi n Harris đa t l đ c dùng cho vi c kh i t o đây, ta l a ch n b ng tay các
đi m t ng ng v i cùng c u trúc c c b T l phát hi n đ c th hi n b i m t vòng tròn bao quanh đi m đó v i bán kính 3 I Chú ý cách th c mà m t đi m quan tâm, đ c phát hi n đ i v i cùng c u trúc nh đó, thay đ i v trí c a nó liên quan t i t l phát hi n h ng gradient đó Ng i ta có th xác đ nh m t chu i các đi m và ch ch n m t đi m trong chúng đ th hi n cho c u trúc c c b
h ng ti p c n này, phép đo LoG đ c dùng đ ch n các đi m đi n hình cho các
c u trúc nh v y H n n a, hàm LoG cho phép các đi m đ c tr ng t ng ng có
đ n gi n
2.4 Harris-Affine
H ng ti p c n b t bi n t l có th đ c m r ng đ làm cho nó b t bi n affine Ph n này trình bày v ph ng pháp phát hi n đi m b t bi n Harris-Laplace trong tr ng h p có các phép bi n đ i affine c a nh Ti p theo gi i thi u m t ph ng pháp cho vi c c l ng hình d ng affine c a m t c u trúc
c c b M i b c c a thu t toán phát hi n đ c th o lu n chi ti t và trình bày
m t phác th o c a th t c l p này Ph n này c ng trình bày m t ví d v các
đi m b t bi n affine đ c phát hi n theo ph ng pháp này