Cụ thể, chúng tôi đề xuất tích hợp các kỹ thuật về ràngbuộc hình học trong so khớp đặc trưng giúp các liên kết trong đồ thị so khớpchính xác hơn, và đề xuất phương pháp gom cụm dựa trên
Trang 1ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
Mã số: 60.48.01.01
NGƯỜI HƯỚNG DẪN KHOA HỌC
TS LÊ ĐÌNH DUY
TP HỒ CHÍ MINH - NĂM 2017
Trang 2LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi Các số liệu, kếtquả nêu trong luận văn là trung thực và chưa từng được ai công bố trong bất
kỳ công trình nào khác, ngoại trừ các tư liệu được trích dẫn ghi trong mụctài liệu tham khảo
Tác giả luận văn
Nguyễn Thị Bảo Ngọc
Trang 3LỜI CẢM ƠN
Đầu tiên em xin chân thành cảm ơn thầy Lê Đình Duy và thầy Ngô ĐứcThành vì đã tận tình hướng dẫn, giúp đỡ em trong suốt thời gian thực hiệnluận văn này Bên cạnh đó, em cũng xin chân thành cảm ơn giáo sư Shin’ichiSatoh (Viện Tin học Quốc gia (NII), Nhật Bản) vì đã tài trợ và hướng dẫn
em trong những ngày đầu thực hiện đề tài
Em xin cảm ơn các anh, chị và các bạn sinh viên tham gia sinh hoạt tại Phòngthí nghiệm Truyền thông Đa phương tiện, trường ĐH Công nghệ Thông tin.Cảm ơn mọi người đã hỗ trợ em rất nhiều trong suốt thời gian em thực hiệnkhóa luận
Em xin chân thành cảm ơn
TP Hồ Chí Minh, tháng 8 năm 2017
Nguyễn Thị Bảo Ngọc
Trang 41.2 Nội dung và đóng góp của luận văn 7
1.2.1 Tích hợp các ràng buộc hình học trong so khớp đặc trưng 8
1.2.2 Lựa chọn ứng viên gần nhất trong gom cụm 9
1.3 Cấu trúc luận văn 11
Trang 5MỤC LỤC
2.1 Các công trình liên quan 12
2.1.1 Rút trích đặc trưng 14
2.1.2 So khớp 14
2.1.3 Gom cụm 15
2.2 Hướng tiếp cận dựa trên đồ thị so khớp 16
2.2.1 Rút trích đặc trưng 16
2.2.2 Xây dựng đồ thị so khớp 18
2.2.3 Gom cụm 21
2.2.3.1 Thuật toán ForceAltas2 21
2.2.3.2 Thuật toán Greedy Breadth-First Search (GBFS) 23
3 HỆ THỐNG VIM TÍCH HỢP CÁC GIẢI PHÁP ĐỀ XUẤT 25 3.1 Ý tưởng chính 25
3.1.1 Nâng cao chất lượng của đồ thị so khớp 25
3.1.2 Nâng cao hiệu suất của phương pháp gom cụm 26
3.2 Hệ thống VIM tích hợp các giải pháp đề xuất 30
3.2.1 Rút trích đặc trưng 30
3.2.2 Tích hợp ràng buộc hình học trong xây dựng đồ thị so khớp 30 3.2.3 Gom cụm dựa trên lựa chọn ứng viên gần nhất 34
4 THỰC NGHIỆM VÀ PHÂN TÍCH 37 4.1 Bộ dữ liệu 37
4.2 Phương pháp đánh giá 38
4.3 Các phương pháp so sánh 40
4.4 Kết quả thí nghiệm và nhận xét 40
5 TỔNG KẾT VÀ HƯỚNG PHÁT TRIỂN 46 5.1 Kết quả đạt được 46
5.2 Hướng phát triển 47
Trang 7Danh sách hình vẽ
1.1 Đầu ra của hệ thống phát hiện các nhóm đối tượng trong cơ sở dữ liệuảnh (visual instance mining - VIM) là các nhóm ảnh với mỗi nhóm
ảnh chứa cùng một đối tượng cụ thể và riêng biệt (instance), như
(từ trên xuống dưới): xe Mercedes-Benz Dealership White, xe ToyotaC-HR, tượng “Bruce Lee statue” ở Hong Kong, logo “Coca cola”, túixách “Speedy 30 Damier Azur Canvas handbag”, 5
1.2 Phương pháp so khớp Đầu vào là các cặp ảnh Các cặp điểm ứngviên trùng khớp (candidate matches) được tạo bằng cách ghép cácvisual word giữa hai ảnh có cùng visual word ID Các cặp điểm nàysau đó được cắt bỏ bằng HE-code[1], Burstiness Removal(sử dụngMultiple match removal - MMR[2]) và kiểm tra tính nhất quán hìnhhọc (Geometric Consistency[3]) 8
1.3 Giả sử tồn tại đồ thị so khớp như trên Với ảnhI1vàI2 cùng chứa đốitượng hình tam giác vàng; ảnhI1, I3, I4cùng chứa đối tượng mặt tròn
So sánh kết quả của phương pháp gom cụm truyền thống (theo lớp)
và phương pháp gom cụm đề xuất (theo ứng viên gần nhất) 10
2.1 Hệ thống phát hiện các nhóm đối tượng trong cơ sở dữ liệu ảnh thườngbao gồm ba bước chính, bao gồm: rút trích đặc trưng ảnh, so khớp vàgom cụm 13
2.2 Ví dụ về đồ thị so khớp 19
Trang 8DANH SÁCH HÌNH VẼ
2.3 Sử dung thuật toán ForceAltas2 trong trực quan hóa đồ thị 22
3.1 So sánh kết quả so khớp đặc trưng của (a) So khớp thông thường (b)Tích hợp ràng buộc Kết quả cho thấy giải pháp đề xuất giúp loại bỏcác matches lỗi rất hiệu quả 27
3.2 Các phương pháp gom cụm trước đây gom cụm theo phân cấp Kýhiệu: các đỉnh màu đỏ là những điểm đã nằm trong cụm; Các điểmmàu vàng là các ứng viên đang xét để đưa vào cụm; Các điểm màuxanh dương là các đỉnh còn lại trong đồ thị so khớp Các điều kiệnđặt ra để các đỉnh thêm vào cụm có xu hướng giống với điểm khởi tạo(Entry point) Cụm được mở rộng bằng cách duyệt theo chiều rộng vàlựa chọn lần các ứng viên có khả năng giống với điểm khởi tạo nhất
Số cấp duyệt ứng viên được người dùng lựa chọn 28
3.3 Phương pháp đề xuất ưu tiên mối liên kết giữa các ứng viên và cácảnh đã có trong cụm Ký hiệu: các đỉnh màu đỏ là những điểm đãnằm trong cụm; Các điểm màu vàng là các ứng viên đang xét để đưavào cụm; Các điểm màu xanh dương là các đỉnh còn lại trong đồ thị
so khớp Các ứng viên liên kết lớn nhất với các ảnh trong cụm sẽ được
ưu tiên xem xét đưa vào cụm trước 29
3.4 Ví dụ minh họa về việc tồn tại đa điểm nối giữa các ảnh Nghĩa là, tồntại những điểm đặc trưng có hơn một kết nối đến các điểm đặc trưngkhác 32
4.1 Một số đối tượng trong (a) bộ dữ liệu MQA (statue-of-liberty, cola, Bruce-Lee-Statue, crabapple, panda) và (b) bộ dữ liệu PartialDup(logo-converse, book, truck, gandi, beatles, gothic) 38
Coca-4.2 So sánhFpair của hai bộ dữ liệu MQA và với PartialDup với các giátrị khác nhau củahtvàthr 41
Trang 9DANH SÁCH HÌNH VẼ
4.3 Hiệu suất thực hiện trên bộ dữ liệu MQA Chúng tôi so sánh với ba
độ đo (a) Pair F-Measure, (b) Pair Precision, and (c) Pair Recall 42
4.4 Hiệu suất thực hiện trên bộ dữ liệu PartialDup 43
4.5 Một số ví dụ về các nhóm đối tượng phát hiện được trong hai bộ dữliệu sử dụng phương pháp đề xuất của chúng tôi Lưu ý, số lượng đốitượng trong mỗi nhóm lớn hơn số lượng đối tượng được thế hiện trongảnh 45
Trang 10Danh sách bảng
4.1 So sánh các kết quả tốt nhất của phương pháp đề xuất và các phươngpháp tiên tiến nhất hiện nay Các giá trị tốt nhất trong từng bộ dữ liệuvới các độ đo khác nhau được in đậm 44
Trang 11Danh mục từ viết tắt
AWT Average Weight Test
GBFS Greedy Breadth-First Search
HE Hamming Embedding
IG Instance Graph
LE Layout Embedding
LET Layout Embedding Test
MMR Multiple Match Removal
ToF Thread of Features
VIM Visual Instance Mining
WGC Weak Geometric Consistency
Trang 12TÓM TẮT
Phát hiện các nhóm đối tượng (visual instance mining, viết tắt VIM) là bàitoán tự động tìm ra các đối tượng cụ thể, riêng biệt (instance) và phổ biếntrong một cơ sở dữ liệu ảnh cho trước Đầu vào của bài toán là một cơ sở dữliệu ảnh Yêu cầu đầu ra là danh sách các nhóm đối tượng, mỗi nhóm đốitượng bao gồm một tập các ảnh trong cơ sở dữ liệu ảnh (được mong đợi)
có chứa cùng một instance Mỗi một ảnh trong cơ sở dữ liệu có thể nằmtrong nhiều hơn một nhóm đối tượng Đây là một bài toán có rất nhiều tháchthức bởi sự đa dạng cao của các đối tượng có trong ảnh và độ phức tạp caocủa tính toán VIM đóng vai trò quan trọng trong rất nhiều bài toán và ứngdụng khác nhau như tìm kiếm đối tượng thị giác (instance search), tự độnggán nhãn cho ảnh (image annotation) và phân loại đối tượng ảnh (objectcategorization)
Phương pháp tiên tiến nhất hiện nay để giải quyết bài toán VIM là gom cụmdựa trên đồ thị so khớp xây dựng giữa các ảnh trong cơ sở dữ liệu Ý tưởngchính của phương pháp là xây dựng một đồ thị thưa (ít cạnh) với mỗi đỉnh
là một ảnh trong cơ sở dữ liệu ảnh, khoảng cách giữa hai đỉnh phản ảnh độtương tự giữa hai ảnh ở hai đỉnh Dựa trên đồ thị đã xây dựng, các phươngpháp gom cụm được áp dụng nhằm phát hiện các nhóm đối tượng trong đồthị Dựa trên hướng tiếp cận đồ thị so khớp, các phương pháp đề xuất hiệnnay đã nâng cao độ chính xác vượt bậc so với các phương pháp trước đó trêncác bộ dữ liệu chuẩn của bài toán
Dựa trên các phân tích về ưu và nhược điểm của các phương pháp tiên tiếnnhất hiện nay (trình bày chi tiết trong Chương 3), chúng tôi đề xuất hai giải
Trang 13pháp nhằm cải tiến độ chính xác của hai bước chính của phương pháp sửdụng đồ thị so khớp Cụ thể, chúng tôi đề xuất tích hợp các kỹ thuật về ràngbuộc hình học trong so khớp đặc trưng giúp các liên kết trong đồ thị so khớpchính xác hơn, và đề xuất phương pháp gom cụm dựa trên chọn ứng viên gầnnhất giúp nâng cao hiệu suất của quá trình phát hiện các nhóm đối tượng.Các thí nghiệm đã được thực hiện trên các bộ dữ liệu chuẩn của bài toánphát hiện các nhóm đối tượng trong cơ sở dữ liệu ảnh đã chứng minh tínhhiệu quả của phương pháp đề xuất khi độ chính xác của giải pháp đề xuấtcao hơn các phương pháp tiên tiến nhất hiện nay (f-pair measure cao hơn từ5% đến 21%, tùy thuộc vào bộ dữ liệu thực hiện) Dựa trên đó, các kết quảnghiên cứu đã được chấp nhận đăng tại Hội nghị Quốc tế về Kỹ nghệ tri thức
và Hệ thống lần thứ 9 (The 9th International Conference on Knowledge andSystems Engineering - KSE 2017)
Từ khóa: Phát hiện các nhóm đối tượng - visual instance mining, đồ thị so khớp - instance graph, gom cụm trên đồ thị - graph clustering.
Trang 14NHỮNG ĐÓNG GÓP
• Nội dung luận văn đã hệ thống lại các kiến thức cơ sở về bài toán pháthiện các nhóm đối tượng trong cơ sở dữ liệu ảnh (Visual Instance Min-ing - VIM)
• Đề xuất tích hợp các kỹ thuật về ràng buộc hình học trong so khớp đặctrưng giúp các liên kết trong đồ thị so khớp chính xác hơn
• Đề xuất phương pháp gom cụm dựa trên chọn ứng viên gần nhất giúpnâng cao hiệu suất của quá trình phát hiện các nhóm đối tượng
• Kết quả nghiên cứu đã được chấp nhận đăng tại Hội nghị Quốc tế về Kỹnghệ tri thức và Hệ thống lần thứ 9 (The 9th International Conference
on Knowledge and Systems Engineering - KSE 2017)
Trang 15Chương 1
PHÁT HIỆN CÁC NHÓM ĐỐI TƯỢNG TRONG CƠ SỞ DỮ
LIỆU ẢNH
Phát hiện các nhóm đối tượng (visual instance mining, viết tắt VIM) là bài toán tự
động tìm ra các đối tượng cụ thể, riêng biệt (instance) và phổ biến trong một cơ sở
dữ liệu ảnh cho trước [4] Nói một cách đơn giản hơn, phát hiện các nhóm đối trọng
là bài toán tìm ra tập các ảnh có chứa cùng một đối tượng nào đó trong một cơ sở dữliệu ảnh cho trước:
• Đầu vào: Tập n ảnhD = {I 1, I2, , In }
• Đầu ra: Danh sáchmnhóm đối tượngC = [C1, C2, , Cm]vớiCi = {I i 1 , Ii2, , Iik|
∃instance z, z ∈ I i j ∀I i j , 1 ≤ j ≤ k} n
i k =2 ⊂ Dvới1 ≤ j ≤ k
Các instance (tạm dịch đối tượng) z ở đây là các thực thể cụ thể và riêng biệt (specificvisual entity) thường xuyên xuất hiện (xem minh họa ở Hình1.1) Các instance ở đây
Trang 16Chương 1 Phát hiện các nhóm đối tượng trong cơ sở dữ liệu ảnh
Hình 1.1: Đầu ra của hệ thống phát hiện các nhóm đối tượng trong cơ sở dữ liệu ảnh(visual instance mining - VIM) là các nhóm ảnh với mỗi nhóm ảnh chứa cùng một đối
tượng cụ thể và riêng biệt (instance), như (từ trên xuống dưới): xe Mercedes-Benz
Dealership White, xe Toyota C-HR, tượng “Bruce Lee statue” ở Hong Kong, logo
“Coca cola”, túi xách “Speedy 30 Damier Azur Canvas handbag”,
cụ thể hơn các lớp đối tượng (“object class” như lớp cá, người, nhà cửa, xe cộ ), nóchỉ một thực thể cụ thể (a specific “visual entity” [5]) như một loại túi xách cụ thể, ví
dụ ảnh của túi “Speedy 30 Damier Azur Canvas - handbag” chứ không phải của hãngkhác (túi xách chung), một chiếc xe cụ thể như xe Mercedes-Benz Dealership White,
Trang 17Chương 1 Phát hiện các nhóm đối tượng trong cơ sở dữ liệu ảnh
xe Toyota C-HR, VIM gom các ảnh chứa chung một đối tượng cụ thể này (bất kể tỉ
lệ, kích thước, mức độ bị che khuất ) thành một nhóm đối tượng Chú ý rằng một ảnh
có thể chứa nhiều instance, do đó, một ảnh có thể nằm trong nhiều nhóm đối tượngkhác nhau
VIM đóng vai trò quan trọng trong rất nhiều bài toán và ứng dụng khác nhau:
• Tìm kiếm đối tượng thị giác (instance search): VIM giúp phát hiện các nhóm
đối tượng phổ biến trong cơ sở dữ liệu, từ đó giúp lưu trữ cơ sở dữ liệu truy vấntốt hơn Đồng thời, với các nhóm đối tượng đã phát hiện sẵn, VIM giúp hệ thốngtìm kiếm đối tượng nhanh hơn và chính xác hơn nếu các truy vấn là đối tượngnằm trong các nhóm đối tượng đã phát hiện trước
• Tự động gán nhãn cho ảnh (image annotation) và phân loại đối tượng ảnh (object categorization): Dựa trên việc phát hiện các nhóm đối tượng của hệ
thống VIM, việc gán nhãn/ phân loại được thực hiện một lần cho nhiều ảnh xuấthiện trong cùng một nhóm đối tượng, từ đó giúp giảm chi phí cho các hệ thốnggán nhãn và phân loại đối tượng
• Nhận diện cảnh (scene recognition): Các hệ thống nhận diện cảnh có thể sử
dụng các đối tượng đặc trưng của các địa điểm cần nhận diện (phát hiện bởi hệthống VIM) để nhận diện cảnh
• Tóm tắt dữ liệu đa phương tiện (multimedia summarization): VIM phát hiện
các đối tượng phổ biến xuất hiện trong cơ sở dữ liệu ảnh có thể giúp tóm tắt nộidung/ điểm nổi bật của tập dữ liệu
Cho tới hiện tại, phát hiện các nhóm đối tượng vẫn là một bài toán gặp nhiều tháchthức, trong đó có hai thách thức chính như sau:
1 Chi phí tính toán Trong một cơ sở dữ liệu lớn, số lượng đối tượng là rất lớn Do
đó chi phí để phát hiện các nhóm đối tượng là rất lớn Với tập có N ảnh, mỗi ảnh
Trang 18Chương 1 Phát hiện các nhóm đối tượng trong cơ sở dữ liệu ảnh
có n vùng, chi phí để so khớp các cặp hình có thể lên đến O((N n)2) Bên cạnh
đó, để đưa các phương pháp phát hiện các nhóm đối tượng vào các ứng dụng thực
tế, các phương pháp đề xuất cần phải quan tâm đến tốc độ xử lý của thuật toán
2 Sự đa dạng biểu diễn của đối tượng Hình ảnh của cùng một đối tượng có thể
khác nhau rất lớn do sự khác nhau về tỉ lệ, góc nhìn, sự che khuất, độ chiếu sáng.Lấy ví dụ trong Hình 1.1, cùng một đối tượng là tượng “Bruce Lee statue” ởHong Kong, hình ảnh của bức tượng này có thể rất khác nhau về góc chụp ảnh(trước mặt, sau lưng), phần xuất hiện (toàn thân hoặc chỉ phần đầu), khung nền(nước, trời, nhà cửa), độ chiếu sáng Sự đa dạng này của đối tượng trong ảnhlàm ảnh hưởng đến khả năng gom nhóm hình ảnh của cùng một đối tượng trong
hệ thống VIM
Nhiều nghiên cứu được thực hiện trên bài toán phát hiện các nhóm đối tượng, trong
đó, phương pháp tiên tiến nhất hiện nay là dựa trên hướng tiếp cận sử dụng đồ thị sokhớp [6] giữa các ảnh trong cơ sở dữ liệu Ý tưởng chính của phương pháp là xây dựngmột đồ thị thưa (ít cạnh) với mỗi đỉnh là một ảnh trong cơ sở dữ liệu ảnh, khoảng cáchgiữa hai đỉnh phản ảnh độ tương tự giữa hai ảnh ở hai đỉnh Dựa trên đồ thị đã xâydựng, các phương pháp gom cụm được áp dụng nhằm phát hiện các nhóm đối tượngtrong đồ thị
Dựa trên hướng tiếp cận đồ thị so khớp, các phương pháp đề xuất hiện nay [4,6]
đã nâng cao độ chính xác vượt bậc so với các phương pháp trước đó trên các bộ dữ
liệu chuẩn của bài toán Do đó, trong luận văn này, mục tiêu của chúng tôi là nâng cao độ chính xác của phương pháp phát hiện các nhóm đối tượng trong cơ sở dữ liệu ảnh dựa trên hướng tiếp cận đồ thị so khớp.
Dựa trên các phân tích về ưu và nhược điểm của các phương pháp tiên tiến nhất
hiện nay (trình bày chi tiết trong Chương 3), chúng tôi đề xuất hai giải pháp nhằm
Trang 19Chương 1 Phát hiện các nhóm đối tượng trong cơ sở dữ liệu ảnh
cải tiến độ chính xác của hai bước chính của phương pháp sử dụng đồ thị so khớp:
1 Đề xuất tích hợp các kỹ thuật về ràng buộc hình học trong so khớp đặc trưng giúpcác liên kết trong đồ thị so khớp chính xác hơn
2 Đề xuất phương pháp gom cụm dựa trên chọn ứng viên gần nhất giúp nâng caohiệu suất của quá trình phát hiện các nhóm đối tượng
Các thí nghiệm đã được thực hiện trên các bộ dữ liệu chuẩn của bài toán phát hiệncác nhóm đối tượng trong cơ sở dữ liệu ảnh đã chứng minh tính hiệu quả của phươngpháp đề xuất khi độ chính xác của giải pháp đề xuất cao hơn các phương pháp tiên
tiến nhất hiện nay từ 5% đến 21%, (tính theo độ đo f-pair measure) tùy thuộc vào
bộ dữ liệu thực hiện Các kết quả nghiên cứu đã được xét duyệt và chấp nhận đăng tại Hội nghị Quốc tế về Kỹ nghệ tri thức và Hệ thống lần thứ 9 (The 9th
International Conference on Knowledge and Systems Engineering - KSE 2017).
1.2.1 Tích hợp các ràng buộc hình học trong so khớp đặc trưng
Hình 1.2: Phương pháp so khớp Đầu vào là các cặp ảnh Các cặp điểm ứng viêntrùng khớp (candidate matches) được tạo bằng cách ghép các visual word giữa haiảnh có cùng visual word ID Các cặp điểm này sau đó được cắt bỏ bằng HE-code[1],Burstiness Removal(sử dụng Multiple match removal - MMR[2]) và kiểm tra tínhnhất quán hình học (Geometric Consistency[3])
Trang 20Chương 1 Phát hiện các nhóm đối tượng trong cơ sở dữ liệu ảnh
Chúng tôi tích hợp các ràng buộc hình học vào framework để giảm thiểu các sokhớp lỗi (mismatching) Cụ thể, chúng tôi tích hợp Hamming Embedding Code (HEC)[1], Burstiness Removal [2] và Geometric Consistency [3] vào trong hệ thống củachúng tôi (xem hình1.2) Trong đó:
• Hamming Embedding Code rút trích từ các đặc trưng SIFT giúp so khớp nhanhhai visual word có cùng chỉ số (ID) giúp giảm thiểu sai sót trong quá trình lượng
tử hóa (quantization) các đặc trưng SIFT Do đó giúp giảm sai sót khi so khớpcác điểm đặc trưng [1]
• Burstiness Removal [2] là phương pháp giúp hiệu chỉnh lại các so khớp do lỗi đađiểm nối (multiple point matches) tại một điểm đặc trưng Trong luận văn này,chúng tôi áp dụng các kỹ thuật Burstiness Removal nhằm loại bỏ các cặp đa điểmnối này và chỉ giữ lại các cặp nối (matches) giống nhau nhất
• Geometric Consistency [3] là kỹ thuật xem xét tính nhất quán về hình học giữahai đặc trưng, giúp nâng cao độ chính xác quả quá trình so khớp
Bằng việc tích hợp các kỹ thuật về ràng buộc hình học vào hệ thống phát hiện cácnhóm đối tượng trong cơ sở dữ liệu ảnh, chúng tôi giảm thiểu được các kết nối lỗitrong đồ thị so khớp
1.2.2 Lựa chọn ứng viên gần nhất trong gom cụm
Các phương pháp gom cụm trên đồ thị so khớp hiện nay gom cụm các ảnh dựa vàomột ảnh khởi tạo ban đầu (entry point) và mở rộng cụm bằng cách lan rộng theo chiềurộng Các ảnh thêm vào cụm có xu hướng giống với ảnh khởi tạo hơn là các ảnh cònlại trong cụm Điều này là không phù hợp với yêu cầu gom cụm của bài toán VIM
vì mục tiêu gom cụm của VIM là phát hiện ra các nhóm đối tượng, mỗi nhóm baogồm các ảnh có chứa chung một đối tượng Lấy ví dụ trong ảnh I1 có hai đối tượng(instanceAvàB), ảnhI2có chứaA, ảnhI3vàI4có chứa đối tượngB(Hình1.3) Như
Trang 21Chương 1 Phát hiện các nhóm đối tượng trong cơ sở dữ liệu ảnh
Hình 1.3: Giả sử tồn tại đồ thị so khớp như trên Với ảnhI1vàI2 cùng chứa đối tượnghình tam giác vàng; ảnhI1, I3, I4 cùng chứa đối tượng mặt tròn So sánh kết quả củaphương pháp gom cụm truyền thống (theo lớp) và phương pháp gom cụm đề xuất(theo ứng viên gần nhất)
vậy kết quả đầu ra của chúng ta phải là hai nhóm đối tượng: Nhóm 1{I 1, I2 }chứa đốitượngAvà nhóm 2{I1 , I3, I 4}chứa đối tượngB Tuy nhiên đối với phương pháp gomcụm hiện tại, nếu chọnI1làm entry point, khả năng cao là cả bốn hình đều chung mộtnhóm Ngoài ra, có quá nhiều ràng buộc để kiểm tra một ảnh có được thêm vào cụmảnh đang xét hay không Số lượng tham số của phương pháp nhiều dẫn đến mất nhiềuthời gian để lựa chọn tham số tốt nhất cho thuật toán
Khác với các phương pháp trên, chúng tôi đề xuất một phương pháp mới gom cụmbằng cách ưu tiên mối tương quan giữa ảnh ứng cử viên và các ảnh đã có trong cụm.Chúng tôi mở rộng cụm bằng cách bổ sung ứng viên liên kết chặt nhất với cụm tronglần duyệt Bằng cách này, thành viên mới sẽ được gần với phần còn lại của cụm ảnh
và cụm ảnh đầu ra sẽ có xu hướng chứa cùng một đối tượng Thuật toán đề xuất đơngiản hóa quá trình kiểm tra ràng buộc mà vẫn đảm bảo được độ chính xác cao khithêm ảnh mới vào cụm ảnh
Trang 22Chương 1 Phát hiện các nhóm đối tượng trong cơ sở dữ liệu ảnh
Cấu trúc của luận văn gồm năm chương, được trình bày như sau:
• Chương 1: Trình bày nội dung tổng quan về đề tài, bao gồm giới thiệu bài toán,các thách thức và khó khăn và sơ lược về đóng góp của luận văn
• Chương 2: Trình bày các hướng tiếp cận để giải bài toán hiện nay (các công trìnhliên quan) và chi tiết hướng tiếp cận tiên tiến nhất hiện nay là phát hiện các nhómđối tượng dựa trên đồ thị so khớp
• Chương 3: Trình bày chi tiết về phương pháp đề xuất: ý tưởng chính và chi tiếtcho từng đề xuất đưa ra
• Chương 4: Trình bày các thí nghiệm, các phân tích và đánh giá của kết quả thựcnghiệm
• Chương 5: Trình bày tổng kết của luận văn và hướng phát triển trong tương lai
Trang 23Một mô hình tổng quan của hệ thống phát hiện các nhóm đối tượng trong cơ sở dữliệu ảnh thông thường gồm ba bước chính (xem Hình2.1):
1 Rút trích đặc trưng Các ảnh trong bộ dữ liệu được rút trích đặc trưng Một
số đặc trưng được rút trích như đặc trưng cục bộ (local feature, local patch )Kết quả của giai đoạn này thường là các tập điểm đặc trưng đại diện cho các đốitượng xuất hiện trong ảnh
2 So khớp Mục đích của giai đoạn này là tìm ra các điểm tương đồng giữa các ảnh
từ đó tìm ra các đối tượng giống nhau giữa các ảnh Kết quả so khớp trả về độ
Trang 24Chương 2 Hướng tiếp cận sử dụng đồ thị so khớp
Hình 2.1: Hệ thống phát hiện các nhóm đối tượng trong cơ sở dữ liệu ảnh thường baogồm ba bước chính, bao gồm: rút trích đặc trưng ảnh, so khớp và gom cụm
tương đồngsgiữa hai ảnhI1vàI2cần thỏa điều kiện:
(a) Nếu∃instancez,z ∈ I 1vàz ∈ I 2thìs(I1, I2) > 0;
(b) Ngược lại, s(I1, I2) = 0
Điểm khác biệt ở việc so khớp ở đây so với các bài toán khác đó là kết quả củaquá trình so khớp không chỉ phản ánh độ tương đồng giữa hai ảnh mà còn phảiphản ánh được mức độ tương đồng về đối tượng có trên ảnh, vì mục tiêu của VIM
là phát hiện các nhóm đối tượng có kích thước khác nhau Nếu phương pháp sokhớp chỉ thể hiện mức đó giống nhau trên toàn ảnh, các đối tượng có kích thướcnhỏ rất khó để phát hiện
3 Gom cụm (gom nhóm đối tượng).Kết quả của quá trình gom cụm là các nhóm
đối tượng tồn tại trong tập ảnhD ban đầu Cụ thể, phương pháp gom cụm cầnđáp ứng các yêu cầu sau:
(a) Số nhóm, kích thước của mỗi nhóm không biết trước;
(b) Một nhóm Ci = {I i 1 , Ii2, , Iik ⊂ D với D là tập gồmn ảnh thỏa mãn điềukiện:∃instancez, z ∈ I ij∀I ij với1 ≤ j ≤ k;
(c) Một ảnh nằm trong nhiều nhóm
Trang 25Chương 2 Hướng tiếp cận sử dụng đồ thị so khớp
Để hiểu rõ hơn, trong phần này, chúng tôi sẽ trình bày tổng quan về các công trình
về bài toán chính là phát hiện các nhóm đối tượng (visual instance mining) và các bàitoán tương tự như khai thác mẫu (visual pattern mining), phát hiện hình ảnh trùng lắpmột phần (partial duplication image discovery)
2.1.1 Rút trích đặc trưng
Trong bài toán phát hiện các nhóm đối tượng trong cơ sở dữ liệu ảnh, đặc trưng SIFT
và mô hình Bag-of-Visual-Words (BoVW) là các đặc trưng được sử dụng rộng rãi nhấthiện nay [7,8,9,5,4,6]
Bên cạnh đó, nhiều công trình [5,4,6] khai thác thêm các đặc trưng cục bộ xungquanh (neighbor points) để tạo thành các local patch với mỗi local patch được tạothành từ một visual word trung tâm (centroid visual word) và ncác điểm lân cận gầnnhất dựa trên vị trí (neighbor visual words)
2.1.2 So khớp
So khớp là một trong những bước tốn nhiều chi phí nhất trong bài toán phát hiện cácnhóm đối tượng trong cơ sở dữ liệu ảnh Các công trình hiện nay thường dùng nhiều
kỹ thuật giúp so khớp nhanh các cặp ảnh trong bộ dữ liệu
Để so khớp, một số công trình [10, 11, 12, 9, 5] sử dụng các kỹ thuật Min-Hash
và cải tiến của Min-Hash là Geometric min-Hash (GmH) [13] trong so khớp do tốc
độ so khớp các trưng rất nhanh dựa trên các bảng Hash
Kỹ thuật rút trích Hamming Embedding (HE) code[1] đã được áp dụng trong bàitoán phát hiện các nhóm đối tượng nhằm giảm độ lỗi và tăng tốc độ so khớp cácvisual words giữa các cặp ảnh [5,4, 6] Cụ thể, Hamming Embedding (HE) code làcác chuỗi nhị phân nbit được từ các đặc trưng SIFT với ntùy thuộc vào người dùng
So khớp giữa hai visual word khi đó được chuyển đổi sang so sánh hai chuỗi HE-code
Kỹ thuật này giúp nâng cao cả hiệu suất và tốc độ cho ước lượng độ tương tự giữa haiảnh do quá trình so sánh được thực hiện bằng toán tử XOR
Trang 26Chương 2 Hướng tiếp cận sử dụng đồ thị so khớp
Ngoài ra, các kỹ thuật so khớp về hình học cũng được áp dụng Độ tương tự Jaccardđược tính giữa tập các điểm đặc trưng lân cận (neighbor visual words) để tăng độchính xác trong so khớp trong các công trình như [5,4,6] Gần đây, Weak GeometricConsistency (WGC)[1] cũng được sử dụng trong nghiên cứu của Li và cộng sự[6]
và mỗi ảnh là một “giao dịch” (transaction) Cùng hướng này, Pineda và cộng sự[9] sau đó đã đề xuất phương phát Co-occurring Visual Words nhằm phát hiện các
mô hình đối tượng (object models) bằng cách gom nhóm các tập visual word thườngxuyên xuất hiện trong cùng một ảnh bằng Min-Hashing Các phương pháp này chỉthực hiện được với số lượng ảnh trong cơ sở dữ liệu nhỏ Khi số lượng ảnh trong cơ sở
dữ liệu ảnh tăng lên, hiệu xuất của phương pháp giảm nhanh chóng do sự tăng nhanhcủa nhiễu
Zang và cộng sự [5] phát hiện các nhóm đối tượng phổ biến bằng cách khai thácnhóm đặc trưng nối giữa các ảnh (Thread of Features, ToF) Các đặc trưng giống nhaugiữa các ảnh được nối (thread) với nhau để tạo thành các ToF Các nhóm đối tượng sẽđược phát hiện bằng cách bỏ phiếu (voting) các thread clusters
Gom cụm dựa trên đồ thị cũng là một hướng tiếp cận mới hiện nay Philbin vàZisserman [8] so khớp các ảnh và xây dựng đồ thị so khớp Sau đó, tác giả sử dụngcác kỹ thuật gom cụm trên đồ thị để phát hiện các nhóm đối tượng Tuy nhiên, do cáccặp ảnh được so khớp trên toàn ảnh nên chỉ phù hợp với việc phát hiện các nhóm đốitượng có kích thước lớn Với các đối tượng có kích thước nhỏ, độ tương tự giữa các cặpảnh nhỏ, dẫn đến không được phát hiện Trong [4], sau khi xây dựng đồ thị so khớp
Trang 27Chương 2 Hướng tiếp cận sử dụng đồ thị so khớp
giữa các ảnh trong cơ sở dữ liệu, các tác giả đề xuất phương pháp phát hiện các nhómđối tượng bằng cách sử dụng thuật toán greedy breadth-first search (GBFS) nhằm tìmtất cả các ảnh giống với một ảnh ở điểm khởi tạo (entry point) Ý tưởng chính củaphương pháp là mở rộng cụm bằng cách thêm các ảnh khác sẽ được lần lượt theo lớp(layer-by-layer) Gần đây, phương pháp cải tiến của phương pháp trên đã đước đề xuấttrong [6] Hướng cải tiến là kết hợp thêm thuật toán ForceAltas2[14] giúp trực quanhóa đồ thị so khớp Dựa vào đó thắt chặt thêm yêu cầu của các ứng viên thêm vào cụmảnh bằng cách giới hạn khoảng cách giữa ứng viên đó và ảnh ở điểm khởi tạo (entrypoint) trong đồ thị đã được trực quan Các phương pháp này giúp khai thác hiệu quảcác đối tượng thông qua các liên kết trên đồ thị và cho kết quả tốt nhất hiện nay Tuynhiên, các phương pháp gom cụm này chú trọng đến việc gom các đối tượng giốngvới ảnh ở điểm khởi tạo nhiều hơn là sự liên kết giữa các ảnh trong cụm
Hướng tiếp cận sử dụng đồ thị so khớp cho phát hiện các nhóm đối tượng đang đượcnhiều nghiên cứu quan tâm Trong phần này, học viên sẽ trình bày chi tiết phươngpháp phát hiện các nhóm đối tượng trong cơ sở dữ liệu ảnh bằng phương pháp xâydựng đồ thị so khớp do Li và cộng sự [4,6] đề xuất Đây là phương pháp cho kết quảtốt nhất hiện nay trên bài toán phát hiện các nhóm đối tượng trong cơ sở dữ liệu ảnh
Ý tưởng chính của phương pháp là tạo ra một đồ thị thưa (ít cạnh) trên toàn bộ bộ
dữ liệu ảnh Mỗi đỉnh trong đồ thị là một ảnh Cạnh nối giữa hai đỉnh thể hiện mức độgiống nhau của hai đỉnh (xem 2.2) Từ đồ thị đã xây dựng có thể khai thác hiệu quảcác nhóm đối tượng có trong cơ sở dữ liệu ảnh đang xét
2.2.1 Rút trích đặc trưng
Tương tự như các phương pháp trước đây, chúng tôi rút trích đặc trưng SIFT trên ảnh
và biểu diễn ảnh bằng một tập các visual word lượng tử hóa từ đặc trưng SIFT Cụ
Trang 28Chương 2 Hướng tiếp cận sử dụng đồ thị so khớp
thể, cho một tập gồmnảnh, bước đầu tiên của phương pháp là rút trích đặc trưng cục
bộ SIFT từ các ảnh của bộ dữ liệu và lượng tử hóa mỗi đặc trưng về một visual word
Số lượng visual word trong từ điển (dictionary) được xây dựng tùy thuộc vào từng bộ
dữ liệu khác nhau Như vậy, mỗi một ảnh khi đó được biểu diễn bởi một tập các đặctrưng F = {f 1 , f2, , fn}với n là số lượng visual word có trong ảnh Mỗi đặc trưng
fi,1 ≤ i ≤ n, được xác định bằngfi =< v, g, x, y, r, a, c, V >với:
• v là chỉ số visual word (visual word ID);
• g là chỉ số của ảnh (image ID) trong cơ sở dữ liệu ảnh;
• x, y là tọa độ của visual word trong ảnhg;
• r là tỉ lệ (scale) của đặc trưng SIFT củafitrong ảnhg;
• alà góc của đặc trưng SIFT củafitrong ảnhg;
• c là Hamming Embedding code [1] được rút trích từ của đặc trưng SIFT của fi
Thuật toán 1: Rút trích Hamming Embedding code
Đầu vào:
• Chiều dài của Hamming Embedding codel
Trang 29Chương 2 Hướng tiếp cận sử dụng đồ thị so khớp
• Tập đặc trưng SIFT của các ảnh trong bộ dữ liệu
2 Median values of projected descriptor.
Tạo Hamming Embedding code
1 Projecting Tạo ma trận P có kích thước lxd với l là chiều dài của HammingEmbedding code,dlà chiều dài của đặc trưng SIFT
2 Tính signatureb(x) = b1(x), , bl(x)như sau:
Trang 30Chương 2 Hướng tiếp cận sử dụng đồ thị so khớp
Trang 31Chương 2 Hướng tiếp cận sử dụng đồ thị so khớp
Độ tương tự Jaccard được tính dựa trên các tập các điểm lân cận (neighbor featuresets) như sau:
so khớp lần nữa bằng góca(angle) và tỉ lệr(scale) bằng cách tính:
vàQ1, Q2, , Qbr
Trang 32Chương 2 Hướng tiếp cận sử dụng đồ thị so khớp
Độ tương tự của hai ảnhIivàIj lúc này được tính bằng công thức sau:
dwij = min( max
1≤u≤b a
Pu, max 1≤v≤b r
Tác giả [6] chia4ak làm 4 bin tại các điểm chia (partition point) gồm −3π√
4 , −π√
4, √π4
Chi tiết phương pháp gom cụm được trình bày trong hai phần dưới, bao gồm thuậttoán ForceAltas2 để trực quan hóa đồ thị so khớp đã xây dựng và thuật toán GBFS đểphát hiện các nhóm đối tượng trong cơ sở dữ liệu ảnh
2.2.3.1 Thuật toán ForceAltas2
ForceAltas2 [14] là một thuật toán tiên tiến giúp trực quan hóa (visualization) đồ thị
Ý tưởng chính của ForceAltas2 là mô phỏng một hệ thống vật lý với các lực hút vàphản lực tồn tại giữa các cặp đỉnh trong đồ thị (xem hình 2.3) Bắt đầu từ một điểmngẫu nhiên, trong mỗi vòng lặp, thuật toán tính tổng lực tác động lên mỗi đỉnh bởicác đỉnh khác và di chuyển vị trí của đỉnh đó theo một khoảng cách đề xuất dựa trênlực tác động Sau một số vòng lặp, vị trí của các đỉnh ổn định và thuật toán dừng Lúc
Trang 33Chương 2 Hướng tiếp cận sử dụng đồ thị so khớp
này, khoảng cách Euclidean giữa hai đỉnh thể hiện độ tương tự giữa hai ảnh
(a) Minh họa về trực quan hóa đồ thị sử
dụng thuật toán ForceAltas2 [ 6 ].
(b) Minh họa ba loại lực trong thuật toán ForceAltas2.
Hình 2.3: Sử dung thuật toán ForceAltas2 trong trực quan hóa đồ thị
Trong mỗi vòng lặp, lực hút giữa hai đỉnhgivàgj được xác định bằng công thức:
Trang 34Chương 2 Hướng tiếp cận sử dụng đồ thị so khớp
2.2.3.2 Thuật toán Greedy Breadth-First Search (GBFS)
Ý tưởng cơ bản của thuật toán GBFS [4,6] là từ một điểm khởi tạo (entry point), cácảnh lân cận được xét duyệt theo cấp tương tự như phương pháp tìm theo chiều rộng.Các ảnh lân cận trong cùng một cấp được lần lượt xem xét và đưa vào cụm ảnh trướckhi duyệt các ảnh ở cấp khác Chi tiết xem thuật toán 2
Trong thuật toán 2, TestT được tác giả xây dựng với hai điều kiện:
1 AverageWeightTest (AWT): Nếu trung bình liên kết từ ảnh đang xét đến các
ảnh đã nằm trongC lớn hơn ngưỡngwt.wtsẽ tăng theo cấp đang xét duyệt
2 LayoutEmbeddingTest (LET): Nếu khoảng cách Euclidean của ảnh đang xét
với ảnh đầu vào (entry point I) d(neiI, EntryI) < dt Với d(neiI, EntryI) làkhoản cách vật lý được tính dựa trên đồ thị đã được trực quan bằng phương phápForceAltas2 đã trình bày ở phần trước Ngưỡng dt phụ thuộc vào đồ thị đã trựcquan và kích thước bộ dữ liệu, được xác định bằngdt = 2da Trong đó khoảngcách da là khoảng cách giữa hai đỉnh lân cận nếu tất cả các đỉnh phân bố đềutrong vùng chữ nhật trên đồ thị được trực quan
Trang 35Chương 2 Hướng tiếp cận sử dụng đồ thị so khớp
Thuật toán 2: Thuật toán BGFS
Đầu vào: Đồ thịG, ảnhEntryI, độ sâu tối đa tìm kiếmdmax, ngưỡngwt
%Khởi tạo cụm với ảnh đầu vào (entry point) làI.
%Nếu ảnhneiI thỏa mãn TestT thì thêm neiI vàoCvà lưu vào Q2.
if TestT(neiI,C,wt) then
Trang 36Chương 3
HỆ THỐNG VIM TÍCH HỢP CÁC GIẢI PHÁP ĐỀ XUẤT
Trong chương này, chúng tôi trình bày hai giải pháp nhằm cải tiến độ chính xác củahai bước chính của hướng tiếp cận sử dụng đồ thị so khớp Cụ thể, chúng tôi tích hợpràng buộc hình học trong việc xây dựng đồ thị so khớp và gom cụm dựa trên ứng viêngần nhất Chi tiết của phương pháp sẽ được trình bày trong phần bên dưới
Dựa trên hai bước chính của phương pháp phát hiện các nhóm đối tượng trong cơ sở
dữ liệu ảnh là xây dựng đồ thị so khớp và gom cụm, chúng tôi đề xuất hai phươngpháp giúp nâng cao hiệu quả của từng bước
3.1.1 Nâng cao chất lượng của đồ thị so khớp
Mục tiêu của việc xây dựng đồ thị so khớp là xây dựng được một đồ thị liên kết giữacác ảnh trong kho dữ liệu ảnh, trong đó liên kết giữa hai ảnh thể hiện khả năng hai
ảnh đó chứa cùng một đối tượng hay không Điều đó có nghĩa là: cần tăng số lượng liên kết đúng giữa hai ảnh và giảm số lượng liên kết sai giữa hai ảnh Nghĩa là
Trang 37Chương 3 Hệ thống VIM tích hợp các giải pháp đề xuất
nếu hai ảnh chứa cùng một đối tượng, giữa hai ảnh đó phải có liên kết với nhau, vàngược lại, nếu hai ảnh không chứa cùng một đối tượng, giữa hai ảnh đó không nên cóliên kết với nhau Để thực hiện điều trên, các công trình hiện tại so khớp các cặp ảnhdựa trên các local patch (được hình thành từ một centroid visual word vàn neighborvisual word nằm xung quanh centroid visual word) Bằng cách sử dụng các neighborvisual word, kết quả so khớp giữa các centroid visual word được chính xác hơn Tuynhiên, sử dụng phương pháp này làm tăng thêm các chi phí về lưu trữ và so khớp giữacác neighbor visual word Số lượng neighbor visual word cũng bị phụ thuộc nhiềuvào từng tập ảnh khác nhau
Khác với các phương pháp hiện tại, chúng tôi so khớp hai ảnh dựa trên các cặpvisual word có cùng ID làm các ứng viên liên kết giữa hai ảnh Điều này giúp tối đahóa số lượng liên kết ứng viên giữa các cặp ảnh và giảm bớt chi phí lưu trữ hay tínhtoán giữa các neighbor visual word để giảm bớt lỗi trong quá trình lượng tử hóa cácvisual words (quantization) khiến các visual word có cùng ID có thể không biểu diễnkhông cùng một đặc trưng, chúng tôi tích hợp các ràng buộc hình học vào framework
để giảm thiểu các so khớp lỗi (mismatching) Cụ thể, chúng tôi tích hợp các kỹ thuậtHamming Embedding code[1], Burstiness Removal[2] và geometric consistency [3]vào trong hệ thống của chúng tôi Các kỹ thuật này đã được chứng minh tính hiệuquả trong việc thiểu các so khớp lỗi trong bài toán liên quan như tìm kiếm ảnh Bằngviệc tích hợp các kỹ thuật về ràng buộc hình học vào hệ thống phát hiện các nhómđối tượng trong cơ sở dữ liệu ảnh, chúng tôi giảm thiểu được các kết nối lỗi trong đồthị so khớp (xem Hình3.1) Chi tiết của phương pháp tích hợp các kỹ thuật ràng buộchình học này sẽ được trình bày trong phần3.2.2
3.1.2 Nâng cao hiệu suất của phương pháp gom cụm
Các phương pháp gom cụm trên đồ thị so khớp hiện nay gom cụm các ảnh giống vớimột ảnh khởi tạo ban đầu (entry point) Để thực hiện điều này, các phương pháp hiệntại áp dụng phương pháp duyệt theo chiều rộng greedy breadth-first search (GBFS)và
Trang 38Chương 3 Hệ thống VIM tích hợp các giải pháp đề xuất
(a) Kết quả so khớp không tích hợp các ràng
buộc hình học.
(b) Kết quả so khớp tích hợp các ràng buộc hình học sử dụng HE-code, Multiple match removal - MMR và Geometric Consistency.
Hình 3.1: So sánh kết quả so khớp đặc trưng của (a) So khớp thông thường (b) Tíchhợp ràng buộc Kết quả cho thấy giải pháp đề xuất giúp loại bỏ các matches lỗi rấthiệu quả
Forceatlas2 [14] Bắt đầu tại ảnh khởi tạo ban đầu (entry point), cũng là đỉnh của đồthị, các nút lân cận được quét trước khi chuyển sang cấp độ tìm kiếm tiếp theo (xemhình 3.2) Nút hoặc hình ảnh sẽ được thêm cluster nếu trung bình trọng số giữa ứngviên đang xét và mỗi ảnh trong cluster cao hơn ngưỡng (Average Weight Test, viếttắt AWT) và khoảng cách giữa ứng viên đang xét và entry point vào nhỏ hơn ngưỡngđược xác định bằng phương pháp phương pháp Forceatlas2 (Layout Embedding Test,viết tắt LET) Các ngưỡng ràng buộc trong thuật toán sẽ tăng lên ở độ sâu duyệt ảnhtiếp theo Điều này là không công bằng vì trung bình trọng số giữa ứng viên đang xét
và mỗi ảnh trong cluster của mỗi ứng viên được tính như nhau Ngoài ra, chiến lượcnày phù hợp hơn cho việc tìm kiếm hơn so với gom cụm khi ứng cử viên có khả năngchứa đối tượng giống nhất với các ảnh đang trong cluster không được kiểm tra đầutiên Hơn nữa, mỗi ứng cử viên chỉ được duyệt một lần ở mức tìm kiếm Cuối cùng, sốlượng tham số của thuật toán nhiều (tham số cho độ sâu tối đa được duyệt, các tham
số của AWT tương ứng với từng độ sâu, tham số cho LET ) dẫn đến tăng độ phức tạp