Khi dùng bất kỳ một phần mềm tạo ảnh mspaint, photoshop để tạo một ảnh kích thước 256x256 với màu đỏ và dùng ảnh đó làm đầu vào của quá trình tìm kiếm, ta không được kết quả mong muốn..
Trang 1TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
VŨ THỊ HỒNG NHUNG
ĐÁNH GIÁ CÁC PHƯƠNG PHÁP TÌM KIẾM ẢNH DỰA
TRÊN NỘI DUNG
LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN
Hà Nội, năm 2013
Trang 2TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
VŨ THỊ HỒNG NHUNG
ĐÁNH GIÁ CÁC PHƯƠNG PHÁP TÌM KIẾM ẢNH DỰA
TRÊN NỘI DUNG
Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin
Mã ngành: 60 48 05
LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS LƯƠNG CHI MAI
Hà Nội, năm 2013
Trang 3UNIVERSITY OF ENGINEERING AND TECHNOLOGY
VU THI HONG NHUNG
EVALUATING SEVERAL CONTENT-BASED IMAGE
RETRIEVAL METHODS
Department: Information Technology Major: Information System
Major code: 60 48 05
MASTER THESIS IN INFORMATION TECHNOLOGY
SUPPERVISION: ASSOC PROF PHD LUONG CHI MAI
Hanoi, 2013
Trang 4MỞ ĐẦU _ 1
Giới thiệu bài toán 1 Mục tiêu nghiên cứu 1
Bố cục luận văn 2
CHƯƠNG 1 GIỚI THIỆU 3
1.1 Tìm kiếm ảnh dựa trên nội dung 3 1.2 Ứng dụng của tìm kiếm ảnh dựa trên nội dung 4 1.3 Các đặc trưng thường dùng trong tìm kiếm ảnh theo nội dung 6 1.4 Độ tương tự 12 1.5 Đánh giá kết quả tìm kiếm _ 13 1.6 Kết luận _ 14
CHƯƠNG 2 MỘT SỐ PHƯƠNG PHÁP TÌM KIẾM DỰA TRÊN ẢNH
TRONG VÒNG MƯỜI NĂM 15
2.1 Phương pháp lược đồ màu _ 15 2.2 Dựa trên túi từ BOW _ 16 2.3 Dựa trên không gian 16 2.4 Ứng dụng trong tổng hợp và hoàn thiện ảnh _ 18 2.5 Ứng dụng trong phân tích ảnh 19 2.6 Kết luận _ 19
CHƯƠNG 3 TÌM KIẾM DỰA TRÊN LƯỢC ĐỒ MÀU VỚI ẢNH PHÁC THẢO 20
3.1 Giới thiệu 20 3.2 Phương pháp của Swain và Ballard 1991 21 3.3 Phương pháp của chúng tôi 23 3.4 Thử nghiệm 24 3.5 Kết luận _ 41
CHƯƠNG 4 TÌM KIẾM DỰA TRÊN LƯỢC ĐỒ KHÁI NIỆM 43
4.1 Giới thiệu 43 4.2 Các phương pháp dựa trên lược đồ điểm đặc trưng 44 4.3 Giao diện truy vấn _ 45 4.4 Phương pháp so sánh các lược đồ 45 4.5 Hệ thống tìm kiếm dựa trên khái niệm 46 4.6 Thử nghiệm 48 4.7 Kết luận _ 50
Trang 55.1 Giới thiệu chương trình _ 52 5.2 Cấu hình hệ thống 52 5.3 Bộ dữ liệu thử nghiệm _ 52 5.4 Hướng dẫn cài đặt 53 5.5 Chương trình thử nghiệm với phương pháp tìm kiếm dựa trên lược đồ màu 54 5.6 Chương trình thử nghiệm với phương pháp tìm kiếm dựa trên lược đồ khái niệm 56
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 59
Kết quả đạt được của luận văn _ 59 Hướng phát triển 59
TÀI LIỆU THAM KHẢO _ 61
Tài liệu tiếng Anh _ 61 Tài liệu tiếng Việt _ 63
Trang 6Công thức 1.1 Công thức tính độ tương tự trên lược đồ màu [1] _ 12 Công thức 1.2 Công thức tính độ tương tự bằng khoảng cách Euclidean trên lược đồ màu 13 Công thức 1.3 Khả năng nhớ lại (Recall) _ 13 Công thức 1.4 Khả năng nhớ lại trung bình (Average Recall) _ 13 Công thức 1.5 Độ chính xác của hệ thống (Precision) _ 14 Công thức 1.6 Độ chính xác trung bình của hệ thống (Average Precision) _ 14 Công thức 3.1: Xác định ô nhớ cho mỗi màu trong lược đồ màu _ 22 Thuật toán 3.1: Thuật toán tính lược đồ màu cho mỗi ảnh màu 22 Thuật toán 3.2: Thuật toán tìm kiếm dựa trên lược đồ màu _ 23 Công thức 3.2: Định nghĩa mặt nạ so sánh và độ đo mới dựa trên mặt nạ Mục đích là tập trung vào những ô nhớ có màu trên lược đồ đầu vào và bỏ qua điểm nhiễu _ 23 Thuật toán 3.3: Thuật toán thêm cấp xám vào ảnh tổng hợp để nó có lược đồ màu gần với lược đồ màu của ảnh tự nhiên, nhằm tăng khả năng tìm thấy (recall) của hệ thống tìm kiếm 24 Bảng 3.1: Chia tập dữ liê ̣u SIFT flow theo chủ đề 24 Bảng 3.2: Tìm kiếm ảnh tự nhiên sử dụng lược đồ màu Chỉ số Recall khi thực nghiệm với ảnh tự nhiên 25 Bảng 3.3: Thử nghiệm trên ảnh một màu Chỉ số Avarage Recall với các phương phá _ 29 Bảng 3.4: Tìm kiếm trên ảnh phác thảo nhiều màu sử dụng lược đồ màu Chỉ số Avarage Recall với các phương pháp 36 Thuật toán 4.1: Hình thành lược đồ khái niệm _ 44 Thuật toán 4.2: Đánh nhãn tự động bằng cách chọn láng giềng gần nhất 47 Thuật toán 4.3: Lọc ra các ảnh/nhãn gần nhất với ảnh đầu vào 48 Bảng 4.1 Chỉ số Avarage Recall khi sử dụng khoảng cách Euclidean và Hamming 49 Bảng 5.1 Các tham số truyền vào khi chạy tập tin querywithcolplus.exe _ 54 Bảng 5.2 Các tham số truyền vào khi chạy tập tin querywithmask.exe 57
Trang 7Hình 1.1: Tìm kiếm hình ảnh dựa trên từ khóa Mỗi ảnh sẽ được gắn với một số
từ khóa nhất định, cả không gian ảnh sẽ được chuyển hóa thành không gian từ
Do đó việc tìm kiếm ảnh chính là so khớp từ khóa với từ khóa (tài liệu từ với tài liệu từ) 3 Hình 1.2: Tìm kiếm ảnh bằng ảnh đầu vào Khi dùng bất kỳ một phần mềm tạo ảnh (mspaint, photoshop) để tạo một ảnh kích thước 256x256 với màu đỏ và dùng ảnh đó làm đầu vào của quá trình tìm kiếm, ta không được kết quả mong muốn Chưa kể, ta có gợi ý "black color" thay cho "red color" _ 4 Hình 1.3: Hoàn thiện ảnh (image completion) bằng cách tìm kiếm trên lượng lớn các ảnh để tìm ra phần còn thiếu tương thích với phần đã có [12] _ 5 Hình 1.4 Tổng hợp một ảnh mới bằng cách vẽ các phần tử cơ bản của ảnh (núi, cây, nhà) và tìm kiếm các phần tử đó trong cơ sở dữ liệu rồi ghép chúng lại thành ảnh tổng hợp [13] _ 5 Hình 1.5: Tổng hợp ảnh mới bằng cách vẽ phác thảo ảnh, chọn các thành phần
từ kết quả tìm kiếm, sau đó ghép lại thành tổng hợp [14] 5 Hình 1.6: Phân tích ảnh bằng cách sử dụng ánh xạ điểm đặc trưng (SIFT flow)
và các ảnh ví dụ đã được đánh nhãn [10] 6 Hình 1.7: Phân tích ảnh trên diện rộng bằng cách tìm kiếm các ảnh ví dụ trong
cơ sở dữ liệu và sao chép các nhãn từ ảnh ví dụ sử dụng thông tin cục bộ, thông tin không gian [22] _ 6 Hình 1.8 Ví dụ về tìm kiếm dựa trên màu sắc _ 7 Hình 1.9 Ví dụ về tìm kiếm dựa trên kết cấu _ 8 Hình 1.10 Sử dụng blobworld để tìm kiếm ảnh của con hổ Kết quả tìm kiếm được đưa ra với hình ảnh trong dữ liệu và các vùng tương ứng của các bức ảnh
đó Trong 50 bức ảnh đầu tiên được tìm thấy thì có 28% là hình của con hổ [21] 9 Hình 1.11 Hình dạng và lược đồ của hình dạng đặc trưng Ảnh có thể bị biến đổi nhưng hình dạng thay đổi rất ít [23] 10 Hình 1.12 Hệ thống có thể nhận được các ảnh từ các góc nhìn khác nhau Nếu
ta cho đầu vào là một trong các hình bên trái, hệ thống đều có thể tìm ra được hình bên phải [24] _ 11 Hình 1.13 Hệ thống có thể tìm ra ảnh gốc mặc dù ảnh đầu vào bị che lấp (occlusion) một phần Mặc dù một trong các đầu vào bên trái bị che khuất, nhưng hệ thống vẫn tìm lại được con vật nguyên vẹn ở bên phía phải [24] _ 11 Hình 1.14 Hình ảnh bên phải được tìm thấy chính xác khi sử dụng bất kì hình bên trái để tìm kiếm Các ảnh hình bên trái là các hình bị thay đổi tỉ lệ, bị quay, thay đổi hình nền và hiển thị một phần so với ảnh bên trái [24] 12
Trang 8bố của các điểm ảnh trong không gian không quan trọng nhưng tần xuất của chúng quan trọng _ 15 Hình 2.2: Giới thiệu thông tin không gian vào mô hình túi từ Chia nhỏ ảnh thành các phần theo nhiều mức khác nhau và so khớp các thành phần tương ứng
là một phương pháp đơn giản để giới thiệu thông tin không gian [5] 17 Hình 2.3: Biểu diễn hình dạng (shape) của đồ vật dựa trên kim tự tháp không gian [7] _ 17 Hình 3.1: Tìm kiếm sử dụng lược đồ màu (a) Phương pháp của Swain và Ballard (b) Tập trung vào màu đầu vào để tránh nhiễu (c) Sinh thêm các điểm màu để khớp với lược đồ tự nhiên _ 21 Hình 3.2: Thí nghiệm trên ảnh tự nhiên Cả hai phương pháp đều tìm được ảnh gốc, ảnh gốc bị xoay 90, 180, 270 độ Việc tăng cấp xám trong phương pháp của chúng tôi không ảnh hưởng tới kết quả tìm kiếm 26 Hình 3.3: Phương pháp của chúng tôi hoạt động trên ảnh tự nhiên Việc thêm cấp xám cho ảnh tự nhiên không làm ảnh hưởng nhiều tới kết quả của tìm kiếm _ 27 Hình 3.4: Khi thay đổi số cấp xám được sinh ra, chúng ta có thể có các kết quả tìm kiếm khác nhau Số cấp xám từ 0-16 cho chúng ta kết quả gần với thuật toán nguyên thủy Số cấp xám từ 16-32 cho ta các dải màu phù hợp hơn Khi tăng cả
ba kênh lên 50 tới 100 cấp xám, chúng ta sẽ gặp nhiều điểm màu đen do các cấp xám gần 0 _ 28 Hình 3.5: Tìm kiếm trên ảnh phác thảo một màu sử dụng lược đồ màu Thử nghiệm trên tập Coast 30 Hình 3.6: Tìm kiếm trên ảnh phác thảo một màu sử dụng lược đồ màu Thử nghiệm trên tập coast 31 Hình 3.7: Tìm kiếm trên ảnh phác thảo một màu sử dụng lược đồ màu Thử nghiệm trên tập forest 32 Hình 3.8: Tìm kiếm trên ảnh phác thảo một màu sử dụng lược đồ màu Thử nghiệm trên tập insidecity _ 33 Hình 3.9: Tìm kiếm trên ảnh phác thảo một màu sử dụng lược đồ màu Thử nghiệm trên tập opencountry _ 34 Hình 3.10: Tìm kiếm trên ảnh phác thảo một màu sử dụng lược đồ màu Thử nghiệm trên tập tallbuilding _ 35 Hình 3.11: Tìm kiếm trên ảnh phác thảo nhiều màu màu sử dụng lược đồ màu Thí nghiệm trên tập coast _ 37 Hình 3.12: Tìm kiếm trên ảnh phác thảo nhiều màu màu sử dụng lược đồ màu Thí nghiệm trên tập forest _ 38
Trang 9Thí nghiệm trên tập opentcountry _ 39 Hình 3.14: Tìm kiếm trên ảnh phác thảo nhiều màu màu sử dụng lược đồ màu Thí nghiệm trên tập opentcountry _ 40 Hình 3.15: Tìm kiếm trên ảnh phác thảo nhiều màu màu sử dụng lược đồ màu Thí nghiệm trên tập street _ 41 Hình 4.1: Tìm kiếm dựa trên màu sắc (color) và dựa trên khái niệm (concept) Nếu người dùng thực sự muốn tìm cảnh núi và trời, chúng ta không thể dùng màu sắc thuần túy (hình trái) vì chúng ta sẽ có các kết quả gồm các hình với màu sắc tương tự Nhưng nếu chúng ta cung cấp thêm nhãn (trời, núi, mặt trời) cho hình vẽ, chúng ta sẽ được các hình tương tự _ 43 Hình 4.2 Phương pháp sinh ảnh dựa trên lược đồ [3] _ 44 Hình 4.3: Từ ảnh phác thảo tới lược đồ khái niệm Chúng tôi cung cấp giao diện cho phép người dùng đánh nhãn một số điểm trên hình Sau đó chúng tôi có thuật toán tự động để đánh nhãn những điểm còn lại Cuối cùng, chúng tôi chuyển toàn bộ lược đồ của ảnh đã được đánh nhãn thành lược đồ khái niệm 45 Hình 4.4: So sánh giữa khoảng cách Euclidean giữa hai lược đồ và khoảng cách Hamming giữa hai lược đồ nhị phân Khi tìm các khái niệm nhỏ có số lược ít (thuyền trên biển, xe trên đường, chim trên trời, mặt trời) các khái niệm có số lượng lớn (trời, nước, cây) thường lấn át và chúng ta khó có các kết quả mong muốn (hình trái) Nhưng nếu chúng ta sử dụng lược đồ nhị phân (có/không có mặt trời, có không có xe) và so sánh hai lược đồ nhị phân, chúng ta sẽ có được kết quả như ý định tìm kiếm (hình phải) 46 Hình 4.5: Hệ thống tìm kiếm _ 47 Hình 4.6: Kết quả trên các ảnh vẽ (a) Sử dụng khoảng cách Euclideanan (b)
Sử dụng khoảng cách Hamming 50 Hình 5.1 Cấu trúc thư mục dữ liệu SIFT flow _ 52 Hình 5.2 Truyền tham số khi chạy chương trình theo phương pháp Swain và Ballard _ 55 Hình 5.3 Truyền tham số khi chạy chương trình theo phương pháp đề xuất của chúng tôi 55 Hình 5.4: Kết quả chương trình khi chạy với tập tin querywithcolor.exe _ 56 Hình 5.5 Truyền tham số khi chạy khoảng cách Euclidean _ 57 Hình 5.6 Truyền tham số khi chạy khoảng cách Hamming _ 57 Hình 5.7 Giao diện gán nhãn cho người dùng 58
Trang 10MỞ ĐẦU Giới thiệu bài toán
Ngày nay, cùng với sự phát triển của kỹ thuật số, lượng ảnh lưu trữ trong các cơ sở dữ liệu ngày càng cao Do đó, nhu cầu tìm được các ảnh mong muốn trong tập cơ sở dữ liệu lớn là rất lớn Để giải quyết vấn đề này, đã có nhiều phương pháp tìm kiếm ảnh dựa trên nội dung được đề xuất
Vấn đề của tìm kiếm thông tin (Information Retrieval), [16] là kết nối giữa tài liệu đầu vào (query document) và các tài liệu lưu trữ (stocked document) Trong trường hợp cụ thể của tìm kiếm ảnh, chúng ta cần so sánh ảnh đầu vào (query image) với ảnh lưu trữ (stocked image) để lựa chọn các ảnh phù hợp Nếu đầu vào là từ khóa, chúng ta cần chuyển các ảnh lưu trữ thành từ khóa Nhưng nếu đầu vào là ảnh tổng hợp (synthetic image), chúng ta cần tìm cách xử
lý ảnh đó để khớp với các ảnh tự nhiên (natural image) lưu trong cơ sở dữ liệu
Thực tế, có nhiều trường hợp người dùng muốn tìm một bức ảnh nhưng
họ không có một bức ảnh nào tương tự để đưa vào tìm kiếm Trong trường hợp
đó, họ có thể mô tả ảnh cần tìm bằng cách đánh từ khóa hoặc vẽ phác thảo để làm đầu vào cho quá trình tìm kiếm Như chúng ta đã biết, nếu dùng từ khóa để tìm kiếm thì kết quả thường không chính xác bởi từ khóa không thể mô tả hết được nội dung của bức ảnh Vậy làm thế nào để so khớp được một ảnh phác thảo do người dùng vẽ với các ảnh tự nhiên đã lưu trữ trong cơ sở dữ liệu?
Chúng tôi sẽ nghiên cứu một số phương pháp tìm kiếm ảnh dựa trên nội dung để tập trung so khớp giữa tài liệu đầu vào là ảnh phác thảo với tài liệu lưu trữ là các ảnh tự nhiên
Mục tiêu nghiên cứu
Trong luận văn này, chúng tôi tìm hiểu tổng quan về tìm kiếm ảnh dựa trên nội dung, một số phương pháp tìm kiếm ảnh theo nội dung trong những năm gần đây
Chúng tôi nghiên cứu, thử nghiệm và đánh giá với hai phương pháp tìm kiếm dựa trên lược đồ màu và tìm kiếm dựa trên lược đồ khái niệm trong bài toán cụ thể đã nêu trên Đồng thời chúng tôi sẽ đưa ra đề xuất cho hai phương pháp này nhằm nâng cao hiệu quả tìm kiếm
Trang 11Chương 3 Tìm kiếm dựa trên lược đồ màu với ảnh phác thảo Chương 4 Tìm kiếm dựa trên lược đồ khái niệm
Chương 5 Chương trình thử nghiệm
Trang 12CHƯƠNG 1 GIỚI THIỆU 1.1 Tìm kiếm ảnh dựa trên nội dung
Chúng ta đã rất quen thuộc với tìm kiếm ảnh dựa trên từ khóa, ví dụ như trong Hình 1.1, chúng ta dùng Google [27] và đánh từ "Hà Nội", chúng ta sẽ được các hình ảnh liên quan tới Hà Nội Cơ chế tìm kiếm này rất đơn giản, đầu tiên mỗi ảnh được kết hợp với một số từ khóa nhất định, do đó ta chuyển các tài liệu trong không gian ảnh thành các tài liệu trong không gian từ vựng Do đó chúng ta có thể so sánh tài liệu đầu vào (các từ khóa trong không gian từ vựng) với các tài liệu ảnh (được gắn với các từ khóa)
Hình 1.1: Tìm kiếm hình ảnh dựa trên từ khóa Mỗi ảnh sẽ được gắn với một số
từ khóa nhất định, cả không gian ảnh sẽ được chuyển hóa thành không gian từ
Do đó việc tìm kiếm ảnh chính là so khớp từ khóa với từ khóa (tài liệu từ với tài liệu từ)
Tuy nhiên, nếu chúng ta có một ảnh đầu vào rất đơn giản (ví dụ ảnh 256x256 trong đó mỗi pixel đều chỉ có màu đỏ), kết quả tìm kiếm không được tốt như chúng ta mong muốn [27] Xem Hình 1.2 Trên thực tế, việc này có thể giải quyết rất đơn giản bằng cách dùng lược đồ màu, chúng ta thậm chí có thể phân loại được ảnh đầu vào dựa trên lược đồ màu (ảnh đỏ, ảnh xanh, ảnh có gam màu nóng, ảnh có gam màu lạnh)
Trang 13Hình 1.2: Tìm kiếm ảnh bằng ảnh đầu vào Khi dùng bất kỳ một phần mềm tạo ảnh (mspaint, photoshop) để tạo một ảnh kích thước 256x256 với màu đỏ và dùng ảnh đó làm đầu vào của quá trình tìm kiếm, ta không được kết quả mong muốn Chưa kể, ta có gợi ý "black color" thay cho "red color"
Vấn đề của tìm kiếm thông tin (Information Retrieval), [16] là kết nối giữa tài liệu đầu vào (query document) và các tài liệu lưu trữ (stocked document) Trong trường hợp cụ thể của tìm kiếm ảnh, chúng ta cần so sánh ảnh đầu vào (query image) với ảnh lưu trữ (stocked image) để lựa chọn các ảnh phù hợp Nếu đầu vào là từ khóa, chúng ta cần chuyển các ảnh lưu trữ thành từ khóa Nhưng nếu đầu vào là ảnh tổng hợp (synthetic image), chúng ta cần tìm cách xử
lý ảnh đó để khớp với các ảnh tự nhiên (natural image) lưu trong cơ sở dữ liệu
1.2 Ứng dụng của tìm kiếm ảnh dựa trên nội dung
Tìm kiếm ảnh dựa trên nội dung không chỉ dừng lại ở mục đích phục vụ người dùng cuối (end user), nó còn là nền tảng cho các phương pháp phân tích
và tổng hợp ảnh dựa trên dữ liệu lớn Ví dụ, xem Hình 1.3, hoàn thiện ảnh dựa trên tìm kiếm một lượng lớn các ảnh, sau đó tìm các phần tương thích để bù vào phần ảnh chưa hoàn thiện [12] Hoặc ví dụ [13], [14] tìm kiếm các thành phần của ảnh dựa trên phác thảo, sau đó ghép các thành phần lại với nhau để thành ảnh thật, xem Hình 1.4 và Hình 1.5
Trang 14Hình 1.3: Hoàn thiện ảnh (image completion) bằng cách tìm kiếm trên lượng lớn các ảnh để tìm ra phần còn thiếu tương thích với phần đã có [12]
Hình 1.4 Tổng hợp một ảnh mới bằng cách vẽ các phần tử cơ bản của ảnh (núi, cây, nhà) và tìm kiếm các phần tử đó trong cơ sở dữ liệu rồi ghép chúng lại thành ảnh tổng hợp [13]
Hình 1.5: Tổng hợp ảnh mới bằng cách vẽ phác thảo ảnh, chọn các thành phần
từ kết quả tìm kiếm, sau đó ghép lại thành tổng hợp [14]
Gần đây, việc sử dụng các ảnh đã được đánh nhãn làm ví dụ để đánh nhãn các ảnh còn lại Ví dụ mỗi điểm ảnh của ảnh đầu vào sẽ được gán một nhãn (nhà, trời, cây) bằng cách sử dụng các ảnh tương tự đã được đánh nhãn [10] Tìm kiếm ảnh tương tự, sau đó thiết lập một ánh xạ tự ảnh truy vấn vào ảnh kết quả, ánh xạ cho phép sao chép các nhãn từ ảnh đã được đán nhãn vào ảnh truy vấn, xem Hình 1.6 Đi xa hơn một bước [22] phát triển thuật toán trên diện rộng, bằng cách tìm kiếm và ánh xạ dựa trên thông tin cục bộ và thông tin không gian, xem Hình 1.7
Trang 15Qua các ứng dụng, chúng ta thấy rõ hơn tầm quan trọng của tìm kiếm ảnh trong tổng hợp và phân tích ảnh Nó trở thành mô đun nền tảng để giải quyết các vấn đề tổng hợp và nhận dạng ảnh, đặc biệt là học dựa trên ví dụ
Hình 1.6: Phân tích ảnh bằng cách sử dụng ánh xạ điểm đặc trưng (SIFT flow)
và các ảnh ví dụ đã được đánh nhãn [10]
Hình 1.7: Phân tích ảnh trên diện rộng bằng cách tìm kiếm các ảnh ví dụ trong
cơ sở dữ liệu và sao chép các nhãn từ ảnh ví dụ sử dụng thông tin cục bộ, thông
tin không gian [22]
1.3 Các đặc trưng thường dùng trong tìm kiếm ảnh theo nội dung
1.3.1 Đặc trưng màu sắc
Màu sắc là vấn đề cần tập trung giải quyết nhiều nhất, vì một ảnh màu thì thông tin quan trọng nhất trong ảnh chính là màu sắc Hơn nữa thông tin về
Trang 16màu sắc là thông tin người dùng quan tâm nhất; qua đặc trưng màu sắc, có thể lọc được rất nhiều lớp ảnh, thông qua vị trí, không gian, định lượng của màu trong ảnh Màu sắc là một đặc trưng nổi bật và được sử dụng phổ biến nhất trong tìm kiếm ảnh theo nội dung
Trong tìm kiếm ảnh dựa vào màu sắc thì phương pháp phổ biến để tìm kiếm ảnh trong một tập những ảnh hỗn tạp cho trước là dựa vào biểu đồ màu (color histogram) của chúng Đây là cách làm khá đơn giản, tốc độ tìm kiếm tương đối nhanh nhưng khuyết điểm là kết quả tìm kiếm lại có độ chính xác không cao Như ví dụ ở Hình 1.8, với đầu vào là một bức ảnh quả táo màu đỏ,
hệ thống tìm ra các hình có màu đỏ tương tự Các hình trong kết quả có thể là quả táo hoặc quả cà chua (kết quả không liên quan) vì chúng có cùng màu
Tìm kiếm ảnh dựa vào màu sắc có thể được xem như là bước lọc đầu tiên cho những tìm kiếm sau Muốn được kết quả chính xác cao đòi hỏi sự kết hợp đồng thời với kết cấu và hình dạng
Đầu vào Đầu ra
Hình 1.8 Ví dụ về tìm kiếm dựa trên màu sắc
1.2.2 Đặc trƣng kết cấu (texture)
Kết cấu (texture) nói lên mối quan hệ giữa các điểm ảnh trong một vùng (hay phân vùng) nào đó của ảnh, nó phản ánh sự xắp xếp hay phân bố các điểm màu Nhìn vào đó ta có thể đoán được kết cấu đó thuộc đối tượng nào Ví dụ một con ngựa văn thì nó mang vân về ngựa vằn và rõ ràng vân này khác hẳn với vân ở mình con ngựa bình thường
Việc truy vấn ảnh dựa trên kết cấu có vẻ là không hiệu quả nhưng có thể dùng nó để phân biệt các vùng hay đối tượng có màu sắc tương đồng như bầu trời và biển cả thì càng tốt
Trang 17Đầu vào Đầu ra
Hình 1.9 Ví dụ về tìm kiếm dựa trên kết cấu
[21] đã đề xuất phương pháp tìm kiếm ảnh dựa vào màu sắc và kết cấu Mỗi ảnh được biểu diến thành một vùng gọi là blob
Việc so sánh hai ảnh sẽ được chuyển thành so sánh hai vùng Nếu hai vùng có màu sắc và kết cấu giống nhau, hai vùng đó được coi là giống nhau Hai ảnh có nhiều vùng giống nhau thì hai ảnh đó sẽ được coi là giống nhau
Trang 18Hình 1.10 Sử dụng blobworld để tìm kiếm ảnh của con hổ Kết quả tìm kiếm được đưa ra với hình ảnh trong dữ liệu và các vùng tương ứng của các bức ảnh
đó Trong 50 bức ảnh đầu tiên được tìm thấy thì có 28% là hình của con hổ [21]
1.2.3 Đặc trƣng hình dạng (shape)
Đối với những lớp ảnh cần tìm mà liên quan đến hình dạng của đối tượng thì đặc trưng kết cấu và màu không thể giải quyết được Như chúng ta đã biết, một đối tượng đặc thù nào đó cũng thường có hình dạng tương đối giống nhau Ví dụ như một chiếc là thì thông thường chỉ cần qua hình dạng ta cũng có thể đoán nhận ra nó mà không cần đến màu sắc Đó chính là đặc trưng về hình dạng của nó Tìm kiếm theo hình dáng thật sự là một cái đích của hệ thống tìm kiếm dựa vào nội dung muốn đạt tới
Trang 19Các đặc trưng về hình dạng được sử dụng thường phải độc lập về kích thước và hướng Ví dụ đặc trưng về tỷ số chu vi và diện tích, đường viên và hình dạng tròn
[23] đề xuất phương pháp sử dụng biểu đồ map để xác định hình dạng đại diện, sau đó tính lược đồ trên hình đại diện
Hình 1.11 Hình dạng và lược đồ của hình dạng đặc trưng Ảnh có thể bị biến
đổi nhưng hình dạng thay đổi rất ít [23]
1.2.4 Các điểm đặc trƣng (feature points hay interest points)
Chúng ta không quan tâm tới tất cả các điểm ảnh, chúng ta quan tâm đến điểm nào đặc trưng cho ảnh Điểm đặc trưng là những điểm trên ảnh có thể dùng
để mô tả toàn bộ ảnh Các điểm này ổn định khi co dãn ảnh, hoặc quay ảnh cũng như cắt một phần ảnh Khi so sánh hai ảnh ta chỉ quan tâm đến các điểm khác biệt đó, các điểm khác là vô nghĩa Điều này làm giảm số lượng phép so sánh, thay vì phải xem xét toàn bộ các điểm trong ảnh, chúng ta chỉ quan tâm đến các điểm có nghĩa Các điểm này có thể dùng để nhận dạng cũng như tìm kiếm ảnh
Trang 20[24] đã sử dụng toán tử Harri và sai phân bất biến để xác định điểm đặc trưng và tính vector đặc trưng mô tả diểm đặc trưng đại diện cho hình ảnh Đối với mỗi hình ảnh trong hệ thống sẽ có một tập các điểm đặc trưng và vector đặc trưng cho mỗi điểm Khi so sánh hai ảnh, chúng ta sẽ so sánh hai tập hợp điểm
đó
Điểm đặc trưng là những điểm khá ổn định khi ảnh quay đi hoặc co dãn ảnh mà ta vẫn tìm được các điểm tương ứng trên ảnh Vector mô tả điểm đặc trưng sẽ mô tả mỗi điểm quan trọng, vector này được xác định dựa trên sai phân bất biến
Theo [24], hệ thống có thể tìm được ảnh gốc với đầu vào là các ảnh bị quay, bị thay đổi tỉ lệ, từ các góc nhìn khác nhau, các ảnh chỉ hiện thị một phần
Hình 1.12 Hệ thống có thể nhận được các ảnh từ các góc nhìn khác nhau Nếu
ta cho đầu vào là một trong các hình bên trái, hệ thống đều có thể tìm ra được
hình bên phải [24]
Hình 1.13 Hệ thống có thể tìm ra ảnh gốc mặc dù ảnh đầu vào bị che lấp (occlusion) một phần Mặc dù một trong các đầu vào bên trái bị che khuất, nhưng hệ thống vẫn tìm lại được con vật nguyên vẹn ở bên phía phải [24]
Trang 21Hình 1.14 Hình ảnh bên phải được tìm thấy chính xác khi sử dụng bất kì hình bên trái để tìm kiếm Các ảnh hình bên trái là các hình bị thay đổi tỉ lệ, bị quay,
thay đổi hình nền và hiển thị một phần so với ảnh bên trái [24]
Như vậy, phương pháp dựa trên các điểm đặc trưng đã sử dụng tính bất biến của ảnh để tìm kiếm được bức ảnh gốc từ các ảnh bị biến đối như bị quay, thay đổi tỉ lệ, thay đổi điểm nhìn hay bức ảnh chỉ hiện thị một phần so với ảnh gốc
1.4 Độ tương tự
Trong truy vấn hình ảnh dựa trên nội dung, độ tương tự có vai trò rất quan trọng, độ tương tự cho biết hai ảnh có giống nhau hay không Để biết hai ảnh có giống nhau hay không, ta phải so sánh hai ảnh So sánh hai ảnh thực chất
là đưa ra các con số về độ giống nhau giữa hai ảnh Nếu hai ảnh hoàn toàn giống nhau thì độ tương tự là 1 Nếu hai ảnh hoàn toàn khác nhau thì độ tương tự Độ tương tự giữa hai ảnh so sánh biến đổi từ 0 tới 1
Có nhiều phương pháp tính độ tương tự như so sánh từng điểm ảnh, độ tương tự trên lược đồ màu, sử dụng độ đo khoảng cách Euclidean trên lược đồ màu, độ tương tự EMD, độ tương tự PMK,
Phương pháp so sánh dựa trên lược đồ màu [1] , để biết hai ảnh giống nhau hay không ta biến đổi hai ảnh thành lược đồ màu của chúng Nếu I và M là hai lược đồ màu thì công thức tính độ tương tự như Công thức 1.1
n
j
j j
M
M I
1
1
) , min(
Công thức 1.1 Công thức tính độ tương tự trên lược đồ màu [1]
Trang 22Độ tương tự theo Công thức 1.1 là độ đo không đối xứng Vì phần dưới mẫu sẽ phụ thuộc vào một trong hai ảnh Nghĩa là so sánh I với M ta sẽ chia cho
I, nhưng so sánh M với I ta lại chia cho M
Ngoài ra, trên lược đồ màu ta cũng có thể sử dụng khoảng cách Euclidean, xem Công thức 1.2
Công thức 1.2 Công thức tính độ tương tự bằng khoảng cách Euclidean trên
lược đồ màu
1.5 Đánh giá kết quả tìm kiếm
Để đánh giá kết quả tìm kiếm, người ta thường dựa vào hai chỉ số là khả năng nhớ lại (Recall) và độ chính xác của hệ thống (Precision)
1.5.1 Khả năng nhớ lại (Recall)
Khả năng nhớ lại đặc trưng cho năng lực có thể tìm lại các ảnh tương tự
có trong hệ thống Nếu đưa một ảnh đầu vào, hệ thống sẽ tìm được K ảnh tương
tự, trong khi hệ thống có N ảnh tương tự, thì năng lực tìm được tính theo Công thức 1.3
Recall =
N K
Công thức 1.3 Khả năng nhớ lại (Recall)
Ví dụ trong tập ảnh lưu trữ có 10 quả táo, hệ thống chỉ tìm được 6 quả, như vậy năng lực tìm kiếm chỉ có 60% mà không phải 100%
Thông thường, ta sẽ dùng khả năng nhớ lại trung bình (Average Recall)
để đánh giá hệ thống Năng lực nhớ lại trung bình bằng trung bình các năng lực nhớ lại trong các lần chạy thử T, xem Công thức 1.4
K N
K T
2 2 1 1 1
Công thức 1.4 Khả năng nhớ lại trung bình (Average Recall)
1.5.2 Độ chính xác của hệ thống (Precision)
Độ chính xác của hệ thống đặc trưng cho khả năng tìm đúng hay tìm chính xác của hệ thống Nếu hệ thống tìm được F ảnh, nhưng trong đó chỉ có L
Trang 23ảnh liên quan, các ảnh còn lại không liên quan thì độ chính xác của hệ thống được tính theo Công thức 1.5
Precision =
F L
Công thức 1.5 Độ chính xác của hệ thống (Precision)
Thông thường, ta cũng dùng độ chính xác trung bình để đánh giá hệ thống Độ chính xác trung bình được tính bằng trung bình của các lần chạy Với T lần chạy,
độ chính xác của hệ thống được tính theo Công thức 1.6
L F
L T
2 2 1 1 1
Công thức 1.6 Độ chính xác trung bình của hệ thống (Average Precision)
Ví dụ người dùng muốn tìm hình ảnh của các quả táo, đánh từ khóa
„Apple‟, hệ thống tìm thấy 10 ảnh, trong đó 6 ảnh là đúng hình quả táo còn 4 ảnh còn lại và về hãng „Apple‟ (đó là dữ liệu rác, không liên quan) Vậy độ chính xác của kết quả là 60%
Về cơ bản, hệ thống càng tìm được nhiều (recall) thì càng tốt, càng tìm những cái liên quan (precision) thì càng tốt Do đó hai chỉ số recall và precision
Chương tiếp theo, luận văn sẽ trình bày một số phương pháp tìm kiếm ảnh trong những năm gần đây có liên quan trực tiếp tới phương pháp của luận văn
Trang 24CHƯƠNG 2 MỘT SỐ PHƯƠNG PHÁP TÌM KIẾM DỰA TRÊN
ẢNH TRONG VÒNG MƯỜI NĂM
Trong phần này, chúng tôi sẽ điểm qua một số phương pháp tìm kiếm ảnh dựa trên nội dung có liên quan tới phương pháp của chúng tôi Chúng tôi sẽ điểm qua quá trình phát triển trong lịch sử tìm kiếm ảnh, xuất phát từ tìm kiếm bằng lược đồ màu [1] cho tới các phương pháp tìm kiếm gần đây nhất
2.1 Phương pháp lược đồ màu
Lược đồ màu được đề xuất bởi Swain và Ballard (1991) trong việc nhận dạng ảnh và cảnh màu Mỗi ảnh đều chuyển thành một lược đồ màu, đó là một véc tơ dài 4096 ô nhớ, mỗi ô nhớ mang số lượng màu có trong đó [1] Ví dụ một ảnh 256x256 toàn màu đỏ sẽ có một ô nhớ chứa giá trị 65536 Mỗi ảnh đều được biến thành một véc tơ có cùng độ dài, do đó việc tìm kiếm ảnh trở thành tìm kiếm và so sánh các véc tơ
Phương pháp lược đồ màu là cơ sở để so sánh hai ảnh bằng cách so sánh hai tập hợp màu của hai ảnh Và chúng ta không thể so từng điểm của ảnh đầu vào với các điểm của ảnh lưu trữ, chúng ta biến hai ảnh thành hai tập hợp (lược đồ) và việc so sánh nhanh hơn rất nhiều so với việc so sánh trực tiếp các điểm
Thông tin không gian đương nhiên không được phản ánh trong lược đồ màu Nếu chúng ta lật một ảnh và so sánh lược đồ của nó với lược đồ của ảnh gốc, chúng đương nhiên giống nhau Nếu chúng ta quay một ảnh với các góc vuông (90, 180, 270) và lấy lược đồ của nó so với lược đồ của ảnh gốc, chúng ta cũng đạt được các lược đồ giống nhau Phân bố không gian của các điểm màu không quan trọng, tần suất xuất hiện của chúng là quan trọng trong lượng đồ màu Kết quả là chúng ta sẽ bỏ đi thông tin không gian và phân bố của điểm màu, bàn cờ caro và một ảnh có nửa đen nửa trắng sẽ có lược đồ màu giống nhau
Hình 2.1: Thông tin không gian không được phản ánh trong lược đồ màu Phân
bố của các điểm ảnh trong không gian không quan trọng nhưng tần xuất của
chúng quan trọng
Trang 25Chú ý rằng phép co giãn kích thước ảnh ảnh hưởng tới lược đồ màu Khi ảnh to hơn, các số đếm sẽ lớn hơn Chúng ta có thể chuẩn hóa các véc tơ nhằm
so sánh các ảnh khác nhau về số lượng điểm ảnh Khi chúng ta chia các số nguyên (số đếm) cho tổng số lượng của chúng, chúng ta sẽ biến véc tơ nguyên thành véc tơ thực trong khoảng [0,1] Các giá trị này sẽ ít phụ thuộc vào kích thước của ảnh Khi không chuẩn hóa, các ảnh lớn sẽ có các số đếm lớn hơn
2.2 Dựa trên túi từ BOW
Trong khoảng 2004 trở đi, với sự phát triển của phương pháp biểu diễn tài liệu dựa trên mô hình "túi từ" hay Bag of Words và các phương pháp trích trọn đặc trưng địa phương, việc tìm kiếm ảnh cũng được cải thiện với việc sử dụng visual bag of word Mỗi ảnh được chia thành từng phần nhỏ, mỗi phần nhỏ được biến thành một khái niệm tường minh [3] hoặc khái niệm tiềm [5], [6]và chúng ta có thể tổ chức các khái niệm thành lược đồ khái niệm
Có thể nhìn lược đồ khái niệm là dạng tổng quát hơn của lược đồ màu Thay vì bỏ mỗi điểm ảnh vào một ô, ta sẽ bỏ một mảnh ảnh (patch) vào một ô,
để tạo lược đồ Mảnh hơn điểm vì nó phản ánh các thông tin cục bộ ổn định hơn
Ví dụ khi chúng ta nhìn một điểm, chúng ta chỉ phân loại xanh, đỏ, tím vàng Nhưng khi chúng ta nhìn một mảnh, chúng ta có thể phân loại (mảnh trời, mảnh mây, mảnh cây) do đó chúng mang nhiều ý nghĩa hơn là vật lý, và dẫn đến kết quả tìm kiếm cao hơn
Cũng giống như lược đồ màu, lược đồ từ không phản ánh nhiều thông tin không gian mà nó phản ánh tần suất của các mảnh Tuy nhiên, bản thân mỗi mảnh có phân bố không gian nội bộ trong nó, nên nếu chúng ta mở rộng kích thước mảnh, chúng ta phần nào phản ánh thông tin không gian
2.3 Dựa trên không gian
Chúng ta đã nói trong các phần trên rằng mô hình "túi từ" không chứa thông tin không gian Có một số phương pháp cố gắng giới thiệu thông tin không gian vào túi từ Phương pháp kim tự tháp của tác giả Lazebnick và đồng nghiệp năm 2006 [5] là phương pháp hay được nhắc đến trong lịch sử về việc thêm thông tin không gian vào mô hình túi từ bằng cách chia ảnh ra thành phần nhỏ theo nhiều mức, hay còn gọi là mô hình kim tự tháp
Phương pháp kim tự tháp không gian (spatial pyramid), xem Hình 2.2, được thiết lập bằng cách chia ảnh thành các phần hai, phần tư, và phần tám Ở mức thô nhất, hay mức 0, ảnh được chia thành một ô Đây chính là mô hình túi
Trang 26từ nguyên thủy Khi chúng ta chia ảnh thành 2x2 hay 4 ô, và thành lập lược đồ
từ cho mỗi ô, ta có thể so sánh hai ảnh bằng cách so sánh các ô tương ứng Do vậy, chúng ta phản ánh được một phần thông tin không gian Tuy nhiên, chúng
ta vẫn giới thiệu một chút tịnh tiến (translation) trong phép so sánh Ví dụ ảnh mới được thành lập bằng cách dịch ảnh gốc đi một số điểm ảnh, chúng ta vẫn có thể so sánh các điểm tương ứng của các góc phần tư Khi chúng ta chia cụ thể hơn thành 4x4, chúng ta có thể so sánh chi tiết hơn một chút
Hình 2.2: Giới thiệu thông tin không gian vào mô hình túi từ Chia nhỏ ảnh thành các phần theo nhiều mức khác nhau và so khớp các thành phần tương ứng
là một phương pháp đơn giản để giới thiệu thông tin không gian [5]
Hình 2.3: Biểu diễn hình dạng (shape) của đồ vật dựa trên kim tự tháp không
gian [7]
Trang 27Năm 2007, tác giả Bosch và đồng nghiệp [7] sử dụng phép biểu diễn tương tự để áp dụng vào ảnh tự nhiên, do đó có thể biểu diễn được hình dạng (shape) của đồ vật cần nhận dạng Khi chúng ta tách cạnh của ảnh, chúng ta sẽ
có các ảnh cạnh và khi chúng ta chia các cạnh thành các phần nhỏ và tính lược
đồ cho mỗi phần cạnh, xem Hình 2.3, chúng ta sẽ được các lược đồ khác nhau biểu diễn thông tin hình dạng Các lược đồ này hữu dụng cho nhận dạng và tìm kiếm
2.4 Ứng dụng trong tổng hợp và hoàn thiện ảnh
Như chúng tôi đã trình bày trong phần 1.2, tìm kiếm ảnh được ứng dụng trong tổng hợp và hoàn thiện ảnh Hoàn thiện ảnh (image completion) có nguồn gốc từ tổng hợp họa tiết (texture synthesis) được tác giả Efros và đồng nghiệp giới thiệu năm 1999, xem [25] Ban đầu, tác giả Criminisi và đồng nghiệp đưa ra tổng hợp ảnh được thực hiện bằng cách lấy mẫu các mảnh nhỏ trong phần có sẵn của ảnh và đắp vào phần chưa hoàn thiện của ảnh [20], [20], [20] Tuy nhiên đến năm 2007, tác giả Hays và đồng nghiệp [12], việc hoàn thiện ảnh được thực hiện bằng cách tìm kiếm mảnh từ các ảnh trong cơ sở dữ liệu và đắp vào phần còn thiếu
Chúng tôi muốn nhấn mạnh ở đây quá trình tìm kiếm Đầu tiên, phần hiện có của ảnh được dùng để tìm kiếm các cảnh tương tự Tất nhiên, chúng ta phải giả định rằng phần hiện có đủ lớn để xác định cảnh cần tìm là gì Nếu chúng ta tìm trên không gian lớn tới hàng triệu ảnh, chúng ta luôn tìm thấy được ảnh phù hợp Sau đó, chúng ta sẽ tìm cục bộ trong các cảnh đã tìm được một phần phù hợp để sao chép Việc tìm kiếm cục bộ được thực hiện bằng cách so sánh phần hiện có trong ảnh không hoàn thiện với phần ứng cử trong ảnh tìm được
Tác giả Chen và đồng nghiệp[14] phát triển ý tưởng trên để tổng hợp ảnh dựa trên các thành phần tìm được Một bản phác thảo của ảnh cần tổng hợp được vẽ, các thành phần trong bản phác thảo được dùng để tìm kiếm, sau đó chúng ta ghép các thành phần tìm kiếm được vào ảnh tổng hợp Cả hai phương pháp đều yêu cầu tương tác để lọc các kết quả tìm kiếm Đây là một trong những
ví dụ về tìm kiếm có sự can thiệp của con người nhằm đạt kết quả tốt hơn
Trang 282.5 Ứng dụng trong phân tích ảnh
Khái niệm phân tích ảnh (image analysis) là khái niệm rất rộng Chúng tôi chỉ tập trung vào phân tích cảnh (scene parsing) hay đánh nhãn điểm ảnh (pixel labeling) Mục đích của đánh nhãn điểm là cung cấp cho mỗi điểm ảnh một nhãn (ví dụ trời, biển, cây) Chúng ta cần dựa vào nhiều thông tin như màu sắc (ví dụ xanh lam trở thành trời hoặc biển, xanh lục trở thành cây hoặc cỏ) hoặc ngữ cảnh (cùng là xanh lam, nếu ở trên cao là trời, nhưng ở dưới thấp thành nước vì nước phản ánh trời nên chúng có cùng màu, chúng ta phải dùng ngữ cảnh để phân biệt)
Chúng tôi muốn tập trung nhấn mạnh việc tìm kiếm trong phần ứng dụng Hầu hết các phương pháp đều tìm kiếm với nhiều mức để có thể làm mịn tập ví
dụ mong muốn Ví dụ phương pháp của tác giả Liu và đồng nghiệp [10] tìm bằng cách sử dụng một số các véc tơ đặc trưng cơ sở như GIST, SPK để tìm ra các ảnh tương tự, sau đó dùng ánh xạ địa phương để tìm ra các ảnh phù hợp hơn,
và cuối cùng sử dụng ánh xạ đó để chuyển nhãn từ ảnh ví dụ vào ảnh truy vấn Hoặc tác giả Lazebnik và đồng nghiệp [22] cũng kết hợp nhiều phương pháp tìm kiếm khác nhau, sau đó sử dụng siêu điểm (super-pixel) để khai thác thông tin cục bộ và thông tin vùng làm chính xác hơn quá trình ánh xạ giữa ảnh kết quả và ảnh truy vấn
2.6 Kết luận
Trong chương này, luận văn đã giới thiệu một số phương pháp tìm kiếm dựa trên ảnh trong những năm gần đây có liên quan trực tiếp tới phương pháp của luận văn Luận văn cũng đã đưa ra một số nhận xét chung cho mỗi phương pháp sau khi đã tìm hiểu
Hai chương tiếp theo, luận văn sẽ đi sâu vào nghiên cứu phương pháp tìm kiếm dựa trên lược đồ màu và tìm kiếm dựa trên lược đồ khái niệm
Trang 29CHƯƠNG 3 TÌM KIẾM DỰA TRÊN LƯỢC ĐỒ MÀU VỚI ẢNH
PHÁC THẢO 3.1 Giới thiệu
Trong chương này, chúng tôi sẽ có đề xuất phương pháp tìm kiếm dựa trên màu sắc của Swain và Ballard [1] bằng cách định nghĩa lại độ đo và gia cố lược đồ màu đầu vào (query color histogram) với mục đích tăng khả năng tìm lại (recall) của hệ thống tìm kiếm dựa trên màu sắc trong trường hợp ảnh đầu vào không phải ảnh tự nhiên Thông thường, các ảnh tự nhiên thường chứa một dải màu (nhiều cấp xám) thay vì một màu trong ảnh vẽ Ví dụ, một mảng trời sẽ biến đổi tự xanh đậm tới xanh nhạt, một mảng mặt trời sẽ có từ màu vàng tới màu đỏ Khi chúng ta vẽ một ảnh đầu vào đơn sắc, hoặc đơn giản chúng ta chỉ muốn tìm một màu đỏ, lược đồ màu sẽ chỉ chứa một ô có giá trị dương (các ô còn lại có giá trị không) Việc khớp giữa lược đồ tự nhiên và lược đồ ảnh vẽ sẽ không cho kết quả mong muốn
Trong Hình 3.1, người dùng vẽ một ảnh chỉ có màu vàng để tìm các ảnh
có sắc vàng Nếu ta biến đổi ảnh đó thành lược đồ màu và khớp, ta sẽ được các ảnh kết quả như Hình 3.1a Ta thấy có một số hình rừng cây và đường phố không có nhiều sắc vàng Nếu ta chỉ tập trung tìm màu vàng, ta sẽ được kết quả như Hình 3.1b trong đó các cảnh mùa thu, hoàng hôn được nhấn mạnh hơn các cảnh khác như đường phố Nếu chúng ta thêm các cấp xám vào ảnh vẽ, để cho lược đồ màu của nó gần với lược đồ tự nhiên, chúng ta sẽ có kết quả như Hình 3.1c trong đó mỗi bức ảnh có nhiều màu vàng hơn và dải màu vàng biến đổi nhiều hơn khớp với ảnh tự nhiên hơn
Trang 30(a) Tìm kiếm bằng lược đồ màu với
màu để khớp với lược đồ tự nhiên
3.2 Phương pháp của Swain và Ballard 1991
Trước khi đi vào mô tả phương pháp của chúng tôi, trong phần này, chúng tôi xin tóm tắt phương pháp tìm kiếm cổ điển dựa trên màu sắc, đề xuất bởi Swain và Ballard [1] Đây là phương pháp liên quan trực tiếp đến phương pháp của chúng tôi
Trong phương pháp này, ảnh đầu vào (query image) cũng như ảnh lưu (stocked image) được đưa về cùng cùng một dạng biểu diễn, đó là lược đồ màu Sau đó chúng ta có thể so sánh lược đồ màu đầu vào (query histogram) với lược
đồ màu lưu trữ (stocked histogram) và chọn ra n ảnh tốt nhất Hoặc ít nhất chúng
ta hiển thị các ảnh theo độ khác biệt của lược đồ
Trang 31Đầu tiên, chúng tôi mô tả phương pháp tạo lược đồ màu Giả sử ảnh I là một ảnh đầu vào mà mỗi điểm I(x, y) trên ảnh chứa ba giá trị màu (Red, Green, Blue) Chúng ta sẽ hình thành một giá trị chỉ mục bởi công thức sau
r = Red/16;
g = Green/16;
b = blue/16;
k = r + g*16 + b*16*16;
Công thức 3.1: Xác định ô nhớ cho mỗi màu trong lược đồ màu
Do đó mỗi màu sẽ được chuyển thành một giá trị k nguyên Màu nhỏ nhất (0, 0, 0) sẽ có giá trị k = 0 Màu lớn nhất là (255,255,255) sẽ có giá trị k =
15 + 15*16 + 15*16*16 = 4095 Một màu đỏ thuần túy (255, 0, 0) sẽ có giá trị k
Đầu vào: ảnh màu I
Đầu ra: lược đồ H đếm số màu trong ảnh I
Bước 1: khởi tạo H(k) = 0, với k=0 4095
Bước 2: với mỗi điểm (r, g, b) = I(x, y), tính k theo phương trình Công thức 3.1,
tăng H(k)
Bước 3: trả về lược đồ H
Thuật toán 3.1: Thuật toán tính lược đồ màu cho mỗi ảnh màu
Khi tất cả các ảnh (đầu vào và lưu trữ) đều được biến thành lược đồ màu, chúng ta có thể so sánh hai ảnh bất kỳ bằng cách so sánh hai lược đồ màu
Chúng ta có thể sử dụng độ đo nào đó (Euclidean, histogram intersection, …) để so sánh Do đó chúng ta có thuật toán tìm kiếm như Thuật toán 3.2
Trang 32Đầu vào: ảnh cần tìm q, tập các ảnh được lưu S = { p1, p2, , pN }, độ đo giữa
hai lược đồ d(h1, h2)
Đầu ra: thứ tự sắp xếp của các ảnh, từ ảnh gần nhất q tới ảnh xa nhất q
Bước 1: với mỗi ảnh pk trong lược đồ, tính D(k) = d(hist(q), hist(pk)) trong đó
hist(q) là lược đồ màu của ảnh đầu vào q tính bằng Thuật toán 3.1 và hist(pk) là lược đồ màu của ảnh pk trong cơ sở dữ liệu Chúng ta có thể tính trước và lưu
Bước 2: sắp xếp D theo thứ tự tăng dần (khoảng cách nhỏ ở đầu, khoảng cách to
ở cuối), và trả về trật tự sắp xếp của các ảnh
Thuật toán 3.2: Thuật toán tìm kiếm dựa trên lược đồ màu
3.3 Phương pháp của chúng tôi
Chúng tôi đề xuất thêm với thuật toán của Swain và Ballard tại hai điểm Thứ nhất, chúng tôi không so sánh toàn bộ lược đồ màu mà chỉ tập trung vào màu tìm kiếm Do đó, độ đo hoàn toàn không bị gây nhiễu của các màu phụ
Và thứ hai, chúng tôi thêm các cấp xám cần thiết vào ảnh đầu vào, do đó
có thể khớp tốt hơn Điều này nhằm san bằng sự khác biệt giữa ảnh đầu vào tổng hợp (chỉ có một cấp xám) và ảnh tự nhiên (một vùng trời có thể nhiều màu xanh
da trời, một vùng cây có nhiều lá xanh non và xanh đậm)
Cách làm của chúng tôi rất đơn giản, chúng tôi định nghĩa mặt nạ so sánh và hàm so sánh dựa trên mặt nạ Chúng tôi sẽ định nghĩa mặt nạ và chỉ so sánh những điểm trong lược đồ có mặt nạ giá trị 1 Xem Công thức 3.2
m(k) = (hq(k) > 0); //mặt nạ m có m(k)=1 nếu như hq(k) > 0 và m(k)=0 nếu ngược lại
d(hq, hp) = sum(diff(hq(k), hp(k)) * m(k) | k=0 4095); //so sánh độ sai khác
và chỉ tính những điểm nào có giá trị màu trên histogram đầu vào
Công thức 3.2: Định nghĩa mặt nạ so sánh và độ đo mới dựa trên mặt nạ Mục đích là tập trung vào những ô nhớ có màu trên lược đồ đầu vào và bỏ qua điểm
nhiễu
Chúng tôi nhận thấy rằng độ đo như trên là quá chặt Nó cắt cụt tất cả các giá trị khác trong lược đồ màu tự nhiên Ví dụ trong ảnh tự nhiên có một quả táo, nó sẽ có từ màu đỏ đậm tới màu đỏ nhạt (nhiều cấp xám) Trong khi ảnh đầu vào của chúng ta chỉ có một màu đỏ (một cấp xám) Do đó chúng ta cần tạo một cái cầu nối (bridge) giữa lược đồ đầu vào (ảnh tổng hợp vẽ bằng tay) và lược đồ
Trang 33tự nhiên (ảnh chụp từ máy ảnh) Chúng tôi giới thiệu thêm một số màu sắc bằng cách sinh ra cấp xám cần thiết
Đầu vào: ảnh tổng hợp I chỉ có một số ít cấp xám
Đầu ra: ảnh tổng hợp J có thêm một số cấp xám ngẫu nhiên
Bước 1: tạo lược đồ màu trong đó có chứa các tâm màu tại mỗi ô cùng với số lượng màu
Bước 2: với mỗi màu I(x, y) có vị trí lk, trong lược đồ, J(x, y) = C(lk) + rand Trong đó C(lk) là tâm màu của ô lk và rand là một lượng ngẫu nhiên được thêm vào
Bảng 3.1: Chia tập dữ liê ̣u SIFT flow theo chủ đề
Trang 34- Thử nghiê ̣m so sánh hai phương pháp:
+ Chúng tôi lần lượt thử với đầu vào là các ản h phác thảo có mô ̣t màu X trên 8 tâ ̣p dữ liê ̣u
+ Chúng tôi lần lượt thử với đầu vào là các ảnh phác thảo có nhiều màu trên tập dữ liệu
c Cách đánh giá
- Chúng tôi sử dụng chỉ số Recall để đánh giá
3.4.2 Kết quả thử nghiệm
a Thử nghiệm với ảnh tự nhiên
- Phương pháp của Swain và Ballard, đều tìm thấy chính xác ảnh gốc, ảnh gốc bị xoay 90, 180, 270 độ
- Phương pháp của chúng tôi, khi thử nghiệm với các mức xám khác nhau cũng tìm thấy chính xác ảnh gốc, ảnh gốc bị xoay 90, 180, 270 độ Xem Bảng 3.2, Hình 3.2, Hình 3.3
Tên ảnh Số ảnh
đúng Normal
Chỉ số Recall Focus
(16)
Focus (30)
Focus (50)
Focus (100) coast_nat900 4 100% 100% 100% 100% 100% forest_nat203 4 100% 100% 100% 100% 100% highway_a866042 4 100% 100% 100% 100% 100%
Bảng 3.2: Tìm kiếm ảnh tự nhiên sử dụng lược đồ màu Chỉ số Recall khi thực
nghiệm với ảnh tự nhiên
Trang 36Hình 3.3: Phương pháp của chúng tôi hoạt động trên ảnh tự nhiên Việc thêm cấp xám cho ảnh tự nhiên không làm ảnh hưởng nhiều tới kết quả của tìm kiếm
b Thử nghiệm tăng nhiễu
Khi thay đổi số cấp xám được sinh ra, chúng ta có thể có các kết quả tìm kiếm khác nhau Số cấp xám từ 0-16 cho chúng ta kết quả gần với thuật toán nguyên thủy Số cấp xám từ 16-32 cho ta các dải màu phù hợp hơn Khi tăng cả
ba kênh lên 50 tới 100 cấp xám, chúng ta sẽ gặp nhiều điểm màu đen do các cấp xám gần 0 Xem Hình 3.4
Với các thử nghiệm so sánh phương pháp Swain và Ballard và phương pháp của chúng tôi Chúng tôi sử dụng cấp xám từ 16-32