Mục tiêu của luận văn là nghiên cứu và sử dụng các đặc trưng cục bộ bất biếnđể biểu diễn nội dung của một ảnh. Thêm vào đó, luận văn còn áp dụng mô hìnhphân phối chủ đề ẩn mà cụ thể là phân phối Dirichlet tiềm ẩn để biểu diễn ảnh ởmức độ cấp cao hơn, làm giảm chiều vector đặc trưng, tuy nhiên vẫn giữ đượcnhững chi tiết hữu ích cho việc so sánh và tìm kiếm.
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CẦN THƠ
PHAN THỊ KIM LOAN
TÌM KIẾM ẢNH THEO NỘI DUNG DỰA TRÊN
PHÂN PHỐI DIRICHLET TIỀM ẨN
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Trang 2BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CẦN THƠ
PHAN THỊ KIM LOAN
TÌM KIẾM ẢNH THEO NỘI DUNG
DỰA TRÊN PHÂN PHỐI DIRICHLET TIỀM ẨN
Chuyên ngành: HỆ THỐNG THÔNG TIN
Mã số: 24 10 08
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Người hướng dẫn khoa học
TS PHẠM NGUYÊN KHANG
Trang 3MỤC LỤC
DANH MỤC ĐỒ THỊ III DANH MỤC BẢNG BIỂU IV DANH MỤC HÌNH ẢNH V BẢNG TỪ VIẾT TẮT VII TÓM TẮT VIII ABSTRACT IX
MỞ ĐẦU 1
1 Lý do chọn đề tài 1
2 Mục đích của đề tài: 1
3 Đối tượng và phạm vi nghiên cứu 1
4 Ý nghĩa khoa học và thực tiễn của đề tài nghiên cứu 2
CHƯƠNG 1: TÌM KIẾM ẢNH THEO NỘI DUNG 4
1.1 Đặt vấn đề 4
1.2 Khái niệm về tìm kiếm ảnh theo nội dung ảnh: 5
1.3 Một số công cụ tìm kiếm ảnh theo nội dung: 8
Tổng kết chương 1 12
CHƯƠNG 2: PHƯƠNG PHÁP LỰA CHỌN ĐẶC TRƯNG CỤC BỘ BẤT BIẾN (SIFT) 13
2.1 Đặt vấn đề 13
2.2 Khái niệm đặc trưng cục bộ bất biến 13
2.2.1 Phát hiện điểm cực trị Scale-space 14
2.2.2 Định vị điểm hấp dẫn: 16
2.2.3 Xác định hướng cho điểm hấp dẫn: 17
2.2.4 Biểu diễn vector cho điểm hấp dẫn 18
2.3 Độ đo tương đồng cho đặc trưng cục bộ bất biến 18
2.4 Kmeans 19
Trang 4CHƯƠNG 3: LATENT DIRICHLET ALLOCATION (LDA) 27
3.1 Đặt vấn đề 27
3.2 Chủ đề ẩn 27
3.3 Latent Dirichlet Allocation 30
3.3.1 Mô hình LDA 30
3.3.2 Suy luận và ước lượng tham số 32
3.3.3 Suy luận : 32
3.3.4 Suy luận biến 33
3.3.5 Ước lượng tham số 35
3.3.6 Đánh giá đầu ra LDA 37
3.4 Nhận xét 37
3.5 Một số phương pháp đo sự tương tự của hình ảnh 38
3.5.1 Cosine 38
3.5.2 Manhattan 38
3.5.3 Sự khác nhau Jensen-Shannon 38
3.5.4 Khoảng cách Euclide : 39
3.6 Áp dụng mô hình LDA cho thực nghiệm 39
3.6.1 Mô tả bài toán 39
3.6.2 Mô hình tổng quan 40
Tổng kết chương 3 42
CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ 43
4.1 Môi trường và các công cụ sử dụng cho thực nghiệm 43
4.2 Xây dựng tập dữ liệu ảnh 44
4.3 Quy trình phương pháp thực nghiệm 44
4.4 Đánh giá kết quả thực nghiệm 45
4.5 Kết luận và hướng phát triển 55
Tổng kết chương 56
TÀI LIỆU THAM KHẢO 57
Trang 5DANH MỤC ĐỒ THỊ
Biểu đồ 4-1: Kết quả thực nghiệm trên tập Caltech4(1000 visual words) 47
Biểu đồ 4-2: Kết quả thực nghiệm trên tập Caltech4(5000 visual words) 48
Biểu đồ 4-3: Kết quả thực nghiệm trên tập Caltech101(1000 visual words) 49
Biểu đồ 4-4: Kết quả thực nghiệm trên tập Caltech101(5000 visual words) 50
Biểu đồ 4-5: Biểu đồ so sánh các phép đo 55
Trang 6DANH MỤC BẢNG BIỂU
Table 2-1: Bảng dữ liệu về thuốc 21
Table 2-2: Bảng kết quả phân nhóm 24
Table 4-1: Cấu hình phần cứng 43
Table 4-2: Công cụ phần mềm sử dụng 43
Table 4-3: Kết quả thực nghiệm trên tập Caltech4 (1000 visual words) 47
Table 4-4: Kết quả thực nghiệm trên tập Caltech4 (5000 visual words) 48
Table 4-5: Kết quả thực nghiệm trên tập Caltech101(1000 visual words) 49
Table 4-6: Kết quả thực nghiệm trên tập Caltech101(5000 visual words) 50
Table 4-7: Bảng so sánh kết quả trên tập ảnh Caltech4 51
Table 4-8: Bảng so sánh kết quả trên tập ảnh Caltech4 51
Table 4-9: Bảng so sánh các phép đo 54
Trang 7DANH MỤC HÌNH ẢNH
Hình 1-1: Tìm kiếm ảnh theo văn bản 4
Hình 1-2: Tìm kiếm ảnh theo nội dung 5
Hình 1-3: Đặc trưng màu sắc 6
Hình 1-4: Đặc trưng kết cấu 7
Hình 1-5: Đặc trưng hình dạng 7
Hình 1-6: Đặc trưng Sift 8
Hình 1-7: Google Image Swirl 9
Hình 1-8: Tiltomo 10
Hình 1-9: Byo Image Search 11
Hình 1-10: Tìm kiếm ảnh theo mẫu (example-based image search) 11
Hình 2-1: Biểu đồ mô phỏng việc tính toán các DoG ảnh từ các ảnh kề mờ 15
Hình 2-2: Mỗi điểm ảnh được so sánh với 26 láng giềng của nó 16
Hình 2-3: Quá trình lựa chọn các điểm hấp dẫn a Ảnh gốc, b Các điểm hấp dẫn được phát hiện, c Ảnh sau khi loại bỏ các điểm hấp dẫn có độ tương 17
Hình 2-4: Biểu diễn các vector đặc trưng 18
Hình 2-5: Lần lặp 0 21
Hình 2-6: Lần lặp 1 22
Hình 2-7: Lần lặp 2 23
Hình 2-8: Minh họa mô hình bag of words 25
Hình 3-1: Trình bày mô hình đồ họa của LDA Những cái hộp là tấm biển hiển thị việc sao chép Bên ngoài biển hiển thị các ảnh, trong khi biển hiện thị việc chọn lựa sự lặp đi lặp lại của các chủ đề và các visual word trong cùng 1 ảnh 31
Trang 8Hình 4-1: Minh họa tìm kiếm ảnh trên tập Caltech4 (Airplane) 52
Hình 4-2: Minh họa tìm kiếm ảnh trên tập Caltech4 (Faces) 53
Hình 4-3: Minh họa tìm kiếm ảnh trên tập Caltech4 (Motorbike) 53
Hình 4-4: Minh họa tìm kiếm ảnh trên tập Caltech4 (Car_brad) 54
Trang 9BẢNG TỪ VIẾT TẮT
3 CBIR Content Based Images Retrieval
4 CIE Commission Internationale de l’Eclairage
5 CTM Correlated Topic Models
6 DoG difference –of-Gaussian
9 HSV Hue - Saturation - Value
10 IR Information Retrieval
12 LDA latent Dirichlet Allocation
13 LSI Latent semantic indexing
14 MAP Mean Average Precision
15 PLSI Probabilistic latent semantic indexing
16 QBIC Query Based Image Content
18 SIFT Scale Invariant Feature Transform
Trang 10TÓM TẮT
Ngày nay với sự phát triển mạnh mẽ của công nghệ ảnh số làm lượng ảnh lưu trữ trên web tăng lên một cách nhanh chóng Việc này gây ra nhiều khó khăn trong việc tìm kiếm một bức ảnh giống với ảnh truy vấn
Mặc dù các công cụ tìm kiếm ảnh theo văn bản đi kèm ảnh ra đời cho phép người dùng tìm kiếm ảnh với thời gian đáp ứng khá nhanh, tuy nhiên, các công cụ này vẫn còn hạn chế trong việc giải quyết nhập nhằng giữa nội dung câu truy vấn và nội dung hiển thị của ảnh trả về Sự ra đời của các công cụ tìm kiếm ảnh theo nội dung ảnh đã giải quyết được những nhập nhằng trên
Mục tiêu của luận văn là nghiên cứu và sử dụng các đặc trưng cục bộ bất biến
để biểu diễn nội dung của một ảnh Thêm vào đó, luận văn còn áp dụng mô hình phân phối chủ đề ẩn mà cụ thể là phân phối Dirichlet tiềm ẩn để biểu diễn ảnh ở mức độ cấp cao hơn, làm giảm chiều vector đặc trưng, tuy nhiên vẫn giữ được những chi tiết hữu ích cho việc so sánh và tìm kiếm
Thực nghiệm ban đầu cho thấy từ một ảnh đầu vào hệ thống trả về 10 ảnh giống với ảnh truy vấn nhất, với độ chính xác trên 80% và đây là một kết quả khả quan
Trang 11ABSTRACT
Today, with the strong development of digital technology for storage of images on the web increases rapidly This creates difficulties in finding a picture which similar to the query image
Although the search engines as a picture accompanying text introduction allows users to search for images with the response time is quite fast, however, these tools are limited in dealing with ambiguity between the content query and display content of the image returns The advent of search engines as a picture content has resolved these ambiguities
The goal of the thesis is to study and use invariant local features to represent the content of an image In addition, the thesis also applies distribution model hidden topics that specific is latent Dirichlet distribution for representing the image
at a higher level, reduce the dimension of feature vector, but still keep the cost information useful for comparison and search
Initial experiments showed that the input image from a system returned 10 images most similar to the query image, with an accuracy of 80% and this is a positive result
Trang 12MỞ ĐẦU
1 Lý do chọn đề tài
Cùng với sự bùng nổ thông tin trên web và sự phát triển của công nghệ kỹ thuật số, lượng ảnh lưu trữ trên Web cũng tăng một cách nhanh chóng Vì vậy, việc xây dựng các hệ thống tìm kiếm và xếp hạng ảnh là rất cần thiết và thực tế đã có nhiều công cụ tìm kiếm ảnh thương mại xuất hiện Các công cụ tìm kiếm ảnh thường dựa vào hai đặc trưng chính là văn bản đi kèm ảnh hoặc nội dung ảnh Hiện tại đã có một số công cụ tìm kiếm ảnh theo văn bản đi kèm ra đời như Google Image Search, Yahoo!, MSN, và một số công cụ tìm kiếm ảnh dựa vào nội dung ảnh như Google Image Swirl, Bing, Tiltomo, Tineye,
Tuy nhiên, việc tìm kiếm chỉ dựa vào văn bản đi kèm còn có nhiều nhập nhằng giữa nội dung hiển thị ảnh và nội dung văn bản đi kèm ảnh trong quá tình tìm kiếm
Ví dụ, với truy vấn “Apple”, máy tìm kiếm khó phân biệt được người dùng muốn tìm hình ảnh quả táo hay logo của hãng Apple Do đó đòi hỏi phải có một công cụ tìm kiếm ảnh theo nội dung giúp hạn chế được những nhập nhằng trên Tìm kiếm ảnh theo nội dung là quá trình tìm kiếm tự động các ảnh có liên quan với ảnh truy vấn dựa trên nội dung ảnh Nội dung ảnh thường được biểu diễn bởi các đặc trưng như: màu sắc, cấu trúc, bố trí không gian, đặc trưng cục bộ bất biến…
2 Mục đích của đề tài:
Luận văn “Tìm kiếm ảnh theo nội dung dựa trên phân phối Dirichlet tiềm ẩn (content based image retrieval using latent Dirichlet allocation)” nhằm khảo sát, phân tích phương pháp trích chọn đặc trưng cục bộ bất biến trên ảnh, sử dụng mô hình LDA (Latent Dirichlet allocation) làm giảm chiều dữ liệu ảnh, thử nghiệm và đánh giá độ chính xác của hệ thống tìm kiếm ảnh theo nội dung với ảnh mẫu cho trước
3 Đối tượng và phạm vi nghiên cứu
Luận văn tập trung nghiên cứu các vấn đề sau:
Phương pháp rút trích nội dung ảnh bằng phương pháp lựa chon đặc trưng cục bộ bất biến SIFT
Phương pháp gom cụm K-means để phân nhóm các vector thành các visual words
Mô hình bag of words (BOW)
Trang 13 Các phép đo sự tương đồng giữa hai ảnh, các phương pháp đánh giá độ chính xác của hệ thống
Ngoài phần MỞ ĐẦU này, luận văn bao gồm các chương sau:
Chương 1 Tìm kiếm ảnh theo nội dung ảnh
Chương 2 Phương pháp lựa chon đặc trưng cục bộ bất biến SIFT
Chương 3 Mô hình LDA (Latent Dirichlet Allocation)
Chương 4 Thực nghiệm và đánh giá
Cuối cùng là phần KẾT LUẬN
4 Ý nghĩa khoa học và thực tiễn của đề tài nghiên cứu
Tìm kiếm ảnh dựa trên nội dung (CBIR – content-based image retrieval) là một nhu cầu thực tế trong việc lưu trữ và truy tìm ảnh đối với các thư viện ảnh số và các cơ sở dữ liệu đa phương tiện (multimedia) khác Về cơ bản, CBIR là quá trình
tự động tìm kiếm các ảnh liên quan với ảnh truy vấn dựa trên nội dung ảnh Nội dung ảnh thường được biểu diễn bằng các đặc trưng ảnh mức thấp (low-level) như các đặc điểm về màu, texture, shape, và bố trí không gian (như điểm, edge,…) Tuy nhiên, thực hiện công việc này không dễ vì có những sự thay đổi về màu sắc, ánh sáng, góc chụp ảnh, vật thể bị che khuất, dữ liệu lớn, ảnh hưởng của phông nền lên vật thể…
Gần đây, việc sử dụng các đặc trưng cục bộ SIFT (scale-invariant feature transform) để biểu diễn nội dung ảnh, mang lại nhiều thành tựu đáng kể trong phân tích ảnh Để sử dụng đặc trưng cục bộ SIFT, trước hết, người ta tìm các điểm đặc biệt (interest points) trên ảnh Các điểm này thường là các điểm nằm trong các vùng
có kết cấu (texture) đặc biệt Sau đó với từng điểm đặc biệt, ta sẽ mô tả bằng một vector đặc trưng được trích lọc từ vùng xung quanh của điểm đặc biệt này Mỗi vector đặc trưng là một vector 128 chiều Trung bình một ảnh sẽ có khoảng 1000 vector đặc trưng Để so sánh sự tương tự của 2 ảnh, ta đếm số cặp vector đặc trưng “khớp” với nhau giữa hai ảnh Phương pháp này cho kết quả rất tốt trong trường hợp ảnh bị thay đổi về độ sáng, màu sắc, góc chụp và ngay cả trường hợp vật thể quan tâm bị che khuất một phần
Trang 14khoảng 1000 truy vấn (mỗi ảnh có khoảng 1000 vector đặc trưng)
Để biểu diễn ảnh ngắn gọn nhằm giải quyết vấn đề không gian lưu trữ và tốc
độ truy vấn, luận văn sẽ áp dụng phương pháp gom cụm K-means để gán các vector
đặc trưng vào các nhóm tương ứng Mỗi nhóm được gọi là một visual word Như
vậy một ảnh sẽ được biểu diễn bằng một vector duy nhất
Như vậy thay vì biểu diển ảnh bằng một tập các vector đặc trưng SIFT (khoảng
1000 vector) thì ta có thể biểu diễn ảnh bằng một vector duy nhất Cách biểu diễn này
tương tự như cách biểu diễn văn bản bằng mô hình “túi từ” (bag of words) trong phân
tích dữ liệu văn bản bằng cách phân đoạn Và tập ảnh sẽ được biểu diễn bằng một
bảng tần số (contingency table) với các hàng tương ứng với ảnh và các cột tương ứng với các visual words, với phần tử [i,j] là số visual word i có trong ảnh j Với phương
pháp này một ảnh tương tự như một văn bản, vì vậy ta có thể áp dụng những mô hình
Trang 15CHƯƠNG 1: TÌM KIẾM ẢNH THEO NỘI DUNG
đi kèm ảnh, hệ thống gửi trả các ảnh tương ứng với truy vấn của người dùng
Mỗi ảnh trên web thường có các văn bản đi kèm như là tên ảnh (title), các thẻ (tags), bình luận (comment),…để mô tả các thông tin về ảnh, đây là các siêu dữ liệu (metadata) về ảnh Các dữ liệu này thường do người dùng tạo ảnh gắn cho mỗi ảnh,
vì vậy chúng đều mang một ý nghĩa nhất định Độ quan trọng của các loại siêu dữ liệu khác nhau cũng khác nhau
Trang 16nhau Vì vậy, các công cụ tìm kiếm ảnh theo văn bản đi kèm thường tập trung khai thác nội dung của các văn bản này để tìm kiếm và xếp hạng ảnh Phương pháp này cho kết quả khả quan cũng như đáp ứng nhanh nhu cầu của người sử dụng Tuy nhiên, với các câu truy vấn mang ý nghĩa nhập nhằng có thể các kết quả trả về sẽ không đúng với yêu cầu đặt ra Ví dụ khi truy vấn là “d-80”, một loại máy ảnh phổ biến của Nikon, thì các hệ thống trả về kết quả khá tốt Ngược lại, với truy vấn
“apple’ (Hình 1-1), nếu người dùng muốn tìm quả táo thì kết quả trả về đầu tiên
không thỏa mãn (logo của hãng Apple)
Mặt khác, các album cá nhân thường không có các thẻ, văn bản đi kèm ảnh hoặc văn bản đi kèm thường có định dạng nhất định (SDC13614) Cùng với số lượng ảnh số được chụp thêm mỗi ngày, định dạng này chỉ tăng thêm con số phía sau phần chữ Vì vậy khi người dùng tra cứu ảnh theo nội dung với định dạng như trên (SDC12342), kết quả tìm kiếm sẽ có rất nhiều ảnh trả về với cùng tên văn bản nhưng nội dung ảnh có thể hoàn toàn khác nhau vì chúng thuộc những album khác nhau được tải lên web
Một hướng nghiên cứu nhằm khắc phục vấn đề trên là tìm kiếm theo nội dung dựa vào các đặc điểm nội dung trực quan của chính bức ảnh để tra cứu: màu sắc, kết cấu, hình dạng, đặc trưng cục bộ…
1.2 Khái niệm về tìm kiếm ảnh theo nội dung ảnh:
Trang 17Tìm kiếm ảnh theo nội dung (Content Based Images Retrieval CBIR) hay truy vấn theo nội dung ảnh (Query Based Image Content QBIC) là một ứng dụng của thị giác máy tính đối với bài toán tìm kiếm ảnh “Dựa vào nội dung ảnh (Content- Based) ” nghĩa là việc tìm kiếm sẽ phân tích nội dung thực sự của các bức ảnh Nội dung ảnh ở đây được thể hiện bằng màu sắc, hình dạng, kết cấu (texture), các đặc trưng cục bộ (local features), … hay bất cứ thông tin nào có được từ chính nội dung ảnh Sau đây là một số đặc trưng của nội dung ảnh
Đặc trưng màu sắc: Màu sắc là một đặc trưng nổi bật và được sử dụng phổ
biến nhất trong tìm kiếm ảnh theo nội dung Mỗi một điểm ảnh (thông tin màu sắc) có thể được biểu diễn như một điểm trong không gian màu sắc ba chiều Các không gian màu sắc thường dùng là: RGB, Munsell, CIE, HSV Tìm kiếm ảnh theo màu sắc tiến hành tính toán biểu đồ màu cho mỗi ảnh để xác định tỉ trọng các điểm ảnh của ảnh
mà chứa các giá trị đặc biệt (màu sắc) Các nghiên cứu gần đây đang cố gắng phân vùng ảnh theo các màu sắc khác nhau và tìm mỗi quan hệ giữa các vùng này
Hình 1-3: Đặc trưng màu sắc
Đặc trưng kết cấu: Trích xuất nội dung ảnh theo kết cấu nhằm tìm ra mô
hình trực quan của ảnh và cách thức chúng được xác định trong không gian Kết cấu được biểu diễn bởi các texel mà sau đó được đặt vào một số các tập phụ thuộc vào
số kết cấu được phát hiện trong ảnh Các tập này không chỉ xác định các kết cấu mà còn chỉ rõ vị trí các kết cấu trong ảnh Việc xác định các kết cấu đặc biệt trong ảnh đạt được chủ yếu bằng cách mô hình các kết cấu như những biến thể cấp độ xám 2 chiều Ví dụ về một số loại kết cấu
Trang 18Hình 1-4: Đặc trưng kết cấu
Đặc trưng hình dạng: Hình dạng của một ảnh hay một vùng là một đặc
trưng quan trọng trong việc xác định và phân biệt ảnh trong nhận dạng mẫu Mục tiêu chính của biểu diễn hình dạng trong nhận dạng mẫu là đo thuộc tính hình học của một đối tượng được dùng trong phân lớp, so sánh và nhận dạng đối tượng
Hình 1-5: Đặc trưng hình dạng
Đặc trưng cục bộ bất biến (SIFT): Đầu tiên ta tìm các điểm hấp dẫn
(interest point) trên ảnh Các điểm này thường là các điểm nằm trong vùng có kết cấu đặc biệt Sau đó với mỗi điểm đặc biệt này sẽ được mô tả bằng một vector đặc trưng được trích lọc từ vùng xung quanh của điểm đặc biệt này Mỗi đặc trưng là một vector 128 chiều Phương pháp này cho kết quả rất tốt trong trường hợp ảnh bị thay đổi về độ sáng, màu sắc, góc chụp và ngay cả trong trường hợp vật thể bị che khuất một phần
Trang 19Hình 1-6: Đặc trưng Sift
Thực tế, đã có nhiều máy tìm kiếm cho phép tìm kiếm ảnh theo nội dung ảnh, tuy nhiên, các máy tìm kiếm này thường chỉ khai thác vào một phần nội dung của ảnh
1.3 Một số công cụ tìm kiếm ảnh theo nội dung:
Google Image Swirl: Là một thử nghiệm tìm kiếm hình ảnh theo nội dung
của Google, trong đó, kết quả tìm kiếm được sẽ được tổ chức lại dựa vào hiển thị trực quan và độ tương đồng ngữ nghĩa giữa các ảnh Google Image Swril phân cụm tốp đầu các kết quả trả về cho trên 200000 câu truy vấn và cho phép hiển thị hình ảnh dưới dạng các cụm và mối quan hệ giữa các ảnh
Trang 20Hình 1-7: Google Image Swirl
Tiltomo:Là một công cụ dựa trên Flickr và duy trì chính cơ sở dữ liệu ảnh của Flickr Nó cho phép tìm kiếm ảnh dựa vào độ tương đồng về chủ đề, màu sắc hay kết cấu
Trang 21Hình 1-8: Tiltomo
Byo Image Search: Tìm kiếm ảnh theo độ tương đồng về màu sắc với mẫu
ảnh mà người dùng tải lên từ máy tính hoặc từ một địa chỉ URL Công cụ tìm kiếm này không hỗ trợ tính năng tìm kiếm ảnh dựa vào độ tương đồng về chủ đề
Trang 22Hình 1-9: Byo Image Search
Tìm kiếm ảnh theo mẫu (example-based image search): Tìm kiếm ảnh
theo mẫu là một dạng của tìm kiếm ảnh dựa vào nội dung Trong hệ thống đó, đầu vào là một ảnh, hệ thống tìm kiếm và trả lại cho người dùng những ảnh tương đồng với ảnh mẫu
Hình 1-10: Tìm kiếm ảnh theo mẫu (example-based image search)
Trong luận văn này, chúng tôi tập trung vào bài toán tìm kiếm ảnh giống với
Trang 23Tổng kết chương 1
Trong chương này, chúng tôi trình bày một số vấn đề khi tìm kiếm ảnh với đặc trưng văn bản đi kèm, và một số đặc trưng nội dung của ảnh để áp dụng vào việc tìm kiếm nhằm khắc phục những vấn đề trên Giới thiệu một số công cụ tìm kiếm dựa vào nội dung ảnh, từ đó cho thấy phương pháp tìm kiếm ảnh theo nội dung đã khắc phục được một phần nhược điểm của phương pháp tìm kiếm ảnh theo văn bản
đi kèm ảnh và cho ra những kết quả khả quan
Trang 24CHƯƠNG 2: PHƯƠNG PHÁP LỰA CHỌN ĐẶC TRƯNG CỤC BỘ
BẤT BIẾN (SIFT)
2.1 Đặt vấn đề
Trong tìm kiếm ảnh theo nội dung, việc lựa chọn các đặc trưng thích hợp với từng loại truy vấn và miền ứng dụng cùng với các độ đo tương đồng tương ứng là thành phần quan trọng và then chốt nhất [26] Việc lựa chọn các đặc trưng và độ đo thích hợp sẽ giúp tăng cả tốc độ và mức độ chính xác của các hệ thống J.V.Jawahe
và cộng sự [9] đã nêu ra các yêu cầu cơ bản đối với thành phần lựa chọn đặc trưng cho ảnh
Thành phần lựa chọn đặc trưng phải lựa chọn được một tập các đặc trưng cung cấp đầu vào tốt nhất cho hệ thống tìm kiếm ảnh Nếu số lượng các đặc trưng quá nhiều sẽ làm “che khuất” các “tín hiệu” (giảm các “tín hiệu” đối với tỉ lệ nhiễu), mặt khác, nếu số lượng các đặc trưng quá ít sẽ khó phân biệt được ảnh trong tìm kiếm
Nó phải giảm bớt được độ phức tạp trong lúc tính toán tổng thể bằng giảm đa chiều của bài toán phân lớp
Khi người dùng muốn sử dụng các đặc trưng đó cho mọi truy vấn, thì việc sử dụng các đặc trưng này phải hiệu quả Vì số lượng các đặc trưng có thể là hàng ngàn, dó đó thời gian xử lý của module phải tuyến tính với số lượng đặc trưng
Vì thời gian xử lý của thành phần lựa chọn đặc trưng tuyến tính với số lượng đặc trưng, do đó việc lựa chọn các đặc trưng cũng nên tuyến tính dựa trên phân lớp
Thành phần lựa chọn đặc trưng có thể xử lý được với kích thước tập mẫu nhỏ
Có nhiều đặc trưng nội dung ảnh được miêu tả khái quát trong chương 1 như: đặc trưng màu sắc, đặc trưng kết cấu, đặc trưng hình dạng, … Tuy nhiên các đặc trưng này không ổn định khi có sự thay đổi về màu sắc, ánh sáng, góc chụp ảnh, ảnh hưởng của phông nền lên vật thể Trong phần tiếp theo, chúng tôi sẽ mô
tả phương pháp trích chọn đặc trưng cục bộ bất biến, một đặc trưng không thay đổi với điều kiện màu sắc, ánh sáng, …
2.2 Khái niệm đặc trưng cục bộ bất biến
Đặc trưng cục bộ bất biến SIFT (Scale – Invariant Feature Transform) của ảnh là các đặc trưng bất biến với việc thay đổi tỷ lệ ảnh, quay ảnh, điểm nhìn, nhiễu ảnh hay thay đổi cường độ chiếu sáng của ảnh Các đặc trưng này được rút
Trang 25ảnh hay thay đổi ánh sáng của ảnh
Phương pháp trích rút các đặc trưng bất biến SIFT được tiếp cận theo phương pháp thác lọc, theo đó phương pháp được thực hiện lần lượt theo các bước sau:
Phát hiện các điểm cực trị Scale-Space (Scale-Space extrema detection):
Bước đầu tiên này tiến hành tìm kiếm các điểm hấp dẫn trên tất cả các tỉ lệ và vị trí của ảnh Nó sử dụng hàm different-of-Gaussian để xác định tất cả các điểm hấp dẫn tiềm năng mà bất biến với quy mô và hướng của ảnh
Định vị các điểm hấp dẫn (keypoint localization): Một hàm kiểm tra sẽ được
đưa ra để quyết định xem các điểm hấp dẫn tiềm năng có được lựa chọn hay không?
Xác định hướng cho các điểm hấp dẫn (Orientation assignment): Xác định
hướng cho các điểm hấp dẫn được chọn
Mô tả các điểm hấp dẫn (Keypoint descriptor): Các điểm hấp dẫn sau khi
được xác định hướng sẽ được mô tả dưới dạng các vector đặc trưng nhiều chiều
2.2.1 Phát hiện điểm cực trị Scale-space
Các điểm hấp dẫn với đặc trưng SIFT tương thích với các cực trị địa phương của bộ lọc difference-of-Gaussian (DoG) ở các tỉ lệ khác nhau Định nghĩa không
gian tỉ lệ của một hình ảnh là hàm L(x,y,k σ) được mô tả như sau:
L(x,y,σ) = G(x,y,kσ)* I(x,y) CT 2-1 Với G(x, y,kσ) : biến tỉ lệ Gaussian (variable scale Gaussian)
I (x, y) : Ảnh đầu vào
* là phép nhân chập giữa x và y
Và
2 2
2 /2σ2
e πσ
= σ) y,
Để phát hiện được các điểm hấp dẫn, ta đi tìm các cực trị của hàm DoG được định nghĩa:
y) I(x, σ)) y, G(x, kσ y, (G(x,
= σ) y,
Trang 26G σ
= σ
2
CT 2-5
G )σ (k σ) y, G(x, ) k y,
Như vậy, bước đầu tiên của giải thuật SIFT phát hiện các điểm hấp dẫn với bộ lọc
Gaussian ở các tỉ lệ khác nhau và các ảnh DoG từ sự khác nhau của các ảnh kề mờ
Hình 2-1: Biểu đồ mô phỏng việc tính toán các DoG ảnh từ các ảnh kề mờ
Các ảnh cuộn được nhóm thành các octave (mỗi octave tương ứng với giá trị
gấp đôi của σ) Giá trị của k được chọn sao cho số lượng ảnh mờ (blured images)
cho mỗi octave là cố định Điều này đảm bảo cho số lượng các ảnh DoG cho mỗi
octave không thay đổi
Các điểm hấp dẫn được xác định là các cực đại hoặc cực tiểu của các ảnh
DoG qua các tỉ lệ Mỗi điểm ảnh trong DoG được so sánh với 8 điểm ảnh láng
giềng của nó ở cùng tỉ lệ đó và 9 láng giềng kề ở các tỉ lệ ngay trước và sau nó
Nếu điểm ảnh đó đạt giá trị cực tiểu hoặc cực đại thì sẽ được chọn làm các điểm
Trang 27Hình 2-2: Mỗi điểm ảnh được so sánh với 26 láng giềng của nó
Loại bỏ các điểm hấp dẫn có độ tương phản thấp
Một số điểm hấp dẫn dọc theo các cạnh không giữ được tính ổn định khi ảnh
Trang 28 Vùng chứa điểm hấp dẫn được xác định qua :
Nếu > 0.5 : điểm hấp dẫn nằm ở gần điểm lấy mẫu khác
Thực hiện tiếp tục với các điểm lấy mẫu khác
Những điểm có thỏa mãn (<0.5) được thêm vào tập hợp mẫu tốt nhất, tiếp tục phân tích tiếp
Dùng để loại những điểm cực trị không ổn định (độ tương phản thấp)
Thay vào D(x) ta được:
Nếu <0.03 thì điểm lấy mẫu đó sẽ bị loại
Các điểm hấp dẫn còn lại sẽ được xác định hướng
Hình 2-3: Quá trình lựa chọn các điểm hấp dẫn a Ảnh gốc, b Các điểm hấp dẫn được
phát hiện, c Ảnh sau khi loại bỏ các điểm hấp dẫn có độ tương phản thấp, d Ảnh sau loại bỏ các điểm hấp dẫn dọc theo cạnh.
Trang 29Gradient trong vùng láng giềng của điểm hấp dẫn Độ lớn và hướng của các điểm
hấp dẫn được xác định theo công thức:
)) y L(x, ) + y (L(x, + y)) L(x
y) + (L(x
= y)
y))) L(x
y) + (L(x )) y L(x, ) + y ((L(x,
= y)
2.2.4 Biểu diễn vector cho điểm hấp dẫn
Điểm hấp dẫn sau khi được xác định hướng sẽ được biểu diễn dưới dạng các
vector 4x4x8=128 chiều
Hình 2-4: Biểu diễn các vector đặc trưng
2.3 Độ đo tương đồng cho đặc trưng cục bộ bất biến
Một số độ đo tương đồng cho ảnh sử dụng đặc trưng SIFT như :
Độ đo Cosin :
y x
y x
= y) d(x,
.
CT 2-9
Trang 30x
= y) d(x,
m m
m m m M
= m m JSD
+H H'
' H'
+ H' + H H
= ) H' (H,
1
Với H, H’ là 2 biểu đồ biểu diễn các vector đặc trưng SIFT
Như vậy thông qua giải thuật trích đặc trưng cục bộ (SIFT) một ảnh sẽ có
nhiều vector 128 chiều Điều này sẽ gây ra vấn đề lớn trong việc lưu trữ và truy vấn
ảnh, do đó ta phải tìm ra một phương pháp thực hiện gom tất cả các vector đặc
trưng của ảnh thành một vector duy nhất Có nhiều nhóm giải thuật gom cụm:
hierarchical clustering, partitioning, density-based, model-based, … trong đó giải
thuật được sử dụng nhiều : K-means, Dendrogram, SOM, EM, đã ứng dụng thành
công trong hầu hết các lĩnh vực tìm kiếm thông tin, phân tích dữ liệu, … Trong các
thuật ngữ đơn giản, phân nhóm có nghĩa là nhóm các mặt hàng tương tự với nhau
thành một nhóm Vì vậy, người ta có thể sử dụng phân nhóm để tổ chức các bộ sưu
tập lớn - bộ sưu tập thư viện hình ảnh, các kết quả tìm kiếm hình ảnh web, bộ sưu
tập ảnh lớn hoặc bất kỳ bộ sưu tập nào Phân nhóm có thể được sử dụng để hỗ trợ
duyệt web Gần đây phân nhóm đã được áp dụng để xác định loại đối tượng Chúng
tôi muốn tạo ra các cụm hình ảnh tương tự nhau - tương tự như trong ngữ nghĩa
cũng như tương tự trong hình thức trực quan Phân nhóm là hữu ích để suy ra đặc
điểm của một bộ sưu tập, điều này được gọi là phân tích dữ liệu Trong phần tiếp
theo luận văn sẽ đề cập chi tiết về giải thuật gom cụm K-means
2.4 K-means
Trong thực tế, dữ liệu thường không có nhiều thông tin sẵn có như lớp (nhãn)
mà chúng ta cần phải xây dựng mô hình gom cụm dữ liệu Một giải thuật gom cụm
hay còn gọi là học không giám sát cần nhóm dữ liệu (không có nhãn) Có rất nhiều
định nghĩa khác nhau về kỹ thuật này, nhưng về bản chất ta có thể hiểu phân cụm là
các qui trình tìm cách nhóm các đối tượng đã cho vào các cụm (clusters), sao cho
các đối tượng trong cùng 1 cụm tương tự (similar) nhau và các đối tượng khác cụm
thì không tương tự (dissimilar) nhau Có rất nhiều giải thuật gom cụm khác nhau
như giải thuật gom cụm phân cấp (hierarchical clustering), giải thuật K-means của
Trang 31hình khác Giải thuật gom cụm K-means cũng góp mặt vào trong nhóm 10 giải thuật quan trọng của khai mỏ dữ liệu và được ứng dụng thành công trong thực tế Giải thuật gom cụm K-means thường dựa trên khoảng cách, cách tính khoảng cách có thể dùng khoảng cách Minkowski cho dữ liệu kiểu liên tục, các phương pháp tính khoảng cách cho dữ liệu nhị phân, rời rạc
Mục đích của phân cụm là tìm ra bản chất bên trong các nhóm của dữ liệu Các thuật toán phân cụm (Clustering Algorithms) đều sinh ra các cụm (clusters) Tuy nhiên, không có tiêu chí nào là được xem là tốt nhất để đánh giá hiệu quả của phân tích phân cụm, điều này phụ thuộc vào mục đích của phân cụm như: data reduction, “natural clusters”, “useful” clusters, outlier detection Trong hình ảnh, K-means được ứng dụng để phân khúc hình ảnh, gom cụm vector đặc trưng
2.4.1 Thuật toán K-means
Cho một tập dữ liệu chưa gán nhãn, ta muốn gom cụm dữ liệu thành k nhóm với giải thuật K-means Các bước thực hiện gom nhóm của K-means có thể tóm tắt như sau:
Chọn ngẫu nhiên K tâm (centroid) cho K cụm (cluster) Mỗi cụm được đại diện bằng các tâm của cụm
Tính khoảng cách giữa các đối tượng (objects) đến K tâm (thường dùng khoảng cách Euclidean)
Nhóm các đối tượng vào nhóm gần nhất
Xác định lại tâm mới cho các nhóm
Thực hiện lại bước 2 cho đến khi không có sự thay đổi nhóm nào của các đối tượng
2.4.2 Ví dụ minh họa thuật toán K-means:
Giả sử ta có 4 loại thuốc A,B,C,D, mỗi loại thuốc được biểu diễn bởi 2 đặc trưng X và Y như sau Mục đích của ta là nhóm các thuốc đã cho vào 2 nhóm (K=2) dựa vào các đặc trưng của chúng
Trang 32Table 2-1: Bảng dữ liệu về thuốc
Object Feature 1 (X): weight index Feature 2 (Y): pH
B ước 1 Khởi tạo tâm (centroid) cho 2 nhóm Giả sử ta chọn A là tâm của
nhóm thứ nhất (tọa độ tâm nhóm thứ nhất c1(1,1)) và B là tâm của nhóm thứ 2 (tọa
5 61 3 1 0
0
1 1
, 1
group c
D C B A
5 4 2 1
Trang 33Mỗi cột trong ma trận khoảng cách (D0) là một đối tượng (cột thứ nhất tương ứng với đối tượng A, cột thứ 2 tương ứng với đối tượng B,…) Hàng thứ nhất trong
ma trận khoảng cách biểu diễn khoảng cách giữa các đối tượng đến tâm của nhóm thứ nhất (c1) và hàng thứ 2 trong ma trận khoảng cách biểu diễn khoảng cách của các đối tượng đến tâm của nhóm thứ 2 (c2)
Ví dụ, khoảng cách từ loại thuốc C=(4,3) đến tâm c1(1,1) là 3.61 và đến tâm c2(2,1) là 2.83 được tính như sau:
61 3 ) 1 3 ( ) 1 4 (
0 0 0 1
Ta thấy rằng nhóm 1 sau vòng lặp thứ nhất gồm có 1 đối tượng A và nhóm 2 gồm các đối tượng còn lại B,C,D
Bước 5 Tính lại tọa độ các tâm cho các nhóm mới dựa vào tọa độ của các đối
tượng trong nhóm Nhóm 1 chỉ có 1 đối tượng A nên tâm nhóm 1 vẫn không đổi,
c1(1,1) Tâm nhóm 2 được tính như sau:
) 3
8 , 3
11 ( ) 3
4 3 1 , 3
5 4
Trang 34Bước 6 Tính lại khoảng cách từ các đối tượng đến tâm mới
.
3
5 61 3 1 0
1
D
2 3
8 , 3 11
1 1
, 1
group c
1
5 4 2
1
Bước 7. Nhóm các đối tượng vào nhóm
D C B A
group
group G
2
1 1
1 0 0
0 0 1 1
1 3 , 2
1 4 ( 2
4 3 , 2
5 4 )
1 , 2
1 1 ( 2
1 1
A
Trang 35Bước 9 Tính lại khoảng cách từ các đối tượng đến tâm mới
Y X
D C B
A
group c
group c
1
5 4 2
1
2 )
2
1 3 , 2
1 4 (
1 )
1 , 2
1 1 (
71 0 71 0 54 3 30 4
61 4 20 3 5 0 5 0
2
1 2
Bước 10 Nhóm các đối tượng vào nhóm
D C B
A
group
group G
2
1 1
1 0
0
0 0 1
Table 2-2: Bảng kết quả phân nhóm
Object Feature 1 (X): weight