Tìm kiếm ảnh theo nội dung dựa trên LDA

Mục tiêu của luận văn là nghiên cứu và sử dụng các đặc trưng cục bộ bất biếnđể biểu diễn nội dung của một ảnh. Thêm vào đó, luận văn còn áp dụng mô hìnhphân phối chủ đề ẩn mà cụ thể là phân phối Dirichlet tiềm ẩn để biểu diễn ảnh ởmức độ cấp cao hơn, làm giảm chiều vector đặc trưng, tuy nhiên vẫn giữ đượcnhững chi tiết hữu ích cho việc so sánh và tìm kiếm.

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC CẦN THƠ

PHAN THỊ KIM LOAN

TÌM KIẾM ẢNH THEO NỘI DUNG DỰA TRÊN

PHÂN PHỐI DIRICHLET TIỀM ẨN

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC CẦN THƠ

PHAN THỊ KIM LOAN

TÌM KIẾM ẢNH THEO NỘI DUNG

DỰA TRÊN PHÂN PHỐI DIRICHLET TIỀM ẨN

Chuyên ngành: HỆ THỐNG THÔNG TIN

Mã số: 24 10 08

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Người hướng dẫn khoa học

TS PHẠM NGUYÊN KHANG

Trang 3

MỤC LỤC

DANH MỤC ĐỒ THỊ III DANH MỤC BẢNG BIỂU IV DANH MỤC HÌNH ẢNH V BẢNG TỪ VIẾT TẮT VII TÓM TẮT VIII ABSTRACT IX

MỞ ĐẦU 1

1 Lý do chọn đề tài 1

2 Mục đích của đề tài: 1

3 Đối tượng và phạm vi nghiên cứu 1

4 Ý nghĩa khoa học và thực tiễn của đề tài nghiên cứu 2

CHƯƠNG 1: TÌM KIẾM ẢNH THEO NỘI DUNG 4

1.1 Đặt vấn đề 4

1.2 Khái niệm về tìm kiếm ảnh theo nội dung ảnh: 5

1.3 Một số công cụ tìm kiếm ảnh theo nội dung: 8

Tổng kết chương 1 12

CHƯƠNG 2: PHƯƠNG PHÁP LỰA CHỌN ĐẶC TRƯNG CỤC BỘ BẤT BIẾN (SIFT) 13

2.1 Đặt vấn đề 13

2.2 Khái niệm đặc trưng cục bộ bất biến 13

2.2.1 Phát hiện điểm cực trị Scale-space 14

2.2.2 Định vị điểm hấp dẫn: 16

2.2.3 Xác định hướng cho điểm hấp dẫn: 17

2.2.4 Biểu diễn vector cho điểm hấp dẫn 18

2.3 Độ đo tương đồng cho đặc trưng cục bộ bất biến 18

2.4 Kmeans 19

Trang 4

CHƯƠNG 3: LATENT DIRICHLET ALLOCATION (LDA) 27

3.1 Đặt vấn đề 27

3.2 Chủ đề ẩn 27

3.3 Latent Dirichlet Allocation 30

3.3.1 Mô hình LDA 30

3.3.2 Suy luận và ước lượng tham số 32

3.3.3 Suy luận : 32

3.3.4 Suy luận biến 33

3.3.5 Ước lượng tham số 35

3.3.6 Đánh giá đầu ra LDA 37

3.4 Nhận xét 37

3.5 Một số phương pháp đo sự tương tự của hình ảnh 38

3.5.1 Cosine 38

3.5.2 Manhattan 38

3.5.3 Sự khác nhau Jensen-Shannon 38

3.5.4 Khoảng cách Euclide : 39

3.6 Áp dụng mô hình LDA cho thực nghiệm 39

3.6.1 Mô tả bài toán 39

3.6.2 Mô hình tổng quan 40

Tổng kết chương 3 42

CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ 43

4.1 Môi trường và các công cụ sử dụng cho thực nghiệm 43

4.2 Xây dựng tập dữ liệu ảnh 44

4.3 Quy trình phương pháp thực nghiệm 44

4.4 Đánh giá kết quả thực nghiệm 45

4.5 Kết luận và hướng phát triển 55

Tổng kết chương 56

TÀI LIỆU THAM KHẢO 57

Trang 5

DANH MỤC ĐỒ THỊ

Biểu đồ 4-1: Kết quả thực nghiệm trên tập Caltech4(1000 visual words) 47

Biểu đồ 4-5: Biểu đồ so sánh các phép đo 55

Trang 6

DANH MỤC BẢNG BIỂU

Table 2-1: Bảng dữ liệu về thuốc 21

Table 2-2: Bảng kết quả phân nhóm 24

Table 4-1: Cấu hình phần cứng 43

Table 4-2: Công cụ phần mềm sử dụng 43

Table 4-3: Kết quả thực nghiệm trên tập Caltech4 (1000 visual words) 47

Table 4-4: Kết quả thực nghiệm trên tập Caltech4 (5000 visual words) 48

Table 4-5: Kết quả thực nghiệm trên tập Caltech101(1000 visual words) 49

Table 4-6: Kết quả thực nghiệm trên tập Caltech101(5000 visual words) 50

Table 4-7: Bảng so sánh kết quả trên tập ảnh Caltech4 51

Table 4-8: Bảng so sánh kết quả trên tập ảnh Caltech4 51

Table 4-9: Bảng so sánh các phép đo 54

Trang 7

DANH MỤC HÌNH ẢNH

Hình 1-1: Tìm kiếm ảnh theo văn bản 4

Hình 1-2: Tìm kiếm ảnh theo nội dung 5

Hình 1-3: Đặc trưng màu sắc 6

Hình 1-4: Đặc trưng kết cấu 7

Hình 1-5: Đặc trưng hình dạng 7

Hình 1-6: Đặc trưng Sift 8

Hình 1-7: Google Image Swirl 9

Hình 1-8: Tiltomo 10

Hình 1-9: Byo Image Search 11

Hình 1-10: Tìm kiếm ảnh theo mẫu (example-based image search) 11

Hình 2-1: Biểu đồ mô phỏng việc tính toán các DoG ảnh từ các ảnh kề mờ 15

Hình 2-2: Mỗi điểm ảnh được so sánh với 26 láng giềng của nó 16

Hình 2-3: Quá trình lựa chọn các điểm hấp dẫn a Ảnh gốc, b Các điểm hấp dẫn được phát hiện, c Ảnh sau khi loại bỏ các điểm hấp dẫn có độ tương 17

Hình 2-4: Biểu diễn các vector đặc trưng 18

Hình 2-5: Lần lặp 0 21

Hình 2-8: Minh họa mô hình bag of words 25

Hình 3-1: Trình bày mô hình đồ họa của LDA Những cái hộp là tấm biển hiển thị việc sao chép Bên ngoài biển hiển thị các ảnh, trong khi biển hiện thị việc chọn lựa sự lặp đi lặp lại của các chủ đề và các visual word trong cùng 1 ảnh 31

Trang 8

Hình 4-1: Minh họa tìm kiếm ảnh trên tập Caltech4 (Airplane) 52

Hình 4-2: Minh họa tìm kiếm ảnh trên tập Caltech4 (Faces) 53

Hình 4-3: Minh họa tìm kiếm ảnh trên tập Caltech4 (Motorbike) 53

Hình 4-4: Minh họa tìm kiếm ảnh trên tập Caltech4 (Car_brad) 54

Trang 9

BẢNG TỪ VIẾT TẮT

3 CBIR Content Based Images Retrieval

4 CIE Commission Internationale de l’Eclairage

5 CTM Correlated Topic Models

6 DoG difference –of-Gaussian

9 HSV Hue - Saturation - Value

10 IR Information Retrieval

12 LDA latent Dirichlet Allocation

13 LSI Latent semantic indexing

14 MAP Mean Average Precision

15 PLSI Probabilistic latent semantic indexing

16 QBIC Query Based Image Content

18 SIFT Scale Invariant Feature Transform

Trang 10

TÓM TẮT

Ngày nay với sự phát triển mạnh mẽ của công nghệ ảnh số làm lượng ảnh lưu trữ trên web tăng lên một cách nhanh chóng Việc này gây ra nhiều khó khăn trong việc tìm kiếm một bức ảnh giống với ảnh truy vấn

Mặc dù các công cụ tìm kiếm ảnh theo văn bản đi kèm ảnh ra đời cho phép người dùng tìm kiếm ảnh với thời gian đáp ứng khá nhanh, tuy nhiên, các công cụ này vẫn còn hạn chế trong việc giải quyết nhập nhằng giữa nội dung câu truy vấn và nội dung hiển thị của ảnh trả về Sự ra đời của các công cụ tìm kiếm ảnh theo nội dung ảnh đã giải quyết được những nhập nhằng trên

Mục tiêu của luận văn là nghiên cứu và sử dụng các đặc trưng cục bộ bất biến

để biểu diễn nội dung của một ảnh Thêm vào đó, luận văn còn áp dụng mô hình phân phối chủ đề ẩn mà cụ thể là phân phối Dirichlet tiềm ẩn để biểu diễn ảnh ở mức độ cấp cao hơn, làm giảm chiều vector đặc trưng, tuy nhiên vẫn giữ được những chi tiết hữu ích cho việc so sánh và tìm kiếm

Thực nghiệm ban đầu cho thấy từ một ảnh đầu vào hệ thống trả về 10 ảnh giống với ảnh truy vấn nhất, với độ chính xác trên 80% và đây là một kết quả khả quan

Trang 11

ABSTRACT

Today, with the strong development of digital technology for storage of images on the web increases rapidly This creates difficulties in finding a picture which similar to the query image

Although the search engines as a picture accompanying text introduction allows users to search for images with the response time is quite fast, however, these tools are limited in dealing with ambiguity between the content query and display content of the image returns The advent of search engines as a picture content has resolved these ambiguities

The goal of the thesis is to study and use invariant local features to represent the content of an image In addition, the thesis also applies distribution model hidden topics that specific is latent Dirichlet distribution for representing the image

at a higher level, reduce the dimension of feature vector, but still keep the cost information useful for comparison and search

Initial experiments showed that the input image from a system returned 10 images most similar to the query image, with an accuracy of 80% and this is a positive result

Trang 12

MỞ ĐẦU

1 Lý do chọn đề tài

Cùng với sự bùng nổ thông tin trên web và sự phát triển của công nghệ kỹ thuật số, lượng ảnh lưu trữ trên Web cũng tăng một cách nhanh chóng Vì vậy, việc xây dựng các hệ thống tìm kiếm và xếp hạng ảnh là rất cần thiết và thực tế đã có nhiều công cụ tìm kiếm ảnh thương mại xuất hiện Các công cụ tìm kiếm ảnh thường dựa vào hai đặc trưng chính là văn bản đi kèm ảnh hoặc nội dung ảnh Hiện tại đã có một số công cụ tìm kiếm ảnh theo văn bản đi kèm ra đời như Google Image Search, Yahoo!, MSN, và một số công cụ tìm kiếm ảnh dựa vào nội dung ảnh như Google Image Swirl, Bing, Tiltomo, Tineye,

Tuy nhiên, việc tìm kiếm chỉ dựa vào văn bản đi kèm còn có nhiều nhập nhằng giữa nội dung hiển thị ảnh và nội dung văn bản đi kèm ảnh trong quá tình tìm kiếm

Ví dụ, với truy vấn “Apple”, máy tìm kiếm khó phân biệt được người dùng muốn tìm hình ảnh quả táo hay logo của hãng Apple Do đó đòi hỏi phải có một công cụ tìm kiếm ảnh theo nội dung giúp hạn chế được những nhập nhằng trên Tìm kiếm ảnh theo nội dung là quá trình tìm kiếm tự động các ảnh có liên quan với ảnh truy vấn dựa trên nội dung ảnh Nội dung ảnh thường được biểu diễn bởi các đặc trưng như: màu sắc, cấu trúc, bố trí không gian, đặc trưng cục bộ bất biến…

2 Mục đích của đề tài:

Luận văn “Tìm kiếm ảnh theo nội dung dựa trên phân phối Dirichlet tiềm ẩn (content based image retrieval using latent Dirichlet allocation)” nhằm khảo sát, phân tích phương pháp trích chọn đặc trưng cục bộ bất biến trên ảnh, sử dụng mô hình LDA (Latent Dirichlet allocation) làm giảm chiều dữ liệu ảnh, thử nghiệm và đánh giá độ chính xác của hệ thống tìm kiếm ảnh theo nội dung với ảnh mẫu cho trước

3 Đối tượng và phạm vi nghiên cứu

Luận văn tập trung nghiên cứu các vấn đề sau:

 Phương pháp rút trích nội dung ảnh bằng phương pháp lựa chon đặc trưng cục bộ bất biến SIFT

 Phương pháp gom cụm K-means để phân nhóm các vector thành các visual words

 Mô hình bag of words (BOW)

Trang 13

 Các phép đo sự tương đồng giữa hai ảnh, các phương pháp đánh giá độ chính xác của hệ thống

Ngoài phần MỞ ĐẦU này, luận văn bao gồm các chương sau:

 Chương 1 Tìm kiếm ảnh theo nội dung ảnh

 Chương 2 Phương pháp lựa chon đặc trưng cục bộ bất biến SIFT

 Chương 3 Mô hình LDA (Latent Dirichlet Allocation)

 Chương 4 Thực nghiệm và đánh giá

 Cuối cùng là phần KẾT LUẬN

4 Ý nghĩa khoa học và thực tiễn của đề tài nghiên cứu

Tìm kiếm ảnh dựa trên nội dung (CBIR – content-based image retrieval) là một nhu cầu thực tế trong việc lưu trữ và truy tìm ảnh đối với các thư viện ảnh số và các cơ sở dữ liệu đa phương tiện (multimedia) khác Về cơ bản, CBIR là quá trình

tự động tìm kiếm các ảnh liên quan với ảnh truy vấn dựa trên nội dung ảnh Nội dung ảnh thường được biểu diễn bằng các đặc trưng ảnh mức thấp (low-level) như các đặc điểm về màu, texture, shape, và bố trí không gian (như điểm, edge,…) Tuy nhiên, thực hiện công việc này không dễ vì có những sự thay đổi về màu sắc, ánh sáng, góc chụp ảnh, vật thể bị che khuất, dữ liệu lớn, ảnh hưởng của phông nền lên vật thể…

Gần đây, việc sử dụng các đặc trưng cục bộ SIFT (scale-invariant feature transform) để biểu diễn nội dung ảnh, mang lại nhiều thành tựu đáng kể trong phân tích ảnh Để sử dụng đặc trưng cục bộ SIFT, trước hết, người ta tìm các điểm đặc biệt (interest points) trên ảnh Các điểm này thường là các điểm nằm trong các vùng

có kết cấu (texture) đặc biệt Sau đó với từng điểm đặc biệt, ta sẽ mô tả bằng một vector đặc trưng được trích lọc từ vùng xung quanh của điểm đặc biệt này Mỗi vector đặc trưng là một vector 128 chiều Trung bình một ảnh sẽ có khoảng 1000 vector đặc trưng Để so sánh sự tương tự của 2 ảnh, ta đếm số cặp vector đặc trưng “khớp” với nhau giữa hai ảnh Phương pháp này cho kết quả rất tốt trong trường hợp ảnh bị thay đổi về độ sáng, màu sắc, góc chụp và ngay cả trường hợp vật thể quan tâm bị che khuất một phần

Trang 14

khoảng 1000 truy vấn (mỗi ảnh có khoảng 1000 vector đặc trưng)

Để biểu diễn ảnh ngắn gọn nhằm giải quyết vấn đề không gian lưu trữ và tốc

độ truy vấn, luận văn sẽ áp dụng phương pháp gom cụm K-means để gán các vector

đặc trưng vào các nhóm tương ứng Mỗi nhóm được gọi là một visual word Như

vậy một ảnh sẽ được biểu diễn bằng một vector duy nhất

Như vậy thay vì biểu diển ảnh bằng một tập các vector đặc trưng SIFT (khoảng

1000 vector) thì ta có thể biểu diễn ảnh bằng một vector duy nhất Cách biểu diễn này

tương tự như cách biểu diễn văn bản bằng mô hình “túi từ” (bag of words) trong phân

tích dữ liệu văn bản bằng cách phân đoạn Và tập ảnh sẽ được biểu diễn bằng một

bảng tần số (contingency table) với các hàng tương ứng với ảnh và các cột tương ứng với các visual words, với phần tử [i,j] là số visual word i có trong ảnh j Với phương

pháp này một ảnh tương tự như một văn bản, vì vậy ta có thể áp dụng những mô hình

Trang 15

CHƯƠNG 1: TÌM KIẾM ẢNH THEO NỘI DUNG

đi kèm ảnh, hệ thống gửi trả các ảnh tương ứng với truy vấn của người dùng

Mỗi ảnh trên web thường có các văn bản đi kèm như là tên ảnh (title), các thẻ (tags), bình luận (comment),…để mô tả các thông tin về ảnh, đây là các siêu dữ liệu (metadata) về ảnh Các dữ liệu này thường do người dùng tạo ảnh gắn cho mỗi ảnh,

vì vậy chúng đều mang một ý nghĩa nhất định Độ quan trọng của các loại siêu dữ liệu khác nhau cũng khác nhau

Trang 16

nhau Vì vậy, các công cụ tìm kiếm ảnh theo văn bản đi kèm thường tập trung khai thác nội dung của các văn bản này để tìm kiếm và xếp hạng ảnh Phương pháp này cho kết quả khả quan cũng như đáp ứng nhanh nhu cầu của người sử dụng Tuy nhiên, với các câu truy vấn mang ý nghĩa nhập nhằng có thể các kết quả trả về sẽ không đúng với yêu cầu đặt ra Ví dụ khi truy vấn là “d-80”, một loại máy ảnh phổ biến của Nikon, thì các hệ thống trả về kết quả khá tốt Ngược lại, với truy vấn

“apple’ (Hình 1-1), nếu người dùng muốn tìm quả táo thì kết quả trả về đầu tiên

không thỏa mãn (logo của hãng Apple)

 Mặt khác, các album cá nhân thường không có các thẻ, văn bản đi kèm ảnh hoặc văn bản đi kèm thường có định dạng nhất định (SDC13614) Cùng với số lượng ảnh số được chụp thêm mỗi ngày, định dạng này chỉ tăng thêm con số phía sau phần chữ Vì vậy khi người dùng tra cứu ảnh theo nội dung với định dạng như trên (SDC12342), kết quả tìm kiếm sẽ có rất nhiều ảnh trả về với cùng tên văn bản nhưng nội dung ảnh có thể hoàn toàn khác nhau vì chúng thuộc những album khác nhau được tải lên web

Một hướng nghiên cứu nhằm khắc phục vấn đề trên là tìm kiếm theo nội dung dựa vào các đặc điểm nội dung trực quan của chính bức ảnh để tra cứu: màu sắc, kết cấu, hình dạng, đặc trưng cục bộ…

1.2 Khái niệm về tìm kiếm ảnh theo nội dung ảnh:

Trang 17

Tìm kiếm ảnh theo nội dung (Content Based Images Retrieval CBIR) hay truy vấn theo nội dung ảnh (Query Based Image Content QBIC) là một ứng dụng của thị giác máy tính đối với bài toán tìm kiếm ảnh “Dựa vào nội dung ảnh (Content- Based) ” nghĩa là việc tìm kiếm sẽ phân tích nội dung thực sự của các bức ảnh Nội dung ảnh ở đây được thể hiện bằng màu sắc, hình dạng, kết cấu (texture), các đặc trưng cục bộ (local features), … hay bất cứ thông tin nào có được từ chính nội dung ảnh Sau đây là một số đặc trưng của nội dung ảnh

Đặc trưng màu sắc: Màu sắc là một đặc trưng nổi bật và được sử dụng phổ

biến nhất trong tìm kiếm ảnh theo nội dung Mỗi một điểm ảnh (thông tin màu sắc) có thể được biểu diễn như một điểm trong không gian màu sắc ba chiều Các không gian màu sắc thường dùng là: RGB, Munsell, CIE, HSV Tìm kiếm ảnh theo màu sắc tiến hành tính toán biểu đồ màu cho mỗi ảnh để xác định tỉ trọng các điểm ảnh của ảnh

mà chứa các giá trị đặc biệt (màu sắc) Các nghiên cứu gần đây đang cố gắng phân vùng ảnh theo các màu sắc khác nhau và tìm mỗi quan hệ giữa các vùng này

Hình 1-3: Đặc trưng màu sắc

Đặc trưng kết cấu: Trích xuất nội dung ảnh theo kết cấu nhằm tìm ra mô

hình trực quan của ảnh và cách thức chúng được xác định trong không gian Kết cấu được biểu diễn bởi các texel mà sau đó được đặt vào một số các tập phụ thuộc vào

số kết cấu được phát hiện trong ảnh Các tập này không chỉ xác định các kết cấu mà còn chỉ rõ vị trí các kết cấu trong ảnh Việc xác định các kết cấu đặc biệt trong ảnh đạt được chủ yếu bằng cách mô hình các kết cấu như những biến thể cấp độ xám 2 chiều Ví dụ về một số loại kết cấu

Trang 18

Hình 1-4: Đặc trưng kết cấu

Đặc trưng hình dạng: Hình dạng của một ảnh hay một vùng là một đặc

trưng quan trọng trong việc xác định và phân biệt ảnh trong nhận dạng mẫu Mục tiêu chính của biểu diễn hình dạng trong nhận dạng mẫu là đo thuộc tính hình học của một đối tượng được dùng trong phân lớp, so sánh và nhận dạng đối tượng

Hình 1-5: Đặc trưng hình dạng

Đặc trưng cục bộ bất biến (SIFT): Đầu tiên ta tìm các điểm hấp dẫn

(interest point) trên ảnh Các điểm này thường là các điểm nằm trong vùng có kết cấu đặc biệt Sau đó với mỗi điểm đặc biệt này sẽ được mô tả bằng một vector đặc trưng được trích lọc từ vùng xung quanh của điểm đặc biệt này Mỗi đặc trưng là một vector 128 chiều Phương pháp này cho kết quả rất tốt trong trường hợp ảnh bị thay đổi về độ sáng, màu sắc, góc chụp và ngay cả trong trường hợp vật thể bị che khuất một phần

Trang 19

Hình 1-6: Đặc trưng Sift

Thực tế, đã có nhiều máy tìm kiếm cho phép tìm kiếm ảnh theo nội dung ảnh, tuy nhiên, các máy tìm kiếm này thường chỉ khai thác vào một phần nội dung của ảnh

1.3 Một số công cụ tìm kiếm ảnh theo nội dung:

Google Image Swirl: Là một thử nghiệm tìm kiếm hình ảnh theo nội dung

của Google, trong đó, kết quả tìm kiếm được sẽ được tổ chức lại dựa vào hiển thị trực quan và độ tương đồng ngữ nghĩa giữa các ảnh Google Image Swril phân cụm tốp đầu các kết quả trả về cho trên 200000 câu truy vấn và cho phép hiển thị hình ảnh dưới dạng các cụm và mối quan hệ giữa các ảnh

Trang 20

Hình 1-7: Google Image Swirl

Tiltomo:Là một công cụ dựa trên Flickr và duy trì chính cơ sở dữ liệu ảnh của Flickr Nó cho phép tìm kiếm ảnh dựa vào độ tương đồng về chủ đề, màu sắc hay kết cấu

Trang 21

Hình 1-8: Tiltomo

Byo Image Search: Tìm kiếm ảnh theo độ tương đồng về màu sắc với mẫu

ảnh mà người dùng tải lên từ máy tính hoặc từ một địa chỉ URL Công cụ tìm kiếm này không hỗ trợ tính năng tìm kiếm ảnh dựa vào độ tương đồng về chủ đề

Trang 22

Hình 1-9: Byo Image Search

Tìm kiếm ảnh theo mẫu (example-based image search): Tìm kiếm ảnh

theo mẫu là một dạng của tìm kiếm ảnh dựa vào nội dung Trong hệ thống đó, đầu vào là một ảnh, hệ thống tìm kiếm và trả lại cho người dùng những ảnh tương đồng với ảnh mẫu

Hình 1-10: Tìm kiếm ảnh theo mẫu (example-based image search)

Trong luận văn này, chúng tôi tập trung vào bài toán tìm kiếm ảnh giống với

Trang 23

Tổng kết chương 1

Trong chương này, chúng tôi trình bày một số vấn đề khi tìm kiếm ảnh với đặc trưng văn bản đi kèm, và một số đặc trưng nội dung của ảnh để áp dụng vào việc tìm kiếm nhằm khắc phục những vấn đề trên Giới thiệu một số công cụ tìm kiếm dựa vào nội dung ảnh, từ đó cho thấy phương pháp tìm kiếm ảnh theo nội dung đã khắc phục được một phần nhược điểm của phương pháp tìm kiếm ảnh theo văn bản

đi kèm ảnh và cho ra những kết quả khả quan

Trang 24

CHƯƠNG 2: PHƯƠNG PHÁP LỰA CHỌN ĐẶC TRƯNG CỤC BỘ

BẤT BIẾN (SIFT)

2.1 Đặt vấn đề

Trong tìm kiếm ảnh theo nội dung, việc lựa chọn các đặc trưng thích hợp với từng loại truy vấn và miền ứng dụng cùng với các độ đo tương đồng tương ứng là thành phần quan trọng và then chốt nhất [26] Việc lựa chọn các đặc trưng và độ đo thích hợp sẽ giúp tăng cả tốc độ và mức độ chính xác của các hệ thống J.V.Jawahe

và cộng sự [9] đã nêu ra các yêu cầu cơ bản đối với thành phần lựa chọn đặc trưng cho ảnh

 Thành phần lựa chọn đặc trưng phải lựa chọn được một tập các đặc trưng cung cấp đầu vào tốt nhất cho hệ thống tìm kiếm ảnh Nếu số lượng các đặc trưng quá nhiều sẽ làm “che khuất” các “tín hiệu” (giảm các “tín hiệu” đối với tỉ lệ nhiễu), mặt khác, nếu số lượng các đặc trưng quá ít sẽ khó phân biệt được ảnh trong tìm kiếm

 Nó phải giảm bớt được độ phức tạp trong lúc tính toán tổng thể bằng giảm đa chiều của bài toán phân lớp

 Khi người dùng muốn sử dụng các đặc trưng đó cho mọi truy vấn, thì việc sử dụng các đặc trưng này phải hiệu quả Vì số lượng các đặc trưng có thể là hàng ngàn, dó đó thời gian xử lý của module phải tuyến tính với số lượng đặc trưng

 Vì thời gian xử lý của thành phần lựa chọn đặc trưng tuyến tính với số lượng đặc trưng, do đó việc lựa chọn các đặc trưng cũng nên tuyến tính dựa trên phân lớp

 Thành phần lựa chọn đặc trưng có thể xử lý được với kích thước tập mẫu nhỏ

Có nhiều đặc trưng nội dung ảnh được miêu tả khái quát trong chương 1 như: đặc trưng màu sắc, đặc trưng kết cấu, đặc trưng hình dạng, … Tuy nhiên các đặc trưng này không ổn định khi có sự thay đổi về màu sắc, ánh sáng, góc chụp ảnh, ảnh hưởng của phông nền lên vật thể Trong phần tiếp theo, chúng tôi sẽ mô

tả phương pháp trích chọn đặc trưng cục bộ bất biến, một đặc trưng không thay đổi với điều kiện màu sắc, ánh sáng, …

2.2 Khái niệm đặc trưng cục bộ bất biến

Đặc trưng cục bộ bất biến SIFT (Scale – Invariant Feature Transform) của ảnh là các đặc trưng bất biến với việc thay đổi tỷ lệ ảnh, quay ảnh, điểm nhìn, nhiễu ảnh hay thay đổi cường độ chiếu sáng của ảnh Các đặc trưng này được rút

Trang 25

ảnh hay thay đổi ánh sáng của ảnh

Phương pháp trích rút các đặc trưng bất biến SIFT được tiếp cận theo phương pháp thác lọc, theo đó phương pháp được thực hiện lần lượt theo các bước sau:

Phát hiện các điểm cực trị Scale-Space (Scale-Space extrema detection):

Bước đầu tiên này tiến hành tìm kiếm các điểm hấp dẫn trên tất cả các tỉ lệ và vị trí của ảnh Nó sử dụng hàm different-of-Gaussian để xác định tất cả các điểm hấp dẫn tiềm năng mà bất biến với quy mô và hướng của ảnh

Định vị các điểm hấp dẫn (keypoint localization): Một hàm kiểm tra sẽ được

đưa ra để quyết định xem các điểm hấp dẫn tiềm năng có được lựa chọn hay không?

Xác định hướng cho các điểm hấp dẫn (Orientation assignment): Xác định

hướng cho các điểm hấp dẫn được chọn

Mô tả các điểm hấp dẫn (Keypoint descriptor): Các điểm hấp dẫn sau khi

được xác định hướng sẽ được mô tả dưới dạng các vector đặc trưng nhiều chiều

2.2.1 Phát hiện điểm cực trị Scale-space

Các điểm hấp dẫn với đặc trưng SIFT tương thích với các cực trị địa phương của bộ lọc difference-of-Gaussian (DoG) ở các tỉ lệ khác nhau Định nghĩa không

gian tỉ lệ của một hình ảnh là hàm L(x,y,k σ) được mô tả như sau:

L(x,y,σ) = G(x,y,kσ)* I(x,y) CT 2-1 Với G(x, y,kσ) : biến tỉ lệ Gaussian (variable scale Gaussian)

I (x, y) : Ảnh đầu vào

* là phép nhân chập giữa x và y

Và

2 2

2 /2σ2

e πσ

= σ) y,

Để phát hiện được các điểm hấp dẫn, ta đi tìm các cực trị của hàm DoG được định nghĩa:

y) I(x, σ)) y, G(x, kσ y, (G(x,

= σ) y,

Trang 26

G σ

= σ

2

CT 2-5

G )σ (k σ) y, G(x, ) k y,

Như vậy, bước đầu tiên của giải thuật SIFT phát hiện các điểm hấp dẫn với bộ lọc

Gaussian ở các tỉ lệ khác nhau và các ảnh DoG từ sự khác nhau của các ảnh kề mờ

Hình 2-1: Biểu đồ mô phỏng việc tính toán các DoG ảnh từ các ảnh kề mờ

Các ảnh cuộn được nhóm thành các octave (mỗi octave tương ứng với giá trị

gấp đôi của σ) Giá trị của k được chọn sao cho số lượng ảnh mờ (blured images)

cho mỗi octave là cố định Điều này đảm bảo cho số lượng các ảnh DoG cho mỗi

octave không thay đổi

Các điểm hấp dẫn được xác định là các cực đại hoặc cực tiểu của các ảnh

DoG qua các tỉ lệ Mỗi điểm ảnh trong DoG được so sánh với 8 điểm ảnh láng

giềng của nó ở cùng tỉ lệ đó và 9 láng giềng kề ở các tỉ lệ ngay trước và sau nó

Nếu điểm ảnh đó đạt giá trị cực tiểu hoặc cực đại thì sẽ được chọn làm các điểm

Trang 27

Hình 2-2: Mỗi điểm ảnh được so sánh với 26 láng giềng của nó

 Loại bỏ các điểm hấp dẫn có độ tương phản thấp

 Một số điểm hấp dẫn dọc theo các cạnh không giữ được tính ổn định khi ảnh

Trang 28

 Vùng chứa điểm hấp dẫn được xác định qua :

 Nếu > 0.5 : điểm hấp dẫn nằm ở gần điểm lấy mẫu khác

 Thực hiện tiếp tục với các điểm lấy mẫu khác

 Những điểm có thỏa mãn (<0.5) được thêm vào tập hợp mẫu tốt nhất, tiếp tục phân tích tiếp

 Dùng để loại những điểm cực trị không ổn định (độ tương phản thấp)

 Thay vào D(x) ta được:

Nếu <0.03 thì điểm lấy mẫu đó sẽ bị loại

Các điểm hấp dẫn còn lại sẽ được xác định hướng

Hình 2-3: Quá trình lựa chọn các điểm hấp dẫn a Ảnh gốc, b Các điểm hấp dẫn được

phát hiện, c Ảnh sau khi loại bỏ các điểm hấp dẫn có độ tương phản thấp, d Ảnh sau loại bỏ các điểm hấp dẫn dọc theo cạnh.

Trang 29

Gradient trong vùng láng giềng của điểm hấp dẫn Độ lớn và hướng của các điểm

hấp dẫn được xác định theo công thức:

)) y L(x, ) + y (L(x, + y)) L(x

y) + (L(x

= y)

y))) L(x

y) + (L(x )) y L(x, ) + y ((L(x,

= y)

2.2.4 Biểu diễn vector cho điểm hấp dẫn

Điểm hấp dẫn sau khi được xác định hướng sẽ được biểu diễn dưới dạng các

vector 4x4x8=128 chiều

Hình 2-4: Biểu diễn các vector đặc trưng

2.3 Độ đo tương đồng cho đặc trưng cục bộ bất biến

Một số độ đo tương đồng cho ảnh sử dụng đặc trưng SIFT như :

 Độ đo Cosin :

y x

= y) d(x,

.

CT 2-9

Trang 30

x

= y) d(x,

m m

m m m M

= m m JSD

+H H'

' H'

+ H' + H H

= ) H' (H,

1

Với H, H’ là 2 biểu đồ biểu diễn các vector đặc trưng SIFT

Như vậy thông qua giải thuật trích đặc trưng cục bộ (SIFT) một ảnh sẽ có

nhiều vector 128 chiều Điều này sẽ gây ra vấn đề lớn trong việc lưu trữ và truy vấn

ảnh, do đó ta phải tìm ra một phương pháp thực hiện gom tất cả các vector đặc

trưng của ảnh thành một vector duy nhất Có nhiều nhóm giải thuật gom cụm:

hierarchical clustering, partitioning, density-based, model-based, … trong đó giải

thuật được sử dụng nhiều : K-means, Dendrogram, SOM, EM, đã ứng dụng thành

công trong hầu hết các lĩnh vực tìm kiếm thông tin, phân tích dữ liệu, … Trong các

thuật ngữ đơn giản, phân nhóm có nghĩa là nhóm các mặt hàng tương tự với nhau

thành một nhóm Vì vậy, người ta có thể sử dụng phân nhóm để tổ chức các bộ sưu

tập lớn - bộ sưu tập thư viện hình ảnh, các kết quả tìm kiếm hình ảnh web, bộ sưu

tập ảnh lớn hoặc bất kỳ bộ sưu tập nào Phân nhóm có thể được sử dụng để hỗ trợ

duyệt web Gần đây phân nhóm đã được áp dụng để xác định loại đối tượng Chúng

tôi muốn tạo ra các cụm hình ảnh tương tự nhau - tương tự như trong ngữ nghĩa

cũng như tương tự trong hình thức trực quan Phân nhóm là hữu ích để suy ra đặc

điểm của một bộ sưu tập, điều này được gọi là phân tích dữ liệu Trong phần tiếp

theo luận văn sẽ đề cập chi tiết về giải thuật gom cụm K-means

2.4 K-means

Trong thực tế, dữ liệu thường không có nhiều thông tin sẵn có như lớp (nhãn)

mà chúng ta cần phải xây dựng mô hình gom cụm dữ liệu Một giải thuật gom cụm

hay còn gọi là học không giám sát cần nhóm dữ liệu (không có nhãn) Có rất nhiều

định nghĩa khác nhau về kỹ thuật này, nhưng về bản chất ta có thể hiểu phân cụm là

các qui trình tìm cách nhóm các đối tượng đã cho vào các cụm (clusters), sao cho

các đối tượng trong cùng 1 cụm tương tự (similar) nhau và các đối tượng khác cụm

thì không tương tự (dissimilar) nhau Có rất nhiều giải thuật gom cụm khác nhau

như giải thuật gom cụm phân cấp (hierarchical clustering), giải thuật K-means của

Trang 31

hình khác Giải thuật gom cụm K-means cũng góp mặt vào trong nhóm 10 giải thuật quan trọng của khai mỏ dữ liệu và được ứng dụng thành công trong thực tế Giải thuật gom cụm K-means thường dựa trên khoảng cách, cách tính khoảng cách có thể dùng khoảng cách Minkowski cho dữ liệu kiểu liên tục, các phương pháp tính khoảng cách cho dữ liệu nhị phân, rời rạc

Mục đích của phân cụm là tìm ra bản chất bên trong các nhóm của dữ liệu Các thuật toán phân cụm (Clustering Algorithms) đều sinh ra các cụm (clusters) Tuy nhiên, không có tiêu chí nào là được xem là tốt nhất để đánh giá hiệu quả của phân tích phân cụm, điều này phụ thuộc vào mục đích của phân cụm như: data reduction, “natural clusters”, “useful” clusters, outlier detection Trong hình ảnh, K-means được ứng dụng để phân khúc hình ảnh, gom cụm vector đặc trưng

2.4.1 Thuật toán K-means

Cho một tập dữ liệu chưa gán nhãn, ta muốn gom cụm dữ liệu thành k nhóm với giải thuật K-means Các bước thực hiện gom nhóm của K-means có thể tóm tắt như sau:

 Chọn ngẫu nhiên K tâm (centroid) cho K cụm (cluster) Mỗi cụm được đại diện bằng các tâm của cụm

 Tính khoảng cách giữa các đối tượng (objects) đến K tâm (thường dùng khoảng cách Euclidean)

 Nhóm các đối tượng vào nhóm gần nhất

 Xác định lại tâm mới cho các nhóm

 Thực hiện lại bước 2 cho đến khi không có sự thay đổi nhóm nào của các đối tượng

2.4.2 Ví dụ minh họa thuật toán K-means:

Giả sử ta có 4 loại thuốc A,B,C,D, mỗi loại thuốc được biểu diễn bởi 2 đặc trưng X và Y như sau Mục đích của ta là nhóm các thuốc đã cho vào 2 nhóm (K=2) dựa vào các đặc trưng của chúng

Trang 32

Table 2-1: Bảng dữ liệu về thuốc

Object Feature 1 (X): weight index Feature 2 (Y): pH

B ước 1 Khởi tạo tâm (centroid) cho 2 nhóm Giả sử ta chọn A là tâm của

nhóm thứ nhất (tọa độ tâm nhóm thứ nhất c1(1,1)) và B là tâm của nhóm thứ 2 (tọa

5 61 3 1 0

0

1 1

, 1

group c

D C B A

5 4 2 1

Trang 33

Mỗi cột trong ma trận khoảng cách (D0) là một đối tượng (cột thứ nhất tương ứng với đối tượng A, cột thứ 2 tương ứng với đối tượng B,…) Hàng thứ nhất trong

ma trận khoảng cách biểu diễn khoảng cách giữa các đối tượng đến tâm của nhóm thứ nhất (c1) và hàng thứ 2 trong ma trận khoảng cách biểu diễn khoảng cách của các đối tượng đến tâm của nhóm thứ 2 (c2)

Ví dụ, khoảng cách từ loại thuốc C=(4,3) đến tâm c1(1,1) là 3.61 và đến tâm c2(2,1) là 2.83 được tính như sau:

61 3 ) 1 3 ( ) 1 4 (

0 0 0 1

Ta thấy rằng nhóm 1 sau vòng lặp thứ nhất gồm có 1 đối tượng A và nhóm 2 gồm các đối tượng còn lại B,C,D

Bước 5 Tính lại tọa độ các tâm cho các nhóm mới dựa vào tọa độ của các đối

tượng trong nhóm Nhóm 1 chỉ có 1 đối tượng A nên tâm nhóm 1 vẫn không đổi,

c1(1,1) Tâm nhóm 2 được tính như sau:

) 3

8 , 3

11 ( ) 3

4 3 1 , 3

5 4

Trang 34

Bước 6 Tính lại khoảng cách từ các đối tượng đến tâm mới

.

3

5 61 3 1 0

1

D

 

2 3

8 , 3 11

1 1

, 1

group c

1

5 4 2

1

Bước 7. Nhóm các đối tượng vào nhóm

D C B A

group

group G

2

1 1

1 0 0

0 0 1 1

1 3 , 2

1 4 ( 2

4 3 , 2

5 4 )

1 , 2

1 1 ( 2

1 1

A

Trang 35

Bước 9 Tính lại khoảng cách từ các đối tượng đến tâm mới

Y X

D C B

A

group c

1

5 4 2

1

2 )

2

1 3 , 2

1 4 (

1 )

1 , 2

1 1 (

71 0 71 0 54 3 30 4

61 4 20 3 5 0 5 0

2

1 2

Bước 10 Nhóm các đối tượng vào nhóm

D C B

A

group

group G

2

1 1

1 0

0

0 0 1

Table 2-2: Bảng kết quả phân nhóm

Object Feature 1 (X): weight

Định dạng
Số trang	70
Dung lượng	1,9 MB