Mở đầu . 1 Chương 1. Khái quát về trích chọn đặc trưng ảnh và tìm kiếm theo đặc trưng ảnh . 3 1.1. Đặt vấn đề . . 3
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Thị Hoàn
PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG ẢNH TRONG THUẬT TOÁN HỌC MÁY TÌM KIẾM ẢNH ÁP DỤNG VÀO BÀI TOÁN TÌM KIẾM SẢN PHẨM
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công Nghệ Thông Tin
Hà Nội – 2010
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Thị Hoàn
PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG ẢNH TRONG THUẬT TOÁN HỌC MÁY TÌM KIẾM ẢNH ÁP DỤNG VÀO BÀI TOÁN TÌM KIẾM SẢN PHẨM
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công Nghệ Thông Tin
Cán bộ hướng dẫn: PGS.TS Hà Quang Thụy
Cán bộ đồng hướng dẫn: Ths Nguyễn Cẩm Tú
Hà Nội - 2010
Trang 3Lời cảm ơn
Trước tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo
sư Tiến sĩ Hà Quang Thụy và Thạc sĩ Nguyễn Cẩm Tú, người đã tận tình chỉ bảo và hướng dẫn tôi trong suốt quá trình thực hiện khoá luận tốt nghiệp
Tôi chân thành cảm ơn các thầy, cô đã tạo những điều kiện thuận lợi cho tôi học tập và nghiên cứu tại trường Đại học Công nghệ
Tôi cũng xin gửi lời cảm ơn tới các anh chị, các bạn và các em sinh viên trong phòng nghiên cứu SIS-KTLab đã giúp tôi rất nhiều trong việc hỗ trợ kiến thức chuyên môn để hoàn thành tốt khoá luận
Cuối cùng, tôi muốn gửi lời cảm vô hạn tới gia đình và bạn bè, những người thân yêu luôn bên cạnh và động viên tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp
Tôi xin chân thành cảm ơn !
Sinh viên Nguyễn Thị Hoàn
Trang 4Tóm tắt
Sự phát triển mạnh mẽ của công nghệ ảnh số làm lượng ảnh lưu trữ trên web tăng lên một cách nhanh chóng đòi hỏi phải có các công cụ hỗ trợ tìm kiếm ảnh hiệu quả và tiện lợi Mặc dù các công cụ tìm kiếm ảnh theo văn bản đi kèm ảnh ra đời cho phép người dùng tìm kiếm ảnh với thời gian đáp ứng khá nhanh, tuy nhiên, các công cụ này vẫn còn hạn chế trong việc giải quyết nhập nhằng giữa nội dung câu truy vấn và nội dung hiển thị của ảnh trả về Sự ra đời của các công cụ tìm kiếm ảnh theo nội dung ảnh
đã giải quyết được những nhập nhằng trên
Mục tiêu của khóa luận là nghiên cứu các phương pháp biểu diễn đặc trưng ảnh
để nâng cao chất lượng tìm kiếm ảnh Đầu tiên, khóa luận khảo sát phương pháp trích chọn đặc trưng ảnh trong tìm kiếm và xếp hạng ảnh Tiếp đó, dựa theo phương pháp lượng tử hóa tích của Hervé Jégou và cộng sự [12], khóa luận đưa ra một mô hình tìm kiếm k láng giềng gần nhất kết hợp độ đo tương đồng về khoảng cách giữa các vector đặc trưng và tiến hành thực nghiệm mô hình Thực nghiệm ban đầu cho thấy, từ một ảnh truy vấn đầu vào hệ thống trả về 10 ảnh tương đồng nhất đối với mỗi truy vấn với
độ chính xác 80.4% và đây là một kết quả khả quan
Trang 5Mục lục
Mở đầu 1
Chương 1 Khái quát về trích chọn đặc trưng ảnh và tìm kiếm theo đặc trưng ảnh 3
1.1 Đặt vấn đề 3
1.2 Đặc trưng văn bản đi kèm ảnh và tìm kiếm ảnh theo văn bản đi kèm ảnh 3
1.3 Đặc trưng nội dung ảnh và tìm kiếm theo đặc trưng nội dung 5
Tổng kết chương 1 8
Chương 2 Các phương pháp lựa chọn đặc trưng và độ đo tương đồng giữa các ảnh 10
2.1 Đặt vấn đề 10
2.2 Đặc trưng màu sắc 11
2.2.1 Đặc trưng màu sắc 11
2.2.2 Độ đo tương đồng cho màu sắc 11
2.3 Đặc trưng kết cấu 12
2.3.1 Đặc trưng kết cấu 12
2.3.2 Độ đo tương đồng cho kết cấu 12
2.4 Đặc trưng hình dạng 13
2.4.1 Đặc trưng hình dạng 13
2.4.2 Độ đo tương đồng cho hình dạng 13
2.5 Đặc trưng cục bộ bất biến 13
2.5.1 Đặc trưng cục bộ bất biến 14
2.5.2 Độ đo tương đồng cho đặc trưng cục bộ bất biến 18
2.6 Lựa chọn đặc trưng 18
Tổng kết chương 2 20
Chương 3 Một số phương pháp tìm kiếm ảnh theo nội dung 21
3.1 Phương pháp PageRank cho tìm kiếm ảnh sản phẩm 21
3.2 CueFlik: Một phương pháp xếp hạng lại ảnh dựa trên luật của người dùng 22
Trang 63.3 Phương pháp tìm kiếm ảnh dựa trên màu sắc, hình dạng, kết cấu của ảnh 24
3.3.1 Lưới 25
3.3.2 Tích hợp các đối sánh ảnh 25
3.3.3 Hình dạng: 26
3.4 Phương pháp tìm kiếm ảnh dựa vào nội dung sử dụng các phân vùng ảnh như mẫu truy vấn 26
Tổng kết chương 3 27
Chương 4 Mô hình k láng giềng gần nhất sử dụng bộ lượng tử hóa 28
4.1 Đặt vấn đề 28
4.2 Cơ sở lý thuyết 28
4.2.1 Các ký hiệu và khái niệm 28
4.2.2 Tìm kiếm sử dụng lượng tử hóa 30
4.2.3 Tìm kiếm không toàn bộ 31
4.3 Mô hình bài toán 33
4.3.1 Trích chọn đặc trưng ảnh 33
4.3.2 Tìm kiếm K láng giềng gần nhất 34
Tổng kết chương 4 35
Chương 5 Thực nghiệm và đánh giá 36
5.1 Môi trường và các công cụ sử dụng cho thực nghiệm 36
5.2 Xây dựng tập dữ liệu ảnh 37
5.3 Quy trình, phương pháp thực nghiệm 38
5.4 Kết quả thực nghiệm 38
Tổng kết chương 5 41
Kết luận 42
Tài liệu tham khảo 43
Trang 7Danh sách các bảng
Bảng 1 Cấu hình phần cứng sử dụng trong thực nghiệm 36
Bảng 2 Công cụ phần mềm sử dụng trong thực nghiệm 36
Bảng 3 Một số thư viện sử dụng trong thực nghiệm 37
Bảng 4 Kết quả độ chính xác trung bình của 10 truy vấn 40
Bảng 5 Độ chính xác mức k của một số truy vấn 40
Danh sách các hình vẽ Hình 1 Ví dụ hiển thị một ảnh 4
Hình 2 Ví dụ truy vấn của Google 5
Hình 3 Ví dụ truy vấn của Google 5
Hình 4 Ví dụ về một số lọai kết cấu 6
Hình 5 Một kết quả trả về của Google Image Swirl 7
Hình 6 Một kết quả trả về của Tiltomo 7
Hình 7 Một kết quả trả về của Byo Image Search 8
Hình 8 Biểu đồ mô phỏng việc tính toán các DoG ảnh từ các ảnh kề mờ 15
Hình 9 Mỗi điểm ảnh được so sánh với 26 láng giềng của nó 16
Hình 10 Quá trình lựa chọn các điểm hấp dẫn 17
Hình 11 Biểu diễn các vector đặc trưng 18
Hình 12 Ví dụ các ảnh sản phẩm trả về từ hệ thống của Jing 22
Hình 13 Tổng quan về mô hình của hệ thống tìm kiếm theo màu sắc, kết cấu và hình dạng 25
Hình 14 Mô hình hệ thống IVFADC 33
Hình 15 Mô hình giải quyết bài toán 34
Hình 16 10 kết quả trả về đầu tiên của hệ thống với truy vấn Apple 41
Trang 8Danh sách các từ viết tắt
1 ADC Asymmetric distance computation
2 AP Average Precision
3 BDA Biased Discriminant analysis
4 CBIR Content Based Images Retrieval
5 DoG Difference of Gaussian
6 IVFADC Inverted file asymmetric distance Computation
7 JSD Jensen-Shannon divergence
8 MAP Mean Average Precision
9 MDA Multiple Discriminant analysis
10 QBIC Query Based Image Content
11 SDC Symmetric distance computation
12 SIFT Scale Invariant feature transform
13 SMMS Symmetric maximized minimal distance in subspace
Trang 9Danh sách tham chiếu thuật ngữ Anh – Việt
1 Asymmetric distance Khoảng cách bất đối xứng
2 Biased Discriminant analysis Phân tích biệt thức không đối xứng
4 Content Based Images Retrieval Tìm kiếm ảnh theo nội dung
5 Co-occurrence matrix Ma trân đồng xuất hiện
6 Cotourlet transform Biến đổi đường viền
7 Discriminant analysis Phân tích biệt thức
8 Distribution based method Phương pháp dựa vào phân phối
9 Feature contrast Model Mô hình tương phản đặc trưng
10 Feature selection Lựa chọn đặc trưng
11 Gabor Wavelet transform Biến đổi sóng Gabor
12 Global texture descriptor Đặt tả kết cấu toàn cục
15 Inverted file asymmetric distance
computation
Tính toán khoảng cách bất đối xứng file chỉ mục ngược
16 Inverted list Danh sách chỉ mục ngược
18 Local interest Point Điểm hấp dẫn cục bộ
19 Local scale – invariant feature Đặc trưng cục bộ bất biến
20 Mean Average Precision Độ chính xác trung bình
22 Non exhausitive search Tìm kiếm không toàn bộ
23 Product quantization Lượng tử hóa tích
24 Quantization code Mã lượng tử hóa
25 Query Based Image Content Truy vấn theo nội dung ảnh
26 Similarity measurment Độ đo tương đồng
27 Symmetric distance Khoảng cách đối xứng
29 The complex directional fillter Bộ lọc định hướng phức tạp
30 The steerable pyramid Kim tự tháp có thể lái được
31 Visual hyperlinks Siêu liên kết trực quan
Trang 10Mở đầu
Cùng với sự bùng nổ thông tin trên web và sự phát triển của công nghệ kỹ thuật
số, lượng ảnh lưu trữ trên Web cũng tăng một cách nhanh chóng Vì vậy, việc xây dựng các hệ thống tìm kiếm và xếp hạng ảnh là rất cần thiết và thực tế đã có nhiều công cụ tìm kiếm ảnh thương mại xuất hiện Các công cụ tìm kiếm ảnh thường dựa vào hai đặc trưng chính là văn bản đi kèm ảnh hoặc nội dung ảnh Một số công cụ tìm kiếm ảnh theo văn bản đi kèm như Google Image Search, Yahoo!, MSN,…Một số công cụ tìm kiếm ảnh dựa vào nội dung ảnh như Google Image Swirl, Bing, Tiltomo, Tineye,…Tuy nhiên, việc tìm kiếm chỉ dựa vào văn bản đi kèm còn có nhiều nhập nhằng giữa nội dung hiển thị ảnh và nội dung văn bản đi kèm ảnh trong quá tình tìm kiếm Ví dụ, với truy vấn “Apple”, máy tìm kiếm khó phân biệt được người dùng muốn tìm hình ảnh quả táo hay logo của hãng Apple Những công cụ tìm kiếm ảnh theo nội dung của các bức ảnh ra đời tỏ ra ưu thế vì hạn chế được những nhập nhằng trên
Tìm kiếm ảnh theo nội dung đã nhận được nhiều sự quan tâm của các nhà khoa học Nhiều công trình nghiên cứu về tìm kiếm ảnh theo nội dung được đăng trên các tạp chí như International Journal of Computer Vision, IEEE conference… Nhóm nghiên cứu chúng tôi đã tiến hành một số nghiên cứu bước đầu liên quan đến xếp hạng ảnh dựa vào độ tương đồng theo nội dung ảnh trong công tác sinh viên nghiên cứu khoa học
Khóa luận “Phương pháp trích chọn đặc trưng ảnh trong học máy tìm kiếm ảnh và ứng dụng trong trong tìm kiếm sản phẩm” nhằm khảo sát, phân tích một số phương pháp trích chọn đặc trưng ảnh phổ biến và tìm kiếm ảnh theo ảnh mẫu, thử nghiệm hệ thống trong ứng dụng tìm kiếm sản phẩm
Ngoài phần MỞ ĐẦU này, khóa luận bao gồm các nội dung sau:
Chương 1 Khái quát về lựa chọn đặc trưng cho tìm kiếm ảnh Các đặc trưng về
về văn bản đi kèm ảnh và đặc trưng về nội dung ảnh
Chương 2 Các phương pháp lựa chọn đặc trưng và độ đo tương tự giữa ảnh Trình bày một số đặc trưng về nội dung ảnh và một số độ đo tương đồng tương ứng với các đặc trưng
Trang 11 Chương 3 Một số phương pháp tìm kiếm và xếp hạng ảnh dựa trên nội dung của ảnh Giới thiệu một số công trình nghiên cứu liên quan đến tìm kiếm ảnh theo nội dung ảnh
Chương 4 Mô hình tìm kiếm K láng giềng gần nhất Giới thiệu mô hình tìm kiếm K láng giềng gần nhất, phương pháp lưu trữ và đánh chỉ mục trong tìm kiếm
Chương 5 Thực nghiệm Trình bày quá trình thực nghiệm, kết quả, nhận xét, đánh giá khi áp dụng mô hình K láng giềng gần nhất với các đặc trưng trích chọn trong tìm kiếm ảnh sản phẩm
Cuối cùng là phần KẾT LUẬN Tổng kết các kết quả chính của khóa luận và
phương hướng nghiên cứu tiếp theo
Trang 12Chương 1 Khái quát về trích chọn đặc trưng ảnh và tìm kiếm
theo đặc trưng ảnh
1.1 Đặt vấn đề
Sự phát triển mạnh mẽ của công nghệ ảnh số làm lượng ảnh lưu trữ trên web tăng lên một cách nhanh chóng Mỗi ngày, có hàng triệu bức ảnh được đăng tải trên các trang ảnh trực tuyến như: Flickr1, Photobucket2, Facebook3,… Theo thống kê, có 10
tỉ ảnh trên Facebook (tính đến tháng 10/2008), 3 tỉ ảnh trên Flickr (tính đến tháng 11/2008), 6.2 tỉ ảnh trên Photobucket(tính đến tháng 10/2008) [36]
Cùng với nhu cầu tìm kiếm văn bản, nhu cầu tìm kiếm ảnh cũng nhận được nhiều quan tâm của người sử dụng Tuy nhiên, với một số lượng ảnh quá lớn trên Internet công việc tìm kiếm trở nên vô cùng khó khăn Để giải quyết vấn đề này, các hệ thống tìm kiếm ảnh đã ra đời như: Yahoo, MSN, Google Image Search, Bing,… Các hệ thống này cho phép người sử dụng nhập truy vấn về các ảnh cần quan tâm Thông qua việc phân tích các văn bản đi kèm ảnh, hệ thống gửi trả các ảnh tương ứng với truy vấn của người dùng Một số công cụ tìm kiếm ảnh thương mại khác như Tiltomo, ByoImageSearch,… cho phép người dùng nhập câu hỏi dưới dạng ảnh Đây là một hướng nghiên cứu mới nhận được nhiều sự quan tâm của nhiều công trình khoa học trên thế giới Một số sản phẩm thử nghiệm của các công ty lớn về tìm kiếm ảnh như: Google Image Swirl, Like, Tineye, Tiltomo….đã ra đời
Chương 1 trình bày về các đặc trưng của ảnh gồm đặc trưng văn bản đi kèm ảnh
và đặc trưng về nội dung ảnh( màu sắc, kết cấu, hình dạng, đặc trưng cục bộ) và một
Trang 13(metadata) về ảnh Các dữ liệu này thường do người dùng tạo ảnh gắn cho mỗi ảnh, vì vậy chúng đều mang một ý nghĩa nhất định Độ quan trọng của các loại siêu dữ liệu khác nhau cũng khác nhau Ví dụ, các thẻ thường quan trọng hơn tên ảnh, tên ảnh quan trọng hơn bình luận Dưới đây là một ví dụ về văn bản đi kèm một ảnh:
Title: “Red_Rose Flower”
Tags: “redRoseflower, hongkongflowershow, 2009, bokeh, causewaybay, hongkong, jonnoj, jonbinalay, nikond80, interestingness50”
Description: “HEAVEN SCENT" FOR THE LOVE OF THE RED RED ROSE
ý nghĩa nhập nhằng có thể các kết quả trả về sẽ không đúng với yêu cầu đặt ra Ví dụ khi truy vấn là “d-80”, một máy ảnh phổ biến của Nikon, thì các hệ thống trả về kết quả khá tốt (hình 2) Tuy nhiên, với truy vấn “apple’, nếu người dùng muốn tìm quả táo thì kết quả trả về đầu tiên không thỏa mãn (logo của hãng Apple) (hình 3):
Trang 14Hình 2 Ví dụ truy vấn của Google
Kết quả với truy vấn “d-80”
Hình 3 Ví dụ truy vấn của Google
Kết quả với truy vấn “Apple”
Mặt khác, các albumn cá nhân thường không có các thẻ hoặc văn bản đi kèm ảnh Cùng với số lượng ảnh số được chụp thêm mỗi ngày, việc gán thủ công các thẻ cho ảnh rất tốn kém Một hướng nghiên cứu nhằm khắc phục vấn đề trên là tìm kiếm theo chính các đặc trưng trích xuất từ nội dung của ảnh
1.3 Đặc trưng nội dung ảnh và tìm kiếm theo đặc trưng nội dung
Tìm kiếm ảnh theo nội dung (Content Based Images Retrieval CBIR) hay truy vấn theo nội dung ảnh (Query Based Image Content QBIC) là một ứng dụng của thị giác máy tính đối với bài toán tìm kiếm ảnh [30][35] “Dựa vào nội dung ảnh (Content-Based) ” nghĩa là việc tìm kiếm sẽ phân tích nội dung thực sự của các bức ảnh Nội dung ảnh ở đây được thể hiện bằng màu sắc, hình dạng, kết cấu (texture), các đặc trưng cục bộ (local features), … hay bất cứ thông tin nào có từ chính nội dung ảnh Cụm từ CBIR được T.Kato đưa ra vào năm 1992 trong quá trình thu thập ảnh một cách
tự động từ cơ sở dữ liệu dựa trên biểu diễn màu sắc và hình dạng của ảnh Tee Cheng Siew đã giới thiệu một số đặc trưng nội dung ảnh[23]:
Đặc trưng màu sắc: Màu sắc là một đặc trưng nổi bật và được sử dụng phổ biến nhất trong tìm kiếm ảnh theo nội dung Mỗi một điểm ảnh (thông tin màu sắc)
có thể được biểu diễn như một điểm trong không gian màu sắc ba chiều Các không gian màu sắc thường dùng là: RGB, Munsell, CIE, HSV Tìm kiếm ảnh theo màu sắc tiến hành tính toán biểu đồ màu cho mỗi ảnh để xác định tỉ trọng các điểm ảnh của ảnh mà chứa các giá trị đặc biệt (màu sắc) Các nghiên cứu gần đây đang cố gắng phân vùng ảnh theo các màu sắc khác nhau và tìm mỗi quan hệ giữa các vùng này
Trang 15 Đặc trưng kết cấu: Trích xuất nội dung ảnh theo kết cấu nhằm tìm ra mô hình trực quan của ảnh và cách thức chúng được xác định trong không gian Kết cấu được biểu diễn bởi các texel mà sau đó được đặt vào một số các tập phụ thuộc vào số kết cấu được phát hiện trong ảnh Các tập này không chỉ xác định các kết cấu mà còn chỉ rõ vị trí các kết cấu trong ảnh Việc xác định các kết cấu đặc biệt trong ảnh đạt được chủ yếu bằng cách mô hình các kết cấu như những biến thể cấp độ xám 2 chiều Ví dụ về một số loại kết cấu[41]
Hình 4 Ví dụ về một số lọai kết cấu
Đặc trưng hình dạng: Hình dạng của một ảnh hay một vùng là một đặc trưng quan trong trong việc xác định và phân biệt ảnh trong nhận dạng mẫu Mục tiêu chính của biểu diễn hình dạng trong nhận dạng mẫu là đo thuộc tính hình học của một đối tượng được dùng trong phân lớp, so sánh và nhận dạng đối tượng Thực tế, đã có nhiều máy tìm kiếm cho phép tìm kiếm ảnh theo nội dung ảnh, tuy nhiên, các máy tìm kiếm này thường chỉ khai thác vào một phần nội dung của ảnh
Google Image Swirl: Là một thử nghiệm tìm kiếm hình ảnh theo nội dung của Google, trong đó, kết quả tìm kiếm được sẽ được tổ chức lại dựa vào hiển thị trực quan và độ tương đồng ngữ nghĩa giữa các ảnh Google Image Swril phân cụm tốp đầu các kết quả trả về cho trên 200.000 câu truy vấn và cho phép hiển thị hình ảnh dưới dạng các cụm và mối quan hệ giữa các ảnh
Trang 16Hình 5 Một kết quả trả về của Google Image Swirl
Tiltomo: Là một công cụ dựa trên Flickr và duy trì chính cơ sở dữ liệu ảnh của Flickr Nó cho phép tìm kiếm ảnh dựa vào độ tương đồng về chủ đề, màu sắc hay kết cấu
Hình 6 Một kết quả trả về của Tiltomo
Trang 17 Byo Image Search: Tìm kiếm ảnh theo độ tương đồng về màu sắc với mẫu ảnh
mà người dùng tải lên từ máy tính hoặc từ một địa chỉ URL Công cụ tìm kiếm này không hỗ trợ tính năng tìm kiếm ảnh dựa vào độ tương đồng về chủ đề
Hình 7 Một kết quả trả về của Byo Image Search
Tìm kiếm ảnh theo mẫu (example-based image search): Tìm kiếm ảnh theo
mẫu là một dạng của tìm kiếm ảnh dựa vào nội dung Trong hệ thống đó, đầu vào là một ảnh, hệ thống tìm kiếm và trả lại cho người dùng những ảnh tương đồng với ảnh mẫu
Trong nội khóa luận này, chúng tôi tập trung vào bài toán tìm kiếm ảnh dựa theo mẫu, tìm hiểu các phương pháp trích chọn đặc trưng nội dung cũng như các độ đo tương đồng để tìm kiếm tập ảnh sản phẩm gần với ảnh mẫu nhất trong tập cơ sở dữ liệu các ảnh sản phẩm
Tổng kết chương 1
Trong chương này, chúng tôi trình bày khái quát đặc trưng văn bản đi kèm ảnh
và đặc trưng nội dung của ảnh, và giới thiệu một số công cụ tìm kiếm dựa vào nội dung ảnh Phương pháp tìm kiếm ảnh theo nội dung đã khắc phục được một phần
Trang 18nhược điểm của phương pháp tìm kiếm ảnh theo văn bản đi kèm ảnh và cho ra những kết quả khả quan Chương 2, khóa luận sẽ trình bày một số công trình nghiên cứu khoa học liên quan đến bài toán tìm kiếm ảnh theo nội dung
Trang 19Chương 2 Các phương pháp trích chọn đặc trưng và độ đo tương
đồng giữa các ảnh
2.1 Đặt vấn đề
Trong tìm kiếm ảnh theo nội dung, việc lựa chọn các đặc trưng thích hợp với từng loại truy vấn và miền ứng dụng cùng với các độ đo tương đồng tưong ứng là thành phần quan trọng và then chốt nhất[31] Việc lựa chọn các đặc trưng và độ đo thích hợp sẽ giúp tăng cả tốc độ và mức độ chính xác của các hệ thống J.V.Jawahe và cộng sự [32] đã nêu ra các yêu cầu cơ bản đối với thành phần lựa chọn đặc trưng cho ảnh:
Thành phần lựa chọn đặc trưng phải lựa chọn được một tập các đặc trưng cung cấp đầu vào tốt nhất cho hệ thống tìm kiếm ảnh Nếu số lượng các đặc trưng quá nhiều sẽ làm “che khuất” các “tín hiệu” (giảm các “tín hiệu” đối với tỉ lệ nhiễu), mặt khác, nếu số lượng các đặc trưng quá ít sẽ khó phân biệt được ảnh trong tìm kiếm
Nó phải giảm bớt được độ phức tạp trong lúc tính toán tổng thể bằng giảm đa chiều của bài toán phân lớp
Khi người dùng muốn sử dụng các đặc trưng đó cho mọi truy vấn, thì việc sử dụng các đặc trưng này phải hiệu quả Vì số lượng các đặc trưng có thể là hàng ngàn, dó đó thời gian xử lý của module phải tuyến tính với số lượng đặc trưng
Vì thời gian xử lý của thành phần lựa chọn đặc trưng tuyến tính với số lượng đặc trưng, do đó việc lựa chọn các đặc trưng cũng nên tuyến tính dựa trên phân lớp
Thành phần lựa chọn đặc trưng có thể xử lý được với kích thước tập mẫu nhỏ (khoảng 5 mẫu)
Trong chương này, chúng tôi sẽ trình bày sơ bộ về các vấn đề về đặc trưng của ảnh(màu sắc, kết cấu, hình dạng, đặc trưng cục bộ SIFT), một số độ đo tương đồng tương ứng với các đặc trưng và phương pháp lựa chọn đặc trưng ảnh để tăng chất lượng tập đặc trưng
Trang 20 Lược đồ màu RGB:
Đối với ảnh 256 màu, lược đồ màu của ảnh tương đương với lược đồ màu của ảnh xám Đối với ảnh 24 bit màu, lược đồ miêu tả khả năng kết nối về cường độ của ba kênh màu R, G, B Luợc đồ màu này được định nghĩa như sau:
, , , , Pr , ,
R G B
h r g b N ob Rr Gg Bb (1)
Trong đó N là số lượng điểm có trong ảnh
Lược đồ màu này được tính bằng cách rời rạc hóa từng màu trong ảnh, sau đó đếm số điểm ảnh của mỗi màu Khi mà số lượng màu là có hạng, để thuận tiện hơn, người ta thường chuyển đổi ba kênh màu thành một biến giá trị duy nhất Một cách khác để tính lược đồ màu của ảnh RGB là ta phân ra làm 3 lượt đồ riêng biệt h R[],
[]
G
h , h B[] Khi đó, mỗi lược đồ được tính bằng cách đếm kênh màu tương ứng trong mỗi điểm ảnh
2.2.2 Độ đo tương đồng về màu sắc
Một số độ đo tương đồng được sử dụng như: Đ ộ đo khoảng cách Ơclit, độ đo Jensen-Shannon divergence (JSD)
Gọi h(I) và h(M) tương ứng là 2 lượt đồ màu của hai ảnh I và ảnh M Khi đó các loại độ đo màu được định nghĩa là một số nguyên (hoặc số thực) theo các loại độ
đo tương ứng như sau:
Trang 21 Độ đo Jensen-Shannon divergence (JSD) :
Độ đo Jensen-Shannon divergence sử dụng lược độ màu RGB để tính toán độ tương đồng về màu sắc giữa 2 ảnh :
Kết cấu cung cấp thông tin về sự sắp xếp về mặt không gian của màu sắc và cường
độ một ảnh Kết cấu được đặc trưng bởi sự phân bổ không gian của những mức cường
độ trong một khu vực láng giềng với nhau Kết cấu gồm các kết cấu gốc hay nhiều kết cấu gộp lại đôi khi gọi là texel
Một số phương pháp dùng để trích xuất các đặc trưng kết cấu như[18]:
Kim tự tháp "có thể lái được" (the steerable pyramid)
Biến đổi đường viền (the cotourlet transform)
Biến đổi sóng Gabor (The Gabor Wavelet transform)
Biểu diễn ma trận đồng hiện (co-occurrence matrix)
Hệ thống bộ lọc định hướng phức tạp (The complex directional fillter bank)
2.3.2 Độ đo tương đồng cho kết cấu ảnh
Để đo độ tương đồng theo kết cấu giữa các ảnh, người ta thường sử dụng độ đo Ơclit Kết cấu được trích xuất từ các bức ảnh sẽ được biểu diễn thành các vector nhiều chiều và khoảng cách Ơclit được dùng để đo độ tương đồng giữa các đặc trưng của ảnh truy vấn với đặc trưng của ảnh trong cơ sở dữ liệu
Trang 222.4 Đặc trưng hình dạng
2.4.1 Đặc trưng hình dạng
Màu sắc và kết cấu là những thuộc tính có khái niệm toàn cục trong một ảnh Trong khi đó, hình dạng không phải là một thuộc tính của ảnh Nói tới hình dạng không phải là nhắc đến hình dạng của một ảnh Thay vì vậy, hình dạng có khuynh hướng chỉ đến một khu vực đặc biệt trong ảnh, hay hình dạng chỉ là biên của một đối tượng nào đó trong ảnh
Trong tìm kiếm ảnh theo nội dung, hình dạng là một cấp cao hơn so với màu sắc và kết cấu Nó đòi hỏi sự phân biệt giữa các vùng để tiến hành xử lý về độ đo của hình dạng Các hệ thống tìm kiếm ảnh theo nội dung thường khai thác hai nhóm biểu diễn hình dạng sau :
Biểu diễn hình dạng theo đường biên (cotour-based descriptor) : Biểu diễn các đường biên bao bên ngoài
Biểu diễn theo vùng (region-based descriptor): Biểu diễn một vùng toàn vẹn
2.4.2 Độ đo tương đồng cho hình dạng
Độ đo về hình dạng rất nhiều trong phạm vi lý thuyết của bộ môn xử lý ảnh Chúng trải rộng từ những độ đo toàn cục dạng thô với sự trợ giúp của việc nhận dạng đối tượng, cho tới những độ đo chi tiết tự động tìm kiếm những hình dạng đặc biệt Lược đồ hình dạng là một ví dụ của độ đo đơn giản Kỹ thuật dùng đường biên hiệu quả hơn phương pháp trước, chúng tìm kiếm những hình dạng đối tượng gần giống với đường biên nhất Phương pháp vẽ phác họa là phương pháp có nhiều đặc trưng rõ ràng hơn, không chỉ tìm kiếm những đường biên đối tượng đơn, mà còn đối với tập những đối tượng đã được phân đoạn trong một ảnh mà người dùng
vẽ hay cung cấp
2.5 Đặc trưng cục bộ bất biến
Người ta thường chia đặc trưng cụ bộ thành 2 loại là những điểm trích xuất được
từ điểm "nhô ra" (salient points) của ảnh và đặc trưng SIFT được trích chọn từ các điểm hấp dẫn Haris (interest points) Trong phần này, chúng tôi sẽ trình bày chi tiết về việc trích chọn các đặc trưng cục bộ bất biến (Scale Invariant Feature Transform SIFT) của ảnh
Trang 232.5.1 Đặc trưng cục bộ bất biến
Phần này trình bày phương pháp trích rút các đặc trưng cục bộ bất biến SIFT của ảnh Các đặc trưng này bất biến với việc thay đổi tỉ lệ ảnh, quay ảnh, đôi khi là thay đổi điểm nhìn và thêm nhiễu ảnh hay thay đổi cường độ chiếu sáng của ảnh Phương pháp được lựa chọn có tên là Scale-Invariant Feature Transform (SIFT) và đặc trưng trích rút đựợc gọi là đặc trưng SIFT (SIFT Feature) Các đặc trưng SIFT này được trích rút ra từ các điểm hấp dẫn cục bộ (Local Interest Point) [17][30][16]
Điểm hấp dẫn (Interest Point (Keypoint)): Là vị trí (điểm ảnh) "hấp dẫn" trên
ảnh "Hấp dẫn" ở đây có nghĩa là điểm đó có thể có các đặc trưng bất biến với việc quay ảnh, co giãn ảnh hay thay đổi cường độ chiếu sáng của ảnh
Phương pháp trích rút các đặc trưng bất biến SIFT được tiếp cận theo phương pháp thác lọc, theo đó phương pháp được thực hiện lần lượt theo các bước sau:
Phát hiện các điểm cực trị Scale-Space (Scale-Space extrema detection):
Bước đầu tiên này tiến hành tìm kiếm các điểm hấp dẫn trên tất cả các tỉ lệ và vị trí của ảnh Nó sử dụng hàm different-of-Gaussian để xác định tất cả các điểm hấp dẫn tiềm năng mà bất biến với quy mô và hướng của ảnh
Định vị các điểm hấp dẫn (keypoint localization): Một hàm kiểm tra sẽ được
đưa ra để quyết định xem các điểm hấp dẫn tiềm năng có được lựa chọn hay không?
Xác định hướng cho các điểm hấp dẫn (Orientation assignment): Xác định
hướng cho các điểm hấp dẫn được chọn
Mô tả các điểm hấp dẫn (Keypoint descriptor): Các điểm hấp dẫn sau khi
được xác định hướng sẽ được mô tả dưới dạng các vector đặc trưng nhiều chiều
2.5.1.1 Phát hiện điểm cực trị Scale-space
Các điểm hấp dẫn với đặc trưng SIFT tương thích với các cực trị địa phương của bộ lọc difference –of-Gaussian (DoG) ở các tỉ lệ khác nhau Định nghĩa không gian tỉ lệ của một hình ảnh là hàm L(x,y,k ) được mô tả như sau:
(x,y, ) G(x,y,k )* I(x,y)
Với G x y k( , , ): biến tỉ lệ Gaussian (variable scale Gaussian)
I x y( , ) : Ảnh đầu vào
* là phép nhân chập giữa x và y
Trang 24Và ( 2 2)/ 2 2
2
1 ( , , )
Hình 8 Biểu đồ mô phỏng việc tính toán các DoG ảnh từ các ảnh kề mờ
Các ảnh cuộn được nhóm thành các octave (mỗi octave tương ứng với giá trị gấp đôi của ) Giá trị của k được chọn sao cho số lượng ảnh mờ (blured images) cho
Trang 25mỗi octave là cố định Điều này đảm bảo cho số lượng các ảnh DoG cho mỗi octave không thay đổi
Các điểm hấp dẫn được xác định là các cực đại hoặc cực tiểu của các ảnh DoG qua các tỉ lệ Mỗi điểm ảnh trong DoG được so sánh với 8 điểm ảnh láng giềng của nó
ở cùng tỉ lệ đó và 9 láng giềng kề ở các tỉ lệ ngay trước và sau nó Nếu điểm ảnh đó đạt giá trị cực tiểu hoặc cực đại thì sẽ được chọn làm các điểm hấp dẫn ứng viên
Hình 9 Mỗi điểm ảnh được so sánh với 26 láng giềng của nó
2.5.1.2 Định vị điểm hấp dẫn:
Mỗi điểm hấp dẫn ứng viên sau khi được chọn sẽ được đánh giá xem có được giữ lại hay không:
Loại bỏ các điểm hấp dẫn có độ tương phản thấp
Một số điểm hấp dẫn dọc theo các cạnh không giữ được tính ổn định khi ảnh bị nhiễu cũng bị loại bỏ
Các điểm hấp dẫn còn lại sẽ được xác định hướng
Trang 26Hình 10 Quá trình lựa chọn các điểm hấp dẫn
a Ảnh gốc, b Các điểm hấp dẫn được phát hiện, c Ảnh sau khi loại bỏ các điểm hấp dẫn có độ tương
phản thấp, d Ảnh sau loại bỏ các điểm hấp dẫn dọc theo cạnh
2.5.1.3 Xác định hướng cho điểm hấp dẫn:
Để xác định hướng cho các điểm hấp dẫn, người ta tính toán biểu đồ hướng Gradient trong vùng láng giềng của điểm hấp dẫn Độ lớn và hướng của các điểm hấp dẫn được xác định theo công thức:
(11) (12)
2.5.1.4 Biểu diễn vector cho điểm hấp dẫn
Điểm hấp dẫn sau khi được xác định hướng sẽ được biểu diễn dưới dạng các vector 4x4x8=128 chiều
Trang 27Hình 11 Biểu diễn các vector đặc trưng 2.5.2 Độ đo tương đồng cho đặc trưng cục bộ bất biến
Một số độ đo tương đồng cho ảnh sử dụng đặc trưng SIFT như[33] :
Độ đo Cosin :
( , )
( , )
n
i i i
Một cách tổng quát, lựa chọn đặc trưng là phương pháp giảm thiểu các đặc trưng nhằm chọn ra một tập con các đặc trưng phù hợp trong học máy để xây dựng mô hình