Một chiến lược phổ biến tìm kiếm các ảnh trong một cơ sở dữ liệu được gọi là truy vấn theo ví dụ Query by Example - QBE, trong đó truy vấn được biểu diễn như một mẫu ảnh hoặc một phác th
Trang 1ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN
THÔNG
LÊ THỊ HÀ
NGHIÊN CỨU PHƯƠNG PHÁP TRA CỨU ẢNH
SỬ DỤNG CÁC CÂY DẤU HIỆU
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
LÊ THỊ HÀ
NGHIÊN CỨU PHƯƠNG PHÁP TRA CỨU ẢNH
SỬ DỤNG CÁC CÂY DẤU HIỆU
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Thái Nguyên năm 2015
Trang 2ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
LÊ THỊ HÀ
NGHIÊN CỨU PHƯƠNG PHÁP TRA CỨU ẢNH
SỬ DỤNG CÁC CÂY DẤU HIỆU
Chuyên ngành: Khoa học máy tính
Mã số: 60 48 01 01
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
NGƯỜI HƯỚNG DẪN KHOA HỌC
TS NGUYỄN HỮU QUỲNH
Thái Nguyên năm 2015
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan luận văn này do tôi thực thiện, có sự hướng dẫn tận tình và chu đáo của người hướng dẫn là TS Nguyễn Hữu Quỳnh Những số liệu trong các bảng biểu, hình ảnh phục vụ cho việc phân tích, nhận xét, đánh giá được thu thập từ các nguồn khác nhau có ghi trong phần tài liệu tham khảo, trong phạm vi hiểu biết của tôi
Nếu phát hiện có bất kỳ sự gian lận nào tôi xin hoàn toàn chịu trách nhiệm trước Hội đồng, cũng như kết quả luận văn của mình
Thái nguyên, ngày tháng năm 2015
Học viên
Lê Thị Hà
Trang 4LỜI CẢM ƠN
Trong quá trình thực hiện luận văn này, em luôn nhận được sự hướng dẫn, chỉ bảo tận tình của TS Nguyễn Hữu Quỳnh, Khoa Công nghệ Thông tin thuộc trường Đại học Điện lực là cán bộ trực tiếp hướng dẫn khoa học cho
em Thầy đã dành nhiều thời gian trong việc hướng dẫn cách nghiên cứu, đọc tài liệu, cài đặt các thuật toán và giúp đỡ về xây dựng hệ thống thực nghiệm
Em xin chân thành cảm ơn các Thầy, Cô giáo trong trường Đại học Công nghệ Thông tin và Truyền Thông, Đại học Thái Nguyên đã luôn nhiệt tình giúp đỡ và tạo điều kiện tốt nhất cho em trong suốt quá trình học tập tại trường
Xin chân thành cảm ơn các anh, các chị và các bạn học viên lớp Cao học
- Trường Đại học Công nghệ Thông tin và Truyền Thông thuộc Đại học Thái Nguyên đã luôn động viên, giúp đỡ và nhiệt tình chia sẻ với tôi những kinh nghiệm học tập, công tác trong suốt khoá học
Tôi cũng xin chân thành cảm ơn các vị lãnh đạo và các bạn đồng nghiệp tại Trường Dự bị Đại học Dân tộc Sầm Sơn đã luôn tạo mọi điều kiện tốt nhất
để tôi có thể hoàn thành tốt đẹp khoá học Cao học này
Thái nguyên, ngày tháng năm 2015
Lê Thị Hà
Trang 5
DANH MỤC CÁC CHỮ VIẾT TẮT
Ký hiệu Diễn giải
QBE Query by Example (Truy vấn bởi ảnh mẫu)
RGB Red Green Blue (Đỏ, Xanh lục, Xanh lơ)
HSV Hue, Saturation, Value (Màu, sắc nét, cường độ)
CCV Color Coherence Vectors (Véc tơ gắn kết màu)
CBIR Content Based Image Retrieval (Tra cứu ảnh dựa vào nội dung) QBIC Query By Image Content ( virus cổ điển trong tra cứu ảnh) GCH Global Color Histogram ( lược đồ màu toàn cục)
S-tree signature tree ( Cây dấu hiệu)
JPEG Joint Photographic Experts Group (ảnh nén)
MPEG Moving Picture Experts Group ( các tiêu chuẩn cho việc truyền tải âm thanh và video
Trang 6DANH MỤC CÁC BẢNG
Bảng 2 1: Tín hiệu chi tiết của hình ảnh trong Hình 2.2 22
Bảng 2 2: Các dấu hiệu minh họa sai số của độ đo tương tự 26
Bảng 3.1 : Bảng Images 45
Bảng 3.2 : Bảng FeatureColor 45
Bảng 3.3 : Chủ đề ảnh trong tập ảnh CSDL 48
Bảng 3.4 : Bảng đánh giá độ chính xác của hệ thống 49
Trang 7DANH MỤC CÁC HÌNH
Hình 1.1 Không gian màu RGB và HSV 6
Hình 1.2 Hình dạng và độ đo được sử dụng để tính đặc trưng 12
Hình 2.1 Lấy truy vấn qua một ảnh mẫu [27] 19
Hình 2.2 Tập ảnh mẫu 21
Hình 2.3 Minh họa một S-tree và tách nút 28
Hình 2.4 Các tệp dấu hiệu và một cây nhị phân 29
Hình 2.5 Vết sinh cây dấu hiệu 32
Hình 2.6.Chèn một nút v vào cây T 33
Hình 2.7.Tìm kiếm cây dấu hiệu 33
Hình 2.8 Một cây dấu hiệu bị lệch 34
Hình 2.9 Một cây dấu hiệu cân bằng 35
Hình 2.10 Sinh các cây dấu hiệu cân bằng 37
Hình 2.11 Minh họa tìm kiếm cây dấu hiệu 38
Hình 3.1 Kiến trúc chung của hệ thống tra cứu ảnh dựa vào nội dung 41
Hình 3.2 Biểu đồ Use Case hệ thống 42
Hình 3.3 Biểu đồ trình tự thêm 1 ảnh vào CSDL 44
Hình 3.4 Biểu đồ trình tự thêm 1 tập ảnh vào CSDL 44
Hình 3.6 Giao diện tra cứu ảnh 46
Hình 3.7 Giao diện kết quả sau khi tra cứu ảnh 47
Hình 3.8 Giao diện quản lý cơ sở dữ liệu 47
Trang 8Mở đầu 2
CHƯƠNG 1 :TỔNG QUAN VỀ TRA CỨU ẢNH DỰA VÀO NỘI DUNG 4 1.1 Đặc trưng 4
1.2 Trích rút và biểu diễn đặc trưng 5
1.2.1.Trích rút và biểu diễn đặc trưng màu 6
1.2.2 Trích rút và biểu diễn đặc trưng kết cấu 9
1.2.3 Trích rút và biểu diễn đặc trưng hình dạng 11
1.3 Yêu cầu đối với các hệ thống tra cứu ảnh dựa vào nội dung 13
1.4 Một số nghiên cứu liên quan 14
1.5 Kết luận chương 1 17
CHƯƠNG 2 : SỬ DỤNG CÂY DẤU HIỆU TRONG TRA CỨU ẢNH DỰA VÀO MÀU 18
2.1 Các thành phần của mô hình tra cứu 18
2.2.Lược đồ cho các dấu hiệu ảnh 20
2.3 Các cây dấu hiệu S-tree 27
2.3.1 Định nghĩa về các cây dấu hiệu 27
2.3.2 Xây dựng các cây dấu hiệu 30
2.3.3 Tìm kiếm trên các cây dấu hiệu 32
2.3.4 Các cây dấu hiệu cân bằng 35
2.3.5 Số trung bình các nút được kiểm tra 38
2.4 Kết luận chương 2 39
Trang 9CHƯƠNG 3 :ỨNG DỤNG 40
3.1 Bài toán tra cứu ảnh 40
3.2 Thiết kế hệ thống 40
3.2.1 Biểu đồ Use Case của hệ thống 42
3.2.2 Biểu đồ trình tự 43
3.2.3 Thiết kế CSDL 45
3.3 Mô tả chương trình 46
3.4 Đánh giá 47
3.5 Kết luận chương 3 49
Trang 10Mở đầu
Sự phát triển nhanh chóng các hồ sơ ảnh đã làm tăng đáng kể nhu cầu cho các cố gắng nhằm mục tiêu tìm các ảnh tương tự hiệu quả trong cơ sở dữ liệu ảnh lớn Một chiến lược phổ biến tìm kiếm các ảnh trong một cơ sở dữ liệu được gọi là truy vấn theo ví dụ (Query by Example - QBE), trong đó truy vấn được biểu diễn như một mẫu ảnh hoặc một phác thảo của nó và thường được sử dụng để đưa ra các truy vấn trong hầu hết các hệ thống tra cứu ảnh dựa vào nội dung (CBIR) như QBIC của IBM, VIR của Virage, và hệ thống tra cứu ảnh vệ tinh của IBM/NASA
Một hệ thống CBIR trích rút các đặc trưng trực quan từ một ảnh truy vấn được cho, sau đó các đặc trưng được sử dụng để so sánh với các đặc trưng của các ảnh khác được lưu trữ trong cơ sở dữ liệu Vì thế, hàm tương tự dựa vào tóm tắt nội dung ảnh hơn là bản thân ảnh Một điều cần lưu ý rằng một lượng
dữ liệu ảnh tăng nhanh theo thời gian là sẵn có, cách tiếp cận dựa vào chú thích được hỗ trợ bởi con người như một phương tiện tóm tắt ảnh là không khả thi Phân bố màu toàn cục của một ảnh là một đặc trưng được ứng dụng
để tính toán tóm tắt nội dung ảnh Các đặc trưng mong muốn như độ phức tạp trích rút thấp, bất biến với quay và dịch chuyển Thực tế, lược đồ màu toàn cục (GCH) thường được sử dụng để biểu diễn phân bố màu trong một ảnh Khi sử dụng cách tiếp cận GCH, lưu trữ các véc tơ n chiều của một lược
đồ màu cho mỗi ảnh trong cơ sở dữ liệu có thể chiếm không gian lưu trữ đáng
kể Để cực tiểu các yêu cầu không gian, luận văn sử dụng biểu diễn nén của các véc tơ này (các dấu hiệu nhị phân)
Song hành với việc sử dụng dấu hiệu nhị phân ở trên, vấn đề hiệu quả (tìm kiếm các ảnh tương tự nhanh trong cơ sở dữ liệu lớn) là điểm nhấn của luận văn Ánh xạ các lược đồ màu lên các điểm trong không gian n chiều là
Trang 11một cách để giải quyết vấn đề, nhưng có một hạn chế nghiêm trọng đó là làm cho vấn đề tìm kiếm các ảnh tương tự sử dụng cấu trúc truy cập dựa vào đĩa khó hơn nhiều khi giá trị của n lớn lên Thực tế, không thông thường để sử dụng các giá trị của n vượt quá 64 Điều này làm cho việc sử dụng các cấu trúc truy cập không gian truyền thống như R-tree ít được sử dụng Để giải quyết vấn đề này, luận văn sử dụng cây dấu hiệu (S-tree) và thuật toán truy vấn lân cận gần nhất nhanh trên cây S-tree
Nội dung luận văn gồm 3 chương:
Chương 1: Giới thiệu tổng quan về tra cứu ảnh dựa vào nội dung
Chương 2: Sử dụng cây dấu hiệu trong tra cứu ảnh dựa vào màu
Chương 3: Ứng dụng
Trang 12
CHƯƠNG 1 TỔNG QUAN VỀ TRA CỨU ẢNH DỰA VÀO NỘI DUNG
1.1 Đặc trưng
Đặc trưng được xác định như một hàm của một hoặc nhiều phép đo, mỗi phép đo chỉ rõ một số thuộc tính của một đối tượng và được tính toán sao cho
nó định lượng một số đặc trưng tính chính của đối tượng Các đặc trưng được
sử dụng hiện nay được phân lớp như sau:
- Các đặc trưng chung: Các đặc trưng độc lập ứng dụng như màu, kết
cấu và hình dạng Theo mức trừu tượng, chúng có thể được chia tiếp thành: + Các đặc trưng mức pixel: các đặc trưng được tính tại mỗi pixel (màu,
vị trí)
+ Các đặc trưng cục bộ: các đặc trưng được tính trên các kết quả của chia nhỏ ảnh dựa vào phát hiện biên hoặc phân đoạn ảnh
+ Các đặc trưng toàn cục: các đặc trưng được tính trên toàn bộ ảnh
- Các đặc trưng lĩnh vực cụ thể: Các đặc trưng phụ thuộc ứng dụng
như mặt người, vân tay và các đặc trưng nhận thức Các đặc trưng này thường được tổng hợp hoặc suy diễn từ các đặc trưng mức thấp cho một lĩnh vực cụ thể
Mặt khác, tất cả các đặc trưng có thể được phân lớp thô thành các đặc trưng mức thấp và các đặc trưng mức cao Các đặc trưng mức thấp có thể được trích rút trực tiếp từ các ảnh gốc, trong khi trích rút các đặc trưng mức cao phải dựa trên các đặc trưng mức thấp [1,2, 4]
- Đặc trưng màu: Màu có vai trò quan trọng trong tra cứu ảnh dựa vào
đặc trưng thị giác Các màu có thể được biểu diễn trong các không gian màu khác nhau như RGB, HSV,
Màu là một trong những đặc trưng quan trọng nhất được con người sử dụng để nhận dạng và phân biệt các đối tượng trực quan Tuy nhiên, con
Trang 13người chỉ ra khả năng tự nhiên của việc sử dụng các mức đặc tả màu khác nhau trong các ngữ cảnh khác nhau Chẳng hạn, con người mô tả một quả táo màu đỏ, có thể ngụ ý một số loại màu đỏ Nhưng trong ngữ cảnh mô tả màu của một chiếc ô tô, một người có thể chọn cụ thể hơn thay vì sử dụng các thuật ngữ “đỏ, đen” hoặc nâu sẫm Trích rút màu bằng máy tính được thực hiện không theo ngữ cảnh Thiếu tri thức cũng tạo ra sự khó khăn để lựa chọn thông tin màu từ sự sai lệch màu Nhìn chung, hình thức màu của các đối tượng thế giới thực bị biến đổi bởi kết cấu bề mặt, ánh sáng, hiệu ứng bóng và các điều kiện quan sát Các hệ thống cơ sở dữ liệu ảnh sử dụng tra cứu theo màu phải dựa vào các vẫn đề phân tích ảnh màu tự động
- Đặc trưng kết cấu: Kết cấu là tập các điểm trong một vùng thỏa mãn ràng buộc hay qui luật nào đó Đặc trưng này rất quan trọng cho tra
cứu ảnh
Về cơ bản, các phương pháp biểu diễn kết cấu có thể được chia thành hai
loại: Các phương pháp cấu trúc và các phương pháp thống kê Các toán tử được dùng phát hiện cấu trúc bao gồm các toán tử hình thái và đồ thị liền kề
xác định các kết cấu cơ sở và luật phân bố của chúng Các phương pháp thống
kê bao gồm: Phương pháp phổ năng lượng Fourier, ma trận đồng hiện, Tamura, Phân tích Wold, trường ngẫu nhiên Markov, mô hình fractal, các bộ lọc đa phân giải như biến đổi Gabor và biến đổi dạng sóng thể hiện kết cấu bằng sự phân bố thống kê của độ sáng của các điểm ảnh
- Đặc trưng hình dạng: Các đặc trưng hình dạng có quan hệ chặt chẽ
với mô tả vùng hoặc các đối tượng được phân đoạn Đặc trưng hình dạng được trích rút từ các đường bao đối tượng hoặc vùng chứa đối tượng
1.2 Trích rút và biểu diễn đặc trưng
Dữ liệu ảnh thô không được sử dụng trực tiếp trong hầu hết các hệ thống thị giác máy vì hai lý do: Thứ nhất, tốn nhiều không gian để lưu trữ ảnh và độ phức tạp tính toán lớn Thứ hai, nhiều thông tin của ảnh là dư thừa và không
Trang 14hữu ích Thay vì sử dụng toàn bộ ảnh, chúng ta chỉ cần sử dụng một biểu diễn
quan trọng nhất Bước tìm biểu diễn được gọi là trích rút đặc trưng và kết quả
của biểu diễn là véc tơ đặc trưng Trích rút đặc trưng có thể xem như việc ánh
xạ ảnh từ không gian ảnh sang không gian đặc trưng
1.2.1.Trích rút và biểu diễn đặc trưng màu
Màu của một ảnh được biểu diễn thông qua một số mô hình màu Các
mô hình màu đã có dùng để mô tả thông tin màu Một mô hình màu được đặc
tả dưới dạng hệ thống tọa độ ba chiều và và mỗi màu được biểu diễn bằng một điểm (một khối con trong hệ thống đó)
Các mô hình màu được sử dụng phổ biến là RGB (Red, Green, Blue), HSV (Hue, Saturation, Value) và Y, Cb, Cr Vì thế nội dung màu được đặc tả bởi 3 kênh màu từ mô hình màu nào đó Một biểu diễn của nội dung màu của ảnh là lược đồ màu Về mặt thống kế, nó biểu thị xác suất kết hợp của các cường độ 3 kênh màu
Màu được con người cảm nhận bằng một sự kết hợp của ba kích thích màu: Red, Green, Blue nó tạo ra một không gian màu (Hình 1) Các màu RGB được gọi là các màu chính và cộng tính Bằng việc thay đổi các kết hợp của chúng, chúng ta có thể thu được các màu khác
Hình 1.1 Không gian màu RGB và HSV
Trang 15Biểu diễn của không gian HSV (Hình 1) được bắt nguồn từ khối không gian lập phương RGB với đường chéo chính của mô hình RGB, là trục thẳng đứng trong HSV Sắc màu (saturation) thay đổi từ 0.0 đến 1.0, các màu thay đổi từ không có sắc màu (xám) đến sắc màu (không có thành phần trắng) Màu (Hue) có phạm vi từ 0 đến 360 độ, bắt đầu là đỏ đến vàng, xanh lá cây, lục lam, xanh nước biển và quay lại đỏ Các không gian màu này tương ứng với mô hình RGB từ đó chúng có thể có nguồn gốc từ các biến đổi tuyến tính hoặc phi tuyến
Không gian màu YCbCr được sử dụng trong các chuẩn mã quốc tế JPEG
và MPEG Trong MPEG-7 không gian màu YCbCr được xác định bởi:
Với một ảnh ba kênh màu, sẽ có ba lược đồ màu như thế Các lược đồ được chia thành các bin trong một nỗ lực để biểu diễn thô nội dung và giảm chiều của pha đối sánh tiếp theo Sau đó một véc tơ đặc trưng được ta ra bằng việc kết nối ba kênh màu thành một véc tơ Với tra cứu ảnh, lược đồ của ảnh truy vấn được đối sánh với lược đồ của tất cả các ảnh trong cơ sở dữ liệu sử dụng độ đo nào đó
Các mô tả màu của các ảnh có thể là cục bộ hoặc toàn cục và gồm một số
mô tả lược đồ và các mô tả màu được biểu diễn bởi các mô men màu, các véc
tơ gắn kết màu và các tương quan màu [3, 5]
Lược đồ màu mô tả phân bố của các màu trong toàn bộ hoặc trong một vùng quan tâm của ảnh Lược đồ là bất biến với quay, dịch chuyển và tỉ lệ của một đối tượng nhưng lược đồ không chứa thông tin ngữ nghĩa và hai ảnh với các lược đồ màu tương tự có thể có các nội dung khác nhau
Một lược đồ màu H của một ảnh đã cho được xác định bằng véc tơ H={h[1], h[2],…h{i},…h[N]} trong đó I biểu diễn một màu trong lược đồ
Trang 16màu, h[i] là số các pixel có màu I trong ảnh đó và N là cố các bin trong lược
đồ màu (tức số các màu trong mô hình màu được dùng)
Để so sánh các ảnh có cỡ khác nhau, các lược đồ màu nên được chuẩn hóa Lược đồ màu được chuẩn hóa H’ được xác định với h’[i]=h[i]/XY, ở đây
XY là tổng số các pixel trong một ảnh (các biến còn lại được xác định như chưa chuẩn hóa)
Độ đo độ tương tự chuẩn được sử dụng cho các lược đồ màu:
- Một lược đồ H(i) được sinh ra cho mỗi ảnh h trong cơ sở dữ liệu (véc
tơ đặc trưng)
- Lược đồ được chuẩn hóa sao cho tổng của nó bằng nhau (loại đi cỡ của ảnh)
- Sau đó lược đồ được lưu trữ trong cơ sở dữ liệu
Chúng ta có 3 loại độ đo khoảng cách lược đồ cho một lược đồ H(i), i=1,2,…,N
Các mô men màu đã được sử dụng thành công trong nhiều hệ thống tra cứu Các mô men bậc nhất (trung bình), bậc hai (phương sai) và bậc ba (độ lệch) đã được chứng chứng minh là hiệu quả trong biểu diễn các phân bố màu của các ảnh
Mô men màu bậc nhất của thành phần màu thứ k (k=1,2,3) được xác định bởi:
Trong đó fk(x,y) là giá trị màu của thành phần màu thứ k của pixel ảnh (x,y) và XY là tổng số pixel trong ảnh
Mô men thứ h, h=2,3,… của thành phần màu thứ k được xác định bằng:
Trang 17Do chỉ 9 số (ba mô men cho mỗi ba thành phần màu) được sử dụng để biểu diễn nội dung màu của mỗi ảnh, các mô men màu là một biểu diễn rất nén (so với các đặc trưng màu khác)
Hàm tương tự được sử dụng cho tra cứu là tổng trọng số của các giá trị tuyệt đối hiệu giữa các mô men thích hợp
Cho H và G biểu diễn hai lược đồ màu Giao của các lược đồ được cho bởi:
Tương quan màu đặc tả các phân bố màu của các pixel và tương quan không gian của các cặp màu Cho I là một ảnh gồm các pixel f(I,j) Mỗi pixel
có màu hoặc cấp xám nào đó Cho [G] là một tập gồm G mức xám g1,
g2,….gG mà có thể xuất hiện trong ảnh Cho một pixel f, I(f) biểu thị g mức xám của nó và Ig tương ứng với một pixel f theo đó I(f)=g Lược đồ cho mức
gx được xác định bởi:
Các độ đo thống kê bậc hai là tương quan và tự tương quan Cho [D] biểu thị một tập D khoảng cách d1,d2,…dD Thì tương quan của ảnh I được xác định cho mức cặp (gx,gy) tại khoảng cách d
Cho xác suất mà bất cứ pixel f1 của mức gx, một pixel f2 tại khoảng cách
d theo hướng nào đó từ pixel f1 có mức gx
Tự tương quan thu được tương quan không gian của các mức đồng nhất
1.2.2 Trích rút và biểu diễn đặc trưng kết cấu
Trang 18Kết cấu là một thuộc tính quan trọng khác của các ảnh Kết cấu là một
mô tả vùng mạnh trợ giúp quá trình tra cứu Kết cấu, bản thân nó không có khả năng tìm các ảnh tương tự, nhưng nó có thể được sử dụng để phân lớp các ảnh kết cấu từ các ảnh không có kết cấu và sau đó được kết hợp với thuộc tính trực quan khác nhiều màu để làm cho tra cứu hiệu quả hơn
Kết cấu là một trong các đặc tả quan trọng nhất, được sử dụng để phân lớp và nhận dạng các đối tượng và được sử dụng để tìm các tương tự giữa các ảnh trong các cơ sở dữ liệu đa phương tiện
Về cơ bản, các phương pháp biểu diễn kết cấu có thể được phân lớp thành hai loại: Cấu trúc và thống kê Các phương pháp thống kế, gồm phổ năng lượng Fourier, các ma trận đồng hiện, phân tích thành phần chính bất biến trượt (SPCA), các đặc trưng Tamura, phân rã Wold, trường ngẫu nhiên Markov, mô hình fractal và các kỹ thuật lọc đa phân giải như Gabor và biến đổi wavelet, đặc tả kết cấu bởi phân bố thống kê của cường độ ảnh
Ma trận đồng hiện C(I,j) mô tả sự đồng hiện của các pixel với các giá trị mức xám I và j tại một khoảng cách d được cho Khoảng cách d được xác định trong các tọa độ cực (d, ), với độ dài và hướng rời rạc trong thực hành,
nhận các giá trị 00, 450, 900, 1350, 1800, 2250, 2700 và 3150.Ma trận đồng hiện C(I,j) có thể được xác định:
ở đây Card{.} biểu thị số các thành phần trong tập
Cho G là số các giá trị mức xám trong ảnh, thì chiều của ma trận đồng hiện C(I,j) sẽ là NN
Trang 19Vậy, độ phức tạp tính toán của ma trận đồng hiện phụ thuộc vào số các mức xám được sử dụng cho lượng hóa
Các đặc trưng có thể được trích rút từ ma trận đồng hiện để giảm chiều không gian đặc trưng và các định nghĩa hình thức của các đặc trưng từ ma trận đồng hiện được thực hiện
Trang 20Tra cứu ảnh dựa vào hình dạng là đo sự tương tự giữa các hình dạng được biểu diễn bởi các đặc trưng của chúng Hình dạng là một đặc trưng trực quan quan trọng và nó là một trong các đặc trưng chính cho mô tả nội dung ảnh Mô tả nội dung hình dạng là khó Do đó, hai bước là cần thiết trong tra cứu ảnh dựa vào hình dạng đó là: Trích rút đặc trưng và đo độ tương tự giữa các đặc trưng được trích rút Các mô tả hình có thể được chia thành hai loại chính: Các phương pháp dựa vào đường biên và dựa vào vùng Các phương pháp dựa vào vùng sử dụng toàn bộ diện tích của một đối tượng cho mô tả hình, trong khi các phương pháp dựa vào đường biên chỉ sử dụng thông tin xuất hiện trong đường biên của một đối tượng
Các mô tả hình gồm:
Các đặc trưng được tính toán từ đường biên các đối tượng: Hình tròn, tỉ lệ hình, góc gián đoạn bất thường, chiều dài bất thường, độ phức tạp, góc phải nhất, sắc nét, hướng Những điều này là các mô tả hình bất biến tỉ lệ, quay, dịch chuyển (ngoại trừ góc) Có thể tích rút các đường biên ảnh từ phát hiện biên Tự đường biên đối tượng, thông tin hình được suy ra Chúng ta trích rút
và lưu trữ một tập các đặc trưng hình từ biên ảnh và cho mỗi đường biên riêng
lẻ Các đặc trưng này (Hình 2) là:
Hình 1.2 Hình dạng và độ đo được sử dụng để tính đặc trưng
Trang 21- Hình tròn
- Tỉ lệ hình
- Góc gián đoạn bất thường
- Một độ đo được chuẩn hóa của trung bình trị tuyệt đối của hiệu giữa các góc gián đoạn của các đoạn đa giác với các đoạn liền kề
1.3 Yêu cầu đối với các hệ thống tra cứu ảnh dựa vào nội dung
Một hệ thống tra cứu ảnh dựa vào nội dung CBIR tiêu biểu không chỉ xử
lý các nguồn thông tin khác nhau ở các khuôn dạng khác nhau (ví dụ, văn bản, hình ảnh và video) mà còn giải quyết các nhu cầu của người sử dụng Về
cơ bản, hệ thống phân tích cả các nội dung của nguồn thông tin cũng như các truy vấn sử dụng, sau đó so sánh các nội dung này để tra cứu các mục tin liên quan Các chức năng chính của một hệ thống tra cứu ảnh dựa vào nội dung thường bao gồm:
- Phân tích các nội dung của nguồn thông tin và biểu diễn các nội dung của các nguồn được phân tích theo cách thích hợp cho so sánh các truy vấn sử dụng (không gian của nguồn thông tin được biến đổi thành không gian đặc trưng cho mục tiêu so sánh nhanh trong bước tiếp theo) Bước này thông thường cần rất nhiều thời gian do nó phải xử lý lần lượt tất cả thông tin nguồn (các ảnh) trong CSDL Tuy nhiên, bước này được thực hiện chỉ một lần và có thể được thực hiện ngoại tuyến
- Phân tích các truy vấn người sử dụng và biểu diễn chúng ở dạng thích hợp cho so sánh với CSDL nguồn Bước này là tương tự với bước trước, nhưng chỉ được áp dụng với ảnh truy vấn, do đó nó sẽ được thực hiện trực tuyến
- Định nghĩa một chiến lược để so sánh các truy vấn tìm kiếm với thông tin trong CSDL được lưu trữ Tra cứu thông tin liên quan một cách hiệu quả
Trang 22Bước này được thực hiện trực tuyến và được yêu cầu rất nhanh Các kỹ thuật đánh chỉ số hiện đại có thể được sử dụng để tổ chức lại không gian đặc trưng
để tăng tốc quá trình đối sánh và tra cứu
- Thực hiện các điều chỉnh cần thiết trong hệ thống (thường bằng điều chỉnh các tham số trong máy đối sánh) dựa trên phản hồi từ người sử dụng và các ảnh được tra cứu
1.4 Một số nghiên cứu liên quan
QBIC [11,14] là một ví dụ cổ điển về một hệ thống tra cứu ảnh dựa vào nội dung (CBIR), sử dụng một số đặc trưng nhận thức như màu và các quan
hệ không gian Hệ thống sử dụng cách tiếp cận dựa vào phân hoạch để biểu diễn màu Tra cứu sử dụng màu dựa vào màu trung bình Munsell và 5 màu trội nhất cho mỗi phân hoạch, tức là cả các lược đồ màu toàn cục và cục bộ được phân tích cho tra cứu ảnh [17] Do độ đo toàn phương của các khoảng cách màu đòi hỏi nhiều tính toán, màu trung bình Munsell được sử dụng để tiền lọc các ảnh ứng cử viên Hệ thống cũng xác định một độ đo tương tự màu dựa vào các bin trong lược đồ màu
Một độ đo tương tự dựa vào các mô men màu được đề xuất trong [22] Các tác giả đề xuất một biểu diễn màu được đặc tả bởi ba mô men màu bậc nhất là trung bình màu, phương sai và độ lệch, do đó sinh ra chi phí không gian thấp Hàm tương tự được sử dụng cho tra cứu dựa vào tổng trọng số của trị tuyệt đối của hiệu giữa các mô men tương ứng của ảnh truy vấn và các ảnh trong tập ảnh Một cách tiếp cận tương tự cũng được đề xuất bởi Appas và cộng sự [6], khác biệt chính là ảnh được phân đoạn thành 5 khối (cell) gối lên nhau Sử dụng một lưới 44 không gối lên nhau được đề xuất trong [17] Một kỹ thuật khác tích hợp thông tin màu với tri thức không gian để thu dấu hiệu ảnh được bàn luận trong [13] Kỹ thuật dựa trên các bước sau: Bằng việc sử dụng một lưới các khối tương tự, các tác giả đề xuất một số kinh
Trang 23nghiệm để thu các màu liên quan và phân biệt giữa các màu nền và không nền (đối tượng)
Một hệ thống đánh chỉ số màu dựa trên trích rút tự động các vùng cục bộ được trình bày trong [20] Đầu tiên hệ thống xác định một lựa chọn định lượng các màu được đánh chỉ số Tiếp theo, một tập màu nhị phân cho một vùng được xây dựng dựa vào việc màu có xuất hiện hay là không Để được lấy vào đánh chỉ số bởi tập màu, một vùng phải đáp ứng hai yêu cầu sau: Phải
có tối thiểu N các pixel tối thiểu trong một vùng (N là một tham số được xác định bởi người dùng) và mỗi màu trong vùng phải đóng góp tối thiểu một phần trăm nào đó vào tổng diện tích của vùng (xác định bởi người dùng) Mỗi vùng trong ảnh được biểu diễn sử dụng một hộp bao Thông tin được lưu trữ cho mỗi vùng gồm tập màu, định danh ảnh, vị trí vùng và cỡ Do đó, anh truy vấn không chỉ dựa vào màu mà còn dựa vào quan hệ không gian và cấu tạo của vùng màu
Trong [21] các tác giả cố gắng thu sự sắp xếp không gian của các màu khác nhau trong ảnh, dựa vào việc sử dụng các khối trên ảnh và một số các lược đồ, phụ thuộc vào số các màu khác nhau có mặt Bài báo chỉ rõ rằng với màu trung bình, một ảnh có thể được biểu diễn bởi một số ít các màu và do đó không gian có thể tiết kiệm khi lưu trữ các lược đồ màu Hàm tương tự được
sử dụng cho tra cứu dựa vào tổng trọng số của khoảng cách giữa các lược đồ thu được Các kết quả thực nghiệm đã chỉ ra rằng kỹ thuật tiết kiệm 55% chi phí không gian so với các cách tiếp cận dựa vào phân hoạch, trong khi vẫn tăng độ hiệu quả 38% về mặt tra cứu ảnh
Pass và cộng sự [18] mô tả một kỹ thuật dựa vào liên kết thông tin không gian với lược đồ màu sử dụng các véc tơ gắn kết màu (CCVs) Kỹ thuật phân lớp mỗi pixel trong một thùng màu hoặc là gắn kết hoặc là không, phụ thuộc vào pixel có lập thành một vùng màu tương tự lớn hay không So sánh các véc
tơ đặc trưng gắn kết và không gắn kết giữa hai ảnh cho phép một phân biệt
Trang 24tương tự mịn hơn nhiều khi sử dụng các lược đồ màu Lưu ý rằng sử dụng CCVs sẽ có hai lược đồ cho mỗi ảnh (một cho các màu gắn kết và một cho các màu không gắn kết); mỗi lược đồ lớn như lược đồ màu toàn cục (GCH) Các tác giả so sánh các kết quả thực nghiệm của họ với các kỹ thuật khác nhau chỉ ra kỹ thuật của họ sinh ra một cải tiến đáng kể trong hiệu năng tra cứu
Các đề xuất gần đây gồm [16] và [24] Lin đề xuất một phương pháp dựa vào sự tương tự đa chính xác Ý tưởng là phân hoạch đệ qui ảnh thành một số khối không gối lên nhau, với mỗi khối véc tơ trung bình được mã hóa Điều này đưa vào bản miêu tả ảnh phân bố không gian của các màu cũng như cho phép truy vấn các ảnh con Tuy nhiên, không có bằng chứng phương pháp có cải tiến độ chính xác tra cứu hay không Cuối cùng, SIMPLIcity của Wang sử dụng một cách tiếp cận dựa vào wavelet để trích rút các đặc trưng, có thể phân đoạn các ảnh theo thời gian thực Trong số nhiều đặc trưng có thể sử dụng để đo sự tương tự, hệ thống sử dụng một lược đồ đối sánh vùng toàn cục, nhằm mục tiêu tăng cường phân đoạn yếu
Các ảnh được ánh xạ vào không gian đặc trưng nhiều chiều Không gian này có thể được ánh xạ vào không gian Euclide và các cấu trúc truy cập không gian [13] có thể được sử dụng Mặc dù các cấu trúc truy cập không gian điển hình không phù hợp cho nhiều chiều (R*-trees [7] ), các đề xuất gần đây đã được thực hiện như X-tree [8], SS-tree [25] và SR-tree [15] X-tree sử dụng khái niệm về siêu nút để cực tiểu sự gối nhau giữa diện tích được phủ bởi các cây con khác nhau; nó được chỉ ra là hiệu quả hơn R-tree Không như R*-tree, nó sử dụng các hộp bao tối thiểu để biểu diễn diện tích được phủ bởi một cây con, SS-tree sử dụng các hình cầu bao tối thiểu và được chỉ ra thực hiện tốt hơn R*-tree Chúng ta không biết bất cứ nghiên cứu nào so sánh trực tiếp X-tree với SS-tree SR-tree tận dụng thực tế rằng có các hộp và hình cầu với các nút trong để giảm gối nhau giữa diện tích được phủ bởi các cây con
Trang 25Nó được báo cáo là hiệu quả hơn cả R*-tree và SS-tree và đã được quan tâm như cấu trúc truy cập tốt nhất cho dữ liệu nhiều chiều
Mặc dù đối với một số trường hợp, nó là không tầm thường để ánh xạ không gian đặc trưng vào không gian Euclide Với các tình huống đó sử dụng các không gian metric thường là một giải pháp tốt Các nghiên cứu gần đây trên các cấu trúc truy cập cho đánh chỉ số các không gian metric là M-tree [9]
và Slim-tree [23] Một chủ đề chính cho một cây độ đo hiệu quả là một độ đo khoảng cách không phức tạp về tính toán và chính xác Không may, một độ
đo chính xác thường là phức tạp về tính toán
Một nghiên cứu về hiệu quả (chi phí lưu trữ và thời gian xử lý) sử dụng R*-tree, SS-tree,SR-tree và M-tree được thực hiện trong [10] Các kết luận chính đó là: SR-tree là hiệu quả nhất trong 4 cấu trúc truy cập trong đối phó tốt hơn với sự gia tăng chiều không gian; SR-tree cũng có thể nhận ưu điểm với các nút lớn
1.5 Kết luận chương 1
Chương này đã trình bày khái quát về đặc trưng ảnh, trích rút và biểu diễn đặc trưng, các yêu cầu đối với một hệ thống tra cứu ảnh dựa vào nội dung và một số nghiên cứu liên quan chính đến đề tài này Trong chương, đã nhấn mạnh đến trích rút và biểu diễn đặc trưng gồm màu, hình dạng và kết cấu, đặc biệt nhấn mạnh vào trích rút và biểu diễn đặc trưng màu
Trang 26CHƯƠNG 2
SỬ DỤNG CÂY DẤU HIỆU TRONG TRA CỨU ẢNH DỰA VÀO MÀU 2.1 Các thành phần của mô hình tra cứu
- Tự động trích chọn siêu dữ liệu
Mỗi đặc tính nguyên thủy của ảnh có định dạng đặc trưng của nó như biểu đồ màu được sử dụng rộng rãi để biểu thị đặc điểm màu sắc hoặc đặc điểm hình dạng có thể được biểu thị bằng một tập các đoạn biên liền kề Với siêu dữ liệu thích hợp, hệ thống tra cứu ảnh dựa vào nội dung có thể tra cứu ảnh theo màu sắc, hình dạng và kết cấu
- Giao diện lấy truy vấn của người dùng
Lấy yêu cầu truy vấn của người dùng một cách chính xác và dễ dàng là vấn đề quan trọng Với hệ thống tra cứu ảnh dựa vào nội dung, quá trình tra cứu được thực hiện qua một ảnh mẫu do người dùng cung cấp như được chỉ
ra trên Hình 2.1 Mặc dù vậy, người dùng không thể luôn đưa ra một ảnh mẫu cho hệ thống tra cứu Một số hệ thống hiện nay giải quyết vấn đề này bằng cách đưa ra một giao diện để chỉ định hoặc chọn một số đặc điểm cơ bản cho việc cấp ảnh mẫu Chẳng hạn như trong hệ thống QBIC của IBM người dùng
có thể chỉ định truy vấn đặc điểm màu sắc bằng cách chọn ra số lượng thành phần Red, Blue, Green hoặc là có thể lựa chọn màu sắc ảnh mong muốn từ bảng màu, đồng thời người dùng có thể chọn kết cấu mong muốn và vẽ ra một phác họa cho truy vấn đặc điểm hình dạng
Trang 27Hình 2.1 Lấy truy vấn qua một ảnh mẫu [27]
- So sánh độ tương tự giữa các ảnh
Hệ thống CBIR yêu cầu những phương pháp dựa vào đặc trưng mức thấp
để so sánh độ tương tự giữa ảnh mẫu và tất cả các ảnh trong tập ảnh Mặc dù vậy, sự tương tự hoặc sự khác nhau giữa các ảnh không chỉ xác định theo một cách Số lượng các ảnh tương tự sẽ thay đổi khi yêu cầu truy vấn thay đổi Như vậy, rất khó để tìm ra phương pháp đo độ tương tự giữa hai ảnh một cách chính xác đối với tất cả các kiểu yêu cầu của truy vấn Hay nói cách khác, mỗi một phương pháp tra cứu sẽ có giới hạn của chính nó Vì vậy rất khó cho công nghệ tra cứu dựa trên màu sắc để tìm ra điểm khác nhau giữa một ảnh là bầu trời màu xanh với một ảnh là mặt biển xanh Vì vậy khi đánh giá một công nghệ tra cứu ảnh dựa trên nội dung cần phải biết rằng hiệu quả của công nghệ đó phụ thuộc vào kiểu yêu cầu tra cứu mà người dùng sử dụng
Trang 282.2.Lược đồ cho các dấu hiệu ảnh
Độ chính xác cuối cùng của một hệ thống tra cứu ảnh dựa vào nội dung (CBIR) phụ thuộc vào khả năng nhận diện chính xác các ảnh liên quan của
nó Các kỹ thuật dựa vào lược đồ màu toàn cục (GCH) thường cho hiệu năng nghèo nàn do chúng coi tất cả các màu ngang bằng nhau và chỉ nhận phân bố màu của chúng vào bản miêu tả
Cụ thể hơn, mật độ tương đối của một màu không được đưa vào bản miêu tả bởi các cách tiếp cận này Xét hai bức ảnh khác nhau của mộ con cá màu sắc với hai nền rất khác nhau Sự khác nhau giữa các màu mật độ thấp của con cá dường như quan trọng hơn sự khác nhau lớn trong phần nền Do
đó, các màu có mật độ thấp nên được quan tâm nhiều hơn
Để sử dụng các dấu hiệu cho tóm tắt hình ảnh, phương pháp được thiết
kế theo sơ đồ như sau:
- Mỗi ảnh trong cơ sở dữ liệu được lượng tử hóa thành một số cố định n màu
t bin nhị phân có khả năng bằng hoặc khác nhau(được gọi là cỡ bin) Nếu tất
cả các bin có cùng cỡ, chúng ta nói rằng đó là một cách sự sắp xếp theo cách tiếp cận cấp bin hằng số (Constant Bin Allocation - CBA), ngược lại theo một cách tiếp cận cấp bin thay đổi (Variable Bin Allocation - VBA)
Ví dụ, hãy xem xét một hình ảnh bao gồm của n màu sắc và t bin Dấu hiệu của hình ảnh này sau đó sẽ được biểu diễn bởi xâu bit sau đây:
S = b11 b21 ….bt1 b12 b22 ….bt2 … b1n b2n ….btn
Trang 29Trong đó:
bij : biểu diễn cho bin thứ i liên quan đến thành phần màu cj
Để đơn giản, đặt xâu con b1j b2j ….btj bằng B j (1 ≤ j ≤ n)
Khi đó, dấu hiệu của một ảnh I có thể được ký hiệu là:
SI = BI1 BI2 …BIn
Các giá trị chuẩn hóa thu được sau khi trích xuất màu tự động được sử dụng trong tập các bin tương ứng để sinh ra một sự gán các giá trị nhị phân chỉ ra sự xuất hiện hoặc vắng mặt của một màu với phạm vi mật độ cụ thể cho thấy sự hiện diện hay vắng mặt của một màu sắc với một loạt các mật độ cụ thể Sử dụng cách tiếp cận CBA, mỗi màu cj có tập t các bin của nó theo điều kiện sau đây:
Chúng ta giả định rằng các mục trong lược đồ màu toàn cục được chuẩn hóa theo tổng số các pixel trong ảnh
Hình 2.2 Tập ảnh mẫu
Trang 30Ví dụ, xét ảnh A trong Hình 2.2 có ba màu,(để đơn giản chúng ta giả sử n
hj : biểu diễn phần trăm pixel trội của màu cj
Tiếp theo, giả sử rằng phân bố màu được rời rạc hóa thành t = 10 bin có cỡ bằng nhau, đó là, mỗi bin chiếm từ 1 đến 10 của tổng số màu biểu diễn Do
đó, b1 có % màu trội tỷ lệ từ 1% đến 10%, và b2 chứa từ 11% đến 20%
Vì vậy, hình ảnh A sau đó có thể được biểu diễn bởi dấu hiệu sau đây:
Dấu hiệu nhị phân