1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu phương pháp biểu diễn và tra cứu ảnh hiệu quả ứng dụng trong tra cứu ảnh phong cảnh

73 13 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 73
Dung lượng 1,27 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Tuy nhiên, các phương pháp dựa trên văn bản mô tả ảnh dựa trên các phương pháp tra cứu thông tin văn bản truyền thống và hệ quản trị cơ sở dữ liệu cũng như sự can thiệp của con người để

Trang 1

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CNTT & TT THÁI NGUYÊN

Trang 2

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CNTT & TT THÁI NGUYÊN

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan luận văn là kết quả nghiên cứu của riêng tôi, dưới sự hướng dẫn khoa học của TS Nguyễn Hữu Quỳnh Các số liệu, kết quả nêu trong luận văn

là hoàn toàn trung thực

Thái nguyên, ngày tháng 9 năm 2011

Trang 4

Lời cảm ơn

Trong quá trình thực hiện luận văn này, em luôn nhận được sự hướng dẫn, chỉ bảo tận tình của TS Nguyễn Hữu Quỳnh, Khoa Công nghệ Thông tin thuộc trường Đại học Điện lực là cán bộ trực tiếp hướng dẫn khoa học cho em Thầy đã dành nhiều thời gian trong việc hướng dẫn cách nghiên cứu, đọc tài liệu, cài đặt các thuật toán và giúp đỡ về xây dựng hệ thống thực nghiệm

Em xin chân thành cảm ơn các Thầy, Cô giáo trong trường Đại học Công nghệ Thông tin và Truyền Thông, Đại học Thái Nguyên đã luôn nhiệt tình giúp đỡ và tạo điều kiện tốt nhất cho em trong suốt quá trình học tập tại trường

Xin chân thành cảm ơn các anh, các chị và các bạn học viên lớp Cao học - trường Đại học Công nghệ Thông tin và Truyền Thông thuộc Đại học Thái Nguyên

đã luôn động viên, giúp đỡ và nhiệt tình chia sẻ với tôi những kinh nghiệm học tập, công tác trong suốt khoá học

Tôi cũng xin chân thành cảm ơn các vị lãnh đạo và các bạn đồng nghiệp tại Trường Dự bị Đại học Dân tộc Sầm Sơn đã luôn tạo mọi điều kiện tốt nhất để tôi có thể hoàn thành tốt đẹp khoá học Cao học này

Thái nguyên, ngày tháng 9 năm 2011

Nguyễn Thị Nhung

Trang 5

MỤC LỤC

TRANG PHỤ BÌA LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC

DANH MỤC CÁC CHỮ VIẾT TẮT ix

DANH MỤC CÁC HÌNH ix

DANH MỤC CÁC BẢNG x

Lời mở đầu x

Chương 1 TỔNG QUAN VỀ TRA CỨU ẢNH DỰA VÀO NỘI DUNG 1

1.1 Giới thiệu 3

1.2 Trích rút đặc trưng 6

1.2.1 Màu 6

1.2.1.1 Lược đồ màu 7

1.2.1.2 Các màu trội 8

1.2.1.3 Các mômen màu 9

1.2.2 Kết cấu 10

1.2.3 Hình dạng 11

1.2.3.1 Các bất biến mômen 11

1.2.3.2 Các góc uốn 12

1.2.3.3 Các ký hiệu mô tả Fourier 13

1.2.3.4 Hình tròn, độ lệch tâm, và hướng trục chính 15

1.2.4 Thông tin không gian 15

1.2.5 Phân đoạn 16

1.3 Đánh chỉ số 18

Trang 6

1.4 Độ tương tự giữa các ảnh 18

1.4.1 Độ đo về màu sắc 18

1.4.2 Độ đo tương đồng cho hình dạng 19

1.4.3 Độ đo tương đồng cho kết cấu ảnh 19

1.4.4 Độ đo tương đồng cho đặc trưng phân đoạn 20

1.5 Các hệ thống CBIR 20

1.5.1 QBIC của IBM 20

1.5.2 Virage 22

1.5.3 RetrievalWare 23

1.5.4 VisualSeek và WebSeek 23

1.5.5 Photobook 24

1.5.6 Netra 24

1.6 Đánh giá hiệu năng tra cứu 24

1.7 Kết luận chương 1 26

Chương 2 KỸ THUẬT BIỂU DIỄN VÀ TRA CỨU ẢNH HIỆU QUẢ 28

2.1 Giới thiệu 28

2.2 Khái niệm về đồ thị hai phía 30

2.3 Một số kỹ thuật tra cứu dựa vào đặc trưng màu 31

2.3.1 Kỹ thuật tra cứu dựa vào lược đồ màu toàn bộ - GCH 31

2.3.2 Kỹ thuật tra cứu dựa vào lược đồ màu cục bộ - LCH 32

2.3.3 Véc tơ gắn kết màu 33

2.3.4 Tương quan màu 34

2.4 Kỹ thuật biểu diễn và tra cứu ảnh hiệu quả 34

2.4.1 Lược đồ màu dải 34

2.4.2 Phương pháp tra cứu dựa vào lược đồ màu khối 36

2.4.2.1 Giới thiệu 36

Trang 7

2.4.2.2 Phương pháp tra cứu HG 39

2.5 Kết luận chương 2 41

CHƯƠNG 3 HỆ THỐNG TRA CỨU ẢNH DỰA VÀO NỘI DUNG SỬ DỤNG BIỂU DIỄN HIỆU QUẢ 43

3.1 Giới thiệu bài toán tra cứu ảnh phong cảnh 43

3.2 Phân tích bài toán 43

3.3 Thiết kế hệ thống 44

3.4 Mô tả chương trình 45

3.4.1 Khái quát về chương trình 45

3.4.2 Các chức năng của chương trình 46

3.4.3 Biểu đồ Use Case 46

3.4.4 Biểu đồ trình tự và biểu đồ hoạt động 47

3.5 Thiết kế cơ sở dữ liệu 51

3.6 Giao diện chương trình 52

3.7 Xây dựng chương trình: 55

3.8 Đánh giá hiệu quả của các phương pháp 56

3.9 Một số kết quả 57

3.10 Kết luận chương 3 59

KẾT LUẬN 60

TÀI LIỆU THAM KHẢO 61

Trang 8

DANH MỤC CÁC CHỮ VIẾT TẮT

Ký hiệu Diễn giải

QBE Query by Example (Truy vấn bởi ảnh mẫu)

QBF Query by Feature (Truy vấn bởi đặc trưng)

RGB Red Green Blue (Đỏ, Xanh lục, Xanh lơ)

HSV Hue, Saturation, Value (Màu, sắc nét, cường độ)

CCV Color Coherence Vectors (Véc tơ gắn kết màu)

SDF Spectral Distribution Functions (Hàm phân bố phổ)

MLE Maximum Likelihood Estimation (Ước lượng khả năng nhất)

AR

MRSAR multi-resolution simultaneous auto-regressive model (Mô hình tự

hồi quy đồng thời đa phân giải) SAR Simultaneous Auto-Regressive (Tự hồi quy đồng thời)

MRF Markov random field (Trường ngẫu nhiên Markov)

LSE Least Square Error (Sai số bình phương tối thiểu)

RISAR Rotation-Invariant SAR model(Mô hình SAR bất biến quay)

PWT Pyramid-Structured Wavelet Transform (Biến đổi song cấu trúc

hình chóp) TWT Tree-Structured Wavelet Transform (Biến đổi song cấu trúc cây) SAQ Successive Approximation Quantization (lượng hoá xấp xỉ)

Trang 9

DANH MỤC CÁC HÌNH

Hình 2.1 Ba ảnh và biểu đồ màu của chúng 32

Hình 2.2 Một ảnh được phân hoạch sử dụng một lưới 3 x 3 và CCH của nó 35

Hình 2.3 Ảnh I và ảnh I’ 37

Hình 2.4 Lược đồ màu khối theo màu black và white biểu diễn ảnh I 37

Hình 2.5 Lược đồ màu khối theo màu black và white biểu diễn ảnh I’ 37

Hình 2.6 Tính khoảng cách của ảnh I và I’ theo màu black 38

Hình 2.7 Tính khoảng cách của ảnh I và I’ theo màu white 38

Hình 3.1 Mô hình hệ thống tra cứu ảnh hiệu quả 46

Hình 3.2 Sơ đồ phân cấp chức năng của chương trình……… 46

Hình 3.3 Biểu đồ Use Case 47

Hình 3.4 Biểu đồ trình tự của tác nhân tra cứu 48

Hình 3.5 Biểu đồ hoạt động của tác nhân tra cứu ảnh 49

Hình 3.6 Biểu đồ trình tự của tác nhân Quản lý cơ sở dữ liệu ảnh 50

Hình 3.7 Biểu đồ liên kết các bảng trong cơ sở dữ liệu 52

Hình 3.8 Giao diện chính của chương trình 53

Hình 3.9.Giao diện tra cứu ảnh 53

Hình 3.10.Giao diện thêm một ảnh vào cơ sở dữ liệu 54

Hình 3.11.Giao diện thêm một tập ảnh vào cơ sở dữ liệu 54

Hình 3.12.Giao diện xoá một ảnh khỏi cơ sở dữ liệu 55

Hình 3.13.Ảnh truy vấn 57

Hình 3.14 Kết quả tìm kiếm được với phương pháp GCH 57

Hình 3.15 Kết quả tìm kiếm được với phương pháp LCH 58

Hình 3.16.Kết quả tìm kiếm được với phương pháp HG 59

Trang 10

DANH MỤC CÁC BẢNG

Bảng 3.1 Bảng imgBin 51

Bảng 3.2 Bảng imgOri: 51

Bảng 3.3 Bảng imgTemp: 51

Bảng 3.4 Bảng color: 52

Trang 11

tự với một ảnh phong cảnh đã có là một việc rất khó khăn

Từ những thực tế đó đặt ra vấn đề phải có những phương pháp tổ chức cơ sở

dữ liệu ảnh và xây dựng những kỹ thuật tra cứu, so sánh, tìm kiếm ảnh số hiệu quả Việc tìm kiếm được một bức ảnh phong cảnh mong muốn trong hàng triệu bức ảnh thuộc các chủ đề khác nhau là rất khó khăn Việc biểu diễn và trích rút đặc trưng để nhận dạng được bức ảnh mong muốn ấy rất quan trọng và nhiều hướng nghiên cứu khác nhau đã được triển khai

Trước năm 1990, người ta thường sử dụng cách tiếp cận tra cứu ảnh theo văn bản (Text Based Image Retrieval), tuy nhiên cách tiếp cận này cũng khó khả thi trong các cơ sở dữ liệu ảnh lớn và kết quả còn mang tính chủ quan, cảm ngữ cảnh Một trong những phương pháp được nhiều người quan tâm nghiên cứu hiện nay là

kỹ thuật "Tra cứu ảnh dựa theo nội dung - Content Based Image Retrieval‖ Kỹ thuật này cho phép trích rút các đặc trưng của ảnh dựa vào nội dung trực quan của bản thân ảnh như màu sắc, kết cấu, hình dạng và bố cục không gian của ảnh để làm

cơ sở cho việc tra cứu, sắp xếp, tổ chức cơ sở dữ liệu ảnh Một số hệ thống tra cứu ảnh nổi tiếng như QBIC (IBM), Virage (Virage Inc.) Photobook (MIT) Visual SEEK (Columbia University) đã áp dụng kỹ thuật này

Tuy nhiên, khi cơ sở dữ liệu ảnh lớn thì việc trích rút đặc trưng sẽ cho kết quả

là một cơ sở dữ liệu đặc trưng rất lớn Điều này sẽ dẫn đến việc phải chi phí nhiều

Trang 12

không gian lưu trữ, thời gian so sánh các véc tơ đặc trưng, và do đó dẫn đến quá trình tra cứu để tìm được bức ảnh mong muốn sẽ tốn nhiều thời gian Để giảm chi phí về không gian lưu trữ, thời gian so sánh các véc tơ đặc trưng và thời gian tra cứu, cần có kỹ thuật biểu diễn, trích rút và tra cứu ảnh hiệu quả Đề tài này nghiên cứu cơ sở lý thuyết và các ứng dụng chính của kỹ thuật tra cứu ảnh theo nội dung và

kỹ thuật biểu diễn và tra cứu ảnh hiệu quả, trên cơ sở đó thử nghiệm phương pháp

cụ thể để xây dựng một phần mềm đọc vào một ảnh phong cảnh mẫu và tìm kiếm những ảnh phong cảnh tương tự với ảnh mẫu trong một tập hợp các ảnh cho trước Nội dung luận văn gồm 3 chương:

Chương 1: Giới thiệu tổng quan về tra cứu ảnh dựa vào nội dung

Chương 2: Trình bày kỹ thuật biểu diễn và tra cứu ảnh hiệu quả

Chương 3: Giới thiệu một hệ thống thực nghiệm tra cứu ảnh phong cảnh

Trang 13

Chương 1 TỔNG QUAN VỀ TRA CỨU ẢNH DỰA VÀO NỘI DUNG

1.1 Giới thiệu

Ngày nay, cùng với nhu cầu tìm kiếm văn bản, nhu cầu tìm kiếm ảnh cũng nhận được nhiều quan tâm của người sử dụng Tuy nhiên, với một số lượng ảnh quá lớn trên Internet công việc tìm kiếm trở nên vô cùng khó khăn Để giải quyết vấn đề này, các hệ thống tìm kiếm ảnh đã ra đời như: Yahoo, MSN, Google Image Search, Bing,… Các hệ thống này cho phép người sử dụng truy vấn các ảnh cần quan tâm Thông qua việc phân tích các văn bản đi kèm ảnh, hệ thống gửi trả các ảnh tương ứng với truy vấn của người dùng Tuy nhiên, các phương pháp dựa trên văn bản mô tả ảnh dựa trên các phương pháp tra cứu thông tin văn bản truyền thống và hệ quản trị cơ sở dữ liệu cũng như sự can thiệp của con người

để trích rút siêu dữ liệu về một đối tượng trực quan và kết hợp nó cùng với đối tượng trực quan như một chú thích văn bản Tuy nhiên, gán các thuộc tính văn bản một cách thủ công cần nhiều thời gian và chi phí Hơn nữa, các chú thích thủ công thường phụ thuộc rất nhiều vào nhận thức chủ quan của con người Nhận thức chủ quan và chú thích thiếu chính xác là nguyên nhân tra cứu không chính xác trong các quá trình tra cứu sau

Các vấn đề đối với việc truy cập các ảnh và video dựa vào văn bản đã thúc đẩy nhanh chóng sự quan tâm phát triển các giải pháp dựa vào nội dung Với giải pháp này, thay vì được chú thích một cách thủ công bởi các từ khoá dựa vào văn bản, các ảnh có thể được trích rút sử dụng một số đặc trưng trực quan như màu, kết cấu, hình dạng, và quan hệ không gian giữa các vùng và được đánh chỉ số dựa trên các đặc trưng trực quan này Cách tiếp cận này dựa chủ yếu vào các kết quả từ thị giác máy Tuy nhiên, không có đặc trưng riêng lẻ tốt nhất mà cho các kết quả chính xác Thông thường một sự kết hợp các đặc trưng một cách tuỳ biến là cần thiết để cung cấp các kết quả tra cứu thích hợp cho ứng dụng tra cứu ảnh dựa vào nội dung

Trang 14

Một hệ thống tra cứu ảnh dựa vào nội dung (CBIR – Content Based Image Retrieval) tiêu biểu không chỉ xử lý các nguồn thông tin khác nhau ở các khuôn dạng khác nhau (thí dụ, văn bản, hình ảnh và video) mà còn giải quyết các nhu cầu của người sử dụng Về cơ bản hệ thống phân tích cả các nội dung của nguồn thông tin cũng như các truy vấn sử dụng, và sau đó so sánh các nội dung này để tra cứu các mục tin liên quan Các chức năng chính của một hệ thống tra cứu ảnh dựa vào nội dung như sau:

1 Phân tích các nội dung của nguồn thông tin, và biểu diễn các nội dung của các nguồn được phân tích theo cách thích hợp cho so sánh các truy vấn sử dụng (không gian của nguồn thông tin được biến đổi thành không gian đặc trưng cho mục tiêu so sánh nhanh trong bước tiếp theo) Bước này thông thường cần rất nhiều thời gian do nó phải xử lý lần lượt tất cả thông tin nguồn (các ảnh) trong cơ sở dữ liệu Tuy nhiên, bước này được thực hiện chỉ một lần và có thể được thực hiện ngoại tuyến

2 Phân tích các truy vấn người sử dụng và biểu diễn chúng ở dạng thích hợp cho so sánh với cơ sở dữ liệu nguồn Bước này là tương tự với bước trước, nhưng chỉ được áp dụng với ảnh truy vấn

3 Định nghĩa một chiến lược để so sánh các truy vấn tìm kiếm với thông tin trong cơ sở dữ liệu được lưu trữ Tra cứu thông tin liên quan theo một cách hiệu quả Bước này được thực hiện trực tuyến và được yêu cầu rất nhanh Các kỹ thuật đánh chỉ số hiện đại có thể được sử dụng để tổ chức lại không gian đặc trưng để tăng tốc quá trình đối sánh

4 Thực hiện các điều chỉnh cần thiết trong hệ thống (thường bằng điều chỉnh các tham số trong máy đối sánh) dựa trên phản hồi từ người sử dụng và/hoặc các ảnh được tra cứu

Có nhiều cách gửi một truy vấn trực quan Một phương pháp truy vấn tốt là một phương pháp tự nhiên đối với người sử dụng cũng như thu được đủ thông tin từ

Trang 15

người sử dụng để trích rút các kết quả có ý nghĩa Các phương pháp truy vấn dưới đây được sử dụng phổ biến trong nghiên cứu tra cứu ảnh dựa vào nội dung:

Truy vấn bởi ảnh mẫu (QBE): Trong loại truy vấn này, người sử dụng hệ

thống chỉ rõ một ảnh truy vấn đích, dựa trên ảnh truy vấn đó hệ thống sẽ tìm kiếm trong cơ sở dữ liệu ảnh các ảnh tương tự nhất Ảnh truy vấn có thể là một ảnh thông thường, một bản quét của một ảnh có độ phân giải thấp, hoặc một phác thảo của người sử dụng sử dụng các công cụ mô tả giao diện đồ hoạ Một ưu điểm chính của loại hệ thống này đó là nó là một cách tự nhiên cho những người sử dụng chung và chuyên gia để tìm kiếm một cơ sở dữ liệu ảnh

Truy vấn bởi đặc trưng (QBF): Trong hệ thống QBF tiêu biểu, những người

sử dụng chỉ rõ các truy vấn bằng việc chỉ rõ các đặc trưng họ quan tâm cho tìm kiếm Thí dụ, một người sử dụng có thể truy vấn một cơ sở dữ liệu ảnh bằng việc đưa ra một lệnh để tra cứu tất cả các ảnh có góc phần tư trái chứa 25% pixel màu vàng Truy vấn này được chỉ rõ bằng việc sử dụng các công cụ giao diện đồ hoạ chuyên dụng Những người sử dụng hệ thống tra cứu ảnh chuyên biệt có thể thấy loại truy vấn này là bình thường, nhưng những người sử dụng chung thì không thể QBIC [5] là một ví dụ về một hệ thống tra cứu ảnh dựa vào nội dung sử dụng loại phương pháp truy vấn này

Các truy vấn dựa vào thuộc tính: Các truy vấn dựa vào thuộc tính sử dụng

các chú thích văn bản, trích rút trước bởi nỗ lực của con người, như một khoá tra cứu chính Loại biểu diễn này đòi hỏi một độ trừu tượng cao khó để thu được bằng các phương pháp tự động hoàn toàn do một ảnh chứa một số lượng lớn các thông tin

mà khó tóm tắt khi sử dụng một số ít các từ khoá Phương pháp này nhìn chung là nhanh hơn và dễ hơn để thực hiện, nhưng có một độ chủ quan và nhập nhằng cao xuất hiện như chúng ta đã đề cập

Một người sử dụng tiêu biểu chắc chắn thích truy vấn các hệ thống tra cứu ảnh dựa vào nội dung bằng việc yêu cầu các câu hỏi tự nhiên như ―Đưa cho tôi tất cả các bức ảnh về hoa hồng.‖ hoặc ―Tìm tất cả các ảnh có cầu Tràng Tiền.‖ Ánh xạ

Trang 16

truy vấn ngôn ngữ tự nhiên này đến một truy vấn trên cơ sở dữ liệu ảnh là vô cùng khó so với việc sử dụng các phương pháp chú thích Khả năng của các máy tính để thực hiện nhận dạng đối tượng tự động trên các ảnh chung vẫn là một vấn đề nghiên cứu mở Do đó hầu hết các nỗ lực nghiên cứu và thương mại tập trung vào xây dựng các hệ thống thực hiện tốt với các phương pháp QBE

1.2 Trích rút đặc trưng

Trích rút đặc trưng là cơ sở của tra cứu ảnh dựa vào nội dung Theo nghĩa rộng, các đặc trưng có thể bao gồm cả các đặc trưng dựa vào văn bản và các đặc trưng trực quan như màu, kết cấu, hình dạng Trong phạm vi đặc trưng trực quan, các đặc trưng có thể được phân loại tiếp thành các đặc trưng chung và các đặc trưng lĩnh vực cụ thể Các đặc trưng trực quan chung gồm màu, kết cấu, và hình dạng trong khi các đặc trưng lĩnh vực cụ thể là phụ thuộc ứng dụng và có thể gồm mặt người và vân tay Các đặc trưng lĩnh vực cụ thể bao gồm nhiều tri thức lĩnh vực Nói chung, không tồn tại một biểu diễn đơn tốt nhất cho một đặc trưng đã cho Với mọi đặc trưng được cho tồn tại nhiều biểu diễn mô tả đặc trưng từ các viễn cảnh khác nhau

1.2.1 Màu

Màu là đặc trưng trực quan quan trọng đầu tiên và đơn giản nhất cho đánh chỉ

số và tra cứu các ảnh [19, 17, 18] Nó cũng là đặc trưng được sử dụng phổ biến nhất trong lĩnh vực

Một ảnh màu tiêu biểu được thu từ một camera số, hoặc được tải xuống từ Internet thường có ba kênh màu (các ảnh xám chỉ có một kênh, các ảnh đa phổ có thể có nhiều hơn ba kênh) Tuy nhiên, các giá trị của dữ liệu ba chiều từ ảnh màu không cho chúng ta một mô tả chính xác của màu trong ảnh, nhưng cho vị trí của các pixel này trong không gian màu Các pixel có các giá trị ( 1 , 1 , 1 ) sẽ xuất hiện khác nhau về màu trong các không gian màu khác nhau Vì thế mô tả đầy đủ của một ảnh màu tiêu biểu sẽ bao gồm thông tin không gian hai chiều cho biết nơi của

Trang 17

pixel màu là trong miền không gian, chúng ta đang nói đến không gian màu, và dữ liệu màu ba chiều cho biết nơi của pixel màu là trong không gian màu này

Ở đây không gian màu được giả thiết là cố định, thông tin không gian trong ảnh bị bỏ qua, và thông tin màu trong một ảnh tiêu biểu có thể được xem như tín hiệu ba chiều đơn

Các tín hiệu màu một hoặc hai chiều cũng được sử dụng rộng rãi trong CBIR đặc biệt trong các ứng dụng mà các điều kiện thu ảnh tương phản mạnh là quan trọng Thông tin màu ở dạng các toạ độ xy hoặc ab của các hệ thống CIE XYZ và CIE LAB có thể được sử dụng trong các ứng dụng độc lập cường độ Thông tin màu (Hue) được sử dụng trong các ứng dụng nơi chỉ sự khác biệt giữa chất liệu của các đối tượng trong cảnh là quan trọng Trong [8, 7] đã chỉ ra rằng màu là bất biến dưới ánh sáng, bóng, và thay đổi hình học của người quan sát và các góc chiếu sáng Nếu coi thông tin màu của một ảnh như một tín hiệu một, hai, hoặc ba chiều, phân tích tín hiệu bằng việc sử dụng ước lượng mật độ xác suất là cách đơn giản nhất để mô tả thông tin màu của ảnh Lược đồ là công cụ đơn giản nhất Các cách

mô tả thông tin màu khác trong CBIR gồm sử dụng véc tơ gắn kết màu, tương quan màu, các màu trội, hoặc các dấu hiệu màu, và các mômen màu

1.2.1.1 Lược đồ màu

Lược đồ màu cung cấp một biểu diễn hiệu quả của nội dung màu của một ảnh nếu mẫu màu là duy nhất so với phần còn lại của tập dữ liệu Lược đồ màu là dễ dàng để tính toán và hiệu quả trong mô tả cả phân bố màu toàn cục và cục bộ trong ảnh Hơn nữa, nó mạnh với quay và dịch chuyển về trục quan sát và thay đổi chậm với tỷ lệ và góc quan sát

Do mọi pixel trong ảnh có thể được mô tả bởi ba thành phần màu trong một không gian màu nào đó (thí dụ, các thành phần đỏ (red), xanh lam (green) và xanh

lơ (blue) trong không gian RGB, hoặc màu (hue), độ sắc nét (saturation) và cường

độ (value) trong không gian HSV), một lược đồ (phân bố của số các pixel cho mỗi

Trang 18

bin được lượng hoá) có thể được định nghĩa cho mỗi thành phần Rõ ràng, một lược

đồ màu chứa nhiều bin hơn, nó có khả năng phân biệt tốt hơn Tuy nhiên, một lược

đồ với một số lượng lớn các bin sẽ không chỉ tăng chi phí tính toán, mà cũng sẽ không thích hợp để xây dựng các chỉ số hiệu quả cho các cơ sở dữ liệu ảnh

Hơn nữa, số lượng bin tốt không cải tiến hiệu năng tra cứu trong nhiều ứng dụng Một cách để giảm số các bin là sử dụng không gian màu đối lập cho phép độ chói của lược đồ được lấy mẫu xuống Một cách khác là sử dụng các phương pháp phân cụm để xác định K màu tốt nhất trong một không gian đã cho với một tập các ảnh đã cho Mỗi màu tốt nhất này sẽ được chấp nhận như một bin lược đồ Do quá trình phân cụm lấy phân bố màu của các ảnh trên toàn bộ cơ sở dữ liệu ảnh vào xem xét, khả năng các bin lược đồ trong đó không có hoặc có rất ít pixel rơi vào là cực tiểu Một lựa chọn khác là sử dụng các bin có số pixel lớn nhất do một số nhỏ các bin lược đồ thu được phần lớn các pixel của một ảnh [23] Một sự giảm như thế không làm giảm hiệu năng của đối sánh lược đồ, mà còn có thể tăng cường nó do các bin lược đồ nhỏ coi như là nhiễu

Khi một cơ sở dữ liệu ảnh chứa một số lượng lớn các ảnh, so sánh theo lược

đồ sẽ bão hòa sự phân biệt Để giải quyết vấn đề này, kỹ thuật lược đồ liên kết được giới thiệu Ngoài ra, lược đồ màu không đưa thông tin không gian của các pixel vào xem xét, vì thế các ảnh rất khác nhau có thể có các phân bố màu tương tự Vấn đề này trở nên đặc biệt sâu sắc với các cơ sở dữ liệu lớn Để tăng khả năng phân biệt, một số cải tiến đã được đề xuất để liên kết thông tin không gian Một cách đơn giản

là chia một ảnh thành các vùng con và tính lược đồ cho mỗi vùng con này Như đã được giới thiệu ở trên, cách chia đơn giản là phân hoạch hình chữ nhật, hoặc phức tạp như phân đoạn vùng hoặc thậm chí phân hoạch đối tượng Tăng số các vùng con

sẽ tăng thông tin về vị trí, nhưng cũng tăng về chi phí bộ nhớ và thời gian tính toán

1.2.1.2 Các màu trội

Dựa trên quan sát rằng các lược đồ màu thì rất thưa và thông thường một số nhỏ các màu là đủ để miêu tả thông tin màu trong một ảnh màu, các màu trội được

Trang 19

sử dụng để mô tả nội dung màu của một ảnh Một phân cụm màu được thực hiện để thu các màu trội đại diện của nó và phần trăm tương ứng của nó Mỗi màu đại diện

và phần trăm tương ứng của nó tạo ra một cặp các thuộc tính mô tả các đặc trưng màu trong một vùng ảnh

Ký hiệu mô tả đặc trưng lược đồ màu trội F được định nghĩa là một tập các cặp sau:

{ , },   (11)

Ở đây N là tổng số các cụm màu trong ảnh, ci là một véc tơ màu ba chiều, pi

là phần trăm của nó, và i p i1 Lưu ý rằng N có thể thay đổi từ ảnh này sang

ảnh khác

1.2.1.3 Các mômen màu

Các mômen màu là các mômen thống kê của các phân bố xác suất của các màu Các mômen màu được sử dụng thành công trong nhiều hệ thống tra cứu ảnh như QBIC [5, 21], đặc biệt khi ảnh chứa chính xác đối tượng Các mômen màu bậc nhất (trung bình), bậc hai (phương sai) và bậc ba (độ lệch), đã được chứng minh là hiệu quả trong biểu diễn các phân bố màu của các ảnh [13]

Về mặt toán học, ba mômen đầu tiên được định nghĩa bằng:

) 2 1 ( 1

N

)31()

)(

Trang 20

Thông thường mômen màu thực hiện tốt hơn nếu nó được xác định bởi cả hai không gian màu L*u*v* và L*a*b* chứ không chỉ duy nhất bởi không gian màu HSV Sử dụng thêm mômen bậc ba cải tiến hiệu năng tra cứu so với chỉ sử dụng các mômen bậc nhất và bậc hai Tuy nhiên, mômen bậc ba này thỉnh thoảng làm cho biểu diễn đặc trưng nhạy cảm hơn với sự thay đổi cảnh và do đó có thể giảm hiệu năng

Do chỉ 9 số (ba mômen cho mỗi một trong ba thành phần màu) được sử dụng

để biểu diễn nội dung màu của mỗi ảnh, các mômen màu là một biểu diễn rất nén so với các đặc trưng màu khác Do biểu diễn rất nén này, nó có thể cũng giảm khả năng phân biệt Thông thường, các mômen màu có thể được sử dụng như sơ duyệt lần đầu để giảm không gian tìm kiếm trước khi các đặc trưng màu phức tạp khác được sử dụng cho tra cứu

1.2.2 Kết cấu

Kết cấu là một đặc tính quan trọng khác của ảnh Các biểu diễn kết cấu đa dạng đã được nghiên cứu trong nhận dạng mẫu và thị giác máy tính Về cơ bản, các phương pháp biểu diễn kết cấu có thể được phân ra thành hai loại: cấu trúc và thống

Các phương pháp cấu trúc, gồm toán tử hình thái và đồ thị kề, mô tả kết cấu bởi nhận dạng cấu trúc gốc và các luật sắp đặt của chúng Chúng có chiều hướng hiệu quả nhất khi được áp dụng với các kết cấu đều

Các phương pháp thống kê, gồm các kỹ thuật phổ năng lượng Fourier, các ma trận đồng khả năng, phân tích thành phần chính bất biến - trượt, đặc trưng Tamura, phân rã Wold, trường ngẫu nhiên Markov (Markov random field), mô hình fractal,

và lọc đa phân giải như biến đổi Gabor và sóng, mô tả kết cấu bằng phân bố thống

kê của cường độ ảnh

Một số biểu diễn kết cấu [15], được sử dụng thường xuyên và đã được chứng minh là hiệu quả trong tra cứu ảnh dựa vào nội dung

Trang 21

1.2.3 Hình dạng

Các đặc trưng hình dạng của các đối tượng hoặc các vùng đã được sử dụng trong nhiều hệ thống tra cứu ảnh dựa vào nội dung So với các đặc trưng màu và kết cấu, các đặc trưng hình dạng thường được mô tả sau khi các ảnh được phân đoạn thành các vùng hoặc các đối tượng Do phân đoạn ảnh mạnh và chính xác là khó đạt được, sử dụng các đặc trưng hình dạng cho tra cứu ảnh bị giới hạn đối với các ứng dụng chuyên biệt, ở đó các đối tượng hoặc các vùng đã sẵn có Các phương pháp state-of-art cho mô tả hình có thể được phân thành hoặc là các phương pháp dựa vào đường bao hoặc các phương pháp dựa vào vùng Một biểu diễn đặc trưng hình tốt cho một đối tượng phải bất biến với dịch chuyển, quay và tỷ lệ Chúng ta sẽ mô

tả ngắn gọn một số đặc trưng hình được sử dụng phổ biến trong các ứng dụng tra cứu ảnh với một giới thiệu tổng quan ngắn gọn về các kỹ thuật đối sánh hình

1.2.3.1 Các bất biến mômen

Biểu diễn hình cổ điển sử dụng một tập các bất biến mômen Nếu đối tượng R

được biểu diễn như một ảnh nhị phân, thì các mômen trung tâm bậc pq cho hình

của đối tượng R được định nghĩa bằng:

) 5 1 ( )

( ) (

) , (

R y

q c p

c

Ở đây ( x c , y c ) là tâm của đối tượng

Mômen trung tâm này có thể được chuẩn hoá để bất biến tỷ lệ:

) 6 1 ( 2

2 ,

0 , 0

, ,  qpq 

Trang 22

2 , 1 0 , 3 2 , 1 0 , 3 3 , 0 1 , 2 7

1 , 2 3 , 0 2 , 1 0 , 3 1 , 1 2 1 , 2 3 , 0 2 2 , 1 0 , 3 2 , 0 0 , 2

6

2 2 , 1 0 , 3 2

1 , 2 3 , 0 1 , 2 3 , 0 1 , 2 3 , 0

2 1 , 2 3 , 0 2

2 , 1 0 , 3 2 , 1 0 , 3 2 , 1 0 , 3

5

2 1 , 2 3 , 0 2 2 , 1 0 , 3 4

2 1 , 2 3 , 0 2 2 , 1 0 , 3

3

2 1 , 1 2 2 , 0 0 , 2

2

2 , 0 0

,

2

1

) (

3 ) (

) (

3

(

) )(

( 4 ) (

) (

(

) (

3 ) (

) (

3 (

) (

3 ) (

) (

3 (

) 7 1 ( )

( ) (

) 3 (

) 3 (

4 ) (

s s

s s

s s

'

'tan

Do đó, để so sánh sự tương tự hình giữa các đối tượng A và B với các hàm xoay của nó, khoảng cách tối thiểu cần được tính toán trên tất cả các trượt t và các

quay  có thể, tức là,

Trang 23

()(min

),

(

1 1

0 ] 1 , 0 [

A t

1.2.3.3 Các ký hiệu mô tả Fourier

Các ký hiệu mô tả Fourier mô tả hình của một đối tượng với biến đổi Fourier của đường bao của nó Xét đường biên đóng của một đối tượng hai chiều bằng một dãy đóng các pixel bao liên tiếp ( x s , y s ), ở đây 0sN1 và N là tổng số các

pixel trên đường bao Sau đó ba loại biểu diễn đường biên đóng, tức là, độ cong, khoảng cách trọng tâm, và hàm toạ độ phức hợp, có thể được định nghĩa

Độ cong K ( s ) tại một điểm s dọc theo đường biên đóng được định nghĩa như

tỷ lệ thay đổi theo hướng tiếp tuyến của đường biên đóng, tức là,

) s ( )

2 c s

2 c

x ( )

s

(

Các biến đổi Fourier của ba loại biểu diễn đường biên đóng này sinh ra ba tập

hệ số phức hợp, biểu diễn hình của một đối tượng trong miền tần số Các hệ số tần

số thấp hơn mô tả đặc tính hình chung, trong khi các hệ số tần số cao phản ánh các chi tiết hình Để thu được bất biến quay (tức là, mã đường biên đóng không liên quan đến chọn điểm tham chiếu), chỉ độ lớn của các hệ số phức hợp được sử dụng

Trang 24

và các thành phần pha bị loại bỏ Để thu được bất biến tỷ lệ, độ lớn của các hệ số

được chia bằng độ lớn của thành phần DC hoặc hệ số khác không đầu tiên Bất

biến dịch chuyển thu được trực tiếp từ biểu diễn đường biên đóng

Các ký hiệu mô tả Fourier của đường cong là:

,

0

2 / 0

2 0

F F

F

Ở đây F trong (1-31) và (1-32) biểu thị thành phần thứ i i của các hệ số biến đổi Fourier Ở đây chỉ các trục tần số dương được xem xét bởi vì đường cong và các hàm khoảng cách trọng tâm là thực và, do đó, các biến đổi Fourier của nó biểu lộ tính đối xứng, tức là, FiF i

Ký hiệu mô tả Fourier của toạ độ phức hợp là:

) 16 1 ( , ,

, , ,

1

2 /

1 2

1 1

1

) 1 2 / (

F F

F F

F

Ở đây F là thành phần tần số khác không đầu tiên được sử dụng để chuẩn 1

hoá các hệ số biến đổi Ở đây cả hai thành phần tần số dương và âm được xem xét

Hệ số DC là phụ thuộc vào vị trí của hình, và do đó, bị loại bỏ

Để đảm bảo các đặc trưng hình kết quả của tất cả các đối tượng trong một cơ

sở dữ liệu có cùng độ dài, đường bao (( x s , y s ), 0sN1 ) của mỗi đối tượng

được lấy mẫu lại với M mẫu trước khi thực hiện biến đổi Fourier Thí dụ, M có

thể đặt tới 2 m64 sao cho biến đổi có thể được thực hiện hiệu quả sử dụng biến đổi Fourier nhanh

Trang 25

1.2.3.4 Hình tròn, độ lệch tâm, và hướng trục chính

Độ tròn được tính toán bằng:

)171(

1.2.4 Thông tin không gian

Các vùng hoặc đối tượng với các đặc tính màu và kết cấu tương tự có thể được phân biệt dễ dàng bằng việc tận dụng các ràng buộc không gian Thí dụ, các vùng bầu trời màu xanh và biển xanh có thể có các lược đồ màu tương tự, nhưng các vị trí không gian của chúng trong các ảnh là khác nhau Do đó, vị trí không gian của các vùng (hoặc các đối tượng) hoặc quan hệ không gian giữa nhiều vùng (hoặc đối tượng) trong một ảnh thì rất hữu ích cho tìm kiếm các ảnh

Thu thông tin không gian của các đối tượng trong một ảnh là một quá trình quan trọng đối với các hệ thống GIS Quá trình này bao gồm việc biểu diễn vị trí không gian tuyệt đối và cũng bao gồm vị trí không gian tương đối của các đối tượng Các thao tác như giao và chồng được sử dụng Bố cục màu kết hợp thông tin không gian với thông tin màu xuất hiện trong ảnh và tạo ra một đặc trưng rất quan trọng trong quá trình tra cứu, gọi là đặc trưng màu – không gian

Biểu diễn quan hệ không gian được sử dụng rộng rãi nhất là các xâu 2D được

đề xuất bởi Chang và cộng sự Nó được xây dựng bởi việc chiếu các ảnh dọc theo các hướng x và y Hai tập ký hiệu, V và A , được định nghĩa trên hình chiếu Mỗi

ký hiệu trong V biểu diễn một đối tượng trong ảnh Mỗi ký hiệu trong A biểu diễn

một loại quan hệ không gian giữa các đối tượng Do sự biến đổi của nó, xâu 2 D G

Trang 26

cắt tất cả các đối tượng dọc theo hình hộp tối thiểu của nó và mở rộng các quan hệ không gian thành hai tập toán tử không gian Một tập định nghĩa các quan hệ không gian cục bộ Tập còn lại định nghĩa quan hệ không gian toàn cục, chỉ ra rằng hình chiếu của hai đối tượng là tách rời, nối tiếp hoặc định vị tại cùng vị trí Thêm nữa, xâu 2 D Cđược đề xuất để cực tiểu hoá số các đối tượng cắt Xâu 2 DB biểu diễn một đối tượng bằng hai ký hiệu, vị trí cho bắt đầu và kết thúc đường bao của đối tượng Tất cả các phương pháp này có thể hỗ trợ ba loại truy vấn Loại truy vấn 0 tìm tất cả các ảnh chứa đối tượng O 1 , O 2 , , O n Loại 1 tìm tất cả các ảnh chứa các đối tượng có quan hệ nào đó giữa chúng, nhưng khoảng cách giữa chúng là không đáng kể Loại 2 tìm tất cả các ảnh có quan hệ khoảng cách nào đó với mỗi ảnh khác

Thêm với xâu D 2 , cây tứ phân không gian, và ảnh ký hiệu cũng được sử dụng cho biểu diễn thông tin không gian Tuy nhiên, tìm kiếm các ảnh dựa trên các quan

hệ không gian của các vùng còn lại một vấn đề nghiên cứu khó trong tra cứu ảnh dựa vào nội dung, do phân đoạn tin cậy của các đối tượng hoặc các vùng thường là không khả thi ngoại trừ các ứng dụng rất giới hạn Mặc dù một số hệ thống chia các ảnh thành các khối đều, chỉ thu được sự thành công khiêm tốn với các lược đồ chia không gian như thế do hầu hết các ảnh tự nhiên không thể ép thành các khối con đều về không gian Để giải quyết vấn đề này, một phương pháp dựa vào biến đổi radon, tận dụng phân bố không gian của các đặc trưng trực quan không cần phân đoạn phức tạp

1.2.5 Phân đoạn

Phân đoạn là quá trình phân ảnh ra thành các vùng mà về lý tưởng nó sẽ tương ứng với các đối tượng xuất hiện trong ảnh Đây là bước rất quan trọng đối với tra cứu ảnh Cả đặc trưng hình và đặc trưng bố cục phụ thuộc vào phân đoạn tốt Trong phần này chúng tôi sẽ mô tả một số kỹ thuật phân đoạn đã có được sử dụng trong cả thị giác máy và tra cứu ảnh

Trong, Lybanon và các cộng sự đã nghiên cứu một cách tiếp cận phép toán hình thái học (mở và đóng) trong phân đoạn ảnh Họ đã kiểm tra cách tiếp cận của

Trang 27

họ với các loại ảnh khác nhau, gồm các ảnh thiên văn và các ảnh hồng ngoại Trong khi cách tiếp cận này là hiệu quả trong xử lý các loại ảnh khoa học ở trên, hiệu năng của nó cần được tiếp tục đánh giá cho các ảnh tự nhiên phức tạp hơn Li và cộng sự

đã đề xuất một cách tiếp cận phân đoạn dựa vào entropy mờ Cách tiếp cận này dựa trên thực tế rằng entropy cực đại địa phương tương ứng với sự không rõ ràng giữa các vùng khác nhau trong ảnh Cách tiếp cận này rất hiệu quả cho các ảnh có lược

đồ không có các đỉnh và các rãnh rõ ràng Các kỹ thuật phân đoạn khác dựa trên phép đạc tam giác Delaunay (Delaunay triangulation), fractals, và luồng biên (edge flow)

Tất cả các thuật toán được đề cập ở trên là tự động Một ưu điểm chính của các thuật toán phân đoạn loại này là nó trích rút các đường bao từ một số lượng lớn các ảnh mà không chiếm thời gian và nỗ lực của con người Tuy nhiên, trong một lĩnh vực tự nhiên, với các ảnh không có điều kiện tiên quyết, phân đoạn tự động không luôn luôn tin cậy Một thuật toán có thể phân đoạn trong trường hợp này chỉ là các vùng, mà không là các đối tượng Để thu được các đối tượng mức cao, nó cần có sự trợ giúp của con người

Samadani và Han đã đề xuất một cách tiếp cận trích rút đường bao được trợ giúp bởi máy tính, nó kết hợp các đầu vào thủ công từ người sử dụng với các biên ảnh được sinh ra bởi máy tính Trong, Daneel và cộng sự đã phát triển một phương pháp cải tiến của các chu tuyến thiết thực Dựa trên đầu vào của người sử dụng, đầu tiên thuật toán sử dụng một thủ tục tham lam để cung cấp sự hội tụ ban đầu nhanh Thứ hai, nét ngoài được lọc bằng việc sử dụng quy hoạch động Trong, Rui và cộng

sự đã đề xuất một thuật toán dựa vào phân cụm và nhóm trong không gian - màu - kết cấu Người sử dụng định nghĩa đối tượng quan tâm là ở đâu, và thuật toán nhóm các vùng thành các đối tượng có ý nghĩa

Giá trị đáng chú ý sau cùng đề cập trong phân đoạn là các yêu cầu chính xác phân đoạn là rất khác nhau cho các đặc trưng hình và các đặc trưng bố cục Với các

Trang 28

đặc trưng hình, phân đoạn chính xác là mong muốn cao trong khi các đặc trưng bố cục, một phân đoạn thô có thể là đủ

1.3 Đánh chỉ số

Để thực hiện tra cứu ảnh dựa vào nội dung đối với các cơ sở dữ liệu ảnh lớn, các kỹ thuật đánh chỉ số nhiều chiều cần được sử dụng Có ba cộng đồng nghiên cứu chính đóng góp vào lĩnh vực này: hình học tính toán, quản trị cơ sở dữ liệu, và nhận dạng mẫu Các kỹ thuật đánh chỉ số nhiều chiều phổ biến đã có gồm thuật toán bucketing, cây k-d, cây k-d ưu tiên, cây tứ phân, cây K-D-B, cây hB, cây R-tree và các biến thể của nó cây R+

và R* Lịch sử của các kỹ thuật đánh chỉ số nhiều chiều có thể quay lại giữa những năm 1370, khi các phương pháp khối, cây tứ phân, và cây k-d được giới thiệu lần đầu tiên Tuy nhiên, hiệu năng của nó thì còn xa so với mong muốn Bị thúc đẩy bởi nhu cầu cấp bách của đánh chỉ số không gian từ các hệ thống thông tin địa lý và CAD, Guttman đã đề xuất cấu trúc đánh chỉ số R-tree [9] Dựa trên nghiên cứu của ông, nhiều biến thể khác của R-tree đã được phát triển Năm 1990, Beckmann và Kriegel đã đề xuất biến thể R-tree động, R* tree trong [3] Tuy nhiên, R* tree không thực hiện tốt với số chiều lớn hơn 20 [4, 22, 17, 14]

1.4 Độ tương tự giữa các ảnh

1.4.1 Độ đo về màu sắc

Một số độ đo tương đồng được sử dụng như: Độ đo khoảng cách Ơclit, độ

đo Jensen-Shannon divergence (JSD)

Gọi h(I) và h(M) tương ứng là 2 lược đồ màu của hai ảnh I và ảnh M

Khi đó các loại độ đo màu được định nghĩa là một số nguyên (hoặc số thực) theo các loại độ đo tương ứng như sau:

Khoảng cách Ơclit:

Đây là khoảng cách Ơclit thông thường giữa các K bin:

Trang 29

Độ đo Jensen-Shannon divergence (JSD) :

Độ đo Jensen-Shannon divergence sử dụng lược độ màu RGB để tính toán độ tương đồng về màu sắc giữa 2 ảnh :

1.4.2 Độ đo tương đồng cho hình dạng

Độ đo về hình dạng rất nhiều trong phạm vi lý thuyết của bộ môn xử lý ảnh Chúng trải rộng từ những độ đo toàn cục dạng thô với sự trợ giúp của việc nhận dạng đối tượng, cho tới những độ đo chi tiết tự động tìm kiếm những hình dạng đặc biệt Lược đồ hình dạng là một ví dụ của độ đo đơn giản Kỹ thuật dùng đường biên hiệu quả hơn phương pháp trước, chúng tìm kiếm những hình dạng đối tượng gần giống với đường biên nhất Phương pháp vẽ phác họa là phương pháp có nhiều đặc trưng rõ ràng hơn, không chỉ tìm kiếm những đường biên đối tượng đơn, mà còn đối với tập những đối tượng đã được phân đoạn trong một ảnh mà người dùng vẽ hay cung cấp

1.4.3 Độ đo tương đồng cho kết cấu ảnh

Để đo độ tương đồng theo kết cấu giữa các ảnh, người ta thường sử dụng độ

đo Ơclit Kết cấu được trích xuất từ các bức ảnh sẽ được biểu diễn thành các véc tơ nhiều chiều và khoảng cách Ơclit được dùng để đo độ tương đồng giữa các đặc trưng của ảnh truy vấn với đặc trưng của ảnh trong cơ sở dữ liệu

Trang 30

1.4.4 Độ đo tương đồng cho đặc trưng phân đoạn

Một số độ đo tương đồng cho ảnh sử dụng đặc trưng SIFT như[21] :

1

m m

m H H

m

H H

H

'

'2

1.5.1 QBIC của IBM

QBIC, chuẩn cho truy vấn bởi nội dung ảnh, là hệ thống tra cứu ảnh dựa vào nội dung thương mại đầu tiên Các kỹ thuật và khuôn khổ đã ảnh hưởng sâu sắc lên các hệ thống tra cứu ảnh về sau QBIC hỗ trợ chính các truy vấn dựa vào các ảnh mẫu, các phác thảo và các bản vẽ được người sử dụng xây dựng, và các mẫu kết cấu

và màu được lựa chọn

Trong quá trình đánh chỉ số ảnh, QBIC đã sử dụng các phương pháp phân đoạn không giám sát tự động hoàn toàn cùng với mô hình tiền cảnh/hậu cảnh để

Trang 31

nhận biết các đối tượng trong một lớp các ảnh được giới hạn Các thuật toán mạnh được yêu cầu trong lĩnh vực này do có các hậu cảnh có kết cấu và đa dạng QBIC cũng có các công cụ bán tự động để nhận biết các đối tượng QBIC là kỹ thuật flood-fill tăng cường Các phương pháp flood-fill bắt đầu từ một pixel đối tượng đơn và lặp việc thêm các pixel liền kề có giá trị trong ngưỡng đã cho nào đó của pixel gốc Một công cụ phác thảo để trợ giúp những người sử dụng theo dõi các điểm biên đối tượng dựa trên khái niệm ―snakes‖ được phát triển trong nghiên cứu thị giác máy tính Công cụ này nhận một đường cong phác thảo của người sử dụng

và căn lề tự động nó với các điểm biên ảnh gần cạnh Nó tìm đường cong cực đại hoá độ lớn gradient ảnh dọc đường cong Sau khi nhận biết đối tượng, QBIC sẽ tính toán các đặc trưng của mỗi đối tượng và ảnh Các đặc trưng như sau:

sổ có các cỡ khác nhau Đặc trưng tương phản mô tả tính chói của mẫu, và là một hàm biến đổi của lược đồ cấp xám Đặc trưng hướng mô tả dù ảnh có hướng hay không, hoặc nó có đẳng hướng hay không, và là một độ đo của ―chóp‖ của phân bố của các hướng gradient trong ảnh

 Hình dạng:

Các đặc trưng hình trong QBIC được dựa trên sự kết hợp của diện tích, hình tròn, độ lệch tâm, và hướng trục chính, thêm một tập các bất biến mômen đại số

Trang 32

[4] Tất cả các hình được giả thiết là các hình có mặt phẳng không chặt cho phép mỗi hình được biểu diễn như một ảnh nhị phân

 Phác thảo:

QBIC cho phép các ảnh được tra cứu dựa trên một phác thảo thô của người sử dụng Đặc trưng cần để hỗ trợ tra cứu này gồm một bản đồ biên độ phân giải thu gọn của mỗi ảnh Để tính toán các bản đồ biên, QBIC chuyển mỗi ảnh màu tới một dải sáng đơn, tính toán ảnh biên nhị phân và giảm ảnh biên đến cỡ 64 x 64

Ngay khi các đặc trưng được mô tả, các độ đo tương tự được sử dụng để nhận các ảnh tương tự Trong bước tìm kiếm, QBIC phân biệt giữa ―các cảnh‖ (hoặc các ảnh) và ―các đối tượng‖ Một cảnh là một ảnh màu đầy đủ hoặc frame đơn của video và một đối tượng là một phần của cảnh QBIC tính toán các đặc trưng sau:

 Các đối tượng: màu trung bình, lược đồ màu, kết cấu, hình, vị trí

 Các ảnh: màu trung bình, lược đồ màu, kết cấu, vị trí các biên (phác thảo), vị trí màu (vẽ)

QBIC là một trong số ít các hệ thống nhận vào bản miêu tả đánh chỉ số đặc trưng nhiều chiều [4] Trong đánh chỉ số hệ thống con của nó KLT được sử dụng đầu tiên để thực hiện giảm chiều và sau đó R*

-tree được sử dụng như cấu trúc đánh chỉ số nhiều chiều Trong hệ thống mới của nó tìm kiếm từ khoá dựa vào văn bản có thể được kết hợp với tìm kiếm tương tự dựa vào nội dung Bản demo trực tuyến QBIC có tại website http://wwwqbic.almaden.ibm.com

1.5.2 Virage

Virage là một máy tìm kiếm ảnh dựa vào nội dung được phát triển tại liên hợp Virage Tương tự với QBIC, Virage hỗ trợ các truy vấn trực quan dựa trên màu, thành phần cấu tạo (bố cục màu), kết cấu và cấu trúc (thông tin đường bao đối tượng) Nhưng Virage tiến một bước xa hơn QBIC Nó cũng hỗ trợ các kết hợp tuỳ

ý của bốn truy vấn trên Người sử dụng có thể điều chỉnh các trọng số được kết hợp với các đặc trưng theo sự nhấn mạnh riêng của họ Jeffrey và cộng sự đã đề xuất

Trang 33

tiếp một khuôn khổ mở cho quản lý ảnh Họ đã phân loại các đặc trưng trực quan thành tổng quát (như màu, hình, hoặc kết cấu) và lĩnh vực cụ thể (nhận dạng mặt người, phát hiện khối u, v.v ) Nhiều đặc trưng gốc hữu ích có thể được thêm vào cấu trúc mở, phụ thuộc vào các yêu cầu lĩnh vực Để đi ra ngoài giới hạn chế độ truy vấn bởi ví dụ, Gupta và Jain đã đề xuất một khung công việc ngôn ngữ truy vấn chín thành phần Hệ thống sẵn có như một thành phần có thể thêm vào các hệ quản trị cơ sở dữ liệu như Oracle hoặc Informix

Trang demo của nó tại http://vrw.excalib.com/cgi-bin/sdk/cst/cst2.bat

1.5.4 VisualSeek và WebSeek

VisualSEEk là một máy tìm kiếm đặc trưng trực quan và WebSEEk là một máy tìm kiếm văn bản/ảnh trên web, cả hai sản phẩm đã được phát triển tại đại học Columbia Các đặc trưng nghiên cứu chính là truy vấn quan hệ không gian của các vùng ảnh và trích rút đặc trưng trực quan lĩnh vực được nén Các đặc trưng trực quan được sử dụng trong các hệ thống của họ là các tập màu và các đặc trưng kết cấu dựa vào biến đổi sóng Để tăng tốc quá trình tra cứu, họ cũng đã phát triển các thuật toán đánh chỉ số dựa vào cây nhị phân VisualSEEk hỗ trợ các truy vấn dựa vào cả các đặc trưng trực quan và các quan hệ không gian của chúng Điều này cho phép người sử dụng chuyển một truy vấn hoàng hôn bằng vùng màu đỏ-cam trên đỉnh và vùng xanh lơ hoặc xanh lá cây ở dưới bằng phác thảo của nó WebSEEk là

Trang 34

một máy tìm kiếm hướng Web Nó gồm ba module chính, tức là module tập hợp ảnh/video, module phân loại chủ đề và đánh chỉ số, và module tìm kiếm, duyệt, và tra cứu Nó hỗ trợ các truy vấn dựa trên cả các từ khoá và nội dung trực quan Bản demo trực tuyến có tại http://www.ee.columbia.edu/sfchang/demos.html

đã đề xuất gồm những người sử dụng trong lặp và chú thích tra cứu ảnh Động cơ cho việc này là dựa trên quan sát rằng không có đặc trưng nào có thể mô hình các ảnh tốt nhất từ mỗi và mọi lĩnh vực Hơn nữa, nhận thức của con người là chủ quan

Họ đã đề xuất một cách tiếp cận ―hội các mô hình‖ để liên kết nhân tố người Các kết quả thực nghiệm chỉ ra rằng cách tiếp cận này là hiệu quả trong chú thích ảnh tương tác

1.5.6 Netra

Netra là một hệ thống tra cứu ảnh nguyên mẫu được phát triển trong dự án ADL Netra sử dụng thông tin màu, kết cấu, hình, và vị trí không gian trong các vùng ảnh được phân đoạn để tìm kiếm và tra cứu các vùng tương tự từ cơ sở dữ liệu Các đặc trưng nghiên cứu chính của hệ thống Netra là phân tích kết cấu dựa trên lọc Gabor, xây dựng từ điển ảnh dựa trên mạng neural và phân đoạn vùng dựa

http://maya.ece.ucsb.edu/Netra/netra.html

1.6 Đánh giá hiệu năng tra cứu

Trang 35

Để đánh giá hiệu năng của hệ thống tra cứu, người ta đưa ra hai số đo đó là độ triệu hồi (recall) và độ chính xác (precision) Các số đo này được mượn từ hệ thống tra cứu thông tin truyền thống

Đối với một truy vấn q, tập hợp các ảnh trong cơ sở dữ liệu thích hợp với truy

vấn q được ký hiệu là R(q) còn kết quả tra cứu của truy vấn q được ký hiệu là Q(q)

Độ chính xác của việc tra cứu được định nghĩa là tỉ lệ những kết quả thu được

thực sự thích hợp với truy vấn

) q ( Q

) q ( R ) q ( Q

Độ triệu hồi là tỉ lệ những kết quả thích hợp do truy vấn trả lại:

) q ( R

) q ( R ) q ( Q

Thông thường phải có sự thoả hiệp giữa hai số đo này bởi vì nếu muốn tăng cường số đo này thì lại phải chịu giảm số đo kia và ngược lại Trong các hệ thống tra cứu điển hình thì độ triệu hồi có xu hướng tăng lên khi số lượng các kết quả thu được tăng lên trong khi đó thì độ chính xác dường như lại bị giảm đi

Ngoài ra, việc lựa chọn R(q) lại rất không ổn định do sự đa đạng của cách hiểu

về một bức ảnh Hơn nữa, khi số lượng ảnh thích hợp lại lớn hơn số lượng ảnh hệ thống tìm được thì lúc đó khái niệm độ triệu hồi trở thành vô nghĩa

Do đó, độ chính xác và độ triệu hồi chỉ là các mô tả ở dạng thô về hiệu năng của một hệ thống truy vấn mà thôi

Gần đây MPEG7 có khuyến nghị một cách đánh giá mới về hiệu năng của các

hệ thống tra cứu gọi là ANMRR (average normalized modified retrieval rank)

Theo cách này độ chính xác và độ triệu hồi được kết hợp thành một số đo duy nhất

Ký hiệu số lượng ảnh hoàn toàn đúng với truy vấn q là N(q) và số lượng lớn nhất của các ảnh hoàn toàn đúng với tất cả Q truy vấn tức là max{N(q 1 ),

Trang 36

N(q 2 ), ,N(q Q )} là M Sau đó đối với mỗi truy vấn q thì mỗi bức ảnh hoàn toàn đúng

k đƣợc gán một giá trị xếp hạng rank(k) giá trị này là thứ hạng của nó trong số

những ảnh hoàn toàn đúng nếu ảnh đó nằm trong K kết quả truy vấn đầu tiên (ở đây

K = min{4N(q), 2M}) hoặc có giá trị K+1 nếu ảnh đó không nằm trong K kết quả

truy vấn đầu tiên

Thứ hạng trung bình AVR(q) đối với truy vấn q đƣợc tính nhƣ sau:

N ( q ) 1

) q ( rank )

MRR(q) nhận giá trị 0 khi tất cả các ảnh hoàn toàn đúng đều nằm trong K kết

quả truy vấn đầu tiên

Thứ hạng tra cứu sửa đổi và chuẩn hoá NMRR(q) nhận giá trị từ 0 đến 1 đƣợc tính nhƣ sau:

) q ( N

* 5 0 5 0 K

) q ( MRR )

q ( NMRR

Ngày đăng: 28/03/2021, 20:44

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w