Nâng cao hiệu quả tra cứu ảnh dựa trên hiệu chỉnh độ đo tương tự và phản hồi liên quan

Trong xã hội hiện đại, việc tìm kiếm, truy cập các thông tin đã trở thành nhu cầu không thể thiếu trong công việc của mọi người và trong cuộc sống hàng ngày. Cùng với nhu cầu tìm kiếm văn bản, nhu cầu tìm kiếm ảnh cũng nhận được nhiều quan tâm của người sử dụng. Với số lượng ngày càng tăng của các hình ảnh kỹ thuật số trên Internet và trong các thư viện kỹ thuật số, nhu cầu về các công cụ để quản lý và khai thác hiệu quả cơ sở dữ liệu ảnh lớn đã phát triển nhanh chóng. Việc phát triển các hệ thống tra cứu ảnh để tìm những ảnh quan tâm trong trong số lượng lớn các ảnh được lưu trữ đã trở thành lĩnh vực nghiên cứu nhận được nhiều sự quan tâm những năm gần đây. Nói chung, có hai phương pháp tra cứu ảnh cơ bản, tra cứu ảnh dựa trên từ khóa và tra cứu ảnh dựa trên nội dung. Tra cứu ảnh dựa trên từ khóa nhằm mục đích tìm hình ảnh tương tự với ảnh truy vấn theo các từ khóa hoặc chú thích. Phương pháp này đòi hỏi một lượng lớn lao động thủ công để chú thích ảnh trong cơ sở dữ liệu thông qua việc gán một số từ khóa có liên quan. Kết quả tra cứu dựa vào việc đối sánh từ khóa được chú thích cho các ảnh trong cơ sở dữ liệu với các từ khóa truy vấn dựa trên văn bản do người sử dụng đưa vào. Yêu cầu cơ bản của hệ thống sử dụng phương pháp này là các ảnh phải được chú thích trước khi chúng được thêm vào cơ sở dữ liệu lưu trữ. Nếu không, chúng sẽ không bao giờ được tra cứu khi một truy vấn dựa trên văn bản được yêu cầu. Tuy nhiên, để mô tả những ảnh với mức độ một cách cụ thể và chi tiết thì cần phải có một hệ thống từ khoá lớn và tinh vi. Một trở ngại khác của phương pháp này là cần phải cónhân viên được đào tạo tốt không chỉ để chú thích từ khoá cho mỗi ảnh mà còn phải lựa chọn những từ khoá thích hợp cho việc chú thích này. Việc chú thích thủ công không những tiêu phí rất nhiều thời gian công sức mà nó còn phụ thuộc nhiều vào sự cảm nhận chủ quan của con người. Chẳng hạn như cùng nội dung ảnh nhưng với người dùng khác nhau có thể cảm nhận nội dung trực quan của ảnh là khác nhau. Sự cảm nhận chủ quan và sự chú thích không chính xác có thể dẫn tới sự đối sánh không cân xứng trong quá trình tra cứu tiếp theo. Hơn nữa, một hệ thống dựa trên từ khoá rất khó để thay đổi sau này. Vì vậy, các nhà nghiên cứu đã xem xét đến kỹ thuật thực hiện chú thích tự động cho ảnh số. Các kỹ thuật chú thích tự động thường sử dụng các kỹ thuật học máy thống kê để huấn luyện mô hình bằng cách sử dụng các ảnh đã được chú thích đầy đủ. Với sự trợ giúp của các mô hình đã được huấn luyện, hệ thống sau đó thực hiện chú thích tự động cho các ảnh khác. Nhược điểm của kỹ thuật này là mô hình đào tạo phụ thuộc rất nhiều vào chất lượng và số lượng của các ảnh được chú thích để huấn luyện. Nếu các ảnh đã được chú thích không chính xác, không đầy đủ, phân bố không đều, hoặc chất lượng chú thích thấp thì các mô hình thống kê được huấn luyện sẽ không thể cung cấp chú thích chính xác cho các ảnh khác. Hơn nữa, các mô hình thống kê được huấn luyện sẽ không thể học khái niệm ngữ nghĩa của ảnh chính xác hơn nếu thông tin phản hồi của con người về các từ khóa được chú thích tự động không được cung cấp. Hệ thống thử nghiệm tra cứu ảnh kỹ thuật số đầu tiên với các ảnh được chú thích tự động được các nhà nghiên cứu tại Viện Công nghệ Massachusetts phát triển vào đầu những năm 1990 [83]. Từ đầu những năm 2000, lĩnh vực chú thích ảnh tự động đã trở thành một chủ đề nghiên cứu phổ biến và thu hút ngày càng nhiều các nhànghiên cứu để xây dựng hệ thống tra cứu ảnh. Song song với phương pháp tra cứu dựa trên kỹ thuật chú thích tự động là sự ra đời của của phương pháp tra cứu ảnh dựa trên nội dung (CBIR). Trong phương pháp này, ảnh được biểu diễn bởi các đặc trưng thị giác với các kiểu đặc trưng cơ bản bao gồm màu sắc, kết cấu và hình dạng. Các đặc trưng này được trích chọn một cách tự động, do vậy, nội dung của ảnh được mô tả một cách nhất quán, không phụ thuộc vào cảm nhận chủ quan của con người. Một số hệ thống tra cứu ảnh dựa trên phương pháp CBIR đã được phát triển như: QBIC [31] năm 1995, Virage [37] năm 1997 và NEC AMORE [72] năm 1999. Đây là các hệ thống được phát triển sớm nhất cho mục đích thương mại. Cũng trong khoảng thời gian này, một số hệ thống CBIR khác đã phát triển cho mục đích nghiên cứu như MIT Photobook [82], Columbia VisualSEEK và WebSEEK [98], UCSB Netra [64], và Standford WBIIS [113]. Những ưu điểm của hệ thống CBIR đã được các nhà nghiên cứu chỉ ra trong một số ứng dụng tiêu biểu [50]: kiến trúc và thiết kế kỹ thuật, bộ sưu tập nghệ thuật, phòng chống tội phạm, thông tin địa lý, sở hữu trí tuệ, điều trị nội khoa, quân sự, tìm kiếm sản phẩm, . . .

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC

VÀ CÔNG NGHỆ VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ

-

NGÔ TRƯỜNG GIANG

NÂNG CAO HIỆU QUẢ TRA CỨU ẢNH

DỰA TRÊN HIỆU CHỈNH ĐỘ ĐO TƯƠNG TỰ

VÀ PHẢN HỒI LIÊN QUAN

LUẬN ÁN TIẾN SỸ TOÁN HỌC

Trang 2

LỜI CÁM ƠN

Luận án này được thực hiện tại Học viện Khoa học và Công nghệ, Viện Hàn lâm Khoa học và Công nghệ Việt Nam dưới sự hướng dẫn khoa học của PGS.TS Ngô Quốc Tạo và TS Nguyễn Đức Dũng Tôi xin bày tỏ lòng biết ơn sâu sắc tới các Thầy đã quan tâm, hướng dẫn từ các kỹ năng cơ bản đến định hướng khoa học, tạo mọi điều kiện thuận lợi để tôi hoàn thành luận án.

Tôi xin cảm ơn tới tập thể Thầy Cô trong Viện Công nghệ Thông tin đã có những ý kiến đóng góp và phản biện trong suốt quá trình nghiên cứu và hoàn chỉnh luận án Xin chân thành cảm ơn các nhà khoa học, tác giả các công trình công bố được trích dẫn trong luận án vì đã cung cấp nguồn tư liệu quý báu, những kiến thức liên quan trong quá trình nghiên cứu hoàn thành luận án.

Tôi xin trân trọng cảm ơn Lãnh đạo Viện Công nghệ Thông tin, Học Viện Khoa học và Công nghệ đã tạo những điều kiện tốt nhất để nghiên cứu sinh có được môi trường nghiên cứu và hoàn thành chương trình nghiên cứu của mình Xin chân thành cám ơn Phòng Nhận dạng và Công nghệ Tri thức, các phòng ban của Viện Công nghệ Thông tin về sự hỗ trợ tạo điều kiện cho tôi trong suốt quá trình thực hiện luận án.

Tôi xin gửi lời cảm ơn tới Ban giám hiệu Trường Đại học Dân lập Hải Phòng, Khoa Công nghệ Thông tin đã tạo nhiều điều kiện thuận lợi hỗ trợ cho tôi có đủ điều kiện thực hiện luận án Xin cảm ơn tất cả bạn bè đồng nghiệp, những người luôn chia sẻ, cổ vũ tôi trong những lúc khó khăn, động viên khích lệ để tôi thực hiện và hoàn thành luận án.

Cuối cùng, tôi xin bày tỏ lòng biết ơn vô hạn đối với người thân trong gia đình đã luôn ủng hộ động viên, tạo nguồn lực tinh thần to lớn để tôi có thể thực hiện và hoàn thành được luận án này.

Trang 3

Mục lục

1.1 Một số vấn đề cơ bản trong CBIR 8

1.1.1 Trích chọn đặc trưng mức thấp 12

1.1.2 Độ đo tương tự 22

1.1.3 Đánh giá hiệu năng hệ thống 25

1.2 Độ đo tương tự kết hợp các đặc trưng 28

1.3 Phản hồi liên quan trong CBIR 29

1.3.1 Kỹ thuật cập nhật truy vấn 33

1.3.2 Những kỹ thuật học thống kê 34

1.4 Tổng kết chương 37

2 ĐỘ ĐO TƯƠNG TỰ HÌNH DẠNG DỰA TRÊN ĐỐI SÁNH ĐỒ THỊ XƯƠNG 38 2.1 Giới thiệu 39

2.2 Bài toán đối sánh đồ thị 42

2.3 Biểu diễn đồ thị xương 46

2.3.1 Trục trung vị - Xương 46

2.3.2 Biểu diễn đồ thị xương 50

2.4 Độ đo tương tự hình dạng dựa trên đối sánh đồ thị xương 52

2.4.1 Khoảng cách giữa các đỉnh sử dụng đường dẫn xương 52

2.4.2 Đối sánh đồ thị xương sử dụng cụm đỉnh cuối 54

2.4.3 Thực nghiệm đánh giá 64

3 TÍCH HỢP ĐẶC TRƯNG TRONG PHẢN HỒI LIÊN QUAN 72 3.1 Giới thiệu 73

Trang 4

3.2 Độ đo mờ và tích phân Choquet 75

3.2.1 Độ đo mờ (Fuzzy measures) 75

3.2.2 Tích phân Choquet 77

3.3 Độ đo tương tự kết hợp nhiều đặc trưng 78

3.3.1 Phát biểu bài toán 78

3.3.2 Học trọng số liên quan của các đặc trưng 82

4 HỌC CHỦ ĐỘNG SVM DỰA TRÊN PHẢN HỒI LIÊN QUAN 93 4.1 Học chủ động 94

4.2 Học chủ động SVM với phản hồi liên quan 94

4.2.1 Học chủ động SVM 94

4.2.2 Các nghiên cứu liên quan 97

4.3 Phản hồi liên quan trong CBIR 101

4.3.1 Phát biểu bài toán 101

4.3.2 Xây dựng hàm lựa chọn tập huấn luyện 101

Trang 5

Danh sách hình vẽ

1.1 Kiến trúc chung của hệ thống CBIR 9

1.2 Không gian màu RGB 14

1.3 Không gian màu HSV 15

1.4 Ví dụ tính toán mẫu nhị phân [79] Các điểm ảnh lân cận trên một đường tròn với tâm là điểm ảnh khảo sát Các điểm ảnh lân cận không rơi chính xác vào lưới điểm ảnh được nội suy 19

1.5 Recall và Precision cho các kết quả truy vấn 26

1.6 Ví dụ về khoảng cách ngữ nghĩa trong CBIR, cột (a) hai ảnh ngữ nghĩa khác nhau nhưng có đặc trưng (biểu đồ màu) giống nhau, cột (b) hai ảnh ngữ nghĩa giống nhau nhưng có đặc trưng (biểu đồ màu) khác nhau 30

1.7 Sơ đồ tổng quan của CBIR với phản hồi liên quan 32

2.1 Hai đối tượng cùng một lớp nhưng có kiến trúc tô pô xương khác nhau 40

2.2 Đối tượng (a) và (b) khác lớp nhưng có kiến trúc tô pô xương (c) giống nhau 40

2.3 Các láng giềng của điểm ảnh tại vị trí [i,j]: (a) 4-láng giềng và (b) 8-láng giềng 46

2.4 Ảnh nhị phân với đường bao: (a) là ảnh gốc và (b) đường bao với các điểm màu đen đậm 47

2.5 Ví dụ về xương 48

2.6 Xương của ảnh bị nhiễu Cột bên trái là ảnh đối tượng với dòng trên là ảnh gốc, dòng dưới là ảnh bị nhiễu và cột bên phải là xương tương ứng 48

2.7 Xương thu được sau cắt tỉa với các ngưỡng khác nhau [4] 49

2.8 Biểu diễn đồ thị xương 50

2.9 Sự không ổn định của các điểm xương giao nhau 52

2.10 Xây dựng siêu đồ thị xương Bên trái là siêu đồ thị xương với các đỉnh {v1, , v7} và các siêu cạnh {e1, e2, e3} Bên phải là ma trận liên thuộc của siêu đồ thị xương 55

2.11 Đối sánh bất biến tỷ lệ sử dụng độ tương tự bậc cao (δ = 3) Độ tương tự bậc ba được tính toán bởi so sánh hai tam giác theo sin của các góc tương ứng 57

Trang 6

2.12 Ví dụ xây dựng siêu đồ thị kết hợp [57] (a) có hai đỉnh trên đồ thị

G P và 3 đỉnh trên đồ thị G Q Có sáu mối tương quan giữa hai đồ thị (b) Siêu đồ thị kết hợp gồm sáu đỉnh tương ứng với sáu tương quan Có năm siêu cạnh được kết nối từ các tương quan tương ứng 59

2.13 Một số ảnh mẫu trong tập dữ liệu Kimia99 64

2.14 Một số ảnh mẫu trong tập dữ liệu Kimia216 65

2.15 Một số ảnh mẫu trong tập dữ liệu MPEG-7 65

2.16 Sự tương quan giữa hai hình dạng con ngựa, một con là sự biến đổi

từ con còn lại 66

2.17 Sự tương quan giữa hai hình dạng người với số chân khác nhau 66

2.18 Mối tương quan giữa hình dạng hai con voi có cấu trúc hình học không giống nhau 67

2.19 Hiệu quả tra cứu của một số lớp riêng trên tập dữ liệu MPEG-7 70

3.1 Kết hợp đặc trưng cho mục đích CBIR 74

3.2 Hiệu quả tra cứu sử dụng các độ đo mờ khác nhau trên tập dữ liệu Caltech101 89

3.3 Hiệu quả tra cứu sử dụng các độ mờ khác nhau trên tập dữ liệu Corel15K 90

3.4 Hiệu quả tra cứu sử dụng các mô hình kết hợp khác nhau trên tập

4.2 Kết quả tra cứu không có phản hồi 105

4.3 Kết quả tra cứu sau 4 vòng phản hồi 106

4.4 Mối quan hệ giữa trung bình độ chính xác và tốp các ảnh trả về của các vòng phản hồi: (a) Vòng phản hồi thứ nhất, (b) Vòng phản hồi thứ hai, (c) Vòng phản hồi thứ ba, và (d) vòng phản hồi thứ bốn 107

4.5 Mối quan hệ giữa trung bình độ chính xác và số lần lặp của tốp các ảnh trả về: (a) Tốp 20 ảnh đầu tiên trả về, (b) Tốp 40 ảnh đầu tiên trả về, (c) Tốp 60 ảnh đầu tiên trả về, và (d) tốp 80 ảnh đầu tiên trả về 107

Trang 7

Danh sách bảng

2.1 Số lượng ảnh tra cứu đúng tại vị trí gần nhất với truy vấn trên tập

dữ liệu Kimia’s 99 Giá trị tốt nhất là 99 68

2.2 Số lượng ảnh tra cứu đúng tại vị trí gần nhất với truy vấn trên tập

dữ liệu Kimia’s 216 Giá trị tốt nhất là 216 68

2.3 Hiệu quả tra cứu trên một số lớp ảnh trên tập dữ liệu MPEG7 69

3.1 Độ đo tương tự kết hợp sử dụng mô hình trong công thức (3–9) 79

3.2 Độ đo tương tự kết hợp sử dụng tích phân Choquet 82

3.3 Các mô tả và các thuộc tính của các đặc trưng được sử dụng trong thí nghiệm 87

Trang 8

Danh sách chữ viết tắt

Từ viết tắt Diễn giải tiếng Anh Diễn giải tiếng Việt ARG Attribute-Relational Graphs Đồ thị quan hệ thuộc tính

AP Average Precision Độ chính xác trung bình

CBIR Content-Based Image Retrieval Tra cứu ảnh dựa trên nội dung

EM Expectation–Maximization Ước lượng EM

FSVM Fuzzy Support Vector Machine Máy véc tơ hỗ trợ mờ

GWT Gabor Wavelets Texture Biến đổi kết cấu dạng sóng HSV Hue Saturation Value Không gian màu HSV

MAP Mean Average Precision ĐTrung bình của AP

MPEG-7 Moving Picture Experts

OSB Optimal Subsequence Bijection Chuỗi song ánh tối ưu

RF Relevance Feedback Phản hồi liên quan

RWR Random Walk Restart Bước ngẫu nhiên khởi động lại SHG Skeleton Hyper-Graph Siêu đồ thị xương

SVM Support Vector Machine Phân lớp SVM

Trang 9

MỞ ĐẦU

Trong xã hội hiện đại, việc tìm kiếm, truy cập các thông tin đãtrở thành nhu cầu không thể thiếu trong công việc của mọi người vàtrong cuộc sống hàng ngày Cùng với nhu cầu tìm kiếm văn bản, nhucầu tìm kiếm ảnh cũng nhận được nhiều quan tâm của người sử dụng.Với số lượng ngày càng tăng của các hình ảnh kỹ thuật số trên Internet

và trong các thư viện kỹ thuật số, nhu cầu về các công cụ để quản lý

và khai thác hiệu quả cơ sở dữ liệu ảnh lớn đã phát triển nhanh chóng.Việc phát triển các hệ thống tra cứu ảnh để tìm những ảnh quan tâmtrong trong số lượng lớn các ảnh được lưu trữ đã trở thành lĩnh vựcnghiên cứu nhận được nhiều sự quan tâm những năm gần đây

Nói chung, có hai phương pháp tra cứu ảnh cơ bản, tra cứu ảnhdựa trên từ khóa và tra cứu ảnh dựa trên nội dung Tra cứu ảnh dựatrên từ khóa nhằm mục đích tìm hình ảnh tương tự với ảnh truy vấntheo các từ khóa hoặc chú thích Phương pháp này đòi hỏi một lượnglớn lao động thủ công để chú thích ảnh trong cơ sở dữ liệu thông quaviệc gán một số từ khóa có liên quan Kết quả tra cứu dựa vào việcđối sánh từ khóa được chú thích cho các ảnh trong cơ sở dữ liệu vớicác từ khóa truy vấn dựa trên văn bản do người sử dụng đưa vào Yêucầu cơ bản của hệ thống sử dụng phương pháp này là các ảnh phảiđược chú thích trước khi chúng được thêm vào cơ sở dữ liệu lưu trữ.Nếu không, chúng sẽ không bao giờ được tra cứu khi một truy vấn dựatrên văn bản được yêu cầu Tuy nhiên, để mô tả những ảnh với mức

độ một cách cụ thể và chi tiết thì cần phải có một hệ thống từ khoálớn và tinh vi Một trở ngại khác của phương pháp này là cần phải có

Trang 10

nhân viên được đào tạo tốt không chỉ để chú thích từ khoá cho mỗiảnh mà còn phải lựa chọn những từ khoá thích hợp cho việc chú thíchnày Việc chú thích thủ công không những tiêu phí rất nhiều thời giancông sức mà nó còn phụ thuộc nhiều vào sự cảm nhận chủ quan củacon người Chẳng hạn như cùng nội dung ảnh nhưng với người dùngkhác nhau có thể cảm nhận nội dung trực quan của ảnh là khác nhau.

Sự cảm nhận chủ quan và sự chú thích không chính xác có thể dẫntới sự đối sánh không cân xứng trong quá trình tra cứu tiếp theo Hơnnữa, một hệ thống dựa trên từ khoá rất khó để thay đổi sau này Vìvậy, các nhà nghiên cứu đã xem xét đến kỹ thuật thực hiện chú thích

tự động cho ảnh số

Các kỹ thuật chú thích tự động thường sử dụng các kỹ thuật họcmáy thống kê để huấn luyện mô hình bằng cách sử dụng các ảnh đãđược chú thích đầy đủ Với sự trợ giúp của các mô hình đã được huấnluyện, hệ thống sau đó thực hiện chú thích tự động cho các ảnh khác.Nhược điểm của kỹ thuật này là mô hình đào tạo phụ thuộc rất nhiềuvào chất lượng và số lượng của các ảnh được chú thích để huấn luyện.Nếu các ảnh đã được chú thích không chính xác, không đầy đủ, phân

bố không đều, hoặc chất lượng chú thích thấp thì các mô hình thống

kê được huấn luyện sẽ không thể cung cấp chú thích chính xác cho cácảnh khác Hơn nữa, các mô hình thống kê được huấn luyện sẽ khôngthể học khái niệm ngữ nghĩa của ảnh chính xác hơn nếu thông tinphản hồi của con người về các từ khóa được chú thích tự động khôngđược cung cấp Hệ thống thử nghiệm tra cứu ảnh kỹ thuật số đầu tiênvới các ảnh được chú thích tự động được các nhà nghiên cứu tại Viện

Từ đầu những năm 2000, lĩnh vực chú thích ảnh tự động đã trở thànhmột chủ đề nghiên cứu phổ biến và thu hút ngày càng nhiều các nhà

Trang 11

nghiên cứu để xây dựng hệ thống tra cứu ảnh.

Song song với phương pháp tra cứu dựa trên kỹ thuật chú thích

tự động là sự ra đời của của phương pháp tra cứu ảnh dựa trên nộidung (CBIR) Trong phương pháp này, ảnh được biểu diễn bởi cácđặc trưng thị giác với các kiểu đặc trưng cơ bản bao gồm màu sắc,kết cấu và hình dạng Các đặc trưng này được trích chọn một cách

tự động, do vậy, nội dung của ảnh được mô tả một cách nhất quán,không phụ thuộc vào cảm nhận chủ quan của con người Một số hệthống tra cứu ảnh dựa trên phương pháp CBIR đã được phát triển

năm 1999 Đây là các hệ thống được phát triển sớm nhất cho mụcđích thương mại Cũng trong khoảng thời gian này, một số hệ thốngCBIR khác đã phát triển cho mục đích nghiên cứu như MIT Photobook

trúc và thiết kế kỹ thuật, bộ sưu tập nghệ thuật, phòng chống tộiphạm, thông tin địa lý, sở hữu trí tuệ, điều trị nội khoa, quân sự, tìm

kiếm sản phẩm,

Trong các hệ thống CBIR, các đặc trưng thị giác được trích chọn

từ mỗi ảnh và được lưu trữ trong cơ sở dữ liệu đặc trưng tương ứng.Khi một ảnh truy vấn được yêu cầu, hệ thống trước tiên sẽ trích chọnđặc trưng thị giác của ảnh truy vấn này Sau đó một phương phápđối sánh sẽ được sử dụng để so sánh độ tương tự giữa các đặc trưngthị giác của ảnh truy vấn với các đặc trưng thị giác của tất cả cácảnh trong cơ sở dữ liệu Những ảnh có giá trị độ tương tự cao được

sử dụng làm kết quả tra cứu trả về cho người dùng Do vậy, để cómột hệ thống hiệu quả thì việc xây dựng độ đo tương tự phù hợp là

Trang 12

vấn đề cốt lõi Tuy nhiên, xây dựng độ đo tương tự phù hợp là mộtnhiệm vụ khó khăn do nghĩa của “tương tự” là khá mơ hồ Nhữngngười sử dụng khác nhau hoặc thậm chí cùng một người dùng nhưngtại các thời điểm khác nhau có thể có các cảm nhận khác nhau về nộidung của cùng một ảnh dựa trên cơ sở sự quan tâm của họ về đặctrưng nào đó Ngoài ra, có những ảnh có nội dung ngữ nghĩa tương tựnhau nhưng lại rất khác nhau trong không gian đặc trưng trong khi cónhững ảnh có nội dung ngữ nghĩa rất khác nhau nhưng tự nhau trongkhông gian đặc trưng Do đó, độ chính xác của hệ thống CBIR có thểkhông được thỏa mãn do có khoảng cách giữa đặc trưng mức thấp vàcác khái niệm ngữ nghĩa Điều này đã thúc đẩy các nhà nghiên cứutìm các giải pháp để thu hẹp khoảng cách giữa đặc trưng mức thấp vàcác khái niệm ngữ nghĩa trong các hệ thống CBIR Đây cũng chính làđộng lực cơ bản của luận án này.

Các phương pháp CBIR có thể được phân thành bốn loại chính

là các phương pháp dựa trên các đặc trưng toàn cục, các phươngpháp dựa trên đặc trưng mức vùng, các phương pháp dựa trên đặctrưng mức đối tượng và các phương pháp dựa trên phản hồi liên quan

hiện trích chọn đặc trưng của toàn bộ ảnh mà không phân biệt cácvùng hoặc các đối tượng Các chiến lược đối sánh khác nhau sẽ được

sử dụng để tìm các ảnh trong cơ sở dữ liệu mà liên quan nhất với ảnhtruy vấn dựa trên các đặc trưng toàn cục Các phương pháp dựa trênđặc trưng mức vùng thường phân ảnh thành các vùng và xử lý chúngvới các mức độ quan tâm khác nhau theo độ quan trọng của nội dungtrong mỗi vùng Sau khi các đặc trưng thị giác của mỗi vùng đượctrích chọn, các thuật toán đối sánh sẽ được áp dụng để tính toán độtương tự mức vùng giữa các vùng và sau đó kết hợp độ đo tương tự

Trang 13

mức vùng thành độ đo tương tự toàn bộ So với các phương pháp dựatrên đặc trưng mức vùng, các phương pháp dựa trên đặc trưng mứcđối tượng tập chung chi tiết hơn vào thông tin nội dung Các phươngpháp này trước hết áp dụng phương pháp phân đoạn ảnh để thu đượccác đối tượng độc lập trong ảnh, sau đó các đặc trưng của các đốitượng sẽ được trích chọn và đối sánh để tính toán độ tương tự mức đốitượng sử dụng để tìm các ảnh liên quan với ảnh truy vấn Các phươngpháp dựa trên phản hồi liên quan sử dụng các phương pháp học trựctuyến có giám sát để thu hẹp khoảng cách giữa đặc trưng mức thấp

và các khái niệm ngữ nghĩa Các phương pháp này lặp đi lặp lại việcthay đổi thông tin mô tả truy vấn theo phản hồi của người dùng trêncác kết quả tra cứu Do đó, thông tin truy vấn được mô tả gần hơnvới mong muốn của người dùng và hiệu quả tra cứu sẽ được cải thiện.Mục tiêu của luận án là cải tiến một số phương pháp CBIR đểnâng cao hiệu quả tra cứu ảnh dựa trên hiệu chỉnh độ đo tương tự vàphản hồi liên quan Các mục tiêu cụ thể bao gồm tiến hành nghiêncứu trên hai vấn đề cơ bản trong lĩnh vực CBIR đó là: 1) Xây dựng

độ đo tương tự, 2) Thu hẹp khoảng cách ngữ nghĩa dựa trên thông tinphản hồi từ người dùng

- Mục tiêu nghiên cứu đầu tiên là tiến hành nghiên cứu xây dựng

độ đo tương tự hiệu quả Với mục tiêu này, luận án giải quyết haivấn đề cụ thể: 1) Cải tiến phương pháp tính toán độ đo tương tựcho hình dạng dựa trên đối sánh xương của chúng và 2) xây dựng

mô hình phù hợp cho việc kết hợp nhiều đặc trưng để xây dựng

độ đo tương tự

- Mục tiêu thứ hai là tiến hành nghiên cứu khai thác hiệu quả thôngtin phản hồi từ người dùng để điều chỉnh kết quả truy vấn Trong

Trang 14

tra cứu ảnh với phản hồi liên quan, hệ thống cần phải thực hiệnmột số vòng lặp Trong mỗi vòng lặp, hệ thống sẽ trả lại một danhsách các ảnh tương tự nhất với ảnh truy vấn dựa trên độ tương tựgiữa chúng Sau đó, các ảnh này sẽ được đưa cho người sử dụnggán nhãn liên quan hoặc không liên quan với ảnh truy vấn Sửdụng những ảnh đã được gán nhãn này như là những mẫu, những

kỹ thuật học sẽ được áp dụng để điều chỉnh độ đo tương tự saocho phù hợp với mong muốn của người dùng Với mục tiêu này,luận án sẽ tập trung giải quyết vấn đề làm thế nào để hệ thốngcho ra kết quả tốt sau ít vòng phản hồi nhất

Những đóng góp của luận án này được tổng hợp như sau:

1) Cải tiến kỹ thuật đối sánh hình dạng đối tượng cải tiến dựa trênđối sánh đồ thị xương nhằm tăng độ chính xác tìm kiếm ảnh theonội dung

2) Đề xuất mô hình kết hợp nhiều đặc trưng trong việc xây dựng độ

đo tương tự để thu hẹp khoảng cách ngữ nghĩa trong tra cứu ảnh.3) Đề xuất kỹ thuật lựa chọn dữ liệu trong học chủ động với phảnhồi liên quan để tăng độ chính xác tra cứu ảnh theo nội dung với

ít vòng phản hồi

Luận án được trình bày như sau:

Chương 1 Trình bày một số vấn đề cơ bản trong tra cứu ảnh dựa

trên nội dung với phản hồi liên quan, trên cơ sở đó đưa ra một sốkết luận định hướng cho nghiên cứu tiếp theo

Chương 2 Trình bày chi tiết về các thách thức trong đối sánh hình

dạng sử dụng xương, đề xuất phương pháp hiệu quả cho đối sánh

Trang 15

đồ thị xương thông qua việc nhúng thông tin cấu trúc vào bàitoán đối sánh đồ thị xương.

Chương 3 Trình bày mô hình tích hợp nhiều đặc trưng để xây dựng

độ đo tương tự cho tra cứu ảnh Đề xuất mô hình kết hợp độ đotương tự của các đặc trưng dựa trên tích phân Choquet

Chương 4 Giải quyết vấn đề thu hẹp khoảng cách ngữ nghĩa trong

CBIR với phản hồi liên quan dựa trên mô hình học chủ động.Luận án đề xuất kỹ thuật xây dựng tập huấn luyện hiệu quả dựatrên thông tin phản hồi từ người dùng để cải thiện hiệu năng tracứu

Kết luận Tổng kết các kết quả đã đạt được, những điểm tồn tại và

hướng nghiên cứu tiếp theo

Trang 16

để giải quyết trong luận án này Và cuối cùng là tóm tắt nội dung củachương.

Thuật ngữ tra cứu ảnh dựa trên nội dung đã được Kato sử dụngđầu tiên vào năm 1992 để mô tả những thí nghiệm về lĩnh vực tra cứu

tự động những hình ảnh từ một cơ sở dữ liệu dựa trên đặc trưng hìnhdạng và màu sắc Từ đó, nó được sử dụng rộng rãi để mô tả quá trình

Trang 17

tra cứu những hình ảnh mong muốn từ một tập hợp lớn hình ảnh dựatrên những đặc trưng thị giác như màu sắc, kết cấu và hình dạng, vànhững đặc trưng này được trích chọn một cách tự động từ chính nhữnghình ảnh đó Sơ đồ kiến trúc chung của hệ thống tra cứu ảnh dựa trên

Ảnh truy vấn

Phân tích truy vấn

Hình 1.1: Kiến trúc chung của hệ thống CBIR

Trong một quy trình tra cứu thông thường, người dùng đầu tiênđưa vào một ảnh mẫu để truy vấn hệ thống CBIR Ảnh mẫu được sửdụng để miêu tả những thông tin người dùng cần Để trả lời truy vấn,

hệ thống CBIR tìm trong tập ảnh để đưa ra những ảnh tương tự vớiảnh mẫu Trong ngữ cảnh của CBIR, độ tương tự được xác định dựatrên các đặc trưng thị giác biểu diễn nội dung ảnh Do đó, hệ thốngCBIR sẽ trích chọn các đặc trưng thị giác từ ảnh mẫu Đo độ tương

tự được thực hiện dựa trên những đặc trưng thị giác của ảnh mẫu vàcủa mỗi ảnh trong CSDL ảnh Việc trích chọn đặc trưng cho tập ảnh

Trang 18

thường được tiến hành trước Cuối cùng, những ảnh trong CSDL ảnhđược xếp hạng theo sự tương đồng với ảnh truy vấn, và một số ảnhđược xếp hạng phía cao hơn sẽ được trả về trong kết quả tìm kiếm.Như vậy, một hệ thống CBIR không chỉ liên quan tới các dạng khácnhau của thông tin nguồn (ví dụ như văn bản, ảnh, video) mà còn liênquan đến nhu cầu của người sử dụng Về cơ bản nó phân tích cả nộidung của nguồn thông tin cũng như truy vấn của người sử dụng vàsau đó đối sánh chúng để tìm ra những tiêu chí có liên quan Một hệthống CBIR có các chức năng chính như sau:

- Phân tích và biểu diễn nội dung của thông tin nguồn: Thông tinnguồn được phân tích và biểu diễn cho phù hợp với sự đối sánhtruy vấn của người sử dụng (không gian của thông tin nguồnđược chuyển đổi thành không gian đặc trưng với mục đích đốisánh nhanh trong bước tiếp theo) Bước này thường là mất nhiềuthời gian để xử lý tuần tự các thông tin nguồn trong cơ sở dữ liệu

Nó chỉ phải làm một lần và có thể thực hiện ngoại tuyến (offline)

- Phân tích và biểu diễn nội dung truy vấn của người dùng: Truyvấn của người dùng được phân tích và biểu diễn thành các dạngphù hợp cho việc đối sánh với cơ sở dữ liệu nguồn Nhiệm vụ củabước này giống với bước trước nhưng chỉ được áp dụng với nhữngảnh truy vấn và được thực hiện trực tuyến (online)

- Đối sánh, tìm kiếm truy vấn với thông tin được lưu trữ trong cơ

sở dữ liệu Bước này có thể thực hiện trực tuyến và thực hiện rấtnhanh Các công nghệ đánh chỉ số được sử dụng để tăng tốc độ

xử lý đối sánh

- Tạo ra sự điều chỉnh cần thiết trong hệ thống Bước này thườngđược thực hiện bằng cách đối chiếu và điều chỉnh các tham số

Trang 19

trong kỹ thuật đối sánh dựa trên thông tin phản hồi từ người sửdụng hoặc những hình ảnh được tra cứu.

Từ trình bày ở trên ta thấy, một mặt hệ thống tra cứu ảnh dựatrên nội dung có các nguồn thông tin thị giác khác nhau, mặt kháclại có cả các yêu cầu của người sử dụng, chúng được liên kết với nhauqua một loạt các công việc Làm thế nào để mô tả thông tin ngườidùng và truy vấn hệ thống tra cứu là một vấn đề cần thiết của CBIR.Một phương pháp truy vấn tốt là phương pháp gần gũi với người sửdụng, tức là cung cấp đầy đủ thông tin từ người sử dụng để có thể thuđược những kết quả có ý nghĩa Những phương pháp truy vấn sau đâythường được sử dụng trong các hệ thống CBIR:

- Truy vấn bởi ví dụ (QBE-Query By Example): Trong phươngpháp này người sử dụng chỉ định một ảnh truy vấn gốc dựa trên

cơ sở dữ liệu ảnh được tìm kiếm và so sánh Ảnh truy vấn cóthể là một ảnh chuẩn, một ảnh quét với độ phân giải thấp, hoặcngười sử dụng vẽ bằng cách sử dụng công cụ vẽ đồ họa Ưu điểmcủa phương pháp này là rất tự nhiên đối với người sử dụng để tracứu ảnh trong cơ sở dữ liệu ảnh

- Truy vấn bởi đặc điểm (QBF- Query By Feature): Trong phươngpháp này người dùng chỉ định câu truy vấn với những đặc điểmđược chỉ định rõ ràng, đó là những đặc điểm được quan tâm trongtìm kiếm Ví dụ người dùng có thể truy vấn cơ sở dữ liệu ảnh bằngviệc đưa ra một câu lệnh “Tìm tất cả những ảnh chứa 20% điểmmàu đỏ” Truy vấn này được người dùng chỉ định bởi việc sử dụngcông cụ giao diện đồ họa đặc biệt Những người sử dụng chuyênnghiệp thì có thể dễ dàng thực hiện tìm kiếm theo kiểu truy vấnnày nhưng những người không chuyên thì rất khó QBIC là một

Trang 20

ví dụ về hệ thống tra cứu ảnh dựa trên nội dung mà người sửdụng truy vấn kiểu này.

- Truy vấn dựa trên thuộc tính (Attribute-Based Queries): Phươngpháp này sử dụng những chú giải được người dùng mô tả trướcbởi các từ khóa Mô tả kiểu này đòi hỏi phải có mức trừu tượngcao, và rất khó đạt được mức độ tự động hoá hoàn toàn bởi vì ảnhgồm rất nhiều thông tin và rất khó có thể tổng kết bằng một ít

từ khoá Kiểu truy vấn này, nhìn chung là nhanh hơn và dễ thựcthi hơn, nhưng nó có nhiều khó khăn khi thực hiện chú thích ảnhnhư đã giới thiệu phần trước

Phương pháp truy vấn dựa trên thuộc tính thể hiện tính tự nhiênnhất Người sử dụng thường thích truy vấn hệ thống bằng câu hỏi tựnhiên như “Tìm tất cả các ảnh trong bộ sưu tập mà có hình ảnh conmèo” Tuy nhiên, việc ánh xạ câu hỏi bằng ngôn ngữ tự nhiên nàythành truy vấn trên cơ sở dữ liệu ảnh là vô cùng khó đối với việc

sử dụng những phương pháp được tự động Khả năng máy tính thựchiện nhận dạng đối tượng tự động trên ảnh vẫn đang là vấn đề nghiêncứu mở Hầu hết những nghiên cứu cũng như các hệ thống mang tínhthương mại đều tập trung xây dựng những hệ thống thực hiện truy

vấn được sử dụng trong các thí nghiệm đánh giá của luận án

1.1.1 Trích chọn đặc trưng mức thấp

Dữ liệu ảnh thô không được sử dụng trực tiếp trong hầu hết các

hệ thống thị giác máy vì hai lý do: Thứ nhất, tốn nhiều không gian

để lưu trữ ảnh và độ phức tạp tính toán lớn Thứ hai, nhiều thông tin

Trang 21

của ảnh dư thừa và (hoặc) không hữu ích Thay vì sử dụng toàn bộảnh, chúng ta chỉ cần sử dụng một số biểu diễn quan trọng nhất Bướcbiểu diễn ảnh được gọi là trích chọn đặc trưng và kết quả của biểudiễn là véc-tơ đặc trưng Trích chọn đặc trưng có thể xem như việcánh xạ ảnh từ không gian ảnh sang không gian đặc trưng Trong ngữcảnh của CBIR, các đặc trưng ảnh có thể được phân thành đặc trưngthị giác và đặc trưng ngữ nghĩa Các đặc trưng thị giác bao gồm màu,kết cấu, hình dạng và quan hệ không gian Đặc trưng ngữ nghĩa không

dễ dàng được trích rút và thường được suy diễn từ các đặc trưng mứcthấp hoặc sử dụng văn bản mô tả ảnh Hiệu quả tra cứu ảnh phụ thuộcvào khả năng mô tả nội dung ảnh cho các ứng dụng cụ thể Do nhậnthức chủ quan, nên không tồn tại cách biểu diễn tốt nhất cho mỗi đặctrưng thị giác, vì vậy, với mỗi đặc trưng có thể có nhiều cách để biểudiễn từ những ngữ cảnh khác nhau Chẳng hạn, đặc trưng màu có thểđược biểu diễn bởi biểu đồ màu và mô men màu; đặc trưng hình dạng

có thể biểu diễn bởi biểu đồ hệ số góc và GIST; đặc trưng kết cấu cóthể biểu diễn bởi mã nhị phân cục bộ và biến đổi wavelet Dưới đây

là một số mô tả đặc trưng thị giác thường được sử dụng trong các hệ

nghiệm đánh giá của luận án

Biểu đồ màu

Mắt của con người rất nhạy cảm với màu sắc, và đặc trưng màu

là một trong những thành phần quan trọng nhất giúp con người có khảnăng nhận biết hình ảnh Vì vậy đặc trưng màu là một trong nhữngđặc trưng cơ bản của nội dung ảnh và được sử dụng rộng rãi trongcác hệ thống tra cứu ảnh dựa trên nội dung Màu sắc thường đượcxác định trong không gian màu 3 chiều Các nhà nghiên cứu đã khám

Trang 22

phá ra nhiều kỹ thuật để phân loại màu thành các không gian màukhác nhau Không gian màu RGB được định nghĩa như là một hìnhlập phương đơn vị với 3 trục tương ứng là Red, Green và Blue như

một véc-tơ với ba tọa độ Khi tất cả ba giá trị đều bằng 0 thì cho màuđen, khi tất cả ba giá trị đều bằng 1 thì cho màu trắng Việc kết hợp

ba màu chính này tạo ra vô số màu

Hình 1.2: Không gian màu RGB

Không gian màu RGB được sử dụng phổ biến cho ảnh kỹ thuật

số Tuy nhiên, do mô hình không gian màu RGB khó cảm nhận, chẳnghạn như người sử dụng khó có được sự cảm nhận về màu có giá trịRed = 100, Green = 80, Blue = 50 và khó tìm ra được sự khác nhaugiữa hai màu (R = 100, G = 50, B = 50) và (R = 100, G = 150, B

= 150) Do vậy, khoảng cách tính toán dựa trên mô hình không gianmàu RGB không phản ánh được cảm nhận sự khác biệt màu thực tế.Không gian màu HSV được đề xuất bởi Smith và các cộng sự

như sắc độ, độ bão hòa và độ sáng So sánh với không gian màu RGB,không gian màu HSV dễ dàng tạo ra sự phân biệt giữa các đối tượng

do thông tin trong ba kênh là tương đối độc lập, hơn nữa, nó có mối

Trang 23

Hình 1.3: Không gian màu HSV

liên quan gần gũi hơn với sự nhận thức về màu sắc của con người và đãđược chứng minh là hiệu quả trong nhiều nghiên cứu trước về CBIR

Sắc độ là góc giữa những đường tham chiếu và điểm gốc màu trong

là khoảng cách từ tâm đến cạnh hình nón và chiều cao của đường cắthình nón chính là độ sáng hoặc độ chói của màu Khi độ bão hoà S =

0 thì sắc độ H không xác định, giá trị nằm trên trục độ sáng V biểudiễn ảnh xám

Biểu đồ màu là một trong những đặc trưng màu được sử dụngrộng rãi nhất, được dùng để miêu tả đặc trưng màu của một ảnh, đếm

một ảnh được định nghĩa bởi:

Trang 24

Mô men phân bố màu

Mô men phân bố màu là một dạng đặc trưng khác của màu, làcác mô men thống kê của các phân bố xác suất của các màu Các mômen màu được sử dụng trong nhiều hệ thống tra cứu ảnh như QBIC

bậc ba (độ lệch), đã được minh chứng là hiệu quả trong biểu diễn các

được xác định như sau:

Trang 25

theo Sobel được thể hiện theo công thức sau:

hướng ngang và hướng dọc, ~ ký hiệu toán tử nhân chập hai chiều, và

I là ảnh gốc Dựa trên G x , G y, hệ số góc của mỗi điểm ảnh được tínhtoán bởi:

θ = arctan G y

G x

!

(1–7)Mỗi hệ số góc có thể được lượng tử hóa thành một trong những khoảngđược chỉ định Ví dụ, nếu số khoảng của biểu đồ hệ số góc được đặt là

đồ hệ số góc có thể được tính toán bằng cách đếm số điểm ảnh có hệ

số góc nằm trong khoảng tương ứng Biểu đồ này sau đó được chuẩnhóa theo công thức sau:

Ở đây, ED(i) là số điểm ảnh có hệ số góc nằm trong khoảng i, N là tổng số điểm ảnh trong ảnh, m là số khoảng của biểu đồ.

Trang 26

Đặc trưng GIST

hợp thông tin gradient (tỷ lệ và hướng) cho các phần khác nhau củaảnh Với việc nhân chập ảnh với 32 bộ lọc Gabor tại 4 tỷ lệ và 8 hướng,

32 bản đồ đặc trưng cùng cỡ với ảnh gốc được tạo ra Mỗi bản đồ đặctrưng này sau đó được chia thành 16 vùng bởi lưới 4x4 và giá trị đặctrưng trung bình của mỗi vùng được tính toán Các giá trị trung bìnhnày hình thành véc-tơ 16x32=512 chiều biểu diễn đặc trưng GIST củaảnh Đặc trưng GIST được chỉ ra là cho kết quả tốt trong tìm kiếmảnh [27]

Mẫu nhị phân cục bộ

Mẫu nhị phân cục bộ (Local binary patterns) là một kiểu biểudiễn cấu trúc không gian của đặc trưng kết cấu cục bộ trong ảnh, và

là một toán tử kết cấu đơn giản nhưng rất hiệu quả Ý tưởng cơ bản

để phát triển toán tử LBP là kết cấu bề mặt hai chiều có thể được mô

tả bằng hai độ đo: mô hình không gian cục bộ và độ tương phản tỷ lệmức xám Toán tử LBP ban đầu tạo nhãn cho các điểm ảnh bằng cáchphân ngưỡng 3x3 láng giềng của mỗi điểm với giá trị tâm và xem xét

nhau sau đó được sử dụng để biểu diễn kết cấu Toán tử này sử dụngcùng với độ đo tương phản cục bộ đơn giản đã cung cấp hiệu suất rấttốt trong phân đoạn kết cấu không giám sát Toán tử này đã được mở

sử dụng các láng giềng xung quanh và các giá trị nội suy tại các tọa

độ điểm ảnh không nguyên Sự biến thiên tỷ lệ mức xám có thể được

Trang 27

LBP Điểm ảnh khảo sát được xem là trung tâm so với các điểm ảnhlân cận xung quanh của nó, giá trị mẫu được tính bằng cách so sánhgiá trị của điểm ảnh trung tâm với các lân cận như sau:

xám các lân cận của nó, P là số điểm ảnh lân cận và R là bán kính

là (0,0), khi đó tọa độ của g p được cho bởi −R.sin( 2πp P ), R.cos2πp P .Trường hợp tọa độ của các điểm ảnh lân cận tính từ công thức nàykhông rơi vào tọa độ của lưới điểm ảnh thì sẽ được nội suy đến điểmảnh gần nhất

đường tròn với tâm là điểm ảnh khảo sát Các điểm ảnh lân cận không rơi chính

xác vào lưới điểm ảnh được nội suy.

Giả sử ảnh kết cấu có kích thước n × m Sau khi xác định mẫu LBP của mỗi điểm ảnh (i, j), ảnh kết cấu được biểu diễn bằng biểu

Trang 28

đồ, với L là giá trị mẫu LBP cực đại:

Giá trị U của một mẫu LBP được định nghĩa như một số bước dịch

trong không gian (các thay đổi khi dịch bit 0/1) của mẫu:

Biến đổi Gabor wavelet

Lọc Gabor được sử dụng rộng rãi để trích rút các đặc trưng ảnh,đặc biệt là các đặc trưng kết cấu Nó tối ưu về mặt cực tiểu hoá sựkhông chắc chắn chung trong miền không gian và miền tần số, vàthường được sử dụng như một hướng và tỷ lệ biên điều hướng và pháthiện đường Có nhiều cách tiếp cận đã được đề xuất để biểu diễn các

Trang 29

rộng lọc Gabor 1-D thành hàm Gauss 2-D được định nghĩa như sau:

2πσ x σ y exp



−12

Trong đó, các thông số của bộ lọc Gabor là tần số điều chế ω, tỷ lệ

đó một tập các lọc Gabor có thể thu được bởi sự co giãn và quay thíchhợp của g(x, y):

trưng

Do mỗi đặc trưng đơn thường chỉ mô tả được một khía cạnh củanội dung ảnh, nên sử dụng nhiều đặc trưng thị giác cho CBIR là cầnthiết để cải thiện hiệu năng tra cứu của hệ thống Tuy nhiên, làm thếnào để khai thác hiệu quả nhiều đặc trưng thị giác trong CBIR vẫncòn là bài toán mở Luận án sẽ nghiên cứu các phương pháp đo độtương tự sử dụng nhiều đặc trưng thị giác

Trang 30

độ đo khoảng cách Trong những năm qua, một số lượng lớn các độ

đo tương tự khác nhau đã được đề xuất bởi cộng đồng các nhà nghiêncứu Trong phần này sẽ trình bày một số độ đo được sử dụng rộng rãicho các biểu diễn đặc trưng ở trên

Trang 31

Trong lĩnh vực CBIR, có một số độ đo khoảng cách được sử dụng

để tính toán tương tự, chẳng hạn như độ đo Minkowski, Hausdorff,phân tách K-L, khoảng cách dịch chuyển Trái đất (EMD), và đối sánhvùng tích hợp (IRM)

Khoảng cách Ơ-cơ-lit (khoảng cách L2) và khoảng cách tan (khoảng cách L1) là trường hợp đặc biệt của độ đo Minkowski.Ơ-cơ-lit có trọng số đã được sử dụng cho các mô men màu trong hệ

và y, được định nghĩa bởi:

D L2 (x, y) =

v u t

Khoảng cách Manhattan được sử dụng để tính toán khoảng cách

Trang 32

véc-tơ x và y, được định nghĩa như sau:

Khoảng cách Hausdorff được áp dụng trong tra cứu ảnh dựa trên

hai tập hợp điểm A và B, được định nghĩa bởi:

Sự chênh lệch K-L(Kullback-Leibler) được sử dụng trong phương

giữa hai phân bố f (.) và g(.) trong trường hợp liên tục có thể được

Khoảng cách dịch chuyển trái đất (EMD) được sử dụng rộng rãi

tự trong tri giác và có thể được áp dụng cho các biểu diễn có độ dàithay đổi Khoảng cách EMD dựa trên giá trị tối thiểu để biến đổi mộtphân bố thành một phân bố khác:

Trang 33

Ở đây d ij biểu thị khoảng cách giữa các cụm thứ i và j của hai chuỗi,

ij g ij d ij làcực tiểu thỏa mãn các ràng buộc sau:

Pn i=1 f ij ≤ ω qj , 1 ≤ j ≤ n

i=1

Pn j=1 f ij = minPm

i=1 ω pi ,Pn

j=1 ω qj

(1–22)

i và thứ j của hai chuỗi

Lựa chọn của các độ đo tương tự phụ thuộc vào mô tả đặc trưng

đã chọn Trong thực tế, một số mô tả có thể sử dụng với độ đo chuẩn,một số khác đòi hỏi các độ đo đặc biệt được thiết kế cho phù hợp Dovậy, cần phải phát triển các độ đo hiệu quả hơn cho các ứng dụng cụthể Luận án sẽ nghiên cứu phương pháp xây dựng độ đo tương tự chomục đích này

1.1.3 Đánh giá hiệu năng hệ thống

Độ chính xác (Precision) và triệu hồi (Recall) là hai trong số các

là tỷ số giữa số lượng ảnh liên quan được tìm bởi hệ thống và tổng số

lượng ảnh liên quan được tìm bởi hệ thống và số ảnh liên quan hiện

có Ký hiệu R là tập các ảnh liên quan đến ảnh truy vấn trong CSDL

Trang 34

và triệu hồi với truy vấn q được định nghĩa bởi:

precision q = |R A|

|A| ; recall q = |R A|

Hình 1.5: Recall và Precision cho các kết quả truy vấn

Một phép đo phổ biến khác là độ chính xác trung bình (MAP)

đánh giá hiệu năng của hệ thống CBIR với phản hồi liên quan MAPđược định nghĩa là giá trị trung bình của tất cả các độ chính xác riêngbiệt cho một tập các truy vấn Độ đo này được định nghĩa bởi:

tới truy vấn q Tổng quan về các độ đo hiệu năng cho CBIR có thể tìm

tính trên số lượng các truy vấn Thông thường, số lượng các truy vấn

Trang 35

1.1.3.1 Tập dữ liệu thực nghiệm

Một số tập dữ liệu ảnh được sử dụng để đánh giá trong các hệ

MPEG-7

• Tập dữ liệu Corel15K Là một phần của tập dữ liệu Corel PhotoGallery gồm 15000 ảnh được phân thành 150 lớp với các chủ đềngữ nghĩa khác nhau, mỗi lớp có 100 ảnh

gồm 9144 ảnh được phân thành 101 lớp với 40 đến 800 ảnh trênmột lớp

• Tập dữ liệu Oliva bao gồm 2600 ảnh được tổ chức thành 8 lớp:Coast & Beach, open country, forest, Mountain, highway street,city center, Tall building, mỗi lớp có từ 260 đến 409 ảnh

gồm hai tập nhỏ: Tập dữ liệu thứ nhất (Kimia’s 99) gồm 99 ảnhđược phân thành 9 lớp, mỗi lớp có 11 ảnh trong đó một số bịkhuyết một phần, một số bị thừa ra một phần Tập dữ liệu thứ

2 (Kimia’s 216) gồm 216 ảnh chia làm 18 lớp, mỗi lớp có 12 ảnhvới một loạt các ảnh hình dạng của đối tượng bị che khuất mộtphần

tượng, được phân thành 70 lớp, mỗi lớp có 20 ảnh

Đây là các tập dữ liệu sẽ được sử dụng trong các thí nghiệm để đánhgiá hiệu năng của các đề xuất trong luận án

Trang 36

1.2 Độ đo tương tự kết hợp các đặc trưng

Kết hợp các đặc trưng nhằm mục đích đo độ tương tự của ảnh

sử dụng nhiều đặc trưng thị giác Có hai hướng tiếp cận kết hợp đặc

Ngược lại với phương pháp hợp nhất đặc trưng, tích hợp đặctrưng sử dụng tiếp cận khác đó là kết hợp nhiều độ đo khoảng cáchđặc trưng để xây dựng độ đo tương tự của ảnh Các đặc trưng khácnhau có thể đòi hỏi các độ đo khoảng cách khác nhau để đo độ tương

tự Kết hợp các độ đo của các đặc trưng khác nhau để xây dựng độ

đo tổng thể giúp cải thiện hiệu năng tra cứu trong CBIR do nhiều đặctrưng sẽ mô tả hiệu quả hơn nội dung ảnh Lợi thế của kết hợp đặctrưng là các độ đo khoảng cách riêng có thể được áp dụng cho các đặctrưng thị giác khác nhau Hơn nữa, độ đo khoảng cách có thể đượcthiết kế đặc biệt bằng cách xét đến các tính chất tự nhiên của các đặctrưng thị giác sao cho phù hợp với cảm nhận về độ tương tự

Các phương pháp kết hợp có thể dựa trên các phép toán hợp nhất

đơn giản này có hiệu quả trong một số ứng dụng, nhưng chúng khôngxét đến mức độ quan trọng khác nhau của các đặc trưng thị giác chotruy vấn khác nhau Phương pháp kết hợp tuyến tính đã được đề xuất

để kết hợp nhiều khoảng cách của các đặc trưng cho mục đích CBIR.Phương pháp này thiết lập các trọng số các đặc trưng thị giác để mô

Boolean đã được áp dụng để kết nhiều độ đo khoảng cách đặc trưng

phát biểu sự kết hợp như bài toán quyết định và được giải quyết bằng

Trang 37

một phương pháp quyết định dựa trên logic mờ Tuy nhiên, rất khó cóthể chọn một phương pháp kết hợp thích hợp để đáp ứng tốt hơn nhucầu của người dùng.

Một hướng tiếp cận khác để kết hợp các đặc trưng dựa trên học

tuyến tính theo các ảnh mẫu thu được thông qua thông tin phản hồiliên quan Phương pháp tối ưu hóa cho các hàm kết hợp được trình

hợp các độ tương tự của các biểu diễn trong MPEG-7 cho mục đích

không quan trọng trên một số các ảnh mẫu huấn luyện khác nhau.Các tiếp cận tích hợp đặc trưng nói trên có điểm chung là chỉ coicác đặc trưng là độc lập Tuy nhiên, trong thực tế, các đặc trưng cóthể sẽ trở lên quan trọng khi chúng xuất hiện cùng một hoặc một vàiđặc trưng khác, nghĩa là, chúng có sự tương tác lẫn nhau Do vậy môhình kết hợp các đặc trưng cần phải xem xét tới yếu tố này Vấn đềnày sẽ được nghiên cứu trong luận án

Trong tra cứu ảnh dựa trên nội dung, ảnh được đánh chỉ mục vàtra cứu dựa trên nội dung thị giác của chúng, chẳng hạn như màu, kết

thực tế, con người có xu hướng sử dụng các khái niệm mức cao, chẳnghạn như từ khóa, mô tả văn bản để giải thích hình ảnh và đo độ tương

Trang 38

thấp và các khái niệm mức cao Như minh họa trong hình 1.6, mặc

dù hai ảnh ngữ nghĩa khác nhau nhưng có đặc trưng (biểu đồ màu)giống nhau và ngược lại Mặc dù nhiều thuật toán phức tạp đã đượcthiết kế để mô tả các đặc trưng của ảnh nhưng các thuật toán này vẫnkhông thể phản ánh thỏa đáng ngữ nghĩa ảnh Do vậy, khoảng cáchngữ nghĩa giữa các đặc trưng mức thấp và các khái niệm mức cao vẫncòn lớn nên hiệu suất của CBIR là vẫn còn xa với mong đợi của ngườidùng [22]

Hình 1.6: Ví dụ về khoảng cách ngữ nghĩa trong CBIR, cột (a) hai ảnh ngữ nghĩa khác nhau nhưng có đặc trưng (biểu đồ màu) giống nhau, cột (b) hai ảnh ngữ nghĩa giống nhau nhưng có đặc trưng (biểu đồ màu) khác nhau

Phản hồi liên quan (RF-Relevance Feedback) sử dụng trong tra

thành một công nghệ phổ biến cho CBIR để giảm khoảng cách ngữ

thông qua học cùng với sự điều chỉnh của người dùng trên kết quảtra cứu Theo cách này, hệ thống cần phải chạy qua một số vòng lặp.Trong mỗi vòng lặp, hệ thống trước tiên sẽ trả về một danh sách cácảnh kết quả đã được sắp xếp gần nhất với ảnh truy vấn dựa trên một

độ đo tương tự Sau đó, một số ảnh được đưa ra để người dùng gánnhãn liên quan hoặc không liên quan tới ảnh truy vấn Sử dụng cácảnh đã được gán nhãn này như là các mẫu, các kỹ thuật học máy sẽ

Trang 39

được sử dụng để học và định nghĩa lại kết quả tra cứu Quá trình xử

lý của các phương pháp RF trong CBIR được mô tả như sau:

1 Khi ảnh truy vấn được đưa vào, hệ thống trả lại kết quả tra cứu.Quá trình này có hai trường hợp:

(a) Pha ban đầu: Dựa vào độ đo tương tự của các đặc trưng mứcthấp giữa ảnh truy vấn với các ảnh trong cơ sở dữ liệu để xếphạng ảnh kết quả

(b) Trong các vòng lặp RF: Sử dụng hàm phân lớp để xếp hạngảnh kết quả

2 Người sử dụng sẽ quyết định gán nhãn cho một số ảnh kết quả

có mức độ giống với ý định của mình nhất Đó là những ảnh liênquan (mẫu dương) hay không liên quan (mẫu âm) với ảnh truyvấn

3 Thuật toán máy học sẽ được áp dụng để học thông tin phản hồicủa người dùng dựa vào các ảnh đã được gán nhãn thu được từvòng lặp đầu tiên đến vòng lặp hiện tại Sau đó, quay lại bước 1

Quá trình này sẽ được lặp lại nhiều lần cho đến khi người dùng

trong CBIR

Sự khác biệt giữa các phương pháp phản hồi liên quan được xácđịnh dựa trên chiến lược giải thích độ liên quan của ảnh mà ngườidùng sử dụng và kiểu hệ thống học Người dùng có thể giải thích độliên quan của ảnh bằng việc gán cho các ảnh các điểm số hoặc chỉ định

là liên quan hoặc không liên quan Kiểu học có thể là học chủ độnghoặc học bị động Với học bị động, hệ thống trả lại cho người dùng

Trang 40

Hình 1.7: Sơ đồ tổng quan của CBIR với phản hồi liên quan

những ảnh được xem là liên quan nhất (chắc chắn nhất) Trong khi

đó, với học chủ động, hệ thống sẽ trả về cho người dùng những ảnhđược xem là không chắc chắn nhất nên khi được người dùng đánh giá

sẽ nhận được nhiều thông tin hơn và do đó sẽ thu được kết quả tốthơn

Trong các hệ thống CBIR với phản hồi liên quan, người dùngđóng một vai trò quan trọng Các thông tin phản hồi chính xác từngười dùng sẽ góp phần cải thiện hiệu năng của hệ thống tra cứu Dovậy, các nhà nghiên cứu đã tập trung áp dụng các kỹ thuật học máytrên những phản hồi của người dùng để cải thiện hiệu năng tra cứu

Kỹ thuật cập nhật truy vấn và kỹ thuật học thống kê là những kỹthuật được sử dụng phổ biến trong các hệ thống CBIR với phản hồiliên quan [63]

Định dạng
Số trang	132
Dung lượng	3,74 MB