Trong xã hội hiện đại, việc tìm kiếm, truy cập các thông tin đã trở thành nhu cầu không thể thiếu trong công việc của mọi người và trong cuộc sống hàng ngày. Cùng với nhu cầu tìm kiếm văn bản, nhu cầu tìm kiếm ảnh cũng nhận được nhiều quan tâm của người sử dụng. Với số lượng ngày càng tăng của các hình ảnh kỹ thuật số trên Internet và trong các thư viện kỹ thuật số, nhu cầu về các công cụ để quản lý và khai thác hiệu quả cơ sở dữ liệu ảnh lớn đã phát triển nhanh chóng. Việc phát triển các hệ thống tra cứu ảnh để tìm những ảnh quan tâm trong trong số lượng lớn các ảnh được lưu trữ đã trở thành lĩnh vực nghiên cứu nhận được nhiều sự quan tâm những năm gần đây. Nói chung, có hai phương pháp tra cứu ảnh cơ bản, tra cứu ảnh dựa trên từ khóa và tra cứu ảnh dựa trên nội dung. Tra cứu ảnh dựa trên từ khóa nhằm mục đích tìm hình ảnh tương tự với ảnh truy vấn theo các từ khóa hoặc chú thích. Phương pháp này đòi hỏi một lượng lớn lao động thủ công để chú thích ảnh trong cơ sở dữ liệu thông qua việc gán một số từ khóa có liên quan. Kết quả tra cứu dựa vào việc đối sánh từ khóa được chú thích cho các ảnh trong cơ sở dữ liệu với các từ khóa truy vấn dựa trên văn bản do người sử dụng đưa vào. Yêu cầu cơ bản của hệ thống sử dụng phương pháp này là các ảnh phải được chú thích trước khi chúng được thêm vào cơ sở dữ liệu lưu trữ. Nếu không, chúng sẽ không bao giờ được tra cứu khi một truy vấn dựa trên văn bản được yêu cầu. Tuy nhiên, để mô tả những ảnh với mức độ một cách cụ thể và chi tiết thì cần phải có một hệ thống từ khoá lớn và tinh vi. Một trở ngại khác của phương pháp này là cần phải cónhân viên được đào tạo tốt không chỉ để chú thích từ khoá cho mỗi ảnh mà còn phải lựa chọn những từ khoá thích hợp cho việc chú thích này. Việc chú thích thủ công không những tiêu phí rất nhiều thời gian công sức mà nó còn phụ thuộc nhiều vào sự cảm nhận chủ quan của con người. Chẳng hạn như cùng nội dung ảnh nhưng với người dùng khác nhau có thể cảm nhận nội dung trực quan của ảnh là khác nhau. Sự cảm nhận chủ quan và sự chú thích không chính xác có thể dẫn tới sự đối sánh không cân xứng trong quá trình tra cứu tiếp theo. Hơn nữa, một hệ thống dựa trên từ khoá rất khó để thay đổi sau này. Vì vậy, các nhà nghiên cứu đã xem xét đến kỹ thuật thực hiện chú thích tự động cho ảnh số. Các kỹ thuật chú thích tự động thường sử dụng các kỹ thuật học máy thống kê để huấn luyện mô hình bằng cách sử dụng các ảnh đã được chú thích đầy đủ. Với sự trợ giúp của các mô hình đã được huấn luyện, hệ thống sau đó thực hiện chú thích tự động cho các ảnh khác. Nhược điểm của kỹ thuật này là mô hình đào tạo phụ thuộc rất nhiều vào chất lượng và số lượng của các ảnh được chú thích để huấn luyện. Nếu các ảnh đã được chú thích không chính xác, không đầy đủ, phân bố không đều, hoặc chất lượng chú thích thấp thì các mô hình thống kê được huấn luyện sẽ không thể cung cấp chú thích chính xác cho các ảnh khác. Hơn nữa, các mô hình thống kê được huấn luyện sẽ không thể học khái niệm ngữ nghĩa của ảnh chính xác hơn nếu thông tin phản hồi của con người về các từ khóa được chú thích tự động không được cung cấp. Hệ thống thử nghiệm tra cứu ảnh kỹ thuật số đầu tiên với các ảnh được chú thích tự động được các nhà nghiên cứu tại Viện Công nghệ Massachusetts phát triển vào đầu những năm 1990 [83]. Từ đầu những năm 2000, lĩnh vực chú thích ảnh tự động đã trở thành một chủ đề nghiên cứu phổ biến và thu hút ngày càng nhiều các nhànghiên cứu để xây dựng hệ thống tra cứu ảnh. Song song với phương pháp tra cứu dựa trên kỹ thuật chú thích tự động là sự ra đời của của phương pháp tra cứu ảnh dựa trên nội dung (CBIR). Trong phương pháp này, ảnh được biểu diễn bởi các đặc trưng thị giác với các kiểu đặc trưng cơ bản bao gồm màu sắc, kết cấu và hình dạng. Các đặc trưng này được trích chọn một cách tự động, do vậy, nội dung của ảnh được mô tả một cách nhất quán, không phụ thuộc vào cảm nhận chủ quan của con người. Một số hệ thống tra cứu ảnh dựa trên phương pháp CBIR đã được phát triển như: QBIC [31] năm 1995, Virage [37] năm 1997 và NEC AMORE [72] năm 1999. Đây là các hệ thống được phát triển sớm nhất cho mục đích thương mại. Cũng trong khoảng thời gian này, một số hệ thống CBIR khác đã phát triển cho mục đích nghiên cứu như MIT Photobook [82], Columbia VisualSEEK và WebSEEK [98], UCSB Netra [64], và Standford WBIIS [113]. Những ưu điểm của hệ thống CBIR đã được các nhà nghiên cứu chỉ ra trong một số ứng dụng tiêu biểu [50]: kiến trúc và thiết kế kỹ thuật, bộ sưu tập nghệ thuật, phòng chống tội phạm, thông tin địa lý, sở hữu trí tuệ, điều trị nội khoa, quân sự, tìm kiếm sản phẩm, . . .
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM
HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
-
NGÔ TRƯỜNG GIANG
NÂNG CAO HIỆU QUẢ TRA CỨU ẢNH
DỰA TRÊN HIỆU CHỈNH ĐỘ ĐO TƯƠNG TỰ
VÀ PHẢN HỒI LIÊN QUAN
LUẬN ÁN TIẾN SỸ TOÁN HỌC
Trang 2
LỜI CÁM ƠN
Luận án này được thực hiện tại Học viện Khoa học và Công nghệ, Viện Hàn lâm Khoa học và Công nghệ Việt Nam dưới sự hướng dẫn khoa học của PGS.TS Ngô Quốc Tạo và TS Nguyễn Đức Dũng Tôi xin bày tỏ lòng biết ơn sâu sắc tới các Thầy đã quan tâm, hướng dẫn từ các kỹ năng cơ bản đến định hướng khoa học, tạo mọi điều kiện thuận lợi để tôi hoàn thành luận án.
Tôi xin cảm ơn tới tập thể Thầy Cô trong Viện Công nghệ Thông tin đã có những ý kiến đóng góp và phản biện trong suốt quá trình nghiên cứu và hoàn chỉnh luận án Xin chân thành cảm ơn các nhà khoa học, tác giả các công trình công bố được trích dẫn trong luận án vì đã cung cấp nguồn tư liệu quý báu, những kiến thức liên quan trong quá trình nghiên cứu hoàn thành luận án.
Tôi xin trân trọng cảm ơn Lãnh đạo Viện Công nghệ Thông tin, Học Viện Khoa học và Công nghệ đã tạo những điều kiện tốt nhất để nghiên cứu sinh có được môi trường nghiên cứu và hoàn thành chương trình nghiên cứu của mình Xin chân thành cám ơn Phòng Nhận dạng và Công nghệ Tri thức, các phòng ban của Viện Công nghệ Thông tin về sự hỗ trợ tạo điều kiện cho tôi trong suốt quá trình thực hiện luận án.
Tôi xin gửi lời cảm ơn tới Ban giám hiệu Trường Đại học Dân lập Hải Phòng, Khoa Công nghệ Thông tin đã tạo nhiều điều kiện thuận lợi hỗ trợ cho tôi có đủ điều kiện thực hiện luận án Xin cảm ơn tất cả bạn bè đồng nghiệp, những người luôn chia sẻ, cổ vũ tôi trong những lúc khó khăn, động viên khích lệ để tôi thực hiện và hoàn thành luận án.
Cuối cùng, tôi xin bày tỏ lòng biết ơn vô hạn đối với người thân trong gia đình đã luôn ủng hộ động viên, tạo nguồn lực tinh thần to lớn để tôi có thể thực hiện và hoàn thành được luận án này.
Trang 3Mục lục
1.1 Một số vấn đề cơ bản trong CBIR 8
1.1.1 Trích chọn đặc trưng mức thấp 12
1.1.2 Độ đo tương tự 22
1.1.3 Đánh giá hiệu năng hệ thống 25
1.2 Độ đo tương tự kết hợp các đặc trưng 28
1.3 Phản hồi liên quan trong CBIR 29
1.3.1 Kỹ thuật cập nhật truy vấn 33
1.3.2 Những kỹ thuật học thống kê 34
1.4 Tổng kết chương 37
2 ĐỘ ĐO TƯƠNG TỰ HÌNH DẠNG DỰA TRÊN ĐỐI SÁNH ĐỒ THỊ XƯƠNG 38 2.1 Giới thiệu 39
2.2 Bài toán đối sánh đồ thị 42
2.3 Biểu diễn đồ thị xương 46
2.3.1 Trục trung vị - Xương 46
2.3.2 Biểu diễn đồ thị xương 50
2.4 Độ đo tương tự hình dạng dựa trên đối sánh đồ thị xương 52
2.4.1 Khoảng cách giữa các đỉnh sử dụng đường dẫn xương 52
2.4.2 Đối sánh đồ thị xương sử dụng cụm đỉnh cuối 54
2.4.3 Thực nghiệm đánh giá 64
2.5 Tổng kết chương 69
3 TÍCH HỢP ĐẶC TRƯNG TRONG PHẢN HỒI LIÊN QUAN 72 3.1 Giới thiệu 73
Trang 43.2 Độ đo mờ và tích phân Choquet 75
3.2.1 Độ đo mờ (Fuzzy measures) 75
3.2.2 Tích phân Choquet 77
3.3 Độ đo tương tự kết hợp nhiều đặc trưng 78
3.3.1 Phát biểu bài toán 78
3.3.2 Học trọng số liên quan của các đặc trưng 82
3.3.3 Thực nghiệm đánh giá 85
3.4 Tổng kết chương 92
4 HỌC CHỦ ĐỘNG SVM DỰA TRÊN PHẢN HỒI LIÊN QUAN 93 4.1 Học chủ động 94
4.2 Học chủ động SVM với phản hồi liên quan 94
4.2.1 Học chủ động SVM 94
4.2.2 Các nghiên cứu liên quan 97
4.3 Phản hồi liên quan trong CBIR 101
4.3.1 Phát biểu bài toán 101
4.3.2 Xây dựng hàm lựa chọn tập huấn luyện 101
4.3.3 Thực nghiệm đánh giá 103
4.4 Tổng kết chương 106
Trang 5Danh sách hình vẽ
1.1 Kiến trúc chung của hệ thống CBIR 9
1.2 Không gian màu RGB 14
1.3 Không gian màu HSV 15
1.4 Ví dụ tính toán mẫu nhị phân [79] Các điểm ảnh lân cận trên một đường tròn với tâm là điểm ảnh khảo sát Các điểm ảnh lân cận không rơi chính xác vào lưới điểm ảnh được nội suy 19
1.5 Recall và Precision cho các kết quả truy vấn 26
1.6 Ví dụ về khoảng cách ngữ nghĩa trong CBIR, cột (a) hai ảnh ngữ nghĩa khác nhau nhưng có đặc trưng (biểu đồ màu) giống nhau, cột (b) hai ảnh ngữ nghĩa giống nhau nhưng có đặc trưng (biểu đồ màu) khác nhau 30
1.7 Sơ đồ tổng quan của CBIR với phản hồi liên quan 32
2.1 Hai đối tượng cùng một lớp nhưng có kiến trúc tô pô xương khác nhau 40
2.2 Đối tượng (a) và (b) khác lớp nhưng có kiến trúc tô pô xương (c) giống nhau 40
2.3 Các láng giềng của điểm ảnh tại vị trí [i,j]: (a) 4-láng giềng và (b) 8-láng giềng 46
2.4 Ảnh nhị phân với đường bao: (a) là ảnh gốc và (b) đường bao với các điểm màu đen đậm 47
2.5 Ví dụ về xương 48
2.6 Xương của ảnh bị nhiễu Cột bên trái là ảnh đối tượng với dòng trên là ảnh gốc, dòng dưới là ảnh bị nhiễu và cột bên phải là xương tương ứng 48
2.7 Xương thu được sau cắt tỉa với các ngưỡng khác nhau [4] 49
2.8 Biểu diễn đồ thị xương 50
2.9 Sự không ổn định của các điểm xương giao nhau 52
2.10 Xây dựng siêu đồ thị xương Bên trái là siêu đồ thị xương với các đỉnh {v1, , v7} và các siêu cạnh {e1, e2, e3} Bên phải là ma trận liên thuộc của siêu đồ thị xương 55
2.11 Đối sánh bất biến tỷ lệ sử dụng độ tương tự bậc cao (δ = 3) Độ tương tự bậc ba được tính toán bởi so sánh hai tam giác theo sin của các góc tương ứng 57
Trang 62.12 Ví dụ xây dựng siêu đồ thị kết hợp [57] (a) có hai đỉnh trên đồ thị
G P và 3 đỉnh trên đồ thị G Q Có sáu mối tương quan giữa hai đồ thị (b) Siêu đồ thị kết hợp gồm sáu đỉnh tương ứng với sáu tương quan Có năm siêu cạnh được kết nối từ các tương quan tương ứng 59
2.13 Một số ảnh mẫu trong tập dữ liệu Kimia99 64
2.14 Một số ảnh mẫu trong tập dữ liệu Kimia216 65
2.15 Một số ảnh mẫu trong tập dữ liệu MPEG-7 65
2.16 Sự tương quan giữa hai hình dạng con ngựa, một con là sự biến đổi
từ con còn lại 66
2.17 Sự tương quan giữa hai hình dạng người với số chân khác nhau 66
2.18 Mối tương quan giữa hình dạng hai con voi có cấu trúc hình học không giống nhau 67
2.19 Hiệu quả tra cứu của một số lớp riêng trên tập dữ liệu MPEG-7 70
3.1 Kết hợp đặc trưng cho mục đích CBIR 74
3.2 Hiệu quả tra cứu sử dụng các độ đo mờ khác nhau trên tập dữ liệu Caltech101 89
3.3 Hiệu quả tra cứu sử dụng các độ mờ khác nhau trên tập dữ liệu Corel15K 90
3.4 Hiệu quả tra cứu sử dụng các mô hình kết hợp khác nhau trên tập
4.2 Kết quả tra cứu không có phản hồi 105
4.3 Kết quả tra cứu sau 4 vòng phản hồi 106
4.4 Mối quan hệ giữa trung bình độ chính xác và tốp các ảnh trả về của các vòng phản hồi: (a) Vòng phản hồi thứ nhất, (b) Vòng phản hồi thứ hai, (c) Vòng phản hồi thứ ba, và (d) vòng phản hồi thứ bốn 107
4.5 Mối quan hệ giữa trung bình độ chính xác và số lần lặp của tốp các ảnh trả về: (a) Tốp 20 ảnh đầu tiên trả về, (b) Tốp 40 ảnh đầu tiên trả về, (c) Tốp 60 ảnh đầu tiên trả về, và (d) tốp 80 ảnh đầu tiên trả về 107
Trang 7Danh sách bảng
2.1 Số lượng ảnh tra cứu đúng tại vị trí gần nhất với truy vấn trên tập
dữ liệu Kimia’s 99 Giá trị tốt nhất là 99 68
2.2 Số lượng ảnh tra cứu đúng tại vị trí gần nhất với truy vấn trên tập
dữ liệu Kimia’s 216 Giá trị tốt nhất là 216 68
2.3 Hiệu quả tra cứu trên một số lớp ảnh trên tập dữ liệu MPEG7 69
3.1 Độ đo tương tự kết hợp sử dụng mô hình trong công thức (3–9) 79
3.2 Độ đo tương tự kết hợp sử dụng tích phân Choquet 82
3.3 Các mô tả và các thuộc tính của các đặc trưng được sử dụng trong thí nghiệm 87
Trang 8Danh sách chữ viết tắt
Từ viết tắt Diễn giải tiếng Anh Diễn giải tiếng Việt ARG Attribute-Relational Graphs Đồ thị quan hệ thuộc tính
AP Average Precision Độ chính xác trung bình
CBIR Content-Based Image Retrieval Tra cứu ảnh dựa trên nội dung
EM Expectation–Maximization Ước lượng EM
FSVM Fuzzy Support Vector Machine Máy véc tơ hỗ trợ mờ
GWT Gabor Wavelets Texture Biến đổi kết cấu dạng sóng HSV Hue Saturation Value Không gian màu HSV
MAP Mean Average Precision ĐTrung bình của AP
MPEG-7 Moving Picture Experts
OSB Optimal Subsequence Bijection Chuỗi song ánh tối ưu
RF Relevance Feedback Phản hồi liên quan
RWR Random Walk Restart Bước ngẫu nhiên khởi động lại SHG Skeleton Hyper-Graph Siêu đồ thị xương
SVM Support Vector Machine Phân lớp SVM
Trang 9MỞ ĐẦU
Trong xã hội hiện đại, việc tìm kiếm, truy cập các thông tin đãtrở thành nhu cầu không thể thiếu trong công việc của mọi người vàtrong cuộc sống hàng ngày Cùng với nhu cầu tìm kiếm văn bản, nhucầu tìm kiếm ảnh cũng nhận được nhiều quan tâm của người sử dụng.Với số lượng ngày càng tăng của các hình ảnh kỹ thuật số trên Internet
và trong các thư viện kỹ thuật số, nhu cầu về các công cụ để quản lý
và khai thác hiệu quả cơ sở dữ liệu ảnh lớn đã phát triển nhanh chóng.Việc phát triển các hệ thống tra cứu ảnh để tìm những ảnh quan tâmtrong trong số lượng lớn các ảnh được lưu trữ đã trở thành lĩnh vựcnghiên cứu nhận được nhiều sự quan tâm những năm gần đây
Nói chung, có hai phương pháp tra cứu ảnh cơ bản, tra cứu ảnhdựa trên từ khóa và tra cứu ảnh dựa trên nội dung Tra cứu ảnh dựatrên từ khóa nhằm mục đích tìm hình ảnh tương tự với ảnh truy vấntheo các từ khóa hoặc chú thích Phương pháp này đòi hỏi một lượnglớn lao động thủ công để chú thích ảnh trong cơ sở dữ liệu thông quaviệc gán một số từ khóa có liên quan Kết quả tra cứu dựa vào việcđối sánh từ khóa được chú thích cho các ảnh trong cơ sở dữ liệu vớicác từ khóa truy vấn dựa trên văn bản do người sử dụng đưa vào Yêucầu cơ bản của hệ thống sử dụng phương pháp này là các ảnh phảiđược chú thích trước khi chúng được thêm vào cơ sở dữ liệu lưu trữ.Nếu không, chúng sẽ không bao giờ được tra cứu khi một truy vấn dựatrên văn bản được yêu cầu Tuy nhiên, để mô tả những ảnh với mức
độ một cách cụ thể và chi tiết thì cần phải có một hệ thống từ khoálớn và tinh vi Một trở ngại khác của phương pháp này là cần phải có
Trang 10nhân viên được đào tạo tốt không chỉ để chú thích từ khoá cho mỗiảnh mà còn phải lựa chọn những từ khoá thích hợp cho việc chú thíchnày Việc chú thích thủ công không những tiêu phí rất nhiều thời giancông sức mà nó còn phụ thuộc nhiều vào sự cảm nhận chủ quan củacon người Chẳng hạn như cùng nội dung ảnh nhưng với người dùngkhác nhau có thể cảm nhận nội dung trực quan của ảnh là khác nhau.
Sự cảm nhận chủ quan và sự chú thích không chính xác có thể dẫntới sự đối sánh không cân xứng trong quá trình tra cứu tiếp theo Hơnnữa, một hệ thống dựa trên từ khoá rất khó để thay đổi sau này Vìvậy, các nhà nghiên cứu đã xem xét đến kỹ thuật thực hiện chú thích
tự động cho ảnh số
Các kỹ thuật chú thích tự động thường sử dụng các kỹ thuật họcmáy thống kê để huấn luyện mô hình bằng cách sử dụng các ảnh đãđược chú thích đầy đủ Với sự trợ giúp của các mô hình đã được huấnluyện, hệ thống sau đó thực hiện chú thích tự động cho các ảnh khác.Nhược điểm của kỹ thuật này là mô hình đào tạo phụ thuộc rất nhiềuvào chất lượng và số lượng của các ảnh được chú thích để huấn luyện.Nếu các ảnh đã được chú thích không chính xác, không đầy đủ, phân
bố không đều, hoặc chất lượng chú thích thấp thì các mô hình thống
kê được huấn luyện sẽ không thể cung cấp chú thích chính xác cho cácảnh khác Hơn nữa, các mô hình thống kê được huấn luyện sẽ khôngthể học khái niệm ngữ nghĩa của ảnh chính xác hơn nếu thông tinphản hồi của con người về các từ khóa được chú thích tự động khôngđược cung cấp Hệ thống thử nghiệm tra cứu ảnh kỹ thuật số đầu tiênvới các ảnh được chú thích tự động được các nhà nghiên cứu tại Viện
Từ đầu những năm 2000, lĩnh vực chú thích ảnh tự động đã trở thànhmột chủ đề nghiên cứu phổ biến và thu hút ngày càng nhiều các nhà
Trang 11nghiên cứu để xây dựng hệ thống tra cứu ảnh.
Song song với phương pháp tra cứu dựa trên kỹ thuật chú thích
tự động là sự ra đời của của phương pháp tra cứu ảnh dựa trên nộidung (CBIR) Trong phương pháp này, ảnh được biểu diễn bởi cácđặc trưng thị giác với các kiểu đặc trưng cơ bản bao gồm màu sắc,kết cấu và hình dạng Các đặc trưng này được trích chọn một cách
tự động, do vậy, nội dung của ảnh được mô tả một cách nhất quán,không phụ thuộc vào cảm nhận chủ quan của con người Một số hệthống tra cứu ảnh dựa trên phương pháp CBIR đã được phát triển
năm 1999 Đây là các hệ thống được phát triển sớm nhất cho mụcđích thương mại Cũng trong khoảng thời gian này, một số hệ thốngCBIR khác đã phát triển cho mục đích nghiên cứu như MIT Photobook
trúc và thiết kế kỹ thuật, bộ sưu tập nghệ thuật, phòng chống tộiphạm, thông tin địa lý, sở hữu trí tuệ, điều trị nội khoa, quân sự, tìm
kiếm sản phẩm,
Trong các hệ thống CBIR, các đặc trưng thị giác được trích chọn
từ mỗi ảnh và được lưu trữ trong cơ sở dữ liệu đặc trưng tương ứng.Khi một ảnh truy vấn được yêu cầu, hệ thống trước tiên sẽ trích chọnđặc trưng thị giác của ảnh truy vấn này Sau đó một phương phápđối sánh sẽ được sử dụng để so sánh độ tương tự giữa các đặc trưngthị giác của ảnh truy vấn với các đặc trưng thị giác của tất cả cácảnh trong cơ sở dữ liệu Những ảnh có giá trị độ tương tự cao được
sử dụng làm kết quả tra cứu trả về cho người dùng Do vậy, để cómột hệ thống hiệu quả thì việc xây dựng độ đo tương tự phù hợp là
Trang 12vấn đề cốt lõi Tuy nhiên, xây dựng độ đo tương tự phù hợp là mộtnhiệm vụ khó khăn do nghĩa của “tương tự” là khá mơ hồ Nhữngngười sử dụng khác nhau hoặc thậm chí cùng một người dùng nhưngtại các thời điểm khác nhau có thể có các cảm nhận khác nhau về nộidung của cùng một ảnh dựa trên cơ sở sự quan tâm của họ về đặctrưng nào đó Ngoài ra, có những ảnh có nội dung ngữ nghĩa tương tựnhau nhưng lại rất khác nhau trong không gian đặc trưng trong khi cónhững ảnh có nội dung ngữ nghĩa rất khác nhau nhưng tự nhau trongkhông gian đặc trưng Do đó, độ chính xác của hệ thống CBIR có thểkhông được thỏa mãn do có khoảng cách giữa đặc trưng mức thấp vàcác khái niệm ngữ nghĩa Điều này đã thúc đẩy các nhà nghiên cứutìm các giải pháp để thu hẹp khoảng cách giữa đặc trưng mức thấp vàcác khái niệm ngữ nghĩa trong các hệ thống CBIR Đây cũng chính làđộng lực cơ bản của luận án này.
Các phương pháp CBIR có thể được phân thành bốn loại chính
là các phương pháp dựa trên các đặc trưng toàn cục, các phươngpháp dựa trên đặc trưng mức vùng, các phương pháp dựa trên đặctrưng mức đối tượng và các phương pháp dựa trên phản hồi liên quan
hiện trích chọn đặc trưng của toàn bộ ảnh mà không phân biệt cácvùng hoặc các đối tượng Các chiến lược đối sánh khác nhau sẽ được
sử dụng để tìm các ảnh trong cơ sở dữ liệu mà liên quan nhất với ảnhtruy vấn dựa trên các đặc trưng toàn cục Các phương pháp dựa trênđặc trưng mức vùng thường phân ảnh thành các vùng và xử lý chúngvới các mức độ quan tâm khác nhau theo độ quan trọng của nội dungtrong mỗi vùng Sau khi các đặc trưng thị giác của mỗi vùng đượctrích chọn, các thuật toán đối sánh sẽ được áp dụng để tính toán độtương tự mức vùng giữa các vùng và sau đó kết hợp độ đo tương tự
Trang 13mức vùng thành độ đo tương tự toàn bộ So với các phương pháp dựatrên đặc trưng mức vùng, các phương pháp dựa trên đặc trưng mứcđối tượng tập chung chi tiết hơn vào thông tin nội dung Các phươngpháp này trước hết áp dụng phương pháp phân đoạn ảnh để thu đượccác đối tượng độc lập trong ảnh, sau đó các đặc trưng của các đốitượng sẽ được trích chọn và đối sánh để tính toán độ tương tự mức đốitượng sử dụng để tìm các ảnh liên quan với ảnh truy vấn Các phươngpháp dựa trên phản hồi liên quan sử dụng các phương pháp học trựctuyến có giám sát để thu hẹp khoảng cách giữa đặc trưng mức thấp
và các khái niệm ngữ nghĩa Các phương pháp này lặp đi lặp lại việcthay đổi thông tin mô tả truy vấn theo phản hồi của người dùng trêncác kết quả tra cứu Do đó, thông tin truy vấn được mô tả gần hơnvới mong muốn của người dùng và hiệu quả tra cứu sẽ được cải thiện.Mục tiêu của luận án là cải tiến một số phương pháp CBIR đểnâng cao hiệu quả tra cứu ảnh dựa trên hiệu chỉnh độ đo tương tự vàphản hồi liên quan Các mục tiêu cụ thể bao gồm tiến hành nghiêncứu trên hai vấn đề cơ bản trong lĩnh vực CBIR đó là: 1) Xây dựng
độ đo tương tự, 2) Thu hẹp khoảng cách ngữ nghĩa dựa trên thông tinphản hồi từ người dùng
- Mục tiêu nghiên cứu đầu tiên là tiến hành nghiên cứu xây dựng
độ đo tương tự hiệu quả Với mục tiêu này, luận án giải quyết haivấn đề cụ thể: 1) Cải tiến phương pháp tính toán độ đo tương tựcho hình dạng dựa trên đối sánh xương của chúng và 2) xây dựng
mô hình phù hợp cho việc kết hợp nhiều đặc trưng để xây dựng
độ đo tương tự
- Mục tiêu thứ hai là tiến hành nghiên cứu khai thác hiệu quả thôngtin phản hồi từ người dùng để điều chỉnh kết quả truy vấn Trong
Trang 14tra cứu ảnh với phản hồi liên quan, hệ thống cần phải thực hiệnmột số vòng lặp Trong mỗi vòng lặp, hệ thống sẽ trả lại một danhsách các ảnh tương tự nhất với ảnh truy vấn dựa trên độ tương tựgiữa chúng Sau đó, các ảnh này sẽ được đưa cho người sử dụnggán nhãn liên quan hoặc không liên quan với ảnh truy vấn Sửdụng những ảnh đã được gán nhãn này như là những mẫu, những
kỹ thuật học sẽ được áp dụng để điều chỉnh độ đo tương tự saocho phù hợp với mong muốn của người dùng Với mục tiêu này,luận án sẽ tập trung giải quyết vấn đề làm thế nào để hệ thốngcho ra kết quả tốt sau ít vòng phản hồi nhất
Những đóng góp của luận án này được tổng hợp như sau:
1) Cải tiến kỹ thuật đối sánh hình dạng đối tượng cải tiến dựa trênđối sánh đồ thị xương nhằm tăng độ chính xác tìm kiếm ảnh theonội dung
2) Đề xuất mô hình kết hợp nhiều đặc trưng trong việc xây dựng độ
đo tương tự để thu hẹp khoảng cách ngữ nghĩa trong tra cứu ảnh.3) Đề xuất kỹ thuật lựa chọn dữ liệu trong học chủ động với phảnhồi liên quan để tăng độ chính xác tra cứu ảnh theo nội dung với
ít vòng phản hồi
Luận án được trình bày như sau:
Chương 1 Trình bày một số vấn đề cơ bản trong tra cứu ảnh dựa
trên nội dung với phản hồi liên quan, trên cơ sở đó đưa ra một sốkết luận định hướng cho nghiên cứu tiếp theo
Chương 2 Trình bày chi tiết về các thách thức trong đối sánh hình
dạng sử dụng xương, đề xuất phương pháp hiệu quả cho đối sánh
Trang 15đồ thị xương thông qua việc nhúng thông tin cấu trúc vào bàitoán đối sánh đồ thị xương.
Chương 3 Trình bày mô hình tích hợp nhiều đặc trưng để xây dựng
độ đo tương tự cho tra cứu ảnh Đề xuất mô hình kết hợp độ đotương tự của các đặc trưng dựa trên tích phân Choquet
Chương 4 Giải quyết vấn đề thu hẹp khoảng cách ngữ nghĩa trong
CBIR với phản hồi liên quan dựa trên mô hình học chủ động.Luận án đề xuất kỹ thuật xây dựng tập huấn luyện hiệu quả dựatrên thông tin phản hồi từ người dùng để cải thiện hiệu năng tracứu
Kết luận Tổng kết các kết quả đã đạt được, những điểm tồn tại và
hướng nghiên cứu tiếp theo
Trang 16để giải quyết trong luận án này Và cuối cùng là tóm tắt nội dung củachương.
Thuật ngữ tra cứu ảnh dựa trên nội dung đã được Kato sử dụngđầu tiên vào năm 1992 để mô tả những thí nghiệm về lĩnh vực tra cứu
tự động những hình ảnh từ một cơ sở dữ liệu dựa trên đặc trưng hìnhdạng và màu sắc Từ đó, nó được sử dụng rộng rãi để mô tả quá trình
Trang 17tra cứu những hình ảnh mong muốn từ một tập hợp lớn hình ảnh dựatrên những đặc trưng thị giác như màu sắc, kết cấu và hình dạng, vànhững đặc trưng này được trích chọn một cách tự động từ chính nhữnghình ảnh đó Sơ đồ kiến trúc chung của hệ thống tra cứu ảnh dựa trên
Ảnh truy vấn
Phân tích truy vấn
Hình 1.1: Kiến trúc chung của hệ thống CBIR
Trong một quy trình tra cứu thông thường, người dùng đầu tiênđưa vào một ảnh mẫu để truy vấn hệ thống CBIR Ảnh mẫu được sửdụng để miêu tả những thông tin người dùng cần Để trả lời truy vấn,
hệ thống CBIR tìm trong tập ảnh để đưa ra những ảnh tương tự vớiảnh mẫu Trong ngữ cảnh của CBIR, độ tương tự được xác định dựatrên các đặc trưng thị giác biểu diễn nội dung ảnh Do đó, hệ thốngCBIR sẽ trích chọn các đặc trưng thị giác từ ảnh mẫu Đo độ tương
tự được thực hiện dựa trên những đặc trưng thị giác của ảnh mẫu vàcủa mỗi ảnh trong CSDL ảnh Việc trích chọn đặc trưng cho tập ảnh
Trang 18thường được tiến hành trước Cuối cùng, những ảnh trong CSDL ảnhđược xếp hạng theo sự tương đồng với ảnh truy vấn, và một số ảnhđược xếp hạng phía cao hơn sẽ được trả về trong kết quả tìm kiếm.Như vậy, một hệ thống CBIR không chỉ liên quan tới các dạng khácnhau của thông tin nguồn (ví dụ như văn bản, ảnh, video) mà còn liênquan đến nhu cầu của người sử dụng Về cơ bản nó phân tích cả nộidung của nguồn thông tin cũng như truy vấn của người sử dụng vàsau đó đối sánh chúng để tìm ra những tiêu chí có liên quan Một hệthống CBIR có các chức năng chính như sau:
- Phân tích và biểu diễn nội dung của thông tin nguồn: Thông tinnguồn được phân tích và biểu diễn cho phù hợp với sự đối sánhtruy vấn của người sử dụng (không gian của thông tin nguồnđược chuyển đổi thành không gian đặc trưng với mục đích đốisánh nhanh trong bước tiếp theo) Bước này thường là mất nhiềuthời gian để xử lý tuần tự các thông tin nguồn trong cơ sở dữ liệu
Nó chỉ phải làm một lần và có thể thực hiện ngoại tuyến (offline)
- Phân tích và biểu diễn nội dung truy vấn của người dùng: Truyvấn của người dùng được phân tích và biểu diễn thành các dạngphù hợp cho việc đối sánh với cơ sở dữ liệu nguồn Nhiệm vụ củabước này giống với bước trước nhưng chỉ được áp dụng với nhữngảnh truy vấn và được thực hiện trực tuyến (online)
- Đối sánh, tìm kiếm truy vấn với thông tin được lưu trữ trong cơ
sở dữ liệu Bước này có thể thực hiện trực tuyến và thực hiện rấtnhanh Các công nghệ đánh chỉ số được sử dụng để tăng tốc độ
xử lý đối sánh
- Tạo ra sự điều chỉnh cần thiết trong hệ thống Bước này thườngđược thực hiện bằng cách đối chiếu và điều chỉnh các tham số
Trang 19trong kỹ thuật đối sánh dựa trên thông tin phản hồi từ người sửdụng hoặc những hình ảnh được tra cứu.
Từ trình bày ở trên ta thấy, một mặt hệ thống tra cứu ảnh dựatrên nội dung có các nguồn thông tin thị giác khác nhau, mặt kháclại có cả các yêu cầu của người sử dụng, chúng được liên kết với nhauqua một loạt các công việc Làm thế nào để mô tả thông tin ngườidùng và truy vấn hệ thống tra cứu là một vấn đề cần thiết của CBIR.Một phương pháp truy vấn tốt là phương pháp gần gũi với người sửdụng, tức là cung cấp đầy đủ thông tin từ người sử dụng để có thể thuđược những kết quả có ý nghĩa Những phương pháp truy vấn sau đâythường được sử dụng trong các hệ thống CBIR:
- Truy vấn bởi ví dụ (QBE-Query By Example): Trong phươngpháp này người sử dụng chỉ định một ảnh truy vấn gốc dựa trên
cơ sở dữ liệu ảnh được tìm kiếm và so sánh Ảnh truy vấn cóthể là một ảnh chuẩn, một ảnh quét với độ phân giải thấp, hoặcngười sử dụng vẽ bằng cách sử dụng công cụ vẽ đồ họa Ưu điểmcủa phương pháp này là rất tự nhiên đối với người sử dụng để tracứu ảnh trong cơ sở dữ liệu ảnh
- Truy vấn bởi đặc điểm (QBF- Query By Feature): Trong phươngpháp này người dùng chỉ định câu truy vấn với những đặc điểmđược chỉ định rõ ràng, đó là những đặc điểm được quan tâm trongtìm kiếm Ví dụ người dùng có thể truy vấn cơ sở dữ liệu ảnh bằngviệc đưa ra một câu lệnh “Tìm tất cả những ảnh chứa 20% điểmmàu đỏ” Truy vấn này được người dùng chỉ định bởi việc sử dụngcông cụ giao diện đồ họa đặc biệt Những người sử dụng chuyênnghiệp thì có thể dễ dàng thực hiện tìm kiếm theo kiểu truy vấnnày nhưng những người không chuyên thì rất khó QBIC là một
Trang 20ví dụ về hệ thống tra cứu ảnh dựa trên nội dung mà người sửdụng truy vấn kiểu này.
- Truy vấn dựa trên thuộc tính (Attribute-Based Queries): Phươngpháp này sử dụng những chú giải được người dùng mô tả trướcbởi các từ khóa Mô tả kiểu này đòi hỏi phải có mức trừu tượngcao, và rất khó đạt được mức độ tự động hoá hoàn toàn bởi vì ảnhgồm rất nhiều thông tin và rất khó có thể tổng kết bằng một ít
từ khoá Kiểu truy vấn này, nhìn chung là nhanh hơn và dễ thựcthi hơn, nhưng nó có nhiều khó khăn khi thực hiện chú thích ảnhnhư đã giới thiệu phần trước
Phương pháp truy vấn dựa trên thuộc tính thể hiện tính tự nhiênnhất Người sử dụng thường thích truy vấn hệ thống bằng câu hỏi tựnhiên như “Tìm tất cả các ảnh trong bộ sưu tập mà có hình ảnh conmèo” Tuy nhiên, việc ánh xạ câu hỏi bằng ngôn ngữ tự nhiên nàythành truy vấn trên cơ sở dữ liệu ảnh là vô cùng khó đối với việc
sử dụng những phương pháp được tự động Khả năng máy tính thựchiện nhận dạng đối tượng tự động trên ảnh vẫn đang là vấn đề nghiêncứu mở Hầu hết những nghiên cứu cũng như các hệ thống mang tínhthương mại đều tập trung xây dựng những hệ thống thực hiện truy
vấn được sử dụng trong các thí nghiệm đánh giá của luận án
1.1.1 Trích chọn đặc trưng mức thấp
Dữ liệu ảnh thô không được sử dụng trực tiếp trong hầu hết các
hệ thống thị giác máy vì hai lý do: Thứ nhất, tốn nhiều không gian
để lưu trữ ảnh và độ phức tạp tính toán lớn Thứ hai, nhiều thông tin
Trang 21của ảnh dư thừa và (hoặc) không hữu ích Thay vì sử dụng toàn bộảnh, chúng ta chỉ cần sử dụng một số biểu diễn quan trọng nhất Bướcbiểu diễn ảnh được gọi là trích chọn đặc trưng và kết quả của biểudiễn là véc-tơ đặc trưng Trích chọn đặc trưng có thể xem như việcánh xạ ảnh từ không gian ảnh sang không gian đặc trưng Trong ngữcảnh của CBIR, các đặc trưng ảnh có thể được phân thành đặc trưngthị giác và đặc trưng ngữ nghĩa Các đặc trưng thị giác bao gồm màu,kết cấu, hình dạng và quan hệ không gian Đặc trưng ngữ nghĩa không
dễ dàng được trích rút và thường được suy diễn từ các đặc trưng mứcthấp hoặc sử dụng văn bản mô tả ảnh Hiệu quả tra cứu ảnh phụ thuộcvào khả năng mô tả nội dung ảnh cho các ứng dụng cụ thể Do nhậnthức chủ quan, nên không tồn tại cách biểu diễn tốt nhất cho mỗi đặctrưng thị giác, vì vậy, với mỗi đặc trưng có thể có nhiều cách để biểudiễn từ những ngữ cảnh khác nhau Chẳng hạn, đặc trưng màu có thểđược biểu diễn bởi biểu đồ màu và mô men màu; đặc trưng hình dạng
có thể biểu diễn bởi biểu đồ hệ số góc và GIST; đặc trưng kết cấu cóthể biểu diễn bởi mã nhị phân cục bộ và biến đổi wavelet Dưới đây
là một số mô tả đặc trưng thị giác thường được sử dụng trong các hệ
nghiệm đánh giá của luận án
Biểu đồ màu
Mắt của con người rất nhạy cảm với màu sắc, và đặc trưng màu
là một trong những thành phần quan trọng nhất giúp con người có khảnăng nhận biết hình ảnh Vì vậy đặc trưng màu là một trong nhữngđặc trưng cơ bản của nội dung ảnh và được sử dụng rộng rãi trongcác hệ thống tra cứu ảnh dựa trên nội dung Màu sắc thường đượcxác định trong không gian màu 3 chiều Các nhà nghiên cứu đã khám
Trang 22phá ra nhiều kỹ thuật để phân loại màu thành các không gian màukhác nhau Không gian màu RGB được định nghĩa như là một hìnhlập phương đơn vị với 3 trục tương ứng là Red, Green và Blue như
một véc-tơ với ba tọa độ Khi tất cả ba giá trị đều bằng 0 thì cho màuđen, khi tất cả ba giá trị đều bằng 1 thì cho màu trắng Việc kết hợp
ba màu chính này tạo ra vô số màu
Hình 1.2: Không gian màu RGB
Không gian màu RGB được sử dụng phổ biến cho ảnh kỹ thuật
số Tuy nhiên, do mô hình không gian màu RGB khó cảm nhận, chẳnghạn như người sử dụng khó có được sự cảm nhận về màu có giá trịRed = 100, Green = 80, Blue = 50 và khó tìm ra được sự khác nhaugiữa hai màu (R = 100, G = 50, B = 50) và (R = 100, G = 150, B
= 150) Do vậy, khoảng cách tính toán dựa trên mô hình không gianmàu RGB không phản ánh được cảm nhận sự khác biệt màu thực tế.Không gian màu HSV được đề xuất bởi Smith và các cộng sự
như sắc độ, độ bão hòa và độ sáng So sánh với không gian màu RGB,không gian màu HSV dễ dàng tạo ra sự phân biệt giữa các đối tượng
do thông tin trong ba kênh là tương đối độc lập, hơn nữa, nó có mối
Trang 23Hình 1.3: Không gian màu HSV
liên quan gần gũi hơn với sự nhận thức về màu sắc của con người và đãđược chứng minh là hiệu quả trong nhiều nghiên cứu trước về CBIR
Sắc độ là góc giữa những đường tham chiếu và điểm gốc màu trong
là khoảng cách từ tâm đến cạnh hình nón và chiều cao của đường cắthình nón chính là độ sáng hoặc độ chói của màu Khi độ bão hoà S =
0 thì sắc độ H không xác định, giá trị nằm trên trục độ sáng V biểudiễn ảnh xám
Biểu đồ màu là một trong những đặc trưng màu được sử dụngrộng rãi nhất, được dùng để miêu tả đặc trưng màu của một ảnh, đếm
một ảnh được định nghĩa bởi:
Trang 24Mô men phân bố màu
Mô men phân bố màu là một dạng đặc trưng khác của màu, làcác mô men thống kê của các phân bố xác suất của các màu Các mômen màu được sử dụng trong nhiều hệ thống tra cứu ảnh như QBIC
bậc ba (độ lệch), đã được minh chứng là hiệu quả trong biểu diễn các
được xác định như sau:
Trang 25theo Sobel được thể hiện theo công thức sau:
hướng ngang và hướng dọc, ~ ký hiệu toán tử nhân chập hai chiều, và
I là ảnh gốc Dựa trên G x , G y, hệ số góc của mỗi điểm ảnh được tínhtoán bởi:
θ = arctan G y
G x
!
(1–7)Mỗi hệ số góc có thể được lượng tử hóa thành một trong những khoảngđược chỉ định Ví dụ, nếu số khoảng của biểu đồ hệ số góc được đặt là
đồ hệ số góc có thể được tính toán bằng cách đếm số điểm ảnh có hệ
số góc nằm trong khoảng tương ứng Biểu đồ này sau đó được chuẩnhóa theo công thức sau:
Ở đây, ED(i) là số điểm ảnh có hệ số góc nằm trong khoảng i, N là tổng số điểm ảnh trong ảnh, m là số khoảng của biểu đồ.
Trang 26Đặc trưng GIST
hợp thông tin gradient (tỷ lệ và hướng) cho các phần khác nhau củaảnh Với việc nhân chập ảnh với 32 bộ lọc Gabor tại 4 tỷ lệ và 8 hướng,
32 bản đồ đặc trưng cùng cỡ với ảnh gốc được tạo ra Mỗi bản đồ đặctrưng này sau đó được chia thành 16 vùng bởi lưới 4x4 và giá trị đặctrưng trung bình của mỗi vùng được tính toán Các giá trị trung bìnhnày hình thành véc-tơ 16x32=512 chiều biểu diễn đặc trưng GIST củaảnh Đặc trưng GIST được chỉ ra là cho kết quả tốt trong tìm kiếmảnh [27]
Mẫu nhị phân cục bộ
Mẫu nhị phân cục bộ (Local binary patterns) là một kiểu biểudiễn cấu trúc không gian của đặc trưng kết cấu cục bộ trong ảnh, và
là một toán tử kết cấu đơn giản nhưng rất hiệu quả Ý tưởng cơ bản
để phát triển toán tử LBP là kết cấu bề mặt hai chiều có thể được mô
tả bằng hai độ đo: mô hình không gian cục bộ và độ tương phản tỷ lệmức xám Toán tử LBP ban đầu tạo nhãn cho các điểm ảnh bằng cáchphân ngưỡng 3x3 láng giềng của mỗi điểm với giá trị tâm và xem xét
nhau sau đó được sử dụng để biểu diễn kết cấu Toán tử này sử dụngcùng với độ đo tương phản cục bộ đơn giản đã cung cấp hiệu suất rấttốt trong phân đoạn kết cấu không giám sát Toán tử này đã được mở
sử dụng các láng giềng xung quanh và các giá trị nội suy tại các tọa
độ điểm ảnh không nguyên Sự biến thiên tỷ lệ mức xám có thể được
Trang 27LBP Điểm ảnh khảo sát được xem là trung tâm so với các điểm ảnhlân cận xung quanh của nó, giá trị mẫu được tính bằng cách so sánhgiá trị của điểm ảnh trung tâm với các lân cận như sau:
xám các lân cận của nó, P là số điểm ảnh lân cận và R là bán kính
là (0,0), khi đó tọa độ của g p được cho bởi −R.sin( 2πp P ), R.cos2πp P .Trường hợp tọa độ của các điểm ảnh lân cận tính từ công thức nàykhông rơi vào tọa độ của lưới điểm ảnh thì sẽ được nội suy đến điểmảnh gần nhất
đường tròn với tâm là điểm ảnh khảo sát Các điểm ảnh lân cận không rơi chính
xác vào lưới điểm ảnh được nội suy.
Giả sử ảnh kết cấu có kích thước n × m Sau khi xác định mẫu LBP của mỗi điểm ảnh (i, j), ảnh kết cấu được biểu diễn bằng biểu
Trang 28đồ, với L là giá trị mẫu LBP cực đại:
Giá trị U của một mẫu LBP được định nghĩa như một số bước dịch
trong không gian (các thay đổi khi dịch bit 0/1) của mẫu:
Biến đổi Gabor wavelet
Lọc Gabor được sử dụng rộng rãi để trích rút các đặc trưng ảnh,đặc biệt là các đặc trưng kết cấu Nó tối ưu về mặt cực tiểu hoá sựkhông chắc chắn chung trong miền không gian và miền tần số, vàthường được sử dụng như một hướng và tỷ lệ biên điều hướng và pháthiện đường Có nhiều cách tiếp cận đã được đề xuất để biểu diễn các
Trang 29rộng lọc Gabor 1-D thành hàm Gauss 2-D được định nghĩa như sau:
2πσ x σ y exp
−12
Trong đó, các thông số của bộ lọc Gabor là tần số điều chế ω, tỷ lệ
đó một tập các lọc Gabor có thể thu được bởi sự co giãn và quay thíchhợp của g(x, y):
trưng
Do mỗi đặc trưng đơn thường chỉ mô tả được một khía cạnh củanội dung ảnh, nên sử dụng nhiều đặc trưng thị giác cho CBIR là cầnthiết để cải thiện hiệu năng tra cứu của hệ thống Tuy nhiên, làm thếnào để khai thác hiệu quả nhiều đặc trưng thị giác trong CBIR vẫncòn là bài toán mở Luận án sẽ nghiên cứu các phương pháp đo độtương tự sử dụng nhiều đặc trưng thị giác
Trang 30độ đo khoảng cách Trong những năm qua, một số lượng lớn các độ
đo tương tự khác nhau đã được đề xuất bởi cộng đồng các nhà nghiêncứu Trong phần này sẽ trình bày một số độ đo được sử dụng rộng rãicho các biểu diễn đặc trưng ở trên
Trang 31Trong lĩnh vực CBIR, có một số độ đo khoảng cách được sử dụng
để tính toán tương tự, chẳng hạn như độ đo Minkowski, Hausdorff,phân tách K-L, khoảng cách dịch chuyển Trái đất (EMD), và đối sánhvùng tích hợp (IRM)
Khoảng cách Ơ-cơ-lit (khoảng cách L2) và khoảng cách tan (khoảng cách L1) là trường hợp đặc biệt của độ đo Minkowski.Ơ-cơ-lit có trọng số đã được sử dụng cho các mô men màu trong hệ
và y, được định nghĩa bởi:
D L2 (x, y) =
v u t
Khoảng cách Manhattan được sử dụng để tính toán khoảng cách
Trang 32véc-tơ x và y, được định nghĩa như sau:
Khoảng cách Hausdorff được áp dụng trong tra cứu ảnh dựa trên
hai tập hợp điểm A và B, được định nghĩa bởi:
Sự chênh lệch K-L(Kullback-Leibler) được sử dụng trong phương
giữa hai phân bố f (.) và g(.) trong trường hợp liên tục có thể được
Khoảng cách dịch chuyển trái đất (EMD) được sử dụng rộng rãi
tự trong tri giác và có thể được áp dụng cho các biểu diễn có độ dàithay đổi Khoảng cách EMD dựa trên giá trị tối thiểu để biến đổi mộtphân bố thành một phân bố khác:
Trang 33Ở đây d ij biểu thị khoảng cách giữa các cụm thứ i và j của hai chuỗi,
ij g ij d ij làcực tiểu thỏa mãn các ràng buộc sau:
Pn i=1 f ij ≤ ω qj , 1 ≤ j ≤ n
i=1
Pn j=1 f ij = minPm
i=1 ω pi ,Pn
j=1 ω qj
(1–22)
i và thứ j của hai chuỗi
Lựa chọn của các độ đo tương tự phụ thuộc vào mô tả đặc trưng
đã chọn Trong thực tế, một số mô tả có thể sử dụng với độ đo chuẩn,một số khác đòi hỏi các độ đo đặc biệt được thiết kế cho phù hợp Dovậy, cần phải phát triển các độ đo hiệu quả hơn cho các ứng dụng cụthể Luận án sẽ nghiên cứu phương pháp xây dựng độ đo tương tự chomục đích này
1.1.3 Đánh giá hiệu năng hệ thống
Độ chính xác (Precision) và triệu hồi (Recall) là hai trong số các
là tỷ số giữa số lượng ảnh liên quan được tìm bởi hệ thống và tổng số
lượng ảnh liên quan được tìm bởi hệ thống và số ảnh liên quan hiện
có Ký hiệu R là tập các ảnh liên quan đến ảnh truy vấn trong CSDL
Trang 34và triệu hồi với truy vấn q được định nghĩa bởi:
precision q = |R A|
|A| ; recall q = |R A|
Hình 1.5: Recall và Precision cho các kết quả truy vấn
Một phép đo phổ biến khác là độ chính xác trung bình (MAP)
đánh giá hiệu năng của hệ thống CBIR với phản hồi liên quan MAPđược định nghĩa là giá trị trung bình của tất cả các độ chính xác riêngbiệt cho một tập các truy vấn Độ đo này được định nghĩa bởi:
tới truy vấn q Tổng quan về các độ đo hiệu năng cho CBIR có thể tìm
tính trên số lượng các truy vấn Thông thường, số lượng các truy vấn
Trang 351.1.3.1 Tập dữ liệu thực nghiệm
Một số tập dữ liệu ảnh được sử dụng để đánh giá trong các hệ
MPEG-7
• Tập dữ liệu Corel15K Là một phần của tập dữ liệu Corel PhotoGallery gồm 15000 ảnh được phân thành 150 lớp với các chủ đềngữ nghĩa khác nhau, mỗi lớp có 100 ảnh
gồm 9144 ảnh được phân thành 101 lớp với 40 đến 800 ảnh trênmột lớp
• Tập dữ liệu Oliva bao gồm 2600 ảnh được tổ chức thành 8 lớp:Coast & Beach, open country, forest, Mountain, highway street,city center, Tall building, mỗi lớp có từ 260 đến 409 ảnh
gồm hai tập nhỏ: Tập dữ liệu thứ nhất (Kimia’s 99) gồm 99 ảnhđược phân thành 9 lớp, mỗi lớp có 11 ảnh trong đó một số bịkhuyết một phần, một số bị thừa ra một phần Tập dữ liệu thứ
2 (Kimia’s 216) gồm 216 ảnh chia làm 18 lớp, mỗi lớp có 12 ảnhvới một loạt các ảnh hình dạng của đối tượng bị che khuất mộtphần
tượng, được phân thành 70 lớp, mỗi lớp có 20 ảnh
Đây là các tập dữ liệu sẽ được sử dụng trong các thí nghiệm để đánhgiá hiệu năng của các đề xuất trong luận án
Trang 361.2 Độ đo tương tự kết hợp các đặc trưng
Kết hợp các đặc trưng nhằm mục đích đo độ tương tự của ảnh
sử dụng nhiều đặc trưng thị giác Có hai hướng tiếp cận kết hợp đặc
Ngược lại với phương pháp hợp nhất đặc trưng, tích hợp đặctrưng sử dụng tiếp cận khác đó là kết hợp nhiều độ đo khoảng cáchđặc trưng để xây dựng độ đo tương tự của ảnh Các đặc trưng khácnhau có thể đòi hỏi các độ đo khoảng cách khác nhau để đo độ tương
tự Kết hợp các độ đo của các đặc trưng khác nhau để xây dựng độ
đo tổng thể giúp cải thiện hiệu năng tra cứu trong CBIR do nhiều đặctrưng sẽ mô tả hiệu quả hơn nội dung ảnh Lợi thế của kết hợp đặctrưng là các độ đo khoảng cách riêng có thể được áp dụng cho các đặctrưng thị giác khác nhau Hơn nữa, độ đo khoảng cách có thể đượcthiết kế đặc biệt bằng cách xét đến các tính chất tự nhiên của các đặctrưng thị giác sao cho phù hợp với cảm nhận về độ tương tự
Các phương pháp kết hợp có thể dựa trên các phép toán hợp nhất
đơn giản này có hiệu quả trong một số ứng dụng, nhưng chúng khôngxét đến mức độ quan trọng khác nhau của các đặc trưng thị giác chotruy vấn khác nhau Phương pháp kết hợp tuyến tính đã được đề xuất
để kết hợp nhiều khoảng cách của các đặc trưng cho mục đích CBIR.Phương pháp này thiết lập các trọng số các đặc trưng thị giác để mô
Boolean đã được áp dụng để kết nhiều độ đo khoảng cách đặc trưng
phát biểu sự kết hợp như bài toán quyết định và được giải quyết bằng
Trang 37một phương pháp quyết định dựa trên logic mờ Tuy nhiên, rất khó cóthể chọn một phương pháp kết hợp thích hợp để đáp ứng tốt hơn nhucầu của người dùng.
Một hướng tiếp cận khác để kết hợp các đặc trưng dựa trên học
tuyến tính theo các ảnh mẫu thu được thông qua thông tin phản hồiliên quan Phương pháp tối ưu hóa cho các hàm kết hợp được trình
hợp các độ tương tự của các biểu diễn trong MPEG-7 cho mục đích
không quan trọng trên một số các ảnh mẫu huấn luyện khác nhau.Các tiếp cận tích hợp đặc trưng nói trên có điểm chung là chỉ coicác đặc trưng là độc lập Tuy nhiên, trong thực tế, các đặc trưng cóthể sẽ trở lên quan trọng khi chúng xuất hiện cùng một hoặc một vàiđặc trưng khác, nghĩa là, chúng có sự tương tác lẫn nhau Do vậy môhình kết hợp các đặc trưng cần phải xem xét tới yếu tố này Vấn đềnày sẽ được nghiên cứu trong luận án
Trong tra cứu ảnh dựa trên nội dung, ảnh được đánh chỉ mục vàtra cứu dựa trên nội dung thị giác của chúng, chẳng hạn như màu, kết
thực tế, con người có xu hướng sử dụng các khái niệm mức cao, chẳnghạn như từ khóa, mô tả văn bản để giải thích hình ảnh và đo độ tương
Trang 38thấp và các khái niệm mức cao Như minh họa trong hình 1.6, mặc
dù hai ảnh ngữ nghĩa khác nhau nhưng có đặc trưng (biểu đồ màu)giống nhau và ngược lại Mặc dù nhiều thuật toán phức tạp đã đượcthiết kế để mô tả các đặc trưng của ảnh nhưng các thuật toán này vẫnkhông thể phản ánh thỏa đáng ngữ nghĩa ảnh Do vậy, khoảng cáchngữ nghĩa giữa các đặc trưng mức thấp và các khái niệm mức cao vẫncòn lớn nên hiệu suất của CBIR là vẫn còn xa với mong đợi của ngườidùng [22]
Hình 1.6: Ví dụ về khoảng cách ngữ nghĩa trong CBIR, cột (a) hai ảnh ngữ nghĩa khác nhau nhưng có đặc trưng (biểu đồ màu) giống nhau, cột (b) hai ảnh ngữ nghĩa giống nhau nhưng có đặc trưng (biểu đồ màu) khác nhau
Phản hồi liên quan (RF-Relevance Feedback) sử dụng trong tra
thành một công nghệ phổ biến cho CBIR để giảm khoảng cách ngữ
thông qua học cùng với sự điều chỉnh của người dùng trên kết quảtra cứu Theo cách này, hệ thống cần phải chạy qua một số vòng lặp.Trong mỗi vòng lặp, hệ thống trước tiên sẽ trả về một danh sách cácảnh kết quả đã được sắp xếp gần nhất với ảnh truy vấn dựa trên một
độ đo tương tự Sau đó, một số ảnh được đưa ra để người dùng gánnhãn liên quan hoặc không liên quan tới ảnh truy vấn Sử dụng cácảnh đã được gán nhãn này như là các mẫu, các kỹ thuật học máy sẽ
Trang 39được sử dụng để học và định nghĩa lại kết quả tra cứu Quá trình xử
lý của các phương pháp RF trong CBIR được mô tả như sau:
1 Khi ảnh truy vấn được đưa vào, hệ thống trả lại kết quả tra cứu.Quá trình này có hai trường hợp:
(a) Pha ban đầu: Dựa vào độ đo tương tự của các đặc trưng mứcthấp giữa ảnh truy vấn với các ảnh trong cơ sở dữ liệu để xếphạng ảnh kết quả
(b) Trong các vòng lặp RF: Sử dụng hàm phân lớp để xếp hạngảnh kết quả
2 Người sử dụng sẽ quyết định gán nhãn cho một số ảnh kết quả
có mức độ giống với ý định của mình nhất Đó là những ảnh liênquan (mẫu dương) hay không liên quan (mẫu âm) với ảnh truyvấn
3 Thuật toán máy học sẽ được áp dụng để học thông tin phản hồicủa người dùng dựa vào các ảnh đã được gán nhãn thu được từvòng lặp đầu tiên đến vòng lặp hiện tại Sau đó, quay lại bước 1
Quá trình này sẽ được lặp lại nhiều lần cho đến khi người dùng
trong CBIR
Sự khác biệt giữa các phương pháp phản hồi liên quan được xácđịnh dựa trên chiến lược giải thích độ liên quan của ảnh mà ngườidùng sử dụng và kiểu hệ thống học Người dùng có thể giải thích độliên quan của ảnh bằng việc gán cho các ảnh các điểm số hoặc chỉ định
là liên quan hoặc không liên quan Kiểu học có thể là học chủ độnghoặc học bị động Với học bị động, hệ thống trả lại cho người dùng
Trang 40Hình 1.7: Sơ đồ tổng quan của CBIR với phản hồi liên quan
những ảnh được xem là liên quan nhất (chắc chắn nhất) Trong khi
đó, với học chủ động, hệ thống sẽ trả về cho người dùng những ảnhđược xem là không chắc chắn nhất nên khi được người dùng đánh giá
sẽ nhận được nhiều thông tin hơn và do đó sẽ thu được kết quả tốthơn
Trong các hệ thống CBIR với phản hồi liên quan, người dùngđóng một vai trò quan trọng Các thông tin phản hồi chính xác từngười dùng sẽ góp phần cải thiện hiệu năng của hệ thống tra cứu Dovậy, các nhà nghiên cứu đã tập trung áp dụng các kỹ thuật học máytrên những phản hồi của người dùng để cải thiện hiệu năng tra cứu
Kỹ thuật cập nhật truy vấn và kỹ thuật học thống kê là những kỹthuật được sử dụng phổ biến trong các hệ thống CBIR với phản hồiliên quan [63]