L ỜI CẢM ƠN Luận án Tiến sĩ ―Nâng cao độ chính xác tra cứu ảnh dựa vào nội dung s ử dụng kỹ thuật điều chỉnh trọng số hàm khoảng cách‖ được hoàn thiện bằng sự cố gắng của bản thân và s
Trang 1B Ộ GIÁO DỤC VÀ ĐÀO TẠO VI ỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGH Ệ VIỆT NAM
H ỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
-
ĐÀO THỊ THÚY QUỲNH
NÂNG CAO ĐỘ CHÍNH XÁC TRA CỨU ẢNH
ĐIỀU CHỈNH TRỌNG SỐ HÀM KHOẢNG CÁCH
LU ẬN ÁN TIẾN SỸ CÔNG NGHỆ THÔNG TIN
HÀ N ỘI – 2019
Trang 2B Ộ GIÁO DỤC VÀ ĐÀO TẠO VI ỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGH Ệ VIỆT NAM
H ỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
-
ĐÀO THỊ THÚY QUỲNH
NÂNG CAO ĐỘ CHÍNH XÁC TRA CỨU ẢNH
ĐIỀU CHỈNH TRỌNG SỐ HÀM KHOẢNG CÁCH
LU ẬN ÁN TIẾN SỸ CÔNG NGHỆ THÔNG TIN
Chuyên ngành: Khoa h ọc máy tính
Trang 3L ỜI CAM ĐOAN
Tôi xin cam đoan luận án “Nâng cao độ chính xác tra cứu ảnh dựa vào nội dung s ử dụng kỹ thuật điều chỉnh trọng số hàm khoảng cách” là công trình
nghiên cứu của riêng tôi Các số liệu, kết quả được trình bày trong luận án hoàn toàn trung thực và chưa từng được công bố trong bất kỳ một công trình nào khác
Tôi đã trích dẫn đầy đủ các tài liệu tham khảo, công trình nghiên cứu liên quan trong nước và quốc tế Ngoại trừ các tài liệu tham khảo này, luận án hoàn toàn là công việc của riêng tôi
Trong các công trình khoa học được công bố trong luận án, tôi đã thể hiện
rõ ràng và chính xác đóng góp của các đồng tác giả và những gì do tôi đã đóng góp
Luận án được hoàn thành trong thời gian tôi làm Nghiên cứu sinh tại phòng Nhận dạng và Công nghệ tri thức, Viện Công nghệ thông tin, Viện Hàn lâm Khoa học và Công nghệ Việt Nam
NCS Đào Thị Thúy Quỳnh
Trang 4L ỜI CẢM ƠN
Luận án Tiến sĩ ―Nâng cao độ chính xác tra cứu ảnh dựa vào nội dung
s ử dụng kỹ thuật điều chỉnh trọng số hàm khoảng cách‖ được hoàn thiện
bằng sự cố gắng của bản thân và sự giúp đỡ của Thầy hướng dẫn khoa học, Ban lãnh đạo Học viện Khoa học và Công nghệ Việt Nam, Ban lãnh đạo Khoa Toán-Tin, trường Đại học Khoa học - Đại học Thái Nguyên, Ban lãnh đạo Khoa Công nghệ thông tin 1, Học viện Công nghệ Bưu chính Viễn thông, các chuyên gia và các nhà khoa học, đồng nghiệp, bạn bè và những người thân trong gia đình
Trước tiên, nghiên cứu sinh xin được bày tỏ lòng biết ơn chân thành đến Thầy hướng dẫn khoa học PGS.TS Ngô Quốc Tạo và PGS.TS Nguyễn Hữu
Quỳnh Nghiên cứu sinh đã nhận được những định hướng khoa học, những bài
học quý báu, sự hướng dẫn tận tình và kinh nghiệm nghiên cứu khoa học quý giá trong nghiên cứu
Tôi xin chân thành cảm ơn phòng Nhận dạng và Công nghệ tri thức, Viện Công nghệ thông tin, Học viện Khoa học và Công nghệ, Viện Hàn lâm Khoa
học và Công nghệ Việt Nam đã tạo điều kiện thuận lợi trong suốt quá trình nghiên cứu và thực hiện luận án
Tôi xin chân thành cảm ơn Ban giám đốc Học viện Công nghệ Bưu chính
Viễn thông, Ban lãnh đạo Khoa, Bộ môn Khoa học máy tính và các Thầy Cô Khoa Công nghệ thông tin 1 đã quan tâm giúp đỡ để tôi hoàn thành nhiệm vụ
học tập Xin chân thành cảm ơn sự quan tâm, động viên và những đóng góp quý báu của quý đồng nghiệp
Cuối cùng, tôi xin bày tỏ lòng biết ơn vô hạn tới mọi thành viên trong gia đình, sự khuyến khích động viên của gia đình là động lực để tôi hoàn thành luận
án này
Trang 5M ỤC LỤC
M Ở ĐẦU ix
CHƯƠNG 1 1
T ỔNG QUAN VỀ TRA CỨU ẢNH DỰA VÀO NỘI DUNG 1
1.1 Gi ới thiệu 1
1.1.1 Tra c ứu dựa vào văn bản 2
1.1.2 Tra c ứu ảnh dựa vào nội dung 2
1.2 Trích rút đặc trưng trong tra cứu ảnh 5
1.2.1 Đặc trưng mầu 5
1.2.2 Đặc trưng kết cấu 8
1.2.3 Đặc trưng hình 11
1.2.4 Thông tin không gian 13
1.3 Đo khoảng cách 15
1.4 Phân c ụm 19
1.5 M ột số nghiên cứu liên quan về giảm khoảng cách ngữ nghĩa trong tra c ứu ảnh 20
1.6 Đánh giá hiệu năng 24
1.7 K ết luận Chương 1 và định hướng nghiên cứu 25
CHƯƠNG 2 PHƯƠNG PHÁP TRA CỨU ẢNH 27
LIÊN QUAN NG Ữ NGHĨA 27
2.1 Gi ới thiệu 27
2.2 Sơ đồ và ý tưởng phương pháp đề xuất 32
2.3 Ph ản hồi liên quan với truy vấn đa điểm 36
2.4 Thu ật toán tra cứu ảnh đề xuất 38
Trang 62.4.1 Phân c ụm tập ảnh phản hồi 38
2.4.2 Thu ật toán đề xuất cho phân cụm gia tăng 42
2.4.3 Công th ức đề xuất cho tính khoảng cách cải tiến 47
2.4.4 Công th ức đề xuất cho tính trọng số ngữ nghĩa của truy vấn 47
2.4.5 Thu ật toán đề xuất cho tính độ quan trọng đặc trưng 48
2.4.6 Thu ật toán đề xuất cho gộp các danh sách kết quả 50
2.4.7 Thu ật toán đề xuất chung cho tra cứu ảnh liên quan ngữ nghĩa 52
2.5 Đánh giá thực nghiệm 56
2.5.1 Môi trường thực nghiệm 56
2.5.2 Chi ến lược mô phỏng phản hồi liên quan 58
2.5.3 Th ực hiện truy vấn và đánh giá 58
2.6 K ết luận Chương 2 61
CHƯƠNG 3 PHƯƠNG PHÁP TRA CỨU ẢNH SỬ DỤNG TRỌNG SỐ THÍCH NGHI 63
3.1 Gi ới thiệu 63
3.2 Thu ật toán xác định điểm truy vấn tối ưu và bộ trọng số thích nghi của hàm kho ảng cách cải tiến. 68
3.3 Đề xuất thuật toán tra cứu ảnh sử dụng bộ trọng số thích nghi 73
3.4 Th ử nghiệm và đánh giá kết quả 75
3.4.1 Môi trường thực nghiệm 75
3.4.2 Các k ết quả thực nghiệm và thảo luận 76
3.5 K ết luận Chương 3 83
K ẾT LUẬN 84
Trang 7DANH M ỤC HÌNH VẼ
Hình 1.1 Khoảng cách ngữ nghĩa 3
Hình 1.2 Kiến trúc hệ thống tra cứu ảnh dựa vào nội dung 4
Hình 1.3: Sơ đồ phản hồi liên quan 5
Hình 2.1 Hình dạng truy vấn (a) Dịch chuyển điểm truy vấn (b) Hình dạng lồi (đa điểm) (c) Hình dạng lõm (đa điểm) 29
Hình 2.2 Ba cụm khác nhau (mầu đỏ, mầu vàng và mầu trắng) cho cùng một chủ đề hoa hồng 30
Hình 2.3: Khoảng cách từ một điểm đến một truy vấn 31
Hình 2.4: Các điểm dữ liệu trên không gian hai chiều 32
Hình 2.5 Cấu trúc phương pháp đề xuất 33
Hình 2.6 Bốn biểu diễn của cùng một ảnh 35
Hình 2.7 Không gian đặc trưng ảnh xám 36
Hình 2.8 Minh họa tính trọng số ngữ nghĩa từ một ảnh đến 3 truy vấn 48
Hình 2.9 Mô hình hệ thống 59
Hình 2.10 So sánh độ chính xác 61
Hình 3.1: Giao diện điển hình của hệ thống CBIR với phản hồi liên quan 64
Hình 3.2 Minh họa vùng truy vấn tối ưu ngang bằng nhau (a) Hình bên trái: điểm truy vấn thứ nhất (b) Hình bên phải: điểm truy vấn thứ hai 64
Hình 3.3 Sơ đồ của tra cứu ảnh sử dụng các trọng số thích nghi 66
Hình 3.4 Một hình ellip sinh ra từ các mẫu phản hồi dương 71
Hình 3.5 Minh họa đưa danh sách kết quả bao gồm nhiều ảnh 72
không liên quan 72
Hình 3.6 Minh họa tính toán hàm khoảng cách từ một điểm trong hình ellip tương ứng với điểm truy vấn tối ưu 72
Hình 3.7 So sánh độ chính xác của 5 phương pháp 79
Hình 3.8 So sánh độ lệch chuẩn của 5 phương pháp 79
Hình 3.9 So sánh độ chính xác trung bình của phương pháp Aweight với tập thực sự và Aweight sử dụng nhận thức trực quan của sinh viên 80
Trang 8Hình 3.10 So sánh độ chính xác trung bình của phương pháp Aweight,
Aweight_WLNR, Aweight_WIDF và FGSSH 81
Hình 3.11 Thời gian thực hiện tra cứu của phương pháp đề xuất với hai trường hợp 82
Hình B.1 Giao diện frm_Class_Images 100
Hình B.2.Giao diện frm_Type_of_Features 100
Hình B.3 Giao diện frm_Images_Database 101
Hình B.4 Giao diện frm_Upload_Images 101
Hình B.5 Giao diện frm_Trainning 102
Hình B.6 Giao diện frm_Features 102
Hình B.7 Giao diện bước biến đổi ảnh và tra cứu đa biểu diễn 103
Hình B.8 Giao diện bước gộp và phản hồi lần 1 103
Hình B.9 Giao diện bước phân cụm và tra cứu trên mỗi cụm 104
Hình B.10 Giao diện bước gộp kết quả tra cứu phản hồi lần 1 104
Hình B.11 Giao diện chính của hệ thống 105
Hình B.12 Giao diện Load Dataset 105
Hình B.13 Giao diện đưa vào ảnh truy vấn và chọn số lượng ảnh trả về 106
Hình B.14 Kết quả truy vấn khởi vào và người dùng phản hồi (ảnh có viền mầu đỏ) 107
Hình B.15 Thực hiện phân cụm tập ảnh người dùng chọn và hiển thị tập ảnh của cụm 1 107
Hình B.16 Thực hiên tra cứu với trọng số thích nghi lần lặp thứ nhất 108
Hình B.17 Thực hiên tra cứu với trọng số thích nghi lần lặp thứ hai 108
Hình B.18 Thực hiên tra cứu với trọng số thích nghi lần lặp thứ ba 109
Trang 9Bảng 3.2 Bảng kết quả trung bình độ chính xác của 5 phương pháp theo số điểm truy vấn trong ba lần phản hồi 78
Bảng A1 Độ chính xác trung bình của 34 loại truy vấn với một lần lặp phản hồi của phương pháp SRIR đề xuất ở chương 2 94Bảng A2 Độ chính xác trung bình của 80 loại truy vấn với 3 lần lặp phản hồi
của phương pháp đề xuất ở chương 3 96
Trang 10CBIR Cotent-based image retrieval (Tra cứu ảnh dựa vào nội
Phương pháp JF Phương pháp đề xuất bởi tác giả Jin&French
tra cứu ảnh dựa vào ngữ nghĩa)
Trang 11M Ở ĐẦU
1 Tính cấp thiết của luận án
Cơ sở dữ liệu ảnh ngày càng trở nên phổ biến trong các lĩnh vực ứng dụng khác nhau như viễn thám, thời trang, phòng chống tội phạm, xuất bản, y học, kiến trúc,… Sự tiến triển của các kỹ thuật thu, truyền và lưu trữ ảnh đã cho phép xây dựng các cơ sở dữ liệu ảnh rất lớn Các nhân tố này đã thúc đẩy sự quan tâm nghiên cứu các phương pháp khai thác hiệu quả cơ sở dữ liệu ảnh rất lớn này
Tra cứu ảnh có thể được thực hiện dựa vào các mô tả ngắn của ảnh Các ảnh có thể được mô tả bởi một tập các thuộc tính độc lập nội dung (tên file, khuôn dạng, loại, kích cỡ, tên tác giả, thiết bị thu nhận, ngày tạo và vị trí ổ đĩa)
mà có thể được quản lý thông qua hệ quản trị cơ sở dữ liệu truyền thống Hạn chế chính của cách tiếp cận này đó là các truy vấn bị giới hạn vào các thuộc tính hiện có của tệp ảnh Một cách tiếp cận thay thế là sử dụng các từ khóa hoặc các chú thích ảnh Trong cách tiếp cận này, trước tiên các ảnh được chú thích thủ công bằng các từ khóa Sau đó, các ảnh có thể được tra cứu bởi các chú thích tương ứng của chúng Cách tiếp cận này ít giới hạn hơn cách tiếp cận trước Tuy nhiên, có ba khó khăn chính với cách tiếp cận này, đó là yêu cầu số lượng lớn các nhân công trong việc phát triển các chú thích, sự khác biệt trong giải thích nội dung ảnh, và sự không nhất quán của cách gán từ khóa giữa những người thực hiện chú thích khác nhau Cách tiếp cận chú thích từ khóa này trở nên không khả thi khi cỡ của các tập ảnh gia tăng nhanh chóng
Để khắc phục các khó khăn của cách tiếp cận dựa vào chú thích, một cách tiếp cận thay thế là tra cứu ảnh dựa vào nội dung đã được đề xuất từ đầu những năm 1990 Bên cạnh sử dụng các từ khóa được con người gán, các hệ thống tra cứu ảnh dựa vào nội dung sử dụng nội dung trực quan của các ảnh, như các đặc trưng mầu sắc, kết cấu, và hình dạng, làm chỉ số ảnh Điều này làm giảm đáng
kể những khó khăn của cách tiếp cận thuần túy dựa trên chú thích, bởi vì quá trình trích rút đặc trưng có thể được thực hiện tự động Kể từ khi ra đời, tra cứu ảnh dựa vào nội dung đã thu hút sự quan tâm nghiên cứu rất lớn, phạm vi từ
Trang 12nghiên cứu tới thương mại Cho đến nay, một số hệ thống nguyên mẫu thực nghiệm và các sản phẩm thương mại đã được đề xuất và xây dựng như QBIC [71], MARS [85].
Đến nay, đã có nhiều thuật toán phức tạp được thiết kế để mô tả các đặc trưng mầu, hình dạng và kết cấu, các thuật toán này không thể mô hình tương đương các ngữ nghĩa ảnh và có nhiều giới hạn khi giải quyết cơ sở dữ liệu ảnh nội dung rộng [61] Các thực nghiệm trên các hệ thống CBIR chỉ ra rằng các nội dung mức thấp thường thất bại trong mô tả các khái niệm ngữ nghĩa mức cao của ảnh [111] Do đó, hiệu năng của tra cứu ảnh dựa vào nội dung vẫn còn xa so với kỳ vọng của người dùng
Để khắc phục được hạn chế ở trên, những năm gần đây các hướng nghiên cứu tập trung đi tìm các phương pháp giảm khoảng cách ngữ nghĩa giữa đặc trưng mức thấp và khái niệm mức cao Giảm khoảng cách ngữ nghĩa thường được thực hiện thông qua phản hồi liên quan Phản hồi liên quan (RF - Relevance Feedback) là một quá trình học trực tuyến mà cố gắng học mục đích của người dùng trong quá trình tương tác; RF là một công cụ mạnh được sử dụng trong các hệ thống tra cứu thông tin [74,78] Mục đích của nó là mang người dùng vào lặp tra cứu để giảm khoảng cách ngữ nghĩa giữa những gì mà truy vấn biểu diễn và những gì người dùng nghĩ Bằng việc tiếp tục học thông qua tương tác với người dùng, giảm khoảng cách thông qua phản hồi liên quan
đã được chỉ ra là cải tiến độ chính xác đáng kể trong các hệ thống tra cứu ảnh dựa vào nội dung [58,59,64,80,90,118,119,126]
Tuy nhiên, hầu hết các phương pháp đề cập ở trên đều gặp phải các vấn
đề như sau: (1) yêu cầu người dùng phải cung cấp đồng thời nhiều ảnh truy vấn
đa dạng (các ảnh khác nhau nhưng cùng một chủ đề ), tức là, tăng gánh nặng cho người dùng (2) chưa tận dụng được thông tin phản hồi của người dùng vào việc xác định độ quan trọng ngữ nghĩa của từng truy vấn và độ quan trọng của từng đặc trưng (3) sử dụng chung một véc tơ trọng số của hàm khoảng cách cho tất
cả các điểm truy vấn tối ưu mà không xét đến tính chất địa phương của các điểm
Trang 13truy vấn khác nhau (vị trí các điểm truy vấn khác nhau, tính chất dữ liệu của các điểm lân cận của mỗi điểm truy vấn tương ứng cũng khác nhau) (4) mỗi lần lặp phản hồi, phương pháp phải phân cụm lại từ đầu tất cả các ảnh Bốn vấn đề này dẫn đến hiệu năng của hệ thống tra cứu thấp
Do đó, việc đề xuất các giải pháp tra cứu ảnh để khắc phục các hạn chế ở
trên là một nhu cầu cấp thiết Đó cũng là lý do mà luận án chọn đề tài ―Nâng
cao độ chính xác tra cứu ảnh dựa vào nội dung sử dụng kỹ thuật điều chỉnh trọng số hàm khoảng cách‖ Các phương pháp tra cứu ảnh trong luận án được
giới hạn trong phạm vi tìm các ảnh đa dạng cùng chủ đề với ảnh truy vấn, chẳng hạn: tìm tất cả các ảnh thuộc chủ đề hoa hồng bao gồm cả ảnh hoa hồng đỏ, hoa hồng trắng và hoa hồng vàng
2 Mục tiêu của luận án
Mục tiêu chung của luận án:
Đề xuất được phương pháp tra cứu ảnh nhằm nâng cao độ chính xác tra cứu
Mục tiêu cụ thể của luận án:
- Đề xuất được phương pháp tra cứu các ảnh liên quan ngữ nghĩa nằm rải rác trong không gian đặc trưng để nâng cao độ chính xác mà không tăng thời gian thực hiện tra cứu
- Tận dụng thông tin phản hồi của người dùng để xác định độ quan trọng ngữ nghĩa của mỗi truy vấn, độ quan trọng của mỗi đặc trưng nhằm đề xuất phương pháp tra cứu ảnh hiệu quả
- Đề xuất phương pháp khai thác mức độ phản hồi của người dùng, tính chất địa phương của mỗi vùng chứa điểm truy vấn điều chỉnh để nâng cao độ chính xác tra cứu
3 Các đóng góp của luận án
Trong luận án này, tác giả nghiên cứu đề xuất các phương pháp tra cứu
ảnh liên quan ngữ nghĩa gồm: phương pháp SRIR (Semantic–Related Image
Trang 14Retrieval method) [CT5], phương pháp AWEIGHT (An efficient image
retrieval method using adaptive weights) [CT6]:
- Phương pháp SRIR giải quyết được các hạn chế: (1) Chỉ sử dụng một truy vấn để tạo ra kết quả tra cứu khởi tạo gồm các ảnh nằm trong các vùng khác nhau; (2) Không thực hiện phân cụm lại tập ảnh phản hồi; (3) xác định được độ quan trọng ngữ nghĩa của từng truy vấn và (4) xác định độ quan trọng theo từng đặc trưng Những đóng góp này làm cho độ chính xác được cải tiến đáng kể
- Phương pháp AWEIGHT khai thác mức độ phản hồi để xác định các điểm truy vấn tối ưu Bên cạnh đó, phương pháp đề xuất cũng khai thác đầy đủ tính chất địa phương của mỗi điểm truy vấn tối ưu Ngoài ra, phương pháp trong chương này tận dụng được nhiều phản hồi từ phía người dùng mà không tăng tốc độ tính toán
4 Bố cục của luận án
Luận án này được bố cục thành ba chương:
Chương 1 giới thiệu tổng quan về tra cứu ảnh dựa vào nội dung
Chương 2 trình bày phương pháp tra cứu ảnh liên quan ngữ nghĩa được tác giả để xuất, có tên là SRIR
Chương 3 trình bày phương pháp tra cứu ảnh sử dụng trọng số thích nghi được tác giả đề xuất, có tên là AWEIGHT
Cuối cùng, luận án đưa ra một số kết luận và định hướng nghiên cứu trong tương lai
Trang 15CHƯƠNG 1
T ỔNG QUAN VỀ TRA C ỨU ẢNH DỰA VÀO NỘI DUNG
Chương này trình bày tổng quan về tra cứu ảnh dựa vào nội dung bao gồm các đặc trưng mức thấp của ảnh, cấu trúc hệ thống tra cứu ảnh dựa vào đặc trưng mức thấp và phân tích một số phương pháp tra cứu ảnh dựa vào đặc trưng mức thấp Bên cạnh đó, chương này trình bày một số nghiên cứu giảm khoảng cách ngữ nghĩa theo cách tiếp cận phản hồi liên quan Ngoài ra, chương này cũng phân tích một số kỹ thuật tra cứu ảnh với ngữ nghĩa mức cao Cuối cùng, chương này đưa ra một số kết luận và định hướng cho nghiên cứu
1.1 Gi ới thiệu
Các dạng nguồn đa phương tiện khác nhau (văn bản, tiếng nói, ảnh, video) đang tăng lên nhanh chóng, chẳng hạn dữ liệu được trực quan trong các điện thoại thông minh, các ứng dụng 2D/3D, nội dung web, Thế giới đang chứng kiến một sự tiến hóa về lượng, sự sẵn có, độ phức tạp, sự đa dạng và sự quan trọng của các ảnh trong tất cả các lĩnh vực Do đó, nhu cầu về các dịch vụ ảnh trở nên quan trọng hơn bao giờ hết Các ảnh đóng một vai trò quan trọng trong một phạm vi rộng các ứng dụng và các lĩnh vực như giáo dục, chăm sóc y
tế, dự báo thời tiết, nghiên cứu về tội phạm, quảng cáo, thiết kế nghệ thuật, web, phương tiện xã hội và giải trí Tuy nhiên, phương tiện trực quan yêu cầu một lượng xử lý và lưu trữ đáng kể, cần có các phương pháp hiệu quả cao để đánh chỉ số, lưu trữ, phân tích và tra cứu thông tin trực quan từ các cơ sở dữ liệu ảnh
Do đó, tra cứu các ảnh nhanh, chính xác và hiệu quả cho tất cả các loại tập ảnh trở thành một trong những nhiệm vụ thách thức nhất
Trang 161.1.1 Tra c ứu dựa vào văn bản
Cách tiếp cận ban đầu cho tra cứu ảnh là dựa vào văn bản, trong đó các ảnh được đánh chỉ số bằng các từ khóa, chủ đề hoặc mã phân loại Các từ khóa, chủ đề hoặc mã phân loại này được sử dụng trong quá trình tra cứu [41] Tuy nhiên, với cơ sở dữ liệu ảnh lớn và tăng lên nhanh chóng, các khó khăn phải đối mặt của cách tiếp cận tra cứu dựa vào văn bản ngày càng trở nên nghiêm trọng hơn Bên cạnh đó, quá trình này tốn nhiều nhân lực và thời gian, từ khóa lại mang tính chủ quan và không duy nhất, những người khác nhau có các nhận thức khác nhau về cùng một ảnh
Để khắc phục các vấn đề này, các nội dung của ảnh (gồm mầu, kết cấu và hình dạng) được trích rút tự động từ bản thân các ảnh đã được sử dụng cho tra cứu ảnh Phương pháp này được gọi là tra cứu ảnh dựa vào nội dung (CBIR - content-based image retrieval) [69] CBIR cho phép loại đi các khó khăn của tra cứu dựa vào văn bản trong các cơ sở dữ liệu ảnh lớn và hệ thống CBIR cung cấp các kết quả chính xác hơn
1.1.2 Tra c ứu ảnh dựa vào nội dung
Tra cứu ảnh dựa vào nội dung (CBIR) là một ứng dụng của các kỹ thuật thị giác máy tính đối với bài toán tra cứu ảnh [70] Mục tiêu của hệ thống CBIR
là sử dụng nội dung trực quan của các ảnh để tìm các ảnh quan tâm từ một cơ sở
dữ liệu ảnh lớn Tra cứu ảnh dựa vào nội dung có nghĩa là tra cứu sẽ phân tích nội dung của ảnh thay vì dựa vào các siêu dữ liệu như từ khóa, thẻ và các mô tả văn bản đi kèm với ảnh Thuật ngữ nội dung ở đây được hiểu là mầu, hình dạng, kết cấu hoặc bất cứ một thông tin nào mà có thể lấy ra từ bản thân ảnh
Trong CBIR, các ảnh có thể được tra cứu thông qua việc sử dụng các đặc trưng mức thấp (tức là mầu sắc, hình dạng, và kết cấu) hoặc sử dụng các đặc trưng mức cao hay các đặc trưng ngữ nghĩa Hình 1.1 chỉ ra khoảng cách ngữ nghĩa của hai đối tượng ảnh Như Hình 1.1 cho thấy, véc tơ đặc trưng (hai lược đồ) của ảnh phía trên và véc tơ đặc trưng của ảnh phía dưới là rất giống nhau
Trang 17Do đó, nếu chỉ dựa vào đặc trưng mức thấp (véc tơ đặc trưng) thì hệ thống sẽ kết luận ảnh phía trên và phía dưới là giống nhau Tuy nhiên, khi ta nhìn vào hai ảnh này thì lại thấy chúng rất khác nhau (ảnh phía trên là cây trong rừng còn ảnh phía dưới là một bông hồng) Tra cứu ảnh dựa vào ngữ nghĩa đối sánh một truy vấn người dùng dựa vào các nội dung nhận thức nào đó hơn là sự tương tự giữa các đặc trưng
Hình 1.1 Kho ảng cách ngữ nghĩa
Thành phần chính của CBIR là kỹ thuật tra cứu ảnh được sử dụng để lấy
ra các ảnh tương tự nhất đối với ảnh truy vấn mà người dùng đưa vào [101] Một
hệ thống tra cứu dựa vào nội dung tiêu biểu được chia thành hai pha: trích rút đặc trưng ngoại tuyến và tra cứu ảnh trực tuyến Trong pha ngoại tuyến, hệ thống trích rút tự động các thuộc tính trực quan ở mức thấp (mầu, kết cấu và hình dạng) hoặc ở mức cao Trong pha tra cứu ảnh trực tuyến, người dùng có thể cung cấp một ảnh mẫu cho hệ thống tra cứu để tìm kiếm các ảnh mong muốn
Hệ thống tra cứu ảnh biểu diễn ảnh mẫu này bởi véc tơ đặc trưng và khoảng cách (hoặc độ tương tự) giữa các véc tơ đặc trưng của ảnh mẫu và của ảnh trong
cơ sở dữ liệu đặc trưng được tính toán Cuối cùng hệ thống phân hạng các ảnh theo thứ tự tăng dần của khoảng cách hay giảm dần của độ tương tự và trả về tập ảnh kết quả cho người dùng Nếu không thỏa mãn với kết quả tra cứu, người dùng có thể cung cấp phản hồi liên quan cho hệ thống tra cứu, hệ thống sẽ học
Trang 18nhu cầu thông tin của người dùng Kiến trúc của hệ thống tra cứu ảnh dựa vào nội dung được chỉ ra trên Hình 1.2
Tập ảnh
Ảnh truy vấn
Cơ sở dữ liệu đặc trưng
Véc tơ đặc trưng
Độ tương tự Kết quả tra cứu
Trích rút đặc trưng
Trích rút đặc trưng
Hình 1.2 Ki ến trúc hệ thống tra cứu ảnh dựa vào nội dung
Phản hồi liên quan (RF - Relevance Feedback) là một quá trình trực tuyến
mà cố gắng học mục đích của người dùng trong quá trình tương tác Phản hồi liên quan được sử dụng rộng rãi trong các hệ thống tra cứu thông tin [74,78]
Mục đích của nó là mang người dùng vào lặp tra cứu để giảm khoảng cách ngữ nghĩa giữa những gì mà truy vấn biểu diễn và những gì người dùng nghĩ Bằng việc tiếp tục học thông qua tương tác với các người dùng cuối, phản hồi liên quan đã được chỉ ra là cung cấp cải tiến hiệu năng đáng kể trong các hệ thống tra cứu ảnh dựa vào nội dung [103,104,119]
Hình 1.3 chỉ ra cơ chế hoạt động của phản hồi liên quan trong tra cứu ảnh dựa vào nội dung [2,74,104] Khi có kết quả tra cứu khởi tạo, người dùng chọn các ảnh liên quan trong danh sách kết quả này để làm các mẫu có nhãn (dương hay âm) Dựa trên tập mẫu huấn luyện này, một thuật toán máy học được thực hiện để điều chỉnh các tham số Dựa trên các tham số vừa được học, tra cứu ảnh
sẽ tiếp tục được thực hiện Quá trình được lặp lại cho đến khi người dùng thỏa mãn
Phản hồi liên quan
Trang 19Hình 1.3: Sơ đồ phản hồi liên quan
Con người có thể mô tả và giải thích các nội dung ảnh một cách thích hợp, bao gồm cấu trúc liên kết toàn bộ và các đối tượng sử dụng các khái niệm ngữ nghĩa mức cao Không giống như con người, máy tính xử lý các đặc trưng mức thấp được trích rút từ các điểm ảnh, do đó nó cung cấp các mô tả của ảnh ít ngữ nghĩa hơn so với mô tả của con người Sự khác nhau giữa máy tính và con người trong việc mô tả cùng một ảnh được gọi là ―khoảng cách ngữ nghĩa‖ Người dùng tìm kiếm sự tương tự ngữ nghĩa nhưng cơ sở dữ liệu chỉ có thể cung cấp các ảnh tương tự bởi một xử lý số Ngoài ra, khoảng cách ngữ nghĩa giữa các thuộc tính ảnh và các thuộc tính đối tượng giới hạn nhiều hiệu quả tra cứu
1.2 Trích rút đặc trƣng trong tra cứu ảnh
1.2.1 Đặc trƣng mầu
Đặc trưng mầu là một trong những đặc trưng thị giác rộng nhất do quan
hệ chặt chẽ với các đối tượng ảnh, tiền cảnh và nền Mầu cũng là một đặc trưng trực quan mạnh do nó không phụ thuộc vào trạng thái của các nội dung ảnh như
Trang 20hướng, cỡ và góc Các biểu diễn mầu phổ biến là lược đồ mầu, mô men mầu [34], tương quan mầu [43] và ma trận đồng hiện mầu [37]
Không gian mầu được phân lớp thành các không gian mầu tuyến tính (tức RGB, XYZ, CMY, YIQ và YUV) và các không gian mầu phi tuyến [113] (tức L*a*b, HSV, Nxyz và L*u*v) Không gian mầu RGB là một không gian mầu cộng tính dựa vào ba mầu chính: đỏ, xanh lá cây và xanh lam Các mầu khác có thể được sinh ra bởi sử dụng các mầu chính, chẳng hạn, sử dụng đỏ với xanh lam tạo ra đỏ tươi, xanh lá cây và xanh lam ta ra mầu lục và sự kết hợp của mầu
đỏ, xanh lá cây và mầu xanh lam ở cường độ tối đa tạo ra mầu trắng Tuy nhiên, không gian RGB không hiệu quả trong việc xử lý các ảnh trong thế giới thực, do
đó nó bị tránh trong nhiều thuật toán tra cứu ảnh vì nó thiếu khả năng đo lường
sự tương tự về nhận thức Hơn nữa, khoảng cách trong không gian RGB có ít thông tin ngữ nghĩa về mặt nhận thức thị giác của con người
Theo đó, không gian mầu HSV được sử dụng thay cho không gian mầu RGB vì các thành phần mầu sắc và độ bão hòa rất gần với nhận thức thị giác của con người Mô hình HSV có ba thành phần cấu thành: ―hue‖ đề cập đến mầu
sắc, ―saturation‖ đề cập đến độ sắc nét của mầu và ―value‖ là độ sáng của mầu
Lược đồ mầu không có thông tin về sự phân bố không gian của mầu; do
đó, các biểu diễn khác đã được đề xuất như tương quan mầu sắc và sự tương quan Các phương pháp này cung cấp thông tin về tương quan không gian của
Trang 21các cặp mầu thay đổi như thế nào đối với khoảng cách trong một ảnh, và chúng
đã cho thấy hiệu quả tra cứu tốt hơn so với lược đồ mầu [43]
Nhiều thuật toán đã được đề xuất và sử dụng trong lĩnh vực CBIR dựa trên việc sử dụng các mô men mầu Ý tưởng chính của các mô men mầu là sử
dụng độ lệch chuẩn và giá trị trung bình của các phân phối trong mỗi dải mầu làm đặc trưng mầu Điều này được xem là một đặc trưng nhỏ gọn do đó nó thường được sử dụng như một quá trình tối ưu hóa cùng với các đặc trưng mầu khác Các mô men Pseudo-Zernike [10] có các thuộc tính tốt của tính bất biến quay và trực giao Hơn nữa, nó đã được xác nhận rằng các mô men Pseudo-Zernike vượt trội hơn so với các mô men Zernike về mặt biểu diễn đặc trưng [44] Tác giả D.Xiaoyin [34] đã đề xuất một phương pháp tra cứu ảnh mầu mới
bằng cách sử dụng bất biến mô men mầu Các mầu đại diện được tính cho từng ảnh thay vì cố định trong một không gian mầu nhất định, do đó điều này cho phép biểu diễn đặc trưng chính xác và gọn hơn
Một phương pháp đã được phát triển là ma trận đồng hiện mầu (CCM) [105] có tính đến mối quan hệ không gian giữa các kênh mầu Một ảnh có thể được coi là một thành phần của ―các cấu trúc cơ bản‖ phù hợp Các phần tử của các pixel đó mang các thuộc tính trực quan, tức mầu sắc, và các quan hệ sở hữu, tức khoảng cách giữa chúng Do đó, nội dung ảnh có thể được đặc trưng bởi CCM m-chiều thích hợp trong đó các thuộc tính và mối quan hệ được biểu diễn
bằng các trục ma trận khác nhau Jhanwar và cộng sự [79] đã sử dụng một phương pháp, có tên là ma trận đồng hiện mầu (MCM), nó tương tự về mặt khái niệm với CCM Ảnh được chia thành các lưới 2 × 2 pixel và mỗi lưới được thay
thế bằng một mầu quét giúp cực tiểu gradient cục bộ trong khi duyệt qua lưới 2
× 2 và tạo thành một ảnh được biến đổi theo motif Sau đó, ma trận MCM được xây dựng như một ma trận 3D trong đó mục (i, j, k) chỉ ra xác suất tìm thấy một mầu (i) ở khoảng cách (k) từ một mục (j) trong ảnh được biến đổi Guoping [37]
đã đề xuất mã cắt khối (BTC) như một kỹ thuật mã ảnh khác mà được sử dụng trong CBIR để nén ảnh mầu Từ luồng nén BTC mà không cần giải mã, hai đặc
Trang 22trưng mô tả nội dung ảnh thu được: ma trận đồng hiện mầu khối (BCCM) và lược đồ mẫu khối (BPH) Cả BCCM và BPH đã được sử dụng để tính toán các
số đo tương tự của hình ảnh cho các ứng dụng CBIR
Bộ mô tả mầu trội (DCD) [14] đã được áp dụng rộng rãi trong các ứng
dụng tra cứu ảnh như là một trong những bộ mô tả mầu MPEG-7, nó biểu diễn thông tin mầu của toàn bộ ảnh bằng một số nhỏ các mầu đại diện DCD mô tả các đặc trưng mầu đại diện và các phân bố trong ảnh hoặc các vùng quan tâm thông qua một khuôn dạng nén, hiệu quả và trực quan Hong và cộng sự [72] đã
đề xuất một phương pháp dựa trên MPEG-7 DCD của số cố định Quá trình trích rút đặc trưng không yêu cầu một giá trị ngưỡng và sử dụng tám mầu trội cố định Thuật toán giao lược đồ được sử dụng để đo các đặc trưng và đơn giản hóa
độ phức tạp tính toán tương tự Zeng và cộng sự [58] đã sử dụng véc tơ gắn kết
mầu mà dựa trên lược đồ khoảng cách Họ cũng đề xuất một thuật toán véc tơ
gắn kết khoảng cách đa tỉ lệ phù hợp với các vấn đề mà ở đó các hình khác nhau
có cùng mô tả và hiệu năng chống nhiễu của thuật toán tra cứu ảnh thấp dựa trên DCD
và tính đồng nhất (homogeneity) Kết cấu ảnh là một đặc trưng ảnh quan trọng
để mô tả các thuộc tính bề mặt của một đối tượng và mối quan hệ của nó với các vùng xung quanh [80] Do các đặc trưng kết cấu được xuất hiện trong nhiều ảnh
thực, chúng rất quan trọng và có lợi ích trong các nhiệm vụ tra cứu ảnh và nhận
dạng mẫu Tuy nhiên, độ phức tạp tính toán và độ chính xác tra cứu là những nhược điểm chính của các hệ thống tra cứu ảnh dựa vào kết cấu
Trang 23Nhiều phương pháp tra cứu ảnh dựa vào kết cấu đã được đề xuất và được cải tiến trong ngữ cảnh CBIR Một số thuật toán được sử dụng phổ biến như mô
tả kết cấu là lọc Gabor, biến đổi Wavelet, ma trận đồng hiện mức xám [95], trường ngẫu nhiên Markov [38], mô tả lược đồ cạnh [35], phân rã tháp [31], và các đặc trưng Tamura [45]
Lọc Gabor là tập hợp các wavelet và mỗi wavelet thu năng lượng ở một
tần số và hướng cụ thể Các biển đổi Gabor wavelet có các thuộc tính đa hướng
và đa độ phân giải và điều này là tối ưu để đo các tần suất không gian cục bộ [123] Mở rộng một tín hiệu sử dụng cơ sở này cung cấp một mô tả tần suất cục
bộ và thu được các đặc trưng cục bộ/ các năng lượng của tín hiệu Lianping và cộng sự [67] đã thảo luận các ảnh hưởng của việc sử dụng một số tham số Gabor (tức là số các mức/ các hướng và kích thước mặt nạ lọc) trên tra cứu ảnh dựa vào kết cấu
Nhiều kỹ thuật trích rút đặc trưng dựa vào biến đổi cũng được áp dụng, bao gồm biến đổi wavelet rời rạc, biến đổi cosine rời rạc, biến đổi Walsh, biến đổi Fourier và các mô men 2D DWT là một trong các biến đổi phổ biến được áp
dụng vào xử lý ảnh và các ứng dụng tra cứu Nó được sử dụng để trích rút các đặc trưng mức thấp do ưu việt của nó trong phân tích đa phân giải và tần suất không gian Nhiều nghiên cứu gần đây trong CBIR sử dụng các thuật toán này hoặc bởi sử dụng một mô tả hoặc kết hợp nhiều thuật toán để tạo ra một mô tả
mạnh cho kết cấu ảnh
Xingyuan và Zongyu [120] đã đề xuất một mô tả thành phần cấu trúc để trích rút và mô tả mầu và kết cấu ảnh Các thành phần cấu trúc được xác định bởi năm thành phần cấu trúc chỉ ra năm hướng tương ứng Lược đồ thành phần
cấu trúc được tính toán bởi mô tả thành phần cấu trúc và ứng dụng không gian
mầu HSV mà được lượng hóa thành 72 bin Lược đồ thành phần cấu trúc kết
hợp các ưu điểm của cả hai phương pháp mô tả kết cấu thống kê và cấu trúc, và
nó có thể biểu diễn tương quan không gian của mầu và kết cấu
Trang 24Liu và cộng sự [40] đã phát triển một cách tiếp cận tra cứu ảnh mới, có tên bộ mô tả cấu trúc nhỏ Các cấu trúc nhỏ (micro-structures) được xác định bởi
độ tương tự hướng cạnh với các mầu cơ bản mà có thể biểu diễn hiệu quả các đặc trưng ảnh Các mầu cơ bản là các mầu với hướng cạnh tương tự mà có thể
bắt chước nhận thức mầu của con người Với một cầu nối của các cấu trúc nhỏ,
mô tả cấu trúc nhỏ có thể trích rút và mô tả các đặc trưng hình, mầu và kết cấu
một cách đồng thời Bộ mô tả cấu trúc nhỏ tích hợp các ưu điểm của cả các cách
tiếp cận mô tả kết cấu thống kê và cấu trúc Hơn nữa, thuật toán này mô phỏng
cơ chế của nhận thức trực quan của con người ở một mức độ nhất định nào đó Thuật toán mô tả cấu trúc nhỏ có hiệu năng đánh chỉ số và hiệu quả cao cho tra cứu ảnh, nhưng với chiều thấp hơn của chỉ 72 bin cho các ảnh mầu đầy đủ
Một cách tiếp cận được đề xuất bởi Chatzichristofis và cộng sự [100], có tên lược đồ kết cấu và mầu mờ mà được tạo ra bởi tích hợp của ba hệ thống mờ
Cỡ lược đồ kết cấu và mầu mờ được giới hạn với chỉ 72 byte trên một ảnh, vì
thế nó là phù hợp cho các cơ sở dữ liệu ảnh cỡ lớn Đặc trưng đề xuất là thích
hợp cho tra cứu ảnh ngay cả trong các trường hợp như nhiễu, biến dạng và trơn
Kwitt và cộng sự [96] đã giới thiệu một cách tiếp cận tra cứu kết cấu xác
suất Nó được dựa trên biểu diễn ảnh trong miền wavelet phức tạp và một số mô hình thống kê cho độ lớn của các hệ số biến đổi phức tạp Ngoài ra, cách tiếp cận này bao gồm các biểu thức dạng đóng cho phân kỳ KL giữa các mô hình
thống kê được đề xuất mà cho phép đo độ tương tự phức tạp hằng số
Khuôn khổ của tra cứu ảnh kết cấu như một họ mới của mô hình đa biến ngẫu nhiên được đề xuất mà dựa trên các phân rã wavelet và Gaussian copula
Họ đã sử dụng lược đồ copula để phân tách một cấu trúc phụ thuộc từ một hành
vi lề và đưa ra hai mô hình đa biến sử dụng mật độ Gaussian và Weibull tổng quát Những mô hình này thu cả các phân phối lề băng con và mối tương quan
giữa các hệ số wavelet Ngoài ra, họ đã thu được, như một độ đo tương tự, một biểu thức dạng đóng của phân kỳ Jeffrey giữa các mô hình đa biến dựa trên copula Gaussian
Trang 25Wang và cộng sự [115] đã trình bày một phương pháp tra cứu ảnh kết cấu dựa trên đặc trưng ma trận đồng hiện mầu Cách tiếp cận của họ thu được tập vùng liên thông mầu cho một ảnh mầu, và sau đó trích rút ma trận đồng hiện cho
đồ hướng cạnh và ma trận đồng hiện mức xám được xem như một bộ mô tả kết
cấu cho đặc trưng ảnh Đặc biệt, thuật toán gen tương tác có thể được sử dụng như một cách tiếp cận khai thác bán tự động với sự trợ giúp của người dùng để điều hướng và xác định một không gian ảnh phức tạp với sự thỏa mãn cực đại
dạng Do đó, các mô tả hình dạng thường được trích rút và được sử dụng với các đặc trưng khác như mầu và kết cấu và có xu hướng là hiệu quả trong các ứng
dụng cụ thể như các đối tượng nhân tạo [73]
Trang 26Bộ mô tả hình dạng có thể được biểu diễn bằng nhiều phương pháp phổ biến như xấp xỉ đa giác, mô tả Fourier, các mô men bất biến, mẫu biến dạng, B-splines, không gian tỷ lệ cong, tỷ lệ khía cạnh, tính tròn và phân đoạn đường bao liên tiếp [65] Liu và cộng sự [39] đã đề xuất một phương pháp biểu diễn đặc trưng ảnh mới để tra cứu ảnh, cụ thể là lược đồ multi-texton Cách tiếp cận lược
đồ multi-texton sử dụng các lợi ích của ma trận đồng hiện mầu và lược đồ bằng cách biểu diễn thuộc tính của ma trận đồng hiện mầu sử dụng một lược đồ Phương pháp lược đồ multi-texton đề xuất dựa chính vào lý thuyết textons của Julesz [15] và hiệu quả hơn các mô tả đặc trưng ảnh đại diện như ma trận đồng hiện texton và tự tương quan hướng cạnh
Một nghiên cứu được phát triển bởi Bronstein và cộng sự [73], có tên Shape Google Cách tiếp cận này đã được đề xuất trong ngữ cảnh của tra cứu hình không cứng nhắc, và lấy cảm hứng từ phiên bản nghiên cứu của Ovsjanikov và cộng sự [73] Dựa trên các nhân của toán tử Laplace-Beltrami, họ chỉ ra bộ mô tả và phát hiện đặc trưng mà được sử dụng để xây dựng từ vựng của các từ hình học và các phân bố phục vụ biểu diễn hình dạng Biểu diễn này
là mạnh dưới một lớp nhiễu rộng, bất biến đối với biến dạng kích thước và cho phép so sánh các hình dạng trải qua các biến dạng khác nhau Chiến lược này xem các quan hệ không gian và biểu diễn các hình bằng các mà nhị phân nén mà
có thể được so sánh và đánh chỉ số hiệu quả sử dụng khoảng cách Hamming
Xiang-Yang và cộng sự [116] đã đề xuất một lược đồ tra cứu ảnh bằng
việc kết hợp ba đặc trưng: kết cấu, mầu và thông tin hình dạng, để thu được hiệu quả tra cứu cao hơn Với bộ mô tả mầu, thuật toán lượng hóa mầu nhanh với
nhập các cụm được sử dụng để xác định trước ảnh, và sau đó nó thu một số nhỏ các mầu trội với phần trăm của chúng Với bộ mô tả kết cấu, các đặc trưng kết
cấu không gian được trích rút sử dụng phân rã lọc ổn định, là một phương pháp xấp xỉ linh hoạt Với bộ mô tả hình dạng, các mô men pseudo-Zernike của ảnh được sử dụng để cung cấp một biểu diễn đặc trưng tốt hơn do độ mạnh của nó so với nhiễu ảnh tốt hơn các biểu diễn mô men khác
Trang 27Nhìn chung, các phương pháp hình dạng dựa vào đường bao đòi hỏi thời gian tính toán cao bởi vì thu sự tương ứng giữa các điểm bao từ hai hình tương ứng sử dụng thông tin bao cục bộ Để giải quyết vấn đề này, một số nghiên cứu
với quay và tỉ lệ
Một cách tiếp cận đã được phát triển bởi Chen và Xu [124], nó kết hợp các phương pháp dựa vào vùng và dựa vào đường bao, có tên bộ mô tả rolling penetrate Phương pháp này cải tiến các phương pháp truyền thống bằng cách thu bất kỳ thông tin mong muốn nào theo cách thống nhất thay vì một khía cạnh
cụ thể của các đặc trưng hình dạng Bởi vì các hàm đặc trưng khác nhau biểu
diễn các đặc trưng hình dạng khác nhau, quá trình quét hoặc là 1) hoạt động như
một bộ mô tả đường bao khi hàm đặc trưng tính toán khoảng cách giữa điểm bao
và trọng tâm hoặc 2) mô tả quan hệ giữa mô men quan tính dọc theo đường quét
và góc θ khi hàm đặc trưng tích lũy tích của mỗi điểm và khoảng cách bình phương của nó đến đường quét Hàm đặc trưng không nhạy cảm với nhiễu, biến
dạng và giữ lại quá trình quét của nó không kể đến độ phức tạp hình [124]
1.2.4 Thông tin không gian
Hầu hết các đặc trưng mức thấp truyền thống được mô tả thiếu thông tin không gian trong biểu diễn được trích rút của chúng, chẳng hạn, các lược đồ và ACCs điểm hình dạng Hai phần khác nhau trong cùng một ảnh có thể có cùng lược đồ, nhưng với phân bố không gian khác nhau Do đó, sử dụng một biểu diễn trừu tượng là không đủ để biểu diễn nội dung ngữ nghĩa của các ảnh Các vùng quan tâm (ROIs) và các biểu diễn dựa vào đồ thị/cây gần đây đã được quan
Trang 28tâm nhiều hơn do chúng cung cấp thông tin không gian quan trọng, đặc biệt cần thiết trong tra cứu ảnh dựa vào vùng
Các lược đồ dựa vào không gian khác đã được phát triển cho một số ứng
dụng CBIR như sử dụng các xâu để biểu diễn các quan hệ cấu trúc phức tạp giữa các đối tượng [115], và sử dụng các ma trận để chỉ ra các quan hệ không gian và các hướng giữa các đối tượng [103] Nhiều phương pháp [87] chia toàn bộ ảnh thành một tập các khối và cho phép xác định các vùng quan tâm, và chúng đã sử
dụng các cơ chế đánh chỉ số và chồng lắp khác nhau bằng việc lưu vị trí không gian của mỗi khối hoặc vùng quan tâm như một chỉ số Tuy nhiên, các phương pháp này sử dụng một cỡ cố định cho các vùng và không xem xét nhiều vùng quan tâm cho đối sánh tương tự giữa các vùng quan tâm khác nhau của các ảnh khác nhau
Nhiều vùng quan tâm [16] được sử dụng để cung cấp các vị trí tương đối của nhiều vùng quan tâm, và nó xem xét các khối khác mà có các vị trí không gian khác nhau từ các vùng quan tâm trong ảnh Lee và Nang [59] đã sử dụng
mầu trội MPEG như đặc trưng được trích rút từ các khối ảnh, và lựa chọn các
khối có một vùng chồng lắp cao hơn để chồng lắp chúng với các vùng được
nhận diện bởi người dùng Trọng số tương tự được dựa vào các vị trí tương đối giữa ảnh truy vấn và các ảnh mục tiêu
Để cung cấp một mức chi tiết hơn của độ tương tự vị trí tương đối, Shrivastava và Tyagi [80] đã liên kết một phương pháp tra cứu dựa vào các mã vùng cho các vùng khác nhau trong ảnh Các mã vùng cùng với mầu trội và các đặc trưng kết cấu được kết hợp và được đánh chỉ số Các mã vùng được sử dụng cho so sánh tương tự và được sử dụng tiếp theo để tìm các vị trí tương đối của nhiều vùng quan tâm trong các ảnh truy vấn và mục tiêu
Các biểu diễn không gian dựa vào đồ thị cũng được sử dụng rộng rãi trong nhiều ứng dụng nhận dạng và tra cứu ảnh Các đồ thị có thể được sử dụng
hiệu quả cho sự tương tự giữa các sắp xếp không gian, ở đó các đối tượng đơn lẻ
Trang 29hoặc các vùng được biểu diễn bởi các nút đồ thị và các quan hệ của chúng được biểu diễn bởi các cung giữa các nút [128] Alajlan và cộng sự [82] đã phát triển một khung dựa vào cây cho tra cứu ảnh dựa vào hình học Nó bao gồm hình
dạng và cấu trúc của các đối tượng và các hố cấu tạo một ảnh Kumar và cộng sự [11] đã phát triển một khung dựa vào đồ thị được áp dụng trong CBIR y học,
biểu diễn các quan hệ của các nội dung ảnh đa phương thức trên một đồ thị hoàn
chỉnh Độ tương tự giữa các ảnh truy vấn và cơ sở dữ liệu được tính toán trên các vị trí không gian của các nội dung ảnh Tuy nhiên, các biểu diễn không gian
dựa vào đồ thị có chi phí tính toán cao
1.3 Đo khoảng cách
Việc lựa chọn xác định loại độ đo khoảng cách mà sử dụng để so sánh độ tương tự của từng cặp ảnh còn phụ thuộc vào cấu trúc của các véc tơ đặc trưng
mô tả chúng Độ đo khoảng cách được áp dụng chỉ ra độ tương tự giữa truy vấn
và mỗi ảnh trong cơ sở dữ liệu Để thu được tra cứu chính xác hơn và hiệu năng tốt hơn, hệ thống CBIR nên tận dụng độ đo đối sánh tương tự hiệu quả, mô tả và định lượng tốt các tương tự nhận thức
Các độ đo khoảng cách có thể được sử dụng cho đối sánh tương tự trong lĩnh vực CBIR như:
Khoảng cách Minkowski: được sử dụng rộng rãi để đo sự tương tự trong các hệ thống CBIR Với hai ảnh X và Y được cho, được biểu diễn trong không gian dữ liệu bởi hai véc tơ n chiều và tương ứng Khoảng cách Minkowski giữa X và Y, d(X,Y) được xác định như sau:
∑ | | (1.1)
Ở đây r là nhân tố chuẩn hóa cho khoảng cách Minkowski, và Khi , và , nó trở thành Manhattan (tức ), Euclid (tức ) và Chebyshev (tức ) tương ứng
Trang 30Khoảng cách Mahalanobis: với điểm A và phân bố B được cho, Mahalanobis đo khoảng cách giữa A và B bằng việc tính bao nhiêu độ lệch chuẩn từ A so với trung bình của B Cho ma trận hiệp phương sai M, và hai ảnh
X và Y mà biểu diễn trong không gian dữ liệu bởi hai véc tơ n chiều
và Khoảng cách Mahalanobis giữa X và Y được xác định như sau:
∑ | |
Nếu và ma trận hiệp phương sai S là ma trận đơn vị thì nó tương đương với khoảng cách Euclid, nhưng nếu S là ma trận trực giao thì nó tương đương với khoảng cách Euclid chuẩn hóa
Khoảng cách Cosine: Với hai ảnh X và Y được cho mà biểu diễn trong không gian dữ liệu bởi hai véc tơ n chiều, khoảng cách được cho bởi góc giữa các véc tơ sử dụng tích vô hướng và độ lớn là:
‖ ‖ ‖ ‖ (1.3) Khoảng cách Hamming:
Một không gian dữ liệu hữu hạn F được cho với n thành phần, khoảng cách Hamming giữa hai véc tơ là số các hệ số mà chúng khác nhau, hoặc có thể được giải thích như số tối thiểu các cạnh trong một đường kết nối hai đỉnh của không gian n chiều Trong hệ thống CBIR, khoảng cách Hamming được sử dụng để tính toán sự không giống nhau giữa các véc tơ đặc trưng mà biểu diễn các ảnh cơ sở dữ liệu và ảnh truy vấn Khoảng cách Hamming mờ là một mở rộng của khoảng cách Hamming cho các véc tơ với các giá trị thực
Với các giá trị thực và , mức độ khác nhau giữa và , được điều
chỉnh bởi >0, biểu thị bởi được xác định bởi:
(1.4)
Trang 31Khoảng cách Earth Mover:
Khoảng cách Earth Mover được dựa trên vấn đề vận chuyển từ tối ưu tuyến tính, mục tiêu cực tiểu chi phí mà có thể được tả để biến đổi một phân phối sang một phần phối khác Với tra cứu ảnh, ý tưởng này được kết hợp với một lược đồ biểu diễn của các phân bố mà dựa vào lượng hóa véc tơ để đo độ tương tự nhận thức Điều này có thể được phát biểu thành một bài toán qui
hoạch tuyến tính như sau: Cho {( ) } là dấu hiệu đầu tiên với m cụm, ở đây là đại diện cụm và là trọng số cụm; và {( ) } là dấu hiệu thứ hai với n cụm; và [ ] là ma trận khoảng cách nền ở đây là khoảng cách nền giữa các cụm và Để tính
một luồng [ ], ở đây là luồng giữa và , mà cực tiểu chi phí tổng thể:
Trang 32phải di chuyển lượng nguồn cung tối đa mà được gọi là luồng tổng Ngay khi luồng tối ưu F được tìm thấy và bài toán vận chuyển được giải, khoảng cách Earth Mover được xác định như sau:
E ∑ ∑
∑ ∑ (1.8)
Khoảng cách Earth Mover mạnh hơn các kỹ thuật đối sánh dựa vào lược
đồ và có nhiều ưu điểm so với các xác định khác của các khoảng cách phân bố Đầu tiên, khoảng cách Earth Mover áp dụng đối với các dấu hiệu mà gộp các lược đồ nào đó Điều này giữ được các ưu điểm của nén và mềm dẻo của dấu hiệu cũng như lợi ích của việc xử lý các cấu trúc có cỡ thay đổi bởi một độ đo khoảng cách Thứ hai, chi phí của Earth Mover phản ảnh đúng khái niệm gần mà không cần sự tồn tại của các vấn đề lượng tử hóa của hầu hết các độ đo khác Thứ ba, khoảng cách Earth Mover đưa ra đối sánh từng phần, chẳng hạn, để xử
lý với các hỗn loạn và đút nút trong các ứng dụng tra cứu ảnh Thứ tư, nếu khoảng cách nền là một độ đo và với tổng các trọng số ngang bằng của hai dấu hiệu, khoảng cách Earth Mover cho phép các không gian ảnh với một cấu trúc
độ đo
Khoảng cách Kullback-Leibler và Jeffrey divergence:
Dựa trên lý thuyết thông tin, phân kỳ K-L đo lường mức độ trung bình không hiệu quả của việc mã hóa một lược đồ bằng cách sử dụng một lược đồ khác làm code-book Cho hai lược đồ { } và { }, ở đây và là các bin lược đồ, phân kỳ Kullback-Leibler (K-L) được xác định như sau:
Trang 33được lấy ra từ quần thể biểu diễn bởi một phân phối khác và được xác định như sau:
Phân cụm K-means:
Cho đến nay, K-means là phương pháp phân cụm được sử dụng phổ biến nhất trong các ứng dụng khoa học và công nghiệp [106] Các bước chính trong phương pháp học không giám sát này gồm: (1) lựa chọn một số điểm khởi tạo từ
dữ liệu đầu vào làm các tâm cụm khởi tạo, (2) liên kết các điểm trong không gian với trọng tâm gần nhất để tạo ra k cụm, (3) tính toán lại các trọng tâm cụm Lặp lại cho đến khi tất cả các điểm dữ liệu đầu vào được gán vào các cụm
Mặc dù đơn giản và tốc độ, thuật toán K-means thường phải đối mặt với
một số vấn đề thách thức như khởi tạo centroid, nhạy cảm đối với các ngoại lai
và xác định một số điểm dữ liệu gần với nhiều cụm Để giải quyết các cụm chồng lên nhau, hai mở rộng của K-means đã được đề xuất và được sử dụng
rộng rãi: GMM (Gaussian mixture models) và phân cụm mờ (chẳng hạn fuzzy means) GMM là một phương pháp xác suất, sử dụng thuật toán cực đại kỳ vọng
c-EM (expectation maximization) để gán các điểm dữ liệu vào các cụm Mặt khác, phân cụm mờ có thể liên kết mỗi điểm dữ liệu với nhiều hơn một cụm với mức
độ thuộc trong khoảng từ 0 đến 1 [18]
Trang 34Phân cụm bán giám sát:
Phương pháp phân cụm chỉ tận dụng một lượng nhỏ dữ liệu có nhãn, nó được biết như là phân cụm bán giám sát Nói chung, các phương pháp bán giám sát cải tiến quá trình phân cụm hoặc bằng điều chỉnh hàm mục tiêu để thỏa mãn các nhãn hoặc điều chỉnh các ràng buộc, hoặc bằng việc huấn luyện độ đo khoảng cách để thỏa mãn các nhãn hoặc các ràng buộc Bilenko và cộng sự [19]
đã đề xuất một phân cụm bán giám sát cân bằng, K-means ràng buộc cặp độ đo (MPCK-means) MPCK-means thực hiện huấn luyện độ đo khoảng cách tại mỗi lần lặp phân cụm và học các độ đo riêng cho mỗi cụm và do đó cho phép các cụm có các hình dạng khác nhau Gần đây, Papagiannopoulou và cộng sự [8] đã giới thiệu một kỹ thuật mới cho phân cụm ảnh bằng việc kết hợp một cách tiếp cận dựa vào khái niệm của biểu diễn ảnh với các kỹ thuật phân cụm Phương pháp này sử dụng các bộ phát hiện khái niệm được huấn luyện để biểu diễn mỗi ảnh bởi một véc tơ kết quả phát hiện khái niệm, sau đó nó được sử dụng làm đầu vào cho các thuật toán phân cụm Họ áp dụng các bộ phát hiện khái niệm được huấn luyện vào tập ảnh và nhận các trọng số dự báo cho mỗi khái niệm Mỗi ảnh
có thể được biểu diễn bằng một véc tơ thành phần của trọng số tin cậy Sau quá trình phân cụm, một tóm tắt của các tập ảnh và các sự kiện có thể được tạo ra
1.5 M ột số nghiên cứu liên quan về giảm khoảng cách ngữ nghĩa trong tra
c ứu ảnh
Có nhiều cách tiếp cận để giảm khoảng cách ngữ nghĩa trong tra cứu ảnh dựa vào nội dung Do các kỹ thuật học máy được sử dụng trong luận án cho nên phần này của luận án sẽ trình bày các nghiên cứu theo hướng tiếp cận học máy
Một số nghiên cứu theo hướng tiếp cận học có giám sát:
Kỹ thuật học có giám sát như máy véc tơ hỗ tợ SVM [27,120], phân lớp Bayes [130] thường được đưa vào các hệ thống tra cứu ảnh dựa vào nội dung nhằm mục đích học khái niệm ngữ nghĩa mức cao từ đặc trưng mức thấp
Trang 35Với cơ sở lý thuyết vững chắc, thuật toán phân lớp SVM sử dụng để giải quyết một số bài toán như nhận dạng đối tượng, phân lớp văn bản… và là một thuật toán học tốt trong hệ thống tra cứu ảnh [2] Ban đầu, SVM thiết kế để phân lớp nhị phân Giả sử, chúng ta có một tập dữ liệu huấn luyện {x1, x2, , xn} là các véc tơ trong không gian X ⊆ Rdthuộc hai lớp riêng biệt với tập nhãn {y1, y2, , yn} và yi {−1, 1} Chúng ta muốn tìm một mặt để tách biệt dữ liệu, mặt phân tách tối ưu (OSP) là một trong những lề cực đại (khoảng cách giữa mặt và điểm dữ liệu của mỗi lớp) Để học đa khái niệm về tra cứu ảnh, một SVM được huấn luyện cho mỗi khái niệm Một phương pháp được dùng rộng rãi nữa là phân lớp Bayesian [75] Trong tài liệu [7], sử dụng phân lớp nhị phân Bayesian, khái niệm mức cao về cảnh thiên nhiên thu được từ các đặc trưng mức thấp Hệ thống phân lớp tự động ảnh cơ sở dữ liệu thành một nhóm như trong nhà/ ngoài trời, và hình ảnh ngoài trời được phân thành thành phố và cảnh quan.Trong [53], mạng Bayesian được dùng để phân lớp ảnh trong nhà/ ngoài trời
Các kỹ thuật học khác như mạng nơ ron được dùng cho học khái niệm Trong [21], đầu tiên tác giả lựa chọn 11 nhóm khái niệm: gạch, mây, lông, cỏ,
đá, kem, kính, đường, đá, cát, da, cây và nước Sau đó, một lượng lớn dữ liệu huấn luyện (đặc trưng mức thấp của các vùng) được đưa vào phân lớp mạng nơ ron để thiết lập liên kết giữa đặc trưng trực quan mức thấp của một ảnh và ngữ nghĩa mức cao của nó (nhãn loại) Một bất lợi của thuật toán này là đòi hỏi một lượng lớn dữ liệu huấn luyện và cần những tính toán phức tạp
Trong [42], đã chỉ ra rằng các thuật toán học thường có hai vấn đề: (1) cần một lượng lớn các mẫu huấn luyện có nhãn (2) Tập huấn luyện được cố định trong suốt quá trình học và ứng dụng Vì thế, nếu ứng dụng thay đổi, các mẫu nhãn mới cần phải cung cấp để đảm bảo độ chính xác phân lớp Cách tiếp cận bootstrapping trình bày trong [42] để giải quyết các vấn đề này Nó bắt đầu từ một tập nhỏ của các mẫu huấn luyến có nhãn Bằng cách sử dụng kết hợp phương pháp huấn luyện, hai thuật toán phân lớp thống kê được sử dụng để
Trang 36huấn luyện và chú thích các mẫu không có nhãn, thuật toán chú thích thành công một tập dữ liệu lớn
Từ thực nghiệm chỉ ra rằng, hiệu quả tra cứu cải thiện lên 10% độ chính xác tra cứu khi được so với SVM (400 ảnh có nhãn cho huấn luyện), với các mẫu huấn luyện có nhãn ít hơn (chỉ có 20 nhãn) Bên cạnh các thuật toán được
đề cập ở đây, kỹ thuật decision tree (supervised learning) cũng được dùng để sinh các đặc trưng ngữ nghĩa Phương pháp Decision tree như ID3, C4.5, CART xây dựng một cấu trúc cây bằng phân hoạch đệ quy không gian thuộc tính đầu vào thành một tập hợp không gian không chồng chéo [102]
Mặc dù các nghiên cứu được mô tả ở trên đã thực hiện việc giảm khoảng cách ngữ nghĩa, tuy nhiên các thuật toán có một số hạn chế sau:
- Đòi hỏi một lượng lớn dữ liệu huấn luyện có nhãn (đòi hỏi này khó có được trong thực tế)
- Cần những tính toán phức tạp, tốn nhiều thời gian tra cứu (đòi hỏi này khó được người dùng chấp nhận)
- Tập huấn luyện được cố định trong suốt quá trình học và ứng dụng Như vậy, nếu ứng dụng thay đổi, độ chính xác không được đảm bảo
- Không tận dụng được thông tin phản hồi của người dùng vào việc xác định độ quan trọng ngữ nghĩa của từng truy vấn và độ quan trọng của từng đặc trưng
- Sử dụng chung một véc tơ trọng số của hàm khoảng cách cho tất cả các điểm truy vấn tối ưu mà không xét đến tính chất địa phương của các điểm truy vấn khác nhau
- Mỗi lần lặp phản hồi, phương pháp phải phân cụm lại từ đầu tất cả các ảnh
Trang 37Những hạn chế này của phương pháp là động lực để luận án đề xuất các phương pháp trong Chương 2 và Chương 3
Một số nghiên cứu theo hướng tiếp cận học không giám sát:
Không giống với học có giám sát khi dữ liệu có nhãn hay có hướng dẫn trong suốt quá trình học, với học không giám sát, dữ liệu không có nhãn, nhiệm
vụ từ những đặc trưng đầu vào như vậy cần tổ chức hoặc nhóm lại Phân cụm ảnh là kỹ thuật điển hình của học không giám sát đối với mục đích tra cứu Nó
dự định nhóm một bộ hình ảnh theo cách tối đa hóa độ tương tự của các đối tượng trong cụm và tối thiểu độ tương tự giữa các cụm khác nhau Mỗi kết quả phân cụm kết hợp một nhãn và ảnh trong cùng cụm là tương tự với nhau
Thuật toán phân cụm K_means truyền thống và biến thể của nó thường được dùng để phân cụm Trong [32], áp dụng thuật toán phân cụm K-means trên đặc trưng mầu mức thấp của tập ảnh huấn luyện Sau đó, đo sự khác nhau trong mỗi cụm để sinh ra một tập chỉ mục giữa đặc trưng trực quan mức thấp và đặc tính văn bản tối ưu (từ khóa) của mỗi cụm tương ứng Các luật chỉ mục được sinh có thể được sử dụng thêm để lập chỉ mục cho ảnh không có nhãn thêm vào ảnh cơ sở dữ liệu Trong [107], đề xuất phương pháp chú thích ảnh cơ sở dữ liệu
tự động cho mục đích tra cứu, đầu tiên hệ thống phân cụm ảnh thành các vùng
sử dụng một biến thể của K-means (PCK-means) [19] Số lượng các cụm được thiết lập là 30 Sau đó, xác suất của mỗi khái niệm (59 khái niệm được định nghĩa cho cơ sở dữ liệu ảnh được sử dụng) cho một vùng được sinh ra bằng cách
sử dụng Phương pháp Bayesian [107] Do đó, một hình ảnh có thể được chú thích bằng cách chọn khái niệm mà có xác suất cao nhất
Do sự phân bố phức tạp của dữ liệu ảnh (các điểm dữ liệu được lấy mẫu
từ không gian đa tạp), các phương pháp truyền thống như phân cụm K-meansthường không thể phân tách ảnh tốt với nhiều khái niệm khác nhau [110] Để giải quyết vấn đề này, phương pháp phân cụm phổ [48] đề xuất và thành công
Trang 38trên nhiều ứng dụng như phân đoạn ảnh, phân cụm ảnh Một phiên bản mở rộng của N_Cut có sẵn trong [1]
Trong [122], phương pháp CLUE được đề xuất để giảm ―khoảng cách ngữ nghĩa‖ trong CBIR Không giống với các hệ thống CBIR khác hiển thị danh sách các ảnh kết quả ban đầu có độ tương tự cao tới người dùng, hệ thống này cố gắng lấy các cụm ảnh ngữ nghĩa Khi đưa vào một ảnh truy vấn, một tập các ảnh mục tiêu tương tự với ảnh truy vấn được chọn là lân cận của ảnh truy vấn Dựa vào giả thuyết rằng các ảnh có cùng ngữ nghĩa có xu hướng nằm trong cùng một cụm, phân cụm N_Cut được sử dụng để phân cụm ảnhmục tiêu thành các nhóm ngữ nghĩa khác nhau Sau đó hệ thống sẽ hiển thị các cụm ảnh đó và điều chỉnh
mô hình độ đo tương tự theo phản hồi của người dùng Mặc dù rất thành công trong phân cụm dữ liệu đa tạp, N_Cut không cung cấp một hàm chỉ mục hoàn hảo nên phương CLUE chưa đem lại kết quả tốt
Mặc dù các phương pháp tra cứu ảnh sử dụng học không giám sát có ưu điểm không đòi hỏi tập dữ liệu huấn có nhãn, tuy nhiên, hầu hết các phương pháp này không khai thác thông tin phản hồi của người dung, dẫn đến việc giảm khoảng cách ngữ nghĩa còn thấp Do đó, độ chính xác của các phương pháp học không giám sát này bị giới hạn
Các hạn chế của phương pháp tra cứu ảnh sử dụng học không giám sát là động lực để luận án chọn cách tiếp cận học có giám sát với phản hồi liên quan trong việc đề xuất các phương pháp tra cứu ảnh trong Chương 2 và Chương 3 của luận án
1.6 Đánh giá hiệu năng
Nếu chúng ta đánh giá hiệu năng tra cứu của một phương pháp trên một
cơ sở dữ liệu, cần thiết có một tập thực sự Điều này giúp chúng ta biết ảnh nào trong tập kết quả thuộc về chủ đề nào Trường hợp tốt nhất là tất cả các ảnh tra cứu là các ảnh liên quan
Trang 39Có hai loại độ đo đánh giá, độ chính xác và độ triệu hồi, được sử dụng rộng rãi để đánh giá hiệu quả tra cứu thông tin, đó là:
(1) Độ chính xác là tỷ lệ của số lượng ảnh liên quan được tra cứu và số lượng tất cả ảnh được tra cứu trong một lần lặp Nó được tính như sau:
(1.12)
(2) Độ triệu hồi là tỷ lệ số lượng ảnh liên quan được tra cứu trong một lần tra cứu trên số lượng tất cả ảnh liên quan trong cơ sở dữ liệu ảnh:
(1.13) Kết hợp độ chính xác và độ triệu hồi tạo ra một độ đo khác là Precision-Recall curve (PR curve), để đánh giá hiệu quả của hệ thống CBIR Cụ thể, đường cong PR, trục x biểu diễn các mức độ triệu hồi đạt được bằng cách sử dụng số lượng ảnh trả về khác nhau trong một phiên truy vấn và trục y tương ứng với độ chính xác của mối mỗi lần triệu hồi
Trong tra cứu ảnh, độ chính xác trung bình ARP (Average Retrieval Precision) thường được sử dụng để đánh giá độ chính xác của phương pháp Hiệu quả tra cứu chung của một hệ thống được đo bằng trung bình tất cả độ chính xác ARP được tính toán như sau:
ARP = average (∑ ) (1.14)
Với là độ chính xác của mỗi truy vấn Nó là một độ đo hiệu quả để biểu diễn
hiệu suất của hệ thống CBIR Trong các thực nghiệm ở chương 2 và chương 3, luận án sử dụng độ chính xác trung bình để đánh giá hiệu quả của các phương pháp
1.7 K ết luận Chương 1 và định hướng nghiên cứu
Trong chương này, ngoài việc luận án đã trình bày về các đặc trưng mức thấp của ảnh, cấu trúc hệ thống tra cứu ảnh dựa vào đặc trưng mức thấp và phân
Trang 40tích một số phương pháp tra cứu ảnh dựa vào đặc trưng mức thấp Luận án đã tập trung trình bày một số phương pháp giảm khoảng cách ngữ nghĩa trong tra cứu ảnh theo cách tiếp cận phản hồi liên quan Chương này đã phân tích và làm nổi bật lên một số hạn chế của các cách tiếp cận và các phương pháp tra cứu ảnh dựa vào nội dung đã có.
Dựa trên nhu cầu của người dùng và các hạn chế của các phương pháp được phân tích ở trên, luận án nhận thấy rằng, ở thời điểm hiện nay, khi chúng ta
đề xuất một thuật toán hiệu quả cho CBIR, một số vấn đề phải được giải quyết Vấn đề đầu tiên đó là giảm gánh nặng cho người dùng, tức là không yêu cầu người dùng phải cung cấp đồng thời nhiều ảnh truy vấn đa dạng Vấn đề thứ hai
đó là các ảnh liên quan ngữ nghĩa không thuộc về cùng một cụm mà nằm rải rác trong không gian đặc trưng Do đó để tăng độ chính xác, cần thiết phải có cách thức lấy được các ảnh nằm rải rác trong không gian đặc trưng Vấn đề thứ ba đó
là vùng chứa các điểm truy vấn tối ưu khác nhau có thể rất khác nhau Do đó, để nâng cao độ chính xác, cần khai thác thông tin địa phương của mỗi vùng
Trong luận án này, tác giả sẽ tập trung vào vấn đề nâng cao độ chính xác tra cứu ảnh theo hướng tiếp cận giảm khoảng cách ngữ nghĩa
Thứ nhất, luận án sẽ đề xuất phương pháp tra cứu ảnh liên quan ngữ nghĩa Phương pháp không yêu cầu người dùng phải tạo truy vấn ảnh phức tạp
mà có thể thu được các ảnh nằm rải rác trong không gian đặc trưng [CT5]
Thứ hai, luận án sẽ đề xuất phương pháp tra cứu ảnh sử dụng bộ trong số thích nghi Thay vì sử dụng chung một bộ trọng số cho các cụm chứa ảnh truy vấn tối ưu, phương pháp xác định trọng số cho từng cụm cụ thể [CT6]
Các phương pháp tra cứu ảnh được đề xuất trong luận án nằm trong phạm
vi tìm các ảnh đa dạng cùng chủ đề với ảnh truy vấn, chẳng hạn: tìm tất cả các ảnh thuộc chủ đề hoa hồng bao gồm cả ảnh hoa hồng đỏ, hoa hồng trắng và hoa hồng vàng