Bên cạnh sử dụng các từ khóa được con người gán, các hệ thống tracứu ảnh dựa vào nội dung sử dụng nội dung trực quan của các ảnh, như các đặctrưng mầu sắc, kết cấu, và hình dạng, làm chỉ
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
-ĐÀO THỊ THÚY QUỲNH
NÂNG CAO ĐỘ CHÍNH XÁC TRA CỨU ẢNH DỰA VÀO NỘI DUNG SỬ DỤNG KỸ THUẬT ĐIỀU CHỈNH TRỌNG SỐ HÀM KHOẢNG CÁCH
LUẬN ÁN TIẾN SỸ CÔNG NGHỆ THÔNG TIN
HÀ NỘI – 2019
Trang 2BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
-ĐÀO THỊ THÚY QUỲNH
NÂNG CAO ĐỘ CHÍNH XÁC TRA CỨU ẢNH DỰA VÀO NỘI DUNG SỬ DỤNG KỸ THUẬT ĐIỀU CHỈNH TRỌNG SỐ HÀM KHOẢNG CÁCH
LUẬN ÁN TIẾN SỸ CÔNG NGHỆ THÔNG TIN Chuyên ngành: Khoa học máy tính Mã số: 62 48
01 01
Người hướng dẫn khoa học:
1 PGS.TS Ngô Quốc Tạo
2 PGS.TS Nguyễn Hữu Quỳnh
Hà Nội – 2019
Trang 3LỜI CAM ĐOANTôi xin cam đoan luận án “Nâng cao độ chính xác tra cứu ảnh dựa vào nội dung sử dụng kỹ thuật điều chỉnh trọng số hàm khoảng cách” là công trình
nghiên cứu của riêng tôi Các số liệu, kết quả được trình bày trong luận án hoàntoàn trung thực và chưa từng được công bố trong bất kỳ một công trình nàokhác
Tôi đã trích dẫn đầy đủ các tài liệu tham khảo, công trình nghiên cứu liênquan trong nước và quốc tế Ngoại trừ các tài liệu tham khảo này, luận án hoàntoàn là công việc của riêng tôi
Trong các công trình khoa học được công bố trong luận án, tôi đã thể hiện
rõ ràng và chính xác đóng góp của các đồng tác giả và những gì do tôi đã đónggóp
Luận án được hoàn thành trong thời gian tôi làm Nghiên cứu sinh tạiphòng Nhận dạng và Công nghệ tri thức, Viện Công nghệ thông tin, Viện Hànlâm Khoa học và Công nghệ Việt Nam
Tác giả luận án
NCS Đào Thị Thúy Quỳnh
Trang 4LỜI CẢM ƠNLuận án Tiến sĩ ―Nâng cao độ chính xác tra cứu ảnh dựa vào nội dung
sử dụng kỹ thuật điều chỉnh trọng số hàm khoảng cách‖ được hoàn thiện bằng
sự cố gắng của bản thân và sự giúp đỡ của Thầy hướng dẫn khoa học, Ban lãnh đạoHọc viện Khoa học và Công nghệ Việt Nam, Ban lãnh đạo Khoa Toán-Tin, trườngĐại học Khoa học - Đại học Thái Nguyên, Ban lãnh đạo Khoa Công nghệ thông tin
1, Học viện Công nghệ Bưu chính Viễn thông, các chuyên gia và các nhà khoa học,đồng nghiệp, bạn bè và những người thân trong gia đình
Trước tiên, nghiên cứu sinh xin được bày tỏ lòng biết ơn chân thành đếnThầy hướng dẫn khoa học PGS.TS Ngô Quốc Tạo và PGS.TS Nguyễn HữuQuỳnh Nghiên cứu sinh đã nhận được những định hướng khoa học, những bàihọc quý báu, sự hướng dẫn tận tình và kinh nghiệm nghiên cứu khoa học quý giátrong nghiên cứu
Tôi xin chân thành cảm ơn phòng Nhận dạng và Công nghệ tri thức, ViệnCông nghệ thông tin, Học viện Khoa học và Công nghệ, Viện Hàn lâm Khoa học
và Công nghệ Việt Nam đã tạo điều kiện thuận lợi trong suốt quá trình nghiêncứu và thực hiện luận án
Tôi xin chân thành cảm ơn Ban giám đốc Học viện Công nghệ Bưu chínhViễn thông, Ban lãnh đạo Khoa, Bộ môn Khoa học máy tính và các Thầy CôKhoa Công nghệ thông tin 1 đã quan tâm giúp đỡ để tôi hoàn thành nhiệm vụhọc tập Xin chân thành cảm ơn sự quan tâm, động viên và những đóng góp quýbáu của quý đồng nghiệp
Cuối cùng, tôi xin bày tỏ lòng biết ơn vô hạn tới mọi thành viên trong giađình, sự khuyến khích động viên của gia đình là động lực để tôi hoàn thành luận
án này
Trang 5MỤC LỤC
MỞ ĐẦU ix
CHƯƠNG 1 1
TỔNG QUAN VỀ TRA CỨU ẢNH DỰA VÀO NỘI DUNG 1
1.1 Giới thiệu 1
1.1.1 Tra cứu dựa vào văn bản 2
1.1.2 Tra cứu ảnh dựa vào nội dung 2
1.2 Trích rút đặc trưng trong tra cứu ảnh 5
1.2.1 Đặc trưng mầu 5
1.2.2 Đặc trưng kết cấu 8
1.2.3 Đặc trưng hình 11
1.2.4 Thông tin không gian 13
1.3 Đo khoảng cách 15
1.4 Phân cụm 19
1.5 Một số nghiên cứu liên quan về giảm khoảng cách ngữ nghĩa trong tra cứu ảnh 20
1.6 Đánh giá hiệu năng 24
1.7 Kết luận Chương 1 và định hướng nghiên cứu 25
CHƯƠNG 2 PHƯƠNG PHÁP TRA CỨU ẢNH 27
LIÊN QUAN NGỮ NGHĨA 27
2.1 Giới thiệu 27
2.2 Sơ đồ và ý tưởng phương pháp đề xuất 32
2.3 Phản hồi liên quan với truy vấn đa điểm 36
2.4 Thuật toán tra cứu ảnh đề xuất 38
Trang 62.4.1 Phân cụm tập ảnh phản hồi 38
2.4.2 Thuật toán đề xuất cho phân cụm gia tăng 42
2.4.3 Công thức đề xuất cho tính khoảng cách cải tiến 47
2.4.4 Công thức đề xuất cho tính trọng số ngữ nghĩa của truy vấn 47
2.4.5 Thuật toán đề xuất cho tính độ quan trọng đặc trưng 48
2.4.6 Thuật toán đề xuất cho gộp các danh sách kết quả 50
2.4.7 Thuật toán đề xuất chung cho tra cứu ảnh liên quan ngữ nghĩa 52
2.5 Đánh giá thực nghiệm 56
2.5.1 Môi trường thực nghiệm 56
2.5.2 Chiến lược mô phỏng phản hồi liên quan 58
2.5.3 Thực hiện truy vấn và đánh giá 58
2.6 Kết luận Chương 2 61
CHƯƠNG 3 PHƯƠNG PHÁP TRA CỨU ẢNH SỬ DỤNG TRỌNG SỐ THÍCH NGHI 63
3.1 Giới thiệu 63
3.2 Thuật toán xác định điểm truy vấn tối ưu và bộ trọng số thích nghi của hàm khoảng cách cải tiến .68
3.3 Đề xuất thuật toán tra cứu ảnh sử dụng bộ trọng số thích nghi 73
3.4 Thử nghiệm và đánh giá kết quả 75
3.4.1 Môi trường thực nghiệm 75
3.4.2 Các kết quả thực nghiệm và thảo luận 76
3.5 Kết luận Chương 3 83
KẾT LUẬN 84
Trang 7DANH MỤC HÌNH VẼ
Hình 1.1 Khoảng cách ngữ nghĩa 3
Hình 1.2 Kiến trúc hệ thống tra cứu ảnh dựa vào nội dung 4
Hình 1.3: Sơ đồ phản hồi liên quan 5
Hình 2.1 Hình dạng truy vấn (a) Dịch chuyển điểm truy vấn (b) Hình dạng lồi (đa điểm) (c) Hình dạng lõm (đa điểm) 29
Hình 2.2 Ba cụm khác nhau (mầu đỏ, mầu vàng và mầu trắng) cho cùng một chủ đề hoa hồng 30
Hình 2.3: Khoảng cách từ một điểm đến một truy vấn 31
Hình 2.4: Các điểm dữ liệu trên không gian hai chiều 32
Hình 2.5 Cấu trúc phương pháp đề xuất 33
Hình 2.6 Bốn biểu diễn của cùng một ảnh 35
Hình 2.7 Không gian đặc trưng ảnh xám 36
Hình 2.8 Minh họa tính trọng số ngữ nghĩa từ một ảnh đến 3 truy vấn 48
Hình 2.9 Mô hình hệ thống 59
Hình 2.10 So sánh độ chính xác 61
Hình 3.1: Giao diện điển hình của hệ thống CBIR với phản hồi liên quan 64
Hình 3.2 Minh họa vùng truy vấn tối ưu ngang bằng nhau (a) Hình bên trái: điểm truy vấn thứ nhất (b) Hình bên phải: điểm truy vấn thứ hai 64
Hình 3.3 Sơ đồ của tra cứu ảnh sử dụng các trọng số thích nghi 66
Hình 3.4 Một hình ellip sinh ra từ các mẫu phản hồi dương 71
Hình 3.5 Minh họa đưa danh sách kết quả bao gồm nhiều ảnh 72
không liên quan 72
Hình 3.6 Minh họa tính toán hàm khoảng cách từ một điểm trong hình ellip tương ứng với điểm truy vấn tối ưu 72
Hình 3.7 So sánh độ chính xác của 5 phương pháp 79
Hình 3.8 So sánh độ lệch chuẩn của 5 phương pháp 79
Hình 3.9 So sánh độ chính xác trung bình của phương pháp Aweight với tập thực sự và Aweight sử dụng nhận thức trực quan của sinh viên 80
Trang 8Hình 3.10 So sánh độ chính xác trung bình của phương pháp Aweight,
Aweight_WLNR, Aweight_WIDF và FGSSH 81
Hình 3.11 Thời gian thực hiện tra cứu của phương pháp đề xuất với hai trường hợp 82
Hình B.1 Giao diện frm_Class_Images 100
Hình B.2.Giao diện frm_Type_of_Features 100
Hình B.3 Giao diện frm_Images_Database 101
Hình B.4 Giao diện frm_Upload_Images 101
Hình B.5 Giao diện frm_Trainning 102
Hình B.6 Giao diện frm_Features 102
Hình B.7 Giao diện bước biến đổi ảnh và tra cứu đa biểu diễn 103
Hình B.8 Giao diện bước gộp và phản hồi lần 1 103
Hình B.9 Giao diện bước phân cụm và tra cứu trên mỗi cụm 104
Hình B.10 Giao diện bước gộp kết quả tra cứu phản hồi lần 1 104
Hình B.11 Giao diện chính của hệ thống 105
Hình B.12 Giao diện Load Dataset 105
Hình B.13 Giao diện đưa vào ảnh truy vấn và chọn số lượng ảnh trả về 106
Hình B.14 Kết quả truy vấn khởi vào và người dùng phản hồi (ảnh có viền mầu đỏ) 107
Hình B.15 Thực hiện phân cụm tập ảnh người dùng chọn và hiển thị tập ảnh của cụm 1 107
Hình B.16 Thực hiên tra cứu với trọng số thích nghi lần lặp thứ nhất 108
Hình B.17 Thực hiên tra cứu với trọng số thích nghi lần lặp thứ hai 108
Hình B.18 Thực hiên tra cứu với trọng số thích nghi lần lặp thứ ba 109
Trang 9DANH MỤC BẢNG BIỂU
Bảng 2.1: Kết quả phân cụm của ba phương pháp 46
Bảng 2.2 Các loại đặc trưng 57Bảng 2.3 Bảng kết quả của 3 phương pháp theo số truy vấn trong một lần phản
hồi 60
Bảng 3.1 Các loại đặc trưng 75Bảng 3.2 Bảng kết quả trung bình độ chính xác của 5 phương pháp theo số điểm
truy vấn trong ba lần phản hồi 78Bảng A1 Độ chính xác trung bình của 34 loại truy vấn với một lần lặp phản hồi
của phương pháp SRIR đề xuất ở chương 2 94Bảng A2 Độ chính xác trung bình của 80 loại truy vấn với 3 lần lặp phản hồi
của phương pháp đề xuất ở chương 3 96
Trang 10Dạng viết tắt
ARP
AWEIGHTCBIR
Recall
RF
RGB
SRIR
Trang 11viii
Trang 12MỞ ĐẦU
1 Tính cấp thiết của luận án
Cơ sở dữ liệu ảnh ngày càng trở nên phổ biến trong các lĩnh vực ứng dụngkhác nhau như viễn thám, thời trang, phòng chống tội phạm, xuất bản, y học,kiến trúc,… Sự tiến triển của các kỹ thuật thu, truyền và lưu trữ ảnh đã cho phépxây dựng các cơ sở dữ liệu ảnh rất lớn Các nhân tố này đã thúc đẩy sự quan tâmnghiên cứu các phương pháp khai thác hiệu quả cơ sở dữ liệu ảnh rất lớn này
Tra cứu ảnh có thể được thực hiện dựa vào các mô tả ngắn của ảnh Cácảnh có thể được mô tả bởi một tập các thuộc tính độc lập nội dung (tên file,khuôn dạng, loại, kích cỡ, tên tác giả, thiết bị thu nhận, ngày tạo và vị trí ổ đĩa)
mà có thể được quản lý thông qua hệ quản trị cơ sở dữ liệu truyền thống Hạnchế chính của cách tiếp cận này đó là các truy vấn bị giới hạn vào các thuộc tínhhiện có của tệp ảnh Một cách tiếp cận thay thế là sử dụng các từ khóa hoặc cácchú thích ảnh Trong cách tiếp cận này, trước tiên các ảnh được chú thích thủcông bằng các từ khóa Sau đó, các ảnh có thể được tra cứu bởi các chú thíchtương ứng của chúng Cách tiếp cận này ít giới hạn hơn cách tiếp cận trước Tuynhiên, có ba khó khăn chính với cách tiếp cận này, đó là yêu cầu số lượng lớncác nhân công trong việc phát triển các chú thích, sự khác biệt trong giải thíchnội dung ảnh, và sự không nhất quán của cách gán từ khóa giữa những ngườithực hiện chú thích khác nhau Cách tiếp cận chú thích từ khóa này trở nênkhông khả thi khi cỡ của các tập ảnh gia tăng nhanh chóng
Để khắc phục các khó khăn của cách tiếp cận dựa vào chú thích, một cáchtiếp cận thay thế là tra cứu ảnh dựa vào nội dung đã được đề xuất từ đầu nhữngnăm 1990 Bên cạnh sử dụng các từ khóa được con người gán, các hệ thống tracứu ảnh dựa vào nội dung sử dụng nội dung trực quan của các ảnh, như các đặctrưng mầu sắc, kết cấu, và hình dạng, làm chỉ số ảnh Điều này làm giảm đáng
kể những khó khăn của cách tiếp cận thuần túy dựa trên chú thích, bởi vì quátrình trích rút đặc trưng có thể được thực hiện tự động Kể từ khi ra đời, tra cứuảnh dựa vào nội dung đã thu hút sự quan tâm nghiên cứu rất lớn, phạm vi từ
Trang 13nghiên cứu tới thương mại Cho đến nay, một số hệ thống nguyên mẫu thựcnghiệm và các sản phẩm thương mại đã được đề xuất và xây dựng như QBIC[71], MARS [85].
Đến nay, đã có nhiều thuật toán phức tạp được thiết kế để mô tả các đặctrưng mầu, hình dạng và kết cấu, các thuật toán này không thể mô hình tươngđương các ngữ nghĩa ảnh và có nhiều giới hạn khi giải quyết cơ sở dữ liệu ảnhnội dung rộng [61] Các thực nghiệm trên các hệ thống CBIR chỉ ra rằng các nộidung mức thấp thường thất bại trong mô tả các khái niệm ngữ nghĩa mức caocủa ảnh [111] Do đó, hiệu năng của tra cứu ảnh dựa vào nội dung vẫn còn xa sovới kỳ vọng của người dùng
Để khắc phục được hạn chế ở trên, những năm gần đây các hướng nghiêncứu tập trung đi tìm các phương pháp giảm khoảng cách ngữ nghĩa giữa đặctrưng mức thấp và khái niệm mức cao Giảm khoảng cách ngữ nghĩa thườngđược thực hiện thông qua phản hồi liên quan Phản hồi liên quan (RF -Relevance Feedback) là một quá trình học trực tuyến mà cố gắng học mục đíchcủa người dùng trong quá trình tương tác; RF là một công cụ mạnh được sửdụng trong các hệ thống tra cứu thông tin [74,78] Mục đích của nó là mangngười dùng vào lặp tra cứu để giảm khoảng cách ngữ nghĩa giữa những gì màtruy vấn biểu diễn và những gì người dùng nghĩ Bằng việc tiếp tục học thôngqua tương tác với người dùng, giảm khoảng cách thông qua phản hồi liên quan
đã được chỉ ra là cải tiến độ chính xác đáng kể trong các hệ thống tra cứu ảnhdựa vào nội dung [58,59,64,80,90,118,119,126]
Tuy nhiên, hầu hết các phương pháp đề cập ở trên đều gặp phải các vấn đềnhư sau: (1) yêu cầu người dùng phải cung cấp đồng thời nhiều ảnh truy vấn đadạng (các ảnh khác nhau nhưng cùng một chủ đề ), tức là, tăng gánh nặng chongười dùng (2) chưa tận dụng được thông tin phản hồi của người dùng vào việcxác định độ quan trọng ngữ nghĩa của từng truy vấn và độ quan trọng của từngđặc trưng (3) sử dụng chung một véc tơ trọng số của hàm khoảng cách cho tất
cả các điểm truy vấn tối ưu mà không xét đến tính chất địa phương của các điểm
Trang 14truy vấn khác nhau (vị trí các điểm truy vấn khác nhau, tính chất dữ liệu của cácđiểm lân cận của mỗi điểm truy vấn tương ứng cũng khác nhau) (4) mỗi lần lặpphản hồi, phương pháp phải phân cụm lại từ đầu tất cả các ảnh Bốn vấn đề nàydẫn đến hiệu năng của hệ thống tra cứu thấp.
Do đó, việc đề xuất các giải pháp tra cứu ảnh để khắc phục các hạn chế ở
trên là một nhu cầu cấp thiết Đó cũng là lý do mà luận án chọn đề tài ―Nâng cao độ chính xác tra cứu ảnh dựa vào nội dung sử dụng kỹ thuật điều chỉnh trọng số hàm khoảng cách‖ Các phương pháp tra cứu ảnh trong luận án được
giới hạn trong phạm vi tìm các ảnh đa dạng cùng chủ đề với ảnh truy vấn, chẳnghạn: tìm tất cả các ảnh thuộc chủ đề hoa hồng bao gồm cả ảnh hoa hồng đỏ, hoahồng trắng và hoa hồng vàng
2 Mục tiêu của luận án
Mục tiêu chung của luận án:
Đề xuất được phương pháp tra cứu ảnh nhằm nâng cao độ chính xác tracứu
Mục tiêu cụ thể của luận án:
- Đề xuất được phương pháp tra cứu các ảnh liên quan ngữ nghĩa nằm rảirác trong không gian đặc trưng để nâng cao độ chính xác mà không tăng thờigian thực hiện tra cứu
- Tận dụng thông tin phản hồi của người dùng để xác định độ quan trọngngữ nghĩa của mỗi truy vấn, độ quan trọng của mỗi đặc trưng nhằm đề xuấtphương pháp tra cứu ảnh hiệu quả
- Đề xuất phương pháp khai thác mức độ phản hồi của người dùng, tínhchất địa phương của mỗi vùng chứa điểm truy vấn điều chỉnh để nâng cao độ chính xác tra cứu
3 Các đóng góp của luận án
Trong luận án này, tác giả nghiên cứu đề xuất các phương pháp tra cứu
ảnh liên quan ngữ nghĩa gồm: phương pháp SRIR (Semantic–Related Image
Trang 15Retrieval method) [CT5], phương pháp AWEIGHT (An efficient image
retrieval method using adaptive weights) [CT6]:
- Phương pháp SRIR giải quyết được các hạn chế: (1) Chỉ sử dụng mộttruy vấn để tạo ra kết quả tra cứu khởi tạo gồm các ảnh nằm trong các vùng khácnhau; (2) Không thực hiện phân cụm lại tập ảnh phản hồi; (3) xác định được độquan trọng ngữ nghĩa của từng truy vấn và (4) xác định độ quan trọng theo từngđặc trưng Những đóng góp này làm cho độ chính xác được cải tiến đáng kể
- Phương pháp AWEIGHT khai thác mức độ phản hồi để xác định cácđiểm truy vấn tối ưu Bên cạnh đó, phương pháp đề xuất cũng khai thác đầy đủtính chất địa phương của mỗi điểm truy vấn tối ưu Ngoài ra, phương pháp trongchương này tận dụng được nhiều phản hồi từ phía người dùng mà không tăngtốc độ tính toán
4 Bố cục của luận án
Luận án này được bố cục thành ba chương:
Chương 1 giới thiệu tổng quan về tra cứu ảnh dựa vào nội dung
Chương 2 trình bày phương pháp tra cứu ảnh liên quan ngữ nghĩa được tác giả để xuất, có tên là SRIR
Chương 3 trình bày phương pháp tra cứu ảnh sử dụng trọng số thích nghi được tác giả đề xuất, có tên là AWEIGHT
Cuối cùng, luận án đưa ra một số kết luận và định hướng nghiên cứu trongtương lai
Trang 16CHƯƠNG 1
TỔNG QUAN VỀ TRA CỨU ẢNH DỰA VÀO NỘI DUNG
Chương này trình bày tổng quan về tra cứu ảnh dựa vào nội dung bao gồmcác đặc trưng mức thấp của ảnh, cấu trúc hệ thống tra cứu ảnh dựa vào đặc trưngmức thấp và phân tích một số phương pháp tra cứu ảnh dựa vào đặc trưng mứcthấp Bên cạnh đó, chương này trình bày một số nghiên cứu giảm khoảng cáchngữ nghĩa theo cách tiếp cận phản hồi liên quan Ngoài ra, chương này cũngphân tích một số kỹ thuật tra cứu ảnh với ngữ nghĩa mức cao Cuối cùng,chương này đưa ra một số kết luận và định hướng cho nghiên cứu
1.1 Giới thiệu
Các dạng nguồn đa phương tiện khác nhau (văn bản, tiếng nói, ảnh, video)đang tăng lên nhanh chóng, chẳng hạn dữ liệu được trực quan trong các điệnthoại thông minh, các ứng dụng 2D/3D, nội dung web, Thế giới đang chứngkiến một sự tiến hóa về lượng, sự sẵn có, độ phức tạp, sự đa dạng và sự quantrọng của các ảnh trong tất cả các lĩnh vực Do đó, nhu cầu về các dịch vụ ảnhtrở nên quan trọng hơn bao giờ hết Các ảnh đóng một vai trò quan trọng trongmột phạm vi rộng các ứng dụng và các lĩnh vực như giáo dục, chăm sóc y tế, dựbáo thời tiết, nghiên cứu về tội phạm, quảng cáo, thiết kế nghệ thuật, web,phương tiện xã hội và giải trí Tuy nhiên, phương tiện trực quan yêu cầu mộtlượng xử lý và lưu trữ đáng kể, cần có các phương pháp hiệu quả cao để đánhchỉ số, lưu trữ, phân tích và tra cứu thông tin trực quan từ các cơ sở dữ liệu ảnh
Do đó, tra cứu các ảnh nhanh, chính xác và hiệu quả cho tất cả các loại tập ảnhtrở thành một trong những nhiệm vụ thách thức nhất
Trang 171.1.1 Tra cứu dựa vào văn bản
Cách tiếp cận ban đầu cho tra cứu ảnh là dựa vào văn bản, trong đó cácảnh được đánh chỉ số bằng các từ khóa, chủ đề hoặc mã phân loại Các từ khóa,chủ đề hoặc mã phân loại này được sử dụng trong quá trình tra cứu [41] Tuynhiên, với cơ sở dữ liệu ảnh lớn và tăng lên nhanh chóng, các khó khăn phải đốimặt của cách tiếp cận tra cứu dựa vào văn bản ngày càng trở nên nghiêm trọnghơn Bên cạnh đó, quá trình này tốn nhiều nhân lực và thời gian, từ khóa lạimang tính chủ quan và không duy nhất, những người khác nhau có các nhậnthức khác nhau về cùng một ảnh
Để khắc phục các vấn đề này, các nội dung của ảnh (gồm mầu, kết cấu vàhình dạng) được trích rút tự động từ bản thân các ảnh đã được sử dụng cho tracứu ảnh Phương pháp này được gọi là tra cứu ảnh dựa vào nội dung (CBIR -content-based image retrieval) [69] CBIR cho phép loại đi các khó khăn của tracứu dựa vào văn bản trong các cơ sở dữ liệu ảnh lớn và hệ thống CBIR cung cấpcác kết quả chính xác hơn
1.1.2 Tra cứu ảnh dựa vào nội dung
Tra cứu ảnh dựa vào nội dung (CBIR) là một ứng dụng của các kỹ thuậtthị giác máy tính đối với bài toán tra cứu ảnh [70] Mục tiêu của hệ thống CBIR
là sử dụng nội dung trực quan của các ảnh để tìm các ảnh quan tâm từ một cơ sở
dữ liệu ảnh lớn Tra cứu ảnh dựa vào nội dung có nghĩa là tra cứu sẽ phân tíchnội dung của ảnh thay vì dựa vào các siêu dữ liệu như từ khóa, thẻ và các mô tảvăn bản đi kèm với ảnh Thuật ngữ nội dung ở đây được hiểu là mầu, hình dạng,kết cấu hoặc bất cứ một thông tin nào mà có thể lấy ra từ bản thân ảnh
Trong CBIR, các ảnh có thể được tra cứu thông qua việc sử dụng các đặctrưng mức thấp (tức là mầu sắc, hình dạng, và kết cấu) hoặc sử dụng các đặctrưng mức cao hay các đặc trưng ngữ nghĩa Hình 1.1 chỉ ra khoảng cách ngữnghĩa của hai đối tượng ảnh Như Hình 1.1 cho thấy, véc tơ đặc trưng (hai lượcđồ) của ảnh phía trên và véc tơ đặc trưng của ảnh phía dưới là rất giống nhau
Trang 18Do đó, nếu chỉ dựa vào đặc trưng mức thấp (véc tơ đặc trưng) thì hệ thống sẽ kếtluận ảnh phía trên và phía dưới là giống nhau Tuy nhiên, khi ta nhìn vào hai ảnhnày thì lại thấy chúng rất khác nhau (ảnh phía trên là cây trong rừng còn ảnhphía dưới là một bông hồng) Tra cứu ảnh dựa vào ngữ nghĩa đối sánh một truyvấn người dùng dựa vào các nội dung nhận thức nào đó hơn là sự tương tự giữacác đặc trưng.
Hình 1.1 Khoảng cách ngữ nghĩa
Thành phần chính của CBIR là kỹ thuật tra cứu ảnh được sử dụng để lấy
ra các ảnh tương tự nhất đối với ảnh truy vấn mà người dùng đưa vào [101] Một
hệ thống tra cứu dựa vào nội dung tiêu biểu được chia thành hai pha: trích rútđặc trưng ngoại tuyến và tra cứu ảnh trực tuyến Trong pha ngoại tuyến, hệthống trích rút tự động các thuộc tính trực quan ở mức thấp (mầu, kết cấu vàhình dạng) hoặc ở mức cao Trong pha tra cứu ảnh trực tuyến, người dùng có thểcung cấp một ảnh mẫu cho hệ thống tra cứu để tìm kiếm các ảnh mong muốn
Hệ thống tra cứu ảnh biểu diễn ảnh mẫu này bởi véc tơ đặc trưng và khoảngcách (hoặc độ tương tự) giữa các véc tơ đặc trưng của ảnh mẫu và của ảnh trong
cơ sở dữ liệu đặc trưng được tính toán Cuối cùng hệ thống phân hạng các ảnhtheo thứ tự tăng dần của khoảng cách hay giảm dần của độ tương tự và trả về tậpảnh kết quả cho người dùng Nếu không thỏa mãn với kết quả tra cứu, ngườidùng có thể cung cấp phản hồi liên quan cho hệ thống tra cứu, hệ thống sẽ học
Trang 19nhu cầu thông tin của người dùng Kiến trúc của hệ thống tra cứu ảnh dựa vào nội dung được chỉ ra trên Hình 1.2.
Phản hồi liên quan
Véc tơ đặc trưng
Độ tương tự
Sắp xếp
Hình 1.2 Kiến trúc hệ thống tra cứu ảnh dựa vào nội dung.
Phản hồi liên quan (RF - Relevance Feedback) là một quá trình trực tuyến
mà cố gắng học mục đích của người dùng trong quá trình tương tác Phản hồiliên quan được sử dụng rộng rãi trong các hệ thống tra cứu thông tin [74,78].Mục đích của nó là mang người dùng vào lặp tra cứu để giảm khoảng cách ngữnghĩa giữa những gì mà truy vấn biểu diễn và những gì người dùng nghĩ Bằngviệc tiếp tục học thông qua tương tác với các người dùng cuối, phản hồi liênquan đã được chỉ ra là cung cấp cải tiến hiệu năng đáng kể trong các hệ thống tracứu ảnh dựa vào nội dung [103,104,119]
Hình 1.3 chỉ ra cơ chế hoạt động của phản hồi liên quan trong tra cứu ảnhdựa vào nội dung [2,74,104] Khi có kết quả tra cứu khởi tạo, người dùng chọncác ảnh liên quan trong danh sách kết quả này để làm các mẫu có nhãn (dươnghay âm) Dựa trên tập mẫu huấn luyện này, một thuật toán máy học được thựchiện để điều chỉnh các tham số Dựa trên các tham số vừa được học, tra cứu ảnh
sẽ tiếp tục được thực hiện Quá trình được lặp lại cho đến khi người dùng thỏamãn
Trang 20Hình 1.3: Sơ đồ phản hồi liên quan.
Con người có thể mô tả và giải thích các nội dung ảnh một cách thích hợp,bao gồm cấu trúc liên kết toàn bộ và các đối tượng sử dụng các khái niệm ngữnghĩa mức cao Không giống như con người, máy tính xử lý các đặc trưng mứcthấp được trích rút từ các điểm ảnh, do đó nó cung cấp các mô tả của ảnh ít ngữnghĩa hơn so với mô tả của con người Sự khác nhau giữa máy tính và con ngườitrong việc mô tả cùng một ảnh được gọi là ―khoảng cách ngữ nghĩa‖ Ngườidùng tìm kiếm sự tương tự ngữ nghĩa nhưng cơ sở dữ liệu chỉ có thể cung cấpcác ảnh tương tự bởi một xử lý số Ngoài ra, khoảng cách ngữ nghĩa giữa cácthuộc tính ảnh và các thuộc tính đối tượng giới hạn nhiều hiệu quả tra cứu
1.2 Trích rút đặc trƣng trong tra cứu ảnh
1.2.1 Đặc trƣng mầu
Đặc trưng mầu là một trong những đặc trưng thị giác rộng nhất do quan
hệ chặt chẽ với các đối tượng ảnh, tiền cảnh và nền Mầu cũng là một đặc trưngtrực quan mạnh do nó không phụ thuộc vào trạng thái của các nội dung ảnh như
Trang 21hướng, cỡ và góc Các biểu diễn mầu phổ biến là lược đồ mầu, mô men mầu[34], tương quan mầu [43] và ma trận đồng hiện mầu [37].
Không gian mầu được phân lớp thành các không gian mầu tuyến tính (tứcRGB, XYZ, CMY, YIQ và YUV) và các không gian mầu phi tuyến [113] (tứcL*a*b, HSV, Nxyz và L*u*v) Không gian mầu RGB là một không gian mầucộng tính dựa vào ba mầu chính: đỏ, xanh lá cây và xanh lam Các mầu khác cóthể được sinh ra bởi sử dụng các mầu chính, chẳng hạn, sử dụng đỏ với xanhlam tạo ra đỏ tươi, xanh lá cây và xanh lam ta ra mầu lục và sự kết hợp của mầu
đỏ, xanh lá cây và mầu xanh lam ở cường độ tối đa tạo ra mầu trắng Tuy nhiên,không gian RGB không hiệu quả trong việc xử lý các ảnh trong thế giới thực, do
đó nó bị tránh trong nhiều thuật toán tra cứu ảnh vì nó thiếu khả năng đo lường
sự tương tự về nhận thức Hơn nữa, khoảng cách trong không gian RGB có ítthông tin ngữ nghĩa về mặt nhận thức thị giác của con người
Theo đó, không gian mầu HSV được sử dụng thay cho không gian mầuRGB vì các thành phần mầu sắc và độ bão hòa rất gần với nhận thức thị giác củacon người Mô hình HSV có ba thành phần cấu thành: ―hue‖ đề cập đến mầusắc, ―saturation‖ đề cập đến độ sắc nét của mầu và ―value‖ là độ sáng của mầusắc
Một không gian mầu khác, không gian mầu YCbCr được chia thành độchói (Y) và sắc độ (Cb, Cr), trong khi Cb và Cr lần lượt biểu thị sự khác biệtmầu xanh-vàng và đỏ-lục Không gian mầu L * a * b * cũng được lấy từ khônggian mầu XYZ để đạt được sự đồng nhất về nhận thức Như trong YCbCr, L * a
* b bao gồm một chiều độ sáng (L) và hai chiều sắc độ (a *, b *) dựa trên quátrình đối lập mầu
Lược đồ mầu không có thông tin về sự phân bố không gian của mầu; do
đó, các biểu diễn khác đã được đề xuất như tương quan mầu sắc và sự tươngquan Các phương pháp này cung cấp thông tin về tương quan không gian của
Trang 22các cặp mầu thay đổi như thế nào đối với khoảng cách trong một ảnh, và chúng
đã cho thấy hiệu quả tra cứu tốt hơn so với lược đồ mầu [43]
Nhiều thuật toán đã được đề xuất và sử dụng trong lĩnh vực CBIR dựatrên việc sử dụng các mô men mầu Ý tưởng chính của các mô men mầu là sửdụng độ lệch chuẩn và giá trị trung bình của các phân phối trong mỗi dải mầulàm đặc trưng mầu Điều này được xem là một đặc trưng nhỏ gọn do đó nóthường được sử dụng như một quá trình tối ưu hóa cùng với các đặc trưng mầukhác Các mô men Pseudo-Zernike [10] có các thuộc tính tốt của tính bất biếnquay và trực giao Hơn nữa, nó đã được xác nhận rằng các mô men Pseudo-Zernike vượt trội hơn so với các mô men Zernike về mặt biểu diễn đặc trưng[44] Tác giả D.Xiaoyin [34] đã đề xuất một phương pháp tra cứu ảnh mầu mớibằng cách sử dụng bất biến mô men mầu Các mầu đại diện được tính cho từngảnh thay vì cố định trong một không gian mầu nhất định, do đó điều này chophép biểu diễn đặc trưng chính xác và gọn hơn
Một phương pháp đã được phát triển là ma trận đồng hiện mầu (CCM)[105] có tính đến mối quan hệ không gian giữa các kênh mầu Một ảnh có thểđược coi là một thành phần của ―các cấu trúc cơ bản‖ phù hợp Các phần tử củacác pixel đó mang các thuộc tính trực quan, tức mầu sắc, và các quan hệ sở hữu,tức khoảng cách giữa chúng Do đó, nội dung ảnh có thể được đặc trưng bởiCCM m-chiều thích hợp trong đó các thuộc tính và mối quan hệ được biểu diễnbằng các trục ma trận khác nhau Jhanwar và cộng sự [79] đã sử dụng mộtphương pháp, có tên là ma trận đồng hiện mầu (MCM), nó tương tự về mặt kháiniệm với CCM Ảnh được chia thành các lưới 2 × 2 pixel và mỗi lưới được thaythế bằng một mầu quét giúp cực tiểu gradient cục bộ trong khi duyệt qua lưới 2
× 2 và tạo thành một ảnh được biến đổi theo motif Sau đó, ma trận MCM đượcxây dựng như một ma trận 3D trong đó mục (i, j, k) chỉ ra xác suất tìm thấy mộtmầu (i) ở khoảng cách (k) từ một mục (j) trong ảnh được biến đổi Guoping [37]
đã đề xuất mã cắt khối (BTC) như một kỹ thuật mã ảnh khác mà được sử dụng trong CBIR để nén ảnh mầu Từ luồng nén BTC mà không cần giải mã, hai đặc
Trang 23trưng mô tả nội dung ảnh thu được: ma trận đồng hiện mầu khối (BCCM) vàlược đồ mẫu khối (BPH) Cả BCCM và BPH đã được sử dụng để tính toán các
số đo tương tự của hình ảnh cho các ứng dụng CBIR
Bộ mô tả mầu trội (DCD) [14] đã được áp dụng rộng rãi trong các ứngdụng tra cứu ảnh như là một trong những bộ mô tả mầu MPEG-7, nó biểu diễnthông tin mầu của toàn bộ ảnh bằng một số nhỏ các mầu đại diện DCD mô tảcác đặc trưng mầu đại diện và các phân bố trong ảnh hoặc các vùng quan tâmthông qua một khuôn dạng nén, hiệu quả và trực quan Hong và cộng sự [72] đã
đề xuất một phương pháp dựa trên MPEG-7 DCD của số cố định Quá trình tríchrút đặc trưng không yêu cầu một giá trị ngưỡng và sử dụng tám mầu trội cốđịnh Thuật toán giao lược đồ được sử dụng để đo các đặc trưng và đơn giản hóa
độ phức tạp tính toán tương tự Zeng và cộng sự [58] đã sử dụng véc tơ gắn kếtmầu mà dựa trên lược đồ khoảng cách Họ cũng đề xuất một thuật toán véc tơgắn kết khoảng cách đa tỉ lệ phù hợp với các vấn đề mà ở đó các hình khác nhau
có cùng mô tả và hiệu năng chống nhiễu của thuật toán tra cứu ảnh thấp dựa trênDCD
1.2.2 Đặc trƣng kết cấu
Trong thị giác máy tính, không có định nghĩa chính xác về kết cấu ảnh,nhưng nó có thể được xác định như tất cả những gì còn lại sau khi xem xét cácmầu và các hình, hoặc như một mô tả của cấu trúc ảnh, tính ngẫu nhiên(randomness), hột (granulation), đường thẳng (linearity), độ nhám (roughness)
và tính đồng nhất (homogeneity) Kết cấu ảnh là một đặc trưng ảnh quan trọng
để mô tả các thuộc tính bề mặt của một đối tượng và mối quan hệ của nó với cácvùng xung quanh [80] Do các đặc trưng kết cấu được xuất hiện trong nhiều ảnhthực, chúng rất quan trọng và có lợi ích trong các nhiệm vụ tra cứu ảnh và nhậndạng mẫu Tuy nhiên, độ phức tạp tính toán và độ chính xác tra cứu là nhữngnhược điểm chính của các hệ thống tra cứu ảnh dựa vào kết cấu
Trang 24Nhiều phương pháp tra cứu ảnh dựa vào kết cấu đã được đề xuất và đượccải tiến trong ngữ cảnh CBIR Một số thuật toán được sử dụng phổ biến như mô
tả kết cấu là lọc Gabor, biến đổi Wavelet, ma trận đồng hiện mức xám [95],trường ngẫu nhiên Markov [38], mô tả lược đồ cạnh [35], phân rã tháp [31], vàcác đặc trưng Tamura [45]
Lọc Gabor là tập hợp các wavelet và mỗi wavelet thu năng lượng ở mộttần số và hướng cụ thể Các biển đổi Gabor wavelet có các thuộc tính đa hướng
và đa độ phân giải và điều này là tối ưu để đo các tần suất không gian cục bộ[123].Mở rộng một tín hiệu sử dụng cơ sở này cung cấp một mô tả tần suất cục
bộ và thu được các đặc trưng cục bộ/ các năng lượng của tín hiệu Lianping vàcộng sự [67] đã thảo luận các ảnh hưởng của việc sử dụng một số tham số Gabor(tức là số các mức/ các hướng và kích thước mặt nạ lọc) trên tra cứu ảnh dựa vàokết cấu
Nhiều kỹ thuật trích rút đặc trưng dựa vào biến đổi cũng được áp dụng,bao gồm biến đổi wavelet rời rạc, biến đổi cosine rời rạc, biến đổi Walsh, biếnđổi Fourier và các mô men 2D DWT là một trong các biến đổi phổ biến được ápdụng vào xử lý ảnh và các ứng dụng tra cứu Nó được sử dụng để trích rút cácđặc trưng mức thấp do ưu việt của nó trong phân tích đa phân giải và tần suấtkhông gian Nhiều nghiên cứu gần đây trong CBIR sử dụng các thuật toán nàyhoặc bởi sử dụng một mô tả hoặc kết hợp nhiều thuật toán để tạo ra một mô tảmạnh cho kết cấu ảnh
Xingyuan và Zongyu [120] đã đề xuất một mô tả thành phần cấu trúc đểtrích rút và mô tả mầu và kết cấu ảnh Các thành phần cấu trúc được xác địnhbởi năm thành phần cấu trúc chỉ ra năm hướng tương ứng Lược đồ thành phầncấu trúc được tính toán bởi mô tả thành phần cấu trúc và ứng dụng không gianmầu HSV mà được lượng hóa thành 72 bin Lược đồ thành phần cấu trúc kếthợp các ưu điểm của cả hai phương pháp mô tả kết cấu thống kê và cấu trúc, và
nó có thể biểu diễn tương quan không gian của mầu và kết cấu
Trang 25Liu và cộng sự [40] đã phát triển một cách tiếp cận tra cứu ảnh mới, cótên bộ mô tả cấu trúc nhỏ Các cấu trúc nhỏ (micro-structures) được xác định bởi
độ tương tự hướng cạnh với các mầu cơ bản mà có thể biểu diễn hiệu quả cácđặc trưng ảnh Các mầu cơ bản là các mầu với hướng cạnh tương tự mà có thểbắt chước nhận thức mầu của con người Với một cầu nối của các cấu trúc nhỏ,
mô tả cấu trúc nhỏ có thể trích rút và mô tả các đặc trưng hình, mầu và kết cấumột cách đồng thời Bộ mô tả cấu trúc nhỏ tích hợp các ưu điểm của cả các cáchtiếp cận mô tả kết cấu thống kê và cấu trúc Hơn nữa, thuật toán này mô phỏng
cơ chế của nhận thức trực quan của con người ở một mức độ nhất định nào đó.Thuật toán mô tả cấu trúc nhỏ có hiệu năng đánh chỉ số và hiệu quả cao cho tracứu ảnh, nhưng với chiều thấp hơn của chỉ 72 bin cho các ảnh mầu đầy đủ
Một cách tiếp cận được đề xuất bởi Chatzichristofis và cộng sự [100], cótên lược đồ kết cấu và mầu mờ mà được tạo ra bởi tích hợp của ba hệ thống mờ
Cỡ lược đồ kết cấu và mầu mờ được giới hạn với chỉ 72 byte trên một ảnh, vì thế
nó là phù hợp cho các cơ sở dữ liệu ảnh cỡ lớn Đặc trưng đề xuất là thích hợpcho tra cứu ảnh ngay cả trong các trường hợp như nhiễu, biến dạng và trơn
Kwitt và cộng sự [96] đã giới thiệu một cách tiếp cận tra cứu kết cấu xácsuất Nó được dựa trên biểu diễn ảnh trong miền wavelet phức tạp và một số môhình thống kê cho độ lớn của các hệ số biến đổi phức tạp Ngoài ra, cách tiếpcận này bao gồm các biểu thức dạng đóng cho phân kỳ KL giữa các mô hìnhthống kê được đề xuất mà cho phép đo độ tương tự phức tạp hằng số
Khuôn khổ của tra cứu ảnh kết cấu như một họ mới của mô hình đa biếnngẫu nhiên được đề xuất mà dựa trên các phân rã wavelet và Gaussian copula
Họ đã sử dụng lược đồ copula để phân tách một cấu trúc phụ thuộc từ một hành
vi lề và đưa ra hai mô hình đa biến sử dụng mật độ Gaussian và Weibull tổngquát Những mô hình này thu cả các phân phối lề băng con và mối tương quangiữa các hệ số wavelet Ngoài ra, họ đã thu được, như một độ đo tương tự, mộtbiểu thức dạng đóng của phân kỳ Jeffrey giữa các mô hình đa biến dựa trêncopula Gaussian
Trang 26Wang và cộng sự [115] đã trình bày một phương pháp tra cứu ảnh kết cấudựa trên đặc trưng ma trận đồng hiện mầu Cách tiếp cận của họ thu được tậpvùng liên thông mầu cho một ảnh mầu, và sau đó trích rút ma trận đồng hiện cho
4hướng (ngàng 00, đứng 900, chéo 450 và 1350) cho mỗi vùng liên thông Đặc
trưng thu được phản ảnh tương quan kết cấu cũng như biểu diễn thông tin mầu
Do đó, phương pháp này được xem là vượt trội so với ma trận đồng hiện mứcxám và lược đồ mầu và cung cấp một hiệu năng tra cứu tốt hơn cho các ảnh kếtcấu
Lai và cộng sự [26] đã trình bày một phương pháp khai thác thông tinngười dùng trong một hệ thống CBIR tương tác dựa trên thuật toán di truyềntương tác Các phân bố mầu, độ lệch chuẩn, giá trị trung bình và bản đồ ảnhđược sử dụng như một bộ mô tả mầu ảnh Ngoài ra, entropy dựa vào mô tả lược
đồ hướng cạnh và ma trận đồng hiện mức xám được xem như một bộ mô tả kếtcấu cho đặc trưng ảnh Đặc biệt, thuật toán gen tương tác có thể được sử dụngnhư một cách tiếp cận khai thác bán tự động với sự trợ giúp của người dùng đểđiều hướng và xác định một không gian ảnh phức tạp với sự thỏa mãn cực đạicủa người dùng
1.2.3 Đặc trƣng hình
Về cơ bản, đặc trưng hình dạng ảnh mang thông tin ngữ nghĩa và có thểđược phân thành hai loại: dựa trên đường bao và dựa trên vùng Phương phápdựa trên đường bao trích rút các đặc trưng dựa trên đường bao ngoài của vùngtrong khi phương pháp dựa trên vùng trích rút các đặc trưng dựa trên toàn bộvùng [116] Các phương pháp tra cứu dựa vào hình dạng bị các vấn đề liên quanđến các bất biến dịch chuyển, tỉ lệ, quay và ổn định với các thay đổi nhỏ về hìnhdạng Do đó, các mô tả hình dạng thường được trích rút và được sử dụng với cácđặc trưng khác như mầu và kết cấu và có xu hướng là hiệu quả trong các ứngdụng cụ thể như các đối tượng nhân tạo [73]
Trang 27Bộ mô tả hình dạng có thể được biểu diễn bằng nhiều phương pháp phổbiến như xấp xỉ đa giác, mô tả Fourier, các mô men bất biến, mẫu biến dạng, B-splines, không gian tỷ lệ cong, tỷ lệ khía cạnh, tính tròn và phân đoạn đường baoliên tiếp [65] Liu và cộng sự [39] đã đề xuất một phương pháp biểu diễn đặctrưng ảnh mới để tra cứu ảnh, cụ thể là lược đồ multi-texton Cách tiếp cận lược
đồ multi-texton sử dụng các lợi ích của ma trận đồng hiện mầu và lược đồ bằngcách biểu diễn thuộc tính của ma trận đồng hiện mầu sử dụng một lược đồ.Phương pháp lược đồ multi-texton đề xuất dựa chính vào lý thuyết textons củaJulesz [15] và hiệu quả hơn các mô tả đặc trưng ảnh đại diện như ma trận đồnghiện texton và tự tương quan hướng cạnh
Một nghiên cứu được phát triển bởi Bronstein và cộng sự [73], có tênShape Google Cách tiếp cận này đã được đề xuất trong ngữ cảnh của tra cứuhình không cứng nhắc, và lấy cảm hứng từ phiên bản nghiên cứu củaOvsjanikov và cộng sự [73] Dựa trên các nhân của toán tử Laplace-Beltrami, họchỉ ra bộ mô tả và phát hiện đặc trưng mà được sử dụng để xây dựng từ vựngcủa các từ hình học và các phân bố phục vụ biểu diễn hình dạng Biểu diễn này
là mạnh dưới một lớp nhiễu rộng, bất biến đối với biến dạng kích thước và chophép so sánh các hình dạng trải qua các biến dạng khác nhau Chiến lược nàyxem các quan hệ không gian và biểu diễn các hình bằng các mà nhị phân nén mà
có thể được so sánh và đánh chỉ số hiệu quả sử dụng khoảng cách Hamming
Xiang-Yang và cộng sự [116] đã đề xuất một lược đồ tra cứu ảnh bằngviệc kết hợp ba đặc trưng: kết cấu, mầu và thông tin hình dạng, để thu được hiệuquả tra cứu cao hơn Với bộ mô tả mầu, thuật toán lượng hóa mầu nhanh vớinhập các cụm được sử dụng để xác định trước ảnh, và sau đó nó thu một số nhỏcác mầu trội với phần trăm của chúng Với bộ mô tả kết cấu, các đặc trưng kếtcấu không gian được trích rút sử dụng phân rã lọc ổn định, là một phương phápxấp xỉ linh hoạt Với bộ mô tả hình dạng, các mô men pseudo-Zernike của ảnhđược sử dụng để cung cấp một biểu diễn đặc trưng tốt hơn do độ mạnh của nó sovới nhiễu ảnh tốt hơn các biểu diễn mô men khác
Trang 28Nhìn chung, các phương pháp hình dạng dựa vào đường bao đòi hỏi thờigian tính toán cao bởi vì thu sự tương ứng giữa các điểm bao từ hai hình tươngứng sử dụng thông tin bao cục bộ Để giải quyết vấn đề này, một số nghiên cứu
đã được đề xuất
Shu và cộng sự [117] đã đề xuất một bộ mô tả dựa vào đường bao cho cácđường cong đóng, có tên lược đồ phân bố các điểm bao, mô tả tiềm năng biếndạng tại mỗi điểm dọc theo một đường cong Ngoài ra, họ đã phát triển một kỹthuật tính toán khoảng cách nền, được dựa trên khoảng cách EMD (EarthMover's Distance) dưới các tọa độ cực, cho đối sánh hình dạng để bất biến đốivới quay và tỉ lệ
Một cách tiếp cận đã được phát triển bởi Chen và Xu [124], nó kết hợpcác phương pháp dựa vào vùng và dựa vào đường bao, có tên bộ mô tả rollingpenetrate Phương pháp này cải tiến các phương pháp truyền thống bằng cáchthu bất kỳ thông tin mong muốn nào theo cách thống nhất thay vì một khía cạnh
cụ thể của các đặc trưng hình dạng Bởi vì các hàm đặc trưng khác nhau biểudiễn các đặc trưng hình dạng khác nhau, quá trình quét hoặc là 1) hoạt động nhưmột bộ mô tả đường bao khi hàm đặc trưng tính toán khoảng cách giữa điểm bao
và trọng tâm hoặc 2) mô tả quan hệ giữa mô men quan tính dọc theo đường quét
và góc θ khi hàm đặc trưng tích lũy tích của mỗi điểm và khoảng cách bìnhphương của nó đến đường quét Hàm đặc trưng không nhạy cảm với nhiễu, biếndạng và giữ lại quá trình quét của nó không kể đến độ phức tạp hình [124]
1.2.4 Thông tin không gian
Hầu hết các đặc trưng mức thấp truyền thống được mô tả thiếu thông tinkhông gian trong biểu diễn được trích rút của chúng, chẳng hạn, các lược đồ vàACCs điểm hình dạng Hai phần khác nhau trong cùng một ảnh có thể có cùnglược đồ, nhưng với phân bố không gian khác nhau Do đó, sử dụng một biểudiễn trừu tượng là không đủ để biểu diễn nội dung ngữ nghĩa của các ảnh Cácvùng quan tâm (ROIs) và các biểu diễn dựa vào đồ thị/cây gần đây đã được quan
Trang 29tâm nhiều hơn do chúng cung cấp thông tin không gian quan trọng, đặc biệt cầnthiết trong tra cứu ảnh dựa vào vùng.
Các lược đồ dựa vào không gian khác đã được phát triển cho một số ứngdụng CBIR như sử dụng các xâu để biểu diễn các quan hệ cấu trúc phức tạp giữacác đối tượng [115], và sử dụng các ma trận để chỉ ra các quan hệ không gian vàcác hướng giữa các đối tượng [103] Nhiều phương pháp [87] chia toàn bộ ảnhthành một tập các khối và cho phép xác định các vùng quan tâm, và chúng đã sửdụng các cơ chế đánh chỉ số và chồng lắp khác nhau bằng việc lưu vị trí khônggian của mỗi khối hoặc vùng quan tâm như một chỉ số Tuy nhiên, các phươngpháp này sử dụng một cỡ cố định cho các vùng và không xem xét nhiều vùngquan tâm cho đối sánh tương tự giữa các vùng quan tâm khác nhau của các ảnhkhác nhau
Nhiều vùng quan tâm [16] được sử dụng để cung cấp các vị trí tương đốicủa nhiều vùng quan tâm, và nó xem xét các khối khác mà có các vị trí khônggian khác nhau từ các vùng quan tâm trong ảnh Lee và Nang [59] đã sử dụngmầu trội MPEG như đặc trưng được trích rút từ các khối ảnh, và lựa chọn cáckhối có một vùng chồng lắp cao hơn để chồng lắp chúng với các vùng đượcnhận diện bởi người dùng Trọng số tương tự được dựa vào các vị trí tương đốigiữa ảnh truy vấn và các ảnh mục tiêu
Để cung cấp một mức chi tiết hơn của độ tương tự vị trí tương đối,Shrivastava và Tyagi [80] đã liên kết một phương pháp tra cứu dựa vào các mãvùng cho các vùng khác nhau trong ảnh Các mã vùng cùng với mầu trội và cácđặc trưng kết cấu được kết hợp và được đánh chỉ số Các mã vùng được sử dụngcho so sánh tương tự và được sử dụng tiếp theo để tìm các vị trí tương đối củanhiều vùng quan tâm trong các ảnh truy vấn và mục tiêu
Các biểu diễn không gian dựa vào đồ thị cũng được sử dụng rộng rãi trongnhiều ứng dụng nhận dạng và tra cứu ảnh Các đồ thị có thể được sử dụng hiệuquả cho sự tương tự giữa các sắp xếp không gian, ở đó các đối tượng đơn lẻ
Trang 30hoặc các vùng được biểu diễn bởi các nút đồ thị và các quan hệ của chúng đượcbiểu diễn bởi các cung giữa các nút [128] Alajlan và cộng sự [82] đã phát triểnmột khung dựa vào cây cho tra cứu ảnh dựa vào hình học Nó bao gồm hìnhdạng và cấu trúc của các đối tượng và các hố cấu tạo một ảnh Kumar và cộng sự[11] đã phát triển một khung dựa vào đồ thị được áp dụng trong CBIR y học,biểu diễn các quan hệ của các nội dung ảnh đa phương thức trên một đồ thị hoànchỉnh Độ tương tự giữa các ảnh truy vấn và cơ sở dữ liệu được tính toán trêncác vị trí không gian của các nội dung ảnh Tuy nhiên, các biểu diễn không giandựa vào đồ thị có chi phí tính toán cao.
1.3 Đo khoảng cách
Việc lựa chọn xác định loại độ đo khoảng cách mà sử dụng để so sánh độtương tự của từng cặp ảnh còn phụ thuộc vào cấu trúc của các véc tơ đặc trưng
mô tả chúng Độ đo khoảng cách được áp dụng chỉ ra độ tương tự giữa truy vấn
và mỗi ảnh trong cơ sở dữ liệu Để thu được tra cứu chính xác hơn và hiệu năngtốt hơn, hệ thống CBIR nên tận dụng độ đo đối sánh tương tự hiệu quả, mô tả vàđịnh lượng tốt các tương tự nhận thức
Các độ đo khoảng cách có thể được sử dụng cho đối sánh tương tự tronglĩnh vực CBIR như:
Khoảng cách Minkowski: được sử dụng rộng rãi để đo sự tương tự trongcác hệ thống CBIR Với hai ảnh X và Y được cho, được biểu diễn trong không
Khoảng cách Minkowski giữa X và Y, d(X,Y) được xác định như sau:
Ở đây r là nhân tố chuẩn hóa cho khoảng cách Minkowski, và
Chebyshev (tức
Trang 31Khoảng cách Mahalanobis: với điểm A và phân bố B được cho,Mahalanobis đo khoảng cách giữa A và B bằng việc tính bao nhiêu độ lệchchuẩn từ A so với trung bình của B Cho ma trận hiệp phương sai M, và hai ảnh
Nếu và ma trận hiệp phương sai S là ma trận đơn vị thì nó tương đươngvới khoảng cách Euclid, nhưng nếu S là ma trận trực giao thì nó tương đươngvới khoảng cách Euclid chuẩn hóa
Khoảng cách Cosine: Với hai ảnh X và Y được cho mà biểu diễn trongkhông gian dữ liệu bởi hai véc tơ n chiều, khoảng cách được cho bởi góc giữacác véc tơ sử dụng tích vô hướng và độ lớn là:
‖‖‖‖
Một không gian dữ liệu hữu hạn F được cho với n thành phần, khoảngcách Hamming giữa hai véc tơ là số các hệ số mà chúng khác nhau, hoặc có thểđược giải thích như số tối thiểu các cạnh trong một đường kết nối hai đỉnh củakhông gian n chiều Trong hệ thống CBIR, khoảng cách Hamming được sử dụng
để tính toán sự không giống nhau giữa các véc tơ đặc trưng mà biểu diễn các ảnh
cơ sở dữ liệu và ảnh truy vấn Khoảng cách Hamming mờ là một mở rộng củakhoảng cách Hamming cho các véc tơ với các giá trị thực
Với các giá trị thực và , mức độ khác nhau giữa và , được điềuchỉnh bởi >0, biểu thị bởi được xác định bởi:
(1.4)
Trang 32Khoảng cách Earth Mover:
Khoảng cách Earth Mover được dựa trên vấn đề vận chuyển từ tối ưutuyến tính, mục tiêu cực tiểu chi phí mà có thể được tả để biến đổi một phânphối sang một phần phối khác Với tra cứu ảnh, ý tưởng này được kết hợp vớimột lược đồ biểu diễn của các phân bố mà dựa vào lượng hóa véc tơ để đo độtương tự nhận thức Điều này có thể được phát biểu thành một bài toán qui
hoạch tuyến tính như sau: Cho
tiên với m cụm, ở đây
17
Trang 33phải di chuyển lượng nguồn cung tối đa mà được gọi là luồng tổng Ngay khiluồng tối ưu F được tìm thấy và bài toán vận chuyển được giải, khoảng cáchEarth Mover được xác định như sau:
(1.8)
∑ ∑
Khoảng cách Earth Mover mạnh hơn các kỹ thuật đối sánh dựa vào lược
đồ và có nhiều ưu điểm so với các xác định khác của các khoảng cách phân bố.Đầu tiên, khoảng cách Earth Mover áp dụng đối với các dấu hiệu mà gộp cáclược đồ nào đó Điều này giữ được các ưu điểm của nén và mềm dẻo của dấuhiệu cũng như lợi ích của việc xử lý các cấu trúc có cỡ thay đổi bởi một độ đokhoảng cách Thứ hai, chi phí của Earth Mover phản ảnh đúng khái niệm gần màkhông cần sự tồn tại của các vấn đề lượng tử hóa của hầu hết các độ đo khác.Thứ ba, khoảng cách Earth Mover đưa ra đối sánh từng phần, chẳng hạn, để xử
lý với các hỗn loạn và đút nút trong các ứng dụng tra cứu ảnh Thứ tư, nếukhoảng cách nền là một độ đo và với tổng các trọng số ngang bằng của hai dấuhiệu, khoảng cách Earth Mover cho phép các không gian ảnh với một cấu trúc
độ đo
Khoảng cách Kullback-Leibler và Jeffrey divergence:
Dựa trên lý thuyết thông tin, phân kỳ K-L đo lường mức độ trung bình không hiệu quả của việc mã hóa một lược đồ bằng cách sử dụng một lược đồ khác làm code- book Cho hai lược đồ { } và { }, ở đây và là các bin lược đồ, phân kỳ Kullback- Leibler (K-L) được xác định như sau:
Trang 34được lấy ra từ quần thể biểu diễn bởi một phân phối khác và được xác định như sau:
ở đây
1.4 Phân cụm
Tiếp nối quá trình biểu diễn và trích rút đặc trưng, các phương pháp phâncụm nhằm nhóm các mô tả ảnh thành các cụm khác nhau với các ngữ nghĩa khácnhau Các phương pháp được sử dụng phổ biến là:
Phân cụm K-means:
Cho đến nay, K-means là phương pháp phân cụm được sử dụng phổ biếnnhất trong các ứng dụng khoa học và công nghiệp [106] Các bước chính trongphương pháp học không giám sát này gồm: (1) lựa chọn một số điểm khởi tạo từ
dữ liệu đầu vào làm các tâm cụm khởi tạo, (2) liên kết các điểm trong khônggian với trọng tâm gần nhất để tạo ra k cụm, (3) tính toán lại các trọng tâm cụm.Lặp lại cho đến khi tất cả các điểm dữ liệu đầu vào được gán vào các cụm
Mặc dù đơn giản và tốc độ, thuật toán K-means thường phải đối mặt vớimột số vấn đề thách thức như khởi tạo centroid, nhạy cảm đối với các ngoại lai
và xác định một số điểm dữ liệu gần với nhiều cụm Để giải quyết các cụmchồng lên nhau, hai mở rộng của K-means đã được đề xuất và được sử dụngrộng rãi: GMM (Gaussian mixture models) và phân cụm mờ (chẳng hạn fuzzy c-means) GMM là một phương pháp xác suất, sử dụng thuật toán cực đại kỳ vọng
EM (expectation maximization) để gán các điểm dữ liệu vào các cụm Mặt khác,phân cụm mờ có thể liên kết mỗi điểm dữ liệu với nhiều hơn một cụm với mức
độ thuộc trong khoảng từ 0 đến 1 [18]
Trang 35Phân cụm bán giám sát:
Phương pháp phân cụm chỉ tận dụng một lượng nhỏ dữ liệu có nhãn, nóđược biết như là phân cụm bán giám sát Nói chung, các phương pháp bán giámsát cải tiến quá trình phân cụm hoặc bằng điều chỉnh hàm mục tiêu để thỏa mãncác nhãn hoặc điều chỉnh các ràng buộc, hoặc bằng việc huấn luyện độ đokhoảng cách để thỏa mãn các nhãn hoặc các ràng buộc Bilenko và cộng sự [19]
đã đề xuất một phân cụm bán giám sát cân bằng, K-means ràng buộc cặp độ đo(MPCK-means) MPCK-means thực hiện huấn luyện độ đo khoảng cách tại mỗilần lặp phân cụm và học các độ đo riêng cho mỗi cụm và do đó cho phép cáccụm có các hình dạng khác nhau Gần đây, Papagiannopoulou và cộng sự [8] đãgiới thiệu một kỹ thuật mới cho phân cụm ảnh bằng việc kết hợp một cách tiếpcận dựa vào khái niệm của biểu diễn ảnh với các kỹ thuật phân cụm Phươngpháp này sử dụng các bộ phát hiện khái niệm được huấn luyện để biểu diễn mỗiảnh bởi một véc tơ kết quả phát hiện khái niệm, sau đó nó được sử dụng làm đầuvào cho các thuật toán phân cụm Họ áp dụng các bộ phát hiện khái niệm đượchuấn luyện vào tập ảnh và nhận các trọng số dự báo cho mỗi khái niệm Mỗi ảnh
có thể được biểu diễn bằng một véc tơ thành phần của trọng số tin cậy Sau quátrình phân cụm, một tóm tắt của các tập ảnh và các sự kiện có thể được tạo ra
1.5 Một số nghiên cứu liên quan về giảm khoảng cách ngữ nghĩa trong tra cứu ảnh
Có nhiều cách tiếp cận để giảm khoảng cách ngữ nghĩa trong tra cứu ảnhdựa vào nội dung Do các kỹ thuật học máy được sử dụng trong luận án cho nênphần này của luận án sẽ trình bày các nghiên cứu theo hướng tiếp cận học máy
Một số nghiên cứu theo hướng tiếp cận học có giám sát:
Kỹ thuật học có giám sát như máy véc tơ hỗ tợ SVM [27,120], phân lớpBayes [130] thường được đưa vào các hệ thống tra cứu ảnh dựa vào nội dungnhằm mục đích học khái niệm ngữ nghĩa mức cao từ đặc trưng mức thấp
Trang 36Với cơ sở lý thuyết vững chắc, thuật toán phân lớp SVM sử dụng để giảiquyết một số bài toán như nhận dạng đối tượng, phân lớp văn bản… và là một thuậttoán học tốt trong hệ thống tra cứu ảnh [2] Ban đầu, SVM thiết kế để phân lớp nhịphân Giả sử, chúng ta có một tập dữ liệu huấn luyện {x1, x2, , xn} là các véc tơ
trong không gian X ⊆ Rd thuộc hai lớp riêng biệt với tập nhãn {y1, y2,
, yn} và yi {−1, 1} Chúng ta muốn tìm một mặt để tách biệt dữ liệu, mặtphân tách tối ưu (OSP) là một trong những lề cực đại (khoảng cách giữa mặt vàđiểm dữ liệu của mỗi lớp) Để học đa khái niệm về tra cứu ảnh, một SVM đượchuấn luyện cho mỗi khái niệm Một phương pháp được dùng rộng rãi nữa làphân lớp Bayesian [75] Trong tài liệu [7], sử dụng phân lớp nhị phân Bayesian,khái niệm mức cao về cảnh thiên nhiên thu được từ các đặc trưng mức thấp Hệthống phân lớp tự động ảnh cơ sở dữ liệu thành một nhóm như trong nhà/ ngoàitrời, và hình ảnh ngoài trời được phân thành thành phố và cảnh quan.Trong [53],mạng Bayesian được dùng để phân lớp ảnh trong nhà/ ngoài trời
Các kỹ thuật học khác như mạng nơ ron được dùng cho học khái niệm.Trong [21], đầu tiên tác giả lựa chọn 11 nhóm khái niệm: gạch, mây, lông, cỏ,
đá, kem, kính, đường, đá, cát, da, cây và nước Sau đó, một lượng lớn dữ liệuhuấn luyện (đặc trưng mức thấp của các vùng) được đưa vào phân lớp mạng nơron để thiết lập liên kết giữa đặc trưng trực quan mức thấp của một ảnh và ngữnghĩa mức cao của nó (nhãn loại) Một bất lợi của thuật toán này là đòi hỏi mộtlượng lớn dữ liệu huấn luyện và cần những tính toán phức tạp
Trong [42], đã chỉ ra rằng các thuật toán học thường có hai vấn đề: (1) cầnmột lượng lớn các mẫu huấn luyện có nhãn (2) Tập huấn luyện được cố địnhtrong suốt quá trình học và ứng dụng Vì thế, nếu ứng dụng thay đổi, các mẫunhãn mới cần phải cung cấp để đảm bảo độ chính xác phân lớp Cách tiếp cận
bootstrapping trình bày trong [42] để giải quyết các vấn đề này Nó bắt đầu từmột tập nhỏ của các mẫu huấn luyến có nhãn Bằng cách sử dụng kết hợpphương pháp huấn luyện, hai thuật toán phân lớp thống kê được sử dụng để
21
Trang 37huấn luyện và chú thích các mẫu không có nhãn, thuật toán chú thích thành côngmột tập dữ liệu lớn.
Từ thực nghiệm chỉ ra rằng, hiệu quả tra cứu cải thiện lên 10% độ chínhxác tra cứu khi được so với SVM (400 ảnh có nhãn cho huấn luyện), với cácmẫu huấn luyện có nhãn ít hơn (chỉ có 20 nhãn) Bên cạnh các thuật toán được
đề cập ở đây, kỹ thuật decision tree (supervised learning) cũng được dùng đểsinh các đặc trưng ngữ nghĩa Phương pháp Decision tree như ID3, C4.5, CARTxây dựng một cấu trúc cây bằng phân hoạch đệ quy không gian thuộc tính đầuvào thành một tập hợp không gian không chồng chéo [102]
Mặc dù các nghiên cứu được mô tả ở trên đã thực hiện việc giảm khoảngcách ngữ nghĩa, tuy nhiên các thuật toán có một số hạn chế sau:
- Đòi hỏi một lượng lớn dữ liệu huấn luyện có nhãn (đòi hỏi này khó có được trong thực tế)
- Cần những tính toán phức tạp, tốn nhiều thời gian tra cứu (đòi hỏi này khó được người dùng chấp nhận)
- Tập huấn luyện được cố định trong suốt quá trình học và ứng dụng Nhưvậy, nếu ứng dụng thay đổi, độ chính xác không được đảm bảo
- Không tận dụng được thông tin phản hồi của người dùng vào việc xácđịnh độ quan trọng ngữ nghĩa của từng truy vấn và độ quan trọng của từng đặctrưng
- Sử dụng chung một véc tơ trọng số của hàm khoảng cách cho tất cả cácđiểm truy vấn tối ưu mà không xét đến tính chất địa phương của các điểm truyvấn khác nhau
- Mỗi lần lặp phản hồi, phương pháp phải phân cụm lại từ đầu tất cả các
ảnh
Trang 38Những hạn chế này của phương pháp là động lực để luận án đề xuất cácphương pháp trong Chương 2 và Chương 3.
Một số nghiên cứu theo hướng tiếp cận học không giám sát:
Không giống với học có giám sát khi dữ liệu có nhãn hay có hướng dẫntrong suốt quá trình học, với học không giám sát, dữ liệu không có nhãn, nhiệm
vụ từ những đặc trưng đầu vào như vậy cần tổ chức hoặc nhóm lại Phân cụmảnh là kỹ thuật điển hình của học không giám sát đối với mục đích tra cứu Nó
dự định nhóm một bộ hình ảnh theo cách tối đa hóa độ tương tự của các đốitượng trong cụm và tối thiểu độ tương tự giữa các cụm khác nhau Mỗi kết quả
phân cụm kết hợp một nhãn và ảnh trong cùng cụm là tương tự với nhau
Thuật toán phân cụm K_means truyền thống và biến thể của nó thườngđược dùng để phân cụm Trong [32], áp dụng thuật toán phân cụm K-means trênđặc trưng mầu mức thấp của tập ảnh huấn luyện Sau đó, đo sự khác nhau trongmỗi cụm để sinh ra một tập chỉ mục giữa đặc trưng trực quan mức thấp và đặctính văn bản tối ưu (từ khóa) của mỗi cụm tương ứng Các luật chỉ mục đượcsinh có thể được sử dụng thêm để lập chỉ mục cho ảnh không có nhãn thêm vàoảnh cơ sở dữ liệu Trong [107], đề xuất phương pháp chú thích ảnh cơ sở dữ liệu
tự động cho mục đích tra cứu, đầu tiên hệ thống phân cụm ảnh thành các vùng
sử dụng một biến thể của K-means (PCK-means) [19]. Số lượng các cụm đượcthiết lập là 30 Sau đó, xác suất của mỗi khái niệm (59 khái niệm được địnhnghĩa cho cơ sở dữ liệu ảnh được sử dụng) cho một vùng được sinh ra bằng cách
sử dụng Phương pháp Bayesian [107] Do đó, một hình ảnh có thể được chúthích bằng cách chọn khái niệm mà có xác suất cao nhất
Do sự phân bố phức tạp của dữ liệu ảnh (các điểm dữ liệu được lấy mẫu
từ không gian đa tạp), các phương pháp truyền thống như phân cụm K-means
thường không thể phân tách ảnh tốt với nhiều khái niệm khác nhau [110] Đểgiải quyết vấn đề này, phương pháp phân cụm phổ [48] đề xuất và thành công
Trang 39trên nhiều ứng dụng như phân đoạn ảnh, phân cụm ảnh Một phiên bản mở rộngcủa N_Cut có sẵn trong [1].
Trong [122], phương pháp CLUE được đề xuất để giảm ―khoảng cáchngữ nghĩa‖ trong CBIR Không giống với các hệ thống CBIR khác hiển thị danhsách các ảnh kết quả ban đầu có độ tương tự cao tới người dùng, hệ thống này cốgắng lấy các cụm ảnh ngữ nghĩa Khi đưa vào một ảnh truy vấn, một tập các ảnhmục tiêu tương tự với ảnh truy vấn được chọn là lân cận của ảnh truy vấn Dựavào giả thuyết rằng các ảnh có cùng ngữ nghĩa có xu hướng nằm trong cùng mộtcụm, phân cụm N_Cut được sử dụng để phân cụm ảnh mục tiêu thành các nhómngữ nghĩa khác nhau Sau đó hệ thống sẽ hiển thị các cụm ảnh đó và điều chỉnh
mô hình độ đo tương tự theo phản hồi của người dùng Mặc dù rất thành côngtrong phân cụm dữ liệu đa tạp, N_Cut không cung cấp một hàm chỉ mục hoànhảo nên phương CLUE chưa đem lại kết quả tốt
Mặc dù các phương pháp tra cứu ảnh sử dụng học không giám sát có ưuđiểm không đòi hỏi tập dữ liệu huấn có nhãn, tuy nhiên, hầu hết các phươngpháp này không khai thác thông tin phản hồi của người dung, dẫn đến việc giảmkhoảng cách ngữ nghĩa còn thấp Do đó, độ chính xác của các phương pháp họckhông giám sát này bị giới hạn
Các hạn chế của phương pháp tra cứu ảnh sử dụng học không giám sát làđộng lực để luận án chọn cách tiếp cận học có giám sát với phản hồi liên quantrong việc đề xuất các phương pháp tra cứu ảnh trong Chương 2 và Chương 3của luận án
1.6 Đánh giá hiệu năng
Nếu chúng ta đánh giá hiệu năng tra cứu của một phương pháp trên một
cơ sở dữ liệu, cần thiết có một tập thực sự Điều này giúp chúng ta biết ảnh nàotrong tập kết quả thuộc về chủ đề nào Trường hợp tốt nhất là tất cả các ảnh tracứu là các ảnh liên quan
Trang 40Có hai loại độ đo đánh giá, độ chính xác và độ triệu hồi, được sử dụng rộng rãi để đánh giá hiệu quả tra cứu thông tin, đó là:
(1) Độ chính xác là tỷ lệ của số lượng ảnh liên quan được tra cứu và sốlượng tất cả ảnh được tra cứu trong một lần lặp Nó được tính như sau:
Precision-Trong tra cứu ảnh, độ chính xác trung bình ARP (Average RetrievalPrecision) thường được sử dụng để đánh giá độ chính xác của phương pháp.Hiệu quả tra cứu chung của một hệ thống được đo bằng trung bình tất cả độchính xác ARP được tính toán như sau:
ARP = average (∑ ) (1.14)Với là độ chính xác của mỗi truy vấn Nó là một độ đo hiệu quả để biểu diễnhiệu suất của hệ thống CBIR Trong các thực nghiệm ở chương 2 và chương 3,luận án sử dụng độ chính xác trung bình để đánh giá hiệu quả của các phươngpháp
1.7 Kết luận Chương 1 và định hướng nghiên cứu
Trong chương này, ngoài việc luận án đã trình bày về các đặc trưng mứcthấp của ảnh, cấu trúc hệ thống tra cứu ảnh dựa vào đặc trưng mức thấp và phân