Một cách tiếp cận tự động và hiệu quả hơn được gọi là tra cứu ảnh dựa vào nội dung CBIR, trong CBIR sử dụng các đặc trưng ảnh mức thấp để biểu diễn, so sánh và tra cứu các ảnh.. Thứ hai
Trang 1ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
O 0
O NGUYỄN ĐỨC HƯNG
NGHIÊN CỨU PHƯƠNG PHÁP TRA CỨU ẢNH CON
SỬ DỤNG KỸ THUẬT MÁY HỌC
Thái Nguyên, tháng 12 năm 2013
Trang 2ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
Trang 3LỜI MỞ ĐẦU
Những năm gần đây, chúng ta đã chứng kiến sự tăng nhanh lượng dữ liệu ảnh cùng với sự phát triển bùng nổ của các ứng dụng trên Internet Hàng ngày, nhiều cơ quan, tổ chức và cá nhân đã tạo ra nhiều Exa-bytes dữ liệu ảnh và đưa chúng lên Internet Khi số lượng ảnh trong tập ảnh còn ít, việc nhận diện một bức ảnh hay việc
so sánh sự giống và khác nhau giữa các bức ảnh có thể thực hiện được bằng mắt thường, tuy nhiên khi có số lượng rất lớn ảnh thì việc so sánh bằng mắt thường là rất khó khăn, đòi hỏi phải có những phương pháp hiệu quả và chính xác hơn Việc tìm kiếm được một bức ảnh mong muốn trong hàng triệu bức ảnh thuộc đủ loại chủ đề khác nhau là rất khó khăn Vấn đề đặt ra là phải có những phương pháp tổ chức cơ sở
dữ liệu ảnh tốt cùng với những kỹ thuật tìm kiếm, tra cứu ảnh hiệu quả, có độ chính xác cao và có hiệu năng tốt
Ban đầu, tra cứu ảnh được thực hiện dựa trên các mô tả ngắn bằng một tập các thuộc tính độc lập nội dung (tên file, khuôn dạng, loại, cỡ, tên tác giả và vị trí đĩa) của các ảnh Tuy nhiên, cách tiếp cận này giới hạn các truy vấn vào các thuộc tính đã có Một sự thay thế khác là sử dụng các chú thích văn bản thủ công hoặc các từ khóa sao cho các kỹ thuật tra cứu thông tin cổ điển có thể được sử dụng để tìm kiếm các ảnh Nhưng cách tiếp cận này vẫn có các vấn đề như sự nhập nhằng, không đầy đủ và chủ quan Do dữ liệu ảnh rất phong phú về thông tin, để thu được nội dung của một ảnh sử dụng một số ít từ khóa là không khả thi, chưa đề cập đến công việc tẻ nhạt trong quá trình chú thích
Một cách tiếp cận tự động và hiệu quả hơn được gọi là tra cứu ảnh dựa vào nội dung (CBIR), trong CBIR sử dụng các đặc trưng ảnh mức thấp để biểu diễn, so sánh
và tra cứu các ảnh Hầu hết các hệ thống CBIR theo cách tiếp cận hai bước để tìm kiếm các cơ sở dữ liệu ảnh Đầu tiên (đánh chỉ số), một véc tơ đặc trưng biểu diễn các thuộc tính quan trọng nào đó của ảnh được trích rút và lưu trữ như siêu dữ liệu cho mỗi ảnh cơ sở dữ liệu Thứ hai (tìm kiếm), một ảnh truy vấn được cho, các ảnh tương
tự nhất với ảnh truy vấn được trả về cho người sử dụng bằng việc so sánh các véc tơ đặc trưng của các ảnh cơ sở dữ liệu với các đặc trưng của ảnh truy vấn Tất cả các hệ
Trang 4Trong khi hầu hết các hệ thống CBIR tra cứu các ảnh dựa trên so sánh toàn bộ ảnh, tức là với một ảnh truy vấn được cho hệ thống trả về tất cả các ảnh tương tự Tuy nhiên, những người sử dụng có thể rất quan tâm đến tìm kiếm đối tượng Trong trường hợp này, người sử dụng cung cấp một ảnh con truy vấn (có thể là một đối tượng) mà
hệ thống tra cứu sẽ tìm kiếm các ảnh mà chứa ảnh con truy vấn (theo nhận thức của con người) từ cơ sở dữ liệu ảnh Truy vấn ảnh con cũng có thể là bản thân một ảnh Nhiệm vụ này, gọi là tra cứu ảnh con dựa vào nội dung (CBsIR), là khó giải quyết bởi một loạt các hiệu ứng (như thay đổi cỡ và khác biệt về các vị trí quan sát, ) gây ra ảnh con mục tiêu khác nhau đáng kể trong các ảnh khác nhau Một bài toán kết hợp với CBsIR là cách xác định vị trí ảnh con bên trong một ảnh cơ sở dữ liệu hiệu quả
Đề tài nghiên cứu tổng quan về tra cứu ảnh dựa vào nội dung và đi sâu vào nghiên cứu bài toán tra cứu ảnh con dựa vào nội dung (CBsIR) để tìm kiếm các ảnh cơ
sở dữ liệu có chứa các ảnh con truy vấn Bên cạnh đó, đề tài cũng kết hợp kỹ thuật máy học vào quá trình tra cứu ảnh con để được các kết quả gần với nhận thức của con người hơn Trên những cơ sở phương pháp tra cứu ảnh con truy vấn, tiến hành xây dựng chương trình thử nghiệm cho phép đọc vào một ảnh con truy vấn và tìm kiếm những ảnh tương tự với ảnh con truy vấn trong một tập hợp các ảnh cho trước và thú nhận đánh giá phản hồi từ người dùng
Nội dung luận văn gồm có 3 chương:
CHƯƠNG 1: TỔNG QUAN VỀ TRA CỨU ẢNH CON DỰA VÀO NỘI DUNG
VÀ HỌC TỪ THÔNG TIN NGƯỜI DÙNG
CHƯƠNG 2: TRA CỨU ẢNH CON DỰA VÀO NỘI DUNG SỬ DỤNG KỸ THUẬT MÁY HỌC, giới thiệu phương pháp tra cứu ảnh con dựa vào cây phân cấp và
sự kết hợp giữa tra cứu ảnh con và kỹ thuật máy học
CHƯƠNG 3: CHƯƠNG TRÌNH THỬ NGHIỆM, xây dựng hệ thống và trình bày một số kết quả đạt được
Trang 5LỜI CẢM ƠN
Trong quá trình thực hiện luận văn này, tôi luôn nhận được sự hướng dẫn, chỉ bảo tận tình của TS Nguyễn Hữu Quỳnh, Khoa Công nghệ Thông tin thuộc trường Đại học Điện lực là cán bộ trực tiếp hướng dẫn khoa học cho tôi Thầy đã giành nhiều thời gian trong việc hướng dẫn cách nghiên cứu, đọc tài liệu, cài đặt các thuật toán và giúp
đỡ về xây dựng hệ thống thực nghiệm
Tôi xin chân thành cảm ơn các Thầy, Cô giáo trong trường Đại học Công nghệ Thông tin và Truyền Thông, Đại học Thái Nguyên đã luôn nhiệt tình giúp đỡ và tạo điều kiện tốt nhất cho tôi trong suốt quá trình học tập tại trường
Xin chân thành cảm ơn các anh, các chị và các bạn học viên lớp Cao học - trường Đại học Công nghệ Thông tin và Truyền Thông thuộc Đại học Thái Nguyên đã luôn động viên, giúp đỡ và nhiệt tình chia sẻ với tôi những kinh nghiệm học tập, công tác trong suốt khoá học
Hà nội, ngày 25 tháng 12 năm 2013
Trang 6Ý KIẾN NHẬN XÉT
Trang 7
MỤC LỤC
Lời mở đầu
Trang Chương 1: TỔNG QUAN VỀ TRA CỨU ẢNH CON DỰA VÀO NỘI DUNG VÀ
HỌC TỪ THÔNG TIN NGƯỜI DÙNG 10
1.1 Giới thiệu 10
1.1.1 Tra cứu ảnh dựa vào nội dung 10
1.1.2 Tra cứu ảnh con dựa vào nội dung 12
1.2 Tra cứu ảnh dựa vào màu 12
1.2.1 Các không gian màu 13
1.2.2 Biểu diễn và mô tả ảnh dựa vào màu 14
1.2.3 Hàm khoảng cách 15
1.3 Tra cứu thông tin 16
1.4 Học từ người dùng trong tra cứu thông tin 17
1.5 Một số nghiên cứu liên quan về tra cứu ảnh con dựa vào nội dung 21
1.5.1 Tra cứu ảnh con dựa vào phân hoạch 21
1.5.2 Tra cứu ảnh con dựa vào điểm 23
1.6 Kết luận chương 1 24
Chương 2 : TRA CỨU ẢNH CON DỰA VÀO NỘI DUNG SỬ DỤNG KỸ THUẬT MÁY HỌC……… 25
2.1 Giới thiệu bài toán 25
2.2 Kỹ thuật tra cứu ảnh con dựa vào nội dung 25
2.2.1 Cấu trúc cây và phân hoạch phân cấp của phương pháp HTM 26
2.2.2 Trích rút đặc trưng sử dụng màu trung bình 28
2.2.3 Các hàm khoảng cách véc tơ 28
2.2.4 Chiến lược tìm kiếm 31
2.3 Học trong tra cứu ảnh con dựa vào nội dung 32
2.3.1 Lược đồ đánh lại trọng số 33
2.3.2 Cập nhật trọng số 36
2.3.3 Tương tự ảnh 37
2.4 Kết luận chương 2 39
Chương 3: CHƯƠNG TRÌNH THỬ NGHIỆM 40
3.1 Biểu đồ hệ thống 40
3.1.1 Sơ đồ hệ thống tra cứu ảnh sử dụng phản hồi liên quan 40
3.1.2 Biểu đồ Use Case 41
3.1.3 Biểu đồ trình tự và biểu đồ hoạt động 41
3.1.4 Thiết kế cơ sở dữ liệu 45
3.2 Mô tả chương trình 46
3.3 Kết quả đạt được 47
3.4 Thực nghiệm thu hồi ảnh bằng thông tin phản hồi 49
3.5 Kết luận chương 3 51
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 52
Trang 8DANH MỤC CÁC BẢNG, SƠ ĐỒ, HÌNH
Hình 1.1: Kiến trúc hệ thống tra cứu ảnh dựa vào nội dung 9
Hình 1.2: Các không gian màu 11
Hình 1.2.1: Phản hồi liên quan tìm kiếm trên các ảnh 16
Hình 1.2.2: Truy vấn tối ưu Rocchio để tách các tài liệu liên quan 17
Hình 1.2.3: Ứng dụng của thuật toán Rocchio’s 19
Hình 2.1: Phân hoạch phân cấp của một ảnh với cấu trúc cây kết quả và chuỗi chỉ số tương ứng cho lưu trữ 25
Hình 2.2: Ví dụ về các cấu trúc cây cho ảnh cơ sở dữ liệu và ảnh con truy vấn 28
Hình 2.3: Thuật toán HTM 30
Hình 2.4: Hình ảnh thu hồi với thông tin phản hồi của người dùng 33
Hình 2.5: So sánh độ bất lợi của ảnh 34
Hình 3.1: Sơ đồ hệ thống tra cứu ảnh sử dụng phản hồi 38
Hình 3.2: Biểu đồ Use Case 39
Hình 3.3: Biểu đồ trình tự tác nhân tra cứu ảnh 39
Hình 3.4: Biểu đồ hoạt động của tác nhân tra cứu ảnh 40
Hình 3.5: Biểu đồ trình tự tác nhân phản hồi ảnh 41
Hình 3.6: Biểu đồ hoạt động của tác nhân phản hồi ảnh 41
Hình 3.7: Biểu đồ trình tự của tác nhân Upload ảnh 42
Hình 3.8: Biểu đồ hoạt động của tác nhân Upload ảnh 43
Hình 3.9 : Bảng cơ sở dữ liệu Image 43
Hình 3.10 : Bảng cơ sở dữ liệu Cluster 44
Hình 3.11: Mối quan hệ giữa các bảng 44
Hình 3.12: Số liệu các loại ảnh trong cơ sở dữ liệu 45
Hình 3.13: Giao diện chính hệ thống tra cứu ảnh 46
Hình 3.14: Giao diện hiển thị kết quả truy vấn 47
Hình 3.15: Hình ảnh truy vấn 47
Hình 3.16: Hình ảnh thu hồi lần lặp thứ nhất 48
Hình 3.17: Hình ảnh thu hồi lần lặp thứ hai 48
Trang 9Uỷ ban quốc tế về màu sắc
HAC Hierarchical Agglomerative Clustering Phân cụm tích luỹ phân cấp
CBC Color Base Clustering Phân cụm dựa vào màu
MST Minimum Spainning Tree Cây mở rộng tối thiểu
IRM Integrated Region Matching Đối sánh vùng tích hợp
CSDL DataBase Cơ Sở Dữ Liệu
Trang 10Chương 1: TỔNG QUAN VỀ TRA CỨU ẢNH CON DỰA VÀO NỘI DUNG
VÀ HỌC TỪ THÔNG TIN NGƯỜI DÙNG 1.1 Giới thiệu
1.1.1 Tra cứu ảnh dựa vào nội dung
Khi ta có nhu cầu tìm kiếm một vài bức ảnh trong một kho dữ liệu ảnh có thể lên tới vài trăm nghìn bức ảnh để minh họa cho một đề tài nào đó thì tuyệt đối không phải
là chuyện đơn giản nếu chúng ta tìm kiếm một cách thủ công tức là xem lần lượt từng bức ảnh cho tới khi ta tìm thấy được bức ảnh có nội dung cần tìm Song song với sự phát triển của các phương tiện kỹ thuật số trong tương lai, số lượng ảnh sẽ còn tăng nhiều hơn nữa Do vậy nhu cầu thật sự đòi hỏi phải có một công cụ hỗ trợ tìm kiếm ảnh chính xác và hiệu quả Vì vậy tra cứu ảnh dựa vào nội dung ra đời để góp phần đáp ứng nhu cầu này
“Tra cứu ảnh dựa vào nội dung” - Đây là một chủ đề nghiên cứu mới trong lĩnh vực công nghệ thông tin Mục đích chính của nó là lấy những ảnh từ cơ sở dữ liệu phù hợp với tiêu chí truy vấn Các yếu tố mô tả nội dung của một bức ảnh có liên quan đến cảm nhận như màu sắc, kết cấu, hình dạng, cấu trúc, mối liên hệ về không gian và chuyển động Do vậy, phân tích ảnh, nhận dạng ảnh và thị giác máy tính đóng vai trò
cơ bản trong các hệ thống tra cứu ảnh Nó cho phép tự động trích chọn hầu hết các thông tin cảm nhận, thông qua việc phân tích phân bố điểm ảnh và rút ra các độ đo nội dung trực quan Các hệ thống truy vấn ảnh dựa vào nội dung hiện nay rất đa dạng nhưng nhìn chung được phân biệt bởi: các đặc trưng mà hệ thống rút trích từ ảnh để làm cơ sở truy vấn, phương pháp trích rút đặc trưng ảnh được sử dụng trong hệ thống truy vấn, độ đo sự tương tự giữa hai ảnh, phương pháp đánh chỉ số nhiều chiều để tối
ưu việc tìm kiếm
Một số chức năng chính của một hệ thống tra cứu ảnh dựa vào nội dung:
- Phân tích nội dung của nguồn thông tin và biểu diễn nội dung của các nguồn thông tin được phân tích phù hợp với sự đối sánh truy vấn của người sử dụng (không gian của thông tin nguồn được chuyển đổi thành không gian đặc điểm với mục đích đối sánh nhanh trong bước tiếp theo) Bước này thường mất nhiều thời gian cho việc xử lý tuần tự các thông tin nguồn (ảnh) trong cơ sở
dữ liệu Nó chỉ phải làm một lần và có thể làm độc lập
Trang 11- Phân tích các truy vấn của người dùng và biểu diễn chúng thành các dạng phù hợp với việc đối sánh với cơ sở dữ liệu nguồn Nhiệm vụ của bước này giống với bước trước nhưng chỉ được áp dụng với những ảnh truy vấn
- Xác định chiến lược để đối sánh tìm kiếm truy vấn với thông tin được lưu trữ trong cơ sở dữ liệu Bước này có thể thực hiện trực tuyến và thực hiện rất nhanh Công nghệ đánh chỉ số có thể được sử dụng để nhận dạng không gian đặc điểm để tăng tốc độ xử lý đối sánh
- Tạo ra sự điều chỉnh cần thiết trong hệ thống (thường là bằng cách đối chiếu các tham số trong công nghệ đối sánh) dựa trên phản hồi từ người sử dụng hoặc những hình ảnh được tra cứu
Mô hình chung của các hệ thống tra cứu ảnh dựa vào nội dung:
Hình 1.1: Kiến trúc hệ thống tra cứu ảnh dựa vào nội dung
Chúng ta nhận thấy rằng trên một mặt của một hệ thống tra cứu ảnh dựa vào nội dung, có các nguồn thông tin trực quan ở các khuôn dạng khác nhau và trên mặt kia có các truy vấn người sử dụng Hai mặt này được liên kết thông qua một chuỗi các tác vụ như được minh họa trong Hình 1.1 Hai tác vụ phân tích truy vấn người sử dụng và đánh chỉ số nhiều chiều được tóm lược ở đây trong khi hai tác vụ quan trọng nhất:
“Phân tích các nội dung của thông tin nguồn” (trích rút đặc trưng) và “Định nghĩa một chiến lược để đối sánh các truy vấn tìm kiếm với thông tin trong cơ sở dữ liệu được
trưng
Tạo truy vấn đặc trưng Trích rút
Các kết quả tra cứu
Phản hồi liên quan
Đầu ra Thực hiện ngoại tuyến
Trang 121.1.2 Tra cứu ảnh con dựa vào nội dung
Trong khi hầu hết các hệ thống tra cứu ảnh tra cứu các ảnh dựa trên việc so sánh toàn bộ bức ảnh, người dùng lại muốn quan tâm “tìm kiếm đối tượng”, trong đó người dùng có thể chỉ rõ “vùng con quan tâm” (thường là một đối tượng quan tâm) của một ảnh như một truy vấn Sau đó hệ thống tra cứu các ảnh chứa vùng con này (theo nhận
thức của người dùng) từ một cơ sở dữ liệu ảnh Nhiệm vụ này được gọi là truy vấn ảnh
con Đây là nhiệm vụ có nhiều thách thức, do bị ảnh hưởng bởi nhiếu yếu tố như khác
nhau về vị trí quan sát, nhiễu camera, che lấp đối tượng, là nguyên nhân của việc cùng một đối tượng có các xuất hiện khác nhau trong các ảnh khác nhau Hệ thống cũng có thể giải quyết được vấn đề định vị trí, tức là có thể tìm vị trí của đối tượng trong một ảnh Thiếu quá trình phân đoạn ảnh tốt cho các cơ sở dữ liệu ảnh lớn và không thuần nhất, hàm ý rằng các đối tượng phải được định vị trí trong các ảnh không phân đoạn, tạo ra sự khó khăn của bài toán định vị trí
Để xử lý các truy vấn người dùng, một số hệ thống sử dụng các phương pháp phân hoạch lưới cố định [1,3] Để cải tiến tốc độ và độ chính xác của tra cứu dựa vào nội dung, cách tiếp cận đối sánh đa phân giải [2] đã được đề xuất, Ở đây, ảnh truy vấn
có thể là một phác thảo hoặc ảnh quét được tra cứu Tuy nhiên, trong nhiều hoàn cảnh, người dùng chỉ quan tâm hoặc nhớ các nội dung ảnh cục bộ, do đó, xử lý truy vấn ảnh con là cần thiết Tuy nhiên, không có nhiều hệ quản trị cơ sở dữ liệu ảnh dựa trên sự tương tự màu và không gian Với các hệ thống có thể đề cập đến các truy vấn ảnh con với cỡ bất kỳ đối sánh đa phân giải không được sử dụng
1.2 Tra cứu ảnh dựa vào màu
Chọn các đặc trưng ảnh đúng cho một hệ thống tra cứu ảnh là quan trọng bởi vì các đặc trưng ảnh ảnh hưởng đến mọi khía cạnh của toàn bộ quá trình tra cứu Hầu hết các hệ thống tra cứu ảnh dựa vào nội dung (CBIR) sử dụng các đặc trưng ảnh mức thấp như màu, kết cấu, hình, do chúng có thể được trích rút tự động Màu là đặc trưng mức thấp được sử dụng phổ biến nhất, bởi vì màu được con người nhận thức ngay lập tức khi quan sát một ảnh và các khái niệm liên quan dễ hiểu và dễ cài đặt Bên cạnh đó, màu là một trong những đặc trưng nhận thức nổi trội trong phần lớn các lĩnh vực ảnh và sử dụng thông tin màu có thể thu được các kết quả thỏa mãn Hầu hết các hệ thống CBIR thương mại bao gồm màu như một trong các đặc trưng ảnh (QBIC của IBM [4], Virage [5], )
Trang 131.2.1 Các không gian màu
Màu của một pixel trong một ảnh số được biểu diễn bởi ba giá trị, một cho mỗi kênh của không gian màu được chọn Một không gian màu là một đặc tả của một hệ tọa độ 3D và không gian con trong hệ tọa độ đó nơi mỗi màu được biểu diễn bởi một điểm [6] Bước đầu tiên trong bất cứ một hệ thống tra cứu ảnh dựa vào màu nào là chọn một không gian màu, nới các ảnh sẽ được biểu diễn và so sánh
Không gian màu được sử dụng rộng rãi nhất là RGB (Red, Green, Blue)[6, 7] Không gian màu RGB là phụ thuộc thiết bị (màu hiển thị không chỉ phụ thuộc vào các giá trị RGB, mà còn phụ thuộc vào các đặc tả thiết bị) Hạn chế chính của mô hình này
là không đồng nhất về mặt nhận thức (theo một nghĩa nào đó, sự khác biệt về các màu RGB không phản ánh sự khác biệt được nhận thức bởi con người) Không gian màu RGB là một khối được chỉ ra ở hình 1.2 dưới, ở đây đường chéo chính biểu diễn các giá trị xám từ đen tới trắng, và các điểm bên trong hình khối được biểu diễn bởi tổng trọng số của R, G, B [8]
Hình 1.2 Các không gian màu
Loại không gian màu khác là các không gian màu đồng nhất, ở đây các khác biệt
số giữa các màu phù hợp với các khác biệt được nhận thức bởi con người Mô hình CIE Lab là một ví dụ như thế Như được chỉ ra trong hình 1(b), không gian màu CIE Lab biểu diễn các khác biệt của ba cặp cơ bản: red-green, yellow-blue và black-white Khác so với không gian màu RGB, không gian màu CIE Lab độc lập thiết bị
Loại thứ ba được gọi là không gian màu hướng người dùng [9,10], dựa vào nhận thức của con người về màu như hue, saturation và intensity Một số ví dụ về loại này là không gian màu HSI và HSV
Trang 141.2.2 Biểu diễn và mô tả ảnh dựa vào màu
Để thu được độ chính xác và tốc độ trong các hệ thống tra cứu ảnh, một mô tả nén và chính xác về phân bố màu và phân bố không gian của các màu trong các ảnh số
là cần thiết Các mô tả này có thể được giảm về cỡ bằng các phương pháp giảm tĩnh
và động
Các phương pháp tĩnh sử dụng lược đồ cỗ định cho mỗi ảnh Lược đồ đơn giản nhất để giảm số các màu trong một ảnh là sử dụng lượng hóa thô và đều cho mỗi kênh màu Ví thế, các màu thu được không cần biểu diễn rõ ràng và so sánh các ảnh dễ hơn Tuy nhiên, có thể các màu xuất hiện trong một ảnh không được phân bố đều trong không gian màu Nó cũng không thích hợp cho các không gian màu không đồng nhất như HSV, do các màu tương tự có thể khác nhau và các màu không tương tự được phân lớp cùng nhau.Một vấn đề khác là khó thu được một thỏa hiệp đầy đủ về mật độ của lượng hóa cho các màu được phân bố không nhất thiết đồng nhất trong không gian màu Các phương pháp giảm động sử dụng nội dung trực quan của các ảnh và dựa trên các kỹ thuật phân đoạn để giảm cả số các màu và số các vị trí không gian trong một ảnh Mọt kỹ thuật phân đoạn ảnh tiêu biểu nhóm các pixel lân cận có cùng màu với nhau thành các vùng (màu của vùng là màu trung bình của các pixel) Các vùng sau khi được sinh ra sẽ nén và có ý nghĩa hơn vì chúng có độ tương tự màu cao và hình dạng, cỡ và vị trí không gian được xác định tốt Một số kỹ thuật phân đoạn ảnh bao gồm: phát hiện đường biên, phát triên vùng, nhập và tách vùng [6]
Ngay khi mô tả của ảnh được chọn, một biểu diễn của thông tin này là bước tiếp theo trong các hệ thống tra cứu ảnh Lược đồ màu đã được sử dụng rộng rãi để mô tả thông tin màu của các ảnh do nó dễ tính toán, ít nhạy cảm với các thay đổi hướng và vị trí, khả thi về mặt bộ nhớ, hiệu quả trong so sánh sử dụng các hàm khoảng cách véc tơ
và đủ chính xác cho tra cứu các ảnh dựa trên ấn tượng màu tổng thể Thông tin được lưu trữ về nội dung trực quan của một ảnh có thể được biểu diễn trong ba cách được
mô tả tiếp theo
Các biểu diễn toàn cục mô tả phân bổ màu của toàn bộ ảnh, bỏ qua phân bố không gian của các màu Biểu diễn toàn cục được sử dụng phổ biến nhất là lược đồ màu toán cục (GCH) [9,10] Một GCH được tính toán bằng việc đếm số các pixel
Trang 15trong ảnh có mỗi màu được lượng hóa Tuy nhiên, do lược đồ màu toàn cục bỏ qua thông tin không gian, nó bị giới hạn khả năng phân biệt ảnh Một cách khác để thay thế là sử dụng các biểu diễn dựa vào phân hoạch để mô tả phân bố màu của mỗi phân hoạch đơn lẻ của một ảnh Nhìn chung, ảnh được phân hoạch tĩnh thành một tập các khối hình chữ nhật theo lược đồ nào đó và một lược đồ màu cục bộ (LCH) được sử dụng để mô tả mỗi khối phân hoạch riêng lẻ Trong loại biểu diễn này, thông tin mở rộng về các thuộc tính không gian của các khối phân hoạch như cỡ, hình và vị trí không gian được ghi lại Một số cách tiếp cận dựa vào phân hoạch cũng sử dụng các loại lược đồ màu khác [11,12]để giới thiệu một số thông tin không gian về nội dung trực quan của các ảnh phân rã chúng thành các khối không gian theo lược đồ cố định Ngoài hai biểu diễn trên, còn có biểu diễn vùng cho tra cứu ảnh mức đối tượng
Dựa trên biểu diễn ảnh, các kỹ thuật tra cứu ảnh dựa vào màu đã có có thể được phân lớp thành ba loại chính: (1) các cách tiếp cận toàn cục [9,10], (2) các cách tiếp cận dựa vào phân hoạch [11,12], (3) các cách tiếp cận dựa vào vùng [13,14] Mỗi loại này đưa ra một thỏa hiệp riêng giữa độ phức tạp của thuật toán phân tích ảnh, lượng không gian nhớ được yêu cầu để biểu diễn các đặc trưng trực quan được trích rút từ các ảnh, độ phức tạp của hàm khoảng cách được sử dụng để so sánh các đặc trưng này
và độ chính xác tra cứu
1.2.3 Hàm khoảng cách
Sự thành công của bài toán tra cứu ảnh phụ thuộc chính vào hai nhân tố Nhân tố thứ nhất là sự ổn định của các đặc trưng ảnh được sử dụng, nhân tố thứ hai là các đặc tính của hàm khoảng cách được sử dụng cho so sánh các đặc trưng ảnh Hàm khoảng cách ảnh hưởng trực tiếp đến thời gian xử lý truy vấn và độ chính xác tra cứu Khoảng cách mô phỏng nhận thức về sự tương tự của con người tốt hơn, hiệu quả hơn thì hệ thống tra cứu ảnh tra cứu các ảnh liên quan dến nhu cầu của người dùng Độ phức tạp tính toán của hàm khoảng cách cũng được xem xét là một nhân tố quan trọng khi xử lý một truy vấn trực quan Hơn nữa, hàm khoảng cách giới hạn sử dụng các kỹ thuật lọc khác nhau và/hoặc các phương pháp truy cập có thể được sử dụng để tăng tốc xử lý truy vấn
Trang 16Một số hàm khoảng cách véc tơ được biết rộng rãi [15] gôm:
| i b k
|a (a,b)
Block):L (City
L
1 1
1
2 1
2) 1
( 2
k
|a (a,b)
):L (Euclidean L
|
| maxk 1 i i
(a,b) ):L
(Chebyshev L
Ở đây a=(a1,a2, ,ak) và b=(b1,b2, ,bk), cả hai là các véc tơ đặc trưng k chiều
Mô hình các véc tơ đặc trưng trong không gian véc tơ có ưu điểm rằng khoảng cách hình học được sử dụng để so sánh hai véc tơ là đơn giản về mặt tính toán Tuy nhiên, có các trường hợp khác, như trong các hệ thống tra cứu ảnh dựa vào vùng, nó không thể mô hình các hệ thống tra cứu ảnh phức tạp trong không gian véc tơ Trong ngữ cảnh đó, một không gian độ đo, không có giới hạn về biểu diễn các đặc trưng trực quan Một độ đo được đề xuất để đo khoảng cách giữa hai phân bố của một số biến ngẫu nhiên trong một ảnh, như các lược đồ màu, là EMD [16] EMD phản ảnh lượng công việc tối thiểu mà phải được thực hiện để biến đổi một phân bố thành phân bố khác bằng việc dịch chuyển “khối lượng phân bố” xung quanh Nó bắt nguồn từ bài toán vận tải trong tối ưu tổ hợp EMD có thể được tính bằng việc giải bài toán qui hoạch tuyến tính, vì thế độ phức tạp tính toán cao Thêm nữa, nghiên cứu gần đây trong thị giác máy tính và tâm lý học hàm ý rằng nhận thức của con người về sự tương
tự mẫu thuẫn với các cách khác nhau với các tiên đề độ đo (quá hạn chế trong ngữ cảnh tìm kiếm tương tự) Một trong những tiên đề độ đo chủ yếu là bất đẳng thức tam giác, tiên đề quan trọng nhất cho các mục tiêu đánh chỉ số [17]
1.3 Tra cứu thông tin
Tra cứu thông tin (IR – Information Retrieval) là việc thu thập các nguồn thông tin liên quan trong một tập các nguồn tài nguyên Hệ thống tra cứu thông tin tự động được sử dụng để giảm tình trạng “quá tải thông tin”
Trang 17Quá trình tra cứu thông tin bắt đầu với việc người dùng nhập một truy vấn vào hệ thống Các truy vấn là những câu lệnh chính thức của thông tin cần tìm Truy vấn phụ thuộc vào các ứng dụng của các đối tượng có thể là văn bản, hình ảnh, audio, bản đồ tư duy hoặc video Thường thì bản thân các tài liệu không được trực tiếp lưu trữ trong hệ thống IR mà được thể hiện trong hệ thống bằng các tài liệu đại diện hoặc các siêu dữ liệu
1.4 Học từ người dùng trong tra cứu thông tin
Ý tưởng của học từ người dùng là bao gồm người dùng vào quá trình tra cứu để cải tiến tập kết quả cuối cùng Cụ thể, người dùng đưa phản hồi về sự liên quan của các tài liệu trong một tập các kết quả ban đầu Thủ tục cơ sở là:
- Người dùng tạo một truy vấn
- Hệ thống trả lại một tập các kết quả tra cứu ban đầu
- Người dùng đánh dấu một số tài liệu được trả về là tương tự hoặckhông tương tự
- Hệ thống tính toán một đại diện tốt nhất của nhu cầu thông tin (IN – Information Need) dựa trên thông tin từ người dùng
- Hệ thống hiển thị một tập các kết quả tra cứu được hiệu chỉnh (tương ứng với các thông tin từ người dùng)
Học từ người dùng có thể đi qua một hay nhiều vòng lặp của sự sắp xếp này Quá trình sử dụng ý tưởng có thể khó để tính một truy vấn tốt khi chúng ta không biết toàn bộ tập tài liệu, nhưng dễ đánh giá các tài liệu cụ thể Trong ngữ cảnh như thế, học
từ người dùng cũng có thể hiệu quả trong theo dõi nhu cầu thông tin của người dùng: xem một số tài liệu có thể dẫn người dùng cải tiến hiểu thông tin mà họ đang tìm
Tìm kiếm ảnh cung cấp một ví dụ tốt về học từ người dùng Không chỉ là dễ xem các kết quả khi làm việc, mà còn là một lĩnh vực mà người dùng dễ trình bày nhu cầu thông tin hơn (dùng lời khó biểu diễn nhu cầu thông tin hơn ảnh) Sau khi người
dùng nhập vào một truy vấn khởi tạo là bike Các kết quả ban đầu được trả về (giả sử
đối với dữ liệu ảnh) Trong Hình 1.2.1a, người dùng chọn một số ảnh liên quan Các ảnh liên quan này sẽ được sử dụng để cải tiến truy vấn, trong khi các kết quả được hiển thị còn lại không ảnh hưởng đến kết quả Hình 1.2.1b, chỉ ra các kết quả được phân hạng mới được tính sau vòng phản hồi liên quan
Trang 18(a)
(b) Hình 1.2.1 Phản hồi liên quan tìm kiếm trên các ảnh (a) người dùng xem các kết quả truy vấn ban đầu của truy vấn bike, lựa chọn kết quả thứ nhất, thứ ba và thứ 4 trong dòng trên cùng và kết quả thứ 4 trong dòng cuối cùng là liên quan và gửi phản hồi này (b) người dùng xem tập kết quả được hiệu chỉnh Độ chính xác được cải tiến rất nhiều
Lý thuyết cơ bản: Chúng ta muốn tìm một véc tơ truy vấn, được biểu thị bằng q
, mà cực đại sự tương tự với các tài liệu liên quan trong khi cực tiểu sự tương tự với các tài
Trang 19liệu không liên quan Nếu C r là tập các tài liệu liên quan và C nrlà tập các tài liệu không liên quan, thì chúng ta muốn tìm:
) , ( )
, ( max
(1.1) Trong phương trình 1.1, sim(q ,C r)
là độ tương tự cosin giữa q
và C r, )
,(),(maxarg q sim q C r sim q C nr
trả lại q
mà sim(q ,C r) sim(q ,C nr)
đạt cực đại Véc
tơ truy vấn tối ưu qopt
để tách các tài liệu liên quan và không liên quan là:
nr
j nr
C d
j r
C
d C
Hình 1.2.2 Truy vấn tối ưu Rocchio để tách các tài liệu liên quan và không liên quan
Thuật toán Rocchio [36] Đây là cơ chế học từ người dùng được giới thiệu và phổ biến bởi hệ thống SMART của Salton khoảng 1970 Trong ngữ cảnh truy vấn IR thực tế, chúng ta có một truy vấn người dùng và một phần tri thức về các tài liệu liên quan và không liên quan Thuật toán sử dụng truy vấn điều chỉnh qm
nr j r
j nr
D d
j r
D
d D
q q
Trang 20với truy vấn: nếu chúng ta có nhiều tài liệu tin cậy, chúng ta mong muốn và lớn hơn Bắt đầu từ q0, truy vấn mới chuyển một số khoảng cách về phía trọng tâm của tài liệu liên quan, một số khoảng cách ra xa tài liệu không liên quan Truy vấn mới này có thể được sử dụng cho tra cứu trong mô hình không gian véc tơ chuẩn Có thể dễ dàng loại bỏ góc phần tư dương của không gian véc tơ bằng phép trừ véc tơ của tài liệu không liên quan Trong thuật toán Rocchio, trọng số thuật ngữ âm bị loại bỏ do đó được thiết lập bằng 0 Hình 1.3 cho thấy hiệu quả của ứng dụng học từ người dùng Học từ người dùng có thể được cải thiện cả độ chính xác và độ triệu hồi Thực tế cho thấy tăng độ triệu hồi hữu ích nhất trong trường hợp độ triệu hồi là quan trọng Điều này một phần do công nghệ mở rộng các truy vấn, nhưng một phần cũng do ảnh hưởng của trường hợp: khi muốn độ triệu hồi cao, người dùng dự kiến có thể mất thời gian để xem lại các kết quả và lặp lại việc tìm kiếm Phản hồi tích cực cũng trả về nhiều giá trị hơn phản hồi tiêu cực, do đó mà phần lớn hệ thống IR chọn < Do đó giá trị = 1, =0,75 và = 0,15 Trong thực tế, nhiều hệ thống , như hệ thống tìm kiếm ảnh Hình 1.1, chỉ cho phép các phản hồi tích cực tương đương với =0 Trường hợp khác là chỉ đánh dấu các tài liệu không liên quan nhận được thứ hạng cao nhất từ hệ thống IR như
là phản hồi tiêu cực (ở đây |Dnr| =1 trong biểu thức (1.3) Trong khi rất nhiều các kết quả thực nghiệm so sánh các dạng thông tin phản hồi khác nhau là khá thuyết phục,
một số nghiên cứu cho thấy dạng này được gọi là Ide dec-hi là hiệu quả nhất hoặc ít
nhất là biểu diễn ổn định nhất
Hình 1.2.3 Ứng dụng của thuật toán Rocchio’s Một số tài liệu đã được gán nhãn là liên quan hay không liên quan và véc tơ truy vấn ban đầu đã được dịch chuyển tương ứng từ phản hồi này
Trang 211.5 Một số nghiên cứu liên quan về tra cứu ảnh con dựa vào nội dung
Trong [23], T Wang và cộng sự dự định tìm kiếm một cách hiệu quả để thực hiện phân hạng và tra cứu ảnh con dựa vào nội dung Hai loại véc tơ đặc trưng ảnh: lược đồ màu toàn cục và tương quan màu [24]với các độ đo khoảng cách L1 và D1[25]được kiểm tra trong hệ thống tra cứu ảnh con Độ đo khoảng cách khác gọi là S1, nhằm mục tiêu nhấn mạnh đóng góp của các màu có các phân bố khác nhau giữa các ảnh được đề xuất Các thực nghiệm đối với một số độ đo khoảng cách cho cả véc tơ đặc trưng tìm thấy kết hợp của véc tơ đặc trưng tự tương quan và độ đo khoảng cách
S1 tốt hơn các kết hợp khác và sinh ra các kết quả tốt cho tra cứu ảnh con với chi phí
xử lý chấp nhận được Tuy nhiên vẫn cần hiểu tiếp cách thu được nhiệm vụ CBsIR hiệu quả và hệ thống CBsIR làm việc như thế nào Như đã được chỉ ra, các hệ thống CBsIR không thuộc về lĩnh vực tra cứu ảnh dựa vào vùng Các phương pháp này gồm các cách tiếp cận dựa vào phân hoạch như trong [11, 26, 27, 28] và các cách tiếp cận dựa vào điểm như trong [29]
1.5.1 Tra cứu ảnh con dựa vào phân hoạch
Phân hoạch ảnh là một nhân tố quan trọng để xác định chức năng và hiệu quả của các hệ thống tra cứu ảnh [30].Bằng việc phân rã các ảnh thành các khối nhỏ hơn và dễ quản lý hơn (dễ hơn để nén, lưu trữ, truy cập và tra cứu dữ liệu ảnh) Các cách tiếp cận dựa vào phân hoạch thường được chấp nhận một biểu diễn phân cấp của phân rã không gian sử dụng chiến lược cố định dựa trên lưới các khối hình chữ nhật đặt trên các ảnh [11,26] Các khối ở các mức phân cấp phân biệt có cỡ khác nhau và trùng lắp (tạo khả năng có thể phát hiện ra hai ảnh có các đối tượng ở các vị trí khác nhau là tương tự) Hai ảnh được so sánh đầu tiên ở đỉnh của phân cấp và sau đó ở các mức tiếp theo Với tốc độ và độ chính xác, các cách tiếp cận dựa vào phân hoạch đứng giữa hai loại giải pháp khác nhau đối với CBIR được biết như các cách tiếp cận toàn cục, hy sinh độ chính xác tra cứu với thiếu thông tin không gian cho hiệu quả cao dưới dạng trích rút đặc trưng trực quan, chi phí không gian và so sánh ảnh, các cách tiếp cận dựa vào vùng sử dụng các kỹ thuật xử lý ảnh phức tạp để phân rã các ảnh thành các vùng
có độ tương tự cao, hàm ý các thuật toán phân tích ảnh phức tạp cho trích rút đặc trưng, các hàm khoảng cách cho so sánh ảnh và chi phí không gian cao nhưng độ
Trang 22chính xác tra cứu được cải tiến Chi phí không gian cho các cách tiếp cận dựa vào phân hoạch có thể là lớn trong các trường hợp khi sử dụng biểu diễn phân cấp của cấu trúc phân hoạch Tiếp theo, luận văn trình bắn ngắn gọn các phương pháp dựa vào phân hoạch gần đây Bài báo của Leung và Ng [11] nghiên cứu ý tưởng sử dụng các thuật toán giảm và lótđể hỗ trợ các truy vấn ảnh con có cỡ tùy ý dựa trên thông tin màu cục bộ.Các thuật toán hoặc mở rộng ảnh con truy vấn để đối sánh cỡ của một khối ảnh thu được bởi biểu diễn đa phân giải của các ảnh cơ sở dữ liệu, hoặc thu nhỏ các khối ảnh của các ảnh cơ sở dữ liệu sao cho chúng nhỏ như ảnh con truy vấn.Bài báo trình bày mô hình chi phí phân tích và tập trung vào tránh chi phí Vào/Ra trong thời gian xử
lý truy vấn Để tìm một chiến lược tốt để tìm kiếm đa phân giải, bốn kỹ thuật được nghiên cứu: thuật toán nhánh và cận, thuần dọc (PV), thuần ngang (PH) và dọc và ngang (HV) Chiến lược HV được chứng tỏ là hiệu quả nhất Tuy nhiên, các tác giả không báo cáo các kết luận rõ ràng về độ chính xác của cách tiếp cận của họ
Trong [26],trích rút đặc trưng toàn cục được xem xét để thu thông tin không gian trong phạm vi các vùng ảnh Màu trung bình và ma trận hiệp biến của các kênh màu trong không gian màu L*a*b được sử dụng để biểu diễn phân bố màu HỌ áp dụng phân hoạch phân cấp cố định không hồi quy ba mức với các vùng hình chữ nhật trồng nhau để thu biểu diễn đa tỷ lệ của các ảnh cơ sở dữ liệu Mục tiêu giảm cỡ chỉ số của các đặc trưng toàn cục này, một tóm tắt nén cho các đặc trưng toàn cục của một vùng được giới thiệu.Một độ đo khoảng cách mới trên tóm tắt này được đề xuất cho tìm kiếm hiệu quả qua các lát (tile) từ chiến lược phân hoạch đa tỷ lệ Khoảng cách này
được gọi là khoảng cách phân cấp trong (IHD) do nó được đưa vào giữa các véc tơ
đặc trưng của các mức phân cấp của phân hoạch ảnh khác nhau IHD là một véc tơ hai chiều (chiếm chi phí không gian nhỏ) Chiến lược tìm kiếm là duyệt tuyến tính của tệp chỉ số, đánh giá sự tương tự giữa ảnh truy vấn và ảnh cơ sở dữ liệu cũng như tất cả các vùng con của nó sử dụng các véc tơ IHD của chúng.Cuối cùng, hàm khoảng cách cực tiểu được tìm thấy được sử dụng để phân hạng ảnh cơ sở dữ liệu này.Cách tiếp cận này được chứng minh là hiệu quả
Ứng dụng của CBsIR đối với lĩnh vực các ảnh nghệ thuật độ phân giải cao được nghiên cứu trong [27] Cách tiếp cận được đề xuất được gọi là phương pháp véc tơ gắn
Trang 23kết màu đa tỷ lệ (M-CCV), dựa vào sử dụng các véc tơ gắn kết màu [31] được trích rút
từ các mảng vá ảnh cho ảnh truy vấn và các ảnh mục tiêu ở phạm vi các tỷ lệ với đối sánh đa véc tơ để tìm các đối sánh ảnh con tốt nhất Ảnh con truy vấn có thể có thể là bản kém chất lượng của phần của ảnh gốc và được số hóa dưới các điều kiện khác nhau đáng kể Kiểm tra trên một tập các ảnh nghệ thuật, nhiều ảnh trong đó ở độ phân giải rất cao, các kỹ thuật được minh chứng là thực hiện tốt
1.5.2 Tra cứu ảnh con dựa vào điểm
Các hệ thống tra cứu ảnh theo phong cách “truy vấn bởi mẫu” thường đề cập đến toàn bộ ảnh Trong ngữ cảnh người dùng quan tâm mức đối tượng, các mô tả ảnh toàn cục là ít sử dụng Trong trường hợp này, các cách tiếp cận dựa vào các điểm xám quan tâm [32] và các điểm màu quan tâm [29] đã được phát triển cho các nhiệm vụ tra cứu ảnh con/đối tượng (đòi hỏi các mô tả cục bộ).Các điểm quan tâm là các điểm được trích rút và được mô tả từ tín hiệu màu tại cùng một thời điểm [29] Chúng là các pixel
mà thu các đặc trưng cục bộ đáng kể của ảnh, và thường có vị trí xung quanh các góc
và các điểm biên của ảnh Một mô tả ảnh cục bộ dựa trên các điểm màu quan tâm, được đề xuất trong [29], tập trung vào tra cứu ảnh con hoặc đối tượng So với các cách tiếp cận dựa vào vùng, chất lượng của bước phân đoạn là nhạy cảm với các nội dung của ảnh, trích rút các điểm quan tâm thực hiện tốt với nội dung ảnh phong phú Bên cạnh đó, các điểm là mạnh với các biến đổi hình học của ảnh như các thay đổi điểm quan sát, do mô tả được tính toán cục bộ và mạnh đối với các che lấp không gian.Hơn nữa, các kỹ thuật tra cứu ảnh dựa vào nội dung sử dụng thông tin trắc quan được chứa trong các ảnh, đối sánh xác định của một điểm quan tâm được định vị ở nới thông tin trắc quan là đáng kể nhất Do đó, có kỳ vọng lớn vào việc sử dụng các điểm để thu được đặc tính ảnh nén và phong phú
Khi áp dụng tra cứu ảnh, đối sánh ảnh dựa vào các điểm quan tâm cần các điểm với sự lặp lại tốt Các điểm quan tâm lý tưởng, chỉ ra các đặc trưng cục bộ, nên là bất biến đối với sự thay đổi chiếu sáng và biến đổi hình học Nhiều bộ trích rút điểm có trong tài liệu thị giác máy tính Đã được minh chứng rằng bộ phát hiện màu Harris [33] tốt cho các lặp lại yêu cầu Bước đầu tiên của đánh chỉ số đặc trưng ảnh là trích rút các điểm quan tâm từ toàn bộ ảnh bằng bộ phát hiện này Bước thứ hai, các điểm
Trang 24quan tâm được mô tả sử dụng số lượng trắc quan hàm ý các bất biến màu khác nhau Đặc tính ảnh kết quả được minh chứng nén hơn các phương pháp khác, do nó chứa nhiều thông tin trắc quan trong khi có chi phí không gian nhớ tương đương Đặc tính này cũng nhằm thực hiện tốt cho mô tả ảnh con hoặc đối tượng, như nó hàm ý một mô
tả cục bộ của ảnh mà mạnh đối với các biến đổi ảnh Chiến lược tìm kiếm áp dụng trong [29] gồm một thuật toán biểu quyết Biểu quyết được tính toán cho mỗi ảnh của
cơ sở dữ liệu là hàm của các khoảng cách giữa các điểm truy vấn và các điểm ứng cử viên của ảnh liên quan Các kết quả thực nghiệm chỉ ra sự thành công của cách tiếp cận này cho tra cứu các ảnh con và trên các đối tượng 3D cũng như tra cứu đối tượng dưới các điều kiện khó khăn như thay đổi điểm quan sát và che lấp đối tượng
1.6 Kết luận chương 1
Trong chương này, luận văn đã giới thiệu một số khái niệm cơ bản về tra cứu ảnh con dựa vào nội dung, bao gồm: một số khái niệm về tra cứu ảnh và tra cứu ảnh con, một số nghiên cứu liên quan về tra cứu ảnh dựa vào vùng, tra cứu ảnh con dựa vào nội dung, tra cứu ảnh con dựa vào phân hoạch, tra cứu ảnh con dựa vào điểm quan tâm Trên cơ sở đó định hướng luận văn đi vào nghiên cứu phương pháp tra cứu ảnh con dựa vào phân hoạch
Trang 25Chương 2 : TRA CỨU ẢNH CON DỰA VÀO NỘI DUNG
SỬ DỤNG KỸ THUẬT MÁY HỌC
2.1 Giới thiệu bài toán
Bài toán truy vấn ảnh con [26] có thể được mô tả như sau: cho một ảnh truy vấn đầu vào là một ảnh con Q của ảnh I và một tập ảnh S, tra cứu từ S các ảnh Q’ mà trong
đó ảnh truy vấn Q xuất hiện theo nhận thức của con người (Q Q’) Bài toán này khó hơn tra cứu ảnh do chịu nhiều ảnh hưởng như thay đổi góc quan sát, nhiễu camera,
đó là nguyên nhân cùng một đối tượng xuất hiện khác nhau trong các ảnh khác nhau Trong bài toán tra cứu ảnh con ở trên, vấn đề định vị một ảnh con trong một ảnh
cơ sở dữ liệu là vấn đề quan trọng Vấn đề định vị ảnh con được mô tả như sau: cho một ảnh truy vấn Q và một ảnh I sao cho Q I, tìm “vị trí” trong I nơi Q “có mặt” Hiệu quả được đòi hỏi bởi vì lượng dữ liệu cần được xử lý là khổng lồ
Vấn đề tìm “vị trí” có thể được giải quyết bởi việc sử dụng phân hoạch hình chữ nhật cố định Sử dụng phân hoạch như thế, chúng ta thu được một vị trí tương đối chính xác của các ảnh con mà có thể được tra cứu bằng các đối sánh với truy vấn người dùng Các vấn đề xuất hiện khi ảnh con mong muốn phủ các phần của hai hoặc nhiều các vị trí lân cận có thể được lấy ra bởi lưới cố định Để khắc phục vấn đề này, phương pháp chọn các hình chữ nhật trồng lấp Hơn nữa, phương pháp xét một phân hoạch tạo ra các hình chữ nhật có cỡ khác nhau để mô tả các tỷ lệ khác nhau của các vùng trong ảnh
2.2 Kỹ thuật tra cứu ảnh con dựa vào nội dung
Có hai nhân tố ảnh hưởng đến độ chính xác tra cứu trong CBIR nói chung và CBsIR nói riêng, trong đó nhân tố “khoảng cách số” là quan trọng Khoảng cách số gồm các bước khác nhau của quá trình tra cứu như: biểu diễn ảnh, đo khoảng cách, chiến lược tìm kiếm Để cực tiểu “khoảng cách số” này, phương pháp đối sánh cây phân cấp HTM [28] sử dụng đặc trưng ảnh phù hợp và nén, các hàm khoảng cách chính xác và có độ phức tạp tính toán thấp và các cấu trúc dữ liệu hiệu quả cho tìm kiếm tương tự
Trang 26cố định, phương pháp không dựa vào phân đoạn ảnh (một quá trình thiếu chính xác)
Số các lát được phân hoạch là cố định cũng như chiến lược phân hoạch được xác định trước Cây kết quả là nhỏ cho lưu trữ và tốc độ nhanh cho tìm kiếm Thêm nữa, quan
hệ cha con trong cấu trúc cây phân cấp phục vụ thuận lợi cho kết hợp các lát thay vì sử dụng các hàm khoảng cách phức tạp khi đối sánh các ảnh trong pha tìm kiếm Phương pháp lưu trữ các đặc trưng ảnh kết hợp với các nút trong cấu trúc cây theo khuôn dạng của một chuỗi chỉ số cho phép truy cập nhanh trong giai đoạn tìm kiếm Phương pháp cũng xử lý ảnh con truy vấn bằng việc xây dựng một cấu trúc cây theo cùng một cách như các cây được xây dựng cho các ảnh cơ sở dữ liệu, loải bỏ các ràng buộc về cỡ với ảnh con truy vấn.Tra cứu các ảnh liên quan được thực hiện bởi so sánh hiệu quả cấu trúc cây của truy vấn với tất cả các cây con của các ảnh cơ sở dữ liệu Sau đó khoảng cách giữa các cấu trúc cây có thể được tính toán hiệu quả để phân hạng các ảnh cơ sở
dữ liệu với ảnh truy vấn
2.2.1 Cấu trúc cây và phân hoạch phân cấp của phương pháp HTM
Để mô hình một ảnh, một lưới được đặt lên trên ảnh sinh ra phân hoạch phân cấp
và các lát Mặc dù mật độ của lưới là bất kỳ, phương pháp HTM [28] sử dụng lưới 4×4 sinh ra một biểu diễn đa tỷ lệ ba mức của ảnh Phân hoạch phân cấp của một ảnh với cấu trúc cây kết quả của nó và cấu trúc cây tương ứng với chuỗi chỉ số cho lưu trữ (xem Hình 2.1)
Trang 27Hình 2.1: Phân hoạch phân cấp của một ảnh với cấu trúc cây kết quả và chuỗi chỉ số
tương ứng cho lưu trữ
Cấu trúc cây trong hình 2 có ba mức:
Vì thế, mỗi ảnh cơ sở dữ liệu được biểu diễn như một chuỗi các lát, mỗi lát được ánh
xạ sang cây con của cấu trúc cây mô hình ảnh Mặc dù tương tự, mô hình phân hoạch phân cấp không giống như cây tứ phân [34] Cấu trúc cây trong HTM mô hình các lát trồng lấp tại mức trung gian từ phân hoạch phân cấp, trong khi cây tứ phân được sử