1. Trang chủ
  2. » Công Nghệ Thông Tin

Nâng cao độ chính xác tra cứu ảnh dựa vào nội dung trong ngữ cảnh tập mẫu huấn luyện hạn chế

8 11 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 8
Dung lượng 650,12 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Bài viết trình bày việc đề xuất phương pháp tra cứu ảnh IREC (An image retrieval method using efficient Classifier), nó có ưu điểm xây dựng được bộ huấn luyện cân bằng giữa lớp âm và lớp dương.

Trang 1

NÂNG CAO ĐỘ CHÍNH XÁC TRA CỨU ẢNH DỰA VÀO NỘI DUNG

TRONG NGỮ CẢNH TẬP MẪU HUẤN LUYỆN HẠN CHẾ

Đào Thị Thúy Quỳnh *

, Nguyễn Hữu Quỳnh ** , Phương Văn Cảnh ** , Ngô Quốc Tạo ***

* Khoa Công nghệ thông tin, Học viện Công nghệ Bưu chính Viên thông,

**

Khoa Công nghệ thông tin, Trường Đại học Điện lực,

** * Viện Công nghệ thông tin, Viện Hàn lâm Khoa học và Công nghệ Việt Nam,

thuyquynhtn90@gmail.com, quynhnh@epu.edu.vn, canhpv@epu.edu.vn, nqtao@ioit.ac.vn

TÓM TẮT: Nhiều hệ thống tra cứu ảnh hiện nay có tích hợp phản hồi liên quan để giảm khoảng trống ngữ nghĩa giữa mô tả ảnh

mức thấp và ngữ nghĩa mức cao trong suy nghĩ người dùng Từ thông tin người dùng cung cấp, một thuật toán phân lớp áp dụng lên

tập huấn luyện tạo ra một bộ phân lớp được sử dụng trong pha tra cứu tiếp theo Tuy nhiên, có hai hạn chế của tra cứu ảnh sử dụng

phản hồi liên quan với SVM: (a) dữ liệu mất cân bằng mẫu dương và âm (mẫu âm thường lớn hơn mẫu dương) (b) số lượng mẫu

phản hồi của người dùng thường rất nhỏ so với số chiều của dữ liệu Nhằm khắc phục hai hạn chế trên, chúng tôi đề xuất phương

pháp tra cứu ảnh IREC (An image retrieval method using efficient Classifier), nó có ưu điểm xây dựng được bộ huấn luyện cân

bằng giữa lớp âm và lớp dương Bên cạnh đó, phương pháp khai thác tính chất hình học của dữ liệu đa tạp nhằm giảm số chiều của

tập mẫu huấn luyện theo hướng tiếp cận phổ Để minh chứng tính hiệu quả của của phương pháp đề xuất, c húng tôi cung cấp các

kết quả thực nghiệm trên cơ sở dữ liệu đặc trưng gồm 10800 ảnh

Từ khóa: Tra cứu ảnh dựa vào nội dung, phản hồi liên quan, đa tạp, phổ, giảm chiều dữ liệu, phân lớp cân bằng

I GIỚI THIỆU

Gần đây, tra cứu ảnh đã thu hút sự quan tâm của nhiều nhà nghiên cứu trong cộng đồng khoa học máy tính Với

sự sẵn có của các thiết bị thu nhận ảnh số, số lượng ảnh số tăng lên với tốc độ nhanh chóng Hệ thống tra cứu ảnh tự

động trở thành chìa khóa cho việc sử dụng hiệu quả nguồn tài nguyên số Trong một hệ thống CBIR tiêu biểu, các đặc

trưng ảnh trực quan mức thấp (tức là màu, kết cấu và hình dạng) được trích rút tự động cho mục tiêu đánh chỉ số và mô

tả ảnh Để tìm kiếm các ảnh mong muốn, người dùng đưa một ảnh làm mẫu và hệ thống trả lại một tập các ảnh tương

tự dựa vào các đặc trưng được trích rút Khi các hệ thống trình bày một tập các ảnh được xem là tương tự đối với truy

vấn, người dùng có thể lấy ra những ảnh liên quan nhất đến ảnh truy vấn được cho và hệ thống điều chỉnh truy vấn sử

dụng chúng Phản hồi liên quan dựa vào các kỹ thuật CBIR không yêu cầu người dùng cung cấp các truy vấn khởi tạo

chính xác, nhưng đánh giá truy vấn lý tưởng của người dùng bằng sử dụng các ảnh liên quan phản hồi

Trong các hệ thống tra cứu ảnh sử dụng phân lớp ở trên có hai chế: (a) dữ liệu mất cân bằng mẫu dương và

âm (mẫu âm thường lớn hơn mẫu dương) (b) số lượng mẫu phản hồi của người dùng thường rất nhỏ so với số chiều

của dữ liệu Hai hạn chế chính này dẫn đến độ chính xác thấp và độ phức tạp tính toán cao Chúng tôi đề xuất một

phương pháp nâng cao độ chính xác tra cứu ảnh dựa vào nội dung trong ngữ cảnh tập mẫu huấn luyện hạn chế

IREC (An image retrieval method using efficient classifier) Bằng cách sử dụng một kỹ thuật sinh mẫu ngẫu nhiên

vào lớp thiểu số để hai lớp cân bằng nhau Sau đó khai thác tính chất hình học của dữ liệu đa tạp nhằm giảm số

chiều của tập mẫu huấn luyện sử dụng thuật toán giảm chiều sử dụng k véctơ riêng lên tập mẫu ví dụ huấn luyện

Trên tập mẫu cân bằng và giảm chiều, chúng tôi tìm được một siêu phẳng tách tối ưu và tính toán khoảng cách của

tất cả ảnh trong cơ sở dữ liệu tới siêu phẳng tách và sắp xếp các điểm theo thứ tự tăng dần của khoảng cách và trả

về tập ảnh kết quả cho người dùng

Phần còn lại của bài báo được tổ chức như sau Trong Phần II, chúng tôi khảo sát các nghiên cứu về tra cứu ảnh

sử dụng phân lớp SVM Phần III trình bày chi tiết phương pháp đề xuất Phần IV mô tả các thực nghiệm đánh giá hiệu

năng của phương pháp đề xuất và thảo luận các kết quả Cuối cùng, chúng tôi đưa ra kết luận trong Phần V

II PHẢN HỒI LIÊN QUAN VỚI SVM

Phản hồi liên quan là một quá trình trực tuyến mà cố gắng học mục đích của người dùng trong quá trình và là

một công cụ mạnh được sử dụng truyền thống trong các hệ thống tra cứu thông tin Nó được giới thiệu đối với CBIR

khoảng đầu những năm 1990, với mục đích mang người dùng vào lặp tra cứu để giảm khoảng cách ngữ nghĩa giữa

những gì mà truy vấn biểu diễn và những gì người dùng nghĩ Bằng việc tiếp tục học thông qua tương tác với các người

dùng cuối, phản hồi liên quan đã được chỉ ra là cung cấp cải tiến hiệu năng đáng kể trong các hệ thống CBIR

Support vector machine (SVM) là một trong những thuật toán phân lớp phổ biến và hiệu quả Xét một bài toán

phân lớp nhị phân, giả sử các cặp dữ liệu trong tập huấn luyện là ( ) ( ),…, ( ) với mỗi véctơ xi ,

mỗi điểm dữ liệu đầu vào có yi là nhãn của mỗi điểm dữ liệu đó, n là số chiều và N là số điểm dữ liệu Trong bài toán

phân tách tuyến tính * +

Trang 2

SVM tách hai lớp điểm này bởi một siêu phẳng tách

(SVM.2)

ở đây x là một véctơ đầu vào, w là một véctơ trọng số thích nghi và b là một độ lệch Mục tiêu của SVM là tìm các tham số w và b sao cho siêu phẳng tối ưu lể cực đại lề và các điểm dữ liệu thỏa mãn:

( ) đối với ( ) đối với

Hình 1.1 Phân lớp SVM

Các kỹ thuật tra cứu ảnh sử dụng SVM đều xác định siêu phẳng tách dựa trên mẫu huấn luyện thu được từ quá trình phản hồi của người dùng Khi đó, khoảng cách từ một điểm dữ liệu x bất kỳ trong cơ sở dữ liệu tới siêu phẳng tách được tính theo công thức:

( ⃗⃗⃗⃗⃗ ) | ⃗⃗⃗⃗⃗⃗ ‖( ⃗⃗⃗⃗⃗ )‖| (*) Công thức (*) cho biết khoảng cách từ x tới siêu phẳng tách Sau đó, phương pháp tra cứu ảnh sử dụng phân lớp SVM sẽ sắp xếp theo thứ tự giảm dần của khoảng cách và lấy ra N ảnh đầu tiên sau khi sắp xếp trả về kết quả

III PHƯƠNG PHÁP ĐỀ XUẤT 3.1 Giới thiệu phương pháp

Hình 3.1 Sơ đồ phương pháp

Phản hồi liên quan

Xây dựng tập huấn luyện

Tập kết quả tra cứu

Tra cứu ảnh Tập kết quả

Tập kết quả cuối cùng

Giảm chiều

Phân lớp SVM

Tra cứu

khởi tạo

Truy

vấn

Trang 3

3.2 Xây dựng tập huấn luyện

3.2.1 Sinh mẫu tự động và tâp huấn luyện cân bằng

Hầu hết những hệ thống tra cứu ảnh trong phản hồi liên quan sử dụng phân lớp đều gặp phải vấn đề số lượng mẫu ở lớp dương hay những ảnh mà người dùng chọn thường chênh lệch so với số lượng mẫu ở lớp âm Điều này dẫn đến hiệu quả của những hệ thống tra cứu ảnh trong phản hồi liên quan có sử dụng phân lớp còn hạn chế Với mong muốn xây dựng một bộ phân lớp tốt hơn, chúng tôi đề xuất một phương pháp nhằm giảm sự chênh lệch giữa số lượng mẫu ở lớp dương và lớp âm

Như đã phân tích ở trên, những phương pháp tra cứu ảnh trong phản hồi lên quan thường gặp phải vấn đề số lượng mẫu dương thường ít hơn rất nhiều so với số lượng mẫu âm dẫn đến sự mất cân bằng mẫu Phương pháp của chúng tôi khác với những phương pháp tra cứu ảnh trong phản hồi liên quan sử dụng phân lớp là không chấp nhận tập mẫu nghèo nàn [7], cũng không theo cách tiếp cận giảm số lượng mẫu âm bằng cách lựa chọn ngẫu nhiện một số lượng mẫu âm để xây dựng tập huấn luyện còn nhiều hạn chế Do đó, chúng tôi đề xuất kỹ thuật sinh mẫu dương cho tập huấn luyện để thu được tập ví dụ huấn luyện cân bằng

Phương pháp của chúng tôi dựa trên kỹ thuật SMOTE (Synthetic Minority Over-sampling technique) [7] Kỹ thuật SMOTE sinh ra mẫu trên tập mẫu nghèo nàn Với mỗi mẫu trên tập mẫu nghèo nàn, k-NN của nó được lấy ra và một số mẫu trong k-NN được lấy ra tùy thuộc vào tỷ lệ sinh mẫu mong muốn Sau đó, mẫu mới được sinh ra xsyn nằm trên đường nối giữa mẫu nghèo nàn và lân cận có nó

Hình 3.2 Hai lớp không cân bằng

Hình 3.3 Minh họa thuật toán SMOTE

: Mẫu dương : Mẫu âm

Trang 4

Dưới đây là thuật toán thực hiện việc bổ sung mẫu dương và cân bằng tập mẫu BTSE (Balance training set with Synthetic examples) Thuật toán nhận đầu vào là tập training set * + , gồm 2 lớp: lớp thiểu số

P là lớp đã được gán nhãn: * + và lớp đa số chưa được gán nhãn * + Thuật toán nhận đầu vào là một tập ảnh là kết quả của quá trình tra cứu khởi tạo và phản hồi liên quan, gồm m điểm đã được gán nhãn và N-m điểm chưa được gán nhãn Thuật toán sẽ xác định k-lân cận của mỗi ảnh thuộc tập có nhãn Thuật toán sẽ sinh mẫu dương nằm trên siêu phẳng nối mẫu dương và một mẫu dương thuộc tập lân cận của nó Từ đó hình thành tập mẫu với sự cân bằng giữa mẫu dương và âm

Thuật toán BTSE Input: - Tập training set * +

- Lớp thiểu số P là lớp đã được gán nhãn: * +

- Lớp đa số * +

- Tỷ số sinh: s

Ouput: - : Tập ví dụ huấn luyện cân bằng

Bước 1: Với mỗi phần tử pi (i=1,….,m) thuộc lớp thiểu số P, chúng tôi tính toán k lân cận gần nhất của nó trên lớp thiểu số P

{ ( ) ( ) ( )}

Bước 2: Sinh ngẫu nhiên s × m mẫu dương vào lớp thiểu số P, với s là một số dương nào đó Với mỗi pi, chọn ngẫu nhiên s lân cận từ k_NN(pi) trong P

Bước 2.1 Tính difj (j=1,…,s) giữa pi và s lân cận của nó ở tập P

( )

Bước 2.2 Tính , với ( ) nhận giá trị ngẫu nhiên 1 hoặc 0

Bước 3: Mẫu dương trong tập thiểu số được sinh dựa vào pi và s lân cận của nó:

, j=1,2,…,s

Bước 4: Return T = {N} * +

Hình 3.4 Thuật toán xây dựng tập huấn luyện cân bằng với sinh mẫu ngẫu nhiên

3.2.2 Thuật toán giảm chiều sử dụng k véctơ riêng của ma trận Laplace

Trong những hệ thống tra cứu ảnh sử dụng phản hồi liên quan dựa vào SVM thường gặp phải số lượng mẫu phản hồi của người dùng thường rất nhỏ so với số chiều của dữ liệu Để khắc phục điểm này chúng tôi sử dụng một thuật toán giảm chiều dữ liệu Laplacian eigein map (LE) [2] LE là một thuật toán giảm chiều dựa vào học đa tạp, phương pháp bảo toàn các mối quan hệ lân cận bằng cách thao tác trên một đồ thị vô hướng có trọng số

Phát biều bài toán giảm chiều: Cho một tập dữ liệu s1,…, sn là n điểm dữ liệu trong không gian Rn, tìm một tập điểm y1,…,yn trong không gian Rk sao cho (k n) sao cho yi biểu diễn xi

Đầu tiên, từ n điểm dữ liệu ảnh, phương pháp xây dựng ma trận affinity A theo ‖ ‖ (i ≠ j), aii=0) (1)

Ở đây tham số tỉ lệ 2

điều khiển mức độ ái lực aij giảm nhanh thế nào với khoảng cách giữa si và sj, phương pháp chọn tự động có thể xem trong [3] Một giá trị aij giữa hai ảnh là “cao” nếu hai ảnh là rất tương tự

Xây dựng ma trận đường chéo D trong đó phần tử (i, i) là tổng hàng thứ i của ma trận A D là một ma trận chéo với ∑

Tính ma trận Laplace: L=D-A

Tìm k véctơ riêng x1,x2,…xk lớn nhất của ma trận L, trong đó x1=(x11, x12, x13, …, x1n), x2=(x21, x22, x23, …, x2n),

….xk=(xk1, xk2, xk3, …, xkn) và xây dựng ma trận X = [x1T,x2T,…,xkT] Є Rn x k , cụ thể:

x 1 T x 2 T x 3 T … x k T

x11 x21 x31 … xk1

x12 x22 x32 … xk2

x13 x23 x33 … xk3

x1n x2n x3n xkn

Trang 5

Sử dụng k véctơ riêng của L để xây dựng phép nhúng trên không gian Euclid k chiều Xây dựng ma trận Y từ X bằng việc chuẩn hóa mỗi dòng của X là chiều dài đơn vị của ma trận Y (Yij =

(∑ )

)

y 1 y11 y12 y13 … y1k

y 2 y21 y22 y32 … y2k

y 3 y31 y32 y33 … y3k

Mỗi dòng của ma trận Y được xem như là một điểm trong không gian véctơ k chiều Đến đây, sẽ có n điểm trong không gian Rk

Hình 3.5 dưới đây là thuật toán giảm chiều sử dụng k véctơ riêng của ma trận Laplace sinh ra từ dữ liệu

DRELM (Dimensionality Reduction using k Eigeinvector of Laplacian Matrix)

Thuật toán DRELM Input: - Tập ảnh T={s1,s2,…,sn} với si Rn

- Số chiều: k

Output: - Tập ảnh Y={y1,y2,…,yn}trong không gian Rk

Bước 1: Xây dựng ma trận affinity

for i 1 to n do

for j 1 to n do

if (i j) ( ‖ ‖)

else

Bước 2: Xây dựng ma trận đường chéo và ma trận Laplace L

for i 1 to n do

L D-A

Bước 3: Tìm k véctơ riêng lớn nhất x 1 ,x 2 ,…,x k của ma trận Laplace L

for i 1 to k do

( )

X [x1T,x2T,…,xkT]

Bước 4 : Sử dụng k véctơ riêng của L để xây dựng phép nhúng trên không gian Euclid k chiều, xây dựng

ma trận Y từ X

for i 1 to n do

for j 1 to k do

yij xij/ (∑ )1/2

Y [y1 ,y2 ,…,yn ]

Return y1, y2 ,…,yn

Hình 3.5 thuật toán giảm chiều sử dụng k véctơ riêng của ma trận Laplace

3.3 Thuật toán tra cứu ảnh sử dụng bộ phân lớp hiệu quả

Chúng tôi đề xuất cải tiến độ chính xác tra cứu ảnh thông qua phản hồi liên quan dựa vào xây dựng bộ phân lớp mạnh có ưu điểm khắc phục được vấn đề mất cân bằng giữa mẫu âm và mẫu dương bằng cách sử dụng kỹ thuật sinh mẫu và giảm chiều dữ liệu sử dụng k véctơ riêng lớn nhất của ma trận Laplace sinh ra từ dữ liệu Thuật toán tra cứu ảnh sử dụng bộ phân lớp hiệu quả IREC (An image retrieval method using efficient Classifier) như sau:

Trang 6

Thuật toán IREC Input:

Tập các ảnh: S

Ảnh truy vấn khởi tạo: Q

Số các ảnh được trả về tại mỗi lần lặp: N

Output:

Tập kết quả được tra cứu: R

1 ResultInit(Q) RetrievalInit(Q, S, N);

2 Repeat

2.1 Relevant( ,m) Feedback( ( )); //Phản hồi liên quan:

2.2 T (S,Relevant( ,m)); //Cân bằng tập mẫu:

2.3 Y DRELM( ); //Bộ dữ liệu giảm về k chiều

2.4 Classifier(Y); //Xây dựng bộ phân lớp

2.5 R Retrieval( S,N); //Tra cứu theo bộ phân lớp

3 until (User dừng phản hồi);

4 Return R;

Hình 3.6 Thuật toán tra cứu ảnh sử dụng bộ phân lớp hiệu quả

Hình 3.6 trên mô tả thuật toán tra cứu ảnh sử dụng bộ phân lớp hiệu quả có tên IREC (An image retrieval method using efficient Classifier) Mỗi một ảnh trong tập ảnh S được biểu diễn trong không gian đặc trưng nhiều chiều Khi người dùng đưa vào ảnh truy vấn khởi tạo Q trên giao diện truy vấn bởi mẫu, thuật toán cũng biểu diễn ảnh truy vấn thành một điểm trên cùng một không gian đặc trưng chiều Truy vấn khởi tạo RetrievalInit(Q, S, N) được thực hiện

(Bước 1), ở đây số S là tập ảnh cơ sở dữ liệuvà N là số các ảnh được tra cứu trong tập S của mỗi lần lặp Kết quả thực hiện truy vấn khởi tạo được gán cho Resultinit(Q) Trên tập kết quả Resultinit(Q) trả về bởi truy vấn khởi tạo, người dùng phản hồi trên tập Resultinit(Q) thông qua hàm Feedback(Resultinit (Q)) để được tập m ảnh liên quan và lưu vào tập

Relevant( ,m) (Bước 2.1).Bổ sung các mẫu dương và xây dựng tập huấn luyện cân bằng được thực hiện thông qua hàm E(S,Relevant( ,m),T) (Bước 2.2) Hàm DRELM( ); sẽ thực hiện giảm chiều dữ liệu về k chiều… Có

được tập ví dụ huấn liệu cân bằng với số chiều phù hợp T được đưa vào huấn luyện phân lớp sử dụng hàm Classifier()

dùng SVM được mô tả ở phần II Sau khi sử dụng SVM huấn luyện tập T, thuật toán sẽ cho ra một siêu phẳng phân tách hai lớp trong tập T sao cho lề cực đại

Sau khi có bộ phân lớp , hàm Retrieval( S,N) (Bước 2.5) thực hiện phân hạng ảnh bằng cách duyệt từng ảnh trong trong toàn bộ cơ sở dữ liệu ảnh S để tính khoảng cách từng ảnh tới siêu phẳng phân tách và sắp xếp theo thứ tự giảm dần của khoảng cách và lấy ra N ảnh đầu tiên sau khi sắp xếp trả về cho người dùng

IV EXPERIMENTS 4.1 Môi trường thực nghiệm

Cơ sở dữ liệu ảnh:

Cơ sở dữ liệu được sử dụng cho thử nghiệm được chúng tôi tổ chức lại từ tập con của Corel Photo Gallery Tập này gồm 80 loại1, ví dụ như là: mùa thu, hàng không, cây cảnh, lâu đài, đám mây, chó, voi, núi băng, linh trưởng, tàu, nhũ đá, hỏa tiến, hổ, tàu hỏa, thác nước,… Tất cả các ảnh trong tập ảnh này có tính chất là đều chứa đối tượng tiền cảnh nổi bật Đa số nhóm đều gồm 100 ảnh, có một vài nhóm có hơn 100 hình ảnh Cỡ của các ảnh có max(chiều rộng, chiều cao)=120 và min(chiều rộng, chiều cao)=80

Véctơ đặc trưng:

Các đặc trưng được chia làm hai loại là: các đặc trưng màu và các đặc trưng kết cấu (xem Bảng 1 ở dưới)

1

https://sites.google.com/site/dctresearch/Home/content-based-image-retrieval (Download lúc 6:32 AM ngày 25/12/2016)

Trang 7

Bảng 1 Các loại đặc trưng

Loại đặc trưng màu

Tương quan màu color auto correlogram 64

Loại đặc trưng kết cấu Biến đổi wavelet waveletTransform 40

Biểu diễn ảnh:

Mỗi ảnh được sử dụng biểu diễn bởi 5 đặc trưng trực quan gồm 3 đặc trưng màu và 2 đặc trưng kết cấu Các véctơ đặc trưng tương ứng với mỗi kênh là một bảng hai chiều gồm 10800 dòng (mỗi dòng chứa một véctơ đặc trưng của ảnh) và 190 cột (độ dài tổng của một véctơ đặc trưng)

Tập tin cậy nền (ground truth):

Tập tin cậy nền Corel được sử dụng rộng rãi trong đánh giá CBIR, do đó chúng tôi cũng sử dụng phân loại Corel làm tin cậy nền, tức là chúng tôi xem tất cả các ảnh trong cùng loại Corel là liên quan Tập tin cậy nền này gồm 3 cột (có tiêu đề: ID ảnh truy vấn, ID ảnh và Sự liên quan) và gồm 1,981,320 dòng

3.2 Chiến lược mô phỏng phản hồi liên quan

Để bắt chước hành vi của con người, chúng tôi thực hiện mô phỏng phản hồi liên quan trong thử nghiệm Đầu tiên, truy vấn khởi tạo sẽ được thực hiện để tạo ra kết quả truy vấn Chúng tôi mô phỏng tương tác người dùng bằng việc chọn n ảnh liên quan từ kết quả tra cứu khởi tạo dựa vào tập tin cậy nền (ground truth) Những ảnh liên quan từ lần lặp phản hồi đầu tiên sẽ được phân thành k cụm và thực hiện tìm đại diện cho k cụm này Sau đó k đại diện được dùng để xây dựng truy đa điểm phục vụ cho tra cứu tiếp theo Sau đó những kết quả tra cứu được gộp lại để tạo ra một danh sách kết quả tổng hợp theo chiến lược truy vấn đa điểm tách rời

Phản hồi liên quan được thực hiện theo chiến lược chọn những ảnh liên quan đầu tiên (dựa vào tập tin cậy nền) trong danh sách kết quả Trong chiến lược này, trường hợp xấu nhất là không có ảnh liên quan nào ngoài ảnh truy vấn

và trường hợp tốt nhất là có n-1 ảnh liên quan ngoài ảnh truy vấn Do đó, số lượng ảnh liên quan có thể dao động từ 1 đến n ảnh (bao gồm cả ảnh truy vấn) Chiến lược này được sử dụng để mô phỏng người dùng thực tế trong thực nghiệm của chúng tôi

3.3 Thực hiện truy vấn và đánh giá

Trong thực nghiệm của chúng tôi, các yếu tố đó được lựa chọn như sau:

Một truy vấn khởi tạo được đưa vào hệ thống, kết quả tương ứng với truy vấn đó được hiển thị cho người dùng Sau đó, người dùng sẽ phản hồi trên danh sách kết quả tương ứng với truy vấn khởi tạo để hình thành danh sách ảnh phản hồi và tập ảnh phản hồi được đưa vào pha xây dựng tập huấn luyện Hệ thống sẽ thực hiện sinh mẫu sử dụng thuật toán BTSE Có được tập ví dụ huấn luyện cân bằng hệ thống sẽ chuyển sang pha giảm chiều dữ liệu và sử dụng bộ dữ liệu huấn luyện vào phân lớp SVM Sau khi có bộ phân lớp , hệ thống thực hiện phân hạng ảnh bằng cách duyệt từng ảnh trong trong toàn bộ cơ sở dữ liệu ảnh S để tính khoảng cách từng ảnh tới siêu phẳng phân tách và sắp xếp theo thứ tự giảm dần của khoảng cách và lấy ra N ảnh đầu tiên sau khi sắp xếp trả về cho người dùng

Độ chính xác2

trung bình ở mức 100 ảnh trả về được sử dụng để đánh giá Chúng tôi thực hiện so sánh độ chính

xác với ba phương pháp khác nhau bao gồm hệ thống SCRF[9], hệ thống Hong[8] và phương pháp IREC chúng tôi đề

xuất

Bảng 2 Bảng kết quả của 3 phương pháp số đại diện của truy vấn đa điểm trong một lần phản hồi

Phương pháp Độ chính xác

Trong Bảng 2, thể hiện độ chính xác trung bình của bốn phương pháp là phương pháp ERIN và phương pháp SCRF và phương pháp Hong với phương pháp IREC (An image retrieval method using efficient Classifier)

2

Độ chính xác là tỉ số giữa số các ảnh liên quan với ảnh truy vấn trong tập kết quả trả về trên tổng số các ảnh trả về

Trang 8

V KẾT LUẬN

Chúng tôi đã tập trung vào đề xuất phương pháp, có tên là IREC (An image retrieval method using efficient

Classifier)giải quyết hai vấn đề chính đó là: (1) xây dựng được bộ huấn luyện cân bằng giữa lớp âm và lớp dương (2) khai thác tính chất hình học của dữ liệu đa tạp nhằm giảm số chiều của tập mẫu huấn luyện theo hướng tiếp cận phổ

Kết quả thực nghiệm của chúng tôi trên cơ sở dữ liệu đặc trưng gồm 10.800 ảnh đã chỉ ra rằng phương pháp

được đề xuất IREC cung cấp một độ chính xác cao hơn hẳn so với các phương pháp ERIN và phương pháp SCRF và

phương pháp Hong

Chúng tôi xin chân thành cảm ơn đề tài: “Nghiên cứu phương pháp tra cứu ảnh dựa vào đa truy vấn”, mã số PTNTDD17.04 đã hỗ trợ

VI REFERENCES

[1] A W M Smeulders, M Worring, S Santini, A Gupta, and R Jain “Content-based image retrieval at the end of the early years” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol 22, no 12, pp 1349 -1380, Dec 2000

[2] Belkin M, Niyogi P Laplacian maps for dimensionality reduction and data representation Neural computation (2003)

[3] F R K Chung Spectral Graph Theory, volume 92 of Regional Conference Series in Mathematics AMS, 1997 [4] G Guo, A K Jain, W Ma, and H Zhang “Learning similarity mea-sure for natural image retrieval with relevance feedback” IEEE Trans Neural Netw., vol 12, no 4, pp 811-820, Apr 2002

[5] J Z Wang, J Li, and G Wiederhold “SIMPLIcity: Semantics-sen-sitive integrated matching for picture libraries” IEEE Trans Pattern Anal Mach Intell., vol 23, no 9, pp 947-963, Sep 2001

[6] Lew M S., Sebe N., DjerabaC., Andjain R., 2006 Content-Based multimedia information retrieval: State of the art and challenges.ACM Trans Multimed Comput Commun Appl 2,1, 1-19

[7] Nitesh V Chawla, Kevin W Bowyer, Lawrence O Hall, W Philip Kegelmeeyer “SMOTE: Synthetic Minority Over-sampling Technique” Journal of Artificial Intelligence Research 16 (2002) 321-357

[8] P Hong, Q Tian, and T S Huang “Incorporate support vector machines to content-based image retrieval with relevance feedback” in Proceedings of the IEEE International Conference on Image Processing, 2000, pp 750 -753 [9] Quynh D T T., Quynh N H., Canh P V., Tao N Q., (2017) Một phương pháp tra cứu ảnh hiệu quả sử dụng phân cụm phổ trong phản hồi liên quan, Kỷ yếu hội nghị Quốc gia lần thứ 10 về Nghiên cứu cơ bản và ứng dụng trong Công nghệ thông tin (FAIR)

[10] Quynh N H., Quynh D T T., Canh P V., Can N V Tao N Q An efficient image retrieval method using adaptive weights, Appl Intell (2018) (https://doi.org/10.1007/s10489-018-1174-6)

[11] Rui, Y., Huang, T S., Ortega, M., Andmehrotra, S 1998 Relevance feedback: A power tool in interactive content-based image retrieval IEEE Trans Circ Syst Vid Tech 8, 5 (Sept.), 644-655

[12] Y Chen, X S Zhou, and T S Huang.“One-class SVM for learning in image retrieval” in Proc IEEE Int Conf Image Process., Thessaloniki, Greece, 2001, pp 815-818

[13] Y Rui, T Huang, M Ortega, and S Mehrotra.“Relevance feedback: a power tool in interactive content-based image retrieval “IEEE Trans Circuits Syst Video Technol., vol 8, no 5, pp 644-655, Sep 1998

[14] Y Rui, T Huang, M Ortega, and S Mehrotra.“Relevance feedback: a power tool in interactive content-based image retrieval” IEEE Trans Circuits Syst Video Technol., vol 8, no 5, pp 644-655, Sep 1998

IMPROVE THE CONTENT-BASED IMAGE RETRIEVAL’S ACCURACY IN THE

Dao Thi Thuy Quynh, Nguyen Huu Quynh, Phuong Van Canh, Ngo Quoc Tao

ABSTRACT: There are many image retrieval systems that use the SVM-based relevence feedback approach to reduce the gap

between low-level visual features and high-level semantic concepts However, the performance of these systems is low due to the lack of two issues: first, the imbalance of the training set Second, the size of the training set is very small compared to the dimension of the feature In this paper, we propose the image retrieval method, IREC, to overcome the above limitations Our proposed approach solves the problem of model imbalance training through semi-supervised learning and the reduction of dimensionality by the spectral approach To illustrate the effectiveness of our proposed method, we provide empirical results on a database of 10800 images.

Keywords: Content based image retrieval, relevant feedback, manifold, spectral, reduction dimension, balanced classification.

Ngày đăng: 01/10/2021, 15:18

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w