NGHIÊN CỨU PHƯƠNG PHÁP TRA CỨU ẢNH SỬ DỤNG THÔNG TIN PHẢN HỒI TỪ NGƯỜI DÙNG

NGHIÊN CỨU PHƯƠNG PHÁP TRA CỨU ẢNH SỬ DỤNG THÔNG TIN PHẢN HỒI TỪ NGƯỜI DÙNG Chương 1: Tổng quan về tra cứu ảnh sử dụng phản hồi liên quan: Chương này nêu những nét chính của tra cứu ảnh dựa vào nội dung, phản hồi liên quan trong tra cứu thông tin và tra cứu ảnh. Chương 2 : Phương pháp tra cứu ảnh sử dụng thông tin phản hồi từ người dùng: Chương này giới thiệu các kỹ thuật sử dụng trong tra cứu ảnh dựa vào nội dung sử dụng phản hồi liên quan bao gồm kỹ thuật phân vùng ảnh, trích rút đặc trưng và đánh lại trọng số vùng. Chương 3: Chương trình thử nghiệm: Xây dựng mô hình, chạy thử với tập cơ sở dữ liệu gồm 1000 ảnh và đánh giá hiệu quả của phương pháp tra cứu.

Trang 1

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

-

Nguyễn Thị Tâm

NGHIÊN CỨU PHƯƠNG PHÁP TRA CỨU ẢNH SỬ DỤNG

THÔNG TIN PHẢN HỒI TỪ NGƯỜI DÙNG

Chuyên ngành: Khoa học máy tính

Mã số: 60.48.01.01

TÓM TẮT LUẬN VĂN THẠC SĨ

HÀ NỘI - 2014

Trang 2

Luận văn được hoàn thành tại:

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

Người hướng dẫn khoa học: TS Nguyễn Hữu Quỳnh

Phản biện 1: TS Hoàng Lê Minh

Phản biện 2: PGS.TS Đặng Văn Chuyết

Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Công nghệ Bưu chính Viễn thông

Vào lúc: 14h15 ngày 15 tháng 02 năm 2014

Có thể tìm hiểu luận văn tại:

- Thư viện của Học viện Công nghệ Bưu chính Viễn thông

Trang 3

MỞ ĐẦU

Trong thập kỷ số, hàng triệu các ảnh đã được lưu trữ trong các cơ sở dữ liệu khổng lồ

và trên Internet, để tìm các ảnh quan tâm trong các tập ảnh này đòi hỏi một cách tiếp cận mới Hầu hết các ảnh này không phải do chúng ta sở hữu, do đó chúng ta không có tri thức

để có thể hỗ trợ tìm kiếm các ảnh quan tâm thuận lợi Nếu tìm kiếm các ảnh trong các cơ sở

dữ liệu này một cách thủ công, chúng ta có thể tìm kiếm được các ảnh mong muốn nhất bởi

vì khả năng nhận dạng nội dung ảnh của con người là tuyệt vời (không có đối tượng nào có thể sánh kịp) Tuy nhiên, thách thức lớn nhất khi thực hiện tìm kiếm ảnh trong các cơ sở dữ liệu ảnh lớn bởi con người là vấn đề tốc độ

Nhiều hệ thống tra cứu ảnh dựa vào nội dung (CBIR – Content Based Image Retrieval) thực hiện tra cứu dựa chính vào các đặc trưng toàn cục Nhiều khi các người dùng truy cập một hệ thống CBIR để tìm các đối tượng, nhưng các hệ thống này dường như thất bại, do một dấu hiệu đơn được tính cho toàn bộ ảnh không thể thu đủ các thuộc tính quan trọng của các đối tượng riêng biệt Các hệ thống tra cứu ảnh dựa vào vùng (RBIR – Rigon Based Image Retrieval) cố gắng khắc phục hạn chế của các đặc trưng toàn cục bằng việc biểu diễn các ảnh ở mức đối tượng dẫn tới gần với nhận thức của con người

Các phương pháp CBIR ở trên cho phép máy tính có sự hiểu biết nào đó về các ảnh, thông qua tạo các biểu diễn của nội dung ảnh và nhóm các biểu diễn này dựa trên độ tương

tự của chúng Các phương pháp đó rất khó để có thể trả về các kết quả thỏa mãn với người dùng, bởi vì độ phức tạp và các biến đổi trong các ảnh trực quan làm cho việc tra cứu các ảnh thỏa mãn yêu cầu của người dùng như mò kim đáy biển Một trong những kỹ thuật học tương tác là phản hồi liên quan (RF – Relevance Feedback) được phát triển ban đầu trong tra cứu văn bản RF được đưa vào CBIR ở giữa những năm 1990 để cải tiến hiệu năng trong các hệ thống tra cứu ảnh Ý tưởng chính của RF là để người dùng hướng dẫn hệ thống Trong quá trình tra cứu, người dùng tương tác với hệ thống và đánh giá sự liên quan của các ảnh được tra cứu (theo ý chủ quan của người dùng) Với thông tin thêm vào này, hệ thống học sự quan tâm của người dùng và cho ra các kết quả tốt nhất

Mục tiêu chính của luận văn này là sử dụng thông tin mà người dùng quan tâm để nâng cao hiệu năng của hệ thống Để thực hiện điều này, thuật toán đánh lại trọng số vùng dựa trên thông tin quan tâm của người dùng được đề xuất Các trọng số vùng trùng với nhận thức người sẽ cải tiến độ chính xác Các trọng số vùng được

ghi nhớ lại để dùng cho các truy vấn sau

Trang 4

Nội dung luận văn được tổ chức như sau:

Chương 1: Tổng quan về tra cứu ảnh sử dụng phản hồi liên quan: Chương này

nêu những nét chính của tra cứu ảnh dựa vào nội dung, phản hồi liên quan trong tra cứu thông tin và tra cứu ảnh

Chương 2 : Phương pháp tra cứu ảnh sử dụng thông tin phản hồi từ người dùng:

Chương này giới thiệu các kỹ thuật sử dụng trong tra cứu ảnh dựa vào nội dung sử dụng phản hồi liên quan bao gồm kỹ thuật phân vùng ảnh, trích rút đặc trưng và đánh lại trọng số vùng

Chương 3: Chương trình thử nghiệm: Xây dựng mô hình, chạy thử với tập cơ sở

dữ liệu gồm 1000 ảnh và đánh giá hiệu quả của phương pháp tra cứu

Trang 5

CHƯƠNG 1: TỔNG QUAN VỀ TRA CỨU ẢNH SỬ DỤNG PHẢN

HỒI LIÊN QUAN

1.1 Tra cứu thông tin

Tra cứu thông tin (IR – Information Retrieval) là việc thu thập các nguồn thông tin

liên quan trong một tập các nguồn tài nguyên Truy vấn hệ thống có thể là văn bản, hình

ảnh, audio, bản đồ tư duy hoặc video

1.2 Phản hồi liên quan trong tra cứu thông tin

Phản hồi liên quan (RF – Relevance Feedback) trong tra cứu thông tin chứa người

dùng trong quá trình tra cứu để cải thiện tập kết quả cuối cùng Thủ tục cơ sở là:

- Người dùng tạo một truy vấn

- Hệ thống trả lại một tập các kết quả tra cứu ban đầu

- Người dùng đánh dấu một số tài liệu được trả về là liên quan hoặc không liên

quan

- Hệ thống tính toán một đại diện tốt nhất của nhu cầu thông tin dựa trên phản hồi

của người dùng

- Hệ thống hiển thị một tập các kết quả tra cứu được hiệu chỉnh

Véc tơ truy vấn mà chúng ta muốn tìm được biểu thị bằng q

, mà cực đại sự tương tự với các tài liệu liên quan trong khi cực tiểu sự tương tự với các tài liệu không liên quan

được mô tả:

Véc tơ truy vấn tối ưu:

),(),(max

nr

j nr C

d j r

C

d C

nr j r

j nr

D d j r

D

d D q

Trang 6

1.3 Tra cứu ảnh dựa vào nội dung

1.3.1 Vấn đề tra cứu ảnh dựa vào nội dung

Tra cứu ảnh dựa vào nội dung sử dụng những nội dung thị giác như màu sắc, hình dạng, kết cấu, không gian để biểu diễn ảnh Các nội dung thị giác của ảnh được trích rút và

mô tả bằng các vector đặc trưng đa chiều

1.3.2 Các chức năng của hệ thống tra cứu ảnh dựa vào nội dung tiêu biểu

Chức năng của hệ thống CBIR bao gồm: trích rút đặc trưng, phân tích truy vấn người dùng, so sánh độ tương tự, thực hiện điều chỉnh cần thiết

i I f J f

J I

Trang 7

QBIC hỗ trợ chính các truy vấn dựa vào các ảnh mẫu, các phác thảo và các bản vẽ được người sử dụng xây dựng, và các mẫu kết cấu và màu được lựa chọn

1.3.5.3 Hệ thống VisualSeek

VisualSEEk là một máy tìm kiếm đặc trưng trực quan và WebSEEk là một máy tìm kiếm văn bản/ảnh trên web Các đặc trưng trực quan được sử dụng trong các hệ

thống của họ là các tập màu và các đặc trưng kết cấu dựa vào biến đổi sóng

1.4 Tra cứu ảnh sử dụng phản hồi liên quan

Phản hồi liên quan được giới thiệu trong CBIR nhằm giải quyết một số hạn chế của CBIR: Khoảng trống giữa các đặc trưng mức thấp và các khái niệm mức cao (khoảng cách ngữ nghĩa); Sự nhận thức chủ quan của con người mà thực tế chủ yếu góp phần làm cho phản hồi liên quan là chủ đề nghiên cứu tích cực nhất trong CBIR là do độ chính xác của các máy tìm kiếm CBIR nói chung rất thấp

Phản hồi liên quan được giới thiệu trong CBIR trong đó người và máy tính tương tác nhiều lần với nhau để cải tiến các truy vấn mức cao đối với các biểu diễn dựa trên các đặc trưng ảnh mức thấp

Một ngữ cảnh trong hệ thống phản hồi liên quan (Relevance Feedback - RF) là:

Bước 1: Người dùng đưa ra một ảnh mẫu truy vấn và/hoặc từ khóa mô tả đối đối với

hệ thống

Bước 2: Hệ thống cung cấp các kết quả tra cứu khởi tạo dựa trên các độ đo tương tự

nào đó đã được xác định trước

Bước 3: Người dùng đánh dấu các ảnh được tra cứu bằng việc đánh giá chúng có liên

quan đến truy vấn hay không

Bước 4: Dựa trên thông tin phản hồi bởi người dùng, hệ thống điều chỉnh truy vấn và

tra cứu một danh sách mới các ảnh cho người dùng Thuật toán lặp lại Bước 3

1.5 Đánh giá hiệu năng

Để đánh giá hiệu suất của hệ thống tra cứu sử dụng hai phép đo là recall (độ triệu hồi) và precision (độ chính xác):

)(

)()(

q Q

q R q Q precision

(1.4)

Trang 8

)()(

q R

q R q Q recall

Trang 9

CHƯƠNG 2: PHƯƠNG PHÁP TRA CỨU ẢNH SỬ DỤNG THÔNG TIN PHẢN HỒI TỪ NGƯỜI DÙNG

2.1 Giới thiệu

Tra cứu ảnh dựa vào nội dung sử dụng đặc trưng mức thấp như màu sắc, kết cấu, hình dạng…là một lĩnh vực nghiên cứu tích cực trong một vài năm qua Tuy nhiên, các hệ thống này thường cho các kết quả không gần với nhận thức của con người Phần này chúng tôi xin trình bày phương pháp tra cứu ảnh dựa vào nội dung sử dụng thông tin mà người dùng quan tâm để nâng cao hiệu năng của hệ thống tra cứu Để thực hiện điều này, thuật toán đánh lại trọng số vùng dựa trên thông tin quan tâm của người dùng được đề xuất Các trọng số vùng trùng với nhận thức của người dùng sẽ cải tiến độ chính xác Các trọng số vùng được ghi nhớ lại để dùng cho các truy vấn sau

2.2 Phân vùng ảnh

2.2.1 Phân cụm dựa vào màu sắc (CBC – Color based Clustering)

Ý tưởng chính của kỹ thuật phân cụm dựa vào màu sắc là: mỗi ảnh được chia thành các vùng, mỗi vùng có một véc tơ đặc trưng riêng và có kích thước lớn hơn hoặc bằng

ngưỡng cỡ s 0, tất cả các pixel của vùng đã được xác định trước độ tương tự màu theo

ngưỡng khoảng cách màu d 0 Ngưỡng d 0 , s 0 của vùng CBC(d 0 , s 0 ) là các tham số được xác

định bởi người dùng

2.2.2 Thuật toán phân cụm

Thuật toán phân cụm với ảnh đầu vào là I Thuật toán trả về số vùng R của ảnh I

Thuật toán RS (Region Segmentation)

Đầu vào: I - ảnh gồm n pixel

d 0 – ngưỡng khoảng cách

T – ngưỡng cỡ của vùng Đầu ra: R – tập các vùng của ảnh I

Trang 10

G, thủ tục CreateRegion() tạo ra vùng gồm đỉnh được chỉ ta, hàm Distance() trả về khoảng cách của hai đỉnh theo giá trị màu, thủ tục SortIncreasingOrder() sắp xếp các cạnh theo thứ

tự tăng dần của trọng số w, hàm Find-Region() trả về trọng tâm của vùng, thủ tục Merge() nhập hai vùng thành một vùng, hàm Size() trả về cỡ của vùng được chỉ ra và hàm GetNeighborRegion() trả về vùng lân cận có độ tương tự cao nhất

2.2.3 Hàm tính khoảng cách

Sau khi phân vùng, hai ảnh được so sánh sử dụng hàm tính khoảng cách Khoảng

cách giữa 2 ảnh A và B là d(A, B, α), là thành phần trọng số của khoảng cách giữa vùng Ai,

Bj tương ứng của ảnh A và B – Rd (A i , B j , α)

Hàm khoảng cách vùng Rd (A i , B j , α) được xác định như sau:

)

,.()1().,.()

,,(A B L2 A color B color L2 A center B center

Trong đó: A i , B j là vùng chứa ảnh A, B tương ứng, L 2 (.,.) là hàm trả về khoảng cách

Thuật toán tính khoảng cách giữa hai ảnh A và B Hàm trả về khoảng cách giữa các vùng tương ứng của ảnh A và B

Trang 12

Vị trí không gian của mỗi vùng được biểu thị bởi trọng tâm của mỗi vùng Các tọa độ

2.3.1.3 Đặc trưng cỡ

Cỡ của vùng được tiêu chuẩn hóa theo cỡ của ảnh

2.3.2 So sánh vùng

Khoảng cách giữa các vị trí không gian của hai vùng R i của ảnh A và R j của ảnh B,

được tính bằng khoảng cách Euclide giữa các tâm của hai vùng được chỉ ra như công thức:

2 2

))()(((

))()(()

Ở đây, X(R i ) và Y(R j ) là các tọa độ x và y của các tâm của các vùng

Khoảng cách giữa hai vùng về mặt nội dung (màu và cỡ) được tính toán theo công thức:

n k

j k i

k

n k

j k i k

R H R

H

R H R H R

R DR

0

) ( )

(

) ( ) ( )

,((1),(R i R j DR c R i R j DR s R i R j

Một số khái niệm được sử dụng để trình bày trọng số của vùng cần được giới thiệu

Định nghĩa 2: Sự tương tự giữa một vùng R và một ảnh A được biểu diễn bởi các vùng {R 1 , R 2 ,…, R n } là:

n i

k

R R s A

R s

1

) , ( )

, ( (2.5)

Trang 13

Định nghĩa 3: Sự tương tự giữa một vùng R và một tập ảnh IS gồm các ảnh {A 1 ,

A 2 ,…,A n } là:

n k

k

A R s IS

R s

1

),()

,( (2.6)

Trọng số vùng được xác định như sau:

n j

j j

i i i

k IS R s RP

k IS R s RP k

RW

1

)) ( , (

)) ( , ( )

j

j j

i i

k IS R s RP

1

)) ( , (

1 (2.8)

m

RW m

CRW m

i

)1()

( (2.9)

Thuật toán WIR (Weight of Image Region), tính trọng số của các vùng cho lần truy

vấn thứ m với bước lặp k

Thuật toán WIR

Đầu vào: QI - ảnh truy vấn đã được phân vùng k- bước lấy thông tin phản hồi

Đầu ra: RW(k) – danh sách trọng số các vùng của các ảnh ứng với ảnh I tại bước k

Trang 14

2.2.1.1 For i=1 to CountRegion(A) do

s( i, ( ))

sp

k IS R s

RP i ( i, ( ))

3 Return RW(k)

Thuật toán cũng sử dụng hàm CountRegion() cho số vùng của một ảnh

Thuật toán CWIR (Cumulate Weighting of Image Region), tính trọng số của vùng với Count(QIS) lần truy vấn:

Thuật toán CWIR

Đầu vào: QIS – tập ảnh truy vấn đã được phân vùng

Đầu ra: RW – danh sách trọng số của các ảnh sau Count(QIS)

CRW m

i

) 1 ( )

(

2.2.2 RW  WIR (QI, k, CRW i (m), IS + (k), IS - (k), RW(k));

2.2.3 k  k+1;

2.2.4 m  m+1 2.2.5 Readln (Answer);

Trang 15

2.3 Until (Answer = “No”);

Độ đo tương tự ảnh giữa hai ảnh A và B là độ tương tự giữa hai vùng {RA 1 , RA 2 ,…,

ảnh

Thuật toán CI (Comparing Two Images) so sánh độ tương tự giữa hai ảnh:

Thuật toán CI Đầu vào: A- Ảnh thứ nhất được biểu diễn bởi {RA 1 , RA 2 ,…,RA n }

RWB i – Trọng số của vùng RB i

Ε – ngưỡng tương tự giữa hai vùng

Đầu ra: SI – độ tương tự của hai ảnh A và B

D numerator D numerator + abs(H k (RA i ) – H k (RB j ))

D denominator1 D denominator1 + H k (RA i )

Trang 16

D denominator2D denominator2 + H k (RA i )

2.1.1.6

2 min 1

min )

, (

ator deno ator

deno

numerator j

i C

D D

D RB

RA DR

2.1.1.7 s,j ( 1 DR C(RA i,RB j) DR s(RA i,RB j))

2.1.1.8 if (s i,j >ε)

W i,j  (1-|RWA i - RWB j |) 2.1.1.9 else

Chương này trình bày phương pháp tra cứu ảnh dựa vào vùng kết hợp với thông tin

mà người dùng quan tâm để nâng cao hiệu năng của hệ thống tra cứu Kỹ thuật được sử dụng: phân vùng ảnh, trích rút đặc trưng và so sánh vùng, trọng số vùng và so sánh ảnh

Trang 17

CHƯƠNG 3: CHƯƠNG TRÌNH THỬ NGHIỆM

3.1 Giới thiệu bài toán

Hiện nay, hàng triệu các ảnh được lưu trữ trong các cơ sở dữ liệu khổng lồ và trên Internet, để tìm các ảnh quan tâm trong các tập này là vấn đề cực kỳ khó khăn Các phương pháp CBIR hiện nay cho phép tra cứu ảnh thông qua tạo các biểu diễn của nội dung ảnh và nhóm các biểu diễn này dựa trên độ tương tự của chúng Các phương pháp đó rất khó để có thể trả về các kết quả thỏa mãn với người dùng, bởi vì độ phức tạp và các biến đổi trong các ảnh trực quan làm cho việc tra cứu các ảnh thỏa mãn yêu cầu người dùng như mò kim đáy biển

Từ thực tế Để giải quyết vấn đề này, kỹ thuật học tương tác đã được giới thiệu Trong quá trình tra cứu, người dùng tương tác với hệ thống và đánh giá sự liên quan của các ảnh được tra cứu

Từ những thực tế trên đặt ra một bài toán tra cứu ảnh như sau: với một ảnh truy vấn đầu vào ta thu được một tập ảnh đầu ra, người dùng đánh giá và gán nhãn cho ảnh liên quan là tích cực hay tiêu cực sau đó hệ thống sẽ tính toán và cập nhật lại trọng số của ảnh

và đưa ra kết quả sau phản hồi

3.2 Thiết kế hệ thống và xây dựng chương trình

3.2.1 Thiết kế hệ thống

Hệ thống tra cứu ảnh CBIR sử dụng RF có 4 khối chính: khối truy vấn, khối tra cứu, khối gán nhãn và khối học Đầu tiên, ở khối truy vấn người dùng cung cấp cho hệ thống một ảnh truy vấn, các đặc trưng của ảnh truy vấn được trích rút Sau đó, ở khối tra cứu hệ thống

sử dụng độ đo tương tự để so sánh các đặc trưng của ảnh truy vấn với các đặc trưng của các ảnh cơ sở dữ liệu Tiếp theo, tập các ảnh kết quả được trả về Trên tập các ảnh kết quả này, người dùng đánh giá và gán nhãn cho các ảnh là tích cực hay tiêu cực ở khối gán nhãn Khối học, các nhãn vừa được người dùng gán sẽ được sử dụng để cập nhật trọng số của các vùng

Sử dụng trọng số các vùng vừa được cập nhật, hệ thống hiệu chỉnh tập các ảnh kết quả trả

về Quá trình này dừng lại khi người dùng thỏa mãn yêu cầu

Định dạng
Số trang	21
Dung lượng	372,12 KB