NGHIÊN CỨU PHƯƠNG PHÁP TRA CỨU ẢNH SỬ DỤNG THÔNG TIN PHẢN HỒI TỪ NGƯỜI DÙNG Chương 1: Tổng quan về tra cứu ảnh sử dụng phản hồi liên quan: Chương này nêu những nét chính của tra cứu ảnh dựa vào nội dung, phản hồi liên quan trong tra cứu thông tin và tra cứu ảnh. Chương 2 : Phương pháp tra cứu ảnh sử dụng thông tin phản hồi từ người dùng: Chương này giới thiệu các kỹ thuật sử dụng trong tra cứu ảnh dựa vào nội dung sử dụng phản hồi liên quan bao gồm kỹ thuật phân vùng ảnh, trích rút đặc trưng và đánh lại trọng số vùng. Chương 3: Chương trình thử nghiệm: Xây dựng mô hình, chạy thử với tập cơ sở dữ liệu gồm 1000 ảnh và đánh giá hiệu quả của phương pháp tra cứu.
Trang 1HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
-
Nguyễn Thị Tâm
NGHIÊN CỨU PHƯƠNG PHÁP TRA CỨU ẢNH SỬ DỤNG
THÔNG TIN PHẢN HỒI TỪ NGƯỜI DÙNG
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01.01
TÓM TẮT LUẬN VĂN THẠC SĨ
HÀ NỘI - 2014
Trang 2Luận văn được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Người hướng dẫn khoa học: TS Nguyễn Hữu Quỳnh
Phản biện 1: TS Hoàng Lê Minh
Phản biện 2: PGS.TS Đặng Văn Chuyết
Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Công nghệ Bưu chính Viễn thông
Vào lúc: 14h15 ngày 15 tháng 02 năm 2014
Có thể tìm hiểu luận văn tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn thông
Trang 3MỞ ĐẦU
Trong thập kỷ số, hàng triệu các ảnh đã được lưu trữ trong các cơ sở dữ liệu khổng lồ
và trên Internet, để tìm các ảnh quan tâm trong các tập ảnh này đòi hỏi một cách tiếp cận mới Hầu hết các ảnh này không phải do chúng ta sở hữu, do đó chúng ta không có tri thức
để có thể hỗ trợ tìm kiếm các ảnh quan tâm thuận lợi Nếu tìm kiếm các ảnh trong các cơ sở
dữ liệu này một cách thủ công, chúng ta có thể tìm kiếm được các ảnh mong muốn nhất bởi
vì khả năng nhận dạng nội dung ảnh của con người là tuyệt vời (không có đối tượng nào có thể sánh kịp) Tuy nhiên, thách thức lớn nhất khi thực hiện tìm kiếm ảnh trong các cơ sở dữ liệu ảnh lớn bởi con người là vấn đề tốc độ
Nhiều hệ thống tra cứu ảnh dựa vào nội dung (CBIR – Content Based Image Retrieval) thực hiện tra cứu dựa chính vào các đặc trưng toàn cục Nhiều khi các người dùng truy cập một hệ thống CBIR để tìm các đối tượng, nhưng các hệ thống này dường như thất bại, do một dấu hiệu đơn được tính cho toàn bộ ảnh không thể thu đủ các thuộc tính quan trọng của các đối tượng riêng biệt Các hệ thống tra cứu ảnh dựa vào vùng (RBIR – Rigon Based Image Retrieval) cố gắng khắc phục hạn chế của các đặc trưng toàn cục bằng việc biểu diễn các ảnh ở mức đối tượng dẫn tới gần với nhận thức của con người
Các phương pháp CBIR ở trên cho phép máy tính có sự hiểu biết nào đó về các ảnh, thông qua tạo các biểu diễn của nội dung ảnh và nhóm các biểu diễn này dựa trên độ tương
tự của chúng Các phương pháp đó rất khó để có thể trả về các kết quả thỏa mãn với người dùng, bởi vì độ phức tạp và các biến đổi trong các ảnh trực quan làm cho việc tra cứu các ảnh thỏa mãn yêu cầu của người dùng như mò kim đáy biển Một trong những kỹ thuật học tương tác là phản hồi liên quan (RF – Relevance Feedback) được phát triển ban đầu trong tra cứu văn bản RF được đưa vào CBIR ở giữa những năm 1990 để cải tiến hiệu năng trong các hệ thống tra cứu ảnh Ý tưởng chính của RF là để người dùng hướng dẫn hệ thống Trong quá trình tra cứu, người dùng tương tác với hệ thống và đánh giá sự liên quan của các ảnh được tra cứu (theo ý chủ quan của người dùng) Với thông tin thêm vào này, hệ thống học sự quan tâm của người dùng và cho ra các kết quả tốt nhất
Mục tiêu chính của luận văn này là sử dụng thông tin mà người dùng quan tâm để nâng cao hiệu năng của hệ thống Để thực hiện điều này, thuật toán đánh lại trọng số vùng dựa trên thông tin quan tâm của người dùng được đề xuất Các trọng số vùng trùng với nhận thức người sẽ cải tiến độ chính xác Các trọng số vùng được
ghi nhớ lại để dùng cho các truy vấn sau
Trang 4Nội dung luận văn được tổ chức như sau:
Chương 1: Tổng quan về tra cứu ảnh sử dụng phản hồi liên quan: Chương này
nêu những nét chính của tra cứu ảnh dựa vào nội dung, phản hồi liên quan trong tra cứu thông tin và tra cứu ảnh
Chương 2 : Phương pháp tra cứu ảnh sử dụng thông tin phản hồi từ người dùng:
Chương này giới thiệu các kỹ thuật sử dụng trong tra cứu ảnh dựa vào nội dung sử dụng phản hồi liên quan bao gồm kỹ thuật phân vùng ảnh, trích rút đặc trưng và đánh lại trọng số vùng
Chương 3: Chương trình thử nghiệm: Xây dựng mô hình, chạy thử với tập cơ sở
dữ liệu gồm 1000 ảnh và đánh giá hiệu quả của phương pháp tra cứu
Trang 5CHƯƠNG 1: TỔNG QUAN VỀ TRA CỨU ẢNH SỬ DỤNG PHẢN
HỒI LIÊN QUAN
1.1 Tra cứu thông tin
Tra cứu thông tin (IR – Information Retrieval) là việc thu thập các nguồn thông tin
liên quan trong một tập các nguồn tài nguyên Truy vấn hệ thống có thể là văn bản, hình
ảnh, audio, bản đồ tư duy hoặc video
1.2 Phản hồi liên quan trong tra cứu thông tin
Phản hồi liên quan (RF – Relevance Feedback) trong tra cứu thông tin chứa người
dùng trong quá trình tra cứu để cải thiện tập kết quả cuối cùng Thủ tục cơ sở là:
- Người dùng tạo một truy vấn
- Hệ thống trả lại một tập các kết quả tra cứu ban đầu
- Người dùng đánh dấu một số tài liệu được trả về là liên quan hoặc không liên
quan
- Hệ thống tính toán một đại diện tốt nhất của nhu cầu thông tin dựa trên phản hồi
của người dùng
- Hệ thống hiển thị một tập các kết quả tra cứu được hiệu chỉnh
Véc tơ truy vấn mà chúng ta muốn tìm được biểu thị bằng q
, mà cực đại sự tương tự với các tài liệu liên quan trong khi cực tiểu sự tương tự với các tài liệu không liên quan
được mô tả:
Véc tơ truy vấn tối ưu:
),(),(max
nr
j nr C
d j r
C
d C
nr j r
j nr
D d j r
D
d D q
Trang 61.3 Tra cứu ảnh dựa vào nội dung
1.3.1 Vấn đề tra cứu ảnh dựa vào nội dung
Tra cứu ảnh dựa vào nội dung sử dụng những nội dung thị giác như màu sắc, hình dạng, kết cấu, không gian để biểu diễn ảnh Các nội dung thị giác của ảnh được trích rút và
mô tả bằng các vector đặc trưng đa chiều
1.3.2 Các chức năng của hệ thống tra cứu ảnh dựa vào nội dung tiêu biểu
Chức năng của hệ thống CBIR bao gồm: trích rút đặc trưng, phân tích truy vấn người dùng, so sánh độ tương tự, thực hiện điều chỉnh cần thiết
i I f J f
J I
Trang 7QBIC hỗ trợ chính các truy vấn dựa vào các ảnh mẫu, các phác thảo và các bản vẽ được người sử dụng xây dựng, và các mẫu kết cấu và màu được lựa chọn
1.3.5.3 Hệ thống VisualSeek
VisualSEEk là một máy tìm kiếm đặc trưng trực quan và WebSEEk là một máy tìm kiếm văn bản/ảnh trên web Các đặc trưng trực quan được sử dụng trong các hệ
thống của họ là các tập màu và các đặc trưng kết cấu dựa vào biến đổi sóng
1.4 Tra cứu ảnh sử dụng phản hồi liên quan
Phản hồi liên quan được giới thiệu trong CBIR nhằm giải quyết một số hạn chế của CBIR: Khoảng trống giữa các đặc trưng mức thấp và các khái niệm mức cao (khoảng cách ngữ nghĩa); Sự nhận thức chủ quan của con người mà thực tế chủ yếu góp phần làm cho phản hồi liên quan là chủ đề nghiên cứu tích cực nhất trong CBIR là do độ chính xác của các máy tìm kiếm CBIR nói chung rất thấp
Phản hồi liên quan được giới thiệu trong CBIR trong đó người và máy tính tương tác nhiều lần với nhau để cải tiến các truy vấn mức cao đối với các biểu diễn dựa trên các đặc trưng ảnh mức thấp
Một ngữ cảnh trong hệ thống phản hồi liên quan (Relevance Feedback - RF) là:
Bước 1: Người dùng đưa ra một ảnh mẫu truy vấn và/hoặc từ khóa mô tả đối đối với
hệ thống
Bước 2: Hệ thống cung cấp các kết quả tra cứu khởi tạo dựa trên các độ đo tương tự
nào đó đã được xác định trước
Bước 3: Người dùng đánh dấu các ảnh được tra cứu bằng việc đánh giá chúng có liên
quan đến truy vấn hay không
Bước 4: Dựa trên thông tin phản hồi bởi người dùng, hệ thống điều chỉnh truy vấn và
tra cứu một danh sách mới các ảnh cho người dùng Thuật toán lặp lại Bước 3
1.5 Đánh giá hiệu năng
Để đánh giá hiệu suất của hệ thống tra cứu sử dụng hai phép đo là recall (độ triệu hồi) và precision (độ chính xác):
)(
)()(
q Q
q R q Q precision
(1.4)
Trang 8)()(
q R
q R q Q recall
Trang 9CHƯƠNG 2: PHƯƠNG PHÁP TRA CỨU ẢNH SỬ DỤNG THÔNG TIN PHẢN HỒI TỪ NGƯỜI DÙNG
2.1 Giới thiệu
Tra cứu ảnh dựa vào nội dung sử dụng đặc trưng mức thấp như màu sắc, kết cấu, hình dạng…là một lĩnh vực nghiên cứu tích cực trong một vài năm qua Tuy nhiên, các hệ thống này thường cho các kết quả không gần với nhận thức của con người Phần này chúng tôi xin trình bày phương pháp tra cứu ảnh dựa vào nội dung sử dụng thông tin mà người dùng quan tâm để nâng cao hiệu năng của hệ thống tra cứu Để thực hiện điều này, thuật toán đánh lại trọng số vùng dựa trên thông tin quan tâm của người dùng được đề xuất Các trọng số vùng trùng với nhận thức của người dùng sẽ cải tiến độ chính xác Các trọng số vùng được ghi nhớ lại để dùng cho các truy vấn sau
2.2 Phân vùng ảnh
2.2.1 Phân cụm dựa vào màu sắc (CBC – Color based Clustering)
Ý tưởng chính của kỹ thuật phân cụm dựa vào màu sắc là: mỗi ảnh được chia thành các vùng, mỗi vùng có một véc tơ đặc trưng riêng và có kích thước lớn hơn hoặc bằng
ngưỡng cỡ s 0, tất cả các pixel của vùng đã được xác định trước độ tương tự màu theo
ngưỡng khoảng cách màu d 0 Ngưỡng d 0 , s 0 của vùng CBC(d 0 , s 0 ) là các tham số được xác
định bởi người dùng
2.2.2 Thuật toán phân cụm
Thuật toán phân cụm với ảnh đầu vào là I Thuật toán trả về số vùng R của ảnh I
Thuật toán RS (Region Segmentation)
Đầu vào: I - ảnh gồm n pixel
d 0 – ngưỡng khoảng cách
T – ngưỡng cỡ của vùng Đầu ra: R – tập các vùng của ảnh I
Trang 10G, thủ tục CreateRegion() tạo ra vùng gồm đỉnh được chỉ ta, hàm Distance() trả về khoảng cách của hai đỉnh theo giá trị màu, thủ tục SortIncreasingOrder() sắp xếp các cạnh theo thứ
tự tăng dần của trọng số w, hàm Find-Region() trả về trọng tâm của vùng, thủ tục Merge() nhập hai vùng thành một vùng, hàm Size() trả về cỡ của vùng được chỉ ra và hàm GetNeighborRegion() trả về vùng lân cận có độ tương tự cao nhất
2.2.3 Hàm tính khoảng cách
Sau khi phân vùng, hai ảnh được so sánh sử dụng hàm tính khoảng cách Khoảng
cách giữa 2 ảnh A và B là d(A, B, α), là thành phần trọng số của khoảng cách giữa vùng Ai,
Bj tương ứng của ảnh A và B – Rd (A i , B j , α)
Hàm khoảng cách vùng Rd (A i , B j , α) được xác định như sau:
)
,.()1().,.()
,,(A B L2 A color B color L2 A center B center
Trong đó: A i , B j là vùng chứa ảnh A, B tương ứng, L 2 (.,.) là hàm trả về khoảng cách
Thuật toán tính khoảng cách giữa hai ảnh A và B Hàm trả về khoảng cách giữa các vùng tương ứng của ảnh A và B
Trang 12Vị trí không gian của mỗi vùng được biểu thị bởi trọng tâm của mỗi vùng Các tọa độ
2.3.1.3 Đặc trưng cỡ
Cỡ của vùng được tiêu chuẩn hóa theo cỡ của ảnh
2.3.2 So sánh vùng
Khoảng cách giữa các vị trí không gian của hai vùng R i của ảnh A và R j của ảnh B,
được tính bằng khoảng cách Euclide giữa các tâm của hai vùng được chỉ ra như công thức:
2 2
))()(((
))()(()
Ở đây, X(R i ) và Y(R j ) là các tọa độ x và y của các tâm của các vùng
Khoảng cách giữa hai vùng về mặt nội dung (màu và cỡ) được tính toán theo công thức:
n k
n k
j k i
k
n k
j k i k
R H R
H
R H R H R
R DR
0
) ( )
(
) ( ) ( )
,((1),(R i R j DR c R i R j DR s R i R j
Một số khái niệm được sử dụng để trình bày trọng số của vùng cần được giới thiệu
Định nghĩa 2: Sự tương tự giữa một vùng R và một ảnh A được biểu diễn bởi các vùng {R 1 , R 2 ,…, R n } là:
n i
k
R R s A
R s
1
) , ( )
, ( (2.5)
Trang 13Định nghĩa 3: Sự tương tự giữa một vùng R và một tập ảnh IS gồm các ảnh {A 1 ,
A 2 ,…,A n } là:
n k
k
A R s IS
R s
1
),()
,( (2.6)
Trọng số vùng được xác định như sau:
n j
j j
i i i
k IS R s RP
k IS R s RP k
RW
1
)) ( , (
)) ( , ( )
j
j j
i i
k IS R s RP
k IS R s RP
1
)) ( , (
)) ( , (
1 (2.8)
m
RW m
CRW m
i
)1()
( (2.9)
Thuật toán WIR (Weight of Image Region), tính trọng số của các vùng cho lần truy
vấn thứ m với bước lặp k
Thuật toán WIR
Đầu vào: QI - ảnh truy vấn đã được phân vùng k- bước lấy thông tin phản hồi
Đầu ra: RW(k) – danh sách trọng số các vùng của các ảnh ứng với ảnh I tại bước k
Trang 142.2.1.1 For i=1 to CountRegion(A) do
s( i, ( ))
sp
k IS R s
RP i ( i, ( ))
3 Return RW(k)
Thuật toán cũng sử dụng hàm CountRegion() cho số vùng của một ảnh
Thuật toán CWIR (Cumulate Weighting of Image Region), tính trọng số của vùng với Count(QIS) lần truy vấn:
Thuật toán CWIR
Đầu vào: QIS – tập ảnh truy vấn đã được phân vùng
Đầu ra: RW – danh sách trọng số của các ảnh sau Count(QIS)
CRW m
i
) 1 ( )
(
2.2.2 RW WIR (QI, k, CRW i (m), IS + (k), IS - (k), RW(k));
2.2.3 k k+1;
2.2.4 m m+1 2.2.5 Readln (Answer);
Trang 152.3 Until (Answer = “No”);
Độ đo tương tự ảnh giữa hai ảnh A và B là độ tương tự giữa hai vùng {RA 1 , RA 2 ,…,
ảnh
Thuật toán CI (Comparing Two Images) so sánh độ tương tự giữa hai ảnh:
Thuật toán CI Đầu vào: A- Ảnh thứ nhất được biểu diễn bởi {RA 1 , RA 2 ,…,RA n }
RWB i – Trọng số của vùng RB i
Ε – ngưỡng tương tự giữa hai vùng
Đầu ra: SI – độ tương tự của hai ảnh A và B
D numerator D numerator + abs(H k (RA i ) – H k (RB j ))
D denominator1 D denominator1 + H k (RA i )
Trang 16D denominator2D denominator2 + H k (RA i )
2.1.1.6
2 min 1
min )
, (
ator deno ator
deno
numerator j
i C
D D
D RB
RA DR
2.1.1.7 s,j ( 1 DR C(RA i,RB j) DR s(RA i,RB j))
2.1.1.8 if (s i,j >ε)
W i,j (1-|RWA i - RWB j |) 2.1.1.9 else
Chương này trình bày phương pháp tra cứu ảnh dựa vào vùng kết hợp với thông tin
mà người dùng quan tâm để nâng cao hiệu năng của hệ thống tra cứu Kỹ thuật được sử dụng: phân vùng ảnh, trích rút đặc trưng và so sánh vùng, trọng số vùng và so sánh ảnh
Trang 17CHƯƠNG 3: CHƯƠNG TRÌNH THỬ NGHIỆM
3.1 Giới thiệu bài toán
Hiện nay, hàng triệu các ảnh được lưu trữ trong các cơ sở dữ liệu khổng lồ và trên Internet, để tìm các ảnh quan tâm trong các tập này là vấn đề cực kỳ khó khăn Các phương pháp CBIR hiện nay cho phép tra cứu ảnh thông qua tạo các biểu diễn của nội dung ảnh và nhóm các biểu diễn này dựa trên độ tương tự của chúng Các phương pháp đó rất khó để có thể trả về các kết quả thỏa mãn với người dùng, bởi vì độ phức tạp và các biến đổi trong các ảnh trực quan làm cho việc tra cứu các ảnh thỏa mãn yêu cầu người dùng như mò kim đáy biển
Từ thực tế Để giải quyết vấn đề này, kỹ thuật học tương tác đã được giới thiệu Trong quá trình tra cứu, người dùng tương tác với hệ thống và đánh giá sự liên quan của các ảnh được tra cứu
Từ những thực tế trên đặt ra một bài toán tra cứu ảnh như sau: với một ảnh truy vấn đầu vào ta thu được một tập ảnh đầu ra, người dùng đánh giá và gán nhãn cho ảnh liên quan là tích cực hay tiêu cực sau đó hệ thống sẽ tính toán và cập nhật lại trọng số của ảnh
và đưa ra kết quả sau phản hồi
3.2 Thiết kế hệ thống và xây dựng chương trình
3.2.1 Thiết kế hệ thống
Hệ thống tra cứu ảnh CBIR sử dụng RF có 4 khối chính: khối truy vấn, khối tra cứu, khối gán nhãn và khối học Đầu tiên, ở khối truy vấn người dùng cung cấp cho hệ thống một ảnh truy vấn, các đặc trưng của ảnh truy vấn được trích rút Sau đó, ở khối tra cứu hệ thống
sử dụng độ đo tương tự để so sánh các đặc trưng của ảnh truy vấn với các đặc trưng của các ảnh cơ sở dữ liệu Tiếp theo, tập các ảnh kết quả được trả về Trên tập các ảnh kết quả này, người dùng đánh giá và gán nhãn cho các ảnh là tích cực hay tiêu cực ở khối gán nhãn Khối học, các nhãn vừa được người dùng gán sẽ được sử dụng để cập nhật trọng số của các vùng
Sử dụng trọng số các vùng vừa được cập nhật, hệ thống hiệu chỉnh tập các ảnh kết quả trả
về Quá trình này dừng lại khi người dùng thỏa mãn yêu cầu