1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tra cứu ảnh dựa trên khoảng cách và bài toán tối ưu pareto

72 6 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 72
Dung lượng 2,94 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

M Độ dài của một vector đặc trưngN Kích thước của cơ sở dữ liệu Vector đặc trưng chuẩn hóa ở bộ t của ảnh thứ i Q t , I t đặc trưng bộ t tương ứng của ảnh truy vấn Q và ảnh I bất kỳ ±t Đ

Trang 1

NGUYỄN THU HẰNG

TRA CỨU ẢNH DỰA TRÊN KHOẢNG CÁCH

VÀ BÀI TOÁN TỐI ƯU PARETO

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

THÁI NGUYÊN - 2020

Trang 2

NGUYỄN THU HẰNG

TRA CỨU ẢNH DỰA TRÊN KHOẢNG CÁCH

VÀ BÀI TOÁN TỐI ƯU PARETO

Chuyên ngành: Khoa học máy tính

Mã số: 8 48 01 01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Người hướng dẫn khoa học: PGS.TS NGÔ QUỐC TẠO

THÁI NGUYÊN - 2020

Trang 3

LỜI CAM ĐOAN

Tên tôi là: Nguyễn Thu Hằng

-Người hướng dẫn khoa học: PGS.TS Ngô Quốc Tạo

Tôi xin cam đoan toàn bộ nội dung trình bày trong luận văn này là kếtquả tìm hiểu và nghiên cứu của bản thân Các số liệu, kết quả trình bày trongluận văn là hoàn toàn trung thực Những tư liệu được sử dụng trong luận vănđều được tuân thủ theo luật sở hữu trí tuệ, có liệt kê rõ ràng các tài liệu thamkhảo

Tôi xin chịu hoàn toàn trách nhiệm với những nội dung viết trong luậnvăn này!

Thái Nguyên, ngày 10 tháng 09 năm 2020

Tác giả luận văn

Nguyễn Thu Hằng

Trang 4

LỜI CẢM ƠN

Trong quá trình học tập và thực hiện luận văn, tôi đã nhận được sựhướng dẫn tận tình của Thầy hướng dẫn khoa học PGS.TS Ngô Quốc Tạo -Viện Hàn Lâm Khoa học và Công nghệ Việt Nam, là người thầy mà tôi muốnbày tỏ lòng biết ơn sâu sắc nhất

Luận văn sẽ không thể hoàn thành nếu không có các Thầy cô trườngĐại học Công nghệ thông tin và Truyền Thông - Đại học Thái Nguyên tạo mọiđiều kiện thuận lợi và giúp đỡ Tôi xin bày tỏ sự cảm ơn chân thành vớinhững sự hỗ trợ và giúp đỡ này

Xin cảm ơn các đề tài VAST01.07/19-20 và NVCC02.01/20-20

Xin chân thành cảm ơn Chủ tịch HĐQT, Ban giám hiệu và tập thểTrường THPT Lương Thế Vinh - Cẩm Phả - Quảng Ninh đã tạo điều kiệnthuận lợi về mặt thời gian và tài chính để tôi hoàn thành luận văn này

Cuối cùng tôi cảm ơn tất cả những sự giúp đỡ của gia đình, đồngnghiệp, bạn bè đã động viên, đóng góp ý kiến, để tôi hoàn thành được luậnvăn này

Trang 5

MỤC LỤC

LỜI CAM ĐOAN i

LỜI CẢM ƠN ii

DANH MỤC CHỮ VIẾT TẮT v

KÍ HIỆU TOÁN HỌC vi

DANH MỤC HÌNH VẼ vii

DANH MỤC BẢNG BIỂU viii

MỞ ĐẦU 1

Chương 1 TỔNG QUAN VỀ TRA CỨU ẢNH 5

1.1 Giới thiệu về hệ thống tra cứu ảnh 5

1.1.1 Các thành phần của hệ thống CBIR 5

1.1.2 Tra cứu ảnh theo nội dung sử dụng kỹ thuật máy học 9

1.2 Các đặc trưng của ảnh 13

1.2.1 Đặc trưng màu 13

1.2.2 Đặc trưng hình dạng 14

1.2.3 Đặc trưng kết cấu 15

1.2.4 Liên hệ không gian 15

1.3 Ứng dụng của tra cứu ảnh 16

Chương 2 TRA CỨU ẢNH DỰA TRÊN TỐI ƯU ĐA MỤC TIÊU VỚI KHOẢNG CÁCH 19

2.1 Giới thiệu bài toán 19

2.1.1 Bài toán tra cứu ảnh theo nội dung 19

2.1.2 Bài toán tra cứu ảnh theo nội dung sử dụng tối ưu Pareto 20

2.2 Khoảng cách 20

2.2.1 Khoảng cách Minkowski 20

2.2.2 Khoảng cách lược đồ giao 21

2.2.3 Khoảng cách Canberra 21

Trang 6

2.3 Đa mục tiêu theo khoảng cách 22

2.4 Tiếp cận giải bài toán tối ưu đa mục tiêu Pareto 22

2.4.1 Tối ưu đa mục tiêu Pareto 22

2.4.2 Rút gọn không gian tìm kiếm dựa vào tập Pareto 23

2.4.3 Nâng hiệu quả phân lớp ảnh 29

Chương 3 ỨNG DỤNG VÀ CHƯƠNG TRÌNH THỬ NGHIỆM 37

3.1 Sơ đồ chương trình 37

3.2 Cơ sở dữ liệu ảnh thử nghiệm 38

3.3 Phân tích thiết kế chương trình thử nghiệm 40

3.3.1 Giao diện chương trình 40

3.3.2 Các bước thực hiện truy vấn 40

3.4 Đánh giá kết quả đạt được và so sánh với phương pháp khác 45

3.4.1 Các phương pháp cơ sở 45

3.4.2 Phương pháp đánh giá 45

KẾT LUẬN 56

TÀI LIỆU THAM KHẢO 58

Trang 7

DANH MỤC CHỮ VIẾT TẮT

Từ

CBIR Content-Based Image Retrieval Tra cứu ảnh dựa vào nội dungHSV Hue, saturation, value Màu sắc, độ bão hòa, độ sángMARS Multimedia Analysis and

Retrieval Systems

Các hệ thống phân tích đaphương tiện và tra cứuQBIC Query By Image Content Truy vấn ảnh bởi nội dung

SVM Support vector machine Máy vector hỗ trợ

Trang 8

M Độ dài của một vector đặc trưng

N Kích thước của cơ sở dữ liệu

Vector đặc trưng chuẩn hóa ở bộ t của ảnh thứ i

Q t , I t đặc trưng bộ t tương ứng của ảnh truy vấn Q và ảnh I bất kỳ

±t Đặc trưng chuẩn hóa ở bộ t của ảnh truy vấn

t ( ), ( t , t ảnh) Khoảng cách theo bộ đặc trưng t của I so với ảnh truy vấn

top-k Tập gồm k ảnh có thứ hạng tương tự cao nhất đối với ảnh truy vấn

NB Tập ảnh có độ tương tự cao nhất theo đặc trưng toàn cục trong một tra cứu

NB

* Tập ảnh chưa được tra cứu

Trang 9

DANH MỤC HÌNH VẼ

Hình 3.1 Sơ đồ chương trình 37

Hình 3.2 Các ảnh minh họa cho 10 thể loại trong tập ảnh Wang 38

Hình 3.3 Hình ảnh giao diện chương trình thực nghiệm 40

Hình 3.4 Đưa một ảnh truy vấn vào hệ thống tra cứu đề xuất 41

Hình 3.5 Kết quả tra cứu khởi tạo của top-20 42

Hình 3 6 Kết quả tra cứu khởi tạo của top-20 vòng phản hồi thứ nhất 43

Hình 3.7 Kết quả tra cứu khởi tạo của top-20 vòng phản hồi thứ hai 43

Hình 3.8 Kết quả tra cứu khởi tạo của top-20 vòng phản hồi thứ ba 44

Hình 3.9 Kết quả tra cứu khởi tạo của top-20 vòng phản hồi thứ tư 44

Hình 3.10 Trung bình độ chính xác trên kết quả top-k của đề xuất Pareto- AdaBoost trên ba tập dữ liệu Wang, Oxford Buiding, Caltech theo năm vòng phản hồi liên quan 49

Hình 3.11 Trung bình độ chính xác trên kết quả top-k của đề xuất Pareto- SVM trên ba tập dữ liệu Wang, Oxford Building, Caltech theo năm vòng phản hồi liên quan 51

Hình 3.12 So sánh độ chính xác trên các kết quả top-k của kỹ thuật đề xuất Pareto-AdaBoost với các kỹ thuật cơ sở tren ba tập dữ liệu Wang, Oxford Building, Caltech 53

Hình 3.13 So sánh độ chính xác trên các kết quả top-k của kỹ thuật đề xuất Pareto-SVM với các kỹ thuật cơ sở trên ba tập dữ liệu Wang, Oxford Building, Caltech 54

Hình 3.14 Đồ thị độ chính xác của các phương pháp Pareto-AdaBoost, SVM, AdaBoost và MARS trên các tập dữ liệu Wang, Oxford Building, Caltech 54

Hình 3.15 Đồ thị độ chính xác của các phương pháp Pareto-SVM, SVM, AdaBoost và MARS trên tập dữ liệu Wang, Oxford Building và Caltech 55

Trang 10

DANH MỤC BẢNG BIỂU

Bảng 3.1 Các miêu tả ảnh và hàm khoảng cách sử dụng trong thực nghiệm 39 Bảng 3.2 Các tham số sử dụng trong thực nghiệm 46 Bảng 3.3 Số ứng viên Pareto thep top – k đối với Wang (gồm 1000 ảnh) 47 Bảng 3.4 Số ứng viên Pareto theo top – k đối với Oxford Buiding (gồm 2560

Bảng 3.7 Trung bình độ chính xác top-k kết quả của đề xuất Pareto-

AdaBoost trên năm vòng phản hồi liên quan đối với tập dữ liệu Oxford Buiding 50

Bảng 3.8 Trung bình độ chính xác top-k kết quả của đề xuất Pareto-

AdaBoost trên năm vòng phản hồi liên quan đối với tập dữ liệu Caltech 51Bảng 3 9 Trung bình độ chính xác top-k kết quả của đề xuất Pareto-SVM

trên năm vòng phản hồi liên quan đối với tập dữ liệu Wang 52

Bảng 3.10 Trung bình độ chính xác top-k kết quả của đề xuất Pareto-SVM

trên năm vòng phản hồi liên quan đối với tập dữ liệu Oxford Building 52

Bảng 3.11 Trung bình độ chính xác top-k kết quả của đề xuất Pareto-SVM

trên năm vòng phản hồi liên quan đối với tập dữ liệu Caltech 53

Trang 11

MỞ ĐẦU

Những năm gần đây, với sự xuất hiện của Internet đã thay đổi hoàn toàncách thức chúng ta tìm kiếm thông tin Ví dụ khi cần tìm kiếm, đơn giản chỉcần gõ một vài từ khóa vào máy tìm kiếm Google hay Bing, ngay lập lức cóđược một danh sách tương đối chính xác các trang web có liên quan đến thôngtin cần tìm Đối với hình ảnh, cũng đã có các hệ thống tương tự Tra cứu ảnh

có thể được thực hiện dựa vào các mô tả ngắn của ảnh Các ảnh có thể được

mô tả bởi một tập các thuộc tính độc lập nội dung (tên file,khuôn dạng, loại,kích cỡ, tên tác giả, thiết bị thu nhận, ngày tạo và vị trí ổ đĩa) mà có thể đượcquản lý thông qua hệ quản trị cơ sở dữ liệu truyền thống Hạn chế chính củacách tiếp cận này đó là các truy vấn bị giới hạn vào các thuộc tính hiện có củatệp ảnh Một cách tiếp cận thay thế là sử dụng các từ khóa hoặc các chú thíchảnh Trong cách tiếp cận này, trước tiên các ảnh được chú thích thủ công bằngcác từ khóa Sau đó, các ảnh có thể được tra cứu bởi các chú thích tương ứngcủa chúng Cách tiếp cận này ít giới hạn hơn cách tiếp cận trước Tuy nhiên,

có ba khó khăn chính với cách tiếp cận này, đó là yêu cầu số lượng lớn cácnhân công trong việc phát triển các chú thích, sự khác biệt trong giải thích nộidung ảnh, và sự không nhất quán của cách gán từ khóa giữa những người thựchiện chú thích khác nhau Cách tiếp cận chú thích từ khóa này trở nên khôngkhả thi khi cỡ của các tập ảnh gia tăng nhanh chóng

Để khắc phục các khó khăn của cách tiếp cận dựa vào chú thích, mộtcách tiếp cận thay thế là tra cứu ảnh dựa vào nội dung đã được đề xuất từ đầunhững năm 1990 Với hệ thống này, bằng cách lấy một ảnh đầu vào từ ngườidùng, hệ thống cố gắng tìm kiếm các ảnh giống nhất trong cơ sở dữ liệu rồi trảlại cho người sử dụng Về cơ bản, hệ thống hoạt động theo cách thức sau: Đầutiên ảnh đưa vào để tìm kiếm (hay gọi là ảnh truy vấn) và toàn bộ ảnh trong

Trang 12

CSDL được hệ thống sử dung các kĩ thuật trích rút nội dung của ảnh sang cácvector (đặc trưng của ảnh) bằng cách sử dụng các đặc trưng mức thấp (màusắc, hình dạng, kết cấu, vv) Hệ thống sẽ tính toán và đo khoảng cách giữa ảnhtruy vấn với từng ảnh trong CSDL Cuối cùng, các ảnh có khoảng cách gầnnhất với ảnh truy vấn được hệ thống trả về Điều này làm giảm đáng kể nhữngkhó khăn của cách tiếp cận thuần túy dựa trên chú thích, bởi vì quá trình tríchrút đặc trưng có thể được thực hiện tự động Kể từ khi ra đời, tra cứu ảnh dựavào nội dung đã thu hút sự quan tâm nghiên cứu rất lớn, phạm vi từ nghiêncứu tới thương mại Cho đến nay, một số hệ thống nguyên mẫu thực nghiệm

và các sản phẩm thương mại đã được đề xuất và xây dựng như QBIC, MARS

Tuy CBIR có nhiều tiến bộ song người dùng vẫn gặp khó khăn trongviệc tìm kiếm thông tin liên quan từ tập dữ liệu ảnh lớn không đồng nhất vềmặt nội dung và ngữ nghĩa Điều này dẫn đến kết quả tìm kiếm chưa đượcnhư mong muốn Thông tin mà máy tính hiểu nội dung ảnh thường là là cácgiá trị điểm ảnh,vector đặc trưng được trích rút theo các thủ tục, còn conngười hiểu về nội dung của ảnh thường là các khái niệm ngữ nghĩa Do không

có sự tương quan một cách chính xác giữa nội dung mà máy tính có đượcthông qua đặc trưng trực quan mức thấp dung mà con người hiểu thông quacác khái niệm ngữ nghĩa mức cao dẫn đến khoảng trống ngữ nghĩa Khoảngtrống ngữ nghĩa định nghĩa theo Smeulders và cộng sự như sau:

“Khoảng trống ngữ nghĩa là sự không tương đồng giữa thông tin ảnh,được trích rút từ dữ liệu trực quan so với diễn giải về dữ liệu ảnh đó bởi ngườidùng trong tình huống cụ thể ”

Khoảng trống ngữ nghĩa nằm giữa các đặc trưng trực quan mức thấpcủa các ảnh và các ngữ nghĩa mức cao mong muốn dự định suy ra từ các đặctrưng trực quan mức thấp Các thực nghiệm trên các hệ thống CBIR chỉ rarằng các

Trang 13

nội dung mức thấp thường thất bại trong mô tả các khái niệm ngữ nghĩa mứccao của ảnh Do đó, hiệu năng của tra cứu ảnh dựa vào nội dung vẫn còn xa sovới kỳ vọng của người dùng.

Để khắc phục được hạn chế ở trên, những năm gần đây các hướngnghiên cứu tập trung đi tìm các phương pháp giảm khoảng trống ngữ nghĩagiữa đặc trưng mức thấp và khái niệm mức cao

Để thu hẹp được khoảng trống ngữ nghĩa, nâng cao hiệu quả tra cứu ảnhtheo nội dung cần sử dụng kết hợp đa đặc trưng để so sánh độ tương tự, đánhchỉ số tra cứu Việc sử dụng kết hợp đa đặc trưng để so sánh độ tương tự sẽdẫn đến đa khoảng cách do đó cần độ đo toàn cục như một kết hợp tối ưutuyến tính của các hàm khoảng cách thành phần Trong luận văn này tôi xin

đề cập đến phương pháp “Tra cứu ảnh dựa trên khoảng cách và bài toán tối

ưu pareto”, nghiên cứu sử dụng cách tiếp cận tối ưu Pareto như một bài toán

tiền xử lý dữ liệu (rút gọn tập mẫu) Qua đó, không gian tìm kiếm trên tập độ

đo khoảng cách với truy vấn được thu gọn nhất của tập Pareto Tập thu gọnnày được sử dụng như dữ liệu đầu vào giúp cho bộ máy phân lớp hoạt độnghiệu quả hơn

Nội dung luận văn gồm 3 chương

Chương 1: TỔNG QUAN VỀ TRA CỨU ẢNH

Chương này trình bày khái quát lý thuyết cơ bản về tra cứu ảnh dựatrênnội dung, tìm hiểu một số đặc trưng ảnh, tìm hiểu một số ứng dụng và hệthống tra cứu ảnh sẵn có

Chương 2: TRA CỨU ẢNH DỰA TRÊN TỐI ƯU ĐA MỤC TIÊU VỚIKHOẢNG CÁCH

Chương 2 giới thiệu bài toán tra cứu ảnh theo nội dung và khoảng cáchthường dùng trong tra cứu ảnh, đa mục tiêu theo khoảng cách, đề xuất rút gọn

Trang 14

tập ứng viên nhằm giảm không gian tìm kiếm dựa vào tiếp cận tối ưu đa mụctiêu Pareto.

Chương 3: ỨNG DỤNG VÀ CHƯƠNG TRÌNH THỬ NGHIỆM

Chương 3 đưa ra thiết kế của hệ thống đề xuất, cơ sở dữ liệu lựa chọn thửnghiệm và đánh giá kết quả đạt được và so sánh với phương pháp khác

Trang 15

Chương 1 TỔNG QUAN VỀ TRA CỨU ẢNH 1.1 Giới thiệu về hệ thống tra cứu ảnh

Từ hai thập kỉ qua, sự xuất hiện của Internet đã thay đổi hoàn toàn cáchthức chúng ta tìm kiếm thông tin Ví dụ, khi làm việc với văn bản, ta chỉ cầnđơn giản gõ một vài từ khóa vào máy tìm kiếm Google hay Bing để ngay lậplức có được một danh sách tương đối chính xác các trang web có liên quan Tacũng có các hệ thống tương tự với ảnh Với hệ thống này, bằng cách lấy mộtảnh đầu vào từ người sử dụng, hệ thống cố gắng tìm kiếm các ảnh giống nhấttrong dữ liệu, rồi trả lại cho người sử dụng Một cách lý tưởng, sự giống nhau

ở đây được định nghĩa dựa trên sự giống nhau giữa các khái niệm được thểhiện trong ảnh Đây là hệ thống Tra cứu ảnh theo nội dung hay đơn giản là tracứu ảnh (“content-based image retrieval” viết tắt là CBIR) Các hệ thống nàythường trích rút các biểu diễn trực quan của ảnh và định nghĩa các hàm tìmkiếm, đối sánh mối liên quan khi tra cứu dáp ứng yêu cầu người dùng Lĩnhvực này đã được cộng đồng nhiên cứu quan tâm trong những năm qua

1.1.1 Các thành phần của hệ thống CBIR

Một hệ thống CBIR gồm các thành phần cơ bản mô tả trong sơ đồ Hình 1.1

Hình 1.1 Hệ thống tra cứu ảnh theo mội dung

Trang 16

Một hệ thống tra cứu ảnh có thể thực hiện qua nhiều công đoạn: nhậpảnh truy vấn, nhập dữ liệu ảnh cho csdl, chuẩn hóa ảnh, trích chọn đặc trưngcủa ảnh truy vấn và ảnh trong cơ sở dữ liệu, tính toán độ tương tự và cách hiểnthị kết quả lên màn hình… Tuy nhiên chúng ta có miêu tả khái quát một hệthống tra cứu ảnh thông qua những công đoạn chính sau:

Hình 1.2 Cấu trúc của hệ thống tra cứu ảnh theo nội dung

- Trích chọn đặc trưng: Các đặc trưng của hình ảnh bao gồm các đặctrưng nguyên thủy và các đặc trưng ngữ nghĩa hoặc đặc trưng logic Các đặctrưng cơ bản đó là: màu sắc (color), kết cấu (texture), hình dạng (shape), vị tríkhông gian (spatial location),… được định lượng trong tự nhiên, chúng có thểđược trích xuất tự động hoặc bán tự động Đặc trưng logic cung cấp mô tả trừutượng của dữ liệu hình ảnh ở các cấp độ khác nhau Thông thường, một hoặcnhiều đặc trưng có thể được sử dụng trong từng ứng dụng cụ thể trên thực tế

+ Trích chọn đặc trưng cho ảnh truy vấn: Ở công đoạn này ảnh truy vấnngay khi ảnh được nhập vào hệ thống sẽ xử lý để trích chọn đặc trưng theo đặctrưng nhất định nào đó và phục vụ tính toán độ tương đồng sau đó đưa ra kếtquả, có thể nói công đoạn này sẽ được tính toán online

Trang 17

+ Trích chọn đặc trưng ảnh trong cơ sở dữ liệu: Đây là công đoạn tínhtoán đặc trưng cho ảnh trong cơ sở dữ liệu sinh ra cơ sở dữ liệu lưu trữ các đặctrưng, công đoạn này thường sẽ được tính toán từ khi nhập ảnh vào cở sở dữliệu, hoặc tiến hành khi người dùng cho phép thực hiện hay nói cách khác nóđược tiến hành offline.

- Đo độ tương tự giữa các ảnh: Hệ thống CBIR dựa trên những đặc điểmnguyên thủy để so sánh độ tương tự giữa ảnh truy vấn và tất cả các ảnh trongCSDL Mặc dù vậy sự tương tự hoặc sự khác nhau giữa các ảnh không chỉ xácđịnh theo một cách Số lượng của ảnh tương tự sẽ thay đổi khi yêu cầu truyvấn thay đổi Chẳng hạn trong trường hợp hai hình ảnh, một là biển xanh mặttrời mọc và trường hợp khác là núi xanh với mặt trời mọc

Hình 1.3 Hình ảnh minh họa độ tương tự giữa 2 hình ảnh

Khi mặt trời được xem xét thì độ tương tự giữa hai ảnh này là caonhưng nếu đối tượng quan tâm là biển xanh thì độ tương tự giữa hai ảnh này

là thấp Như vậy rất khó khăn để tìm ra phương pháp đo độ tương tự giữa haihình ảnh trên một cách chính xác đối với tất cả các kiểu yêu cầu của truy vấn.Hay nói cách khác mỗi một phương pháp tra cứu sẽ có giới hạn của chính nó

Ví dụ rất khó cho công nghệ tra cứu dựa trên màu sắc để tìm ra điểm khácnhau giữa một ảnh là bầu trời màu xanh với một ảnh là mặt biển xanh Vìvậy khi đánh giá

Trang 18

một phương pháp tra cứu ảnh dựa trên nội dung cần phải biết rằng hiệu quả của công nghệ đó phụ thuộc vào kiểu yêu cầu tra cứu mà người dùng sử dụng.

- Đánh chỉ số: Đánh chỉ số là một công việc quan trọng trong tra cứuảnh dựa trên nội dung, nó giúp tìm kiếm nhanh ảnh dựa trên đặc trưng trựcquan, bởi vì các vector đặc trưng của ảnh có xu hướng, có số chiều cao và vìvậy nó không thích hợp cho các cấu trúc đánh chỉ số truyền thống Do đótrước khi lên kế hoạch đánh chỉ số ta phải tìm cách làm giảm số chiều của cácvector đặc trưng Khi đã giảm được số chiều thì dữ liệu đa chiều được đánhchỉ số

- Tra cứu và hiển thị kết quả: Hiển thị kết quả vừa thu được cho ngườidùng theo một giá trị ngưỡng tương tự nào đó

- Phản hồi liên quan: Kĩ thuật phản hồi liên quan được sử dụng nhằmthu hẹp “khoảng trống ngữ nghĩa” trong CBIR, cải thiện kết quả tra cứu thôngqua tương tác giữa người dùng và máy Một kịch bản thông thường cho phảnhồi liên quan trong CBIR như sau:

Bước 1: Máy tính đưa ra các kết quả tra cứu khởi tạp (top-k)thôngquaảnh truy vấn

Bước 2: Người dùng cung cấp đánh giá trên kết quả top-k, đánh giá theokiểu như “liên quan” hoặc “không liên quan” với nhận thức của chính ngườidùng đó

Bước 3: Máy học và thử lại Lặp lại bước 2

Các thành phần cơ bản của hệ thống CBIR:

- Cơ sở dữ liệu ảnh: Là cơ sở dữ liệu phục vụ lưu trữ ảnh Có thể là trên

ổ cứng thường, cũng có thể là hệ quản trị cơ sở dữ liệu

- Cơ sở dữ liệu đặc trưng: Các đặc trưng đã được trích chọn offline sẽđược lưu trữ trong cơ sở dữ liệu như tệp tin matlab, bảng tính excel,…

Trang 19

Quá trình thực thi của hệ thống tra cứu ảnh:

+ Người dùng đưa ra truy vấn hoặc ảnh có sẵn

+ Hệ thống đón nhận truy vấn hoặc ảnh, sau đó trích chọn các đặc trưng.+ Hệ thống so sánh truy vấn hoặc ảnh với cơ sở dữ liệu đặc trưng đã có.+ Hệ thống trả ra kết quả tra cứu

Một hệ thống tra cứu ảnh cần đáp ứng được:

+ Nhu cầu sử dụng hình ảnh của người dùng và thông tin đi kèm ảnh.+ Cách mô tả nội dung ảnh

+ Trích chọn đặc trưng từ ảnh

+ Lưu trữ cơ sở dữ liệu ảnh

+ Truy vấn và lưu trữ hình ảnh tương tự

+ Truy xuất hình ảnh trong cơ sở dữ liệu hiệu quả

+ Giao diện thân thiện, phù hợp

1.1.2 Tra cứu ảnh theo nội dung sử dụng kỹ thuật máy học

Các kỹ thuật học máy có hiệu năng tăng đáng kể đối với các hệ thốngCBIR như các kỹ thuật máy vector hỗ trợ (SVM), học tăng cường(AdaBoost),… Một hạn chế là không có dữ liệu huấn luyện từ trước với mỗitruy vấn cụ thể, dữ liệu huấn luyện chỉ có được sau khi người dùng phản hồivới ảnh truy vấn được đưa vào bởi một người dùng Bên cạnh dữ liệu huấnluyện là tương đối ít và dữ liệu kiểm tra bị nhiễu do vấn đề khoảng trống ngữnghĩa

Kỹ thuật AdaBoost

Trang 20

Kỹ thuật AdaBoost đã được áp dụng trong một số hệ thống CBIR nhằmmục đích tăng cường các thuật toán học yếu, đòi hỏi dữ liệu được đánh trọng

số trước khi thực hiện thuật toán học ở mỗi lần lặp Tuy nhiên, các kỹ thuậtdựa vào AdaBoost thường phân lớp chậm và cần nhiều lần lặp phản hồi

Boosting là phương pháp cho phép cải thiện độ chính xác của bất kìthuật toán học nào Đây là một loại phương pháp tổ hợp, cho phép kết hợp cácphương pháp phân lớp yếu thành một phân lớp mạnh hơn

tới khi đạt tiêu chuẩn dừng

AdaBoost dẫn đến các biến thể boosting phổ biến hiện nay và đã trởthành một trong những thuật toán học mạnh Trong quá trình học, giữ phân bốtrọng số ��(��)trên các mẫu huấn luyện Theo phân bố này, tại mỗilần lặp

Boosting sẽ lựa chọn bộ học yếu và đưa them vào mô hình Sau mỗi lần lặp l,

mẫu được đánh lại trọng số, dựa vào một hàm lỗi (loss function) Nhằm tậptrung vào các mẫu khó, bỏ qua các mẫu dễ Giải thuật AdaBoost là thuật toánhọc hiệu quả và phổ biến, do khá dễ dàng cài đặt, hầu như không cần thiết tới

tham số hiệu chỉnh Trên thực tế chỉ có một tham số là số tối đa L lần lặp.

Việc thiết lập tham số rất quan trọng bởi vì thuật toán có thể có xu hướng

overfit (quá khớp) nếu thiết lập L lớn.

Kỹ thuật máy vector hỗ trợ (SVM)

Các kĩ thuật học máy và phản hồi liên quan được đề xuất nhằm hỗ trợhiệu chỉnh truy vấn Hầu hết các kĩ thuật truyền thống đều đòi hỏi lượng lớn

Trang 21

mẫu dữ liệu huấn luyện và truy vấn khởi tạo với các mẫu tốt Trong nhiều tìnhhuống ứng dụng thực tế các thuật toán học có thể làm việc ngay cả khi nghèo

dữ liệu huấn luyện và hạn chế thời gian huấn luyện

Để giảm số lượng mẫu yêu cầu, các truy vấn quan tâm đến các kĩ thuậthọc tích cực Một trong những phương pháp như vậy là SVM, dựa vào phảnhồi liên quan khi phân lớp Học tích cực có thể được mô hình hoá như sau:

Cho một cơ sở dữ liệu E chứa một tập con chưa gán nhãn U và một tập con X

đã gán nhãn Phương pháp học gồm hai thành phần f và s Thành phần f là một phân lớp được huấn luyện trên tập dữ liệu đã gán nhãn X Thành phần s

là hàm lấy mẫu đưa ra một tập gán nhãn hiện thời X, quyết định lựa chọn tập

con � ∈ � chọn cho truy vẫn người dùng Cách học tích cực này đưa đến

một f mới, sau mỗi lần lặp của phản hồi liên quan.

Kĩ thuật này có thể mô tả sau đây: Tập dữ liệu đầu vào/ra X, Y, tập huấn luyện (x 1 , y 1 ), (x 2 , y 2 ),…, (x m , y m) Mục đích muốn học một hàm phân lớp �

Trang 22

Ví dụ chọn mô hình từ các siêu phẳng, hàm phân lớp sẽ có dạng:

�(�, ��, �) =

� �(� � + �)Tiêu chí của SVM là chọn siêu phẳng sao cho lề là cực đại và tối thiểuhóa lỗi, dẫn tới đưa về giải bài toán tối ưu bậc 2 Đầu ra của bài toán tối ưu là

� và b, trong đó � có dạng như sau:

SVM phỏng đoán kết quả tra cứu theo các mẫu huấn luyện Dựa vào kếtquả tra cứu, người dùng lựa chọn các ảnh liên quan và không liên quan Cácảnh liên quan tạo thành tập mẫu dương và các ảnh không liên quan tạo thànhtập mẫu âm Sauk hi học tập mẫu huấn luyện, bằng cách sử dụng SVM, bộphân lớp SVM f(x) sẽ dần điều chỉnh theo mục đích tra cứu của người dùng.Mỗi ảnh Ii trong cơ sở dữ liệu, điểm số được tính toán theo score(I i ) = f(x i ).

Đây chính là khoảng cách từ các ảnh tới siêu phẳng phân tách, score(I i ) lớn

hơn ngưỡng thì I i sẽ gần khớp với ảnh truy vấn Sắp xếp các điểm số của tất cả

các ảnh theo thứ tự giảm dần, thu được danh sách top-k Khi đó ta thu được

kết quả tốt hơn và lần phản hồi tiếp theo lại được thực hiện Lặp lại quá trìnhnày đến khi thỏa mãn yêu cầu người dùng

Zhang và cộng sự đã mô tả quá trình trên bằng thuật toán 1.1 Trướctiên, một phương pháp tra cứu truyền thống được thực hiện bằng cách đốisánh các ảnh theo phương pháp thông thường, sắp xếp các ảnh theo độ đokhoảng cách

Trang 23

tăng dần với ảnh truy vấn Kết quả trả về người dùng k ảnh đầu tiên của danh sách đó, kí hiệu là NB.

Thuật toán 1.1 SVM dựa vào phản hồi liên quan

Đầu vào: Đánh dấu ảnh trên tập kết quả NB: tập liên quan ��+ và tập không liên quan ��−

Đầu ra: Tập kết quả NB

1 Chuẩn bị cho SVM dữ liệu huấn luyện

+1 �ế� �� ∈ ��+(�� , �� ),

1.2.1 Đặc trưng màu

Đặc trưng màu là một trong những đặc trưng thị giác rộng nhất do quan

hệ chặt chẽ với các đối tượng ảnh, tiền cảnh và nền Màu cũng là một đặctrưng

Trang 24

màu, tương quan màu và ma trận đồng hiện màu.

Hình 1.5 Hình dạng đặc trưng

Trang 25

nhưng nó có thể được xác định như tất cả những gì còn lại sau khi xem xét cácmầu và các hình, hoặc như một mô tả của cấu trúc ảnh, tính ngẫu nhiên(randomness), hột (granulation), đường thẳng (linearity), độ nhám (roughness)

và tính đồng nhất (homogeneity) Kết cấu ảnh là một đặc trưng ảnh quan trọng

để mô tả các thuộc tính bề mặt của một đối tượng và mối quan hệ của nó vớicác vùng xung quanh Do các đặc trưng kết cấu được xuất hiện trong nhiềuảnh thực, chúng rất quan trọng và có lợi ích trong các nhiệm vụ tra cứu ảnh vànhận dạng mẫu Tuy nhiên, độ phức tạp tính toán và độ chính xác tra cứu lànhững nhược điểm chính của các hệ thống tra cứu ảnh dựa vào kết cấu

Hình 1.6 Hình dạng kết cấu

1.2.4 Liên hệ không gian

Liên hệ không gian: Được dùng nhiều trong xử lý ảnh, để phân biệtcác đối tượng trong một ảnh Có hai cách biểu diễn: theo đối tượng và theoquan hệ

Trang 26

các vị trí không gian của các nội dung ảnh Tuy nhiên, các biểu diễn khônggian dựa vào đồ thị có chi phí tính toán cao.

1.3 Ứng dụng của tra cứu ảnh

Ứng dụng của tra cứu ảnh có rất nhiều trong đời sống xã hội, phục vụcho nhiều mục đích khác nhau, nhằm xác nhận, tra cứu thông tin Giảm bớtcông việc của con người nhằm tăng hiệu suất làm việc: Album ảnh số củangười dùng, ảnh y khoa, bảo tàng ảnh, tìm kiếm nhãn hiệu, mô tả nội dungMPEG-7, ảnh tội phạm, hệ thống tự động nhận biết điều khiển giao thông,…

Sau đây là một vài hệ thống lớn đại diện cho các lĩnh vực đặc trưng:

- Hệ thống truy vấn ảnh theo nội dung (QBIC-query by image content):được nghiên cứu và phát triển bởi nhóm nghiên cứu Visual MediaManagement thuộc tập đoàn IBM, đây là một hệ thống tra cứu ảnh thươngmại được phát triển từ rất sớm Hiện nay, hệ thống này hỗ trợ một vài độ đotương tự cho ảnh

Trang 27

thống này còn cung cấp vài cách tiếp cận truy vấn theo đơn đặc trưng, đa đặctrưng và đa giai đoạn.

- Hệ thống Imatch: Hệ thống này cho phép người sử dụng tra cứu ảnhbởi nội dung màu, hình dạng và kết cấu Nó cung cấp một số phương pháp đểtra cứu ảnh tương tự: Màu tương tự, màu và hình dạng (Quick), màu và hìnhdạng (Fuzzy) và sự phân bố màu Màu tương tự truy vấn những ảnh tương tựvới ảnh mẫu dựa trên sự phân bố màu toàn cục

+ Màu và hình dạng (Quick) tìm hình ảnh tương tự bởi việc kết hợp cảhình dạng, kết cấu và màu

+ Màu và hình dạng (Fuzzy) thực hiện thêm những bước xác định đốitượng trong ảnh mẫu

+ Phân bố màu cho phép người sử dụng vẽ ra sự phân bố màu hoặc xácđịnh tỷ lệ phần trăm của một màu trong hình ảnh mong muốn

+ Imatch cũng cung cấp những đặc điểm khác nội dung để xác địnhảnh: ảnh nhị phân, ảnh co kích thước, lưu trữ trong những định dạng khác vànhững ảnh có tên tương tự

- Hệ thống Photobook: Hệ thống này được phát triển ở MassachusettsInstitute of Technology cho phép người sử dụng tra cứu ảnh dựa trên màusắc, kết cấu và hình dạng Hệ thống này cung cấp một tập các thuật toán đốisánh gồm: Euclidean, Mahalanobis, Vector space angle, Histogram, Fourierpeak và Wavelet tree distance như là những đơn vị đo khoảng cách Tronghầu hết các phiên bản, đã có thể định nghĩa những thuật toán đối sánh của họ

Hệ thống như là một công cụ bán tự động và có thể sinh ra một mẫu truy vấndựa

Trang 28

vực khác nhau, và mỗi lĩnh vực họ có thể thu được những mẫu truy vấn tốiưu.

- Hệ thống VisualSEEK và WebSEEK: Cả hai hệ thống này đều đượcphát triển tại Trường Đại học Colombia VisualSEEK là hệ thống cơ sở dữliệu ảnh; nó cho phép người sử dụng tra cứu ảnh dựa trên màu sắc, khônggian miền và đặc điểm kết cấu Tập màu và chuyển đổi wavelet dựa trên kếtcấu được sử dụng để thực hiện những đặc điểm này Thêm vào đóVisualSEEK còn cho phép người sử dụng tạo truy vấn bằng việc chỉ địnhvùng màu và những không gian vị trí của chúng WebSEEK là một catalogảnh và là công cụ tìm kiếm cho web Hệ thống này cung cấp mẫu cho danhsách ảnh và video trên trang web sử dụng kết hợp xử lý dựa trên text và phântích dựa trên nội dung

- Hệ thống RetrievalWare: Hệ thống này được phát triển bởi tập đoàncông nghệ Excalibur cho phép người sử dụng tra cứu ảnh bởi nội dung màu,hình dạng, kết cấu, độ sáng, kết cấu màu và hệ số co Người sử dụng có thểđiều chỉnh tỷ trọng của những đặc điểm này trong suốt quá trình tìm kiếm

- Hệ thống NeTra sử dụng các đặc trưng của ảnh: Màu sắc, hình dạng,kết cấu, không gian

- Ngoài ra còn một vài hệ thống khác như: Virage system, StanfordSIMPLICity system, NEC PicHunter system,…

Trang 29

2.1 Giới thiệu bài toán

2.1.1 Bài toán tra cứu ảnh theo nội dung

Việc tìm kiếm ảnh theo nội dung là tính độ tương tự hoặc khoảng cáchảnh Cơ sở dữ liệu lưu ảnh mẫu bao gồm thông tin và nội dung ảnh nguyêngốc do người sử dụng đưa vào Dữ liệu trong CBIR được lấy trên cơ sở cácnội dung mà nó trích rút bằng cách sử dụng các kĩ thuật trích rút đặc trưngmức thấp bên trong mỗi ảnh (màu sắc, hình dạng, kết cấu, vv…) Các hàm tìmkiếm được xây dựng để tra cứu theo sự quan tâm Bài toán này sử dụng kếthợp nhiều biểu diễn đặc trưng được miêu tả Trong xếp hạng các kết quả trả vềcho người dùng thông thường sử dụng khoảng cách toàn cục bằng kết hợptuyến tính khoảng cách cục bộ theo biểu diễn đặc trưng thành phần Một ảnhđược xếp thứ hạng cao hơn nếu và chỉ nếu độ đo khoảng cách toàn cục là nhỏhơn

Ví dụ 2.1 Giả sử chúng ta có hai đặc trưng màu (C) và kết cấu (T) Độ

đo khoảng cách của ba đối tượng o1, o2, o3 tương ứng với truy vấn Q là

���(�1) = 0.7, ���(�1) = 0.8 Dễ dàng xếp hạng độ đo khoảng cách là o2, o3,

o1 Khi không kết hợp tuyến tính độ đo khoảng cách toàn cục, xếp hạng dựa

Trang 31

kết quả cuối cùng còn nhiều vấn đề cần xem xét và cải tiến.

2.1.2 Bài toán tra cứu ảnh theo nội dung sử dụng tối ưu Pareto

Các hệ thống CBIR sử dụng bộ máy phân lớp ít sử dụng cách tiếp cậnPareto để giảm tập dữ liệu và đây chính là yếu tố quan trọng giúp cải thiện các

bộ máy phân lớp dữ liệu Trong nghiên cứu này tôi sử dụng Pareto như mộtbài toán tiền xử lý dữ liệu (rút gọn tập mẫu) Qua đó, không gian tìm kiếmtrên tập độ đo khoảng cách với truy vấn được thu gọn nhất của tập Pareto Tậpthu gọn này được sử dụng như dữ liệu đầu vào giúp cho bộ máy phân lớp hoạtđộng hiệu quả hơn

2.2 Khoảng cách

Việc lựa chọn xác định loại độ đo khoảng cách mà sử dụng để so sánh

độ tương tự của từng cặp ảnh còn phụ thuộc vào cấu trúc của các véc tơ đặctrưng mô tả chúng Độ đo khoảng cách được áp dụng chỉ ra độ tương tự giữatruy vấn và mỗi ảnh trong cơ sở dữ liệu Để thu được tra cứu chính xác hơn vàhiệu năng tốt hơn, hệ thống CBIR nên tận dụng độ đo đối sánh tương tự hiệuquả, mô tả và định lượng tốt các tương tự nhận thức

Các độ đo khoảng cách có thể được sử dụng cho đối sánh tương tự tronglĩnh vực CBIR như:

Trang 32

Ở đây r là nhân tố chuẩn hóa cho khoảng cách Minkowski, và ≥ 1 Khi

� = 1 công thức (1.1) biểu diễn khoảng cách Manhattan (hay khoảng cách

�1) và khi � = 2 nó biểu diễn khoảng cách Euclid (khoảng cách �2) và

� = ∞ ta có khoảng cách Chebyshev (tức �2) tương ứng:

2.2.2 Khoảng cách lược đồ giao

Khoảng cách lược đồ giao (Histogram Interrsection -HI) cho tra cứuảnh là biểu diễn của L1 khi thực hiện phần so khớp Khoảng cách lược đồ giaocủa hai lược đồ n chiều X và Y được xác định như sau:

2.2.3 Khoảng cách Canberra

Cho hai ảnh X và Y được biểu diễn trong không gian dữ liệu bởi hai véc

tơ n chiều (�1, �2, … , ��) và (�1, �2, … , ��) Khoảng cáchCanberra là một biến thể chuẩn của khoảng cách Manhattan trong đó chênhlệch tuyệt đối giữa hai

véc tơ trong mỗi chiều được chia bởi tổng của các giá trị tuyệt đối của cả haivéc tơ trong chiều này Khoảng cách Canberra được xác định như sau:

Trang 33

thường được sử dụng là màu sắc, kết cấu và hình dạng Một số biểu diễn chokiểu đặc trưng màu bao gồm bộ đặc trưng lược đồ màu và mô men màu, biểudiễn kiểu đặc trưng kết cấu gồm một số bộ đặc trưng như Tamura và ma trậnđồng mức.

Các hệ thống tra cứu ảnh dựa vào nội dung thường làm việc với kíchthước cơ sở dữ liệu ảnh lớn, các chủ đề phong phú nên thường lựa chọn tiếpcận toàn cục để miêu tả ảnh Bên cạnh đó việc sử dụng đa đặc trưng kết hợpđược thế mạnh của các bộ đặc trưng trong miêu tả nộ dung trực quan của ảnh.Hạn chế của việc sử dụng đa đặc trưng là cần phải xác định được tầm quantrọng của mỗi bộ đặc trưng trong miêu tả ảnh để gán trọng số phù hợp đốisánh thông qua độ tương tự của các ảnh

2.4 Tiếp cận giải bài toán tối ưu đa mục tiêu Pareto

2.4.1 Tối ưu đa mục tiêu Pareto

Tối ưu đa mục tiêu là bài toán có nhiều hơn một mục tiêu và các mụctiêu có ràng buộc chặt chẽ với nhau, đôi khi xung đột nhau Do đó trong bàitoán tối ưu đa mục tiêu không thể đạt được giá trị tốt nhất của tất cả các mụctiêu cùng một lúc Mục đích của tối ưu đa mục tiêu là sinh ra một danh sáchcác lời giải gọi là tập Pareto

Tập Pareto là một tập con của tập các điểm khả thi các lời giải chứa tất

cả các điểm có ít nhất một mục tiêu tối ưu trong khi giữ nguyên mọi mục tiêukhác Các điểm đó được gọi là các điểm tối ưu Pareto

Tiếp cận Pareto có thể thu gọn tập ứng viên trên không gian tổ hợp đặctrưng, như rút gọn không gian tìm kiếm để cải thiện kết quả tra cứu về mặt dộchính xác của hệ thống CBIR

Trang 34

với các mẫu trong cơ sở dữ ảnh phát biểu như sau:

Giả thiết {Ei | i = 1̅̅,̅�̅̅} là một cơ sở dữ liệu đặc trưng của ảnh, đượctrích rút theo T bộ đặc trưng trong số các kiểu đặc trưng trực quan gồm màusắc, kết cấu và hình dạng

Gọi �� (��) là khoảng cách tương ứng của mỗi bộ đặc trưng giữaảnh truy vấn Q và ảnh I, ∀� = 1, � Mỗi ảnh � ∈ � có T giá trịkhoảng cách thành phần so với truy vấn Q tương ứng T bộ đặc trưng Khônggian tìm kiếm các ảnh I có

độ tương tự so với ảnh truy vấn Q cụ thể được cho bởi:

1 �

�� = {(� , (���(��), … , �� (��)) |||||||||||||| | ∈ �} (2.5)Tồn tại một ánh xạ ����, là song ánh trong không gian tìm kiếm EQ, như là:

����: EQ → E

1 �(� , (���(��), … , �� (��)) → � (2.6)

Để đơn giản, khi Q cố định, ta đặt � ≡ ��� (��) ∈ � và� ≡ {����(��)/∀� ∈ �}

Bài toán CBIR đơn giản nhất có thể diễn đạt như sau: Tìm tất cả các Itrong không gian tìm kiếm EQ mà thỏa mãn đồng thời các tiêu chí �� (��)nhỏ

nhất (ở mức tương tự đặc trưng trực qun mức thấp) được xác định như sau:

Trang 35

tưởng I minh họa trong Hình 2.1.

Hình 2.1 Minh họa không gian tìm kiếm EQ

Ảnh lí tưởng Ilí tưởng ∈ EQ thỏa mãn đồng thời các tiêu chí là không tồntại Lời giải của bài toán này dẫn tới tìm tập các lời giải thỏa hiệp trong số cáctiêu chí Mỗi lời giải là tối ưu nếu không có lời giải khác trong EQ có khoảngcách nhỏ hơn trên mọi tiêu chí Dt (Q, I ) Điều này có nghĩa rằng, ta cần tìmcác điểm theo trích rút Pareto front, đánh giá toàn toàn bộ tập các giá trịkhoảng cách (các tiêu chí) cho mọi điểm trong không gian tìm kiếm Kĩ thuậtPareto front đa mức sâu sử dụng trong không gian EQ

Trang 36

Để tìm tập các đối tượng tối ưu trên miền không gian độ đo khoảngcách, dựa trên quan hệ trội tìm tập tối ưu Pareto theo định nghĩa 2.1.

Định nghĩa 2.1 (Trội Pareto trên độ đo khoảng cách) Cho truy vấn Q,

xác định một quan hệ trội (ký hiệu là f) trên tập độ đo khoảng cách của hai ảnh

Ngày đăng: 21/03/2021, 18:29

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w