Ứng dụng các kỹ thuật tìm kiếm thông tin vào hệ thống tìm kiếm ảnh dựa trên nội dung

Trình bày nguyên lý hoạt động, một số kỹ thuật tìm kiếm thông tin truyền thống, đánh giá ưu nhược điểm của các mô hình. Nguyên lý hoạt động của hệ thống tìm kiếm ảnh dựa trên nội dung, phương pháp trích chọn đặc trưng ảnh. Ứng dụng các kỹ thuật tìm kiếm thông tin trong tìm kiếm ảnh dựa trên nội dung.

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

TRẦN THỊ HẢI YẾN

ỨNG DỤNG CÁC KỸ THUẬT TÌM KIẾM THÔNG TIN VÀO HỆ

THỐNG TÌM KIẾM ẢNH DỰA TRÊN NỘI DUNG

LUẬN VĂN THẠC SĨ KỸ THUẬT CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC

1 PGS.TS NGUYỄN KIM ANH

2 TS NGUYỄN THỊ OANH

Hà Nội - năm 2013

Trang 2

LỜI CAM ĐOAN

thuật tìm kiếm thông tin vào hệ thống tìm kiếm ảnh dựa trên nội dung” là công

trình nghiên cứu thực sự của cá nhân, được thực hiện trên cơ sở nghiên cứu lý

Trang 3

LỜI CẢM ƠN

Để hoàn thành chương trình cao học và viết luận văn này, tôi xin chân thành

Đại học Bách Khoa Hà Nội đã tận tình dạy bảo tôi trong thời gian học

Nguyễn Thị Oanh viện Công nghệ thông tin và Truyền thông, trường Đại học

Bách khoa Hà Nội, đã khuyến khích và tận tình hướng dẫn tôi trong suốt quá trình thực hiện luận văn Nhờ sự quan tâm chỉ bảo và những ý kiến đóng góp quý báu của các cô, tôi mới có thể hoàn thành luận văn này

Tôi cũng xin cảm ơn Ban giám hiệu và các đồng nghiệp tại trường Đại học Hùng Vương đã tạo điều kiện về thời gian để tôi có thể học tập và hoàn thành luận văn này

Cuối cùng tôi xin chân thành cảm ơn gia đình, người thân đã hết lòng giúp đỡ,

hỗ trợ về vật chất lẫn tinh thần giúp tôi yên tâm học tập và nghiên cứu trong suốt quá trình học tập và thực hiện luận văn

Trang 4

MỤC LỤC

LỜI CAM ĐOAN 1

LỜI CẢM ƠN 2

MỤC LỤC 3

DANH MỤC CÁC THUẬT NGỮ, TỪ VIẾT TẮT 5

DANH MỤC CÁC HÌNH VẼ 6

DANH MỤC CÁC BẢNG 8

MỞ ĐẦU 9

1 Lý do chọn đề tài 9

1.1 Mục đích, phạm vi nghiên cứu 9

1.2 Nội dung của đề tài, các vấn đề cần giải quyết: 9

1.3 Phương pháp nghiên cứu: 10

2 Cấu trúc luận văn 10

CHƯƠNG 1: TỔNG QUAN VỀ KỸ THUẬT TÌM KIẾM THÔNG TIN 11

1.1 Vấn đề về tìm kiếm thông tin 11

1.2 Mộ số mô hình tìm kiếm thông tin 12

1.2.1 Mô hình Boolean 13

1.2.2 Mô hình Boolean mở rộng (Advanced Boolean Model) 14

1.2.3 Mô hình không gian vecto (VSM- Vector Space Model) 15

1.2.4 Mô hình xác suất (Probability Model) 19

Tổng kết chương: 20

CHƯƠNG 2: 21

TỔNG QUAN VỀ TÌM KIẾM HÌNH ẢNH DỰA TRÊN NỘI DUNG 21

2.1 Giới thiệu[4] 21

2.2 Mô tả nội dung ảnh 22

2.3 Phương pháp biểu diễn ảnh (trích chọn đặc trưng) 22

2.3.1 Màu sắc (Color) 22

2.3.2 Kết cấu (Texture) 25

2.3.3 Hình dạng (Shape) 27

2.3.4 Đặc trưng cục bộ 28

2.5 Đo sự tương tự và lập chỉ mục 33

2.5.1 Đo sự tương tự / khoảng cách 33

2.5.2 Lập chỉ mục 35

2.6 Tương tác người dùng 35

2.6.1 Đặc điểm của truy vấn 35

2.6.2 Phản hồi thích đáng (RF) 36

1.7 Đánh giá hiệu suất 36

CHƯƠNG 3: 38

ỨNG DỤNG KỸ THUẬT TÌM KIẾM VĂN BẢN TRONG 38

TÌM KIẾM ẢNH DỰA TRÊN NỘI DUNG 38

3.1 Biểu diễn văn bản 38

3.2 Mô hình túi các từ trực quan (bag of visual word) 38

3.3 Các khác biệt căn bản giữa từ văn bản và từ trực quan 40

3.3.1 Từ vựng 40

3.3.2 Ngữ nghĩa của từ 41

3.3.3 Độ dài văn bản và tần số từ trong văn bản 41

3.3.4.Các truy vấn 43

3.5 Ứng dụng mô hình tìm kiếm thông tin để tìm kiếm vật thể trong video 43

3.5.2 Xây dựng bộ từ vựng hình ảnh 45

3.5.3 Lập chỉ mục hình ảnh sử dụng phương pháp tìm kiếm văn bản 46

3.5.4 Đánh giá thí nghiệm khớp cảnh sử dụng từ trực quan 47

Trang 5

3.6 Dò tìm vật thể 48

3.6.1 Danh sách dừng (stop – list) 50

3.6.2 Ràng buộc không gian 52

3.6.3 Tìm kiếm vật thể 52

KẾT LUẬN 57

1 Các nội dung đã hoàn thành trong luận văn 57

2 Hạn chế của luận văn 57

TÀI LIỆU THAM KHẢO 58

Trang 6

DANH M ỤC CÁC THUẬT NGỮ, TỪ VIẾT TẮT

STT Thu ật

Trang 7

DANH M ỤC CÁC HÌNH VẼ

Ground truth

Run Rola Run

Trang 8

23 Hình 3.13 Ví dụ truy vấn vật thể I

Trang 9

DANH M ỤC CÁC BẢNG

1 Bảng 1.1 Trọng số cục bộ của thuật ngữ ti trong văn bản dj

2 Bảng 1.2 Trọng số toàn cục của thuật ngữ t i

3 Bảng 2.1 Tính năng trích xuất từ ma trận đồng xuất hiện cấp độ màu xám

4

Bảng 3.1 Trung bình của phép đo xếp hạng được tính từ 164 hình ảnh của bộ Ground truth cho các phương pháp trọng số khác nhau

Trang 10

MỞ ĐẦU

1 Lý do chọn đề tài

nhanh về cơ sở dữ liệu ảnh Với cơ sở dữ liệu lớn như thế thì không thể sử dụng phương pháp thủ công để tìm kiếm ảnh Chính vì vậy, cần phải có những phương pháp tổ chức cơ sở dữ liệu ảnh tốt cùng với những kỹ thuật tìm kiếm ảnh hiệu quả,

có độ chính xác cao và hiệu suất tốt Song song với sự phát triển của những phương tiện kỹ thuật số, trong tương lai, số lượng ảnh sẽ còn tăng nhanh hơn nữa, nhiều hơn nữa Do đó, nhu cầu đòi hỏi phải có một công cụ hỗ trợ cho việc tìm kiếm này càng trở nên cấp thiết

“Tìm kiếm dữ liệu ảnh dựa vào nội dung” là gì? Mục đích chính của nó là lấy những hình ảnh từ cơ sở dữ liệu phù hợp với tiêu chí truy vấn Hệ thống tìm kiếm ảnh hiện nay sử dụng các đặc trưng thị giác để tìm kiếm hình ảnh Chúng cho

Tìm kiếm thông tin là lĩnh vực đã được nghiên cứu và phát triển từ rất lâu, nhất là trong việc tìm kiếm thông tin văn bản (text) Do vậy, với kiểu dữ liệu này, nhiều kỹ thuật tìm đã đánh giá là khá hiệu quả Trong khi đó, dữ liệu ảnh và video được tiếp cận muộn hơn và có những đặc thù riêng Các kỹ thuật tìm kiếm ảnh có thể được xếp vào hai nhóm chính là tìm kiếm dựa trên từ khóa (như trong Google Images) và dựa trên nội dung (ví dụ: TinEye) Mặc dù tìm kiếm ảnh dựa trên nội dung đã thu hút nhiều nghiên cứu, việc xây dựng một phương pháp tìm kiếm và đánh chỉ số hiệu quả vẫn còn là vấn đề khó khăn Một trong những xu hướng đang được quan tâm hiện nay là ứng dụng những kỹ thuật đã được phát triển tốt trong tìm kiếm thông tin vào tìm kiếm dữ liệu ảnh

tìm kiếm ảnh dựa trên nội dung” được đưa ra để tìm hiểu, nghiên cứu

1.1 Mục đích, phạm vi nghiên cứu

truyền thống vào dữ liệu ảnh Đánh giá và đề xuất cải tiến

1.2 Nội dung của đề tài, các vấn đề cần giải quyết:

Trang 11

- Tìm hiểu các kỹ thuật tìm kiếm thông tin truyền thống (text)

truyền thống vào việc tìm kiếm ảnh dựa trên nội dung

1.3 Phương pháp nghiên cứu:

Các phương pháp nghiên cứu đã được áp dụng bao gồm:

2 C ấu trúc luận văn

Chương 1 – Tổng quan về tìm kiếm thông tin

Nghiên cứu các vấn đề về tìm kiếm thông tin: hoạt động của hệ thống tìm kiếm thông tin, tìm hiểu một số mô hình tìm kiếm thông tin (mô hình Boolean, mô hình không gian vecto)

Chương 2 – Tổng quan về tìm kiếm hình ảnh dựa trên nội dung

Nghiên cứu các vấn đề về tìm kiếm ảnh dựa trên nội dung : Mô hình tìm kiếm ảnh dựa trên nội dung, các phương pháp trích chọn đặc trưng ảnh (màu sắc, kết cấu, hình dạng, đặc trưng cục bộ SIFT)

Chương 3 – Kỹ thuật tìm kiếm thông tin trong hệ thống tìm kiếm ảnh dựa trên nội dung

Đề cập tới sự tương quan giữa biểu diễn ảnh, biểu diễn thông tin Ứng dụng

mô hình vecto không gian của tìm kiếm thông tin trong tìm kiếm ảnh dựa vào nội dung

Chương 4 – Đánh giá, thử nghiệm

Trang 12

CHƯƠNG 1: TỔNG QUAN VỀ KỸ THUẬT TÌM KIẾM THÔNG TIN 1.1 Vấn đề về tìm kiếm thông tin [1][5][12]

Tìm kiếm thông tin (IR) là lĩnh vực nghiên cứu nhằm tìm ra các giải pháp tìm kiếm những dữ liệu không có cấu trúc, đặc biệt là tài liệu văn bản, được đưa vào dưới dạng câu hỏi hay một cụm từ khóa mà vẫn chưa được định dạng.Tìm kiếm

được gọi là một "collection"

Hệ thống tìm kiếm thông tin được hiểu đơn giản là một hệ thống hỗ trợ cho người sử dụng tìm tiếm thông tin một cách nhanh chóng và dễ dàng Người sử dụng

có thể đưa vào những câu hỏi, yêu cầu (dạng văn bản) và hệ thống sẽ tìm kiếm trong tập các tài liệu đã được lưu trữ để tìm ra những tài liệu có liên quan, sau đó sẽ sắp xếp các tài liệu theo mức độ liên quan giảm dần và trả về cho người sử dụng

Hình 1.1 Kiến trúc tổng thể của hệ thống IR

Một hệ thống IR thường có các bộ phận chính sau: Phân tích biểu diễn văn bản, lập chỉ mục, tìm kiếm , phản hồi thích đáng

Phân tích biểu diễn văn bản: Phân tích các văn bản thu thập được thành các

từ riêng biệt Tương tự, đối với câu truy vấn của người dùng cũng được phân tích thành các từ riêng biệt

Trang 13

Lập chỉ mục: là giai đoạn phân tích tài liệu để rút trích các đơn vị thông tin

từ tài liệu và biểu diễn lại tài liệu bởi các đơn vị thông tin đó Đơn vị thông tin có thể là từ (word), hoặc phức tạp hơn là cụm từ (phrase), khái niệm (concept) và nội dung tài liệu có thể được biểu diễn bởi một cấu trúc đơn giản như danh sách từ (cụm từ) khóa có đánh trọng số hay một dạng đồ thị giàu ngữ nghĩa hơn

Tìm kiếm: là giai đoạn tìm kiếm trong cơ sở dữ liệu những tài liệu phù hợp

với nội dung câu truy vấn trong giai đoạn tra cứu, nhu cầu thông tin của người sử

hay một dạng thức qui ước nào đó Hệ thống sẽ sử dụng một hàm so khớp để so

quan của các tài liệu với câu truy vấn và trả về các tài liệu có liên quan, được sắp hạng theo độ liên quan với câu truy vấn

Phản hồi thích đáng (RF-Relevance Feedback): Cho phép người sử dụng

đánh dấu các câu trả lời đúng và chưa đúng, phản hồi thích đáng nhằm cải tiến hiệu năng của hệ thống

Các hệ thống tìm kiếm thông tin có thể được phân loại như sau:

sách các từ khóa hay thuật ngữ để biểu diễn nội dung tài liệu và câu truy vấn Tìm kiếm theo từ khóa là tìm kiếm các tài liệu mà những từ trong câu truy vấn xuất hiện nhiều nhất, ngoại trừ stopword (các từ thông dụng a, an, the…) Giả sử nếu một câu hỏi và một tài liệu có một số từ khóa chung thì tài liệu là liên quan đến câu hỏi và dĩ nhiên là với số từ chung càng nhiều thì độ liên quan càng cao, tài liệu càng được chọn làm kết quả trả về cho người dùng Các mô hình tìm kiếm được sử dụng như

mô hình Boolean, mô hình không gian vector, mô hình xác suất, mô hình LSI

của một đối tượng thông tin được mô tả bởi một tập các khái niệm hay một cấu trúc

vực nhất định nào đó Hướng tiếp cận chính cho việc nghiên cứu các hệ thống này

là sử dụng các kỹ thuật trong xử lý ngôn ngữ tự nhiên và công nghệ ontology

Có hai tiêu chí để đánh giá một hệ thống tìm kiếm thông tin đó là: Độ chính xác và độ bao phủ thông tin

1.2 Mộ số mô hình tìm kiếm thông tin

Trang 14

Có hai hướng tiếp cận chính nghiên cứu các hệ thống IR: hướng ngữ nghĩa

về các văn bản theo ngôn ngữ tự nhiên của con người Trong phương pháp tiếp cận thống kê, những tài liệu được tìm kiếm hoặc được xếp hạng cao là những tài liệu phù hợp với truy vấn nhất theo một số tiêu chí đo lường thống kê

Hình 1.2 Các phương pháp tìm kiếm thông tin

+ Tìm kiếm thông tin theo hướng tiếp cận thống kê:

Một số mô hình nổi tiếng được nghiên cứu theo hướng tiếp cận thống kê như

theo hướng này là dùng một danh sách các term xuất hiện trong tài liệu hay câu truy vấn là dạng biểu diễn của nội dung tài liệu và câu truy vấn đó Term (viết tắt của terminology) có nghĩa là thuật ngữ, là một từ hay cụm từ biểu thị một khái niệm khoa học Khi một phép biểu diễn tài liệu được chọn, chúng ta cần mã hóa chúng

hiểu và xử lý được Phương pháp đơn giản nhất là mã hóa Boolean

1.2.1 Mô hình Boolean

Mô hình Boolean là một mô hình truy tìm thông tin được xây dựng dựa trên

lý thuyết tập hợp và đại số Boolean Nghĩa là phải thỏa mãn hai tiêu chí: Chính xác

về ngữ nghĩa và gọn gàng về hình thức Với mô hình này, mỗi tài liệu được biểu diễn bởi một vector nhị phân, tức là các vector có phần tử thuộc {0,1} Term thứ i

Trang 15

được đặc tả như một biểu thức Boolean có ngữ nghĩa chính xác, sử dụng ba phép toán cơ bản: AND, OR, NOT Quy tắc tìm kiếm của nó như sau:

OR t2) thỏa mãn tài liệu D1 khi và chỉ khi tài liệu D1 chứa t1 hoặc chứa t2

vấn (t1 AND t2) thỏa mãn tài liệu D1 khi và chỉ khi tài liệu D1 chứa t1 đồng thời cũng chứa t2

tử AND Ví dụ, câu truy vấn (t1 AND NOT t2) thỏa mãn tài liệu D1 khi và chỉ khi tài liệu D1 chứa t1 nhưng không chứa t2

Mô hình Boolean kiểm tra sự xuất hiện của một từ khóa biểu diễn một tài liệu hoặc là có hoặc là không Một truy vấn Boolean đúng hoặc là sai, tương ứng một tài liệu có liên quan hoặc không liên quan đến nội dung truy vấn Đây là một hạn chế đáng kể dẫn đến việc không thể xếp hạng kết quả trả về và không thể tìm các tài liệu chỉ liên quan cục bộ hay còn gọi là liên quan một phần với câu truy vấn (Ví dụ tài liệu D chỉ chứa thuật ngữ t2, được xem là không liên quan tới câu truy vấn q = t1 AND (t2 OR t3) bởi vì D không có t1)

Một số tinh chỉnh trong việc áp dụng mô hình Boolean cổ điển vào các hệ thống IR:

biệt của mỗi tài liệu, ví dụ điều kiện boolean có thể được áp dụng cho tiêu đề hoặc phần tóm tắt hơn là toàn bộ tài liệu

như toán tử “proximity” dùng để xác định độ gần nhau giữa hai term trong đoạn văn bản Toán tử này có thể chỉ ra rằng hai term không chỉ cùng xuất hiện trong tài liệu đang xét mà còn khác nhau trong phạm vi n từ (n=0 nghĩa là hai từ đứng liền kề nhau)

biểu diễn những cụm từ và những mối quan hệ đồng nghĩa (gần nghĩa) Ví dụ, t1 AND t2 có thể biểu diễn cho một cụm từ gồm 2 term t1 và t2 liên kết với nhau hay t1 OR t2 có thể biểu diễn cho quan hệ đồng nghĩa giữa hai term

1.2 2 Mô hình Boolean mở rộng (Advanced Boolean Model)

Trang 16

Nếu bổ sung thêm toán tử “proximity” thì điều kiện boolean vẫn là đúng hoặc sai, all – or – nothing dẫn tới trường hợp là tìm thấy một số lượng lớn tài liệu liên quan hoặc không liên quan Hơn nữa, trong trường hợp câu truy vấn bao gồm nhiều term liên kết với nhau bới toán tử OR, một tài liệu có chứa tất cả term truy vấn được xem là không tốt hơn so với một tài liệu chỉ chứa một term Trong trường hợp toán tử AND, một tài liệu chứa được gần hết các term vẫn được xem là không phù hợp giống như một tài liệu không chứa term nào Từ hạn chế trên, nhiều mô hình boolean mở rộng đã được nghiên cứu phát triển nhằm xếp hạng các kết quả trả

về Những mô hình này sử dụng nhiều toán tử boolean mở rộng khác Ví dụ, một toán tử boolean mở rộng có thể trả về một giá trị cho đối số nằm trong khoảng 0 đến

1 (thay vì chỉ là 2 số hoặc 0 hoặc 1) tương ứng với mức độ phù hợp khi so khớp giữa biểu thức logic và tài liệu đang xét (mô hình p – norm là một điển hình)

Ưu điểm của mô hình Boolean:

Nhược điểm:

tài liệu liên quan hoặc không liên quan với truy vấn nên kết quả trả về hoặc quá ít hoặc quá nhiều hoặc không có gì)

tài liệu và câu truy vấn

không đơn giản, người dùng sẽ gặp khó khăn trong việc xây dựng các biểu thức truy vấn boolean

1.2.3 Mô hình không gian vecto (VSM- Vector Space Model)

VSM là một trong những mô hình thông dụng nhất của tìm kiếm thông tin

và cũng là mô hình duy nhất được sử dụng để tìm kiếm hình ảnh dựa vào từ trực quan Nó mô tả các văn bản như là các vecto của một không gian vecto có các chiều

là thuật ngữ chỉ mục Sự tương tự giữa hai văn bản được tính bằng góc giữa hai vecto (khoảng cách cosin), hoặc bằng khoảng cách giữa hai vecto (tiêu biểu L1 và L2) Ở đây giá trị của một vecto thành phần miêu tả độ quan trọng của thuật ngữ

Trang 17

trong một mô tả của văn bản Vì vậy nó có thể tần suất thuật ngữ hoặc bất kỳ trọng

số nào khác, với các giả thiết sau: Trọng số càng lớn, thuật ngữ chỉ mục mô tả văn

chia thành 3 phần: wij =lij.gi.nj

Trọng số cục bộ lij: Trọng số cục bộ lij phản ánh độ quan trọng của thuật ngữ trong văn bản Nó có thể làm điều đó bằng cách nhấn mạnh các thuật ngữ có tần suất cao, giảm độ ảnh hưởng của tần suất thuật ngữ hoặc chuẩn hóa tần suất thuật ngữ thông qua độ dài của văn bản

Trọng số toàn cục g i: Trọng số toàn cục nhấn mạnh độ quan trọng của thuật ngữ trong bộ sưu tập Một thuật ngữ xuất hiện nhiều trong các văn bản thì thuật ngữ

văn bản thì nó có thể trở thành một mô tả tốt của nội dung các văn bản này Trọng

số toàn cục truyền thống trong IR là tần suất văn bản ngược IDF

Nhân tố chuẩn hóa n j: Nhân tố chuẩn hóa chỉ phụ thuộc vào văn bản bởi vì

này rất cần thiết để có thể so sánh khoảng cách, vì vậy có thể xếp hạng các văn bản một cách hiệu quả cho một truy vấn

Trọng số cục bộ

Trọng số cục bộ mà chúng ta xem xét trong bài viết này được miêu tả trong bảng 1

Tần số thuật ngữ: Chỉ là số tần xuất tfij của thuật ngữ titrong văn bản dj

Thuật toán tần xuất: Được xây dựng nhằm mục đích giảm sự quan trọng của

các thuật ngữ tần suất cao và nhờ vậy thuật ngữ truy vấn có tần suất trong văn bản thấp vẫn có thể có vai trò trong khoảng cách truy vấn văn bản

Tần suất chuẩn hóa tăng cường: Trọng số cục bộ này được đề xuất trong hệ

thống tìm kiếm SMART Nó bao gồm hai phần:

kj d t

ij

tf tf

j

k∈

qua thuật ngữ có tần suất cao nhất trong văn bản Trong tìm kiếm văn bản, nó gần bằng với tần suất thuật ngữ chuẩn hóa thông qua độ dài của văn bản

số a và một trọng số tần suất 1-a

Trọng số nhị phân: Nó đếm số thuật ngữ hiện diện và không quan tâm đến

thông tin tần suất

Chuẩn hóa DFR: Trọng số này chuẩn hóa tần suất thuật ngữ thông qua độ

dài văn bản chúng ta tách được nó từ định nghĩa của điểm số kết hợp DFR

Trang 18

Tần suất thuật ngữ bình phương: Nó làm cho một thuật ngữ trở nên quan

trọng hơn với tần suất nội văn bản cao hơn

Tần suất thuật ngữ BM25: Tần suất chuẩn hóa này được lấy từ công thức

BM25 Nó chuẩn hóa tần suất thuật ngữ thông qua độ dài văn bản với mô hình xác suất nhất định

B ảng 1.1 Trọng số cục bộ của thuật ngữ ti trong văn bản dj (lj: độ dài văn bản

dj lavg: độ dài trung bình)

Trọng số toàn cục

Xem công thức trong bảng 2:

Bảng 1.2 Trọng số toàn cục của thuật ngữ t i (N: Số văn bản trong bộ sưu tập, df i : số văn bản chứa thuật ngữ t i , tf i : tần số của thuật ngữ t i trong văn bản chứa nó) Tần suất văn bản ngược (IDF): Tần suất văn bản ngược nhấn mạnh các thuật

ngữ xuất hiện trong một số ít các văn bản Trong tìm kiếm hình ảnh chúng ta cũng thấy rằng các từ tần suất cao ứng với các từ trực quan không quan trọng

Xác suất IDF: Trọng số này có cùng cơ sở với IDF truyền thống nhưng dựa

trên nền tảng xác suất, nó được lấy từ công thức BM25

IDF bình phương: Cho một thuật ngữ có IDF càng cao độ quan trọng càng lớn (Trung bình TF)*IDF: chúng ta tạo trọng số toàn cục này cho hình ảnh Ý tưởng là trung bình tần suất của một từ trực quan có thể là gợi ý tốt cho độ quan trọng của nó Nó dựa trên hai nhận xét:

xe, cửa sổ…

Trang 19

- (Trung bình TF) bình phương*IDF: Nó làm cho (Trung bình TF)*IDF trở

nên quan trọng hơn

Chuẩn hóa:

Nhân tố chuẩn hóa có mục đích nhằm làm cho tất cả các khoảng cách văn bản truy vấn trở về cùng một khoảng, vì vậy ta có thể so sánh chúng để xếp hạng các văn bản Nó cũng phải nhất quán với khoảng cách đã được sử dụng Với bất kỳ khoảng cách Minkowsky Lk, chuẩn hóa tương ứng sẽ trở thành đảo của định mức

Lk của vecto văn bản:

i

k ij Lk

j

w D

q d

Ưu điểm của mô hình không gian vecto:

cho phép tìm kiếm gần đúng (partical matching)

liên hệ giữa các từ khóa biểu diễn

lưu trữ

Trang 20

- Độ phức tạp khi tìm kiếm: O(M x N) lớn khi M, N lớn (M: số từ trong từ điển- tiếng anh> 10 000 000 từ)

1.2.4 Mô hình xác suất (Probability Model)

Mô hình xác suất tính toán độ tương quan giữa câu hỏi và tài liệu dựa vào xác suất mà tài liệu đó liên quan đến câu hỏi Các lý thuyết về xác suất được áp dụng để tính toán độ liên quan giữa câu hỏi và tài liệu

Mô hình xác suất xem xét các phụ thuộc và quan hệ của các thuật ngữ Nó dựa trên bốn tham số sau đây:

P (rel): xác suất tính phù hợp của tài liệu

P(nonrel): xác suất tính không phù hợp của tài liệu

truy vấn Giả sử rằng tập tài liệu được chia làm hai phần: ứng với một câu truy vấn

q, một tài liệu sẽ có liên quan hay không Một tài liệu có liên quan đến câu truy vấn hay không khi người dùng chấp nhận nó (L) và ngược lại một tài liệu không liên quan khi không được người dùng chấp nhận ( ~L) Một nguyên tắc xếp hạng được đặt ra như sau:

( ) ( ( ) )

j

j j

d L P

d L P d

score

~

=Trong đó P( )L d j là xác suất tài liệu dj liên quan với câu truy vấn q và P ~( L d j)

Áp dụng Bayes, ta có thể viết lại các xác suất có điều kiện như sau:

( ) ( ) ( )

P

L P L d P d

score

j

j j

~

=

Trong đó, dj có thể được biểu diễn bởi các thuộc tính hay đặc trưng fi của nó Giả

Trang 21

L P L A P d

score

~

~Hàm xếp hạng này được chuyển đổi logarit và khi đó các hằng số P(L), P(~L) sẽ được loại bỏ, ta được công thức sau:

i d

i i

P P

P P d

score

1 1

hợp (P( )A L =P i( )1−P i )

Ưu điểm của mô hình xác suất:

câu truy vấn

1.4 Đánh giá hiệu năng của hệ thống tìm kiếm thông tin

Để đánh giá được hiệu năng của hệ thống tìm kiếm thông tin thường sử dụng các độ đo thông dụng:

mô hình xác suất Đánh giá ưu, nhược điểm của các loại mô hình này

Trang 22

dữ liệu được khai thác được miêu tả bởi những vecto đa chiều Các vecto đặc trưng của hình ảnh trong cơ sở dữ liệu tạo thành cơ sở dữ liệu đặc trưng Để truy tìm hình ảnh, người dùng cung cấp cho hệ thống những hình mẫu hoặc hình phác thảo Sau

đó hệ thống chuyển những mẫu đó thành đại diện nội bộ của các vecto đặc trưng

Sự giống và khác nhau giữa các vecto đặc trưng của hình mẫu truy vấn hoặc phác thảo truy vấn được thực hiện với sự giúp đỡ của chương trình lập chỉ mục Chương trình lập chỉ mục cung cấp cách thức tìm kiếm hiệu quả cho cơ sở dữ liệu hình ảnh

Hệ thống truy tìm hiện nay có kết hợp thông tin phản hồi thích đáng của người dùng

để sửa đổi qui trình truy hồi nhằm tạo cho kết quả có ý nghĩa về mặt nhận thức và ngữ nghĩa hơn

Hình 2.1 Sơ đồ tìm kiếm ảnh dựa trên nội dung

Query formation: Thông tin người dùng cung cấp truy vấn

Image database: Cơ sở dữ liệu hình ảnh

Visual content descriprion: Mô tả nội dung hình ảnh

Trang 23

Feature database: Cơ sở dữ liệu đặc trưng

Similarity Coparison: So sánh sự giống nhau

Indexing & retrieval: Lập chỉ mục và tìm kiếm

Retrieval results: Kết quả tìm kiếm

2 2 Mô tả nội dung ảnh

Nội dung ảnh tổng quát gồm màu sắc, kết cấu, hình dạng, mối liên quan không gian,… Miền nội dung hình ảnh cụ thể, ví dụ như mặt người là ứng dụng phụ thuộc và có thể bao gồm kiến thức về miền Nội dung ngữ nghĩa được lấy bằng chú thích kết cấu hoặc bằng quá trình suy luận phức tạp dựa vào nội dung thị giác Chương này tập chung vào mô tả nội dung thị giác tổng quát

Một mô tả nội dung ảnh có thể là toàn cục hoặc cục bộ Mô tả toàn cục nội dung tính chất của cả hình ảnh trong khi mô tả cục bộ sử dụng tính chất của các vùng hoặc vật thể để miêu tả nội dung hình ảnh Để có được mô tả cục bộ, hình ảnh được chia thành các phần trước Cách đơn giản nhất để chia hình ảnh là sử dụng kĩ thuật phân vùng Kỹ thuật này cắt hình ảnh thành các phần có hình dạng và kích thước bằng nhau Một phương pháp tốt hơn là đưa hình ảnh thành các vùng đồng nhất thông qua vài tiêu chí sử dụng thuật toán phân khúc khu vực Một cách phức tạp hơn để phân chia 1 hình ảnh là làm 1 đối tượng phân khúc đầy đủ để có được các vật thể có ngữ nghĩa (VD: quả bóng, xe ô tô, con ngựa)

2 3 Phương pháp biểu diễn ảnh (trích chọn đặc trưng)

Trong tìm kiếm ảnh theo nội dung, việc lựa chọn các đặc trưng thích hợp với từng loại truy vấn và miền ứng dụng cùng với các độ đo tương đồng tương ứng là

2 3.1 Màu sắc (Color)

Màu sắc là đặc trưng thị giác được sử dụng rộng rãi trong tìm kiếm hình ảnh Một số mô tả màu sắc được sử dụng thường xuyên: biểu đồ màu sắc, vecto liên kết màu, lược đồ tương quan màu và các moment màu Khi mô tả màu sắc trước hết cần phải xác định không gian màu đầu tiên

Không gian màu (color space):

Không gian màu là mô hình đại diện cho màu về giá trị độ sáng Một không gian màu xác định có bao nhiêu thông tin màu được thể hiện Mỗi pixel của hình ảnh có thể được đại diện bằng 1 điểm trong 1 không gian màu 3 chiều Thông

Trang 24

thường không gian màu 3 chiều được sử dụng cho tìm kiếm hình ảnh bao gồm RGB, Munsell, CIEL*a*b, CIEL*u*v, HSV (hoặc HSL, HSB) và 1 không gian màu đối lập Một số mô tả màu sắc được sử dụng thường xuyên: biểu đồ màu sắc, vecto liên kết màu, lược đồ tương quan màu và các moment màu

được cấu thành từ 3 màu cơ bản đỏ (Red), xanh lá cây (Green) và xanh lam (Blue)

Hình 2.2 Không gian màu RGB

thành phần của nó là màu lục lam, đỏ tươi và màu vàng

Hình 2.3: Mô hình màu CMY

Moment màu (Color moment)

Moment màu được sử dụng thành công trong rất nhiều hệ thống tìm kiếm (như QIBC) đặc biệt khi hình ảnh chỉ bao gồm các vật thể Do chỉ cần 9 số (3 momen cho mỗi 3 màu thành phần) được sử dụng để mô tả nội dung màu sắc cho hình ảnh, momen màu là mô tả rất gọn nhẹ so với các đặc trưng màu khác Thông thường, momen màu được sử đụng đầu tiên thể thu gọn không gian tìm kiếm trước khi các đặc tính màu khác được sử dụng

Trang 25

Biểu đồ màu (Color Histogram)

Biểu đồ màu mô tả nội dung khi màu khác biệt hoàn toàn so với phần dữ liệu còn lại Do mỗi điểm ảnh được mô tả bởi 3 thành phần trong không gian màu, mỗi biểu đồ phân bố của các điểm ảnh cho từng bin lượng hóa có thể được định nghĩa cho từng thành phần Càng nhiều bin thì khả năng phân biệt càng lớn Tuy nhiên, 1 biểu đồ có quá nhiều bin không chỉ tăng chi phí tính toán mà còn không xây dựng chỉ số hiệu quả cho dữ liệu hình ảnh

Hơn thế nữa, 1 bin lượng hóa tốt cũng không làm tăng hiệu suất tìm kiếm trong nhiều ứng dụng Để giảm số lượng bin là sử dụng không gian màu đối lập để lấy mẫu độ sáng của biểu đồ Một cách khác là sử dụng phương pháp phân nhóm để xác định k màu tốt nhất trong 1 không gian màu cho sẵn cho 1 bộ ảnh tương ứng Việc giảm số lượng bin này không giảm hiệu suất của việc chọn biểu đồ phù hợp nhưng nó có thể nâng cao điều đó vì biểu đồ bin nhỏ khá là nhiễu

Vecto liên kết màu (Color Coherence Vector)

Một cách khác để kết hợp thông tin không gian vào biểu đồ màu là vecto liên kết màu (CCV) Mỗi bin biểu đồ được chia làm 2 loại: liên kết nếu nó thuộc về 1 vùng màu đồng nhất rộng lớn hoặc không liên kết nếu nó không như vậy Chọn

i

α

là số lượng điểm ảnh liên kết trong 1 hình ảnh Như vậy CCV của hình ảnh được xác định bởi vecto <(α1,β1), (α2,β2), …,(αN,βN)> Trong đó <α1,+β1, α2 +β2,

cung cấp kết quả tìm kiếm tốt hơn so với biểu đồ màu, đặc biệt là với hình ảnh có màu hầu như đồng nhất hoặc hầu hết vùng vân ảnh Thêm vào đó, không gian HSV cho kết quả tố hơn CIEL*a*b, CIEL*u*v với cả biểu đồ màu và CCV

Lược đồ màu (Color Correlogram)

Lược đồ màu được đề xuất để phân biệt không chỉ phân bố các điểm ảnh mà còn tương quan không gian giữa các cặp màu Không gian thứ nhất và thứ hai của biểu đồ 3 chiều là 1 bảng mục lục của các cặp màu, trong đó điểm k(i,j) xác định xác suất tìm một điểm ảnh của màu j tại khoảng cách k từ 1 điểm ảnh I trong ảnh

c(i) Từ đó lược đồ màu được xác định bằng công thức:

Trang 26

[p I p p k]

I p I p

k

j

i c

2

1 p

kết hợp thì kích thước của lược đồ rất lớn [O(N2d)] Vì vậy người ta sử dụng 1 phiên bản đơn giản hơn gọi là lược đồ tự tương quan màu Nó sẽ tự động chỉ xét đến các tương quan không gian giữa những màu giống nhau giảm còn O(Nd) So với CCN thì lược đồ tương quan màu cho kết quả tìm kiếm tốt hơn nhưng cũng đắt nhất do tính đa chiều cao

Các đặc tính màu bất biến (Invariant Color Features)

Màu sắc không chỉ phản ánh chất liệu bề mặt mà còn thay đổi rất lớn bởi sự thay đổi độ sáng, định hướng của bề mặt, và góc nhìn Tính bất biến với những yếu

tố môi trường không được xét đến trong hầu hết những đặc trưng màu được nêu trên Mô tả màu bất biến được biết đến trong tìm kiếm hình ảnh dựa vào nội dung Những đặc tính màu bất biến khi được áp dụng trong tìm kiếm hình ảnh có thể thể hiện độ sáng, khung cảnh và góc nhìn Nhưng nó có tính phân biệt cao giữa các hình ảnh

2.3.2 Kết cấu (Texture)

Đặc trưng tamura (Tamura Features)

Đặc trưng tamura bao gồm độ thô (chi tiết của kết cấu ảnh), độ tương phản, phương hướng, hình dạng phần tử của vân ảnh, tính đều đặn và độ thô ráp, những yếu tố này được thiết kế theo những nghiên cứu tâm lý về nhận thức của con người đối với vân ảnh Trong đó độ thô, độ tương phản, phương hướng được sử dụng trong một số hệ thống tra cứu ảnh trước đó như QBIC, photobook

Đặc trưng Wold (Wold Features)

thuộc tính cảm nhận Ba thành phần của wold bao gồm độ hài hòa, độ phai mờ và

độ bất định tương ứng với chu kỳ, hướng và tính ngẫu nhiên của kết cấu tương ứng

Mô hình tự hồi qui đồng thời (SAR - Simultaneous Auto-Regressive Model)

Mô hình SAR là một ví dụ của mô hình miền ngẫu nhiên Markov (là mô hình được sử dụng trong việc mô tả kết cấu ở những thập niên trước) So sánh với những mô hình MRF khác, SAR sử dụng ít tham số hơn Trong mô hình SAR,

Trang 27

cường độ điểm ảnh được lấy làm biến ngẫu nhiên Cường độ g(x,y) tại điểm ảnh (x,y) có thể được dự đoán bằng mô hình tuyến tính của giá trị điểm ảnh lân cận

mô hình SAR tuần hoàn (RISAR), các điểm ảnh nằm trên đường tròn bán kính r có tâm tại điểm ảnh (x,y) là tập lân cận D

Đặc tính lọc Gabor (Gabor Filter Features)

Lọc Gabor đã được sử dụng rộng rãi trong phân tách đặc trưng hình ảnh, đặc biệt trong đặc trưng kết cấu Nó tối ưu hóa việc giảm thiểu sự bất ổn chung trong không gian và tần suất, và nó thường được sử dụng như định hướng và tỷ lệ biên điều hướng và phát hiện đường Có rất nhiều phương thức để tiếp cận việc mô tả kết cấu của hình ảnh dựa trên lọc Gabor

Các đặc trưng biến đổi sóng (Wavelet Transform Features)

Giống với lọc Gabor, biến đổi sóng cung cấp một phương thức đa phân giải

để phân tích kết cấu và phân loại Biến đổi sóng phân tách một tín hiệu với một họ

Ma trận đồng xuất hiện (Co-occurrence matrix )

Ma trận đồng xuất hiện xem xét đến sự phân phối mức xám của ảnh và mối tương quan giữa chúng Các giá trị pixel được sử dụng để xây dựng nên một cấu trúc số có liên quan đến kết cấu của một hình ảnh Mô hình này chủ yếu dựa trên mối tương quan giữa một pixel và các láng giềng của nó Trong ma trận này các chỉ

số hàng và cột là phạm vi các mức xám, giá trị P(i,j) ở vị trị (i,j) là tần số mức xám i

và j xuất hiện đồng thời với khoảng cách và hướng nhất định

Có 14 giá trị thống kê được đưa ra bởi Haralick Các giá trị này của kết cấu

có thể trích xuất được từ ma trận trở thành một vecto đặc trưng Bốn trong số đó được xem xét trong bảng 2.1

j

j i p

,

2 ,

j i p

, 1 ,

Bảng 2.1 Tính năng trích xuất từ ma trận đồng xuất hiện cấp độ màu xám

Trang 28

2 3.3 Hình dạng (Shape)

So sánh với đặc trưng màu sắc và kết cấu, đặc trưng hình dạng thường được

mô tả sau khi hình ảnh đã được phân thành các vùng hoặc đối tượng Do khoanh vùng hình ảnh chính xác rất khó, việc sử dụng đặc trưng hình dạng cho tìm kiếm hình ảnh đã bị hạn chế chỉ dùng cho các ứng dụng đặc biệt khi các đối tượng hoặc vùng đã được khoanh trước

Moment bất biến (Moment Invariants)

Mô tả hình dạng cổ điển sử dụng một tập các moment bất biến Nếu đối tượng R được đại diện bởi một ảnh nhị phân thì moment trung tâm bậc p+q cho hình dạng của vật thể R được xác định bởi:

q c

p c q

) , (

0 , 0

, ,

++

1 , 2 3 , 0 2 , 1 0 , 3 1 , 1 2 1 , 2 3 , 0 2 2 , 1 0 , 3 2 , 0 0 , 2 6

2 2 , 1 0 , 3 2 1 , 2 3 , 0 1 , 2 3 , 0 1 , 2 3 , 0

2 1 , 2 3 , 0 2 2 , 1 0 , 3 2 , 1 0 , 3 2 , 1 0 , 3 5

2 1 , 2 3 , 0 2 2 , 1 0 , 3 4

2 1 , 2 3 , 0 2 2 , 1 0 , 3 3

2 1 , 1 2 2 , 0 0 , 2 2

2 , 0 0 , 2 1

) (

3 ) (

( 3

(

) )(

( 4 ) (

) (

(

) (

3 ) (

( 3 (

) (

3 ) (

( 3 (

) (

) 3 ( ) 3 (

4 ) (

µ µ µ

µ µ µ µ µ φ

µ µ µ µ µ µ

µ µ

µ µ µ φ

µ µ µ

µ µ µ µ µ

µ µ µ

µ µ µ µ µ φ

µ µ µ

µ φ

µ µ µ

µ φ

µ µ

µ φ

µ µ φ

+

− + +

−

=

+ +

− +

−

=

+

− + +

− +

+

− + +

−

=

+ + +

=

− +

Các góc quay (Turning Angles)

Chu tuyến của một vật thể hai chiều có thể được mô tả bằng một chuỗi các

chiếu trên đường biên kín của đối tượng, có thể được xác định như sau:

Trang 29

dx x ds

dy y

x

y s

s s

'

' tan )

θ

Một vấn đề chính đối với mô tả này là nó biến đổi theo vòng quay của đối tượng và cách chọn điểm tham chiếu Nếu thay đổi điểm tham chiếu dọc theo đường

Do đó, để so sánh sự giống nhau về hình dạng giữa vật thể A và B với hàm quay của chúng, khoảng cách nhỏ nhất cần được tính toán trên tất cả các giá trị trượt

t và các góc quay ω có thể, tức là:

p p B

A t

R

d

1 1

0 ] 1 , 0 [

min )

Các đặc trưng tốt phải có các thuộc tính sau :

- Khả năng lặp lại: Với 2 ảnh được chụp ở các điều kiện khác nhau của cùng

một đối tượng/khung cảnh, đa số các đặc trưng được phát hiện trên các bộ phận của đối tượng/khung cảnh đều phải được tìm thấy ở cả hai ảnh

- Tính phân biệt/giàu thông tin: Cường độ sáng của các đặc trưng được phát

hiện phải thể hiện sự đa dạng, sao cho các đặc trưng có thể phân việc và so khớp được

- Tính cục bộ: các đặc trưng mang tính cục bộ, nhằm làm giảm khả năng bị

che khuất

- S ố lượng: số lượng các đặc trưng phải đủ lớn, sao cho phải có một số lượng

hợp lý các đặc trưng được phát hiện ngay cả trên các đối tượng có kích thước nhỏ

Định dạng
Số trang	59
Dung lượng	1,45 MB