Trình bày nguyên lý hoạt động, một số kỹ thuật tìm kiếm thông tin truyền thống, đánh giá ưu nhược điểm của các mô hình. Nguyên lý hoạt động của hệ thống tìm kiếm ảnh dựa trên nội dung, phương pháp trích chọn đặc trưng ảnh. Ứng dụng các kỹ thuật tìm kiếm thông tin trong tìm kiếm ảnh dựa trên nội dung.
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
TRẦN THỊ HẢI YẾN
ỨNG DỤNG CÁC KỸ THUẬT TÌM KIẾM THÔNG TIN VÀO HỆ
THỐNG TÌM KIẾM ẢNH DỰA TRÊN NỘI DUNG
LUẬN VĂN THẠC SĨ KỸ THUẬT CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC
1 PGS.TS NGUYỄN KIM ANH
2 TS NGUYỄN THỊ OANH
Hà Nội - năm 2013
Trang 2LỜI CAM ĐOAN
thuật tìm kiếm thông tin vào hệ thống tìm kiếm ảnh dựa trên nội dung” là công
trình nghiên cứu thực sự của cá nhân, được thực hiện trên cơ sở nghiên cứu lý
Trang 3LỜI CẢM ƠN
Để hoàn thành chương trình cao học và viết luận văn này, tôi xin chân thành
Đại học Bách Khoa Hà Nội đã tận tình dạy bảo tôi trong thời gian học
Nguyễn Thị Oanh viện Công nghệ thông tin và Truyền thông, trường Đại học
Bách khoa Hà Nội, đã khuyến khích và tận tình hướng dẫn tôi trong suốt quá trình thực hiện luận văn Nhờ sự quan tâm chỉ bảo và những ý kiến đóng góp quý báu của các cô, tôi mới có thể hoàn thành luận văn này
Tôi cũng xin cảm ơn Ban giám hiệu và các đồng nghiệp tại trường Đại học Hùng Vương đã tạo điều kiện về thời gian để tôi có thể học tập và hoàn thành luận văn này
Cuối cùng tôi xin chân thành cảm ơn gia đình, người thân đã hết lòng giúp đỡ,
hỗ trợ về vật chất lẫn tinh thần giúp tôi yên tâm học tập và nghiên cứu trong suốt quá trình học tập và thực hiện luận văn
Trang 4MỤC LỤC
LỜI CAM ĐOAN 1
LỜI CẢM ƠN 2
MỤC LỤC 3
DANH MỤC CÁC THUẬT NGỮ, TỪ VIẾT TẮT 5
DANH MỤC CÁC HÌNH VẼ 6
DANH MỤC CÁC BẢNG 8
MỞ ĐẦU 9
1 Lý do chọn đề tài 9
1.1 Mục đích, phạm vi nghiên cứu 9
1.2 Nội dung của đề tài, các vấn đề cần giải quyết: 9
1.3 Phương pháp nghiên cứu: 10
2 Cấu trúc luận văn 10
CHƯƠNG 1: TỔNG QUAN VỀ KỸ THUẬT TÌM KIẾM THÔNG TIN 11
1.1 Vấn đề về tìm kiếm thông tin 11
1.2 Mộ số mô hình tìm kiếm thông tin 12
1.2.1 Mô hình Boolean 13
1.2.2 Mô hình Boolean mở rộng (Advanced Boolean Model) 14
1.2.3 Mô hình không gian vecto (VSM- Vector Space Model) 15
1.2.4 Mô hình xác suất (Probability Model) 19
Tổng kết chương: 20
CHƯƠNG 2: 21
TỔNG QUAN VỀ TÌM KIẾM HÌNH ẢNH DỰA TRÊN NỘI DUNG 21
2.1 Giới thiệu[4] 21
2.2 Mô tả nội dung ảnh 22
2.3 Phương pháp biểu diễn ảnh (trích chọn đặc trưng) 22
2.3.1 Màu sắc (Color) 22
2.3.2 Kết cấu (Texture) 25
2.3.3 Hình dạng (Shape) 27
2.3.4 Đặc trưng cục bộ 28
2.5 Đo sự tương tự và lập chỉ mục 33
2.5.1 Đo sự tương tự / khoảng cách 33
2.5.2 Lập chỉ mục 35
2.6 Tương tác người dùng 35
2.6.1 Đặc điểm của truy vấn 35
2.6.2 Phản hồi thích đáng (RF) 36
1.7 Đánh giá hiệu suất 36
Tổng kết chương: 37
CHƯƠNG 3: 38
ỨNG DỤNG KỸ THUẬT TÌM KIẾM VĂN BẢN TRONG 38
TÌM KIẾM ẢNH DỰA TRÊN NỘI DUNG 38
3.1 Biểu diễn văn bản 38
3.2 Mô hình túi các từ trực quan (bag of visual word) 38
3.3 Các khác biệt căn bản giữa từ văn bản và từ trực quan 40
3.3.1 Từ vựng 40
3.3.2 Ngữ nghĩa của từ 41
3.3.3 Độ dài văn bản và tần số từ trong văn bản 41
3.3.4.Các truy vấn 43
3.5 Ứng dụng mô hình tìm kiếm thông tin để tìm kiếm vật thể trong video 43
3.5.2 Xây dựng bộ từ vựng hình ảnh 45
3.5.3 Lập chỉ mục hình ảnh sử dụng phương pháp tìm kiếm văn bản 46
3.5.4 Đánh giá thí nghiệm khớp cảnh sử dụng từ trực quan 47
Trang 53.6 Dò tìm vật thể 48
3.6.1 Danh sách dừng (stop – list) 50
3.6.2 Ràng buộc không gian 52
3.6.3 Tìm kiếm vật thể 52
Tổng kết chương: 56
KẾT LUẬN 57
1 Các nội dung đã hoàn thành trong luận văn 57
2 Hạn chế của luận văn 57
TÀI LIỆU THAM KHẢO 58
Trang 6DANH M ỤC CÁC THUẬT NGỮ, TỪ VIẾT TẮT
STT Thu ật
Trang 7DANH M ỤC CÁC HÌNH VẼ
Ground truth
Run Rola Run
Trang 823 Hình 3.13 Ví dụ truy vấn vật thể I
Trang 9DANH M ỤC CÁC BẢNG
1 Bảng 1.1 Trọng số cục bộ của thuật ngữ ti trong văn bản dj
2 Bảng 1.2 Trọng số toàn cục của thuật ngữ t i
3 Bảng 2.1 Tính năng trích xuất từ ma trận đồng xuất hiện cấp độ màu xám
4
Bảng 3.1 Trung bình của phép đo xếp hạng được tính từ 164 hình ảnh của bộ Ground truth cho các phương pháp trọng số khác nhau
Trang 10MỞ ĐẦU
1 Lý do chọn đề tài
nhanh về cơ sở dữ liệu ảnh Với cơ sở dữ liệu lớn như thế thì không thể sử dụng phương pháp thủ công để tìm kiếm ảnh Chính vì vậy, cần phải có những phương pháp tổ chức cơ sở dữ liệu ảnh tốt cùng với những kỹ thuật tìm kiếm ảnh hiệu quả,
có độ chính xác cao và hiệu suất tốt Song song với sự phát triển của những phương tiện kỹ thuật số, trong tương lai, số lượng ảnh sẽ còn tăng nhanh hơn nữa, nhiều hơn nữa Do đó, nhu cầu đòi hỏi phải có một công cụ hỗ trợ cho việc tìm kiếm này càng trở nên cấp thiết
“Tìm kiếm dữ liệu ảnh dựa vào nội dung” là gì? Mục đích chính của nó là lấy những hình ảnh từ cơ sở dữ liệu phù hợp với tiêu chí truy vấn Hệ thống tìm kiếm ảnh hiện nay sử dụng các đặc trưng thị giác để tìm kiếm hình ảnh Chúng cho
Tìm kiếm thông tin là lĩnh vực đã được nghiên cứu và phát triển từ rất lâu, nhất là trong việc tìm kiếm thông tin văn bản (text) Do vậy, với kiểu dữ liệu này, nhiều kỹ thuật tìm đã đánh giá là khá hiệu quả Trong khi đó, dữ liệu ảnh và video được tiếp cận muộn hơn và có những đặc thù riêng Các kỹ thuật tìm kiếm ảnh có thể được xếp vào hai nhóm chính là tìm kiếm dựa trên từ khóa (như trong Google Images) và dựa trên nội dung (ví dụ: TinEye) Mặc dù tìm kiếm ảnh dựa trên nội dung đã thu hút nhiều nghiên cứu, việc xây dựng một phương pháp tìm kiếm và đánh chỉ số hiệu quả vẫn còn là vấn đề khó khăn Một trong những xu hướng đang được quan tâm hiện nay là ứng dụng những kỹ thuật đã được phát triển tốt trong tìm kiếm thông tin vào tìm kiếm dữ liệu ảnh
tìm kiếm ảnh dựa trên nội dung” được đưa ra để tìm hiểu, nghiên cứu
1.1 Mục đích, phạm vi nghiên cứu
truyền thống vào dữ liệu ảnh Đánh giá và đề xuất cải tiến
1.2 Nội dung của đề tài, các vấn đề cần giải quyết:
Trang 11- Tìm hiểu các kỹ thuật tìm kiếm thông tin truyền thống (text)
truyền thống vào việc tìm kiếm ảnh dựa trên nội dung
1.3 Phương pháp nghiên cứu:
Các phương pháp nghiên cứu đã được áp dụng bao gồm:
2 C ấu trúc luận văn
Chương 1 – Tổng quan về tìm kiếm thông tin
Nghiên cứu các vấn đề về tìm kiếm thông tin: hoạt động của hệ thống tìm kiếm thông tin, tìm hiểu một số mô hình tìm kiếm thông tin (mô hình Boolean, mô hình không gian vecto)
Chương 2 – Tổng quan về tìm kiếm hình ảnh dựa trên nội dung
Nghiên cứu các vấn đề về tìm kiếm ảnh dựa trên nội dung : Mô hình tìm kiếm ảnh dựa trên nội dung, các phương pháp trích chọn đặc trưng ảnh (màu sắc, kết cấu, hình dạng, đặc trưng cục bộ SIFT)
Chương 3 – Kỹ thuật tìm kiếm thông tin trong hệ thống tìm kiếm ảnh dựa trên nội dung
Đề cập tới sự tương quan giữa biểu diễn ảnh, biểu diễn thông tin Ứng dụng
mô hình vecto không gian của tìm kiếm thông tin trong tìm kiếm ảnh dựa vào nội dung
Chương 4 – Đánh giá, thử nghiệm
Trang 12CHƯƠNG 1: TỔNG QUAN VỀ KỸ THUẬT TÌM KIẾM THÔNG TIN 1.1 Vấn đề về tìm kiếm thông tin [1][5][12]
Tìm kiếm thông tin (IR) là lĩnh vực nghiên cứu nhằm tìm ra các giải pháp tìm kiếm những dữ liệu không có cấu trúc, đặc biệt là tài liệu văn bản, được đưa vào dưới dạng câu hỏi hay một cụm từ khóa mà vẫn chưa được định dạng.Tìm kiếm
được gọi là một "collection"
Hệ thống tìm kiếm thông tin được hiểu đơn giản là một hệ thống hỗ trợ cho người sử dụng tìm tiếm thông tin một cách nhanh chóng và dễ dàng Người sử dụng
có thể đưa vào những câu hỏi, yêu cầu (dạng văn bản) và hệ thống sẽ tìm kiếm trong tập các tài liệu đã được lưu trữ để tìm ra những tài liệu có liên quan, sau đó sẽ sắp xếp các tài liệu theo mức độ liên quan giảm dần và trả về cho người sử dụng
Hình 1.1 Kiến trúc tổng thể của hệ thống IR
Một hệ thống IR thường có các bộ phận chính sau: Phân tích biểu diễn văn bản, lập chỉ mục, tìm kiếm , phản hồi thích đáng
Phân tích biểu diễn văn bản: Phân tích các văn bản thu thập được thành các
từ riêng biệt Tương tự, đối với câu truy vấn của người dùng cũng được phân tích thành các từ riêng biệt
Trang 13Lập chỉ mục: là giai đoạn phân tích tài liệu để rút trích các đơn vị thông tin
từ tài liệu và biểu diễn lại tài liệu bởi các đơn vị thông tin đó Đơn vị thông tin có thể là từ (word), hoặc phức tạp hơn là cụm từ (phrase), khái niệm (concept) và nội dung tài liệu có thể được biểu diễn bởi một cấu trúc đơn giản như danh sách từ (cụm từ) khóa có đánh trọng số hay một dạng đồ thị giàu ngữ nghĩa hơn
Tìm kiếm: là giai đoạn tìm kiếm trong cơ sở dữ liệu những tài liệu phù hợp
với nội dung câu truy vấn trong giai đoạn tra cứu, nhu cầu thông tin của người sử
hay một dạng thức qui ước nào đó Hệ thống sẽ sử dụng một hàm so khớp để so
quan của các tài liệu với câu truy vấn và trả về các tài liệu có liên quan, được sắp hạng theo độ liên quan với câu truy vấn
Phản hồi thích đáng (RF-Relevance Feedback): Cho phép người sử dụng
đánh dấu các câu trả lời đúng và chưa đúng, phản hồi thích đáng nhằm cải tiến hiệu năng của hệ thống
Các hệ thống tìm kiếm thông tin có thể được phân loại như sau:
sách các từ khóa hay thuật ngữ để biểu diễn nội dung tài liệu và câu truy vấn Tìm kiếm theo từ khóa là tìm kiếm các tài liệu mà những từ trong câu truy vấn xuất hiện nhiều nhất, ngoại trừ stopword (các từ thông dụng a, an, the…) Giả sử nếu một câu hỏi và một tài liệu có một số từ khóa chung thì tài liệu là liên quan đến câu hỏi và dĩ nhiên là với số từ chung càng nhiều thì độ liên quan càng cao, tài liệu càng được chọn làm kết quả trả về cho người dùng Các mô hình tìm kiếm được sử dụng như
mô hình Boolean, mô hình không gian vector, mô hình xác suất, mô hình LSI
của một đối tượng thông tin được mô tả bởi một tập các khái niệm hay một cấu trúc
vực nhất định nào đó Hướng tiếp cận chính cho việc nghiên cứu các hệ thống này
là sử dụng các kỹ thuật trong xử lý ngôn ngữ tự nhiên và công nghệ ontology
Có hai tiêu chí để đánh giá một hệ thống tìm kiếm thông tin đó là: Độ chính xác và độ bao phủ thông tin
1.2 Mộ số mô hình tìm kiếm thông tin
Trang 14Có hai hướng tiếp cận chính nghiên cứu các hệ thống IR: hướng ngữ nghĩa
về các văn bản theo ngôn ngữ tự nhiên của con người Trong phương pháp tiếp cận thống kê, những tài liệu được tìm kiếm hoặc được xếp hạng cao là những tài liệu phù hợp với truy vấn nhất theo một số tiêu chí đo lường thống kê
Hình 1.2 Các phương pháp tìm kiếm thông tin
+ Tìm kiếm thông tin theo hướng tiếp cận thống kê:
Một số mô hình nổi tiếng được nghiên cứu theo hướng tiếp cận thống kê như
theo hướng này là dùng một danh sách các term xuất hiện trong tài liệu hay câu truy vấn là dạng biểu diễn của nội dung tài liệu và câu truy vấn đó Term (viết tắt của terminology) có nghĩa là thuật ngữ, là một từ hay cụm từ biểu thị một khái niệm khoa học Khi một phép biểu diễn tài liệu được chọn, chúng ta cần mã hóa chúng
hiểu và xử lý được Phương pháp đơn giản nhất là mã hóa Boolean
1.2.1 Mô hình Boolean
Mô hình Boolean là một mô hình truy tìm thông tin được xây dựng dựa trên
lý thuyết tập hợp và đại số Boolean Nghĩa là phải thỏa mãn hai tiêu chí: Chính xác
về ngữ nghĩa và gọn gàng về hình thức Với mô hình này, mỗi tài liệu được biểu diễn bởi một vector nhị phân, tức là các vector có phần tử thuộc {0,1} Term thứ i
Trang 15được đặc tả như một biểu thức Boolean có ngữ nghĩa chính xác, sử dụng ba phép toán cơ bản: AND, OR, NOT Quy tắc tìm kiếm của nó như sau:
OR t2) thỏa mãn tài liệu D1 khi và chỉ khi tài liệu D1 chứa t1 hoặc chứa t2
vấn (t1 AND t2) thỏa mãn tài liệu D1 khi và chỉ khi tài liệu D1 chứa t1 đồng thời cũng chứa t2
tử AND Ví dụ, câu truy vấn (t1 AND NOT t2) thỏa mãn tài liệu D1 khi và chỉ khi tài liệu D1 chứa t1 nhưng không chứa t2
Mô hình Boolean kiểm tra sự xuất hiện của một từ khóa biểu diễn một tài liệu hoặc là có hoặc là không Một truy vấn Boolean đúng hoặc là sai, tương ứng một tài liệu có liên quan hoặc không liên quan đến nội dung truy vấn Đây là một hạn chế đáng kể dẫn đến việc không thể xếp hạng kết quả trả về và không thể tìm các tài liệu chỉ liên quan cục bộ hay còn gọi là liên quan một phần với câu truy vấn (Ví dụ tài liệu D chỉ chứa thuật ngữ t2, được xem là không liên quan tới câu truy vấn q = t1 AND (t2 OR t3) bởi vì D không có t1)
Một số tinh chỉnh trong việc áp dụng mô hình Boolean cổ điển vào các hệ thống IR:
biệt của mỗi tài liệu, ví dụ điều kiện boolean có thể được áp dụng cho tiêu đề hoặc phần tóm tắt hơn là toàn bộ tài liệu
như toán tử “proximity” dùng để xác định độ gần nhau giữa hai term trong đoạn văn bản Toán tử này có thể chỉ ra rằng hai term không chỉ cùng xuất hiện trong tài liệu đang xét mà còn khác nhau trong phạm vi n từ (n=0 nghĩa là hai từ đứng liền kề nhau)
biểu diễn những cụm từ và những mối quan hệ đồng nghĩa (gần nghĩa) Ví dụ, t1 AND t2 có thể biểu diễn cho một cụm từ gồm 2 term t1 và t2 liên kết với nhau hay t1 OR t2 có thể biểu diễn cho quan hệ đồng nghĩa giữa hai term
1.2 2 Mô hình Boolean mở rộng (Advanced Boolean Model)
Trang 16Nếu bổ sung thêm toán tử “proximity” thì điều kiện boolean vẫn là đúng hoặc sai, all – or – nothing dẫn tới trường hợp là tìm thấy một số lượng lớn tài liệu liên quan hoặc không liên quan Hơn nữa, trong trường hợp câu truy vấn bao gồm nhiều term liên kết với nhau bới toán tử OR, một tài liệu có chứa tất cả term truy vấn được xem là không tốt hơn so với một tài liệu chỉ chứa một term Trong trường hợp toán tử AND, một tài liệu chứa được gần hết các term vẫn được xem là không phù hợp giống như một tài liệu không chứa term nào Từ hạn chế trên, nhiều mô hình boolean mở rộng đã được nghiên cứu phát triển nhằm xếp hạng các kết quả trả
về Những mô hình này sử dụng nhiều toán tử boolean mở rộng khác Ví dụ, một toán tử boolean mở rộng có thể trả về một giá trị cho đối số nằm trong khoảng 0 đến
1 (thay vì chỉ là 2 số hoặc 0 hoặc 1) tương ứng với mức độ phù hợp khi so khớp giữa biểu thức logic và tài liệu đang xét (mô hình p – norm là một điển hình)
Ưu điểm của mô hình Boolean:
Nhược điểm:
tài liệu liên quan hoặc không liên quan với truy vấn nên kết quả trả về hoặc quá ít hoặc quá nhiều hoặc không có gì)
tài liệu và câu truy vấn
không đơn giản, người dùng sẽ gặp khó khăn trong việc xây dựng các biểu thức truy vấn boolean
1.2.3 Mô hình không gian vecto (VSM- Vector Space Model)
VSM là một trong những mô hình thông dụng nhất của tìm kiếm thông tin
và cũng là mô hình duy nhất được sử dụng để tìm kiếm hình ảnh dựa vào từ trực quan Nó mô tả các văn bản như là các vecto của một không gian vecto có các chiều
là thuật ngữ chỉ mục Sự tương tự giữa hai văn bản được tính bằng góc giữa hai vecto (khoảng cách cosin), hoặc bằng khoảng cách giữa hai vecto (tiêu biểu L1 và L2) Ở đây giá trị của một vecto thành phần miêu tả độ quan trọng của thuật ngữ
Trang 17trong một mô tả của văn bản Vì vậy nó có thể tần suất thuật ngữ hoặc bất kỳ trọng
số nào khác, với các giả thiết sau: Trọng số càng lớn, thuật ngữ chỉ mục mô tả văn
chia thành 3 phần: wij =lij.gi.nj
Trọng số cục bộ lij: Trọng số cục bộ lij phản ánh độ quan trọng của thuật ngữ trong văn bản Nó có thể làm điều đó bằng cách nhấn mạnh các thuật ngữ có tần suất cao, giảm độ ảnh hưởng của tần suất thuật ngữ hoặc chuẩn hóa tần suất thuật ngữ thông qua độ dài của văn bản
Trọng số toàn cục g i: Trọng số toàn cục nhấn mạnh độ quan trọng của thuật ngữ trong bộ sưu tập Một thuật ngữ xuất hiện nhiều trong các văn bản thì thuật ngữ
văn bản thì nó có thể trở thành một mô tả tốt của nội dung các văn bản này Trọng
số toàn cục truyền thống trong IR là tần suất văn bản ngược IDF
Nhân tố chuẩn hóa n j: Nhân tố chuẩn hóa chỉ phụ thuộc vào văn bản bởi vì
này rất cần thiết để có thể so sánh khoảng cách, vì vậy có thể xếp hạng các văn bản một cách hiệu quả cho một truy vấn
Trọng số cục bộ
Trọng số cục bộ mà chúng ta xem xét trong bài viết này được miêu tả trong bảng 1
Tần số thuật ngữ: Chỉ là số tần xuất tfij của thuật ngữ titrong văn bản dj
Thuật toán tần xuất: Được xây dựng nhằm mục đích giảm sự quan trọng của
các thuật ngữ tần suất cao và nhờ vậy thuật ngữ truy vấn có tần suất trong văn bản thấp vẫn có thể có vai trò trong khoảng cách truy vấn văn bản
Tần suất chuẩn hóa tăng cường: Trọng số cục bộ này được đề xuất trong hệ
thống tìm kiếm SMART Nó bao gồm hai phần:
kj d t
ij
tf tf
j
k∈
qua thuật ngữ có tần suất cao nhất trong văn bản Trong tìm kiếm văn bản, nó gần bằng với tần suất thuật ngữ chuẩn hóa thông qua độ dài của văn bản
số a và một trọng số tần suất 1-a
Trọng số nhị phân: Nó đếm số thuật ngữ hiện diện và không quan tâm đến
thông tin tần suất
Chuẩn hóa DFR: Trọng số này chuẩn hóa tần suất thuật ngữ thông qua độ
dài văn bản chúng ta tách được nó từ định nghĩa của điểm số kết hợp DFR
Trang 18Tần suất thuật ngữ bình phương: Nó làm cho một thuật ngữ trở nên quan
trọng hơn với tần suất nội văn bản cao hơn
Tần suất thuật ngữ BM25: Tần suất chuẩn hóa này được lấy từ công thức
BM25 Nó chuẩn hóa tần suất thuật ngữ thông qua độ dài văn bản với mô hình xác suất nhất định
B ảng 1.1 Trọng số cục bộ của thuật ngữ ti trong văn bản dj (lj: độ dài văn bản
dj lavg: độ dài trung bình)
Trọng số toàn cục
Xem công thức trong bảng 2:
Bảng 1.2 Trọng số toàn cục của thuật ngữ t i (N: Số văn bản trong bộ sưu tập, df i : số văn bản chứa thuật ngữ t i , tf i : tần số của thuật ngữ t i trong văn bản chứa nó) Tần suất văn bản ngược (IDF): Tần suất văn bản ngược nhấn mạnh các thuật
ngữ xuất hiện trong một số ít các văn bản Trong tìm kiếm hình ảnh chúng ta cũng thấy rằng các từ tần suất cao ứng với các từ trực quan không quan trọng
Xác suất IDF: Trọng số này có cùng cơ sở với IDF truyền thống nhưng dựa
trên nền tảng xác suất, nó được lấy từ công thức BM25
IDF bình phương: Cho một thuật ngữ có IDF càng cao độ quan trọng càng lớn (Trung bình TF)*IDF: chúng ta tạo trọng số toàn cục này cho hình ảnh Ý tưởng là trung bình tần suất của một từ trực quan có thể là gợi ý tốt cho độ quan trọng của nó Nó dựa trên hai nhận xét:
xe, cửa sổ…
Trang 19- (Trung bình TF) bình phương*IDF: Nó làm cho (Trung bình TF)*IDF trở
nên quan trọng hơn
Chuẩn hóa:
Nhân tố chuẩn hóa có mục đích nhằm làm cho tất cả các khoảng cách văn bản truy vấn trở về cùng một khoảng, vì vậy ta có thể so sánh chúng để xếp hạng các văn bản Nó cũng phải nhất quán với khoảng cách đã được sử dụng Với bất kỳ khoảng cách Minkowsky Lk, chuẩn hóa tương ứng sẽ trở thành đảo của định mức
Lk của vecto văn bản:
i
k ij Lk
j
j
w D
q d
Ưu điểm của mô hình không gian vecto:
cho phép tìm kiếm gần đúng (partical matching)
Nhược điểm:
liên hệ giữa các từ khóa biểu diễn
lưu trữ
Trang 20- Độ phức tạp khi tìm kiếm: O(M x N) lớn khi M, N lớn (M: số từ trong từ điển- tiếng anh> 10 000 000 từ)
1.2.4 Mô hình xác suất (Probability Model)
Mô hình xác suất tính toán độ tương quan giữa câu hỏi và tài liệu dựa vào xác suất mà tài liệu đó liên quan đến câu hỏi Các lý thuyết về xác suất được áp dụng để tính toán độ liên quan giữa câu hỏi và tài liệu
Mô hình xác suất xem xét các phụ thuộc và quan hệ của các thuật ngữ Nó dựa trên bốn tham số sau đây:
P (rel): xác suất tính phù hợp của tài liệu
P(nonrel): xác suất tính không phù hợp của tài liệu
truy vấn Giả sử rằng tập tài liệu được chia làm hai phần: ứng với một câu truy vấn
q, một tài liệu sẽ có liên quan hay không Một tài liệu có liên quan đến câu truy vấn hay không khi người dùng chấp nhận nó (L) và ngược lại một tài liệu không liên quan khi không được người dùng chấp nhận ( ~L) Một nguyên tắc xếp hạng được đặt ra như sau:
( ) ( ( ) )
j
j j
d L P
d L P d
score
~
=Trong đó P( )L d j là xác suất tài liệu dj liên quan với câu truy vấn q và P ~( L d j)
Áp dụng Bayes, ta có thể viết lại các xác suất có điều kiện như sau:
( ) ( ) ( )
P
L P L d P d
score
j
j j
~
~
=
Trong đó, dj có thể được biểu diễn bởi các thuộc tính hay đặc trưng fi của nó Giả
Trang 21L P L A P d
score
~
~Hàm xếp hạng này được chuyển đổi logarit và khi đó các hằng số P(L), P(~L) sẽ được loại bỏ, ta được công thức sau:
i d
i i
P P
P P d
score
1 1
hợp (P( )A L =P i( )1−P i )
Ưu điểm của mô hình xác suất:
câu truy vấn
Nhược điểm:
1.4 Đánh giá hiệu năng của hệ thống tìm kiếm thông tin
Để đánh giá được hiệu năng của hệ thống tìm kiếm thông tin thường sử dụng các độ đo thông dụng:
mô hình xác suất Đánh giá ưu, nhược điểm của các loại mô hình này
Trang 22dữ liệu được khai thác được miêu tả bởi những vecto đa chiều Các vecto đặc trưng của hình ảnh trong cơ sở dữ liệu tạo thành cơ sở dữ liệu đặc trưng Để truy tìm hình ảnh, người dùng cung cấp cho hệ thống những hình mẫu hoặc hình phác thảo Sau
đó hệ thống chuyển những mẫu đó thành đại diện nội bộ của các vecto đặc trưng
Sự giống và khác nhau giữa các vecto đặc trưng của hình mẫu truy vấn hoặc phác thảo truy vấn được thực hiện với sự giúp đỡ của chương trình lập chỉ mục Chương trình lập chỉ mục cung cấp cách thức tìm kiếm hiệu quả cho cơ sở dữ liệu hình ảnh
Hệ thống truy tìm hiện nay có kết hợp thông tin phản hồi thích đáng của người dùng
để sửa đổi qui trình truy hồi nhằm tạo cho kết quả có ý nghĩa về mặt nhận thức và ngữ nghĩa hơn
Hình 2.1 Sơ đồ tìm kiếm ảnh dựa trên nội dung
Query formation: Thông tin người dùng cung cấp truy vấn
Image database: Cơ sở dữ liệu hình ảnh
Visual content descriprion: Mô tả nội dung hình ảnh
Trang 23Feature database: Cơ sở dữ liệu đặc trưng
Similarity Coparison: So sánh sự giống nhau
Indexing & retrieval: Lập chỉ mục và tìm kiếm
Retrieval results: Kết quả tìm kiếm
2 2 Mô tả nội dung ảnh
Nội dung ảnh tổng quát gồm màu sắc, kết cấu, hình dạng, mối liên quan không gian,… Miền nội dung hình ảnh cụ thể, ví dụ như mặt người là ứng dụng phụ thuộc và có thể bao gồm kiến thức về miền Nội dung ngữ nghĩa được lấy bằng chú thích kết cấu hoặc bằng quá trình suy luận phức tạp dựa vào nội dung thị giác Chương này tập chung vào mô tả nội dung thị giác tổng quát
Một mô tả nội dung ảnh có thể là toàn cục hoặc cục bộ Mô tả toàn cục nội dung tính chất của cả hình ảnh trong khi mô tả cục bộ sử dụng tính chất của các vùng hoặc vật thể để miêu tả nội dung hình ảnh Để có được mô tả cục bộ, hình ảnh được chia thành các phần trước Cách đơn giản nhất để chia hình ảnh là sử dụng kĩ thuật phân vùng Kỹ thuật này cắt hình ảnh thành các phần có hình dạng và kích thước bằng nhau Một phương pháp tốt hơn là đưa hình ảnh thành các vùng đồng nhất thông qua vài tiêu chí sử dụng thuật toán phân khúc khu vực Một cách phức tạp hơn để phân chia 1 hình ảnh là làm 1 đối tượng phân khúc đầy đủ để có được các vật thể có ngữ nghĩa (VD: quả bóng, xe ô tô, con ngựa)
2 3 Phương pháp biểu diễn ảnh (trích chọn đặc trưng)
Trong tìm kiếm ảnh theo nội dung, việc lựa chọn các đặc trưng thích hợp với từng loại truy vấn và miền ứng dụng cùng với các độ đo tương đồng tương ứng là
2 3.1 Màu sắc (Color)
Màu sắc là đặc trưng thị giác được sử dụng rộng rãi trong tìm kiếm hình ảnh Một số mô tả màu sắc được sử dụng thường xuyên: biểu đồ màu sắc, vecto liên kết màu, lược đồ tương quan màu và các moment màu Khi mô tả màu sắc trước hết cần phải xác định không gian màu đầu tiên
Không gian màu (color space):
Không gian màu là mô hình đại diện cho màu về giá trị độ sáng Một không gian màu xác định có bao nhiêu thông tin màu được thể hiện Mỗi pixel của hình ảnh có thể được đại diện bằng 1 điểm trong 1 không gian màu 3 chiều Thông
Trang 24thường không gian màu 3 chiều được sử dụng cho tìm kiếm hình ảnh bao gồm RGB, Munsell, CIEL*a*b, CIEL*u*v, HSV (hoặc HSL, HSB) và 1 không gian màu đối lập Một số mô tả màu sắc được sử dụng thường xuyên: biểu đồ màu sắc, vecto liên kết màu, lược đồ tương quan màu và các moment màu
được cấu thành từ 3 màu cơ bản đỏ (Red), xanh lá cây (Green) và xanh lam (Blue)
Hình 2.2 Không gian màu RGB
thành phần của nó là màu lục lam, đỏ tươi và màu vàng
Hình 2.3: Mô hình màu CMY
Moment màu (Color moment)
Moment màu được sử dụng thành công trong rất nhiều hệ thống tìm kiếm (như QIBC) đặc biệt khi hình ảnh chỉ bao gồm các vật thể Do chỉ cần 9 số (3 momen cho mỗi 3 màu thành phần) được sử dụng để mô tả nội dung màu sắc cho hình ảnh, momen màu là mô tả rất gọn nhẹ so với các đặc trưng màu khác Thông thường, momen màu được sử đụng đầu tiên thể thu gọn không gian tìm kiếm trước khi các đặc tính màu khác được sử dụng
Trang 25Biểu đồ màu (Color Histogram)
Biểu đồ màu mô tả nội dung khi màu khác biệt hoàn toàn so với phần dữ liệu còn lại Do mỗi điểm ảnh được mô tả bởi 3 thành phần trong không gian màu, mỗi biểu đồ phân bố của các điểm ảnh cho từng bin lượng hóa có thể được định nghĩa cho từng thành phần Càng nhiều bin thì khả năng phân biệt càng lớn Tuy nhiên, 1 biểu đồ có quá nhiều bin không chỉ tăng chi phí tính toán mà còn không xây dựng chỉ số hiệu quả cho dữ liệu hình ảnh
Hơn thế nữa, 1 bin lượng hóa tốt cũng không làm tăng hiệu suất tìm kiếm trong nhiều ứng dụng Để giảm số lượng bin là sử dụng không gian màu đối lập để lấy mẫu độ sáng của biểu đồ Một cách khác là sử dụng phương pháp phân nhóm để xác định k màu tốt nhất trong 1 không gian màu cho sẵn cho 1 bộ ảnh tương ứng Việc giảm số lượng bin này không giảm hiệu suất của việc chọn biểu đồ phù hợp nhưng nó có thể nâng cao điều đó vì biểu đồ bin nhỏ khá là nhiễu
Vecto liên kết màu (Color Coherence Vector)
Một cách khác để kết hợp thông tin không gian vào biểu đồ màu là vecto liên kết màu (CCV) Mỗi bin biểu đồ được chia làm 2 loại: liên kết nếu nó thuộc về 1 vùng màu đồng nhất rộng lớn hoặc không liên kết nếu nó không như vậy Chọn
i
α
là số lượng điểm ảnh liên kết trong 1 hình ảnh Như vậy CCV của hình ảnh được xác định bởi vecto <(α1,β1), (α2,β2), …,(αN,βN)> Trong đó <α1,+β1, α2 +β2,
cung cấp kết quả tìm kiếm tốt hơn so với biểu đồ màu, đặc biệt là với hình ảnh có màu hầu như đồng nhất hoặc hầu hết vùng vân ảnh Thêm vào đó, không gian HSV cho kết quả tố hơn CIEL*a*b, CIEL*u*v với cả biểu đồ màu và CCV
Lược đồ màu (Color Correlogram)
Lược đồ màu được đề xuất để phân biệt không chỉ phân bố các điểm ảnh mà còn tương quan không gian giữa các cặp màu Không gian thứ nhất và thứ hai của biểu đồ 3 chiều là 1 bảng mục lục của các cặp màu, trong đó điểm k(i,j) xác định xác suất tìm một điểm ảnh của màu j tại khoảng cách k từ 1 điểm ảnh I trong ảnh
c(i) Từ đó lược đồ màu được xác định bằng công thức:
Trang 26[p I p p k]
I p I p
k
j
i c
2
1 p
kết hợp thì kích thước của lược đồ rất lớn [O(N2d)] Vì vậy người ta sử dụng 1 phiên bản đơn giản hơn gọi là lược đồ tự tương quan màu Nó sẽ tự động chỉ xét đến các tương quan không gian giữa những màu giống nhau giảm còn O(Nd) So với CCN thì lược đồ tương quan màu cho kết quả tìm kiếm tốt hơn nhưng cũng đắt nhất do tính đa chiều cao
Các đặc tính màu bất biến (Invariant Color Features)
Màu sắc không chỉ phản ánh chất liệu bề mặt mà còn thay đổi rất lớn bởi sự thay đổi độ sáng, định hướng của bề mặt, và góc nhìn Tính bất biến với những yếu
tố môi trường không được xét đến trong hầu hết những đặc trưng màu được nêu trên Mô tả màu bất biến được biết đến trong tìm kiếm hình ảnh dựa vào nội dung Những đặc tính màu bất biến khi được áp dụng trong tìm kiếm hình ảnh có thể thể hiện độ sáng, khung cảnh và góc nhìn Nhưng nó có tính phân biệt cao giữa các hình ảnh
2.3.2 Kết cấu (Texture)
Đặc trưng tamura (Tamura Features)
Đặc trưng tamura bao gồm độ thô (chi tiết của kết cấu ảnh), độ tương phản, phương hướng, hình dạng phần tử của vân ảnh, tính đều đặn và độ thô ráp, những yếu tố này được thiết kế theo những nghiên cứu tâm lý về nhận thức của con người đối với vân ảnh Trong đó độ thô, độ tương phản, phương hướng được sử dụng trong một số hệ thống tra cứu ảnh trước đó như QBIC, photobook
Đặc trưng Wold (Wold Features)
thuộc tính cảm nhận Ba thành phần của wold bao gồm độ hài hòa, độ phai mờ và
độ bất định tương ứng với chu kỳ, hướng và tính ngẫu nhiên của kết cấu tương ứng
Mô hình tự hồi qui đồng thời (SAR - Simultaneous Auto-Regressive Model)
Mô hình SAR là một ví dụ của mô hình miền ngẫu nhiên Markov (là mô hình được sử dụng trong việc mô tả kết cấu ở những thập niên trước) So sánh với những mô hình MRF khác, SAR sử dụng ít tham số hơn Trong mô hình SAR,
Trang 27cường độ điểm ảnh được lấy làm biến ngẫu nhiên Cường độ g(x,y) tại điểm ảnh (x,y) có thể được dự đoán bằng mô hình tuyến tính của giá trị điểm ảnh lân cận
mô hình SAR tuần hoàn (RISAR), các điểm ảnh nằm trên đường tròn bán kính r có tâm tại điểm ảnh (x,y) là tập lân cận D
Đặc tính lọc Gabor (Gabor Filter Features)
Lọc Gabor đã được sử dụng rộng rãi trong phân tách đặc trưng hình ảnh, đặc biệt trong đặc trưng kết cấu Nó tối ưu hóa việc giảm thiểu sự bất ổn chung trong không gian và tần suất, và nó thường được sử dụng như định hướng và tỷ lệ biên điều hướng và phát hiện đường Có rất nhiều phương thức để tiếp cận việc mô tả kết cấu của hình ảnh dựa trên lọc Gabor
Các đặc trưng biến đổi sóng (Wavelet Transform Features)
Giống với lọc Gabor, biến đổi sóng cung cấp một phương thức đa phân giải
để phân tích kết cấu và phân loại Biến đổi sóng phân tách một tín hiệu với một họ
Ma trận đồng xuất hiện (Co-occurrence matrix )
Ma trận đồng xuất hiện xem xét đến sự phân phối mức xám của ảnh và mối tương quan giữa chúng Các giá trị pixel được sử dụng để xây dựng nên một cấu trúc số có liên quan đến kết cấu của một hình ảnh Mô hình này chủ yếu dựa trên mối tương quan giữa một pixel và các láng giềng của nó Trong ma trận này các chỉ
số hàng và cột là phạm vi các mức xám, giá trị P(i,j) ở vị trị (i,j) là tần số mức xám i
và j xuất hiện đồng thời với khoảng cách và hướng nhất định
Có 14 giá trị thống kê được đưa ra bởi Haralick Các giá trị này của kết cấu
có thể trích xuất được từ ma trận trở thành một vecto đặc trưng Bốn trong số đó được xem xét trong bảng 2.1
j
j i p
,
2 ,
j i p
, 1 ,
Bảng 2.1 Tính năng trích xuất từ ma trận đồng xuất hiện cấp độ màu xám
Trang 282 3.3 Hình dạng (Shape)
So sánh với đặc trưng màu sắc và kết cấu, đặc trưng hình dạng thường được
mô tả sau khi hình ảnh đã được phân thành các vùng hoặc đối tượng Do khoanh vùng hình ảnh chính xác rất khó, việc sử dụng đặc trưng hình dạng cho tìm kiếm hình ảnh đã bị hạn chế chỉ dùng cho các ứng dụng đặc biệt khi các đối tượng hoặc vùng đã được khoanh trước
Moment bất biến (Moment Invariants)
Mô tả hình dạng cổ điển sử dụng một tập các moment bất biến Nếu đối tượng R được đại diện bởi một ảnh nhị phân thì moment trung tâm bậc p+q cho hình dạng của vật thể R được xác định bởi:
q c
p c q
) , (
0 , 0
, ,
++
1 , 2 3 , 0 2 , 1 0 , 3 1 , 1 2 1 , 2 3 , 0 2 2 , 1 0 , 3 2 , 0 0 , 2 6
2 2 , 1 0 , 3 2 1 , 2 3 , 0 1 , 2 3 , 0 1 , 2 3 , 0
2 1 , 2 3 , 0 2 2 , 1 0 , 3 2 , 1 0 , 3 2 , 1 0 , 3 5
2 1 , 2 3 , 0 2 2 , 1 0 , 3 4
2 1 , 2 3 , 0 2 2 , 1 0 , 3 3
2 1 , 1 2 2 , 0 0 , 2 2
2 , 0 0 , 2 1
) (
3 ) (
( 3
(
) )(
( 4 ) (
) (
(
) (
3 ) (
( 3 (
) (
3 ) (
( 3 (
) (
) (
) 3 ( ) 3 (
4 ) (
µ µ µ
µ µ µ µ µ φ
µ µ µ µ µ µ
µ µ
µ µ µ φ
µ µ µ
µ µ µ µ µ
µ µ µ
µ µ µ µ µ φ
µ µ µ
µ φ
µ µ µ
µ φ
µ µ
µ φ
µ µ φ
+
− + +
−
=
+ +
+ +
− +
−
=
+
− + +
− +
+
− + +
−
=
+ + +
=
− +
Các góc quay (Turning Angles)
Chu tuyến của một vật thể hai chiều có thể được mô tả bằng một chuỗi các
chiếu trên đường biên kín của đối tượng, có thể được xác định như sau:
Trang 29dx x ds
dy y
x
y s
s s
s s
s s
'
' tan )
θ
Một vấn đề chính đối với mô tả này là nó biến đổi theo vòng quay của đối tượng và cách chọn điểm tham chiếu Nếu thay đổi điểm tham chiếu dọc theo đường
Do đó, để so sánh sự giống nhau về hình dạng giữa vật thể A và B với hàm quay của chúng, khoảng cách nhỏ nhất cần được tính toán trên tất cả các giá trị trượt
t và các góc quay ω có thể, tức là:
p p B
A t
R
d
1 1
0 ] 1 , 0 [
min )
Các đặc trưng tốt phải có các thuộc tính sau :
- Khả năng lặp lại: Với 2 ảnh được chụp ở các điều kiện khác nhau của cùng
một đối tượng/khung cảnh, đa số các đặc trưng được phát hiện trên các bộ phận của đối tượng/khung cảnh đều phải được tìm thấy ở cả hai ảnh
- Tính phân biệt/giàu thông tin: Cường độ sáng của các đặc trưng được phát
hiện phải thể hiện sự đa dạng, sao cho các đặc trưng có thể phân việc và so khớp được
- Tính cục bộ: các đặc trưng mang tính cục bộ, nhằm làm giảm khả năng bị
che khuất
- S ố lượng: số lượng các đặc trưng phải đủ lớn, sao cho phải có một số lượng
hợp lý các đặc trưng được phát hiện ngay cả trên các đối tượng có kích thước nhỏ