1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu kĩ thuật sift trong trích trọn đặc trưng, xây dựng ứng dụng tìm kiếm ảnh

81 134 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 81
Dung lượng 7,83 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Ví dụ: một MMDBMS sẽ có khả năng truy vấn và tích hợp dữ liệu mà nó được lưu trong các CSDLkhác nhau mà có thể sử dụng các lược đồ khác nhau, cũng như việc truy vấntệp và dữ liệu lưu trữ

Trang 1

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

HOÀNG HÀ HẢI NAM

NGHIÊN CỨU KĨ THUẬT SIFT TRONG TRÍCH TRỌN ĐẶC TRƯNG, XÂY DỰNG ỨNG DỤNG TÌM KIẾM ẢNH

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Thái Nguyên, 2018

Trang 2

ĐẠI HỌC THÁI NGUYÊN

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

HOÀNG HÀ HẢI NAM

NGHIÊN CỨU KĨ THUẬT SIFT TRONG TRÍCH TRỌN ĐẶC TRƯNG, XÂY DỰNG ỨNG DỤNG TÌM KIẾM ẢNH

Chuyên ngành: Khoa học máy tính

Mã số: 8 480 101

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Người hướng dẫn khoa học: TS Vũ Vinh Quang

Thái Nguyên, 2018

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi Các sốliệu, kết quả nêu trong Luận văn là trung thực và chưa từng được ai công bốtrong bất kì công trình nào khác

Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện Luận văn này

đã được cảm ơn và các thông tin trích dẫn trong Luận văn đã được chỉ rõnguồn gốc

Thái Nguyên, ngày 26 tháng 6 năm 2018

Tác giả luận văn

Hoàng Hà Hải Nam

Trang 4

LỜI CẢM ƠN

Trước hết, với lòng kính trọng và biết ơn sâu sắc, tôi xin gửi lời cảm ơntới Tiến sĩ Vũ Vinh Quang – người đã tận tình hướng dẫn tôi trong suốt quátrình tìm hiểu, nghiên cứu và hoàn thiện luận văn

Tôi xin gửi lời cảm ơn chân thành tới Ban giám hiệu nhà trường và cácthầy cô đã trực tiếp giảng dạy, giúp đỡ tôi trong suốt thời gian học tập, nghiêncứu khoa học

Cuối cùng, tôi xin gửi lời cảm ơn đến gia đình, người thân, bạn bè,đồng nghiệp đã giúp đỡ, tạo mọi điều kiện thuận lợi cho tôi trong suốt thờigian học tập và hoàn thiện luận văn này

Thái Nguyên, ngày 26 tháng 6 năm 2018

Tác giả luận văn

Hoàng Hà Hải Nam

Trang 5

DANH MỤC CÁC HÌNH ẢNH

Hình 1.1: Kiến trúc chung của một MMDBMS 10

Hình 1.2: Mô hình hệ thống Tra cứu ảnh theo nội dung 16

Hình 2.1: Ví dụ hiển thị một ảnh 21

Hình 2.2: Truy vấn của Google “5D3” 23

Hình 2.3: Truy vấn của Google “Apple” 23

Hình 2.4: Một số loại kết cấu 24

Hình 2.5: Một kết quả trả về của Google Image 25

Hình 2.6: Một kết quả trả về của Bing 25

Hình 2.7: Một kết quả trả về của Flickr Images Search 26

Hình 2.8: Biểu đồ mô phỏng việc tính toán các DoG ảnh từ các ảnh kề mờ

35 Hình 2.9: Mỗi điểm ảnh được so sánh với 26 láng giềng của nó 36

Hình 2.10: Số lượng mẫu tỷ lệ trên mỗi Octave 36

Hình 2.11: Quá trình lựa chọn các điểm hấp dẫn 38

Hình 2.12: Biểu diễn các vector đặc trưng 41

Bảng 2.13: Một số phương pháp lựa chọn đặc trưng 42

Hình 2.14: Mô hình hệ thống IVFADCj; Hệ thống bên trái: chèn một vector vào danh sách chỉ mục ngược; hệ thống bên phải: tìm kiếm k láng giềng gần nhất 50

Hình 2.15: Mô hình giải quyết bài toán 52

Hình 3.1: Tập dữ liệu ảnh thử nghiệm 55

Hình 3.2: Người dùng chọn ảnh truy vấn 56

Hình 3.3: Đặc trưng SIFT của ảnh được trích chọn 57

Hình 3.4: 20 ảnh tương đồng với ảnh truy vấn 57

Hình 3.5: Kết quả trả về với truy vấn IphoneX 58

Hình 3.6: Kết quả trả về với truy vấn Apple 58

Hình 3.7: Một số kết quả truy vấn khác 59

Trang 6

DANH MỤC CÁC BẢNG BIỂU

Bảng 1.1: Mô tả kích thước kiểu dữ liệu 6

Bảng 3.1: Cấu hình phần cứng sử dụng trong thực nghiệm 54

Bảng 3.2: Công cụ phần mềm sử dụng trong thực nghiệm 54

Bảng 3.3: Một số thư viện sử dụng trong thực nghiệm 55

Bảng 3.4: Kết quả độ chính xác trung bình của 10 truy vấn 60

Trang 7

DANH MỤC CÁC TỪ VIẾT TẮT

thông tin

Retrieval System

Hệ thống chỉ mục và truy tìmthông tin đa phương tiện

Management System

Hệ thống quản trị cơ sở dữliệu đa phương tiện

v

Trang 8

MỤC LỤC

LỜI CAM ĐOAN i

LỜI CẢM ƠN ii

DANH MỤC CÁC HÌNH ẢNH iii

DANH MỤC CÁC BẢNG BIỂU iv

DANH MỤC CÁC TỪ VIẾT TẮT v

MỤC LỤC vi

MỞ ĐẦU 1

CHƯƠNG 1 TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN 2 1.1 Tổng quan về hệ quản trị cơ sở dữ liệu đa phương tiện

2 1.1.1 Giới thiệu chung 2

1.1.2 Các kiểu truyền thông và multimedia 5

1.1.3 Hệ quản trị cơ sở dữ liệu đa phương tiện (MMDBMS) 7

1.1.4 Truy tìm thông tin tài liệu văn bản 8

1.1.5 Truy xuất và chỉ số hoá multimedia 9

1.2 Kiến trúc tổ chức nội dung của một hệ thống cơ sở dữ liệu Multimedia 10

1.2.1 Kiến trúc hệ thống quản trị cơ sở dữ liệu đa phương tiện 10

1.2.2 Tổ chức dữ liệu đa phương tiện trên cơ sở nguyên lý thống nhất 12

1.2.3 Cấu trúc tóm tắt media 14

1.3 Tổng quan về tra cứu ảnh .

15 1.3.1 Mô hình hệ thống tra cứu ảnh theo nội dung 16

1.3.2 Một số hệ thống tra cứu ảnh theo nội dung tiêu biểu 17

CHƯƠNG 2 TRÍCH CHỌN ĐẶC TRƯNG ẢNH 20

Trang 9

2.1 Tổng quan về trích chọn đặc trưng ảnh 20 2.1.1 Đặc trưng văn bản đi kèm ảnh và tìm kiếm ảnh theo văn bản đi kèm ảnh 20

2.1.2 Đặc trưng nội dung ảnh và tìm kiếm theo đặc trưng nội dung 23

2.2 Các phương pháp trích chọn đặc trưng ảnh và độ đo tương đồng giữa các ảnh 26

Trang 10

2.2.4 Đặc trưng cục bộ bất biến SIFT

31

2.2.5 Lựa chọn đặc trưng 42

2.3 Mô hình k láng giềng gần nhất sử dụng bộ lượng tử hóa 44

2.3.1 Cơ sở lý thuyết 45

2.3.2 Thuật toán K láng giềng 50

2.3.3 Mô hình bài toán 51

CHƯƠNG 3 THỰC NGHIỆM VÀ ĐÁNH GIÁ 54

3.1 Bài toán truy vấn ảnh 54

3.1.1 Phát biểu bài toán 54

3.1.2 Cách giải quyết bài toán 54

3.2 Môi trường và các công cụ sử dụng cho thực nghiệm 54

3.2.1 Cấu hình phần cứng 54

3.2.2 Công cụ phần mềm sử dụng 54

3.2.3 Thư viện sử dụng 55

3.3 Xây dựng tập dữ liệu ảnh 55

3.4 Quy trình, phương pháp thực nghiệm 56

3.5 Kết quả thực nghiệm 59

KẾT LUẬN 62

TÀI LIỆU THAM KHẢO 63

Trang 11

MỞ ĐẦU

Cuộc cách mạng công nghiệp lần thứ tư diễn ra từ những năm 2000được gọi là cuộc cách mạng số, thông qua các công nghệ như Internet vạn vật(IoT), trí tuệ nhân tạo (AI), thực tế ảo (VR), tương tác thực tại ảo (AR), mạng

xã hội, điện toán đám mây, di động, phân tích dữ liệu lớn để chuyển hóatoàn bộ thế giới thực thành thế giới số

Sự phát triển mạnh mẽ của công nghệ ảnh số đã làm lượng ảnh lưu trữtăng lên một cách nhanh chóng đòi hỏi phải có các công cụ hỗ trợ tìm kiếmảnh hiệu quả và tiện lợi Mặc dù các công cụ tìm kiếm ảnh theo văn bản đikèm ảnh ra đời cho phép người dùng tìm kiếm ảnh với thời gian đáp ứng khánhanh, tuy nhiên, các công cụ này vẫn còn hạn chế trong việc giải quyết sựkhông thống nhất giữa nội dung câu truy vấn và nội dung hiển thị của ảnh trả

về Sự ra đời của các công cụ tìm kiếm ảnh theo nội dung ảnh đã giải quyết

kĩ thuật SIFT trong trích trọn đặc trưng, xây dựng ứng dụng tìm kiếm ảnh.

Mục tiêu của luận văn là nghiên cứu đặc trưng SIFT để tối ưu hóa chấtlượng tìm kiếm ảnh Nội dung chính của luận văn tập trung khảo sát phươngpháp trích chọn đặc trưng ảnh trong tìm kiếm và xếp hạng ảnh Trên cơ sởứng dụng phương pháp lượng tử hóa tích của Hervé Jégou và cộng sự [3],luận văn nghiên cứu mô hình tìm kiếm K láng giềng gần nhất kết hợp độ đotương đồng về khoảng cách giữa các vector đặc trưng, từ đó tiến hành xâydựng mô hình thực nghiệm tìm kiếm ảnh sản phẩm trên phần mềm Matlab

Luận văn bao gồm các nội dung sau:

Chương 1: Tổng quan về cơ sở dữ liệu đa phương tiện

Chương 2: Trích chọn đặc trưng ảnh

Chương 3: Thực nghiệm và đánh giá

Trang 12

CHƯƠNG 1 TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN

1.1 Tổng quan về hệ quản trị cơ sở dữ liệu đa phương tiện

1.1.1 Giới thiệu chung

Thế giới đang bước vào cuộc cách mạng công nghiệp lần thứ tư – mộtcuộc cách mạng sản xuất mới gắn liền với những đột phá chưa từng có vềcông nghệ, liên quan đến kết nối Internet, điện toán đám mây, in 3D, côngnghệ cảm biến, thực tại ảo Bản chất của cách mạng công nghiệp lần thứ tư

là dựa trên nền tảng công nghệ số và tích hợp tất cả các công nghệ thông minh

để tối ưu hóa quy trình, phương thức sản xuất Trong những năm gần đây, nhucầu về khai thác và xử lý dữ liệu vô cùng lớn, điều đó không dễ dàng diễn tảđược chỉ với việc sử dụng các ký tự Các kiểu dữ liệu có thể là hình ảnh,

video, tài liệu, âm thanh (dữ liệu Media) Multimedia là tập hợp các kiểu

media được sử dụng với nhau (dữ liệu đa phương tiện).

Hệ quản trị cơ sở dữ liệu (CSDL) đa phương tiện (Multimedia

DataBase Management System – MMDBMS) là một hệ thống giúp người

dùng thao tác trên các dữ liệu media một cách thích hợp và hiệu quả Các thao

tác cơ bản của hệ quản trị CSDL thường là cập nhật, chèn, xoá và tìm kiếmmột đối tượng trong CSDL Như vậy, có thể nói rằng CSDL đa phương tiện làtập hợp các dữ liệu đa phương tiện có liên quan với nhau [1] Các kiểu dữ liệuthông thường của một CSDL đa phương tiện bao gồm:

Dữ liệu hình ảnh (Image data): Bao gồm ảnh đen trắng, ảnh xám, ảnh

màu Dữ liệu hình ảnh có nhiều định dạng khác nhau (bmp, jpg, gif, png…)

Ví dụ, một học viên phẫu thuật muốn thực hành một ca phẫu thuật trên mộtbệnh nhân ảo có những triệu chứng sinh lý nào đó Trong thực tế, để tìm rabệnh nhân với những triệu chứng mong muốn, học viên phẫu thuật phải truyvấn CSDL ảnh phân tán và kích thước lớn chứa ảnh X quang hay MRI

(Magnetic Resonance Imaging) của các bệnh nhân với các triệu chứng tương

tự

Trang 13

Dữ liệu Video (Video data): Là một chuỗi các hình ảnh liên tục nhau,

đòi hỏi dung lượng lưu trữ lớn Cùng với sự phát triển bùng nổ của các thiết

bị nghe nhìn hiện đại như: Máy tính bảng, máy ảnh kĩ thuật số, điện thoạithông minh… thì kiểu dữ liệu Video đang ngày càng phổ biến khắp mọi nơi.Bên cạnh đó, sự bùng nổ của mạng xã hội cùng các hệ thống chia sẻ video

dữ liệu Video không còn là bài toán khó Do đó, việc truy xuất dữ liệu để tìmkiếm thông tin theo yêu cầu trong kho dữ liệu khổng lồ như vậy là một vấn đềrất đáng quan tâm

Giả sử, cảnh sát giao thông muốn tìm kiếm những tư liệu băng hình vềmột vụ tai nạn giao thông nào đó tại vị trí có camera theo dõi được lưu trữtrong máy chủ Như vậy, đòi hỏi phải truy vấn thư viện băng hình mà nó baogồm tập hợp vô số các băng hình tại vị trí đó

Dữ liệu âm thanh (Audio data): Dữ liệu âm thanh được sử dụng trong

những ứng dụng, thiết bị như nhận dạng giọng nói, xử lý âm thanh, điều khiểnthiết bị bằng giọng nói Ví dụ: hệ thống điều khiển xe lăn cho người tàn tật.Trong trường hợp này cần phải tập hợp các đoạn audio là các lệnh điều khiểncho xe di chuyển bằng giọng nói

Dữ liệu tài liệu (Document data): Là loại dữ liệu có mặt hầu hết trong

các ứng dụng đa phương tiện nhằm giải thích thêm cho các dữ liệu khôngphải văn bản, bao gồm: Các từ, câu, đoạn văn Một CSDL tài liệu khác vănbản ở chỗ nó không chỉ chứa các thông tin dạng văn bản thô mà còn chứađựng cả cấu trúc và hình ảnh nhúng Ví dụ: khi ta xem sách, trong sách khôngchỉ có dữ liệu văn bản mà còn bao gồm cả hình ảnh Giả sử, khi người đọcmuốn tìm một bức ảnh nào đó nhưng không thể tìm trong CSDL ảnh Tuynhiên, nếu có một thư viện điện tử số để truy cập thì việc tìm thấy bức ảnh

1 Youtube.com

2 Vimeo.com

3 Dailymotion.com

Trang 14

hệ thống quản trị CSDL có khả năng quản lý dữ liệu đa phương tiện với các

kỹ thuật truy tìm và chỉ mục mới là rất cần thiết MMDBMS là một khunglàm việc để quản lý các kiểu dữ liệu khác nhau mà chúng được thể hiện trongrất nhiều khuôn dạng khác nhau Để làm việc thành công thì một MMDBMSphải có các khả năng sau:

Có khả năng truy vấn đồng bộ dữ liệu (dữ liệu media và dữ liệu vănbản) được thể hiện trong các định dạng khác nhau Ví dụ: một MMDBMS sẽ

có khả năng truy vấn và tích hợp dữ liệu mà nó được lưu trong các CSDLkhác nhau mà có thể sử dụng các lược đồ khác nhau, cũng như việc truy vấntệp và dữ liệu lưu trữ trong DBMS hướng đối tượng hay DBMS không gian.Việc xử lý các truy vấn như vậy là khá phức tạp vì trên thực tế việc nhận biếtđược nội dung của các kiểu media là vấn đề thách thức, nó phụ thuộc rấtnhiều vào kiểu dữ liệu và cách thức lưu trữ chúng Cuối cùng, truy vấn có thể

mở rộng đối với nhiều kiểu vật mang (media) dữ liệu và MMDBMS phải cókhả năng kết hợp các kết quả từ các nguồn dữ liệu khác nhau và các kiểumedia khác nhau

Có khả năng truy vấn dữ liệu biểu diễn trong media khác nhau Ví dụ:một MMDBMS phải có khả năng truy vấn không chỉ trong CSDL hình ảnh

Trang 15

mà còn cả trong CSDL âm thanh và CSDL quan hệ, sau đó kết hợp các kếtquả với nhau

MMDBMS phải có khả năng khai thác các đối tượng mang tin (media)

từ một thiết bị lưu trữ cục bộ một cách trơn tru bởi vì các đối tượng mang tin(video, âm thanh…) thường chiếm một không gian vô cùng lớn

MMDBMS phải có khả năng tạo ra các câu trả lời từ truy vấn và cókhả năng trình diễn các câu trả lời này bằng các phương tiện nghe nhìn

Mỗi một hệ thống có đầy đủ các đặc tính yêu cầu trên là chưa đủ màcòn cần phải có khả năng phân phối các trình diễn theo một cách nào đó nhằmthoả mãn các yêu cầu khác nhau về chất lượng thể hiện của các thiết bị

1.1.2 Các kiểu truyền thông và multimedia

Đa phương tiện (multimedia) là một lĩnh vực của Công nghệ thông tin

có mục đích nghiên cứu và đề xuất các công cụ trợ giúp việc xử lý lưu trữ,truyền các dữ liệu thích hợp như: văn bản (text), biểu đồ, đồ thị (graphic),hoạt hình (animation), ảnh (image), video, audio, hoặc kết hợp các media vớinhau (video + audio + văn bản diễn giải)

Người ta thường phân media thành hai loại dựa trên quan hệ của chúngvới thời gian, đó là:

Đa phương tiện tĩnh (Static media): Không có chiều thời gian Thông tin

không liên quan tới thời gian Ví dụ cho loại này là văn bản, hình họa, ảnhchụp

Đa phương tiện động (Dynamic media): Có chiều thời gian Thông tin

có quan hệ chặt chẽ với thời gian và thông tin phải được trình diễn với thờigian xác định Ví dụ các loại audio, video, animation

So với dữ liệu truyền thống như văn bản và số, dữ liệu đa phương tiện

Trang 16

bản đó bằng định dạng ảnh GIF thì kích thước gấp khoảng 10 lần Một giọngnói đơn sắc được lưu với định dạng WAV trong thời gian 1 phút có kíchthước khoảng 2640 kByte (đã nén) hoặc xấp xỉ 6 -8 MB (chưa nén) Mộtcảnh video rất ngắn chứa hàng trăm bức ảnh với kích thước có thể lên đếnvài chục MB

Cụ thể, có thể xem bảng minh họa sau:

Bảng 1.1: Mô tả kích thước kiểu dữ liệu

Số lượng dữ liệu đồ sộ: người ta ước tính, chỉ riêng trên WWW có sốlượng lên đến hàng tỉ ảnh, hàng trăm triệu bài hát MP3 và vài chục triệuphim video

 Một số dữ liệu đa phương tiện phụ thuộc thời gian

Audio và video có thêm chiều thời gian Khi trình diễn audio và videothì chất lượng của chúng phụ thuộc chặt chẽ vào tốc độ trình diễn

Ví dụ: video phải được trình diễn với tốc độ 25 đến 30 hình/giây để cóthể cảm nhận được hình ảnh chuyển động tốt

 Tìm kiếm dựa trên cơ sở tương tự

Trong cơ sở dữ liệu quan hệ, phương pháp tìm kiếm truyền thống đốivới dữ liệu dạng văn bản và số là tìm kiếm chính xác Đối với dữ liệu đaphương tiện, người dùng thường đặt ra yêu cầu tìm kiếm một đối tượng tương

tự theo nội dung mà họ đưa ra

Trang 17

1.1.3 Hệ quản trị cơ sở dữ liệu đa phương tiện (MMDBMS)

Trung tâm của một hệ thống thông tin multimedia chính là hệ quản trịCSDL MULTIMEDIA (MDBMS) Theo truyền thống, một CSDL bao gồmmột bộ các dữ có liên quan về một thực thể cho trước hoặc một hệ quản trịCSDL (DBMS) là một bộ các dữ liệu có liên quan đến nhau với một tập hợpcác chương trình được dùng để khai báo, tạo lập, lưu trữ, và khai thác CSDL.Tương tự như vậy, chúng ta có thể xem một CSDL MULTIMEDIA là một tậpcác loại dữ liệu multimedia như văn bản, hình ảnh, video, âm thanh, các đốitượng đồ hoạ… Một hệ quản trị CSDL MULTIMEDIA (MDBMS) cung cấp

hỗ trợ cho các loại dữ liệu MULTIMEDIA trong việc tạo lập, lưu trữ, truycập, truy vấn và kiểm soát [2]

Sự khác nhau của các kiểu dữ liệu trong CSDL MULTIMEDIA có thểđòi hỏi các phương thức đặc biệt để tối ưu hoá việc lưu trữ, truy cập, chỉ sốhoá và khai thác MDBMS cần phải cung cấp các yêu cầu đặc biệt này bằngcách cung cấp các cơ chế tóm tắt bậc cao để quản lý các kiểu dữ liệu khácnhau cũng như các giao diện thích hợp để thể hiện chúng

Các yêu cầu của MDBMS:

 Các phương pháp tìm kiếm dựa theo mô tả: ví dụ, người dùng có thể đưa

ra một mô tả để tìm kiếm “tiếng chuông điện thoại”

 Giao diện người dùng độc lập với thiết bị: người dùng không cần biết cách

thức lưu trữ dữ liệu đa phương tiện như thế nào

 Giao diện người dùng độc lập với các định dạng: các truy vấn dữ liệu đa

phương tiện có thể độc lập với định dạng dữ liệu Nó cho phép có thể sửdụng các kỹ thuật lưu trữ mới mà không cần thay đổi ứng dụng cơ sở dữliệu hiện có

 Cho phép thực hiện nhiều truy cập dữ liệu đồng thời: dữ liệu đa phương

tiện có thể truy cập đồng thời qua nhiều câu truy vấn khác nhau bởi một số

Trang 18

ứng dụng Cách truy cập nhất quán nhằm chia sẻ dữ liệu có thể được thựchiện và cần có cơ chế để thỏa mãn, tránh việc tạo ra các xung đột

 Quản lý một lượng dữ liệu lớn: hệ thống cần phải có khả năng lưu trữ,

quản lý một lượng dữ liệu lớn và thỏa mãn các truy vấn đối với các quan

hệ của dữ liệu

 Vấn đề truyền dữ liệu đa phương tiện dựa trên thời gian thực: điều khiển

việc đọc/ghi dữ liệu liên tục phải được thực hiện dựa trên thời gian thực

Do lượng dữ liệu có thể là rất lớn (ví dụ: truyền video) nên việc truyền dữliệu có thể tốn nhiều thời gian và đòi hỏi phải được thực hiện một cáchchính xác

1.1.4 Truy tìm thông tin tài liệu văn bản

Truy tìm thông tin – Information Retrieval (IR) là kỹ thuật tìm kiếmthông tin được lưu trữ trên máy tính Đối với dữ liệu đa phương tiện, việc truytìm thông tin hiệu quả là dựa trên tìm kiếm tương tự Hệ thống lưu trữ một tậpcác đối tượng đa phương tiện trong cơ sở dữ liệu Người dùng đưa ra các truyvấn và hệ thống tìm ra các đối tượng tương tự truy vấn trong cơ sở dữ liệu đãlưu trữ thỏa mãn yêu cầu của người dùng Truy tìm thông tin trongMMDBMS có một số đặc điểm sau đây:

 Sử dụng một khối lượng dữ liệu đặc tả lớn và phức tạp

 Việc tiếp cận IR chủ yếu dựa trên các đặc trưng

 Các dữ liệu thường có kích thước lớn

 Sự cần thiết phải có các kỹ thuật chỉ mục dữ liệu kích thước lớn để xử

lý các truy vấn một cách hiệu quả và thực hiện nhanh hơn so vớiphương pháp tìm kiếm tuần tự

 Sự cần thiết phải tích hợp các đặc trưng media phức tạp một cáchthường xuyên (ví dụ, dữ liệu ảnh có thể chứa các đặc trưng như: hìnhdạng, biểu đồ màu, kết cấu )

Trang 19

Ý tưởng của phương pháp tìm kiếm tương tự đưa ra như sau:

Cho một tập các đối tượng đa phương tiện trong MMDBMS

Tìm ra một hoặc một số K đối tượng tương tự (giống) nhất với đốitượng truy vấn mong muốn một cách nhanh chóng

1.1.5 Truy xuất và chỉ số hoá multimedia

Các DBMS truy xuất các khoản mục dựa trên số liệu có cấu trúc khi sửdụng kết nối chính xác IR cũng được gọi là truy xuất dựa trên văn bản Việctruy xuất dựa vào nội dung đề cập đến việc truy xuất dựa trên những nét đặctrưng truyền thống hiện nay như là màu sắc, hình dạng thay cho lời giải thíchvăn bản về khoản mục truyền thông đó

Việc truy xuất dựa trên nội dung là chuẩn dựa trên sự đồng dạng thay vìmột kết nối chính xác giữa một truy vấn và một tập các khoản mục dữ liệu

MIRS đề cập đến một hệ thống cơ sở cung cấp việc truy xuất thông tinmultimedia khi sử dụng một tổ hợp DBMS, IR và các kỹ thuật truy xuất dựatrên nội dung Trong một MIRS, một vài vấn đề như phiên bản và điều khiển

an toàn có thể không thực hiện được đầy đủ Một MIRS đủ bản lĩnh ra đờiđược gọi là MDBMS

Ví dụ: một video tài liệu cần phải sử dụng video, hình ảnh, văn từ, âmthanh, lời nói và những thứ tương tự như vậy Vì vậy phương tiện dò tìm phảikết nối các câu hỏi với các mục cơ sở dữ liệu Các loại truyền thông khácnhau cần các kỹ nghệ phục hồi và cách biểu thị khác nhau

Để việc truy tìm có hiệu quả, cần có một cấu trúc các khoản mục hợp

lý Bởi vì các vector đặc trưng đều đa dạng về kích cỡ và việc truy tìm cáckhoản mục trong các MIRS dựa trên sự tương đồng thay cho việc kết nốichính xác, cấu trúc mục lục được sử dụng trong các DBMS không thích hợpvới các MIRS

Trong các DBMS, tiến hành chính liên quan đến hiệu quả (thời gian trảlời câu hỏi) rất quan trọng bởi kích cỡ lớn của multimedia Ngoài ra, hiệu quả

Trang 20

truy tìm cũng rất quan trọng bởi các MIRS truy tìm các mục chọn dựa trên cơ

sở đo sự tương đồng, sử dụng luật tương ứng thay thế cho kết nối chính xác

1.2 Kiến trúc tổ chức nội dung của một hệ thống cơ sở dữ liệu Multimedia 1.2.1 Kiến trúc hệ thống quản trị cơ sở dữ liệu đa phương tiện

Phát triển một MMDBMS bao gồm các bước sau:

 Bước 1 Thu thập media: Các dữ liệu media được thu thập từ cácnguồn khác nhau như Camera, CD, DVD, Internet

 Bước 2 Xử lý media: Mô tả các đoạn trích media và các đặc trưngcủa chúng, bao gồm cả lọc nhiễu và tách thô

 Bước 3 Lưu trữ media: Dựa vào yêu cầu cụ thể của ứng dụng để lưu

dữ liệu và các đặc trưng của chúng vào hệ thống

 Bước 4 Tổ chức media: Tổ chức các đặc trưng để phục vụ việc truytìm Ví dụ: chỉ mục các đặc trưng với các cấu trúc giúp khai thác hiệu quả

 Bước 5 Xử lý truy vấn media: Là quá trình làm cho thích nghi vớicấu trúc chỉ mục Thiết kế các giải thuật tìm kiếm hiệu quả

Kiến trúc chung cho một MMDBMS được minh họa như sau:

Trang 21

MMDBM S

ều môđun

11

Trích chọn đặc trưng

Chỉ mục

Xây dựng truy vấn đặc

Các đối tượng media

Search engine MM

DB MS

phản hồi

chức năng khácnhau nhằm hỗ trợ các thao tác trên dữ liệu đa phương tiện Hệ thống bao gồmcác môđun chính sau đây:

Trang 22

- Giao diện người dùng

- Bộ trích chọn đặc trưng

- Chỉ số hóa và tìm kiếm

- Quản lý truyền thông

Trong đó, có hai thao tác cơ bản là:

 Bổ sung dữ liệu đa phương tiện mới

Thao tác bổ sung được thực hiện theo trình tự các bước như sau:

- Bước 1: Dữ liệu đa phương tiện mới được bổ sung thông qua nhiềucách khác nhau như nhập trực tiếp từ bàn phím, từ microphone, camera hay từbất kỳ thiết bị nhập kỹ thuật số khác Dữ liệu đa phương tiện cũng có thểđược lấy từ các tệp đã lưu sẵn

- Bước 2: Sau khi dữ liệu đa phương tiện được bổ sung, nội dung củachúng được trích chọn bằng công cụ trích chọn đặc trưng

- Bước 3: Các dữ liệu đa phương tiện được bổ sung cùng với các đặctrưng của nó, thông qua bộ quản lý truyền tin sẽ được gửi về máy chủ

- Bước 4: Tại máy chủ, các đặc trưng sẽ được bố trí về các vị trí phùhợp dựa vào lược đồ chỉ số hóa

- Bước 5: Các dữ liệu đa phương tiện bổ sung cùng với các đặc trưng

và chỉ số hóa phát sinh được lưu vào bộ quản lý lưu trữ

 Truy vấn

Thao tác truy vấn được thực hiện theo trình tự các bước như sau:

- Bước 1: Tại giao diện người dùng, người sử dụng truy vấn thông tinthông qua một thiết bị nhập nào đó, thông qua tệp đã được lưu trước đó hoặc

có thể lấy trực tiếp từ cơ sở dữ liệu MMDBMS

- Bước 2: Nếu truy vấn của người sử dụng không được lấy trực tiếp từ

cơ sở dữ liệu trong MMDBMS thì thực hiện như sau:

+ Thực hiện trích chọn đặc trưng truy vấn

+ Gửi các trích chọn đặc trưng đó đến máy chủ

Trang 23

+ Chỉ số hóa để tìm kiếm các mục dữ liệu phù hợp với truy vấn trong

cơ sở dữ liệu

+ Hiển thị kết quả đến người sử dụng thông qua giao diện người dùng

1.2.2 Tổ chức dữ liệu đa phương tiện trên cơ sở nguyên lý thống nhất

Xét ví dụ sau:

Bức ảnh photo1.jpg có sự xuất hiện của đối tượng A, đối tượng B và

một đối tượng chưa được xác định được chụp tại sân bóng đá trường Đại họcCNTT&Truyền thông Thái Nguyên vào ngày 24/10/2017

Đoạn video video1.mpg có hình ảnh của đối tượng A đưa cho đối tượng

B một chiếc cặp (trong frames 20-50) Đoạn video này thu được từ sự theodõi Camera tại quán Cafe Z, thành phố Thái Nguyên, nước Việt Nam vàotháng 11 năm 2017

Văn bản B.docx có chứa các thông tin chi tiết về dối tượng B được thu

thập từ dữ liệu của cơ quan an ninh

Bản thân mỗi đối tượng trên cũng đã nói lên phần nào nội dung củatừng đối tượng cụ thể (hình ảnh, video, văn bản) Tuy nhiên, thông tin đưa ra

ở đây chỉ nói lên nội dung về mặt ngữ nghĩa hơn là đề cập đến các tính chất

cụ thể của mỗi loại đối tượng Một cách tiếp cận hiệu quả nhất đối với CSDLmultimedia và đã được sử dụng rộng rãi trong thực tế là sử dụng các đốitượng được phát biểu ở trên như là siêu dữ liệu (metadata)

phải tiến hành việc chỉ số hóa các metadata này với một cách thức nhằm cungcấp các phương thức triển khai hiệu quả đối với các yêu cầu truy cập từ phíangười dùng

Có thể thấy rằng, sự thành công của phương pháp này phụ thuộc cơ bản

Trang 24

tương ứng của nó md(oi) là cô đọng và phản ánh đúng chỉ những gì mà ngườidùng yêu cầu Với một số lượng tối thiểu các metadata được dùng chúng ta sẽ

dễ dàng hơn trong việc chỉ số hóa cũng như thực hiện các thao tác khai thác dữliệu Tuy nhiên, nếu số lượng metadata sử dụng ít thì có thể người sử dụng sẽphải mất thời gian hơn trong việc thiết lập các câu hỏi của mình Có thể lấytrường hợp sau làm ví dụ:

Người dùng: hãy tìm cho tôi tất cả các đoạn video hoặc ảnh chụp màđối tượng A và đối tượng B trao đổi với nhau một gói hành lý

Hệ thống: Không tìm được mặc dù hệ thống đã có đoạn video ghi lạiđối tượng A và đối tượng B trao đổi với nhau một chiếc cặp nhưng hệ thốngvẫn trả lời là không tìm thấy vì nó không hiểu rằng một chiếc cặp cũng có thểcoi là một gói hành lý

Người dùng: hãy tìm cho tôi tất cả các đoạn video hoặc ảnh chụp màđối tượng A và đối tượng B trao đổi với nhau một vật gì đó

Hệ thống: tìm thấy frames 20-50 của đoạn video video1.mpg thỏa mãn

yêu cầu của bạn

Mặc dù có một vài nhược điểm như sử dụng metadata không biểu diễnhết được các khía cạnh của đối tượng media trong CSDL nhưng cách tiếp cậndựa trên nguyên lý đồng nhất có một số ưu điểm nổi bật sau:

- Metadata thường được lưu trữ dưới dạng các cấu trúc có liên quanđến tính chất quan hệ hoặc hướng đối tượng và có thể truy vấn một cách dễdàng thông qua việc mở rộng các ngôn ngữ (chẳng hạn như SQL)

- Việc viết mã để thao tác với metadata thường dễ dàng

- Việc viết các chương trình để tạo ra metadata là đơn giản đối với cáclập trình viên có năng lực

Chúng ta đã xem xét đến nội dung của dữ liệu media dưới các dạngkhác nhau Một câu hỏi đặt ra ở đây: Đâu là phần chung nhất của các loại dữ

Trang 25

liệu này? Mục đích của chúng ta là tìm kiếm một cấu trúc chung nhất cho tất

cả các loại dữ liệu mà qua đó ta có thể thể hiện được nội dung của các loại dữliệu đó Tóm tắt media là một cấu trúc toán học cho phép diễn đạt nội dungcủa các media này, sự tóm tắt media có thể được triển khai thông qua một cấutrúc dữ liệu duy nhất

1.2.3 Cấu trúc tóm tắt

media

- S là một tập các đối tượng gọi là các trạng thái.

- ATTR là một tập các đối tượng gọi là các giá trị thuộc tính.

- F là một tập các quan hệ của S.

- Một trạng thái là đoạn (chunk) nhỏ nhất của dữ liệu media mà tamong muốn Ví dụ: trong một CSDL hình ảnh, mỗi ảnh có thể được xem như

là một trạng thái Nếu quan điểm này được chấp nhận, chúng ta sẽ coi như tất

cả các ảnh như là các đối tượng đơn lẻ cơ bản và tất cả các đặc tính của nó sẽđược quan tâm Khi đó, chúng ta sẽ không quan tâm đến các đặc tính đơn lẻnhư là các đặc tính của từng điểm ảnh Trong trường hợp dữ liệu video, mộttrạng thái có thể được xem là một chuỗi liên tiếp các frame có dạng (10 x i, 10

x (i+1)) thể hiện một đoạn gồm 10 frame bắt đầu từ frame có số thứ tự chiahết cho 10

- Một đặc trưng là bất kỳ đối tượng nào trong một trạng thái mà nó sẽđược quan tâm Một đặc trưng có thể gao gồm cả các đối tượng và các phạm

Trang 26

vi của nó Ví dụ: chúng ta xem xét một bức ảnh gồm 3 đối tượng A, B vàmột đối tượng chưa được nhận biết thì các đặc trưng được quan tâm đến ởđây là A, B và đối tượng C nào đó Tương tự như vậy, nếu chúng ta phân tíchđoạn video từ frame 20-50 thì các đặc trưng được quan tâm ở đây là A, B vàcái cặp Các đặc trưng xuất hiện trong một trạng thái có thể có các thuộc tínhcủa mình Ví dụ: đối tượng A bước ra khỏi từ xe ôtô của mình thì các thuộctính của chiếc xe ô tô (loại xe, màu sắc, biển số) cũng cần phải được ghinhận Tương tự như vậy, một đối tượng media cũng có thể có một vài thuộctính cần được quan tâm như ngày, thời gian và địa điểm chụp bức ảnh đó.

- λ là một ánh xạ đặc trưng rút gọn cho phép ta biết đặc trưng nào xuấthiện trong những trạng thái nào λ có thể là một GUI cho phép người sử dụngtương tác nhằm mục đích nhận biết được nội dung của một đối tượng media

trạng thái Ví dụ: nếu xem xét một bức ảnh như photo1.jpg thì ở đây có thể

có một quan hệ phụ thuộc vào trạng thái gọi là left.of bao gồm một bộ ba có

dạng (đối tượng A, đối tượng B, photo1.jpg) tương tự như vậy chúng ta

cũng có thể có một quan hệ khác gọi là background bao gồm một cặp códạng (photo1.jpg, White_House)

- F có thể chứa các liên kết kết hợp 2 trạng thái chẳng hạn như liên kết

có trước, nếu chúng ta có 2 bức ảnh (photo1.jpg, photo2.jpg) mà giữa chúngtồn tại liên kết có trước thì khi đó có nghĩa là bức ảnh 1 được chụp trước bứcảnh 2 và tiếp tục như vậy

1.3 Tổng quan về tra cứu

ảnh

Tra cứu ảnh là một quá trình tìm kiếm trong một cơ sở dữ liệu ảnhnhững ảnh thoả mãn một yêu cầu nào đó Ví dụ một người muốn tìm tất cảcác ảnh tương tự với một bức ảnh mẫu nào đó trong một cơ sở dữ liệu ảnh

Trang 27

1.3.1 Mô hình hệ thống tra cứu ảnh theo nội dung

Phương pháp tra cứu ảnh theo nội dung (Content-Based ImageRetrieval) sử dụng các nội dung trực quan của ảnh như màu sắc, hình dạng, kếtcấu (texture) và phân bố không gian để thể hiện và đánh chỉ số các ảnh Trongmột hệ thống tra cứu ảnh theo nội dung điển hình các nội dung trực quan củaảnh được trích chọn và mô tả bằng những véctơ đặc trưng nhiều chiều

Tập hợp các véctơ đặc trưng của các ảnh trong một cơ sở dữ liệu ảnh tạothành cơ sở dữ liệu đặc trưng Quá trình tra cứu ảnh được tiến hành như sau:Người sử dụng cung cấp cho hệ thống tra cứu một ảnh mẫu cụ thể Sau đó, hệthống sẽ chuyển những mẫu này thành các véc tơ đặc trưng và tính toán sựgiống nhau (hay độ tương tự) giữa véc tơ đặc trưng của ảnh mẫu và véc tơ đặctrưng của các ảnh trong cơ sở dữ liệu Sau cùng, việc tra cứu được tiến hànhvới sự trợ giúp của các sơ đồ đánh chỉ số Sử dụng sơ đồ đánh chỉ số là cáchhiệu quả để tìm kiếm trong các cơ sở dữ liệu ảnh Một số hệ thống tra cứu ảnhmới phát triển gần đây còn tích hợp cả chức năng xử lý phản hồi của người sửdụng để cải tiến các qui trình tra cứu và ra những kết quả tra cứu tốt hơn

Hình 1.2: Mô hình hệ thống Tra cứu ảnh theo nội dung

Trong mô hình này, người sử dụng sẽ tạo truy vấn bằng cách chọnmột ảnh mẫu trong một cơ sở dữ liệu ảnh cho trước hoặc phác thảo mộthình vẽ mô tả đối tượng ảnh cần tìm bằng cách sử dụng một giao diện đồhoạ của hệ thống

Trang 28

Ảnh mẫu đó được đưa qua khối mô tả nội dung trực quan, trong đóngười ta sử dụng một phương pháp mô tả nội dung trực quan nào đó đểtrích chọn một đặc điểm nội dung trực quan để xây dựng thành một véc tơđặc trưng.

Véc tơ đặc trưng của ảnh mẫu sẽ được so sánh với véc tơ đặc trưngtương ứng của các ảnh trong cơ sở dữ liệu ảnh Kết quả của phép so sánh làmột chỉ số đánh giá độ tương tự giữa ảnh mẫu và ảnh lấy ra để so sánh

Dựa vào chỉ số độ tương tự tính toán được ở trên, hệ thống sẽ sắp xếpcác ảnh tìm được trong cơ sở dữ liệu ảnh theo một sơ đồ đánh chỉ số nào đó.Danh sách các ảnh tìm được (đã được sắp xếp) được đưa ra đầu ra của hệthống

1.3.2 Một số hệ thống tra cứu ảnh theo nội dung tiêu biểu

Hệ thống QBIC (Query By Image Content)

Hệ thống QBIC của hãng IBM là một hệ thống tra cứu ảnh thương mạiđầu tiên và nổi tiếng nhất trong số các hệ thống tra cứu ảnh dựa trên nội dung

Nó cho phép người sử dụng tra cứu ảnh dựa vào màu sắc, hình dạng và kếtcấu QBIC cung cấp một số phương pháp: Simple, Multi-feature, và Multi-pass Trong phương pháp truy vấn Simple chỉ sử dụng một đặc điểm Truyvấn Multi - feature bao gồm nhiều hơn một đặc điểm và mọi đặc điểm đều cótrọng số như nhau trong suốt quá trình tìm kiếm Truy vấn Multi-pass sử dụngđầu ra của các truy vấn trước làm cơ sở cho bước tiếp theo Người sử dụng cóthể vẽ ra và chỉ định màu, kết cấu mẫu của hình ảnh yêu cầu Trong hệ thốngQBIC màu tương tự được tính toán bằng độ đo bình phương sử dụng biểu đồmàu k phần tử và màu trung bình được sử dụng như là bộ lọc để cải tiến hiệuquả của truy vấn

Hệ thống Photobook

Hệ thống này được phát triển ở viện kỹ thuật Massachusetts Nó chophép người sử dụng tra cứu ảnh dựa trên màu sắc, hình dạng và kết cấu Hệthống này cung cấp một tập các thuật toán đối sánh gồm: Euclidean,

Trang 29

mahalanobis, vector space angle, histogram, Fourier peak, và wavelet treedistance như là những độ đo khoảng cách Hệ thống như là một công cụ bán

tự động và có thể sinh ra một mẫu truy vấn dựa vào những ảnh mẫu đượccung cấp bởi người sử dụng Điều này cho phép người sử dụng trực tiếp đưanhững yêu cầu truy vấn của họ với những lĩnh vực khác nhau, và mỗi lĩnh vực

họ có thể thu được những mẫu truy vấn tối ưu

Hệ thống VisualSEEK và WebSEEK

Cả hai hệ thống này đều được phát triển tại Trường Đại học Colombia.VisualSEEK là hệ thống cơ sở dữ liệu ảnh Nó cho phép người sử dụng tracứu ảnh dựa trên màu sắc, không gian miền và đặc điểm kết cấu Thêm vào

đó VisualSEEK còn cho phép người sử dụng tạo truy vấn bằng việc chỉ địnhvùng màu và những không gian vị trí của chúng WebSEEK là một catalogảnh và là công cụ tìm kiếm trên website

Hệ thống RetrievalWare

Hệ thống này được phát triển bởi tập đoàn công nghệ Excalibur chophép người sử dụng tra cứu ảnh bởi nội dung màu, hình dạng, kết cấu, độsáng, kết cấu màu và hệ số co Người sử dụng có thể điều chỉnh tỷ trọng củanhững đặc điểm này trong suốt quá trình tìm kiếm

Hệ thống Imatch

Hệ thống này cho phép người sử dụng tra cứu ảnh bởi nội dung màu,hình dạng và kết cấu Nó cung cấp một số phương pháp để tra cứu ảnh tươngtự: Màu tương tự, màu và hình dạng, màu và hình dạng mờ, và phân bố màu.Màu tương tự để tra cứu những ảnh tương tự với ảnh mẫu dựa trên sự phân

bố màu toàn cục Màu và hình dạng thực hiện tra cứu bởi việc kết hợp cảhình dạng, kết cấu và màu Màu và hình dạng mờ thực hiện thêm nhữngbước xác định đối tượng trong ảnh mẫu Phân bố màu cho phép người sửdụng vẽ ra sự phân bố màu hoặc xác định tỷ lệ phần trăm của một màu tronghình ảnh mong muốn Imatch cũng cung cấp những đặc điểm khác nội dung

để xác định ảnh: ảnh nhị phân, lưu trữ trong những định dạng khác và những

Trang 31

CHƯƠNG 2 TRÍCH CHỌN ĐẶC TRƯNG ẢNH

Cùng với nhu cầu tìm kiếm văn bản, nhu cầu tìm kiếm ảnh cũng nhậnđược rất nhiều sự quan tâm của người sử dụng Tuy nhiên, với một số lượngảnh quá lớn trên Internet, công việc tìm kiếm trở nên vô cùng khó khăn Đểgiải quyết vấn đề này, các hệ thống tìm kiếm ảnh đã ra đời như: Yahoo,MSN, Google Image Search, Bing… Các hệ thống này cho phép người sửdụng nhập truy vấn về các ảnh cần tìm kiếm Thông qua việc phân tích cácvăn bản đi kèm ảnh, hệ thống gửi trả các ảnh tương ứng với truy vấn củangười dùng

Bên cạnh đó, một số công cụ tìm kiếm ảnh thương mại khác nhưGoogle Image, Tineye,… cho phép người dùng nhập câu hỏi dưới dạng ảnh.Đây là một hướng nghiên cứu mới nhận được sự quan tâm của nhiều côngtrình khoa học trên thế giới

Dưới đây là một ví dụ về văn bản đi kèm một ảnh:

- Title: “Nhà C5 Trường Đại học CNTT&Truyền thông Thái Nguyên”

- Tags: “khoacntt, giangduong, ictu, labsamsung, dhthainguyen,honuoccntt, Canon5d3”

Trang 32

- Description: “Khuôn viên trường ĐH CNTT&Truyền thông TháiNguyên nhìn từ giảng đường C2”

Hình 2.1: Ví dụ hiển thị một ảnh

Văn bản đi kèm ảnh mang ngữ nghĩa về nội dung ảnh Vì vậy, hai bứcảnh có nội dung giống nhau thường có tên giống nhau và các thẻ tương tựnhau Do đó, các công cụ tìm kiếm ảnh theo văn bản đi kèm thường tập trungkhai thác nội dung của các văn bản này để tìm kiếm và xếp hạng ảnh

Phương pháp này cho kết quả khả quan cũng như đáp ứng nhanh nhucầu của người sử dụng Tuy nhiên, với các câu truy vấn không rõ nghĩa thìcác kết quả trả về có thể sẽ không đúng với yêu cầu tìm kiếm

Ví dụ: khi truy vấn là “5D3”, một máy ảnh phổ biến của Canon, thì các

hệ thống trả về kết quả khá tốt Tuy nhiên, với truy vấn “apple”, nếu người

Trang 33

dùng muốn tìm quả táo thì kết quả trả về đầu tiên không thỏa mãn (logo củahãng Apple).

Trang 34

Hình 2.2: Truy vấn của Google “5D3” Hình 2.3: Truy vấn của Google “Apple”

Mặt khác, các album cá nhân thường không có các thẻ hoặc văn bản đikèm ảnh Cùng với số lượng ảnh số được chụp thêm mỗi ngày, việc gán thủcông các thẻ cho ảnh rất tốn kém thời gian Một hướng nghiên cứu nhằm khắcphục vấn đề trên là tìm kiếm theo chính các đặc trưng trích xuất từ nội dungcủa ảnh

2.1.2 Đặc trưng nội dung ảnh và tìm kiếm theo đặc trưng nội dung

Tìm kiếm ảnh theo nội dung (Content Based Images Retrieval CBIR)hay truy vấn theo nội dung ảnh (Query Based Image Content QBIC) là mộtứng dụng của thị giác máy tính đối với bài toán tìm kiếm ảnh “Dựa vào nộidung ảnh (Content Based)” nghĩa là việc tìm kiếm sẽ phân tích nội dung thực

sự của các bức ảnh CBIR ra đời từ năm 1992 Tra cứu ảnh theo nội dung làtra cứu thông tin trực quan (VIR - Visual Information Retrieval) Các yếu tốtrực quan như màu sắc, kết cấu, hình dạng và bố cục không gian trực tiếp liênquan đến khía cạnh của cảm nhận nội dung ảnh, cùng với các khái niệm ởmức cao như ý nghĩa đối tượng, khung cảnh trong ảnh, được dùng như làmanh mối cho tìm kiếm hình ảnh với nội dung tương tự từ cơ sở dữ liệu

Một số đặc trưng nội dung ảnh:

- Đặc trưng màu sắc: Màu sắc là một đặc trưng nổi bật và được sử dụngphổ biến nhất trong tìm kiếm ảnh theo nội dung Mỗi một điểm ảnh (thông tin

Trang 35

màu sắc) có thể được biểu diễn như một điểm trong không gian màu sắc bachiều Các không gian màu sắc thường dùng là: RGB, YCbCr, CMYK, HSV-Tìm kiếm ảnh theo màu sắc tiến hành tính toán biểu đồ màu cho mỗi ảnh đểxác định tỉ trọng các điểm ảnh của ảnh mà chứa các giá trị đặc biệt (màu sắc).Các nghiên cứu gần đây đang cố gắng phân vùng ảnh theo các màu sắc khácnhau và tìm mỗi quan hệ giữa các vùng này.

- Đặc trưng kết cấu: Trích xuất nội dung ảnh theo kết cấu nhằm tìm ra

mô hình trực quan của ảnh và cách thức chúng được xác định trong khônggian Kết cấu được biểu diễn bởi các texture mà sau đó được đặt vào một sốcác tập phụ thuộc vào số kết cấu được phát hiện trong ảnh Các tập này khôngchỉ xác định các kết cấu mà còn chỉ rõ vị trí các kết cấu trong ảnh Việc xácđịnh các kết cấu đặc biệt trong ảnh đạt được chủ yếu bằng cách mô hình cáckết cấu như những biến thể cấp độ xám 2 chiều Ví dụ về một số loại kết cấu:

Hình 2.4: Một số loại kết cấu

- Đặc trưng hình dạng: Hình dạng của một ảnh hay một vùng là mộtđặc trưng quan trong trọng việc xác định và phân biệt ảnh trong nhận dạngmẫu Mục tiêu chính của biểu diễn hình dạng trong nhận dạng mẫu là đothuộc tính hình học của một đối tượng được dùng trong phân lớp, so sánh vànhận dạng đối tượng Thực tế, đã có nhiều máy tìm kiếm cho phép tìm kiếmảnh theo nội dung ảnh

Trang 36

+ G oo g l e I m a g e s : Là máy tìm kiếm hình ảnh theo nội dung củaGoogle Trong đó, kết quả tìm kiếm được sẽ được tổ chức lại dựa vào hiển thịtrực quan và độ tương đồng giữa các ảnh.

Hình 2.5: Một kết quả trả về của Google Image

+ B i ng : Là một máy chủ tìm kiếm của Microsoft – đối thủ hàng đầu củaGoogle

Hình 2.6: Một kết quả trả về của Bing

Tìm kiếm ảnh theo mẫu (example-based image search): là một dạngcủa tìm kiếm ảnh dựa vào nội dung Trong hệ thống đó, đầu vào là mộtảnh, hệ thống tìm kiếm và trả lại cho người dùng những ảnh tương đồngvới ảnh mẫu

Trang 37

+ F l i c k r: Tìm kiếm ảnh theo độ tương đồng về màu sắc, theo mẫu hình.

Hình 2.7: Một kết quả trả về của Flickr Images Search

Trong luận văn này, chúng tôi tập trung vào bài toán tìm kiếm ảnh dựatheo mẫu, tìm hiểu các phương pháp trích chọn đặc trưng nội dung cũng nhưcác độ đo tương đồng để tìm kiếm tập ảnh gần với ảnh mẫu nhất trong tập cơ

- Thành phần lựa chọn đặc trưng phải lựa chọn được một tập các đặctrưng cung cấp đầu vào tốt nhất cho hệ thống tìm kiếm ảnh Nếu số lượng cácđặc trưng quá nhiều sẽ làm “che khuất” các “tín hiệu” (giảm các “tín hiệu”đối với tỉ lệ nhiễu) Mặt khác, nếu số lượng các đặc trưng quá ít sẽ khó phânbiệt được ảnh trong tìm kiếm

Trang 38

- Phải giảm bớt được độ phức tạp trong lúc tính toán tổng thể bằnggiảm đa chiều của bài toán phân lớp.

- Khi người dùng muốn sử dụng các đặc trưng đó cho mọi truy vấn thìviệc sử dụng các đặc trưng này phải hiệu quả Vì số lượng các đặc trưng cóthể là hàng nghìn, do đó thời gian xử lý của module phải tuyến tính với sốlượng đặc trưng

- Vì thời gian xử lý của thành phần lựa chọn đặc trưng tuyến tính với sốlượng đặc trưng, do đó việc lựa chọn các đặc trưng cũng nên tuyến tính dựatrên phân lớp

- Thành phần lựa chọn đặc trưng có thể xử lý được với kích thước tậpmẫu nhỏ (khoảng 5 mẫu)

2.2.1 Đặc trưng màu sắc

2.2.1.1 Đặc trưng màu sắc

Tìm kiếm ảnh theo lược đồ màu là phương pháp phổ biến và được sửdụng phổ biến nhất trong các hệ thống tìm kiếm ảnh theo nội dung Đây làphương pháp đơn giản, tốc độ tìm kiếm tương đối nhanh Tuy nhiên, kết quảtìm kiếm có độ chính xác không cao Đây có thể xem là bước lọc đầu tiên chonhững bước tìm kiếm sau Một số lược đồ màu được sử dụng như: lược đồmàu RGB, lược đồ màu HSI, lược đồ HSI cải tiến Trong đó, lược đồ màuRGB được sử dụng phổ biến nhất

Lược đồ màu RGB:

Đối với ảnh 256 màu, lược đồ màu của ảnh tương đương với lược đồmàu của ảnh xám Đối với ảnh 24 bit màu, lược đồ miêu tả khả năng kếtnối về cường độ của ba kênh màu R, G, B Lược đồ màu này được địnhnghĩa như sau:

(2.1)Trong đó N là số lượng điểm có trong ảnh

Trang 39

Lược đồ màu này được tính bằng cách rời rạc hóa từng màu trong ảnh,sau đó đếm số điểm ảnh của mỗi màu Khi mà số lượng màu là có hạng, đểthuận tiện hơn, người ta thường chuyển đổi ba kênh màu thành một biến giátrị duy nhất Một cách khác để tính lược đồ màu của ảnh RGB là ta phân ra

cách đếm kênh màu tương ứng trong mỗi điểm ảnh

2.2.1.2 Độ đo tương đồng về màu sắc

Một số độ đo tương đồng được sử dụng như: Độ đo khoảng cách Ơclit,

độ đo Jensen-Shannon divergence (JSD)

Gọi h(I) và h(M) tương ứng là 2 lược đồ màu của hai ảnh I và ảnh M.Khi đó các loại độ đo màu được định nghĩa là một số nguyên (hoặc số thực)theo các loại độ đo tương ứng như sau:

- Khoảng cách Ơclit:

Đây là khoảng cách Ơclit thông thường giữa các K bin:

(2.2)Hoặc:

(2.3)

- Độ đo Jensen-Shannon divergence (JSD):

Độ đo Jensen-Shannon divergence sử dụng lược độ màu RGB để tínhtoán độ tương đồng về màu sắc giữa 2 ảnh:

(2.4)

biểu đồ H

Trang 40

2.2.2 Đặc trưng kết cấu

2.2.2.1 Đặc trưng kết cấu

Kết cấu (texture) là một tính chất quan trọng khác của ảnh Kết cấu làmột thành phần có ảnh hưởng rất quan trọng đối với sự nhận thức trực quancủa con người Tất cả mọi người đều có thể nhận ra kết cấu nhưng lại rất khó

Các phương pháp thống kê bao gồm: Phương pháp phổ năng lượngFourier, ma trận đồng khả năng, Tamura, phân tích Wold, trường ngẫu nhiênMarkov, mô hình fractal, các bộ lọc đa phân giải như biến đổi Gabor và biếnđổi dạng sóng thể hiện kết cấu bằng sự phân bố thống kê của độ sáng củacác điểm ảnh

Kết cấu cung cấp thông tin về sự sắp xếp về mặt không gian của màusắc và cường độ một ảnh Kết cấu được đặc trưng bởi sự phân bổ không giancủa những mức cường độ trong một khu vực láng giềng với nhau

Một số phương pháp dùng để trích xuất các đặc trưng kết cấu như:

- Kim tự tháp “có thể lái được” (the steerable pyramid)

- Biến đổi đường viền (the cotourlet transform)

- Biến đổi sóng Gabor (The Gabor Wavelet transform)

- Biểu diễn ma trận đồng hiện (co-occurrence matrix)

Ngày đăng: 02/10/2018, 15:59

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Đặng Văn Đức (2003), Nguyên lý hệ thống cơ sở dữ liệu đa phương tiện, Trung tâm khoa học và công nghệ Quốc gia, Viện Công nghệ thông tin Sách, tạp chí
Tiêu đề: Nguyên lý hệ thống cơ sở dữ liệu đa phương tiện
Tác giả: Đặng Văn Đức
Năm: 2003
[2] Đặng Văn Đức (2003-2005), Hệ quản trị cơ sở dữ liệu đa phương tiện, Viện khoa học và công nghệ Việt Nam, Viện Công nghệ thông tin.TIẾNG ANH Sách, tạp chí
Tiêu đề: Hệ quản trị cơ sở dữ liệu đa phương tiện
[9] Dimitris Papadias, Nikos Mamoulis, Vasilis Delis (2011), Approximate Spatio-Temporal Retrieval, ACM Transactions on Information Systems, Vol. 19, No.1, pp. 53-96 Sách, tạp chí
Tiêu đề: ApproximateSpatio-Temporal Retrieval
Tác giả: Dimitris Papadias, Nikos Mamoulis, Vasilis Delis
Năm: 2011
[3] Hervé Jégou, Matthijs Douze, Cordelia Schmid(2009). Searching with quantization: approximate nearest neighbor search using short codes and distance estimators. Technical Report RR-7020, INRIA Khác
[4] V. Shiv Naga Prasad. A.G. Faheema, Subrata Rakshi(2002). Feature Selection in Example-Based Image Retrieval Systems. Indian Conference on Vision Graphics and Image Processing Khác
[5] C. V. Jawahar, P. J. Narayanan, and S. Rakshit(2000). A flexible scheme forrepresentation, matching, and retrieval of images. ICVGIP 2000, pages 271-277. Allied Publishers Ltd., 2000 Khác
[6] W. Jiang, G. Er, Q. Dai and J. Gu. (2006). Similarity-Based Online Feature Selection In Content-Based Image Retrieval. IEEE Trans. Image Processing, 15 (3), pp.702-712 Khác
[7] W. Jiang. M. Li, H. Zhang, J. Gu. (2004. Online feature Selection based on Generalized Feature Contrast Model. IEEE International Conference on Multimedia and Expo(ICME). pp. 1995-1998 Khác
[8] Tee Cheng Siew(2008). Feature selection for content-based image retrieval using statistical discriminant analysis. PhD thesis Faculty of Computer Science and Information System Universiti Teknologi Malaysia. 2008 Khác
[10] David Lowe, 1999, The SIFT (Scale Invariant Feature Transform) Detector and Descriptor, University of British Columbia Khác
[11] Brown M. and Lowe D.G 2002, Invariant features from interest point groups, In The 13th British Machine Vision Conference, Cardiff University, UK.WEBSITE Khác
[12] h t tp s : // www . i n f . f u -e r l i n . d e / l e h r e / S S 0 9/ C V / u e bu ng e n / u e bu n g0 9/ S I F T .pdf [13] h t t p :// www . a ish a c k . i n / t u t ori a ls/ s if t - sca l e - i n v a ri a n t -f e a t u r e -tr a nsf o r m - fea t u r e s / [14] h t tp s : // www .cse . i i tb . a c. i n/ ~a j i t v r / C S 7 6 3 / SIF T . p d f Khác
[15] h t tp : / / www .sch o l a r p e d i a . o r g/ a r t i c l e / S ca l e _ I n v ar i a n t _ Fe a t u re _ T r a n s f o rm [16]h t t p s :/ / ww w .rob o ts . o x . ac .u k / ~ vg g / r e s ea r c h / a f f i n e / d e t _ e v a l _ f ile s /l o w e _ i jc v 2 00 4 . p d f [17] h t tp : / / e r ic - y u a n .m e /si f t / Khác

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w