Ví dụ: một MMDBMS sẽ có khả năng truy vấn và tích hợp dữ liệu mà nó được lưu trong các CSDLkhác nhau mà có thể sử dụng các lược đồ khác nhau, cũng như việc truy vấntệp và dữ liệu lưu trữ
Trang 1ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
HOÀNG HÀ HẢI NAM
NGHIÊN CỨU KĨ THUẬT SIFT TRONG TRÍCH TRỌN ĐẶC TRƯNG, XÂY DỰNG ỨNG DỤNG TÌM KIẾM ẢNH
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Thái Nguyên, 2018
Trang 2ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
HOÀNG HÀ HẢI NAM
NGHIÊN CỨU KĨ THUẬT SIFT TRONG TRÍCH TRỌN ĐẶC TRƯNG, XÂY DỰNG ỨNG DỤNG TÌM KIẾM ẢNH
Chuyên ngành: Khoa học máy tính
Mã số: 8 480 101
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Người hướng dẫn khoa học: TS Vũ Vinh Quang
Thái Nguyên, 2018
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi Các sốliệu, kết quả nêu trong Luận văn là trung thực và chưa từng được ai công bốtrong bất kì công trình nào khác
Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện Luận văn này
đã được cảm ơn và các thông tin trích dẫn trong Luận văn đã được chỉ rõnguồn gốc
Thái Nguyên, ngày 26 tháng 6 năm 2018
Tác giả luận văn
Hoàng Hà Hải Nam
Trang 4LỜI CẢM ƠN
Trước hết, với lòng kính trọng và biết ơn sâu sắc, tôi xin gửi lời cảm ơntới Tiến sĩ Vũ Vinh Quang – người đã tận tình hướng dẫn tôi trong suốt quátrình tìm hiểu, nghiên cứu và hoàn thiện luận văn
Tôi xin gửi lời cảm ơn chân thành tới Ban giám hiệu nhà trường và cácthầy cô đã trực tiếp giảng dạy, giúp đỡ tôi trong suốt thời gian học tập, nghiêncứu khoa học
Cuối cùng, tôi xin gửi lời cảm ơn đến gia đình, người thân, bạn bè,đồng nghiệp đã giúp đỡ, tạo mọi điều kiện thuận lợi cho tôi trong suốt thờigian học tập và hoàn thiện luận văn này
Thái Nguyên, ngày 26 tháng 6 năm 2018
Tác giả luận văn
Hoàng Hà Hải Nam
Trang 5DANH MỤC CÁC HÌNH ẢNH
Hình 1.1: Kiến trúc chung của một MMDBMS 10
Hình 1.2: Mô hình hệ thống Tra cứu ảnh theo nội dung 16
Hình 2.1: Ví dụ hiển thị một ảnh 21
Hình 2.2: Truy vấn của Google “5D3” 23
Hình 2.3: Truy vấn của Google “Apple” 23
Hình 2.4: Một số loại kết cấu 24
Hình 2.5: Một kết quả trả về của Google Image 25
Hình 2.6: Một kết quả trả về của Bing 25
Hình 2.7: Một kết quả trả về của Flickr Images Search 26
Hình 2.8: Biểu đồ mô phỏng việc tính toán các DoG ảnh từ các ảnh kề mờ
35 Hình 2.9: Mỗi điểm ảnh được so sánh với 26 láng giềng của nó 36
Hình 2.10: Số lượng mẫu tỷ lệ trên mỗi Octave 36
Hình 2.11: Quá trình lựa chọn các điểm hấp dẫn 38
Hình 2.12: Biểu diễn các vector đặc trưng 41
Bảng 2.13: Một số phương pháp lựa chọn đặc trưng 42
Hình 2.14: Mô hình hệ thống IVFADCj; Hệ thống bên trái: chèn một vector vào danh sách chỉ mục ngược; hệ thống bên phải: tìm kiếm k láng giềng gần nhất 50
Hình 2.15: Mô hình giải quyết bài toán 52
Hình 3.1: Tập dữ liệu ảnh thử nghiệm 55
Hình 3.2: Người dùng chọn ảnh truy vấn 56
Hình 3.3: Đặc trưng SIFT của ảnh được trích chọn 57
Hình 3.4: 20 ảnh tương đồng với ảnh truy vấn 57
Hình 3.5: Kết quả trả về với truy vấn IphoneX 58
Hình 3.6: Kết quả trả về với truy vấn Apple 58
Hình 3.7: Một số kết quả truy vấn khác 59
Trang 6DANH MỤC CÁC BẢNG BIỂU
Bảng 1.1: Mô tả kích thước kiểu dữ liệu 6
Bảng 3.1: Cấu hình phần cứng sử dụng trong thực nghiệm 54
Bảng 3.2: Công cụ phần mềm sử dụng trong thực nghiệm 54
Bảng 3.3: Một số thư viện sử dụng trong thực nghiệm 55
Bảng 3.4: Kết quả độ chính xác trung bình của 10 truy vấn 60
Trang 7DANH MỤC CÁC TỪ VIẾT TẮT
thông tin
Retrieval System
Hệ thống chỉ mục và truy tìmthông tin đa phương tiện
Management System
Hệ thống quản trị cơ sở dữliệu đa phương tiện
v
Trang 8MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
DANH MỤC CÁC HÌNH ẢNH iii
DANH MỤC CÁC BẢNG BIỂU iv
DANH MỤC CÁC TỪ VIẾT TẮT v
MỤC LỤC vi
MỞ ĐẦU 1
CHƯƠNG 1 TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN 2 1.1 Tổng quan về hệ quản trị cơ sở dữ liệu đa phương tiện
2 1.1.1 Giới thiệu chung 2
1.1.2 Các kiểu truyền thông và multimedia 5
1.1.3 Hệ quản trị cơ sở dữ liệu đa phương tiện (MMDBMS) 7
1.1.4 Truy tìm thông tin tài liệu văn bản 8
1.1.5 Truy xuất và chỉ số hoá multimedia 9
1.2 Kiến trúc tổ chức nội dung của một hệ thống cơ sở dữ liệu Multimedia 10
1.2.1 Kiến trúc hệ thống quản trị cơ sở dữ liệu đa phương tiện 10
1.2.2 Tổ chức dữ liệu đa phương tiện trên cơ sở nguyên lý thống nhất 12
1.2.3 Cấu trúc tóm tắt media 14
1.3 Tổng quan về tra cứu ảnh .
15 1.3.1 Mô hình hệ thống tra cứu ảnh theo nội dung 16
1.3.2 Một số hệ thống tra cứu ảnh theo nội dung tiêu biểu 17
CHƯƠNG 2 TRÍCH CHỌN ĐẶC TRƯNG ẢNH 20
Trang 92.1 Tổng quan về trích chọn đặc trưng ảnh 20 2.1.1 Đặc trưng văn bản đi kèm ảnh và tìm kiếm ảnh theo văn bản đi kèm ảnh 20
2.1.2 Đặc trưng nội dung ảnh và tìm kiếm theo đặc trưng nội dung 23
2.2 Các phương pháp trích chọn đặc trưng ảnh và độ đo tương đồng giữa các ảnh 26
Trang 102.2.4 Đặc trưng cục bộ bất biến SIFT
31
2.2.5 Lựa chọn đặc trưng 42
2.3 Mô hình k láng giềng gần nhất sử dụng bộ lượng tử hóa 44
2.3.1 Cơ sở lý thuyết 45
2.3.2 Thuật toán K láng giềng 50
2.3.3 Mô hình bài toán 51
CHƯƠNG 3 THỰC NGHIỆM VÀ ĐÁNH GIÁ 54
3.1 Bài toán truy vấn ảnh 54
3.1.1 Phát biểu bài toán 54
3.1.2 Cách giải quyết bài toán 54
3.2 Môi trường và các công cụ sử dụng cho thực nghiệm 54
3.2.1 Cấu hình phần cứng 54
3.2.2 Công cụ phần mềm sử dụng 54
3.2.3 Thư viện sử dụng 55
3.3 Xây dựng tập dữ liệu ảnh 55
3.4 Quy trình, phương pháp thực nghiệm 56
3.5 Kết quả thực nghiệm 59
KẾT LUẬN 62
TÀI LIỆU THAM KHẢO 63
Trang 11MỞ ĐẦU
Cuộc cách mạng công nghiệp lần thứ tư diễn ra từ những năm 2000được gọi là cuộc cách mạng số, thông qua các công nghệ như Internet vạn vật(IoT), trí tuệ nhân tạo (AI), thực tế ảo (VR), tương tác thực tại ảo (AR), mạng
xã hội, điện toán đám mây, di động, phân tích dữ liệu lớn để chuyển hóatoàn bộ thế giới thực thành thế giới số
Sự phát triển mạnh mẽ của công nghệ ảnh số đã làm lượng ảnh lưu trữtăng lên một cách nhanh chóng đòi hỏi phải có các công cụ hỗ trợ tìm kiếmảnh hiệu quả và tiện lợi Mặc dù các công cụ tìm kiếm ảnh theo văn bản đikèm ảnh ra đời cho phép người dùng tìm kiếm ảnh với thời gian đáp ứng khánhanh, tuy nhiên, các công cụ này vẫn còn hạn chế trong việc giải quyết sựkhông thống nhất giữa nội dung câu truy vấn và nội dung hiển thị của ảnh trả
về Sự ra đời của các công cụ tìm kiếm ảnh theo nội dung ảnh đã giải quyết
kĩ thuật SIFT trong trích trọn đặc trưng, xây dựng ứng dụng tìm kiếm ảnh.
Mục tiêu của luận văn là nghiên cứu đặc trưng SIFT để tối ưu hóa chấtlượng tìm kiếm ảnh Nội dung chính của luận văn tập trung khảo sát phươngpháp trích chọn đặc trưng ảnh trong tìm kiếm và xếp hạng ảnh Trên cơ sởứng dụng phương pháp lượng tử hóa tích của Hervé Jégou và cộng sự [3],luận văn nghiên cứu mô hình tìm kiếm K láng giềng gần nhất kết hợp độ đotương đồng về khoảng cách giữa các vector đặc trưng, từ đó tiến hành xâydựng mô hình thực nghiệm tìm kiếm ảnh sản phẩm trên phần mềm Matlab
Luận văn bao gồm các nội dung sau:
Chương 1: Tổng quan về cơ sở dữ liệu đa phương tiện
Chương 2: Trích chọn đặc trưng ảnh
Chương 3: Thực nghiệm và đánh giá
Trang 12CHƯƠNG 1 TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN
1.1 Tổng quan về hệ quản trị cơ sở dữ liệu đa phương tiện
1.1.1 Giới thiệu chung
Thế giới đang bước vào cuộc cách mạng công nghiệp lần thứ tư – mộtcuộc cách mạng sản xuất mới gắn liền với những đột phá chưa từng có vềcông nghệ, liên quan đến kết nối Internet, điện toán đám mây, in 3D, côngnghệ cảm biến, thực tại ảo Bản chất của cách mạng công nghiệp lần thứ tư
là dựa trên nền tảng công nghệ số và tích hợp tất cả các công nghệ thông minh
để tối ưu hóa quy trình, phương thức sản xuất Trong những năm gần đây, nhucầu về khai thác và xử lý dữ liệu vô cùng lớn, điều đó không dễ dàng diễn tảđược chỉ với việc sử dụng các ký tự Các kiểu dữ liệu có thể là hình ảnh,
video, tài liệu, âm thanh (dữ liệu Media) Multimedia là tập hợp các kiểu
media được sử dụng với nhau (dữ liệu đa phương tiện).
Hệ quản trị cơ sở dữ liệu (CSDL) đa phương tiện (Multimedia
DataBase Management System – MMDBMS) là một hệ thống giúp người
dùng thao tác trên các dữ liệu media một cách thích hợp và hiệu quả Các thao
tác cơ bản của hệ quản trị CSDL thường là cập nhật, chèn, xoá và tìm kiếmmột đối tượng trong CSDL Như vậy, có thể nói rằng CSDL đa phương tiện làtập hợp các dữ liệu đa phương tiện có liên quan với nhau [1] Các kiểu dữ liệuthông thường của một CSDL đa phương tiện bao gồm:
Dữ liệu hình ảnh (Image data): Bao gồm ảnh đen trắng, ảnh xám, ảnh
màu Dữ liệu hình ảnh có nhiều định dạng khác nhau (bmp, jpg, gif, png…)
Ví dụ, một học viên phẫu thuật muốn thực hành một ca phẫu thuật trên mộtbệnh nhân ảo có những triệu chứng sinh lý nào đó Trong thực tế, để tìm rabệnh nhân với những triệu chứng mong muốn, học viên phẫu thuật phải truyvấn CSDL ảnh phân tán và kích thước lớn chứa ảnh X quang hay MRI
(Magnetic Resonance Imaging) của các bệnh nhân với các triệu chứng tương
tự
Trang 13Dữ liệu Video (Video data): Là một chuỗi các hình ảnh liên tục nhau,
đòi hỏi dung lượng lưu trữ lớn Cùng với sự phát triển bùng nổ của các thiết
bị nghe nhìn hiện đại như: Máy tính bảng, máy ảnh kĩ thuật số, điện thoạithông minh… thì kiểu dữ liệu Video đang ngày càng phổ biến khắp mọi nơi.Bên cạnh đó, sự bùng nổ của mạng xã hội cùng các hệ thống chia sẻ video
dữ liệu Video không còn là bài toán khó Do đó, việc truy xuất dữ liệu để tìmkiếm thông tin theo yêu cầu trong kho dữ liệu khổng lồ như vậy là một vấn đềrất đáng quan tâm
Giả sử, cảnh sát giao thông muốn tìm kiếm những tư liệu băng hình vềmột vụ tai nạn giao thông nào đó tại vị trí có camera theo dõi được lưu trữtrong máy chủ Như vậy, đòi hỏi phải truy vấn thư viện băng hình mà nó baogồm tập hợp vô số các băng hình tại vị trí đó
Dữ liệu âm thanh (Audio data): Dữ liệu âm thanh được sử dụng trong
những ứng dụng, thiết bị như nhận dạng giọng nói, xử lý âm thanh, điều khiểnthiết bị bằng giọng nói Ví dụ: hệ thống điều khiển xe lăn cho người tàn tật.Trong trường hợp này cần phải tập hợp các đoạn audio là các lệnh điều khiểncho xe di chuyển bằng giọng nói
Dữ liệu tài liệu (Document data): Là loại dữ liệu có mặt hầu hết trong
các ứng dụng đa phương tiện nhằm giải thích thêm cho các dữ liệu khôngphải văn bản, bao gồm: Các từ, câu, đoạn văn Một CSDL tài liệu khác vănbản ở chỗ nó không chỉ chứa các thông tin dạng văn bản thô mà còn chứađựng cả cấu trúc và hình ảnh nhúng Ví dụ: khi ta xem sách, trong sách khôngchỉ có dữ liệu văn bản mà còn bao gồm cả hình ảnh Giả sử, khi người đọcmuốn tìm một bức ảnh nào đó nhưng không thể tìm trong CSDL ảnh Tuynhiên, nếu có một thư viện điện tử số để truy cập thì việc tìm thấy bức ảnh
1 Youtube.com
2 Vimeo.com
3 Dailymotion.com
Trang 14hệ thống quản trị CSDL có khả năng quản lý dữ liệu đa phương tiện với các
kỹ thuật truy tìm và chỉ mục mới là rất cần thiết MMDBMS là một khunglàm việc để quản lý các kiểu dữ liệu khác nhau mà chúng được thể hiện trongrất nhiều khuôn dạng khác nhau Để làm việc thành công thì một MMDBMSphải có các khả năng sau:
Có khả năng truy vấn đồng bộ dữ liệu (dữ liệu media và dữ liệu vănbản) được thể hiện trong các định dạng khác nhau Ví dụ: một MMDBMS sẽ
có khả năng truy vấn và tích hợp dữ liệu mà nó được lưu trong các CSDLkhác nhau mà có thể sử dụng các lược đồ khác nhau, cũng như việc truy vấntệp và dữ liệu lưu trữ trong DBMS hướng đối tượng hay DBMS không gian.Việc xử lý các truy vấn như vậy là khá phức tạp vì trên thực tế việc nhận biếtđược nội dung của các kiểu media là vấn đề thách thức, nó phụ thuộc rấtnhiều vào kiểu dữ liệu và cách thức lưu trữ chúng Cuối cùng, truy vấn có thể
mở rộng đối với nhiều kiểu vật mang (media) dữ liệu và MMDBMS phải cókhả năng kết hợp các kết quả từ các nguồn dữ liệu khác nhau và các kiểumedia khác nhau
Có khả năng truy vấn dữ liệu biểu diễn trong media khác nhau Ví dụ:một MMDBMS phải có khả năng truy vấn không chỉ trong CSDL hình ảnh
Trang 15mà còn cả trong CSDL âm thanh và CSDL quan hệ, sau đó kết hợp các kếtquả với nhau
MMDBMS phải có khả năng khai thác các đối tượng mang tin (media)
từ một thiết bị lưu trữ cục bộ một cách trơn tru bởi vì các đối tượng mang tin(video, âm thanh…) thường chiếm một không gian vô cùng lớn
MMDBMS phải có khả năng tạo ra các câu trả lời từ truy vấn và cókhả năng trình diễn các câu trả lời này bằng các phương tiện nghe nhìn
Mỗi một hệ thống có đầy đủ các đặc tính yêu cầu trên là chưa đủ màcòn cần phải có khả năng phân phối các trình diễn theo một cách nào đó nhằmthoả mãn các yêu cầu khác nhau về chất lượng thể hiện của các thiết bị
1.1.2 Các kiểu truyền thông và multimedia
Đa phương tiện (multimedia) là một lĩnh vực của Công nghệ thông tin
có mục đích nghiên cứu và đề xuất các công cụ trợ giúp việc xử lý lưu trữ,truyền các dữ liệu thích hợp như: văn bản (text), biểu đồ, đồ thị (graphic),hoạt hình (animation), ảnh (image), video, audio, hoặc kết hợp các media vớinhau (video + audio + văn bản diễn giải)
Người ta thường phân media thành hai loại dựa trên quan hệ của chúngvới thời gian, đó là:
Đa phương tiện tĩnh (Static media): Không có chiều thời gian Thông tin
không liên quan tới thời gian Ví dụ cho loại này là văn bản, hình họa, ảnhchụp
Đa phương tiện động (Dynamic media): Có chiều thời gian Thông tin
có quan hệ chặt chẽ với thời gian và thông tin phải được trình diễn với thờigian xác định Ví dụ các loại audio, video, animation
So với dữ liệu truyền thống như văn bản và số, dữ liệu đa phương tiện
Trang 16bản đó bằng định dạng ảnh GIF thì kích thước gấp khoảng 10 lần Một giọngnói đơn sắc được lưu với định dạng WAV trong thời gian 1 phút có kíchthước khoảng 2640 kByte (đã nén) hoặc xấp xỉ 6 -8 MB (chưa nén) Mộtcảnh video rất ngắn chứa hàng trăm bức ảnh với kích thước có thể lên đếnvài chục MB
Cụ thể, có thể xem bảng minh họa sau:
Bảng 1.1: Mô tả kích thước kiểu dữ liệu
Số lượng dữ liệu đồ sộ: người ta ước tính, chỉ riêng trên WWW có sốlượng lên đến hàng tỉ ảnh, hàng trăm triệu bài hát MP3 và vài chục triệuphim video
Một số dữ liệu đa phương tiện phụ thuộc thời gian
Audio và video có thêm chiều thời gian Khi trình diễn audio và videothì chất lượng của chúng phụ thuộc chặt chẽ vào tốc độ trình diễn
Ví dụ: video phải được trình diễn với tốc độ 25 đến 30 hình/giây để cóthể cảm nhận được hình ảnh chuyển động tốt
Tìm kiếm dựa trên cơ sở tương tự
Trong cơ sở dữ liệu quan hệ, phương pháp tìm kiếm truyền thống đốivới dữ liệu dạng văn bản và số là tìm kiếm chính xác Đối với dữ liệu đaphương tiện, người dùng thường đặt ra yêu cầu tìm kiếm một đối tượng tương
tự theo nội dung mà họ đưa ra
Trang 171.1.3 Hệ quản trị cơ sở dữ liệu đa phương tiện (MMDBMS)
Trung tâm của một hệ thống thông tin multimedia chính là hệ quản trịCSDL MULTIMEDIA (MDBMS) Theo truyền thống, một CSDL bao gồmmột bộ các dữ có liên quan về một thực thể cho trước hoặc một hệ quản trịCSDL (DBMS) là một bộ các dữ liệu có liên quan đến nhau với một tập hợpcác chương trình được dùng để khai báo, tạo lập, lưu trữ, và khai thác CSDL.Tương tự như vậy, chúng ta có thể xem một CSDL MULTIMEDIA là một tậpcác loại dữ liệu multimedia như văn bản, hình ảnh, video, âm thanh, các đốitượng đồ hoạ… Một hệ quản trị CSDL MULTIMEDIA (MDBMS) cung cấp
hỗ trợ cho các loại dữ liệu MULTIMEDIA trong việc tạo lập, lưu trữ, truycập, truy vấn và kiểm soát [2]
Sự khác nhau của các kiểu dữ liệu trong CSDL MULTIMEDIA có thểđòi hỏi các phương thức đặc biệt để tối ưu hoá việc lưu trữ, truy cập, chỉ sốhoá và khai thác MDBMS cần phải cung cấp các yêu cầu đặc biệt này bằngcách cung cấp các cơ chế tóm tắt bậc cao để quản lý các kiểu dữ liệu khácnhau cũng như các giao diện thích hợp để thể hiện chúng
Các yêu cầu của MDBMS:
Các phương pháp tìm kiếm dựa theo mô tả: ví dụ, người dùng có thể đưa
ra một mô tả để tìm kiếm “tiếng chuông điện thoại”
Giao diện người dùng độc lập với thiết bị: người dùng không cần biết cách
thức lưu trữ dữ liệu đa phương tiện như thế nào
Giao diện người dùng độc lập với các định dạng: các truy vấn dữ liệu đa
phương tiện có thể độc lập với định dạng dữ liệu Nó cho phép có thể sửdụng các kỹ thuật lưu trữ mới mà không cần thay đổi ứng dụng cơ sở dữliệu hiện có
Cho phép thực hiện nhiều truy cập dữ liệu đồng thời: dữ liệu đa phương
tiện có thể truy cập đồng thời qua nhiều câu truy vấn khác nhau bởi một số
Trang 18ứng dụng Cách truy cập nhất quán nhằm chia sẻ dữ liệu có thể được thựchiện và cần có cơ chế để thỏa mãn, tránh việc tạo ra các xung đột
Quản lý một lượng dữ liệu lớn: hệ thống cần phải có khả năng lưu trữ,
quản lý một lượng dữ liệu lớn và thỏa mãn các truy vấn đối với các quan
hệ của dữ liệu
Vấn đề truyền dữ liệu đa phương tiện dựa trên thời gian thực: điều khiển
việc đọc/ghi dữ liệu liên tục phải được thực hiện dựa trên thời gian thực
Do lượng dữ liệu có thể là rất lớn (ví dụ: truyền video) nên việc truyền dữliệu có thể tốn nhiều thời gian và đòi hỏi phải được thực hiện một cáchchính xác
1.1.4 Truy tìm thông tin tài liệu văn bản
Truy tìm thông tin – Information Retrieval (IR) là kỹ thuật tìm kiếmthông tin được lưu trữ trên máy tính Đối với dữ liệu đa phương tiện, việc truytìm thông tin hiệu quả là dựa trên tìm kiếm tương tự Hệ thống lưu trữ một tậpcác đối tượng đa phương tiện trong cơ sở dữ liệu Người dùng đưa ra các truyvấn và hệ thống tìm ra các đối tượng tương tự truy vấn trong cơ sở dữ liệu đãlưu trữ thỏa mãn yêu cầu của người dùng Truy tìm thông tin trongMMDBMS có một số đặc điểm sau đây:
Sử dụng một khối lượng dữ liệu đặc tả lớn và phức tạp
Việc tiếp cận IR chủ yếu dựa trên các đặc trưng
Các dữ liệu thường có kích thước lớn
Sự cần thiết phải có các kỹ thuật chỉ mục dữ liệu kích thước lớn để xử
lý các truy vấn một cách hiệu quả và thực hiện nhanh hơn so vớiphương pháp tìm kiếm tuần tự
Sự cần thiết phải tích hợp các đặc trưng media phức tạp một cáchthường xuyên (ví dụ, dữ liệu ảnh có thể chứa các đặc trưng như: hìnhdạng, biểu đồ màu, kết cấu )
Trang 19Ý tưởng của phương pháp tìm kiếm tương tự đưa ra như sau:
Cho một tập các đối tượng đa phương tiện trong MMDBMS
Tìm ra một hoặc một số K đối tượng tương tự (giống) nhất với đốitượng truy vấn mong muốn một cách nhanh chóng
1.1.5 Truy xuất và chỉ số hoá multimedia
Các DBMS truy xuất các khoản mục dựa trên số liệu có cấu trúc khi sửdụng kết nối chính xác IR cũng được gọi là truy xuất dựa trên văn bản Việctruy xuất dựa vào nội dung đề cập đến việc truy xuất dựa trên những nét đặctrưng truyền thống hiện nay như là màu sắc, hình dạng thay cho lời giải thíchvăn bản về khoản mục truyền thông đó
Việc truy xuất dựa trên nội dung là chuẩn dựa trên sự đồng dạng thay vìmột kết nối chính xác giữa một truy vấn và một tập các khoản mục dữ liệu
MIRS đề cập đến một hệ thống cơ sở cung cấp việc truy xuất thông tinmultimedia khi sử dụng một tổ hợp DBMS, IR và các kỹ thuật truy xuất dựatrên nội dung Trong một MIRS, một vài vấn đề như phiên bản và điều khiển
an toàn có thể không thực hiện được đầy đủ Một MIRS đủ bản lĩnh ra đờiđược gọi là MDBMS
Ví dụ: một video tài liệu cần phải sử dụng video, hình ảnh, văn từ, âmthanh, lời nói và những thứ tương tự như vậy Vì vậy phương tiện dò tìm phảikết nối các câu hỏi với các mục cơ sở dữ liệu Các loại truyền thông khácnhau cần các kỹ nghệ phục hồi và cách biểu thị khác nhau
Để việc truy tìm có hiệu quả, cần có một cấu trúc các khoản mục hợp
lý Bởi vì các vector đặc trưng đều đa dạng về kích cỡ và việc truy tìm cáckhoản mục trong các MIRS dựa trên sự tương đồng thay cho việc kết nốichính xác, cấu trúc mục lục được sử dụng trong các DBMS không thích hợpvới các MIRS
Trong các DBMS, tiến hành chính liên quan đến hiệu quả (thời gian trảlời câu hỏi) rất quan trọng bởi kích cỡ lớn của multimedia Ngoài ra, hiệu quả
Trang 20truy tìm cũng rất quan trọng bởi các MIRS truy tìm các mục chọn dựa trên cơ
sở đo sự tương đồng, sử dụng luật tương ứng thay thế cho kết nối chính xác
1.2 Kiến trúc tổ chức nội dung của một hệ thống cơ sở dữ liệu Multimedia 1.2.1 Kiến trúc hệ thống quản trị cơ sở dữ liệu đa phương tiện
Phát triển một MMDBMS bao gồm các bước sau:
Bước 1 Thu thập media: Các dữ liệu media được thu thập từ cácnguồn khác nhau như Camera, CD, DVD, Internet
Bước 2 Xử lý media: Mô tả các đoạn trích media và các đặc trưngcủa chúng, bao gồm cả lọc nhiễu và tách thô
Bước 3 Lưu trữ media: Dựa vào yêu cầu cụ thể của ứng dụng để lưu
dữ liệu và các đặc trưng của chúng vào hệ thống
Bước 4 Tổ chức media: Tổ chức các đặc trưng để phục vụ việc truytìm Ví dụ: chỉ mục các đặc trưng với các cấu trúc giúp khai thác hiệu quả
Bước 5 Xử lý truy vấn media: Là quá trình làm cho thích nghi vớicấu trúc chỉ mục Thiết kế các giải thuật tìm kiếm hiệu quả
Kiến trúc chung cho một MMDBMS được minh họa như sau:
Trang 21MMDBM S
ều môđun
11
Trích chọn đặc trưng
Chỉ mục
Xây dựng truy vấn đặc
Các đối tượng media
Search engine MM
DB MS
phản hồi
chức năng khácnhau nhằm hỗ trợ các thao tác trên dữ liệu đa phương tiện Hệ thống bao gồmcác môđun chính sau đây:
Trang 22- Giao diện người dùng
- Bộ trích chọn đặc trưng
- Chỉ số hóa và tìm kiếm
- Quản lý truyền thông
Trong đó, có hai thao tác cơ bản là:
Bổ sung dữ liệu đa phương tiện mới
Thao tác bổ sung được thực hiện theo trình tự các bước như sau:
- Bước 1: Dữ liệu đa phương tiện mới được bổ sung thông qua nhiềucách khác nhau như nhập trực tiếp từ bàn phím, từ microphone, camera hay từbất kỳ thiết bị nhập kỹ thuật số khác Dữ liệu đa phương tiện cũng có thểđược lấy từ các tệp đã lưu sẵn
- Bước 2: Sau khi dữ liệu đa phương tiện được bổ sung, nội dung củachúng được trích chọn bằng công cụ trích chọn đặc trưng
- Bước 3: Các dữ liệu đa phương tiện được bổ sung cùng với các đặctrưng của nó, thông qua bộ quản lý truyền tin sẽ được gửi về máy chủ
- Bước 4: Tại máy chủ, các đặc trưng sẽ được bố trí về các vị trí phùhợp dựa vào lược đồ chỉ số hóa
- Bước 5: Các dữ liệu đa phương tiện bổ sung cùng với các đặc trưng
và chỉ số hóa phát sinh được lưu vào bộ quản lý lưu trữ
Truy vấn
Thao tác truy vấn được thực hiện theo trình tự các bước như sau:
- Bước 1: Tại giao diện người dùng, người sử dụng truy vấn thông tinthông qua một thiết bị nhập nào đó, thông qua tệp đã được lưu trước đó hoặc
có thể lấy trực tiếp từ cơ sở dữ liệu MMDBMS
- Bước 2: Nếu truy vấn của người sử dụng không được lấy trực tiếp từ
cơ sở dữ liệu trong MMDBMS thì thực hiện như sau:
+ Thực hiện trích chọn đặc trưng truy vấn
+ Gửi các trích chọn đặc trưng đó đến máy chủ
Trang 23+ Chỉ số hóa để tìm kiếm các mục dữ liệu phù hợp với truy vấn trong
cơ sở dữ liệu
+ Hiển thị kết quả đến người sử dụng thông qua giao diện người dùng
1.2.2 Tổ chức dữ liệu đa phương tiện trên cơ sở nguyên lý thống nhất
Xét ví dụ sau:
Bức ảnh photo1.jpg có sự xuất hiện của đối tượng A, đối tượng B và
một đối tượng chưa được xác định được chụp tại sân bóng đá trường Đại họcCNTT&Truyền thông Thái Nguyên vào ngày 24/10/2017
Đoạn video video1.mpg có hình ảnh của đối tượng A đưa cho đối tượng
B một chiếc cặp (trong frames 20-50) Đoạn video này thu được từ sự theodõi Camera tại quán Cafe Z, thành phố Thái Nguyên, nước Việt Nam vàotháng 11 năm 2017
Văn bản B.docx có chứa các thông tin chi tiết về dối tượng B được thu
thập từ dữ liệu của cơ quan an ninh
Bản thân mỗi đối tượng trên cũng đã nói lên phần nào nội dung củatừng đối tượng cụ thể (hình ảnh, video, văn bản) Tuy nhiên, thông tin đưa ra
ở đây chỉ nói lên nội dung về mặt ngữ nghĩa hơn là đề cập đến các tính chất
cụ thể của mỗi loại đối tượng Một cách tiếp cận hiệu quả nhất đối với CSDLmultimedia và đã được sử dụng rộng rãi trong thực tế là sử dụng các đốitượng được phát biểu ở trên như là siêu dữ liệu (metadata)
phải tiến hành việc chỉ số hóa các metadata này với một cách thức nhằm cungcấp các phương thức triển khai hiệu quả đối với các yêu cầu truy cập từ phíangười dùng
Có thể thấy rằng, sự thành công của phương pháp này phụ thuộc cơ bản
Trang 24tương ứng của nó md(oi) là cô đọng và phản ánh đúng chỉ những gì mà ngườidùng yêu cầu Với một số lượng tối thiểu các metadata được dùng chúng ta sẽ
dễ dàng hơn trong việc chỉ số hóa cũng như thực hiện các thao tác khai thác dữliệu Tuy nhiên, nếu số lượng metadata sử dụng ít thì có thể người sử dụng sẽphải mất thời gian hơn trong việc thiết lập các câu hỏi của mình Có thể lấytrường hợp sau làm ví dụ:
Người dùng: hãy tìm cho tôi tất cả các đoạn video hoặc ảnh chụp màđối tượng A và đối tượng B trao đổi với nhau một gói hành lý
Hệ thống: Không tìm được mặc dù hệ thống đã có đoạn video ghi lạiđối tượng A và đối tượng B trao đổi với nhau một chiếc cặp nhưng hệ thốngvẫn trả lời là không tìm thấy vì nó không hiểu rằng một chiếc cặp cũng có thểcoi là một gói hành lý
Người dùng: hãy tìm cho tôi tất cả các đoạn video hoặc ảnh chụp màđối tượng A và đối tượng B trao đổi với nhau một vật gì đó
Hệ thống: tìm thấy frames 20-50 của đoạn video video1.mpg thỏa mãn
yêu cầu của bạn
Mặc dù có một vài nhược điểm như sử dụng metadata không biểu diễnhết được các khía cạnh của đối tượng media trong CSDL nhưng cách tiếp cậndựa trên nguyên lý đồng nhất có một số ưu điểm nổi bật sau:
- Metadata thường được lưu trữ dưới dạng các cấu trúc có liên quanđến tính chất quan hệ hoặc hướng đối tượng và có thể truy vấn một cách dễdàng thông qua việc mở rộng các ngôn ngữ (chẳng hạn như SQL)
- Việc viết mã để thao tác với metadata thường dễ dàng
- Việc viết các chương trình để tạo ra metadata là đơn giản đối với cáclập trình viên có năng lực
Chúng ta đã xem xét đến nội dung của dữ liệu media dưới các dạngkhác nhau Một câu hỏi đặt ra ở đây: Đâu là phần chung nhất của các loại dữ
Trang 25liệu này? Mục đích của chúng ta là tìm kiếm một cấu trúc chung nhất cho tất
cả các loại dữ liệu mà qua đó ta có thể thể hiện được nội dung của các loại dữliệu đó Tóm tắt media là một cấu trúc toán học cho phép diễn đạt nội dungcủa các media này, sự tóm tắt media có thể được triển khai thông qua một cấutrúc dữ liệu duy nhất
1.2.3 Cấu trúc tóm tắt
media
- S là một tập các đối tượng gọi là các trạng thái.
- ATTR là một tập các đối tượng gọi là các giá trị thuộc tính.
- F là một tập các quan hệ của S.
- Một trạng thái là đoạn (chunk) nhỏ nhất của dữ liệu media mà tamong muốn Ví dụ: trong một CSDL hình ảnh, mỗi ảnh có thể được xem như
là một trạng thái Nếu quan điểm này được chấp nhận, chúng ta sẽ coi như tất
cả các ảnh như là các đối tượng đơn lẻ cơ bản và tất cả các đặc tính của nó sẽđược quan tâm Khi đó, chúng ta sẽ không quan tâm đến các đặc tính đơn lẻnhư là các đặc tính của từng điểm ảnh Trong trường hợp dữ liệu video, mộttrạng thái có thể được xem là một chuỗi liên tiếp các frame có dạng (10 x i, 10
x (i+1)) thể hiện một đoạn gồm 10 frame bắt đầu từ frame có số thứ tự chiahết cho 10
- Một đặc trưng là bất kỳ đối tượng nào trong một trạng thái mà nó sẽđược quan tâm Một đặc trưng có thể gao gồm cả các đối tượng và các phạm
Trang 26vi của nó Ví dụ: chúng ta xem xét một bức ảnh gồm 3 đối tượng A, B vàmột đối tượng chưa được nhận biết thì các đặc trưng được quan tâm đến ởđây là A, B và đối tượng C nào đó Tương tự như vậy, nếu chúng ta phân tíchđoạn video từ frame 20-50 thì các đặc trưng được quan tâm ở đây là A, B vàcái cặp Các đặc trưng xuất hiện trong một trạng thái có thể có các thuộc tínhcủa mình Ví dụ: đối tượng A bước ra khỏi từ xe ôtô của mình thì các thuộctính của chiếc xe ô tô (loại xe, màu sắc, biển số) cũng cần phải được ghinhận Tương tự như vậy, một đối tượng media cũng có thể có một vài thuộctính cần được quan tâm như ngày, thời gian và địa điểm chụp bức ảnh đó.
- λ là một ánh xạ đặc trưng rút gọn cho phép ta biết đặc trưng nào xuấthiện trong những trạng thái nào λ có thể là một GUI cho phép người sử dụngtương tác nhằm mục đích nhận biết được nội dung của một đối tượng media
trạng thái Ví dụ: nếu xem xét một bức ảnh như photo1.jpg thì ở đây có thể
có một quan hệ phụ thuộc vào trạng thái gọi là left.of bao gồm một bộ ba có
dạng (đối tượng A, đối tượng B, photo1.jpg) tương tự như vậy chúng ta
cũng có thể có một quan hệ khác gọi là background bao gồm một cặp códạng (photo1.jpg, White_House)
- F có thể chứa các liên kết kết hợp 2 trạng thái chẳng hạn như liên kết
có trước, nếu chúng ta có 2 bức ảnh (photo1.jpg, photo2.jpg) mà giữa chúngtồn tại liên kết có trước thì khi đó có nghĩa là bức ảnh 1 được chụp trước bứcảnh 2 và tiếp tục như vậy
1.3 Tổng quan về tra cứu
ảnh
Tra cứu ảnh là một quá trình tìm kiếm trong một cơ sở dữ liệu ảnhnhững ảnh thoả mãn một yêu cầu nào đó Ví dụ một người muốn tìm tất cảcác ảnh tương tự với một bức ảnh mẫu nào đó trong một cơ sở dữ liệu ảnh
Trang 271.3.1 Mô hình hệ thống tra cứu ảnh theo nội dung
Phương pháp tra cứu ảnh theo nội dung (Content-Based ImageRetrieval) sử dụng các nội dung trực quan của ảnh như màu sắc, hình dạng, kếtcấu (texture) và phân bố không gian để thể hiện và đánh chỉ số các ảnh Trongmột hệ thống tra cứu ảnh theo nội dung điển hình các nội dung trực quan củaảnh được trích chọn và mô tả bằng những véctơ đặc trưng nhiều chiều
Tập hợp các véctơ đặc trưng của các ảnh trong một cơ sở dữ liệu ảnh tạothành cơ sở dữ liệu đặc trưng Quá trình tra cứu ảnh được tiến hành như sau:Người sử dụng cung cấp cho hệ thống tra cứu một ảnh mẫu cụ thể Sau đó, hệthống sẽ chuyển những mẫu này thành các véc tơ đặc trưng và tính toán sựgiống nhau (hay độ tương tự) giữa véc tơ đặc trưng của ảnh mẫu và véc tơ đặctrưng của các ảnh trong cơ sở dữ liệu Sau cùng, việc tra cứu được tiến hànhvới sự trợ giúp của các sơ đồ đánh chỉ số Sử dụng sơ đồ đánh chỉ số là cáchhiệu quả để tìm kiếm trong các cơ sở dữ liệu ảnh Một số hệ thống tra cứu ảnhmới phát triển gần đây còn tích hợp cả chức năng xử lý phản hồi của người sửdụng để cải tiến các qui trình tra cứu và ra những kết quả tra cứu tốt hơn
Hình 1.2: Mô hình hệ thống Tra cứu ảnh theo nội dung
Trong mô hình này, người sử dụng sẽ tạo truy vấn bằng cách chọnmột ảnh mẫu trong một cơ sở dữ liệu ảnh cho trước hoặc phác thảo mộthình vẽ mô tả đối tượng ảnh cần tìm bằng cách sử dụng một giao diện đồhoạ của hệ thống
Trang 28Ảnh mẫu đó được đưa qua khối mô tả nội dung trực quan, trong đóngười ta sử dụng một phương pháp mô tả nội dung trực quan nào đó đểtrích chọn một đặc điểm nội dung trực quan để xây dựng thành một véc tơđặc trưng.
Véc tơ đặc trưng của ảnh mẫu sẽ được so sánh với véc tơ đặc trưngtương ứng của các ảnh trong cơ sở dữ liệu ảnh Kết quả của phép so sánh làmột chỉ số đánh giá độ tương tự giữa ảnh mẫu và ảnh lấy ra để so sánh
Dựa vào chỉ số độ tương tự tính toán được ở trên, hệ thống sẽ sắp xếpcác ảnh tìm được trong cơ sở dữ liệu ảnh theo một sơ đồ đánh chỉ số nào đó.Danh sách các ảnh tìm được (đã được sắp xếp) được đưa ra đầu ra của hệthống
1.3.2 Một số hệ thống tra cứu ảnh theo nội dung tiêu biểu
Hệ thống QBIC (Query By Image Content)
Hệ thống QBIC của hãng IBM là một hệ thống tra cứu ảnh thương mạiđầu tiên và nổi tiếng nhất trong số các hệ thống tra cứu ảnh dựa trên nội dung
Nó cho phép người sử dụng tra cứu ảnh dựa vào màu sắc, hình dạng và kếtcấu QBIC cung cấp một số phương pháp: Simple, Multi-feature, và Multi-pass Trong phương pháp truy vấn Simple chỉ sử dụng một đặc điểm Truyvấn Multi - feature bao gồm nhiều hơn một đặc điểm và mọi đặc điểm đều cótrọng số như nhau trong suốt quá trình tìm kiếm Truy vấn Multi-pass sử dụngđầu ra của các truy vấn trước làm cơ sở cho bước tiếp theo Người sử dụng cóthể vẽ ra và chỉ định màu, kết cấu mẫu của hình ảnh yêu cầu Trong hệ thốngQBIC màu tương tự được tính toán bằng độ đo bình phương sử dụng biểu đồmàu k phần tử và màu trung bình được sử dụng như là bộ lọc để cải tiến hiệuquả của truy vấn
Hệ thống Photobook
Hệ thống này được phát triển ở viện kỹ thuật Massachusetts Nó chophép người sử dụng tra cứu ảnh dựa trên màu sắc, hình dạng và kết cấu Hệthống này cung cấp một tập các thuật toán đối sánh gồm: Euclidean,
Trang 29mahalanobis, vector space angle, histogram, Fourier peak, và wavelet treedistance như là những độ đo khoảng cách Hệ thống như là một công cụ bán
tự động và có thể sinh ra một mẫu truy vấn dựa vào những ảnh mẫu đượccung cấp bởi người sử dụng Điều này cho phép người sử dụng trực tiếp đưanhững yêu cầu truy vấn của họ với những lĩnh vực khác nhau, và mỗi lĩnh vực
họ có thể thu được những mẫu truy vấn tối ưu
Hệ thống VisualSEEK và WebSEEK
Cả hai hệ thống này đều được phát triển tại Trường Đại học Colombia.VisualSEEK là hệ thống cơ sở dữ liệu ảnh Nó cho phép người sử dụng tracứu ảnh dựa trên màu sắc, không gian miền và đặc điểm kết cấu Thêm vào
đó VisualSEEK còn cho phép người sử dụng tạo truy vấn bằng việc chỉ địnhvùng màu và những không gian vị trí của chúng WebSEEK là một catalogảnh và là công cụ tìm kiếm trên website
Hệ thống RetrievalWare
Hệ thống này được phát triển bởi tập đoàn công nghệ Excalibur chophép người sử dụng tra cứu ảnh bởi nội dung màu, hình dạng, kết cấu, độsáng, kết cấu màu và hệ số co Người sử dụng có thể điều chỉnh tỷ trọng củanhững đặc điểm này trong suốt quá trình tìm kiếm
Hệ thống Imatch
Hệ thống này cho phép người sử dụng tra cứu ảnh bởi nội dung màu,hình dạng và kết cấu Nó cung cấp một số phương pháp để tra cứu ảnh tươngtự: Màu tương tự, màu và hình dạng, màu và hình dạng mờ, và phân bố màu.Màu tương tự để tra cứu những ảnh tương tự với ảnh mẫu dựa trên sự phân
bố màu toàn cục Màu và hình dạng thực hiện tra cứu bởi việc kết hợp cảhình dạng, kết cấu và màu Màu và hình dạng mờ thực hiện thêm nhữngbước xác định đối tượng trong ảnh mẫu Phân bố màu cho phép người sửdụng vẽ ra sự phân bố màu hoặc xác định tỷ lệ phần trăm của một màu tronghình ảnh mong muốn Imatch cũng cung cấp những đặc điểm khác nội dung
để xác định ảnh: ảnh nhị phân, lưu trữ trong những định dạng khác và những
Trang 31CHƯƠNG 2 TRÍCH CHỌN ĐẶC TRƯNG ẢNH
Cùng với nhu cầu tìm kiếm văn bản, nhu cầu tìm kiếm ảnh cũng nhậnđược rất nhiều sự quan tâm của người sử dụng Tuy nhiên, với một số lượngảnh quá lớn trên Internet, công việc tìm kiếm trở nên vô cùng khó khăn Đểgiải quyết vấn đề này, các hệ thống tìm kiếm ảnh đã ra đời như: Yahoo,MSN, Google Image Search, Bing… Các hệ thống này cho phép người sửdụng nhập truy vấn về các ảnh cần tìm kiếm Thông qua việc phân tích cácvăn bản đi kèm ảnh, hệ thống gửi trả các ảnh tương ứng với truy vấn củangười dùng
Bên cạnh đó, một số công cụ tìm kiếm ảnh thương mại khác nhưGoogle Image, Tineye,… cho phép người dùng nhập câu hỏi dưới dạng ảnh.Đây là một hướng nghiên cứu mới nhận được sự quan tâm của nhiều côngtrình khoa học trên thế giới
Dưới đây là một ví dụ về văn bản đi kèm một ảnh:
- Title: “Nhà C5 Trường Đại học CNTT&Truyền thông Thái Nguyên”
- Tags: “khoacntt, giangduong, ictu, labsamsung, dhthainguyen,honuoccntt, Canon5d3”
Trang 32- Description: “Khuôn viên trường ĐH CNTT&Truyền thông TháiNguyên nhìn từ giảng đường C2”
Hình 2.1: Ví dụ hiển thị một ảnh
Văn bản đi kèm ảnh mang ngữ nghĩa về nội dung ảnh Vì vậy, hai bứcảnh có nội dung giống nhau thường có tên giống nhau và các thẻ tương tựnhau Do đó, các công cụ tìm kiếm ảnh theo văn bản đi kèm thường tập trungkhai thác nội dung của các văn bản này để tìm kiếm và xếp hạng ảnh
Phương pháp này cho kết quả khả quan cũng như đáp ứng nhanh nhucầu của người sử dụng Tuy nhiên, với các câu truy vấn không rõ nghĩa thìcác kết quả trả về có thể sẽ không đúng với yêu cầu tìm kiếm
Ví dụ: khi truy vấn là “5D3”, một máy ảnh phổ biến của Canon, thì các
hệ thống trả về kết quả khá tốt Tuy nhiên, với truy vấn “apple”, nếu người
Trang 33dùng muốn tìm quả táo thì kết quả trả về đầu tiên không thỏa mãn (logo củahãng Apple).
Trang 34Hình 2.2: Truy vấn của Google “5D3” Hình 2.3: Truy vấn của Google “Apple”
Mặt khác, các album cá nhân thường không có các thẻ hoặc văn bản đikèm ảnh Cùng với số lượng ảnh số được chụp thêm mỗi ngày, việc gán thủcông các thẻ cho ảnh rất tốn kém thời gian Một hướng nghiên cứu nhằm khắcphục vấn đề trên là tìm kiếm theo chính các đặc trưng trích xuất từ nội dungcủa ảnh
2.1.2 Đặc trưng nội dung ảnh và tìm kiếm theo đặc trưng nội dung
Tìm kiếm ảnh theo nội dung (Content Based Images Retrieval CBIR)hay truy vấn theo nội dung ảnh (Query Based Image Content QBIC) là mộtứng dụng của thị giác máy tính đối với bài toán tìm kiếm ảnh “Dựa vào nộidung ảnh (Content Based)” nghĩa là việc tìm kiếm sẽ phân tích nội dung thực
sự của các bức ảnh CBIR ra đời từ năm 1992 Tra cứu ảnh theo nội dung làtra cứu thông tin trực quan (VIR - Visual Information Retrieval) Các yếu tốtrực quan như màu sắc, kết cấu, hình dạng và bố cục không gian trực tiếp liênquan đến khía cạnh của cảm nhận nội dung ảnh, cùng với các khái niệm ởmức cao như ý nghĩa đối tượng, khung cảnh trong ảnh, được dùng như làmanh mối cho tìm kiếm hình ảnh với nội dung tương tự từ cơ sở dữ liệu
Một số đặc trưng nội dung ảnh:
- Đặc trưng màu sắc: Màu sắc là một đặc trưng nổi bật và được sử dụngphổ biến nhất trong tìm kiếm ảnh theo nội dung Mỗi một điểm ảnh (thông tin
Trang 35màu sắc) có thể được biểu diễn như một điểm trong không gian màu sắc bachiều Các không gian màu sắc thường dùng là: RGB, YCbCr, CMYK, HSV-Tìm kiếm ảnh theo màu sắc tiến hành tính toán biểu đồ màu cho mỗi ảnh đểxác định tỉ trọng các điểm ảnh của ảnh mà chứa các giá trị đặc biệt (màu sắc).Các nghiên cứu gần đây đang cố gắng phân vùng ảnh theo các màu sắc khácnhau và tìm mỗi quan hệ giữa các vùng này.
- Đặc trưng kết cấu: Trích xuất nội dung ảnh theo kết cấu nhằm tìm ra
mô hình trực quan của ảnh và cách thức chúng được xác định trong khônggian Kết cấu được biểu diễn bởi các texture mà sau đó được đặt vào một sốcác tập phụ thuộc vào số kết cấu được phát hiện trong ảnh Các tập này khôngchỉ xác định các kết cấu mà còn chỉ rõ vị trí các kết cấu trong ảnh Việc xácđịnh các kết cấu đặc biệt trong ảnh đạt được chủ yếu bằng cách mô hình cáckết cấu như những biến thể cấp độ xám 2 chiều Ví dụ về một số loại kết cấu:
Hình 2.4: Một số loại kết cấu
- Đặc trưng hình dạng: Hình dạng của một ảnh hay một vùng là mộtđặc trưng quan trong trọng việc xác định và phân biệt ảnh trong nhận dạngmẫu Mục tiêu chính của biểu diễn hình dạng trong nhận dạng mẫu là đothuộc tính hình học của một đối tượng được dùng trong phân lớp, so sánh vànhận dạng đối tượng Thực tế, đã có nhiều máy tìm kiếm cho phép tìm kiếmảnh theo nội dung ảnh
Trang 36+ G oo g l e I m a g e s : Là máy tìm kiếm hình ảnh theo nội dung củaGoogle Trong đó, kết quả tìm kiếm được sẽ được tổ chức lại dựa vào hiển thịtrực quan và độ tương đồng giữa các ảnh.
Hình 2.5: Một kết quả trả về của Google Image
+ B i ng : Là một máy chủ tìm kiếm của Microsoft – đối thủ hàng đầu củaGoogle
Hình 2.6: Một kết quả trả về của Bing
Tìm kiếm ảnh theo mẫu (example-based image search): là một dạngcủa tìm kiếm ảnh dựa vào nội dung Trong hệ thống đó, đầu vào là mộtảnh, hệ thống tìm kiếm và trả lại cho người dùng những ảnh tương đồngvới ảnh mẫu
Trang 37+ F l i c k r: Tìm kiếm ảnh theo độ tương đồng về màu sắc, theo mẫu hình.
Hình 2.7: Một kết quả trả về của Flickr Images Search
Trong luận văn này, chúng tôi tập trung vào bài toán tìm kiếm ảnh dựatheo mẫu, tìm hiểu các phương pháp trích chọn đặc trưng nội dung cũng nhưcác độ đo tương đồng để tìm kiếm tập ảnh gần với ảnh mẫu nhất trong tập cơ
- Thành phần lựa chọn đặc trưng phải lựa chọn được một tập các đặctrưng cung cấp đầu vào tốt nhất cho hệ thống tìm kiếm ảnh Nếu số lượng cácđặc trưng quá nhiều sẽ làm “che khuất” các “tín hiệu” (giảm các “tín hiệu”đối với tỉ lệ nhiễu) Mặt khác, nếu số lượng các đặc trưng quá ít sẽ khó phânbiệt được ảnh trong tìm kiếm
Trang 38- Phải giảm bớt được độ phức tạp trong lúc tính toán tổng thể bằnggiảm đa chiều của bài toán phân lớp.
- Khi người dùng muốn sử dụng các đặc trưng đó cho mọi truy vấn thìviệc sử dụng các đặc trưng này phải hiệu quả Vì số lượng các đặc trưng cóthể là hàng nghìn, do đó thời gian xử lý của module phải tuyến tính với sốlượng đặc trưng
- Vì thời gian xử lý của thành phần lựa chọn đặc trưng tuyến tính với sốlượng đặc trưng, do đó việc lựa chọn các đặc trưng cũng nên tuyến tính dựatrên phân lớp
- Thành phần lựa chọn đặc trưng có thể xử lý được với kích thước tậpmẫu nhỏ (khoảng 5 mẫu)
2.2.1 Đặc trưng màu sắc
2.2.1.1 Đặc trưng màu sắc
Tìm kiếm ảnh theo lược đồ màu là phương pháp phổ biến và được sửdụng phổ biến nhất trong các hệ thống tìm kiếm ảnh theo nội dung Đây làphương pháp đơn giản, tốc độ tìm kiếm tương đối nhanh Tuy nhiên, kết quảtìm kiếm có độ chính xác không cao Đây có thể xem là bước lọc đầu tiên chonhững bước tìm kiếm sau Một số lược đồ màu được sử dụng như: lược đồmàu RGB, lược đồ màu HSI, lược đồ HSI cải tiến Trong đó, lược đồ màuRGB được sử dụng phổ biến nhất
Lược đồ màu RGB:
Đối với ảnh 256 màu, lược đồ màu của ảnh tương đương với lược đồmàu của ảnh xám Đối với ảnh 24 bit màu, lược đồ miêu tả khả năng kếtnối về cường độ của ba kênh màu R, G, B Lược đồ màu này được địnhnghĩa như sau:
(2.1)Trong đó N là số lượng điểm có trong ảnh
Trang 39Lược đồ màu này được tính bằng cách rời rạc hóa từng màu trong ảnh,sau đó đếm số điểm ảnh của mỗi màu Khi mà số lượng màu là có hạng, đểthuận tiện hơn, người ta thường chuyển đổi ba kênh màu thành một biến giátrị duy nhất Một cách khác để tính lược đồ màu của ảnh RGB là ta phân ra
cách đếm kênh màu tương ứng trong mỗi điểm ảnh
2.2.1.2 Độ đo tương đồng về màu sắc
Một số độ đo tương đồng được sử dụng như: Độ đo khoảng cách Ơclit,
độ đo Jensen-Shannon divergence (JSD)
Gọi h(I) và h(M) tương ứng là 2 lược đồ màu của hai ảnh I và ảnh M.Khi đó các loại độ đo màu được định nghĩa là một số nguyên (hoặc số thực)theo các loại độ đo tương ứng như sau:
- Khoảng cách Ơclit:
Đây là khoảng cách Ơclit thông thường giữa các K bin:
(2.2)Hoặc:
(2.3)
- Độ đo Jensen-Shannon divergence (JSD):
Độ đo Jensen-Shannon divergence sử dụng lược độ màu RGB để tínhtoán độ tương đồng về màu sắc giữa 2 ảnh:
(2.4)
biểu đồ H
Trang 402.2.2 Đặc trưng kết cấu
2.2.2.1 Đặc trưng kết cấu
Kết cấu (texture) là một tính chất quan trọng khác của ảnh Kết cấu làmột thành phần có ảnh hưởng rất quan trọng đối với sự nhận thức trực quancủa con người Tất cả mọi người đều có thể nhận ra kết cấu nhưng lại rất khó
Các phương pháp thống kê bao gồm: Phương pháp phổ năng lượngFourier, ma trận đồng khả năng, Tamura, phân tích Wold, trường ngẫu nhiênMarkov, mô hình fractal, các bộ lọc đa phân giải như biến đổi Gabor và biếnđổi dạng sóng thể hiện kết cấu bằng sự phân bố thống kê của độ sáng củacác điểm ảnh
Kết cấu cung cấp thông tin về sự sắp xếp về mặt không gian của màusắc và cường độ một ảnh Kết cấu được đặc trưng bởi sự phân bổ không giancủa những mức cường độ trong một khu vực láng giềng với nhau
Một số phương pháp dùng để trích xuất các đặc trưng kết cấu như:
- Kim tự tháp “có thể lái được” (the steerable pyramid)
- Biến đổi đường viền (the cotourlet transform)
- Biến đổi sóng Gabor (The Gabor Wavelet transform)
- Biểu diễn ma trận đồng hiện (co-occurrence matrix)