1. Trang chủ
  2. » Luận Văn - Báo Cáo

Các kỹ thuật nâng cao hiệu suất truy vấn cơ sở dữ liệu đa phương tiện

77 16 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 77
Dung lượng 2,64 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Chúng được sử dụng trong đời sống hàng ngày của con người và đem lại hiệu quả mạnh hơn nhiều so với các dữ liệu truyền thống khác.Hiện có rất nhiều nhà nghiên cứu trong nước và nước ngoà

Trang 1

ĐẠI HỌC THÁI NGUYÊN

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

Trang 2

ĐẠI HỌC THÁI NGUYÊN

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

ĐÀO DUY TÙNG

CÁC KỸ THUẬT NÂNG CAO HIỆU SUẤT

TRUY VẤN CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN

Chuyên ngành: KHOA HỌC MÁY TÍNH

Mã số: 60480101

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Người hướng dẫn khoa học:PGS.TSKH NGUYỄN XUÂN HUY

THÁI NGUYÊN - 2015

Trang 3

LỜI CAM ĐOAN

Tên tôi là: Đào Duy Tùng

Sinh ngày: 13-11-1988

Học viên lớp cao học K12I - Trường Đại học Công nghệ thông tin và và Truyền thông - Thái Nguyên

Xin cam đoan: Đề tài “Các kỹ thuật nâng cao hiệu suất truy vấn cơ sở dữ liệu

đa phương tiện” do thày giáo PGST.SKH Nguyễn Xuân Huyhướng dẫn là công

trình nghiên cứu của riêng tôi Tất cả tài liệu tham khảo đều có nguồn gốc, xuất xứ

rõ ràng

Tác giả xin cam đoan tất cả những nội dung trong luận văn đúng như nội dung trong đề cương và yêu cầu của thầy giáo hướng dẫn Nếu sai tôi hoàn toàn chịu trách nhiệm trước hội đồng khoa học và trước pháp luật

Thái Nguyên, tháng 11 năm 2015

TÁC GIẢ LUẬN VĂN

Đào Duy Tùng

Trang 4

LỜI CẢM ƠN

Sau sáu tháng nghiên cứu và làm việc nghiêm túc, được sự động viên, giúp

đỡ và hướng dẫn tận tình của thầy giáo hướng dẫn PGSTSKH Nguyễn Xuân Huy, luận văn với đề tài “Các kỹ thuật nâng cao hiệu suất truy vấn cơ sở dữ liệu đa phương tiện” đã hoàn thành

Tôi xin bày tỏ lòng biết ơn sâu sắc đến:

Thầy giáo hướng dẫn PGS.TSKH Nguyễn Xuân Huy đã tận tình chỉ dẫn,

giúp đỡ tôi hoàn thành luận văn này

Khoa sau Đại học Trường Đại học công nghệ thông tin và truyền thông đã giúp đỡ tôi trong quá trình học tập cũng như thực hiện luận văn

Tôi xin chân thành cảm ơn bạn bè, đồng nghiệp và gia đình đã động viên, khích lệ, tạo điều kiện giúp đỡ tôi trong suốt quá trình học tập, thực hiện và hoàn thành luận văn này

TÁC GIẢ LUẬN VĂN

Đào Duy Tùng

Trang 5

MỤC LỤC

LỜI CAM ĐOAN i

LỜI CẢM ƠN ii

MỤC LỤC iii

DANH MỤC CÁC HÌNH ẢNH vi

DANH MỤC BẢNG BIỂU vii

DANH MỤC CÁC TỪ VIẾT TẮT viii

MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN VÀ KIẾN TRÚC TỔ CHỨC NỘI DUNG 1

1.1 Tình hình nghiên cứu chuyên đề trong và ngoài nước 1

1.1.1 Các dịch vụ đa phương tiện trong giáo dục 1

1.1.2 Ứng dụng trong hội nghị điện tử 2

1.1.3 Ngành công nghiệp giải trí 3

1.1.4 Thương mại điện tử 3

1.2 Mục tiêu nghiên cứu và phương pháp thực hiện 4

1.2.1 Mục tiêu nghiên cứu 4

1.2.2 Phương pháp nghiên cứu 4

1.2.3 Nội dung thực hiện 4

1.3 Tổng quan về hệ quản trị cơ sở dữ liệu đa phương tiện 5

1.3.1 Giới thiệu chung 5

1.3.2 Các kiểu truyền thông và multimedia 8

1.3.3 Hệ quản trị cơ sở dữ liệu đa phương tiện (MMDBMS) 10

1.3.4 Truy tìm thông tin tài liệu văn bản 11

1.3.5 Truy xuất và chỉ số hoá multimedia 12

1.4 Kiến trúc tổ chức nội dung của một hệ thống cơ sở dữ liệu Multimedia 13

1.4.1 Kiến trúc hệ thống quản trị cơ sở dữ liệu đa phương tiện 13

1.4.2 Tổ chức dữ liệu đa phương tiện trên cơ sở nguyên lý thống nhất 15

1.4.3 Cấu trúc tóm tắt media 17

1.4.4 Dữ liệu ảnh như là một tóm tắt media 18

Trang 6

1.4.5 Dữ liệu video như là một tóm tắt media 19

CHƯƠNG 2: TRÍCH CHỌN ĐẶC TRƯNG ẢNH 20

2.1 Tổng quan về trích chọn đặc trưng ảnh 20

2.1.1 Đặc trưng văn bản đi kèm ảnh và tìm kiếm ảnh theo văn bản đi kèm ảnh 20

2.1.2 Đặc trưng nội dung ảnh và tìm kiếm theo đặc trưng nội dung 22

2.2 Các phương pháp trích chọn đặc trưng ảnh và độ đo tương đồng giữa các ảnh 25

2.2.1 Đặc trưng màu sắc 26

2.2.2 Đặc trưng kết cấu 28

2.2.3 Đặc trưng hình dạng 29

2.2.4 Đặctrưng cục bộ bất biến 30

2.2.5 Lựa chọn đặc trưng 34

2.3 Một số phương pháp tìm kiếm ảnh theo nội dung 37

2.3.1 Phương pháp PageRank cho tìm kiếm ảnh sản phẩm 37

2.3.2 Phương pháp xếp hạng lại ảnh dựa trên luật của người dùng (CueFlik) 39

2.3.3 Phương pháp tìm kiếm ảnh dựa trên màu sắc, hình dạng, kết cấu của ảnh 40

2.3.4 Phương pháp tìm kiếm ảnh dựa vào nội dung sử dụng các phân vùng ảnh như mẫu truy vấn 43

2.4 Mô hình k láng giềng gần nhất sử dụng bộ lượng tử hóa 44

2.4.1 Cơ sở lý thuyết 45

2.4.2 Thuật toán K láng giềng 50

2.4.3 Mô hình bài toán 52

CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ 55

3.1 Phát biểu bài toán 55

3.2 Cấu hình hệ thống 55

3.2.1 Cấu hình phần cứng 55

3.2.2 Công cụ phần mềm sử dụng 56

Trang 7

3.2.3 Thư viện sử dụng 56

3.3 Xây dựng tập dữ liệu ảnh 56

3.4 Quy trình, phương pháp thực nghiệm 57

3.5 Kết quả thực nghiệm 60

KẾT LUẬN 64

TÀI LIỆU THAM KHẢO 65

Trang 8

DANH MỤC CÁC HÌNH ẢNH

Hình 1-1 Kiến trúc chung của một MMDBMS 13

Hình 2-1 Ví dụ hiển thị một ảnh 21

Hình 2-2.Truy vấn của Google “d-80” 22

Hình 2-3 Truy vấn của Google “Apple” 22

Hình 2-4.Ví dụ về một số lọai kết cấu 23

Hình 2-5.Một kết quả trả về của Google Image Swirl 24

Hình 2-6.Một kết quả trả về của Tiltomo 24

Hình 2-7.Một kết quả của Byo Image Search 25

Hình 2-8 Biểu đồ mô phỏng việc tính toán các DoG ảnh từ các ảnh kề mờ 32

Hình 2-9 Mỗi điểm ảnh đƣợc so sánh với 26 láng giềng của nó 33

Hình 2-10 Quá trình lựa chọn các điểm hấp dẫn 33

Hình 2-11 Biểu diễn các vector đặc trƣng 34

Hình 2-12 Ví dụ các ảnh sản phẩm trả về từ hệ thống của Jing 38

Hình 2-13 Tổng quan về mô hình của hệ thống tìm kiếm theo màu sắc, kết cấu và hình dạng 41

Hình 2-14.Mô hình hệ thống IVFADCj; Hệ thống bên trái: chèn một vector vào danh sách chỉ mục ngƣợc; hệ thống bên phải: tìm kiếm k láng giềng gần nhất 50

Hình 2-15 Mô hình giải quyết bài toán 53

Hình 3-1 Truy vấn iphone 6s plus 58

Hình 3-2 Ảnh truy vấn 58

Hình 3-3 Độ đo khoảng cách của 10 ảnh 59

Hình 3-4 Ảnh đƣợc lƣợng tử hóa và tính khoảng cách giữa các vector 60

Hình 3-5 Độ chính xác mức k của một số truy vấn 62

Trang 9

DANH MỤC BẢNG BIỂU

Bảng 1-1 Mô tả kích thước kiểu dữ liệu 8

Bảng 1-2 Liên hệ giữa đặc trưng và trạng thái cho hình ảnh 19

Bảng 1-3 Liên hệ giữa đặc trưng và trạng thái cho video 19

Bảng 2-1 Một số phương pháp lựa chọn đặc trưng 36

Bảng 3-1 Cấu hình phần cứng sử dụng trong thực nghiệm 55

Bảng 3-2 Công cụ phần mềm sử dụng trong thực nghiệm 56

Bảng 3-3 Một số thư viện sử dụng trong thực nghiệm 56

Bảng 3-4 Kết quả độ chính xác trung bình của 10 truy vấn 62

Trang 10

DANH MỤC CÁC TỪ VIẾT TẮT

DBMS Database Management System Hệ quản trị cơ sở dữ liệu

IR Information Retrieval Hệ thống tự động truy tìm

thông tin MMDBMS Multimedia Database Management

System

Hệ thống quản trị cơ sở dữ liệu

đa phương tiện MIRS Multimedia Indexing & Retrieval

System

Hệ thống chỉ mục và truy tìm thông tin đa phương tiện MRI Magnetic Resonance Imaging

Trang 11

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

MỞ ĐẦU

Thế kỷ 21 hứa hẹn những bước phát triển nhảy vọt hơn nữa trong lĩnh vực công nghệ thông tin Những ứng dụng công nghệ thông tin vào đời sống thực tiễn và nghiên cứu khoa học được đánh giá rất triển vọng, mở ra những thành công to lớn

Chưa bao giờ người dùng lại có nhiều cơ hội lựa chọn và tận hưởng những gì

mà đa phương tiện đem lại như ngày nay Trong số đó, hình ảnh, âm thanh kỹ thuật số kết hợp với các dịch vụ có ý nghĩa thực tiễn và quan trọng trong nhiều lĩnh vực kinh tế

xã hội như thương mại điện tử, dịch vụ truyền hình, đài phát thanh, hội thảo truyền hình qua mạng, học tập trực tuyến, xem video, tìm kiếm âm nhạc theo yêu cầu,

Dữ liệu đa phương tiện ngày càng đóng vai trò không thể thiếu trong cuộc sống, các trang thiết bị hiện đại phục vụ cho đời sống, nghiên cứu khoa học, quân sự sử dụng một khối lượng khổng lồ các loại dữ liệu đa phương tiện khác nhau Trong

đó, việc tăng tốc độ truy cập dữ liệu bằng cách sử dụng các cấu trúc dữ liệu hợp lý, phục vụ những yêu cầu của hệ thống cơ sở dữ liệu là vấn đề cần phải giải đáp

Sự phát triển mạnh mẽ của công nghệ ảnh số đã làm lượng ảnh lưu trữ trên web tăng lên một cách nhanh chóng đòi hỏi phải có các công cụ hỗ trợ tìm kiếm ảnh hiệu quả và tiện lợi Mặc dù các công cụ tìm kiếm ảnh theo văn bản đi kèm ảnh ra đời cho phép người dùng tìm kiếm ảnh với thời gian đáp ứng khá nhanh, tuy nhiên, các công cụ này vẫn còn hạn chế trong việc giải quyết nhập nhằng giữa nội dung câu truy vấn và nội dung hiển thị của ảnh trả về Sự ra đời của các công cụ tìm kiếm ảnh theo nội dung ảnh đã giải quyết được những nhập nhằng trên

Mục tiêu của luận văn là nghiên cứu các phương pháp biểu diễn đặc trưng ảnh để tối ưu hóa chất lượng tìm kiếm ảnh Đầu tiên, luận văn khảo sát phương pháp trích chọn đặc trưng ảnh trong tìm kiếm và xếp hạng ảnh Tiếp đó, dựa theo phương pháp lượng tử hóa tích của Hervé Jégou và cộng sự [3],tác giả đưa ra một

mô hình tìm kiếm K láng giềng gần nhất kết hợp độ đo tương đồng về khoảng cách giữa các vector đặc trưng và tiến hành thực nghiệm mô hình

Trang 12

CHƯƠNG 1 : TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN VÀ

KIẾN TRÚC TỔ CHỨC NỘI DUNG

1.1 Tình hình nghiên cứu chuyên đề trong và ngoài nước

Trong những năm gần đây, nhu cầu sử dụng thông tin đa phương tiện ngày càng lớn Chúng được sử dụng trong đời sống hàng ngày của con người và đem lại hiệu quả mạnh hơn nhiều so với các dữ liệu truyền thống khác.Hiện có rất nhiều nhà nghiên cứu trong nước và nước ngoài đã và đang tập trung nghiên cứu về cơ sở dữ liệu đa phương tiện nhờ vào những ứng dụng thực tiễn của nó như :

1.1.1 Các dịch vụ đa phương tiện trong giáo dục

Ngày nay, nhiều trường đại học đã cung cấp chương trình giáo dục từ xa cho những người không có điều kiện tham gia lớp học với những lý do khác nhau như

do điều kiện địa lý hay thời gian để có thể theo các khoá học Khoá học như vậy thông thường được tiến hành với việc gửi các tài liệu học tập như sách báo, băng ghi hình, bên cạnh đó một số nơi có thể cho phép học viên sử dụng máy tính truy cập trực tuyến các kho tài liệu dưới dạng các đoạn phim tư liệu, băng tiếng liên quan đến việc học tập

Trên thế giới việc nghiên cứu và triển khai hệ thống quản lý giáo dục từ xa tại các nước phát triển đã được tiến hành tốt đẹp và đã hình thành ra một thị trường với tiềm năng to lớn Các sản phẩm hoàn thiện chính trên thế giới có thể kể đến[5]:

Trang 13

Tại Việt Nam, trong những năm gần đây, nhiều trường học đã và đang nghiên cứu

và giới thiệu các sản phẩm quản lý và giảng dạy từ xa:

 ĐHQGTPHCM với hệ thống đào tạo được truy cập theo địa chỉ

www.vnuit.edu.vn

 Đại học Cần Thơ tại dec.ctu.edu.vn cho khóa học tiếng Anh, IT.,

 Đại học Quốc gia Hà Nội với website môn học thử nghiệm

www.fotech.vnu.edu.vn/courses/

 Khoa CNTT Viện Đại học Mở Hà Nội với

www.fithou.edu.vn/vietnamese/Tructuyen.asp

 Trung tâm Vitec (Việt-Nhật) với www.vitec.org.vn,

1.1.2 Ứng dụng trong hội nghị điện tử

Tại các nước phát triển trên thế giới, ứng dụng hội nghị điện tử được chính phủ quan tâm đầu tư một cách nghiêm túc, và thu được những thành công nhất định Tại các tập đoàn, công ty đa quốc gia lớn những ứng dụng hội nghị điện tử, trực tuyến được sử dụng trong các mục đích hội họp, trao đổi với các đơn vị thành viên đặt tại các quốc gia khác nhau nhằm đưa ra các quyết định, chiến lược kinh doanh

mà không cần phải gặp mặt trực tiếp vẫn có thể cảm nhận được tầm vóc của một cuộc họp, hội nghị nhờ những công nghệ tiên tiến tạo ra Các tập đoàn tin học lớn

đã đầu tư công nghệ vào việc sản xuất ra những sản phẩm phục vụ nhu cầu trên và thu được lợi nhuận lớn lao Công nghệ Hội nghị truyền hình đã dần trở nên phổ biến trên thị trường Việt Nam Với nhiều tiện ích như khả năng tương tác tức thời, tiết kiệm thời gian tổ chức, giảm thiểu chi phí, thời gian đi lại hội họp Công nghệ Hội nghị truyền hình đã trở thành sự lựa chọn hàng đầu của các doanh nghiệp trong ứng dụng hội họp và đào tạo

Tại Việt Nam một số sản phẩm hoàn thiện phải kể đến:

Viettel là đơn vị đi đầu trên thế giới với mạng truyền hình hội nghị Conference http://www.xconference.vn/

X- Hội nghị trực tuyến toàn quốc về cải cách thủ tục hành chính, thành phố Cần Thơ www.cchccantho.gov.vn

Trang 14

 Cầu truyền hình VNPT phục vụ hội nghị thanh tra:http://www.vnmedia.vn

 Hội nghị truyền hình công ty cổ phần viễn thông Á Châu:

www.sieuthivienthong.com

1.1.3 Ngành công nghiệp giải trí

Trong một tương lai rất gần, nhu cầu về phim ảnh theo yêu cầu sẽ rất lớn Người sử dụng có thể dễ dàng chọn các bộ phim tại nhà và xem chúng qua tivi tại nhà Cũng như việc ứng dụng đa phương tiện trong lĩnh vực giáo dục miêu tả ở trên, trong lĩnh vực điện ảnh người sử dụng có thể lựa chọn phim mong muốn bằng cách trộn cả truy vấn tìm kiếm và duyệt Một hệ thống đa phương tiện hỗ trợ tương tác như vậy của người sử dụng thì phải có khả năng tìm kiếm hiệu quả qua các website những bộ phim thoả mãn nhu cầu của người sử dụng Hơn thế nữa, người sử dụng nên có được khả năng xem trước những mẩu phim giới thiệu mà họ mong muốn Ngoài ra, họ nên được quyền xem xét các bài phê bình về bộ phim, với sự cân nhắc như vậy có thể giúp người sử dụng lựa chọn được những bộ phim mà người sử dụng thực sự muốn xem.Các sản phẩm hoàn thiện có thể kể đến:

1.1.4 Thương mại điện tử

Trong những năm gần đây, với sự bùng nổ của Internet, thương mại điện tử cũng đã phát triển mạnh mẽ trên toàn thế giới Tại các nước đang phát triển như

Mỹ, Canada, liên minh Châu Âu (EU) thương mại điện tử đã được áp dụng rất rộng rãi và mang lại nhiều lợi ích cho cả người sử dụng cũng như các nhà cung cấp

Hệ thống bán hàng qua mạng (online)là một trong những ứng dụng quan trọng nhất trong thương mại điện tử, chính vì vậy luận văn sẽ tập trung xây dựng demo trên mô hình này, bao gồm những mục tiêu chính sau:

Trang 15

• Mục đích: Hệ thống được thiết kế và xây dựng theo mô hình B2C, B2B

Việc xây dựng hệ thống bao gồm các công việc: xây dựng hệ thống thực hiện việc đăng ký giới thiệu, quảng bá các hàng hoá sản phẩm của doanh nghiệp, quản lý các loại hàng hóa sản phẩm, quản lý việc kinh doanh hàng hoá và thực hiện mua bán hàng hoá sản phẩm

• Phạm vi: Trên mạng Internet, mô hình Client-Server Hệ thống được

hosting trên một ISP (nhà cung cấp dịch vụ) trong nước

• Ứng dụng công nghệ mới: Áp dụng các kỹ thuật đa phương tiện tiến tiến

nhằm mục đích nâng cao hiệu quả kinh doanh của hệ thống

1.2 Mục tiêu nghiên cứu và phương pháp thực hiện

1.2.1 Mục tiêu nghiên cứu

Mục tiêu của luận văn là nghiên cứu các phương pháp biểu diễn đặc trưng ảnh để tối ưu hóa chất lượng tìm kiếm ảnh

1.2.2 Phương pháp nghiên cứu

- Nghiên cứu tài liệu

- Thống kê dữ liệu

- Thử nghiệm dữ liệu

- Xây dựng, phát triển phần mềm

1.2.3 Nội dung thực hiện

Nội dung chính của luận văn là kiến trúc tổ chức nội dung của một hệ thống

cơ sở dữ liệu đa phương tiện, khảo sát phương pháp trích chọn đặc trưng ảnh trong tìm kiếm và xếp hạng ảnh Đưa ra một mô hình tìm kiếm K láng giềng gần nhất kết hợp độ đo tương đồng về khoảng cách giữa các vector đặc trưng và tiến hành thực nghiệm mô hình

Phạm vi nghiên cứu

Cấu trúc nội dung của luận văn được trình bày theo bố cục như sau:

Trang 16

Chương 1: Trình bày tổng quan về tình hình nghiên cứu chuyên đề trong và

ngoài nước

Chương 2:Khái quát về lựa chọn đặc trưng cho tìm kiếm ảnh Các đặc trưng

về về văn bản đi kèm ảnh và đặc trưng về nội dung ảnh Các phương pháp lựa chọn đặc trưng và độ đo tương tự giữa ảnh Trình bày một số đặc trưng về nội dung ảnh và một số độ đo tương đồng tương ứng với các đặc trưng.Giới thiệu một số công trình nghiên cứu liên quan đến tìm kiếm ảnh theo nội dung ảnh Đưa ra mô hình tìm kiếm K láng giềng gần nhất Giới thiệu mô hình tìm kiếm

K láng giềng gần nhất, phương pháp lưu trữ và đánh chỉ mục trong tìm kiếm

Chương 3: Tập trung nghiên cứu và cài đặt thử nghiệm mô hình K láng giềng

gần nhất sử dụng bộ lượng tử hóa trên có sở bài toán bán hàng qua mạng

• Phần kết luận trình bày tóm tắt về các nội dung thực hiện trong luận văn, đồng thời đưa ra các vấn đề nghiên cứu tiếp cho tương lai

1.3 Tổng quan về hệ quản trị cơ sở dữ liệu đa phương tiện

1.3.1 Giới thiệu chung

Trong những năm gần đây xuất hiện nhu cầu vô cùng lớn về khả năng khai thác và xử lý dữ liệu với số lượng khổng lồ mà nó là điều không dễ dàng diễn tả chỉ với việc sử dụng các ký tự Các kiểu dữ liệu đó là ảnh, video, tài liệu, âm thanh (dữ

liệu Media) Multimedia là tập hợp các kiểu media được sử dụng với nhau (dữ liệu

đa phương tiện) Hệ quản trị CSDL đa phương tiện (Multimedia DataBase Management System-MMDBMS) là một hệ thống giúp người dùng thao tác trên các

dữ liệu media một cách thích hợp và hiệu quả Các thao tác cơ bản của hệ quản trị

CSDL thường là chèn, cập nhật, xoá và tìm kiếm một đối tượng trong CSDL Như vậy ta có thể nói rằng CSDL đa phương tiện là tập hợp các đối tượng phương tiện với các kiểu khác nhau Sau đây là một số kiểu dữ liệu được đề cập đến:

Dữ liệu hình ảnh (Image data): Ví dụ một học viên phẫu thuật muốn thực

hành một ca phẫu thuật trên một bệnh nhân ảo có những triệu chứng sinh lý nào đó Trong thực tế để tìm ra bệnh nhân với những triệu chứng mong muốn, học viên

Trang 17

phẫu thuật phải truy vấn cơ sở dữ liệu (CSDL) ảnh phân tán và kích thước lớn chứa

ảnh X quang hay MRI (Magnetic Resonance Imaging) của các bệnh nhân với các

triệu chứng tương tự [2]

Dữ liệu Video (Video data): Tương tự như vậy, cùng với sự phát triển bùng nổ

của các thiết bị nghe nhìn như hiện nay thì kiểu dữ liệu Video đang ngày càng tràn ngập trên khắp mọi nơi Bên cạnh đó khi mà công nghệ lưu trữ hiện đại ngày nay làm cho việc lưu trữ các dữ liệu Video không phải là bài toán khó giải thì việc truy xuất dữ liệu để tìm kiếm thông tin theo yêu cầu trong kho dữ liệu khổng lồ như thế

là một vấn đề rất đáng quan tâm Giả sử học viên của một trường đại học muốn tìm kiếm những tư liệu băng hình về một chủ đề kỹ thuật nào đó trong thư viện của trường Như vậy đòi hỏi phải truy vấn thư viện băng hình mà nó bao gồm tập hợp

vô số các băng hình với nội dung kỹ thuật.[2]

Dữ liệu âm thanh (Audio data): Dữ liệu âm thanh được sử dụng trong những

ứng dụng, thiết bị như nhận dạng giọng nói, xử lý âm thanh, điều khiển thiết bị bằng giọng nói Ví dụ, các sinh viên học từ xa muốn có các đoạn audio bài giảng của giáo viên Hoặc các sinh viên ngoại ngữ muốn có các đoạn audio các cuộc đàm thoại Trong trường hợp này cần phải tập hợp các đoạn audio theo một chủ đề nào đó cho thuận tiện [2]

Dữ liệu tài liệu (Document data): Các đoạn văn bản, các từ, câu, đoạn văn,

chương là một CSDL văn bản truyền thống Một CSDL tài liệu khác văn bản ở chỗ

nó không chỉ chứa các thông tin dạng văn bản thô mà còn chứa đựng cả cấu trúc và hình ảnh nhúng Hoặc khi ta xem sách, trong sách không chỉ chứa dữ liệu văn bản

mà còn chứa cả hình ảnh Giả sử người đọc muốn tìm một bức ảnh nào đó nhưng không thể tìm trong CSDL ảnh Tuy nhiên nếu có một thư viện điện tử số để truy cập thì việc tìm thấy bức ảnh mong muốn là rất dễ dàng Như vậy, dữ liệu tài liệu bao gồm các phương tiện quan trọng mà trong đó các thông tin có thể được lưu trữ dưới dạng điện tử [2]

Những năm trước đây khi nhiều dữ liệu dạng văn bản (text) được lưu trữ dưới khuôn dạng máy tính có thể xử lý và lưu trữ Từ đó dẫn tới phát triển các hệ thống

Trang 18

quản trị CSDL mà ngày nay được sử dụng trong hầu hết các tổ chức, cơ quan Tuy nhiên, các hệ quản trị CSDL này không thể quản lý dữ liệu đa phương tiện một cách hiệu quả bởi vì các tính chất dữ liệu văn bản và dữ liệu đa phương tiện là khác nhau,

và CSDL đa phương tiện với các dữ liệu ảnh, video, âm thanh thường là rất lớn

Do vậy, việc nghiên cứu phát triển hệ thống quản trị CSDL có khả năng quản lý dữ liệu đa phương tiện với các kỹ thuật truy tìm và chỉ mục mới là rất cần thiết MMDBMS là một khung làm việc để quản lý các kiểu dữ liệu khác nhau mà chúng được thể hiện trong rất nhiều khuôn dạng khác nhau Để làm việc thành công thì một MMDBMS phải có các khả năng sau:

Có khả năng truy vấn đồng bộ dữ liệu (dữ liệu media và dữ liệu văn bản) được thể hiện trong các định dạng khác nhau Thí dụ: một MMDBMS sẽ có khả năng truy vấn và tích hợp dữ liệu mà nó được lưu trong các CSDL khác nhau mà có thể sử dụng các lược đồ khác nhau, cũng như việc truy vấn tệp và dữ liệu lưu trữ trong DBMS hướng đối tượng hay DBMS không gian Việc xử lý các truy vấn như vậy là khá phức tạp vì trên thực tế việc nhận biết được nội dung của các kiểu media là vấn

đề thách thức và nó phụ thuộc rất nhiều vào kiểu dữ liệu và cách thức lưu trữ chúng Cuối cùng, truy vấn có thể mở rộng đối với nhiều kiểu vật mang (media) dữ liệu và MMDBMS phải có khả năng kết hợp các kết quả từ các nguồn dữ liệu khác nhau và các kiểu media khác nhau

Có khả năng truy vấn dữ liệu biểu diễn trong media khác nhau Ví dụ: một MMDBMS phải có khả năng truy vấn không chỉ trong CSDL hình ảnh mà còn cả trong CSDL âm thanh và CSDL quan hệ, sau đó kết hợp các kết quả với nhau

MMDBMS phải có khả năng khai thác các đối tượng mang tin (media) từ một thiết bị lưu trữ cục bộ một cách trơn tru, không có jitter (phải liên tục) Bởi các đối tượng mang tin (video, âm thanh…) thường chiếm một không gian vô cùng lớn MMDBMS phải có khả năng tạo ra các câu trả lời từ truy vấn và có khả năng trình diễn các câu trả lời này bằng các phương tiện nghe nhìn

Mỗi một hệ thống có đầy đủ các đặc tính yêu cầu trên là chưa đủ mà còn cần phải có khả năng phân phối các trình diễn theo một cách nào đó nhằm thoả mãn các yêu cầu khác nhau về chất lượng thể hiện của các thiết bị

Trang 19

1.3.2 Các kiểu truyền th ng v mu timedia

Đa phương tiện (multimedia) là một lĩnh vực của Công nghệ thông tin có mục đích nhiên cứu và đề xuất các công cụ trợ giúp việc xử lý lưu trữ, truyền các dữ liệu thích hợp như: văn bản (Text), biểu đồ, đồ thị (graphic), hoạt hình (animation), ảnh (image), video, audio, hoặc kết hợp các media với nhau (video + audio + văn bản diễn giải)

Người ta thường phân media thành hai loại dựa trên quan hệ của chúng với thời gian Đó là:

Đa phương tiện tĩnh(Static media): Không có chiều thời gian Thông tin

không liên quan tới thời gian Ví dụ cho loại này là văn bản, hình họa, ảnh chụp

Đa phương tiện động(Dynamic media): Có chiều thời gian Thông tin có quan

hệ chặt chẽ với thời gian và thông tin phải được trình diễn với thời gian xác định Ví

dụ các loại audio, video, animation, game online

So với dữ liệu truyền thống như văn bản và số, dữ liệu đa phương tiện có một số đặc điểm rất khác biệt, đó là:

Kích thước dữ liệu lớn: dữ liệu đa phương tiện có kích thước lớn hơn nhiều so với các kiểu dữ liệu số và văn bản thông thường Một văn bản thô có 200 từ (khoảng 1000 ký tự) chỉ có kích thước là 1kByte, nhưng nếu lưu văn bản đó bằng định dạng ảnh GIF thì kích thước gấp khoảng 10 lần Một giọng nói đơn sắc được lưu với định dạng WAV trong thời gian 1 phút có kích thước khoảng 2640 kByte (đã nén) hoặc xấp xỉ 6-8 MB (chưa nén) Một cảnh video rất ngắn chứa hàng trăm bức ảnh với kích thước có thể lên đến hàng chục MB , xem bảng minh họa:

Ảnh GIF khoảng 200 từ (1000 ký tự, 210 x 100mm) 10 kByte

Âm thanh WAVE giọng nói (1 phút, 22KHz, 16 bit, mono) 2640 kByte

Bảng1-1 Mô tả kích thước kiểu dữ liệu

Trang 20

Số lượng dữ liệu đồ sộ: người ta ước tính, chỉ riêng trên WWW có số lượng lên đến hàng tỉ ảnh, hàng trăm triệu bài hát MP3 và vài chục triệu phim video

Một số dữ liệu đa phương tiện phụ thuộc thời gian

Audio và video có thêm chiều thời gian Khi trình diễn audio và video thì chất

lượng của chúng phụ thuộc chặt chẽ vào tốc độ trình diễn

Ví dụ, video phải được trình diễn với tốc độ 25 đến 30 hình/giây để có thể cảm nhận được hình ảnh chuyển động tốt

Tìm kiếm dựa trên cơ sở tương tự

Trong cơ sở dữ liệu quan hệ, phương pháp tìm kiếm truyền thống đối với dữ liệu dạng văn bản và số là tìm kiếm chính xác Đối với dữ liệu đa phương tiện, người dùng thường đặt ra yêu cầu tìm kiếm một đối tượng tương tự theo nội dung

mà họ đưa ra Ví dụ, một nghiên cứu khoa học cho biết con người có khả năng nhận biết một bài hát thông qua giai điệu tốt hơn thông qua tên bài hát

Đồng bộ

Một số ứng dụng đa phương tiện sử dụng hệ thống thời gian thực Hệ thống thời gian thực là hệ thống mà trong đó sự đúng đắn của việc thực hiện thao tác không chỉ phụ thuộc vào việc thu được kết quả đúng mà còn phải đưa ra kết quả đúng thời điểm Ví dụ, các tệp phim, bài giảng, truyền hình trực tiếp, hội nghị, hội thảo qua mạng (video conference), xem video theo yêu cầu (video on demand) thì yêu cầu hình ảnh phải được đồng bộ với âm thanh

Chất lượng dịch vụ

QoS là một tập các yêu cầu về chất lượng đối với các hoạt động tổng thể chung của một hoặc nhiều đối tượng Các tham số QoS mô tả tốc độ và độ tin cậy của việc truyền dữ liệu như thông lượng, trễ, tỷ lệ lỗi Các ứng dụng đa phương tiện khi truyền qua mạng thường đòi hỏi yêu cầu cao về QoS, nhất là các dịch vụ đa phương tiện tương tác thời gian thực như điện thoại internet, hội thảo qua mạng Các dịch vụ này thường đòi hỏi khắt khe về độ trễ (tối đa là vài trăm ms) Để xác định QoS, người ta dựa vào các tham số sau đây:

Trang 21

- Độ trễ: là khoảng thời gian cực đại để truyền dữ liệu

- Jitter: là độ biến đổi độ trễ

- Thông lượng: là tổng số dữ liệu cực đại được truyền đi trên một đơn

vị thời gian

- Tỷ số mất tin: là số dữ liệu cực đại bị mất trên một đơn vị thời gian

1.3.3 Hệ quản trị cơ sở dữ liệu đa phương tiện (MMDBMS)

Trung tâm của một hệ thống thông tin multimedia chính là hệ quản trị CSDL MULTIMEDIA (MDBMS) Theo truyền thống, một CSDL bao gồm một bộ các dữ

có liên quan về một thực thể cho trước hoặc một hệ quản trị CSDL (DBMS) là một

bộ các dữ liệu có liên quan đến nhau với một tập hợp các chương trình được dùng

để khai báo, tạo lập, lưu trữ, truy cập và truy vấn CSDL Tương tự như vậy, chúng

ta có thể xem một CSDL MULTIMEDIA là một tập các loại dữ liệu multimedia như văn bản, hình ảnh, video, âm thanh, các đối tượng đồ hoạ….Một hệ quản trị CSDL MULTIMEDIA (MDBMS) cung cấp hỗ trợ cho các loại dữ liệu MULTIMEDIA trong việc tạo lập, lưu trữ, truy cập, truy vấn và kiểm soát

Sự khác nhau của các kiểu dữ liệu trong CSDL MULTIMEDIA có thể đòi hỏi các phương thức đặc biệt để tối ưu hoá việc lưu trữ, truy cập, chỉ số hoá và khai thác MDBMS cần phải cung cấp các yêu cầu đặc biệt này bằng cách cung cấp các

cơ chế tóm tắt bậc cao để quản lý các kiểu dữ liệu khác nhau cũng như các giao diện thích hợp để thể hiện chúng

Các yêu của của MDBMS:

Các phương pháp tìm kiếm dựa theo mô tả: ví dụ, người dùng có thể đưa ra

một mô tả để tìm kiếm "tiếng chuông điện thoại"

Giao diện người dùng độc lập với thiết bị: người dùng không cần biết cách

thức lưu trữ dữ liệu đa phương tiện như thế nào

Giao diện người dùng độc lập với các định dạng: các truy vấn dữ liệu đa

phương tiện có thể độc lập với định dạng dữ liệu Nó cho phép có thể sử dụng các kỹ thuật lưu trữ mới mà không cần thay đổi ứng dụng cơ sở dữ liệu hiện có

Trang 22

Cho phép thực hiện nhiều truy cập dữ liệu đồng thời: dữ liệu đa phương tiện

có thể truy cập đồng thời qua nhiều câu truy vấn khác nhau bởi một số ứng dụng Cách truy cập nhất quán nhằm chia sẻ dữ liệu có thể được thực hiện,

và cần có cơ chế để thỏa mãn việc tránh tạo ra các xung đột

Quản lý một lượng dữ liệu lớn: hệ thống cần phải có khả năng lưu trữ và

quản lý lượng dữ liệu lớn và thỏa mãn các truy vấn đối với các quan hệ của

dữ liệu

Vấn đề truyền dữ liệu đa phương tiện dựa trên thời gian thực: điều khiển

việc đọc/ghi dữ liệu liên tục phải được thực hiện dựa trên thời gian thực

Do lượng dữ liệu có thể là rất lớn (ví dụ, truyền video) nên việc truyền dữ liệu có thể tốn nhiều thời gian và nó còn đòi hỏi phải được thực hiện một cách chính xác

1.3.4 Truy tìm thông tin tài liệu văn bản

Truy tìm thông tin- Information Retrieval (IR) là kỹ thuật tìm kiếm thông tin được lưu trữ trên máy tính Đối với dữ liệu đa phương tiện, việc truy tìm thông tin hiệu quả là dựa trên tìm kiếm tương tự Hệ thống lưu trữ một tập các đối tượng đa phương tiện trong cơ sở dữ liệu Người dùng đưa ra các truy vấn, và hệ thống tìm ra các đối tượng tương tự truy vấn trong cơ sở dữ liệu đã lưu trữ thỏa mãn yêu cầu của người dùng Truy tìm thông tin trong MMDBMS có một số đặc điểm sau đây:

 Sử dụng một khối lượng dữ liệu đặc tả lớn và phức tạp

 Việc tiếp cận IR chủ yếu dựa trên các đặc trưng

 Các dữ liệu thường có kích thước lớn

 Sự cần thiết phải có các kỹ thuật chỉ mục dữ liệu kích thước lớn để xử

lý các truy vấn một cách hiệu quả và thực hiện nhanh hơn so với phương pháp tìm kiếm tuần tự

 Sự cần thiết phải tích hợp các đặc trưng media phức tạp một cách thường xuyên (ví dụ, dữ liệu ảnh có thể chứa các đặc trưng như: hình dạng, biểu đồ màu, kết cấu )

Trang 23

Ý tưởng của phương pháp tìm kiếm tương tự đưa ra như sau:

Cho một tập các đối tượng đa phương tiện trong MMDBMS

Tìm ra một hoặc một số K đối tượng tương tự (giống) nhất với đối tượng truy vấn mong muốn một cách nhanh chóng

Ví dụ: Chúng ta biết mã vùng và muốn tìm địa chỉ của nó, nhưng mỗi ý tưởng liên kết các nguồn khác nhau (tài liệu, hình ảnh, con người, khái niệm,…) Người dùng tin sẽ vẫn có câu truy vấn gồm các từ khóa tìm kiếm để nhận về kết quả mong muốn

1.3.5 Truy xuất và chỉ số hoá multimedia

Các DBMS truy xuất các khoản mục dựa trên số liệu có cấu trúc khi sử dụng kết nối chính xác IR cũng được gọi là truy xuất dựa trên văn bản Việc truy xuất dựa vào nội dung đề cập đến việc truy xuất dựa trên những nét đặc trưng truyền thống hiện nay như là màu sắc, hình thù thay cho lời giải thích văn bản về khoản mục truyền thông đó

Việc truy xuất dựa trên nội dung là chuẩn dựa trên sự đồng dạng thay vì một kết nối chính xác giữa một truy vấn và một tập các khoản mục dữ liệu

MIRS đề cập đến một hệ thống cơ sở cung cấp việc truy xuất thông tin multimedia khi sử dụng một tổ hợp DBMS, IR và các kỹ thuật truy xuất dựa trên nội dung Trong một MIRS, một vài vấn đề như phiên bản và điều khiển an toàn có thể không thực hiện được đầy đủ Một MIRS đủ bản lĩnh ra đời được gọi là MDBMS

Ví dụ, một video tài liệu cần phải được sử dụng video, hình ảnh, văn từ, âm thanh, lời nói và những thứ tương tự như vậy Vì vậy phương tiện dò tìm phải kết nối các câu hỏi với các mục cơ sở dữ liệu Các loại truyền thông khác nhau cần các

kỹ nghệ phục hồi và cách biểu thị khác nhau

Để việc truy tìm có hiệu quả, cần có một cấu trúc các khoản mục hợp lý Bởi

vì các vector đặc tính đều đa dạng về kích cỡ và việc truy tìm các khoản mục trong các MIRS dựa trên sự tương đồng thay cho việc kết nối chính xác, cấu trúc mục lục được sử dụng trong các DBMS không thích hợp với các MIRS

Trang 24

Trong các DBMS, tiến hành chính liên quan đến hiệu quả (thời gian trả lời câu hỏi) nó rất quan trọng bởi kích cỡ lớn của multimedia Ngoài ra, hiệu quả truy tìm cũng rất quan trọng Bởi các MIRS truy tìm các mục chọn dựa trên cơ sở đo sự tương đồng, sử dụng luật tương ứng thay thế cho kết nối chính xác

1.4 Kiến trúc tổ chức nội dung của một hệ thống cơ sở dữ liệu Multimedia

1.4.1 Kiến trúc hệ thống quản trị cơ sở dữ liệu đa phương tiện

Phát triển một MMDBMS bao gồm các bước sau:

 Bước 1 Thu thập media: Các dữ liệu media được thu thập từ các nguồn khác nhau như ti vi, CD, www

 Bước 2 Xử lý media: Mô tả các đoạn trích media và các đặc trưng của chúng, bao gồm cả lọc nhiễu và tách thô

 Bước 3 Lưu trữ media: Dựa vào yêu cầu cụ thể của ứng dụng để lưu

dữ liệu và các đặc trưng của chúng vào hệ thống

 Bước 4 Tổ chức media: Tổ chức các đặc trưng để phục vụ việc truy tìm

Ví dụ, chỉ mục các đặc trưng với các cấu trúc giúp khai thác hiệu quả

 Bước 5 Xử lý truy vấn media: Là quá trình làm cho thích nghi với cấu trúc chỉ mục Thiết kế các giải thuật tìm kiếm hiệu quả

Kiến trúc chung cho một MMDBMS được minh họa như sau:

Hình 1-1 Kiến trúc chung của một MMDBMS

Các đối tượng media

Trích chọn đặc

nén

Chỉ mục

Xây dựng truy vân đặc trưng

Search engine

Xây dựng truy vấn phản hồi

Người dùng

phản hồi

truy vấn

kết MM

DB

MS

Trang 25

Hệ thống cơ sở dữ liệu đa phương tiện có nhiều môđun chức năng khác nhau nhằm hỗ trợ các thao tác trên dữ liệu đa phương tiện Bao gồm các môđun chính sau đây:

- Giao diện người dùng

- Bộ trích chọn đặc trưng

- Chỉ số hóa và môtơ tìm kiếm

- Quản lý truyền thông

Trong đó, có hai thao tác cơ bản là:

Bổ sung dữ liệu đa phương tiện mới

Thao tác bổ sung được thực hiện theo trình tự các bước như sau:

- Bước 1 Dữ liệu đa phương tiện mới được bổ sung thông qua nhiều cách

khác nhau như nhập trực tiếp từ bàn phím, từ microphone hay từ bất kỳ thiết

bị nhập kỹ thuật số khác Dữ liệu đa phương tiện cũng có thể được lấy từ các tệp đã lưu sẵn

- Bước 2 Sau khi dữ liệu đa phương tiện được bổ sung, nội dung của chúng

được trích chọn bằng công cụ trích chọn đặc trưng

- Bước 3 Các dữ liệu đa phương tiện được bổ sung cùng với các đặc trưng

của nó, thông qua bộ quản lý truyền tin sẽ được gửi về máy chủ

- Bước 4 Tại máy chủ, các đặc trưng sẽ được bố trí về các vị trí phù hợp dựa

vào lược đồ chỉ số hóa

- Bước 5 Các dữ liệu đa phương tiện bổ sung cùng với các đặc trưng và chỉ

số hóa phát sinh được lưu vào bộ quản lý lưu trữ

Truy vấn

Thao tác truy vấn được thực hiện theo trình tự các bước như sau:

- Bước 1 Tại giao diện người dùng, người sử dụng truy vấn thông tin thông

qua một thiết bị nhập nào đó, thông qua tệp đã được lưu trước đó hoặc có thể lấy trực tiếp từ cơ sở dữ liệu MMDBMS

Trang 26

- Bước 2 Nếu truy vấn của người sử dụng không được lấy trực tiếp từ cơ sở

dữ liệu trong MMDBMS thì thực hiện như sau:

Thực hiện trích chọn đặc trưng truy vấn Gửi các trích chọn đặc trưng đó đến máy chủ Môtơ chỉ số hóa sẽ tìm kiếm các mục dữ liệu phù hợp với truy vấn trong cơ sở dữ liệu

Hiển thị kết quả đến người sử dụng thông qua giao diện người dùng

1.4.2 Tổ chức dữ liệu đa phương tiện trên cơ sở nguyên lý thống nhất

Xét ví dụ sau:

Bức ảnh photo1.gif có sự xuất hiện của đối tượng A, đối tượng B và một đối tượng chưa được xác định được chụp tại thành phố Hồ Chí Minh thuộc nước Việt Nam vào ngày 10/10/2011

Đoạn video video1.mpg có hình ảnh của đối tượng A đưa cho đối tượng B một chiếc cặp (trong frames 50-100) Đoạn video này thu được từ sự theo dõi nhà của đối tượng B tại thành phố Phnôm Pênhthuộc nước Campuchia vào tháng 11 năm2011

Văn bản B.txt có chứa các thông tin chi tiết về dối tượng B được thu thập từ

dữ liệu của cơ quan an ninh

Bản thân mỗi đối tượng trên cũng đã nói lên phần nào nội dung của từng đối tượng cụ thể (hình ảnh, video, văn bản) Tuy nhiên, thông tin đưa ra ở đây chỉ nói lên nội dung về mặt ngữ nghĩa hơn là đề cập đến các tính chất cụ thể của mỗi loại đối tượng Một cách tiếp cận hiệu quả nhất đối với CSDL multimedia và đã được

sử dụng rộng rãi trong thực tế là sử dụng các đối tượng được phát biểu ở trên như

là siêu dữ liệu (metadata)

Giả sử chúng ta có một tập các đối tượng media o1,… ,on chúng ta kết hợp các đối tượng media 01,….0n tương ứng sẽ là md(o1),……,md(on), ta sẽ phải tiến hành việc chỉ số hóa các metadata này với một cách thức nhằm cung cấp các phương thức triển khai hiệu quả đối với các yêu cầu truy cập từ phía người dùng

Trang 27

Có thể thấy rằng, sự thành công của phương pháp này phụ thuộc cơ bản vào việc chúng ta đảm bảo được rằng với mỗi đối tượng media 0i thì metadata tương ứng của nó md(oi) là cô đọng và phản ánh đúng chỉ những gì mà người dùng yêu cầu[18] Với một số lượng tối thiểu các metadata được dùng chúng ta sẽ dễ dàng hơn trong việc chỉ số hóa cũng như là thực hiện các thao tác khai thác dữ liệu, tuy nhiên, nếu số lượng metadata sử dụng ít thì có thể người sử dụng sẽ phải mất thời gian hơn trong việc thiết lập các câu hỏi của mình Có thể lấy trường hợp sau làm ví dụ:

Người dùng: hãy tìm cho tôi tất cả các đoạn video hoặc ảnh chụp mà đối tượng A và đối tượng B trao đổi với nhau một gói hành lý

Hệ thống: Không tìm được mặc dù hệ thống đã có đoạn video ghi lại đối tượng A và đối tượng B trao đổi với nhau một chiếc cặp nhưng hệ thống vẫn trả lời

là không tìm thấy vì nó không hiểu rằng một chiếc cặp cũng có thể coi là một gói hành lý

Người dùng: hãy tìm cho tôi tất cả các đoạn video hoặc ảnh chụp mà đối tượng A và đối tượng B trao đổi với nhau một vật gì đó

Hệ thống: tìm thấy frames 50-100 của đoạn video video1.mpg thỏa mãn yêu cầu của bạn

Mặc dù có một vài nhược điểm như sử dụng metadata không biểu diễn hết được các khía cạnh của đối tượng media trong CSDL nhưng cách tiếp cận dựa trên nguyên lý đồng nhất có một số ưu điểm nổi trội sau:

• Metadata thường được lưu trữ dưới dạng các cấu trúc có liên quan đến tính chất quan hệ hoặc hướng đối tượng và có thể truy vấn một cách dễ dàng thông qua việc mở rộng các ngôn ngữ (chẳng hạn như SQL)

• Việc viết mã để thao tác với metadata thường là dễ dàng

• Việc viết các chương trình để tạo ra metadata là đơn giản đối với các lập trình viên có năng lực

Chúng ta đã xem xét đến nội dung của dữ liệu media dưới các dạng khác nhau, một câu hỏi đặt ra ở đây là đâu là phần chung nhất của các loại dữ liệu này? Mục đích của chúng ta là tìm kiếm một cấu trúc chung nhất cho tất cả các loại dữ liệu mà qua đó ta có thể thể hiện được nội dung của các loại dữ liệu đó Tóm tắt

Trang 28

media là một cấu trúc toán học cho phép diễn đạt nội dung của các media này, sự tóm tắt media có thể được triển khai thông qua một cấu trúc dữ liệu duy nhất

1.4.3 Cấu trúc tóm tắt media

Một cấu trúc media tóm tắt là một tập gồm 8 tuple (S, fe, ATTR, λ, R, F, Var1, Var2) Trong đó :

• S là một tập các đối tượng gọi là các trạng thái

• Fe là một tập các đối tượng gọi là các đặc trưng

• ATTR là một tập các đối tượng gọi là các giá trị thuộc tính

• λ: S > 2fe

là một ánh xạ từ các trạng thái sang tập các đặc trưng

• R là một tập các quan hệ trên fei x ATTRj x S với i,j ≥ 0

• F là một tập các quan hệ của S

• Var 1 là một tập các đối tượng gọi là các biến, thuộc S

• Var 2 là một tập các biến, thuộc fe

• Một trạng thái là đoạn (chunk) nhỏ nhất của dữ liệu media mà ta mong muốn Ví dụ như trong một CSDL hình ảnh, mỗi ảnh có thể được xem như

là một trạng thái Nếu quan điểm này được chấp nhận, chúng ta sẽ coi như tất cả các ảnh như là các đối tượng đơn lẻ cơ bản và tất cả các đặc tính của

nó sẽ được quan tâm và khi đó chúng ta sẽ không quan tâm đến các đặc tính đơn lẻ như là các đặc tính của từng điểm ảnh Trong trường họp dữ liệu video, một trạng thái có thể được xem là một chuỗi liên tiếp các frame có dạng (10 x i, 10 x (i+1)) thể hiện một đoạn gồm 10 frame bắt đầu từ frame

có số thứ tự chia hết cho 10

• Một đặc trưng là bất kỳ đối tượng nào trong một trạng thái mà nó sẽ được quan tâm Một đặc trưng có thể gao gồm cả các đối tượng và các phạm vi của nó Ví dụ như chúng ta xem xét một bức ảnh gồm 3 đối tượng A, B và một đối tượng chưa được nhận biết thì các đặc trưng được quan tâm đến ở đây là A, B và đối tượng C nào đó Tương tự như vậy nếu chúng ta phân tích đoạn video từ frame 50-100 thì các đặc trưng được quan tâm ở đây là

Trang 29

A, B và cái vali Các đặc trưng xuất hiện trong một trạng thái có thể có các thuộc tính của mình, ví dụ như đối tượng A bước ra khỏi chiếc xe ôtô của mình thì các thuộc tính của chiếc xe ô tô (loại xe, mầu sắc, biển số) cũng cần phải được ghi nhận Tương tự như vậy, một đối tượng media cũng có thể có một vài thuộc tính cần được quan tâm như ngày, thời gian và địa điểm chụp bức ảnh đó

• λ là một ánh xạ đặc trưng rút gọn cho phép ta biết đặc trưng nào xuất hiện trong những trạng thái nào λ có thể là một GUI cho phép người sử dụng tương tác nhằm mục đích nhận biết được nội dung của một đối tượng media

• R là một tập các quan hệ trên fei

x ATTRj x S các quan hệ này phụ thuộc vào trạng thái Ví dụ nếu xem xét một bức ảnh như photo1.gif thì ở đây có thể có một quan hệ phụ thuộc vào trạng thái gọi là left.of bao gồm một bộ

ba có dạng (đối tượng A, đối tượng B, photo1.gif) tương tự như vậy chúng

ta cũng có thể có một quan hệ khác gọi là background bao gồm một cặp có dạng (photo1.gif, White_House)

• F có thể chứa các liên kết kết hợp 2 trạng thái chẳng hạn như liên kết có trước, nếu chúng ta có 2 bức ảnh (photo1.gif, photo2.gif) mà giữa chúng tồn tại liên kết có trước thì khi đó có nghĩa là bức ảnh 1 được chụp trước bức

ảnh 2 và tiếp tục như vậy[18]

1.4.4 Dữ liệu ảnh như một tóm tắt media

Giả sử chúng ta xem một CSDL hình ảnh đơn giản gồm có 7 bức ảnh, CSDL này sẽ tương ứng với media trừu tượng sau:

Tập các trạng thái bao gồm (pic1.gif,……….,pic7.gif)

Tập các đặc trưng bao gồm tên của các đối tượng xuất tương ứng là Hòa, Bình, Hạnh, Phúc, Đức, Hậu, Hiền

Ánh xạ thu gọn λ cho chúng ta biết với mỗi trạng thái xuất hiện trong nó Bảng sau sẽ mô tả cho vấn đề này:

Trang 30

Bảng 1-2 Liên hệ giữa đặc trưng và trạng thái cho hình ảnh

Một điểm cần chú ý ở đây là chúng ta dùng bảng trên để mô tả cho λ nhưng cách thức chỉ số hoá mà chúng ta sử dụng có thể khác đi

1.4.5 Dữ liệu video như một tóm tắt media

Tập các trạng thái bao gồm 5 frames video từ frame 1 đến frame 5

Tập các đặc trưng bao gồm Hòa,Bình, Hạnh, ngôi nhà của Hạnh và chiếc cặp Ánh xạ rút gọn λ được mô tả ở bảng sau:

Bảng 1-3 Liên hệ giữa đặc trưng và trạng thái cho video

Tổng kết chương 1

Trong chương này, tác giả trình bày khái quát về tình hình nghiên cứu chuyên đề trong và ngoài nước, mục tiêu và phương pháp thực hiện luận văn Bên cạnh đó cũng nêu tổng quan về hệ quản trị cơ sở dữ liệu đa phương tiện, kiến trúc tổ chức nội dung của hệ thống cơ sở dữ liệu đa phương tiện Chương 2, luận văn sẽ trình bày tổng quan và các phương pháp trích chọn ảnh theo nội dung, một số công trình nghiên cứu khoa học liên quan đến bài toán tìm kiếm ảnh theo nội dung, cuối cùng là phương pháp lựa chọn đặc trưng của ảnh và mô hình tìm kiếm K láng giềng gần nhất

Trang 31

CHƯƠNG 2 : TRÍCH CHỌN ĐẶC TRƯNG ẢNH

Sự phát triển mạnh mẽ của công nghệ ảnh số làm lượng ảnh lưu trữ trên web tăng lên một cách nhanh chóng Mỗi ngày, có hàng triệu bức ảnh được đăng tải trên các trang ảnh trực tuyến như: Flickr1

, Photobucket2, Facebook3,… Theo thống kê,

có 10 tỉ ảnh trên Facebook (tính đến tháng 10/2008), 3 tỉ ảnh trên Flickr (tính đến tháng 11/2008), 6.2 tỉ ảnh trên Photobucket(tính đến tháng 10/2008)

Cùng với nhu cầu tìm kiếm văn bản, nhu cầu tìm kiếm ảnh cũng nhận được nhiều quan tâm của người sử dụng Tuy nhiên, với một số lượng ảnh quá lớn trên Internet công việc tìm kiếm trở nên vô cùng khó khăn Để giải quyết vấn đề này, các

hệ thống tìm kiếm ảnh đã ra đời như: Yahoo, MSN, Google Image Search, Bing,… Các hệ thống này cho phép người sử dụng nhập truy vấn về các ảnh cần quan tâm Thông qua việc phân tích các văn bản đi kèm ảnh, hệ thống gửi trả các ảnh tương ứng với truy vấn của người dùng Một số công cụ tìm kiếm ảnh thương mại khác như Tiltomo, ByoImageSearch,… cho phép người dùng nhập câu hỏi dưới dạng ảnh Đây là một hướng nghiên cứu mới nhận được nhiều sự quan tâm của nhiều công trình khoa học trên thế giới Một số sản phẩm thử nghiệm của các công ty lớn

về tìm kiếm ảnh như: Google Image Swirl, Like, Tineye, Tiltomo….đã ra đời

2.1 Tổng quan về trích chọn đặc trưng ảnh

2.1.1 Đặc trưng văn bản đi kèm ảnh v tìm kiếm ảnh theo văn bản đi kèm ảnh

Mỗi ảnh trên web thường có các văn bản đi kèm như là tên ảnh (title), các thẻ (tags), bình luận (comment),…để mô tả các thông tin về ảnh, đây là các siêu dữ liệu (metadata) về ảnh Các dữ liệu này thường do người dùng tạo ảnh gắn cho mỗi ảnh,

vì vậy chúng đều mang một ý nghĩa nhất định Độ quan trọng của các loại siêu dữ

Trang 32

liệu khác nhau cũng khác nhau Ví dụ, các thẻ thường quan trọng hơn tên ảnh, tên ảnh quan trọng hơn bình luận Dưới đây là một ví dụ về văn bản đi kèm một ảnh:

• Title: “Red_Rose Flower”

• Tags: “redRoseflower, hongkongflowershow, 2009, bokeh, causewaybay, hongkong, jonnoj, jonbinalay, nikond80, interestingness50”

• Description: “HEAVEN SCENT" FOR THE LOVE OF THE RED RED ROSE

Hình 2-1 Ví dụ hiển thị một ảnh

Vì văn bản đi kèm ảnh mang ngữ nghĩa về nội ảnh cho nên hai bức ảnh có nội dung giống nhau thường có tên giống nhau và các thẻ tương tự nhau Vì vậy, các công cụ tìm kiếm ảnh theo văn bản đi kèm thường tập trung khai thác nội dung của các văn bản này để tìm kiếm và xếp hạng ảnh Phương pháp này cho kết quả khả quan cũng như đáp ứng nhanh nhu cầu của người sử dụng Tuy nhiên, với các câu truy vấn mang ý nghĩa nhập nhằng có thể các kết quả trả về sẽ không đúng với yêu cầu đặt ra Ví dụ khi truy vấn là “d-80”, một máy ảnh phổ biến của Nikon, thì các hệ thống trả về kết quả khá tốt (Hình 2-2) Tuy nhiên, với truy vấn “apple’, nếu người dùng muốn tìm quả táo thì kết quả trả về đầu tiên không thỏa mãn (logo của hãng Apple) (Hình 2-3):

Trang 33

Hình 2-2.Truy vấn của Google “d-80” Hình 2-3 Truy vấn của Google “Apple”

Mặt khác, các albumn cá nhân thường không có các thẻ hoặc văn bản đi kèm ảnh Cùng với số lượng ảnh số được chụp thêm mỗi ngày, việc gán thủ công các thẻ cho ảnh rất tốn kém Một hướng nghiên cứu nhằm khắc phục vấn đề trên là tìm kiếm theo chính các đặc trưng trích xuất từ nội dung của ảnh

2.1.2 Đặc trưng nội dung ảnh v tìm kiếm theo đặc trưng nội dung

Tìm kiếm ảnh theo nội dung (Content Based Images Retrieval CBIR) hay truy vấn theo nội dung ảnh (Query Based Image Content QBIC) là một ứng dụng của thị giác máy tính đối với bài toán tìm kiếm ảnh “Dựa vào nội dung ảnh (ContentBased) ” nghĩa là việc tìm kiếm sẽ phân tích nội dung thực sự của các bức ảnh Nội dung ảnh ở đây được thể hiện bằng màu sắc, hình dạng, kết cấu (texture), các đặc trưng cục bộ (local features), … hay bất cứ thông tin nào có từ chính nội dung ảnh Cụm từ CBIR được T.Kato đưa ra vào năm 1992 trong quá trình thu thập ảnh một cách tự động từ cơ sở dữ liệu dựa trên biểu diễn màu sắc và hình dạng của ảnh Tee Cheng Siew đã giới thiệu một số đặc trưng nội dung ảnh:

• Đặc trưng màu sắc: Màu sắc là một đặc trưng nổi bật và được sử dụng phổ biến nhất trong tìm kiếm ảnh theo nội dung Mỗi một điểm ảnh (thông tin màu sắc) có thể được biểu diễn như một điểm trong không gian màu sắc ba chiều Các không gian màu sắc thường dùng là: RGB, Munsell, CIE, HSV Tìm kiếm ảnh theo màu sắc tiến hành tính toán biểu đồ màu cho mỗi ảnh để xác định tỉ trọng các điểm ảnh của ảnh mà chứa các giá trị đặc biệt (màu sắc)

Trang 34

Các nghiên cứu gần đây đang cố gắng phân vùng ảnh theo các màu sắc khác nhau và tìm mỗi quan hệ giữa các vùng này

• Đặc trưng kết cấu: Trích xuất nội dung ảnh theo kết cấu nhằm tìm ra mô hình trực quan của ảnh và cách thức chúng được xác định trong không gian Kết cấu được biểu diễn bởi các texel mà sau đó được đặt vào một số các tập phụ thuộc vào số kết cấu được phát hiện trong ảnh Các tập này không chỉ xác định các kết cấu mà còn chỉ rõ vị trí các kết cấu trong ảnh Việc xác định các kết cấu đặc biệt trong ảnh đạt được chủ yếu bằng cách mô hình các kết cấu như những biến thể cấp độ xám 2 chiều Ví dụ về một số loại kết cấu

Hình 2-4.Ví dụ về một số lọai kết cấu

• Đặc trưng hình dạng: Hình dạng của một ảnh hay một vùng là một đặc trưng quan trong trong việc xác định và phân biệt ảnh trong nhận dạng mẫu Mục tiêu chính của biểu diễn hình dạng trong nhận dạng mẫu là đo thuộc tính hình học của một đối tượng được dùng trong phân lớp, so sánh

và nhận dạng đối tượng

Thực tế, đã có nhiều máy tìm kiếm cho phép tìm kiếm ảnh theo nội dung ảnh, tuy nhiên, các máy tìm kiếm này thường chỉ khai thác vào một phần nội dung của ảnh

Trang 35

• Google Image Swirl: Là một thử nghiệm tìm kiếm hình ảnh theo nội dung của Google, trong đó, kết quả tìm kiếm được sẽ được tổ chức lại dựa vào hiển thị trực quan và độ tương đồng ngữ nghĩa giữa các ảnh Google Image Swril phân cụm tốp đầu các kết quả trả về cho trên 200.000 câu truy vấn và cho phép hiển thị hình ảnh dưới dạng các cụm và mối quan hệ giữa các ảnh

Hình 2-5.Một kết quả trả về của Google Image Swirl

• Tiltomo: Là một công cụ dựa trên Flickr và duy trì chính cơ sở dữ liệu ảnh của Flickr Nó cho phép tìm kiếm ảnh dựa vào độ tương đồng về chủ đề, màu sắc hay kết cấu

Hình 2-6.Một kết quả trả về của Tiltomo

Trang 36

• Byo Image Search: Tìm kiếm ảnh theo độ tương đồng về màu sắc với mẫu ảnh

mà người dùng tải lên từ máy tính hoặc từ một địa chỉ URL Công cụ tìm kiếm này không hỗ trợ tính năng tìm kiếm ảnh dựa vào độ tương đồng về chủ đề

Hình 2-7.Một kết quả của Byo Image Search

Tìm kiếm ảnh theo mẫu (example-based image search):Tìm kiếm ảnh theo mẫu là một dạng của tìm kiếm ảnh dựa vào nội dung Trong hệ thống đó, đầu vào là một ảnh, hệ thống tìm kiếm và trả lại cho người dùng những ảnh tương đồng với ảnh mẫu

Trong nội luận văn này, tác giả tập trung vào bài toán tìm kiếm ảnh dựa theo mẫu, tìm hiểu các phương pháp trích chọn đặc trưng nội dung cũng như các độ đo tương đồng để tìm kiếm tập ảnh sản phẩm gần với ảnh mẫu nhất trong tập cơ sở dữ liệu các ảnh sản phẩm

2.2 Các phương pháp trích chọn đặc trưng ảnh và độ đo tương đồng giữa các ảnh

Trong tìm kiếm ảnh theo nội dung, việc lựa chọn các đặc trưng thích hợp với từng loại truy vấn và miền ứng dụng cùng với các độ đo tương đồng tưong ứng là

Trang 37

thành phần quan trọng và then chốt nhất [4] Việc lựa chọn các đặc trưng và độ đo thích hợp sẽ giúp tối ưu hóa cả tốc độ và mức độ chính xác của các hệ thống J.V.Jawahe và cộng sự [5] đã nêu ra các yêu cầu cơ bản đối với thành phần lựa chọn đặc trưng cho ảnh:

• Thành phần lựa chọn đặc trưng phải lựa chọn được một tập các đặc trưng cung cấp đầu vào tốt nhất cho hệ thống tìm kiếm ảnh Nếu số lượng các đặc trưng quá nhiều sẽ làm “che khuất” các “tín hiệu” (giảm các “tín hiệu” đối với tỉ lệ nhiễu), mặt khác, nếu số lượng các đặc trưng quá ít sẽ khó phân biệt được ảnh trong tìm kiếm

• Nó phải giảm bớt được độ phức tạp trong lúc tính toán tổng thể bằng giảm đa chiều của bài toán phân lớp

• Khi người dùng muốn sử dụng các đặc trưng đó cho mọi truy vấn, thì việc sử dụng các đặc trưng này phải hiệu quả Vì số lượng các đặc trưng có thể là hàng ngàn, do đó thời gian xử lý của module phải tuyến tính với số lượng đặc trưng

• Vì thời gian xử lý của thành phần lựa chọn đặc trưng tuyến tính với số lượng đặc trưng, do đó việc lựa chọn các đặc trưng cũng nên tuyến tính dựa trên phân lớp

• Thành phần lựa chọn đặc trưng có thể xử lý được với kích thước tập mẫu nhỏ (khoảng 5 mẫu)

2.2.1 Đặc trưng màu sắc

2.2.1.1 Đặc trưng màu sắc

Tìm kiếm ảnh theo lược đồ màu là phương pháp phổ biến và được sử dụng nhiều nhất trong các hệ thống tìm kiếm ảnh theo nội dung Đây là phương pháp đơn giản, tốc độ tìm kiếm tương đối nhanh tuy nhiên kết quả tìm kiếm có độ chính xác không cao Đây có thể xem là bước lọc đầu tiên cho những bước tìm kiếm sau Một

số lược đồ màu được sử dụng như: lược đồ màu RGB, lược đồ màu HSI, lược đồ HSI cải tiến

Trang 38

Trong đó, lược đồ màu RGB được sử dụng phổ biến nhất

Lược đồ màu RGB:

Đối với ảnh 256 màu, lược đồ màu của ảnh tương đương với lược đồ màu của ảnh xám Đối với ảnh 24 bit màu, lược đồ miêu tả khả năng kết nối về cường độ của ba kênh màu R, G, B Luợc đồ màu này được định nghĩa như sau:

(2.1)

Trong đó N là số lượng điểm có trong ảnh

Lược đồ màu này được tính bằng cách rời rạc hóa từng màu trong ảnh, sau đó đếm số điểm ảnh của mỗi màu Khi mà số lượng màu là có hạng, để thuận tiện hơn, người ta thường chuyển đổi ba kênh màu thành một biến giá trị duy nhất Một cách

khác để tính lược đồ màu của ảnh RGB là ta phân ra làm 3 lượt đồ riêng biệt h R[],

h

G [], h B[] Khi đó, mỗi lược đồ được tính bằng cách đếm kênh màu tương ứng trong mỗi điểm ảnh

2.2.1.2 Độ đo tương đồng về màu sắc

Một số độ đo tương đồng được sử dụng như: Độ đo khoảng cách Ơclit, độ đo Jensen-Shannon divergence (JSD)

Gọi h(I) và h(M) tương ứng là 2 lượt đồ màu của hai ảnh I và ảnh M Khi đó các loại độ đo màu được định nghĩa là một số nguyên (hoặc số thực) theo các loại

độ đo tương ứng như sau:

• Khoảng cách Ơclit:

Đây là khoảng cách Ơclit thông thường giữa các K bin:

(2.2)

Hoặc:

Ngày đăng: 26/03/2021, 06:56

TỪ KHÓA LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm