Chúng được sử dụng trong đời sống hàng ngày của con người và đem lại hiệu quả mạnh hơn nhiều so với các dữ liệu truyền thống khác.Hiện có rất nhiều nhà nghiên cứu trong nước và nước ngoà
Trang 1ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
Trang 2ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
ĐÀO DUY TÙNG
CÁC KỸ THUẬT NÂNG CAO HIỆU SUẤT
TRUY VẤN CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN
Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số: 60480101
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Người hướng dẫn khoa học:PGS.TSKH NGUYỄN XUÂN HUY
THÁI NGUYÊN - 2015
Trang 3LỜI CAM ĐOAN
Tên tôi là: Đào Duy Tùng
Sinh ngày: 13-11-1988
Học viên lớp cao học K12I - Trường Đại học Công nghệ thông tin và và Truyền thông - Thái Nguyên
Xin cam đoan: Đề tài “Các kỹ thuật nâng cao hiệu suất truy vấn cơ sở dữ liệu
đa phương tiện” do thày giáo PGST.SKH Nguyễn Xuân Huyhướng dẫn là công
trình nghiên cứu của riêng tôi Tất cả tài liệu tham khảo đều có nguồn gốc, xuất xứ
rõ ràng
Tác giả xin cam đoan tất cả những nội dung trong luận văn đúng như nội dung trong đề cương và yêu cầu của thầy giáo hướng dẫn Nếu sai tôi hoàn toàn chịu trách nhiệm trước hội đồng khoa học và trước pháp luật
Thái Nguyên, tháng 11 năm 2015
TÁC GIẢ LUẬN VĂN
Đào Duy Tùng
Trang 4LỜI CẢM ƠN
Sau sáu tháng nghiên cứu và làm việc nghiêm túc, được sự động viên, giúp
đỡ và hướng dẫn tận tình của thầy giáo hướng dẫn PGSTSKH Nguyễn Xuân Huy, luận văn với đề tài “Các kỹ thuật nâng cao hiệu suất truy vấn cơ sở dữ liệu đa phương tiện” đã hoàn thành
Tôi xin bày tỏ lòng biết ơn sâu sắc đến:
Thầy giáo hướng dẫn PGS.TSKH Nguyễn Xuân Huy đã tận tình chỉ dẫn,
giúp đỡ tôi hoàn thành luận văn này
Khoa sau Đại học Trường Đại học công nghệ thông tin và truyền thông đã giúp đỡ tôi trong quá trình học tập cũng như thực hiện luận văn
Tôi xin chân thành cảm ơn bạn bè, đồng nghiệp và gia đình đã động viên, khích lệ, tạo điều kiện giúp đỡ tôi trong suốt quá trình học tập, thực hiện và hoàn thành luận văn này
TÁC GIẢ LUẬN VĂN
Đào Duy Tùng
Trang 5MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
MỤC LỤC iii
DANH MỤC CÁC HÌNH ẢNH vi
DANH MỤC BẢNG BIỂU vii
DANH MỤC CÁC TỪ VIẾT TẮT viii
MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN VÀ KIẾN TRÚC TỔ CHỨC NỘI DUNG 1
1.1 Tình hình nghiên cứu chuyên đề trong và ngoài nước 1
1.1.1 Các dịch vụ đa phương tiện trong giáo dục 1
1.1.2 Ứng dụng trong hội nghị điện tử 2
1.1.3 Ngành công nghiệp giải trí 3
1.1.4 Thương mại điện tử 3
1.2 Mục tiêu nghiên cứu và phương pháp thực hiện 4
1.2.1 Mục tiêu nghiên cứu 4
1.2.2 Phương pháp nghiên cứu 4
1.2.3 Nội dung thực hiện 4
1.3 Tổng quan về hệ quản trị cơ sở dữ liệu đa phương tiện 5
1.3.1 Giới thiệu chung 5
1.3.2 Các kiểu truyền thông và multimedia 8
1.3.3 Hệ quản trị cơ sở dữ liệu đa phương tiện (MMDBMS) 10
1.3.4 Truy tìm thông tin tài liệu văn bản 11
1.3.5 Truy xuất và chỉ số hoá multimedia 12
1.4 Kiến trúc tổ chức nội dung của một hệ thống cơ sở dữ liệu Multimedia 13
1.4.1 Kiến trúc hệ thống quản trị cơ sở dữ liệu đa phương tiện 13
1.4.2 Tổ chức dữ liệu đa phương tiện trên cơ sở nguyên lý thống nhất 15
1.4.3 Cấu trúc tóm tắt media 17
1.4.4 Dữ liệu ảnh như là một tóm tắt media 18
Trang 61.4.5 Dữ liệu video như là một tóm tắt media 19
CHƯƠNG 2: TRÍCH CHỌN ĐẶC TRƯNG ẢNH 20
2.1 Tổng quan về trích chọn đặc trưng ảnh 20
2.1.1 Đặc trưng văn bản đi kèm ảnh và tìm kiếm ảnh theo văn bản đi kèm ảnh 20
2.1.2 Đặc trưng nội dung ảnh và tìm kiếm theo đặc trưng nội dung 22
2.2 Các phương pháp trích chọn đặc trưng ảnh và độ đo tương đồng giữa các ảnh 25
2.2.1 Đặc trưng màu sắc 26
2.2.2 Đặc trưng kết cấu 28
2.2.3 Đặc trưng hình dạng 29
2.2.4 Đặctrưng cục bộ bất biến 30
2.2.5 Lựa chọn đặc trưng 34
2.3 Một số phương pháp tìm kiếm ảnh theo nội dung 37
2.3.1 Phương pháp PageRank cho tìm kiếm ảnh sản phẩm 37
2.3.2 Phương pháp xếp hạng lại ảnh dựa trên luật của người dùng (CueFlik) 39
2.3.3 Phương pháp tìm kiếm ảnh dựa trên màu sắc, hình dạng, kết cấu của ảnh 40
2.3.4 Phương pháp tìm kiếm ảnh dựa vào nội dung sử dụng các phân vùng ảnh như mẫu truy vấn 43
2.4 Mô hình k láng giềng gần nhất sử dụng bộ lượng tử hóa 44
2.4.1 Cơ sở lý thuyết 45
2.4.2 Thuật toán K láng giềng 50
2.4.3 Mô hình bài toán 52
CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ 55
3.1 Phát biểu bài toán 55
3.2 Cấu hình hệ thống 55
3.2.1 Cấu hình phần cứng 55
3.2.2 Công cụ phần mềm sử dụng 56
Trang 73.2.3 Thư viện sử dụng 56
3.3 Xây dựng tập dữ liệu ảnh 56
3.4 Quy trình, phương pháp thực nghiệm 57
3.5 Kết quả thực nghiệm 60
KẾT LUẬN 64
TÀI LIỆU THAM KHẢO 65
Trang 8DANH MỤC CÁC HÌNH ẢNH
Hình 1-1 Kiến trúc chung của một MMDBMS 13
Hình 2-1 Ví dụ hiển thị một ảnh 21
Hình 2-2.Truy vấn của Google “d-80” 22
Hình 2-3 Truy vấn của Google “Apple” 22
Hình 2-4.Ví dụ về một số lọai kết cấu 23
Hình 2-5.Một kết quả trả về của Google Image Swirl 24
Hình 2-6.Một kết quả trả về của Tiltomo 24
Hình 2-7.Một kết quả của Byo Image Search 25
Hình 2-8 Biểu đồ mô phỏng việc tính toán các DoG ảnh từ các ảnh kề mờ 32
Hình 2-9 Mỗi điểm ảnh đƣợc so sánh với 26 láng giềng của nó 33
Hình 2-10 Quá trình lựa chọn các điểm hấp dẫn 33
Hình 2-11 Biểu diễn các vector đặc trƣng 34
Hình 2-12 Ví dụ các ảnh sản phẩm trả về từ hệ thống của Jing 38
Hình 2-13 Tổng quan về mô hình của hệ thống tìm kiếm theo màu sắc, kết cấu và hình dạng 41
Hình 2-14.Mô hình hệ thống IVFADCj; Hệ thống bên trái: chèn một vector vào danh sách chỉ mục ngƣợc; hệ thống bên phải: tìm kiếm k láng giềng gần nhất 50
Hình 2-15 Mô hình giải quyết bài toán 53
Hình 3-1 Truy vấn iphone 6s plus 58
Hình 3-2 Ảnh truy vấn 58
Hình 3-3 Độ đo khoảng cách của 10 ảnh 59
Hình 3-4 Ảnh đƣợc lƣợng tử hóa và tính khoảng cách giữa các vector 60
Hình 3-5 Độ chính xác mức k của một số truy vấn 62
Trang 9DANH MỤC BẢNG BIỂU
Bảng 1-1 Mô tả kích thước kiểu dữ liệu 8
Bảng 1-2 Liên hệ giữa đặc trưng và trạng thái cho hình ảnh 19
Bảng 1-3 Liên hệ giữa đặc trưng và trạng thái cho video 19
Bảng 2-1 Một số phương pháp lựa chọn đặc trưng 36
Bảng 3-1 Cấu hình phần cứng sử dụng trong thực nghiệm 55
Bảng 3-2 Công cụ phần mềm sử dụng trong thực nghiệm 56
Bảng 3-3 Một số thư viện sử dụng trong thực nghiệm 56
Bảng 3-4 Kết quả độ chính xác trung bình của 10 truy vấn 62
Trang 10DANH MỤC CÁC TỪ VIẾT TẮT
DBMS Database Management System Hệ quản trị cơ sở dữ liệu
IR Information Retrieval Hệ thống tự động truy tìm
thông tin MMDBMS Multimedia Database Management
System
Hệ thống quản trị cơ sở dữ liệu
đa phương tiện MIRS Multimedia Indexing & Retrieval
System
Hệ thống chỉ mục và truy tìm thông tin đa phương tiện MRI Magnetic Resonance Imaging
Trang 11Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
MỞ ĐẦU
Thế kỷ 21 hứa hẹn những bước phát triển nhảy vọt hơn nữa trong lĩnh vực công nghệ thông tin Những ứng dụng công nghệ thông tin vào đời sống thực tiễn và nghiên cứu khoa học được đánh giá rất triển vọng, mở ra những thành công to lớn
Chưa bao giờ người dùng lại có nhiều cơ hội lựa chọn và tận hưởng những gì
mà đa phương tiện đem lại như ngày nay Trong số đó, hình ảnh, âm thanh kỹ thuật số kết hợp với các dịch vụ có ý nghĩa thực tiễn và quan trọng trong nhiều lĩnh vực kinh tế
xã hội như thương mại điện tử, dịch vụ truyền hình, đài phát thanh, hội thảo truyền hình qua mạng, học tập trực tuyến, xem video, tìm kiếm âm nhạc theo yêu cầu,
Dữ liệu đa phương tiện ngày càng đóng vai trò không thể thiếu trong cuộc sống, các trang thiết bị hiện đại phục vụ cho đời sống, nghiên cứu khoa học, quân sự sử dụng một khối lượng khổng lồ các loại dữ liệu đa phương tiện khác nhau Trong
đó, việc tăng tốc độ truy cập dữ liệu bằng cách sử dụng các cấu trúc dữ liệu hợp lý, phục vụ những yêu cầu của hệ thống cơ sở dữ liệu là vấn đề cần phải giải đáp
Sự phát triển mạnh mẽ của công nghệ ảnh số đã làm lượng ảnh lưu trữ trên web tăng lên một cách nhanh chóng đòi hỏi phải có các công cụ hỗ trợ tìm kiếm ảnh hiệu quả và tiện lợi Mặc dù các công cụ tìm kiếm ảnh theo văn bản đi kèm ảnh ra đời cho phép người dùng tìm kiếm ảnh với thời gian đáp ứng khá nhanh, tuy nhiên, các công cụ này vẫn còn hạn chế trong việc giải quyết nhập nhằng giữa nội dung câu truy vấn và nội dung hiển thị của ảnh trả về Sự ra đời của các công cụ tìm kiếm ảnh theo nội dung ảnh đã giải quyết được những nhập nhằng trên
Mục tiêu của luận văn là nghiên cứu các phương pháp biểu diễn đặc trưng ảnh để tối ưu hóa chất lượng tìm kiếm ảnh Đầu tiên, luận văn khảo sát phương pháp trích chọn đặc trưng ảnh trong tìm kiếm và xếp hạng ảnh Tiếp đó, dựa theo phương pháp lượng tử hóa tích của Hervé Jégou và cộng sự [3],tác giả đưa ra một
mô hình tìm kiếm K láng giềng gần nhất kết hợp độ đo tương đồng về khoảng cách giữa các vector đặc trưng và tiến hành thực nghiệm mô hình
Trang 12CHƯƠNG 1 : TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN VÀ
KIẾN TRÚC TỔ CHỨC NỘI DUNG
1.1 Tình hình nghiên cứu chuyên đề trong và ngoài nước
Trong những năm gần đây, nhu cầu sử dụng thông tin đa phương tiện ngày càng lớn Chúng được sử dụng trong đời sống hàng ngày của con người và đem lại hiệu quả mạnh hơn nhiều so với các dữ liệu truyền thống khác.Hiện có rất nhiều nhà nghiên cứu trong nước và nước ngoài đã và đang tập trung nghiên cứu về cơ sở dữ liệu đa phương tiện nhờ vào những ứng dụng thực tiễn của nó như :
1.1.1 Các dịch vụ đa phương tiện trong giáo dục
Ngày nay, nhiều trường đại học đã cung cấp chương trình giáo dục từ xa cho những người không có điều kiện tham gia lớp học với những lý do khác nhau như
do điều kiện địa lý hay thời gian để có thể theo các khoá học Khoá học như vậy thông thường được tiến hành với việc gửi các tài liệu học tập như sách báo, băng ghi hình, bên cạnh đó một số nơi có thể cho phép học viên sử dụng máy tính truy cập trực tuyến các kho tài liệu dưới dạng các đoạn phim tư liệu, băng tiếng liên quan đến việc học tập
Trên thế giới việc nghiên cứu và triển khai hệ thống quản lý giáo dục từ xa tại các nước phát triển đã được tiến hành tốt đẹp và đã hình thành ra một thị trường với tiềm năng to lớn Các sản phẩm hoàn thiện chính trên thế giới có thể kể đến[5]:
Trang 13Tại Việt Nam, trong những năm gần đây, nhiều trường học đã và đang nghiên cứu
và giới thiệu các sản phẩm quản lý và giảng dạy từ xa:
ĐHQGTPHCM với hệ thống đào tạo được truy cập theo địa chỉ
www.vnuit.edu.vn
Đại học Cần Thơ tại dec.ctu.edu.vn cho khóa học tiếng Anh, IT.,
Đại học Quốc gia Hà Nội với website môn học thử nghiệm
www.fotech.vnu.edu.vn/courses/
Khoa CNTT Viện Đại học Mở Hà Nội với
www.fithou.edu.vn/vietnamese/Tructuyen.asp
Trung tâm Vitec (Việt-Nhật) với www.vitec.org.vn,
1.1.2 Ứng dụng trong hội nghị điện tử
Tại các nước phát triển trên thế giới, ứng dụng hội nghị điện tử được chính phủ quan tâm đầu tư một cách nghiêm túc, và thu được những thành công nhất định Tại các tập đoàn, công ty đa quốc gia lớn những ứng dụng hội nghị điện tử, trực tuyến được sử dụng trong các mục đích hội họp, trao đổi với các đơn vị thành viên đặt tại các quốc gia khác nhau nhằm đưa ra các quyết định, chiến lược kinh doanh
mà không cần phải gặp mặt trực tiếp vẫn có thể cảm nhận được tầm vóc của một cuộc họp, hội nghị nhờ những công nghệ tiên tiến tạo ra Các tập đoàn tin học lớn
đã đầu tư công nghệ vào việc sản xuất ra những sản phẩm phục vụ nhu cầu trên và thu được lợi nhuận lớn lao Công nghệ Hội nghị truyền hình đã dần trở nên phổ biến trên thị trường Việt Nam Với nhiều tiện ích như khả năng tương tác tức thời, tiết kiệm thời gian tổ chức, giảm thiểu chi phí, thời gian đi lại hội họp Công nghệ Hội nghị truyền hình đã trở thành sự lựa chọn hàng đầu của các doanh nghiệp trong ứng dụng hội họp và đào tạo
Tại Việt Nam một số sản phẩm hoàn thiện phải kể đến:
Viettel là đơn vị đi đầu trên thế giới với mạng truyền hình hội nghị Conference http://www.xconference.vn/
X- Hội nghị trực tuyến toàn quốc về cải cách thủ tục hành chính, thành phố Cần Thơ www.cchccantho.gov.vn
Trang 14 Cầu truyền hình VNPT phục vụ hội nghị thanh tra:http://www.vnmedia.vn
Hội nghị truyền hình công ty cổ phần viễn thông Á Châu:
www.sieuthivienthong.com
1.1.3 Ngành công nghiệp giải trí
Trong một tương lai rất gần, nhu cầu về phim ảnh theo yêu cầu sẽ rất lớn Người sử dụng có thể dễ dàng chọn các bộ phim tại nhà và xem chúng qua tivi tại nhà Cũng như việc ứng dụng đa phương tiện trong lĩnh vực giáo dục miêu tả ở trên, trong lĩnh vực điện ảnh người sử dụng có thể lựa chọn phim mong muốn bằng cách trộn cả truy vấn tìm kiếm và duyệt Một hệ thống đa phương tiện hỗ trợ tương tác như vậy của người sử dụng thì phải có khả năng tìm kiếm hiệu quả qua các website những bộ phim thoả mãn nhu cầu của người sử dụng Hơn thế nữa, người sử dụng nên có được khả năng xem trước những mẩu phim giới thiệu mà họ mong muốn Ngoài ra, họ nên được quyền xem xét các bài phê bình về bộ phim, với sự cân nhắc như vậy có thể giúp người sử dụng lựa chọn được những bộ phim mà người sử dụng thực sự muốn xem.Các sản phẩm hoàn thiện có thể kể đến:
1.1.4 Thương mại điện tử
Trong những năm gần đây, với sự bùng nổ của Internet, thương mại điện tử cũng đã phát triển mạnh mẽ trên toàn thế giới Tại các nước đang phát triển như
Mỹ, Canada, liên minh Châu Âu (EU) thương mại điện tử đã được áp dụng rất rộng rãi và mang lại nhiều lợi ích cho cả người sử dụng cũng như các nhà cung cấp
Hệ thống bán hàng qua mạng (online)là một trong những ứng dụng quan trọng nhất trong thương mại điện tử, chính vì vậy luận văn sẽ tập trung xây dựng demo trên mô hình này, bao gồm những mục tiêu chính sau:
Trang 15• Mục đích: Hệ thống được thiết kế và xây dựng theo mô hình B2C, B2B
Việc xây dựng hệ thống bao gồm các công việc: xây dựng hệ thống thực hiện việc đăng ký giới thiệu, quảng bá các hàng hoá sản phẩm của doanh nghiệp, quản lý các loại hàng hóa sản phẩm, quản lý việc kinh doanh hàng hoá và thực hiện mua bán hàng hoá sản phẩm
• Phạm vi: Trên mạng Internet, mô hình Client-Server Hệ thống được
hosting trên một ISP (nhà cung cấp dịch vụ) trong nước
• Ứng dụng công nghệ mới: Áp dụng các kỹ thuật đa phương tiện tiến tiến
nhằm mục đích nâng cao hiệu quả kinh doanh của hệ thống
1.2 Mục tiêu nghiên cứu và phương pháp thực hiện
1.2.1 Mục tiêu nghiên cứu
Mục tiêu của luận văn là nghiên cứu các phương pháp biểu diễn đặc trưng ảnh để tối ưu hóa chất lượng tìm kiếm ảnh
1.2.2 Phương pháp nghiên cứu
- Nghiên cứu tài liệu
- Thống kê dữ liệu
- Thử nghiệm dữ liệu
- Xây dựng, phát triển phần mềm
1.2.3 Nội dung thực hiện
Nội dung chính của luận văn là kiến trúc tổ chức nội dung của một hệ thống
cơ sở dữ liệu đa phương tiện, khảo sát phương pháp trích chọn đặc trưng ảnh trong tìm kiếm và xếp hạng ảnh Đưa ra một mô hình tìm kiếm K láng giềng gần nhất kết hợp độ đo tương đồng về khoảng cách giữa các vector đặc trưng và tiến hành thực nghiệm mô hình
Phạm vi nghiên cứu
Cấu trúc nội dung của luận văn được trình bày theo bố cục như sau:
Trang 16• Chương 1: Trình bày tổng quan về tình hình nghiên cứu chuyên đề trong và
ngoài nước
• Chương 2:Khái quát về lựa chọn đặc trưng cho tìm kiếm ảnh Các đặc trưng
về về văn bản đi kèm ảnh và đặc trưng về nội dung ảnh Các phương pháp lựa chọn đặc trưng và độ đo tương tự giữa ảnh Trình bày một số đặc trưng về nội dung ảnh và một số độ đo tương đồng tương ứng với các đặc trưng.Giới thiệu một số công trình nghiên cứu liên quan đến tìm kiếm ảnh theo nội dung ảnh Đưa ra mô hình tìm kiếm K láng giềng gần nhất Giới thiệu mô hình tìm kiếm
K láng giềng gần nhất, phương pháp lưu trữ và đánh chỉ mục trong tìm kiếm
• Chương 3: Tập trung nghiên cứu và cài đặt thử nghiệm mô hình K láng giềng
gần nhất sử dụng bộ lượng tử hóa trên có sở bài toán bán hàng qua mạng
• Phần kết luận trình bày tóm tắt về các nội dung thực hiện trong luận văn, đồng thời đưa ra các vấn đề nghiên cứu tiếp cho tương lai
1.3 Tổng quan về hệ quản trị cơ sở dữ liệu đa phương tiện
1.3.1 Giới thiệu chung
Trong những năm gần đây xuất hiện nhu cầu vô cùng lớn về khả năng khai thác và xử lý dữ liệu với số lượng khổng lồ mà nó là điều không dễ dàng diễn tả chỉ với việc sử dụng các ký tự Các kiểu dữ liệu đó là ảnh, video, tài liệu, âm thanh (dữ
liệu Media) Multimedia là tập hợp các kiểu media được sử dụng với nhau (dữ liệu
đa phương tiện) Hệ quản trị CSDL đa phương tiện (Multimedia DataBase Management System-MMDBMS) là một hệ thống giúp người dùng thao tác trên các
dữ liệu media một cách thích hợp và hiệu quả Các thao tác cơ bản của hệ quản trị
CSDL thường là chèn, cập nhật, xoá và tìm kiếm một đối tượng trong CSDL Như vậy ta có thể nói rằng CSDL đa phương tiện là tập hợp các đối tượng phương tiện với các kiểu khác nhau Sau đây là một số kiểu dữ liệu được đề cập đến:
Dữ liệu hình ảnh (Image data): Ví dụ một học viên phẫu thuật muốn thực
hành một ca phẫu thuật trên một bệnh nhân ảo có những triệu chứng sinh lý nào đó Trong thực tế để tìm ra bệnh nhân với những triệu chứng mong muốn, học viên
Trang 17phẫu thuật phải truy vấn cơ sở dữ liệu (CSDL) ảnh phân tán và kích thước lớn chứa
ảnh X quang hay MRI (Magnetic Resonance Imaging) của các bệnh nhân với các
triệu chứng tương tự [2]
Dữ liệu Video (Video data): Tương tự như vậy, cùng với sự phát triển bùng nổ
của các thiết bị nghe nhìn như hiện nay thì kiểu dữ liệu Video đang ngày càng tràn ngập trên khắp mọi nơi Bên cạnh đó khi mà công nghệ lưu trữ hiện đại ngày nay làm cho việc lưu trữ các dữ liệu Video không phải là bài toán khó giải thì việc truy xuất dữ liệu để tìm kiếm thông tin theo yêu cầu trong kho dữ liệu khổng lồ như thế
là một vấn đề rất đáng quan tâm Giả sử học viên của một trường đại học muốn tìm kiếm những tư liệu băng hình về một chủ đề kỹ thuật nào đó trong thư viện của trường Như vậy đòi hỏi phải truy vấn thư viện băng hình mà nó bao gồm tập hợp
vô số các băng hình với nội dung kỹ thuật.[2]
Dữ liệu âm thanh (Audio data): Dữ liệu âm thanh được sử dụng trong những
ứng dụng, thiết bị như nhận dạng giọng nói, xử lý âm thanh, điều khiển thiết bị bằng giọng nói Ví dụ, các sinh viên học từ xa muốn có các đoạn audio bài giảng của giáo viên Hoặc các sinh viên ngoại ngữ muốn có các đoạn audio các cuộc đàm thoại Trong trường hợp này cần phải tập hợp các đoạn audio theo một chủ đề nào đó cho thuận tiện [2]
Dữ liệu tài liệu (Document data): Các đoạn văn bản, các từ, câu, đoạn văn,
chương là một CSDL văn bản truyền thống Một CSDL tài liệu khác văn bản ở chỗ
nó không chỉ chứa các thông tin dạng văn bản thô mà còn chứa đựng cả cấu trúc và hình ảnh nhúng Hoặc khi ta xem sách, trong sách không chỉ chứa dữ liệu văn bản
mà còn chứa cả hình ảnh Giả sử người đọc muốn tìm một bức ảnh nào đó nhưng không thể tìm trong CSDL ảnh Tuy nhiên nếu có một thư viện điện tử số để truy cập thì việc tìm thấy bức ảnh mong muốn là rất dễ dàng Như vậy, dữ liệu tài liệu bao gồm các phương tiện quan trọng mà trong đó các thông tin có thể được lưu trữ dưới dạng điện tử [2]
Những năm trước đây khi nhiều dữ liệu dạng văn bản (text) được lưu trữ dưới khuôn dạng máy tính có thể xử lý và lưu trữ Từ đó dẫn tới phát triển các hệ thống
Trang 18quản trị CSDL mà ngày nay được sử dụng trong hầu hết các tổ chức, cơ quan Tuy nhiên, các hệ quản trị CSDL này không thể quản lý dữ liệu đa phương tiện một cách hiệu quả bởi vì các tính chất dữ liệu văn bản và dữ liệu đa phương tiện là khác nhau,
và CSDL đa phương tiện với các dữ liệu ảnh, video, âm thanh thường là rất lớn
Do vậy, việc nghiên cứu phát triển hệ thống quản trị CSDL có khả năng quản lý dữ liệu đa phương tiện với các kỹ thuật truy tìm và chỉ mục mới là rất cần thiết MMDBMS là một khung làm việc để quản lý các kiểu dữ liệu khác nhau mà chúng được thể hiện trong rất nhiều khuôn dạng khác nhau Để làm việc thành công thì một MMDBMS phải có các khả năng sau:
Có khả năng truy vấn đồng bộ dữ liệu (dữ liệu media và dữ liệu văn bản) được thể hiện trong các định dạng khác nhau Thí dụ: một MMDBMS sẽ có khả năng truy vấn và tích hợp dữ liệu mà nó được lưu trong các CSDL khác nhau mà có thể sử dụng các lược đồ khác nhau, cũng như việc truy vấn tệp và dữ liệu lưu trữ trong DBMS hướng đối tượng hay DBMS không gian Việc xử lý các truy vấn như vậy là khá phức tạp vì trên thực tế việc nhận biết được nội dung của các kiểu media là vấn
đề thách thức và nó phụ thuộc rất nhiều vào kiểu dữ liệu và cách thức lưu trữ chúng Cuối cùng, truy vấn có thể mở rộng đối với nhiều kiểu vật mang (media) dữ liệu và MMDBMS phải có khả năng kết hợp các kết quả từ các nguồn dữ liệu khác nhau và các kiểu media khác nhau
Có khả năng truy vấn dữ liệu biểu diễn trong media khác nhau Ví dụ: một MMDBMS phải có khả năng truy vấn không chỉ trong CSDL hình ảnh mà còn cả trong CSDL âm thanh và CSDL quan hệ, sau đó kết hợp các kết quả với nhau
MMDBMS phải có khả năng khai thác các đối tượng mang tin (media) từ một thiết bị lưu trữ cục bộ một cách trơn tru, không có jitter (phải liên tục) Bởi các đối tượng mang tin (video, âm thanh…) thường chiếm một không gian vô cùng lớn MMDBMS phải có khả năng tạo ra các câu trả lời từ truy vấn và có khả năng trình diễn các câu trả lời này bằng các phương tiện nghe nhìn
Mỗi một hệ thống có đầy đủ các đặc tính yêu cầu trên là chưa đủ mà còn cần phải có khả năng phân phối các trình diễn theo một cách nào đó nhằm thoả mãn các yêu cầu khác nhau về chất lượng thể hiện của các thiết bị
Trang 191.3.2 Các kiểu truyền th ng v mu timedia
Đa phương tiện (multimedia) là một lĩnh vực của Công nghệ thông tin có mục đích nhiên cứu và đề xuất các công cụ trợ giúp việc xử lý lưu trữ, truyền các dữ liệu thích hợp như: văn bản (Text), biểu đồ, đồ thị (graphic), hoạt hình (animation), ảnh (image), video, audio, hoặc kết hợp các media với nhau (video + audio + văn bản diễn giải)
Người ta thường phân media thành hai loại dựa trên quan hệ của chúng với thời gian Đó là:
Đa phương tiện tĩnh(Static media): Không có chiều thời gian Thông tin
không liên quan tới thời gian Ví dụ cho loại này là văn bản, hình họa, ảnh chụp
Đa phương tiện động(Dynamic media): Có chiều thời gian Thông tin có quan
hệ chặt chẽ với thời gian và thông tin phải được trình diễn với thời gian xác định Ví
dụ các loại audio, video, animation, game online
So với dữ liệu truyền thống như văn bản và số, dữ liệu đa phương tiện có một số đặc điểm rất khác biệt, đó là:
Kích thước dữ liệu lớn: dữ liệu đa phương tiện có kích thước lớn hơn nhiều so với các kiểu dữ liệu số và văn bản thông thường Một văn bản thô có 200 từ (khoảng 1000 ký tự) chỉ có kích thước là 1kByte, nhưng nếu lưu văn bản đó bằng định dạng ảnh GIF thì kích thước gấp khoảng 10 lần Một giọng nói đơn sắc được lưu với định dạng WAV trong thời gian 1 phút có kích thước khoảng 2640 kByte (đã nén) hoặc xấp xỉ 6-8 MB (chưa nén) Một cảnh video rất ngắn chứa hàng trăm bức ảnh với kích thước có thể lên đến hàng chục MB , xem bảng minh họa:
Ảnh GIF khoảng 200 từ (1000 ký tự, 210 x 100mm) 10 kByte
Âm thanh WAVE giọng nói (1 phút, 22KHz, 16 bit, mono) 2640 kByte
Bảng1-1 Mô tả kích thước kiểu dữ liệu
Trang 20Số lượng dữ liệu đồ sộ: người ta ước tính, chỉ riêng trên WWW có số lượng lên đến hàng tỉ ảnh, hàng trăm triệu bài hát MP3 và vài chục triệu phim video
Một số dữ liệu đa phương tiện phụ thuộc thời gian
Audio và video có thêm chiều thời gian Khi trình diễn audio và video thì chất
lượng của chúng phụ thuộc chặt chẽ vào tốc độ trình diễn
Ví dụ, video phải được trình diễn với tốc độ 25 đến 30 hình/giây để có thể cảm nhận được hình ảnh chuyển động tốt
Tìm kiếm dựa trên cơ sở tương tự
Trong cơ sở dữ liệu quan hệ, phương pháp tìm kiếm truyền thống đối với dữ liệu dạng văn bản và số là tìm kiếm chính xác Đối với dữ liệu đa phương tiện, người dùng thường đặt ra yêu cầu tìm kiếm một đối tượng tương tự theo nội dung
mà họ đưa ra Ví dụ, một nghiên cứu khoa học cho biết con người có khả năng nhận biết một bài hát thông qua giai điệu tốt hơn thông qua tên bài hát
Đồng bộ
Một số ứng dụng đa phương tiện sử dụng hệ thống thời gian thực Hệ thống thời gian thực là hệ thống mà trong đó sự đúng đắn của việc thực hiện thao tác không chỉ phụ thuộc vào việc thu được kết quả đúng mà còn phải đưa ra kết quả đúng thời điểm Ví dụ, các tệp phim, bài giảng, truyền hình trực tiếp, hội nghị, hội thảo qua mạng (video conference), xem video theo yêu cầu (video on demand) thì yêu cầu hình ảnh phải được đồng bộ với âm thanh
Chất lượng dịch vụ
QoS là một tập các yêu cầu về chất lượng đối với các hoạt động tổng thể chung của một hoặc nhiều đối tượng Các tham số QoS mô tả tốc độ và độ tin cậy của việc truyền dữ liệu như thông lượng, trễ, tỷ lệ lỗi Các ứng dụng đa phương tiện khi truyền qua mạng thường đòi hỏi yêu cầu cao về QoS, nhất là các dịch vụ đa phương tiện tương tác thời gian thực như điện thoại internet, hội thảo qua mạng Các dịch vụ này thường đòi hỏi khắt khe về độ trễ (tối đa là vài trăm ms) Để xác định QoS, người ta dựa vào các tham số sau đây:
Trang 21- Độ trễ: là khoảng thời gian cực đại để truyền dữ liệu
- Jitter: là độ biến đổi độ trễ
- Thông lượng: là tổng số dữ liệu cực đại được truyền đi trên một đơn
vị thời gian
- Tỷ số mất tin: là số dữ liệu cực đại bị mất trên một đơn vị thời gian
1.3.3 Hệ quản trị cơ sở dữ liệu đa phương tiện (MMDBMS)
Trung tâm của một hệ thống thông tin multimedia chính là hệ quản trị CSDL MULTIMEDIA (MDBMS) Theo truyền thống, một CSDL bao gồm một bộ các dữ
có liên quan về một thực thể cho trước hoặc một hệ quản trị CSDL (DBMS) là một
bộ các dữ liệu có liên quan đến nhau với một tập hợp các chương trình được dùng
để khai báo, tạo lập, lưu trữ, truy cập và truy vấn CSDL Tương tự như vậy, chúng
ta có thể xem một CSDL MULTIMEDIA là một tập các loại dữ liệu multimedia như văn bản, hình ảnh, video, âm thanh, các đối tượng đồ hoạ….Một hệ quản trị CSDL MULTIMEDIA (MDBMS) cung cấp hỗ trợ cho các loại dữ liệu MULTIMEDIA trong việc tạo lập, lưu trữ, truy cập, truy vấn và kiểm soát
Sự khác nhau của các kiểu dữ liệu trong CSDL MULTIMEDIA có thể đòi hỏi các phương thức đặc biệt để tối ưu hoá việc lưu trữ, truy cập, chỉ số hoá và khai thác MDBMS cần phải cung cấp các yêu cầu đặc biệt này bằng cách cung cấp các
cơ chế tóm tắt bậc cao để quản lý các kiểu dữ liệu khác nhau cũng như các giao diện thích hợp để thể hiện chúng
Các yêu của của MDBMS:
Các phương pháp tìm kiếm dựa theo mô tả: ví dụ, người dùng có thể đưa ra
một mô tả để tìm kiếm "tiếng chuông điện thoại"
Giao diện người dùng độc lập với thiết bị: người dùng không cần biết cách
thức lưu trữ dữ liệu đa phương tiện như thế nào
Giao diện người dùng độc lập với các định dạng: các truy vấn dữ liệu đa
phương tiện có thể độc lập với định dạng dữ liệu Nó cho phép có thể sử dụng các kỹ thuật lưu trữ mới mà không cần thay đổi ứng dụng cơ sở dữ liệu hiện có
Trang 22 Cho phép thực hiện nhiều truy cập dữ liệu đồng thời: dữ liệu đa phương tiện
có thể truy cập đồng thời qua nhiều câu truy vấn khác nhau bởi một số ứng dụng Cách truy cập nhất quán nhằm chia sẻ dữ liệu có thể được thực hiện,
và cần có cơ chế để thỏa mãn việc tránh tạo ra các xung đột
Quản lý một lượng dữ liệu lớn: hệ thống cần phải có khả năng lưu trữ và
quản lý lượng dữ liệu lớn và thỏa mãn các truy vấn đối với các quan hệ của
dữ liệu
Vấn đề truyền dữ liệu đa phương tiện dựa trên thời gian thực: điều khiển
việc đọc/ghi dữ liệu liên tục phải được thực hiện dựa trên thời gian thực
Do lượng dữ liệu có thể là rất lớn (ví dụ, truyền video) nên việc truyền dữ liệu có thể tốn nhiều thời gian và nó còn đòi hỏi phải được thực hiện một cách chính xác
1.3.4 Truy tìm thông tin tài liệu văn bản
Truy tìm thông tin- Information Retrieval (IR) là kỹ thuật tìm kiếm thông tin được lưu trữ trên máy tính Đối với dữ liệu đa phương tiện, việc truy tìm thông tin hiệu quả là dựa trên tìm kiếm tương tự Hệ thống lưu trữ một tập các đối tượng đa phương tiện trong cơ sở dữ liệu Người dùng đưa ra các truy vấn, và hệ thống tìm ra các đối tượng tương tự truy vấn trong cơ sở dữ liệu đã lưu trữ thỏa mãn yêu cầu của người dùng Truy tìm thông tin trong MMDBMS có một số đặc điểm sau đây:
Sử dụng một khối lượng dữ liệu đặc tả lớn và phức tạp
Việc tiếp cận IR chủ yếu dựa trên các đặc trưng
Các dữ liệu thường có kích thước lớn
Sự cần thiết phải có các kỹ thuật chỉ mục dữ liệu kích thước lớn để xử
lý các truy vấn một cách hiệu quả và thực hiện nhanh hơn so với phương pháp tìm kiếm tuần tự
Sự cần thiết phải tích hợp các đặc trưng media phức tạp một cách thường xuyên (ví dụ, dữ liệu ảnh có thể chứa các đặc trưng như: hình dạng, biểu đồ màu, kết cấu )
Trang 23Ý tưởng của phương pháp tìm kiếm tương tự đưa ra như sau:
Cho một tập các đối tượng đa phương tiện trong MMDBMS
Tìm ra một hoặc một số K đối tượng tương tự (giống) nhất với đối tượng truy vấn mong muốn một cách nhanh chóng
Ví dụ: Chúng ta biết mã vùng và muốn tìm địa chỉ của nó, nhưng mỗi ý tưởng liên kết các nguồn khác nhau (tài liệu, hình ảnh, con người, khái niệm,…) Người dùng tin sẽ vẫn có câu truy vấn gồm các từ khóa tìm kiếm để nhận về kết quả mong muốn
1.3.5 Truy xuất và chỉ số hoá multimedia
Các DBMS truy xuất các khoản mục dựa trên số liệu có cấu trúc khi sử dụng kết nối chính xác IR cũng được gọi là truy xuất dựa trên văn bản Việc truy xuất dựa vào nội dung đề cập đến việc truy xuất dựa trên những nét đặc trưng truyền thống hiện nay như là màu sắc, hình thù thay cho lời giải thích văn bản về khoản mục truyền thông đó
Việc truy xuất dựa trên nội dung là chuẩn dựa trên sự đồng dạng thay vì một kết nối chính xác giữa một truy vấn và một tập các khoản mục dữ liệu
MIRS đề cập đến một hệ thống cơ sở cung cấp việc truy xuất thông tin multimedia khi sử dụng một tổ hợp DBMS, IR và các kỹ thuật truy xuất dựa trên nội dung Trong một MIRS, một vài vấn đề như phiên bản và điều khiển an toàn có thể không thực hiện được đầy đủ Một MIRS đủ bản lĩnh ra đời được gọi là MDBMS
Ví dụ, một video tài liệu cần phải được sử dụng video, hình ảnh, văn từ, âm thanh, lời nói và những thứ tương tự như vậy Vì vậy phương tiện dò tìm phải kết nối các câu hỏi với các mục cơ sở dữ liệu Các loại truyền thông khác nhau cần các
kỹ nghệ phục hồi và cách biểu thị khác nhau
Để việc truy tìm có hiệu quả, cần có một cấu trúc các khoản mục hợp lý Bởi
vì các vector đặc tính đều đa dạng về kích cỡ và việc truy tìm các khoản mục trong các MIRS dựa trên sự tương đồng thay cho việc kết nối chính xác, cấu trúc mục lục được sử dụng trong các DBMS không thích hợp với các MIRS
Trang 24Trong các DBMS, tiến hành chính liên quan đến hiệu quả (thời gian trả lời câu hỏi) nó rất quan trọng bởi kích cỡ lớn của multimedia Ngoài ra, hiệu quả truy tìm cũng rất quan trọng Bởi các MIRS truy tìm các mục chọn dựa trên cơ sở đo sự tương đồng, sử dụng luật tương ứng thay thế cho kết nối chính xác
1.4 Kiến trúc tổ chức nội dung của một hệ thống cơ sở dữ liệu Multimedia
1.4.1 Kiến trúc hệ thống quản trị cơ sở dữ liệu đa phương tiện
Phát triển một MMDBMS bao gồm các bước sau:
Bước 1 Thu thập media: Các dữ liệu media được thu thập từ các nguồn khác nhau như ti vi, CD, www
Bước 2 Xử lý media: Mô tả các đoạn trích media và các đặc trưng của chúng, bao gồm cả lọc nhiễu và tách thô
Bước 3 Lưu trữ media: Dựa vào yêu cầu cụ thể của ứng dụng để lưu
dữ liệu và các đặc trưng của chúng vào hệ thống
Bước 4 Tổ chức media: Tổ chức các đặc trưng để phục vụ việc truy tìm
Ví dụ, chỉ mục các đặc trưng với các cấu trúc giúp khai thác hiệu quả
Bước 5 Xử lý truy vấn media: Là quá trình làm cho thích nghi với cấu trúc chỉ mục Thiết kế các giải thuật tìm kiếm hiệu quả
Kiến trúc chung cho một MMDBMS được minh họa như sau:
Hình 1-1 Kiến trúc chung của một MMDBMS
Các đối tượng media
Trích chọn đặc
nén
Chỉ mục
Xây dựng truy vân đặc trưng
Search engine
Xây dựng truy vấn phản hồi
Người dùng
phản hồi
truy vấn
kết MM
DB
MS
Trang 25Hệ thống cơ sở dữ liệu đa phương tiện có nhiều môđun chức năng khác nhau nhằm hỗ trợ các thao tác trên dữ liệu đa phương tiện Bao gồm các môđun chính sau đây:
- Giao diện người dùng
- Bộ trích chọn đặc trưng
- Chỉ số hóa và môtơ tìm kiếm
- Quản lý truyền thông
Trong đó, có hai thao tác cơ bản là:
Bổ sung dữ liệu đa phương tiện mới
Thao tác bổ sung được thực hiện theo trình tự các bước như sau:
- Bước 1 Dữ liệu đa phương tiện mới được bổ sung thông qua nhiều cách
khác nhau như nhập trực tiếp từ bàn phím, từ microphone hay từ bất kỳ thiết
bị nhập kỹ thuật số khác Dữ liệu đa phương tiện cũng có thể được lấy từ các tệp đã lưu sẵn
- Bước 2 Sau khi dữ liệu đa phương tiện được bổ sung, nội dung của chúng
được trích chọn bằng công cụ trích chọn đặc trưng
- Bước 3 Các dữ liệu đa phương tiện được bổ sung cùng với các đặc trưng
của nó, thông qua bộ quản lý truyền tin sẽ được gửi về máy chủ
- Bước 4 Tại máy chủ, các đặc trưng sẽ được bố trí về các vị trí phù hợp dựa
vào lược đồ chỉ số hóa
- Bước 5 Các dữ liệu đa phương tiện bổ sung cùng với các đặc trưng và chỉ
số hóa phát sinh được lưu vào bộ quản lý lưu trữ
Truy vấn
Thao tác truy vấn được thực hiện theo trình tự các bước như sau:
- Bước 1 Tại giao diện người dùng, người sử dụng truy vấn thông tin thông
qua một thiết bị nhập nào đó, thông qua tệp đã được lưu trước đó hoặc có thể lấy trực tiếp từ cơ sở dữ liệu MMDBMS
Trang 26- Bước 2 Nếu truy vấn của người sử dụng không được lấy trực tiếp từ cơ sở
dữ liệu trong MMDBMS thì thực hiện như sau:
Thực hiện trích chọn đặc trưng truy vấn Gửi các trích chọn đặc trưng đó đến máy chủ Môtơ chỉ số hóa sẽ tìm kiếm các mục dữ liệu phù hợp với truy vấn trong cơ sở dữ liệu
Hiển thị kết quả đến người sử dụng thông qua giao diện người dùng
1.4.2 Tổ chức dữ liệu đa phương tiện trên cơ sở nguyên lý thống nhất
Xét ví dụ sau:
Bức ảnh photo1.gif có sự xuất hiện của đối tượng A, đối tượng B và một đối tượng chưa được xác định được chụp tại thành phố Hồ Chí Minh thuộc nước Việt Nam vào ngày 10/10/2011
Đoạn video video1.mpg có hình ảnh của đối tượng A đưa cho đối tượng B một chiếc cặp (trong frames 50-100) Đoạn video này thu được từ sự theo dõi nhà của đối tượng B tại thành phố Phnôm Pênhthuộc nước Campuchia vào tháng 11 năm2011
Văn bản B.txt có chứa các thông tin chi tiết về dối tượng B được thu thập từ
dữ liệu của cơ quan an ninh
Bản thân mỗi đối tượng trên cũng đã nói lên phần nào nội dung của từng đối tượng cụ thể (hình ảnh, video, văn bản) Tuy nhiên, thông tin đưa ra ở đây chỉ nói lên nội dung về mặt ngữ nghĩa hơn là đề cập đến các tính chất cụ thể của mỗi loại đối tượng Một cách tiếp cận hiệu quả nhất đối với CSDL multimedia và đã được
sử dụng rộng rãi trong thực tế là sử dụng các đối tượng được phát biểu ở trên như
là siêu dữ liệu (metadata)
Giả sử chúng ta có một tập các đối tượng media o1,… ,on chúng ta kết hợp các đối tượng media 01,….0n tương ứng sẽ là md(o1),……,md(on), ta sẽ phải tiến hành việc chỉ số hóa các metadata này với một cách thức nhằm cung cấp các phương thức triển khai hiệu quả đối với các yêu cầu truy cập từ phía người dùng
Trang 27Có thể thấy rằng, sự thành công của phương pháp này phụ thuộc cơ bản vào việc chúng ta đảm bảo được rằng với mỗi đối tượng media 0i thì metadata tương ứng của nó md(oi) là cô đọng và phản ánh đúng chỉ những gì mà người dùng yêu cầu[18] Với một số lượng tối thiểu các metadata được dùng chúng ta sẽ dễ dàng hơn trong việc chỉ số hóa cũng như là thực hiện các thao tác khai thác dữ liệu, tuy nhiên, nếu số lượng metadata sử dụng ít thì có thể người sử dụng sẽ phải mất thời gian hơn trong việc thiết lập các câu hỏi của mình Có thể lấy trường hợp sau làm ví dụ:
Người dùng: hãy tìm cho tôi tất cả các đoạn video hoặc ảnh chụp mà đối tượng A và đối tượng B trao đổi với nhau một gói hành lý
Hệ thống: Không tìm được mặc dù hệ thống đã có đoạn video ghi lại đối tượng A và đối tượng B trao đổi với nhau một chiếc cặp nhưng hệ thống vẫn trả lời
là không tìm thấy vì nó không hiểu rằng một chiếc cặp cũng có thể coi là một gói hành lý
Người dùng: hãy tìm cho tôi tất cả các đoạn video hoặc ảnh chụp mà đối tượng A và đối tượng B trao đổi với nhau một vật gì đó
Hệ thống: tìm thấy frames 50-100 của đoạn video video1.mpg thỏa mãn yêu cầu của bạn
Mặc dù có một vài nhược điểm như sử dụng metadata không biểu diễn hết được các khía cạnh của đối tượng media trong CSDL nhưng cách tiếp cận dựa trên nguyên lý đồng nhất có một số ưu điểm nổi trội sau:
• Metadata thường được lưu trữ dưới dạng các cấu trúc có liên quan đến tính chất quan hệ hoặc hướng đối tượng và có thể truy vấn một cách dễ dàng thông qua việc mở rộng các ngôn ngữ (chẳng hạn như SQL)
• Việc viết mã để thao tác với metadata thường là dễ dàng
• Việc viết các chương trình để tạo ra metadata là đơn giản đối với các lập trình viên có năng lực
Chúng ta đã xem xét đến nội dung của dữ liệu media dưới các dạng khác nhau, một câu hỏi đặt ra ở đây là đâu là phần chung nhất của các loại dữ liệu này? Mục đích của chúng ta là tìm kiếm một cấu trúc chung nhất cho tất cả các loại dữ liệu mà qua đó ta có thể thể hiện được nội dung của các loại dữ liệu đó Tóm tắt
Trang 28media là một cấu trúc toán học cho phép diễn đạt nội dung của các media này, sự tóm tắt media có thể được triển khai thông qua một cấu trúc dữ liệu duy nhất
1.4.3 Cấu trúc tóm tắt media
Một cấu trúc media tóm tắt là một tập gồm 8 tuple (S, fe, ATTR, λ, R, F, Var1, Var2) Trong đó :
• S là một tập các đối tượng gọi là các trạng thái
• Fe là một tập các đối tượng gọi là các đặc trưng
• ATTR là một tập các đối tượng gọi là các giá trị thuộc tính
• λ: S > 2fe
là một ánh xạ từ các trạng thái sang tập các đặc trưng
• R là một tập các quan hệ trên fei x ATTRj x S với i,j ≥ 0
• F là một tập các quan hệ của S
• Var 1 là một tập các đối tượng gọi là các biến, thuộc S
• Var 2 là một tập các biến, thuộc fe
• Một trạng thái là đoạn (chunk) nhỏ nhất của dữ liệu media mà ta mong muốn Ví dụ như trong một CSDL hình ảnh, mỗi ảnh có thể được xem như
là một trạng thái Nếu quan điểm này được chấp nhận, chúng ta sẽ coi như tất cả các ảnh như là các đối tượng đơn lẻ cơ bản và tất cả các đặc tính của
nó sẽ được quan tâm và khi đó chúng ta sẽ không quan tâm đến các đặc tính đơn lẻ như là các đặc tính của từng điểm ảnh Trong trường họp dữ liệu video, một trạng thái có thể được xem là một chuỗi liên tiếp các frame có dạng (10 x i, 10 x (i+1)) thể hiện một đoạn gồm 10 frame bắt đầu từ frame
có số thứ tự chia hết cho 10
• Một đặc trưng là bất kỳ đối tượng nào trong một trạng thái mà nó sẽ được quan tâm Một đặc trưng có thể gao gồm cả các đối tượng và các phạm vi của nó Ví dụ như chúng ta xem xét một bức ảnh gồm 3 đối tượng A, B và một đối tượng chưa được nhận biết thì các đặc trưng được quan tâm đến ở đây là A, B và đối tượng C nào đó Tương tự như vậy nếu chúng ta phân tích đoạn video từ frame 50-100 thì các đặc trưng được quan tâm ở đây là
Trang 29A, B và cái vali Các đặc trưng xuất hiện trong một trạng thái có thể có các thuộc tính của mình, ví dụ như đối tượng A bước ra khỏi chiếc xe ôtô của mình thì các thuộc tính của chiếc xe ô tô (loại xe, mầu sắc, biển số) cũng cần phải được ghi nhận Tương tự như vậy, một đối tượng media cũng có thể có một vài thuộc tính cần được quan tâm như ngày, thời gian và địa điểm chụp bức ảnh đó
• λ là một ánh xạ đặc trưng rút gọn cho phép ta biết đặc trưng nào xuất hiện trong những trạng thái nào λ có thể là một GUI cho phép người sử dụng tương tác nhằm mục đích nhận biết được nội dung của một đối tượng media
• R là một tập các quan hệ trên fei
x ATTRj x S các quan hệ này phụ thuộc vào trạng thái Ví dụ nếu xem xét một bức ảnh như photo1.gif thì ở đây có thể có một quan hệ phụ thuộc vào trạng thái gọi là left.of bao gồm một bộ
ba có dạng (đối tượng A, đối tượng B, photo1.gif) tương tự như vậy chúng
ta cũng có thể có một quan hệ khác gọi là background bao gồm một cặp có dạng (photo1.gif, White_House)
• F có thể chứa các liên kết kết hợp 2 trạng thái chẳng hạn như liên kết có trước, nếu chúng ta có 2 bức ảnh (photo1.gif, photo2.gif) mà giữa chúng tồn tại liên kết có trước thì khi đó có nghĩa là bức ảnh 1 được chụp trước bức
ảnh 2 và tiếp tục như vậy[18]
1.4.4 Dữ liệu ảnh như một tóm tắt media
Giả sử chúng ta xem một CSDL hình ảnh đơn giản gồm có 7 bức ảnh, CSDL này sẽ tương ứng với media trừu tượng sau:
Tập các trạng thái bao gồm (pic1.gif,……….,pic7.gif)
Tập các đặc trưng bao gồm tên của các đối tượng xuất tương ứng là Hòa, Bình, Hạnh, Phúc, Đức, Hậu, Hiền
Ánh xạ thu gọn λ cho chúng ta biết với mỗi trạng thái xuất hiện trong nó Bảng sau sẽ mô tả cho vấn đề này:
Trang 30Bảng 1-2 Liên hệ giữa đặc trưng và trạng thái cho hình ảnh
Một điểm cần chú ý ở đây là chúng ta dùng bảng trên để mô tả cho λ nhưng cách thức chỉ số hoá mà chúng ta sử dụng có thể khác đi
1.4.5 Dữ liệu video như một tóm tắt media
Tập các trạng thái bao gồm 5 frames video từ frame 1 đến frame 5
Tập các đặc trưng bao gồm Hòa,Bình, Hạnh, ngôi nhà của Hạnh và chiếc cặp Ánh xạ rút gọn λ được mô tả ở bảng sau:
Bảng 1-3 Liên hệ giữa đặc trưng và trạng thái cho video
Tổng kết chương 1
Trong chương này, tác giả trình bày khái quát về tình hình nghiên cứu chuyên đề trong và ngoài nước, mục tiêu và phương pháp thực hiện luận văn Bên cạnh đó cũng nêu tổng quan về hệ quản trị cơ sở dữ liệu đa phương tiện, kiến trúc tổ chức nội dung của hệ thống cơ sở dữ liệu đa phương tiện Chương 2, luận văn sẽ trình bày tổng quan và các phương pháp trích chọn ảnh theo nội dung, một số công trình nghiên cứu khoa học liên quan đến bài toán tìm kiếm ảnh theo nội dung, cuối cùng là phương pháp lựa chọn đặc trưng của ảnh và mô hình tìm kiếm K láng giềng gần nhất
Trang 31CHƯƠNG 2 : TRÍCH CHỌN ĐẶC TRƯNG ẢNH
Sự phát triển mạnh mẽ của công nghệ ảnh số làm lượng ảnh lưu trữ trên web tăng lên một cách nhanh chóng Mỗi ngày, có hàng triệu bức ảnh được đăng tải trên các trang ảnh trực tuyến như: Flickr1
, Photobucket2, Facebook3,… Theo thống kê,
có 10 tỉ ảnh trên Facebook (tính đến tháng 10/2008), 3 tỉ ảnh trên Flickr (tính đến tháng 11/2008), 6.2 tỉ ảnh trên Photobucket(tính đến tháng 10/2008)
Cùng với nhu cầu tìm kiếm văn bản, nhu cầu tìm kiếm ảnh cũng nhận được nhiều quan tâm của người sử dụng Tuy nhiên, với một số lượng ảnh quá lớn trên Internet công việc tìm kiếm trở nên vô cùng khó khăn Để giải quyết vấn đề này, các
hệ thống tìm kiếm ảnh đã ra đời như: Yahoo, MSN, Google Image Search, Bing,… Các hệ thống này cho phép người sử dụng nhập truy vấn về các ảnh cần quan tâm Thông qua việc phân tích các văn bản đi kèm ảnh, hệ thống gửi trả các ảnh tương ứng với truy vấn của người dùng Một số công cụ tìm kiếm ảnh thương mại khác như Tiltomo, ByoImageSearch,… cho phép người dùng nhập câu hỏi dưới dạng ảnh Đây là một hướng nghiên cứu mới nhận được nhiều sự quan tâm của nhiều công trình khoa học trên thế giới Một số sản phẩm thử nghiệm của các công ty lớn
về tìm kiếm ảnh như: Google Image Swirl, Like, Tineye, Tiltomo….đã ra đời
2.1 Tổng quan về trích chọn đặc trưng ảnh
2.1.1 Đặc trưng văn bản đi kèm ảnh v tìm kiếm ảnh theo văn bản đi kèm ảnh
Mỗi ảnh trên web thường có các văn bản đi kèm như là tên ảnh (title), các thẻ (tags), bình luận (comment),…để mô tả các thông tin về ảnh, đây là các siêu dữ liệu (metadata) về ảnh Các dữ liệu này thường do người dùng tạo ảnh gắn cho mỗi ảnh,
vì vậy chúng đều mang một ý nghĩa nhất định Độ quan trọng của các loại siêu dữ
Trang 32liệu khác nhau cũng khác nhau Ví dụ, các thẻ thường quan trọng hơn tên ảnh, tên ảnh quan trọng hơn bình luận Dưới đây là một ví dụ về văn bản đi kèm một ảnh:
• Title: “Red_Rose Flower”
• Tags: “redRoseflower, hongkongflowershow, 2009, bokeh, causewaybay, hongkong, jonnoj, jonbinalay, nikond80, interestingness50”
• Description: “HEAVEN SCENT" FOR THE LOVE OF THE RED RED ROSE
Hình 2-1 Ví dụ hiển thị một ảnh
Vì văn bản đi kèm ảnh mang ngữ nghĩa về nội ảnh cho nên hai bức ảnh có nội dung giống nhau thường có tên giống nhau và các thẻ tương tự nhau Vì vậy, các công cụ tìm kiếm ảnh theo văn bản đi kèm thường tập trung khai thác nội dung của các văn bản này để tìm kiếm và xếp hạng ảnh Phương pháp này cho kết quả khả quan cũng như đáp ứng nhanh nhu cầu của người sử dụng Tuy nhiên, với các câu truy vấn mang ý nghĩa nhập nhằng có thể các kết quả trả về sẽ không đúng với yêu cầu đặt ra Ví dụ khi truy vấn là “d-80”, một máy ảnh phổ biến của Nikon, thì các hệ thống trả về kết quả khá tốt (Hình 2-2) Tuy nhiên, với truy vấn “apple’, nếu người dùng muốn tìm quả táo thì kết quả trả về đầu tiên không thỏa mãn (logo của hãng Apple) (Hình 2-3):
Trang 33Hình 2-2.Truy vấn của Google “d-80” Hình 2-3 Truy vấn của Google “Apple”
Mặt khác, các albumn cá nhân thường không có các thẻ hoặc văn bản đi kèm ảnh Cùng với số lượng ảnh số được chụp thêm mỗi ngày, việc gán thủ công các thẻ cho ảnh rất tốn kém Một hướng nghiên cứu nhằm khắc phục vấn đề trên là tìm kiếm theo chính các đặc trưng trích xuất từ nội dung của ảnh
2.1.2 Đặc trưng nội dung ảnh v tìm kiếm theo đặc trưng nội dung
Tìm kiếm ảnh theo nội dung (Content Based Images Retrieval CBIR) hay truy vấn theo nội dung ảnh (Query Based Image Content QBIC) là một ứng dụng của thị giác máy tính đối với bài toán tìm kiếm ảnh “Dựa vào nội dung ảnh (ContentBased) ” nghĩa là việc tìm kiếm sẽ phân tích nội dung thực sự của các bức ảnh Nội dung ảnh ở đây được thể hiện bằng màu sắc, hình dạng, kết cấu (texture), các đặc trưng cục bộ (local features), … hay bất cứ thông tin nào có từ chính nội dung ảnh Cụm từ CBIR được T.Kato đưa ra vào năm 1992 trong quá trình thu thập ảnh một cách tự động từ cơ sở dữ liệu dựa trên biểu diễn màu sắc và hình dạng của ảnh Tee Cheng Siew đã giới thiệu một số đặc trưng nội dung ảnh:
• Đặc trưng màu sắc: Màu sắc là một đặc trưng nổi bật và được sử dụng phổ biến nhất trong tìm kiếm ảnh theo nội dung Mỗi một điểm ảnh (thông tin màu sắc) có thể được biểu diễn như một điểm trong không gian màu sắc ba chiều Các không gian màu sắc thường dùng là: RGB, Munsell, CIE, HSV Tìm kiếm ảnh theo màu sắc tiến hành tính toán biểu đồ màu cho mỗi ảnh để xác định tỉ trọng các điểm ảnh của ảnh mà chứa các giá trị đặc biệt (màu sắc)
Trang 34Các nghiên cứu gần đây đang cố gắng phân vùng ảnh theo các màu sắc khác nhau và tìm mỗi quan hệ giữa các vùng này
• Đặc trưng kết cấu: Trích xuất nội dung ảnh theo kết cấu nhằm tìm ra mô hình trực quan của ảnh và cách thức chúng được xác định trong không gian Kết cấu được biểu diễn bởi các texel mà sau đó được đặt vào một số các tập phụ thuộc vào số kết cấu được phát hiện trong ảnh Các tập này không chỉ xác định các kết cấu mà còn chỉ rõ vị trí các kết cấu trong ảnh Việc xác định các kết cấu đặc biệt trong ảnh đạt được chủ yếu bằng cách mô hình các kết cấu như những biến thể cấp độ xám 2 chiều Ví dụ về một số loại kết cấu
Hình 2-4.Ví dụ về một số lọai kết cấu
• Đặc trưng hình dạng: Hình dạng của một ảnh hay một vùng là một đặc trưng quan trong trong việc xác định và phân biệt ảnh trong nhận dạng mẫu Mục tiêu chính của biểu diễn hình dạng trong nhận dạng mẫu là đo thuộc tính hình học của một đối tượng được dùng trong phân lớp, so sánh
và nhận dạng đối tượng
Thực tế, đã có nhiều máy tìm kiếm cho phép tìm kiếm ảnh theo nội dung ảnh, tuy nhiên, các máy tìm kiếm này thường chỉ khai thác vào một phần nội dung của ảnh
Trang 35• Google Image Swirl: Là một thử nghiệm tìm kiếm hình ảnh theo nội dung của Google, trong đó, kết quả tìm kiếm được sẽ được tổ chức lại dựa vào hiển thị trực quan và độ tương đồng ngữ nghĩa giữa các ảnh Google Image Swril phân cụm tốp đầu các kết quả trả về cho trên 200.000 câu truy vấn và cho phép hiển thị hình ảnh dưới dạng các cụm và mối quan hệ giữa các ảnh
Hình 2-5.Một kết quả trả về của Google Image Swirl
• Tiltomo: Là một công cụ dựa trên Flickr và duy trì chính cơ sở dữ liệu ảnh của Flickr Nó cho phép tìm kiếm ảnh dựa vào độ tương đồng về chủ đề, màu sắc hay kết cấu
Hình 2-6.Một kết quả trả về của Tiltomo
Trang 36• Byo Image Search: Tìm kiếm ảnh theo độ tương đồng về màu sắc với mẫu ảnh
mà người dùng tải lên từ máy tính hoặc từ một địa chỉ URL Công cụ tìm kiếm này không hỗ trợ tính năng tìm kiếm ảnh dựa vào độ tương đồng về chủ đề
Hình 2-7.Một kết quả của Byo Image Search
Tìm kiếm ảnh theo mẫu (example-based image search):Tìm kiếm ảnh theo mẫu là một dạng của tìm kiếm ảnh dựa vào nội dung Trong hệ thống đó, đầu vào là một ảnh, hệ thống tìm kiếm và trả lại cho người dùng những ảnh tương đồng với ảnh mẫu
Trong nội luận văn này, tác giả tập trung vào bài toán tìm kiếm ảnh dựa theo mẫu, tìm hiểu các phương pháp trích chọn đặc trưng nội dung cũng như các độ đo tương đồng để tìm kiếm tập ảnh sản phẩm gần với ảnh mẫu nhất trong tập cơ sở dữ liệu các ảnh sản phẩm
2.2 Các phương pháp trích chọn đặc trưng ảnh và độ đo tương đồng giữa các ảnh
Trong tìm kiếm ảnh theo nội dung, việc lựa chọn các đặc trưng thích hợp với từng loại truy vấn và miền ứng dụng cùng với các độ đo tương đồng tưong ứng là
Trang 37thành phần quan trọng và then chốt nhất [4] Việc lựa chọn các đặc trưng và độ đo thích hợp sẽ giúp tối ưu hóa cả tốc độ và mức độ chính xác của các hệ thống J.V.Jawahe và cộng sự [5] đã nêu ra các yêu cầu cơ bản đối với thành phần lựa chọn đặc trưng cho ảnh:
• Thành phần lựa chọn đặc trưng phải lựa chọn được một tập các đặc trưng cung cấp đầu vào tốt nhất cho hệ thống tìm kiếm ảnh Nếu số lượng các đặc trưng quá nhiều sẽ làm “che khuất” các “tín hiệu” (giảm các “tín hiệu” đối với tỉ lệ nhiễu), mặt khác, nếu số lượng các đặc trưng quá ít sẽ khó phân biệt được ảnh trong tìm kiếm
• Nó phải giảm bớt được độ phức tạp trong lúc tính toán tổng thể bằng giảm đa chiều của bài toán phân lớp
• Khi người dùng muốn sử dụng các đặc trưng đó cho mọi truy vấn, thì việc sử dụng các đặc trưng này phải hiệu quả Vì số lượng các đặc trưng có thể là hàng ngàn, do đó thời gian xử lý của module phải tuyến tính với số lượng đặc trưng
• Vì thời gian xử lý của thành phần lựa chọn đặc trưng tuyến tính với số lượng đặc trưng, do đó việc lựa chọn các đặc trưng cũng nên tuyến tính dựa trên phân lớp
• Thành phần lựa chọn đặc trưng có thể xử lý được với kích thước tập mẫu nhỏ (khoảng 5 mẫu)
2.2.1 Đặc trưng màu sắc
2.2.1.1 Đặc trưng màu sắc
Tìm kiếm ảnh theo lược đồ màu là phương pháp phổ biến và được sử dụng nhiều nhất trong các hệ thống tìm kiếm ảnh theo nội dung Đây là phương pháp đơn giản, tốc độ tìm kiếm tương đối nhanh tuy nhiên kết quả tìm kiếm có độ chính xác không cao Đây có thể xem là bước lọc đầu tiên cho những bước tìm kiếm sau Một
số lược đồ màu được sử dụng như: lược đồ màu RGB, lược đồ màu HSI, lược đồ HSI cải tiến
Trang 38Trong đó, lược đồ màu RGB được sử dụng phổ biến nhất
• Lược đồ màu RGB:
Đối với ảnh 256 màu, lược đồ màu của ảnh tương đương với lược đồ màu của ảnh xám Đối với ảnh 24 bit màu, lược đồ miêu tả khả năng kết nối về cường độ của ba kênh màu R, G, B Luợc đồ màu này được định nghĩa như sau:
(2.1)
Trong đó N là số lượng điểm có trong ảnh
Lược đồ màu này được tính bằng cách rời rạc hóa từng màu trong ảnh, sau đó đếm số điểm ảnh của mỗi màu Khi mà số lượng màu là có hạng, để thuận tiện hơn, người ta thường chuyển đổi ba kênh màu thành một biến giá trị duy nhất Một cách
khác để tính lược đồ màu của ảnh RGB là ta phân ra làm 3 lượt đồ riêng biệt h R[],
h
G [], h B[] Khi đó, mỗi lược đồ được tính bằng cách đếm kênh màu tương ứng trong mỗi điểm ảnh
2.2.1.2 Độ đo tương đồng về màu sắc
Một số độ đo tương đồng được sử dụng như: Độ đo khoảng cách Ơclit, độ đo Jensen-Shannon divergence (JSD)
Gọi h(I) và h(M) tương ứng là 2 lượt đồ màu của hai ảnh I và ảnh M Khi đó các loại độ đo màu được định nghĩa là một số nguyên (hoặc số thực) theo các loại
độ đo tương ứng như sau:
• Khoảng cách Ơclit:
Đây là khoảng cách Ơclit thông thường giữa các K bin:
(2.2)
Hoặc: