MPEG7 cung cấp bộ mô tả âm thanhhình ảnh phong phú nhất trên thế giới.Những mô tả này dựa trên danh mục (ví dụ: tiêu đề, người sáng tạo, quyền), ngữ nghĩa (ví dụ: thông tin về ai, cái gì, khi nào, ở đâu về các đối tượng và sự kiện) và cấu trúc (ví dụ: biểu đồ màu đo lượng màu liên quan với hình ảnh hoặc âm sắc của một thiết bị được ghi lại) các tính năng của nội dung AV và thúc đẩy biểu diễn dữ liệu AV được xác định bởi MPEG1, 2 và 4.
Trang 1Đã bao nhiêu lần bạn xem những bộ phim khoa học viễn tưởng như 2001: A Space
Odyssey và nghĩ, "Chà, chúng ta còn lâu
mới có bất kỳ thiết bị ưa thích nào được mô
tả trong những bộ phim này!" Vào năm
2001, Hal, chiếc máy tính biết điều hướng
và truy xuất thông tin một cách thông minh hoặc chạy các hoạt động phức tạp được
kích hoạt bởi đầu vào bằng giọng nói Hoặc cách sử dụng truy vấn dựa trên hình ảnh, chẳng hạn như hình ảnh chiếc xe máy được Arnold Schwartzenegger sử dụng trong
phim T2 để tìm hình ảnh của những chiếc
xe máy trông tương tự Giấc mơ hay hiện thực?
Khi ngày càng có nhiều thông tin nghe nhìn
từ nhiều nguồn trên thế giới, nhiều người muốn sử dụng thông tin này cho các mục đích khác nhau Tình huống thách thức này dẫn đến nhu cầu về một giải pháp tìm kiếm
và / hoặc lọc các loại tài liệu đa phương tiệnkhác nhau mà người dùng quan tâm một cách nhanh chóng và hiệu quả
Trang 2Ví dụ: việc tìm kiếm thông tin bằng các truyvấn đa ngôn ngữ, hình ảnh vẽ tay và tiếng
vo vo cải thiện tính thân thiện với người
dùng của hệ thống máy tính và cuối cùng giải quyết những gì hầu hết mọi người
mong đợi từ máy tính Đối với các chuyên gia, một thế hệ ứng dụng mới sẽ cho phép tìm kiếm và truy xuất thông tin chất lượng cao Ví dụ: các nhà sản xuất chương trình truyền hình có thể tìm kiếm với “độ chính xác giống như tia laser” để tìm kiếm sự
xuất hiện của các sự kiện nổi tiếng hoặc tài liệu tham khảo về một số người nhất định, được lưu trữ trong hàng nghìn giờ hồ sơ
nghe nhìn, để thu thập tài liệu cho chương trình Điều này sẽ làm giảm thời gian sản xuất chương trình và tăng chất lượng nội dung của chương trình
MPEG-7 là một tiêu chuẩn mô tả nội dung
đa phương tiện, (sẽ được xác định vào
tháng 9 năm 2001), đề cập đến cách con người mong đợi tương tác với hệ thống máytính, vì nó phát triển các mô tả phong phú phản ánh những mong đợi đó Tài liệu này
Trang 3giới thiệu tổng quan về tiêu chuẩn MPEG-7 Bạn có thể tìm thêm thông tin về MPEG-7 tại trang web của MPEG-7
http://drogo.cselt.it/mpeg/ và trang web củaMPEG-7 Industry Focus Group
http://www.mpeg-7.com Các trang web nàychứa các liên kết đến vô số thông tin về
MPEG, bao gồm nhiều tài liệu có sẵn công khai, một số danh sách 'Câu hỏi thường
gặp' và các liên kết đến các trang web
MPEG-7 khác
1.1 Các tiêu chuẩn MPEG là gì?
Nhóm chuyên gia mã hóa ảnh động (MPEG)
là một nhóm làm việc của tổ chức tiêu
chuẩn ISO / IEC có trụ sở tại Geneva, (Tổ chức tiêu chuẩn quốc tế / Ủy ban kỹ thuật điện quốc tế) phụ trách việc phát triển các tiêu chuẩn quốc tế về nén, giải nén, xử lý,
và biểu diễn được mã hóa của hình ảnh
chuyển động, âm thanh và sự kết hợp của
cả hai MPEG-7 sau đó là một tiêu chuẩn ISO / IEC đang được phát triển bởi MPEG, ủyban cũng đã phát triển các tiêu chuẩn từng
Trang 4đoạt giải Emmy được gọi là MPEG-1 và
MPEG-2, và tiêu chuẩn MPEG-4 năm 1999
• MPEG-1: Để lưu trữ và truy xuất hình ảnh
và âm thanh chuyển động trên phương tiện lưu trữ
• MPEG-2: Đối với truyền hình kỹ thuật số, đây là phản ứng kịp thời cho ngành truyền hình vệ tinh và truyền hình cáp trong quá trình chuyển đổi từ các định dạng tương tự sang kỹ thuật số
• MPEG-4: Mã hóa nội dung dưới dạng các đối tượng và cho phép các đối tượng đó
được thao tác riêng lẻ hoặc tập thể trên mộtcảnh nghe nhìn
1, -2 và -4 cung cấp nội dung
MPEG-7 cho phép bạn tìm nội dung bạn cần
Bên cạnh những tiêu chuẩn này, MPEG hiện cũng đang làm việc trong MPEG-21 một Báocáo Kỹ thuật về Khung Đa phương tiện
1.2 Định nghĩa MPEG-7
MPEG-7 là một tiêu chuẩn để mô tả các tínhnăng của nội dung đa phương tiện
1.2.1 Định tính MPEG-7
Trang 5MPEG-7 cung cấp bộ mô tả âm thanh-hình ảnh phong phú nhất trên thế giới.
Những mô tả này dựa trên danh mục (ví dụ:tiêu đề, người sáng tạo, quyền), ngữ nghĩa (ví dụ: thông tin về ai, cái gì, khi nào, ở đâu
về các đối tượng và sự kiện) và cấu trúc (ví dụ: biểu đồ màu - đo lượng màu liên quan với hình ảnh hoặc âm sắc của một thiết bị được ghi lại) các tính năng của nội dung AV
và thúc đẩy biểu diễn dữ liệu AV được xác định bởi MPEG-1, 2 và 4
Phạm vi toàn diện của khả năng tương tác
dữ liệu
MPEG-7 sử dụng Lược đồ XML làm ngôn ngữđược lựa chọn để mô tả nội dung MPEG-7 sẽtương thích với các tiêu chuẩn hàng đầu
khác như, Từ điển siêu dữ liệu SMPTE,
Dublin Core, EBU P / Meta và TV Anytime.1.3 Vai trò chính của MPEG-7
MPEG-7, được đặt tên chính thức là “Giao diện mô tả nội dung đa phương tiện”, là tiêuchuẩn mô tả nội dung đa phương tiện để người dùng có thể tìm kiếm, duyệt và truy xuất nội dung đó hiệu quả hơn so với việc
Trang 6họ có thể sử dụng các công cụ tìm kiếm chủyếu dựa trên văn bản ngày nay Đây là một tiêu chuẩn để mô tả các tính năng của nội dung đa phương tiện.
Tuy nhiên…
MPEG-7 sẽ không chuẩn hóa việc trích xuất (tự động) các mô tả / tính năng AV Nó cũng không chỉ định công cụ tìm kiếm (hoặc bất
kỳ chương trình nào khác) có thể sử dụng
mô tả Nó sẽ được giao cho sự sáng tạo và đổi mới của các công ty công cụ tìm kiếm,
ví dụ, để thao tác và đưa nội dung được mô
tả bằng MPEG-7 vào các chỉ số tìm kiếm có thể được sử dụng bởi trình duyệt và các
công cụ truy xuất của họ, (xem hình 1)
2 Hoạt động kỹ thuật MPEG-7
Điều quan trọng cần lưu ý là MPEG-7 giải quyết nhiều ứng dụng khác nhau trong
nhiều môi trường khác nhau, có nghĩa là nó cần cung cấp một khuôn khổ linh hoạt và cóthể mở rộng để mô tả dữ liệu nghe nhìn Do
đó, MPEG-7 sẽ định nghĩa một thư viện đa phương tiện gồm các phương pháp và công
cụ Nó sẽ chuẩn hóa:
Trang 7• Tập hợp các bộ mô tả: Bộ mô tả (D) là
một biểu diễn của đối tượng xác định cú pháp và ngữ nghĩa của biểu diễn đối tượng
• Tập hợp các lược đồ mô tả: Một lược đồ
mô tả (DS) chỉ định cấu trúc và ngữ nghĩa của các mối quan hệ giữa các thành phần của nó, có thể là cả bộ mô tả và lược đồ môtả
• Một ngôn ngữ chỉ định các lược đồ mô tả, Ngôn ngữ Định nghĩa Mô tả (DDL): Nó cũng cho phép mở rộng và sửa đổi các lược đồ
mô tả hiện có MPEG-7 đã sử dụng Ngôn ngữ lược đồ XML làm MPEG-7 DDL Tuy
nhiên, DDL yêu cầu một số phần mở rộng
cụ thể cho Ngôn ngữ lược đồ XML để đáp ứng tất cả các yêu cầu của MPEG-7 Các phần mở rộng này hiện đang được thảo
luận thông qua các hoạt động liên lạc giữa MPEG và W3C, nhóm chuẩn hóa XML
• Một hoặc nhiều cách (dạng văn bản, nhị phân) để mã hóa mô tả: Mô tả được mã hóa
là mô tả được mã hóa để đáp ứng các yêu cầu liên quan như hiệu quả nén, khả năng phục hồi lỗi và truy cập ngẫu nhiên
Trang 8Hình 1
2 Hoạt động kỹ thuật MPEG-7
Điều quan trọng cần lưu ý là MPEG-7 giải quyết nhiều ứng dụng khác nhau trong
nhiều môi trường khác nhau, có nghĩa là nó cần cung cấp một khuôn khổ linh hoạt và cóthể mở rộng để mô tả dữ liệu nghe nhìn Do
đó, MPEG-7 sẽ định nghĩa một thư viện đa phương tiện gồm các phương pháp và công
cụ Nó sẽ chuẩn hóa:
• Tập hợp các bộ mô tả: Bộ mô tả (D) là
một biểu diễn của đối tượng xác định cú
pháp và ngữ nghĩa của biểu diễn đối tượng
Trang 9• Tập hợp các lược đồ mô tả: Một lược đồ
mô tả (DS) chỉ định cấu trúc và ngữ nghĩa của các mối quan hệ giữa các thành phần của nó, có thể là cả bộ mô tả và lược đồ môtả
• Một ngôn ngữ chỉ định các lược đồ mô tả, Ngôn ngữ Định nghĩa Mô tả (DDL): Nó cũng cho phép mở rộng và sửa đổi các lược đồ
mô tả hiện có MPEG-7 đã sử dụng Ngôn ngữ lược đồ XML làm MPEG-7 DDL Tuy
nhiên, DDL yêu cầu một số phần mở rộng
cụ thể cho Ngôn ngữ lược đồ XML để đáp ứng tất cả các yêu cầu của MPEG-7 Các phần mở rộng này hiện đang được thảo
luận thông qua các hoạt động liên lạc giữa MPEG và W3C, nhóm chuẩn hóa XML
• Một hoặc nhiều cách (dạng văn bản, nhị phân) để mã hóa mô tả: Mô tả được mã hóa
là mô tả được mã hóa để đáp ứng các yêu cầu liên quan như hiệu quả nén, khả năng phục hồi lỗi và truy cập ngẫu nhiên
Trang 10
Hình 2: Tổng quan về các sơ đồ mô tả đa phương tiện MPEG-7 (DS
• Tạo và Sản xuất: Chứa thông tin meta mô
tả việc tạo và sản xuất nội dung; các tính năng tiêu biểu bao gồm tiêu đề, người tạo, phân loại và mục đích của việc sáng tạo Hầu hết thời gian thông tin này là do tác giảtạo vì nó không thể được trích xuất từ nội dung
• Sử dụng: Chứa thông tin meta liên quan đến việc sử dụng nội dung; các tính năng điển hình liên quan đến chủ sở hữu quyền, quyền truy cập, xuất bản và thông tin tài
Trang 11chính Thông tin này có thể thay đổi trong suốt thời gian tồn tại của nội dung AV.
• Phương tiện: Chứa mô tả của phương tiện lưu trữ; các tính năng điển hình bao gồm định dạng lưu trữ, mã hóa nội dung AV và các yếu tố để nhận dạng phương tiện Lưu ý: Có thể mô tả một số trường hợp của
phương tiện lưu trữ cho cùng một nội dung AV
• Các khía cạnh cấu trúc: Chứa phần mô tả nội dung AV từ quan điểm cấu trúc của nó
Mô tả được cấu trúc xung quanh các phân đoạn đại diện cho các thành phần vật lý, không gian, thời gian hoặc không gian-thời gian của nội dung AV Mỗi phân đoạn có thể được mô tả bằng các đặc điểm dựa trên tín hiệu (màu sắc, kết cấu, hình dạng, chuyển động, âm thanh) và một số thông tin ngữ nghĩa cơ bản
• Các khía cạnh khái niệm: Chứa phần mô
tả nội dung AV từ quan điểm về các khái
niệm của nó
Năm bộ Công cụ mô tả được trình bày ở đâydưới dạng các thực thể riêng biệt, tuy
Trang 12nhiên, chúng có mối quan hệ với nhau và cóthể được bao gồm một phần trong nhau Ví dụ: các yếu tố Truyền thông, Sử dụng hoặc Sáng tạo & Sản xuất có thể được gắn vào các phân đoạn riêng lẻ liên quan đến mô tả cấu trúc của nội dung Các công cụ cũng được xác định để điều hướng và truy cập và
có một bộ công cụ khác dành cho Tổ chức nội dung giải quyết việc tổ chức nội dung theo phân loại, theo định nghĩa của bộ sưu tập và bằng cách mô hình hóa Cuối cùng,
bộ công cụ cuối cùng là Tương tác người
dùng, mô tả sở thích của người dùng đối vớiviệc sử dụng nội dung đa phương tiện và lịch sử sử dụng
2.2 Nhóm công tác MPEG-7 Hiện tại MPEG-7 tập trung vào đặc tả của các công cụ mô tả (Mô tả và
Sơ đồ mô tả), cùng với sự phát triển của phần mềm tham chiếu MPEG-7, được gọi là XM
(eXperimentation Model) Ngôn ngữ lược đồ XML được chọn làm cơ sở cho Ngôn ngữ định nghĩa
mô tả (DDL) Nhóm MPEG-7 Audio phát triển một loạt các Công cụ mô tả, từ các công cụ mô tả âm
Trang 13thanh chung (ví dụ: dạng sóng và bao quang phổ,tần số cơ bản) đến các công cụ mô tả phức tạp hơn như Nội dung giọng nói và Âm sắc Các công
cụ Mô tả âm thanh chung sẽ cho phép tìm kiếm các giọng nói tương tự, bằng cách tìm kiếm các phong bì tương tự và tần số cơ bản của mẫu
giọng nói dựa trên cơ sở dữ liệu giọng nói Sơ đồ
mô tả nội dung bằng giọng nói (DS) được thiết kế
để thể hiện kết quả đầu ra của một số lượng lớn các hệ thống Nhận dạng giọng nói tự động hiện đại, chứa cả biểu diễn từ và âm vị và rất có thể là chuyển tiếp Điều này làm giảm bớt vấn đề của các từ ngoài từ vựng, cho phép truy xuất ngay cả khi từ ban đầu bị giải mã sai Các ký hiệu mô tả
Âm sắc (Ds) mô tả các đặc điểm cảm nhận của
âm thanh nhạc cụ, khiến cho hai âm thanh có
cùng cao độ và độ lớn có vẻ khác nhau đối với taingười Các bộ mô tả này cho phép tìm kiếm các giai điệu độc lập với các nhạc cụ Nhóm MPEG-7 Visual đang phát triển bốn nhóm công cụ mô tả: Màu sắc, Kết cấu, Hình dạng và Chuyển động Công cụ Mô tả Màu sắc và Kết cấu sẽ cho phép tìm kiếm và lọc nội dung trực quan (hình ảnh, đồ họa, video) theo màu chủ đạo hoặc kết cấu ở một
Trang 14số vùng (có hình dạng tùy ý) hoặc toàn bộ hình ảnh Công cụ mô tả hình dạng sẽ tạo điều kiện thuận lợi cho việc “truy vấn bằng phác thảo” hoặc
sự tương đồng về đường viền trong cơ sở dữ liệuhình ảnh, hoặc ví dụ, tìm kiếm nhãn hiệu trong cơ
sở dữ liệu đăng ký Công cụ mô tả chuyển động
sẽ cho phép tìm kiếm các video có dạng chuyển động tương tự có thể áp dụng cho tin tức (ví dụ: các chuyển động tương tự trong một trận bóng đáhoặc bóng đá) hoặc cho các ứng dụng giám sát (ví dụ: phát hiện xâm nhập khi di chuyển về phía vùng an toàn) Nhóm Lược đồ mô tả đa phương tiện MPEG-7 đang phát triển các công cụ mô tả liên quan đến các tính năng lưu trữ và nghe nhìn
và lưu trữ chung Các công cụ trung tâm của nó giải quyết vấn đề quản lý nội dung và mô tả nội dung như đã nêu trong phần 2.1 Nhóm Nghiên cứu Triển khai MPEG-7 đang thiết kế và triển khaiPhần mềm Tham chiếu MPEG-7 được gọi là XM Nhóm Hệ thống MPEG-7 đang phát triển DDL và định dạng nhị phân (được gọi là BiM), bên cạnh việc định nghĩa kiến trúc đầu cuối và các đơn vị truy cập
3 Miền ứng dụng MPEG-7
Trang 15Các yếu tố mà MPEG-7 tiêu chuẩn hóa sẽ hỗtrợ nhiều loại ứng dụng (ví dụ: thư viện kỹ thuật số đa phương tiện, lựa chọn phương tiện phát sóng, chỉnh sửa đa phương tiện, thiết bị giải trí gia đình, v.v.) MPEG-7 cũng
sẽ làm cho web có thể tìm kiếm được nội dung đa phương tiện vì nó có thể tìm kiếm được đối với văn bản ngày nay Điều này sẽ đặc biệt áp dụng cho các kho lưu trữ nội
dung lớn, được cung cấp cho công chúng, cũng như các danh mục đa phương tiện chophép mọi người xác định nội dung để mua Thông tin được sử dụng để truy xuất nội
dung cũng có thể được sử dụng bởi các đại
lý, để lựa chọn và lọc tài liệu "đẩy" đã phát sóng hoặc cho quảng cáo được cá nhân
hóa Ngoài ra, các mô tả MPEG-7 sẽ cho
phép sử dụng dữ liệu cơ bản nhanh chóng
và tiết kiệm chi phí, bằng cách cho phép trình bày và chỉnh sửa đa phương tiện bán
tự động Tất cả các miền sử dụng đa
phương tiện sẽ được hưởng lợi từ MPEG-7 bao gồm,
Trang 16 Thư viện kỹ thuật số, Giáo dục (danh mục hình ảnh, từ điển âm nhạc, danh mục hình ảnh y học sinh học…)
Chỉnh sửa đa phương tiện (dịch vụ tin tức điện tử được cá nhân hóa, tác giả phương tiện truyền thông)
Dịch vụ văn hóa (bảo tàng lịch sử, phòng trưng bày nghệ thuật, v.v.),
Dịch vụ thư mục đa phương tiện (ví dụ: trang vàng, Thông tin du lịch, Hệ thống
thông tin địa lý)
Lựa chọn phương tiện phát sóng (kênh
radio, kênh TV,…)
Báo chí (ví dụ: tìm kiếm các bài phát biểu của một chính trị gia nhất định bằng tên, giọng nói hoặc khuôn mặt của người đó),
Thương mại điện tử (quảng cáo được cá nhân hóa, danh mục trực tuyến, danh mục cửa hàng điện tử,…)
Giám sát (kiểm soát giao thông, vận
chuyển bề mặt, kiểm tra không phá hủy
trong môi trường thù địch, v.v.),
Trang 17 Dịch vụ điều tra (nhận dạng đặc điểm con người, pháp y),
Home Entertainment (hệ thống quản lý bộsưu tập đa phương tiện cá nhân, bao gồm thao tác xử lý nội dung, ví dụ: chỉnh sửa
video tại nhà, tìm kiếm trò chơi, karaoke,…)
hoặc đơn giản là xuất hiện Hoặc, chơi một vài nốt trên bàn phím và truy xuất danh
sách các bản nhạc tương tự như giai điệu được yêu cầu hoặc hình ảnh khớp với các nốt theo một cách nhất định, ví dụ: về mặt cảm xúc
• Đồ họa: Phác thảo một vài dòng trên màn hình và nhận một tập hợp các hình ảnh có
Trang 18chứa đồ họa, biểu trưng và biểu tượng
tương tự
• Hình ảnh: Xác định các đối tượng, bao
gồm các mảng màu hoặc kết cấu và lấy các
ví dụ từ đó bạn chọn các mục để tạo hình ảnh của mình Hoặc kiểm tra xem logo công
ty của bạn có được quảng cáo trên kênh
truyền hình như đã ký hợp đồng hay không
• Trực quan: Cho phép điện thoại di động truy cập vào các video clip về các bàn
thắng được ghi trong một trận bóng đá hoặc
tự động tìm kiếm và truy xuất bất kỳ
chuyển động bất thường nào từ các video giám sát
• Đa phương tiện: Trên một tập hợp các đối tượng đa phương tiện nhất định, mô tả các chuyển động và quan hệ giữa các đối tượng