Trình bày các vấn đề chung. Sơ lược về ngôn ngữ định nghĩa mô tả. Sơ lược về chương trình mô tả. Các bộ mô tả Visual. Ứng dụng MPEG 7 và MPEG 21 trong lĩnh vực truyền hình. Kết quả nghiên cứu ứng dụng MPEG 7 trong việc đánh chỉ mục và tìm kiếm nội dung đa phương tiện.
Trang 1NGHIÊN CỨU CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN TIÊU
CHUẨN MPEG-7 VÀ MPEG-21
LUẬN VĂN THẠC SĨ KỸ THUẬT
KỸ THUẬT TRUYỀN THÔNG
Hà Nội – Năm 2013
Trang 2BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
LUẬN VĂN THẠC SĨ KỸ THUẬT
KỸ THUẬT TRUYỀN THÔNG
NGƯỜI HƯỚNG DẪN KHOA HỌC :
PGS.TS NGUYỄN CHẤN HÙNG
Hà Nội – Năm 2013
Trang 3MỤC LỤC
DANH MỤC CÁC CHỮ VIẾT TẮT, THUẬT NGỮ 4
DANH MỤC CÁC BẢNG 7
DANH MỤC HÌNH VẼ 8
LỜI NÓI ĐẦUU 11
CHƯƠNG 1: GIỚI THIỆUU 13
1.1 MỞ ĐẦU 13U 1.2 MỤC TIÊU ĐỐI TƯỢNG 13
1.3 ĐỊNH HƯỚNG CỦA CHUẨN MPEG-7 14
1.4 CÁC LOẠI CÔNG CỤ MPEG-7 15
1.5 ỨNG DỤNG 17
1.6 KẾT LUẬN CHƯƠNG 18
CHƯƠNG 2: SƠ LƯỢC VỀ NGÔN NGỮ ĐỊNH NGHĨA MÔ TẢ 19
2.1 MỞ ĐẦU 19U 2.2 NGÔN NGỮ ĐỊNH NGHĨA MÔ TẢ DDL 19
2.2.1 KHÔNG GIAN TÊN VÀ BỘ ĐÓNG GÓI LƯỢC ĐỒ 20
2.2.2 CÁC KHAI BÁO PHẦN TỬ 22
2.2.3 KHAI BÁO THUỘC TÍNH 23
2.2.4 ĐỊNH NGHĨA LOẠI 23
2.2.5 ĐỊNH NGHĨA NHÓM 26
2.3 CÁC MỞ RỘNG CHO MPEG-7 DDL 29
2.3.1 CÁC LOẠI DỮ LIỆU ARRAY VÀ MATRIX 30
2.3.2 CÁC LOẠI DỮ LIỆU BUILT-IN DERIVED 31
2.4 KẾT LUẬN CHƯƠNG 32
CHƯƠNG 3: SƠ LƯỢC VỀ CHƯƠNG TRÌNH MÔ TẢ 33
3.1 MỞ ĐẦU 33U
1
Trang 43.2 TỔ CHỨC CÁC CÔNG CỤ MDS 33
3.2.1 CÁC PHẦN TỬ CƠ BẢN 34
3.2.2 QUẢN LÝ NỘI DUNG 36
3.2.3 MÔ TẢ NỘI DUNG 37
3.2.4 ĐIỀU KHIỂN VÀ TRUY CẬP 43
3.2.5 TỔ CHỨC NỘI DUNG 46
3.2.6 TƯƠNG TÁC NGƯỜI DÙNG 47
3.3 KẾT LUẬN CHƯƠNG 48
CHƯƠNG 4: CÁC BỘ MÔ TẢ VISUAL 50
4.1 MỞ ĐẦU 50U 4.2 CÁC BỘ MÔ TẢ VISUAL 50
4.3 ĐÁNH GIÁ ĐỊNH LƯỢNG CÁC BỘ MÔ TẢ VISUAL 52
4.4 CÁC BỘ MÔ TẢ MÀU SẮC 54
4.4.1 GIỚI THIỆU 54U 4.4.2 BỘ MÔ TẢ KHÔNG GIAN MÀU SẮC 56
4.4.3 BỘ MÔ TẢ MÀU CHỦ ĐẠO (DOMINANT COLOR DESCRIPTOR) 60
4.4.4 BỘ MÔ TẢ MÀU SCALABLE 65
4.4.5 BỘ MÔ TẢ NHÓM KHUNG HAY NHÓM HÌNH ẢNH 70
4.4.6 BỘ MÔ TẢ CẤU TRÚC MÀU (COLOR STRUCTURE DESCRIPTOR) 72
4.4.7 BỘ MÔ TẢ BỐ CỤC MÀU (COLOR LAYOUT DESCRIPTOR) 77
4.5 KẾT LUẬN CHƯƠNG 80
CHƯƠNG 5: ỨNG DỤNG MPEG-7 VÀ MPEG-21 TRONG LĨNH VỰC TRUYỀN HÌNH 81
5.1 MỞ ĐẦU 81U 5.2 GIỚI THIỆU MPEG-21 82
5.3 MPEG-7 VÀ MPEG-21 TRONG TRONG CHUẨN ETSI TV-ANYTIME 84
5.3.1 SỰ HÀI HÒA GIỮA TVA VÀ MPEG-7 85
5.3.2 SỬ DỤNG MPEG-7 TRONG TVA 86
5.3.3 VÍ DỤ MỘT DỊCH VỤ CỦA TVA 87
5.4 MPEG-7 VÀ MPEG-21 TRONG CHUẨN ATIS IPTV 90
2
Trang 55.5 MPEG-21 TRONG DIGITAL LIVING NETWORK ALLIANCE (DLNA) 92
5.6 KẾT LUẬN CHƯƠNG 96
CHƯƠNG 6: KẾT QUẢ NGHIÊN CỨU ỨNG DỤNG MPEG-7 TRONG VIỆC ĐÁNH CHỈ MỤC VÀ TÌM KIẾM NỘI DUNG ĐA PHƯƠNG TIỆN 97
6.1 MỞ ĐẦU 97U 6.2 GIỚI THIỆU PHẦN MỀM IMG(RUMMAGER) 97
6.3 THỬ NGHIỆM PHẦN MỀM 98
6.4 KẾT QUẢ THU HỒI 100
6.4.1 BỘ MÔ TẢ MÀU SCD 100
6.4.2 BỘ MÔ TẢ MÀU CLD 102
6.4.3 NHẬN XÉT KẾT QUẢ THỰC NGHIỆM 103
6.5 KẾT LUẬN CHƯƠNG 103
KẾT LUẬN 104
DANH MỤC TÀI LIỆU THAM KHẢO 105
3
Trang 6DANH MỤC CÁC CHỮ VIẾT TẮT, THUẬT NGỮ
Binarization Nhị phân hóa
ETSI Viện Tiêu chuẩn Viễn thông châu Âu
4
Trang 7HMM Hidden Markov model
QBE query-by-example
5
Trang 8UML Unified Modeling Language
6
Trang 9DANH MỤC CÁC BẢNG
Bảng 4.4 So sánh ANMRR kết quả thu hồi phân đoạn video sử dụng bộ mô tả GoP
Bảng 4.5 Kết quả thu hồi sử dụng (a)không gian màu HMMD và (b)không gian màu HSV 76
7
Trang 10DANH MỤC HÌNH VẼ
Hình 1.1 Phạm vi của chuẩn MPEG-7 13
Hình 1.2 Các phần tử cơ bản của chuẩn MPEG-7 16
Hình 2.1 Các loại trong lược đồ XML 25
Hình 2.2 Minh họa một lược đồ XML 29
Hình 3.1 Tổng quan về MPEG-7 MDS 33
Hình 3.2 Ba loại thể hiện thời gian 34
Hình 3.3 Ví dụ công cụ Graph và Relation 35
Hình 3.4 Lược đồ phân loại các môn thể thao 35
Hình 3.5 Một số phân đoạn không gian và phân đoạn thời gian, a) và b) phân đoạn bao gồm một vùng kết nối, c) và d) phân đoạn bao gồm 3 vùng kết nối 38
Hình 3.6 Phân đoạn không gian-thời gian a) phân đoạn kết nối, b) phân đoạn không kết nối 38
Hình 3.7 Ví dụ về các phân tách 39
Hình 3.8 Ví dụ về một mô tả hình ảnh 40
Hình 3.9 Ví dụ về một đồ thị phân đoạn 41
Hình 3.10 Kết hợp giữa cây phân đoạn và chương trình mô tả ngữ nghĩa 42
Hình 3.11 Ví dụ mô hình tóm tắt phân cấp 43
Hình 3.12 Mô hình tóm tắt phân cấp mô tả một đoạn video của một trận bóng đá 44
Hình 3.13 Phân tách không gian và tần số 44
Hình 3.14 Minh hóa các biến thể của nội dung AV 45
Hình 3.15 Các công cụ mô tả bộ sưu tập 46
Hình 3.16 Bộ sưu tập cấu trúc 46
Hình 3.17 Tương tác người dùng 48
Hình 4.1 Không gian màu RGB 57
Hình 4.2 Không gian màu HSV 57
8
Trang 11Hình 4.3 Không gian màu HMMD 59
Hình 4.4 Quá trình trích xuất DCD 61
Hình 4.5 (a) Đơn vị cơ bản của biến đổi Haar và (b) sơ đồ chi tiết của sự tạo ra SCD 66
Hình 4.6 Minh họa khả năng thay đổi (scalability) bit-plane 68
Hình 4.7 Kết quả thu hồi với số hệ số Haar khác nhau 69
Hình 4.8 Mặt phẳng iso-color với cấu trúc khác nhau 73
Hình 4.9 Trích xuất bộ mô tả màu CSD 73
Hình 4.10 Tích lũy lược đồ cấu trúc màu 74
Hình 4.11 Phần tử cấu trúc cho hai ảnh có độ phân giải khác nhau 75
Hình 4.12 Trích xuất bộ mô tả CLD 77
Hình 4.13 Phân vùng hình ảnh 78
Hình 4.14 Lựa chọn màu 78
Hình 4.15 Quét zigzag 79
Hình 4.16 Hiệu quả thu hồi của CLD 80
Hình 5.1 Ví dụ về mục số (Digital Item) 82
Hình 5.2 Phạm vi của các chuẩn MPEG 83
Hình 5.3 Phạm vi ứng dụng của TV- Anytime 85
Hình 5.4 Sử dụng MPEG-7 cho TVA metadata 86
Hình 5.5 Quá trình tìm kiếm và sử dụng nội dung 87
Hình 5.6 Định nghĩa lược đồ MPEG-7 88
Hình 5.7 Ví dụ một lược đồ cho các chương trình 89
Hình 5.8 Ví dụ một instance document hợp lệ 90
Hình 5.9 Siêu dữ liệu người dùng ATIS/IIF kết hợp với TVA, MPEG-7 và MPEG-21 91
Hình 5.10 Dịch vụ chia sẻ nội dung cho các thiết bị home networked DLNA 93
Hình 6.1 Phần mềm Img(Rummager) 97
9
Trang 12Hình 6.2 Thuộc tính của một ảnh được trích xuất và lưu trữ trong file XML 98
Hình 6.3 Trích xuất thuộc tính sử dụng bộ mô tả màu DCD 99
Hình 6.4 Trích xuất thuộc tính sử dụng bộ mô tả màu SCD 99
Hình 6.5 Trích xuất thuộc tính sử dụng bộ mô tả màu CLD 100
Hình 6.6 Kết quả thu hồi sử dụng bộ mô tả SCD MPEG-7 cho ảnh q1 101
Hình 6.7 Kết quả thu hồi sử dụng bộ mô tả SCD MPEG-7 cho ảnh q2 101
Hình 6.8 Kết quả thu hồi sử dụng bộ mô tả SCD MPEG-7 cho ảnh q3 102
10
Trang 13LỜI NÓI ĐẦU
Ngày nay, việc sản xuất nội dung đa phương tiện đang trở nên hết sức dễ dàng Hàng triệu người có thể tạo ra nội dung đa phương tiện bằng camera và máy tính cá nhân để phân phối trên các kênh quảng bá khác nhau Chính vì thế mà số lượng nội dung đã tăng lên bùng nổ theo hàm số mũ Tuy nhiên, việc phổ biến rộng rãi nội dung
sẽ không mang lại lợi ích thực sự nếu không có phương tiện để quản lý chúng.Tương
tự như nội dung văn bản, nội dung đa phương tiện chỉ có giá trị khi được lưu trữ và quản lý bằng các hệ thống cơ sở dữ liệu
Cho tới nay, các hệ thống tìm kiếm điện tử đều dựa trên văn bản, cơ chế tìm kiếm này khó có thể áp dụng cho nội dung đa phương tiện vì một số hạn chế như sau: (1) mô tả dựa trên văn bản là một quá trình thủ công, tốn kém; (2) Mô tả dựa trên văn bản là chủ quan; (3) chỉ được sử dụng trong những ứng dụng cụ thể, không có khả năng tương tác, mở rộng cho các ứng dụng khác Vì thế, cần phải xây dựng một cơ chế tìm kiếm mới, sử dụng chỉ mục ( indexing), trích xuất (extraction) các thuộc tính nội dung đa phương tiện một cách tự động
Những vấn đề trên đã được nhóm chuyên gia nghiên cứu video (Movie Picture Experts Group) giải quyết trong dự án chuẩn hóa MPEG-7 Nhóm đã đưa ra một cơ chế mới được gọi là giao diện mô tả nội dung đa phương tiện (Multimedia Content Description Interface - MCDI) nhằm mục đích xây dựng các cơ chế mô tả nhiều loại nội dung đa phương tiện, giúp các hệ thống tìm kiếm nội dung một cách nhanh chóng, chính xác
MPEG-7 là một chủ đề nghiên cứu mới, có giá trị học thuật và ứng dụng cao trong nhiều lĩnh vực như thư viện số, lưu trữ nội dung cho phát thanh truyền hình v.v Nhận thức được các vấn đề trên, học viên đã chọn đề tài “Nghiên cứu cơ sở dữ liệu đa phương tiện tiêu chuẩn MPEG-7 và MPEG-21” Mục tiêu của đề tài là nghiên cứu cơ chế mô tả nội dung và hướng đến một số ứng dụng cụ thể trong ngành truyền hình
11
Trang 14Cấu trúc luận văn gồm có 6 chương:
Chương 1: Giới thiệu – Chương này cung cấp một cái nhìn tổng quát về chuẩn
MPEG-7, mục tiêu đối tượng, định hướng, các công cụ và các lĩnh vực ứng dụng của chuẩn
Chương 2: Sơ lược về ngôn ngữ định nghĩa mô tả (Description Definition Language) - Chương này giới thiệu ngôn ngữ lược đồ XML (XML schema) và một số
kiểu dữ liệu mở rộng để hình thành ngôn ngữ định nghĩa mô tả MPEG-7
Chương 3: Sơ lược về chương trình mô tả (Description Scheme) - trình bày
6 thành phần của chương trình mô tả
Chương 4: Các bộ mô tả Visual (Visual Descriptor) - giới thiệu một số bộ mô
tả visual
Chương 5: Ứng dụng MPEG-7 và MPEG-21 trong lĩnh vực truyền hình -
trình bày một số ứng dụng cụ thể của chuẩn MPEG-7 trong lĩnh vực truyền hình như ETSI TVA, DLNA, ATIS/IIF
Chương 6: Kết quả nghiên cứu ứng dụng MPEG-7 trong việc đánh chỉ mục
và tìm kiếm nội dung đa phương tiện - Giới thiệu kết quả áp dụng chuẩn MPEG-7
cho việc tìm kiếm nội dung đa phương tiện
Trong khoảng thời gian ngắn, tác giả đã thu thập, lựa chọn, tổng hợp từ số lượng lớn các tài liệu để xây dựng một hệ thống kiến thức về chuẩn MPEG-7, phục vụ cho các ứng dụng cụ thể trong ngành truyền hình
văn không tránh khỏi sai sót Tác giả rất mong nhận được ý kiến đóng góp của người đọc để luận văn được hoàn thiện hơn
Hùng đã nhiệt tình hướng dẫn, giúp đỡ tác giả trong quá trình thực hiện đề tài
12
Trang 15CHƯƠNG 1: GIỚI THIỆU 1.1 MỞ ĐẦU
là giới thiệu mục tiêu đối tượng của chuẩn Tiếp theo, ở phần định hướng của chuẩn MPEG-7, những lý thuyết cơ bản định hướng quá trình xây dựng chuẩn sẽ được trình bày Phần cuối của chương sẽ giới thiệu các công cụ cơ bản cũng như những lĩnh vực ứng dụng của chuẩn
1.2 MỤC TIÊU ĐỐI TƯỢNG
Chuẩn MPEG-7 được gọi là giao diện mô tả nội dung đa phương tiện (Multimedia Content Description Interface - MCDI) MPEG-7 có mục tiêu định rõ một chuẩn mô tả nhiều dạng thông tin đa phương tiện khác nhau nhằm giúp các hệ thống tìm kiếm nhận dạng nhanh chóng, chính xác thông tin mà người dùng quan tâm, đồng thời quản lý hiệu quả thông tin đó MPEG-7 không phải là chuẩn mã hóa nội dung âm thanh hình ảnh như các chuẩn MPEG trước đây, mà nó sử dụng ngôn ngữ XML để lưu trữ thông tin về nội dung “the bit about the bit”
Hình 1.1 Phạm vi của chuẩn MPEG-7
Từ hình 1.1 ta thấy phạm vi của chuẩn MPEG-7 là định nghĩa các công cụ bao gồm các bộ mô tả (descriptor), các chương trình mô tả (description scheme) và ngôn
13
Trang 16ngữ định nghĩa mô tả (description definition language) để mô tả nội dung đa phương tiện, còn các vấn đề trích xuất thuộc tính của nội dung AV và các vấn đề về tìm kiếm , thu hồi, lọc, browsing nằm ngoài phạm vi của chuẩn
Mặc dù nếu không có MPEG-7 thì cũng có rất nhiều cách mô tả nội dung đa phương tiện khác được sử dụng trong nhiều hệ thống quản lý tài nguyên số khác nhau Tuy nhiên, những hệ thống như vậy không cho phép khả năng tương tác giữa các hệ thống lưu trữ và tìm kiếm sử dụng các mô tả khác nhau Chuẩn MPEG-7 tạo ra khả năng tương tác, cho phép nội dung và cách mô tả nội dung có thể được trao đổi qua các
hệ thống khác nhau Nó cũng tạo ra môi trường để các công cụ từ các nhà cung cấp khác nhau có thể làm việc cùng với nhau, tạo ra một cơ sở hạ tầng để quản lý hiệu quả nội dung
1.3 ĐỊNH HƯỚNG CỦA CHUẨN MPEG-7
Trước khi bắt đầu dự án chuẩn hóa MPEG-7, các chuyên gia MPEG đã tiến hành một giai đoạn thăm dò nhằm xác định các định hướng để xây dựng chuẩn Các định hướng đó được khái quát như sau:
• Ứng dụng rộng rãi: MPEG-7 sẽ có khả năng ứng dụng cho bất kỳ một lĩnh vực ứng dụng nào, phát thời gian thực hoặc không; MPEG-7 sẽ không bị chuyển thành bất kỳ một loại ứng dụng cụ thể nào Hơn nữa, nội dung mà chuẩn mô tả
có thể được lưu trữ, và có thể được làm on-line, off-line và stream
• Có quan hệ với nội dung: MPEG-7 sẽ cho phép tạo ra những mô tả được sử dụng:
o Stand-alone, ví dụ như chỉ cung cấp một bản tóm tắt của nội dung;
dung;
o Liên kết với một hoặc nhiều phiên bản của nội dung, ví dụ như trong media dựa trên internet
14
Trang 17• Số lượng kiểu dữ liệu lớn: MPEG-7 sẽ xem xét một số lượng lớn các kiểu dữ liệu (hay phương thức) như giọng nói, âm thanh, ảnh, video, đồ họa, 3-D, âm thanh nhân tạo Do tầm quan trọng của MPEG-7 là ở thông tin nghe nhìn, không có công cụ mô tả mới nào được phát triển cho dữ liệu văn bản
• Độc lập media: MPEG-7 sẽ được ứng dụng một cách độc lập với môi trường mang nội dung Media có thể bao gồm giấy, film, băng, CD, ổ cứng, một quảng
bá số, luồng internet
• Dựa trên đối tượng: MPEG-7 sẽ cho phép mô tả nội dung dựa trên đối tượng
• Độc lập định dạng: MPEG-7 sẽ được ứng dụng độc lập với các định dạng thể hiện nội dung Nội dung có thể ở dạng số hoặc tương tự, nén hoặc không nén
• Mức trừu tượng (Abtraction level): MPEG-7 sẽ bao gồm khả năng mô tả với các mức độ trừu tượng khác nhau, từ mức thấp, thường là các thuộc tính thống kê, đến các thuộc tính truyền đạt ngữ nghĩa cao hơn Thường những thuộc tính mức thấp có thể được trích xuất tự động, các thuộc tính ngữ nghĩa cao hơn cần được trích xuất thủ công hoặc bán tự động
• Khả năng mở rộng: MPEG-7 sẽ cho phép mở rộng theo hướng đảm bảo càng nhiều tương tác càng tốt
1.4 CÁC LOẠI CÔNG CỤ MPEG-7
MPEG-7 bao gồm một tập hợp các công cụ: bộ mô tả (Descriptor - D), chương trình mô tả (Description Scheme - DS), ngôn ngữ định nghĩa mô tả (Description Definition Language - DDL) và một số các công cụ hệ thống Mối quan hệ giữa các công cụ được thể hiện như trong hình 1.2 Từ hình ta thấy, một bộ mô tả thể hiện một thuộc tính nhất định như màu sắc, hình dáng…một chương trình mô tả bao gồm một hoặc một số bộ mô tả hoặc các chương trình mô tả khác Ngôn ngữ định nghĩa để thể hiện các chương trình mô tả và bộ mô tả, cho phép tạo ra, mở rộng, chỉnh sửa các chương trình mô tả và bộ mô tả
15
Trang 18Hình 1.2 Các phần tử cơ bản của chuẩn MPEG-7
Các công cụ được định nghĩa cụ thể như sau:
• Bộ mô tả (D):
- Thể hiện một thuộc tính cụ thể
- Một bộ mô tả định nghĩa cú pháp và ngữ nghĩa của sự thể hiện thuộc tính
- Ví dụ: mã thời gian để mô tả khoảng thời gian, biểu đồ màu sắc để mô tả
màu sắc
• Chương trình mô tả:
- Một chương trình mô tả bao gồm một hoặc một số bộ mô tả hoặc các chương trình mô tả khác Như ví dụ hình 1.2 ta thấy chương trình mô tả DS2 bao gồm hai bộ mô tả D2, D3 và một chương trình mô tả DS4
- Một chương trình mô tả cung cấp một giải pháp để mô hình và mô tả nội dung đa phương tiện dưới dạng cấu trúc và ngữ nghĩa
- Một chương trình mô tả tương ứng với một thực thể hoặc mối quan hệ ở mức độ mô hình khái niệm MPEG-7 (audivisual conception model)
- Một chương trình mô tả sẽ có thông tin mô tả và có thể tham gia vào mối quan hệ many-to-one với các phần tử khác
16
Trang 19- Một ví dụ đơn giản là phim, một đoạn phim được cấu trúc thành các cảnh và các shot, các cảnh bao gồm một vài bộ mô tả tả text và các shot bao gồm một số bộ mô tả màu sắc, ảnh động, âm thanh
• Ngôn ngữ định nghĩa mô tả (DDL)
- DDL là một ngôn ngữ cho phép tạo ra các chương trình mô tả và các bộ mô
MPEG-7 liệt kê các lĩnh vực ứng dụng như sau:
Viễn thám
sử dụng MPEG-7, được tổ chức thành 3 phần như sau:
• Ứng dụng kéo (pull): Các ứng dụng như lưu trữ và thu hồi trong cơ sở dữ liệu
nghe nhìn, phân phối hình ảnh và video cho nhà sản xuất media chuyên nghiệp,
17
Trang 20• Ứng dụng đẩy (push): các ứng dụng như lựa chọn và lọc, dịch vụ truyền hình cá
nhân, truy cập thông tin và thể hiện nội dung đa phương tiện thông minh, đáp ứng các nhu cầu đặc biệt của người dùng
• Ứng dụng chuyên nghiệp chuyên dụng: liên quan đến môi trường chuyên
nghiệp cụ thể, đặc biệt là các ứng dụng teleshopping, y sinh, viễn thám, giáo dục
và giám sát
1.6 KẾT LUẬN CHƯƠNG
Sự thành công của chuẩn MPEG-1 và MPEG-2 đã làm bùng nổ các sản phẩm thương mại rộng rãi, như sản phẩm CD-interactive, âm thanh số quảng bá và truyền hình số Tuy nhiên, phạm vi ứng dụng của chúng còn hạn chế Chuẩn MPEG-4 đưa ra cách tiếp cận mô tả dựa trên đối tượng, mô hình hóa một cảnh thành một tập hợp các đối tượng bao gồm tự nhiên và nhân tạo, có khả năng tương tác với người dùng
tả nội dung, giải quyết vấn đề liên quan đến quản lý nội dung, bao gồm tìm kiếm, lựa chọn, và lọc
đã có khác như Dublin Core, RDF v.v là:
• Sự khái quát, mô tả nội dung trong nhiều lĩnh vực ứng dụng khác nhau;
• Sự kết hợp của các bộ mô tả mức thấp và mức cao thành cấu trúc đơn nhất;
• Mô hình dữ liệu dựa trên đối tượng cung cấp khả năng mô tả các đối tượng riêng biệt bên trong một cảnh một cách độc lập; và
• Khả năng mở rộng, được cung cấp bởi DDL, cho phép người sử dụng mở rộng MPEG-7 để phù hợp với nhu cầu riêng của họ nhưng đồng thời vẫn đáp ứng được các yêu cầu của chuẩn để đảm bảo khả năng tương tác
Chương này đã trình bày các vấn đề tổng quan nhất về chuẩn MPEG-7 Các chương tiếp theo sẽ đi sâu nghiên cứu các thành phần cốt lõi của MPEG-7
18
Trang 21CHƯƠNG 2: SƠ LƯỢC VỀ NGÔN NGỮ ĐỊNH NGHĨA MÔ TẢ
2.1 MỞ ĐẦU
Như đã giới thiệu trong phần trước, MPEG-7 bao gồm một tập hợp các công cụ:
bộ mô tả, chương trình mô tả, ngôn ngữ định nghĩa mô tả và một số công cụ hệ thống Chương này giới thiệu về ngôn ngữ định nghĩa mô tả (Description Definition Language
- DDL)
2.2 NGÔN NGỮ ĐỊNH NGHĨA MÔ TẢ DDL
người dùng có thể tạo ra chương trình mô tả và bộ mô tả Đồng thời DDL cung cấp các luật cú pháp để định nghĩa, kết hợp, mở rộng và chỉnh sữa chương trình mô tả và bộ
mô tả Và để có thể thực hiện được điều đó, DDL cần phải đáp ứng được một số yêu cầu như sau:
DDL phải có khả năng cấu trúc, kế thừa giữa các phần tử bên trong một chương trình mô tả và giữa các chương trình mô tả Nó phải cung cấp nhiều mô hình để kết nối
và tham chiếu giữa một hay nhiều mô tả và dữ liệu nó mô tả Nó phải là platform và độc lập ứng dụng, machine-readable và tốt nhất là human-readable Nó phải có khả năng xác định các loại dữ liệu của bộ mô tả như các loại cơ bản (số nguyên, text, ngày, giờ) và các loại kết hợp ( sơ đồ, các loại đếm)
Xuất phát từ các yêu cầu đó, các chuyên gia MPEG-7 đã quyết định lựa chọn ngôn ngữ lược đồ XML đồng thời mở rộng một số thuộc tính nhất định để đáp ứng yêu cầu của ngôn ngữ định nghĩa mô tả MPEG-7
Lược đồ XML bao gồm 3 thành phần lược đồ như sau:
Các thành phần sơ cấp:
1 Không gian tên (namespace) và bộ đóng gói lược đồ (schema wrapper);
2 Khai báo phần tử (element declarations);
19
Trang 223 Khai báo thuộc tính (attribute declarations);
4 Định nghĩa loại: đơn giản (simple), phức tạp (complex), dẫn xuất (derived) và nặc danh (anonymous)
Các thành phần thứ cấp:
1 Các định nghĩa nhóm thuộc tính (attribute group definitions);
2 Các định nghĩa nhóm mô hình (model group definitions);
3 Định nghĩa nhận dạng –ép buộc (identity-constraint definitions);
4 Các khai báo chú thích (notation declarations)
Các phần sau đây sẽ trình bày một số thành phần quan trọng nhất cho MPEG-7 DDL
2.2.1 KHÔNG GIAN TÊN VÀ BỘ ĐÓNG GÓI LƯỢC ĐỒ
Như chúng ta biết, ngôn ngữ XML cho phép người dùng khai báo các phần tử
và thuộc tính riêng của mình Điều này giúp cho người dùng tạo ra cách mô tả dữ liệu một cách chủ động Tuy nhiên, trong một hệ thống mà dữ liệu được thu thập từ nhiều nguồn khác nhau sẽ dẫn đến tình trạng xung đột tên Nghĩa là cùng một tên phân tử, nhưng mô tả hai đối tượng khác nhau Ví dụ, ta xem hai khai báo phần tử sau:
<table length=”2.5m” width=”1.2m” height=”0.9m”>
<name> Italian coffee style </name>
<material> training oval wood </material>
</table>
Và:
20
Trang 23<table width=”100%” height=”80%”>
Để giải quyết vấn đề đó, ta sử dụng namespace Namespace là tập hợp các tên
dùng để cho phép kết hợp các phần tử và thuộc tính bên trong một tài liệu XML nhằm giải quyết nguy cơ xung đột về tên của các phần tử khi thông tin được tổng hợp từ nhiều nguồn khác nhau, thông qua Namespace, trình duyệt có thể kết hợp các file XML
từ nhiều nguồn khác nhau, có thể truy xuất đến lược đồ XML để kiểm tra cấu trúc của XML nhận được có thực sự thích hợp, từ đó xác định được tính hợp lệ của XML tương ứng
sau:
<p:table length=”2.5m” width=”1.2m” height=”0.9m”>
<p:name> Italian coffee style </p:name>
<p:material> training oval wood </p:material>
Trang 24Các phần tử và thuộc tính ở table thứ nhất được nhóm lại thành nhóm, tên nhóm
là p, và các phần tử và thuộc tính ở table thứ hai được nhóm vào nhóm s
Đối với MPEG-7, không gian tên cho phép các bộ mô tả và chương trình mô tả
từ các biểu đồ MPEG-7 đa dạng khác nhau có thể được sử dụng lại và được kết hợp để tạo ra các biểu đồ mới
2.2.2 CÁC KHAI BÁO PHẦN TỬ
Ở khai báo này, chúng ta dùng từ khóa element để khai báo phần từ, và dùng thuộc tính name để khai báo tên phần tử, thuộc tính type để khai báo kiểu dữ liệu cho
phần từ Ví dụ:
minOccurs và maxOccurs) và thông tin mặc định (thông qua thuộc tính default) Ví
dụ, khai báo phần tử dưới đây khai báo phần tử tên là Country loại countrycode, xác
đinh mặc định cho phần tử Country là “en” (English) và phần tử Country có thể xảy ra
• Không giới hạn, nếu thuộc tính maxOccurs bằng vô hạn;
• Nếu không thì là giá trị thực tế của thuộc tính maxOccurs, nếu có
• Nếu không thì bằng 1
22
Trang 25Thay vì khai báo một phần tử ta cũng có thể tham chiếu một phần tử đã có như ví
dụ sau:
<element ref="Country" minOccurs="l"/>
Khai báo này tham khảo một phần tử đã có (counntry) mà đã được khai báo ở đâu
đó trong biểu đồ Giá trị của thuộc tính ref phải tham chiếu một phần tử global, tức là một phần tử đã được khai báo ở lược đồ chứ không phải là phần tử trong định nghĩa loại phức tạp (complex)
2.2.3 KHAI BÁO THUỘC TÍNH
Một thuộc tính có thể được khai báo dưới dạng một loại đơn giản, sử dụng từ khóa attribute, và sử dụng thuộc tính type để khai báo loại dữ liệu cho phần tử Thuộc tính use để xác định sự có mặt của thuộc tính được khai báo, use có thể có các giá trị required, optional hay prohibited Thuộc tính được khai báo có thể có giá trị cứng (fixed) hoặc mặc định (default) Ví dụ:
Sự định nghĩa loại xác định các thành phần biểu đồ bên trong, và có thể được
sử dụng trong các thành phần biểu đồ khác như khai báo thuộc tính và phần tử hay các
23
Trang 26định nghĩa loại khác Ví dụ, dưới đây loại Postcode lần đầu tiên được định nghĩa (loại
đơn giản) – là chuỗi có độ dài 7:
<element name="MyPostcode" type="Postcode"/>
Biểu đồ XML cung cấp định nghĩa loại simple (đơn giản), và loại complex (phức tạp)
như trong hình 2.1
Định nghĩa loại đơn giản: Không chứa phần tử và không mang thuộc tính Nó có thể
được dùng để khai báo phần tử và khai báo thuộc tính Loại đơn giản bao gồm tập hợp
các loại built-in và loại user-derived Loại dữ liệu Primitive build-in được cung cấp
sẵn, và bao gồm: 1) string; 2) boolean;3) float;4) double;5) decimal;6) timeDuration;7) recurringDuration;8) binary;9) uriReference;10) ID;11) IDREF;12) ENTITY;13)
QName Các loại dữ liệu Buil-in derived bao gồm : 1) CDATA; 2) token;3) language; 4) IDREFS; 5) ENTITIES; 6) NMTOKEN, NMTOKENS; 7) Name, NCName; 8) NOTATION; 9) integer, nonPositiveInteger, negativeInteger, nonNegativeInteger, positiveInteger; 10) long, unsignedLong; 11) int, unsignedInt; 12) short,unsignedShort; 13) byte, unsignedByte; 14) timeInstant, time, timePeriod; 15) date, month, year, century;16) recurringDate, recurringDay
24
Trang 27Hình 2.1 Các loại trong lược đồ XML
như facet enumeration cho string, facet minInclusive, maxInclusive cho interger Ngoài ra, lược đồ XML còn cung cấp các loại non-atomic như list và union
Định nghĩa loại phức tạp: Có chứa các phần tử con và có thể mang thuộc tính Loại
phức tạp bao gồm các loại Empty, Simple Content và Complex Content Empty chỉ
chứa thuốc tính, không chứa bất kỳ một phần tử con nào Ví dụ:
<Price currency=“EU” value=“423.46”= >:
Simple content được sử dụng để định nghĩa loại phức tạp từ một loại đơn giản.Ví dụ:
<complexType name=“RelationType”>
<simpleContent>
25
Trang 28Phần tử attributeGroup và group cung cấp cơ chế tạo ra và đặt tên các nhóm
thuộc tính và nhóm phần tử Các nhóm như vậy sau đó có thể được kết hợp bằng cách tham chiếu vào trong các định nghĩa complexType
<attributeGroup name="person_attributes">
<attribute name="weight" type="decimal"/>
<attribute name="height" type="decimal"/>
<attribute name="age" type="integer"/>
Trang 29Ba bộ kết hợp (sequence, choise, và all) cũng được cung cấp để xây dựng các
nhóm phần tử không tên bên trong nội dung phức tạp
Trong ví dụ dưới đây, contactGroup được định nghĩa là sự lựa chọn giữa hai phần tử Organization và person PublisherType sau đó được định nghĩa là một chuỗi của ContactGroup và Address với một thuộc tính id
27
Trang 30<xsd:element name="child3" type="child"/>
Trang 31<xsd:element name="description" type="xsd:string"/>
Để đáp ứng các yêu cầu DDL MPEG-7, Ngoài các thuộc tính và các định nghĩa
loại XML, cần thiết phải bổ sung thêm các thuộc tính sau đây:
• Các loại dữ liệu array và matrix;
• Các loại dữ liệu built-in derived
29
Trang 322.3.1 CÁC LOẠI DỮ LIỆU ARRAY VÀ MATRIX
chiều sử dụng kiểu dữ liệu list Một facet mới mpeg-7:dimension là một danh sách các
số nguyên dương được cung cấp để xác định kích thước của một ma trận có kích thước
cố định Bởi vì facet dimension là một sự mở rộng MPEG-7 không tuân theo ngôn ngữ XML schema nên cần phải bọc <annotation><appinfo> để đảm bảo bộ phân tích cú
pháp XML schema bỏ qua nó và bộ phân tích MPEG-7 sẽ phê duyệt nó (và có thể là xử lý)
Thuộc tính mpeg7:dim cũng được cung cấp, nó chỉ rõ kích thước được ấn định
cho loại liệt kê và được định nghĩa trong mpeg-7 namespace như là một danh sách các
số nguyên dương
30
Trang 33<element name="IntegerMatrix" type="NDimIntegerArray" />
Trong ví dụ sau, một ma trận 2 hàng, 4 cột được xác định sử dụng mpeg7:dim
<IntegerMatrix mpeg7:dim="2 4">
123 4
567 8
</IntegerMatrix>
2.3.2 CÁC LOẠI DỮ LIỆU BUILT-IN DERIVED
Ngoài các loại dữ liệu built-in derived được cung cấp bởi lược đồ XML, các loại
dữ liệu built-in sau đây được cung cấp bởi MPEG-7 để đáp ứng đầy đủ các yêu cầu của
bộ thực thi MPEG-7:
Loại dữ liệu basicTimePoint, chỉ rõ một điểm thời gian liên quan tới các ngày
Gregorian, ngày và TZ Định dạng dựa vào chuẩn ISO 8601 Để giảm các vấn đề chuyển đổi, chỉ sử dụng một tập con của định dang ISO 8601
Loại dữ liệu basicDuration chỉ rõ khoảng thời gian của một giai đoạn liên quan
đến các ngày và giờ của ngày Định dạng dựa vào chuẩn ISO 8601 Để giảm các vấn đề
31
Trang 34chuyển đổi, chỉ một tập con của định dang ISO 8601 được sử dụng Phần nhỏ của một
giây được chỉ rõ liên quan đến loại dữ liệu basicTimePoint
2.4 KẾT LUẬN CHƯƠNG
Chương này đã cung cấp một cái nhìn tổng quát về MPEG-7 DDL Do XML schema là ngôn ngữ mô tả dữ liệu có cấu trúc với nhiều kiểu dữ liệu đa dạng và nhiều công cụ hữu ích như ngôn ngữ tạo lược đồ (XML schema), bộ phân tích cú pháp.v.v, nên nó dễ dàng đáp ứng đầy đủ các yêu cầu của MPEG-7 DDL
32
Trang 35CHƯƠNG 3: SƠ LƯỢC VỀ CHƯƠNG TRÌNH MÔ TẢ 3.1 MỞ ĐẦU
Chương này giới thiệu một thành phần cấu thành khác của MPEG-7, là chương trình mô tả đa phương tiện (Multimedia Description Scheme - MDS) MDS là công cụ xác định cấu trúc và ngữ nghĩa phức tạp hơn, bao gồm các bộ mô tả và các chương trình mô tả khác MDS được tổ chức thành sáu phần: Các phần tử cơ bản (basic elements), mô tả nội dung (Content description), quản lý nội dung (content management), tổ chức nội dung (content organization), điều khiển và truy cập (Navigation and access) và tương tác người dùng (user interaction)
Trang 36Các công cụ biểu đồ định nghĩa các phần tử root và phần tử top-level cho các
mô tả MPEG-7 Các phần tử root là các phần tử khởi đầu của một mô tả MPEG-7 hoàn chỉnh hoặc của một phần mô tả MPEG-7 Các mô tả MPEG-7 có thể liên kết với các metadata như version, creator hoặc rights Các phần tử top-level là các phần tử nằm ngay sau các phần tử root
Các kiểu dữ liệu cơ bản cung cấp một tập hợp các kiểu dữ liệu mở rộng và các
cấu trúc toán học khác, được sử dụng để mô tả nội dung đa phương tiện Các kiểu dữ liệu cơ bản bao gồm: integer và real, vector và ma trận, vector và ma trận xác suất, string
Liên kết và nội địa hoá media (Link&Media localization) là các công cụ để
liên kết các mô tả MPEG-7, nội địa hóa các mẫu nội dung và mô tả thời gian
Hình 3.2 Ba loại thể hiện thời gian
34
Trang 37Ví dụ: có 3 loại thể hiện thời gian như hình 3.2 Hình 3.2 A là simple time, thể hiện một điểm thời gian và khoảng thời gian Hình 3.2 B là Relative time, thể hiện một
điểm thời gian so với một điểm thời gian được chọn làm mốc, và khoảng thời gian
Hình 3.2 C là Incremental time xác định một khoảng thời gian nhất định gọi là Time
unit, và đếm số lượng các khoảng thời gian đó
Các công cụ cơ bản là một thư viện các chương trình mô tả và kiểu dữ liệu,
được sử dụng để tạo ra các chương trình mô tả phức tạp hơn, hoặc để tạo ra các công
cụ mô tả có chức năng cụ thể Nó bao gồm:
- các công cụ thể hiện mối quan hệ và đồ họa (Graph and relation tools): đan xen với nhau trong một cấu trúc mô tả đa phương tiện phức tạp ví dụ:
Hình 3.3 Ví dụ công cụ Graph và Relation
- Chú thích văn bản: Gồm có chú thích văn bản tự do và chú thích từ khóa
- Lược đồ phân loại và thuật ngữ (classification schemes and terms): Định nghĩa
và tham chiếu từ vựng cho các bộ mô tả đa phương tiện Ví dụ, hình dưới đây
thể hiện một phần lược đồ phân loại các môn thể thao:
Hình 3.4 Lược đồ phân loại các môn thể thao
35
Trang 38- Người và định vị (peoples and locations): Xác định người và địa điểm có liên
quan đến nội dung đa phương tiện
- Ngoài ra còn có các công cụ mô tả tình cảm (affective) và các công cụ sắp xếp
(ordering tools)
3.2.2 QUẢN LÝ NỘI DUNG
tả: (1) tạo ra và sản xuất (creation and production), (2) mã hóa media, lưu trữ và định dạng tập tin (media coding, storage, format) và (3) sử dụng nội dung Các chức năng của mỗi lớp chương trình mô tả này được chỉ ra như sau:
• Thông tin tạo ra và sản xuất nội dung đa phương tiện Các thông tin tạo ra cung cấp một Title (có thể là văn bản hay các mẫu nội dung đa phương tiện), và các thông tin như người tạo ra, địa điểm tạo ra và ngày tháng tạo ra nội dung Nó cũng mô tả sự phân loại nội dung theo thể loại, chủ đề, mục đích, ngôn ngữ vv Ngoài ra, nó cung cấp thông tin xem lại và hướng dẫn như phân loại tuổi, đánh giá chủ quan và hướng dẫn của cha mẹ
• Thông tin Sử dụng mô tả các thông tin liên quan đến các quyền sử dụng, hồ sơ
sử dụng và thông tin tài chính Các mô tả MPEG-7 không thể hiện rõ ràng các thông tin về quyền sử dụng mà chỉ cung cấp các liên kết đến chủ sở hữu và các thông tin khác liên quan đến quyền quản lý và bảo vệ Chương trình mô tả usage Record cung cấp thông tin liên quan đến việc sử dụng nội dung như phát thanh truyền hình, phân phối theo nhu cầu Cuối cùng, chương trình mô tả tài chính cung cấp thông tin liên quan đến chi phí sản xuất và thu nhập từ việc sử dụng nội dung Thông tin sử dụng thường là động, nó có thể thay đổi trong suốt thời gian sống của nội dung đa phương tiện
36
Trang 39• Mô tả media mô tả các thông tin về lưu trữ đặc biệt là nén, mã hóa và định dạng lưu trữ nội dung đa phương tiện Nó xác định các media chủ là nguồn gốc của các phiên bản nội dung đa phương tiện khác
3.2.3 MÔ TẢ NỘI DUNG
tử này mô tả cấu trúc (các khu vực, khung hình video và các đoạn âm thanh) và ngữ nghĩa (đối tượng, sự kiện và khái niệm trừu tượng) Các chức năng của mỗi lớp chương trình mô tả này được đưa ra như sau:
3.2.3.1 Chương trình mô tả các khía cạnh cấu trúc (Structural DS)
này được xây dựng dựa trên khái niệm chương trình mô tả phân đoạn (Segment), thể hiện kết quả của việc phân chia nội dung đa phương tiện theo không gian, thời gian hoặc theo cả không gian và thời gian Chương trình mô tả phân đoạn có thể là phân đoạn video, phân đoạn audio, phân đoạn audio-video, các vùng chuyển động, các vùng tĩnh
Chương trình mô tả phân đoạn không nhất thiết phải mô tả các phân đoạn kết nối, mà nó có thể mô tả các phân đoạn bao gồm nhiều thành phần không kết nối Sự kết nối ở đây là kết nối về cả không gian và thời gian Một phân đoạn thời gian bao gồm một chuỗi liên tục các khung hình và mẫu âm thanh thì được gọi là phân đoạn kết nối
về mặt thời gian Một phân đoạn không gian bao gồm nhiều điểm ảnh kết nối với nhau thì được gọi là phân đoạn kết nối về mặt không gian
Ví dụ, hình 3.5 thể hiện một số phân đoạn thời gian và không gian, hình 3.6 thể hiện phân đoạn theo cả không gian và thời gian
37
Trang 40Hình 3.5 Một số phân đoạn không gian và phân đoạn thời gian, a) và b) phân đoạn
bao gồm một vùng kết nối, c) và d) phân đoạn bao gồm 3 vùng kết nối
Hình 3.6 Phân đoạn không gian-thời gian a) phân đoạn kết nối, b) phân đoạn
không kết nối
38