MỘT số vấn đề về CHỈ mục, TRUY vấn VIDEO THEO nội DUNG TRONG cơ sở dữ LIỆU đa PHƯƠNG TIỆN

Nhưng ngày nay, thông tin truyền tải ý nghĩa của nó có nhiều định dạng khác nhau như âm thanh số, hình ảnh có hiệu ứng, hay các đoạn phim sống động… Sự phong phú trong cách thể hiện các

Trang 3

Trước tiên tôi xin chân thành cảm ơn các thầy cô giáo trong trường Đại học Công nghệ - ĐHQGHN, Viện Công nghệ thông tin - Viện khoa học Việt Nam đã truyền đạt những kiến thức về công nghệ thông tin trong suốt khoá học cao học

Đặc biệt tôi xin chân thành cảm ơn PGS.TS Đặng Văn Đức đã tận tình giảng dạy và hướng dẫn tôi trong thời gian thực hiện luận văn

Cuối cùng để hoàn thành tốt luận văn, tôi xin chân thành cảm ơn gia đình, cơ quan đã động viên và tạo điều kiện thuận lợi cùng toàn thể bạn bè

đã có những ý kiến đóng góp quý báu cho bài luận này

Hà nội , ngày 4 tháng 12 năm 2006

Phạm Ngọc Trâm

Trang 4

CÁC THUẬT NGỮ VÀ CÁC TỪ VIẾT TẮT

System

Systems

Trang 5

Danh mục các hình vẽ, đồ thị 2

Mở đầu 3

Chương 1: Tổng quan về cơ sở dữ liệu đa phương tiện 6

1 Nhu cầu cần có cơ sở dữ liệu đa phương tiện 6

2 Các nhiệm vụ thiết kế và kiến trúc cơ sở dữ liệu đa phương tiện 9

2.1 Khái quát về MIRS 12

2.2 Kiến trúc của cơ sở dữ liệu đa phương tiện 14

2.2.1 Kiến trúc tự trị (atonomy) 16

2.2.2 Kiến trúc đồng nhất (uniformity) 16

2.2.3 Kiến trúc lai (hybrid) 18

3 Mô hình dữ liệu đa phương tiện 18

3.1 Yêu cầu mô hình dữ liệu 18

3.2 Mô hình dữ liệu đa phương tiện tổng quát 19

Chương 2: Một số vấn đề về chỉ mục, truy vấn video theo nội dung trong CSDL đa phương tiện 23

1 Video số 23

1.1 Biểu diễn video số 23

1.2 Nén video 24

1.2.1 Lấy mẫu màu là nén 24

1.2.2 Ước lượng và bù chuyển động 25

1.2.3 MPEG (Moving Picture Experts Group) 25

2 Lập chỉ mục video 35

2.1 Phân loại 35

2.2 Khái quát về chỉ mục và truy tìm video trên cơ sở shot 37

2.3 Tách video shot hay phân đoạn 38

2.3.1 Kỹ thuật phân đoạn video cơ sở 38

Trang 6

lượng độ sáng và chuyển động tuyệt đối 43

2.3.5 Các kỹ thuật tách shot khác 51

2.3.6 Phân đoạn video nén 51

2.3.7 Nhận xét 62

2.4 Chỉ mục và truy tìm video 63

2.4.1 Chỉ mục và truy tìm trên cơ sở các frame r của shot video 64

2.4.2 Chỉ mục và truy tìm video trên cơ sở thông tin chuyển động 70

2.4.3 Chỉ mục và truy vấn video trên cơ sở đối tượng 72

2.4.4 Chỉ mục và truy tìm video trên cơ sở metadata 73

2.4.5 Chỉ mục và truy tìm video trên cơ sở mô tả (annotation) 74

2.4.6 Tiệm cận tích hợp chỉ mục và tìm kiếm video 74

3 Đại diện và trừu tượng video 75

3.1 Phân lớp theo chủ đề 76

3.2 Biểu tượng chuyển động hay biểu tượng video 77

3.3 Biểu ngữ (streamer) video 79

3.4 Clipmap 79

3.5 Bộ duyệt video phân cấp 79

3.6 Storyboard 80

3.7 Mosaicking 81

Chương 3: Cài đặt thử nghiệm 82

1 Giới thiệu về Oracle InterMedia 82

1.1 Các kiểu đối tượng đa phương tiện 82

1.2 Lưu trữ dữ liệu đa phương tiện 84

1.3 Nạp dữ liệu đa phương tiện 86

1.4 Truy cập dữ liệu đa phương tiện 87

1.5 Kiến trúc Oracle InterMedia 88

Trang 7

2.2 Yêu cầu 92

2.3 Lựa chọn công cụ và môi trường phát triển 92

2.4 Cài đặt Oracle InterMedia 92

2.5 Các thao tác với chương trình 93

3 Nhận xét phần thử nghiệm 96

Kết luận 97

Tài liệu tham khảo 99

Trang 8

MỞ ĐẦU

Những thay đổi của môi trường xã hội cùng với sự xuất hiện của nhiều công nghệ mới dẫn đến việc ngày càng có nhiều phương thức trao đổi và thể hiện thông tin Trước đây, con người thường thể hiện thông tin qua các văn bản bằng việc sử dụng các ký tự, số hoặc có thêm một số hình ảnh có ý nghĩa Nhưng ngày nay, thông tin truyền tải ý nghĩa của nó có nhiều định dạng khác nhau như âm thanh số, hình ảnh có hiệu ứng, hay các đoạn phim sống động…

Sự phong phú trong cách thể hiện các dạng truyền thông cho thấy các dạng dữ liệu đa phương tiện là sự kết hợp của nhiều dạng dữ liệu khác nhau ngày càng

có vai trò quan trọng Từ đó nhu cầu về quản lý, khai thác và xử lý các dữ liệu

đa phương tiện cũng được đặt ra Và người ta cũng nhận thấy rằng cơ sở dữ liệu truyền thống không thể quản lý một cách hiệu quả các kiểu dữ liệu này được Do đó cần phải có một hệ thống quản lý tất cả các loại dữ liệu media và CSDL đa phương tiện được hình thành đó là hệ thống quản trị CSDL đa phương tiện (MMDBMS- Multimedia Database Management System)

MMDBMS cần có khả năng hỗ trợ các kiểu dữ liệu đa phương tiện, hơn nữa phải có khả năng thực hiện các chức năng thông thường của DBMS truyền thống như tạo lập CSDL, mô hình hóa dữ liệu, truy tìm, xâm nhập và

tổ chức dữ liệu và độc lập dữ liệu Mặt khác, trong các CSDL truyền thống, mối quan tâm hiệu suất chính là tính hiệu quả (có thể trả lời kết quả trong bao lâu) Trong MMDBMS, hiệu quả truy tìm( khả năng tìm ra các mục liên quan

và khả năng loại bỏ các mục không liên quan ) cũng rất quan trọng

Trong thời gian qua lĩnh vực MMDBMS phát triển vô cùng nhanh chóng

Vào giữa những năm 90 của thế kỷ XX, xuất hiện các hệ thống MMDBMS thương mại, được xây dựng từ đầu (bàn tay trắng) Thí dụ:

Trang 9

MediaDB (nay gọi là MediaWay), JASMIN và ITASCA Chúng có khả năng

quản lý các loại dữ liệu khác nhau và có cơ chế truy tìm, chèn, cập nhật dữ liệu Một số trong chúng bị biến mất trên thị trường sau vài năm thương mại Một số trong chúng được nâng cấp theo tiến bộ của công nghệ phần cứng và

phần mềm và thay đổi ứng dụng Thí dụ MediaWay có khả năng hỗ trợ rất

nhiều kiểu dữ liệu khác nhau từ ảnh, video đến các tài liệu PowerPoint

Sau đó là sự xuất hiện các hệ thống thương mại với khả năng quản lý nội dung đa phương tiện nhờ có khả năng hỗ trợ kiểu dữ liệu phức hợp cho các kiểu media khác nhau Tiệm cận hướng đối tượng cho khả năng định nghĩa các kiểu dữ liệu và các thao tác mới phù hợp với các kiểu media mới như video, ảnh và audio Do vậy các MMDBMS thương mại được sử dụng

rộng rãi là trên cơ sở DBMS quan hệ-mở rộng (ORDBMS) Informix bán trên

thị trường ORDBMS từ 1996-1998 Các công việc tiếp theo là mở rộng dịch

vụ tìm kiếm (chủ yếu theo tiêu chí tương tự) video, audio và các công cụ trình diễn, duyệt

Hiện nay, các dự án phát triển chủ yếu tập trung vào các ứng dụng giàu nội dung ngữ nghĩa Phần lớn chúng được xây dựng trên các chuẩn MPEG mới (MPEG-7 và MPEG-21)

Đã có nhiều đề tài nghiên cứu và phát triển các cách thức truyền thông

và thể hiện dữ liệu đa phương tiện, hoặc một số vấn đề về lưu trữ và truy xuất

dữ liệu đa phương tiện qua các hệ quản trị cơ sở dữ liệu sao cho có hiệu quả

Xuất phát từ vấn đề trên mà đề tài “Một số vấn đề về chỉ mục truy vấn video

theo nội dung trong CSDL đa phương tiện” đã được lựa chọn Nội dung

trình bày phần nghiên cứu được chia làm ba chương:

Trang 10

Chương 1: Tổng quan về CSDL đa phương tiện

Trong chương này trình bày khái quát về mô hình cơ sở dữ liệu đa phương tiện, các nhiệm vụ thiết kế và kiến trúc cơ sở dữ liệu đa phương tiện

và mô hình dữ liệu đa phương tiện

Chương 2: Một số vấn đề về chỉ mục truy vấn video theo nội dung trong CSDL đa phương tiện

Chương này trình bày chủ yếu về các vấn đề đối với video: khái niệm

về video số, nén video và các phương pháp và thuật toán về chỉ mục và truy vấn video theo nội dung

Chương 3: Xây dựng ứng dụng thử nghiệm

Cài đặt thử nghiệm một cơ sở dữ liệu đa phương tiện trên hệ quản trị Oracle để kiểm tra khả năng hỗ trợ đa phương tiện của thành phần Oracle InterMedia được tích hợp trong Oracle

Phần kết luận tóm tắt các kết quả đạt được và đưa ra một số phương hướng nghiên cứu để đánh giá được vai trò quan trọng của dữ liệu đa phương tiện trong nhiều ứng dụng

Trang 11

CHƯƠNG 1: TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN

1 Nhu cầu cần có cơ sở dữ liệu đa phương tiện (CSDLĐPT)[2]

Ngay từ ban đầu, máy tính đã được coi là các thiết bị xử lý biểu tượng (symbolic)- các thiết bị có đầu vào là các biểu tượng theo luật alphabet và đầu

ra là tập các biểu tượng của cùng dạng trên Điều này đã trở thành mô hình cho các môi trường tính toán chuẩn dựa trên cơ sở máy Turing đã quen thuộc

Tuy nhiên, trong những năm gần đây xuất hiện nhu cầu vô cùng lớn về khả năng khai thác và xử lý dữ liệu với số lượng khổng lồ mà nó là điều không dễ dàng diễn tả chỉ với việc sử dụng các kí tự Dưới đây là một số thí

dụ về các kiểu dữ liệu như vậy:

muốn thực hành một ca phẫu thuật trên một bệnh nhân ảo có những triệu chứng sinh lý nào đó Trên thực tế để tìm ra bệnh nhân với những triệu chứng mong muốn, học viên phẫu thuật phải truy vấn cơ sở dữ liệu ảnh phân tán và kích thước lớn chứa ảnh X quang hay MRI (Magnetic Resonance Imaging) của các bệnh nhân với các triệu chứng tương tự Đôi khi các triệu chứng có thể dễ dàng mô tả bằng văn bản Tuy nhiên trong nhiều trường hợp khác, nó

có thể dễ dàng hơn cho học viên phẫu thuật nếu có thể trình diễn hình ảnh của loại mẫu (pattern) mà anh ta đang tìm kiếm trong các ảnh X quang của bệnh nhân Trong cả hai trường hợp này , một CSDL hình ảnh phải được duy trì Nó có thể được truy vấn trên cơ sở các tiêu chí rất khác nhau- đầu vào là văn bản hay ảnh phù hợp (matching)

ai đó mong muốn có những bài giảng bằng băng hình về một chủ đề kỹ thuật nào đó Điều này đòi hỏi phải truy vấn thư viện băng hình mà nó bao gồm tập hợp vô số các băng hình với nội dung kỹ thuật

Trang 12

- Dữ liệu âm thanh (Audio data) : Một sinh viên học về lịch sử đang nghiên cứu về Ai Cập cổ đại mong muốn tiếp cận với một vài cuộc phỏng vấn trước đây trên đài phát thanh của những người Ai Cập nổi tiếng

để có thể biết thêm chi tiết về những khám phá của họ về những nơi ở khác nhau của người Ai Cập Trong trường hợp này anh ta mong muốn tiếp cận với những băng audio cũ có nội dung liên quan đến Ai Cập học

thống bao gồm các đoạn văn bản, các từ, câu, đoạn văn, chương…Một CSDL tài liệu khác văn bản ở chỗ nó không chỉ chứa các thông tin dạng văn bản thô

mà nó còn chứa đựng cả cấu trúc và hình ảnh nhúng Ví dụ, dữ liệu tài liệu được tạo ra, chèn vào và phục hồi nhờ sử dụng các ngôn ngữ đánh dấu chuẩn như HTML hay SGML Trong các trường hợp như vậy cấu trúc của tài liệu

có thể được khai thác dựa trên mục lục dữ liệu…

chúng ta thường ghi những ghi chú trên những mẩu giấy nhỏ, điều này thường gây mất thông tin khi chúng ta giặt quần áo hay vì một lí do nào đó mà những

gì chúng ta ghi bị mờ đi Một số ghi chú có thể không quan trọng, nhưng có rất nhiều cái cần được giữ gìn Xu thế gần đây cả trên thương trường hay trong giới nghiên cứu người ta cho rằng ghi chép điện tử ngày càng phổ biến hơn trong tương lai Người sử dụng sẽ sử dụng các thiết bị điện tử để ghi chép và lưu trữ Mặc dù có rất nhiều ghi chú có thể chuyển sang dạng mã văn bản ASCII bằng kỹ thuật phân tích viết tay, nhưng có rất nhiều ghi chú không thể thực hiện được bởi vì các ghi chú thường chứa cả những nét loằng ngoằng hay các biểu đồ khối

Như vậy, thông tin đa phương tiện hay còn gọi là dữ liệu đa phương tiện, thể hiện các thông tin của máy tính qua các dạng truyền thông như video,

Trang 13

âm thanh, hoạt hoạ (animation), ảnh, alphanumerics hoặc có sự kết hợp giữa các dạng truyền thông này

Dựa trên các loại dữ liệu truyền thông chúng ta có thể phân ra làm hai dạng truyền thông tĩnh và động Dữ liệu tĩnh có nội dung và ý nghĩa không phụ thuộc vào thời gian thể hiện như ảnh, alphanumerics, đồ hoạ Dữ liệu động có nội dung và ý nghĩa phụ thuộc thời gian Chẳng hạn như khi thực hiện một đoạn video cần dịch chuyển khoảng 25 đến 30 frames/giây để làm hình ảnh và âm thanh thay đổi Các dạng dữ liệu động khác như âm thanh và hoạt họa đều có mối quan hệ với thời gian

Việc truyền đạt thông tin và ý nghĩa của thông tin trong thực tế cũng có rất nhiều phương thức khác nhau Tuy nhiên, với dữ liệu đa phương tiện, các thông tin truyền đạt ý nghĩa nhanh và dễ hiểu hơn Do vậy mà ngày nay dữ liệu đa phương tiện được sử dụng trong nhiều ứng dụng thực tế như nghệ thuật, giáo dục, giải trí, kỹ thuật, y học, toán học, và cả trong các nghiên cứu khoa học, v.v Chính vì nhận thấy tầm quan trọng của dữ liệu đa phương tiện nên xuất hiện nhu cầu cần thiết về vấn đề quản lý như:

 Khả năng lưu trữ dữ liệu do kích thước dữ liệu đa phương tiện lớn hơn so với các dạng dữ liệu thông thường;

 Hỗ trợ truy vấn nhanh dữ liệu đa phương tiện do thời gian truyền tải

dữ liệu khi truy vấn không thể quá chậm vì tại mỗi thời điểm ý nghĩa của dữ liệu đa phương tiện có thể thay đổi

Hiện nay, có nhiều hệ quản trị cơ sở dữ liệu ( Database Management Systems- DBMS) cho phép người dùng tạo và quản trị các loại cơ sở dữ liệu (CSDL) khác nhau Mỗi một CSDL là một tập hợp dữ liệu có quan hệ với nhau Khi làm việc với CSDL thì dữ liệu được xem như một tập các bản ghi

Tuy nhiên, do dữ liệu đa phương tiện có có tính chất và yêu cầu đặc biệt, khác xa với loại dữ liệu chữ và số CSDL truyền thống không phù hợp

Trang 14

trong việc quản lý dữ liệu đa phương tiện Hơn nữa các kỹ thuật truy tìm thông tin có thể giúp truy tìm các đối tượng đa phương tiện nhưng chúng chưa

có khả năng quản lý hiệu quả dữ liệu đa phương tiện vì vậy cần có CSDLĐPT

Hệ thống quản trị cơ sở dữ liệu đa phương tiện ( Multimedia Database Management Systems- MMDBMS) là một khung làm việc để quản lý các kiểu dữ liệu khác nhau mà chúng được thể hiện trong rất nhiều khuôn dạng khác nhau Để làm việc thành công thì một MMDBMS phải có các khả năng sau:

tiện: các media khác nhau như đã đề cập ở trên và các thao tác thông thường cũng như các thao tác đặc biệt mà kiểu dữ liệu thông thường không có như tiến, lùi, dừng

đề cập đến không gian lưu trữ của CSDL

Để xây dựng một CSDLĐPT hiệu quả thì nhiệm vụ thiết kế cơ sở dữ liệu đa phương tiện phải đảm bảo những yêu cầu gì, mục 2 sẽ trình bày rõ thêm

2 Các nhiệm vụ thiết kế và kiến trúc cơ sở dữ liệu đa phương tiện[2,3]

Như đã biết, định nghĩa CSDL đa phương tiện rất khác nhau Theo báo

cáo của dự án nghiên cứu EURESCOM thì CSDL đa phương tiện là một

CSDL có hiệu năng cao/sức chứa lớn với khả năng hỗ trợ các kiểu dữ liệu đa

Trang 15

phương tiện cũng như các kiểu dữ liệu chữ số cơ bản khác và nó có thể quản

lý một khối lượng rất lớn thông tin đa phương tiện

Chúng ta đang đối mặt với sự bùng nổ thông tin đa phương tiện Thí dụ tồn tại một số lượng lớn ảnh và video trên Internet Rất nhiều tranh vẽ, ảnh chụp đang được chuyển sang dạng số để dễ xử lý và phân tán hay bảo quản Các bức ảnh từ bản tin TV và trên báo cũng đang được chuyển sang dạng số

để dễ dàng quản lý Lượng lớn ảnh y tế, ảnh vệ tinh đang được thu thập hàng ngày Xu thế này đã thúc đẩy phát triển công nghệ số lưu trữ và trình diễn Không thể sử dụng nhanh và hiệu quả các thông tin đa phương tiện này nếu chúng không được tổ chức tốt để có khả năng truy tìm nhanh

Không chỉ khối lượng dữ liệu đa phương tiện lưu trữ tăng nhanh mà các kiểu dữ liệu và đặc tính của chúng khác xa dữ liệu chữ và số Sau đây là một vài tính chất chính của dữ liệu đa phương tiện:

Thí dụ 10 phút video không nén có dung lượng 1,5 GB

mẫu, không có cấu trúc nhất định để máy tính tự động nhận biết

các loại media khác nhau Thí dụ, phim bao gồm các ảnh đồng bộ với âm thanh

để biểu diễn nội dung của chúng

Các hệ thống tự động truy tìm thông tin (IR – Information Retrieval) đã được phát triển để quản lý khối lượng lớn tài liệu cách đây vài chục năm Chức năng chính của hệ thống là lưu trữ và quản trị khối lượng văn bản lớn

Trang 16

theo cách sao cho dễ dàng truy vấn tài liệu liên quan với người sử dụng Kỹ thuật IR rất quan trọng trong hệ thống quản trị thông tin đa phương tiện vì hai

lý do chính sau Thứ nhất, khối lượng văn bản rất lớn đang có sẵn trong các

cơ quan như thư viện Văn bản là nguồn thông tin quan trọng của mọi tổ chức

Để sử dụng hiệu quả thông tin trong các tài liệu này cần có hệ thống IR hiệu quả Thứ hai, văn bản còn được sử dụng để mô tả các loại media khác như âm thanh, ảnh và video Các kỹ thuật IR quen thuộc có thể được sử dụng để truy tìm thông tin đa phương tiện Tuy nhiên việc sử dụng IR để quản lý dữ liệu đa phương tiện có các hạn chế sau:

IR có thể đóng vai trò quan trọng trong MMDBMS

Nhiều phần dữ liệu đa phương tiện như ngày tạo lập, tác giả, v.v là có cấu trúc Chúng có thể được quản lý bằng các kỹ thuật DBMS Mô tả

(annotation) bằng văn bản vẫn còn là phương pháp hiệu quả để thu thập nội

dung dữ liệu đa phương tiện, do vậy các kỹ thuật IR vẫn đóng vai trò quan trọng

Do đó một kỹ thuật mới dựa trên kết hợp các kỹ thuật DBMS, IR và truy vấn trên cơ sở nội dung để tạo thành Hệ thống chỉ mục và truy tìm thông tin đa phương tiện (MIRS – Multimedia Indexing & Retrieval System) , một

Trang 17

MIRS đầy đủ được gọi là Hệ quản trị CSDL đa phương tiện (MMDBMS – Multimedia Database Management System)

2.1 Khái quát về MIRS

Hoạt động của hệ thống MIRS được mô tả trên hình 1.1 Dữ liệu (các mục thông tin) trong CSDL được tiền xử lý để trích chọn đặc trưng và nội dung ngữ nghĩa Sau đó chúng được chỉ số hóa trên cơ sở đặc trưng và ngữ nghĩa

Trong khi truy tìm thông tin, câu truy vấn của người sử dụng được xử

lý và các đặc trưng chính của nó được trích chọn Các đặc trưng này sau đó được so sánh với các đặc trưng hay chỉ mục của mỗi mục thông tin trong CSDL Các mục thông tin nào có đặc trưng gần giống nhất với các đặc trưng của câu truy vấn thì được tìm ra và trình diễn cho người sử dụng

Mẫu truy vấn có thể mô tả như sau:

Trang 18

Mô hình trên hình 1.1 cho thấy rất nhiều nhiệm vụ phải thực hiện, thí dụ:

hiệu quả?

truy vấn phức tạp, mờ và mềm dẻo?

Chỉ số hoá

Tính toán sự tương

tụ

Trả về những mục thông tin gần nhất

Hình 1.1: Hoạt động của hệ thống MIRS

Xử lí và trích chọn đặc

trưng Tiền xử lí và trích chọn

Trang 19

2.2 Kiến trúc của cơ sở dữ liệu đa phương tiện

Kiến trúc tổng quát của hệ thống

Kiến trúc MIRS cần mềm dẻo và dễ mở rộng để hỗ trợ các ứng dụng, truy vấn và nội dung (đặc trưng) khác nhau Để đạt yêu cầu này MIRS bao gồm nhiều môđun chức năng và quản lý khác nhau Bộ quản lý mới được dễ dàng bổ sung để mở rộng chức năng của MIRS Bộ quản lý hiện hành có thể được hủy bỏ hay thay thế cái mới để cập nhật chức năng

Cơ chế khác của MIRS là khả năng phân tán tự nhiên, nó bao gồm nhiều server và client Cơ chế này hình thành từ kích thước dữ liệu đa phương tiện rất lớn và nhu cầu ứng dụng đồng thời của nhiều người như hệ thống thư viện số và hệ thống video theo yêu cầu

Hình 1.2 chỉ ra kiến trúc cơ sở tổng thể của MIRS Các khối chức năng chính bao gồm UI, bộ trích chọn đặc trưng, quản lý truyền thông, chỉ số hóa

và môtơ tìm kiếm Các chức năng chính sẽ được mô tả thông qua các kịch bản vận hành của MIRS Hai thao tác chính của MIRS là:

Chèn mục đa phương tiện mới: Người sử dụng đặc tả một hay một

nhóm mục dữ liệu đa phương tiện thông qua UI Các mục được lưu trong tệp hay nhập trực tiếp từ thiết bị ngoài như microphone, CD player, VCR hay video camera Người sử dụng cũng có thể tự vẽ hình làm dữ liệu đầu vào Nội dung của chúng được trích trọn tự động hay bán tự động bằng các công cụ của

bộ trích chọn đặc trưng Các đặc trưng này và các mục gốc được gửi về máy chủ thông qua bộ quản lý truyền tin Tại máy chủ, các đặc trưng được tổ chức (chèn) theo lược đồ chỉ số hóa nào đó để truy vấn hiệu quả thông qua mô tơ truy vấn và chỉ số hóa Các thông tin chỉ số và các mục gốc được lưu trữ phù hợp thông qua bộ quản lý lưu trữ

Truy vấn thông tin: Người sử dụng đưa ra hay đặc tả truy vấn thống

Trang 20

qua UI Truy vấn có thể là tệp lưu trữ trên đĩa hay nhập từ thiết bị vào (bàn phím, chuột) Có thể duyệt các mục trong CSDL để sử dụng nó làm mục truy vấn Nếu mục truy vấn không phải là cái đã có sẵn trong CSDL, các đặc trưng chính của truy vấn được trích chọn theo cách như khi thực hiện chèn mục dữ liệu Các đặc trưng này được gửi đến máy chủ thông qua bộ quản lý truyền tin Môtơ chỉ số hóa và tìm kiếm tìm trong CSDL để có các mục dữ liệu phù hợp với các đặc trưng truy vấn Các mục này được truy vấn nhờ bộ quản lý lưu trữ và gửi đến UI thông qua bộ quản lý truyền tin UI hiển thị danh sách các mục dữ liệu tới người sử dụng

Hình 1.2 là kiến trúc cơ sở tổng thể Có thể bổ sung các blốc chức năng hay bộ quản lý để đáp ứng yêu cầu từng ứng dụng cụ thể Chúng có thể là:

khác giữa các mục thông tin

Chỉ số hóa và môtơ tìm kiếm

Quản lý truyền tin

Quản lý lưu trữ

Hình 1.2: Kiến trúc cơ sở tổng thể

Trang 21

Các loại kiến trúc CSDLĐPT

Dữ liệu đa phương tiện có rất nhiều loại từ văn bản, hình ảnh, âm thanh đến những đoạn video có kích thước rất lớn Do đó chúng ta cần tổ chức thích hợp để khai thác một cách hiệu quả Hệ thống CSDL đa phương tiện thường được tổ chức theo 1 trong 3 kiến trúc sau: tự trị, đồng nhất và lai

2.2.2 Kiến trúc đồng nhất (uniformity)

Với kiến trúc dạng này thay vì việc phân chia các loại dữ liệu thành các nhóm riêng biệt chúng ta cố gắng tìm một cấu trúc trừu tượng để có thế sử dụng làm chỉ mục chung cho toàn bộ các kiểu dữ liệu gọi là unified index (hình 1.4) Chúng ta có thể thể hiện nội dung của tất cả các đối tượng dữ liệu khác nhau (văn bản, hình ảnh, âm thanh, video…) trong cùng một cấu trúc dữ liệu và sau đó xây dựng các giải thuật truy vấn trên cấu trúc dữ liệu đó Kiến trúc này đòi hỏi việc kiểm tra nội dung của mỗi kiểu dữ liệu và trừu tượng hóa các phần chung sau đó xây dựng chỉ mục dựa trên các thành phần đã được nhận dạng Với kiến trúc này việc tương tác giữa các loại dữ liệu là rất thuận tiện vì chúng có cùng cấu trúc dữ liệu Tuy nhiên kiến trúc này đòi hỏi

Trang 22

giai đoạn trừu tượng hóa dữ liệu mất rất nhiều thời gian và có thể phải làm thủ công hoặc bán tự động bởi nếu làm tự động có thể gây mất hoặc thiếu thông tin

Multimedia Query Engine (máy truy vấn)

trả lời

Tài liệu ảnh Âm thanh Video

Trang 23

2.2.3 Kiến trúc lai (hybrid)

Kiến trúc này là sự kết hợp của 2 kiến trúc trên (hình 1.5) Một số kiểu

dữ liệu sử dụng chỉ mục của riêng nó, một số khác sử dụng theo kiến trúc đồng nhất tùy thuộc vào đặc điểm cũng như yêu cầu ứng dụng Kiến trúc này tận dụng được ưu điểm của cả hai loại kiến trúc trên và hạn chế những nhược điểm của chúng

3 Mô hình dữ liệu đa phương tiện[3,5]

3.1 Yêu cầu mô hình dữ liệu

Vai trò của mô hình dữ liệu trong DBMS là cung cấp khung làm việc (hay ngôn ngữ) để biểu diễn thuộc tính các mục dữ liệu mà nó sẽ được lưu trữ

và truy vấn nhờ hệ thống Khung làm việc phải cho phép người sử dụng và người thiết kế định nghĩa, chèn, hủy, sửa đổi và tìm kiếm mục dữ liệu và thuộc tính Trong CSDLĐPT mô hình dữ liệu được bổ sung các vai trò đặc tả

và tính toán ở mức trừu tượng khác

Multimedia Query Engine (máy truy vấn)

Unified Index (chỉ mục đồng nhất)

Hình 1.5 Kiến trúc lai

Truy vấn

người dùng

trả lời

Tài liệu Ảnh Âm thanh Video

Media Index

(chỉ mục riêng)

Trang 24

Mô hình dữ liệu đa phương tiện thu thập (capture) thuộc tính tĩnh và

thuộc tính động của các mục dữ liệu, cung cấp cơ sở hình thức để phát triển các công cụ phù hợp, cần thiết khi sử dụng dữ liệu đa phương tiện Đặc tính tĩnh bao gồm các đối tượng hình thành nên dữ liệu đa phương tiện, quan hệ giữa các đối tượng và các thuộc tính đối tượng Thí dụ các đặc tính động bao gồm các đặc tính liên quan đến tương tác giữa các đối tượng, các thao tác trên đối tượng, tương tác với người sử dụng

Mô hình dữ liệu phong phú đóng vai trò quan trọng vào tính ứng dụng được của CSDLĐPT Các kiểu dữ liệu đa phương tiện cơ bản được hỗ trợ để cung cấp nền tảng hình thành các đặc trưng bổ sung

Không gian đặc trưng đa chiều là đặc tính của chỉ số hóa đa phương tiện Mô hình dữ liệu cần hỗ trợ trình diễn không gian đa chiều này, đặc biệt thước đo khoảng cách trong nó

Tóm lại, mô hình CSDLĐPT cần đáp ứng các yêu cầu chính sau đây:

liệu mới

đối tượng tổ hợp với các quan hệ không gian và thời gian phức tạp

đặc tả, truy vấn và tìm kiếm trên các mức trừu tượng khác nhau

3.2 Mô hình dữ liệu đa phương tiện tổng quát

Mô hình CSDLĐPT này hình thành trên nền tảng nguyên tắc hướng đối tượng và phân cấp đa tầng (hình 1.6)

Trang 25

Tầng đối tƣợng

Đối tượng bao gồm một hay nhiều mục media với các quan hệ không gian và thời gian xác định Thí dụ một đối tượng đa phương tiện là một trang slide bao gồm vài ảnh và audio kèm theo

Nhiệm vụ mấu chốt là bằng cách nào để chỉ ra các quan hệ không gian

và thời gian Quan hệ không gian được đặc tả bởi kích thước và vị trí cửa sổ hiển thị của mỗi mục Phương pháp chung đặc tả thời gian là đặc tả trên cơ sở trục thời gian trong đó thời gian bắt đầu và độ dài mỗi mục được xác định trên

cơ sở đồng hồ chung Phương pháp khác là mô hình điều khiển theo sự kiện

Tầng loại media

Tầng này bao gồm các loại media chung như văn bản, đồ họa, ảnh, audio và video Các loại này được suy diễn từ lớp media trừu tượng chung Tại mức này, các đặc trưng và thuộc tính được đặc tả Thí dụ loại media ảnh: kích thước, biểu đồ màu, các đối tượng chính nó chứa được đặc tả Các đặc trưng này được sử dụng trực tiếp vào tìm kiếm và tính toán khoảng cách

Văn bản Ảnh Đồ họa Âm thanh

Tầng khuôn mẫu media

Hình 1.6: Mô hình dữ liệu đa phương tiện tổng quát

Trang 26

Tầng khuôn mẫu media

Tầng này đặc tả khuôn mẫu, trong đó dữ liệu được lưu trữ Loại media thông thường có nhiều khuôn mẫu có thể, thí dụ ảnh có thể là nén hay ảnh thô Hơn nữa có rất nhiều kỹ thuật và chuẩn nén khác nhau Thông tin chứa trong tầng này được sử dụng để giải mã, phân tích và trình diễn

Các nhiệm vụ khác

Chú ý rằng vào thời điểm này không có chuẩn chung cho các tầng mô hình dữ liệu mô tả trên, các ứng dụng khác nhau có thể cần các mô hình dữ liệu khác nhau Tuy nhiên nhiều ứng dụng cùng chia sẻ mô hình cơ sở chung, nếu được thiết kế tốt thì có thể bổ sung các đặc trưng và đối tượng mới để đáp ứng yêu cầu ứng dụng cụ thể

Thí dụ : Mô hình video tổng quát

Mô hình video tổng quát bao gồm 4 tầng: frame, shot, scene (hay

sequence) và episode (video document) như trên hình 1.7

 Frame là các video và ảnh độc lập

 Short là tập các frames được ghi hình bằng camera trong một lần

bấm máy

 Scene là tập các shot có cùng ngữ nghĩa

 Episode là tập các scenes trong trình tự cụ thể Đó là một đơn vị

sản phẩm (thí dụ, chương trình bản tin TV)

Trang 27

Các thuộc tính được gắn vào từng tầng video Tại tầng episode, ta có

thể gán dữ liệu thực sự như tiêu đề, tác giả, ngày tháng tạo lập và các thông

tin liên quan đến kiểu video như chương trình tin tức Scene chứa ngữ nghĩa

chung chia sẻ giữa các shot của nó Các shot được đặc trưng bởi các frames

chính (đại diện) của nó và các dữ liệu khác như các đối tượng chính, ngày

tháng và nơi shot Mỗi frame chứa dữ liệu ảnh thô cũng như thống kê ảnh như

biểu đồ màu

Cơ sở dữ liệu đa phương tiện liên quan đến nhiều lĩnh vực khác nhau

và khá phức tạp Phần tiếp theo của luận văn là tập trung nghiên cứu để xây

dựng CSDL video trong CSDL đa phương tiện

Episode

Scene Scene Scene

Short Short Short Short

Frame Frame

Hình 1.7: Mô hình video tổng quát

Trang 28

CHƯƠNG II: MỘT SỐ VẤN ĐỀ VỀ CHỈ MỤC, TRUY VẤN VIDEO

THEO NỘI DUNG TRONG CSDL ĐA PHƯƠNG TIỆN

1 Video số [1,3,5]

1.1 Biểu diễn video số

Video là media giàu thông tin Một video đầy đủ bao gồm phụ đề (subtitle) bằng text, rãnh tiếng (tiếng nói và không phải tiếng nói), các ảnh được ghi và trình chiếu theo tốc độ cố định Vậy video được xem như tổ hợp text, audio và các ảnh có chiều thời gian Thêm nữa, video còn kết hợp với metadata như tên video, tác giả/nhà sản xuất

Thông thường video số có được từ số hóa video tuyến tính Trình tự video số bao gồm các frame hay ảnh sẽ trình chiếu theo tốc độ cố định Tốc

độ frame của video chuyển động được xác định bởi ba yếu tố:

frame/sec sẽ đạt được chuyển động trơn tru

hiệu video

ngắn Nếu khoảng cách làm tươi quá lớn sẽ làm màn hình nhấp nháy Thực nghiệm cho thấy cần làm tươi 50 lần/sec để tránh nhấp nháy

Hai đặc trưng chính của video là có chiều thời gian và có lượng dữ liệu khổng lồ Thí dụ, 10 phút video với ảnh 512x512 pixel, depth 24 bit/pixel, tốc

độ frame là 30 frame/s đòi hỏi 600*30*512*x512*3=13.8 GB bộ nhớ Do vậy, việc nén video là nhu cầu cần thiết

Trang 29

1.2.1 Lấy mẫu màu là nén

Phần này đề cập đến phân dải màu của tín hiệu video số Như ta đã biết không gian màu YCbCr là cách biểu diễn số của không gian màu YUV Vì mắt người nhạy cảm với thành phần Y hơn hai thành phần màu, cho nên nén

ở đây được thực hiện bằng cách lấy mẫu Cb và Cr với tần số thấp hơn so với

lấy mẫu thành phần Y (gọi là chroma subsampling) Có nghĩa rằng một số

thông tin về màu của tín hiệu video số bị loại bỏ

Gán các giá trị 4:n:n cho YCbCr: Giá trị 4 biểu diễn tần số lấy mẫu

13.5 MHz, đó là tần số chuẩn (ITU-R BT.601) của TV số NTSC, PAL và SECAM Hai số tiếp theo biểu diễn tốc độ lấy mẫu các thành phần màu Cb và

Cr

Mã hóa 4:4:4 có nghĩa rằng tốc độ lấy mẫu của Cb, Cr và độ sáng là như nhau (MPEG-2 sử dụng mã hóa này) Mã hóa 4:2:2 có nghĩa Cb và Cr được lấy mẫu bằng 1/2 mật độ chiều ngang của Y (sử dụng cho DV tại 50 Mbps, Betacam số ) Mã hóa 4:1:1 có nghĩa Cb và Cr được lấy mẫu bằng 1/4 mật độ chiều ngang của Y (khuôn mẫu DV, DVCAM sử dụng) Mã hóa 4:2:0

có nghĩa rằng Cb, Cr được lấy mẫu tại độ phân giải bằng 1/2 của Y theo chiều đứng và cả chiều ngang (dành cho MPEG-1, MPEG-2 và H.261/263)

Trang 30

1.2.2 Ƣớc lƣợng và bù chuyển động

Ước lượng và bù chuyển động khai thác đặc tính dư thừa trong video Chuyển động trong ảnh được hiểu là các pixel trong ảnh trước có vị trí khác trong ảnh hiện tại Trong kỹ thuật ước lượng và bù chuyển động, mỗi ảnh được chia thành các khối có kích thước cố định Tìm khối phù hợp nhất trong ảnh trước Dịch chuyển vị trí giữa hai khối gọi là véc tơ chuyển động Tính khoảng cách giữa các pixel để có khoảng cách giữa các khối Véctơ chuyển động và sự khác nhau giữa các khối được mã hóa và truyền tải

1.2.3 MPEG (Moving Picture Experts Group)

Chuẩn MPEG (Moving Picture Experts Group) là chuẩn nén, giải nén

và đồng bộ hoá các tín hiệu Video và Audio được ra đời vào năm 1988

Chất lượng hình ảnh có thể được cải thiện đáng kể bằng cách dùng tỉ lệ nén dữ liệu lớn hơn mà không cần thay đổi độ phân giải MPEG không phải là một công cụ nén đơn lẻ mà ưu điểm của nén MPEG chính là ở chỗ nó có một tập hợp các công cụ mã hoá chuẩn, chúng có thể được kết hợp với nhau một cách linh động để phục vụ cho một loạt các ứng dụng khác nhau

Các chuẩn MPEG hiện có gồm:

+ MPEG-1 là chuẩn lưu trữ và phục hồi ảnh động và Audio trong lưu trữ Media MPEG-1 có thể nén tín hiệu video tới 1.5Mbit/s với chất lượng VHS và âm thanh lập thể (stereo audio) với tốc độ 192 bit/s Nó được dùng để lưu trữ video và âm thanh trên CD-ROM

+ MPEG-2 là chuẩn cho TV số

+ MPEG-4 là chuẩn cho các ứng dụng MultiMedia MPEG-4 trở thành một tiêu chuẩn cho nén ảnh kỹ thuật truyền hình số, các ứng dụng về đồ hoạ

và Video tương tác hai chiều (Games, Videoconferencing) và các ứng dụng Multimedia tương tác hai chiều (World Wide Web hoặc các ứng dụng nhằm

Trang 31

phân phát dữ liệu Video như truyền hình cáp, Internet Video ) MPEG-4 đã trở thành một tiêu chuẩn công nghệ trong quá trình sản xuất, phân phối và truy cập vào các hệ thống Video Nó đã góp phần giải quyết vấn đề về dung lượng cho các thiết bị lưu trữ, giải quyết vấn đề về băng thông của đường truyền tín hiệu Video hoặc kết hợp cả hai vấn đề trên

+ MPEG-7 chứa đặc tả thông tin, giao diện cho việc tìm kiếm thông tin

Nén MPEG là sự kết hợp hài hoà của bốn kỹ thuật cơ bản:

+ Tiền xử lý (Preprocessing)

+ Đoán trước sự chuyển động của các frame ở bộ mã hoá (temporal prediction)

+ Bù chuyển động ở bộ giải mã (motion compensation)

+ Mã lượng tử hoá (quatisation coding)

Các bộ lọc tiền xử lý sẽ lọc ra những thông tin không cần thiết từ tín hiệu video và những thông tin khó mã hoá nhưng không quan trọng cho sự cảm thụ của mắt người

Kỹ thuật đoán chuyển động dựa trên nguyên tắc là các ảnh trong chuỗi video dường như có liên quan mật thiết với nhau theo thời gian: Mỗi frame tại một thời điểm nhất định sẽ có nhiều khả năng giống với các frame đứng ngay phía trước và ngay phía sau nó

Các bộ mã hoá sẽ tiến hành quét lần lượt từng phần nhỏ trong mỗi frame gọi là macro blocks, sau đó nó sẽ phát hiện macro block nào không thay đổi từ frame này tới frame khác Bộ mã hoá sẽ tiên đoán trước sự xuất hiện của các macro blocks khi biết vị trí và hướng chuyển động của nó Do đó chỉ những sự thay đổi giữa các khối trong frame hiện tại (motion compesated residual) và các khối được tiên đoán mới được truyền tới bên phía thu Phía bên thu tức bộ giải mã đã lưu trữ sẵn những thông tin mà không thay đổi từ

Trang 32

frame này tới frame khác trong bộ nhớ đệm của nó và chúng được dùng để điền thêm một cách đều đặn vào các vị trí trống trong ảnh được khôi phục

Nén tín hiệu video được thực hiện nhờ việc loại bỏ cả sự dư thừa về không gian (spatial coding) và thời gian (temporal coding)

Trong MPEG, việc loại bỏ dư thừa về thời gian (nén liên ảnh) được thực hiện trước hết nhờ sử dụng các tính chất giống nhau giữa các ảnh liên tiếp (Inter-frame techniques) Chúng ta có thể sử dụng tính chất này để tạo ra các bức ảnh mới nhờ vào những thông tin từ những ảnh đã gửi trước nó Do vậy ở phía bộ mã hoá, chỉ cần gửi những bức ảnh có thay đổi so với những ảnh trước, sau đó ta lại dùng phương pháp nén về không gian để loại bỏ sự dư thừa về không gian trong chính bức ảnh sai khác này

Nén về không gian dựa trên nguyên tắc là phát hiện sự giống nhau của các điểm ảnh (pixels) lân cận nhau (Intra-frame coding techniques)

Thuật toán nén MPEG cũng dựa trên phép biến đổi DCT cho các khối ảnh 8x8 picxels để tìm ra sự thừa về không gian một cách có hiệu quả giữa các điểm ảnh trong cùng một bức ảnh Tuy nhiên, trong trường hợp có mối tương quan chặt chẽ giữa các điểm ảnh trong các bức ảnh kế tiếp nhau tức là trong trường hợp hai bức ảnh liên tiếp có nội dung trùng nhau, kỹ thuật Inter-frame coding techniques sẽ được dùng cùng với việc tiên đoán sự dư thừa về không gian để tạo thành kỹ thuật tiên đoán bù chuyển động giữa các bức ảnh Trong nhiều sơ đồ nén MPEG, người ta thường kết hợp cả việc tiên đoán bù chuyển động theo thời gian và phép biến đổi thông tin theo không gian để đạt hiệu quả nén cao

Hầu hết các sơ đồ nén MPEG đều dùng kỹ thuật lấy mẫu bổ xung (Subsampling) và lượng tử hoá (Quantization) trước khi mã hoá Lấy mẫu bổ xung nhằm mục đích để làm giảm kích thước bức ảnh đầu vào theo cả theo chiều ngang và chiều dọc, như vậy sẽ giảm số lượng các điểm ảnh trước mã

Trang 33

hoá Cũng nên nhớ rằng trong một số trường hợp người ta còn lấy mẫu bổ xung theo thời gian để làm giảm số lượng các bức ảnh trong dãy ảnh trước khi

mã hoá Đây được xem như là một kỹ thuật rất cơ bản nhằm loại bỏ sự dư thừa dựa vào khả năng lưu ảnh của mắt người cảm thụ Thường thường, chúng ta có thể phân biệt sự thay đổi về độ sáng của ảnh tốt hơn so với sự thay đổi về màu Do đó trước hết các sơ đồ nén MPEG sẽ tiến hành chia bức ảnh thành các thành phần Y và UV tức là một thành phần về độ sáng và hai thành phần về độ màu Các tín hiệu video thành phần này sẽ được lấy mẫu và

số hoá để tạo nên các điểm ảnh rời rạc theo tỷ lệ 4 : 2 : 2 và 4 : 2 : 0

Kỹ thuật tiên đoán bù chuyển động được sử dụng như là một trong những công cụ mạnh để làm giảm sự dư thừa về không gian giữa các bức ảnh Khái niệm về bù chuyển động là dựa trên sự phán đoán hướng chuyển động của các bức ảnh tức là các ảnh thành phần trong dãy video sẽ được thay thế gần đúng Kỹ thuật tiên đoán bù chuyển động giữa các bức ảnh được xem như

là biện pháp để hạn chế bớt các thông số của chuyển động bởi việc dùng các vector chuyển động để mô tả sự dịch chuyển của các điểm ảnh Kết quả tiên đoán tốt nhất của một điểm ảnh là dựa trên sự tiên đoán bù chuyển động từ một bức ảnh đã mã hoá được truyền phía trước của nó Cả hai thông số, sai số chuyển động (biên độ) và các vectors chuyển động (hướng chuyển động) đều được truyền tới phía bên nhận Tuy nhiên do có mối quan hệ tương quan chặt chẽ giữa các điểm ảnh về không gian (trùng về không gian), một vector chuyển động có thể được dùng cho một khối các điểm ảnh gồm các pixels lân cận nhau (MPEG -1 và MPEG -2 dùng các khối 16 x16 pixels)

Trong MPEG-2, có nhiều phương pháp để tiên đoán sự chuyển động

Ví dụ một khối ảnh có thể được tiên đoán xuôi từ những ảnh đã được truyền trước nó (Forward Predicted), có thể đoán ngược từ những ảnh truyền sau nó (Backward Predicted) hoặc theo cả hai chiều (Bidirectionally Predicted) Các

Trang 34

phương pháp dùng để tiên đoán các khối trong cùng một ảnh cũng có thể không giống nhau, chúng có thể thay đổi từ khối nọ sang khối kia Hơn nữa, hai trường trong cùng một khối cũng có thể được tiên đoán theo hai cách khác nhau dùng các vector độc lập nhau hoặc chúng có thể dùng chung một vector Đối với mỗi khối ảnh, bộ mã hoá sẽ chọn các phương pháp tiên đoán thích hợp, cố gắng đảm bảo chất lượng ảnh tốt nhất khi được giải mã trong điều kiện yêu cầu khắt khe về số bit Các thông số liên quan tới chọn phương pháp tiên đoán cũng được truyền tới bộ giải mã cùng với dự đoán sai số nhằm khôi phục gần chính xác ảnh gốc

Trong MPEG, có 3 kiểu ảnh khác nhau được dùng để mã hoá cho các khối ảnh:

- Kiểu ảnh „Intra‟ (I-pictures) là ảnh được mã hoá một cách độc lập mà không cần tham khảo tới các ảnh khác Hiệu quả nén tín hiệu đạt được do loại

bỏ sự thừa về không gian mà không có yếu tố thời gian tham gia vào quá trình I-pictures được dùng một cách tuần hoàn để tạo thành các điểm tựa cho dòng dữ liệu trong quá trình giải mã

- Ảnh „Predictive‟ (P-pictures) có thể sử dụng các ảnh I hoặc P ngay sát phía trước nó để bù chuyển động và chính nó cũng có thể được dùng để tham khảo cho việc tiên đoán các ảnh khác tiếp theo Mỗi khối ảnh trong P-picture

có thể hoặc được mã theo kiểu tiên đoán (predicted) hoặc được mã một cách độc lập (intra-coded) Do sử dụng cả nén theo không gian và thời gian, hiệu quả nén của P-pictures được tăng lên một cách đáng kể so với I-pictures

- Ảnh „Bidirectionally-Predictive‟ pictures hay B- Pictures có thể sử dụng các ảnh I hoặc P phía trước hoặc phía sau nó cho việc bù chuyển động

và do vậy cho kết quả nén cao nhất Mỗi khối trong B-pictures có thể được tiên đoán theo chiều ngược, xuôi, cả hai hướng hoặc được mã một cách độc lập Để có thể tiên đoán ngược từ một bức ảnh phía sau nó, bộ mã hoá sẽ tiến

Trang 35

hành sắp xếp lại các bức ảnh từ thứ tự xuất hiện một cách tự nhiên sang một thứ tự khác của các ảnh trên đường truyền Do vậy từ đầu ra của bộ mã hoá, B-pictures được truyền sau các ảnh dùng để tham khảo ở phía trước và phía sau của nó Điều này sẽ tạo ra độ trễ do phải sắp xếp lại thông tin, độ trễ này lớn hay nhỏ là tuỳ thuộc vào số các bức ảnh B-pictures liên tiếp nhau được truyền

Các ảnh I, P, B-pictures thường xuất hiện theo một thứ tự lặp đi lặp lại một cách tuần hoàn, do đó ta có khái niệm về nhóm các bức ảnh GOP (Group

of Pictures) Một ví dụ của GOP ở dạng ảnh tự nhiên xuất hiện theo thứ tự như sau:

Chú ý rằng đặc trưng quan trọng nhất của các chuẩn MPEG là chỉ ra cú pháp của dòng bit mã hóa, để bộ giải mã có thể giải mã dòng bit Các chuẩn

không chỉ ra cách sinh bitstream Điều này cho khả năng đổi mới khi thiết kế

và cài đặt bộ mã hóa

Các chuẩn MPEG-1 và MPEG-2 được áp dụng rộng rãi trong các hệ thống đa phương tiện MPEG-2 được đề xuất như chuẩn mã hóa cho HDTV tại châu Âu và Mỹ

Sau đây là chi tiết của các chuẩn MPEG-1, MPEG-2, MPEG-4, MPEG-7:

Trang 36

MPEG-1

MPEG-1 làm việc tối ưu với bit rate 1.5 Mbps Tuy nhiên có thể làm việc với bit rate cao hơn hay thấp hơn Đây là chuẩn lưu trữ và truy tìm ảnh động và âm thanh trên phương tiện lưu trữ

MPEG-1 video sử dụng tổ hợp bù chuyển động và kỹ thuật mã hóa trên

cơ sở DCT Các bước mã hóa chính bao gồm:

mật độ không gian) thành khuôn mẫu vào xác định trước

thiết kế thuật toán MPEG là: Một bên phải đạt tỷ lệ nén cao cho nên phải sử

dụng kỹ thuật nén trong frame và giữa các frame Mặt khác đòi hỏi xâm nhập

ngẫu nhiên khi truy tìm ảnh thỏa mãn với ảnh mã hóa trong Để thỏa mãn yêu cầu này, MPEG-1 video có một vài ảnh mã hóa bên trong frame và các ảnh còn lại mã hóa giữa các frame

MPEG-1 định nghĩa 4 kiểu ảnh : I-pictures, P-pictures, B-pictures và

D-pictures D-pictures là ảnh mã hóa DC Mã hóa không tham chiếu đến bất

kỳ ảnh nào Chỉ DC của các hệ số DCT là được sử dụng Loại ảnh này được

sử dụng cho mode tìm kiếm nhanh (fast-forward search)

Gọi ảnh P và ảnh I là ảnh tham chiếu Các ảnh P và B là ảnh mã hóa dự báo Tổ chức ba loại ảnh trong trình tự video là rất mềm dẻo Bộ giải mã và yêu cầu ứng dụng quyết định việc lựa chọn chúng Thông thường ảnh I có thể xuất hiện mỗi ½ giây để dễ dàng xâm nhập ngẫu nhiên nhanh, với 2 ảnh B chèn vào giữa mỗi cặp ảnh I hay P

được mã hóa trong (intracoded) Các khối trong ảnh P được mã hóa trong hoặc mã hóa dự báo phía trước (forward predictive) trên cơ sở ảnh I và P

trước đó, phụ thuộc vào hiệu quả mã hóa Khối trong ảnh B được mã hóa

Trang 37

trong, dự báo phía trước và dự báo phía sau (backward) hay mã hóa dự báo

hai chiều Với các khối mã hóa dự báo các véc tơ chuyển động được tìm ra và các lỗi dự báo được tính toán

thành 6 khối con 8x8 pixel (4 luminance và 2 chrominance) Áp dụng DCT 2

chiều cho từng khối để có các hệ số biến đổi, sau đó lượng tử hóa và duyệt

theo đường zigzag

(loại ảnh, địa chỉ khối và các véc tơ chuyển động) được mã hóa bằng kỹ thuật Huffman và RLE

Chuẩn không chỉ ra các tiến trình mã hóa Các bước trên là các chức

năng sẽ thực hiện trong bộ mã hóa Chuẩn chỉ cho biết khuôn mẫu bitstream

đầu ra cho bộ mã hóa, không chỉ ra bộ mã hóa được cài đặt như thế nào

MPEG-2

MPEG-2 là mở rộng của MPEG-1 để mã hóa thông tin nghe nhìn chất lượng cao (chuẩn cho TV số) Nó sử dụng cùng quan niệm với MPEG-1 nhưng có cải tiến hơn

Các chức năng của MPEG-2 System tương tự MPEG-1 System Tuy

nhiên MPEG-2 System chỉ ra 2 khuôn mẫu datastream:

 Program strream: tương tự chuẩn MPEG-1 System và tương

thích với MPEG-1 stream Program stream được tối ưu cho các ứng dụng

truy vấn đa phương tiện và thực hiện tiến trình hệ thống trong phần mềm

 Transport stream: có thể thực hiện nhiều chương trình đồng thời

nó được tối ưu cho các ứng dụng nơi có thể mất dữ liệu Transport stream bao

gồm các gói có độ dài cố định Quan niệm tương tự các tế bào ATM, nhưng

độ dài gói là 188 bytes (bao gồm cả 4 byte header) thay cho 53 bytes trong tế

Trang 38

bào ATM để tăng cường sử dụng băng thông Transport stream phù hợp cho truyền TV số trên cáp quang, vệ tinh, ATM và các mạng khác

Nén MPEG-2 video sử dụng cùng nguyên lý như nén MPEG-1 video với vài điểm mở rộng và tăng cường để hỗ trợ video chất lượng cao Phần mở rộng bao gồm:

Điều này đòi hỏi hỗ trợ interlaced video như CCIR 601

16,383 pixels

hỗn hợp (PAL, NTSC) để dễ dàng các thao tác hậu xử lý

mode scalable mã hóa MPEG-2 videostream thành các lớp khác nhau: cơ sở, trung bình và cao Nó cho phép bộ giải mã giải mã từng phần của video theo lựa chọn Thí dụ HDTV video được mã hóa thành các lớp khác nhau, trong đó

có một lớp tương thích với mật độ TV chuẩn Sau đó, TV chuẩn có thể chỉ giải mã lớp để chương trình TV thông thường nhận được

các tham số hữu ích cho phần lớn ứng dụng MPEG-1 Trong MPEG-2, quan niệm tương tự xác định tập con giới hạn khả năng của cài đặt cụ thể Mục tiêu của đặc tả MPEG-2 là để hỗ trợ dải rộng các ứng dụng, bit rate, mật độ, chất lượng và các dịch vụ Các ứng dụng có thể là lưu trữ số, TV, truyền tin Đặc

tả MPEG-2 video làm dễ dàng trao đổi bitstream giữa các ứng dụng khác nhau

Trang 39

MPEG-4

Mục tiêu của MPEG-4 là cung cấp công nghệ lõi chuẩn hóa để lưu trữ, truyền tin, chế tác dữ liệu đa phương tiện một cách hiệu quả (chuẩn cho ứng dụng đa phương tiện)

Đặc trưng chính của thành phần trực quan của MPEG-4 là cung cấp công cụ để giải mã và trình diễn các đơn vị cơ sở của nội dung ảnh, video và

gọi là “video object – VO” Thí dụ VO là người đang nói, nó có thể tổ hợp với các đối tượng nghe nhìn khác (audiovisual object – AVO) để tạo ra kịch bản

Frame hay ảnh được quản lý như trường hợp đặc biệt của VO

MPEG-4 chỉ ra mã hóa và trình diễn VO tự nhiên và tổng hợp Các VO

tự nhiên được xem như đồ họa máy tính phù hợp cho rendering và animation Với VO tự nhiên, các hình hay biên của đối tượng cần nhận biết trước Thông tin hình dạng và texture của đối tượng được mã hóa riêng Thông tin texture được mã hóa tương tự MPEG-1 video Chú ý rằng MPEG-4 không chỉ ra xác định biên đối tượng bằng cách nào

Với mã hóa trên cơ sở đối tượng, có thể nén hiệu quả dữ liệu Cho khả năng chỉ số hóa và tìm kiếm trên cơ sở nội dung các dữ liệu đa phương tiện

MPEG-7

Một thành phần mới trong họ MPEG có tên “multimedia content

description interface” – MPEG-7 Nó đặc tả tập bộ mô tả chuẩn, nó sẽ được

sử dụng để mô tả các loại thông tin đa phương tiện khác nhau, và để truy vấn thông tin đa phương tiện một cách hiệu quả

MPEG-7 còn chuẩn hóa các cách định nghĩa các bộ mô tả khác cũng như cấu trúc (lược đồ mô tả) cho các bộ mô tả và quan hệ giữa chúng Mô tả này (tổ hợp bộ mô tả và lược đồ mô tả) kết hợp với nội dung để tìm kiếm nhanh và hiệu quả theo yêu cầu người dùng Các loại thông tin được tìm kiếm

Trang 40

có thể là ảnh, đồ họa, mô hình 3D, audio, tiếng nói, video và các thông tin chỉ

ra cách tổ hợp chúng với nhau trong trình diễn đa phương tiện (thông tin tổ hợp kịch bản)

Chuẩn MPEG-7 hình thành trên cơ sở các chuẩn khác như analog, PCM, MPEG-1, 2 và 4 Một chức năng quan trọng của chuẩn là cung cấp tham chiếu đến phần thích hợp khác của nó Thí dụ, bộ mô tả hình dạng được

sử dụng trong MPEG-4 là có ích trong ngữ cảnh MPEG-7, tương tự có thể áp dụng cho các trường véc tơ chuyển động trong MPEG-1 và MPEG-2

Tuy nhiên các bộ mô tả MPEG-7 không phụ thuộc vào cách mà nội dung mô tả được mã hóa và lưu trữ

Chú ý quan trọng là, MPEG-7 chuẩn hóa mô tả nội dung và các đặc trưng đa phương tiện Nhưng nó không chuẩn hóa các công cụ để trích chọn các đặc trưng và các công cụ để mô tả

Các chuẩn khác

Ngoài chuẩn MPEG, các chuẩn liên quan đến video khác bao gồm IYU-T H.261 và H.263 Nguyên tắc nén của chúng tương tự MPEG Chúng được phát triển cho hội nghị truyền hình và đàm thoại video

2 Lập chỉ mục video[3,5,6,7]

2.1 Phân loại

Vì video được xem như tổ hợp text, audio và các ảnh có chiều thời gian Thêm nữa, video còn kết hợp với metadata như tên video, tác giả/nhà sản xuất Do vậy, các phương pháp sau đây có thể được sử dụng để chỉ mục

và truy tìm video:

tìm trên cơ sở metadata có cấu trúc nhờ DBMS truyền thống Metadata thường thấy là tên video, tác giả/đạo diễn/nhà sản xuất, ngày sản xuất và loại video

Định dạng
Số trang	104
Dung lượng	1,91 MB