Nhưng ngày nay, thông tin truyền tải ý nghĩa của nó có nhiều định dạng khác nhau như âm thanh số, hình ảnh có hiệu ứng, hay các đoạn phim sống động… Sự phong phú trong cách thể hiện các
Trang 3Trước tiên tôi xin chân thành cảm ơn các thầy cô giáo trong trường Đại học Công nghệ - ĐHQGHN, Viện Công nghệ thông tin - Viện khoa học Việt Nam đã truyền đạt những kiến thức về công nghệ thông tin trong suốt khoá học cao học
Đặc biệt tôi xin chân thành cảm ơn PGS.TS Đặng Văn Đức đã tận tình giảng dạy và hướng dẫn tôi trong thời gian thực hiện luận văn
Cuối cùng để hoàn thành tốt luận văn, tôi xin chân thành cảm ơn gia đình, cơ quan đã động viên và tạo điều kiện thuận lợi cùng toàn thể bạn bè
đã có những ý kiến đóng góp quý báu cho bài luận này
Hà nội , ngày 4 tháng 12 năm 2006
Phạm Ngọc Trâm
Trang 4CÁC THUẬT NGỮ VÀ CÁC TỪ VIẾT TẮT
System
Systems
Trang 5Danh mục các hình vẽ, đồ thị 2
Mở đầu 3
Chương 1: Tổng quan về cơ sở dữ liệu đa phương tiện 6
1 Nhu cầu cần có cơ sở dữ liệu đa phương tiện 6
2 Các nhiệm vụ thiết kế và kiến trúc cơ sở dữ liệu đa phương tiện 9
2.1 Khái quát về MIRS 12
2.2 Kiến trúc của cơ sở dữ liệu đa phương tiện 14
2.2.1 Kiến trúc tự trị (atonomy) 16
2.2.2 Kiến trúc đồng nhất (uniformity) 16
2.2.3 Kiến trúc lai (hybrid) 18
3 Mô hình dữ liệu đa phương tiện 18
3.1 Yêu cầu mô hình dữ liệu 18
3.2 Mô hình dữ liệu đa phương tiện tổng quát 19
Chương 2: Một số vấn đề về chỉ mục, truy vấn video theo nội dung trong CSDL đa phương tiện 23
1 Video số 23
1.1 Biểu diễn video số 23
1.2 Nén video 24
1.2.1 Lấy mẫu màu là nén 24
1.2.2 Ước lượng và bù chuyển động 25
1.2.3 MPEG (Moving Picture Experts Group) 25
2 Lập chỉ mục video 35
2.1 Phân loại 35
2.2 Khái quát về chỉ mục và truy tìm video trên cơ sở shot 37
2.3 Tách video shot hay phân đoạn 38
2.3.1 Kỹ thuật phân đoạn video cơ sở 38
Trang 6lượng độ sáng và chuyển động tuyệt đối 43
2.3.5 Các kỹ thuật tách shot khác 51
2.3.6 Phân đoạn video nén 51
2.3.7 Nhận xét 62
2.4 Chỉ mục và truy tìm video 63
2.4.1 Chỉ mục và truy tìm trên cơ sở các frame r của shot video 64
2.4.2 Chỉ mục và truy tìm video trên cơ sở thông tin chuyển động 70
2.4.3 Chỉ mục và truy vấn video trên cơ sở đối tượng 72
2.4.4 Chỉ mục và truy tìm video trên cơ sở metadata 73
2.4.5 Chỉ mục và truy tìm video trên cơ sở mô tả (annotation) 74
2.4.6 Tiệm cận tích hợp chỉ mục và tìm kiếm video 74
3 Đại diện và trừu tượng video 75
3.1 Phân lớp theo chủ đề 76
3.2 Biểu tượng chuyển động hay biểu tượng video 77
3.3 Biểu ngữ (streamer) video 79
3.4 Clipmap 79
3.5 Bộ duyệt video phân cấp 79
3.6 Storyboard 80
3.7 Mosaicking 81
Chương 3: Cài đặt thử nghiệm 82
1 Giới thiệu về Oracle InterMedia 82
1.1 Các kiểu đối tượng đa phương tiện 82
1.2 Lưu trữ dữ liệu đa phương tiện 84
1.3 Nạp dữ liệu đa phương tiện 86
1.4 Truy cập dữ liệu đa phương tiện 87
1.5 Kiến trúc Oracle InterMedia 88
Trang 72.2 Yêu cầu 92
2.3 Lựa chọn công cụ và môi trường phát triển 92
2.4 Cài đặt Oracle InterMedia 92
2.5 Các thao tác với chương trình 93
3 Nhận xét phần thử nghiệm 96
Kết luận 97
Tài liệu tham khảo 99
Trang 8MỞ ĐẦU
Những thay đổi của môi trường xã hội cùng với sự xuất hiện của nhiều công nghệ mới dẫn đến việc ngày càng có nhiều phương thức trao đổi và thể hiện thông tin Trước đây, con người thường thể hiện thông tin qua các văn bản bằng việc sử dụng các ký tự, số hoặc có thêm một số hình ảnh có ý nghĩa Nhưng ngày nay, thông tin truyền tải ý nghĩa của nó có nhiều định dạng khác nhau như âm thanh số, hình ảnh có hiệu ứng, hay các đoạn phim sống động…
Sự phong phú trong cách thể hiện các dạng truyền thông cho thấy các dạng dữ liệu đa phương tiện là sự kết hợp của nhiều dạng dữ liệu khác nhau ngày càng
có vai trò quan trọng Từ đó nhu cầu về quản lý, khai thác và xử lý các dữ liệu
đa phương tiện cũng được đặt ra Và người ta cũng nhận thấy rằng cơ sở dữ liệu truyền thống không thể quản lý một cách hiệu quả các kiểu dữ liệu này được Do đó cần phải có một hệ thống quản lý tất cả các loại dữ liệu media và CSDL đa phương tiện được hình thành đó là hệ thống quản trị CSDL đa phương tiện (MMDBMS- Multimedia Database Management System)
MMDBMS cần có khả năng hỗ trợ các kiểu dữ liệu đa phương tiện, hơn nữa phải có khả năng thực hiện các chức năng thông thường của DBMS truyền thống như tạo lập CSDL, mô hình hóa dữ liệu, truy tìm, xâm nhập và
tổ chức dữ liệu và độc lập dữ liệu Mặt khác, trong các CSDL truyền thống, mối quan tâm hiệu suất chính là tính hiệu quả (có thể trả lời kết quả trong bao lâu) Trong MMDBMS, hiệu quả truy tìm( khả năng tìm ra các mục liên quan
và khả năng loại bỏ các mục không liên quan ) cũng rất quan trọng
Trong thời gian qua lĩnh vực MMDBMS phát triển vô cùng nhanh chóng
Vào giữa những năm 90 của thế kỷ XX, xuất hiện các hệ thống MMDBMS thương mại, được xây dựng từ đầu (bàn tay trắng) Thí dụ:
Trang 9MediaDB (nay gọi là MediaWay), JASMIN và ITASCA Chúng có khả năng
quản lý các loại dữ liệu khác nhau và có cơ chế truy tìm, chèn, cập nhật dữ liệu Một số trong chúng bị biến mất trên thị trường sau vài năm thương mại Một số trong chúng được nâng cấp theo tiến bộ của công nghệ phần cứng và
phần mềm và thay đổi ứng dụng Thí dụ MediaWay có khả năng hỗ trợ rất
nhiều kiểu dữ liệu khác nhau từ ảnh, video đến các tài liệu PowerPoint
Sau đó là sự xuất hiện các hệ thống thương mại với khả năng quản lý nội dung đa phương tiện nhờ có khả năng hỗ trợ kiểu dữ liệu phức hợp cho các kiểu media khác nhau Tiệm cận hướng đối tượng cho khả năng định nghĩa các kiểu dữ liệu và các thao tác mới phù hợp với các kiểu media mới như video, ảnh và audio Do vậy các MMDBMS thương mại được sử dụng
rộng rãi là trên cơ sở DBMS quan hệ-mở rộng (ORDBMS) Informix bán trên
thị trường ORDBMS từ 1996-1998 Các công việc tiếp theo là mở rộng dịch
vụ tìm kiếm (chủ yếu theo tiêu chí tương tự) video, audio và các công cụ trình diễn, duyệt
Hiện nay, các dự án phát triển chủ yếu tập trung vào các ứng dụng giàu nội dung ngữ nghĩa Phần lớn chúng được xây dựng trên các chuẩn MPEG mới (MPEG-7 và MPEG-21)
Đã có nhiều đề tài nghiên cứu và phát triển các cách thức truyền thông
và thể hiện dữ liệu đa phương tiện, hoặc một số vấn đề về lưu trữ và truy xuất
dữ liệu đa phương tiện qua các hệ quản trị cơ sở dữ liệu sao cho có hiệu quả
Xuất phát từ vấn đề trên mà đề tài “Một số vấn đề về chỉ mục truy vấn video
theo nội dung trong CSDL đa phương tiện” đã được lựa chọn Nội dung
trình bày phần nghiên cứu được chia làm ba chương:
Trang 10Chương 1: Tổng quan về CSDL đa phương tiện
Trong chương này trình bày khái quát về mô hình cơ sở dữ liệu đa phương tiện, các nhiệm vụ thiết kế và kiến trúc cơ sở dữ liệu đa phương tiện
và mô hình dữ liệu đa phương tiện
Chương 2: Một số vấn đề về chỉ mục truy vấn video theo nội dung trong CSDL đa phương tiện
Chương này trình bày chủ yếu về các vấn đề đối với video: khái niệm
về video số, nén video và các phương pháp và thuật toán về chỉ mục và truy vấn video theo nội dung
Chương 3: Xây dựng ứng dụng thử nghiệm
Cài đặt thử nghiệm một cơ sở dữ liệu đa phương tiện trên hệ quản trị Oracle để kiểm tra khả năng hỗ trợ đa phương tiện của thành phần Oracle InterMedia được tích hợp trong Oracle
Phần kết luận tóm tắt các kết quả đạt được và đưa ra một số phương hướng nghiên cứu để đánh giá được vai trò quan trọng của dữ liệu đa phương tiện trong nhiều ứng dụng
Trang 11CHƯƠNG 1: TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN
1 Nhu cầu cần có cơ sở dữ liệu đa phương tiện (CSDLĐPT)[2]
Ngay từ ban đầu, máy tính đã được coi là các thiết bị xử lý biểu tượng (symbolic)- các thiết bị có đầu vào là các biểu tượng theo luật alphabet và đầu
ra là tập các biểu tượng của cùng dạng trên Điều này đã trở thành mô hình cho các môi trường tính toán chuẩn dựa trên cơ sở máy Turing đã quen thuộc
Tuy nhiên, trong những năm gần đây xuất hiện nhu cầu vô cùng lớn về khả năng khai thác và xử lý dữ liệu với số lượng khổng lồ mà nó là điều không dễ dàng diễn tả chỉ với việc sử dụng các kí tự Dưới đây là một số thí
dụ về các kiểu dữ liệu như vậy:
muốn thực hành một ca phẫu thuật trên một bệnh nhân ảo có những triệu chứng sinh lý nào đó Trên thực tế để tìm ra bệnh nhân với những triệu chứng mong muốn, học viên phẫu thuật phải truy vấn cơ sở dữ liệu ảnh phân tán và kích thước lớn chứa ảnh X quang hay MRI (Magnetic Resonance Imaging) của các bệnh nhân với các triệu chứng tương tự Đôi khi các triệu chứng có thể dễ dàng mô tả bằng văn bản Tuy nhiên trong nhiều trường hợp khác, nó
có thể dễ dàng hơn cho học viên phẫu thuật nếu có thể trình diễn hình ảnh của loại mẫu (pattern) mà anh ta đang tìm kiếm trong các ảnh X quang của bệnh nhân Trong cả hai trường hợp này , một CSDL hình ảnh phải được duy trì Nó có thể được truy vấn trên cơ sở các tiêu chí rất khác nhau- đầu vào là văn bản hay ảnh phù hợp (matching)
ai đó mong muốn có những bài giảng bằng băng hình về một chủ đề kỹ thuật nào đó Điều này đòi hỏi phải truy vấn thư viện băng hình mà nó bao gồm tập hợp vô số các băng hình với nội dung kỹ thuật
Trang 12- Dữ liệu âm thanh (Audio data) : Một sinh viên học về lịch sử đang nghiên cứu về Ai Cập cổ đại mong muốn tiếp cận với một vài cuộc phỏng vấn trước đây trên đài phát thanh của những người Ai Cập nổi tiếng
để có thể biết thêm chi tiết về những khám phá của họ về những nơi ở khác nhau của người Ai Cập Trong trường hợp này anh ta mong muốn tiếp cận với những băng audio cũ có nội dung liên quan đến Ai Cập học
thống bao gồm các đoạn văn bản, các từ, câu, đoạn văn, chương…Một CSDL tài liệu khác văn bản ở chỗ nó không chỉ chứa các thông tin dạng văn bản thô
mà nó còn chứa đựng cả cấu trúc và hình ảnh nhúng Ví dụ, dữ liệu tài liệu được tạo ra, chèn vào và phục hồi nhờ sử dụng các ngôn ngữ đánh dấu chuẩn như HTML hay SGML Trong các trường hợp như vậy cấu trúc của tài liệu
có thể được khai thác dựa trên mục lục dữ liệu…
chúng ta thường ghi những ghi chú trên những mẩu giấy nhỏ, điều này thường gây mất thông tin khi chúng ta giặt quần áo hay vì một lí do nào đó mà những
gì chúng ta ghi bị mờ đi Một số ghi chú có thể không quan trọng, nhưng có rất nhiều cái cần được giữ gìn Xu thế gần đây cả trên thương trường hay trong giới nghiên cứu người ta cho rằng ghi chép điện tử ngày càng phổ biến hơn trong tương lai Người sử dụng sẽ sử dụng các thiết bị điện tử để ghi chép và lưu trữ Mặc dù có rất nhiều ghi chú có thể chuyển sang dạng mã văn bản ASCII bằng kỹ thuật phân tích viết tay, nhưng có rất nhiều ghi chú không thể thực hiện được bởi vì các ghi chú thường chứa cả những nét loằng ngoằng hay các biểu đồ khối
Như vậy, thông tin đa phương tiện hay còn gọi là dữ liệu đa phương tiện, thể hiện các thông tin của máy tính qua các dạng truyền thông như video,
Trang 13âm thanh, hoạt hoạ (animation), ảnh, alphanumerics hoặc có sự kết hợp giữa các dạng truyền thông này
Dựa trên các loại dữ liệu truyền thông chúng ta có thể phân ra làm hai dạng truyền thông tĩnh và động Dữ liệu tĩnh có nội dung và ý nghĩa không phụ thuộc vào thời gian thể hiện như ảnh, alphanumerics, đồ hoạ Dữ liệu động có nội dung và ý nghĩa phụ thuộc thời gian Chẳng hạn như khi thực hiện một đoạn video cần dịch chuyển khoảng 25 đến 30 frames/giây để làm hình ảnh và âm thanh thay đổi Các dạng dữ liệu động khác như âm thanh và hoạt họa đều có mối quan hệ với thời gian
Việc truyền đạt thông tin và ý nghĩa của thông tin trong thực tế cũng có rất nhiều phương thức khác nhau Tuy nhiên, với dữ liệu đa phương tiện, các thông tin truyền đạt ý nghĩa nhanh và dễ hiểu hơn Do vậy mà ngày nay dữ liệu đa phương tiện được sử dụng trong nhiều ứng dụng thực tế như nghệ thuật, giáo dục, giải trí, kỹ thuật, y học, toán học, và cả trong các nghiên cứu khoa học, v.v Chính vì nhận thấy tầm quan trọng của dữ liệu đa phương tiện nên xuất hiện nhu cầu cần thiết về vấn đề quản lý như:
Khả năng lưu trữ dữ liệu do kích thước dữ liệu đa phương tiện lớn hơn so với các dạng dữ liệu thông thường;
Hỗ trợ truy vấn nhanh dữ liệu đa phương tiện do thời gian truyền tải
dữ liệu khi truy vấn không thể quá chậm vì tại mỗi thời điểm ý nghĩa của dữ liệu đa phương tiện có thể thay đổi
Hiện nay, có nhiều hệ quản trị cơ sở dữ liệu ( Database Management Systems- DBMS) cho phép người dùng tạo và quản trị các loại cơ sở dữ liệu (CSDL) khác nhau Mỗi một CSDL là một tập hợp dữ liệu có quan hệ với nhau Khi làm việc với CSDL thì dữ liệu được xem như một tập các bản ghi
Tuy nhiên, do dữ liệu đa phương tiện có có tính chất và yêu cầu đặc biệt, khác xa với loại dữ liệu chữ và số CSDL truyền thống không phù hợp
Trang 14trong việc quản lý dữ liệu đa phương tiện Hơn nữa các kỹ thuật truy tìm thông tin có thể giúp truy tìm các đối tượng đa phương tiện nhưng chúng chưa
có khả năng quản lý hiệu quả dữ liệu đa phương tiện vì vậy cần có CSDLĐPT
Hệ thống quản trị cơ sở dữ liệu đa phương tiện ( Multimedia Database Management Systems- MMDBMS) là một khung làm việc để quản lý các kiểu dữ liệu khác nhau mà chúng được thể hiện trong rất nhiều khuôn dạng khác nhau Để làm việc thành công thì một MMDBMS phải có các khả năng sau:
tiện: các media khác nhau như đã đề cập ở trên và các thao tác thông thường cũng như các thao tác đặc biệt mà kiểu dữ liệu thông thường không có như tiến, lùi, dừng
đề cập đến không gian lưu trữ của CSDL
Để xây dựng một CSDLĐPT hiệu quả thì nhiệm vụ thiết kế cơ sở dữ liệu đa phương tiện phải đảm bảo những yêu cầu gì, mục 2 sẽ trình bày rõ thêm
2 Các nhiệm vụ thiết kế và kiến trúc cơ sở dữ liệu đa phương tiện[2,3]
Như đã biết, định nghĩa CSDL đa phương tiện rất khác nhau Theo báo
cáo của dự án nghiên cứu EURESCOM thì CSDL đa phương tiện là một
CSDL có hiệu năng cao/sức chứa lớn với khả năng hỗ trợ các kiểu dữ liệu đa
Trang 15phương tiện cũng như các kiểu dữ liệu chữ số cơ bản khác và nó có thể quản
lý một khối lượng rất lớn thông tin đa phương tiện
Chúng ta đang đối mặt với sự bùng nổ thông tin đa phương tiện Thí dụ tồn tại một số lượng lớn ảnh và video trên Internet Rất nhiều tranh vẽ, ảnh chụp đang được chuyển sang dạng số để dễ xử lý và phân tán hay bảo quản Các bức ảnh từ bản tin TV và trên báo cũng đang được chuyển sang dạng số
để dễ dàng quản lý Lượng lớn ảnh y tế, ảnh vệ tinh đang được thu thập hàng ngày Xu thế này đã thúc đẩy phát triển công nghệ số lưu trữ và trình diễn Không thể sử dụng nhanh và hiệu quả các thông tin đa phương tiện này nếu chúng không được tổ chức tốt để có khả năng truy tìm nhanh
Không chỉ khối lượng dữ liệu đa phương tiện lưu trữ tăng nhanh mà các kiểu dữ liệu và đặc tính của chúng khác xa dữ liệu chữ và số Sau đây là một vài tính chất chính của dữ liệu đa phương tiện:
Thí dụ 10 phút video không nén có dung lượng 1,5 GB
mẫu, không có cấu trúc nhất định để máy tính tự động nhận biết
các loại media khác nhau Thí dụ, phim bao gồm các ảnh đồng bộ với âm thanh
để biểu diễn nội dung của chúng
Các hệ thống tự động truy tìm thông tin (IR – Information Retrieval) đã được phát triển để quản lý khối lượng lớn tài liệu cách đây vài chục năm Chức năng chính của hệ thống là lưu trữ và quản trị khối lượng văn bản lớn
Trang 16theo cách sao cho dễ dàng truy vấn tài liệu liên quan với người sử dụng Kỹ thuật IR rất quan trọng trong hệ thống quản trị thông tin đa phương tiện vì hai
lý do chính sau Thứ nhất, khối lượng văn bản rất lớn đang có sẵn trong các
cơ quan như thư viện Văn bản là nguồn thông tin quan trọng của mọi tổ chức
Để sử dụng hiệu quả thông tin trong các tài liệu này cần có hệ thống IR hiệu quả Thứ hai, văn bản còn được sử dụng để mô tả các loại media khác như âm thanh, ảnh và video Các kỹ thuật IR quen thuộc có thể được sử dụng để truy tìm thông tin đa phương tiện Tuy nhiên việc sử dụng IR để quản lý dữ liệu đa phương tiện có các hạn chế sau:
IR có thể đóng vai trò quan trọng trong MMDBMS
Nhiều phần dữ liệu đa phương tiện như ngày tạo lập, tác giả, v.v là có cấu trúc Chúng có thể được quản lý bằng các kỹ thuật DBMS Mô tả
(annotation) bằng văn bản vẫn còn là phương pháp hiệu quả để thu thập nội
dung dữ liệu đa phương tiện, do vậy các kỹ thuật IR vẫn đóng vai trò quan trọng
Do đó một kỹ thuật mới dựa trên kết hợp các kỹ thuật DBMS, IR và truy vấn trên cơ sở nội dung để tạo thành Hệ thống chỉ mục và truy tìm thông tin đa phương tiện (MIRS – Multimedia Indexing & Retrieval System) , một
Trang 17MIRS đầy đủ được gọi là Hệ quản trị CSDL đa phương tiện (MMDBMS – Multimedia Database Management System)
2.1 Khái quát về MIRS
Hoạt động của hệ thống MIRS được mô tả trên hình 1.1 Dữ liệu (các mục thông tin) trong CSDL được tiền xử lý để trích chọn đặc trưng và nội dung ngữ nghĩa Sau đó chúng được chỉ số hóa trên cơ sở đặc trưng và ngữ nghĩa
Trong khi truy tìm thông tin, câu truy vấn của người sử dụng được xử
lý và các đặc trưng chính của nó được trích chọn Các đặc trưng này sau đó được so sánh với các đặc trưng hay chỉ mục của mỗi mục thông tin trong CSDL Các mục thông tin nào có đặc trưng gần giống nhất với các đặc trưng của câu truy vấn thì được tìm ra và trình diễn cho người sử dụng
Mẫu truy vấn có thể mô tả như sau:
Trang 18Mô hình trên hình 1.1 cho thấy rất nhiều nhiệm vụ phải thực hiện, thí dụ:
hiệu quả?
truy vấn phức tạp, mờ và mềm dẻo?
Chỉ số hoá
Tính toán sự tương
tụ
Trả về những mục thông tin gần nhất
Hình 1.1: Hoạt động của hệ thống MIRS
Xử lí và trích chọn đặc
trưng Tiền xử lí và trích chọn
Trang 192.2 Kiến trúc của cơ sở dữ liệu đa phương tiện
Kiến trúc tổng quát của hệ thống
Kiến trúc MIRS cần mềm dẻo và dễ mở rộng để hỗ trợ các ứng dụng, truy vấn và nội dung (đặc trưng) khác nhau Để đạt yêu cầu này MIRS bao gồm nhiều môđun chức năng và quản lý khác nhau Bộ quản lý mới được dễ dàng bổ sung để mở rộng chức năng của MIRS Bộ quản lý hiện hành có thể được hủy bỏ hay thay thế cái mới để cập nhật chức năng
Cơ chế khác của MIRS là khả năng phân tán tự nhiên, nó bao gồm nhiều server và client Cơ chế này hình thành từ kích thước dữ liệu đa phương tiện rất lớn và nhu cầu ứng dụng đồng thời của nhiều người như hệ thống thư viện số và hệ thống video theo yêu cầu
Hình 1.2 chỉ ra kiến trúc cơ sở tổng thể của MIRS Các khối chức năng chính bao gồm UI, bộ trích chọn đặc trưng, quản lý truyền thông, chỉ số hóa
và môtơ tìm kiếm Các chức năng chính sẽ được mô tả thông qua các kịch bản vận hành của MIRS Hai thao tác chính của MIRS là:
Chèn mục đa phương tiện mới: Người sử dụng đặc tả một hay một
nhóm mục dữ liệu đa phương tiện thông qua UI Các mục được lưu trong tệp hay nhập trực tiếp từ thiết bị ngoài như microphone, CD player, VCR hay video camera Người sử dụng cũng có thể tự vẽ hình làm dữ liệu đầu vào Nội dung của chúng được trích trọn tự động hay bán tự động bằng các công cụ của
bộ trích chọn đặc trưng Các đặc trưng này và các mục gốc được gửi về máy chủ thông qua bộ quản lý truyền tin Tại máy chủ, các đặc trưng được tổ chức (chèn) theo lược đồ chỉ số hóa nào đó để truy vấn hiệu quả thông qua mô tơ truy vấn và chỉ số hóa Các thông tin chỉ số và các mục gốc được lưu trữ phù hợp thông qua bộ quản lý lưu trữ
Truy vấn thông tin: Người sử dụng đưa ra hay đặc tả truy vấn thống
Trang 20qua UI Truy vấn có thể là tệp lưu trữ trên đĩa hay nhập từ thiết bị vào (bàn phím, chuột) Có thể duyệt các mục trong CSDL để sử dụng nó làm mục truy vấn Nếu mục truy vấn không phải là cái đã có sẵn trong CSDL, các đặc trưng chính của truy vấn được trích chọn theo cách như khi thực hiện chèn mục dữ liệu Các đặc trưng này được gửi đến máy chủ thông qua bộ quản lý truyền tin Môtơ chỉ số hóa và tìm kiếm tìm trong CSDL để có các mục dữ liệu phù hợp với các đặc trưng truy vấn Các mục này được truy vấn nhờ bộ quản lý lưu trữ và gửi đến UI thông qua bộ quản lý truyền tin UI hiển thị danh sách các mục dữ liệu tới người sử dụng
Hình 1.2 là kiến trúc cơ sở tổng thể Có thể bổ sung các blốc chức năng hay bộ quản lý để đáp ứng yêu cầu từng ứng dụng cụ thể Chúng có thể là:
khác giữa các mục thông tin
Chỉ số hóa và môtơ tìm kiếm
Quản lý truyền tin
Quản lý truyền tin
Quản lý lưu trữ
Hình 1.2: Kiến trúc cơ sở tổng thể
Trang 21Các loại kiến trúc CSDLĐPT
Dữ liệu đa phương tiện có rất nhiều loại từ văn bản, hình ảnh, âm thanh đến những đoạn video có kích thước rất lớn Do đó chúng ta cần tổ chức thích hợp để khai thác một cách hiệu quả Hệ thống CSDL đa phương tiện thường được tổ chức theo 1 trong 3 kiến trúc sau: tự trị, đồng nhất và lai
2.2.2 Kiến trúc đồng nhất (uniformity)
Với kiến trúc dạng này thay vì việc phân chia các loại dữ liệu thành các nhóm riêng biệt chúng ta cố gắng tìm một cấu trúc trừu tượng để có thế sử dụng làm chỉ mục chung cho toàn bộ các kiểu dữ liệu gọi là unified index (hình 1.4) Chúng ta có thể thể hiện nội dung của tất cả các đối tượng dữ liệu khác nhau (văn bản, hình ảnh, âm thanh, video…) trong cùng một cấu trúc dữ liệu và sau đó xây dựng các giải thuật truy vấn trên cấu trúc dữ liệu đó Kiến trúc này đòi hỏi việc kiểm tra nội dung của mỗi kiểu dữ liệu và trừu tượng hóa các phần chung sau đó xây dựng chỉ mục dựa trên các thành phần đã được nhận dạng Với kiến trúc này việc tương tác giữa các loại dữ liệu là rất thuận tiện vì chúng có cùng cấu trúc dữ liệu Tuy nhiên kiến trúc này đòi hỏi
Trang 22giai đoạn trừu tượng hóa dữ liệu mất rất nhiều thời gian và có thể phải làm thủ công hoặc bán tự động bởi nếu làm tự động có thể gây mất hoặc thiếu thông tin
Multimedia Query Engine (máy truy vấn)
trả lời
Tài liệu ảnh Âm thanh Video
Trang 232.2.3 Kiến trúc lai (hybrid)
Kiến trúc này là sự kết hợp của 2 kiến trúc trên (hình 1.5) Một số kiểu
dữ liệu sử dụng chỉ mục của riêng nó, một số khác sử dụng theo kiến trúc đồng nhất tùy thuộc vào đặc điểm cũng như yêu cầu ứng dụng Kiến trúc này tận dụng được ưu điểm của cả hai loại kiến trúc trên và hạn chế những nhược điểm của chúng
3 Mô hình dữ liệu đa phương tiện[3,5]
3.1 Yêu cầu mô hình dữ liệu
Vai trò của mô hình dữ liệu trong DBMS là cung cấp khung làm việc (hay ngôn ngữ) để biểu diễn thuộc tính các mục dữ liệu mà nó sẽ được lưu trữ
và truy vấn nhờ hệ thống Khung làm việc phải cho phép người sử dụng và người thiết kế định nghĩa, chèn, hủy, sửa đổi và tìm kiếm mục dữ liệu và thuộc tính Trong CSDLĐPT mô hình dữ liệu được bổ sung các vai trò đặc tả
và tính toán ở mức trừu tượng khác
Multimedia Query Engine (máy truy vấn)
Unified Index (chỉ mục đồng nhất)
Hình 1.5 Kiến trúc lai
Truy vấn
người dùng
trả lời
Tài liệu Ảnh Âm thanh Video
Media Index
(chỉ mục riêng)
Trang 24Mô hình dữ liệu đa phương tiện thu thập (capture) thuộc tính tĩnh và
thuộc tính động của các mục dữ liệu, cung cấp cơ sở hình thức để phát triển các công cụ phù hợp, cần thiết khi sử dụng dữ liệu đa phương tiện Đặc tính tĩnh bao gồm các đối tượng hình thành nên dữ liệu đa phương tiện, quan hệ giữa các đối tượng và các thuộc tính đối tượng Thí dụ các đặc tính động bao gồm các đặc tính liên quan đến tương tác giữa các đối tượng, các thao tác trên đối tượng, tương tác với người sử dụng
Mô hình dữ liệu phong phú đóng vai trò quan trọng vào tính ứng dụng được của CSDLĐPT Các kiểu dữ liệu đa phương tiện cơ bản được hỗ trợ để cung cấp nền tảng hình thành các đặc trưng bổ sung
Không gian đặc trưng đa chiều là đặc tính của chỉ số hóa đa phương tiện Mô hình dữ liệu cần hỗ trợ trình diễn không gian đa chiều này, đặc biệt thước đo khoảng cách trong nó
Tóm lại, mô hình CSDLĐPT cần đáp ứng các yêu cầu chính sau đây:
liệu mới
đối tượng tổ hợp với các quan hệ không gian và thời gian phức tạp
đặc tả, truy vấn và tìm kiếm trên các mức trừu tượng khác nhau
3.2 Mô hình dữ liệu đa phương tiện tổng quát
Mô hình CSDLĐPT này hình thành trên nền tảng nguyên tắc hướng đối tượng và phân cấp đa tầng (hình 1.6)
Trang 25Tầng đối tƣợng
Đối tượng bao gồm một hay nhiều mục media với các quan hệ không gian và thời gian xác định Thí dụ một đối tượng đa phương tiện là một trang slide bao gồm vài ảnh và audio kèm theo
Nhiệm vụ mấu chốt là bằng cách nào để chỉ ra các quan hệ không gian
và thời gian Quan hệ không gian được đặc tả bởi kích thước và vị trí cửa sổ hiển thị của mỗi mục Phương pháp chung đặc tả thời gian là đặc tả trên cơ sở trục thời gian trong đó thời gian bắt đầu và độ dài mỗi mục được xác định trên
cơ sở đồng hồ chung Phương pháp khác là mô hình điều khiển theo sự kiện
Tầng loại media
Tầng này bao gồm các loại media chung như văn bản, đồ họa, ảnh, audio và video Các loại này được suy diễn từ lớp media trừu tượng chung Tại mức này, các đặc trưng và thuộc tính được đặc tả Thí dụ loại media ảnh: kích thước, biểu đồ màu, các đối tượng chính nó chứa được đặc tả Các đặc trưng này được sử dụng trực tiếp vào tìm kiếm và tính toán khoảng cách
Văn bản Ảnh Đồ họa Âm thanh
Tầng khuôn mẫu media
Hình 1.6: Mô hình dữ liệu đa phương tiện tổng quát
Trang 26Tầng khuôn mẫu media
Tầng này đặc tả khuôn mẫu, trong đó dữ liệu được lưu trữ Loại media thông thường có nhiều khuôn mẫu có thể, thí dụ ảnh có thể là nén hay ảnh thô Hơn nữa có rất nhiều kỹ thuật và chuẩn nén khác nhau Thông tin chứa trong tầng này được sử dụng để giải mã, phân tích và trình diễn
Các nhiệm vụ khác
Chú ý rằng vào thời điểm này không có chuẩn chung cho các tầng mô hình dữ liệu mô tả trên, các ứng dụng khác nhau có thể cần các mô hình dữ liệu khác nhau Tuy nhiên nhiều ứng dụng cùng chia sẻ mô hình cơ sở chung, nếu được thiết kế tốt thì có thể bổ sung các đặc trưng và đối tượng mới để đáp ứng yêu cầu ứng dụng cụ thể
Thí dụ : Mô hình video tổng quát
Mô hình video tổng quát bao gồm 4 tầng: frame, shot, scene (hay
sequence) và episode (video document) như trên hình 1.7
Frame là các video và ảnh độc lập
Short là tập các frames được ghi hình bằng camera trong một lần
bấm máy
Scene là tập các shot có cùng ngữ nghĩa
Episode là tập các scenes trong trình tự cụ thể Đó là một đơn vị
sản phẩm (thí dụ, chương trình bản tin TV)
Trang 27Các thuộc tính được gắn vào từng tầng video Tại tầng episode, ta có
thể gán dữ liệu thực sự như tiêu đề, tác giả, ngày tháng tạo lập và các thông
tin liên quan đến kiểu video như chương trình tin tức Scene chứa ngữ nghĩa
chung chia sẻ giữa các shot của nó Các shot được đặc trưng bởi các frames
chính (đại diện) của nó và các dữ liệu khác như các đối tượng chính, ngày
tháng và nơi shot Mỗi frame chứa dữ liệu ảnh thô cũng như thống kê ảnh như
biểu đồ màu
Cơ sở dữ liệu đa phương tiện liên quan đến nhiều lĩnh vực khác nhau
và khá phức tạp Phần tiếp theo của luận văn là tập trung nghiên cứu để xây
dựng CSDL video trong CSDL đa phương tiện
Episode
Scene Scene Scene
Short Short Short Short
Frame Frame
Hình 1.7: Mô hình video tổng quát
Trang 28CHƯƠNG II: MỘT SỐ VẤN ĐỀ VỀ CHỈ MỤC, TRUY VẤN VIDEO
THEO NỘI DUNG TRONG CSDL ĐA PHƯƠNG TIỆN
1 Video số [1,3,5]
1.1 Biểu diễn video số
Video là media giàu thông tin Một video đầy đủ bao gồm phụ đề (subtitle) bằng text, rãnh tiếng (tiếng nói và không phải tiếng nói), các ảnh được ghi và trình chiếu theo tốc độ cố định Vậy video được xem như tổ hợp text, audio và các ảnh có chiều thời gian Thêm nữa, video còn kết hợp với metadata như tên video, tác giả/nhà sản xuất
Thông thường video số có được từ số hóa video tuyến tính Trình tự video số bao gồm các frame hay ảnh sẽ trình chiếu theo tốc độ cố định Tốc
độ frame của video chuyển động được xác định bởi ba yếu tố:
frame/sec sẽ đạt được chuyển động trơn tru
hiệu video
ngắn Nếu khoảng cách làm tươi quá lớn sẽ làm màn hình nhấp nháy Thực nghiệm cho thấy cần làm tươi 50 lần/sec để tránh nhấp nháy
Hai đặc trưng chính của video là có chiều thời gian và có lượng dữ liệu khổng lồ Thí dụ, 10 phút video với ảnh 512x512 pixel, depth 24 bit/pixel, tốc
độ frame là 30 frame/s đòi hỏi 600*30*512*x512*3=13.8 GB bộ nhớ Do vậy, việc nén video là nhu cầu cần thiết
Trang 291.2.1 Lấy mẫu màu là nén
Phần này đề cập đến phân dải màu của tín hiệu video số Như ta đã biết không gian màu YCbCr là cách biểu diễn số của không gian màu YUV Vì mắt người nhạy cảm với thành phần Y hơn hai thành phần màu, cho nên nén
ở đây được thực hiện bằng cách lấy mẫu Cb và Cr với tần số thấp hơn so với
lấy mẫu thành phần Y (gọi là chroma subsampling) Có nghĩa rằng một số
thông tin về màu của tín hiệu video số bị loại bỏ
Gán các giá trị 4:n:n cho YCbCr: Giá trị 4 biểu diễn tần số lấy mẫu
13.5 MHz, đó là tần số chuẩn (ITU-R BT.601) của TV số NTSC, PAL và SECAM Hai số tiếp theo biểu diễn tốc độ lấy mẫu các thành phần màu Cb và
Cr
Mã hóa 4:4:4 có nghĩa rằng tốc độ lấy mẫu của Cb, Cr và độ sáng là như nhau (MPEG-2 sử dụng mã hóa này) Mã hóa 4:2:2 có nghĩa Cb và Cr được lấy mẫu bằng 1/2 mật độ chiều ngang của Y (sử dụng cho DV tại 50 Mbps, Betacam số ) Mã hóa 4:1:1 có nghĩa Cb và Cr được lấy mẫu bằng 1/4 mật độ chiều ngang của Y (khuôn mẫu DV, DVCAM sử dụng) Mã hóa 4:2:0
có nghĩa rằng Cb, Cr được lấy mẫu tại độ phân giải bằng 1/2 của Y theo chiều đứng và cả chiều ngang (dành cho MPEG-1, MPEG-2 và H.261/263)
Trang 301.2.2 Ƣớc lƣợng và bù chuyển động
Ước lượng và bù chuyển động khai thác đặc tính dư thừa trong video Chuyển động trong ảnh được hiểu là các pixel trong ảnh trước có vị trí khác trong ảnh hiện tại Trong kỹ thuật ước lượng và bù chuyển động, mỗi ảnh được chia thành các khối có kích thước cố định Tìm khối phù hợp nhất trong ảnh trước Dịch chuyển vị trí giữa hai khối gọi là véc tơ chuyển động Tính khoảng cách giữa các pixel để có khoảng cách giữa các khối Véctơ chuyển động và sự khác nhau giữa các khối được mã hóa và truyền tải
1.2.3 MPEG (Moving Picture Experts Group)
Chuẩn MPEG (Moving Picture Experts Group) là chuẩn nén, giải nén
và đồng bộ hoá các tín hiệu Video và Audio được ra đời vào năm 1988
Chất lượng hình ảnh có thể được cải thiện đáng kể bằng cách dùng tỉ lệ nén dữ liệu lớn hơn mà không cần thay đổi độ phân giải MPEG không phải là một công cụ nén đơn lẻ mà ưu điểm của nén MPEG chính là ở chỗ nó có một tập hợp các công cụ mã hoá chuẩn, chúng có thể được kết hợp với nhau một cách linh động để phục vụ cho một loạt các ứng dụng khác nhau
Các chuẩn MPEG hiện có gồm:
+ MPEG-1 là chuẩn lưu trữ và phục hồi ảnh động và Audio trong lưu trữ Media MPEG-1 có thể nén tín hiệu video tới 1.5Mbit/s với chất lượng VHS và âm thanh lập thể (stereo audio) với tốc độ 192 bit/s Nó được dùng để lưu trữ video và âm thanh trên CD-ROM
+ MPEG-2 là chuẩn cho TV số
+ MPEG-4 là chuẩn cho các ứng dụng MultiMedia MPEG-4 trở thành một tiêu chuẩn cho nén ảnh kỹ thuật truyền hình số, các ứng dụng về đồ hoạ
và Video tương tác hai chiều (Games, Videoconferencing) và các ứng dụng Multimedia tương tác hai chiều (World Wide Web hoặc các ứng dụng nhằm
Trang 31phân phát dữ liệu Video như truyền hình cáp, Internet Video ) MPEG-4 đã trở thành một tiêu chuẩn công nghệ trong quá trình sản xuất, phân phối và truy cập vào các hệ thống Video Nó đã góp phần giải quyết vấn đề về dung lượng cho các thiết bị lưu trữ, giải quyết vấn đề về băng thông của đường truyền tín hiệu Video hoặc kết hợp cả hai vấn đề trên
+ MPEG-7 chứa đặc tả thông tin, giao diện cho việc tìm kiếm thông tin
Nén MPEG là sự kết hợp hài hoà của bốn kỹ thuật cơ bản:
+ Tiền xử lý (Preprocessing)
+ Đoán trước sự chuyển động của các frame ở bộ mã hoá (temporal prediction)
+ Bù chuyển động ở bộ giải mã (motion compensation)
+ Mã lượng tử hoá (quatisation coding)
Các bộ lọc tiền xử lý sẽ lọc ra những thông tin không cần thiết từ tín hiệu video và những thông tin khó mã hoá nhưng không quan trọng cho sự cảm thụ của mắt người
Kỹ thuật đoán chuyển động dựa trên nguyên tắc là các ảnh trong chuỗi video dường như có liên quan mật thiết với nhau theo thời gian: Mỗi frame tại một thời điểm nhất định sẽ có nhiều khả năng giống với các frame đứng ngay phía trước và ngay phía sau nó
Các bộ mã hoá sẽ tiến hành quét lần lượt từng phần nhỏ trong mỗi frame gọi là macro blocks, sau đó nó sẽ phát hiện macro block nào không thay đổi từ frame này tới frame khác Bộ mã hoá sẽ tiên đoán trước sự xuất hiện của các macro blocks khi biết vị trí và hướng chuyển động của nó Do đó chỉ những sự thay đổi giữa các khối trong frame hiện tại (motion compesated residual) và các khối được tiên đoán mới được truyền tới bên phía thu Phía bên thu tức bộ giải mã đã lưu trữ sẵn những thông tin mà không thay đổi từ
Trang 32frame này tới frame khác trong bộ nhớ đệm của nó và chúng được dùng để điền thêm một cách đều đặn vào các vị trí trống trong ảnh được khôi phục
Nén tín hiệu video được thực hiện nhờ việc loại bỏ cả sự dư thừa về không gian (spatial coding) và thời gian (temporal coding)
Trong MPEG, việc loại bỏ dư thừa về thời gian (nén liên ảnh) được thực hiện trước hết nhờ sử dụng các tính chất giống nhau giữa các ảnh liên tiếp (Inter-frame techniques) Chúng ta có thể sử dụng tính chất này để tạo ra các bức ảnh mới nhờ vào những thông tin từ những ảnh đã gửi trước nó Do vậy ở phía bộ mã hoá, chỉ cần gửi những bức ảnh có thay đổi so với những ảnh trước, sau đó ta lại dùng phương pháp nén về không gian để loại bỏ sự dư thừa về không gian trong chính bức ảnh sai khác này
Nén về không gian dựa trên nguyên tắc là phát hiện sự giống nhau của các điểm ảnh (pixels) lân cận nhau (Intra-frame coding techniques)
Thuật toán nén MPEG cũng dựa trên phép biến đổi DCT cho các khối ảnh 8x8 picxels để tìm ra sự thừa về không gian một cách có hiệu quả giữa các điểm ảnh trong cùng một bức ảnh Tuy nhiên, trong trường hợp có mối tương quan chặt chẽ giữa các điểm ảnh trong các bức ảnh kế tiếp nhau tức là trong trường hợp hai bức ảnh liên tiếp có nội dung trùng nhau, kỹ thuật Inter-frame coding techniques sẽ được dùng cùng với việc tiên đoán sự dư thừa về không gian để tạo thành kỹ thuật tiên đoán bù chuyển động giữa các bức ảnh Trong nhiều sơ đồ nén MPEG, người ta thường kết hợp cả việc tiên đoán bù chuyển động theo thời gian và phép biến đổi thông tin theo không gian để đạt hiệu quả nén cao
Hầu hết các sơ đồ nén MPEG đều dùng kỹ thuật lấy mẫu bổ xung (Subsampling) và lượng tử hoá (Quantization) trước khi mã hoá Lấy mẫu bổ xung nhằm mục đích để làm giảm kích thước bức ảnh đầu vào theo cả theo chiều ngang và chiều dọc, như vậy sẽ giảm số lượng các điểm ảnh trước mã
Trang 33hoá Cũng nên nhớ rằng trong một số trường hợp người ta còn lấy mẫu bổ xung theo thời gian để làm giảm số lượng các bức ảnh trong dãy ảnh trước khi
mã hoá Đây được xem như là một kỹ thuật rất cơ bản nhằm loại bỏ sự dư thừa dựa vào khả năng lưu ảnh của mắt người cảm thụ Thường thường, chúng ta có thể phân biệt sự thay đổi về độ sáng của ảnh tốt hơn so với sự thay đổi về màu Do đó trước hết các sơ đồ nén MPEG sẽ tiến hành chia bức ảnh thành các thành phần Y và UV tức là một thành phần về độ sáng và hai thành phần về độ màu Các tín hiệu video thành phần này sẽ được lấy mẫu và
số hoá để tạo nên các điểm ảnh rời rạc theo tỷ lệ 4 : 2 : 2 và 4 : 2 : 0
Kỹ thuật tiên đoán bù chuyển động được sử dụng như là một trong những công cụ mạnh để làm giảm sự dư thừa về không gian giữa các bức ảnh Khái niệm về bù chuyển động là dựa trên sự phán đoán hướng chuyển động của các bức ảnh tức là các ảnh thành phần trong dãy video sẽ được thay thế gần đúng Kỹ thuật tiên đoán bù chuyển động giữa các bức ảnh được xem như
là biện pháp để hạn chế bớt các thông số của chuyển động bởi việc dùng các vector chuyển động để mô tả sự dịch chuyển của các điểm ảnh Kết quả tiên đoán tốt nhất của một điểm ảnh là dựa trên sự tiên đoán bù chuyển động từ một bức ảnh đã mã hoá được truyền phía trước của nó Cả hai thông số, sai số chuyển động (biên độ) và các vectors chuyển động (hướng chuyển động) đều được truyền tới phía bên nhận Tuy nhiên do có mối quan hệ tương quan chặt chẽ giữa các điểm ảnh về không gian (trùng về không gian), một vector chuyển động có thể được dùng cho một khối các điểm ảnh gồm các pixels lân cận nhau (MPEG -1 và MPEG -2 dùng các khối 16 x16 pixels)
Trong MPEG-2, có nhiều phương pháp để tiên đoán sự chuyển động
Ví dụ một khối ảnh có thể được tiên đoán xuôi từ những ảnh đã được truyền trước nó (Forward Predicted), có thể đoán ngược từ những ảnh truyền sau nó (Backward Predicted) hoặc theo cả hai chiều (Bidirectionally Predicted) Các
Trang 34phương pháp dùng để tiên đoán các khối trong cùng một ảnh cũng có thể không giống nhau, chúng có thể thay đổi từ khối nọ sang khối kia Hơn nữa, hai trường trong cùng một khối cũng có thể được tiên đoán theo hai cách khác nhau dùng các vector độc lập nhau hoặc chúng có thể dùng chung một vector Đối với mỗi khối ảnh, bộ mã hoá sẽ chọn các phương pháp tiên đoán thích hợp, cố gắng đảm bảo chất lượng ảnh tốt nhất khi được giải mã trong điều kiện yêu cầu khắt khe về số bit Các thông số liên quan tới chọn phương pháp tiên đoán cũng được truyền tới bộ giải mã cùng với dự đoán sai số nhằm khôi phục gần chính xác ảnh gốc
Trong MPEG, có 3 kiểu ảnh khác nhau được dùng để mã hoá cho các khối ảnh:
- Kiểu ảnh „Intra‟ (I-pictures) là ảnh được mã hoá một cách độc lập mà không cần tham khảo tới các ảnh khác Hiệu quả nén tín hiệu đạt được do loại
bỏ sự thừa về không gian mà không có yếu tố thời gian tham gia vào quá trình I-pictures được dùng một cách tuần hoàn để tạo thành các điểm tựa cho dòng dữ liệu trong quá trình giải mã
- Ảnh „Predictive‟ (P-pictures) có thể sử dụng các ảnh I hoặc P ngay sát phía trước nó để bù chuyển động và chính nó cũng có thể được dùng để tham khảo cho việc tiên đoán các ảnh khác tiếp theo Mỗi khối ảnh trong P-picture
có thể hoặc được mã theo kiểu tiên đoán (predicted) hoặc được mã một cách độc lập (intra-coded) Do sử dụng cả nén theo không gian và thời gian, hiệu quả nén của P-pictures được tăng lên một cách đáng kể so với I-pictures
- Ảnh „Bidirectionally-Predictive‟ pictures hay B- Pictures có thể sử dụng các ảnh I hoặc P phía trước hoặc phía sau nó cho việc bù chuyển động
và do vậy cho kết quả nén cao nhất Mỗi khối trong B-pictures có thể được tiên đoán theo chiều ngược, xuôi, cả hai hướng hoặc được mã một cách độc lập Để có thể tiên đoán ngược từ một bức ảnh phía sau nó, bộ mã hoá sẽ tiến
Trang 35hành sắp xếp lại các bức ảnh từ thứ tự xuất hiện một cách tự nhiên sang một thứ tự khác của các ảnh trên đường truyền Do vậy từ đầu ra của bộ mã hoá, B-pictures được truyền sau các ảnh dùng để tham khảo ở phía trước và phía sau của nó Điều này sẽ tạo ra độ trễ do phải sắp xếp lại thông tin, độ trễ này lớn hay nhỏ là tuỳ thuộc vào số các bức ảnh B-pictures liên tiếp nhau được truyền
Các ảnh I, P, B-pictures thường xuất hiện theo một thứ tự lặp đi lặp lại một cách tuần hoàn, do đó ta có khái niệm về nhóm các bức ảnh GOP (Group
of Pictures) Một ví dụ của GOP ở dạng ảnh tự nhiên xuất hiện theo thứ tự như sau:
Chú ý rằng đặc trưng quan trọng nhất của các chuẩn MPEG là chỉ ra cú pháp của dòng bit mã hóa, để bộ giải mã có thể giải mã dòng bit Các chuẩn
không chỉ ra cách sinh bitstream Điều này cho khả năng đổi mới khi thiết kế
và cài đặt bộ mã hóa
Các chuẩn MPEG-1 và MPEG-2 được áp dụng rộng rãi trong các hệ thống đa phương tiện MPEG-2 được đề xuất như chuẩn mã hóa cho HDTV tại châu Âu và Mỹ
Sau đây là chi tiết của các chuẩn MPEG-1, MPEG-2, MPEG-4, MPEG-7:
Trang 36MPEG-1
MPEG-1 làm việc tối ưu với bit rate 1.5 Mbps Tuy nhiên có thể làm việc với bit rate cao hơn hay thấp hơn Đây là chuẩn lưu trữ và truy tìm ảnh động và âm thanh trên phương tiện lưu trữ
MPEG-1 video sử dụng tổ hợp bù chuyển động và kỹ thuật mã hóa trên
cơ sở DCT Các bước mã hóa chính bao gồm:
mật độ không gian) thành khuôn mẫu vào xác định trước
thiết kế thuật toán MPEG là: Một bên phải đạt tỷ lệ nén cao cho nên phải sử
dụng kỹ thuật nén trong frame và giữa các frame Mặt khác đòi hỏi xâm nhập
ngẫu nhiên khi truy tìm ảnh thỏa mãn với ảnh mã hóa trong Để thỏa mãn yêu cầu này, MPEG-1 video có một vài ảnh mã hóa bên trong frame và các ảnh còn lại mã hóa giữa các frame
MPEG-1 định nghĩa 4 kiểu ảnh : I-pictures, P-pictures, B-pictures và
D-pictures D-pictures là ảnh mã hóa DC Mã hóa không tham chiếu đến bất
kỳ ảnh nào Chỉ DC của các hệ số DCT là được sử dụng Loại ảnh này được
sử dụng cho mode tìm kiếm nhanh (fast-forward search)
Gọi ảnh P và ảnh I là ảnh tham chiếu Các ảnh P và B là ảnh mã hóa dự báo Tổ chức ba loại ảnh trong trình tự video là rất mềm dẻo Bộ giải mã và yêu cầu ứng dụng quyết định việc lựa chọn chúng Thông thường ảnh I có thể xuất hiện mỗi ½ giây để dễ dàng xâm nhập ngẫu nhiên nhanh, với 2 ảnh B chèn vào giữa mỗi cặp ảnh I hay P
được mã hóa trong (intracoded) Các khối trong ảnh P được mã hóa trong hoặc mã hóa dự báo phía trước (forward predictive) trên cơ sở ảnh I và P
trước đó, phụ thuộc vào hiệu quả mã hóa Khối trong ảnh B được mã hóa
Trang 37trong, dự báo phía trước và dự báo phía sau (backward) hay mã hóa dự báo
hai chiều Với các khối mã hóa dự báo các véc tơ chuyển động được tìm ra và các lỗi dự báo được tính toán
thành 6 khối con 8x8 pixel (4 luminance và 2 chrominance) Áp dụng DCT 2
chiều cho từng khối để có các hệ số biến đổi, sau đó lượng tử hóa và duyệt
theo đường zigzag
(loại ảnh, địa chỉ khối và các véc tơ chuyển động) được mã hóa bằng kỹ thuật Huffman và RLE
Chuẩn không chỉ ra các tiến trình mã hóa Các bước trên là các chức
năng sẽ thực hiện trong bộ mã hóa Chuẩn chỉ cho biết khuôn mẫu bitstream
đầu ra cho bộ mã hóa, không chỉ ra bộ mã hóa được cài đặt như thế nào
MPEG-2
MPEG-2 là mở rộng của MPEG-1 để mã hóa thông tin nghe nhìn chất lượng cao (chuẩn cho TV số) Nó sử dụng cùng quan niệm với MPEG-1 nhưng có cải tiến hơn
Các chức năng của MPEG-2 System tương tự MPEG-1 System Tuy
nhiên MPEG-2 System chỉ ra 2 khuôn mẫu datastream:
Program strream: tương tự chuẩn MPEG-1 System và tương
thích với MPEG-1 stream Program stream được tối ưu cho các ứng dụng
truy vấn đa phương tiện và thực hiện tiến trình hệ thống trong phần mềm
Transport stream: có thể thực hiện nhiều chương trình đồng thời
nó được tối ưu cho các ứng dụng nơi có thể mất dữ liệu Transport stream bao
gồm các gói có độ dài cố định Quan niệm tương tự các tế bào ATM, nhưng
độ dài gói là 188 bytes (bao gồm cả 4 byte header) thay cho 53 bytes trong tế
Trang 38bào ATM để tăng cường sử dụng băng thông Transport stream phù hợp cho truyền TV số trên cáp quang, vệ tinh, ATM và các mạng khác
Nén MPEG-2 video sử dụng cùng nguyên lý như nén MPEG-1 video với vài điểm mở rộng và tăng cường để hỗ trợ video chất lượng cao Phần mở rộng bao gồm:
Điều này đòi hỏi hỗ trợ interlaced video như CCIR 601
16,383 pixels
hỗn hợp (PAL, NTSC) để dễ dàng các thao tác hậu xử lý
mode scalable mã hóa MPEG-2 videostream thành các lớp khác nhau: cơ sở, trung bình và cao Nó cho phép bộ giải mã giải mã từng phần của video theo lựa chọn Thí dụ HDTV video được mã hóa thành các lớp khác nhau, trong đó
có một lớp tương thích với mật độ TV chuẩn Sau đó, TV chuẩn có thể chỉ giải mã lớp để chương trình TV thông thường nhận được
các tham số hữu ích cho phần lớn ứng dụng MPEG-1 Trong MPEG-2, quan niệm tương tự xác định tập con giới hạn khả năng của cài đặt cụ thể Mục tiêu của đặc tả MPEG-2 là để hỗ trợ dải rộng các ứng dụng, bit rate, mật độ, chất lượng và các dịch vụ Các ứng dụng có thể là lưu trữ số, TV, truyền tin Đặc
tả MPEG-2 video làm dễ dàng trao đổi bitstream giữa các ứng dụng khác nhau
Trang 39MPEG-4
Mục tiêu của MPEG-4 là cung cấp công nghệ lõi chuẩn hóa để lưu trữ, truyền tin, chế tác dữ liệu đa phương tiện một cách hiệu quả (chuẩn cho ứng dụng đa phương tiện)
Đặc trưng chính của thành phần trực quan của MPEG-4 là cung cấp công cụ để giải mã và trình diễn các đơn vị cơ sở của nội dung ảnh, video và
gọi là “video object – VO” Thí dụ VO là người đang nói, nó có thể tổ hợp với các đối tượng nghe nhìn khác (audiovisual object – AVO) để tạo ra kịch bản
Frame hay ảnh được quản lý như trường hợp đặc biệt của VO
MPEG-4 chỉ ra mã hóa và trình diễn VO tự nhiên và tổng hợp Các VO
tự nhiên được xem như đồ họa máy tính phù hợp cho rendering và animation Với VO tự nhiên, các hình hay biên của đối tượng cần nhận biết trước Thông tin hình dạng và texture của đối tượng được mã hóa riêng Thông tin texture được mã hóa tương tự MPEG-1 video Chú ý rằng MPEG-4 không chỉ ra xác định biên đối tượng bằng cách nào
Với mã hóa trên cơ sở đối tượng, có thể nén hiệu quả dữ liệu Cho khả năng chỉ số hóa và tìm kiếm trên cơ sở nội dung các dữ liệu đa phương tiện
MPEG-7
Một thành phần mới trong họ MPEG có tên “multimedia content
description interface” – MPEG-7 Nó đặc tả tập bộ mô tả chuẩn, nó sẽ được
sử dụng để mô tả các loại thông tin đa phương tiện khác nhau, và để truy vấn thông tin đa phương tiện một cách hiệu quả
MPEG-7 còn chuẩn hóa các cách định nghĩa các bộ mô tả khác cũng như cấu trúc (lược đồ mô tả) cho các bộ mô tả và quan hệ giữa chúng Mô tả này (tổ hợp bộ mô tả và lược đồ mô tả) kết hợp với nội dung để tìm kiếm nhanh và hiệu quả theo yêu cầu người dùng Các loại thông tin được tìm kiếm
Trang 40có thể là ảnh, đồ họa, mô hình 3D, audio, tiếng nói, video và các thông tin chỉ
ra cách tổ hợp chúng với nhau trong trình diễn đa phương tiện (thông tin tổ hợp kịch bản)
Chuẩn MPEG-7 hình thành trên cơ sở các chuẩn khác như analog, PCM, MPEG-1, 2 và 4 Một chức năng quan trọng của chuẩn là cung cấp tham chiếu đến phần thích hợp khác của nó Thí dụ, bộ mô tả hình dạng được
sử dụng trong MPEG-4 là có ích trong ngữ cảnh MPEG-7, tương tự có thể áp dụng cho các trường véc tơ chuyển động trong MPEG-1 và MPEG-2
Tuy nhiên các bộ mô tả MPEG-7 không phụ thuộc vào cách mà nội dung mô tả được mã hóa và lưu trữ
Chú ý quan trọng là, MPEG-7 chuẩn hóa mô tả nội dung và các đặc trưng đa phương tiện Nhưng nó không chuẩn hóa các công cụ để trích chọn các đặc trưng và các công cụ để mô tả
Các chuẩn khác
Ngoài chuẩn MPEG, các chuẩn liên quan đến video khác bao gồm IYU-T H.261 và H.263 Nguyên tắc nén của chúng tương tự MPEG Chúng được phát triển cho hội nghị truyền hình và đàm thoại video
2 Lập chỉ mục video[3,5,6,7]
2.1 Phân loại
Vì video được xem như tổ hợp text, audio và các ảnh có chiều thời gian Thêm nữa, video còn kết hợp với metadata như tên video, tác giả/nhà sản xuất Do vậy, các phương pháp sau đây có thể được sử dụng để chỉ mục
và truy tìm video:
tìm trên cơ sở metadata có cấu trúc nhờ DBMS truyền thống Metadata thường thấy là tên video, tác giả/đạo diễn/nhà sản xuất, ngày sản xuất và loại video