1. Trang chủ
  2. » Luận Văn - Báo Cáo

Mã hóa video mở rộng được

67 604 3

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 67
Dung lượng 2,03 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Mở rộng không gian tại các lớp nâng cao mã hóa ảnh ở những độ phân giải khác nhau Hình 3.2 là ví dụ về bộ mã hóa và giải mã sử dụng mở rộng không gian... Các Level xác định trong chuẩn H

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THỊ HUYỀN LƯƠNG

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THỊ HUYỀN LƯƠNG

MÃ HÓA VIDEO MỞ RỘNG ĐƯỢC

Ngành: Điện tử viễn thông

Chuyên ngành: Kỹ thuật điện tử

Mã số: 60 52 70

LUẬN VĂN THẠC SĨ

NGƯỜI HƯỚNG DẪN KHOA HỌC: Tiến sĩ Lê Vũ Hà

Hà Nội, 11-2011

Trang 3

MỤC LỤC

LỜI MỞ ĐẦU 2

DANH MỤC KÝ HIỆU, THUẬT NGỮ VIẾT TĂT……… 3

DANH MỤC CÁC HÌNH VẼ……… 4

DANH MỤC CÁC BẢNG……… 5

CHƯƠNG 1 - CƠ SỞ VỀ NÉN DỮ LIỆU VIDEO 3

1.1 SỰ CẦNTHIẾTCỦA NÉN DỮLIỆU 3

1.2 QUÁ TRÌNH BIẾNĐỔIDỮLIỆU MÀU 4

1.3 CÁC TIÊU CHUẨNLẤYMẪUDỮLIỆU VIDEO SỐ 5

1.4 CÁC KHÁI NIỆMCƠBẢN TRONG CÁC CHUẨN NÉN VIDEO 6

CHƯƠNG 2 - KỸ THUẬT NÉN VIDEO 9

2.1 PHÂN LOẠI CÁC KỸ THUẬT NÉN 9

2.2 MÔ HÌNH NÉN VIDEO 9

2.3 TIÊU CHUẨN ĐÁNH GIÁ CHẤT LƯỢNG ẢNH NÉN 11

CHƯƠNG 3 - MÃ HÓA VIDEO MỞ RỘNG ĐƯỢC 13

3.1 MÃ HÓA VIDEO MỞ RỘNG ĐƯỢC TRONG CÁC CHUẨN NÉN TRƯỚC ĐÂY 13

3.2 MÃ HÓA VIDEO MỞRỘNGĐƯỢC 17

3.2.1 CÁC ĐẶC ĐIỂM CỦA CHUẨN NÉN VIDEO H.264 17

3.2.2 MÃ HÓA VIDEO MỞ RỘNG ĐƯỢC TRONG H.264 19

3.2.3 ỨNG DỤNG CỦA MÃ HÓA VIDEO MỞ RỘNG ĐƯỢC 30

3.2.4 HIỆU SUẤT CỦA MÃ HÓA VIDEO MỞ RỘNG ĐƯỢC 30

3.2.5 MÔ PHỎNG MỘT VÀI CHỨC NĂNG CỦA MÃ HÓA VIDEO MỞ RỘNG BẰNG PHẦN MỀM JSVM 9.19.14 33

CHƯƠNG 4 CÀI ĐẶT THỬ NGHIỆM VÀ ĐÁNH GIÁ HIỆU QUẢ CỦA MỘT GIẢI THUẬT CHỌN MODE SỬ DỤNG TRONG SVC 49

4.1 CƠ SỞ LÝ THUYẾT CỦA GIẢI THUẬT 49

4.2 GIẢI THUẬT 51

4.3 KẾTQUẢ MÔ PHỎNG 56

PHỤ LỤC 59

KẾT LUẬN 64

TÀI LIỆU THAM KHẢO 65

Trang 4

LỜI MỞ ĐẦU

Do nhu cầu truyền thông đa phương tiện của xã hội ngày càng lớn, với các dịch vụ mới như truyền hình hội nghị, thoại thấy hình v.v đòi hỏi cao về tính thời gian thực, sự trung thực về hình ảnh và âm thanh; do đó, các dịch vụ này luôn chiếm thông lượng kênh truyền đáng kể Trong khi băng thông của các nhà cung cấp dịch vụ lại luôn hạn chế (do những giới hạn về mặt công nghệ hay do tính kinh tế ) và là tài nguyên quý giá Điều này

đã thúc đẩy việc nghiên cứu các công nghệ nén và mã hóa video để giảm tốc độ bit phát

đi trên kênh truyền từ đó tiết kiệm được băng thông, cũng như không gian bộ nhớ của các thiết bị lưu trữ, nhưng đồng thời vẫn đảm bảo chất lượng dịch vụ Trước thời điểm hiện tại đã có nhiều chuẩn nén ra đời, song hiệu quả chưa được như mong đợi Luận văn này tìm hiểu kỹ thuật mã hóa video mở rộng được SVC (Scalable Video Coding), đây là phần của chuẩn nén mới và tiên tiến nhất H.264/SVC do ITU ban hành Với các công cụ hiệu quả của nó, SVC có thể đáp ứng linh hoạt cho từng loại hình dịch vụ khác nhau, và phù hợp với các điều kiện truyền dẫn hay khả năng xử lý tại các điểm khai thác khác nhau SVC hứa hẹn sẽ trở thành kỹ thuật mã hóa video phổ biến nhất trong thời gian tới

Mục tiêu của luận văn là tìm hiểu về mã hóa video mở rộng được, cài đặt thử nghiệm và đánh giá hiệu quả của một giải thuật chọn mode cho các block cho một bộ nén video theo chuẩn H.264/SVC

Về mặt bố cục luận văn được trình bày theo bốn chương như sau:

Chương I : Cơ sở về nén dữ liệu video Chương này nêu ra sự cần thiết và cơ sở của việc nén tín hiệu video Trình bày quá trình biến đổi dữ liệu màu, các tiêu chuẩn lẫy mẫu dữ liệu video số và các khái niệm cơ bản trong các chuẩn nén video

Chương II: Kỹ thuật nén video Mô tả một mô hình nén video điển hình và các tiêu chuẩn đánh giá chất lượng ảnh nén

Chương III: Mã hóa video mở rộng Giới thiệu về kỹ thuật SVC trong các tiêu chuẩn nén trước đây và kỹ thuật H.264/SVC Mô phỏng một vài chức năng của SVC bằng phần mềm JSVM

Chương IV: Cài đặt thử nghiệm và đánh giá hiệu quả của một giải thuật chọn mode cho các block cho một bộ nén video theo chuẩn H.264/SVC

Tôi cũng xin trân trọng cảm ơn Thầy giáo TS Lê Vũ Hà đã nhiệt tình hướng dẫn, giúp tôi hoàn thành luận văn này

Trang 5

CHƯƠNG 1 - CƠ SỞ VỀ NÉN DỮ LIỆU VIDEO

1.1 SỰ CẦN THIẾT CỦA NÉN DỮ LIỆU

Một chuỗi video số thường chứa một lượng lớn dữ liệu, do đó sẽ gặp rất nhiều khó khăn trong việc lưu trữ và truyền đi trong một băng thông kênh truyền hạn chế Với sự phát triển của khoa học kỹ thuật, ngày nay đã sản xuất được bộ cảm biến màu có độ phân giải lên đến 16 triệu pixel tương đương với một bức ảnh có độ phân giải 4096x4096 pixels, nhưng thực tế các chuẩn video hiện tại chỉ dừng lại ở 1920x1080 pixel, do đó cần phải nén tín hiệu

Quá trình nén ảnh thực hiện được là do thông tin trong bức ảnh có tổ chức, có trật tự,

vì vậy nếu xem xét kỹ tính trật tự, cấu trúc ảnh sẽ phát hiện và loại bỏ được các lượng thông tin dư thừa, chỉ giữa lại các thông tin quan trọng nhằm giảm số lượng bit khi lưu trữ cũng như khi truyền mà vẫn đảm bảo tính thẩm mỹ của bức ảnh Tại đầu thu, bộ giải mã

sẽ tổ chức, sắp xếp lại được bức ảnh xấp xỉ gần chính xác so với ảnh gốc nhưng vẫn đảm bảo thông tin cần thiết Tín hiệu video thường chứa đựng một lượng lớn các thông tin dư thừa, chúng thường được chia thành 5 loại như sau:

 Có sự dư thừa thông tin về không gian: sự tương tự giữa các điểm ảnh lân cận trong phạm vi một bức ảnh hay một khung video, còn gọi là thừa tĩnh bên trong từng frame

 Có sự dư thừa thông tin về thời gian: sự tương tự giữa các điểm ảnh của các khung video trong chuỗi ảnh video, còn gọi là thừa động giữa các frame

 Có sự dư thừa thông tin về phổ: sự tương tự giữa các mẫu của các dữ liệu thu được

từ các bộ cảm biến trong camera, máy quay…

 Có sự dư thừa tâm thị giác: do các hạn chế của hệ thần kinh thị giác mắt người không thể cảm nhận được những tần số quá cao

Ưu điểm của việc nén tín hiệu:

 Tiết kiệm băng thông kênh truyền ( trong thời gian thực hoặc nhanh hơn)

 Kéo dài thời giản sử dụng của thiết bị lưu trữ, giảm chi phí đầu tư cho thiết bị lưu trữ

Có nhiều phương pháp nén tín hiệu, phương pháp nén bằng cách số hóa tín hiệu vẫn tỏ

ra hữu hiệu trong mọi thời đại, một mặt nó có thể làm giảm lượng thông tin không quan trọng một cách đáng kể, mặt khác nó còn giúp cho tín hiệu được bảo mật hơn

Trang 6

1.2 QUÁ TRÌNH BIẾN ĐỔI DỮ LIỆU MÀU

Hiện nay các cảm biến hỉnh ảnh màu gốc thường được lưu giữ với không gian màu RGB, tuy nhiên các tiêu chuẩn truyền hình màu lại sử dụng YUV mà không sử dụng RGB

vì vậy cần một công thức biến đổi từ không gian màu RGB sang YUV

Một bức ảnh được chuyển từ RGB sang YUV nhằm giảm dung lượng lưu trữ cũng như truyền đi, trong quá trình giải mã, trước khi hiển thị ảnh thì nó được biến đổi ngược lại thành RGB Quá trình biến đổi giữa hai hệ màu được tổ chức quốc tế ITU_T quy chuẩn theo công thức sau:

) (

(

Y R

k

C

Y B

k

C

B k G k k R

b r

R Y

R C

B G

R Y

B C

B G

Trang 7

G

R

0 772 1

1

714 0 344 0

1

402 1 0

1

1.3 CÁC TIÊU CHUẨN LẤY MẪU DỮ LIỆU VIDEO SỐ

Kiểu lấy mẫu cho ảnh video cũng là một vấn đề khá quan trọng của kỹ thuật nén ảnh Một số kiểu lấy mẫu phổ biến minh họa như hình 1.2 và có đặc điểm như sau:

 Tốc độ lấy mẫu 4:1:1 - tức là tương ứng với sáu thành phần chói Y có hai thành phần màu Cb và hai thành phần màu Cr

 Tốc độ lấy mẫu 4:2:2 - tức là tương ứng với bốn thành phần chói Y có hai thành phần màu Cb và hai thành phần màu Cr

 Tốc độ lấy mẫu 4:4:4 - cả 3 thành phần có cùng độ phân giải, với mỗi bốn thành phần chói Y có tương ứng bốn thành phần màu Cb và bốn thành phần màu Cr

 Tốc độ lấy mẫu 4:2:0 - là kiểu phổ biến, tương ứng với mỗi bốn thành phần chói Y thì có một thành phần màu Cb và một thành phần màu Cr

Ví dụ : Một bức ảnh có độ phân giải 720 × 576 pixels

Độ phân giải của thành phần Y là 720 × 576 pixels được mã hóa bằng từ mã 8 bits

 Nếu sử dụng kiểu lấy mẫu 4:4:4 thì độ phân giải của thành phần Cb, Cr là 720 × 576 mẫu cũng được mã hóa bằng từ mã 8 bits

=> Vậy tổng số bits sử dụng để mã hóa bức ảnh là 720 × 576 × 8 × 3 = 9 953 280 bits

 Nếu sử dụng kiểu lấy mẫu 4:2:0 thì độ phân giải của thành phần Cb, Cr là 360 × 288 mẫu, cũng được mã hóa bằng từ mã 8 bits

=> Vậy tổng số bits sử dụng là (720 × 576 × 8) + (360 × 288 × 8) × 2 = 4 976 640 bits

Trang 8

Trong kiểu 4:4:4, tổng số mẫu cần thiết là 12 mẫu, do đó tổng số bit là 12 × 8 = 96

bits, và trung bình là 96/4 = 24 bits/pixel

Trong kiểu 4:2:0, tín hiệu được quét xen kẽ, do đó chỉ cần thiết 6 mẫu, 4 mẫu cho thành phần Y, 1 mẫu cho thành phần Cb, 1 mẫu cho thành phần Cr, do đó tổng số bits cần thiết

là 6 × 8 = 48 bits, và trung bình là 48/4 = 12 bits/pixel

Ta thấy kiểu lấy mẫu 4:2:0 giảm một ½ số lượng bits so với 4:4:4, đó cũng chính là lý do

mà kiểu lấy mẫu này được sử dụng phổ biến

1.4 CÁC KHÁI NIỆM CƠ BẢN TRONG CÁC CHUẨN NÉN VIDEO

Các tiêu chuẩn nén dữ liệu Video định nghĩa kiểu phân cấp cấu trúc trong dữ liệu như sau:

Video Sequence (Chuỗi ảnh): bắt đầu với một Sequence Header, bao gồm một hoặc một

nhóm khung hình và kết thúc với mã End-of-sequence Một chuỗi các khung hình liên tục

về mặt thời gian được gọi là cảnh (Scene)

Hình 1.2 Các tiêu chuẩn lấy mẫu phổ biến [1]

Trang 9

Hình 1.3 Chuỗi Video

GOP (Group of picture): một dãy liên tiếp các ảnh (picture) trong cảnh

Frame/ Picture (khung hình): Dãy video được chia thành các ảnh là các frame để lấy

mẫu

Macroblock và phân vùng Macroblock:

Ảnh được chia thành số nguyên các Macroblock (MB), tương ứng với mỗi MB là các ma trận 16x16 mẫu thành phần sáng và 8x8 mẫu các thành phần mầu Các MB được đánh số và quét theo thứ tự nhất định trong khung Ngoài ra, mỗi một MB sẽ được chia thành nhiều phân vùng nhỏ hơn được gọi là subblock và block Hình 1.4 cho thấy các kích cỡ phần vùng của Macroblock

Hình 1.4 Macroblock và phân vùng Macroblock [5]

Trang 10

Trong quá trình mã hóa, các MB được đính kèm thêm các thành phần thông tin như mb_type, mb_pred, để mô tả cách thức mã hóa dữ liệu bên trong MB Dựa trên những thông tin này bộ giải mã có thể tổng hợp lại được MB ban đầu

Slice: Slice là một dãy các MB được quét theo một thứ tự nhất định Mỗi slice chứa một

số nguyên các MB Trong một ảnh có thể được chia thành một hoặc nhiều slice: I, P, B,

SP và SI Ý nghĩa của các slice sẽ được đề cập tới trong phần sau

Trang 11

CHƯƠNG 2 - KỸ THUẬT NÉN VIDEO

2.1 PHÂN LOẠI CÁC KỸ THUẬT NÉN

Các kỹ thuật nén video được chia thành hai họ lớn: Kỹ thuật nén không tổn hao và kỹ thuật nén tổn hao

 Kỹ thuật nén không tổn hao là quy trình biểu diễn các ký hiệu trong dòng bit nguồn thành dòng các từ mã sao cho dữ liệu được khôi phục hoàn toàn giống dữ liệu gốc, các thuật toán chỉ phụ thuộc vào cách thống kê nội dung dữ liệu và thường dựa trên việc thay thế một nhóm các ký tự trùng lặp bởi một nhóm các ký

tự đặc biệt khác ngắn hơn mà không quan tâm đến ý nghĩa của dòng bit dữ liệu, nên đòi hỏi phải có thiết bị lưu trữ và đường truyền lớn hơn

 Kỹ thuật nén có tổn hao, tức là dữ liệu được khôi phục không hoàn toàn giống dữ liệu gốc Các dạng nén này thường có hệ số nén cao hơn so với nén không tổn hao nhưng gây nên tổn hao dữ liệu và sự suy giảm dữ liệu sau khi giải nén

Trong các chuẩn video bao gồm cả nén tổn hao và không tổn hao

2.2 MÔ HÌNH NÉN VIDEO

Hình 2.1 Một bộ mã hóa điển hình [5]

Quá trình mã hóa bao gồm một số giai đoạn sau:

1 Giảm bớt độ dư thừa (Motion Estimation – Motion Copensation): Việc giảm bớt dư thừa cả về mặt không gian và thời gian Những dư thừa về mặt thời gian

là những hình ảnh giống nhau, lặp đi lặp lại từ khung này sang khung khác (ví dụ: phần phông nền) Dư thừa về không gian là những chi tiết giống nhau xuất hiện trong cùng một khung ( ví dụ: các điểm ảnh trong hình ảnh bầu trời xanh)

2 Chế độ phỏng đoán liên ảnh, nội ảnh: Bộ giải mã quyết định loại khung cần nén

và chọn chế độ phỏng đoán phù hợp Hai chế độ phỏng đoán bao gồm: phỏng

Trang 12

đoán nội ảnh (Intra Prediction) và phỏng đoán liên ảnh (Inter Prediction) Phỏng đoán nội ảnh tạo ra ảnh I và phỏng đoán liên ảnh tạo ra ảnh P hoặc B

3 Nén theo miền thời gian: Khi bộ mã hóa hoạt động ở chế độ phỏng đoán liên ảnh, khối này sẽ thực hiện quá trình dự đoán chuyển động Quá trình này sẽ phát hiện ra bất kỳ chuyển động nào diễn ra giữa khối đó và một khối tương ứng với một hoặc hơn một ảnh tham chiếu đã được lưu trữ từ trước Sau đó tạo

ra một khối dư thừa Công đoạn này sẽ giảm bớt dữ liệu trong mỗi khối Khi bộ

mã hóa hoạt động ở chế độ dự đoán nội ảnh sẽ không có quá trình dự đoán chuyển động và tới thẳng giai đoạn biến đổi cosin rời rạc (DCT)

4 Biến đổi cosin rời rạc (DCT): Giai đoạn này biến đổi các giá trị điểm ảnh của khối thành ma trận gồm các hệ số tần số ngang, dọc đặt trong không gian tần

số Ma trận này sẽ được sắp xếp lại nhằm tập hợp các tần số có năng lượng lớn, có giá trị cao, chứa phần lớn thông tin được mô tả trong khối ban đầu Các

hệ số có giá trị thấp sẽ bị được loại bỏ mà không làm giảm đáng kể chất lượng hình ảnh của khối

5 Lượng tử hóa (quantization) và mã hóa entropy: Tại giai đoạn này, dựa trên một hệ số tỉ lệ (có thể điểu chỉnh bởi bộ mã hóa), bộ lượng tử sẽ tính tất cả các giá trị hệ số Do phần lớn hệ số đi ra từ DCT đều mang năng lượng cao, những giá trị thấp sẽ được làm tròn về 0 Kết quả là một chuỗi các giá trị hệ số đã được lượng tử hóa bắt đầu bằng một số giá trị cao ở đầu chuỗi, theo sau là một hàng dài các hệ số đã được lượng tử hóa về 0 Bộ mã hóa entropy có thể theo dõi số lượng các giá trị 0 liên tiếp trong một chuỗi mà không cần mã hóa chúng, nhờ vậy giảm bớt được khối dữ liệu cộng của một chuỗi

Trong bộ mã hóa, quá trình mã hóa và quá trình tái tạo (reconstruction) được diễn

ra theo trình tự sau:

Quá trình mã hóa: Khung hoặc mành video đầu vào được phân chia chia thành các MB hoặc phân vùng MB Mỗi MB được phỏng đoán ở chế độ nội ảnh hoặc liên ảnh đối với các block thuộc nó

Một dự đoán P (Prediction) được xây dựng trên một trong hai chế độ: chế

độ dự đoán nội ảnh và chế độ dự đoán liên ảnh Chế độ dự đoán nội ảnh, các mẫu

dự đoán được hình thành từ các mẫu trong slice hiện tại, sau đó được giải mã và tái cấu trúc Chế độ dự đoán liên ảnh, mẫu dự đoán P được hình thành bởi việc dự đoán bù chuyển động từ các ảnh tham khảo Khối dự đoán P được trừ đi khối hiện tại để tạo ra dư thừa Thông tin dư thừa được biến đổi (Transform) và lượng tử hóa đưa ra tập các hệ số Tập hệ số này sẽ được sắp xếp lại trước khi mã hóa entropy

Trang 13

Hình 2.2 Mã hóa liên ảnh

Quá trình tái cấu dựng dữ liệu được mã hóa (reconstruction): Các hệ số lượng tử được giải lượng tử, sau đó biến đổi DCT ngược để tạo ra dư thừa Thông tin dư thừa này cộng với dự đoán bù chuyển động P để hình thành khối tái cấu trúc sử dụng trong tương lai

2.3 TIÊU CHUẨN ĐÁNH GIÁ CHẤT LƯỢNG ẢNH NÉN

Đánh giá chất lượng video thông qua các giá trị cung cấp bởi hệ thống xử lý, và việc suy giảm chất lượng tín hiệu có thể nhìn thấy được ( thông thường chúng được so sánh với tín hiệu gốc Qua hệ thống ta có thể thấy được những thay đổi về hình dạng, việc định chuẩn chất lượng video là rất quan trọng Để đánh giá chất lượng của bức ảnh (hay khung ảnh video) ở đầu ra của bộ mã hoá, người ta thường sử dụng các tham số truyền thống sau

để đánh giá:

Sai số bình phương trung bình – MSE (mean square error) định nghĩa cho cường

độ sai khác giữa ảnh gốc và ảnh dự đoán

0

1 :

N j

j j N

i

R C N

MSE Error

Squared

Trong đó NxN kích thước khối bù chuyển động

Hệ số Ci, j và Ri, j tương ứng với mẫu hiện tại và vùng mẫu tham khảo

b số lượng bit/ mẫu

Tỉ số tín hiệu trên nhiễu đỉnh – PSNR (peak signal to noise ratio)

MSE PSNR

b 2 10

) 1 2 ( log

Trang 14

Thông thường, nếu PSNR ≥ 40dB thì hệ thống mắt người gần như không phân biệt được

giữa khung hình gốc và khung hình khôi phục sau khi giải nén

 30 dB  PSNR < 33 dB thì chất lượng ảnh nén bình thường, mắt người có

sự phân biệt được

0 2

1 :

N j

j j N

i

R C N

MAE Error

0 :

N j

j j N

i

R C SAE

Errors Absolute

of

Trang 15

CHƯƠNG 3 - MÃ HÓA VIDEO MỞ RỘNG ĐƯỢC

Hình 3.1 Mã hóa Video mở rộng [1]

Mã hóa video mở rộng cho phép bộ giải mã có thể lựa chọn một phần luồng bit

mã hóa Luồng bit mã hóa được sắp xếp trong một số lớp, bao gồm lớp cơ sở (base layer)

và một hoặc nhiều lớp nâng cao (enhancement layer) như trong hình 3.1 Trong hình 3.1

bộ giải mã A chỉ nhận từ lớp cơ sở và có thể giải mã một phiên bản chất lượng cơ sở của chuỗi video, trong khi bộ giải mã B nhận thông tin tất cả các lớp và tạo ra chuỗi video với phiên bản chất lượng cao Bộ giải mã A là ví dụ cho các ứng dụng có bộ giải mã đơn giản chỉ có khả năng giải mã lớp cơ sở, tốc độ bit thấp có thể được tách ra và truyền qua phân vùng mạng có dung lượng thấp

3.1 MÃ HÓA VIDEO MỞ RỘNG ĐƯỢC TRONG CÁC CHUẨN NÉN TRƯỚC ĐÂY

SVC đã được một nghiên cứu hoạt động trong vòng ít nhất 20 năm trở lại đây Trong các tiêu chuẩn nén quốc tế H.262 MPEG-2, H.263 và MPEG-4 đã bao gồm một số công cụ mà có thể hỗ trợ tính mở rộng được

H262 hỗ trợ nhiều profile khác nhau như trong hình 3.1

Bảng 3.1 Các profile trong Mpeg2 [6]

Trên hình 3.1 ta thấy các profile có khả năng về chất lượng và không gian trong Mpeg2 như SNR scalable profile, Spatial Scalable profile, High profile, 4:2:2 profile, Multi-view profile

Trang 16

a) Profile mở rộng chất lượng SNR

Hình 3.2 Bộ mã hóa và giải mã video H262 mở rộng chất lượng

Trong bộ mã hóa này, các lớp mở rộng được tạo ra từ việc thêm 1 bước lượng tử hóa nữa Bộ mã hóa lượng tử hóa hệ số DCT với độ chính xác nào đó sau đó được mã hóa

và truyền đi với dòng bit lớp dưới Tại lớp nâng cao lỗi lượng tử hóa gặp phải ở lần lượng

tử hóa đầu tiên tự nó sẽ lại lượng tử hóa, được mã hóa và được truyền đi ở lớp nâng cao Tại bộ giải mã các hệ số tại lớp cơ sở được đưa vào lớp nâng cao theo hệ số lượng tử hóa nghịch đảo Sau đó được giải mã giống như trường hợp hợp non-scalable Các profile SNR được khuyến cáo dùng cho vô tuyến mặt đất

b) Mở rộng về không gian: H262, MPEG-2 Video and MPEG-4 Visual cũng hỗ trợ

mã hóa mở rộng không gian với độ phân giải tùy ý, tuy nhiên có hạn chế là độ phân giải

về chiều dọc hoặc chiều ngang bị giảm xuống từ lớp này sang lớp tiếp theo

Mở rộng không gian tại các lớp nâng cao mã hóa ảnh ở những độ phân giải khác nhau Hình 3.2 là ví dụ về bộ mã hóa và giải mã sử dụng mở rộng không gian

Trang 17

Hình 3.3 Bộ mã hóa video mở rộng không gian

Việc mở rộng không gian được thực hiện bằng việc sử dụng những ảnh được giải

mã từ tầng dưới như là dự đoán ở tầng cao hơn Nếu tầng cao hơn đang xử lý ảnh ở độ phân giải lớn hơn thì ảnh được giải mã từ tầng thấp hơn phải được chuyển thành độ phân giải lớn hơn Trong bộ giải mã trên hình 3.3 hai vòng lặp mã hóa hoạt động với những độ phân giải khác nhau để tạo ra những lớp cơ sở và lớp nâng cao Bộ mã hóa lớp cơ sở tạo

ra 1 dòng bit có thể được giải mã giống như trường hợp non-scalable Bộ mã hóa lớp nâng cao được cung cấp những ảnh đã được giải mã từ tầng cơ cở, như là sự dự đoán cho các tầng trên Sự dự đoán này bổ sung thêm vào sự dự đoán bù chuyển động từ các tầng trên Chức năng đánh giá W lựa chọn trong các dự đoán từ tầng trên và tầng dưới

Mở rộng không gian được khuyến nghị như là 1 cách để phát những dịch vụ TV

có độ phân giải cao cùng với 1 profile chính tương thích với những dịch vụ chuẩn Profile cao hỗ trợ thêm cho việc mã hóa tín hiệu video 4:2:2 và bao gồm những công cụ đánh đánh giá của SNR và profile không gian

Trang 18

c) Dự đoán liên lớp: Mục đích khi thiết kế công cụ dự đoán liên lớp để việc sử dụng thông tin tại các lớp thấp hơn giảm độ méo tín hiệu tại lớp nâng cao Trong H.262, MPEG-2, H.263, và MPEG-4 visual phương pháp dự đoán liên lớp sử dụng các mẫu tái dựng từ tín hiệu tại lớp thấp hơn Tín hiệu dự đoán được định dạng từ việc dự đoán bù chuyển động trong lớp nâng cao hoặc từ quá trình tăng mẫu các tín hiệu tái dựng từ lớp thấp hơn hoặc lấy trung bình các tín hiệu tăng mẫu với tín hiệu dự đoán thời gian

Tuy nhiên, các profile của những chuẩn này hiếm khi được sử dụng Mà nguyên nhân là do đặc điểm của hệ thống truyền tải video truyền thống cũng như thực tế là các tính khả mở về không gian và chất lượng đến cùng với một thiệt hại đáng kể về hiệu suất

mã hóa cũng như một sự gia tăng lớn trong bộ giải mã phức tạp so với profile tương ứng trong chế độ nonscalable Đồng thời cần lưu ý rằng một hoặc nhiều các lớp đơn (nonscalable) luôn được truyền bằng phương pháp simulcast, về nguyên tắc phương pháp này cung cấp các chức năng tương tự như một dòng bit có thể (scalable)

Với nhu cầu ngày càng tăng về mã hóa cùng nội dung ban đầu tại các băng thông

và độ phân giải khác nhau dẫn tới sự phát triển phần của H.264, được chuẩn hóa như H264/SVC SVC hỗ trợ mã hóa video hiệu quả theo một cách là nhiều dạng của tín hiệu video có thể được giải mã ở một dải tốc độ bit, hoặc những độ phân giải khác nhau Bằng việc mã hóa đồng thời nhiều bản, nó có thể phát chúng theo một cách hiệu quả hơn so với việc tuần tự mã hóa và truyền đi các bản riêng rẽ

So sánh khả năng mở rộng của H.264/SVC với những chuẩn nén video trước đó

H.264/AVC mở rộng cho SVC cung cấp các công cụ khác nhau để giảm suy hao trong quá trình mã hóa Sự khác biệt quan trọng ở đây là:

Khả năng sử dụng cấu trúc dự đoán phân cấp để cung cấp sự mở rộng về thời gian bằng nhiều lớp để cải thiện hiệu quả mã hóa và tăng chất lượng của mã hóa mở rộng không gian

Đây là phương pháp mới cho dự đoán liên lớp của chuyển động và thông tin dư thừa Điều này tăng hiệu quả của mã hóa mở rộng không gian và chất lượng

Khái niệm các “key picture” cho hiệu quả kiểm soát sự sai lệch của mã hóa mở rộng về chất lượng gói cơ sở cùng với cấu trúc dự đoán phân cấp

Vòng lặp giải mã bù chuyển động đơn của bộ giải mã mở rộng chất lượng và không gian đã cung cấp một bộ giải mã phức tạp gần với mã hóa đơn

Hỗ trợ một quá trình giải mã có thể thay đổi, cho phép thay đổi độ suy hao và tính phức tạp của dòng bit mở rộng chất lượng thu được sang dòng bit phù hợp với các profile H.264/AVC không mở rộng

Trang 19

3.2 MÃ HÓA VIDEO MỞ RỘNG ĐƯỢC

3.2.1 CÁC ĐẶC ĐIỂM CỦA CHUẨN NÉN VIDEO H.264

H.264/AVC là chuẩn nén ảnh kỹ thuật truyền hình số cho các vùng ứng dụng về đồ họa và video tương tác 2 chiều (game, truyền hình hội nghị…), góp phần giải quyết vấn

đề dung lượng cho các thiết bị lưu trữ, giải quyết vấn đề băng thông đường truyền tín hiệu video, hoặc kết hợp cả 2 vấn đề trên [5] Có thể khẳng định tiêu chuẩn H.264/AVC hiện là phương thức tiên tiến nhất trong lĩnh vực nén video H.264/AVC cho chất lượng hình ảnh tốt nhất khi có cùng dung lượng so với các chuẩn nén khác H.264/AVC đang được ứng dụng như giải thuật nén chính trong video độ phân giải cao (HD)

Mục tiêu chính của chuẩn nén H.264/AVC đang phát triển nhằm cung cấp video có chất lượng tốt hơn nhiều so với những chuẩn nén video trước đây Điều này có thể đạt được nhờ sự kế thừa phần lớn các lợi điểm của các chuẩn nén video trước đó là H.263 và MPEG-2, trong đó bao gồm 4 đặc điểm chính như sau:

- Thực hiện mã hóa các tín hiệu video bằng cách xây dựng các khung ảnh dự đoán gần giống với ảnh gốc và mã hóa dữ liệu sai khác giữa 2 khung ảnh này Dữ liệu sai khác sau khi được mã hóa sẽ được lưu trữ hoặc truyền tải qua mạng

- Phân chia hình ảnh thành các khối gọi là block (bao gồm nhiều điểm ảnh), do vậy quá trình xử lý từng ảnh có thể được tiếp cận với mức block

- Khai thác triệt để sự dư thừa về mặt không gian tồn tại giữa các block khác nhau trong khung ảnh thông qua dự đoán về không gian

- Khai thác triệt để sự dư thừa về mặt thời gian tồn tại giữa các khung ảnh liên tiếp, nhờ đó chỉ cần mã hóa những chi tiết thay đổi giữa các ảnh liên tiếp nhau Việc này được thực hiện thông qua dự đoán liên ảnh và bù chuyển động

- Khai thác tất cả sự dư thừa về không gian còn lại trong ảnh bằng việc tiếp tục mã hóa các block dư thừa Giai đoạn này được thực hiện thông qua quá trình biến đổi lượng tử và mã hóa entropy

Các profile và level trong H.264/AVC

Mỗi profile định rõ các công cụ mã hóa, các đặc tính và các giới hạn mà bộ giải mã

có thể thực thi Trong phiên bản thứ nhất (năm 2003) cung cấp 3 Profile: Baseline Profile, Main Profile, Extend Profile [5]

Baseline Profile: hỗ trợ mã hóa Inter coding và Intra coding (sử dụng I và P slice)

Mã hóa entropy được sử dụng là CAVLC Hỗ trợ thứ tự Macroblock linh hoạt (FMO) và thứ tự các slice tùy ý (ASO)

Main Profile: hỗ trợ dự đoán trọng số, sử dụng I, P và B slice Một slice I chỉ chứa các MB loại I, slice P chỉ có thể chứa các MB loại I và loại P, và một slice B có thể chứa

MB loại B và loại I Các MB loại I là các MB sử dụng dự đoán nội ảnh cho việc giải mã

Trang 20

các mẫu trong slice hiện tại MB loại P là các MB sử dụng dự đoán liên ảnh cho việc giải

mã các mẫu từ ảnh tham khảo MB loai B sử dụng để dự đoán liên ảnh cho việc giải mã các mẫu từ một hoặc nhiều ảnh tham khảo Các slice SI và SP hỗ trợ chuyển đổi giữa các dòng mã Mã hóa Entropy được sử dụng là mã hóa số học dựa trên ngữ cảnh (CABAC) Main profile không hỗ trợ ASO

Extended Profile: bao gồm các đặc tính của Base line Profile, hỗ trợ chuyển đổi hiệu quả giữa các dòng bit (sử dụng SI và SP slice), hỗ trợ ngăn chặn lỗi Không hỗ trợ B slice và không sử dụng mã Entropy CABAC

Ngoài ba profile trong phiên bản thứ nhất, chuẩn H.264/AVC còn cung cấp các profile khác như high profile (H1) hỗ trợ 8 bit với mẫu 4:2:0, high 10 profile (H2) hỗ trợ

10 bit với mẫu 4:2:0, high 4:2:2 profile (H3): hỗ trợ 10 bit với mẫu 4:2:2, high 4:4:4 predictive profile (H4): hỗ trợ 12 bit với mẫu 4:4:4 Chi tiết các profile được trình bày trong bảng 3.2

Coding Tool B E M High Profile

H1 H2 H3 H4

I & P slices Y Y Y Y Y Y Y

B slices N Y Y Y Y Y Y

SI & SP slices N Y N N N N N

Multiple Rerence Frames Y Y Y Y Y Y Y

In-Loop Deblocking Filter Y Y Y Y Y Y Y

CAVLC Entropy Coding Y Y Y Y Y Y Y

CABAC Entropy Coding N N Y Y Y Y Y

Flexible Macroblock Ordering (FMO) Y Y N N N N N

Arbitary Slice Ordering (ASO) Y Y N N N N N

8 bit Sample Depth Y Y Y Y Y Y Y

9 & 10 bit Sample Depth N N N N Y Y Y

11 & 12 bit Sample Depth N N N N N N Y

8x8 & 4x4 Transform Adaptivity N N N Y Y Y Y

Quantization Scaling Matrices N N N Y Y Y Y

Separate Cb & Cr QP Control N N N Y Y Y Y

Residual Color Transform N N N N N N Y

Predictive Lossless Coding N N N N N N Y

Bảng 3.2 Các profile trong chuẩn nén video H.264/AVC [8]

Trang 21

Bảng 3.3 Các level trong chuẩn H.264/AVC [8]

Level quy định giới hạn thực thi của bộ mã hóa – giải mã (CODEC) chủ yếu các thông số liên quan đến dòng bit, ví dụ: tốc độ xử lý, kích cỡ ảnh, yêu cầu bộ nhớ, tốc độ dòng bit được mã hóa Các Level xác định trong chuẩn H.264/AVC được trình bày trong Bảng 3.3

3.2.2 MÃ HÓA VIDEO MỞ RỘNG ĐƯỢC TRONG H.264

Một thách thức cho các ứng dụng nén video hiện nay là truyền phát nhiều dạng của một chuỗi video qua các điểm khai thác khác nhau, ví dụ khác nhau về tốc độ khung, độ phân giải không gian khác nhau, chất lượng khác nhau…Điều này có thể thực hiện nhờ sử dụng mã hóa video thông thường như H.264/AVC để mã hóa độc lập các luồng Đây là kiểu truyền dẫn simulcast Theo một kịch bản đặc trưng, như hình 3.4

Trang 22

Hình 3.4 Truyền nhiều luồng theo cơ chế simulcast

Một nguồn video đơn được yêu cầu truyền qua các bộ mã hóa hay các client, và chúng có các khả năng khác nhau Trong ví dụ này, clip video ban đầu được mã hóa ba lần để tạo ra ba luồng AVC độc lập, mỗi một luồng được truyền dẫn và giải mã độc lập Vấn đề với kịch bản truyền dẫn simulcast là ba luồng bít chứa đựng sự dư thừa ý nghĩa khi cùng một chuỗi video được mã hóa trong mỗi luồng bit với độ phân giải và chất luợng khác nhau Theo lý thuyết, một băng thông truyền dẫn nhỏ hơn có thể tận dụng bằng việc khai thác những dư thừa giữa ba luồng

Mã hóa video mở rộng cố gắng truyền nhiều dạng mã hóa của một chuỗi sử dụng một tốc độ bit tổng thấp hơn so với kịch bản truyền simulcast ở trên Nó làm điều này bằng việc khai thác sự dư thừa giữa các dạng mã hóa khác nhau, tức là sự tương quan giữa các dạng khác nhau của cùng một chuỗi được mã hóa tại các điểm khai thác khác nhau

Ba chuỗi giống nhau được truyền sử dụng SVC được mô tả trong hình 3.5

Hình 3.5 Truyền nhiều luồng mở rộng

Một bộ mã hóa đơn SVC tạo ra ba luồng bit được mã hóa, được mô tả như các lớp

Trang 23

cải tiến, như lớp 1 và 2 trong ví dụ, được mã hóa như luồng bit SVC Để giải mã một chuỗi tại điểm có độ phân giải và chất lượng cao hơn, một bộ giải mã SVC giải mã lớp cơ

sở và một hoặc nhiều lớp cải tiến Trong ví dụ, giải mã lớp 0 sử dụng bộ giải mã AVC tiêu chuẩn tạo ra đầu ra có chất lượng thấp nhất Giải mã lớp 0 và 1 sử dụng bộ giải mã SVC tạo ra đầu ra chất lượng cao hơn; giải mã lớp 0, 1 và 2 sử dụng một bộ giải mã SVC cho ra chất lượng đầu ra cao nhất Quá trình mã hóa SVC khai thác độ dư thừa giữa các chuỗi được mã hóa tại những độ phân giải hoặc chất lượng khác nhau, bằng việc dự đoán các lớp cải tiến liên tiếp từ lớp cơ sở và các lớp cải tiến bên dưới Theo cách này, nó có thể đạt được kết quả hiển thị giống với hệ thống simulcast với chi phí băng thông giảm

Tư tưởng chung của một luồng bit được mã hóa mở rộng là các phần của luồng có thể loại

bỏ theo cách này luồng con thu được hình thành luồng bit hợp lệ khác cho một vài bộ giải

mã đích Xem xét hình 3.5, luồng bit mở rộng gồm các luồng lớp 0, lớp 1 và lớp 2 được

mã hóa Giải mã tất cả 3 luồng tạo ra đầu ra chất lượng cao; bỏ lớp 2 và giải mã lớp 0 và

1 tạo ra đầu ra chất lượng trung bình; còn nếu chỉ mã hóa lớp cơ sở thì cho ra chất lượng thấp

SVC như là sự kết hợp giữa phụ lục G gần đây của chuẩn H.264/AVC và các khả năng của chuẩn ban đầu [5] SVC hỗ trợ 3 kiểu mở rộng chủ yếu

1 Mở rộng thời gian: Lớp cơ sở được mã hóa ở độ phân giải tạm thời thấp, tốc độ khung thấp Việc thêm các lớp cải tiến tăng tốc độ khung của chuỗi được mã hóa

2 Mở rộng không gian: Lớp cơ sở được mã hóa tại một độ phân giải không gian, việc thêm các lớp cải tiến sẽ tăng độ phân giải không gian của chuỗi được giải mã

3 Mở rộng chất lượng: Lớp cơ sở dược mã hóa tại một chất lượng thấp, sử dụng một

QP cao Thêm vào các lớp cải tiến sẽ tăng chất lượng của chuỗi được giải mã bằng việc sử dụng QP thấp hơn

Trang 24

Hình 3.6 Các kiểu mã hóa mở rộng trong SVC [5]

Ví dụ 1: mở rộng chất lượng:

Lớp cơ sở được mã hóa tại tốc độ bit 200kbps, độ phân giải 352x288 các mẫu độ sáng luma trên mỗi khung, và truyền ở tốc độ 30 khung /s Lớp cải tiến 1 được mã hóa ở tốc độ bit 520kbps, sử dụng mã hóa mở rộng chất lượng, tức là tốc độ khung và độ phân giải ở mức như nhau Một chuỗi chất lượng thấp thu được bằng cách gửi lớp cơ sở qua một kênh 200kbps và giải mã nó Chuỗi chất lượng cao thu được bằng việc gửi cả lớp cơ

sở và lớp cải tiến qua kênh 720kbps Xem bảng 3.4

Bảng 3.4 Ví dụ mở rộng chất lượng

Ví dụ 2: Mở rộng không gian và thời gian:

Lớp cơ sở 0 được mã hóa ở tốc độ 400kbps với độ phân giải không gian 320x240 các mẫu luma và tại 15fps Lớp nâng cao 1 được mã hóa tại tốc độ 800kbps, độ phân giải không gian 640x480 mẫu và tại 30fps Trong ví dụ này, mở rộng không gian và thời gian

Trang 25

khung thấp, giải mã lớp 0 và lớp 1 (tốc độ tổng 1200kbps) đưa ra độ phân giải cao hơn, chuỗi đầu ra có tốc độ khung cao hơn, xem bảng 3.5

Bảng 3.5 Ví dụ mở rộng thời gian và không gian

3.2.2.1 MỞ RỘNG ĐƯỢC THEO THỜI GIAN

Trong một chuỗi được mã hóa mở rộng thời gian, lớp cơ sở được mã hóa tại độ phân giải thời gian thấp nhất, tức là tốc độ khung thấp nhất Các lớp cải tiến liên tiếp, khi được mã hóa với lớp cơ sở cung cấp tốc độ khung dần cao hơn Hình 3.7 cho thấy một chuỗi được mã hóa ba lớp mở rộng thời gian Lớp 0 được mã hóa tại tốc độ khung F0 và bao gồm các khung được mã hóa 0,6,12 v.v Một bộ giải mã H.264/AVC có thể giải mã lớp 0 độc lập

Lớp 1 gồm các khung 3,9,15, Một bộ giải mã có thể giải mã lớp 0 và 1 để tạo ra một chuỗi tốc độ cao hơn với tốc độ 2F0 khung/s Lớp 2 gồm các khung 1,2,4,5,7,8 và

bộ giải mã sẽ giải mã lớp 0,1 và 2 có thể gửi tới đầu ra tốc độ 6F0 khung/s

Mở rộng thời gian có thể đạt được sử dụng công cụ mã hóa slice B và/hoặc slice P sẵn có trong H.264/AVC Các ví dụ trong hình 3.7 và 3.8 được phát triển sử dụng cấu trúc GOP kim tự tháp hoặc có phân tầng

Hình 3.7 Sơ đồ mã hóa mở rộng thời gian 3 lớp [5]

Trang 26

Hình 3.8 Sơ đồ giải mã mở rộng thời gian [5]

Để trọn vẹn hình 3.9 chỉ ra các hướng dự đoán cho cấu trúc có phân tầng Lớp cơ

sở gồm các slice I trong mỗi 12 slice và tập slice B đầu tiên, B6 v.v Lớp 1 gồm tập slice

B thứ 2 (3,9,15 ) được dự đoán từ lớp cơ sở Lớp 2 gồm các slice B còn lại được dự đoán

từ lớp 0 và 1 Do đó, các tập con dưới đây có thể được giải mã độc lập:

Hình 3.9 Cấu trúc dự đoán phân cấp [5]

3.2.2.2 MỞ RỘNG ĐƯỢC VỀ CHẤT LƯỢNG

Lớp cơ sở được mã hóa sử dụng bộ lượng tử tham số QP riêng biệt để tạo luồng bit lớp 0 (hình 3.10) Với một khung video đơn A, tại bộ mã hóa, khung được mã hóa này

Trang 27

thường là một tham chiếu dự đoán hiệu quả khi nó giống với khung A trừ méo ban đầu bởi nén Các nguồn dự đoán , các khung được mã hóa trước trong bộ đệm ảnh giải mã đều cũng sẵn sàng cho dự đoán của mỗi MB

Một bộ giải mã lớp cơ sở đơn giản giải mã khung A0 Một bộ giải mã lớp cải tiến yêu cầu khung A được giải mã, một tham khảo dự đoán để xây dựng lại khung A1 chất lượng cao hơn

Quá trình này có thể được lặp lại để tạo một tầng các lớp 0,1,2 , mỗi lớp sử dụng khung xây dựng lại từ lớp bên dưới như là một tham khảo dự đoán và sử dụng một QP thấp dần SVC cung cấp công cụ có khả năng xây dựng lại các lớp cải tiến không cần giải

mã đầy đủ thông tin lớp cơ sở (dự đoán liên tầng bắt buộc)

H.264/SVC hỗ trợ mở rộng chất lượng hạt trung bình (MGS) và hạt thô (CGS) CGS có hiệu quả với trường hợp đặc biệt của mở rộng không gian trong đó, hệ số tăng lấy mẫu và giảm lấy mẫu bằng 1 Có nghĩa là độ phân giải lớp cải tiến cũng giống độ phân giải lớp tham khảo Lớp cải tiến được mã hóa tại QP thấp hơn và do đó chất lượng cao hơn lớp tham khảo thấp hơn Tất cả công cụ mã hóa mở rộng không gian đã mô tả có thể

sử dụng để dự đoán khung lớp cải tiến từ khung được xây dựng lại lớp tham khảo

Một ứng dụng đặc trưng của mở rộng chất lượng là cung cấp các dạng chuỗi được

mã hóa tại tốc độ bit và mức chất lượng khác nhau, ví dụ các chuỗi con tốc độ bit thấp hơn có thể được trích ra cho truyền dẫn qua các kênh với khả năng khác nhau Với CGS,

số chuỗi con có tốc độ bit bị giới hạn bằng số lớp Việc cung cấp số lớn tùy chọn tốc độ bit sử dụng CGS yêu cầu một số lớn các lớp , điều này dẫn tới tăng sự phức tạp và không hiệu quả để mã hóa

Mở rộng chất lượng hạt trung bình (Medium grain quality scalability-MGS) giải quyết giới hạn trên và nó có thể trích các luồng con tại một dải tốc độ bit rộng từ một luồng bit mở rộng với một con số nhỏ các lớp chất lượng Sử dụng MGS, bất cứ đơn vị NAL trong một lớp cải tiến có thể bị loại bỏ khỏi luồng bit có thể giải mã đầy đủ Điều này làm cho nó có thể tạo ra tốc độ bit đầu ra biến đổi Ví dụ, việc loại bỏ một số bất kỳ đơn vị NAL lớp cải tiến làm nó có thể đáp ứng một tốc độ bit đích bất kỳ, với một độ dự trữ lỗi xác định Hình 3.10 chỉ ra một ví dụ luồng bit thích ứng hoàn chỉnh gồm có NALUs lớp cơ sở và NALUs lớp cải tiến

Trang 28

Hình 3.10 Mở rộng chất lượng trung bình [5]

Hình 3.11 Kết hợp mở rộng chất lượng, không gian và thời gian [5]

Sử dụng MGS, các NALUs lớp nâng cao được lựa chọn có thể bị loại bỏ để cung cấp các luồng con tại một tốc độ bit thấp hơn dần dần Điểm chất lượng/ tốc độ bit thấp nhất được cung cấp bởi luồng lớp cơ sở, chỉ bao gồm NALUs lớp cơ sở SVC đặc tả các

Trang 29

lại bù chuyển động của các ảnh chủ chốt này tại bộ mã hóa và giải mã Sự lệch do vậy bị giới hạn tới không có các ảnh chủ chốt

3.2.2.3 MỞ RỘNG ĐƯỢC VỀ KHÔNG GIAN

Trong trường hợp mở rộng không gian (hình 3.11), lớp cơ sở có độ phân giải thấp nhất và các lớp cải tiến liên tiếp có thể được giải mã để tạo ra độ phân giải cao hơn

Khung video đầu vào A được hạ tần số lấy mẫu tại bộ mã hóa để tạo ra dạng A’ độ phân giải thấp Khung A’ được mã hóa tạo ra lớp cơ sở 0 và có thể được giải mã để gửi đến đầu ra độ phân giải thấp khung A0 Bộ mã hóa xây dựng lại A0 và tăng tần số lấy mẫu để tạo một khung tham khảo có độ phân giải như ban đầu (A) Khung tham khảo này được sử dụng như một tham khảo dự đoán, cho phép bộ mã hóa tạo ra lớp cải tiến (lớp 1) Tăng tần số lấy mẫu A0 sẽ là một tham khảo dự đoán tốt cho khung A bởi vì nó là cùng một khung, với méo do hạ tần số lấy mẫu, mã hóa và tăng tần số lấy mẫu

Một bộ giải mã lớp cải tiến tăng số mẫu A0 và sử dụng nó để xây dựng lại khung cải tiến được giải mã A1 Với mở rộng không gian, quá trình này có thể được lặp lại để đưa ra một tầng của các lớp 0,1,2 Lớp có độ phân giải cao nhất có cùng độ phân giải với chuỗi ban đầu; lớp thấp hơn được mã hóa tại những độ phân giải nhỏ dần

Lớp cơ sở của luồng bit mở rộng không gian được mã hóa sử dụng công cụ H.264/AVC Mã hóa một MB trong một lớp cải tiến yêu cầu một số thay đổi phụ thuộc vào kiểu dự đoán từ lớp thấp hơn H264/SVC đi ra ngoài tiếp cận tăng tần số lấy mẫu lớp thấp hơn và cung cấp vài chế độ dự đoán mới nhằm cải thiện hiệu suất mã hóa của kỹ thuật nén mở rộng không gian

Trong lớp cải tiến, bộ mã hóa trong hình 3.11, có một số tùy chọn cho việc dự đoán MB hiện tại Đầu tiên, tất cả các tùy chọn dự đoán thông thường đều sẵn sàng Các mode Intra sử dụng các mẫu từ khung hiện thời tại độ phân giải lớp cải tiến, các mode inter sử dụng các mẫu từ các khung được xây dựng lại và được mã hóa trước đấy tại độ phân giải lớp cải tiến Thứ 2, các tùy chọn xa hơn dưới đây cũng sẵn sàng, sử dụng lớp thấp hơn được tăng tần số lấy mẫu, lớp cơ sở trong hình 3.12, hoặc lớp cải tiến độ phân giải thấp hơn tiếp theo như là lớp tham chiếu Lưu ý rằng, vị trí MB hiện tại tương ứng với một khối nhỏ hơn trong lớp có độ phân giải thấp hơn Giả sử một khối tương ứng 8x8 trong lớp tham khảo thấp hơn, vì vậy được gọi là tỉ lệ 2, hay 2x độ phân giải ngang và dọc trong lớp cải tiến Tuy vậy, các hệ số tỉ lệ giữa các lớp tùy ý được hỗ trợ bởi H264/SVC Các tùy chọn dự đoán:

1 Nâng cấp lớp tham khảo:

Với các khối Intra, co giãn lớp tham khảo tới cùng độ phân giải như lớp hiện tại (hình 10.8) và sử dụng lớp tham khảo như là tham khảo dự đoán phụ

2 Chế độ cơ sở: sử dụng các lựa chọn dự đoán từ khối lớp tham khảo

Trang 30

Hình 3.12 Mở rộng chất lượng [5]

Trang 31

Khi mà cờ mode cơ sở được thiết lập là 1, chỉ phần dư được gửi trong lớp cải tiến

và không có các lựa chọn dự đoán phụ, tức là không có các chế độ dự đoán bên trong hoặc giữa các phân vùng, các tham chiếu và các vector chuyển động

Nếu khối cùng vị trí trong lớp tham khảo được mã hóa trong mode intra, khối intra xây dựng lại từ lớp tham khảo được tăng tần số lấy mẫu sử dụng bộ lọc đáp ứng xung giới hạn để tạo ra một dự đoán cho MB hiện tại Dự đoán này được trừ từ MB để tạo ra phần dư lớp cải tiến

Nếu khối cùng vị trí trong lớp cải tiến được mã hóa trong mode Inter, khối lớp cải tiến được dự đoán sử dụng dự đoán inter , với các chỉ số ảnh tham khảo như nhau, các lựa chọn phân vùng được tăng số lấy mẫu từ những phân vùng trong lớp tham khảo và các vector chuyển động được chia tỉ lệ từ các vector chuyển động lớp tham khảo

3 Dự đoán vector chuyển động từ lớp tham khảo

Nếu cờ dự đoán chuyển động được đặt là 1, phần vùng MB lớp cải tiến hiện tại được

dự đoán sử dụng dự đoán inter với những chỉ số ảnh tham khảo giống nhau như khối lớp tham khảo tương ứng và sự khác biệt vector chuyển động (MVD) được tạo nhờ sử dụng các vector chuyển động được tăng tỉ lệ của lớp tham khảo như các bộ dự đoán

4 Dự đoán dư thừa

Khi một cờ dự đoán dư thừa được đặt là 1, dư thừa lớp cải tiến được dự đoán từ dư thừa lớp tham khảo Đầu tiên, phần dư lớp tham khảo được tăng số lấy mẫu sử dụng phép nội suy tuyến tính và phần dư đã tăng số lấy mẫu được trừ từ khối lớp cải tiến ban đầu Sau

đó , phần dư lớp cải tiến được hình thành bằng việc sử dụng bất cứ phương pháp nào mô

tả trước đó, tức là dự đoán intra/inter thông thường hoặc dự đoán mode cơ sở Tín hiệu khác nhau thu được được biến đổi , mã hóa và truyền như thường lệ

Cần lưu ý là dự đoán giữa các lớp bị bắt buộc như sau Đầu tiên, chỉ các MB lớp cải tiến là những cái mà các mẫu tham chiếu cùng vị trí được mã hóa intra (dự đoán intra bắt buộc) Thứ 2, dự đoán intra bắt buộc là cố định với dự đoán liên lớp của các lớp cao hơn Điều này có nghĩa là các MB được mã hóa intra trong các lớp tham khảo có thể được xây dựng không cần phải xây dựng lại bất cứ MB được mã hóa inter nào Do vậy mỗi lớp

có thể được giải mã sử dụng một vòng bù chuyển động đơn (giải mã vòng đơn), dẫn tới

sự phức tạp của bộ giải mã thấp hơn đáng kể so với mã hóa video mở rộng trong các chuẩn sớm hơn

3.2.2.4 MỞ RỘNG ĐƯỢC KẾT HỢP

H.264/SVC cung cấp sự linh hoạt đáng kể trong việc xây dựng một luồng bit mở rộng, có khả năng kết hợp mở rộng về không gian, thời gian và chất lượng Ví dụ hình 3.11, lớp cơ sở được tăng mẫu về không gian và các khung tăng mẫu được sử dụng như những tham khảo cho các slice B để tạo một lớp với mở rộng không gian và thời gian Cái

Trang 32

này sau đó dùng để dự đoán một lớp xa hơn tại cùng độ phân giải không gian thời gian nhưng với chất lượng và tốc độ bit cao hơn

3.2.3 ỨNG DỤNG CỦA MÃ HÓA VIDEO MỞ RỘNG ĐƯỢC

SVC được đặt ra cho một số các kịch bản ứng dụng

+ Đa giải mã: Cùng nội dung video ban đầu được mã hóa, truyền, hiển thị bởi nhiều thiết

bị và khả năng của chúng là khác nhau Ví dụ, một bộ phim được đưa tới các thiết bị đầu cuối, từ các thiết bị cầm tay với kết nối mạng tốc độ bit chậm và độ phân giải thấp hay tới một máy tính có tốc độ kết nối cao và độ phân giải tốt

Một dải các nhân tố có thể giới hạn khả năng của một bộ giải mã nhất định bao gồm khả năng xử lý, tốc độ kết nối và độ phân giải màn hình Một luồng bit mở rộng có khả năng hỗ trợ một phạm vi rộng khả năng giải mã hiệu quả

+ sự cải tiến/ sự suy biến: Khi một vài ứng dụng như truyền hình quảng bá với xu hướng

có các kênh truyền video cố định và được định nghĩa rõ ràng, rất nhiều các ứng dụng khác

sử dụng một kênh có thể thay đổi đáng kể trong suốt một phiên truyền thông Ví dụ các ứng dụng trên nền IP như luồng video hay hội nghị internet sẽ trải nghiệm một thông lượng kênh biến đổi, nó phụ thuộc vào các yếu tố như tổng lưu lượng và nghẽn trên mạng

Mã hóa mở rộng cung cấp một cơ chế cho việc tối đa hóa chất lượng tại các điểm nhất định với các bộ giải mã riêng Ví dụ, máy chủ luồng truyền các lớp cơ sở và cải tiến cho một nguồn video Một bộ giải mã cố nhận mỗi lớp có thể Nếu tất cả các lớp được nhận thành công, bộ giải mã trích một chuỗi tại chất lượng cao nhất có thể Nếu thông lượng kết nối rớt , bộ giải mã rơi trở về một chuỗi chất lượng thấp hơn bởi chỉ nhận các lớp được lựa chọn Khi mà lớp cơ sở được giải mã thành công, chuỗi video chất lượng cơ bản được hiển thị tại mọi thời điểm Điều này có nghĩa là lớp cơ sở rất quan trọng, có độ ưu tiên cao hơn các lớp cải tiến

+ lưu trữ : Lưu giữ một chuỗi video như là một luồng bit mã hóa thích ứng có thể làm nó

có khả năng giải mã nhanh chóng việc xem trước một chuỗi video chất lượng thấp.Việc chỉ lấy ra mỗi lớp cở sở đưa một dạng chất lượng thấp rất nhanh để giải mã và hiển thị, phù hợp với việc xem trước toàn bộ chuỗi

3.2.4 HIỆU SUẤT CỦA MÃ HÓA VIDEO MỞ RỘNG ĐƯỢC

Với một chuỗi được đưa ra, nó yêu cầu được phát ở một dải tốc độ bit, một câu hỏi hiệu suất chủ yếu như sau: có phải mã hóa mở rộng đưa ra một tốc độ bit nhỏ hơn hoặc là lớn hơn so với mã hóa simulcast hay không?

Ví dụ: Hai dạng mã hóa của một chuỗi được yêu cầu phát qua một mạng Những

sự lựa chọn là mã hóa các dạng chất lượng thấp và chất lượng cao một cách độc lập sừ

Trang 33

Trong trường hợp này, lớp cơ sở của dạng mở rộng được mã hóa tại tốc độ bit cao hơn so với bản simulcast tương ứng Nói chung, nó thích hợp để cung cấp một tham chiếu tốt cho những dự đoán của lớp nâng cao Tuy vậy, tốc độ bit tổng của bản mở rộng thì thấp hơn

so với tốc độ bit simulcast kết hợp Trong ví dụ này, mã hóa mở rộng hiệu quả hơn về mặt tốc độ bit tổng

Báo cáo kỹ thuật MPEG N9577 so sánh hiệu suất của SVC và AVC [5] Báo cáo này mô tả một loạt những kiểm tra trong đó, các clip video giống nhau được mã hóa sử dụng AVC và SVC Các clip này được mã hóa ở một số mức chất lượng và độ phân giải Trong mỗi trường hợp, một clip tốc độ thấp và một clip tốc độ cao được tạo ra Dùng AVC mã hóa clip tốc độ thấp và như lớp cơ sở của một luồng mở rộng Clip tốc độ cao được mã hóa như một luồng AVC riêng và như lớp nâng cao của một luồng mở rộng Các tốc độ bit làm việc được chọn đến mức chất lượng thị giác của chuỗi được giải mã là xấp

xỉ như tại mỗi điểm tốc độ thấp và cao Chất lượng nhận biết được của mỗi clip được đo bằng việc kết hợp các điểm đánh giá của một số người quan sát

Các kết quả được lựa chọn từ báo cáo trên được chỉ ra trong hình 3.14, 3.15 và hình 3.16 Mở rộng chất lượng với 2 lớp được kiểm tra trong hình 3.14 cho các chuỗi

‘Ofer’ and ‘Paris’ Điểm tốc độ thấp hơn thể hiện 30fps chuỗi CIF được mã hóa ở tốc độ bit thấp Tốc độ lớp cơ sở SVC và chất lượng chủ quan, được chỉ rõ ở ‘Quality of the highest layer’, cao hơn một chút so với luồng tốc độ thấp AVC Điểm tốc độ cao hơn thể hiện tốc độ bit tổng của cả AVC và luồng simulcast hoặc cả các lớp SVC Rõ ràng trong trường hợp này, SVC đạt được chất lượng giống AVC với tốc độ tổ hợp thấp hơn

Hình 3.14 Mở rộng chất lượng tại ảnh có độ phân giải CIF [5]

Như chỉ ra trong hình 3.14, tốc độ tổng cho hai luồng simulcast cao hơn so với tốc

độ tổng cho hai lớp SVC

Hình 3.15 chỉ ra kết quả tương tự cho mở rộng kết hợp thời gian và không gian Điểm tốc độ thấp 15fps, video 320x240 và điểm có tốc độ cao hơn 30fps, video 640x480

Ngày đăng: 25/03/2015, 11:04

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Iain E. G. Richardson, “H.264 And MPEG-4 Video Compression” Sách, tạp chí
Tiêu đề: H.264 And MPEG-4 Video Compression
[3] Joint Scalable Video Model software, http://ip.hhi.de/imagecom G1/savce/downloads/SVC-Reference-Software.htm Sách, tạp chí
Tiêu đề: Joint Scalable Video Model software
[6] The MPEG Handbook MPEG-1, MPEG-2, MPEG-4 – John Watklnson Sách, tạp chí
Tiêu đề: The MPEG Handbook MPEG-1, MPEG-2, MPEG-4
Tác giả: John Watklnson
[7] Heiko Schwarz, Detlev Marpe, Thomas Wiegand, “Overview of the Scalable Video Coding”, IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, VOL. 17, NO. 9, SEPTEMBER 2007, pp 1103 – 1119Extension of the H.264/AVC Standard Sách, tạp chí
Tiêu đề: Overview of the Scalable Video Coding
[2] Recommendation ITU-T H.264 | ISO/IEC 14496-10:2009, ‘Advanced Video Coding for generic audio-visual services’, March 2009 Khác

HÌNH ẢNH LIÊN QUAN

Hình 1.4  Macroblock và phân vùng Macroblock [5] - Mã hóa video mở rộng được
Hình 1.4 Macroblock và phân vùng Macroblock [5] (Trang 9)
Hình 1.3 Chuỗi Video  GOP (Group of picture): một dãy liên tiếp các ảnh (picture) trong cảnh - Mã hóa video mở rộng được
Hình 1.3 Chuỗi Video GOP (Group of picture): một dãy liên tiếp các ảnh (picture) trong cảnh (Trang 9)
Hình 2.2 Mã hóa liên ảnh - Mã hóa video mở rộng được
Hình 2.2 Mã hóa liên ảnh (Trang 13)
Hình 3.2 Bộ mã hóa và giải mã video H262 mở rộng chất lượng - Mã hóa video mở rộng được
Hình 3.2 Bộ mã hóa và giải mã video H262 mở rộng chất lượng (Trang 16)
Hình 3.3 Bộ mã hóa video mở rộng không gian - Mã hóa video mở rộng được
Hình 3.3 Bộ mã hóa video mở rộng không gian (Trang 17)
Hình 3.4 Truyền nhiều luồng theo cơ chế simulcast - Mã hóa video mở rộng được
Hình 3.4 Truyền nhiều luồng theo cơ chế simulcast (Trang 22)
Hình 3.6 Các kiểu mã hóa mở rộng trong SVC [5] - Mã hóa video mở rộng được
Hình 3.6 Các kiểu mã hóa mở rộng trong SVC [5] (Trang 24)
Hình 3.9 Cấu trúc dự đoán phân cấp [5] - Mã hóa video mở rộng được
Hình 3.9 Cấu trúc dự đoán phân cấp [5] (Trang 26)
Hình 3.14 Mở rộng chất lượng tại ảnh có độ phân giải CIF [5] - Mã hóa video mở rộng được
Hình 3.14 Mở rộng chất lượng tại ảnh có độ phân giải CIF [5] (Trang 33)
Hình 3.20 Hiệu quả mã hóa đối với mã hóa mở rộng chất lượng có và - Mã hóa video mở rộng được
Hình 3.20 Hiệu quả mã hóa đối với mã hóa mở rộng chất lượng có và (Trang 47)
Hình 4.1 Phần trăm phân vùng mode đẹp cho chuỗi video Mobile [4] - Mã hóa video mở rộng được
Hình 4.1 Phần trăm phân vùng mode đẹp cho chuỗi video Mobile [4] (Trang 53)
Hình 4.2   Luồng công việc thực hiện giảm mode ứng viên cho mã hóa tại lớp cơ sở [4] - Mã hóa video mở rộng được
Hình 4.2 Luồng công việc thực hiện giảm mode ứng viên cho mã hóa tại lớp cơ sở [4] (Trang 54)
Hình 4.6 Ảnh Foreman trước khi mã hóa - Mã hóa video mở rộng được
Hình 4.6 Ảnh Foreman trước khi mã hóa (Trang 59)
Hình 4.7 Ảnh Foreman tái dựng lại sau khi mã hóa của lớp 0 và lớp1 - Mã hóa video mở rộng được
Hình 4.7 Ảnh Foreman tái dựng lại sau khi mã hóa của lớp 0 và lớp1 (Trang 59)
Hình 4.8 Đồ thị đánh giá PSNR của 2 giải thuật Fast mode và Exhause block - Mã hóa video mở rộng được
Hình 4.8 Đồ thị đánh giá PSNR của 2 giải thuật Fast mode và Exhause block (Trang 60)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN