Khảo sát và đánh giá các thuật toán cải thiện chuẩn mã hóa video H.266/ Versatile Video Coding

Bài viết Khảo sát và đánh giá các thuật toán cải thiện chuẩn mã hóa video H.266/ Versatile Video Coding tiến hành khảo sát các mô hình mã hóa video được đề xuất nhằm cải thiện chuẩn mã hóa video mới nhất hiện nay, H.266/Versatile Video Coding (VVC). Mời các bạn cùng tham khảo!

Trang 1

Khảo sát và đánh giá các thuật toán cải thiện chuẩn mã hóa video H.266/ Versatile Video

Coding Bùi Thanh Hương1,2, Nguyễn Quang Sang2, Hoàng Văn Xiêm2

1Trường Đại học Xây dựng Hà Nội

2Trường Đại học Công nghệ, Đại học Quốc Gia Hà Nội

Abstract— Trong những năm gần đây, cùng với sự phát

triển của các hệ thống truyền thông đa phương tiện, số

lượng thiết bị và các loại hình video cũng gia tăng một cách

nhanh chóng Nhằm đáp ứng nhu cầu về truyền tải và lưu

trữ nội dung video, các mô hình mã hóa video trở thành

một chủ đề nghiên cứu mang tính cấp thiết Vào tháng 7

năm 2020, tiêu chuẩn mã hóa video mới nhất với tên

H.266/Versatile Video Coding chính thức được chuẩn hóa

và thông qua Mô hình mã hóa video này cho khả năng

nén hiệu quả với các video độ phân giải cao, video 360 o ,…

nhờ việc tích hợp các thuật toán và kỹ thuật hiện đại Tuy

nhiên, chuẩn mã hóa video này vẫn còn tồn tại những hạn

chế, đặc biệt là về mặt thời gian xử lý Do đó, các nghiên

cứu nhằm cải thiện mô hình mã hóa video này liên tục

được đề xuất và công bố Bài báo này tiến hành khảo sát

và đánh giá một số nghiên cứu nổi bật giúp cải thiện chuẩn

mã hóa video H.266/Versatile Video Coding

Keywords- Truyền thông đa phương tiện, Mã hóa video,

H.266/Versatile Video Coding

I GIỚITHIỆU Ngày nay, sự gia tăng lưu lượng video trong truyền

tải cũng như trong lưu trữ ngày càng cao Sự gia tăng

này song hành cùng với sự ra đời của các thiết bị số hiện

đại nói riêng và sự phát triển như vũ bão của nhiều lĩnh

vực khoa học, kỹ thuật và công nghệ nói chung, những

yếu tố góp phần làm tăng nhu cầu sử dụng, truyền tải

video Do đó, các chuẩn mã hóa video không ngừng

được phát triển với hiệu năng ngày càng cao để mã hóa

hiệu quả các video thô chưa qua xử lý, đáp ứng được nhu

cầu truyền tải, lưu trữ video, đóng vai trò quan trọng cho

sự phát triển của các ứng dụng truyền thông đa phương

tiện như truyền hình thời gian thực (streaming), thực tại

ảo (VR: Virtual Reality), 3D-TV,… Cụ thể, theo thời

gian, các chuẩn mã hóa video hiện nay như H.264/AVC

[1], H.265/HEVC [2] và mới nhất là H.266/VVC [3],

cũng không ngừng được nghiên cứu phát triển và cải

tiến, đảm bảo phù hợp, bắt kịp các ứng dụng truyền

thông đa phương tiện tiên tiến

Một trong những kỹ thuật, công nghệ quan trọng,

đóng vai trò nền tảng trong phát triển các lĩnh vực khoa

học giai đoạn mới, cuộc cách mạng 4.0, đó chính là trí

tuệ nhân tạo Với các dữ liệu ảnh, video, kỹ thuật học máy và học sâu được quan tâm nhiều bởi khả năng ứng dụng hiệu quả trong các bài toán phân loại, dự đoán với video dữ liệu lớn

Trong những năm gần đây, các phương pháp, thuật toán cùng với kỹ thuật học máy, học sâu tiên tiến đã và đang được nghiên cứu, ứng dụng nhằm cải thiện các mô hình mã hóa video hiện đại Các thuật toán này đã cho thấy hiệu quả trong việc giải quyết các vấn đề còn tồn tại của các bộ mã hóa video như cải thiện mô hình phân chia hình ảnh; tối ưu thời gian cho quá trình lựa chọn chế độ và hướng dự đoán nội khung; tối ưu tập ứng viên

dự đoán, thu hẹp vùng tìm kiếm thích ứng để cải thiện

mô hình dự đoán liên khung Nhiều công trình nghiên cứu đã ứng dụng các kỹ thuật trí tuệ nhân tạo, kỹ thuật học sâu, mạng nơ ron tích chập trong nâng cao chất lượng hình ảnh sau giải mã cũng giúp cải thiện hiệu năng

mã hóa, giảm thời gian xử lý, nâng cao trải nghiệm người dùng

Trong bài báo này, chúng tôi tiến hành khảo sát các

mô hình mã hóa video được đề xuất nhằm cải thiện chuẩn mã hóa video mới nhất hiện nay, H.266/Versatile Video Coding (VVC) Cấu trúc bài báo được trình bày gồm 4 phần Phần 1 giới thiệu tổng quan về chủ đề nghiên cứu Phần 2 trình bày cấu trúc của chuẩn mã hóa video H.266/VVC Phần 3 trình bày khảo sát về các thuật toán được đề xuất nhằm cải thiện chuẩn mã hóa video H.266/VVC Phần 4 là các kết luận và định hướng nghiên cứu trong tương lai

II CHUẨNMÃHÓAH.266/VERSATILE

VIDEOCODING Đứng trước sự phát triển các dịch vụ truyền thông video đáp ứng sự phát triển các ứng dụng phục vụ nhu cầu ngày càng cao về chất lượng video, năm 2013 chuẩn

mã hóa video H.265/HEVC (High Efficiency Video Coding) được thông qua [2] Sau đó, chuẩn mã hóa video H.266/VVC (Versatile Video Coding) [3] đã được chính thức thông qua vào tháng 7 năm 2020 Chuẩn mã hóa video này được tích hợp các kỹ thuật tiên tiến, thích hợp với các ứng dụng mã hóa video độ phân giải cao

Trang 2

(HD, FullHD, 2K, 4K,…), đồng thời cho phép mã hóa

video khả chuyển (Scalable Vdeo Coding), mã hóa

video 360o,…

Hình 1 mô tả kiến trúc tổng quan của bộ mã hóa

H.266/VVC Tương tự với các mô hình mã hóa video

hiện đại, VVC sử dụng kiến trúc mã hóa lai theo khối

(block-based hybrid coding), bao gồm các mô đun chính

như phân chia hình ảnh, dự đoán nội khung/liên khung,

biến đổi, lượng tử hóa, mã hóa entropy

Hình 1: Mô hình mã hóa video theo chuẩn H.266/VVC

A Phân chia khung hình:

Một khung hình video được chia thành các đơn vị

mã hóa như CTU (Coding tree unit), CU (coding unit),

PU (prediction unit) Việc quyết định kích cỡ phân chia

có thể khác nhau, tùy thuộc nội dung khung hình và đảm

bảo phù hợp chế độ dự đoán Trong VVC, kích thước

khối hình lớn nhất được cho phép lên tới 128×128 không

như kích thước 64×64 của chuẩn tiền nhiệm Thêm nữa,

từ chuẩn mã hóa HEVC, cấu trúc cây tứ phân (quad tree)

được sử dụng Sau đó VVC chọn thêm cây tích hợp đa

kiểu phân chia đệ quy (MTT: nested recursive

Multiple-Type Tree), tức là phân chia khối hình cho 2 (là cấu trúc

binary split) hoặc cho 3 (là cấu trúc ternary split) (Hình

2) Ngoài ra, việc lựa chọn tỉ lệ chiều dài/chiều rộng của

khối hình theo chuẩn VVC cho phép được linh hoạt, lên

tới 1/16

Hình 2: Các dạng phân chia đệ quy trong VVC.

B Phép biến đổi và lượng tử hóa

Với mục đích giảm sự tương đồng ở khối thông tin

khác biệt, phép biến đổi sẽ tác động vào các hệ số, làm

cho hệ số dư thừa càng nhỏ càng tốt, do đó, làm nổi lên

các hệ số có biên độ lớn trong vùng biến đổi

Phép biến đổi cosin rời rạc DCT-II (Discrete Cosine

Transform), được dùng nhiều trong các chuẩn trước

chuẩn H.265/HEVC, cụ thể là từ chuẩn

H.261/MPEG-1 Còn từ chuẩn HEVC, phép biến đổi sin rời rạc DST-VII (Discrete Sine Transform), được bổ sung trong khối biến đổi của kiến trúc HEVC [4-8] Trong kiến trúc mã hóa video hiện hành, chuẩn VVC đã bổ sung thêm phép biến đổi DCT-VIII Như vậy, 3 phép biến đổi cô sin rời rạc là DCT-II, DCT-VIII, DST-VII được thực hiện linh hoạt trong kiến trúc VVC [9], do đó chi phí biến dạng được giảm thiểu đáng kể, đặc biệt hữu hiệu trong việc loại bỏ hệ số biến đổi tần số cao đối với video có độ phân giải cao, có kích thước khối lớn (lên đến 128×128) Các thông tin phía đầu ra của bộ biến đổi tiếp tục được đưa vào bộ lượng tử hóa, do vậy giúp cho số đầu

ra có thể có được giảm bớt Tuy nhiên, tác động giảm bớt số trọng số này là phép toán xấp xỉ nên có hiện tượng tổn thất dữ liệu phía đầu ra của bộ lượng tử hóa Phép lượng tử vô hướng mà trong đó, mỗi hệ số xấp

xỉ độc lập với các giá trị xung quanh được lựa chọn áp dụng trong kiến trúc VVC Hệ số lượng tử (QP) được

mở rộng, lên tới 63 Hơn nữa, để chuyển đổi QP độ xám (luma) sang QP màu sắc (chroma), ánh xạ QP linh hoạt hơn được áp dụng vào kiến trúc VVC [10]

C Mã hóa dự đoán

Có hai cách thức thực hiện dự đoán là dự đoán trong khung hay dự đoán liên khung Phép dự đoán trong khung tức là phép dự đoán được thực hiện trong chính ảnh đang được mã hóa, các khối mẫu lân cận của khối hiện tại có thể được bộ mã hóa dùng để thực hiện dự đoán Còn dự đoán liên khung, bộ mã hóa tham chiếu các ảnh đã được mã hóa xong để thực hiện dự đoán cho ảnh hiện tại Vì không có các ảnh nào khác phía trước để tham chiếu nên ảnh đầu tiên của video chỉ áp dụng dự đoán trong khung Tùy theo các mục tiêu cần đạt (như tối ưu hóa tỉ lệ méo), bộ mã hóa sẽ quyết định cách thức

dự đoán liên khung hay dự đoán trong khung khi mã hóa các ảnh tiếp theo

• Dự đoán nội khung (dự đoán không gian)

Trong kiến trúc VVC, dự đoán nội khung có 67 chế

độ dự đoán, bao gồm chế độ Planar (0), DC (1) và 65 chế độ dự doán theo hướng (2÷67) (Hình 3) VVC sử dụng kích thước CTU lớn hơn và hình dạng các khối PU không giới hạn là các khối vuông N×N, 2N×2N Đối với các khối hình có dạng hình chữ nhật, một số hướng dự đoán bị thay thế, tuy nhiên tổng số hướng vẫn là 67 và phương pháp dự đoán không thay đổi [11]

Hình 3: Các chế độ dự đoán nội khung trong VVC.

Dự đoán

trong khung

Dự đoán liên

khung

Biến đổi / Lượng tử hóa

Mã hóa Entropy

Lượng tử/

Biến đổi ngược

Bộ lọc vòng lặp

Bộ đệm các

khung hình

đã giải mã

-Video nguồn

Chuỗi bit đầu ra

1 0 1 0 1 00 1

Thông tin khác biệt

Khung hình

dự đoán

Trang 3

Các góc độ được thay đổi qua các thế hệ nén video

nhằm tăng hiệu quả của phép dự đoán, ngày càng thu

được các hướng biên tùy ý của các video tự nhiên bất

kỳ

• Dự đoán liên khung (dự đoán thời gian)

Việc mã hóa trực tiếp các giá trị pixel thô cho mỗi

block nội tại, có thể được thay thế bằng cách tìm kiếm

một khối tương tự trên khung đã được mã hoá trước đó

rồi mã hoá khối này bởi một vector chuyển động Cách

này chính là thao tác ước lượng chuyển động và có gây

ra lỗi hay giá trị dư thừa do dự báo Vậy cần có 2 phần

tử để khôi phục các pixel thô của khối là vector chuyển

động và lỗi dự báo (hay thông tin khác biệt)

Bộ mã hóa HEVC sử dụng tập các vector dự đoán

nâng cao AMVP (advanced Motion Vector prediction),

còn VVC bổ sung thêm tập vector dự đoán dựa trên lịch

sử (History-based Motion Vector Prediction - HMVP)

[12]

D Bộ lọc

Các khung hình sau khi tái tạo được đưa qua bộ lọc

để nâng cao chất lượng hình ảnh, do đó nâng cao hiệu

quả trong mã hóa video

Hai bộ lọc lặp (In-Loop) được dùng trong HEVC là

Bộ lọc nhiễu khối (DBF: Deblocking Filter) và Bù mẫu

thích ứng (SAO: Sample Adaptive Offset) Bộ lọc DBF

là bộ lọc đầu tiên, được áp dụng thực hiện lọc tín hiệu

trên một khu vực hoặc toàn bộ ảnh Còn bộ lọc SAO tiếp

theo áp dụng thực hiện lọc trên phạm vi không gian cục

bộ của ảnh

Ngoài ra, bộ lọc thứ ba được bổ sung trong chuẩn

VVC là Bộ lọc vòng lặp thích ứng (ALF: Adaptive Loop

Filter), các bộ lọc hình dạng kim cương 7×7 và 5×5 được

áp dụng để cải tiến các bộ lọc In-Loop trong VVC [13]

E Mã hóa nhị phân thích ứng

Qua khối này, để tiếp tục đạt thêm hiệu năng cao,

thông tin dư thừa hay thông tin khác biệt được mã hóa

bởi bộ mã hóa số học, nhị phân tương thích ngữ cảnh

CABAC (Context Adaptive Binary Arithmetic Coding)

[10]

III CÁCTHUẬTTOÁNCẢITHIỆNCHUẨN

MÃHÓAVIDEOH.266/VVC

A Cải thiện mô hình phân chia hình ảnh

H.266/VVC sử dụng cơ chế phân chia hình ảnh theo

cấu trúc QTMT Cấu trúc phân chia này giúp việc phân

chia trở nên linh động và hiệu quả hơn Tuy nhiên, do số

lượng kích thước và hình dạng khối hình lớn khiến cho

thời gian phân chia tăng cao so với các chuẩn mã hóa

video trước đó Do đó, các nhóm nghiên cứu trên thế

giới đã tiến hành thử nghiệm và ứng dụng các mô hình

học sâu nhằm giảm thời gian phân chia hình ảnh trong

VVC

Nhóm tác giả T.Li [14] đề xuất một tập dữ liệu lớn

với nội dung video đa dạng phục vụ quá trình huấn luyện

các mô hình học sâu cho mã hóa video Bên cạnh đó,

nhóm tác giả này cũng đề xuất một mô hình mạng nơ ron tích chập và hàm mất mát giúp kết thúc sớm quá trình phân vùng hình ảnh trong VVC Mô hình mạng học sâu này sử dụng thông tin về kích thước và nội dung khối hình để đưa ra quyết định kết thúc hoặc tiếp tục quá trình phân chia Kết quả kiểm thử cho thấy phương pháp này giúp giảm từ 44.65% - 66.88% thời gian mã hóa, trong khi hiệu năng mã hóa không ảnh hưởng quá nhiều với 1.322%-3.188% lượng BDBR tăng thêm

Nhóm tác giả G Tang [15] đề xuất phương pháp kết hợp tính toán gradient và mạng học sâu CNN để kết thúc sớm quá trình phân chia CU trong VVC Đầu tiên, bộ

mã hóa tính toán gradient của CU hiện tại và đưa ra quyết định dừng hoặc tiếp tục quá trình phân chia dựa trên ngưỡng Nếu quá trình phân chia được tiếp tục, một

mô hình mạng học sâu CNN được sử dụng để đưa ra quyết định về chế độ phân chia của CU Kết quả cho thấy phương pháp này giúp giảm 33% thời gian mã hóa trong khi chỉ tốn thêm 0.99% lượng BDBR

Trong bài báo [16], nhóm tác giả N Zouidi đề xuất tái sử dụng mô hình mạng mơ ron tích chập ETH-CNN

áp dụng cho quá trình phân chia các khối hình có dạng hình vuông trong VVC Mô hình mạng ETH-CNN này được đề xuất bởi nhóm tác giả Mai Xu và cộng sự [17]

áp dụng cho mô hình mã hóa video chuẩn H.265/HEVC

Mô hình mạng học sâu này sử dụng thông tin về nội dung khung hình và hệ số lượng tử để đưa ra quyết định kết thúc hoặc tiếp tục quá trình phân chia CU trong HEVC sử dụng cấu trúc cây chia tư (quad-tree) Bên cạnh đó, bài báo này cũng đề xuất một phương pháp lựa chọn nhanh chế độ dự đoán nội khung sử dụng phân tích, thống kê Kết quả cho thấy thời gian xử lý của bộ mã hóa VVC giảm từ 51.81% - 60.04% trong khi lượng BDBR tăng thêm khoảng 3.59%

Nhóm tác giả Q Zhang và cộng sự đề xuất trong bài báo [18] thuật toán quyết định nhanh kích thước CU cho VVC dựa trên đặc tính về nội dung video kết hợp với ngưỡng động Thuật toán này bao gồm 2 quá trình: 1) xác định tiếp tục hoặc kết thúc quá trình phân chia CU

và 2) lựa chọn chế độ phân chia cho CU Kết quả kiểm thử cho thấy thời gian xử lý của bộ mã hóa giảm trung bình 48.58% trong khi lượng BDBR tăng thêm 0.91%

B Cải thiện mô hình dự đoán nội khung

Như đã đề cập, VVC sử dụng 67 chế độ dự đoán nội khung so với 35 chế độ trong HEVC khiến cho thời gian lựa chọn chế độ dự đoán tối ưu tăng lên đáng kể Do đó, các nghiên cứu liên quan đến giảm thời gian cho quá trình lựa chọn chế độ dự đoán nội khung trở nên rất quan trọng và cấp thiết

Nhóm tác giả H Yang đề xuất trong bài báo [19] thuật toán tìm kiếm nhanh chế độ dự đoán nội khung tối

ưu cho VVC Dựa trên giá trị sai khác sau biên đổi Hadamard (SATD), một hướng khởi tạo cho quá trình tìm kiếm được lựa chọn Sau đó, bộ mã hóa tiến hành tìm kiếm và cập nhật hướng dự đoán nội khung tối ưu với bước nhảy lần lượt bằng 4, 2 Tập ứng viên dự đoán

Trang 4

cuối cùng sử dụng cho quá trình RDO bao gồm chế độ

Planar, chế độ DC và hướng dự đoán có giá trị SATD

nhỏ nhất Kết quả kiểm thử cho thấy thuật toán này giúp

giảm 25.51% thời gian xử lý trong khi lượng BDBR tăng

thêm 0.54%

Trong bài báo [20], nhóm tác giả Y Chen đề xuất

phương pháp giảm thời gian lựa chọn chế độ dự đoán

nội khung cho VVC Phương pháp này bao gồm 2 quá

trình: 1) thiết lập tập ứng viên các chế độ dự đoán nội

khung dựa trên giá trị sai khác sau biến đổi Hadamard

và tập MPM; 2) sắp xếp lại tập các ứng viên và kết thúc

sớm quá trình lựa chọn chế độ dự đoán tối ưu dựa trên

ngưỡng động Thuật toán này cho thấy khả năng giúp

giảm tới 30.59% thời gian mã hóa với lượng BDBR tăng

thêm 0.86%

Một kiến trúc mạng nơ ron tích chập được nhóm tác

giả T Lin đề xuất trong nghiên cứu [21] Mô hình mạng

tích chập này đưa ra tập các ứng viên dự đoán nội khung

cho các khối có kích thước 16×16 trong VVC dựa trên

thông tin về giá trị điểm ảnh của khối hình hiện tại và

khối hình tái tạo

C Cải thiện mô hình dự đoán liên khung

Đối với dự đoán liên khung, vector chuyển động của

CU là một trong những thông tin quan trọng cho biết

tương quan về mặt thời gian giữa các khung hình

Nhóm tác giả L Zhang đề xuất phương pháp khai

thác thông tin về vector chuyển động của các khối hình

đã được mã hóa trước đó để xây dựng một tập ứng viên

dự đoán liên khung cho CU trong VVC, với tên gọi tập

các vector dự đoán dựa trên lịch sử [12] Tập các vector

ứng viên được điều khiển và cập nhật với cơ chế nhập

trước xuất trước (first-in-first-out) Các vector ứng viên

mới được thêm lần lượt vào vị trí cuối của bảng lưu trữ

Khi có một vector ứng viên mới giống với vector ứng

viên cũ, vector cũ bị loại bỏ, các vector phía sau được di

chuyển về phía trước với chỉ số giảm đi 1 (Hình 4)

Phương pháp này giúp bộ mã hóa VVC tiết kiệm lên tới

1.2% lượng bit mã hóa, trong khi thời gian xử lý tăng

thêm khoảng 1-7%

Hình 4: Cơ chế cập nhật bảng các ứng viên HMVP

Nghiên cứu [22] lần đầu tiên đề xuất một phương

pháp sử dụng học sâu giúp tăng tốc quá trình phân chia

CU trong VVC Phương pháp này đề xuất một kiến trúc

mạng nơ ron tích chập sử dụng đầu vào là thông tin về

thành phần Luma của CU, thông tin dư thừa và vector

dự đoán chuyển động 2 chiều (Hình 5) Kiến trúc mạng

này được sử dụng cho việc dự đoán chế độ phân chia của

các CU có kích thước lớn hơn 16×16 Bên cạnh đó, tác

giả cũng đề xuất thuật toán quyết định nhanh chế độ hợp

nhất (Merge mode) trong ước lượng chuyển động, sử

dụng thông tin dư thừa sau mã hóa của CU Kết quả cho

thấy phương pháp này giúp giảm 30.63% thời gian xử lý của bộ mã hóa và tiêu tốn thêm 3.18% lượng BDBR

Hình 5: Kiến trúc mạng CNN sử dụng trong thuật toán kết thúc sớm quá trình phân chia CU trong dự đoán liên khung

Trong quá trình ước lượng chuyển động, kích thước vùng tìm kiếm có ảnh hưởng lớn tới thời gian xử lý của

bộ mã hóa Trên cơ sở phân tích ảnh hưởng của kích thước vùng tìm kiếm tới độ phức tạp thuật toán, nhóm tác giả Z Pan [23] đề xuất phương pháp thu hẹp vùng tìm kiếm thích ứng dựa trên việc khai thác thông tin về chuyển động của các khối hình lân cận và khối hình ở

độ sâu phân chia trước đó Bên cạnh đó, nhóm tác giả cũng đề xuất một phương pháp lựa chọn khung hình tham chiếu trong dự đoán liên khung bằng việc khai thác thông tin về vector dự đoán chuyển động Thuật toán này giúp giảm số lượng khung hình tham chiếu cần tìm kiếm, qua đó giúp giảm thời gian xử lý chung của bộ mã hóa Kết quả kiểm thử cho thấy phương pháp đề xuất giúp bộ

mã hóa giảm 34.27% thời gian xử lý trong khi lượng bit

mã hóa tăng thêm 0.49%

D Nâng cao chất lượng hình ảnh sau giải mã

Tác giả F Zhang và cộng sự đề xuất trong bài báo [24] một phương pháp nâng cao chất lượng video sau giải mã Phương pháp trình bày và kiểm thử một kiến trúc mạng nơ ron tích chập bao gồm 2N+2 lớp tích chập Kết quả cho thấy phương pháp này giúp tiết kiệm 5.84% lượng bitrate đối với bộ các hệ số lượng tử cao, và 5.8% lượng bitrate khi kiểm thử với bộ các hệ số lượng tử thấp

Tác giả F Nasiri và cộng sự [25] đề xuất mô hình mạng học sâu giúp nâng cao chất lượng các khung hình trong video Mô hình mạng học sâu này sử dụng thông tin về hệ số lượng tử kết hợp với khung hình tái tạo (prediction-unaware) và khung hình dự đoán (prediction-aware) Kết quả cho thấy phương pháp này giúp tiết kiệm từ 5.8% đến 7.4% lượng bitrate khi kiểm thử với chuẩn mã hóa video H.266/VVC

Tác giả Q Xing và cộng sự đề xuất trong bài báo [26] một mô hình mạng học sâu kết hợp CNN và BiLSTM, cho phép khai thác tương quan về mặt thời gian giữa các khung hình đề nâng cao chất lượng hình ảnh video Ban đầu, phương pháp này được kiểm thử cho chuẩn mã hóa H.265/HEVC, và sau đó được kiểm thử cho chuẩn mã hóa H.266/VVC trong bài báo [27]

C

Thành phần Luma

Thông tin sai khác

Vector chuyển động 2 chiều

I L

I RESI

I MF

F L

F RESI

F MF

F Concat

O Confidence

S = 1

C = 16

S = 1

C = 16

S = 1

C = 16

S = 2

C = 32

S = 2

C = 32

S = 2

C = 32

S = 1

C = 32

S = 1

C = 2

Trang 5

Bên cạnh đó, các phương pháp [28, 29] đề xuất các

mô hình mạng học sâu giúp cải thiện bộ lọc vòng

(in-loop filter) trong chuẩn mã hóa video H.266/VVC

IV NHẬNXÉTVÀĐÁNHGIÁ

Các thuật toán nêu trên được các nhóm tác giả kiểm

thử và đánh giá hiệu năng trên tập dữ liệu chuẩn gồm 8

video Đặc tính của các video được thống kê trong Bảng

1

Bảng 1: Đặc tính các chuỗi video kiểm thử

Chuỗi video Độ phân giải Số lượng

khung hình

Tốc độ khung hình

PeopleOnStreet 2560×1600 150 30 Hz

BasketballPass 416×240 500 50 Hz

BlowingBubbles 416×240 500 50 Hz

Bảng 2: Hiệu quả của một số thuật toán giảm thời gian xử lý cho

chuẩn mã hóa video H.266/VVC

Phương

pháp ΔT (%) BDBR (%) ΔT/BDBR

[14] 63.79 3.19 20.00

[15] 33.41 0.99 33.75

[16] 60.04 3.59 16.72

[18] 48.58 0.91 53.38

[19] 62.46 1.93 32.36

[20] 30.59 0.86 35.57

[22] 30.63 3.18 9.63

[23] 34.27 0.49 69.94

Hiệu quả của một số thuật toán giảm thời gian mã

hóa cho chuẩn H.266/VVC được mô tả trong Bảng 2 và

Hình 6 Trong đó ΔT cho biết thời gian mã hóa tiết kiệm

của mỗi phương pháp, chỉ số BDBR [30] cho biết lượng

bit thay đổi khi so sánh với phương pháp tham chiếu ở

cùng mức chất lượng (BDBR > 0 tức là lượng bit cần

cho quá trình mã hóa tăng thêm) Tỉ lệ ΔT/BDBR giúp

đánh giá hiệu quả của thuật toán trên cả 2 phương diện:

thời gian tiết kiệm và hiệu năng nén Tỉ lệ này càng cao

thì thuật toán càng hiệu quả

Hình 6: Hiệu quả của một số thuật toán giảm thời gian xử lý cho

chuẩn mã hóa video H.266/VVC.

Một số nhận xét rút ra như sau:

- Phương pháp [14] giúp giảm thời gian xử lý của bộ

mã hóa H.266/VVC nhiều nhất với 63.79% trong khi phương pháp [20] giảm ít thời gian nhất với 30.59%

- Phương pháp [23] có hiệu quả tốt nhất với tỉ lệ ΔT/BDBR lên tới 69.94 trong khi phương pháp [22]

có hiệu quả kém nhất với tỉ lệ ΔT/BDBR chỉ đạt 9.63

- Phương pháp [23] cũng là phương pháp tiêu tốn thêm ít bit nhất với 0.49% lượng BDBR

Hiệu quả của một số phương pháp nâng cao chất lượng hình ảnh về mặt BDBR cho một số chuỗi video được thống kê trong Bảng 3 Nhìn chung, phương pháp [25] có hiệu quả cao nhất khi tiết kiệm 7.04% lượng bit

mã hóa khi so sánh ở cùng mức chất lượng

Hình 7 cho thấy đường cong RD (Rate – Distortion) của một số chuỗi video sử dụng thuật toán nâng cao chất lượng MFQE [27] khi kiểm thử với cấu hình mã hóa Low-Delay-P

Bảng 3: Hiệu quả của một số phương pháp nâng cao chất lượng

hình ảnh (BDBR)

PeopleOnStreet N/A N/A -3.22 N/A N/A Kimono N/A N/A -4.35 N/A N/A ParkScene N/A N/A -7.10 N/A N/A PartyScene -4.3 -6.1 -6.23 -1.46 -3.91 RaceHorsesC -2.09 -4.2 -1.35 -1.68 -3.11 BasketballPass -5.61 -8.9 -6.23 -1.73 -4.59 BlowingBubbles -3.75 -7.0 -8.61 -0.8 -3.79 RaceHorsesD -4.2 -9.0 -3.84 -2.19 -4.9

Hình 7: Đường cong RD của một số chuỗi video sử dụng thuật

toán nâng cao chất lượng MFQE

V KẾTLUẬN Trong bài báo này, chúng tôi tiến hành khảo sát một

số nghiên cứu giúp cải thiện chuẩn mã hóa video

Trang 6

H.266/VVC Các phương pháp được khảo sát chủ yếu

tập trung giải quyết vấn đề giảm thời gian xử lý cho bộ

mã hóa H.266/VVC, cải thiện bộ lọc và và nâng cao chất

lượng hình ảnh sau giải mã Bên cạnh những phương

pháp sử dụng phân tích, thống kê toán học truyền thống,

các phương pháp sử dụng học sâu, học máy cũng cho

thấy hiệu quả cao khi ứng dụng trong việc giải quyết

những vấn đề của mã hóa video hiện đại Những khảo

sát và phân tích nêu trên là tiền đề, định hướng cho

những nghiên cứu tiếp theo trong tương lai

VI LỜICẢMƠN Nghiên cứu này được tài trợ bởi Quỹ Phát triển khoa

học và công nghệ Quốc gia (NAFOSTED) trong đề tài

mã số 102.01-2020.15

TÀILIỆUTHAMKHẢO

[1] T Wiegand, G.J Sullivan, G Bjontegaard, A Luthra,

“Overview of the H.264/AVC video coding standard,” IEEE

Trans Circuits Syst Video Technol., vol 13, no 7, pp 560–

576, 2003

[2] G.J Sullivan, et al., “Overview of the High Efficiency Video

Coding (HEVC) Standard”, IEEE Transactions on Circuits and

Systems for Video Technology, vol 22, no 12, pp 1649-1668,

2012

[3] B Bross et al., "Overview of the Versatile Video Coding (VVC)

Standard and its Applications," in IEEE Transactions on

Circuits and Systems for Video Technology, vol 31, no 10, pp

3736-3764, 2021

[4] N Ahmed, T Natarajan, and K Rao, “Discrete Cosine

Transform,” in IEEE Transactions on Computers, vol C-23, no

1, pp 90–93, 1974

[5] M Budagavi, A Fuldseth, G Bjontegaard, V Sze, and M

Sadafale, “Core Transform Design in the High Efficiency Video

Coding (HEVC) Standard,” IEEE J Sel Topics Signal Process.,

pp 1029– 1041, Vol 7, No 6, Dec 2013

[6] V Britanak, P C Yip, and K R Rao, “Discrete Cosine and

Sine Transforms: General Properties, Fast Algorithms and

Integer Approximations,” Elsevier, Sep 2006

[7] R K Chivukula and Y A Reznik, “Fast Computing of Discrete

Cosine and Sine Transforms of Types VI and VII,” in Proc

SPIE 8135, Applications of Digital Image Processing XXXIV,

pp 1–10, No 813505, Sep 2011

[8] Y A Reznik, “Relationship between DCT-II, DCT-VI, and

DST-VII transforms,” in Proc 2013 IEEE International

Conference on Acoustics, Speech and Signal Processing, pp

5642–5646, May 2013

[9] X Zhao et al., "Transform Coding in the VVC Standard," in

IEEE Transactions on Circuits and Systems for Video

Technology, vol 31, no 10, pp 3878-3890, 2021

[10] H Schwarz et al., "Quantization and Entropy Coding in the

Versatile Video Coding (VVC) Standard," in IEEE

Transactions on Circuits and Systems for Video Technology,

vol 31, no 10, pp 3891-3906, Oct 2021

[11] J Pfaff et al., "Intra Prediction and Mode Coding in VVC," in

IEEE Transactions on Circuits and Systems for Video

Technology, vol 31, no 10, pp 3834-3847, 2021

[12] L Zhang, K Zhang, H Liu, H C Chuang, Y Wang, J Xu, P

Zhao, D Hong, “History-based Motion Vector Prediction in

Versatile Video Coding”, Data Compression Conference

(DCC), 2019

[13] M Karczewicz et al., "VVC In-Loop Filters," in IEEE Transactions on Circuits and Systems for Video Technology, vol 31, no 10, pp 3907-3925, 2021

[14] T Li, M Xu, R Tang, Y Chen and Q Xing, "DeepQTMT: A Deep Learning Approach for Fast QTMT-Based CU Partition

of Intra-Mode VVC," in IEEE Transactions on Image Processing, vol 30, pp 5377-5390, 2021

[15] G Tang, M Jing, X Zeng and Y Fan, "Adaptive CU Split Decision with Pooling-variable CNN for VVC Intra Encoding,"

2019 IEEE Visual Communications and Image Processing (VCIP), 2019

[16] N Zouidi et al., "Complexity reduction of versatile video coding standard: a deep learning approach," Journal of Electronic Imaging, vol 30, no 2, 2021

[17] M Xu, T Li, Z Wang, X Deng, R Yang and Z Guan,

"Reducing Complexity of HEVC: A Deep Learning Approach,"

in IEEE Transactions on Image Processing, vol 27, no 10, pp 5044-5059, 2018

[18] Q Zhang, Y Zhao, B Jiang, L Huang and T Wei, "Fast CU Partition Decision Method Based on Texture Characteristics for H.266/VVC," in IEEE Access, vol 8, pp 203516-203524,

2020

[19] H Yang et al., "Low-Complexity CTU Partition Structure Decision and Fast Intra Mode Decision for Versatile Video Coding," in IEEE Transactions on Circuits and Systems for Video Technology, vol 30, no 6, pp 1668-1682, 2020 [20] Y Chen et al., “A novel fast intra mode decision for versatile video coding,” in Journal of Visual Communication and Image Representation, vol 71, pp 102849-102859, 2020

[21] T Lin et al., “Intra mode prediction for H.266/FVC video coding based on convolutional neural network,” in Journal of Visual Communication and Image Representation, vol 71, pp 102686-102690, 2020

[22] Z Pan, P Zhang, B Peng, N Ling and J Lei, "A CNN-Based Fast Inter Coding Method for VVC," in IEEE Signal Processing Letters, vol 28, pp 1260-1264, 2021

[23] Z Pan et al., “Low complexity versatile video coding for traffic surveillance system,” in International Journal of Sensor Networks, vol 30, no 2, pp 116-125, 2019

[24] F Zhang, C Feng and D R Bull, "Enhancing VVC Through Cnn-Based Post-Processing" 2020 IEEE International Conference on Multimedia and Expo (ICME), 2020

[25] F Nasiri, W Hamidouche, L Morin, N Dhollande and G Cocherel, "A CNN-Based Prediction-Aware Quality Enhancement Framework for VVC," in IEEE Open Journal of Signal Processing, vol 2, pp 466-483, 2021

[26] Z Guan et al., "MFQE 2.0: A New Approach for Multi-Frame Quality Enhancement on Compressed Video," in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol

43, no 3, pp 949-963, 1 March 2021

[27] X HoangVan and H -H Nguyen, "Enhancing Quality for VVC Compressed Videos with Multi-Frame Quality Enhancement Model," 2020 International Conference on Advanced Technologies for Communications (ATC), 2020

[28] Y Wang, Z Chen, Y Li, L Zhao, S Liu, and X Li, “Ce13: Dense residual convolutional neural network based in-loop filter (ce13-2.2 and ce13-2.3),” in the JVET meeting, no JVET-N0254 ITU-T, ISO/IEC, 2019

[29] S Wan, M.-Z Wang, H Gong, C.-Y Zou, Y.-Z Ma, J.-Y Huo, Y.-F Yu, and Y Liu, “CE10: Integrated in-loop filter based on CNN (Tests 2.1, 2.2 and 2.3),” in the JVET meeting, no JVET-O0079 ITU-T, ISO/IEC, 2019

[30] G Bjontegaard, “Calculation of average PSNR differences between RD curves,” document VCEG-M33, 13th ITU-T VCEG Meeting, VCEG, Austin, TX, USA, Apr 2000.

Tiêu đề	Khảo sát và đánh giá các thuật toán cải thiện chuẩn mã hóa video H.266/ Versatile Video Coding
Tác giả	Bùi Thanh Hương, Nguyễn Quang Sang, Hoàng Văn Xiêm
Trường học	Trường Đại học Xây dựng Hà Nội, Trường Đại học Công nghệ, Đại học Quốc Gia Hà Nội
Chuyên ngành	Truyền thông đa phương tiện, Mã hóa video, Truyền thông kỹ thuật số
Thể loại	Báo cáo nghiên cứu
Năm xuất bản	2022
Thành phố	Hà Nội

Định dạng
Số trang	6
Dung lượng	656,43 KB