Bài viết Khảo sát và đánh giá các thuật toán cải thiện chuẩn mã hóa video H.266/ Versatile Video Coding tiến hành khảo sát các mô hình mã hóa video được đề xuất nhằm cải thiện chuẩn mã hóa video mới nhất hiện nay, H.266/Versatile Video Coding (VVC). Mời các bạn cùng tham khảo!
Trang 1Khảo sát và đánh giá các thuật toán cải thiện chuẩn mã hóa video H.266/ Versatile Video
Coding Bùi Thanh Hương1,2, Nguyễn Quang Sang2, Hoàng Văn Xiêm2
1Trường Đại học Xây dựng Hà Nội
2Trường Đại học Công nghệ, Đại học Quốc Gia Hà Nội
Abstract— Trong những năm gần đây, cùng với sự phát
triển của các hệ thống truyền thông đa phương tiện, số
lượng thiết bị và các loại hình video cũng gia tăng một cách
nhanh chóng Nhằm đáp ứng nhu cầu về truyền tải và lưu
trữ nội dung video, các mô hình mã hóa video trở thành
một chủ đề nghiên cứu mang tính cấp thiết Vào tháng 7
năm 2020, tiêu chuẩn mã hóa video mới nhất với tên
H.266/Versatile Video Coding chính thức được chuẩn hóa
và thông qua Mô hình mã hóa video này cho khả năng
nén hiệu quả với các video độ phân giải cao, video 360 o ,…
nhờ việc tích hợp các thuật toán và kỹ thuật hiện đại Tuy
nhiên, chuẩn mã hóa video này vẫn còn tồn tại những hạn
chế, đặc biệt là về mặt thời gian xử lý Do đó, các nghiên
cứu nhằm cải thiện mô hình mã hóa video này liên tục
được đề xuất và công bố Bài báo này tiến hành khảo sát
và đánh giá một số nghiên cứu nổi bật giúp cải thiện chuẩn
mã hóa video H.266/Versatile Video Coding
Keywords- Truyền thông đa phương tiện, Mã hóa video,
H.266/Versatile Video Coding
I GIỚITHIỆU Ngày nay, sự gia tăng lưu lượng video trong truyền
tải cũng như trong lưu trữ ngày càng cao Sự gia tăng
này song hành cùng với sự ra đời của các thiết bị số hiện
đại nói riêng và sự phát triển như vũ bão của nhiều lĩnh
vực khoa học, kỹ thuật và công nghệ nói chung, những
yếu tố góp phần làm tăng nhu cầu sử dụng, truyền tải
video Do đó, các chuẩn mã hóa video không ngừng
được phát triển với hiệu năng ngày càng cao để mã hóa
hiệu quả các video thô chưa qua xử lý, đáp ứng được nhu
cầu truyền tải, lưu trữ video, đóng vai trò quan trọng cho
sự phát triển của các ứng dụng truyền thông đa phương
tiện như truyền hình thời gian thực (streaming), thực tại
ảo (VR: Virtual Reality), 3D-TV,… Cụ thể, theo thời
gian, các chuẩn mã hóa video hiện nay như H.264/AVC
[1], H.265/HEVC [2] và mới nhất là H.266/VVC [3],
cũng không ngừng được nghiên cứu phát triển và cải
tiến, đảm bảo phù hợp, bắt kịp các ứng dụng truyền
thông đa phương tiện tiên tiến
Một trong những kỹ thuật, công nghệ quan trọng,
đóng vai trò nền tảng trong phát triển các lĩnh vực khoa
học giai đoạn mới, cuộc cách mạng 4.0, đó chính là trí
tuệ nhân tạo Với các dữ liệu ảnh, video, kỹ thuật học máy và học sâu được quan tâm nhiều bởi khả năng ứng dụng hiệu quả trong các bài toán phân loại, dự đoán với video dữ liệu lớn
Trong những năm gần đây, các phương pháp, thuật toán cùng với kỹ thuật học máy, học sâu tiên tiến đã và đang được nghiên cứu, ứng dụng nhằm cải thiện các mô hình mã hóa video hiện đại Các thuật toán này đã cho thấy hiệu quả trong việc giải quyết các vấn đề còn tồn tại của các bộ mã hóa video như cải thiện mô hình phân chia hình ảnh; tối ưu thời gian cho quá trình lựa chọn chế độ và hướng dự đoán nội khung; tối ưu tập ứng viên
dự đoán, thu hẹp vùng tìm kiếm thích ứng để cải thiện
mô hình dự đoán liên khung Nhiều công trình nghiên cứu đã ứng dụng các kỹ thuật trí tuệ nhân tạo, kỹ thuật học sâu, mạng nơ ron tích chập trong nâng cao chất lượng hình ảnh sau giải mã cũng giúp cải thiện hiệu năng
mã hóa, giảm thời gian xử lý, nâng cao trải nghiệm người dùng
Trong bài báo này, chúng tôi tiến hành khảo sát các
mô hình mã hóa video được đề xuất nhằm cải thiện chuẩn mã hóa video mới nhất hiện nay, H.266/Versatile Video Coding (VVC) Cấu trúc bài báo được trình bày gồm 4 phần Phần 1 giới thiệu tổng quan về chủ đề nghiên cứu Phần 2 trình bày cấu trúc của chuẩn mã hóa video H.266/VVC Phần 3 trình bày khảo sát về các thuật toán được đề xuất nhằm cải thiện chuẩn mã hóa video H.266/VVC Phần 4 là các kết luận và định hướng nghiên cứu trong tương lai
II CHUẨNMÃHÓAH.266/VERSATILE
VIDEOCODING Đứng trước sự phát triển các dịch vụ truyền thông video đáp ứng sự phát triển các ứng dụng phục vụ nhu cầu ngày càng cao về chất lượng video, năm 2013 chuẩn
mã hóa video H.265/HEVC (High Efficiency Video Coding) được thông qua [2] Sau đó, chuẩn mã hóa video H.266/VVC (Versatile Video Coding) [3] đã được chính thức thông qua vào tháng 7 năm 2020 Chuẩn mã hóa video này được tích hợp các kỹ thuật tiên tiến, thích hợp với các ứng dụng mã hóa video độ phân giải cao
Trang 2(HD, FullHD, 2K, 4K,…), đồng thời cho phép mã hóa
video khả chuyển (Scalable Vdeo Coding), mã hóa
video 360o,…
Hình 1 mô tả kiến trúc tổng quan của bộ mã hóa
H.266/VVC Tương tự với các mô hình mã hóa video
hiện đại, VVC sử dụng kiến trúc mã hóa lai theo khối
(block-based hybrid coding), bao gồm các mô đun chính
như phân chia hình ảnh, dự đoán nội khung/liên khung,
biến đổi, lượng tử hóa, mã hóa entropy
Hình 1: Mô hình mã hóa video theo chuẩn H.266/VVC
A Phân chia khung hình:
Một khung hình video được chia thành các đơn vị
mã hóa như CTU (Coding tree unit), CU (coding unit),
PU (prediction unit) Việc quyết định kích cỡ phân chia
có thể khác nhau, tùy thuộc nội dung khung hình và đảm
bảo phù hợp chế độ dự đoán Trong VVC, kích thước
khối hình lớn nhất được cho phép lên tới 128×128 không
như kích thước 64×64 của chuẩn tiền nhiệm Thêm nữa,
từ chuẩn mã hóa HEVC, cấu trúc cây tứ phân (quad tree)
được sử dụng Sau đó VVC chọn thêm cây tích hợp đa
kiểu phân chia đệ quy (MTT: nested recursive
Multiple-Type Tree), tức là phân chia khối hình cho 2 (là cấu trúc
binary split) hoặc cho 3 (là cấu trúc ternary split) (Hình
2) Ngoài ra, việc lựa chọn tỉ lệ chiều dài/chiều rộng của
khối hình theo chuẩn VVC cho phép được linh hoạt, lên
tới 1/16
Hình 2: Các dạng phân chia đệ quy trong VVC.
B Phép biến đổi và lượng tử hóa
Với mục đích giảm sự tương đồng ở khối thông tin
khác biệt, phép biến đổi sẽ tác động vào các hệ số, làm
cho hệ số dư thừa càng nhỏ càng tốt, do đó, làm nổi lên
các hệ số có biên độ lớn trong vùng biến đổi
Phép biến đổi cosin rời rạc DCT-II (Discrete Cosine
Transform), được dùng nhiều trong các chuẩn trước
chuẩn H.265/HEVC, cụ thể là từ chuẩn
H.261/MPEG-1 Còn từ chuẩn HEVC, phép biến đổi sin rời rạc DST-VII (Discrete Sine Transform), được bổ sung trong khối biến đổi của kiến trúc HEVC [4-8] Trong kiến trúc mã hóa video hiện hành, chuẩn VVC đã bổ sung thêm phép biến đổi DCT-VIII Như vậy, 3 phép biến đổi cô sin rời rạc là DCT-II, DCT-VIII, DST-VII được thực hiện linh hoạt trong kiến trúc VVC [9], do đó chi phí biến dạng được giảm thiểu đáng kể, đặc biệt hữu hiệu trong việc loại bỏ hệ số biến đổi tần số cao đối với video có độ phân giải cao, có kích thước khối lớn (lên đến 128×128) Các thông tin phía đầu ra của bộ biến đổi tiếp tục được đưa vào bộ lượng tử hóa, do vậy giúp cho số đầu
ra có thể có được giảm bớt Tuy nhiên, tác động giảm bớt số trọng số này là phép toán xấp xỉ nên có hiện tượng tổn thất dữ liệu phía đầu ra của bộ lượng tử hóa Phép lượng tử vô hướng mà trong đó, mỗi hệ số xấp
xỉ độc lập với các giá trị xung quanh được lựa chọn áp dụng trong kiến trúc VVC Hệ số lượng tử (QP) được
mở rộng, lên tới 63 Hơn nữa, để chuyển đổi QP độ xám (luma) sang QP màu sắc (chroma), ánh xạ QP linh hoạt hơn được áp dụng vào kiến trúc VVC [10]
C Mã hóa dự đoán
Có hai cách thức thực hiện dự đoán là dự đoán trong khung hay dự đoán liên khung Phép dự đoán trong khung tức là phép dự đoán được thực hiện trong chính ảnh đang được mã hóa, các khối mẫu lân cận của khối hiện tại có thể được bộ mã hóa dùng để thực hiện dự đoán Còn dự đoán liên khung, bộ mã hóa tham chiếu các ảnh đã được mã hóa xong để thực hiện dự đoán cho ảnh hiện tại Vì không có các ảnh nào khác phía trước để tham chiếu nên ảnh đầu tiên của video chỉ áp dụng dự đoán trong khung Tùy theo các mục tiêu cần đạt (như tối ưu hóa tỉ lệ méo), bộ mã hóa sẽ quyết định cách thức
dự đoán liên khung hay dự đoán trong khung khi mã hóa các ảnh tiếp theo
• Dự đoán nội khung (dự đoán không gian)
Trong kiến trúc VVC, dự đoán nội khung có 67 chế
độ dự đoán, bao gồm chế độ Planar (0), DC (1) và 65 chế độ dự doán theo hướng (2÷67) (Hình 3) VVC sử dụng kích thước CTU lớn hơn và hình dạng các khối PU không giới hạn là các khối vuông N×N, 2N×2N Đối với các khối hình có dạng hình chữ nhật, một số hướng dự đoán bị thay thế, tuy nhiên tổng số hướng vẫn là 67 và phương pháp dự đoán không thay đổi [11]
Hình 3: Các chế độ dự đoán nội khung trong VVC.
Dự đoán
trong khung
Dự đoán liên
khung
Biến đổi / Lượng tử hóa
Mã hóa Entropy
Lượng tử/
Biến đổi ngược
Bộ lọc vòng lặp
Bộ đệm các
khung hình
đã giải mã
-Video nguồn
Chuỗi bit đầu ra
1 0 1 0 1 00 1
Thông tin khác biệt
Khung hình
dự đoán
Trang 3Các góc độ được thay đổi qua các thế hệ nén video
nhằm tăng hiệu quả của phép dự đoán, ngày càng thu
được các hướng biên tùy ý của các video tự nhiên bất
kỳ
• Dự đoán liên khung (dự đoán thời gian)
Việc mã hóa trực tiếp các giá trị pixel thô cho mỗi
block nội tại, có thể được thay thế bằng cách tìm kiếm
một khối tương tự trên khung đã được mã hoá trước đó
rồi mã hoá khối này bởi một vector chuyển động Cách
này chính là thao tác ước lượng chuyển động và có gây
ra lỗi hay giá trị dư thừa do dự báo Vậy cần có 2 phần
tử để khôi phục các pixel thô của khối là vector chuyển
động và lỗi dự báo (hay thông tin khác biệt)
Bộ mã hóa HEVC sử dụng tập các vector dự đoán
nâng cao AMVP (advanced Motion Vector prediction),
còn VVC bổ sung thêm tập vector dự đoán dựa trên lịch
sử (History-based Motion Vector Prediction - HMVP)
[12]
D Bộ lọc
Các khung hình sau khi tái tạo được đưa qua bộ lọc
để nâng cao chất lượng hình ảnh, do đó nâng cao hiệu
quả trong mã hóa video
Hai bộ lọc lặp (In-Loop) được dùng trong HEVC là
Bộ lọc nhiễu khối (DBF: Deblocking Filter) và Bù mẫu
thích ứng (SAO: Sample Adaptive Offset) Bộ lọc DBF
là bộ lọc đầu tiên, được áp dụng thực hiện lọc tín hiệu
trên một khu vực hoặc toàn bộ ảnh Còn bộ lọc SAO tiếp
theo áp dụng thực hiện lọc trên phạm vi không gian cục
bộ của ảnh
Ngoài ra, bộ lọc thứ ba được bổ sung trong chuẩn
VVC là Bộ lọc vòng lặp thích ứng (ALF: Adaptive Loop
Filter), các bộ lọc hình dạng kim cương 7×7 và 5×5 được
áp dụng để cải tiến các bộ lọc In-Loop trong VVC [13]
E Mã hóa nhị phân thích ứng
Qua khối này, để tiếp tục đạt thêm hiệu năng cao,
thông tin dư thừa hay thông tin khác biệt được mã hóa
bởi bộ mã hóa số học, nhị phân tương thích ngữ cảnh
CABAC (Context Adaptive Binary Arithmetic Coding)
[10]
III CÁCTHUẬTTOÁNCẢITHIỆNCHUẨN
MÃHÓAVIDEOH.266/VVC
A Cải thiện mô hình phân chia hình ảnh
H.266/VVC sử dụng cơ chế phân chia hình ảnh theo
cấu trúc QTMT Cấu trúc phân chia này giúp việc phân
chia trở nên linh động và hiệu quả hơn Tuy nhiên, do số
lượng kích thước và hình dạng khối hình lớn khiến cho
thời gian phân chia tăng cao so với các chuẩn mã hóa
video trước đó Do đó, các nhóm nghiên cứu trên thế
giới đã tiến hành thử nghiệm và ứng dụng các mô hình
học sâu nhằm giảm thời gian phân chia hình ảnh trong
VVC
Nhóm tác giả T.Li [14] đề xuất một tập dữ liệu lớn
với nội dung video đa dạng phục vụ quá trình huấn luyện
các mô hình học sâu cho mã hóa video Bên cạnh đó,
nhóm tác giả này cũng đề xuất một mô hình mạng nơ ron tích chập và hàm mất mát giúp kết thúc sớm quá trình phân vùng hình ảnh trong VVC Mô hình mạng học sâu này sử dụng thông tin về kích thước và nội dung khối hình để đưa ra quyết định kết thúc hoặc tiếp tục quá trình phân chia Kết quả kiểm thử cho thấy phương pháp này giúp giảm từ 44.65% - 66.88% thời gian mã hóa, trong khi hiệu năng mã hóa không ảnh hưởng quá nhiều với 1.322%-3.188% lượng BDBR tăng thêm
Nhóm tác giả G Tang [15] đề xuất phương pháp kết hợp tính toán gradient và mạng học sâu CNN để kết thúc sớm quá trình phân chia CU trong VVC Đầu tiên, bộ
mã hóa tính toán gradient của CU hiện tại và đưa ra quyết định dừng hoặc tiếp tục quá trình phân chia dựa trên ngưỡng Nếu quá trình phân chia được tiếp tục, một
mô hình mạng học sâu CNN được sử dụng để đưa ra quyết định về chế độ phân chia của CU Kết quả cho thấy phương pháp này giúp giảm 33% thời gian mã hóa trong khi chỉ tốn thêm 0.99% lượng BDBR
Trong bài báo [16], nhóm tác giả N Zouidi đề xuất tái sử dụng mô hình mạng mơ ron tích chập ETH-CNN
áp dụng cho quá trình phân chia các khối hình có dạng hình vuông trong VVC Mô hình mạng ETH-CNN này được đề xuất bởi nhóm tác giả Mai Xu và cộng sự [17]
áp dụng cho mô hình mã hóa video chuẩn H.265/HEVC
Mô hình mạng học sâu này sử dụng thông tin về nội dung khung hình và hệ số lượng tử để đưa ra quyết định kết thúc hoặc tiếp tục quá trình phân chia CU trong HEVC sử dụng cấu trúc cây chia tư (quad-tree) Bên cạnh đó, bài báo này cũng đề xuất một phương pháp lựa chọn nhanh chế độ dự đoán nội khung sử dụng phân tích, thống kê Kết quả cho thấy thời gian xử lý của bộ mã hóa VVC giảm từ 51.81% - 60.04% trong khi lượng BDBR tăng thêm khoảng 3.59%
Nhóm tác giả Q Zhang và cộng sự đề xuất trong bài báo [18] thuật toán quyết định nhanh kích thước CU cho VVC dựa trên đặc tính về nội dung video kết hợp với ngưỡng động Thuật toán này bao gồm 2 quá trình: 1) xác định tiếp tục hoặc kết thúc quá trình phân chia CU
và 2) lựa chọn chế độ phân chia cho CU Kết quả kiểm thử cho thấy thời gian xử lý của bộ mã hóa giảm trung bình 48.58% trong khi lượng BDBR tăng thêm 0.91%
B Cải thiện mô hình dự đoán nội khung
Như đã đề cập, VVC sử dụng 67 chế độ dự đoán nội khung so với 35 chế độ trong HEVC khiến cho thời gian lựa chọn chế độ dự đoán tối ưu tăng lên đáng kể Do đó, các nghiên cứu liên quan đến giảm thời gian cho quá trình lựa chọn chế độ dự đoán nội khung trở nên rất quan trọng và cấp thiết
Nhóm tác giả H Yang đề xuất trong bài báo [19] thuật toán tìm kiếm nhanh chế độ dự đoán nội khung tối
ưu cho VVC Dựa trên giá trị sai khác sau biên đổi Hadamard (SATD), một hướng khởi tạo cho quá trình tìm kiếm được lựa chọn Sau đó, bộ mã hóa tiến hành tìm kiếm và cập nhật hướng dự đoán nội khung tối ưu với bước nhảy lần lượt bằng 4, 2 Tập ứng viên dự đoán
Trang 4cuối cùng sử dụng cho quá trình RDO bao gồm chế độ
Planar, chế độ DC và hướng dự đoán có giá trị SATD
nhỏ nhất Kết quả kiểm thử cho thấy thuật toán này giúp
giảm 25.51% thời gian xử lý trong khi lượng BDBR tăng
thêm 0.54%
Trong bài báo [20], nhóm tác giả Y Chen đề xuất
phương pháp giảm thời gian lựa chọn chế độ dự đoán
nội khung cho VVC Phương pháp này bao gồm 2 quá
trình: 1) thiết lập tập ứng viên các chế độ dự đoán nội
khung dựa trên giá trị sai khác sau biến đổi Hadamard
và tập MPM; 2) sắp xếp lại tập các ứng viên và kết thúc
sớm quá trình lựa chọn chế độ dự đoán tối ưu dựa trên
ngưỡng động Thuật toán này cho thấy khả năng giúp
giảm tới 30.59% thời gian mã hóa với lượng BDBR tăng
thêm 0.86%
Một kiến trúc mạng nơ ron tích chập được nhóm tác
giả T Lin đề xuất trong nghiên cứu [21] Mô hình mạng
tích chập này đưa ra tập các ứng viên dự đoán nội khung
cho các khối có kích thước 16×16 trong VVC dựa trên
thông tin về giá trị điểm ảnh của khối hình hiện tại và
khối hình tái tạo
C Cải thiện mô hình dự đoán liên khung
Đối với dự đoán liên khung, vector chuyển động của
CU là một trong những thông tin quan trọng cho biết
tương quan về mặt thời gian giữa các khung hình
Nhóm tác giả L Zhang đề xuất phương pháp khai
thác thông tin về vector chuyển động của các khối hình
đã được mã hóa trước đó để xây dựng một tập ứng viên
dự đoán liên khung cho CU trong VVC, với tên gọi tập
các vector dự đoán dựa trên lịch sử [12] Tập các vector
ứng viên được điều khiển và cập nhật với cơ chế nhập
trước xuất trước (first-in-first-out) Các vector ứng viên
mới được thêm lần lượt vào vị trí cuối của bảng lưu trữ
Khi có một vector ứng viên mới giống với vector ứng
viên cũ, vector cũ bị loại bỏ, các vector phía sau được di
chuyển về phía trước với chỉ số giảm đi 1 (Hình 4)
Phương pháp này giúp bộ mã hóa VVC tiết kiệm lên tới
1.2% lượng bit mã hóa, trong khi thời gian xử lý tăng
thêm khoảng 1-7%
Hình 4: Cơ chế cập nhật bảng các ứng viên HMVP
Nghiên cứu [22] lần đầu tiên đề xuất một phương
pháp sử dụng học sâu giúp tăng tốc quá trình phân chia
CU trong VVC Phương pháp này đề xuất một kiến trúc
mạng nơ ron tích chập sử dụng đầu vào là thông tin về
thành phần Luma của CU, thông tin dư thừa và vector
dự đoán chuyển động 2 chiều (Hình 5) Kiến trúc mạng
này được sử dụng cho việc dự đoán chế độ phân chia của
các CU có kích thước lớn hơn 16×16 Bên cạnh đó, tác
giả cũng đề xuất thuật toán quyết định nhanh chế độ hợp
nhất (Merge mode) trong ước lượng chuyển động, sử
dụng thông tin dư thừa sau mã hóa của CU Kết quả cho
thấy phương pháp này giúp giảm 30.63% thời gian xử lý của bộ mã hóa và tiêu tốn thêm 3.18% lượng BDBR
Hình 5: Kiến trúc mạng CNN sử dụng trong thuật toán kết thúc sớm quá trình phân chia CU trong dự đoán liên khung
Trong quá trình ước lượng chuyển động, kích thước vùng tìm kiếm có ảnh hưởng lớn tới thời gian xử lý của
bộ mã hóa Trên cơ sở phân tích ảnh hưởng của kích thước vùng tìm kiếm tới độ phức tạp thuật toán, nhóm tác giả Z Pan [23] đề xuất phương pháp thu hẹp vùng tìm kiếm thích ứng dựa trên việc khai thác thông tin về chuyển động của các khối hình lân cận và khối hình ở
độ sâu phân chia trước đó Bên cạnh đó, nhóm tác giả cũng đề xuất một phương pháp lựa chọn khung hình tham chiếu trong dự đoán liên khung bằng việc khai thác thông tin về vector dự đoán chuyển động Thuật toán này giúp giảm số lượng khung hình tham chiếu cần tìm kiếm, qua đó giúp giảm thời gian xử lý chung của bộ mã hóa Kết quả kiểm thử cho thấy phương pháp đề xuất giúp bộ
mã hóa giảm 34.27% thời gian xử lý trong khi lượng bit
mã hóa tăng thêm 0.49%
D Nâng cao chất lượng hình ảnh sau giải mã
Tác giả F Zhang và cộng sự đề xuất trong bài báo [24] một phương pháp nâng cao chất lượng video sau giải mã Phương pháp trình bày và kiểm thử một kiến trúc mạng nơ ron tích chập bao gồm 2N+2 lớp tích chập Kết quả cho thấy phương pháp này giúp tiết kiệm 5.84% lượng bitrate đối với bộ các hệ số lượng tử cao, và 5.8% lượng bitrate khi kiểm thử với bộ các hệ số lượng tử thấp
Tác giả F Nasiri và cộng sự [25] đề xuất mô hình mạng học sâu giúp nâng cao chất lượng các khung hình trong video Mô hình mạng học sâu này sử dụng thông tin về hệ số lượng tử kết hợp với khung hình tái tạo (prediction-unaware) và khung hình dự đoán (prediction-aware) Kết quả cho thấy phương pháp này giúp tiết kiệm từ 5.8% đến 7.4% lượng bitrate khi kiểm thử với chuẩn mã hóa video H.266/VVC
Tác giả Q Xing và cộng sự đề xuất trong bài báo [26] một mô hình mạng học sâu kết hợp CNN và BiLSTM, cho phép khai thác tương quan về mặt thời gian giữa các khung hình đề nâng cao chất lượng hình ảnh video Ban đầu, phương pháp này được kiểm thử cho chuẩn mã hóa H.265/HEVC, và sau đó được kiểm thử cho chuẩn mã hóa H.266/VVC trong bài báo [27]
C
Thành phần Luma
Thông tin sai khác
Vector chuyển động 2 chiều
I L
I RESI
I MF
F L
F RESI
F MF
F Concat
O Confidence
S = 1
C = 16
S = 1
C = 16
S = 1
C = 16
S = 2
C = 32
S = 2
C = 32
S = 2
C = 32
S = 1
C = 32
S = 1
C = 2
Trang 5Bên cạnh đó, các phương pháp [28, 29] đề xuất các
mô hình mạng học sâu giúp cải thiện bộ lọc vòng
(in-loop filter) trong chuẩn mã hóa video H.266/VVC
IV NHẬNXÉTVÀĐÁNHGIÁ
Các thuật toán nêu trên được các nhóm tác giả kiểm
thử và đánh giá hiệu năng trên tập dữ liệu chuẩn gồm 8
video Đặc tính của các video được thống kê trong Bảng
1
Bảng 1: Đặc tính các chuỗi video kiểm thử
Chuỗi video Độ phân giải Số lượng
khung hình
Tốc độ khung hình
PeopleOnStreet 2560×1600 150 30 Hz
BasketballPass 416×240 500 50 Hz
BlowingBubbles 416×240 500 50 Hz
Bảng 2: Hiệu quả của một số thuật toán giảm thời gian xử lý cho
chuẩn mã hóa video H.266/VVC
Phương
pháp ΔT (%) BDBR (%) ΔT/BDBR
[14] 63.79 3.19 20.00
[15] 33.41 0.99 33.75
[16] 60.04 3.59 16.72
[18] 48.58 0.91 53.38
[19] 62.46 1.93 32.36
[20] 30.59 0.86 35.57
[22] 30.63 3.18 9.63
[23] 34.27 0.49 69.94
Hiệu quả của một số thuật toán giảm thời gian mã
hóa cho chuẩn H.266/VVC được mô tả trong Bảng 2 và
Hình 6 Trong đó ΔT cho biết thời gian mã hóa tiết kiệm
của mỗi phương pháp, chỉ số BDBR [30] cho biết lượng
bit thay đổi khi so sánh với phương pháp tham chiếu ở
cùng mức chất lượng (BDBR > 0 tức là lượng bit cần
cho quá trình mã hóa tăng thêm) Tỉ lệ ΔT/BDBR giúp
đánh giá hiệu quả của thuật toán trên cả 2 phương diện:
thời gian tiết kiệm và hiệu năng nén Tỉ lệ này càng cao
thì thuật toán càng hiệu quả
Hình 6: Hiệu quả của một số thuật toán giảm thời gian xử lý cho
chuẩn mã hóa video H.266/VVC.
Một số nhận xét rút ra như sau:
- Phương pháp [14] giúp giảm thời gian xử lý của bộ
mã hóa H.266/VVC nhiều nhất với 63.79% trong khi phương pháp [20] giảm ít thời gian nhất với 30.59%
- Phương pháp [23] có hiệu quả tốt nhất với tỉ lệ ΔT/BDBR lên tới 69.94 trong khi phương pháp [22]
có hiệu quả kém nhất với tỉ lệ ΔT/BDBR chỉ đạt 9.63
- Phương pháp [23] cũng là phương pháp tiêu tốn thêm ít bit nhất với 0.49% lượng BDBR
Hiệu quả của một số phương pháp nâng cao chất lượng hình ảnh về mặt BDBR cho một số chuỗi video được thống kê trong Bảng 3 Nhìn chung, phương pháp [25] có hiệu quả cao nhất khi tiết kiệm 7.04% lượng bit
mã hóa khi so sánh ở cùng mức chất lượng
Hình 7 cho thấy đường cong RD (Rate – Distortion) của một số chuỗi video sử dụng thuật toán nâng cao chất lượng MFQE [27] khi kiểm thử với cấu hình mã hóa Low-Delay-P
Bảng 3: Hiệu quả của một số phương pháp nâng cao chất lượng
hình ảnh (BDBR)
PeopleOnStreet N/A N/A -3.22 N/A N/A Kimono N/A N/A -4.35 N/A N/A ParkScene N/A N/A -7.10 N/A N/A PartyScene -4.3 -6.1 -6.23 -1.46 -3.91 RaceHorsesC -2.09 -4.2 -1.35 -1.68 -3.11 BasketballPass -5.61 -8.9 -6.23 -1.73 -4.59 BlowingBubbles -3.75 -7.0 -8.61 -0.8 -3.79 RaceHorsesD -4.2 -9.0 -3.84 -2.19 -4.9
Hình 7: Đường cong RD của một số chuỗi video sử dụng thuật
toán nâng cao chất lượng MFQE
V KẾTLUẬN Trong bài báo này, chúng tôi tiến hành khảo sát một
số nghiên cứu giúp cải thiện chuẩn mã hóa video
Trang 6H.266/VVC Các phương pháp được khảo sát chủ yếu
tập trung giải quyết vấn đề giảm thời gian xử lý cho bộ
mã hóa H.266/VVC, cải thiện bộ lọc và và nâng cao chất
lượng hình ảnh sau giải mã Bên cạnh những phương
pháp sử dụng phân tích, thống kê toán học truyền thống,
các phương pháp sử dụng học sâu, học máy cũng cho
thấy hiệu quả cao khi ứng dụng trong việc giải quyết
những vấn đề của mã hóa video hiện đại Những khảo
sát và phân tích nêu trên là tiền đề, định hướng cho
những nghiên cứu tiếp theo trong tương lai
VI LỜICẢMƠN Nghiên cứu này được tài trợ bởi Quỹ Phát triển khoa
học và công nghệ Quốc gia (NAFOSTED) trong đề tài
mã số 102.01-2020.15
TÀILIỆUTHAMKHẢO
[1] T Wiegand, G.J Sullivan, G Bjontegaard, A Luthra,
“Overview of the H.264/AVC video coding standard,” IEEE
Trans Circuits Syst Video Technol., vol 13, no 7, pp 560–
576, 2003
[2] G.J Sullivan, et al., “Overview of the High Efficiency Video
Coding (HEVC) Standard”, IEEE Transactions on Circuits and
Systems for Video Technology, vol 22, no 12, pp 1649-1668,
2012
[3] B Bross et al., "Overview of the Versatile Video Coding (VVC)
Standard and its Applications," in IEEE Transactions on
Circuits and Systems for Video Technology, vol 31, no 10, pp
3736-3764, 2021
[4] N Ahmed, T Natarajan, and K Rao, “Discrete Cosine
Transform,” in IEEE Transactions on Computers, vol C-23, no
1, pp 90–93, 1974
[5] M Budagavi, A Fuldseth, G Bjontegaard, V Sze, and M
Sadafale, “Core Transform Design in the High Efficiency Video
Coding (HEVC) Standard,” IEEE J Sel Topics Signal Process.,
pp 1029– 1041, Vol 7, No 6, Dec 2013
[6] V Britanak, P C Yip, and K R Rao, “Discrete Cosine and
Sine Transforms: General Properties, Fast Algorithms and
Integer Approximations,” Elsevier, Sep 2006
[7] R K Chivukula and Y A Reznik, “Fast Computing of Discrete
Cosine and Sine Transforms of Types VI and VII,” in Proc
SPIE 8135, Applications of Digital Image Processing XXXIV,
pp 1–10, No 813505, Sep 2011
[8] Y A Reznik, “Relationship between DCT-II, DCT-VI, and
DST-VII transforms,” in Proc 2013 IEEE International
Conference on Acoustics, Speech and Signal Processing, pp
5642–5646, May 2013
[9] X Zhao et al., "Transform Coding in the VVC Standard," in
IEEE Transactions on Circuits and Systems for Video
Technology, vol 31, no 10, pp 3878-3890, 2021
[10] H Schwarz et al., "Quantization and Entropy Coding in the
Versatile Video Coding (VVC) Standard," in IEEE
Transactions on Circuits and Systems for Video Technology,
vol 31, no 10, pp 3891-3906, Oct 2021
[11] J Pfaff et al., "Intra Prediction and Mode Coding in VVC," in
IEEE Transactions on Circuits and Systems for Video
Technology, vol 31, no 10, pp 3834-3847, 2021
[12] L Zhang, K Zhang, H Liu, H C Chuang, Y Wang, J Xu, P
Zhao, D Hong, “History-based Motion Vector Prediction in
Versatile Video Coding”, Data Compression Conference
(DCC), 2019
[13] M Karczewicz et al., "VVC In-Loop Filters," in IEEE Transactions on Circuits and Systems for Video Technology, vol 31, no 10, pp 3907-3925, 2021
[14] T Li, M Xu, R Tang, Y Chen and Q Xing, "DeepQTMT: A Deep Learning Approach for Fast QTMT-Based CU Partition
of Intra-Mode VVC," in IEEE Transactions on Image Processing, vol 30, pp 5377-5390, 2021
[15] G Tang, M Jing, X Zeng and Y Fan, "Adaptive CU Split Decision with Pooling-variable CNN for VVC Intra Encoding,"
2019 IEEE Visual Communications and Image Processing (VCIP), 2019
[16] N Zouidi et al., "Complexity reduction of versatile video coding standard: a deep learning approach," Journal of Electronic Imaging, vol 30, no 2, 2021
[17] M Xu, T Li, Z Wang, X Deng, R Yang and Z Guan,
"Reducing Complexity of HEVC: A Deep Learning Approach,"
in IEEE Transactions on Image Processing, vol 27, no 10, pp 5044-5059, 2018
[18] Q Zhang, Y Zhao, B Jiang, L Huang and T Wei, "Fast CU Partition Decision Method Based on Texture Characteristics for H.266/VVC," in IEEE Access, vol 8, pp 203516-203524,
2020
[19] H Yang et al., "Low-Complexity CTU Partition Structure Decision and Fast Intra Mode Decision for Versatile Video Coding," in IEEE Transactions on Circuits and Systems for Video Technology, vol 30, no 6, pp 1668-1682, 2020 [20] Y Chen et al., “A novel fast intra mode decision for versatile video coding,” in Journal of Visual Communication and Image Representation, vol 71, pp 102849-102859, 2020
[21] T Lin et al., “Intra mode prediction for H.266/FVC video coding based on convolutional neural network,” in Journal of Visual Communication and Image Representation, vol 71, pp 102686-102690, 2020
[22] Z Pan, P Zhang, B Peng, N Ling and J Lei, "A CNN-Based Fast Inter Coding Method for VVC," in IEEE Signal Processing Letters, vol 28, pp 1260-1264, 2021
[23] Z Pan et al., “Low complexity versatile video coding for traffic surveillance system,” in International Journal of Sensor Networks, vol 30, no 2, pp 116-125, 2019
[24] F Zhang, C Feng and D R Bull, "Enhancing VVC Through Cnn-Based Post-Processing" 2020 IEEE International Conference on Multimedia and Expo (ICME), 2020
[25] F Nasiri, W Hamidouche, L Morin, N Dhollande and G Cocherel, "A CNN-Based Prediction-Aware Quality Enhancement Framework for VVC," in IEEE Open Journal of Signal Processing, vol 2, pp 466-483, 2021
[26] Z Guan et al., "MFQE 2.0: A New Approach for Multi-Frame Quality Enhancement on Compressed Video," in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol
43, no 3, pp 949-963, 1 March 2021
[27] X HoangVan and H -H Nguyen, "Enhancing Quality for VVC Compressed Videos with Multi-Frame Quality Enhancement Model," 2020 International Conference on Advanced Technologies for Communications (ATC), 2020
[28] Y Wang, Z Chen, Y Li, L Zhao, S Liu, and X Li, “Ce13: Dense residual convolutional neural network based in-loop filter (ce13-2.2 and ce13-2.3),” in the JVET meeting, no JVET-N0254 ITU-T, ISO/IEC, 2019
[29] S Wan, M.-Z Wang, H Gong, C.-Y Zou, Y.-Z Ma, J.-Y Huo, Y.-F Yu, and Y Liu, “CE10: Integrated in-loop filter based on CNN (Tests 2.1, 2.2 and 2.3),” in the JVET meeting, no JVET-O0079 ITU-T, ISO/IEC, 2019
[30] G Bjontegaard, “Calculation of average PSNR differences between RD curves,” document VCEG-M33, 13th ITU-T VCEG Meeting, VCEG, Austin, TX, USA, Apr 2000.