Bài viết trình bày việc phát triển mô hình dự đoán chất lượng hình ảnh video khi nén bằng mạng Neural tích chập trích chọn đặc trưng thị giác của khối ảnh từ đó đề xuất phương pháp lựa chọn hệ số lượng tử (QP) áp dụng vào bộ nén video H265/HEVC.
Trang 1Phương pháp lựa chọn hệ số lượng tử trên bộ nén H265/HEVC theo đặc trưng thị giác bằng
mạng Neural tích chập
Phạm Thanh Tùng∗, Đinh Triều Dương†, Đặng Văn Trọng ∗ và Lê Thanh Hà‡
∗ Khoa Khoa học cơ bản và Ngoại ngữ, Đại học Phòng cháy chữa cháy
†Khoa Điện tử viễn thông, Đại học Công nghệ
‡ Khoa Công nghệ thông tin, Đại học Công nghệ Tác giả liên hệ: Đinh Triều Dương (email:duongdt@vnu.edu.vn)
Tóm tắt—Trong bài báo này chúng tôi phát triển mô
hình dự đoán chất lượng hình ảnh video khi nén bằng
mạng Neural tích chập trích chọn đặc trưng thị giác của
khối ảnh từ đó đề xuất phương pháp lựa chọn hệ số lượng
tử (QP) áp dụng vào bộ nén video H265/HEVC Bộ dữ liệu
thực nghiệm đánh giá chất lượng ảnh chủ quan của 40286
khối ảnh dùng cho huấn luyện mô hình Mô hình dự đoán
chất lượng hình ảnh được tùy chỉnh trên nền tảng kiến
trúc mạng Resnext-50 nhằm mô phỏng theo cách đánh
giá chủ quan của con người Mô hình dự đoán này làm
cơ sở cho phương pháp lựa chọn hệ số lượng đơn vị mã
hóa khối (CU) khi nén video theo chất lượng thị giác cho
trước Thực nghiệm trên bộ nén H265/HEVC phiên bản
HM 16.20 cho thấy chất lượng đánh giá chủ quan có cải
thiện so với bộ nén ban đầu với cùng tốc độ bit.
Từ khóa—lựa chọn hệ số lượng tử, bộ nén H265/ HEVC,
đặc trưng thị giác.
I GIỚI THIỆU Trong mã hóa video, đánh giá chất lượng hình ảnh
có ý nghĩa quan trọng trong việc tính toán hiệu năng
và làm căn cứ để lựa chọn cách mã hoá tối ưu Tất cả
các bộ nén video thuộc họ MPEG-x và H.26x đều là các
bộ nén dự đoán chuyển động theo khối Chúng đạt được
hiệu suất nén cao bằng cách sử dụng phương pháp lượng
tử hóa có tổn thất trong miền tần số Hậu quả mất mát
thông tin của việc nén trong các bộ mã hóa video là việc
xuất hiện các biến dạng hình ảnh trong video được giải
mã Dễ nhận thấy nhất là sự sai khác dọc theo các cạnh
trong các khối nơi áp dụng lượng tử hóa hoặc làm mất
chi tiết hình ảnh [1] Ví vụ trong Hình 1, khung hình
đầu tiên của video thử nghiệm thường dùng Foreman
được nén với cùng một hệ số lượng tử trên toàn khung
Khung hình sau khi nén suy giảm chất lượng đáng kể
so với khung hình ban đầu Đồng thời, sự thay đổi chất
lượng được cảm nhận không đồng đều trên toàn khung
Các nhiễu xuất hiện trên khuôn mặt nhân vật dễ nhận
biết nhất trong khi các lỗi xuất hiện ở tường tòa nhà ít nhìn thấy Hình 1 không chỉ cho thấy có nhiễu tạo ra bởi nén video mà còn thể hiện mức độ nhạy cảm với nhiễu theo yếu tố thị giác con người (HVS) với không thời gian khác nhau Những vấn đề này đã được tìm hiểu vào đầu những năm 1990 [2] và được bổ sung trong các nghiên cứu tiếp theo [1] Nhận định này cho thấy có thể tạo ra một bộ nén video theo nhận thức, trong đó
áp dụng nén sâu hơn cho các khu vực hình ảnh mà thị giác của con người ít nhạy cảm hơn với biến dạng và nén tốt hơn ở những khu vực còn lại Để thực hiện mục tiêu này, câu hỏi chính cần được giải quyết là làm thế nào để dự đoán các vùng nhạy cảm với biến dạng nhằm
áp dụng QP thấp nhằm đảm bảo chất lượng cho những vùng này
Hình 1: Khung hình đầu tiên của video thử nghiệm Foreman trước và sau khi nén
Trong nhiều bộ nén video, thuật toán tối ưu hóa tốc
độ bit - biến dạng (RDO) trong kiến trúc phần mềm HEVC (HM) [3], [4] được sử dụng để cải thiện hiệu năng nén [5] Việc lựa chọn chế độ tối ưu hiệu năng nén của từng đơn vị mã hóa cơ bản bằng cách chọn chế
độ mã hóa tốt nhất dưới một giá trị QP nhất định, trong
đó đơn vị cơ bản có thể là khung, lát (slice) hoặc đơn
vị mã hóa (CU) Tùy thuộc vào loại khung hình, bộ nén
Trang 2video thực hiện tối ưu hóa tỷ lệ nén với biến dạng bằng
cách cực tiểu hàm chi phí [4] Hàm chi phí ở đây là
hàm kết hợp giữa tốc độ nén và độ biến dạng Trong
đó thang đo biến dạng là sai số bình phương trung bình
(MSE) giữa các giá trị pixel trong khối hình ảnh gốc
và các giá trị pixel trong khối tạo lại sau khi giải nén
MSE đã được sử dụng rộng rãi trong nén hình ảnh và
video do công thức tính toán đơn giản, có thể dễ dàng
giải quyết trong toán học (cụ thể là trong bài toán tối
ưu) Tuy nhiên, MSE được xác định là tương quan kém
với chất lượng cảm nhận thị giác [6], [7]
Hiện nay, các nghiên cứu vẫn tiếp tục phát triển
phương pháp lựa chọn QP nhằm tăng hiệu năng theo
đánh giá chủ quan của con người Một số nghiên cứu
đưa ra cách tiếp cận cải thiện tỷ lệ nén hoặc tăng chất
lượng thị giác bằng kỹ thuật lựa chọn QP Nói chung,
những nghiên cứu này xem xét mối quan hệ QP − λ
trong quá trình tối ưu mã hóa RDO Một số nghiên cứu
gần đây ứng dụng học sâu (DNN) cho hiệu quả khả quan
đối với nén video [8], [9], [10], [11] Tuy nhiên, chưa
có thuật toán dựa trên nền tảng DNN nhằm lựa chọn
QP để cải thiện chất lượng cảm nhận tri giác Chính vì
vậy, bài báo này trình bày phương pháp DNN lựa chọn
QP được huấn luyện, điều chỉnh và kiểm tra trên bộ dữ
liệu đánh giá chất lượng ảnh chủ quan mà tác giả đề
xuất trong nghiên cứu trước đây [12]
Phần còn lại của bài báo được tổ chức như sau: phần
II sẽ giới thiệu về quá trình huấn luyện, hiệu chỉnh và kết
quả kiểm tra mô hình mạng CNN dự đoán Tiếp theo,
thuật toán của phương pháp lựa chọn QP được trình bày
trong phần III Phần IV tiến hành đánh giá hiệu năng
phương pháp đề xuất cài đặt trên bộ nén H.265/HEVC
khi nén một số mẫu video so với bộ nén chuẩn Cuối
cùng, chúng tôi kết luận bài báo trong phần V
II MÔ HÌNH DỰ ĐOÁN CHẤT LƯỢNG HÌNH ẢNH
KHI NÉN
A Dữ liệu
Trong nghiên cứu trước đây [12], chúng tôi đã xây
dựng bộ dữ liệu thực nghiệm đánh giá chất lượng hình
ảnh HMII gồm 40286 mẫu Quá trình thực nghiệm tiến
hành theo quy chuẩn ITU-R BT.500-11 của tổ chức viễn
thông quốc tế [13] với sự tham gia của 2189 lượt người
đánh giá Mỗi mẫu trong bộ dữ liệu gồm 1 khối ảnh gốc,
1 khối ảnh biến dạng sau mã hoá có cùng kích thước
128 × 128, hệ số lượng tử QP dùng để mã hoá khối gốc
và kết quả chất lượng chủ quan DMOS đã được tiền xử
lý loại bỏ nhiễu như đề cập trong nghiên cứu [12] Mẫu
dữ liệu được chuẩn hoá lại thành 3 thành phần màu của
khối gốc ghép thêm thành phần hệ số lượng tử QP để
thành dữ liệu đầu vào phù hợp với kiến trúc trình bày trong Hình 2 Toàn dữ liệu được chia thành 10 phần theo tỷ lệ 8:1:1 (tương ứng 32000: 4000: 4286 mẫu) dành lần lượt cho việc huấn luyện, hiệu chỉnh và đánh giá mô hình dự đoán chất lượng
B Kiến trúc học sâu của mô hình
Phương pháp đánh giá sự suy giảm chất lượng hình ảnh theo [14] tương đối đơn giản nhưng cũng đã phần nào cho thấy ảnh hưởng của nội dung khối ảnh đến sự suy giảm chất lượng khi mã hóa video Từ kết quả này, chúng tôi sử dụng phương pháp học sâu sử dụng mạng Neural tích chập (CNN) trích chọn đặc trưng cơ sở dữ liệu thực nghiệm quy mô lớn (bộ dữ liệu HMII) nhằm ước lượng chất lượng khối ảnh sau khi mã hóa Sau khi thực hiện huấn luyện mô hình đánh giá chất lượng hình ảnh sử dụng học sâu như nội dung trình bày trong [15], kiến trúc mạng tích chập trích chọn đặc trưng
ResNeXt-50 (Hình 3) cho thấy hiệu quả tốt hơn so với các kiến trúc khác Do đó, trong mô hình đề xuất tiếp tục sử dụng kiến trúc này nhưng có sự điều chỉnh phù hợp với mục đích đề ra biểu diễn theo Hình 2
Trong Hình 2, dữ liệu đầu vào có kích thước 128 ×
128 × 4, trong đó có 3 lớp đầu tiên là 3 thành phần màu RGB của khối ảnh gốc, lớp thứ 4 là hệ số lượng tử dùng
để mã hoá khối Như vậy, mô hình không sử dụng khối biến dạng sau mã hoá mà dự đoán chất lượng dựa trên khối gốc và hệ số lượng tử Sau khi qua mạng tích chập ResNeXt-50, các đặc trưng sẽ được trích chọn qua lớp hồi quy để dự đoán chất lượng khối ảnh sau mã hoá
C Kết quả huấn luyện của mô hình
Các tham số tối ưu ADAM được chọn theo khuyến nghị trong [16] gồm: β1 = 0.9, β2 = 0.999, ϵ = 10−8
và tốc độ học α ấn định là 5 × 10−4 Kết quả đánh giá hiệu năng mô hình trong quá trình huấn luyện sau 100 epoch như Hình 4 Kết quả kiểm tra trên tập dữ liệu đánh giá gồm 4286 mẫu cho kết quả tương quan tuyến tính Pearson (PLCC) giữa kết quả dữ đoán với kết quả thực nghiệm bằng 0.9505 và hệ số tương quan xếp hạng Spearman (SRCC) bằng 0.9088 So sánh với kết quả tương quan giữa hệ số lượng tử và chất lượng lần lượt PLCC=-0,807 và SRCC= -0,8438 cho thấy ảnh hưởng quan trọng của nội dung khối đến chất lượng hình ảnh biến dạng của nó khi nén
III ĐỀ XUẤT PHƯƠNG PHÁP LỰA CHỌN HỆ SỐ
LƯỢNG TỬ THEO CHẤT LƯỢNG Trong nén video, có 2 cách thiết lập QP chính: đồng nhất trên toàn video và tùy biến theo các đơn vị mã hóa
cơ bản Ở thiết lập thứ nhất, tất cả các khối trên tất cả
Trang 3RGB original CTU block +QP
Resnext-50 feature Extractor Regression Patch Qualiy
Estimate
Siamese Network
Hình 2: Kiến trúc mạng CNN của phương pháp đánh giá chất lượng hình ảnh
Conv 7x7
B R
max-pool 2x2 Conv Iden�ty Conv Iden�ty
Conv Iden�ty
Conv Iden�ty
Global avg-pool
x5 x2
Input
Patch
Feature Vector
Hình 3: Trích xuất đặc trưng bằng ResNeXt-50
Hình 4: Kết quả huấn luyện mô hình
các khung hình đều nén với cùng một hệ số lượng tử
nên tốc độ mã hoá nhanh hơn, nhưng có nhược điểm là
chất lượng không đồng đều, dễ bị phát hiện biến dạng
Ở thiết lập thứ hai bộ nén đặt ra giá trị QP ban đầu
qp và ngưỡng điều chỉnh qpfactor Khi đó, hệ số QP
cho các đơn vị mã hóa được lựa chọn tối ưu theo RDO
trong khoảng [qp − qpf actor, qp + qpf actor) Ngoài ra,
người sử dụng có thể thiết lập tốc độ bit cho video cần
nén phù hợp với cấu hình thiết bị, nhu cầu chất lượng
và tốc độ đường truyền Do đó cần thiết phải điều chỉnh
QP cho từng đơn vị mã hóa nhằm đảm bảo tốc độ bit
với chất lượng cao nhất theo đơn vị đo MSE Như đã
đề cập trên, MSE không thể hiện được chất lượng theo
nhận thức tri giác của con người Do đó, trong nghiên
cứu này chúng tôi đề xuất phương pháp lựa chọn QP
qp = 1;
QC=QC+w*ΔQC
False
QC,ΔQC,w, CUorg
PIQA(CUorg, qp)>QC
True
qp++
qpselected
qpselected=qp
Hình 5: Sơ đồ thuật toán PAPS
theo chất lượng thị giác cần đạt được của video nén Mục tiêu chính của phương pháp đảm bảo chất lượng
Trang 4Transform Quantization CABAC
Inv
Quantization
Inv.
Transform
+
+
In-loop Filter Constructed
Frame
Intra/Inter Prediction
Reference
Frame
Res
CU Org
QC, DQC
PAPS
Bin
-Hình 6: Sơ đồ tổng quát của bộ mã hoá H.265/HEVC cải tiến
thị giác trên toàn khung hình đồng thời tăng cường chất
lượng ở các vùng thu hút chú ý của người quan sát Một
khối ảnh tham chiếu CUorg trong khung hình được mã
hoá bởi hệ số lượng tử qp có chất lượng dự đoán theo
nhận thức thị giác là:
y = QIQA(CUorg, qp), (1)
trong đó QIQA là mô hình CNN dự đoán chất lượng
hình ảnh trình bày bên trên Thuật toán xác định hệ số
lượng tử cho các khối của một khung hình video (thuật
toán PAPS) biểu diễn như Hình 5 Dữ liệu đầu vào của
thuật toán bao gồm khối ảnh gốc CUorg, chất lượng cần
đạt được QC và ngưỡng chất lượng điều chỉnh ∆QC
Ngưỡng chất lượng điều chỉnh giới hạn mức tăng hoặc
giảm QC phụ thuộc tỷ lệ vào trọng số thu hút sự chú ý
w của khối xác định theo [17] Kết quả của thuật toán là
hệ số lượng tử qpselected ước lượng để chất lượng khối
biến dạng sau nén tối thiểu cần đạt QC
IV ĐÁNH GIÁ HIỆU NĂNG PHƯƠNG PHÁP ĐỀ
XUẤT
Để đánh giá hiệu quả của phương pháp lựa chọn hệ
số lượng tử theo chất lượng thị giác, chúng tôi cài đặt
thuật toán của phương pháp vào bộ nén H.265/HEVC
phiên bản HM 16.20 theo sơ đồ như Hình 6 Trong đó,
mỗi khung hình gốc phân chia thành các khối kích thước
64 × 64 lấy mở rộng thành 128 × 128 và đưa vào PAPS
Đồng thời, khung hình gốc cũng được sử dụng để xác
định trọng số thu hút sự chú ý Kết quả thu được là một
ma trận hệ số lượng tử được xác định tương ứng với các
khối của khung hình làm cơ sở cho quá trình lượng tử
hoá
Bộ nén cải tiến theo trong nghiên cứu được sử dụng nén nội khung (All-intra) các mẫu video thử nghiệm chuẩn gồm 2 video thuộc nhóm A (độ phân giải 2K), 5 video thuộc nhóm B (độ phân giải FHD), 3 video thuộc nhóm C (độ phân giải 768 × 480), 3 video thuộc nhóm
D (độ phân giải 400×240) và 3 video thuộc nhóm E (độ phân giải HD) Mỗi video nén dưới 4 mức chất lượng thị giác QC gồm: 3.0, 3.5, 4.0 và 4.5; giá trị ngưỡng chất lượng điều chỉnh ∆QC = 0.5 Tương tự, bộ nén chuẩn
HM 16.20 thực hiện nén nội khung các mẫu video thử nghiệm chuẩn với cùng tốc độ bit như với bộ nén cải tiến Ngoài ra, để làm rõ hiệu năng nén theo nhận thức tri giác là mục tiêu chính của nghiên cứu, chúng tôi đã tiến hành thực nghiệm đánh giá chất lượng hình ảnh chủ quan các video tái tạo sau khi nén Trong thực nghiệm, người quan sát được yêu cầu đánh giá chất lượng video tái tạo theo thang đo M OS từ 1 đến 5 tương ứng với chất lượng tăng đần Hiệu năng DM OSR so sánh giữa chất lượng M OSpro nén theo bộ mã cải tiến với chất lượng M OSHM nén theo bộ mã gốc như công thức sau:
DM OSR = M OSpro− M OSHM (2) Kết quả so sánh hiệu năng theo thang đo SSIM và đánh giá chủ quan giữa bộ mã cải tiến so với bộ mã gốc HM 16.20 trình bày trong Bảng 1 Bảng kết quả cho thấy bộ mã cải tiến với phương pháp đề xuất cho hiệu năng theo thang đo SSIM cơ bản tốt hơn so với
bộ mã gốc Theo thực nghiệm đo chất lượng chủ quan,
bộ mã cải tiến cũng có hiệu suất tốt hơn cho các mẫu video với độ phân giải cao hơn (nhóm A và nhóm E) Đối với các video thử nghiệm có nhiều vùng đồng nhất, vùng nền lớn, các đối tượng trong khung có độ tương
Trang 5(a) Khung hình gốc (b) Trọng số chú ý
(c) Khung hình kết quả theo bộ nén cải tiến (d) QP theo bộ nén cải tiến
(e) Khung hình kết quả theo bộ nén gốc (f) QP theo bộ nén gốc
Hình 7: Kết quả nén video trên khung hình đầu tiên mẫu video ‘Johnny’
phản cao, thuật toán được đề xuất cho hiệu quả mã hóa
tốt hơn Các đặc điểm hình ảnh của video thử nghiệm
như vậy có thể thấy trong video ‘Johnny’, ‘FourPeople’,
‘BasketballDrive’, ‘KristenAndSarra’, ‘BasketballPass ‘
trong đó tăng chất lượng đáng kể nhất về mặt cảm
nhận Mặt khác, phương pháp đề xuất hiệu quả kém
trên ‘BQTerrace và ‘Cactus’ có nhiều họa tiết hơn và
độ tương phản thấp hơn Ví dụ trong Hình 7 cho thấy
chất lượng hình ảnh khung hình đầu tiên video ‘Johnny’
theo bộ nén cải tiến có sự cải thiện so bộ nén gốc đặt
biệt là vùng mặt của nhân vật và vùng biên giữa nhân
vật với phần nền
V KẾT LUẬN Trong bài báo này, chúng tôi đề xuất phương pháp lựa chọn QP theo đặc trưng thị giác áp dụng cho đơn vị mã hóa khối của khung hình video Phương pháp đề xuất sử dụng một mô hình trên nền tảng mạng CNN Resnext-50
để trích xuất các đặc trưng dự đoán chất lượng hình ảnh sau nén của khối dưới một mức lượng tử xác định Kết quả áp dụng với cách nén nội khung trên H.265/HEVC cho thấy hiệu năng theo SSIM tăng trung bình 5.5% đối với thành phần độ sáng và 0.124 theo chất lượng chủ quan thực nghiệm Đánh giá chất lượng chủ quan cho thấy rằng phương pháp được đề xuất có thể tạo ra chất lượng hình ảnh tốt hơn về nhận thức thị giác so với bộ nén gốc với cùng tốc độ bít
Trang 6Bảng I: So sánh chất lượng hình ảnh theo thang đo SSIM và đánh giá chủ quan bộ nén dùng phương pháp đề xuất
so với bộ nén gốc
PeopleOnStreet -7.6% -6.7% -6.9% 0.191
B
BasketballDrive -4.7% -4.2% -5.3% 0.211
C
BasketballDrill -2.5% -2.8% -1.5% 0.249
D
BasketballPass -7.4% -4.7% -6.5% 0.218
E
KristenAndSara -8.3% -4.3% -5.2% 0.180
TÀI LIỆU THAM KHẢO [1] N Jayant, J Johnston, and R Safranek, “Signal compression
based on models of human perception,” Proceedings of the IEEE,
vol 81, no 10, pp 1385–1422, 1993.
[2] H R Wu, K Rao, and A Kassim, “Digital video image
quality and perceptual coding,” Journal of Electronic Imaging
- J ELECTRON IMAGING, vol 16, 01 2007.
[3] I Marzuki and D Sim, “Overview of potential technologies for
future video coding standard (fvc) in jem software : Status and
review,” IEIE Transactions on Smart Processing and Computing,
vol 7, pp 22–35, 02 2018.
[4] G Sullivan and T Wiegand, “Rate-distortion optimization for
video compression,” IEEE Signal Processing Magazine, vol 15,
no 6, pp 74–90, 1998.
[5] B Li, J Xu, D Zhang, and H Li, “Qp refinement according
to lagrange multiplier for high efficiency video coding,” in 2013
IEEE International Symposium on Circuits and Systems (ISCAS),
2013, pp 477–480.
[6] Z Wang and A C Bovik, “Mean squared error: Love it or
leave it? a new look at signal fidelity measures,” IEEE Signal
Processing Magazine, vol 26, no 1, pp 98–117, 2009.
[7] B Girod, “Psychovisual aspects of image processing: What’s
wrong with mean squared error?” in Proceedings of the Seventh
Workshop on Multidimensional Signal Processing, 1991, pp P.2–
P.2.
[8] S Ma, X Zhang, C Jia, Z Zhao, S Wang, and S Wanga,
“Image and video compression with neural networks: A review,”
IEEE Transactions on Circuits and Systems for Video
Technol-ogy, vol PP, pp 1–1, 04 2019.
[9] Y Li, B Li, D Liu, and Z Chen, “A convolutional neural
network-based approach to rate control in hevc intra coding,”
in 2017 IEEE Visual Communications and Image Processing (VCIP), 2017, pp 1–4.
[10] S Ki, S.-H Bae, M Kim, and H Ko, “Learning-based just-noticeable-quantization- distortion modeling for perceptual video
coding,” IEEE Transactions on Image Processing, vol 27, no 7,
pp 3178–3193, 2018.
[11] H Choi and I V Baji´c, “Deep frame prediction for video
coding,” IEEE Transactions on Circuits and Systems for Video Technology, vol 30, no 7, pp 1843–1855, 2020.
[12] T P Thanh, C Ma Thi, T N Manh, L Le Dinh, and
H Le Thanh, “Compression artifacts image patch database
for perceptual quality assessment,” in 2020 12th International Conference on Knowledge and Systems Engineering (KSE), 2020,
pp 55–60.
[13] I T Union, “Methodology for the subjective assessment of the
quality of television pictures,” International Telecommunication Union, vol 23, no 5, pp 1937–1952, 2013.
[14] T T Pham, T D Dinh, V X Hoang, T Vu Huu, and T H Le,
“Distortion model based on perceptual of local image content,”
In 4th International Conference on Consumer Electronics Asia,
06 2019.
[15] T T Pham, X V Hoang, N T Nguyen, D T Dinh, and L T.
Ha, “End-to-end image patch quality assessment for image/video
with compression artifacts,” IEEE Access, vol 8, pp 215 157–
215 172, 2020.
[16] D Kingma and J Ba, “Adam: A method for stochastic
optimiza-tion,” International Conference on Learning Representations, 12
2014.
[17] Z Liu, W Zou, and O Le Meur, “Saliency tree: A novel saliency
detection framework,” IEEE Transactions on Image Processing,
vol 23, no 5, pp 1937–1952, 2014.