1. Trang chủ
  2. » Kỹ Thuật - Công Nghệ

Phương pháp lựa chọn hệ số lượng tử trên bộ nén H265/HEVC theo đặc trưng thị giác bằng mạng Neural tích chập

6 22 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 6
Dung lượng 1,91 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Bài viết trình bày việc phát triển mô hình dự đoán chất lượng hình ảnh video khi nén bằng mạng Neural tích chập trích chọn đặc trưng thị giác của khối ảnh từ đó đề xuất phương pháp lựa chọn hệ số lượng tử (QP) áp dụng vào bộ nén video H265/HEVC.

Trang 1

Phương pháp lựa chọn hệ số lượng tử trên bộ nén H265/HEVC theo đặc trưng thị giác bằng

mạng Neural tích chập

Phạm Thanh Tùng∗, Đinh Triều Dương†, Đặng Văn Trọng ∗ và Lê Thanh Hà‡

∗ Khoa Khoa học cơ bản và Ngoại ngữ, Đại học Phòng cháy chữa cháy

†Khoa Điện tử viễn thông, Đại học Công nghệ

‡ Khoa Công nghệ thông tin, Đại học Công nghệ Tác giả liên hệ: Đinh Triều Dương (email:duongdt@vnu.edu.vn)

Tóm tắt—Trong bài báo này chúng tôi phát triển mô

hình dự đoán chất lượng hình ảnh video khi nén bằng

mạng Neural tích chập trích chọn đặc trưng thị giác của

khối ảnh từ đó đề xuất phương pháp lựa chọn hệ số lượng

tử (QP) áp dụng vào bộ nén video H265/HEVC Bộ dữ liệu

thực nghiệm đánh giá chất lượng ảnh chủ quan của 40286

khối ảnh dùng cho huấn luyện mô hình Mô hình dự đoán

chất lượng hình ảnh được tùy chỉnh trên nền tảng kiến

trúc mạng Resnext-50 nhằm mô phỏng theo cách đánh

giá chủ quan của con người Mô hình dự đoán này làm

cơ sở cho phương pháp lựa chọn hệ số lượng đơn vị mã

hóa khối (CU) khi nén video theo chất lượng thị giác cho

trước Thực nghiệm trên bộ nén H265/HEVC phiên bản

HM 16.20 cho thấy chất lượng đánh giá chủ quan có cải

thiện so với bộ nén ban đầu với cùng tốc độ bit.

Từ khóa—lựa chọn hệ số lượng tử, bộ nén H265/ HEVC,

đặc trưng thị giác.

I GIỚI THIỆU Trong mã hóa video, đánh giá chất lượng hình ảnh

có ý nghĩa quan trọng trong việc tính toán hiệu năng

và làm căn cứ để lựa chọn cách mã hoá tối ưu Tất cả

các bộ nén video thuộc họ MPEG-x và H.26x đều là các

bộ nén dự đoán chuyển động theo khối Chúng đạt được

hiệu suất nén cao bằng cách sử dụng phương pháp lượng

tử hóa có tổn thất trong miền tần số Hậu quả mất mát

thông tin của việc nén trong các bộ mã hóa video là việc

xuất hiện các biến dạng hình ảnh trong video được giải

mã Dễ nhận thấy nhất là sự sai khác dọc theo các cạnh

trong các khối nơi áp dụng lượng tử hóa hoặc làm mất

chi tiết hình ảnh [1] Ví vụ trong Hình 1, khung hình

đầu tiên của video thử nghiệm thường dùng Foreman

được nén với cùng một hệ số lượng tử trên toàn khung

Khung hình sau khi nén suy giảm chất lượng đáng kể

so với khung hình ban đầu Đồng thời, sự thay đổi chất

lượng được cảm nhận không đồng đều trên toàn khung

Các nhiễu xuất hiện trên khuôn mặt nhân vật dễ nhận

biết nhất trong khi các lỗi xuất hiện ở tường tòa nhà ít nhìn thấy Hình 1 không chỉ cho thấy có nhiễu tạo ra bởi nén video mà còn thể hiện mức độ nhạy cảm với nhiễu theo yếu tố thị giác con người (HVS) với không thời gian khác nhau Những vấn đề này đã được tìm hiểu vào đầu những năm 1990 [2] và được bổ sung trong các nghiên cứu tiếp theo [1] Nhận định này cho thấy có thể tạo ra một bộ nén video theo nhận thức, trong đó

áp dụng nén sâu hơn cho các khu vực hình ảnh mà thị giác của con người ít nhạy cảm hơn với biến dạng và nén tốt hơn ở những khu vực còn lại Để thực hiện mục tiêu này, câu hỏi chính cần được giải quyết là làm thế nào để dự đoán các vùng nhạy cảm với biến dạng nhằm

áp dụng QP thấp nhằm đảm bảo chất lượng cho những vùng này

Hình 1: Khung hình đầu tiên của video thử nghiệm Foreman trước và sau khi nén

Trong nhiều bộ nén video, thuật toán tối ưu hóa tốc

độ bit - biến dạng (RDO) trong kiến trúc phần mềm HEVC (HM) [3], [4] được sử dụng để cải thiện hiệu năng nén [5] Việc lựa chọn chế độ tối ưu hiệu năng nén của từng đơn vị mã hóa cơ bản bằng cách chọn chế

độ mã hóa tốt nhất dưới một giá trị QP nhất định, trong

đó đơn vị cơ bản có thể là khung, lát (slice) hoặc đơn

vị mã hóa (CU) Tùy thuộc vào loại khung hình, bộ nén

Trang 2

video thực hiện tối ưu hóa tỷ lệ nén với biến dạng bằng

cách cực tiểu hàm chi phí [4] Hàm chi phí ở đây là

hàm kết hợp giữa tốc độ nén và độ biến dạng Trong

đó thang đo biến dạng là sai số bình phương trung bình

(MSE) giữa các giá trị pixel trong khối hình ảnh gốc

và các giá trị pixel trong khối tạo lại sau khi giải nén

MSE đã được sử dụng rộng rãi trong nén hình ảnh và

video do công thức tính toán đơn giản, có thể dễ dàng

giải quyết trong toán học (cụ thể là trong bài toán tối

ưu) Tuy nhiên, MSE được xác định là tương quan kém

với chất lượng cảm nhận thị giác [6], [7]

Hiện nay, các nghiên cứu vẫn tiếp tục phát triển

phương pháp lựa chọn QP nhằm tăng hiệu năng theo

đánh giá chủ quan của con người Một số nghiên cứu

đưa ra cách tiếp cận cải thiện tỷ lệ nén hoặc tăng chất

lượng thị giác bằng kỹ thuật lựa chọn QP Nói chung,

những nghiên cứu này xem xét mối quan hệ QP − λ

trong quá trình tối ưu mã hóa RDO Một số nghiên cứu

gần đây ứng dụng học sâu (DNN) cho hiệu quả khả quan

đối với nén video [8], [9], [10], [11] Tuy nhiên, chưa

có thuật toán dựa trên nền tảng DNN nhằm lựa chọn

QP để cải thiện chất lượng cảm nhận tri giác Chính vì

vậy, bài báo này trình bày phương pháp DNN lựa chọn

QP được huấn luyện, điều chỉnh và kiểm tra trên bộ dữ

liệu đánh giá chất lượng ảnh chủ quan mà tác giả đề

xuất trong nghiên cứu trước đây [12]

Phần còn lại của bài báo được tổ chức như sau: phần

II sẽ giới thiệu về quá trình huấn luyện, hiệu chỉnh và kết

quả kiểm tra mô hình mạng CNN dự đoán Tiếp theo,

thuật toán của phương pháp lựa chọn QP được trình bày

trong phần III Phần IV tiến hành đánh giá hiệu năng

phương pháp đề xuất cài đặt trên bộ nén H.265/HEVC

khi nén một số mẫu video so với bộ nén chuẩn Cuối

cùng, chúng tôi kết luận bài báo trong phần V

II MÔ HÌNH DỰ ĐOÁN CHẤT LƯỢNG HÌNH ẢNH

KHI NÉN

A Dữ liệu

Trong nghiên cứu trước đây [12], chúng tôi đã xây

dựng bộ dữ liệu thực nghiệm đánh giá chất lượng hình

ảnh HMII gồm 40286 mẫu Quá trình thực nghiệm tiến

hành theo quy chuẩn ITU-R BT.500-11 của tổ chức viễn

thông quốc tế [13] với sự tham gia của 2189 lượt người

đánh giá Mỗi mẫu trong bộ dữ liệu gồm 1 khối ảnh gốc,

1 khối ảnh biến dạng sau mã hoá có cùng kích thước

128 × 128, hệ số lượng tử QP dùng để mã hoá khối gốc

và kết quả chất lượng chủ quan DMOS đã được tiền xử

lý loại bỏ nhiễu như đề cập trong nghiên cứu [12] Mẫu

dữ liệu được chuẩn hoá lại thành 3 thành phần màu của

khối gốc ghép thêm thành phần hệ số lượng tử QP để

thành dữ liệu đầu vào phù hợp với kiến trúc trình bày trong Hình 2 Toàn dữ liệu được chia thành 10 phần theo tỷ lệ 8:1:1 (tương ứng 32000: 4000: 4286 mẫu) dành lần lượt cho việc huấn luyện, hiệu chỉnh và đánh giá mô hình dự đoán chất lượng

B Kiến trúc học sâu của mô hình

Phương pháp đánh giá sự suy giảm chất lượng hình ảnh theo [14] tương đối đơn giản nhưng cũng đã phần nào cho thấy ảnh hưởng của nội dung khối ảnh đến sự suy giảm chất lượng khi mã hóa video Từ kết quả này, chúng tôi sử dụng phương pháp học sâu sử dụng mạng Neural tích chập (CNN) trích chọn đặc trưng cơ sở dữ liệu thực nghiệm quy mô lớn (bộ dữ liệu HMII) nhằm ước lượng chất lượng khối ảnh sau khi mã hóa Sau khi thực hiện huấn luyện mô hình đánh giá chất lượng hình ảnh sử dụng học sâu như nội dung trình bày trong [15], kiến trúc mạng tích chập trích chọn đặc trưng

ResNeXt-50 (Hình 3) cho thấy hiệu quả tốt hơn so với các kiến trúc khác Do đó, trong mô hình đề xuất tiếp tục sử dụng kiến trúc này nhưng có sự điều chỉnh phù hợp với mục đích đề ra biểu diễn theo Hình 2

Trong Hình 2, dữ liệu đầu vào có kích thước 128 ×

128 × 4, trong đó có 3 lớp đầu tiên là 3 thành phần màu RGB của khối ảnh gốc, lớp thứ 4 là hệ số lượng tử dùng

để mã hoá khối Như vậy, mô hình không sử dụng khối biến dạng sau mã hoá mà dự đoán chất lượng dựa trên khối gốc và hệ số lượng tử Sau khi qua mạng tích chập ResNeXt-50, các đặc trưng sẽ được trích chọn qua lớp hồi quy để dự đoán chất lượng khối ảnh sau mã hoá

C Kết quả huấn luyện của mô hình

Các tham số tối ưu ADAM được chọn theo khuyến nghị trong [16] gồm: β1 = 0.9, β2 = 0.999, ϵ = 10−8

và tốc độ học α ấn định là 5 × 10−4 Kết quả đánh giá hiệu năng mô hình trong quá trình huấn luyện sau 100 epoch như Hình 4 Kết quả kiểm tra trên tập dữ liệu đánh giá gồm 4286 mẫu cho kết quả tương quan tuyến tính Pearson (PLCC) giữa kết quả dữ đoán với kết quả thực nghiệm bằng 0.9505 và hệ số tương quan xếp hạng Spearman (SRCC) bằng 0.9088 So sánh với kết quả tương quan giữa hệ số lượng tử và chất lượng lần lượt PLCC=-0,807 và SRCC= -0,8438 cho thấy ảnh hưởng quan trọng của nội dung khối đến chất lượng hình ảnh biến dạng của nó khi nén

III ĐỀ XUẤT PHƯƠNG PHÁP LỰA CHỌN HỆ SỐ

LƯỢNG TỬ THEO CHẤT LƯỢNG Trong nén video, có 2 cách thiết lập QP chính: đồng nhất trên toàn video và tùy biến theo các đơn vị mã hóa

cơ bản Ở thiết lập thứ nhất, tất cả các khối trên tất cả

Trang 3

RGB original CTU block +QP

Resnext-50 feature Extractor Regression Patch Qualiy

Estimate

Siamese Network

Hình 2: Kiến trúc mạng CNN của phương pháp đánh giá chất lượng hình ảnh

Conv 7x7

B R

max-pool 2x2 Conv Iden�ty Conv Iden�ty

Conv Iden�ty

Conv Iden�ty

Global avg-pool

x5 x2

Input

Patch

Feature Vector

Hình 3: Trích xuất đặc trưng bằng ResNeXt-50

Hình 4: Kết quả huấn luyện mô hình

các khung hình đều nén với cùng một hệ số lượng tử

nên tốc độ mã hoá nhanh hơn, nhưng có nhược điểm là

chất lượng không đồng đều, dễ bị phát hiện biến dạng

Ở thiết lập thứ hai bộ nén đặt ra giá trị QP ban đầu

qp và ngưỡng điều chỉnh qpfactor Khi đó, hệ số QP

cho các đơn vị mã hóa được lựa chọn tối ưu theo RDO

trong khoảng [qp − qpf actor, qp + qpf actor) Ngoài ra,

người sử dụng có thể thiết lập tốc độ bit cho video cần

nén phù hợp với cấu hình thiết bị, nhu cầu chất lượng

và tốc độ đường truyền Do đó cần thiết phải điều chỉnh

QP cho từng đơn vị mã hóa nhằm đảm bảo tốc độ bit

với chất lượng cao nhất theo đơn vị đo MSE Như đã

đề cập trên, MSE không thể hiện được chất lượng theo

nhận thức tri giác của con người Do đó, trong nghiên

cứu này chúng tôi đề xuất phương pháp lựa chọn QP

qp = 1;

QC=QC+w*ΔQC

False

QC,ΔQC,w, CUorg

PIQA(CUorg, qp)>QC

True

qp++

qpselected

qpselected=qp

Hình 5: Sơ đồ thuật toán PAPS

theo chất lượng thị giác cần đạt được của video nén Mục tiêu chính của phương pháp đảm bảo chất lượng

Trang 4

Transform Quantization CABAC

Inv

Quantization

Inv.

Transform

+

+

In-loop Filter Constructed

Frame

Intra/Inter Prediction

Reference

Frame

Res

CU Org

QC, DQC

PAPS

Bin

-Hình 6: Sơ đồ tổng quát của bộ mã hoá H.265/HEVC cải tiến

thị giác trên toàn khung hình đồng thời tăng cường chất

lượng ở các vùng thu hút chú ý của người quan sát Một

khối ảnh tham chiếu CUorg trong khung hình được mã

hoá bởi hệ số lượng tử qp có chất lượng dự đoán theo

nhận thức thị giác là:

y = QIQA(CUorg, qp), (1)

trong đó QIQA là mô hình CNN dự đoán chất lượng

hình ảnh trình bày bên trên Thuật toán xác định hệ số

lượng tử cho các khối của một khung hình video (thuật

toán PAPS) biểu diễn như Hình 5 Dữ liệu đầu vào của

thuật toán bao gồm khối ảnh gốc CUorg, chất lượng cần

đạt được QC và ngưỡng chất lượng điều chỉnh ∆QC

Ngưỡng chất lượng điều chỉnh giới hạn mức tăng hoặc

giảm QC phụ thuộc tỷ lệ vào trọng số thu hút sự chú ý

w của khối xác định theo [17] Kết quả của thuật toán là

hệ số lượng tử qpselected ước lượng để chất lượng khối

biến dạng sau nén tối thiểu cần đạt QC

IV ĐÁNH GIÁ HIỆU NĂNG PHƯƠNG PHÁP ĐỀ

XUẤT

Để đánh giá hiệu quả của phương pháp lựa chọn hệ

số lượng tử theo chất lượng thị giác, chúng tôi cài đặt

thuật toán của phương pháp vào bộ nén H.265/HEVC

phiên bản HM 16.20 theo sơ đồ như Hình 6 Trong đó,

mỗi khung hình gốc phân chia thành các khối kích thước

64 × 64 lấy mở rộng thành 128 × 128 và đưa vào PAPS

Đồng thời, khung hình gốc cũng được sử dụng để xác

định trọng số thu hút sự chú ý Kết quả thu được là một

ma trận hệ số lượng tử được xác định tương ứng với các

khối của khung hình làm cơ sở cho quá trình lượng tử

hoá

Bộ nén cải tiến theo trong nghiên cứu được sử dụng nén nội khung (All-intra) các mẫu video thử nghiệm chuẩn gồm 2 video thuộc nhóm A (độ phân giải 2K), 5 video thuộc nhóm B (độ phân giải FHD), 3 video thuộc nhóm C (độ phân giải 768 × 480), 3 video thuộc nhóm

D (độ phân giải 400×240) và 3 video thuộc nhóm E (độ phân giải HD) Mỗi video nén dưới 4 mức chất lượng thị giác QC gồm: 3.0, 3.5, 4.0 và 4.5; giá trị ngưỡng chất lượng điều chỉnh ∆QC = 0.5 Tương tự, bộ nén chuẩn

HM 16.20 thực hiện nén nội khung các mẫu video thử nghiệm chuẩn với cùng tốc độ bit như với bộ nén cải tiến Ngoài ra, để làm rõ hiệu năng nén theo nhận thức tri giác là mục tiêu chính của nghiên cứu, chúng tôi đã tiến hành thực nghiệm đánh giá chất lượng hình ảnh chủ quan các video tái tạo sau khi nén Trong thực nghiệm, người quan sát được yêu cầu đánh giá chất lượng video tái tạo theo thang đo M OS từ 1 đến 5 tương ứng với chất lượng tăng đần Hiệu năng DM OSR so sánh giữa chất lượng M OSpro nén theo bộ mã cải tiến với chất lượng M OSHM nén theo bộ mã gốc như công thức sau:

DM OSR = M OSpro− M OSHM (2) Kết quả so sánh hiệu năng theo thang đo SSIM và đánh giá chủ quan giữa bộ mã cải tiến so với bộ mã gốc HM 16.20 trình bày trong Bảng 1 Bảng kết quả cho thấy bộ mã cải tiến với phương pháp đề xuất cho hiệu năng theo thang đo SSIM cơ bản tốt hơn so với

bộ mã gốc Theo thực nghiệm đo chất lượng chủ quan,

bộ mã cải tiến cũng có hiệu suất tốt hơn cho các mẫu video với độ phân giải cao hơn (nhóm A và nhóm E) Đối với các video thử nghiệm có nhiều vùng đồng nhất, vùng nền lớn, các đối tượng trong khung có độ tương

Trang 5

(a) Khung hình gốc (b) Trọng số chú ý

(c) Khung hình kết quả theo bộ nén cải tiến (d) QP theo bộ nén cải tiến

(e) Khung hình kết quả theo bộ nén gốc (f) QP theo bộ nén gốc

Hình 7: Kết quả nén video trên khung hình đầu tiên mẫu video ‘Johnny’

phản cao, thuật toán được đề xuất cho hiệu quả mã hóa

tốt hơn Các đặc điểm hình ảnh của video thử nghiệm

như vậy có thể thấy trong video ‘Johnny’, ‘FourPeople’,

‘BasketballDrive’, ‘KristenAndSarra’, ‘BasketballPass ‘

trong đó tăng chất lượng đáng kể nhất về mặt cảm

nhận Mặt khác, phương pháp đề xuất hiệu quả kém

trên ‘BQTerrace và ‘Cactus’ có nhiều họa tiết hơn và

độ tương phản thấp hơn Ví dụ trong Hình 7 cho thấy

chất lượng hình ảnh khung hình đầu tiên video ‘Johnny’

theo bộ nén cải tiến có sự cải thiện so bộ nén gốc đặt

biệt là vùng mặt của nhân vật và vùng biên giữa nhân

vật với phần nền

V KẾT LUẬN Trong bài báo này, chúng tôi đề xuất phương pháp lựa chọn QP theo đặc trưng thị giác áp dụng cho đơn vị mã hóa khối của khung hình video Phương pháp đề xuất sử dụng một mô hình trên nền tảng mạng CNN Resnext-50

để trích xuất các đặc trưng dự đoán chất lượng hình ảnh sau nén của khối dưới một mức lượng tử xác định Kết quả áp dụng với cách nén nội khung trên H.265/HEVC cho thấy hiệu năng theo SSIM tăng trung bình 5.5% đối với thành phần độ sáng và 0.124 theo chất lượng chủ quan thực nghiệm Đánh giá chất lượng chủ quan cho thấy rằng phương pháp được đề xuất có thể tạo ra chất lượng hình ảnh tốt hơn về nhận thức thị giác so với bộ nén gốc với cùng tốc độ bít

Trang 6

Bảng I: So sánh chất lượng hình ảnh theo thang đo SSIM và đánh giá chủ quan bộ nén dùng phương pháp đề xuất

so với bộ nén gốc

PeopleOnStreet -7.6% -6.7% -6.9% 0.191

B

BasketballDrive -4.7% -4.2% -5.3% 0.211

C

BasketballDrill -2.5% -2.8% -1.5% 0.249

D

BasketballPass -7.4% -4.7% -6.5% 0.218

E

KristenAndSara -8.3% -4.3% -5.2% 0.180

TÀI LIỆU THAM KHẢO [1] N Jayant, J Johnston, and R Safranek, “Signal compression

based on models of human perception,” Proceedings of the IEEE,

vol 81, no 10, pp 1385–1422, 1993.

[2] H R Wu, K Rao, and A Kassim, “Digital video image

quality and perceptual coding,” Journal of Electronic Imaging

- J ELECTRON IMAGING, vol 16, 01 2007.

[3] I Marzuki and D Sim, “Overview of potential technologies for

future video coding standard (fvc) in jem software : Status and

review,” IEIE Transactions on Smart Processing and Computing,

vol 7, pp 22–35, 02 2018.

[4] G Sullivan and T Wiegand, “Rate-distortion optimization for

video compression,” IEEE Signal Processing Magazine, vol 15,

no 6, pp 74–90, 1998.

[5] B Li, J Xu, D Zhang, and H Li, “Qp refinement according

to lagrange multiplier for high efficiency video coding,” in 2013

IEEE International Symposium on Circuits and Systems (ISCAS),

2013, pp 477–480.

[6] Z Wang and A C Bovik, “Mean squared error: Love it or

leave it? a new look at signal fidelity measures,” IEEE Signal

Processing Magazine, vol 26, no 1, pp 98–117, 2009.

[7] B Girod, “Psychovisual aspects of image processing: What’s

wrong with mean squared error?” in Proceedings of the Seventh

Workshop on Multidimensional Signal Processing, 1991, pp P.2–

P.2.

[8] S Ma, X Zhang, C Jia, Z Zhao, S Wang, and S Wanga,

“Image and video compression with neural networks: A review,”

IEEE Transactions on Circuits and Systems for Video

Technol-ogy, vol PP, pp 1–1, 04 2019.

[9] Y Li, B Li, D Liu, and Z Chen, “A convolutional neural

network-based approach to rate control in hevc intra coding,”

in 2017 IEEE Visual Communications and Image Processing (VCIP), 2017, pp 1–4.

[10] S Ki, S.-H Bae, M Kim, and H Ko, “Learning-based just-noticeable-quantization- distortion modeling for perceptual video

coding,” IEEE Transactions on Image Processing, vol 27, no 7,

pp 3178–3193, 2018.

[11] H Choi and I V Baji´c, “Deep frame prediction for video

coding,” IEEE Transactions on Circuits and Systems for Video Technology, vol 30, no 7, pp 1843–1855, 2020.

[12] T P Thanh, C Ma Thi, T N Manh, L Le Dinh, and

H Le Thanh, “Compression artifacts image patch database

for perceptual quality assessment,” in 2020 12th International Conference on Knowledge and Systems Engineering (KSE), 2020,

pp 55–60.

[13] I T Union, “Methodology for the subjective assessment of the

quality of television pictures,” International Telecommunication Union, vol 23, no 5, pp 1937–1952, 2013.

[14] T T Pham, T D Dinh, V X Hoang, T Vu Huu, and T H Le,

“Distortion model based on perceptual of local image content,”

In 4th International Conference on Consumer Electronics Asia,

06 2019.

[15] T T Pham, X V Hoang, N T Nguyen, D T Dinh, and L T.

Ha, “End-to-end image patch quality assessment for image/video

with compression artifacts,” IEEE Access, vol 8, pp 215 157–

215 172, 2020.

[16] D Kingma and J Ba, “Adam: A method for stochastic

optimiza-tion,” International Conference on Learning Representations, 12

2014.

[17] Z Liu, W Zou, and O Le Meur, “Saliency tree: A novel saliency

detection framework,” IEEE Transactions on Image Processing,

vol 23, no 5, pp 1937–1952, 2014.

Ngày đăng: 27/04/2022, 10:53

HÌNH ẢNH LIÊN QUAN

Trong mã hóa video, đánh giá chất lượng hình ảnh có ý nghĩa quan trọng trong việc tính toán hiệu năng và làm căn cứ để lựa chọn cách mã hoá tối ưu - Phương pháp lựa chọn hệ số lượng tử trên bộ nén H265/HEVC theo đặc trưng thị giác bằng mạng Neural tích chập
rong mã hóa video, đánh giá chất lượng hình ảnh có ý nghĩa quan trọng trong việc tính toán hiệu năng và làm căn cứ để lựa chọn cách mã hoá tối ưu (Trang 1)
Hình 2: Kiến trúc mạng CNN của phương pháp đánh giá chất lượng hình ảnh. - Phương pháp lựa chọn hệ số lượng tử trên bộ nén H265/HEVC theo đặc trưng thị giác bằng mạng Neural tích chập
Hình 2 Kiến trúc mạng CNN của phương pháp đánh giá chất lượng hình ảnh (Trang 3)
Hình 4: Kết quả huấn luyện mô hình. - Phương pháp lựa chọn hệ số lượng tử trên bộ nén H265/HEVC theo đặc trưng thị giác bằng mạng Neural tích chập
Hình 4 Kết quả huấn luyện mô hình (Trang 3)
Hình 3: Trích xuất đặc trưng bằng ResNeXt-50. - Phương pháp lựa chọn hệ số lượng tử trên bộ nén H265/HEVC theo đặc trưng thị giác bằng mạng Neural tích chập
Hình 3 Trích xuất đặc trưng bằng ResNeXt-50 (Trang 3)
Hình 6: Sơ đồ tổng quát của bộ mã hoá H.265/HEVC cải tiến. - Phương pháp lựa chọn hệ số lượng tử trên bộ nén H265/HEVC theo đặc trưng thị giác bằng mạng Neural tích chập
Hình 6 Sơ đồ tổng quát của bộ mã hoá H.265/HEVC cải tiến (Trang 4)
(e) Khung hình kết quả theo bộ nén gốc (f) QP theo bộ nén gốc - Phương pháp lựa chọn hệ số lượng tử trên bộ nén H265/HEVC theo đặc trưng thị giác bằng mạng Neural tích chập
e Khung hình kết quả theo bộ nén gốc (f) QP theo bộ nén gốc (Trang 5)
(c) Khung hình kết quả theo bộ nén cải tiến (d) QP theo bộ nén cải tiến - Phương pháp lựa chọn hệ số lượng tử trên bộ nén H265/HEVC theo đặc trưng thị giác bằng mạng Neural tích chập
c Khung hình kết quả theo bộ nén cải tiến (d) QP theo bộ nén cải tiến (Trang 5)
(a) Khung hình gốc (b) Trọng số chú ý - Phương pháp lựa chọn hệ số lượng tử trên bộ nén H265/HEVC theo đặc trưng thị giác bằng mạng Neural tích chập
a Khung hình gốc (b) Trọng số chú ý (Trang 5)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm