1. Trang chủ
  2. » Kỹ Thuật - Công Nghệ

Nghiên cứu và phân tích các mô hình đánh giá chất lượng ảnh Light field với chuẩn mã hóa H.266/VVC

6 17 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 6
Dung lượng 1,77 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Bài viết trình bày một số kết quả đánh giá về chất lượng hình ảnh LF dựa trên phương pháp đánh giá chủ quan, đặc biệt tập trung vào những độ sâu trường ảnh (DOF) khác nhau với trường nhìn khác nhau (FOV).

Trang 1

Nghiên cứu và phân tích các mô hình đánh giá chất lượng ảnh Light field với chuẩn mã hóa

H.266/VVC

Phí Công Huy1,2, PGS TS Trịnh Anh Vũ2, TS Hoàng Văn Xiêm2 Khoa Đa phương tiện, Học Viện Công Nghệ Bưu Chính Viễn Thông1 Khoa Điện tử Viễn thông, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội2

Email: huypc@ptit.edu.vn, 17028025@vnu.edu.vn, vuta@vnu.edu.vn, xiemhoang@vnu.edu.vn

Tóm tắt - Light-Field (LF) là một dạng dữ liệu về hình ảnh,

với thông tin phong phú từ nhiều chiều thông tin Nó cung

cấp đa dạng thông tin về hình ảnh như nội dung 2D, chiều

sâu, vị trí góc nhìn, độ dài tiêu cự, v.v Do đó, đánh giá

chất lượng hình ảnh LF là công việc đầy thách thức Trong

bài viết này, chúng tôi trình bày một số kết quả đánh giá

về chất lượng hình ảnh LF dựa trên phương pháp đánh

giá chủ quan, đặc biệt tập trung vào những độ sâu trường

ảnh (DOF) khác nhau với trường nhìn khác nhau (FOV)

Kết quả đánh giá chất lượng chủ quan được xây dựng dựa

trên bộ dữ liệu LF bao gồm 228 hình ảnh từ nguồn EPFL

với hai mức lấy nét khác nhau (lấy nét tiền cảnh và lấy nét

hậu cảnh) Để có sự đánh giá đa dạng, các thông tin nhiễu

được bổ sung vào các ảnh LF bằng cách mã hóa hình ảnh

thông qua bộ mã hóa video mới nhất – Versatile Video

Coding (VVC) Kết quả nghiên cứu của bài báo đã cung

cấp những lưu ý về hiệu năng của 2 phương pháp đánh giá

phổ biến đó là Pick-signal Noise Ratio (PSNR) và

Structure Similarity Index (SSIM) sử dụng cho ảnh LF

Từ khóa— Image quality assessment, Light Field image,

Coding, Benchmarking

I GIỚI THIỆU

Năm 2015, nhóm những chuyên gia về chuẩn nén

ảnh JPEG đã đưa ra một khái niệm mới đó là JPEG

Plenoptic, một định dạng ảnh với dữ liệu thông tin 7-D

[1] Plenoptic bao gồm các loại dữ liệu như light field,

point cloud, holography…Điều này mở ra những hướng

nghiên cứu rất triển vọng cho các nhà nghiên cứu về xử

lý tín hiệu và ảnh

Light-Field (LF) là sự thể hiện của một tập hợp của

tất cả các tia sáng được ghi lại ở mọi điểm trong không

gian và ở các hướng; Do đó, dữ liệu LF có thể cung cấp

dữ liệu với các thông tin phong phú Nó được biết đến

thông qua hệ thống Image-Based Rendering (IBR) do

Levoy và Hanrahan đề xuất năm 1996 [2] Trong hai

thập kỷ qua, đã có một sự cải tiến rất lớn về kỹ thuật LF,

ví dụ: cách thu thập dữ liệu, kết xuất dữ liệu và kỹ thuật

lấy mẫu Đặc biệt, nhiều loại máy ảnh chuyên dụng được

phát triển để ghi lại dữ liệu LF, ví dụ như Lytro LF, Illum

[3], và Raytrix [4] Các máy ảnh này cung cấp cho chúng

ta những tính năng tuyệt vời của dữ liệu LF như thay đổi

điểm nhìn và góc nhìn, lấy nét dữ liệu sau khi ghi hình,

khai thác dữ liệu ba chiều (3-D), ước lượng chiều sâu [5]

LF có lợi thế về sự phong phú của dữ liệu cùng với các tính năng tuyệt vời được đề cập ở trên tuy nhiên nó cũng gặp phải một số vấn đề liên quan tới xử lý tín hiệu

và phần mềm, nguyên nhân chính nằm ở dung lượng dữ liệu cao và cấu trúc khác với các bức ảnh 2D thông thường Tuy nhiên, một hình ảnh với dữ liệu nhiều thông tin như LF, nó hứa hẹn sẽ có một tương lai tiềm năng

Nó có thể áp dụng vào việc hỗ trợ tối ưu hình ảnh trong sản xuất kỹ xảo phim, cho phép những trải nghiệm mới trong các ứng dụng hình ảnh, hội nghị từ xa và cải thiện nội dung thị giác trong thực tế ảo và gia tăng (VR-AR) [6]

Gần đây, hình ảnh LF có thể được áp dụng cho nhiều lĩnh vực như công cụ y sinh học như ống soi tai [7], kính hiển vi [8], điều khiển robot dựa trên thị giác [9], velocimetry [10], v.v Tuy nhiên, dữ liệu hình ảnh LF là một loại dữ liệu có cấu trúc phức tạp và kích thước cao cần được phân tích và khám phá, cụ thể là trong đánh giá và biểu diễn chất lượng Hình ảnh LF có thể bị nhiều loại nhiễu do các giai đoạn xử lý hình ảnh LF khác nhau như thu thập ở giai đoạn xử lý ban đầu, tái tạo / nén ở giai đoạn xử lý giữa và kết xuất / hiển thị ở giai đoạn xử

lý sau này Do đó, một mô hình đánh giá chất lượng hình ảnh LF (LF-IQA) hiệu quả là một nhu cầu rất cần thiết trong thời gian hiện tại, đặc biệt, mô hình này phải kiểm soát được đặc điểm riêng biệt của LF, ví dụ: lựa chọn điểm nét sau khi chụp

Trong các nghiên cứu trước đây, một số mô hình đánh giá chất lượng hình ảnh (IQA) đã được đề xuất, chẳng hạn như Tỷ lệ tín hiệu trên nhiễu đỉnh (PSNR), Lỗi bình phương trung bình (MSE) và Chỉ số tương đồng cấu trúc (SSIM) Tuy nhiên, các mô hình này không khai thác đầy đủ các đặc điểm LF, bao gồm thông tin màu sắc và thông tin hình học của ảnh LF và hình ảnh phân nhóm (EPIs) Đặc biệt, các nghiên cứu gần đây chưa khám phá đầy đủ sự phức tạp của độ sâu trường ảnh (DOF) từ hình ảnh LF Các tiêu chuẩn đánh giá khách quan không phản ánh hiết sự biểu đạt phong phú của LF và phản ánh kết quả cảm nhận của mắt người

Trang 2

Chính vì vây, bài báo này sẽ trình bày một nghiên

cứu đánh giá chất lượng về hình ảnh LF bằng cách đánh

giá chủ quan Sự phức tạp của DOF trong hình ảnh LF

là mục tiêu chính để tạo thành tập dữ liệu LF Tập dữ

liệu được sử dụng tất cả từ nguồn EPFL [11], được phân

loại thành hai loại chính, đó là lớp DOF phức tạp và

lớp DOF đơn giản Mỗi loại DOF chứa một FOV rộng

và hẹp Các thông tin nhiễu được bổ sung vào hình ảnh

LF thông qua bộ mã hóa VVC, hình ảnh LF được mã

hóa với ba tham số định lượng (QPs), cụ thể là QP22,

QP40, QP50

Cấu trúc của bài báo được phân chia như sau: Phần

2 mô tả các đặc tính của ảnh LF, Phần 3 sẽ mô tả quá

trình đánh giá chất lượng chủ quan kèm theo phương

pháp đánh giá Kết quả và thảo luận được thể hiện trong

Phần 4 và cuối cùng là kết luận trong Phần 5

II CÁC NGHIÊN CỨU LIÊN QUAN

A Đặc tính ảnh light field

Dữ liệu plenoptic-light field cung cấp rất nhiều thông

tin với 7-chiều bao gồm: không gian (x, y, z), thời gian

(t), vị trí (θ, ϕ), bước sóng của ánh sáng (λ) Nó được

tổng hợp chung trong tham số P(x, y, z, θ, ϕ, λ, t) Tuy

nhiên, 7 chiều của dữ liệu không phải là chiều không

gian và cảm xúc như các thuật ngữ hiện nay mà nó cung

cấp các loại thông tin Đối với hình ảnh D, mô hình

3-D thể hiện dựa trên không gian 2-3-D và bổ sung thêm độ

sâu để có 3-D, còn với phim 4-D, 5-D bổ sung thêm cảm

xúc và sự tương tác, như xem phim đua xe 4-D có thêm

tương tác lắc lư như đang ngồi trên xe, 5-D có thể nếm

cảm nhận sự việc đang diễn ra Vì vậy, để tránh nhầm

lẫn và hiểu sai ý nghĩa, tác giả đưa ra cách gọi dữ liệu

plenoptic-light field, đó là dữ liệu gồm có 7 loại thông

tin được cung cấp: không gian (x, y, z), thời gian (t), vị

trí (θ, ϕ), bước sóng của ánh sáng (λ) như Hình 1 Cũng

vì dữ liệu phong phú như vậy, nên hình ảnh Light Field

sau khi được ghi lại bằng máy ảnh chuyên dụng, có thể

tự lấy chọn điểm nét, thay đổi vị trí hay kết xuất ra hình

ảnh 3D

Hình 1 Các loại thông tin thể hiện cho dữ liệu Light Field

Dữ liệu Ligh Field được tạo ra hoặc ghi lại bằng một

máy ảnh chuyên dụng, trong đó nó có một hệ thống

những ống kính nhỏ được sắp xếp trước cảm biến của

máy ảnh, để ghi lại những hình ảnh từ các góc độ và

chiều sâu khác nhau như Hình 2 Vì vậy, dữ liệu của

light field dung lượng và kích thước khá lớn với mỗi bức

hình đuôi file là LFR (Light Field Raw) cùng kích thước 7728x5368 , dung lượng sấp xỉ 50MB

Hình 2 Cấu tạo cơ bản bên trong máy ảnh để thu dữ liệu

Ligh-Field

Trong dữ liệu Light Field, có một thuật ngữ còn được

sử dụng đó là “super-pixel”, đó là hệ thống ống kính nhỏ (lenslet) được thể hiện trên bức ảnh light field Vì vậy, bức ảnh light field có rất nhiều góc nhìn khác nhau Tuy nhiên, như mô tả ở phía trên về dữ liệu Light Field, đây không phải là những pixel giống như bức ảnh 2-D thông thường, đó chỉ là tập hợp các mẫu thấu kính nhỏ (lenslet) trên một khoảng không gian 7728 x 5368 Khi dữ liệu light field gốc được giải mã, sẽ tạo ra được cấu trúc dữ liệu (thể hiện ở Hình 3) với thông số 15 x 15 x 625 x 434

x 4, trong đó 15 x 15 là số lượng điểm nhìn, 625 x 434

là độ phân giải và 4 là hệ màu cơ bản đi kèm với trọng

số [12]

Hình 3: Cấu trúc dữ liệu LF

Từ những đặc thù của cấu trúc dữ liệu LF, những tính năng mà dữ liệu LF có thể cung cấp như: xuất ảnh 3D, thay đổi điểm lấy nét, hay tạo ra các video dựa trên các ảnh nhỏ, v.v

B Mô hình mã hóa video H.266/VVC

H.266/VVC là tiêu chuẩn mã hóa video mới nhất, được ITU-T và ISO/IEC đồng xuất bản Vào tháng 7 năm 2020, bộ mã hóa VVC được công bố là nén video thế hệ tiếp theo Tiêu chuẩn video này được thiết kế để hiệu quả và linh hoạt để đáp ứng nhu cầu truyền thông hiện đại

Để có hiệu quả mã hóa, H.266/VVC được bổ sung nhiều công cụ mã hóa mới so với H.265/HEVC tiêu chuẩn trước đó [16] Như độ phân giải vectơ chuyển động thích ứng (AMVR), chế độ phân vùng tam giác (TPM), dự đoán nội bộ dựa trên ma trận (MIP), phân vùng khối linh hoạt với cây đa loại (MTT), dự đoán hai lần với trọng lượng CU (BCW), chuyển đổi khối phụ (SBT) và nhiều cải tiến gia tăng của thiết kế mã hóa video lai cổ điển [17] Dựa trên cải tiến các công cụ mã

1

625 pixels

434 pixels 2

15

………

………

………

………

………

………

R G

B W

Trang 3

hóa mới, giảm tốc độ bit được báo cáo khoảng 50% so

với H.265 / HEVC, đặc biệt, H.266 / VVC có thể sử

dụng cho video độ nét cực cao, ví dụ: 4K hoặc 8K, cũng

có dải động cao và gam màu rộng [17]

Về cấu trúc phức tạp và kích thước cao của LF, cấu

hình mã hóa được sử dụng với 3 QP s khác nhau Cụ

thể, QP22, QP40 và QP50 được sử dụng và xác định 3

mức chất lượng di chuyển từ rất cao đến rất thấp

III CÁC PHƯƠNG PHÁP ĐÁNH GIÁ CHẤT LƯỢNG ẢNH

LIGHT FIELD SAU MÃ HÓA (NÉN)

Trong nghiên cứu này, một tập dữ liệu LF được lựa

chọn từ EPFL [11] gồm 38 thể loại nội dung khác nhau,

với các loại DOF, FOV khác nhau Các định nghĩa về

bộ dữ liệu được mô tả trong Bảng 1 Dữ liệu này được

chia thành hai phần dựa trên độ phức tạp của LF-DOF,

tức là lớp DOF phức tạp và lớp DOF đơn giản (khái

niệm lớp phức tạp và đơn giản được định nghĩa thông

qua số lượng đối tượng mà ảnh LF có thể lấy nét, nếu

hơn 2 đối tượng được coi là lớp phức tạp) Mỗi loại DOF

chứa 2 loại FOV, tức là FOV hẹp và FOV rộng Các

thông số thay đổi cấu hình của các điểm lấy nét của từng

hình ảnh LF được tính toán trong dải tham số từ -0.7 cho

tới 1 Để thay đổi điêrm lấy nét của hình ảnh LF, chúng

ta thay đổi tham số của độ dốc, gọi là “slope” của hình

ảnh LF bằng LF Toolbox v.0.4 [13] Có hai loại lấy nét,

lấy nét tiền cảnh và lấy nét hậu cảnh Tuy nhiên, một số

hình ảnh LF chỉ có thể lấy nét với tham số độ dốc bằng

0, trường hợp này, nội dung bức ảnh sẽ quyết định đó là

bức ảnh lấy nét tiền cảnh hay hậu cảnh

A Phương pháp đánh giá chủ quan

Các đánh giá chất lượng chủ quan đã được tiến hành

tại Trường Đại học Công nghệ, Đại, ĐHQG Hà Nội,

Việt Nam Đầu tiên, tất cả các loại lấy nét khác nhau của

ảnh LF được tạo ra thông qua phần mềm MatLab, tiếp

theo đó các ảnh này được ghép với nhau theo mô hình

xoắn ốc, nhằm tạo ra các video giả lập, với 30 Fps và 12

giây cho tổng thời lượng một video Sau đó, các video

giả lập này được mã hóa bởi VVC codec với 3 QPs (tức

là 22, 40, 50) nhằm tạo ra các thông tin nhiễu khác nhau

Mô hình đánh giá 2 hình ảnh song song DSIS [18] được

sử dụng làm phương pháp kiểm tra để so sánh chất lượng hình ảnh Thử nghiệm này được xác định với thang điểm xếp hạng 5 cấp và bao gồm một cặp ảnh LF tham khảo

ẩn để kiểm tra sự chính xác của người tham gia, các mức điểm đánh giá như sau, 1 – Yếu, 2 - Kém, 3 – Bình thường, 4 – Khá, và 5 – Tốt

Môi trường điều kiện thử nghiệm được điều chỉnh để tuân theo Khuyến nghị ITU-R BT.500-13 [14] Các người dùng được mời tham gia thử nghiệm được xem ảnh LF thông qua màn hình Dell U2419H với 24 inch,

độ phân giải full HD 1920x1080, và khoảng cách xem 1,2m (±15cm) Về trình phát video, phần mềm MPV [15] đã được sử dụng cho phương pháp đánh giá này Tất cả các video được cho chạy liên tục thông qua phần mềm Matlab phiên bản 2019b, điểm của mỗi cá nhân tham gia đánh giá được ghi lại tự động vào một thư mục riêng Tổng cộng có 236 kết quả thu được tại buổi đánh giá Trong mọi trường hợp, không kết quả bất thường nào được tìm thấy Kết quả sau đó được tổng hợp dựa trên cách tính trung bình - Mean Opinion Scores (MOS) và 95% Khoảng thời gian tự tin (CIs) Số lượng người tham gia thử nghiệm là 8 nữ và 12 nam, độ tuổi khoảng 19 – 39 với thị lực ổn định

B Phương pháp đánh giá khách quan PSNR

Phương pháp đánh giá khách quan PSNR được sử dụng phổ biến nhất để đo chất lượng của việc tái tạo lại các tín hiệu từ các bộ nén bị dữ liệu có tổn thất (ví dụ:

để nén hình ảnh) Tín hiệu trong trường hợp này là dữ liệu gốc và nhiễu là lỗi do nén Khi so sánh các bộ nén

dữ liệu, PSNR được coi là một giá trị tương đối với cách con người có thể đánh giá về chất lượng tái tạo [19] Các giá trị điển hình cho PSNR khi nén hình ảnh và video bị tổn hao là từ 30 đến 50 dB, với điều kiện thông

số bit là 8 bit, với thông số bit càng cao, thì càng tốt Chất lượng xử lý của hình ảnh 12-bit được coi là cao khi giá trị PSNR là 60 dB hoặc cao hơn Đối với dữ liệu 16-bit, các giá trị điển hình cho PSNR là từ 60 đến 80 dB Công thức tính PSNR được mô tả như sau

𝑃𝑆𝑁𝑅 = 10𝑙𝑜𝑔10(255

2 𝑀𝑆𝐸)

(1)

Bảng 1 Tổng quan về định nghĩa dữ liệu LF

Trang 4

Với

𝑀𝑆𝐸(𝑥, 𝑦) = 1/𝑀𝑁 ∑ ∑(𝑥𝑖𝑗− 𝑦𝑖𝑗)2

𝑁

𝑗=1 𝑀

C Phương pháp đánh giá khách quan SSIM

Phương pháp SSIM là một phương pháp để đo mức

độ giống nhau giữa hai hình ảnh SSIM dự đoán chất

lượng hình ảnh dựa trên hình ảnh không được nén hoặc

không bị biến dạng ban đầu làm tài liệu tham khảo Nó

cho chúng ta biết một hình ảnh cần so sánh có chất lượng

tốt ra sao so với hình ảnh tham chiếu ban đầu Đặc biệt,

phương pháp này được coi là phù hợp với hệ thống thị

giác của con người [19]

SSIM được thiết kế để cải thiện các phương pháp

truyền thống như PSNR và sai số bình phương trung

bình MSE Các giá trị đánh giá của phương pháp này

được dao động từ 0 đến 1 Giá trị càng tiến gần 1, đồng

nghĩa với việc hình ảnh cần so sánh có chất lượng tương

đồng với hình ảnh gốc SSIM được tính toán tổ hợp dựa

trên các đặc tính của hỉnh ảnh như: độ sáng, độ tương

phản, và độ tương đồng Công thức SSIM được tính như

sau:

𝑆𝑆𝐼𝑀(𝑥, 𝑦) = 𝑙(𝑥,𝑦)𝑐(𝑥,𝑦)𝑠(𝑥,𝑦) (4)

Với

𝑙(𝑥,𝑦)= 2𝜇𝑥𝜇𝑦+ 𝐶1⁄𝜇𝑥2+ 𝜇𝑦2+ 𝐶1

𝑐(𝑥,𝑦) = 2𝜎𝑥𝜎𝑦+ 𝐶2⁄𝜎𝑥+ 𝜎𝑦+ 𝐶2

𝑠(𝑥,𝑦) = 𝜎𝑥𝑦+ 𝐶3⁄𝜎𝑥𝜎𝑦+𝐶3

(5)

IV PHÂN TÍCH KẾT QUẢ

A Kết quả từ phương pháp đánh giá chủ quan

Trong Hình 4, MOS và CIs thuộc loại LF khác nhau

được trình bày Có 4 nội dung đại diện cho 4 loại lấy nét

khác nhau của LF, tức là CW (Lớp phức tạp với FOV

rộng), CN (Lớp phức tạp với FOV hẹp), SW (Lớp đơn

giản với FOV rộng) và SN (Lớp đơn giản với FOV hẹp)

Kết quả cho thấy, 95% CIs được chấp nhận với trung

bình 0,3 và các CIs tối đa khoảng 0,6

Đáng chú ý, tất cả các loại lấy nét tiền cảnh cho thấy

chất lượng hình ảnh tốt hơn so với lấy nét hậu cảnh bởi

vì các chủ thể trong ảnh gần hơn với tầm nhìn mắt người

Về các ảnh có chủ thể gần, cũng lưu ý rằng FOV hẹp

nhận được điểm MOS tốt hơn so với FOV rộng

Hình 4 Kết quả của phương pháp đánh giá chủ quan trên các loại LF khác nhau

B Phân tích các loại lấy nét của ảnh LF

Để phân tích 8 loại lấy nét LF khác nhau, cách phù hợp nhất được tính toán cho mỗi loại lấy nét, đó là hệ

số xác định sự tương quan 𝑅2 như trong Hình 2 𝑅2 là một thước đo thống kê về sự tương quan dữ liệu thực tế

và nó được tính toán như sau:

𝑅2 = 1 −∑(𝑥𝑖− 𝑥̂𝑖)2

∑(𝑥𝑖− 𝑥̅𝑖)2

(6)

Trong đó, 𝑥𝑖 và 𝑥̂𝑖 là các giá trị tương ứng của giá trị gốc và dự đoán của mỗi cá nhân đánh giá; trong khi 𝑥̅𝑖

là khoảng cách dữ liệu cách xa giá trị trung bình Dựa trên kết quả trong Hình 5, có 𝑅2 = 0.5 nghĩa là hầu hết dữ liệu gốc không có sự tương quan nào Đáng chú ý, loại lấy nét CNB và CNF, có mối tương quan thấp nhất 𝑅2 = 0.4, sau đó là SWF, SWB, SNF và SNB với 𝑅2= 0.5 Những ảnh LF có sự tương quan thấp như: House_Lake - SW, Wall_Decoration - SN, Stone_Pillars_Inside - CN), đều có đặc điểm tương tự, tức là contrast thấp, dải màu thấp Tuy nhiên, loại lấy nét CWF và CWB cho mối tương quan tốt hơn vì sự cải thiện của contrast và dải màu, với 𝑅2= 0.7, ví dụ: Bench_in_Paris, Fountain_Vincent_2, v.v Do đó, lý do

sự tương quan thấp bị tác động bởi độ tương phản thấp

và dải tương phản động thấp, và nó ảnh hưởng đến độ sâu của hình ảnh LF

Trang 5

C Phân tích mô hình đánh giá chất lượng hình ảnh

PSNR và SSIM

SSIM và PSNR là hai mô hình đánh giá chất lượng

hình ảnh phổ biến SSIM được coi là mô hình đánh giá

gần với mắt người nhất, bằng cách tìm điểm giống nhau

giữa hai bức ảnh Trong khi đó, PSNR chỉ tính toán sự

khác biệt giữa hai bức ảnh

Hình 6 Sự tương quan của ảnh LF dựa trên PSNR và SSIM

Hình 6, trình bày kết quả so sánh các loại lấy nét phù

hợp nhất của PSNR và SSIM với ảnh LF khác nhau Nó

cho thấy rằng sự tương quan trên cả hai mô hình được

tính toán đều thấp khoảng 50% của giá trị trung bình

Thậm chí, sự tương quan trên PSNR tốt hơn một chút so

với SSIM, khoảng 60% Nhưng, PSNR không phù hợp

để đánh giá chất lượng thị giác của con người Do đó,

để cải thiện mô hình SSIM, chúng ta cần xem xét các

đặc điểm LF, tức là dải màu động và độ tương phản

V KẾT LUẬN

Bài báo đã trình bày một nghiên cứu về cách đánh

giá chất chủ quan và khách quan với lượng dữ liệu ảnh

LF có các điểm lấy nét thay đổi Đồng thời, bài báo cũng

mô tả bộ mã hóa mới nhất VVC và áp dụng nó để tạo ra

những hình ảnh có thông tin nhiễu với các cấp độ nén

khác nhau Dựa trên kết quả so sánh giữa các phương

pháp đánh giá chủ quan và khách quan, bài báo đã đưa

ra được lý do ảnh hưởng tới khả năng đánh giá chất

lượng ảnh LF khi sử dụng các mô hình đánh giá hiện tại

như PSNR và SSIM, đó là dải màu động và độ tương

phản Hai yếu tố này nên được xem xét để cải thiện các tham số tương quan khi đánh giá chất lượng của ảnh LF Hơn nữa, bài báo đã xác định và phân loại loại các loại lấy nét khác nhau theo từng nội dung của ảnh LF, việc này có thể hữu ích cho nghiên cứu phân tích chất lượng ảnh LF trong tương lai

Nghiên cứu này được tài trợ bởi Quỹ Phát triển khoa học và công nghệ Quốc gia (NAFOSTED) trong đề tài

mã số 102.01-2020.15

NGUỒN THAM KHẢO [1] T Ebrahimi, F Pereira, P Schelkens, “JPEG Pleno: Toward an Efficient Representation of Visual Reality”, Industry and Standards, IEEE Multimedia, 2016

[2] M Levoy and P Hanrahan, “Light field rendering,” in Proc SIGGRAPH, 1996, pp 31–42

[3] Lytro camera, https://www.lytro.com/

[4] Raytrix, https://www.raytrix.de/

[5] I Ihrke, J Restrepo, and L Mignard-Debise, “Principles of Light Field Imaging”, IEEE Signal Processing Magazine, 2016 [6] T Ebrahimi, S Foessel, F Pereira, P Schelkens, “JPEG Pleno: Toward an Efficient Representation of Visual Reality,” IEEE Multimedia, Oct-Dec 2016

[7] N Bedard, T Shope, A Hoberman, M A Haralam, N Shaikh,

J Kovačević, N Balram, and I Tošić, "Light field otoscope

design for 3D in vivo imaging of the middle ear," Biomedical

optics express, vol 8, pp 260-272, 2017

[8] H Li, C Guo, and S Jia, "High-resolution light-field

microscopy," Frontiers in Optics, FW6D 3, 2017

[9] D Tsai, D G Dansereau, T Peynot, and P Corke,

"Image-Based Visual Servoing With Light Field Cameras," IEEE

Robotics and Automation Letters 2(2), pp 912-919, 2017

[10] K Lynch, T Fahringer, and B Thurow, “Three-dimensional particle image velocimetry using a plenoptic camera” American

Institute of Aeronautics and Astronautics (AIAA), 2012

[11] M Řeřábek and T Ebrahimi, “New Light Field Image Dataset,” 8th International Conference on Quality of Multimedia Experience, Lisbon, Portugal, 2016

[12] Ren Ng, M Levoy, et al, “Light Field Photography with a Hand-held Plenoptic Camera”, Stanford Tech Report, 2005 [13] D Dansereau, “Light Field Toolbox v0.4,” http://www.mathworks.com/matlabcentral/fileexchange/49683 -light-field-toolbox-v0-4

[14] ITU-R BT.500-13, “Methodology for the subjective assessment

of the quality of television pictures,” International Telecommunications Union, Jan 2012

[15] MPV video player [Online] Available: https://mpv.io

[16] G J Sullivan, J R Ohm, W J Han and T Wiegand, “Overview

of the High Efficiency Video Coding (HEVC) Standard,” in

IEEE Transactions on Circuits and Systems for Video Technology, vol 22, no 12, pp 1649-1668, Dec 2012

[17] B Benjamin, C Jianle, L Shan, W Ye-Kui, “Versatile Video Coding (Draft 10)”, 19th Meeting: by teleconference, Joint Video Experts Team (JVET) of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11, 22 June – 1 July 2020 [18] I Viola, M Rˇ erˇábek, T Bruylants, P Schelkens, F Pereira, and T Ebrahimi, “Objective and subjective evaluation of light field image compression algorithms,” in Proc 32nd Picture Coding Symp., pp 1–5, 2016

[19] A Horé and D Ziou, "Image Quality Metrics: PSNR vs SSIM,"

2010 20th International Conference on Pattern Recognition,

2010, pp 2366-2369

Trang 6

Hình 5 Sự tương quan của MOS so sánh với phương pháp SSIM

Ngày đăng: 27/04/2022, 10:52

HÌNH ẢNH LIÊN QUAN

Các giá trị điển hình cho PSNR khi nén hình ảnh và video bị tổn hao là từ30 đến 50 dB, với điều kiệ n thông  số bit là 8 bit, với thông số bit càng cao, thì càng tốt - Nghiên cứu và phân tích các mô hình đánh giá chất lượng ảnh Light field với chuẩn mã hóa H.266/VVC
c giá trị điển hình cho PSNR khi nén hình ảnh và video bị tổn hao là từ30 đến 50 dB, với điều kiệ n thông số bit là 8 bit, với thông số bit càng cao, thì càng tốt (Trang 3)
Trong Hình 4, MOS và CIs thuộc loại LF khác nhau được trình bày. Có 4 nội dung đại diện cho 4 loại lấ y nét  khác nhau của LF, tức là CW (Lớp phức tạp với FOV  rộng), CN (Lớp phức tạp với FOV hẹp), SW (Lớp đơn  giản với FOV rộng) và SN (Lớp đơn giản với F - Nghiên cứu và phân tích các mô hình đánh giá chất lượng ảnh Light field với chuẩn mã hóa H.266/VVC
rong Hình 4, MOS và CIs thuộc loại LF khác nhau được trình bày. Có 4 nội dung đại diện cho 4 loại lấ y nét khác nhau của LF, tức là CW (Lớp phức tạp với FOV rộng), CN (Lớp phức tạp với FOV hẹp), SW (Lớp đơn giản với FOV rộng) và SN (Lớp đơn giản với F (Trang 4)
Hình 4. Kết quả của phương pháp đánh giá chủ quan trên các loại LF khác nhau - Nghiên cứu và phân tích các mô hình đánh giá chất lượng ảnh Light field với chuẩn mã hóa H.266/VVC
Hình 4. Kết quả của phương pháp đánh giá chủ quan trên các loại LF khác nhau (Trang 4)
C. Phân tích mô hình đánh giá chất lượng hình ảnh PSNR và SSIM  - Nghiên cứu và phân tích các mô hình đánh giá chất lượng ảnh Light field với chuẩn mã hóa H.266/VVC
h ân tích mô hình đánh giá chất lượng hình ảnh PSNR và SSIM (Trang 5)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w