Phát triển mô hình tạp âm tương quan nhằm nâng cao hiệu năng mã hóa của kỹ thuật mã hóa video phân tán DVC

1: Minh họa sự sai khác giữa 2 khung liên tiếp trong dãy video Nhìn vào 2 khung hình trên trong chuỗi khung liên tiếp của video, ta có thể thấy sự khác biệt căn bản nẳm ở vị trí ô tô, do

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Vũ Thị Quỳnh Anh

PHÁT TRIỂN MÔ HÌNH TẠP ÂM TƯƠNG QUAN NHẰM NÂNG CAO HIỆU NĂNG MÃ HÓA CỦA KỸ THUẬT MÃ HÓA

VIDEO PHÂN TÁN DVC

LUẬN VĂN THẠC SỸ NGÀNH ĐIỆN TỬ VIỄN THÔNG

Chuyên ngành: Kỹ thuật viễn thông

Người hướng dẫn khoa học: TS Hoàng Văn Xiêm

TS Đinh Triều Dương

Chuyên ngành: Kỹ thuật viễn thông

HÀ NỘI, 2019

Trang 2

2

LỜI CAM ĐOAN

Tôi xin cam đoan đề tài “PHÁT TRIỂN MÔ HÌNH TẠP ÂM TƯƠNG QUAN NHẰM NÂNG CAO HIỆU NĂNG MÃ HÓA CỦA KỸ THUẬT MÃ HÓA VIDEO PHÂN TÁN DVC” do TS Hoàng Văn Xiêm và TS Đinh Triều Dương hướng dẫn là công trình nghiên cứu của tôi Các nội dung nghiên cứu, kết quả trong luận văn này là trung thực và không sao chép các công trình của người khác

Tất cả các tài liệu tham khảo được sử dụng trong khóa luận này được ghi rõ nguồn gốc và ghi tên tác giả Nếu có sai sót, tôi xin chịu hoàn toàn trách nhiệm

Hà Nội, ngày tháng năm 2019

Tác giả

Trang 3

Cuối cùng, em xin bày tỏ lòng biết ơn vô hạn với gia đình thân yêu của mình Cảm

ơn những người bạn thân thiết đã chăm sóc, khích lệ trong quá trình học tập nghiên cứu Trong quá trình thực hiện luận văn này, do kiến thức còn hạn chế, không thể tránh khỏi những thiếu sót, em rất mong nhận được những ý kiến góp ý của các thầy cô để em

có thể tiếp tục hoàn thiện và phát triển đề tài này

Hà Nội, tháng năm 2019

Trang 4

4

MỤC LỤC

LỜI CAM ĐOAN 2

MỤC LỤC 4

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT 6

DANH MỤC HÌNH VẼ 8

DANH MỤC BẢNG BIỂU 9

PHẦN MỞ ĐẦU 10

PHẦN NỘI DUNG 12

CHƯƠNG 1 12

1.1Đặt vấn đề 12

1.2 Tổng quan về mã hóa video dự đoán HEVC 12

1.2.1 Kiến trúc tổng quát của bộ mã hóa HEVC 14

1.2.2 Các kỹ thuật mã hóa video HEVC 17

1.2.2.1 Biểu diễn lấy mẫu ảnh 17

1.2.2.2 Phân chia hình ảnh thành đơn vị cây mã hóa 17

1.2.2.3 Phân chia CTB thành CB 17

1.2.2.4 Khối dự đoán (PB) và đơn vị dự đoán (PU) 17

1.2.2.5 Phân chia cây cấu trúc thành các đơn vị biến đổi và các khối biến đổi 19

1.2.2.6 Mảng (Slice) và Tile 20

1.2.2.7 Dự đoán trong ảnh 21

1.2.3 Kết luận chương 23

CHƯƠNG 2 24

2.1 Tổng quan về mã hóa video phân tán DVC 24

2.2 Định lý Slepian-Wolf 25

2.3 Định lý Winer-Ziv 26

2.4 Các mô hình thực nghiệm của kỹ thuật mã hóa video phân tán 27

2.4.1 Giải pháp Stanford 27

2.4.2 Giải pháp PRISM 30

2.5 Kết luận chương 32

CHƯƠNG 3 33

Trang 5

5

3.1 Mô hình tạp âm tương quan trong mã hóa video WZ 33

3.2 Tính toán tham số CNM miền pixel PDWZ 34

3.2.1 Cấu trúc bộ mã hóa WZ miền Pixel 34

3.2.2 Ước lượng tạp âm tương quan ở mức khung (Frame level) 36

3.2.3 Ước lượng tạp âm tương quan ở mức khối (Block level) 37

3.2.4 Ước lượng tạp âm tương quan ở mức pixel (Pixel level) 38

3.3 Tính toán tham số CNM miền biến đổi TDWZ 39

3.3.1 Cấu trúc bộ mã hóa video WZ miền biến đổi 39

3.3.2 Ước lượng tạp âm tương quan ở mức DCT trong khung (DCT band-by-frame level) 39

3.3.3 Ước lượng tạp âm tương quan ở mức hệ số trong khối (Coefficient-by-block level) 41

3.4 Kết luận chương 42

CHƯƠNG 4 43

4.1 Kết quả thực nghiệm 43

4.2 Đánh giá và kết luận 49

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 50

TÀI LIỆU THAM KHẢO 51

Trang 6

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT

Từ viết tắt Nghĩa tiếng Anh Nghĩa tiếng Việt

CNM Correlation Noise Model Mô hình tạp âm tương quan

CPU Central Processing Unit Đơn vị xử lý trung tâm

D

DCT Discrete Cosine Transform Biến đổi Cosine rời rạc

DPB Decoded Picture Buffer Bộ đệm hình ảnh đã giải mã

DRAM Dynamic Random Access

DVC Distributed Video Coding Mã hóa video phân tán

G

GMC Global Motion Compensation Bù chuyển động toàn phần

H

HEVC High Eficiency Video Coding Mã hóa video hiệu suất cao

I

Trang 7

IDCT Inverse Discrete Cosine

M

MCP Motion Compensation Prediction Dự đoán bù chuyển động

MCFI Motion Compensated Frame

PDWZ Pixel Domain Wyner Ziv Wyner Ziv miền pixel

PSNR Peak Signal to Noise Ratio Tỉ lệ tín hiệu đỉnh/ tạp âm

Trang 8

DANH MỤC HÌNH VẼ

Hình 1 1: Minh họa sự sai khác giữa 2 khung liên tiếp trong dãy video 13

Hình 1 2: Sơ đồ khối bộ mã hóa HEVC [12] 14

Hình 1 3: Chế độ chia tách một CB thành PBs 18

Hình 1 4: Chia nhỏ một CTB thành các CB 20

Hình 1 5: Các chế độ và các hướng cho dự đoán hình trong ảnh 21

Hình 2 1: Mô hình mã hóa dự đoán cổ điển 24

Hình 2 2: Sơ đồ mã nguồn phụ thuộc thống kê 25

Hình 2 3: Biểu đồ vùng tỉ lệ tốc độ mã giữa 2 nguồn X, Y 25

Hình 2 4: Mô tả định lý Slepian – Wolf với thông tin phụ 26

Hình 2 5: Mã hóa mất mát thông tin với thông tin phụ ở phần giải mã 26

Hình 2 6: Kiến trúc bộ mã hóa DISCOVER [2] 27

Hình 2 7: Bộ mã hóa PRISM: (a) cấu trúc mã hóa; (b) cấu trúc giải mã 31

Hình 3 1: Cấu trúc bộ mã hóa PDWZ 34

Hình 3 2: Biểu đồ tương đối của phần dư (WZ-SI) cho chuỗi video Foreman ở tần số 30 Hz [11] 35

Hình 3 3: Cấu trúc bộ mã hóa video TDWZ 39

Hình 4 1: Khung mẫu từ các chuỗi video test: (a) Soccer (frame 1); (b) Foreman (frame 1); (c) Coastguard (frame 1); (d) Hallmonitor (frame 1) 43

Hình 4 2: Hiệu năng PSNR ứng với các tốc độ Rate khác nhau thực hiện trên chuỗi Foreman 45

Hình 4 3: Hiệu năng PSNR ứng với các tốc độ Rate khác nhau thực hiện trên chuỗi Soccer 46

Hình 4 4: Hiệu năng PSNR ứng với các tốc độ Rate khác nhau thực hiện trên chuỗi Coastguard 46

Hình 4 5: Hiệu năng PSNR ứng với các tốc độ Rate khác nhau thực hiện trên Hallmonitor 47

Trang 9

DANH MỤC BẢNG BIỂU

Bảng 1 1: Phân loại, ý nghĩa và các lớp kiểu đơn vị NAL 16

Bảng 4 1: Hiệu năng PSNR ứng với các tốc độ Rate khác nhau thực hiện trên chuỗi Foreman 45Bảng 4 2: Hiệu năng PSNR ứng với các tốc độ Rate khác nhau thực hiện trên chuỗi Soccer 46Bảng 4 3: Hiệu năng PSNR ứng với các tốc độ Rate khác nhau thực hiện trên chuỗi 47Bảng 4 4: Hiệu năng PSNR ứng với các tốc độ Rate khác nhau thực hiện trên chuỗi Hallmonitor 47Bảng 4 5: Bảng tổng hợp hiệu năng PSNR ứng với các tốc độ Rate khác nhau thực hiện trên các chuỗi test video và các giá trị QPs được thiết lập khác nhau 48Bảng 4 6: Bảng tổng hợp thời gian mô phỏng quá trình mã hóa và giải mã khung WZ thực hiện trên các chuỗi test video với các giá trị QPs khác nhau 48

Trang 10

PHẦN MỞ ĐẦU

1 Lý do chọn đề tài

Hiện nay, với công nghệ phát triển, việc chia sẻ video trên mạng đã trở nên hết sức phổ biến, nhu cầu sử dụng dữ liệu video được dự đoán sẽ tăng trưởng ngày càng mạnh mẽ Lưu lượng truy cập video trên thiết bị di động được dự báo sẽ tăng khoảng 50% mỗi năm cho đến năm 2022, chiếm gần 3/4 tổng lưu lượng dữ liệu di động Ngoài

ra, việc sử dụng video nhúng trong phương tiện truyền thông xã hội và các trang web tiếp tục phát triển, được thúc đẩy bởi màn hình thiết bị lớn hơn, độ phân giải cao hơn và các nền tảng mới hỗ trợ phát trực tiếp Video nhúng trong phương tiện truyền thông xã hội và các trang web được tính là lưu lượng video Giá trị trung bình từ các phép đo trong một số mạng HSPA và LTE thương mại được chọn ở Châu Mỹ, Châu Á và Châu

Âu cho thấy, bất kể loại thiết bị nào, video là đóng góp lớn nhất cho lưu lượng truy cập Tuy nhiên, có một sự khác biệt lớn giữa các mạng

Nhưng dữ liệu video thường là những dữ liệu có dung lượng lớn, ví dụ truyền hình có độ phân giải cao HDTV không nén thì tốc độ lên tới 1,5Gbps, để truyền tải là rất khó Do vậy, các phương pháp để tăng hiệu năng nén video vẫn là vấn đề được quan tâm nghiên cứu, phát triển Trong các ứng dụng mã hóa video thông thường, ví dụ: phát sóng hoặc truyền phát video, bộ giải mã video dựa trên sự mạnh mẽ bù chuyển động dựa trên khối lai và biến đổi DCT kiến trúc chủ yếu được điều khiển bởi một-nhiều mô hình với một bộ mã hóa phức tạp duy nhất và nhiều ánh sáng bộ giải mã Gánh nặng phức tạp của bộ mã hóa (đó là thông thường cao hơn 5 lần 10 lần so với bộ giải mã) liên kết với nhiệm vụ ước tính chuyển động, chủ yếu chịu trách nhiệm về hiệu suất biến dạng tốc độ cao (RD) đạt được Tuy nhiên, kiến trúc này đang bị thách thức bởi một số ứng dụng mới nổi như giám sát video không dây, mạng cảm biến đa phương tiện, camera

PC không dây, và camera điện thoại di động Những ứng dụng này có khác nhau yêu cầu từ những mục tiêu của video truyền thống hơn hệ thống phân phối, ví dụ: trong các

hệ thống giám sát video không dây, bộ mã hóa chi phí thấp hoặc codec, cho phép phân

bổ linh hoạt độ phức tạp giữa bộ mã hóa và bộ giải mã rất quan trọng vì có rất nhiều bộ

mã hóa và chỉ một hoặc vài bộ giải mã Yêu cầu đặt ra là phát triển mô hình mã hóa thế

Trang 11

nào để đơn giản phần mã hóa mà vẫn không làm tổn thất đáng kể về hiệu suất nén so với các mô hình truyền thống Trong nỗ lực đưa ra câu trả lời cho nhu cầu mã hóa video đáp ứng nhu cầu thực tiễn này này, một mô hình mã hóa video mới được nghiên cứu, đã

và đang được phát triền hiện nay đó là mô hình mã hóa video phân tán DVC (Distributed Video Coding)

2 Mục đích nghiên cứu

Luận văn tập trung tìm hiểu và nghiên cứu mô hình tạp âm tương quan và phương pháp tính toán tham số cho mô hình này để đạt hiệu quả nén mong muốn trong mô hình

mã hóa video phân tán DVC có sử dụng mã hóa intra HEVC cho các khung chính

3 Cấu trúc luận văn

- Phần mở đầu

- Phần nội dung:

o Chương 1: Giới thiệu tổng quan về mã hóa video

o Chương 2: Tổng quan về mã hóa video phân tán DVC

o Chương 3: Mô hình tạp âm tương quan CNM trong bộ mã hóa DVC

o Chương 4: Kết quả thực nghiệm và đánh giá

- Kết luận và hướng phát triển

Trang 12

PHẦN NỘI DUNG CHƯƠNG 1

GIỚI THIỆU TỔNG QUAN VỀ MÃ HÓA VIDEO

1.1 Đặt vấn đề

Ngày nay, công nghệ mã hóa video đã và đang được sử dụng rất phổ biến, từ các ứng dụng truyền thống như truyền hình quảng bá, truyền hình hội nghị đến các ứng dụng mới xuất hiện như mạng cảm biến (sensor), mạng giám sát từ xa Trong đó, các ứng dụng mới như mô hình mạng video giám sát giao thông, camera an ninh lắp đặt trong các nhà hàng, bệnh viện… Những hệ thống này có đòi hỏi hoàn toàn khác so với hệ thống truyền hình quảng bá là yêu cầu phần phát đơn giản, gọn nhẹ, rẻ tiền trong khi phần phức tạp có thể chuyển về bộ xử lý trung tâm ở phía thu, nơi sẽ được đầu tư thiết

bị tập trung và hiện đại hơn Do đó các chuẩn mã hóa video truyền thống sẽ không còn phù hợp nữa

Yêu cầu đặt ra là phát triển mô hình mã hóa thế nào để đơn giản phần mã hóa mà vẫn không làm tổn thất đáng kể về hiệu suất nén so với các mô hình truyền thống Trong

nỗ lực đưa ra câu trả lời cho nhu cầu mã hóa video đáp ứng nhu cầu thực tiễn này này, một mô hình mã hóa video mới được nghiên cứu, đã và đang được phát triền hiện nay

đó là mô hình mã hóa video phân tán DVC (Distributed Video Coding)

1.2 Tổng quan về mã hóa video dự đoán HEVC

Video là một chuỗi các bức ảnh liên tiếp cùng mô tả một nội dung và chứa đựng một thông tin, câu chuyện xuyên suốt nào đó Do vậy, giữa các bức ảnh liên tiếp trong video luôn tồn tại các mối tương quan lớn như được mô tả ở hình 1.1

Trang 13

Hình 1 1: Minh họa sự sai khác giữa 2 khung liên tiếp trong dãy video

Nhìn vào 2 khung hình trên (trong chuỗi khung liên tiếp của video), ta có thể thấy

sự khác biệt căn bản nẳm ở vị trí ô tô, do chuyển động, nên:

Khi mã hóa hiệu 2 khung hình (theo pixel tương ứng) thì chỉ cần dùng một lượng bít ít hơn so với việc mã hóa toàn bộ thông tin trong ảnh thực tế

Nếu có cách dự đoán khung 2 từ khung 1 để có sự sai khác giữa khung 2 và khung

dự đoán thì mã hóa còn có thể tốn ít bít mã hơn Điều này là khả thi nếu có kỹ thuật dự đoán tốt Tuy nhiên giá phải trả cho dự đoán tốt, như sẽ nói ở mục sau chính là sự gia tăng độ phức tạp tính toán tại phía mã hóa

(1995)

H.264 (AVC)

(2004)

SVC (H.264-G)

(2007)

HEVC (H.265)

ISO/IEC MPEG

Hình 1 2: Lịch sử phát triển các chuẩn nén

Trang 14

1.2.1 Kiến trúc tổng quát của bộ mã hóa HEVC

Các thành phần chính:

- Cấu trúc đơn vị mã hóa: Một trong những đặc trưng khác biệt nhất của chuẩn H.265/HEVC so với các chuẩn trước đó như H.264/AVC hoặc MPEG-4/Video chính là chác cấu trúc lại các đơn vị mã hóa Trong chuẩn H.264/AVC, đơn vị mã hóa cơ bản là các khối lớn (Macroblock) với kích

cỡ tối đa là 16×16 Trong khi đó, chuẩn H.265/HEVC chia các khối mã hóa theo cấu trúc cây (coding tree block) với kích cỡ đa dạng hơn từ 4×4 tới 64×64 Cấu trúc này đảm bảo hiệu quả nén tốt hơn so với chuẩn H.264/AVC khi các video với kích cỡ lớn như HD, 2K hay 4K được sử dụng

Điều khiển mã hóa

Biến đổi, chia tỷ lệ và lượng

tử hóa

Mã hóa Entropy CABAC

Chia tỷ lệ và biến đổi ngược

Lọc in-loop

Dự đoán trong ảnh

Dự đoán liên ảnh

Ước lượng chuyển động

Mã hóa tứ phân với Khối mã hóa CB

Chia thành các khối cây mã hóa CTB

Tín hiệu video đầu vào

Phần dư với khối biến đổi TB

Bộ đệm hình ảnh đã mã hóa

Hình 1 3: Sơ đồ khối bộ mã hóa HEVC [12]

- Cấu trúc đơn vị dự đoán và đơn vị biến đổi: Mỗi đơn vị khối mô tả ở phía trên được phân chia thành hai cấu trúc tương ứng với hai thành phần chính của chuẩn mã hóa H.265/HEVC; đó là cấu trúc đơn vị dự đoán và cấu trúc đơn vị biến đổi Đơn vị dự đoán (coding unit) cho phép khối mã hóa có

Trang 15

kích cỡ nhỏ nhất là 8×8 đối với thành phần xám (luma) và 4×4 với thành phần màu (chroma) Trong khi đó, đơn vị biến đổi cô sin rời rạc có kích

cỡ đa dạng hơn bao gồm 4×4, 8×8, 16×16, 32×32

- Phương pháp dự đoán chuyển động nối vùng (merge mode): Đây là một phương pháp dự đoán mới xuất hiện trong chuẩn H.265/HEVC Phương pháp này kế thừa có hiệu quả phương pháp dự đoán bỏ qua và dự đoán trực tiếp trong chuẩn H.264/AVC mô tả ở trên Trong đó có 2 sự khác biệt chính là việc gửi thông tin về véc tơ chuyển động được lựa chọn và thông tin về khung tham khảo được sử dụng

- Dự đoán ảnh trong khung: H.265/HEVC hỗ trợ tới 35 mode dự đoán (so với 9 mode trong H.264/AVC) Ngoài ra, khối dự đoán trong khung có thể được tạo ra với hai loại khối, N×N và 2N×2N

- Dự đoán ảnh liên khung: Dự đoán ảnh liên khung trong chuẩn H.265/HEVC cũng cho phép hỗ trợ dự đoán véc tơ chuyển động với độ chính xác lên tới ¼ điểm ảnh (sub-pel) Các giá trị tại vị trí sub-pel được nội suy dựa trên hai bô lọc với 7 hoặc 8 tham số cấu hình Các khối hình

sử dụng trong dự đoán ảnh liên khung cũng đa dạng, có thể đối xứng hoặc không đối xứng, ví dụ: 2N×2N, 2N×N, N×2N, N×N, 2N×nD, nL×2N

- Bù chuyển động: Cụ thể, ảnh được chia thành các CTU, mỗi CTU bao gồm các CTB chói và các CTB màu Một CTB có kích thước là LxL ( L=

16, 32, hoặc 64), trong đó các kích thước lớn hơn cho phép nén tốt hơn HEVC hỗ trợ việc phân chia các CTB thành các khối nhỏ hơn sử dụng cấu trúc cây và tín hiệu hóa cây tứ phân

- Mã hóa Entropy: Khác với H.264/AVC, chuẩn H.265/HEVC chỉ cho phép người dùng sử dụng mã CABAC; mục đích là tăng tối đa hiệu quả nén chuẩn H.265/HEVC

- Bộ lọc giảm nhiễu khối: Một chút thay đổi, nâng cấp được đề xuất để giảm nhiễu khối trong chuẩn H.265/HEVC

- Bộ lọc giảm nhiễu vòng: Đây là thành phần mới trong chuẩn H.265/HEVC so với các chuẩn trước kia như H.264/AVC, MPEG 2,4,… Mục đích chính là giảm nhiễu vòng xuất hiện trong mộ số khung hình xuất hiện do việc loại bỏ thành phân tần số cao ở khối lượng tử tuyến tính

Trang 16

- Cú pháp mức-cao của HEVC chứa nhiều yếu tố thừa hưởng từ NAL của H.264 / MPEG-4 AVC NAL cung cấp khả năng ánh xạ dữ liệu lớp mã hóa video (VCL) mà nó thể hiện nội dung của các ảnh lên các lớp vận chuyển khác nhau, bao gồm các hệ thống RTP / IP, ISO MP4, và H.222.0 / MPEG-2, và cung cấp một khuôn khổ cho khả năng phục hồi mất mát dữ liệu Đối với các khái niệm chung của thiết kế NAL như các đơn vị NAL, các bộ tham số, các đơn vị truy cập, định dạng dòng byte, và việc định dạng đóng gói.[10]

Các đơn vị NAL được phân loại thành các đơn vị VCL NAL và VCL NAL tương ứng với việc chúng có chứa ảnh được mã hóa hoặc dữ liệu có liên quan Trong chuẩn HEVC, một số loại đơn vị VLC NAL xác định các loại ảnh cho mục đích khởi tạo bộ giải mã và truy cập ngẫu nhiên Bảng 1.1 liệt kê các loại đơn vị NAL và ý nghĩa liên quan và các lớp kiểu trong chuẩn HEVC

không-Bảng 1 1: Phân loại, ý nghĩa và các lớp kiểu đơn vị NAL

0, 1 Phân đoạn mảng của ảnh kế tiếp thông

thường

VCL

Trang 17

39, 40 SEI messages non-VCL

48-63 Không xác định (có thể sử dụng hệ thống) non-VCL

1.2.2 Các kỹ thuật mã hóa video HEVC

1.2.2.1 Biểu diễn lấy mẫu ảnh

Để biểu diễn các tín hiệu video màu , HEVC sử dụng một không gian 3 màu

cơ bản YCbCr với lấy mẫu 4: 2: 0 Các ảnh video lấy mẫu tăng lên với kích thước ảnh hình chữ nhật WxH, trong đó W là chiều rộng và H là chiều cao của ảnh theo quan điểm lấy mẫu chói, còn với lấy mẫu màu 4: 2: 0 sẽ là W/2xH /2

1.2.2.2 Phân chia hình ảnh thành đơn vị cây mã hóa

Một ảnh được phân chia thành các đơn vị mã hóa cây (CTU), mỗi CTU chứa các khối cây mã hóa (CTB) chói và CTB màu Một CTB chói lấy mẫu LxL cho các thành phần chói và lấy mẫu L /2 x L/2 cho mỗi một trong hai thành phần màu L=16,

32, hoặc 64 được xác định bởi một yếu tố cú pháp mã hóa được quy định trong SPS

1.2.2.3 Phân chia CTB thành CB

Các khối CTB chói và màu có thể được sử dụng trực tiếp như các khối mã hóa (CB) hoặc có thể phân chia tiếp thành nhiều CB Việc phân chia được thực hiện bằng cách sử dụng cấu trúc cây Việc phân chia cấu trúc cây trong HEVC thường được áp dụng đồng thời cho cả khối chói và màu, mặc dù các ngoại lệ áp dụng khi tiến tới kích thước tối thiểu nhất định

CTU chứa cú pháp cây tứ phân cho phép chia các CB đến một kích thước phù hợp dựa trên các đặc điểm tín hiệu của vùng mà nó được bao phủ bởi các CTB Quá trình chia tách cây tứ phân có thể được lặp đến khi một CB chói đạt đến một kích thước tối thiểu cho phép Kích thước này được chọn bởi bộ mã hóa sử dụng cú pháp trong SPS và luôn là 8x8 hoặc lớn hơn

1.2.2.4 Khối dự đoán (PB) và đơn vị dự đoán (PU)

Chế độ dự đoán cho CU là được báo hiệu là trong ảnh hay liên ảnh, tùy vào việc nó sử dụng dự đoán trong ảnh (theo không gian) hoặc dự đoán liên ảnh (theo thời gian)

Trang 18

Khi chế độ dự đoán được báo hiệu là trong ảnh, kích thước PB là kích thước khối tại nơi dự đoán trong ảnh được tạo sẵn có cùng kích thước với CB cho tất cả các kích thước khối ngoại trừ kích thước CB nhỏ nhất Đối với các trường hợp sau đó, một cờ xuất hiện cho biết CB được chia thành bốn phần PB mà mỗi phần đều có dự đoán trong ảnh riêng Lý do của việc cho phép chia tách này là tạo khả năng lựa chọn

dự đoán trong ảnh cho các khối nhỏ 4x 4 Khi dự đoán trong ảnh thành phần chói hoạt động với các khối 4x4, dự đoán trong ảnh thành phần màu cũng sử dụng các khối 4x4 (4 khối thành phần chói 4x 4) Kích thước vùng hiện tại có dự đoán trong ảnh ( nó là khác so với kích thước PB có dự đoán trong ảnh được tạo sẵn) phụ thuộc vào việc phân chia mã hóa dư thừa được mô tả như sau

sẽ có 6 kiểu chia tách Các khả năng phân chia cho CB dự đoán liên ảnh được mô tả trong hình 1.4

Bốn loại phân chia cao hơn minh họa cho trường hợp chia tách CB thành kích thước Mx M, chia tách CB thành hai PB kích thước Mx M/2 hoặc M/2xM hoặc chia tách nó thành bốn PB có kích thước M/2xM/2 4 loại phân chia thấp hơn được gọi là phân chia chuyển động bất đối xứng (AMP - asymmetric motion partitioning ), và chỉ được phép khi M ≥ 16, đối với thành phần chói Một PB của phân chia bất đối xứng

Trang 19

có chiều cao hoặc chiều rộng là M/4 và chiều rộng hoặc chiều cao là M và các PB khác lấp đầy phần còn lại của CB bởi một chiều cao hoặc chiều rộng của 3M/4 và chiều rộng hoặc chiều cao M Mỗi PB dự đoán liên ảnh được gán một hoặc hai vectơ chuyển động và các chỉ số ảnh tham chiếu Để tối thiểu băng thông bộ nhớ trường hợp xấu nhất, các PB của thành phần chói 4x4 là không được phép cho dự đoán liên ảnh,

và các PB của thành phần chói 4x8 và 8x4 được giới hạn cho mã hóa dự đoán đơn Các PB thành phần chói và màu kết hợp với cú pháp dự đoán tạo thành PU

1.2.2.5 Phân chia cây cấu trúc thành các đơn vị biến đổi và các khối biến đổi

Đối với mã hóa dư thừa, một CB có thể được phân vùng 1 cách đệ quy thành các khối biến đổi (TB) Việc phân chia được báo hiệu bằng một cây tứ phân dư thừa

Phân chia CB và TB, nơi mà một khối có thể được chia 1 cách đệ quy thành các góc phần tư, như minh họa trong hình 1.5 Đối với một CB thành phần chói MxM, một cờ báo hiệu có được chia thành bốn khối có kích thước M/2xM/2 không Độ sâu tối đa của cây tứ phân dư thừa trong SPS sẽ báo hiệu cho việc có chia tách thêm nữa không Mỗi góc phần tư có một cờ chỉ định việc nó có được chia thành bốn góc phần

tư không Các khối nút lá từ cây tứ phân dư thừa là các khối biến đổi được xử lý tiếp bằng mã hóa biến đổi Các bộ mã hóa chỉ ra kích thước TB thành phần chói tối thiểu

và tối đa mà nó sẽ sử dụng Việc chia tách là ngầm mặc định khi kích thước CB lớn hơn so với kích thước TB tối đa Và việc không chia tách là ngầm mặc định khi chia tách sẽ cho kết quả là kích thước TB thành phần chói nhỏ hơn kích thước tối thiểu Kích thước TB thành phần màu bằng một nửa kích thước TB thành phần chói ở mỗi chiều, ngoại trừ trường hơp kích thước TB chói là 4x4, trong đó trường hợp đó, một

TB màu 4x4 duy nhất được bao phủ bởi bốn TB chói 4x4 Trong trường hợp các CU

dự đoán trong ảnh, các mẫu được giải mã của các TB lân cận gần nhất(trong hoặc ngoài CB) được sử dụng như là dữ liệu tham chiếu cho dự đoán trong ảnh

Trang 20

Mảng I: tất cả CU của mảng được mã hóa chỉ sử dụng dự đoán trong ảnh Mảng P: Ngoài các loại mã hóa của mảng I, một số CU của mảng P cũng có thể được mã hóa bằng dự đoán liên ảnh với nhiều nhất một tín hiệu dự đoán bù chuyển động cho mỗi PB ( dự đoán đơn) Mảng P chỉ sử dụng danh sách 0 ảnh tham chiếu

Mảng B: Bên cạnh các loại mã hóa có sẵn trong một mảng P, một số CU của mảng B cũng có thể được mã hóa bằng dự đoán liên ảnh với nhiều nhất hai tín hiệu

dự đoán bù chuyển động cho mỗi PB (dự đoán đôi ) Mảng B sử dụng cả hai danh sách 0 và 1 ảnh tham chiếu

Mục đích chính của các mảng là đồng bộ lại sau khi dữ liệu mất Hơn nữa, các mảng thường được hạn chế để sử dụng số bit tối đa Vì vậy, các mảng thường có thể chứa số CTU thay đổi mức độ cao/mảng

Tile là các vùng hình chữ nhật của ảnh có khả năng giải mã độc lập Mục đích chính của tile là cho phép sử dụng các kiến trúc xử lý song song đối với mã hóa và giải mã Nhiều tile có thể chia sẻ thông tin tiêu đề được chứa trong cùng mảng

Trang 21

1.2.2.7 Dự đoán trong ảnh

Dự đoán trong ảnh hoạt động theo kích thước TB, và các mẫu biên giải mã trước đó từ những TB lân cận về mặt không gian được sử dụng để tạo ra tín hiệu dự đoán Dự đoán trong ảnh hỗ trợ 33 hướng khác nhau với các kích thước TB từ 4x4 đến 32x32 Các hướng dự đoán được thể hiện trong hình 1.6 Ngoài ra dự đoán mặt phẳng và dự đoán DC cũng có thể được sử dụng Đối với thành phần màu, chế độ dự đoán ngang, dọc, mặt phẳng và DC có thể được báo hiệu một cách rõ ràng, hoặc chế

độ dự đoán thành phần màu được chỉ định giống các chế độ dự đoán thành phần chói

Hình 1 6: Các chế độ và các hướng cho dự đoán hình trong ảnh

Mỗi CB được mã hóa bằng một trong những loại mã hóa, tùy thuộc vào loại mảng Tương tự như H.264 / MPEG-4 AVC, mã hóa dự đoán trong ảnh được hỗ trợ trong tất cả các loại mảng HEVC hỗ trợ các phương pháp mã hóa dự đoán trong ảnh khác nhau gọi là Intra_Angular, Intra_Planar, and Intra−DC

a) Phân chia khối dự đoán

Một CB dự đoán trong ảnh có kích thước MxM có thể có một trong hai loại phân chia PB gọi là PART_2Nx2N và PART_NxN, loại đầu tiên chỉ ra rằng các CB không phân chia và loại thứ hai chỉ ra rằng CB được chia thành bốn PB kích thước bằng nhau (N = M / 2) Tuy nhiên, nó có khả năng biểu diễn các vùng tương tự mà

có thể được xác định bởi bốn PB bằng cách sử dụng bốn CB nhỏ hơn khi kích thước của các CB hiện tại lớn hơn so với kích thước CU tối thiểu Vì vậy, HEVC chỉ cho

Trang 22

phép kiểu phân chia PART_NxN được sử dụng khi kích thước CB hiện tại bằng với kích thước CU tối thiểu Điều này có nghĩa rằng kích thước PB luôn bằng với kích thước CB khi CB được mã hóa bằng chế độ dự đoán trong ảnh và kích thước CB là không bằng với kích thước CU tối thiểu Dù chế độ dự đoán trong ảnh ở mức PB, nhưng các quá trình dự đoán thực tại lại hoạt động riêng biệt cho từng TB

b) Dự đoán Intra_Angular

Dự đoán trong ảnh miền không gian trước đây đã được sử dụng trong H.264 /MPEG-4 AVC Dự đoán trong ảnh của HEVC hoạt động tương tự trong miền không gian, nhưng được mở rộng đáng kể, do kích thước của TB tăng và số lượng các hướng

-dự đoán tăng So với tám hướng -dự đoán của H.264/MPEG-4 AVC, HEVC hỗ trợ 33 hướng dự báo, ký hiệu là Intra_Angular[k], k là số chế độ, k=2 34 Các góc được thiết kế để cung cấp phạm vi dày hơn cho góc gần chiều ngang và gần thẳng đứng và phạm vi kém hơn cho góc gần đường chéo để phản ánh sự phổ biến thống kê quan sát được các góc và tính hiệu quả của việc xử lý dự đoán tín hiệu

Khi sử dụng một chế độ Intra_Angular, mỗi TB được dự đoán là có hướng từ các mẫu lân cận theo không gian đã được tái tạo lại (nhưng chưa được lọc bởi bộ lọc trong vòng) trước khi được sử dụng cho dự đoán này Đối với một TB có kích thước

N x N, tổng 4N + 1 mẫu lân cận theo không gian được sử dụng để dự đoán Khi hoạt động giải mã là có trước, các mẫu từ các TB phía dưới bên trái được sử dụng để dự đoán trong HEVC bên cạnh các mẫu từ các TB ở bên trái, phía trên, và phía trên bên phải của TB hiện tại

Quá trình dự đoán của chế độ Intra_Angular có thể liên quan đến mẫu ngoại suy từ vị trí mẫu tham chiếu dự đoán theo một hướng đã cho Để loại bỏ sự chuyển đổi mẫu-theo-mẫu giữa các bộ đệm hàng và cột tham chiếu, cho Intra_Angular [k] với

k = 2 17, các mẫu nằm ở hàng trên được dự tính như mẫu bổ sung nằm ở cột bên trái; và với k = 18 34, các mẫu ở cột bên trái được dự tính nằm cùng với các mẫu hàng trên

Để cải thiện tính chính xác dự đoán trong ảnh, vị trí mẫu tham chiếu dự tính được tính toán với độ chính xác 1/32 mẫu Phép nội suy song tuyến tính được sử dụng

để có giá trị của mẫu tham chiếu dự tính sử dụng hai mẫu tham chiếu gần nhất nằm ở

vị trí số nguyên

Trang 23

c) Dự đoán Intra-Planar và Intra-DC

Bên cạnh dự đoán Intra_Angular nhắm tới các vùng với các biên có hướng mạnh mẽ, HEVC hỗ trợ hai phương pháp dự đoán khác, Intra_Planar và Intra_DC, 2 chế độ tương tự được quy định trong H.264 / MPEG-4 AVC Trong khi dự đoán Intra_DC sử dụng giá trị trung bình của các mẫu tham chiếu cho các dự đoán, giá trị trung bình của hai dự đoán tuyến tính sử dụng bốn mẫu tham chiếu góc được sử dụng trong dự đoán Intra_Planar để ngăn chặn sự gián đoạn dọc theo biên khối Các chế độ

dự đoán Intra_Planar được hỗ trợ ở tất cả các kích thước khối trong HEVC, trong khi H.264 / MPEG-4 AVC hỗ trợ dự đoán mặt phẳng chỉ khi PB thành phần chói là 16x16,

và dự đoán mặt phẳng hoạt động hơi khác so với dự đoán mặt phẳng trong HEVC

1.2.3 Kết luận chương

Trong chương 1, luận văn đã tìm hiểu lịch sử phát triển các chuẩn nén, sự ra đời của chuẩn nén tiên tiến H.265/HEVC, và phân tích một số kỹ thuật mã hóa trong chuẩn nén H.265 để thấy được các đặc điểm chung nhất và những cải tiến của chuẩn nén mới so với chuẩn nén cũ, từ đó đem lại chất lượng mã hóa tốt hơn

Vì vậy, luận văn cũng sẽ áp dụng chuẩn nén H.265/HEVC Intra trong mô hình

mã hóa video phân tán được đề cập chi tiết trong Chương 2

Trang 24

Giải mã liên kết

Mã hóa liên kết

CHƯƠNG 2

TỔNG QUAN VỀ MÃ HÓA VIDEO PHÂN TÁN DVC

2.1 Tổng quan về mã hóa video phân tán DVC

Lý thuyết thông tin đã chứng minh được rằng:

- Với các nguồn độc lập thì tốc độ tối thiểu để mã và giải mã không lỗi chính

là entropy của nguồn, ví dụ 2 nguồn độc lập X và Y thì tốc độ tối thiểu mã là: H(X), H(Y)

- Với 2 nguồn thống kê phụ thuộc, ví dụ X và Y có tương quan thì tốc độ tối thiểu để mã hóa mã và khôi phụ không lỗi là H(X,Y)

Vì H(X) + H(Y) ≥ H(X,Y) = H(X) + H(Y|X) = H(Y) + H(X|Y) (2.1) Điều này có nghĩa là nếu khai thác được đặc tính phụ thuộc của 2 nguồn sẽ cho phép giảm tốc độ mã hóa đến entropy liên kết

Hai nguồn thông tin phụ thuộc (có tương quan cao) này thực tế có thể là các khung liên tiếp của cùng 1 chuỗi video Mã liên kết 2 khung hình video liên tiếp có thể

là mã một khung (H(X)) rồi mã tiếp dự đoán của Y dựa trên thông tin về X (H(Y|X)) như công thức (2.1)

Tuy nhiên để có H(Y|X) nhỏ nhất, cần tìm vector dự đoán có xác suất cao nhất điều này dẫn đến việc dò tìm phức tạp trong kiểu mã hóa liên kết của kỹ thuật mã hóa truyền thống

Rx ≥ H(X) Ry ≥ H(Y) Rx,y=Rx+Ry ≥ H(X,Y)

Hình 2 1: Mô hình mã hóa dự đoán cổ điển

Trang 25

2.2 Định lý Slepian-Wolf

Định lý này không đổi hỏi phải trực tiếp mã liên kết theo H(X,Y) như nói ở trên

mà có thể mã 2 nguồn phụ thuộc một cách độc lập mà vẫn khai thác đặc tính phụ thuộc tức là không làm mất mát hiệu suất nén, song vẫn phải giải mã liên kết Điều này cho xác suất khôi phục có lỗi tiến đến 0

Tuy nhiên mã độc lập phải thỏa mã 3 điều kiện (bất đẳng thức) sau:

Hình 2 3: Biểu đồ vùng tỉ lệ tốc độ mã giữa 2 nguồn X, Y

Việc thực hiện định lý Slepian-Wolf có thể qua kỹ thuật mã kênh:

Coi X như một phiên bản lỗi của Y (như đi qua kênh truyền) Trong mã kênh để hiệu chỉnh lỗi giải pháp là chèn thêm các bít chẵn lẻ (Parity bits) nhằm tăng thêm khoảng

Mã hóa nguồn X

Mã hóa nguồn Y

Có xác suất xảy ra lỗi

Mã hóa phân phối, đồng giải mã

Trang 26

cách giữa các từ mã lớn hơn 2 lần khoảng cách lỗi

Khi đó nếu bên giải mã truy cập Y như thông tin lề (từ khung trước), bên mã hóa

sẽ mã X bằng các bít chẵn lẻ (tạo nên các tập Coset mà X thuộc về một trong các tập Coset) và gửi các bít chẵn lẻ này đến bên thu, sau đó dựa vào Y có sẵn ở bên thu khôi phục chính xác được X Ở kỹ thuật này càng ít bít chẵn lẻ, hệ số nén càng cao

Hình 2 4: Mô tả định lý Slepian – Wolf với thông tin phụ

2.3 Định lý Winer-Ziv

Đây là sự mở rộng của định lý Slepian-Wolf với mã có mất mát cho các nguồn phụ thuộc có phân phối Gauss, định lý Wyner-Zip xem xét điểm tọa độ: Rx=(X/Y) và Ry=H(Y) với điều kiện Y được biết ở bên giải mã như thông tin phụ, định lý phát biểu rằng: nếu 2 nguồn Gauss phụ thuộc không nhớ X, Y, ở đây Y là thông tin phụ, được mã độc lập với độ méo d xác định (mã có mất mát), thì sẽ không mất hệ số nén so với mã

cổ điển khi mã X và khôi phục X (Hình 2.5)

Nếu thống kê của nguồn không phải là Gauss sẽ có sự tăng thêm tốc độ mã WZ, RWZ so với mã truyền thống Sau này Zamir đã chứng minh sự tăng tốc độ giữa phương pháp WZ và phương pháp truyền thống là nhỏ hơn hoặc bằng 0.5 bit/mẫu

Hình 2 5: Mã hóa mất mát thông tin với thông tin phụ ở phần giải mã

Mã hóa nguồn X

Định dạng
Số trang	52
Dung lượng	1,49 MB