Đánh giá hiệu năng của kỹ thuật mã hóa video hevch.265 truyền hình qua mạng IP (LV thạc sĩ)Đánh giá hiệu năng của kỹ thuật mã hóa video hevch.265 truyền hình qua mạng IP (LV thạc sĩ)Đánh giá hiệu năng của kỹ thuật mã hóa video hevch.265 truyền hình qua mạng IP (LV thạc sĩ)Đánh giá hiệu năng của kỹ thuật mã hóa video hevch.265 truyền hình qua mạng IP (LV thạc sĩ)Đánh giá hiệu năng của kỹ thuật mã hóa video hevch.265 truyền hình qua mạng IP (LV thạc sĩ)Đánh giá hiệu năng của kỹ thuật mã hóa video hevch.265 truyền hình qua mạng IP (LV thạc sĩ)Đánh giá hiệu năng của kỹ thuật mã hóa video hevch.265 truyền hình qua mạng IP (LV thạc sĩ)Đánh giá hiệu năng của kỹ thuật mã hóa video hevch.265 truyền hình qua mạng IP (LV thạc sĩ)Đánh giá hiệu năng của kỹ thuật mã hóa video hevch.265 truyền hình qua mạng IP (LV thạc sĩ)Đánh giá hiệu năng của kỹ thuật mã hóa video hevch.265 truyền hình qua mạng IP (LV thạc sĩ)Đánh giá hiệu năng của kỹ thuật mã hóa video hevch.265 truyền hình qua mạng IP (LV thạc sĩ)Đánh giá hiệu năng của kỹ thuật mã hóa video hevch.265 truyền hình qua mạng IP (LV thạc sĩ)Đánh giá hiệu năng của kỹ thuật mã hóa video hevch.265 truyền hình qua mạng IP (LV thạc sĩ)Đánh giá hiệu năng của kỹ thuật mã hóa video hevch.265 truyền hình qua mạng IP (LV thạc sĩ)Đánh giá hiệu năng của kỹ thuật mã hóa video hevch.265 truyền hình qua mạng IP (LV thạc sĩ)
Trang 1HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Trang 2HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
HÀ NỘI - 2017
Trang 3LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác
Hà Nội, tháng 5 năm 2017 Sinh viên thực hiện
Nguyễn Hữu Bằng
Trang 4MỤC LỤC
LỜI CAM ĐOAN i
MỤC LỤC ii
DANH MỤC THUẬT NGỮ, TỪ VIẾT TẮT iv
DANH MỤC BẢNG BIỂU vi
DANH MỤC HÌNH VẼ vii
MỞ ĐẦU ix
CHƯƠNG 1: KỸ THUẬT MÃ HÓA VIDEO HEVC/H.265 1
1.1 Giới thiệu chung mã hóa video 1
1.1.1 Tổng quan mã hóa video 1
1.1.2 GOP 2
1.1.3 Lớp mạng trừu tượng (NAL) 4
1.2 Chuẩn mã hóa video H.264/AVC 6
1.2.1 Bối cảnh ra đời và sự phát triển 6
1.2.2 Nguyên lý hoạt động cơ bản 6
1.2.3 Các đặc điểm nổi bật 8
1.3 Chuẩn mã hóa video HEVC/H.265 10
1.3.1 Bối cảnh ra đời và sự phát triển 10
1.3.2 Nguyên lý hoạt động cơ bản 11
1.3.3 Các đặc điểm nổi bật 12
1.4 Tổng kết chương 1 27
CHƯƠNG 2: TRUYỀN HÌNH QUA MẠNG IP 28
2.1 Mô hình hệ thống truyền hình qua mạng IP 28
2.1.1 Internet video 28
2.1.2 IPTV 29
Trang 52.1.3 Tình hình phát triển IPTV tại Việt Nam 31
2.2 Mã hóa và giải mã 34
2.3 Ghép kênh 35
2.4 Truyền dẫn qua mạng IP 37
2.4.1 Giao thức giao vận 37
2.4.2 Đóng gói 42
2.4.3 Truyền thông điểm-điểm (unicast) và điểm-đa điểm (multicast) 44
2.5 Một số đặc điểm truyền dẫn qua mạng IP 49
2.5.1 Mất gói 49
2.5.2 Jitter 50
2.5.3 Trễ 51
2.6 Tổng kết chương 2 52
CHƯƠNG 3: ĐÁNH GIÁ HIỆU NĂNG CỦA HEVC/H.265 TRONG KỊCH BẢN TRUYỀN HÌNH QUA MẠNG IP 53
3.1 Giới thiệu chung 53
3.2 Mô hình và kịch bản mô phỏng 54
3.2.1 Kịch bản mô phỏng thứ nhất 54
3.2.2 Kịch bản mô phỏng thứ hai 55
3.3 Kết quả phân tích, đánh giá và khuyến nghị 56
3.3.1 Kết quả phân tích, đánh giá và khuyến nghị của bài mô phỏng thứ nhất 57 3.3.2 Kết quả phân tích, đánh giá và khuyến nghị của bài mô phỏng thứ hai 60 3.4 Tổng kết chương 3 62
KẾT LUẬN VÀ KIẾN NGHỊ 63
DANH MỤC TÀI LIỆU THAM KHẢO 64
Trang 6DANH MỤC THUẬT NGỮ, TỪ VIẾT TẮT
4 DPB Decoded Picture Buffer Bộ đệm hình ảnh giải mã
6 FTTH Fiber to The Home Cáp quang đến hộ gia đình
8 HDTV High-Definition Television Truyền hình độ nét cao
9 HEVC High Efficiency Video
Coding Mã hóa video hiệu suất cao
10 IGMP Internet Group Management
Liên minh Viễn thông Quốc
tế
14 MPEG Moving Picture Experts
17 MTU Maximum Tranmission Unit Đơn vị truyền tải tối đa
18 NAL Network Abstraction Layer Lớp mạng trừu tượng
19 PES Packetized Elementary
20 PIM Protocol-Independent
Multicast
21 PSNR Peak Signal to Noise Ratio Tỉ số tín hiệu trên nhiễu đỉnh
Trang 722 QoE Quality of Experience Chất lượng trải nghiệm
25 RTP Real-time Transport Protocol Giao thức giao vận thời gian
Television Truyền hình độ nét siêu cao
29 xDSL Digital Subcriber Line Kênh thuê bao số
32 WiMAX Worldwide Interoperability
for Microwave Access
Khả năng tương tác toàn cầu với truy nhập vi ba
Trang 9DANH MỤC HÌNH VẼ
Hình 1.1 Cấu trúc GOP phẳng [2] 3
Hình 1.2 Cấu trúc GOP phân cấp không theo cặp [2] 3
Hình 1.3 Cấu trúc GOP phân cấp theo cặp [2] 3
Hình 1.4 Tổng quan về mã hóa H.264/AVC và HEVC [4] 4
Hình 1.5 Cấu trúc tiêu đề NAL [4] 5
Hình 1.6 Sơ đồ mã hóa H.264/AVC [6] 7
Hình 1.7 Sơ đồ giải mã H.264/AVC [6] 8
Hình 1.8 Sơ đồ khối bộ mã hóa/giải mã HEVC [8] 11
Hình 1.9 Sơ đồ khối bộ giải mã [4] 12
Hình 1.10 Chia CTU thành CU theo cấu trúc cây tứ phân [4] 13
Hình 1.11 Chia CU thành các PU [4] 14
Hình 1.12 Chia CTB thành TB và CB theo cấu trúc cây tứ phân [4] 14
Hình 1.13 Đơn vị dự đoán [7] 18
Hình 1.14 Chế độ dự đoán hướng trong HEVC [7] 22
Hình 1.15 Nội suy dự đoán ảnh (theo trục dọc) [7] 22
Hình 1.16 Khái niệm dự đoán liên ảnh [4] 23
Hình 1.17 Dự đoán liên ảnh trong HEVC [4] 24
Hình 1.18 Vị trí ứng viên trong thông tin chuyển động a) Thời gian; b) Không gian [4] 25
Hình 1.19 Xác định các ứng viên AMVP không gian A, B [4] 25
Hình 1.20 Vị trí phân số trong bù chuyển động chói với độ chính xác ¼ điểm ảnh [4] 26
Hình 2.1 Mạng cung cấp Internet Video [9] 29
Hình 2.2 Chuỗi giá trị trong IPTV 30
Hình 2.3 Mô hình mạng IPTV 31
Hình 2.4 Thị phần truyền hình trả tiền tại Việt Nam tính đến tháng 12/2016 32
Hình 2.5 Mô hình cung cấp dịch vụ IPTV trên hạ tầng broadband của VNPT 33
Hình 2.6 Mô hình cung cấp dịch vụ IPTV trên hạ tầng broadband của FPT 33
Hình 2.7 Dòng dữ liệu theo chuẩn MPEG [15] 36
Hình 2.8 Vị trí giao thức lớp giao vận [15] 38
Hình 2.9 Gói tin dài và gói tin ngắn [15] 42
Trang 10Hình 2.10 Mô hình mạng cơ bản thiết kế cung cấp dịch vụ multicast bằng PIM và
IGMP 47
Hình 3.1 Mô hình mô phỏng trong bài đánh giá thứ hai 55
Hình 3.2 Đường cong tỉ lệ giữa HEVC và H.264 trong video 720p 57
Hình 3.3 Đường cong tỉ lệ giữa HEVC và H.264 trong video 1080p 57
Hình 3.4 Đường cong tỉ lệ giữa HEVC và H.264 trong video 4K 58
Hình 3.5 Thời gian nén giữa HEVC và H.264/AVC 58
Hình 3.6 Thời gian giải nén giữa HEVC và H.264/AVC 59
Hình 3.7 Kịch bản mất gói ngẫu nhiên 60
Hình 3.8 Khả năng che giấu lỗi của HEVC và H.264/AVC trong video Sunflower
60
Hình 3.9 Khả năng che giấu lỗi của HEVC và H.264/AVC trong video BlueSky 61
Trang 11MỞ ĐẦU
Với sự bùng nổ của Internet, đặc biệt là Internet băng thông rộng đã làm thay đổi cả nội dung và kỹ thuật truyền hình Hiện tại, phần lớn các nội dung truyền hình chỉ dừng lại ở mức độ nét cao, nhưng trong tương lai độ nét siêu cao sẽ là một xu thế tất yếu Hệ quả của sự phát triển này là sức ép ngày càng lớn lên hạ tầng truyền dẫn
Để giải quyết vấn đề này, chuẩn mã hóa video thế hệ tiếp theo đã được phát triển với tên gọi mã hóa video hiệu suất cao (HEVC/H.265)
Với mục đích đưa những đánh giá khách quan về hiệu năng của kỹ thuật mã hóa video HEVC/H.265 khi truyền hình qua mạng IP, em xin chọn đề tài nghiên cứu
“Đánh giá hiệu năng của kỹ thuật mã hóa video HEVC/H.265 truyền hình qua mạng
IP.”
Tổng quan, luận văn gồm 3 chương:
Chương 1 trình bày về mã hóa video hiệu suất cao HEVC
Chương 2 giới thiệu về truyền hình qua mạng IP
Chương 3 đánh giá hiệu năng của chuẩn mã hóa HEVC trong kịch bản truyền hình qua mạng IP
Sau một thời gian nỗ lực tìm hiểu cùng với sự chỉ bảo tận tình của các thầy cô trong khoa, đặc biệt là thầy TS Vũ Văn San, em đã hoàn thành bài luận văn này Do đây là đề tài còn khá mới và vốn kiến thức bản thân còn hạn chế nên không tránh được các sai sót, kính mong quý thầy cô và các bạn đóng góp ý kiến để bài luận văn này hoàn thiện hơn
Em xin chân thành cảm ơn thầy Vũ Văn San và các thầy cô trong Khoa Quốc tế
và Đào tạo đã tận tình giúp đỡ em trong suốt thời gian qua
Hà Nội, tháng 5 năm 2017
Trang 12
CHƯƠNG 1: KỸ THUẬT MÃ HÓA VIDEO HEVC/H.265
1.1 Giới thiệu chung mã hóa video
1.1.1 Tổng quan mã hóa video
Một tín hiệu video số thường chứa một lượng lớn dữ liệu, do đó sẽ gặp rất nhiều khó khăn trong việc lưu trữ và truyền đi trên băng thông kênh truyền hạn chế
Vì vậy để có thể tiết kiệm không gian lưu trữ và băng thông kênh truyền thì ta cần nén (mã hóa) tín hiệu
Nén video được chia thành hai nhóm: Nén không tổn hao và nén tổn hao
- Nén không tổn hao là quy trình biểu diễn các ký hiệu trong dòng bit nguồn thành dòng các từ mã sao cho ảnh được khôi phục hoàn toàn giống ảnh gốc, các thuật toán chỉ phụ thuộc vào cách thống kê nội dung dữ liệu và thường dựa trên việc thay thế một nhóm các ký tự trùng lặp bởi một nhóm các ký tự đặc biệt khác ngắn hơn mà không quan tâm đến ý nghĩa của dòng bit dữ liệu, nên đòi hỏi phải có thiết bị lưu trữ và đường truyền lớn hơn
- Nén có tổn hao, tức là ảnh được khôi phục không hoàn toàn giống ảnh gốc, dạng nén này thích hợp cho việc lưu trữ và truyền ảnh tĩnh, ảnh video qua một mạng có băng thông hạn chế Các dạng nén này thường có hệ số nén cao hơn (từ 2:1 đến 100:1) và gây nên tổn hao dữ liệu và sự suy giảm ảnh sau khi giải nén do việc xóa và làm tròn dữ liệu trong một khung hay giữa các khung Nó liên quan đến việc dùng các phép biến đổi tín hiệu từ miền này sang miền khác Trong thực tế phương pháp nén tổn hao thường được sử dụng nhiều hơn và các kỹ thuật nén tổn hao thường sử dụng như: mã hóa vi sai, biến đổi Cosin rời rạc DCT, lượng tử vô hướng, quét zig-zag, mã hóa Entropy…
Để đánh giá chất lượng video ta các giá trị cung cấp bởi hệ thống xử lý, và việc suy giảm chất lượng tín hiệu có thể nhìn thấy được (thông thường chúng được
Trang 13so sánh với tín hiệu gốc) Qua hệ thống ta có thể thấy được những thay đổi về hình dạng, việc định chuẩn chất lượng video là rất quan trọng Để đánh giá chất lượng của bức ảnh (hay khung ảnh video) ở đầu ra của bộ mã hóa, ta thường sử dụng các tham số sau để đánh giá:
- Sai số bình phương trung bình – MSE (Mean Square Error) định nghĩa cho
cường độ sai khác giữa ảnh gốc và ảnh dự đoán [1]:
1 1
2 2
MS
at o
E
Trong đó: + N×N kích thước bù chuyển động
+ hệ số C i, j và R i, j tương ứng với mẫu hiện tại và vùng mẫu tham khảo
+ b số lượng bit/ mẫu
Thông thường, nếu PSNR ≥ 40dB thì hệ thống mắt người gần như không
phân biệt được giữa ảnh gốc và ảnh khôi phục, tức là ảnh nén có chất lượng xuất sắc
• Nếu 30 dB PSNR < 33 dB thì chất lượng ảnh nén bình thường, mắt người
có sự phân biệt được
• Nếu PSNR < 30 dB thì chất lượng ảnh nén kém
1.1.2 GOP
Một GOP (nhóm các hình ảnh) xác định thứ tự mà khung hình intra và inter được sắp xếp Một chuỗi video thường gồm các GOP liên tiếp Cấu trúc GOP thường được xác định bằng một số cho biết khoảng cách giữa hai ảnh (I hoặc P) Một cấu trúc GOP điển hình là IBBPBBP, … Với cấu trúc này, các ảnh I có thể được sử dụng
để dự đoán ảnh P đầu tiên và hai ảnh này cũng có thể được sử dụng để dự đoán ảnh
B đầu tiên và thứ 2 Ảnh P thứ hai có thể dự đoán bằng cách sử dụng Ảnh P thứ nhất
Trang 14và nó có thể tham gia dự đoán ảnh B thứ ba và thứ tư Việc lựa chọn kích thước GOP phụ thuộc vào nhiều yếu tố khác như kích cỡ DPB và độ trễ [2]
Trang 15Có rất nhiều cách chọn lựa cấu trúc GOP Cấu trúc GOP phẳng (Hình 1.1) thường không cho hiệu suất nén tốt và được sử dụng trong các bài kiểm tra để so sánh hiệu suất nén và độ phức tạp tính toán Một cấu trúc GOP thứ bậc theo cặp đôi điển hình với 4 mức phân cấp được giới thiệu trong Hình 1.3 Ngoài ra, cấu trúc GOP thứ bậc không phân cặp được minh họa trong Hình 1.2 Trong đó, thẻ màu đỏ thể hiện ảnh I, thẻ màu xanh dương thể hiện ảnh P và thẻ màu xanh lục thể hiện ảnh B
1.1.3 Lớp mạng trừu tượng (NAL)
Lớp mạng trừu tượng là một tính năng thiết yếu, có sẵn trên cả H.264/AVC và HEVC Về cơ bản, đó là một phương pháp chia luồng bit video thành các đơn vị NAL Nhìn chung, HEVC và H.264/AVC có chung một cấu trúc trừ một vài bit tại mào đầu [3]
Hình 1.4 cho thấy một bộ mã hóa và giải mã H.264/AVC và HEVC Ảnh được đưa vào bộ mã hóa để mã hóa các hình này thành một luồng dữ liệu hay luồng bit Một luồng dữ liệu bao gồm một chuỗi các đơn vị dữ liệu được gọi là lớp trừu tượng mạng (NAL), mỗi một đơn vị lại chứa một số nguyên byte Hai byte đầu tiên của một đơn vị NAL cấu thành tiêu đề NAL, trong khi phần còn lại của các đơn vị NAL chứa các dữ liệu tải trọng Một số đơn vị NAL mang một giá trị thiết lập tham số có chứa thông tin điều khiển cho một vùng hoặc toàn bộ hình ảnh
Hình 1.4 Tổng quan về mã hóa H.264/AVC và HEVC [4]
Đơn vị NAL được giải mã bởi bộ giải mã để tạo thành hình ảnh giải mã tại đầu
ra bộ giải mã Cả hai bộ mã hóa và giải mã đều lưu trữ các hình ảnh trong bộ nhớ đệm hình ảnh giải mã (DPB) Bộ đệm này chủ yếu được sử dụng để lưu trữ hình ảnh
Trang 16phục vụ việc dự đoán các hình ảnh sau nó Hình ảnh lưu trữ ở đây được gọi là hình ảnh tham khảo (hay hình ảnh tham chiếu) Giống như AVC, HEVC xây dựng hai danh sách tham khảo L0 và L1 Nó có thể giữ 16 tham khảo mỗi danh sách nhưng giới hạn 8 ảnh khác nhau (phải lặp thêm các hình ảnh) Các bộ mã hóa có thể chọn điều này để có thể dự đoán cùng một hình ảnh với trọng số khác nhau
Đơn vị NAL được chia thành 2 loại – lớp mã hóa video (VCL) và lớp không
mã hóa video (non-VCL) [4] Mỗi đơn vị VCL chứa một phân đoạn slice trong dữ liệu hình ảnh mã hóa Còn các đơn vị non-VCL chứa thông tin điều khiển, thường liên quan đến nhiều hình ảnh được mã hóa Một hình ảnh được mã hóa, cùng với các đơn vị non-VCL (có liên quan đến hình ảnh đó) được gọi là đơn vị truy cập HEVC Một đơn vị truy cập không nhất thiết phải chứa non-VCL Tuy nhiên, trong trường hợp có chứa hình ảnh được mã hóa, nó phải bao gồm một hoặc nhiều đơn vị VCL
Cấu trúc tiêu đề NAL có độ dài 2 byte, dành cho cả VCL và non-VCL Tiêu
đề này được thiết kế để dễ dàng phân tích các thuộc tính chính trong một đơn vị NAL: xác định loại, lớp hoặc phân lớp Các bit đầu tiên của tiêu đề NAL luôn luôn được thiết lập bằng ‘0’ để tránh hiểu nhầm là MPEG-2 Sáu bit tiếp theo chứa các loại đơn
vị NAL – xác định loại dữ liệu được mang trong NAL Như vậy, ở đây sẽ có 64 loại giá trị đơn vị NAL, trong đó có 32 giá trị VCL và 32 giá trị non-VCL Sáu bit tiếp theo chứa một lớp định danh cho biết đơn vị NAL thuộc về lớp nào và dành cho khả năng mở rộng trong tương lai Ba bit cuối cùng của tiêu đề NAL chứa các danh định tạm thời để đại diện cho bảy giá trị và một giá trị cấm
Hình 1.5 Cấu trúc tiêu đề NAL [4]
Trang 171.2 Chuẩn mã hóa video H.264/AVC
1.2.1 Bối cảnh ra đời và sự phát triển
H.264 được chấp thuận bởi tổ chức truyền thông quốc tế ITU-T với tên gọi Recommendation H.264 và bởi tổ chức chuẩn hóa quốc tế (ISO/IEC) với tên gọi International Standard 14496-10 (MPEG-4 part 10) Advanced Video Coding Lần đầu tiên được đề xuất vào năm 1998, nhóm chuyên gia nén video (VCEG – ITU-T SG16 Q.6) kêu gọi đưa ra ý tưởng cho dự án gọi là H.26L, với mục đích tăng gấp đôi
độ hiệu quả nén video so với các chuẩn nén video hiện có áp dụng cho nhiều loại ứng dụng, thiết bị đa dạng Thiết kế dự thảo đầu tiên được phê chuẩn vào tháng 10 năm
1999 Vào tháng 12 năm 2001, VCEG và nhóm chuyên gia về ảnh động (MPEG - ISO/IEC JTC 1/SC 29/WG 11) hợp tác thành nhóm Joint Video Team (JVT), được lập ra để hoàn thành bản dự thảo về chuẩn nén video mới để đệ trình chấp thuận với tên H.264/AVC vào tháng 3 năm 2003 [5]
1.2.2 Nguyên lý hoạt động cơ bản
Ngoại trừ tính năng lọc tách khối, H.264 vẫn bao gồm các khối chức năng cơ bản như các chuẩn mã hóa trước đó như dự đoán, biến đổi, lượng tử hóa và mã hóa entropy Sự thay đổi quan trọng trong H.264 đến từ sự cải tiến chi tiết bên trong cách khối chức năng đó
Hình 1.6 thể hiện quá trình mã hóa H.264 bao gồm hai luồng lưu lượng
“chuyển tiếp” (từ trái sang phải) và “tái cấu trúc” (từ phải sang trái) Hình vẽ giải thích các bước chính trong quá trình mã hóa và giải mã một khung trong một video Thuật ngữ khối để chỉ một phân vùng macroblock (MB) hoặc sub-macroblock (trong
mã hóa liên ảnh) hoặc các mẫu màu của khối 4x4, 16x16 hoặc các mẫu sáng (trong
mã hóa trong ảnh)
Trang 18Bù chuyển động
Lọc tách khối
Chọn kiểu dự đoán intra
+
Dự đoán intra
Biến đổi DCT nguyên Lượng tử Sắp xếp
Mã hóa Entropy
Biến đổi DCT ngược
Giải lượng tử
+ +
-+
Phần dư
Tín hiệu dự đoán Liên ảnh
Nội ảnh
-Hình 1.6 Sơ đồ mã hóa H.264/AVC [6]
Khung đầu vào được xử lý trong các đơn vị của một macroblock (MB) Mỗi
MB có thể được mã hóa trong ảnh hoặc liên ảnh Ảnh đầu tiên hoặc điểm truy nhập ngẫu nhiên sẽ được mã hóa Intra, các ảnh còn lại của dãy dùng dự đoán bù chuyển động từ các ảnh đã mã hóa trước để mã hóa liên ảnh Dữ liệu cần được mã hóa từ các
MB sẽ được đưa đến bộ trừ và bộ dự đoán chuyển động Trong bộ dự đoán chuyển động, các MB được đưa vào với các MB tham khảo để tìm MB có nhiều điểm tương đồng nhất Bộ dự đoán chuyển động sẽ tính toán vector chuyển động, vector này sẽ đặc trưng cho sự dịch chuyển theo cả hai chiều ngang và thẳng đứng của MB mới cần được mã hóa so với khung tham khảo Tại bộ trừ, các sai số tiên đoán được tạo ra dựa vào sự sai khác giữa MB tham khảo và MB cần mã hóa Tín hiệu sai khác này sẽ được biến đổi nguyên để tạo ra tập hệ số biến đổi sau đó được đưa qua bộ lượng tử
để làm giảm số lượng bit cần truyền Đến đây, các hệ số lượng tử được chia làm hai hướng, một hướng sắp xếp lại và đưa vào mã hóa Entropy, hướng còn lại đưa qua bộ giải lượng tử và biến đổi ngược Sau đó, tín hiệu từ khối biến đổi ngược được đưa vào bộ cộng với tín hiệu dự đoán và được lọc tách khối trong vòng nhằm làm giảm hiệu ứng khối tạo thành ảnh cấu trúc lại, được lưu trữ nhằm mục đích ước lượng và
dự đoán chuyển động Dữ liệu tại đầu ra bộ mã hóa Entropy sẽ kết hợp với vector
Trang 19chuyển động và các thông tin khác như thông tin về ảnh I, ảnh P, và ảnh B rồi truyền
ra ngoài kênh truyền dưới dạng dòng bit nén của các đơn vị NAL, gửi tới bộ giải mã
Ảnh trước Bù chuyển động
Dự đoán Intra
Ảnh cấu trúc
lại
Lọc tách khối
Biến đổi ngược
Giải lượng tử
Sắp xếp trật tự
Giải mã entropy +
Hình 1.7 Sơ đồ giải mã H.264/AVC [6]
Đối với quá trình giải mã, bộ giải mã nhận được một luồng bit nén từ NAL
Bộ giải mã sẽ giải mã Entropy để tách thông tin tiêu đề và vector dự đoán chuyển động đưa vào bù chuyển động Ngoài ra, các hệ số DCT được giải lượng tử và biến đổi ngược IDCT để biến tín hiệu từ miền tần số thành tín hiệu ở miền không gian, các
hệ số biến đổi ngược thu được sẽ cộng với tín hiệu dự đoán Sau đó một phần được đưa qua bộ lọc tách khối để loại bỏ hiện tượng nhiễu trước khi đưa vào lưu trữ, phần còn lại được sử dụng cho mục đích dự đoán
1.2.3 Các đặc điểm nổi bật
So với các chuẩn mã hóa video trước đó, H.264/AVC có một số những đặc điểm nổi bật sau:
• Bù chuyển động với kích cỡ khối thay đổi: Tiêu chuẩn này mang lại
sự mềm dẻo cho sự lựa chọn kích thước và hình dạng, kích thước bù chuyển động nhỏ nhất là 4x4 Điều này đã mang lại hiệu suất 15% so với MPEG-2 Bù chuyển động ¼ làm giảm tính phức tạp của xử lý nội suy
so với các tiêu chuẩn trước đó [7]
• Bủ chuyển động chính xác đến một phần tư mẫu: Thiết kế mới cho
phép bù chuyển động chính xác đến một phần tư mẫu, lần đầu được giới
Trang 20thiệu trong MPEG 4 Visual (Part 2), sau đó được cải tiến để giảm sự phức tạp trong việc xử lý nội suy
• Tách riêng hình ảnh tham khảo và hình ảnh hiển thị: ở các tiêu chuẩn
trước có sự phụ thuộc giữa hình tham khảo và hình hiển thị, còn trong H.264/AVC bộ mã hóa có thể chọn hình ảnh để tham khảo gần nhất với hình ảnh được mã hóa cho mục đích tham khảo dự đoán nên có thể hiển thị với tính linh hoạt cao, do đó khoảng thời gian trễ sẽ được loại bỏ
• Dự đoán trọng số: Một tính năng mới trong H.264/AVC cho phép các
tín hiệu dự đoán bù chuyển động có thể được cân đối và bù đắp bằng một giá trị qui định bởi bộ mã hóa H.264/AVC có thể hỗ trợ quá trình mờ dần hay tối dần khung hình trong những đoạn phim có hiệu ứng mờ dần
• Sử dụng bộ lọc tách khối: Trái ngược với bộ tiền xử lý hay bộ hậu xử
lý, bộ lọc tách khối được áp dụng trong suốt quá trình mã hóa trên mọi khung đơn lẻ, nhưng trước đó nó sẽ được sử dụng để tham khảo cho những khung đến sau Cải tiến mới này sẽ giúp tránh được hiện tượng kết khối làm ảnh hưởng đến chất lượng hình ảnh, đặc biệt là với tốc độ bit thấp Nhưng tốc độ mã hóa, giải mã sẽ bị giảm sút
• Dự đoán trong ảnh sử dụng không gian định hướng: hỗ trợ tới 17 kiểu
dự đoán, làm cho việc dự đoán mẫu được chính xác hơn, đạt hiệu quả nén cao hơn [6]
Ngoài ra, H.264/AVC còn có một số đặc tính làm tăng cường khả năng chống sai số và mất dữ liệu như:
• Tham số cấu trúc: tập hợp các tham số nhằm tăng cường cho thông tin
tiêu đề của quá trình truyền được hiệu quả hơn Ở những tiêu chuẩn trước, nếu mất một số thông tin quan trọng như thông tin tiêu đề của chuỗi ảnh
sẽ ảnh hưởng rất lớn đến quá trình giải mã Còn trong H.264/AVC thì các thông tin này được tách riêng tạo tính linh hoạt và chuyên dụng hơn
Trang 21• Cấu trúc cú pháp của NAL: Mỗi cấu trúc cú pháp trong H.264/AVC
được đặt trong gói dữ liệu vật lý gọi là NAL Cấu trúc cú pháp NAL giúp việc chuyên chở nội dung video trở nên dễ dàng hơn, có thể tùy biến một cách thích hợp theo từng môi trường mạng
• Kích cỡ mảnh linh hoạt: H.264/AVC hỗ trợ kỹ thuật sắp xếp thứ tự
mềm dẻo và sắp xếp thứ tự mảnh bất kỳ
• Dữ liệu dư của ảnh: Nhằm tăng cường khả năng chống lỗi, một tính
năng mới trong H.264/AVC cho phép bộ mã hóa gửi đi các thành phần
dư, giúp bộ giải mã tái tạo lại ảnh khi dữ liệu bị mất trong quá trình truyền dẫn
1.3 Chuẩn mã hóa video HEVC/H.265
1.3.1 Bối cảnh ra đời và sự phát triển
Sau thành công trong việc tiêu chuẩn hóa H.264/AVC vào năm 2002 (phiên bản đầu tiên được hoàn thành vào tháng 5 năm 2003), một vài năm sau đó, ITU-T Video Coding Experts Group (VCEG) và ISO/IEC Motion Picture Expert Group (MPEG) đã tích cực tìm kiếm một công nghệ mới với hiệu suất nén cao hơn Sau khi nghiên cứu về tính khả thi trong nhiều năm, vào tháng 01 năm 2010, VCEG và MPEG
đã thành lập một nhóm liên kết kêu gọi chuẩn hóa cho High Efficiency Video Coding (HEVC)
Tiêu chuẩn Mã hóa video hiệu suất cao (High Efficiency Video Coding) phản ánh kinh nghiệm được tích lũy trong khoảng bốn thập kỷ nghiên cứu và ba thập kỉ chuẩn hóa cho công nghệ mã hóa video kỹ thuật số Kết quả, nó đã chính thức được chuẩn hóa trong ITU-T Recommendation H.265 và ISO/IEC International Standard 23008-2 (MPEG-H part 2) Phiên bản đầu tiên của HEVC được hoàn thành vào tháng
01 năm 2013 (với sự chấp thuận và công bố chính thức vài tháng sau đó, ITU-T công
bố chính thức vào tháng 6 và ISO/IEC vào tháng 11) Phiên bản thứ hai vừa được ITU-T xác nhận vào ngày 29 tháng 10 năm 2014 [4]
Trang 221.3.2 Nguyên lý hoạt động cơ bản
Tiêu chuẩn HEVC được thiết kế cho nhiều mục đích, bao gồm hiệu năng mã hóa, dễ dàng tích hợp hệ thống truyền dẫn và phục hồi dữ liệu bị mất cũng như tính khả thi khi sử dụng kiến trúc xử lý song song Hình 1.8 mô tả sơ đồ khối của một bộ
mã hóa video lai, có thể tạo luồng dữ liệu phù hợp với tiêu chuẩn HEVC
Hình 1.8 Sơ đồ khối bộ mã hóa/giải mã HEVC [8]
Thuật toán mã hóa phù hợp với chuẩn HEVC thường được tiến hành như sau Mỗi bức ảnh sẽ được chia thành các khu vực khối hình với các phân vùng khối chính xác rồi đưa tới bộ giải mã Những hình ảnh đầu tiên của một chuỗi video được mã hóa bằng cách sử dụng dự đoán trong ảnh (intra-picture) Đối với các hình còn lại của một chuỗi sẽ được mã hóa bằng dự đoán liên ảnh (inter-picture) Quá trình dự đoán liên ảnh thực hiện việc lựa chọn dữ liệu chuyển động bao gồm các hình ảnh tham chiếu và vector chuyển động (MV) được chọn làm mẫu cho mỗi khối Các bộ mã hóa
và giải mã tạo ra các tín hiệu dự đoán liên ảnh bằng cách áp dụng bù chuyển động Các tín hiệu dư trong quá trình dự đoán liên ảnh hoặc trong ảnh là do sự khác biệt giữa các ảnh ban đầu và ảnh dự đoán Các tín hiệu này được biến đổi, lượng tử hóa,
mã hóa entropy và được truyền cùng với thông tin dự đoán
Trang 23Hình 1.9 Sơ đồ khối bộ giải mã [4]
Bộ giải mã (Hình 1.9 và các khối màu xám trong Hình 1.9) thực hiện các bước ngược lại so với bộ mã hóa như giải mã Entropy, giải lượng tử hóa và biến đổi ngược Phần dư này sau đó được bổ sung vào dự đoán Kết quả của việc bổ sung sau đó có thể đưa vào một hoặc hai vòng lọc để làm mịn các thành phần lạ gây ra bởi quá trình
xử lý và lượng tử hóa Một bản sao tại đầu ra của bộ giải mã được lưu trữ trong bộ đệm hình ảnh để sử dụng trong việc dự đoán các hình ảnh tiếp theo
1.3.3 Các đặc điểm nổi bật
Về cơ bản HEVC/H.265 có cấu trúc tương tự như các chuẩn trước đó, tuy nhiên HEVC có nhiều cải tiến mới để đem lại khả năng mã hóa với hiệu suất cao
Thay vì sử dụng khối macroblock như H.264/AVC và các tiêu chuẩn mã hóa trước đó, trong HEVC/H.265, một hình ảnh được chia thành nhiều khối vuông, gọi là khối cây mã hóa (CTB – Coding Tree Blocks) Mỗi thành phần CTB sáng kết hợp với hai thành phần CTB màu và các cú pháp được gộp chung gọi là đơn vị cây mã hóa (CTU – Coding Tree Units) CTU đại diện cho đơn vị xử lý cơ bản trong HEVC
và nó tương tự như khái niệm macroblock trong các tiêu chuẩn mã hóa video trước
Trang 24đây Mỗi CTB bao gồm một khu vực hình vuông 2N × 2N các mẫu chói Trong định dạng 4:2:0, mỗi một thành phần màu CTB chứa một khu vực tương ứng 2N × 2N
mẫu màu Tham số N ở đây là các thiết lập tham số thứ tự và có thể được lựa chọn
bởi bộ mã hóa giữa các giá trị N = 4, 5 và 6, tương ứng với kích thước mẫu màu
16×16, 32×32 và 64×64 Kích thước CTU lớn hơn thường cho hiệu suất mã hóa tốt hơn nhưng làm tăng thời gian mã hóa và giải mã cũng như yêu cầu bộ nhớ và khả năng tính toán phức tạp hơn
Hình 1.10 Chia CTU thành CU theo cấu trúc cây tứ phân [4]
Các CTB có thể được chia nhỏ hơn nữa theo cấu trúc cây mã hóa thành các khối mã hóa (CB) Đó là đối tượng mà bộ mã hóa quyết định giữa dự đoán trong ảnh hay dự đoán bù chuyển động
Một CTU có thể chia thành các CU với kích cỡ khác nhau Tương tự như CTU, mỗi thành phần CB sáng kết hợp với hai thành phần CB màu cùng với các cú pháp liên quan tạo thành một đơn vị mã hóa (CU) Một CTB chứa một hoặc thành nhiều
CU Và mỗi CU được phân chia thành đơn vị dự đoán (PU) và đơn vị biến đổi (TU)
Trang 25Hình 1.11 Chia CU thành các PU [4]
Hình 1.12 Chia CTB thành TB và CB theo cấu trúc cây tứ phân [4]
Quyết định mã hóa bằng dự đoán liên ảnh hay trong ảnh được thực hiện ở cấp
CU Nếu một CU được mã hóa bằng dự đoán liên ảnh, các thành phần CB sáng và màu có thể được phân chia nhỏ hơn thành các khối dự đoán (PB) PB là các mẫu chứa thành phần sáng hoặc màu sử dụng thông số chuyển động giống nhau Các thông số chuyển động bao gồm vector chuyển động được dự đoán và những hình ảnh tham chiếu của các vector đó HEVC hỗ trợ kích thước PB từ 64×64 đến 4×4 mẫu Một thành phần PB sáng kết hợp với nhiều thành phần PB màu cùng với các cú pháp liên quan tạo thành một đơn vị dự đoán (PU)
Trang 26Bảng 1.1 Kích thước khối trong HEVC và các chuẩn trước đó [4]
Việc phân chia thành các mảnh nhằm mục đích:
Tăng khả năng chống lỗi: Một hình ảnh được chia làm nhiều mảnh sẽ làm tăng khả năng chống lỗi nhờ việc tái đồng bộ trong quá trình giải mã và phân tích cú pháp khi xảy ra mất mát gói tin Một gói tin chỉ truyền một mảnh, do đó, khi một gói tin bị mất trong quá trình truyền dẫn thì chỉ dẫn tới mất mát một mảnh chứ không phải toàn
bộ hình ảnh
Trang 27Khớp với kích cỡ đơn vị truyền tải tối đa (MTU): Khái niệm đơn vị truyền tải tối đa MTU thường được nhắc tới trong mạng IP Một chương trình khi đóng gói gói tin phải phù hợp với MTU bằng việc hạn chế số lượng bit tải trọng tối đa bất kể kích thước hình ảnh được mã hóa
Xử lý song song: Việc phân chia ảnh thành các mảnh giúp quá trình mã hóa/ giải mã diễn ra độc lập trên từng mảnh, do đó có thể xử lý song song nhiều mảnh cùng lúc
mã hóa Ba cấp độ xử lý song song quan trọng nhất là xử lý song song cấp hình ảnh,
xử lý song song cấp mảnh và xử lý song song cấp khối Tuy nhiên, các kĩ thuật này
vẫn tồn tại các điểm yếu Song song cấp hình ảnh chỉ có thể áp dụng tốt trong dự đoán trong ảnh Song song cấp mảnh gặp bất lợi trong việc mã hóa, giải mã entropy và xung đột ở ranh giới các mảnh Song song cấp khối làm tăng bộ nhớ Để giải quyết những vấn đề trên, HEVC/H.265 giới thiệu hai công cụ:
• Xử lý song song đầu sóng (WPP): Một cách tiếp cận quá trình xử lý
song song theo nguyên tắc lập kế hoạch đầu sóng dựa trên sự phân chia hình ảnh thành các CTU Cụ thể, khi WPP được kích hoạt, một mảnh được chia thành các hàng CTU Hàng đầu tiên được xử lý bình thường, hàng thứ hai có thể bắt đầu xử lý sau khi có hai CTU trong hàng đầu tiên
đã được xử lý, hàng thứ ba bắt đầu khi có hai CTU trong hàng thứ hai được xử lý và quá trình sau đó xảy ra tương tự như vậy
• Tile: Một cơ chế phân vùng hình ảnh như phân vùng mảnh dựa trên sự
phân chia linh hoạt của hình ảnh thành các CTU Một tile có thể chứa
Trang 28nhiều mảnh Mục đích chính của tile là phục vụ xử lý song song trong các bộ mã hóa và giải mã
2, …, 34 Dự đoán hướng [i], i = 2, …, 34
Với tiêu chuẩn HEVC, quá trình dự đoán trong ảnh bao gồm ba bước: xây dựng mảng mẫu tham khảo, dự đoán mẫu và hậu xử lý Ba bước trên đều được thiết
kế tối ưu để đạt hiệu quả mã hóa cao trong khi giảm thiểu các yêu cầu tính toán trong
cả bộ mã hóa và giải mã Các thiết lập chế độ dự đoán bao gồm phương pháp mô hình hóa các loại nội dung thường xuất hiện trong video và hình ảnh tĩnh Phương pháp
dự đoán trong ảnh có thể chia thành hai loại Loại đầu tiên là dự đoán hướng Dự đoán hướng cung cấp khả năng mô hình hóa với độ chính xác cao cho các đối tượng
có cấu trúc định hướng Phương pháp thứ hai, dự đoán phẳng và dự đoán DC hiệu quả với các khu vực hình ảnh mịn Tổng cộng có 35 chế độ được hỗ trợ như trong Bảng 1.2
Chế độ dự đoán trong ảnh sử dụng tham chiếu từ các khối xây dựng liền kề như minh họa trong Hình 1.13 Trong đó, kích thước khối biến đổi khác nhau từ 4 ×
4 đến 32 × 32 mẫu HEVC không giới hạn các chế độ dự đoán cho các kích thước khối khác nhau
Trang 29Hình 1.13 Đơn vị dự đoán [7]
Để mô tả chế độ dự đoán trong ảnh trong HEVC, chúng ta hãy giả thiết khối
được dự đoán là một ma trận điểm ảnh P= {p(x, y)}, với x= (0,…, w-1) và y= (0,…,
h-1), kích cỡ w × h Việc dự đoán được tiến hành trên một ma trận điểm ảnh vuông,
do đó cho phép w = h= s Dự đoán trong ảnh của một PU có thể liên quan đến các điểm ảnh lân cận như: phía dưới bên trái (đặt E= {p(-1, y)} khi y= (s,…, 2.s-1), bên trái (đặt D= {p(-1, y)} khi y= (1,…, s-1), phía trên bên trái (đặt A= {p(-1, -1)}, phía trên (đặt B= {p(x, -1)} khi x= (1,…, s-1) và phía trên bên phải (đặt C= {p(x, -1)} khi
x= (s,…, 2.s-1) Tính khả dụng của các điểm ảnh được xác định với vị trí PU
Để thực hiện dự đoán trong ảnh trong HEVC, đầu tiên mô hình dự đoán trong ảnh R={r(i)} với i=(-2.s,…, 2.s) được hình thành theo công thức 1.5 [7]:
Trang 30Dự đoán DC là chế độ đơn giản nhất trong HEVC Tất cả các điểm ảnh trong
PU được thiết lập bằng giá trị trung bình của tất cả các điểm ảnh lân cận có sẵn từ B
và D Do đó, giá trị điểm ảnh được dự đoán là:
Trang 31Dự đoán hướng trong HEVC được thiết kế để mô hình hiệu quả cấu trúc hướng thường xuất hiện trong nội dung video và hình ảnh Nhiều lựa chọn dự đoán hướng
có sẵn nhằm cân bằng giữa độ phức tạp và hiệu suất mã hóa Quá trình dự đoán mẫu
ở đây được thiết kế giúp giảm yêu cầu tính toán, phù hợp với các kích thước khối khác nhau và hướng dự đoán Điều này là cực kì quan trọng bởi độ phức tạp trong HEVC vượt xa so với H.264/AVC
Dự đoán hướng trong HEVC hoạt động tương tự như dự đoán miền không gian trên H.264 nhưng được mở rộng đáng kể chủ yếu là gia tăng kích thước TB và tăng số lượng các hướng dự đoán có thể lựa chọn So với 8 hướng trong H.264, trong HEVC đã hỗ trợ tổng cộng 33 dự đoán hướng
Dự đoán hướng với các chế độ từ 2 đến 34 là quá trình nội suy tuyến tính các các giá trị điểm ảnh theo các hướng tương ứng (Hình 1.14) Dự đoán trong ảnh trục dọc (chế độ 18 đến 34), là một nội suy từ trên xuống dưới của các giá trị điểm ảnh lân cận Coi φ là một góc giữa trục dọc y và hướng nội suy (Hình 1.15) Vì vậy, nó
sẽ có giá trị dương cho hướng thuận chiều kim đồng hồ và giá trị âm cho hướng ngược chiều kim đồng hồ Nếu vị trí (x, y) là vị trí nằm giữa hai điểm ảnh tham khảo thì sau
đó giá trị dự đoán p(x, y) là nội suy tuyến tính với độ chính xác 1/32 điểm ảnh Các giá trị điểm ảnh trục dọc dự đoán được xác định như công thức 1.9 [7]:
1
1
Trang 32nội suy Các giá trị dương theo hướng ngược chiều kim đồng hồ Giá trị điểm ảnh dự đoán p(x,y) được xác định như công thức 1.11 [7]:
1
1
Trang 33Hình 1.14 Chế độ dự đoán hướng trong HEVC [7]
Hình 1.15 Nội suy dự đoán ảnh (theo trục dọc) [7]
Trong khi dự đoán trong ảnh chủ yếu khai thác mối tương quan giữa các mẫu không gian lân cận thì dự đoán liên ảnh lại tận dụng sự tương quan thời gian giữa các hình ảnh để xây dựng dự đoán bù chuyển động (MCP) cho một khối mẫu ảnh Một
Trang 34khối tương ứng trong một hình ảnh được giải mã trước có thể sử dụng làm yếu tố dự báo cho các hình ảnh sau Khái niệm chung của MCP dựa trên một mô hình chuyển động tịnh tiến được minh họa trong Hình 1.16 Sử dụng mô hình chuyển động tịnh tiến, vị trí của các khối trong một bức ảnh tham chiếu được chỉ định bởi một vector chuyển động (Ax, Ay) với Ax xác định chiều ngang và Ay thể hiện sự dịch chuyển theo chiều dọc so với vị trí hiện tại Những hình ảnh đã được giải mã được gọi là hình ảnh tham chiếu và được chỉ định bởi một chỉ số tham chiếu At tại danh sách hình ảnh tham chiếu Những thông số mô hình chuyển động tịnh tiến như vector chuyển động
và chỉ số tham chiếu được gọi chung là dữ liệu chuyển động Các chuẩn mã hóa video hiện đại thường sử dụng hai loại dự đoán liên ảnh, cụ thể là uni-prediction và bi-prediction [4]
Hình 1.16 Khái niệm dự đoán liên ảnh [4]
Hình 1.17 thể hiện sơ đồ khối tổng quan về dự đoán liên ảnh trong HEVC HEVC sử dụng hai chế độ: dự đoán vector chuyển động nâng cao (AMVP) và chế độ kết hợp Bộ mã hóa quyết định giữa hai chế độ này cho mỗi PU Mỗi chế độ xây dựng một danh sách ứng viên MV Sau đó, nó chọn một trong số đó làm chỉ số mã hóa và truyền đi trong luồng dữ liệu
Trang 35Hình 1.17 Dự đoán liên ảnh trong HEVC [4]
Đối với chế độ AMVP, vector chuyển động được dự đoán từ năm không gian lân cận: B0, B1, B2, A0, A1 (Hình 1.18) và một ứng viên thời gian Chỉ có hai ứng viên vector chuyển động được chọn từ 5 không gian lân cận này Ứng viên thứ nhất
A được chọn từ hai không gian tại A0 và A1 qua hai bước Đầu tiên, kiểm tra bất kì khối nào có chứa chỉ số tham chiếu bằng với chỉ số tham chiếu tại khối hiện tại Vector chuyển động được tìm ra trở thành ứng viên thứ nhất Nếu không tìm được chuyển sang bước hai với việc sử dụng vector chuyển động tỉ lệ Vector chuyển động
tỉ lệ được tính toán từ vector chuyển động lân cận với tỉ lệ dựa trên khoảng cách thời gian giữa ảnh hiện tại và ảnh tham chiếu Đối với ứng viên thứ hai B, bước thứ nhất kiểm tra tương tự các không gian B0, B1, B2 Bước thứ hai chỉ được thực hiện khi A0 và A1 không tìm thấy thông tin chuyển động nào (không có sẵn hoặc được dự đoán trong ảnh) Nếu tìm thấy, ứng viên A được thiết lập bằng ứng viên B và ứng viên B được thiết lập bằng giá trị chưa tính toán tỉ lệ hoặc đã tính toán tỉ lệ Nếu hai ứng viên có cùng vector chuyển động thì một trong đó sẽ bị loại trừ Khi một trong những ứng viên trên không có sẵn hoặc loại trừ sau đó thì một ứng viên thời gian được thêm vào Trong HEVC, khối phía dưới bên phải và tại trung tâm được xác định
là phù hợp nhất để cung cấp thời gian dự đoán vector chuyển động tốt (Hình 1.18) Ở đây, dữ liệu chuyển động tại vị trí C0 sẽ được ưu tiên trước Nếu nó không có sẵn, dữ liệu chuyển động của khối đồng vị thời gian C1 tại trung tâm sẽ được sử dụng Nếu
Trang 36danh sách ứng viên vẫn trống thì thêm vào vector 0 Cuối cùng, bộ mã hóa chọn ứng viên thích hợp nhất để truyền đi
Hình 1.18 Vị trí ứng viên trong thông tin chuyển động a) Thời gian; b) Không
gian [4]
Hình 1.19 Xác định các ứng viên AMVP không gian A, B [4]
Đối với chế độ kết hợp, đầu tiên thêm tối đa 4 ứng viên không gian theo thứ tự: A1, B1, B0, A0, B2 Ứng cử viên được thêm vào không được trùng lặp trong danh sách Nếu danh sách vẫn còn chỗ trống, thêm các ứng viên thời gian được tìm thấy như trong AMVP Sau đó, nếu danh sách tiếp tục còn các ứng viên hai chiều được hình thành bằng cách kết hợp vector của các ứng viên khác đã có trong danh sách
Trang 37Cuối cùng, nếu tiếp tục không đủ, vector 0 được thêm vào Bộ mã hóa sẽ chọn ra ứng viên thích hợp nhất trong 5 ứng viên để truyền đi
Tương tự như H.264, HEVC hỗ trợ vector chuyển động với độ chính xác một phần tư điểm ảnh cho thành phần chói và một phần tám điểm ảnh cho thành phần màu Hoạt động này được thực hiện chủ yếu bằng cách sử dụng bộ lọc nội suy Quá trình nội suy là một thủ tục chuyển hóa các mẫu phân số bằng cách sử dụng các mẫu nguyên
Hình 1.20 Vị trí phân số trong bù chuyển động chói với độ chính xác ¼ điểm ảnh
[4]
Nội suy mẫu phân số cho các mẫu chói trong HEVC ứng dụng một bộ lọc tap cho vị trí nửa mẫu và 7-tap cho vị trí một phần tư mẫu Số lượng tap là một thông
8-số quan trọng cho các bộ lọc nội suy vì nó ảnh hưởng trực tiếp đến hiệu quả mã hóa
và độ phức tạp khi thực hiện Trong thực tế, nó không chỉ tác động đến các phép tính toán số học mà còn về băng thông bộ nhớ cần thiết để truy cập đến các mẫu tham khảo Lợi ích chính trong việc tăng số lượng tap là giúp cho phạm vi của bộ lọc được cải thiện Thay vì sử dụng quá trình lọc hai giai đoạn như trên H.264, HEVC sử dụng
Trang 38một quá trình nội suy tách biệt Qua đó, nó cải thiện độ chính xác và đơn giản hóa kiến trúc nội suy mẫu phân số Trong Hình 1.20, các vị trí với nhãn Ai,j đại diện cho các mẫu chói có sẵn tại các địa điểm mẫu nguyên Các vị trí khác có nhãn từ ai,j đến
ri,j biểu diễn các mẫu tại các địa điểm mẫu không nguyên và cần phải được tạo ra bằng cách nội suy
Dự đoán trọng số là một phương pháp điều chỉnh mẫu cho dữ liệu bù chuyển động Nó rất hữu ích cho việc mã hóa các hiệu ứng mờ dần ứng dụng trong mã hóa mặt người hay chuyển động Trong HEVC, nó được đơn giản hóa bằng cách áp dụng trọng số cho mỗi dự đoán bù chuyển động hoặc trung bình hai dự đoán bù chuyển động Về nguyên tắc, dự đoán trọng số thay thế các tín hiệu dự đoán Inter P bằng một tín hiệu dự đoán trọng số tuyến tính 𝑃′ = 𝑤 𝑃 + 𝑜, với w là trọng số bù sáng và o là phần bù Dự đoán trọng số chỉ chiếm một vị trí rất nhỏ trên PPS và là một lựa chọn
có thể tắt/mở khi cần thiết
1.4 Tổng kết chương 1
Phần đầu tiên của chương 1 giới thiệu tổng quan về chuẩn mã hóa video Cùng với đó là cách thức đánh giá chất lượng video khi bị nén có tổn hao Nhóm hình ảnh cũng là một yếu tố quan trọng, cần phải được lưu ý trong quá trình nén video Lớp trừu tượng mạng (NAL) là một tính năng mới trong H.264/AVC và được phát triển trong HEVC cũng được giới thiệu tại phần tổng quan Sau đó, luận văn giới thiệu những nét nổi bật của hai chuẩn nén H.264/AVC và HEVC Trong đó, tập trung chủ yếu vào HEVC với nhiều tính năng cải tiến