Các kỹ thuật mã hóa nén video đã được phát triển và cải thiện trong nhiều thập kỷ để giảm thiểu dung lượng video giúp cho việc truyền dẫn video qua mạng truyền thông đơn giản hơn Hiện nay H 264 AVC là tiêu chuẩn nén mã hóa video được sử dụng phổ biến trên toàn thế giới Tuy nhiên nhu cầu về video chất lượng cao hơn tốc độ khung hình cao hơn chẳng hạn như video HD UltraH 4K và 8K thì H 264 AVC vẫn chưa có khả năng nén tốt nhất Vì vậy một chuẩn nén video mới H 265 HEVC đã được phát triển có khả năng mã hoá tốt những video có độ phân giải cao và giảm được dung lượng video mã hoá một nửa so với chuẩn nén H 264 AVC Tìm hiểu lịch sử phát triển các chuẩn H 265 HEVC và các sản phẩm liên quan đến H 265 HEVC để nói lên tính khả thi của sự ra đời các thiết bị giải mã xử lý video thời gian thực khả năng thay thế trong tương lai đối với chuẩn nén H 264 AVC Việc phân tích cơ bản các khâu quan trọng trong kỹ thuật mã hóa video H 265 HEVC theo hướng những đặc tính khác biệt so với chuẩn mã hóa H 264 AVC trước đó để thấy rõ các đặc điểm nổi trội và những cải tiến của chuẩn nén mới so với chuẩn nén cũ để đem lại chất lượng mã hóa tốt hơn Từ đó lựa chọn thông số mã hóa chung cho phần mềm mã hóa H 265 và H 264 trong so sánh phân tích mã hóa khách quan và chính xác hơn Trong phần ứng dụng thực tiễn dựa trên cơ sở hạ tầng sẵn có của hệ thống DVB T2 phát sóng số mặt đất đang sử dụng chuẩn nén H 264 AVC luận văn xây dựng mô hình nâng cấp thay thế bằng chuẩn nén mới H 265 HEVC vào trong hệ thống sẵn có theo hướng tiết kiệm chi phí thay thế và nâng cấp mà không ảnh hưởng nhiều đến quy hoạch phủ sóng số đã đặt ra Đồng thời thí nghiệm trên thiết bị thực tế và đo các thông số và quan sát chất lượng hình ảnh thực tế qua các thiết bị thử nghiệm Tác giả đã tóm tắt kết quả đạt được và đưa ra hướng phát triển tiếp theo
Trang 1ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA -
HOÀNG LAM SƠN
NGHIÊN CỨU VÀ ĐÁNH GIÁ CHẤT LƯỢNG MÃ HÓA
VIDEO DÙNG CHUẨN H.265/HEVC
Chuyên ngành : Kỹ thuật điện tử
Mã số : 60.52.02.03
LUẬN VĂN THẠC SĨ KỸ THUẬT
NGƯỜI HƯỚNG DẪN KHOA HỌC: TS HỒ PHƯỚC TIẾN
Đà Nẵng – Năm 2017
Trang 2
LỜI CAM ĐOAN
Tôi xin cam đoan luận văn tốt nghiệp “Nghiên cứu và đánh giá chất lượng mã
hóa video dùng chuẩn H.265/HEVC.” là công trình nghiên cứu khoa học của riêng tôi
được thực hiện dưới sự hướng dẫn của TS Hồ Phước Tiến Luận văn tốt nghiệp là kết quả của quá trình nghiên cứu độc lập, không sao chép công trình nghiên cứu của bất
kỳ ai khác Các số liệu trong luận văn được sử dụng trung thực, trích dẫn từ những nguồn hợp pháp và đáng tin cậy
Đà Nẵng, ngày tháng năm 2017
Người thực hiện
Hoàng Lam Sơn
Trang 3MỤC LỤC
Lời cam đoan
Tóm tắt luận văn
Danh mục các ký hiệu, các chữ viết tắt
Danh mục các bảng
Danh mục các hình vẽ, đồ thị
MỞ ĐẦU 1
1 Lý do chọn đề tài 1
2 Mục đích nghiên cứu 1
3 Đối tượng và phạm vi nghiên cứu 1
4 Phương pháp nghiên cứu 2
5 Ý nghĩa khoa học và thực tiễn của đề tài nghiên cứu 2
Chương 1 - TỔNG QUAN VỀ TRUYỀN HÌNH SỐ VÀ CƠ SỞ NÉN VIDEO 3
1.1 Tổng quan về hệ thống truyền hình số 3
1.1.1 Sơ đồ tổng quát hệ thống truyền hình số 3
1.1.2 Đặc điểm truyền hình số 3
1.1.3 Quá trình số hóa tín hiệu 4
1.1.4 Tốc độ bit và độ rộng băng thông 5
1.1.5 Quá trình biến đổi và tiêu chuẩn lấy mẫu tín hiệu màu 6
1.2 Nén tín hiệu video 7
1.2.1 Các kỹ thuật nén tín hiệu video 7
1.2.2 Tỷ số nén tín hiệu video 7
1.2.3 Phân loại kỹ thuật nén tín hiệu video 7
1.2.4 Biến đổi cosin rời rạc 8
1.2.5 Quá trình lượng tử hóa 8
1.2.6 Tiêu chuẩn đánh giá tín hiệu video 9
1.3 Mô hình cấu trúc DVB-T2 10
Kết luận chương 1 12
Chương 2-KỸ THUẬT MÃ HÓA VIDEO H.265/HEVC VÀ SO SÁNH VỚI H.264/AVC 13
2.1 Lịch sử phát triển các chuẩn nén và sự phát triển các sản phẩm liên quan đến mã hóa H.265/HEVC 13
2.1.1 Lịch sử phát triển 13
2.1.2 Quá trình sự phát triển các sản phẩm liên quan đến mã hóa H.265 14
2.2 Kỹ thuật mã hóa video H.264/AVC 15
2.2.1 Sơ đồ mã hóa và giải mã chuẩn H.264/AVC 15
2.2.2 Cấu trúc H.264/AVC 16
2.2.2.1 Các profiles và level 16
2.2.2.2 Slices 17
2.3 Kỹ thuật mã hóa video H.265/HEVC 17
2.3.1 Sơ đồ mã hóa và giải mã chuẩn H.265/HEVC 17
2.3.2 Các profiles và level 18
2.3.3 Phân vùng ảnh 19
2.3.3.1 Phân vùng ảnh mức cao 20
2.3.3.2 Các tập tham số trong H.265/HEVC 22
Trang 42.3.3.3 Cấu trúc khối và phân vùng các khối ảnh 22
2.3.4 Biến đổi và lượng tử hóa 25
2.3.5 Các chế độ dự đoán 28
2.3.5.1 Chế độ dự đoán trong ảnh 29
2.3.5.2 Chế dự đoán liên ảnh 29
2.3.6 In-Loop Filtering 32
2.3.7 Mã hóa entropy 33
2.4 So sánh những đặc điểm cơ bản H.264/AVC và H.265/HEVC 34
2.4.1 So sánh phân vùng hình ảnh - cấu trúc mã hóa ảnh 34
2.4.2 So sánh dự đoán trong ảnh 34
2.4.3 So sánh dự đoán liên ảnh 35
2.4.4 So sánh biến đổi và lượng tử hóa 36
2.4.5 So sánh mã hóa entropy 36
2.4.6 So sánh in-loop filtering 37
2.4.7 Cấu trúc xử lí song song 37
2.4.8 Tóm tắt so sánh kỹ thuật mã hóa H.265/HEVC và H.264/AVC 37
Kết luận chương 2 38
Chương 3 - XÂY DỰNG HỆ THỐNG TRUYỀN DẪN SỐ MẶT ĐẤT TRÊN KỸ THUẬT MÃ HÓA H.265/HEVC VÀ CÔNG NGHỆ DVB-T2 39
3.1 Hệ thống truyền dẫn số mặt đất DVB-T2 hiện nay 39
3.2 Giải pháp đề xuất và hiệu quả của áp dụng mã hóa H.265/HEVC 41
3.2.1 Giải pháp đề xuất 41
3.2.2 Hiệu quả đạt được 42
3.3 Xây dựng hệ thống DVB-T2 trên kỹ thuật mã hóa H.265/HEVC 43
3.3.1 Mô hình trạm phát sóng DVB-T2 sử dụng H.265/HEVC 43
3.3.2 Một số thiết bị mã hóa nguồn sử dụng mã hevc 45
3.3.3 Hệ thống vệ tinh vinasat band c 45
3.3.4 Tăng dung lượng cho máy phát sóng số mặt đất DVB-T2 45
3.4 Kiểm nghiệm mô hình DVB-T2 với H.265/HEVC trong thực tế 47
3.4.1 Thiết bị và mô hình thử nghiệm 47
3.4.2 Tín hiệu vào kiểm tra 48
3.4.3 Thiết lập cấu hình 48
3.4.4 Kết quả thử nghiệm và nhận xét 49
Kết luận chương 3 50
Chương 4 - PHÂN TÍCH VÀ ĐÁNH GIÁ CHẤT LƯỢNG MÃ HÓA VIDEO H.265/HEVC 51
4.1 Thiết lập các điều kiện để thực hiện đánh giá 51
4.1.1 Mô hình mã hóa 51
4.1.2 Cấu trúc dự đoán 52
4.2 Chuỗi video và quy trình đánh giá 53
4.2.1 Chuỗi video đánh giá 53
4.2.2 Quy trình đánh giá 54
4.3 Phân tích kết quả đánh giá khách quan 54
4.3.1 Mã hóa all intra (AI-TEST 1) 54
4.3.2 Mã hóa low delay P (LDP- TEST 2) 56
4.3.3 Mã hóa low delay B (LDB- TEST 3) 58
Trang 54.3.4 Mã hóa random access (RA- TEST 4) 60
4.3.5 Kết luận đánh giá khách quan 61
4.4 Phân tích đánh giá kết qủa chủ quan 62
4.4.1 Phương pháp đánh giá chủ quan 62
4.4.2 Kết quả đánh giá 64
4.4.2.1 Đánh giá chủ quan mã hóa LDP 64
4.4.2.2 Đánh giá chủ quan mã hóa LDB 65
4.4.2.3 Đánh giá chủ quan mã hóa RA 65
4.4.3 Kết luận đánh giá chủ quan 66
4.5 Tổng hợp so sánh đánh giá chủ quan và khách quan 67
Kết luận chương 4 69
KẾT LUẬN VÀ KIẾN NGHỊ 70
DANH MỤC TÀI LIỆU THAM KHẢO 72 QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN
BẢN SAO KẾT LUẬN CỦA HỘI ĐỒNG
BẢN SAO NHẬN XÉT CỦA CÁC PHẢN BIỆN
PHỤ LỤC
Trang 6TÓM TẮT LUẬN VĂN
NGHIÊN CỨU VÀ ĐÁNH GIÁ CHẤT LƯỢNG MÃ HÓA VIDEO DÙNG CHUẨN
H.265/HEVC
Học viên : Hoàng Lam Sơn Chuyên ngành : Kỹ thuật điện tử
Mã số : 60.52.02.03 Khóa : K31, Trường Đại học Bách khoa-ĐHĐN
Tóm tắt- Các kỹ thuật mã hóa nén video đã được phát triển và cải thiện trong nhiều thập kỷ để giảm
thiểu dung lượng video, giúp cho việc truyền dẫn video qua mạng truyền thông đơn giản hơn Hiện nay, H.264/AVC là tiêu chuẩn nén mã hóa video được sử dụng phổ biến trên toàn thế giới Tuy nhiên, nhu cầu về video chất lượng cao hơn, tốc độ khung hình cao hơn, chẳng hạn như video HD, UltraH, 4K và 8K, thì H.264/AVC vẫn chưa có khả năng nén tốt nhất Vì vậy, một chuẩn nén video mới H.265/HEVC đã được phát triển, có khả năng mã hoá tốt những video có độ phân giải cao và giảm được dung lượng video mã hoá một nửa so với chuẩn nén H.264/AVC
Tìm hiểu lịch sử phát triển các chuẩn H.265/HEVC và các sản phẩm liên quan đến H.265/HEVC để nói lên tính khả thi của sự ra đời các thiết bị giải mã xử lý video thời gian thực, khả năng thay thế trong tương lai đối với chuẩn nén H.264/AVC Việc phân tích cơ bản các khâu quan trọng trong kỹ thuật mã hóa video H.265/HEVC theo hướng những đặc tính khác biệt so với chuẩn mã hóa H.264/AVC trước đó, để thấy rõ các đặc điểm nổi trội và những cải tiến của chuẩn nén mới so với chuẩn nén cũ để đem lại chất lượng mã hóa tốt hơn Từ đó lựa chọn thông số mã hóa chung cho phần mềm mã hóa H.265 và H.264 trong so sánh phân tích mã hóa khách quan và chính xác hơn Trong phần ứng dụng thực tiễn, dựa trên cơ sở hạ tầng sẵn có của hệ thống DVB-T2 phát sóng số mặt đất đang sử dụng chuẩn nén H.264/AVC, luận văn xây dựng mô hình nâng cấp thay thế bằng chuẩn nén mới H.265/HEVC vào trong hệ thống sẵn có theo hướng tiết kiệm chi phí thay thế và nâng cấp mà không ảnh hưởng nhiều đến quy hoạch phủ sóng số đã đặt ra Đồng thời thí nghiệm trên thiết bị thực
tế và đo các thông số và quan sát chất lượng hình ảnh thực tế qua các thiết bị thử nghiệm Tác giả đã tóm tắt kết quả đạt được và đưa ra hướng phát triển tiếp theo
Từ khóa- mã hóa nén tiên tiến H.264/AVC; Mã hóa hiệu suất cao H.265/HEVC; số mặt đất thế hệ 2
Studying the development history of the H.265/HEVC standard and products related to this compression standard shows a possibility of introducing real-time video coding devices and a possible replacement of the H.264/AVC compression standard Basic analysis of the key aspects of the H.265/HEVC video compression technology is carried out in comparison with H.264/AVC standard,
to show the prominent features and improvements of the new compression standard On this basis, we choose the general coding parameters for H.265 and H.264 to compare these two standards objectively In the practical application, based on the available infrastructure of DVB-T2 terrestrial broadcasting system using the H.264/AVC standard, the thesis builds an upgraded model that replaces the existing system by the new H.265/HEVC compression standard in order to save replacement and upgrading costs without affecting the digital coverage planning At the same time, experiments with measurement of parameters and visual observation of actual images were carried out through the test equipment The author has summarized the results and proposed recommendations for further development
Key words- Advance Video Coding H264/AVC; High Efficiency Video Coding H.265/HEVC;
Terrestrial broadcasting system DVB-T2
Trang 7DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
AVC-Advance Video Coding (H.264/AVC) Nén video tiên tiến
CTU- Coding Tree Unit Đơn vị mã hóa cây
HEVC-High Efficiency Video Coding Mã hóa video hiệu suất cao
NAL-Network Abstract Layer Lớp trừu tượng mã hóa mạng
VCL-Video Coding Layer Lớp mã hóa video
WPP- Wave-front Parallel Processing Kỹ thuật xử lý song song sóng trước AMP-Asymmetric motion partition Đa xử lý không đối xứng
AMVP-Advanced MV prediction Dự đoán vecto chuyển động nâng cao CABAC-Context-adaptive binary arithmetic
DCT-Discrete Cosine Transform Biến đổi Cosin rời rạc
DF- Deblocking filter Bộ lọc tách khối
DST-Discrete Sine Transform Biến đổi sin rời rạc
EPZS-Enhanced predictive zonal search Tìm kiếm khu vực dự đoán nâng cao
HEVC-High Efficiency Video Coding Mã hóa video hiệu suất cao
MOS-Mean Opinion Score Ý kiến đánh giá trung bình
MPEG-Moving Picture Experts Group Nhóm chuyên gia về ảnh động
QP-Quantization Parameter Thông số lượng tử
SAO-sample-adaptive offset Bù thích ứng mẫu
TCOEFF-Transform domain coefficients Hệ số chuyển đổi
UHDTV-Ultra high-definition television Truyền hình độ phân giải siêu cao HDTV-high-definition television Truyền hình độ phân giải cao
Trang 8DANH MỤC CÁC BẢNG
Số
2.3 Kích thước nhóm lưỡng tử hóa cho kích thước CTU khác nhau 26 2.4 Giá trị EdgeIdx được liệt kê trong bộ lọc SAO edge 33 2.5
Sự khác nhau kỹ thuật dự đoán trong ảnh H.264/AVC và
3.2 Thông số tốc độ bit chương trình máy phát số DVB-T2 Đà Nẵng 41 3.3 So sánh tốc độ bit chương trình HD máy phát số DVB-T2 Đà Nẵng 43 3.4 Quan hệ các thông sô điều chế hệ thống máy phát DVB-T2 46 3.5 Số sóng mang cung cấp cho mỗi băng tần BW=8Mhz 46
3.7 Khoảng cách phát tối đa của trạm phát sóng số DVB-T2 47
3.9 Mô hình thiết lập thử nghiệm đối với máy phát số mặt đất 49 3.10 Kết quả cấu hình 1 thu được từ thiết bị đo R&S EFL340 49 3.11 Kết quả cấu hình 2 thu được từ thiết bị đo R&S EFL340 49 4.1 Thiết lâp cấu hình hai bộ mã hóa tham chiếu HM 16.7 và JM 19 51
4.7 Tổng hợp kết quả lượng tiết kiệm bít trong hai loại mã hóa 61 4.8 Thông số cặp video được mã hóa LDP dùng để đánh giá 64 4.9 Kết quả khảo sát đánh giá của 3 người, video loại A mã hóa LDP 64 4.10 Thông số cặp video được mã hóa LDB dùng để đánh giá 65 4.11 Kết quả khảo sát đánh giá của 3 người, video loại A mã hóa LDB 65 4.12 Thông số cặp video được mã hóa RA dùng để đánh giá 66 4.13 Kết quả khảo sát đánh giá của 3 người, video loại A mã hóa RA 66
Trang 9DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Số
2.9 Phân vùng hình ảnh thành nhiều macro 16x16 và CTU 64x64 23 2.10 Ví dụ về phân vùng CTU theo thứ tự chiều sâu 24
2.12 Mối quan hệ giữa CU, PU và TU trong H.265/HEVC 25 2.13 Sơ đồ tổng quát biến đổi và lưỡng tử hóa block video
2.15 Các chế độ I_PCM, lossless and transform skip trong bộ mã hóa 28 2.16 Cấu trúc khối PU và các pixel lân cận sử dụng để dự đoán 29
2.18 Sơ đồ tổng quát dự đoán liên ảnh trong H.265/HEVC 30 2.19 CU được mã hóa Inter có thể sử dụng phân chia chuyển động đối xứng
2.20 Ví dụ minh họa về hình ảnh trước và sau khi qua bộ lọc SAO 32 2.21 Mô hình định hướng phân loại mẫu EO: (a) Ngang, (b) dọc,(c) đường
2.22 So sánh kích thước các block của H.264/AVC và H.265/HEVC 34 2.23 Sự hiệu quả của H.265 trong mã hóa đi đôi với sự phức tạp 37
Trang 104.12 Đồ thị MOS trong đánh giá chủ quan video LDP loại A 64 4.13 Đồ thị MOS trong đánh giá chủ quan video LDB loại A 65 4.14 Đồ thị MOS trong đánh giá chủ quan video RA loại A 66 4.15 Tổng hợp so sánh đánh giá khách quan và chủ quan 67
Trang 11MỞ ĐẦU
1 Lý do chọn đề tài
Trong những năm gần đây khi mà lĩnh vực công nghệ và truyền thông ngày càng phát triển, với sự phát triển mạnh của internet toàn cầu thì việc truyền tải và lưu trữ video cũng ngày càng trở nên phổ biến hơn Cùng với đó chất lượng của phần cứng ngày càng được nâng cao và giá thành lại ngày càng hợp lí, giúp cho việc phát triển của dịch vụ truyền hình công nghệ số với nhiều ưu điểm vượt trội về số lượng chương trình, chất lượng tín hiệu, hiệu quả kỹ thuật và kinh tế đang nhanh chóng chiếm lĩnh thị trường, thay thế dần kỹ thuật tương tự truyền thống
Khi chất lượng cuộc sống ngày càng được cải thiện, kéo theo nhu cầu nghe nhìn càng cao hơn Nếu như vài năm trước việc thưởng thức một bộ phim ở độ phân giải 480p hay HD 720p đủ thỏa mãn người xem, thì ngày nay chúng ta đã quen thuộc với cụm từ Full-HD hay 1920 x 1080 với khoảng 2 triệu điểm ảnh (2 megapixel) đã có mặt trên nhiều TV, màn hình máy tính, laptop, smartphone và tablet Tuy nhiên, đến nay đã
có một độ phân giải mở ra một kỉ nguyên kế tiếp của nội dung và hình ảnh độ nét cao,
đó là 4K (hay còn gọi là Ultra-HD) Với số điểm ảnh lên đến 8 triệu, tức gấp bốn lần Full-HD, 4K mang lại những trải nghiệm cao cấp hơn, sắc nét hơn Để có được những trải nghiệm tuyệt vời đó thì người dùng cũng sẽ phải đầu tư thêm chi phí cho việc nâng cấp các thiết bị lưu trữ cũng như đường truyền Vì thế nhu cầu một chuẩn nén video mới hiệu quả hơn nhằm giảm tải áp lực cho hệ thống ngày càng bức thiết hơn
H.265/HEVC là một chuẩn nén video hoàn toàn mới với tên gọi đầy đủ là High Efficiency Video Coding (HEVC) được Ủy ban Viễn thông Quốc tế ITU-T thông qua
và bắt đầu được các nhà phát triển đưa vào sản phẩm thương mại H.265/HEVC mang lại khả năng nén cao gấp đôi so với kỹ thuật nén video H.264/AVC (Advance Video Coding) hiện đang được dùng phổ biến H.265/HEVC có tỷ lệ nén dữ liệu gấp đôi so với H.264/MPEG-4 AVC ở cùng một mức độ chất lượng video Nói cách khác nó có thể được sử dụng để cung cấp chất lượng hình ảnh được cải thiện đáng kể khi xét cùng một bitrate Nó có khả năng hỗ trợ 8K UHD (Ultra high definition television) và độ phân giải lên đến 8192x4320 (4320P)
Hiện nay, việc nắm vững phương pháp mã hóa của chuẩn H265 và đánh giá chất lượng của nó cùng với hệ thống truyền dẫn DVB-T2 có ý nghĩa quan trọng việc lựa chọn và triển khai kỹ thuật nén H265 trong lĩnh vực truyền dẫn tín hiệu truyền hình và công tác lưu trữ video của Đài truyền hình Việt Nam hiện nay Đây là lý do luận văn tập trung nghiên cứu và đánh giá chất lượng mã hóa dùng chuẩn H.265/ HEVC
2 Mục đích nghiên cứu
Đề tài tập trung nghiên cứu các vấn đề sau:
Phân tích đánh giá kỹ thuật nén video và chuẩn nén H.265/ HEVC
So sánh với chuẩn nén video H.264/AVC, đưa ra những ưu điểm của chuẩn nén H.265/HEVC
Ứng dụng H.265/HEVC xây dựng mô hình truyền dẫn tín hiệu video HDTV trong truyền hình số mặt đất DVB-T2 và đánh giá chất lượng video thu được qua
mô hình thử nghiệm thực tế
3 Đối tượng và phạm vi nghiên cứu
Các chuẩn nén video và chuẩn nén H.265/HEVC, so sánh chuẩn nén H.265/HEVC với chuẩn nén H.264/AVC đang sử dụng hiện nay
Trang 12 Chuẩn nén video H.265/HEVC trong hệ thống truyền hình số mặt đất DVB-T2 tại Truyền Hình Việt Nam
Đánh giá chất lượng hình ảnh thu được
4 Phương pháp nghiên cứu
Với các mục tiêu trên phương pháp nghiên cứu là kết hợp phương pháp nghiên cứu lý thuyết và phương pháp nghiên cứu thực nghiệm để thực hiện đề tài theo các bước sau:
Nghiên cứu lý thuyết các kỹ thuật mã hóa và giải mã các loại tín hiệu video
Phân tích và so sánh với chuẩn nén H.264/AVC và đưa ra những ưu điểm của chuẩn nén H.265/HEVC
Ứng dụng kỹ thuật nén H.265/HEVC xây dựng mô hình truyền dẫn tín hiệu video độ phân giải cao qua hệ thống truyền hình số mặt đất DVB-T2, đánh giá kết quả thu được
Mô phỏng việc nén và giải nén tín hiệu video bằng chương trình mã nguồn mở C++ từ đó đánh giá chất lượng và hiệu quả của chuẩn nén
5 Ý nghĩa khoa học và thực tiễn của đề tài nghiên cứu
Ngày nay, nhu cầu xem và sử dụng video càng cao, với sự phát triển không ngừng của các thiết bị đầu cuối như TV, màn hình máy tính, laptop, smartphone và tablet thì yêu cầu về chất lượng hình ảnh đang là vấn đề quan trọng hiện nay Video nếu không được nén sẽ có độ phân giải và chất lượng cao nhưng không thể truyền tín hiệu qua mạng truyền thông vì dung lượng quá lớn Do đó, các kỷ thuật mã hóa nén video đã được phát triển và cải thiện trong nhiều thập kỷ qua để khắc phục vấn đề này, giảm thiểu dung lượng video, giúp cho việc truyền dẫn qua mạng đơn giản hơn H.264/AVC là chuẩn nén tiên tiến đang sử dụng phổ biến ở nước ta hiện nay Tuy nhiên, nhu cầu chất lượng video ngày càng cao hơn, tốc độ khung hình cao hơn, chẳng hạn như video HD, UltraHD, 4K và 8K thì chuẩn nén H.264/AVC vẫn chưa hiệu quả
Vì vậy, một chuẩn nén video mới đã được phát triển, nó không chỉ cung cấp mã hóa tốt video độ phân giải cao mà còn giảm 50% dung lượng so với chuẩn nén H.264/AVC
Việc phân tích đánh giá chuẩn nén H.265/HEVC, và so sánh với chuẩn nén trước đó
có ý nghĩa quan trọng trong việc lựa chọn và triển khai trong công tác truyền dẫn tín hiệu truyền hình tại Đài truyền hình Việt Nam hiện nay Ngoài ra, là một tiền đề nghiên cứu các giải pháp cải thiện hiệu suất nén và giảm độ phức tạp, một số thuật toán rate control đối với chuẩn nén mới H.265/HEVC
Trang 13Chương 1 - TỔNG QUAN VỀ TRUYỀN HÌNH SỐ VÀ CƠ SỞ NÉN VIDEO 1.1 Tổng quan về hệ thống truyền hình số
1.1.1 Sơ đồ tổng quát hệ thống truyền hình số
Hình 1.1 Sơ đồ tổng quát hệ thống truyền hình số[1]
Bộ biến đổi tín hiệu tương tự thành tín hiệu số (A/D) sẽ biến đổi tín hiệu truyền hình tương tự thành tín hiệu truyền hình số, các tham số và đặc trưng của tín hiệu này được xác định từ hệ thống truyền hình được lựa chọn, tín hiệu truyền số tại đầu ra bộ chuyển đổi A/D được đưa đến bộ mã hóa nguồn, tại đây tín hiệu truyền hình số có tốc
độ dòng bit cao sẽ được nén thành dòng bít có tốc độ thấp hơn phù hợp cho từng ứng dụng Dòng bit tại đầu ra bộ mã hóa nguồn được đưa dến thiết bị phát (mã hóa kênh thông tin và điều chế tín hiệu) truyền đến thu qua kênh thông tin
Khi truyền qua kênh thông tin, tín hiệu truyền hình số được mã hóa kênh Mã hóa kênh đảm bảo chống các sai sót cho tín hiệu trong kênh thông tin Thiết bị mã hóa kênh phối hợp các đặc tính của tín hiệu số với kênh thông tin Khi tín hiệu truyền hình
số được truyền đi theo kênh thông tin, các thiết bị biến đổi trên được gọi là bộ điều chế
và giải điều chế
Tại bên thu, tín hiệu truyền hình số được biến đổi ngược lại với quá trình xử lý tại phía phát, giải mã tín hiệu truyền hình thực hiện biến đổi tín hiệu truyền hình số thành tín hiệu truyền hình tương tự Hệ thống truyền hình số sẽ trực tiếp xác định cấu trúc
mã hóa và giải mã tín hiệu truyền hình
1.1.2 Đặc điểm truyền hình số
Đặc điểm của truyền hình số được xem xét thông qua các ưu nhược điểm của nó,
vì nó giải thích lý do của việc cần thiết phải thay thế truyền hình tương tự sang truyền hình số, những đặc điểm dưới đây chính là tính ưu việt của truyền hình số so với truyền hình tương tự, bao gồm:
Có thể tiến hành rất nhiều quá trình xử lý trong Studio (trung tâm truyền hình) mà
tỷ số S/N không giảm Trong truyền hình tương tự thì việc này gây méo tích luỹ (mỗi khâu xử lý đều gây méo)
Thuận lợi cho quá trình ghi, đọc: có thể ghi đọc nhiều lần mà chất lượng không bị giảm
Dễ sử dụng thiết bị tự động kiểm tra và điều khiển nhờ máy tính
Giải mã hóa nguồn
Thiết bị phát
Kênh thông tin
Giải điều chế số
Giải mã hóa kênh Thiết bị thu
Tín hiệu
truyền hình
tương tự
Trang 14 Có khả năng lưu tín hiệu số trong các bộ nhớ có cấu trúc đơn giản và sau đó đọc nó với tốc độ tuỳ ý
Khả năng truyền trên cự ly lớn: tính chống nhiễu cao (do việc cài mã sửa lỗi, chống lỗi, bảo vệ )
Dễ tạo dạng lấy mẫu tín hiệu, do đó dễ thực hiện việc chuyển đổi hệ truyền hình, đồng bộ từ nhiều nguồn khác nhau dễ thực hiện những kỹ xảo trong truyền hình
Các thiết bị số làm việc ổn định, vận hành dễ dàng và không cần điều chỉnh các thiết bị trong khi khai thác.Có khả năng xử lý nhiều lần đồng thời một số tín hiệu (nhờ ghép kênh phân chia theo thời gian)
Có khả năng thu tốt trong truyền sóng đa đường Hiện tượng bóng ma thường xảy ra trong hệ thống truyền hình tương tự do tín hiệu truyền đến máy thu theo nhiều đường Việc tránh nhiễu đồng kênh trong hệ thống thông tin số cũng làm giảm đi hiện tượng này trong truyền hình quảng bá
Tiết kiệm được phổ tần nhờ sử dụng các kỹ thuật nén băng tần, tỉ lệ nén cao mà hầu như người xem không nhận biết được sự suy giảm chất lượng Từ đó có thể thấy được nhiều chương trình trên một kênh sóng, trong khi truyền hình tương tự mỗi chương trình phải dùng một kênh sóng riêng
Có khả năng truyền hình đa phương tiện, tạo ra loại hình thông tin hai chiều, dịch
vụ tương tác, thông tin giao dịch giữa điểm và điểm Do sự phát triển của công nghệ truyền hình số, các dịch vụ tương tác này ngày càng phong phú đa dạng và ngày càng
mở rộng Trong đó có sự kết hợp giữa máy thu hình và hệ thống máy tính, truyền hình
từ phương tiện thông tin đại chúng trở thành thông tin cá nhân
Tuy nhiên truyền hình số cũng có những nhược điểm đáng quan tâm là dải thông của tín hiệu chưa nén tăng do đó độ rộng băng tần của thiết bị và hệ thống truyền lớn hơn nhiều so với tín hiệu tương tự
1.1.3 Quá trình số hóa tín hiệu
Quá trình số hoá tín hiệu tương tự, bao gồm quá trình lọc trước lấy mẫu, lượng
tử và mã hoá Quá trình lọc trước nhằm loại bỏ các tần số không cần thiết ở tín hiệu cũng như nhiễu, bộ lọc này còn gọi là bộ lọc chống nhiễu xuyên kênh Aliasing
Lấy mẫu
Lấy mẫu tín hiệu tương tự là quá trình rời rạc hóa theo thời gian bằng tần số lấy mẫu fs Nó tạo ra giá trị tín hiệu tương tự tại một số hữu hạn các giá trị có biến rời rạc gọi là các mẫu Các mẫu được lấy cách đều nhau gọi là chu kỳ lấy mẫu Tần số lấy mẫu phải thoả mãn định lý Nyquist-Shannon :
max
.
2 f
fs (1.1) Trong đó: + fs là tần số lấy mẫu
+ fmax là tần số cực đại của tín hiệu tương tự
Lượng tử hóa
Trong quá trình này biên độ tín hiệu được chia thành các mức gọi là mức lượng tử Khoảng cách giữa hai mức kề nhau gọi là bước lượng tử Các mẫu có được từ quá trình lấy mẫu sẽ có biên độ bằng mức lượng tử
Số mức lượng tử N được biểu diễn: N= 2n, Trong đó n là số bit biểu diễn mỗi mẫu
Tín hiệu số nhận được là một giá trị xấp xỉ của tín hiệu ban đầu, nguyên nhân do quá trình lượng tử hóa xác định các giá trị số rời rạc cho mỗi mẫu Tất cả các giá trị biên
độ nằm trong phạm vi giới hạn của một mức lượng tử đều được thiết lập một giá trị như nhau
Trang 15Lượng tử hóa có hai loại:
Lượng tử tuyến tính: có các bước lượng tử bằng nhau
Lượng tử phi tuyến: có các bước lượng tử khác nhau
Quá trình lượng tử sẽ gây ra sai số gọi là sai số lượng tử, sai số lượng tử là nguồn nhiễu không tránh khỏi trong hệ thống số Các giá trị lượng tử có thể chứa sai số trong phạm vi 1/2 Q, trong đó Q là bước lượng tử
Các mã sử dụng trong truyền hình số có thể chia thành 4 nhóm:
Các mã để mã hóa tín hiệu truyền hình
Các mã để truyền có hiệu quả theo kênh thông tin
Các mã thuận tiện cho việc giải mã và đồng bộ bên thu
Các mã để xử lý số tín hiệu trong các bộ phận khác nhau của hệ thống truyền hình số
1.1.4 Tốc độ bit và độ rộng băng thông
Tốc độ bit: Tốc độ bit là số lượng bit được truyền đi hay lưu trữ trong một đơn vị thời gian
n f
Trong đó : +f slà tần số lấy mẫu (Hz)
+ n là số bit nhị phân trong một ký hiệu
C (1.3) Trong đó: + C là tốc độ bit (bps)
+
N
S là tỷ số tín hiệu trên nhiễu trắng
+ B là băng thông kênh truyền (Hz)
Tốc độ bit càng lớn thì tín hiệu tương tự khôi phục lại càng trung thực tuy nhiên nó
sẽ là cho dung lượng lưu trữ và băng thông kênh truyền càng lớn Trong thực tế để truyền tín hiệu có tốc độ bit là C (bps) thì cần băng thông kênh truyền là:B C
Trang 161.1.5 Quá trình biến đổi và tiêu chuẩn lấy mẫu tín hiệu màu
Một bức ảnh được chuyển từ RGB sang YUV nhằm giảm dung lượng lưu trữ cũng như truyền đi, trong quá trình giải mã, trước khi hiển thị ảnh thì nó được biến đổi ngược lại thành RGB
Hình 1.2 Quá trình biến đổi tín hiệu màu [1]
Công thức minh họa quá trình biến đổi như sau: (1.4)
)(1
5.0
)(1
5.0
)1
(
Y R k C
Y B k C
B k G k k R
k Y
r r
b b
b r
b r
R Y
R C
B G
R Y
B C
B G
R Y
r
b
081.0419.05.0)(299.01
5.0
5.0331.0169.0)(114.01
5.0
114.0587.0299.0
Cr Cb Y
081.0419.05
.0
5.0331.0169.0
114.0587.0299
.0
(1.5) Thực hiện tương tự ta suy ra được ma trận biến đổi từ YUV sang RGB như sau:
B G R
0772.11
714.0344.01
402.10
1
Có nhiều kiểu lấy mẫu tín hiệu video số thành phần, điểm khác nhau chủ yếu ở tỷ
lệ giữa tần số lấy mẫu và phương pháp lấy mẫu tín hiệu chói và các tín hiệu màu, trong
đó bao gồm : Tiêu chuẩn 4:4:4; 4:2:2; 4:2:0; 4:2:1 Các định dạng số video có nén chỉ lấy mẫu tích cực của video
Tiêu chuẩn lấy mẫu 4:1:1 - tần số lấy mẫu tín hiệu chói là 13,5MHz, và mỗi tín hiệu hiệu màu là 3,375MHz
Tiêu chuẩn lấy mẫu 4:2:2 - tần số lấy mẫu tín hiệu chói là 13,5MHz, và mỗi tín hiệu hiệu màu là 6,75MHz
R, G, B
Trang 17 Tiêu chuẩn lấy mẫu 4:4:4 - cả 3 thành phần có cùng độ phân giải, nghĩa là tần số lấy mẫu tín hiệu chói là 13,5MHz, và mỗi tín hiệu hiệu màu là 13,5MHz
Tiêu chuẩn lấy mẫu 4:2:0 - là kiểu phổ biến, tần số lấy mẫu tín hiệu chói là 13,5MHz, và mỗi tín hiệu hiệu màu là 6,75MHz theo cả 2 chiều [1]
1.2 Nén tín hiệu video
1.2.1 Các kỹ thuật nén tín hiệu video
Tín hiệu video thường chứa đựng một lượng lớn các thông tin dư thừa, chúng thường được chia thành 5 loại như sau:
Có sự dư thừa thông tin về không gian: giữa các điểm ảnh lân cận trong phạm vi một bức ảnh hay một khung video, còn gọi là thừa tĩnh bên trong từng frame
Có sự dư thừa thông tin về thời gian: giữa các điểm ảnh của các khung video trong chuỗi ảnh video, còn gọi là thừa động giữa các frame
Có sự dư thừa thông tin về phổ: giữa các mẫu của các dữ liệu thu được từ các bộ cảm biến trong camera, máy quay…
Có sự dư thừa do thống kê: do bản thân của các ký hiệu xuất hiện trong dòng bit với các xác suất xuất hiện không đồng đều
Có sự dư thừa tâm thị giác: thông tin không phù hợp với hệ thống thị giác con người, những tần số quá cao so với cảm nhận của mắt người
Ưu điểm của việc nén tín hiệu:
Tiết kiệm băng thông kênh truyền (trong thời gian thực hoặc nhanh hơn)
Kéo dài thời gian sử dụng của thiết bị lưu trữ, giảm chi phí đầu tư thiết bị lưu trữ
Giảm dung lượng thông tin mà không làm mất tính trung thực của hình ảnh
Có nhiều phương pháp nén tín hiệu, phương pháp nén bằng cách số hóa tín hiệu vẫn
tỏ ra hữu hiệu, một mặt nó có thể làm giảm lượng thông tin không quan trọng một cách đáng kể, mặt khác nó còn giúp cho tín hiệu được bảo mật hơn
%100.1
1
2 1 1
n
n n n
Nếu n1= n2 thì ta có C =1, và R = 0 nghĩa là không có sự dư thừa dữ liệu
Nếu n2<<n1 thì C, R1, ta nói rằng có sự dư thừa dữ liệu lớn
1.2.3 Phân loại kỹ thuật nén tín hiệu video
Nén video được chia thành hai họ lớn: Nén không tổn hao và nén tổn hao
Nén không tổn hao là quy trình biểu diễn các ký hiệu trong dòng bit nguồn thành dòng các từ mã sao cho ảnh được khôi phục hoàn toàn giống ảnh gốc, các thuật toán chỉ phụ thuộc vào cách thống kê nội dung dữ liệu và thường dựa trên việc thay thế một nhóm các ký tự trùng lặp bởi một nhóm các ký tự đặc biệt khác ngắn hơn mà không quan tâm đến ý nghĩa của dòng bit dữ liệu, nên đòi hỏi phải có thiết bị lưu trữ và đường truyền lớn hơn
Trang 18 Nén có tổn hao, tức là ảnh được khôi phục không hoàn toàn giống ảnh gốc, dạng nén này thích hợp cho việc lưu trữ và truyền ảnh tĩnh, ảnh video qua một mạng có băng thông hạn chế Các dạng nén này thường có hệ số nén cao hơn (từ 2:1 đến 100:1)
và gây nên tổn hao dữ liệu và sự suy giảm ảnh sau khi giải nén do việc xóa và làm tròn
dữ liệu trong một khung hay giữa các khung Nó liên quan đến việc dùng các phép biến đổi tín hiệu từ miền này sang miền khác
Trong thực tế phương pháp nén tổn hao thường được sử dụng nhiều hơn và các kỹ thuật nén tổn hao thường sử dụng như: mã hóa vi sai, biến đổi cosin rời rạc DCT, lượng tử vô hướng, quét zig-zag, mã hóa Entropy…
1.2.4 Biến đổi cosin rời rạc
Nhằm biến đổi các hệ số trong miền thời gian (video số), không gian 2D (bức ảnh tĩnh) thành các hệ số trong miền tần số Các hệ số này ít tương quan hơn có phổ năng lượng tập trung hơn, thuận tiện cho việc loại bỏ thông tin dư thừa
Phép biến đổi DCT hoạt động dựa trên cơ sở ma trận vuông của mẫu sai số dự đoán, kết quả cho ta một ma trận Y là những hệ số DCT được minh họa như sau:
2
)12(cos,
N C
i
i
2 1
Tương đương với
0 , ,
2
) 1 2 ( 2
) 1 2 (
N
i N
J j i y
x y x
N
x i Cos N
y j Cos X C
1 8
15 cos 2
1 8
9 cos 2
1 8
3 cos 2 1
8
14 cos 2
1 8
10 cos 2
1 8
6 cos 2
1 8
2 cos 2 1
8
7 cos 2
1 8
5 cos 2
1 8
3 cos 2
1 8
cos 2 1
0 cos 2
1 0
cos 2
1 0
cos 2
1 0
cos 2 1
0
, ,
2
) 1 2 ( 2
) 1 2 (
N
x N
y
y x y x j
i
N
x i Cos N
y j Cos Y C C
1.2.5 Quá trình lượng tử hóa
Sau khi thực hiện biến đối DCT, các hệ số sẽ được lượng tử hoá dựa trên một
bảng lượng tử Q(u,v) với 0≤u, v≤ n-1, n là kích thước khối Bảng này được định nghĩa
bởi từng ứng dụng cụ thể, các phần tử trong bảng lượng tử có giá trị từ 1 đến 255 được gọi là các bước nhảy cho các hệ số DCT Quá trình lượng tử được coi như là việc chia các hệ số DCT cho bước nhảy lượng tử tương ứng, kết quả này sau đó sẽ được làm
Nếu i = 0 Nếu i > 0
Trang 19tròn xuống số nguyên gần nhất Các hệ số năng lượng thấp này, tượng trưng cho các
sự thay đổi pixel - pixel cỡ nhỏ, có thể bị xóa mà không ảnh hưởng đến độ phân giải
của ảnh phục hồi Tại bộ mã hoá sẽ có một bảng mã và bảng các chỉ số nội bộ, từ đó
có thể ánh xạ các tín hiệu ngõ vào để chọn được các từ mã tương ứng một cách tốt
nhất cho tập hợp các hệ số được tạo ra và có 2 loại lượng tử hóa chủ yếu
Lượng tử vô hướng
Lượng tử vô hướng thực hiện biến đổi một giá trị của tín hiệu vào X thành một tập
các giá trị đã được lượng tử cho tín hiệu ra Y Mô tả của lượng tử vô hướng là sự làm
tròn của một số thực tới số nguyên gần nhất với nó Quá trình lượng tử vô hướng sẽ
làm mất mát thông tin vì giá trị sau khi được lượng tử không thể khôi phục về giá trị
ban đầu
Công thức tính lượng tử vô hướng:
Qcoeff = round (coeff / Qstep) (1.8)
Với: coeff : ma trận các giá trị trước khi lượng tử
Qcoeff : tập các giá trị sau khi lượng tử
Qstep : bước lượng tử
Trong nén và giải nén video, quá trình lượng tử vô hướng được chia thành 2 bước:
+ Lượng tử xuôi FQ (Forward Quantiser) tại bộ nén còn gọi là ‘scaled’
+ Lượng tử ngược IQ (Inverse Quantiser) tại bộ giải nén còn gọi là ‘rescaled’
Dữ liệu xuất của quá trình lượng tử xuôi FQ là một mảng các hệ số đã được lượng tử
hóa, trong đó phần lớn là các giá trị 0
Nếu giá trị bước lượng tử Qstep lớn thì các giá trị hệ số sau khi lượng tử sẽ được thay
thế với ít bit hơn và do đó tỉ lệ nén sẽ cao hơn so với bước lượng tử nhỏ Tuy nhiên,
với bước lượng tử lớn thì các hệ số sau khi được ‘rescaled’ sẽ có các giá trị sai lệch so
với các giá trị trước khi lượng tử lớn hơn so với bước lượng tử nhỏ
Lượng tử vector
Là một quá trình biểu diễn một tập vector (mỗi vector gồm nhiều giá trị) bằng một
tập các số hữu hạn các ký hiệu ở ngõ ra, bảng mã ánh xạ sẽ có các giá trị xấp xỉ với giá
trị gốc Vector lượng tử sẽ được lưu ở cả bộ mã hóa và bộ giải mã, quá trình nén một
bức ảnh sử dụng lượng tử vector bao gồm các bước sau
Phân chia bức ảnh gốc thành các phân vùng MxN pixel
Chọn vector thích ứng nhất từ bảng mã
Truyền chỉ số của vector thích ứng đến bộ giải mã
Tại bộ giải mã, ảnh cấu trúc lại sẽ xấp xỉ với phân vùng đã lựa chọn vector lượng
tử
1.2.6 Tiêu chuẩn đánh giá tín hiệu video
Đánh giá chất lượng video thông qua các giá trị cung cấp bởi hệ thống xử lý, và
việc suy giảm chất lượng tín hiệu có thể nhìn thấy được ( thông thường chúng được so
sánh với tín hiệu gốc) Qua hệ thống ta có thể thấy được những thay đổi về hình dạng,
việc định chuẩn chất lượng video là rất quan trọng Để đánh giá chất lượng của bức
ảnh (hay khung ảnh video) ở đầu ra của bộ mã hoá, người ta thường sử dụng các tham
số truyền thống sau để đánh giá:
Sai số bình phương trung bình (mean square error– MSE) định nghĩa cho cường độ
sai khác giữa ảnh gốc và ảnh dự đoán
i
R C N
Trang 20Tỉ số đỉnh tín hiệu trên nhiễu (peak to signal to noise ratio– PSNR)
MSE PSNR
10
)12(log
Trong đó NxN kích thước bù chuyển động; hệ số Ci, j và Ri, j tương ứng với mẫu hiện tại và vùng mẫu tham khảo; b số lượng bit/ mẫu
Thông thường, nếu:
PSNR ≥ 40dB thì hệ thống mắt người gần như không phân biệt được giữa ảnh
gốc và ảnh khôi phục, tức là ảnh nén có chất lượng xuất sắc
30 dB PSNR < 33 dB thì chất lượng ảnh nén bình thường, mắt người có sự phân biệt được
PSNR < 30 dB thì chất lượng ảnh nén kém
1.3 Mô hình cấu trúc DVB-T2
Hình 1.3 Mô hình cấu trúc cơ bản DVB-T2 [21]
DVB-T2 là tiêu chuẩn truyền hình số mặt đất cho thế hệ thứ 2, là thành quả nghiên cứu của nhiều nhà khoa học thuộc tổ chức DVB (Digital Video Broadcasting) trong suốt 3 năm (2006-2009) DVB-T2 cho phép tăng dung lượng dữ liệu trên kênh truyền (30%) và độ tin cậy trong môi trường truyền sóng trên mặt đất DVB-T2 chủ yếu dành cho truyền hình số có độ phân giải cao HDTV
DVB-T2 phải kế thừa những giải pháp đã tồn tại trong các tiêu chuẩn DVB khác DVB-T2 kế thừa 2 giải pháp kỹ thuật có quan trọng của DVB-S2, cụ thể:
Cấu trúc phân cấp trong DVB-S2, đóng gói dữ liệu trong khung BB (Base Band Frame) và Sử dụng mã sửa sai LDPC (Low Density Parity Check)
Mục tiêu chủ yếu của DVB-T2 là dành cho các đầu thu cố định và di chuyển, cho phép sử dụng được các anten thu hiện đang tồn tại ở mỗi gia đình và sử dụng lại các cơ
Trang 21Hệ thống DVB-T2 được chia thành 3 khối chính ở phía phát (SS1, SS2, SS3) và 2 khối chính ở phía thu (SS4, SS5) như trình bày trong hình
SS1: Mã hóa và ghép kênh
Khối SS1 có chức năng mã hóa tín hiệu video/audio cùng các tín hiệu phụ trợ kèm theo như PSI/SI hoặc tín hiệu báo hiệu lớp 2 (L2 Signalling) với công cụ điều khiển chung nhằm đảm bảo tốc độ bit không đổi đối với tất cả các dòng bit Khối này có chức năng hoàn toàn giống nhau đối với tất cả các tiêu chuẩn của DVB Đầu ra của khối là dòng truyển tải MPEG-2TS (MPEG - 2 Transport Stream)
SS2: Basic T2 – Gateway
Đầu ra của khối SS2 là dòng T2 - MI Mỗi gói T2-MI bao gồm Baseband Frame, IQ Vector hoặc thông tin báo hiệu (LI hoặc SFN) Dòng T2-MI chứa mọi thông tin liên quan đến T2-FRAME Mỗi dòng T2-MI có thể được cung cấp cho một hoặc một vài
bộ điều chế trong hệ thống DVB-T2
SS3: Bộ điều chế DVB-T2 (DVB-T2 Modulator)
Bộ điều chế DVB-T2 sử dụng Baseband Frame và Frame mang trong dòng
T2-MI đầu vào để tạo ra DVB-T2 Frame
SS4: Giải điều chế DVB-T2 (DVB-T2 Demodulator)
Bộ giải điều chế SS4 nhận tín hiệu cao tần (RF Signal) từ một hoặc nhiều máy phát (SFN Network) và cho một dòng truyền tải (MPEG-TS) duy nhất tại đầu ra
SS5: Giải mã dòng truyền tải (Stream Decoder)
Bộ giải mã SS5 nhận dòng truyền tải (MPEG-TS) tại đầu vào và cho tín hiệu video/audio tại đầu ra
Đối với các khối giao tiếp, các khung băng tầng cơ sở DVB-T2 ( Baseband Frame) đóng gói các đầu vào hệ thống DVB-T2 (TS hoặc Generic Stream) Các khung băng tầng cơ sở DVB-T2 này được vận chuyển trong giao tiếp điều chế DVB-T2 (T2-MI) Ngoài các thông tin này, T2-MI cũng thu thập dữ liệu T2 khác:
Dữ liệu tín hiệu L1: Nó cho phép xây dựng các khung T2 theo modulator
Dữ liệu vector IQ: đối với bất kỳ luồng phụ trợ
Dấu thời gian DVB-T2: cho các sự cố đồng bộ
Dữ liệu Khung Khung Mở rộng trong tương lai (FEF)
Hình 1.4 Khối giao thức T2-MI hệ thống DVB-T2 [21]
Đầu tiên, dữ liệu T2 được gói gọn thành các gói tin MI, và sau đó các gói tin
T2-MI được gói gọn trong các gói truyền tải DVB/MPEG bằng cách sử dụng Data Piping Các gói DVB TS được vận chuyển tự nhiên qua bất kỳ giao diện truyền tải tiêu chuẩn DVB (ASI) Ngoài ra, nó có thể được đóng gói trong các gói tin qua mạng dựa trên IP
Trang 22Kết luận chương 1
Chương này trình bày một cách tổng quát về hệ thống truyền hình số, một số đặc trưng của truyền hình số so với truyền hình tương tự, quá trình biến đổi và các tiêu chuẩn lấy mẫu, các kỹ thuật được sử dùng để xử lý tín hiệu video, các cơ sở để đánh giá chất lượng video sau quá trình mã hóa và giải mã Đồng thời chương 1 giới thiệu
sơ đồ và cấu trúc cơ bản hệ thống truyền hình số mặt đất DVB-T2, là cơ sở trong việc ứng dụng nén tín hiệu video vào hệ thống truyền hình số cho chương 3
Trang 23Chương 2 - KỸ THUẬT MÃ HÓA VIDEO H.265/HEVC VÀ SO SÁNH
VỚI H.264/AVC 2.1 Lịch sử phát triển các chuẩn nén và sự phát triển các sản phẩm liên quan đến mã hóa H.265/HEVC
2.1.1 Lịch sử phát triển
Hình 2.1 Lịch sử phát triển các chuẩn nén [3]
MPEG-2/H.262, H.264/AVC và H.265/HEVC là chuẩn nén video được phát triển bởi ISO/IEC Moving Picture Experts Group (MPEG) và ITU-T Video Coding Experts Group (VCEG) MPEG và VCEG đã thành lập một nhóm cộng tác viên về mã hóa video để phát triển chuẩn H.26x
Tiêu chuẩn H.264/AVC
H.264/MPEG-4 AVC được phát triển bởi sự hợp tác của VCEG ITU-T và ISO/IEC MPEG Đội dự án này được biết đến với cái tên Joint Video Team (JVT) Các tiêu chuẩn của phiên bản đầu tiên của H.264/ MPEG-4 AVC được hoàn thành tháng 5 năm
2003 Mục đích của đội dự án JVT là tạo ra một tiêu chuẩn nén có khả năng cung cấp chất lượng hình ảnh tốt ở tốc độ bit thấp hơn đáng kể so với tiêu chuẩn trước đó Và cuối cùng sau đó H.264/MPEG-4 AVC cũng được tạo ra và đã cung cấp đầy đủ linh hoạt các tính năng cần thiết để cho tiêu chuẩn này được áp dụng cho một loạt các ứng dụng trên một loạt các mạng và hệ thống, bao gồm tốc độ bit cao, thấp và video độ phân giải cao
Các ứng dụng hiện đang sử dụng H.264/MPEG-4 AVC được sử dụng trong Streaming internet sources như YouTube và iTunes Store Bên cạnh đó H.264/AVC còn được sử dụng trong truyền tải video chất lượng cao như trong các chương trình phát sóng HDTV: DVB-T, DVB-T2, DVB-C, DVB-S và DVB-S2 [4]
Tiêu chuẩn H.265/HEVC
VCEG đã bắt đầu nghiên cứu về thế hệ tiếp theo của H.264 từ năm 2004, bằng cách phát triển ra 1 chuẩn nén video mới hoàn toàn, hoặc là phát triển tiếp từ H.264 Các kĩ thuật khác nhau để nâng cao tiềm năng của chuẩn H.264 được khảo sát trong tháng 10 năm 2004 Tại cuộc họp tiếp theo của VCEG trong tháng 1 năm 2005, VCEG bắt đầu chỉ định một số tiêu chí kĩ thuật quan trọng (Key Technical Areas - KTA) thế hệ mã hóa tiếp theo Một cơ sở phần mềm là KTA Codebase cho NGVC (Next-gen Video Coding) đã được phát triển dựa trên mô hình chung của MPEG và VCEG cho H.264
Trang 24Yêu cầu về chất lượng của NGVC được đề ra là giảm bitrate còn một nửa mà vẫn giữ nguyên chất lượng so với H.264, ở tất cả các profile, hoặc giảm 25% bitrate cùng
độ phức tạp giảm, hoặc thậm chỉ giảm bitrate hơn nữa và tăng mức độ phức tạp mã hóa lên Công nghệ của năm 2009 chưa đủ mạnh nên HEVC được định nghĩa như là phần mở rộng của H.264 chứ không phải là hướng phát triển mới hoàn toàn MPEG đã bắt đầu nghiên cứu dự án tương tự vào năm 2007, lấy tên là HPVC ( High Performance Video Coding), nhưng bitrate trung bình chỉ giảm 20% so với AVC High Profile, điều này đã dẫn đến sự hợp tác với VCEG của MPEG Cuộc họp vào tháng 4 năm 2010 đã tiến hành lập ra nhóm JCTVC và các kĩ thuật mã hóa được đem ra bàn thảo, tổng cộng có hơn 27 đề xuất được gửi Các đánh giá cho thấy rằng H.265 có thế đạt tỉ suất nén cao gấp đôi so với H.264 Cũng tại cuộc họp, 2 dự án NGVC và HPVC được hợp nhất lại, lấy tên là HEVC, chính thức được gọi tắt là H.265 Ngay sau đó, JCT-VC đã kết hợp những tính năng tốt nhất của 2 dự án trên vào một mã duy nhất cho HEVC [11]
Phiên bản chuẩn H.265/HEVC đầu tiên được phê chuẩn vào tháng 1/2013
HEVC được nghiên cứu và phát triển nhằm mục đích làm tăng gấp đôi hiệu quả mã hóa video so với H.264/AVC đang tồn tại Mặc dù hiệu suất nén phụ thuộc vào nội dung, thiết lập bộ mã hóa, tuy nhiên ở cùng một mức độ chất lượng video, HEVC có tỷ
lệ nén dữ liệu gấp 2 lần so với H.264/AVC Hoặc có thể hiểu HEVC (H.265) được sử dụng để cung cấp chất lượng hình ảnh được cải thiện đáng kể tại cùng một tốc độ bit Khi nén một file có kích thước hoặc tốc độ bit tương tự như H.264/AVC thì H.265/HEVC cung cấp chất lượng hình ảnh tốt hơn đáng kể
2.1.2 Quá trình sự phát triển các sản phẩm liên quan đến mã hóa H.265/HEVC
Sự phát triển và hình thành chuẩn H.265/HEVC có mối liên hệ đối với sự phát triển công nghệ, nhu cầu thị trường, đặc biết là nhu cầu nghe nhìn trong những năm gần đây, sự phát triển truyền hình HDTV, UHDTV Tháng 10 năm 2005 UHDTV được đưa vào sử dụng đầu tiên tại bảo tàng quốc gia Kyushu (Nhật Bản)
Trong năm 2012
29/2/2012, tại Đại hội di động thế giới 2012, Qualcomm trình diễn một bộ giải
mã HEVC chạy trên một máy tính bảng Android, với một Qualcomm Snapdragon xử
lý lõi kép S4 tốc độ 1,5 GHz
24/4/2012, Liên minh Viễn thông quốc tế (ITU) đã giới thiệu công nghệ truyền hình độ nét siêu cao (UHDTV), một tiến bộ quan trọng trong công nghệ truyền Các nhà nghiên cứu và các hãng đã bắt đầu quan tâm đến các độ phân giải cao hơn 1080p như là độ phân giải siêu nét UHDTV (còn được gọi với các tên khác như SHV-Super Hi-Vision, Extreme Definition Video, )
22/8/2012, Ericsson thông báo rằng bộ mã hóa HEVC đầu tiên của thế giới, Ericsson SVP 5500 Các Ericsson SVP 5500 HEVC mã hóa được thiết kế để mã hóa thời gian thực của video cho các thiết bị di động
06/9/2012, Tổng công ty Rovi thông báo rằng một Main Concept SDK- Software Development Kit cho HEVC sẽ được phát hành vào đầu năm 2013 ngay sau khi HEVC được chính thức phê chuẩn Các HEVC MainConcept SDK bao gồm một bộ giải mã, mã hóa, và đa vận chuyển cho Microsoft Windows, Mac OS, Linux, iOS, và Android
09/09/2012, ATEME chứng minh tại triển lãm thương mại một bộ mã hóa HEVC với độ phân giải 3840x2160p ở 60 fps
Trang 25Trong năm 2013 Phiên bản chuẩn H.265/HEVC đầu tiên phê chuẩn vào1/2013
08/01/2013, Vanguard công bố sự sẵn có của V.265, một phần mềm mã hóa chuyên nghiệp HEVC có khả năng hiệu suất thời gian thực
04/02/2013, NTT DoCoMo công bố bắt đầu từ tháng ba sẽ cấp giấy phép thực hiện các phần mềm giải mã HEVC Trong một tài liệu JCT-VC NTT DoCoMo cho thấy bộ giải mã phần mềm HEVC của họ có thể giải mã 3840×2160 ở 60 fps
19/04/2013, SES công bố lần đầu tiên UltraHD sử dụng các tiêu chuẩn HEVC với độ phân giải 3840×2160 và tốc độ bit 20 Mbp/s
09/05/2013, NHK và Mitsubishi Electric thông báo rằng họ đã cùng nhau phát triển bộ mã hóa HEVC đầu tiên cho 8K Ultra HDTV, còn được gọi là Super Hi-Vision (SHV) cho phép nó để mã hóa 10-bit video với độ phân giải 7680×4320 ở 60 fps
21/08/2013, Microsoft phát hành một DirectX Video Acceleration (DXVA) cho HEVC hỗ trợ hồ sơ cá nhân chính DXVA 2.0 ứng dụng cho các hoạt động: phân tích bitstream, deblocking, nghịch đảo lượng tử mở rộng quy mô, và bù chuyển động
11/09/2013, ViXS System công bố XCode 6400SoC hỗ trợ 4K 60 fps
29/10/2013, Elemental Technologies công bố hỗ trợ xử lý video thời gian thực 4K HEVC
2.2 Kỹ thuật mã hóa video H.264/AVC
2.2.1 Sơ đồ mã hóa và giải mã chuẩn H.264/AVC
Hình 2.2 Sơ đồ khối của bộ mã hóa và giải mã MPEG-4 H.264/AVC [5]
Bộ mã hóa
Một bức ảnh đầu vào gồm có 3 thành phần màu cơ bản R, G, B, sẽ được biến đổi thành Y, U, V sau đó ảnh sẽ được tách thành các khối MB có kích thước N × N với N
Trang 26= 2, 4, 8, và 16 tùy thuộc vào độ phức tạp của bức ảnh Ảnh đầu tiên hoặc điểm truy nhập ngẫu nhiên thì được mã hóa Intra, các ảnh còn lại của dãy dùng dự đoán bù chuyển động từ các ảnh đã mã hóa trước để mã hóa Inter Dữ liệu từ các MB cần được
mã hóa sẽ được đưa đến bộ dự đoán chuyển động Bộ dự đoán chuyển động sẽ so sánh các MB mới được đưa vào với các MB tham khảo đã được đưa vào trước đó, rồi tìm ra các MB trong khung tham khảo gần giống nhất với MB cần được mã hóa này Bộ dự đoán chuyển động sẽ tính toán vector chuyển động, vector này sẽ đặc trưng cho sự dịch chuyển theo cả hai chiều ngang và thẳng đứng của MB mới cần được mã hóa so với khung tham khảo Bộ dự đoán chuyển động cũng đồng thời gửi các MB tham khảo tới bộ trừ với MB mới cần được mã hóa, để tạo ra các sai số tiên đoán đặc trưng cho sự sai khác giữa MB dự đoán và MB cần mã hóa Tín hiệu sai khác này sẽ được biến đổi nguyên để tạo ra tập hệ số biến đổi sau đó được đưa qua bộ lượng tử để làm giảm số lượng bit cần truyền Đến đây, các hệ số lượng tử được chia làm hai hướng, một hướng sắp xếp lại và đưa vào mã hóa Entropy, tại đây số bit đặc trưng cho các hệ số tiếp tục được làm giảm đi một cách đáng kể, hướng còn lại đưa qua bộ giải lượng tử và biến đổi ngược để tạo ra khối sai số Sau đó đưa vào bộ cộng với tín hiệu dự đoán và được lọc tách khối trong vòng nhằm làm giảm hiệu ứng khối tạo thành ảnh cấu trúc lại, được lưu trữ nhằm mục đích ước lượng và dự đoán chuyển động Dữ liệu tại đầu ra bộ mã hóa Entropy sẽ kết hợp với vector chuyển động và các thông tin khác như thông tin về ảnh I, ảnh P, và ảnh B rồi truyền ra ngoài kênh truyền dưới dạng dòng bit nén của các đơn vị NAL, gửi tới bộ giải mã
Bộ giải mã
Đầu tiên bộ giải mã Entropy nhận được các dòng bit nén từ NAL, một mặt sẽ giải
mã Entropy để tách thông tin tiêu đề và vector dự đoán chuyển động đưa vào bù chuyển động, mặt khác các hệ số DCT được giải lượng tử và biến đổi ngược IDCT để biến tín hiệu từ miền tần số thành tín hiệu ở miền không gian, các hệ số biến đổi ngược thu được sẽ cộng với tín hiệu dự đoán Sau đó một phần được đưa qua bộ lọc tách khối
để loại bỏ hiện tượng nhiễu trước khi đưa vào lưu trữ, phần còn lại được sử dụng cho mục đích dự đoán
2.2.2 Cấu trúc H.264/AVC
2.2.2.1 Các profiles và level
Chuẩn H264/AVC bao gồm 3 profile Mỗi profile hỗ trợ một tập các chức năng
và công cụ mã hóa xác định cho bộ nén và bộ giải nén nhằm để tạo ra luồng bit nén ứng với profile đó
Profile cơ bản (Baseline Profile)
Hỗ trợ mã hóa Inter và mã hóa Intra (dùng các slice I và slice P), mã hóa entropy sử dụng thuật toán mã hóa chiều dài thay đổi ứng ngữ cảnh (Context Adaptive Variable Length Coding-CAVLC) Các ứng dụng của profile này là trong điện thoại video, hội nghị trực tuyến và các hệ thống truyền thông không dây
Profile chính (Main Profile)
Ngoài các slice I, P được mã hóa, profile này còn mã hóa video dùng các slice B Mã hóa entropy dùng thuật toán mã hóa số học ngữ cảnh (CABAC) Profile chính được ứng dụng trong các hệ thống truyền hình kỹ thuật số, các hệ thống lưu trữ dữ liệu
Profile mở rộng (Extended Profile)
Ngoài các kỹ thuật được sử dụng trong profile cơ bản và một phần của profile chính, profile mở rộng còn sử dụng thêm các slice SI và SP trong mã hóa ảnh Profile
Trang 27mở rộng được dùng trong các ứng dụng xem hoặc truyền tải video trực tuyến, có khả năng nén cao và một số cải tiến riêng để xử lý việc mất dữ liệu và đồng bộ hóa các dòng dữ liệu khi gặp sự cố về đường truyền Internet
Có 16 level trong H264/AVC xác định số khung hình, tốc độ xử lý, độ phân giải, tốc độ bit video Trong luận văn sử dụng level 5.1 để mã hóa so sánh với H.265, chi tiết các giới hạn mức H.264/AVC xem ở phụ lục H
2.2.2.2 Slices
Ảnh khi mã hóa được chia thành một hoặc nhiều slice Một slice có thể chứa một hoặc nhiều macroblock Trong trường hợp ảnh chỉ có một slice, slice sẽ chứa tất cả các macroblock trong ảnh đó Số lượng các macroblock trong các slice của ảnh không cần thiết phải giống nhau
Có 5 loại slice và một ảnh có thể chứa nhiều loại slice khác nhau Các ảnh được mã hóa của profile cơ bản chứa các slice loại P và I, các ảnh được mã hóa của profile chính và profile mở rộng có thể chứa tập các slice kiểu I, P, B, SI và SP
Bảng 2.1 Các loại slice mã hóa trong H264/AVC [3]
I (Intra) Chứa các macroblock I (mỗi macroblock được dự đoán
từ các dữ liệu đã được mã hóa trong cùng slice) Tất cả
P (Predicted)
Chứa các macroblock P (mỗi macroblock hoặc phần chia macroblock được dự đoán từ danh sách ảnh tham chiếu list 0 và /hoặc từ các macroblock I) Tất cả B(Bi-predictive )
Chứa các macroblock B (mỗi macroblock hoặc phần chia macroblock được dự đoán từ danh sách ảnh tham chiếu list 0 hoặc list 1 hoặc các maroblock I)
Profile chính và
mở rộng
SP (Switching P)
Chứa các macroblock kiểu I và hoặc P, cung cấp khả năng chuyển đổi dễ dàng giữa những luồng bit được mã hóa
Profile mở rộng
SI (Switching I)
Chứa các macroblock SI (loại maroblock đặc biệt trong
mã hóa Intra), cung cấp khả năng chuyển đổi dễ dàng
giữa những luồng bit được mã hóa
Profile mở rộng
2.3 Kỹ thuật mã hóa video H.265/HEVC
2.3.1 Sơ đồ mã hóa và giải mã chuẩn H.265/HEVC
Hình 2.3 mô tả sơ đồ khối của một bộ mã hóa video lai ghép giữa mã hóa và giải
mã, để tạo ra một luồng dữ liệu của HEVC Mỗi bức ảnh đầu vào sẽ được chia thành các khối hình với các phân vùng khối chính xác rồi đưa tới bộ mã hóa Những hình ảnh đầu tiên của một chuỗi video được truy cập ngẫu nhiên và được mã hóa bằng cách
sử dụng dự đoán trong ảnh (intra-picture) Đối với các hình còn lại của một chuỗi hoặc giữa các điểm truy cập ngẫu nhiên hầu hết sẽ được mã hóa bằng dự đoán liên ảnh (inter-picture) Quá trình dự đoán liên ảnh thực hiện việc lựa chọn dữ liệu chuyển động bao gồm các hình ảnh tham khảo và vector chuyển động (MV) được chọn để áp dụng vào việc dự đoán các mẫu của mỗi khối Các khối mã hóa và giải mã tạo ra các tín hiệu
dự đoán liên ảnh giống hệt nhau bằng cách áp dụng bù chuyển động (sử dụng vector chuyển động, dữ liệu quyết định được truyền đi như các thông tin phụ) Các tín hiệu
dư thừa trong quá trình dự đoán liên ảnh hoặc dự đoán trong ảnh là do sự khác biệt giữa các khối ban đầu và khối dự đoán, được biến đổi bởi một liên kết không gian
Trang 28tuyến tính Các hệ số biến đổi này sau đó được gom lại, lượng tử hóa, mã hóa entropy
và được truyền cùng với thông tin dự báo
Hình 2.3 Sơ đồ khối của bộ mã hóa và giải mã H.265/HEVC [7]
Bộ giải mã (khối màu xám trong hình 2.3) thực hiện các bước ngược lại so với bộ
mã hóa như giải mã Entropy, giải lượng tử hóa và biến đổi ngược Phần dư này sau đó được bổ sung vào dự đoán Kết quả của việc bổ sung sau đó có thể sẽ được đưa vào một hoặc hai vòng lọc để làm mịn hình ảnh Một bản sao đầu ra của bộ giải mã được lưu trữ trong bộ đệm hình ảnh để sử dụng trong việc dự đoán các hình ảnh tiếp theo
2.3.2 Các profiles và level
Phiên bản đầu của H.265/HEVC gồm 3 profiles là : Main, Main 10 và Main Still Picture Tháng 4 năm 2014 phạm vi profiles được mở rộng thành 19 profiles (phiên bản thứ 2) gồm : Monochrome 12, Monochrome 16, Main 12, Main 4:2:2 10, Main 4:2:2 12, Main 4:4:4, Main 4:4:4 10,Main 4:4:4 12, Monochrome 12 Intra, Monochrome 16 Intra, Main 12 Intra, Main 4:2:2 10 Intra, Main 4:2:2 12 Intra, Main 4:4:4 Intra, Main 4:4:4 10 Intra, Main 4:4:4 12 Intra, Main 4:4:4 16 Intra, Main 4:4:4 Still Picture, và Main 4:4:4 16 Still Picture
Các profiles được mở rộng này đi kèm với các tùy chọn công cụ mã hóa mới đó là :
Hỗ trợ số lượng bit lên tới 10 bits trên một mẫu
Hỗ trợ tỉ lệ lấy mẫu 4:0:0, 4:2:2, 4:4:4
Hỗ trợ mã hóa chỉ toàn intra và mã hóa chỉ toàn still-picture cho các ứng dụng
mà không cần dự đoán inter-picture
Mở rộng quá trình xử lí chính xác, sử dụng một dải động mở rộng cho nội suy inter prediction và chuyển đổi ngược
Trang 29 Dự đoán chéo thành phần, sử dụng dự đoán giữa các thành phần chroma/luma để
hỗ trợ cho hiệu quả mã hóa Giảm bit rate lên đến 7% cho Video YcbCr 4:4:4 và lên tới 26% cho video RGB
Đối level trong luận văn sử dụng level 5.1 tương đương với level 5.1 của H.264 dùng để so sánh đánh giá
Bảng 2.2 Giới hạn mức trong H.265/HEVC[8]
Tốc độ lớn nhất với Main và Main 10 profiles (kbit/s)
Độ phân giải@ tốc độ khung lớn nhất
352x288@30fps 2.1 7,372,800 3,0 Mbit/s 3000 kbit/s - 352x288@60fps
640x360@30fps
3 16,588,800 6,0 Mbit/s 6 000 kbit/s - 640x360@67.5fps
960x540@30fps 3.1 33,177,600 10,0 Mbit/s 10,000 kbit/s - 720x576@75fps
1,920x1,080@300fps 3,840x2,160@128fps 4,096x2,160@120fps 5.2 1,069,547,520 60,0 Mbit/s 60,000 kbit/s 240,000 kbit/s
1,920x1,080@300fps 3,840x2,160@128fps 4,096x2,160@120fps
6 1,069,547,520 60,0 Mbit/s 60,000 kbit/s 240,000 kbit/s
3,840x2,160@128fps 7,680x4,320@32fps 8,192x4,320@30fps
2.3.3 Phân vùng ảnh
Bộ mã hóa video lai ghép được dựa trên sự mã hóa và giải mã các block ảnh, sự phân vùng các khối khác nhau và xử lý độc lập hoặc phụ thuộc Bộ mã hóa video lai ghép sử dụng thiết kế hệ thống cao cấp hai lớp để phân chia hình ảnh đó là: Lớp mã hóa video (VCL) và lớp trừu tượng mạng (NAL)
Lớp VCL bao gồm: phân ảnh mức thấp, dự đoán hình ảnh, mã hóa biến đổi, mã hóa entropy, In-Loop filter
Lớp NAL bao gồm phân vùng ảnh cấp cao bằng cách sử dụng dữ liệu được mã hóa và các thông tin liên quan được đóng gói logic hữu ích cho việc truyền tải video qua các lớp truyền tải khác nhau Sự cần thiết cho việc phân vùng ảnh mức cao là việc xử lý song song và đóng gói tin
Trong H.265/HEVC, có tổng cộng 64 loại gói NAL, được chia thành hai loại: mã hóa video (VCL NAL) và mã hóa phi video (non-VCL NAL) Các gói VCL NAL mang một phần của một dữ liệu hình ảnh của video đã được mã hóa, trong khi các gói non-VCL NAL chứa các dữ liệu kiểm soát, thông số sử dụng trong quá trình giải mã
Trang 30Dữ liệu của một hình ảnh đã được mã hóa với non-VCL NAL (những thông số kiểm soát quá trình mã hoá hình ảnh đó) tạo ra một gói truy cập của H.265/HEVC Do đó, gói truy cập của H.265/HEVC bao gồm nhiều hơn một gói VCL NAL
2.3.3.1 Phân vùng ảnh mức cao
Để xử lý song song và gói tin, yêu cầu phân vùng hình ảnh mức cao Trong tiêu chuẩn video mới nhất HEVC cũng như tiêu chuẩn trước của nó sử dụng Slide để phân chia ảnh ở mức cao
Slice
Một slice cung cấp một phần của một ảnh theo cách mỗi slice được mã hóa độc lập
Do đó, nếu một ảnh được phân ra N slice, Do đó, nếu một ảnh được phân ra N slice, thì N slice này có thể được xử lý song song Hình 2.4 minh họa trường hợp một ảnh được chia thành 3 slide và mỗi slice được xử lý độc lập Về mặt khái niệm, một slice bao gồm slice header và dữ liệu của nó, thông tin giải mã Slice có trong slice header, trong H.265/HEVC có 2 kiểu slice, đó là :
Independent slice : Các slice độc lập, và được xử lý mà không có thông tin từ các slice mã hóa trước
Dependent slice : Trong H.265/HEVC, mỗi slice có thể được chia nhỏ thành các tập con hoặc các trích đoạn nhỏ Trong hình 2.4 slice phụ thuộc được chia làm hai phần Ở phần đầu nên là một slide độc lập (có đầy đủ header slice) Phần còn lại của tập hợp con không có header slice, chúng sử dụng thông tin trước đó và được gọi là các Slice phụ thuộc (dependent slice) Khái niệm này chủ yếu hữu ích trong mã hóa low-delay [7]
Hình 2.4 Cấu trúc slice của một ảnh [7]
Ngoài ra các slice có thể được mã hóa dưới dạng các loại mã hóa khác nhau như Slice, P-Slice và B-Slice được mô tả theo hình sau :
Trang 31chính là tăng cường xử lý song song và nó có thể được sử dụng cho việc truy cập không gian ngẫu nhiên (random access) Về khả năng phục hồi lỗi thì Tile không tốt bằng Slice nhưng về hiệu suất mã hóa thì việc phân chia theo kiểu Tile vượt trội hơn Slice
Hình 2.6 Cấu trúc tile của một ảnh [7]
Wavefont Parallel Processing (WPP)
Đây là đặc trưng mới trong bộ mã hóa H.265/HEVC so với chuẩn trước đó, với thuộc tính có thể lựa chọn Một slice có thể chia thành các hàng của các phần tử (CTUs) Dòng đầu tiên được xử lý thông thường, thuật toán bắt đầu xử lý từ hàng thứ hai trở đi Sau khi xử lý phần tử thứ 2 của hàng thứ nhất, thì việc xử lý hàng thứ 2 có thể bắt đầu Tương tự, sau khi xử lý phần tử thứ hai của hàng thứ 2, thì hàng thứ 3 có thể bắt đầu xử lý tương tự đối với hàng tiếp theo và biểu diễn trên hình 2.7
Hình 2.7 Cấu trúc WPP trong một slice [7]
Nội dung cơ bản của WPP là bắt đầu quá trình xử lí (mã hóa hoặc giải mã) một hàng CTU mới ngay khi hai CTU của hàng trên đã được xử lí Việc yêu cầu 2 CTU bởi vì dự đoán intra và dự đoán vector chuyển động của CTU đang xử lí phụ thuộc dữ liệu ở trên từ cả CTU phía trên nó và CTU phía trên bên phải của nó Thông số mã hóa Entropy được khởi tạo dựa trên các thông tin thu được từ 2 CTU hàng trên cho phép
xử lí tình huống tốt hơn trong hàng mã hóa mới
Xử lý song song trong H.265/HEVC
Song song là một trong những kỹ thuật quan trọng tạo nên sự khác biệt về hiệu quả
mã hóa trong H.265/HEVC, so với những tiêu chuẩn mã hóa khác trước đó Nhờ các
bộ xử lý nhiều nhân trong một CPU, xử lý đa luồng, một hình ảnh, một mảnh hay một khối có thể được mã hóa một cách độc lập trong một lõi Điều này làm giảm thời gian
mã hóa, giảm độ trễ mã hóa trong H.265/HEVC, so với quá trình mã hóa đồng bộ của các tiêu chuẩn cũ
Trong H.265/HEVC, có ba cấp độ cấu trúc có thể thực hiện theo xử lý song song:
Trang 32 Song song cấp hình ảnh: nhiều hình ảnh có thể được mã hóa cùng một lúc Do
đó, các thành phần phụ thuộc thời gian cho dự đoán bù chuyển động được đápứng Mỗi lõi trong một bộ xử lý có trách nhiệm mã hóa một hình ảnh
Song song cấp mảnh: Như đã thảo luận, trong H.265/HEVC, một hình ảnh được phân chia thành nhiều mảnh Những mảnh này có thể được mã hóa một cách độc lập với những mảnh khác trong cùng một hình ảnh, do đó các mảnh có thể được sử dụng để song song hóa Tất cả các dữ liệu cần thiết để giải mã chứa trong tiêu đề mảnh, dữ liệu mảnh và các loại tập tham số
Song song cấp khối: Dựa vào các quá trình độc lập của một khối mã hóa, song song cấp khối có nghĩa là một khối có thể được dự đoán trong một lõi, trong vòng lọc trong một lõi, và entropy được mã hóa trong một lõi khác Mỗi bước mã hóa một khối có thể được xử lý đồng thời trên các lõi khác nhau
2.3.3.2 Các tập tham số trong H.265/HEVC
Các tập tham số trong H.265/HEVC cơ bản là giống với các tập tham số trong H.264/AVC, ngoại trừ một tập mới được gọi là tập tham số video (Video Parameter Set- VPS), các tập khác giữ nguyên: tập tham số chuỗi (Sequence Parameter Set- SPS), tập tham số hình ảnh (Picture Parameter Set- PPS) Mục tiêu của việc sử dụng các tập tham số là làm tăng hiệu quả tỷ lệ bit, khả năng phục hồi lỗi, và cung cấp các giao diện lớp cho hệ thống Cụ thể là những tham số có thể được sử dụng nhiều lần ở trong quá trình mã hoá những ảnh khác nhau, mảnh (slice) khác nhau nên tuỳ vào phạm vi sử dụng của các tham số mà phân chia vào các tập khác nhau, tránh truyền đi lặp lại nhiều lần, bit-rate tăng Một mảnh hoặc mẫu (sample) có thể dễ dàng lấy được giá trị của tham số cầnn dùng bằng cách truy cập vào các tập tham số thông qua ID, như thể hiện trong hình trên hình 2.8 sau
Hình 2.8 Các tập tham số trong H.265/HEVC [7]
Tập tham số video (VPS) là một tập mới được xác định trong H.265/HEVC Các thông số của nó được áp dụng trong quá trình mã hoá toàn bộ video
Tập tham số chuỗi (SPS) chứa thông tin áp dụng cho quá trình mã hoá một nhóm các hình ảnh
Tập tham số hình ảnh (PPS) chứa các thông số áp dụng cho quá trình mã hoá một hình ảnh cụ thể PPS thay đổi theo hình ảnh, nhưng những hình ảnh khác vẫn có thể tham chiếu tới PPS đó (thông qua ID)
2.3.3.3 Cấu trúc khối và phân vùng các khối ảnh
H.265/HEVC là một phương pháp mã hóa video hỗn hợp theo khối, nền tảng của
mã hoá video, giống như những chuẩn mã hoá trước Cũng như H.264/AVC, hình ảnh được chia thành nhiều khối Tuy nhiên, H.265/HEVC đề xuất một cấu trúc dữ liệu, có thể cải thiện đáng kể khả năng dự đoán và chuyển đổi của tiêu chuẩn nén H.265/HEVC này
Trang 33a Khối mã hóa cây (CTB) và đơn vị mã hóa cây (CTU)
Thay vì sử dụng khối macroblock như H.264/AVC và tất cả các tiêu chuẩn mã hóa video trước, trong H.265/HEVC, một hình ảnh được phân chia thành nhiều khối vuông, gọi là khối mã hóa cây (Coding Tree Blocks-CTB) Những khối vuông CTB trong H.265/HEVC có kích thước từ 4x4 đến 64x64, lớn hơn so với kích thước lớn nhất của một macroblock (16x16) được sử dụng trong H.264/AVC Một CTB, chính
nó có thể chia ra các CTB khác dựa trên độ phức tạp của ảnh theo cấu trúc dữ liệu dạng cây (quadtree structure) Những CTB nhỏ hơn này giống nhau về cả thành phần
độ sáng (luma) và màu sắc (chroma) Do đó, một thành phần sáng CTB và 2 thành phần màu CTB tương ứng sẽ tạo ra một đơn vị mã hóa cây (Coding Tree Units -CTU) nếu định dang nén video là 4:2:0, giống như macroblock, là đơn vị xử lý trong H.265/HEVC Một nhóm các CTU liền kề cùng nhau cấu thành nên một mảnh, tương
tự nhiều macroblock tạo nên mảnh trong H.264/AVC
Hình 2.9 Phân vùng hình ảnh thành nhiều macro 16x16 và CTU 64x64 [1]
Do kích thước khối lớn, việc mã hóa của H.265/HEVC trở lên hiệu quả hơn, nhưng đòi hỏi bộ nhớ tốt hơn, làm tăng độ trễ và sự phức tạp trong tính toán ở cả hai bộ mã hóa và giải mã Tuy nhiên, kích thước khối lớn hơn cho phép cấu trúc mã hóa của H.265/HEVC phù hợp với đặc điểm nội dung video có độ phân giải cao, so với tất cả các tiêu chuẩn mã hóa trước đó Cụ thể như trong hình 2.9, hình ảnh có nhiều vùng giống nhau nên việc sử dụng khối kích thước lớn sẽ hiệu quả hơn, bao phủ được rộng hơn so với khối kích thước nhỏ, từ đó giảm số khối, giảm số xử lý mã hóa Bộ mã hoá
sẽ cân bằng giữa điều kiện phần cứng và yêu cầu của định dạng video mã hoá mà chia ảnh ra thành các CTB một cách hợp lý Kích thước CTU được xác định bởi bộ mã hóa, sau đó truyền đến bộ giải mã thông qua các tập tham số chuỗi (SPS)
b Khối dự đoán (CU) và đơn vị dự đoán(PB)
Cũng như CTB, CTU thể được phân chia thêm thành các đơn vị hình vuông nhỏ hơn, được gọi là đơn vị mã hóa (Coding Unit-CU) dựa theo cấu trúc dữ liệu dạng cây
để giải quyết một số vấn đề: như việc lựa chọn chế độ dự đoán cho khối là trong ảnh (intra) hay liên ảnh (inter) là không thích hợp do gặp vấn đề bất lợi trong quá trình dự đoán tỷ l biến dạng (rate-distortion) Phân vùng đệ quy chia CTU thành nhiều CU có kích thước khối khác nhau, nhỏ hơn, làm cho H.265/HEVC có thể quyết định một cách linh hoạt và hiệu quả về dự đoán nội ảnh hay liên ảnh, đặc biệt là làm giảm mối tương quan giữa các khối trong cùng một ảnh
Trang 34Hình 2.10 Ví dụ về phân vùng CTU theo thứ tự chiều sâu [8]
Trường hợp CU được mã hóa theo dự đoán liên ảnh (inter-picture prediction), thành phần sáng (luma) và màu (chroma) của CU đó có thể được chia thành các đơn vị nhỏ hơn làm cơ sở để dự đoán, gọi là các khối dự đoán (Prediction Blocks-PB) Do đó, PB được định nghĩa là các mẫu chứa thành phần sáng hoặc màu mà sử dụng thông số chuyển động (motion parameters) giống nhau Trong đó, các thông số chuyển động bao gồm các vector chuyển động được dự đoán và những ảnh tham chiếu của các vector đó Tương tự với cú pháp của CU, một đơn vị dự đoán (Prediction Units-PU) được tạo ra bởi một PB độ sáng và PB màu sắc tương ứng của nó Một CU có thể chứa nhiều đơn vị dự đoán, trường hợp đặc biệt là khi kích thước của PU bằng với gốc CU nên CU chỉ có một PU Bên trong một PU, tất cả quá trình dự đoán được thực hiện và thông tin được truyền đến bộ giải mã Theo chế độ dự đoán liên ảnh, H.265/HEVC có tám hình dạng chia tách từ CU thành PU, xem hình 2.10 Với số lượng kích thước PU
đa dạng hơn thì hiệu quả mã của của H.265/HEVC cũng cao hơn Hiệu quả dự đoán bù chuyển động trong H.265/HEVC cao hơn Tuy nhiên, có sự cân nhắc giữa số lượng nhỏ hơn các phương thức dự đoán và hiệu quả mã hóa Kích thước khối tối thiểu của
PU trong H.265/HEVC là 4x4
c Khối biến đổi (TB) và đơn vị biến đổi (TU)
Một block mã hóa (CB) có thể được chia thành nhiều khối biến đổi (Transform Blocks -TB) Một TB được miêu tả là một khối hình vuông chứa thành phần sáng hoặc màu, mà tại đó ánh xạ hai chiều được sử dụng để mã hóa Việc chia CB thành nhiều
TB được dựa trên cấu trúc dạng cây, như trên hình 2.11 Trong đó, vị trí gốc là CB và các lá cây là các TB Một nút lá được xác định trong RQT (Residual Quadtree Structure) khi kích thước khối biến đổi nhỏ nhất, tuy nhiên sự phân chia RQT bị hạn chế bởi độ sâu tối đa Ví dụ, nếu độ sâu tối đa của RQT là 1, thì CB 2Nx2N chỉ có thể được phân chia một lần thành một TB có cùng kích thước hoặc 4 NxN Trường hợp đặc biệt nếu độ sâu tối đa là 0, kích thước của CB hiện tại là 64x64, trong khi kích thước biến đổi tối đa là 32 Tại thời điểm này, CB bị ép chia thành 4 TB 32x32 để đáp ứng giới hạn về kích thước biến đổi tối đa Cũng như CB, TB sáng và các TB màu tương ứng cấu thành nên đơn vị chuyển đổi (Transform Unit- TU)
Trang 35Hình 2.11 Ví dụ về chia một CTB thành nhiều TBs [8]
Trong ví dụ trên cho phân vùng 64x64 khối mã hóa cây mức sáng-luna (màu đen) vào các khối mã hóa (màu xanh) và khối chuyển động (màu đỏ) Trong hình minh họa bên phải các đường xanh biểu thị cây mã hóa tương ứng với khối cây mã hóa (hình đen vuông) ở gốc của nó và các khối mã hóa (các đường tròn màu xanh) tại các nút lá của nó
Các đường màu đỏ biểu thị các quadtree phần dư không phân hóa với các khối biến đổi (hình tròn màu đỏ) như nút lá Lưu ý rằng các khối chuyển đổi được chọn giống hệt với các khối mã hóa tương ứng không được đánh dấu rõ trong hình này Các con số nhận ra thứ tự mã hóa và các khối biến đổi
Hình 2.12 Mối quan hệ giữa CU, PU và TU trong H.265/HEVC [8]
2.3.4 Biến đổi và lượng tử hóa
Trong cách tiếp cận mã hóa lai ghép các khối ảnh, các phép biến đổi được áp dụng cho những tín hiệu sai khác giữa từ kết quả dự báo liên ảnh và trong ảnh được biểu thị trong hình 2.13 Tại khối mã hóa, phần dư của một ảnh được chia thành 2 khối vuông có kích thước NxN với N=2M với M là số nguyên Mỗi khối dư (U) được sát nhập vào một chuyển đổi hai chiều NxN Việc chuyển đổi hai chiều có thể thực hiện tách rời bằng cách áp dụng một phép biến đổi theo chiều dọc N điểm cho mỗi hàng và mỗi cột riêng biệt Các kết quả hệ số biến đổi NxN (coeff) sau đó được lượng tử hóa (tương đương với việc chia theo bước lưỡng tử hóa Qstep) để đạt được một hệ chuyển đổi đã lượng tử hóa (level)
Trang 36Hình 2.13 Sơ đồ tổng quát biến đổi và lượng tử hóa block video
(a) Mã hóa, (b) Giải mã [3]
Tại bộ giải mã, hệ số đã được lượng tử hóa được giải lượng tử hóa bằng cách nhân với hệ số Qstep Cuối cùng một phép biến đổi ngược NxN riêng rẽ được áp dụng cho các hệ số được giải lượng tử hóa (coeffQ) kết quả có được các mẫu phần sai khác ảnh được lượng tử hóa sau đó kết hợp với phần mẫu dự đoán liên ảnh và trong ảnh để đạt được một block được tái tạo
Thông thường ma trận phép chuyển đổi (U) ở phần giải mã là ma trận chuyển vị của (U) tại bộ mã hóa Trong tiêu chuẩn mã hóa video như H.265/HEVC, quá trình giải lượng tử hóa và chuyển đổi ngược là được chỉ định, trong quá trình chuyển đổi và lưỡng tử hóa được chọn bởi nhà thực thi, nó phụ thuộc vào sự ràng buộc trên bitstream Đối với chuyển đổi, có 2 biến đổi sử dụng trong HEVC Chuyển đổi cốt lõi dựa trên biến đổi cosin rời rạc và chuyển đổi luân phiên dựa trên biến đổi sine rời rạc
Thông số lượng tử hóa QP
H.265/HEVC cho phép truyền một giá trị QP ở cấp độ nhóm lượng tử (QG) để cho phép thay đổi QP trong một bức ảnh Điều này tương tự như H.264/AVC cho phép sửa đổi các giá trị QP ở cấp độ macroblock Kích thước QG là một bội số của kích thước
mã hóa có thể dao động từ 8 x 8 đến 64 x 64 tùy thuộc vào kích thước cây mã hoá (CTU), thể hiện trong Bảng 2.3
Bảng 2.3 Kích thước nhóm lưỡng tử hóa cho kích thước CTU khác nhau
Sự khác nhau độ
sâu delta-QP
Kích thước nhóm lượng tử hóa cho
64 x 64 CTU
Kích thước nhóm lượng tử hóa cho
32 x 32 CTU
Kích thước nhóm lượng tử hóa cho
Trang 37Nếu CTU được chia thành các đơn vị mã hóa lớn hơn kích thước QG thì delta-QP báo hiệu tại một đơn vị mã
Nếu CTU được chia nhỏ hơn kích thước QG thì delta-QP báo hiệu trong đơn vị mã hóa đầu tiên với hệ số biến đổi khác không trong QG
Nếu một QG có các đơn vị mã hóa có các hệ số bằng không (ví dụ trong chế độ merge mode) thì delta-QP không báo hiệu
Bộ dự đoán giá trị QP
Bộ dự đoán QP được sử dụng để tính toán giá trị delta-QP bằng cách sử dụng các giá trị QP từ bên trái, phía trên và giá trị QG trước đó được thể hiện trên hình 2.14, các
dự đoán QP sử dụng kết hợp 2 thuật toán dự đoán:
Dự đoán không gian (từ trái và trên các QG) và dự báo QG trước đó Nó sử dụng dự báo không gian từ bên trái và bên trên trong một CTU và sử dụng QP trước đó làm dự báo tại ranh giới của CTU Các giá trị QP liền kề trong không gian, QPLEFT và QPABOVE được coi như là không có sẵn khi chúng ở một CTU khác hoặc nếu QG hiện tại ở tại ranh giới một slice/tile/picture Khi không có QP không gian liền kề, thì
nó sẽ thay bởi các giá trị previous QP, QPPREV theo thứ tự giải mã Các giá trị previous QP, QPPREV được khởi tại từ slice QP tại các giá trị bắt của Slice, Tile, wavefront
Hình 2.14 Bộ dự đoán tính toán QP trong H.265/HEVC [3]
Các giá trị QP được tính trên được sử dụng để tính giá trị luna, còn giá trị chroma (thành phần Cr và Cb) được lấy từ QP-luna bằng cách sử dụng mức ảnh, mức slice ofset và bản tra cứu
QP- Các chế độ đặc biệt của HEVC
HEVC có ba chế độ đặc biệt để lựa chọn trình biến đổi và lượng tử [9, 10, 11]
Trang 38Hình 2.15 Các chế độ I_PCM, lossless and transform skip trong bộ mã hóa [3].
Trong chế độ I_PCM chuyển đổi và lượng tử hóa đều được bỏ qua Ngoài ra mã hóa entropy và dự đoán cũng được bỏ qua và các mẫu video được mã hóa trực tiếp với độ sâu bit PCM Chế độ I_PCM được thiết kế để giãn rộng dữ liệu trong quá trình mã hóa, ví dụ như khi nhiễu ngẫu nhiên tác động vào bộ mã hóa và giải mã, bằng cách mã hóa trực tiếp các mâu video, mở rộng dữ liệu có thể tránh được nhiễu như vậy
Trong chế độ lossless bỏ qua chuyển đổi và lượng tử hóa, và bộ lọc In-loop cũng được bỏ qua Về mặt toán học tái cấu trúc lossless có thể thực hiện từ bộ dự đoán liên ảnh và trong ảnh đã được mã hóa trực tiếp Tính năng này rất hữu ích đối với chuỗi video có nội dung hỗn hợp, ví dụ như đoạn video khung cảnh tự nhiên với văn vản chồng lấn lên nhau Vùng văn bản đồ họa có thể mã hóa không suy hao để tối đa hóa khả năng đọc, trong khi phần cảnh tự nhiên có thể được mã hóa không suy hao
Trong chế độ transform skip mode, chỉ bỏ qua phần chuyển đổi Chế độ này được
sử dụng để cải thiện nén các đoạn video nội dung màn hình được tạo ra trong các ứng dụng như remote destop, slideshow các đoạn video chủ yếu chứa văn bản và
đồ thị và chỉ bỏ qua chuyển đổi với các block 4x4
2.3.5 Các chế độ dự đoán
H.265 sử dụng ba chế độ dự đoán để dự đoán cho một CU
Phương pháp dự đoán Intra : sử dụng thông tin pixel có sẵn trong hình hiện tại để làm tham chiếu dự đoán, để lấy ra vị trí dự đoán
Phương pháp dự đoán Inter (ước lượng chuyển động và bù chuyển động) : sử dụng thông tin pixel có sẵn trong khung quá khứ ( ảnh P) hoặc cả trong quá khứ và tương lai (ảnh B) để làm tham chiếu dự đoán, với mục đích lấy ra vector chuyển động để bù đắp cho thích hợp với CU
Chế độ SKIP : tương tự như Dự đoán Inter nhưng không có thông tin chuyển động nên bỏ qua CU
Ta sẽ tìm hiểu về cơ bản kĩ thuật Dự đoán Intra và Dự đoán Inter trong H.265
Trang 392.3.5.1 Chế độ dự đoán trong ảnh
Trong miền không gian, sự dư thừa xuất hiện trong các mẫu (pixel) gần nhau Dự đoán Intra hay còn được gọi là kĩ thuật nén không gian, nén trong ảnh, chỉ sử dụng thông tin trong bức ảnh hiện tại mà không có sự tham khảo ảnh khác, tức là mã hóa độc lập không cần tham khảo ảnh khác, do đó hiệu quả nén chỉ phụ thuộc vào sự loại
bỏ thông tin dư thừa về không gian
Đây là kiểu dự đoán sử dụng các pixel lân cận của PU đã được mã hóa trong cùng một frame để tham khảo nhằm khai thác sự tương quan về không gian Nó được thực hiện tại cấp độ PU, đó là một ma trận hình vuông, có kích thước từ 4x4, 8x8, 16x16 đến 32x32
Ngoài khối đang được dự đoán, bộ mã hóa yêu cầu pixel của 5 khối lân cận đã được
mã hóa và tái tạo xung quanh PU trong cùng một frame : A, B, C, D, E Ta có B, C là khối phía trên và phía trên bên phải của PU, còn D và E là khối bên trái và phía dưới trái của PU A là một pixel ở góc trên cùng bên trái của PU Hình sau biểu diễn một khối dự đoán (PU) và các pixel lân cận Khối PU được dự đoán bằng cách nội suy từ các khối lân cận
Hình 2.16 Cấu trúc khối PU và các pixel lân cận sử dụng để dự đoán [7]
H.265 cho phép 35 chế độ dự đoán Intra khác nhau Hai trong số đó là phẳng + DC,
33 chế độ còn lại là có góc
Khi sử dụng chế độ INTRA_PLANAR, bộ mã hóa sẽ tính toán một hàm nội suy hai chiều, được sử dụng để điền vào khối dự đoán Đó là chế độ tính toán phức tạp nhất Khi sử dụng chế độ INTRA_DC, khối dự đoán sẽ được lấp đầy pixel chứa giá trị điểm ảnh trung bình từ B và D INTRA_DC là chế độ tính toán đơn giản nhất
Để xây dựng các khối dự đoán khi sử dụng chế độ góc, nội suy tuyến tính được sử dụng với các quy tắt hướng như hình vẽ sau :
Hình 2.17 35 chế độ trong dự đoán trong ảnh [7].
2.3.5.2 Chế dự đoán liên ảnh
Trang 40Dự đoán Inter là kĩ thuật dự đoán nhằm loại bỏ thông tin giống nhau giữa các ảnh liên tiếp, chỉ mã hóa phần thông tin khác nhau giữa chúng Dựa vào nguyên tắc đó, các
bộ mã hóa sẽ quét lần lượt từng CU và phát hiện xem có sự thay đổi từ frame này sang frame khác không đồng thời còn dự đoán sự xuất hiện của các CU khi biết vị trí và hướng chuyển động của nó Do đó chỉ có sự thay đổi giữa các khối mới truyền đến phía thu
H.265 tăng cường phương pháp Inter- prediction, sử dụng sửa đổi để có được nhiều đối tượng nhất có thể, từ dữ liệu của các PBs liền kề và những ảnh tham khảo Ở đây
có một chế độ kết hợp mới cho mã hóa vecstor chuyển động (MV) tương tự như chế
độ trực tiếp trên H.264 mà ở đó không cần truyền thông tin của vector chuyển động Chúng được tạo ra trong bộ giải mã từ một danh sách đối tượng của thông số chuyển động
Đối với phần dự đoán inter của tiêu chuẩn mã hóa video HEVC không được giới thiệu một thiết kế mới toàn diện mang tính đột phá Tuy nhiên nó được xem là một cải tiến đều và khái quát hóa cho tất cả các bộ phận được biết đến trước đây là H.264/AVC Hình 2.18 mô tả khái quát dự đoán inter trong H.265/HEVC
Hình 2.18 Sơ đồ tổng quát dự đoán liên ảnh trong H.265/HEVC [7]
Dữ liệu chuyển động của một block là tương quan với block lân cận Để khai thác mối tương quan này, dữ liệu chuyển động không được mã hóa trực tiếp trong dòng bit
dữ liệu nhưng nó được mã hóa dựa trên dữ liệu lân cận Trong chuẩn mã hóa H.265/HEVC có hai khái niệm được sử dụng cho điều này là dự đoán tiến tiến vector chuyển động và kỹ thuật hợp nhất dự đoán inter
Việc dự đoán vec tơ chuyển động được cải tiến bằng một công cụ mới gọi là dự đoán tiên tiến vector chuyển động (AMVP- advanced motion vector prediction), nơi
dự báo tốt nhất mỗi block chuyển động được báo hiệu đến bộ giải mã
Kỹ thuật hợp nhất dự đoán inter (inter-prediction block merging) thu thập tất cả dự liệu chuyển động của một block từ các block lân cận để thay thế trực tiếp hoặc bỏ qua như trong skip mode H.264/AVC Kỹ thuật này làm đơn giản hóa đáng kể dữ liệu chuyển động bằng cách phỏng đoán tất cả tất cả dữ liệu chuyển động từ block đã mã hóa
Fractional Sample Interpolation: Khi nói đến nội suy các phân đoạn mẫu hình ảnh tham khảo, các bộ lọc nội suy độ chính xác cao với sự hỗ trợ mở rộng, cải thiện các bộ lọc viền ảnh ở dải tần số cao
Cuối cùng là báo hiệu dự đoán trọng số (Weighted Sample Prediction ) số được đơn giản hóa băng cách áp dụng các trọng số báo hiệu rõ ràng cho mỗi dự đoán được bù chuyển động hoặc chỉ là trung bình hai dự đoán bù chuyển động