Học viên: Phạm Tuấn Hùng – KTĐT 2014-2016 5 Kích thước thông tin đầu của mảng được xác định bằng số lỗi cho phép xuất hiện trong mảng đối với một ứng dụng nhất định, do đó bộ giải mã có
Trang 1BỘ GIAO THÔNG VẬN TẢI BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM
Trang 2BỘ GIAO THÔNG VẬN TẢI BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM
PHẠM TUẤN HÙNG
“NGHIÊN CỨU PHƯƠNG PHÁP XỬ LÝ TÍN HIỆU ẢNH H264-H265/MP4AVC VÀ CÁC CHUẨN NÉN ĐI SÂU CHUẨN MP4 - ỨNG DỤNG TRUYỀN HÌNH TRÊN
INTERNET”
LUẬN VĂN THẠC SĨ KỸ THUẬT
NGÀNH: KỸ THUẬT ĐIỆN TỬ; MÃ SỐ: 60520203 CHUYÊN NGÀNH: KỸ THUẬT ĐIỆN TỬ
Người hướng dẫn khoa học: PGS.TS Lê Quốc Vượng
HẢI PHÒNG - 2016 HẢI PHÒNG - 2016
Trang 3Học viên: Phạm Tuấn Hùng – KTĐT 2014-2016 i
LỜI CAM ĐOAN
Tôi xin cam đoan luận án thạc sỹ này là của riêng tôi Các lý thuyết cũng nhƣ mô phỏng trong luận văn là chƣa từng đƣợc sử dụng cho bất cứ một luận án
nào khác
Tôi xin cam đoan đã ghi rõ nguồn gốc của tất cả các trích dẫn
Hải Phòng, ngày 5 tháng 9 năm 2016
Học viên : Phạm Tuấn Hùng
Trang 4Học viên: Phạm Tuấn Hùng – KTĐT 2014-2016 ii
LỜI CẢM ƠN
Xin chân thành cám ơn các thầy giáo Viện Đào tạo sau đại học và Khoa Kỹ thuật Điện tử Trường Đại học Hàng Hải Việt Nam đã giảng dạy và giúp đỡ trong suốt quá trình học tập tại trường Đặc biệt là các thầy trong bộ môn và PGS.TS Lê Quốc Vượng đã hướng dẫn tận tình cho tôi hoàn thành khóa luận
Vì thời gian có hạn, khả năng bản thân còn hạn chế bài luận của em vẫn còn nhiều khiếm khuyết Rất mong nhận được sự góp ý của các thầy và các bạn
Hải Phòng, ngày 5 tháng 9 năm 2016
Học viên : Phạm Tuấn Hùng
Trang 5Học viên: Phạm Tuấn Hùng – KTĐT 2014-2016 ii
DANH MỤC HÌNH Hình 1.1: Cấu trúc dòng Bít MPEG Video 3
Hình 1.2: Cấu trúc ảnh MPEG 6
Hình 1.3: Nén MPEG 6
Hình 1.4: Giải nén MPEG 8
Hình 1.5: Sự tổ hợp khung hình trong MPEG - 4 10
Hình 1.6: Cấu trúc của bộ mã hoá và giải mã Video MPEG - 4 11
Hình 1.7: Profiles và Levels trong MPEG -4 12
Hình 2.1: Cấu trúc dòng video h.264 16
Hình 2.2: Chuyển mạch cho slice P 17
Hình 2.3: Chuyển mạch cho slice I 17
Hình 2.4: Cấu trúc dòng bit H.264 18
Hình 2.5 Mã hoá H.264 19
Hình 2.6 Lịch sử của các chuẩn nén Video 25
Hình 2.7 Xu hướng tốc độ bit của các chuẩn nén video 25
Hình 2.8 Tổng quan mức cao của hệ thống các lớp trong HEVC 27
Hình 2.9 Cấu trúc tích hợp hệ thống các lớp trong HEVC 28
Hình 2.10 Cấu trúc bộ mã hóa HEVC 29
Hình 2.11 a) Slice; b) Tile 31
Hình 2.12 Phân chia đơn vị mã hóa (CU: Coding Unit) 32
Hình 2.13 So sánh kích thước CU của H.264 với HEVC 33
Hình 2.14 Các thành phần PU đồng bộ 33
Hình 2.15 Các thành phần PU bất đồng bộ 34
Hình 2.16 RQT 34
Hình 2.17 NRQT (a) Thành phần 2N x N; (b) N x N 35
Hình 2.18 Hướng dự đoán bên trong của HEVC 36
Hình 2.19 Nguồn gốc của dự đoán dùng Mode 2 chiều 38
Hình 2.20 Bốn cấu trúc 1 D - 3 pixel cho phân loại điểm ảnh ở trong EO 38
Trang 6Học viên: Phạm Tuấn Hùng – KTĐT 2014-2016 iii
Hình 2.21 Chất lượng hình ảnh HEVC và H.264 42
Hình 2.22 Chất lượng hình ảnh HEVC tốt hơn H.264 khi so sánh cùng tốc độ bit 45
Hình 3.1 Tiêu chuẩn 4:4:4 47
Hình 3.2 Tiêu chuẩn 4:2:2 48
Hình 3.3 Tiêu chuẩn 4:2:0 48
Hình 3.4 Tiêu chuẩn 4:1:1 49
Hình 3.5 Truyền hình trực tiếp trên mạng 51
Hình 3.6 Sơ đồ khối của CABAC 58
Hình 3.7: Tác dụng của bộ lọc tách khối đối với ảnh được nén 60
Hình 3.8 Sơ đồ giải mã Video H264/MPEG -4 Part 10 60
Hình 3.9: Ví dụ về Mã hoá chiều dài biến đổi ngược 62
Hình 3.10: Mô hình dịch vụ phát trỉển và lưu trữ websỉte/Trang TTĐT 64
Hình 3.11: Sơ đồ toàn hệ thống 64
Hình 3.12: Quy trình làm việc hiện tại – dự phòng 68
Hình 4.1 Các bảng quảng cáo điện tử trong hành lanh chờ tàu điện ngầm 70
Hình 4.2 Bảng đặc tính kĩ thuật của một bo mạch họ ARM 70 Hình 4.3 Mức tiêu hao bộ nhớ không được làm tươi cho tập tin 10MB đến 50MB….74
Trang 7Học viên: Phạm Tuấn Hùng – KTĐT 2014-2016 iv
DANH MỤC BẢNG Bảng 2.1 So sánh các đặc điểm mã hoá cơ bản 43
Bảng 2.2 So sánh HEVC Profile với H.264/AVC định dạng Random - Access 44
Bảng 2.3 So sánh HEVC Profile với H.264/AVC với đỉnh dạng Low - Delay 45
Bảng 4.1 Mức tiêu hao bộ nhớ không được làm tươi từ 10MB đến 50MB 73
Bảng 4.2 Mức tiêu hao bộ nhớ được làm tươi từ 10MB đến 50MB 73
Bảng 4.3 Bảng tham số cho tiêu hao bộ nhớ không được làm tươi 75
Bảng 4.4 Bảng tham số cho tiêu hao bộ nhớ được làm tươi 76
Trang 8Học viên: Phạm Tuấn Hùng – KTĐT 2014-2016 v
MỤC LỤC DANH MỤC HÌNH ii
DANH MỤC BẢNG iv
MỤC LỤC v
MỞ ĐẦU viii
Chương 1: KHÁI QUÁT VỀ NÉN TÍN HIỆU VIDEO VÀ CHUẨN NÉN MPEG .1
1.1 Mục đích nén Video 1
1.1.1 Chuẩn nén MPEG 2
1.1.2 Cấu trúc dòng bit MPEG video 3
1.2 Các loại ảnh trong chuẩn MPEG: 5
1.3 Nguyên lý nén MPEG 6
1.4 Nguyên lý giải nén MPEG 8
1.5 Chuẩn nén MPEG-4 9
1.5.1 Khái quát về MPEG-4 9
1.5.2 Công nghệ mã hóa và giải mã video trong MPEG-4 9
1.5.3 Các Profiles và Levels trong MPEG-4 12
1.5.3 Kết luận chương 1……… 13
CHƯƠNG 2: CHUẨN NÉN MP4, ỨNG DỤNG XỬ LÝ TÍN HIỆU H264 -H265/MP- 4 14
2.1 Ứng dụng xử lý tín hiệu ảnh H264/MP-4 AVC 14
2.1.1 Giới thiệu chung 14
2.1.2 Cấu trúc dữ liệu và các kiểu nén 15
2.1.3 Ứng dụng công nghệ nén ảnh H.264/MPEG – 4 AVC 21
2.2 Ứng dụng xử lý tín hiệu ảnh H265 22
2.2.1 Tiêu chuẩn 23
2.2.2 Ứng dụng và cấu trúc mức cao 26
2.3 Những đặc điểm mã hóa chính 31
2.3.1 Đơn vị mã hóa 32
2.3.2 Đơn vị chuyển đổi 35
Trang 9Học viên: Phạm Tuấn Hùng – KTĐT 2014-2016 vi
2.4 Chuyển đổi tín hiệu không gian và lượng tử hóa 36
2.4.1 Thực hiện PCM 37
2.4.2 Dự đoán trong ảnh 37
2.4.3 Dự đoán liên ảnh 38
2.4.4 Mã hóa Entropy 40
2.4.5 Lọc vòng lặp 40
2.4.6 So sánh với H.264/AVC 42
2.5 Kết luận chương 2 46
CHƯƠNG 3: TRUYỀN HÌNH TRÊN MẠNG INTERNET HIỆN TẠI VÀ HƯỚNG PHÁT TRIỂN 47
3.1 Tiêu chuẩn video số thành phần truyền hình internet 47
3.1.1 Tiêu chuẩn 4:4:4 47
3.1.2 Tiêu chuẩn 4:2:2 48
3.1.3 Tiêu chuẩn 4:2:0 48
3.1.4 Tiêu chuẩn 4:1:1 49
3.2 Truyền hình trên Internet 50
3.3 Các kỹ thuật nén video truyền trên internet 54
3.3.1 Nén theo miền thời gian 54
3.3.2 Nén theo miền không gian 54
3.3.3.Bộ lọc tách khối 59
3.3.4 Kỹ thuật giải mã video 60
3.3.5 So sánh hiệu quả mã hoá của H264/MPEG Part 10 với các tiêu chuẩn trước đó 62
3.3.6 Giải pháp phát triển và lưu trữ website 64
3.4 Qui trình sản xuất chương trình dựa trên nền tảng File và quản lỹ dữ liệu Media Asset Management (MAM) 64
3.4.1 Sơ đồ toàn hệ thống 65
3.4.2 Qui trình làm việc 65
3.4.3 Thông số kỹ thuật 66
Trang 10Học viên: Phạm Tuấn Hùng – KTĐT 2014-2016 vii
3.4.4 So sánh qui trình làm việc hiện tại và qui trình mới 66
3.5 Kết luận chương 3……… 67
CHƯƠNG 4: GIẢI PHÁP KỸ THUẬT HIỀN THỊ NỘI DUNG SỐ CHUẨN MPEG4 69
4.1 Các tham số kỹ thuật……… 68
4.2 Giải pháp thực hiện 69
4.3 Tính ưu việt của bo mạch ARM 71
4.4 Đánh giá định hướng cho hoạt động hiển thị nội dung số chuẩn MPEG – 4 của bo đơn mạch họ ARM cho DCDDS 72
4.5 Kết luận chương 4 76
KẾT LUẬN 77
TÀI LIỆU THAM KHẢO 78
NHẬN XÉT TÓM TẮT CỦA GIẢNG VIÊN HƯỚNG DẪNError! Bookmark not defined ĐÁNH GIÁ CỦA NGƯỜI PHẢN BIỆN Error! Bookmark not defined
Trang 11Học viên: Phạm Tuấn Hùng – KTĐT 2014-2016 viii
MỞ ĐẦU
Ngành truyền hình Việt Nam đã qua nhiều giai đoạn phát triển, từ truyền hình đen trắng, truyền hình màu và hiện nay truyền hình số đang phát triển mạnh mẽ trên tất cả mọi lĩnh vực: truyền hình cáp, truyền hình số mặt đất DVB-T, truyền hình số qua vệ tinh Khi Internet phát triển mạnh và trở thành hệ thống có quy mô toàn cầu, trở nên phổ cập rất nhanh trong mọi lĩnh vực, bằng việc kết nối các chương trình hình với hệ thống viễn thông - Internet, một công nghệ truyền hình mới ra đời đó là truyền hình Internet
Hiện nay ở Việt Nam có thể nói chưa bao giờ xem truyền hình trực tuyến trên intenet lại phổ cập và chất lượng ổn định như vậy Kỹ thuật Truyền hình có rất nhiều loại: ghi hình, cắt dựng hình, các kiểu nén Video, kỹ thuật truyền tải Với
đề tài “NGHIÊN CỨU PHƯƠNG PHÁP XỬ LÝ TÍN HIỆU ẢNH H264 - H265/MP-4 VÀ CÁC CHUẨN NÉN, ĐI SÂU CHUẨN MP4 - ỨNG DỤNG TRUYỀN HÌNH TRÊN MẠNG INTERNET” em xin đi vào nghiên cứu ứng
dụng xử lý tín hiệu ảnh H264-H265/MP4AVC trong truyền hình để đạt được hiệu quả cao hơn đồng thời trình bày về một số ứng dụng truyền hình trên mạng internet hiện nay
Sau một thời gian tìm hiểu và cùng với sự hướng dẫn của các thầy giáo trong ngành và thầy giáo PGS.TS Lê Quốc Vượng trực tiếp hướng dẫn, đến nay
em đã hoàn thành đồ án này với nội dung gồm 5 chương:
o Chương I: Khái quát chung
o Chương II: Phân tích chuẩn nén MP4, ứng dụng xử lí tín hiệu H264 H265/MP- 4 AVC
-o Chương III: Truyền hình với internet hiện nay
o Chương IV: Giải pháp kỹ thuật hiển thị nội dung số chuẩn MP4
Trang 12Học viên: Phạm Tuấn Hùng – KTĐT 2014-2016 1
Chương 1 KHÁI QUÁT VỀ NÉN TÍN HIỆU VIDEO VÀ CHUẨN NÉN MPEG
1.1 Mục đích nén Video
Tín hiệu video sau khi được số hoá 8 bit có tốc độ 216 Mb/s Để có thể truyền trong một kênh truyền hình thông thường, tín hiệu video số cần phải được nén trong khi vẫn phải đảm bảo chất lượng hình ảnh
Như chúng ta biết tín hiệu video có dải phổ từ 0 - 6 MHz, tuy nhiên trong nhiều trường hợp năng lượng phổ chủ yếu tập trung ở miền tần số thấp và chỉ có rất ít thông tin chứa đựng ở miền tần số cao
Đối với tín hiệu video số, số lượng bit được sử dụng để truyền tải thông tin đối với mỗi miền tần số khác nhau, có nghĩa là: miền tần số thấp, nơi chứa đựng nhiều thông tin, được sử dụng số lượng bít lớn hơn và miền tần số cao, nơi chứa đựng ít thông tin, được sử dụng số lượng bít ít hơn Tổng số bít cần thiết để truyền tải thông tin về hình ảnh sẽ giảm một cách đáng kể và dòng dữ liệu được “nén ” mà chất lượng hình ảnh vẫn đảm bảo Thực chất của kỹ thuật “nén video số” là loại bỏ
đi các thông tin dư thừa Các thông tin dư thừa trong nén video số thường là:
- Độ dư thừa không gian giữa các pixel
- Độ dư thừa thời gian do các ảnh liên tiếp nhau
- Độ dư thừa do các thành phần màu biểu diễn từng pixel có độ tương quan Cao
- Độ dư thừa thống kê do các kí hiệu xuất hiện trong dòng bít với xác suất xuất hiện không đều nhau;
- Độ dư thừa tâm lý thị giác (các thông tin nằm ngoài khả năng cảm nhận của mắt).vv
Như vậy, mục đích của nén tín hiệu video là:
- Giảm tốc độ dòng bít của tín hiệu gốc xuống một giá trị nhất định đủ để có thể tái tạo ảnh khi giải nén
- Giảm dung lượng dữ liệu trong lưu trữ cũng như giảm băng thông cần thiết
Trang 131.1.1 Chuẩn nén MPEG
* Khái quát về nén MPEG
MPEG (Moving Picture Expert Group) là nhóm chuyên gia về hình ảnh, được thành lập từ tháng 2 năm 1988 với nhiệm vụ xây dựng tiêu chuẩn cho tín hiệu Audio và Video số Ngày nay, MPEG đã trở thành một kỹ thuật nén Audio và Video phổ biến nhất vì nó không chỉ là một tiêu chuẩn riêng biệt mà tuỳ thuộc vào yêu cầu cụ thể của từng thiết bị sẽ có một tiêu chuẩn thích hợp nhưng vẫn trên cùng một nguyên lý thống nhất
Tiêu chuẩn đầu tiên được nhóm MPEG đưa ra là MPEG-1, mục tiêu của MPEG-1 là mã hoá tín hiệu Audio-Video với tốc độ khoảng 1.5Mb/s và lưu trữ trong đĩa CD với chất lượng tương đương VHS
Tiêu chuẩn thứ 2 : MPEG-2 được ra đời vào năm 1990 MPEG-2 với “công
cụ ” mã hoá khác nhau đã được phát triển Các công cụ đó gọi là “Proíĩles” được tiêu chuẩn hoá và có thể sử dụng để phục vụ nhiều mục đích khác nhau
Tiêu chuẩn tiếp theo mà MPEG đưa ra là MPEG-4, được đưa ra vào tháng
10 năm 1998, đã tạo ra một phương thức thiết lập và tương tác mới với truyền thông nghe nhìn trên mạng Internet, tạo ra một phương thức sản xuất, cung cấp và tiêu thụ mới các nội dung video trên cơ sơ nội dung và hướng đối tượng (content/object-based)
MPEG-7: là một chuẩn dùng để mô tả các nội dung Multimedia, chứ không phải là một chuẩn cho nén và mã hoá audio/ảnh động như MPEG-1, MPEG-2 hay MPEG-4 MPEG-7 sử dụng ngôn ngữ đánh dấu mở rộng XML(Extansible Markup
Trang 14Học viên: Phạm Tuấn Hùng – KTĐT 2014-2016 3
Language) để lưu trữ các siêu dữ liệu Metadata, đính kèm timecode để gắn thẻ cho các sự kiện, hay đồng bộ các dữ liệu MPEG-7 bao gồm 3 bộ chuẩn sau:
- Bộ các sơ đồ đặc tả (Description Schemes) và các đặc tả (Description)
- Ngôn ngữ xác định DDL (Description Definition Language) để định nghĩa các sơ đồ đặc tả
- Sơ đồ mã hoá quá trình đặc tả
Việc kết hợp MPEG-4 và MPEG-7 sẽ tạo ra các giải pháp lý tưởng cho các dịch
vụ Streaming Media, các hệ thống lưu trữ và sản xuất Streaming Media trong thời gian tới
1.1.2 Cấu trúc dòng bit MPEG video
Hình 1.1: Cấu trúc dòng Bít MPEG Video
Trong đó :
♦ Sequence: Thông tin về chuỗi bit
Video Params: chứa thông tin về chiều cao, bề rộng, tỷ lệ khuôn hình các
Trang 15♦ GOP (Group Of Picture): Thông tin về nhóm ảnh
Là tổ hợp của nhiều các khung I, P, B Cấu trúc nhóm ảnh gồm 2 tham số là:
m và n (tham số m xác định số khung hình B và P xuất hiện giữa 2 khung hình I gần nhau nhất, tham số n xác định số khung B xuất hiện giữa 2 khung P) Mỗi một nhóm ảnh bắt đầu bằng một khung I và xác định điểm bắt đầu để tìm kiếm và biên tập
Các tham số của đoạn mào đầu của GOP:
- Time code: mã định thời, xác định giờ, phút, giây, ảnh
- GOP Params: miêu tả cấu trúc GOP
♦ Pict: thông tin về ảnh, các tham số trong phần mào đầu của Pict:
Type: Cho phép bộ giải mã xác định ảnh đựơc mã hoá là ảnh I, P hay B Buffer Params: thông tin về Buffer(chỉ thứ tự truyền khung để bộ giải
mã có thể sắp xếp các loại ảnh theo một thứ tự đúng)
Encode Params: chứa thông tin về đồng bộ, độ phân giải và phạm vi của vector chuyển động
♦ Slice: Mảng bao gồm một vài cấu trúc khối kề nhau
Kích thước lớn nhất của mảng có thể bao gồm toàn bộ bức ảnh và kích
thước nhỏ nhất của mảng là một cấu trúc khối Các thông số của đoạn mào đầu của Slice gồm:
- Vert PoS: Slice bắt đầu từ dòng nào
- Qscale: Thông tin về bảng lượng tử
Trang 16Học viên: Phạm Tuấn Hùng – KTĐT 2014-2016 5
Kích thước thông tin đầu của mảng được xác định bằng số lỗi cho phép xuất hiện trong mảng đối với một ứng dụng nhất định, do đó bộ giải mã có thể bỏ qua các mảng có nhiều lỗi và xác định bằng tính hiệu quả của phương pháp nén ảnh
Do đó hệ số cân bằng lượng tử có thể được điều chỉnh thường xuyên với việc sử dụng các mảng có kích thước nhỏ hơn Hệ số DCT tham chiếu dùng trong mã hóa DPCM sẽ được so chuẩn tại mỗi mảng
♦ MB (Macroblock)
Một cấu trúc khối là một nhóm các khối tương ứng với lượng thông tin chứa đựng trong kích thước 16x16 điểm trên bức ảnh
Các tham số của đoạn mào đầu của nhóm MB:
Addr Iner: Số lượng MB được bỏ qua
Type : Loại vector chuyển động dung cho Macroblock
Qscale : Bảng lượng tử dùng cho Macroblock
Coded Block Pattern (CBP): chỉ rõ Block nào được mã hoá
1.2 Các loại ảnh trong chuẩn MPEG:
Trong nén MPEG người ta sử dụng 3 loại ảnh sau:
“Ảnh I (Intra Pictures): được mã hóa mà không có sự so sánh tham khảo
các ảnh khác, dùng trong nén trong ảnh Chúng chứa tất cả các thông tin cần thiết
để tái tạo lại ảnh sau giải mã, nên tỷ lệ nén các ảnh I tương đối thấp Vì vậy, ảnh I
là điểm nút quan trọng phục vụ việc truy cập vào một đoạn Video.”
“Ảnh P (Predicted Pictures): được mã hoá từ ảnh I, ảnh P trước đó, nhờ sử
dụng các thuật toán dự đoán bù chuyển động Các ảnh P có thể được sử dụng như
là cơ sở dữ liệu cho việc dự đoán ảnh tiếp theo Tuy nhiên do hạn chế của kỹ thuật
bù chuyển động, số ảnh P giữa hai ảnh I không thể quá lớn Tỷ lệ nén của các ảnh
P tương đối lớn so với tỷ lệ nén các ảnh I.”
“Ảnh B (Bidirectionally Predicted Pictures): được mã hoá bới phép nội
suy giữa các ảnh I và P ở trước và sau đó Vì không được sử dụng để mã hoá các ảnh tiếp theo, ảnh B không phải là nguồn gốc sinh ra các lỗi ảnh trong quá trình mã hoá Các ảnh B cho tỷ lệ nén cao nhất.”N = khoảng cách giữa
Trang 17Học viên: Phạm Tuấn Hùng – KTĐT 2014-2016 6
Hình 1.2 Cấu trúc ảnh MPEG
1.3 Nguyên lý nén MPEG
Hình 1.3: Nén MPEG
Trang 18Học viên: Phạm Tuấn Hùng – KTĐT 2014-2016 7
Cơ sở của công nghệ nén video MPEG là sự kết hợp giữa nén trong ảnh (Intra -Frame Compression) và công nghệ nén liên ảnh ( Inter-Frame Compression) Trong đó:
- “Nén trong ảnh (Intra -Frame Compression): là loại nén nhằm giảm bớt
thông tin dư thừa trong miền không gian Nén trong ảnh sử dụng cả hai quá trình
có tổn hao và không có tổn hao để giảm bớt dữ liệu trong ảnh Quá trình này không
sử dụng thông tin của các ảnh trước và sau ảnh đang xét.”
- “Nén liên ảnh (Intra -Frame Compression): Trong tín hiệu video có chứa
thông tin dư thừa trong miền thời gian Nghĩa là với một chuỗi liên tục các ảnh, lượng thông tin chứa đựng trong mỗi ảnh thay đổi rất ít từ ảnh này sang ảnh khác Tính toán sự dịch chuyển vị trí của nội dung ảnh là một phần rất quan trọng trong
kỹ thuật nén liên ảnh Trong thuật nén MPEG, quá trình xác định Vector chuyển động được thực hiện bằng cách chia hình ảnh thành các Macro-Block, mỗi Macro-Block có 16 x 16 phần tử ảnh (tương đương với 4 Block, mỗi Block có 8 x 8 phần
tử ảnh) Để xác định chiều chuyển động, người ta tìm kiếm vị trí của Macro-Block trong ảnh tiếp theo, kết quả của sự tìm kiếm sẽ cho ta Vector chuyển động của Macro-Block ”
Nguyên lý nén MPEG :
“Dạng thức đầu vào là Rec- 601 4:2:2 hoặc 4:2:0 Ảnh hiện tại được so sánh với ảnh trước tạo ra ảnh khác biệt Ảnh này sau đó lại được nén trong ảnh qua các bước : biến đổi DCT, lượng tử hóa, mã hoá Dữ liệu của ảnh khác biệt và vector chuyển động (được xác định như trên ) mang thông tin về ảnh sau nén liên ảnh được đưa đến bộ đệm ở đầu ra.”
“Tốc độ bít của tín hiệu video được nén không cố định, phụ thuộc vào nội dung ảnh đang xét (ví dụ một phần nén ít hơn hoặc nhiều hơn), nhưng tại đầu ra bộ
mã hoá dòng bít phải cố định để xác định tốc độ cho dung lượng kênh truyền.”
Trang 19Học viên: Phạm Tuấn Hùng – KTĐT 2014-2016 8
1.4 Nguyên lý giải nén MPEG
Hình 1.4: Giải nén MPEG
Nguyên lý giải nén MPEG:
“Đầu tiên là giải mã Entropy, sau đó tách dữ liệu ảnh (hệ số biến đổi DCT)
ra khỏi các vector chuyển động Dữ liệu ảnh sẽ được giải lượng tử hoá và biến đổi DCT ngược.”
“Nếu ảnh là ảnh loại I bắt đầu ở mỗi nhóm ảnh trong chuỗi, ở đầu ra sẽ nhận được ảnh hoàn chỉnh bằng cách trên ( vì ảnh loại I chỉ là nén trong ảnh, không có
bù chuyển động, không dùng dữ liệu của ảnh khác) Nó được lưu trữ trong bộ nhớ ảnh và được và được dùng để giải mã các ảnh tiếp theo.”
“Nếu ảnh là ảnh loại P thì cũng thực hiện giải lượng tử hóa và biến đổi DCT ngược kết hợp với việc sử dụng vector chuyển động và lưu vào bộ nhớ ảnh sớm hơn Trên cơ sở đó xác định được dự đoán ảnh đang xét Ta nhận đựơc ảnh ra sau khi cộng dự đoán ảnh (ảnh dự đoán) và kết quả biến đổi DCT ngược Ảnh này cũng được lưu vào bộ nhớ để có thể sử dụng như là chuẩn khi giải mã các ảnh tiếp theo.”
Video
Trang 20Học viên: Phạm Tuấn Hùng – KTĐT 2014-2016 9
1.5 Chuẩn nén MPEG-4
1.5.1 Khái quát về MPEG-4
“Ngày nay, khi nhu cầu truyền phát các ứng dụng video và đa phương tiện mới trên hạ tầng kỹ thuật Internet đã làm nảy sinh các yêu cầu chức năng mới không có trong các chuẩn nén MPEG -1 và MPEG -2 hay các chuẩn nén trước đó Tháng 10 năm 1998 với sự xuất hiện của chuẩn nén MPEG -4 đã tạo ra một phương thức thiết lập và tương tác mới với truyền thông nghe nhìn trên mạng Internet, tạo ra một phương thức sản xuất, cung cấp và tiêu thụ mới các nội dung video trên cơ
sở nội dung vàhướng đối tượng (content/object-based) Đây chính là một công nghệ trình diễn truyền thông đa phương tiện phức hợp, có khả năng truyền thông tại các môi trường truyền thông đa phương tiện phức hợp, có khả năng truyền thông tại các môi trường : truyền hình số, đồ hoạ tương tác, World Wide Web Vì vậy, nhiệm vụ của MPEG -4 là nhằm phát triển các chuẩn xử lý, mã hoá và hiển thị ảnh động, audio và các tổ hợp của chúng.MPEG -4 đang được triển khai bởi nhiều nhà vận hành mạng và dịch vụ trên thế giới với các dịch vụ mới đang được bổ xung để chiếm các lợi thế cấu trúc hạ tầng băng rộng đang phát triển.”
1.5.2 Công nghệ mã hóa và giải mã video trong MPEG-4
“Chuẩn MPEG -4 là một chuẩn động, dễ thay đổi: với MPEG -4 các đối tượng khác nhau trong một khung hình có thể được mô tả, mã hoá và truyền đi một cách riêng biệt đến bộ giải mã trong các dòng cơ bản ES (Elementary Stream) khác nhau.”
Trang 21Học viên: Phạm Tuấn Hùng – KTĐT 2014-2016 10
Hình 1.5: Sự tổ hợp khung hình trong MPEG - 4
“Cũng nhờ xác định, tách và xử lý riêng các đối tượng (như nhạc nền, âm thanh xa gần, đồ vật, đối tượng ảnh video như con người hay động vật, nền khung hình ) nên người sử dụng có thể loại bỏ riêng từng đối tượng khỏi khuôn hình Sự
tổ hợp lại thành khung hình chỉ được thực hiện sau khi giải mã các đối tượng đó.”
“Trên hình 5 là ví dụ về sự tổ hợp khuôn hình MPEG -4 Trong hình có nhiều đối tượng như: bàn, quả cầu, bảng đen, người hướng dẫn và audio được đặt vào một hệ thống toạ độ không gian 3 chiều (3-D) đối với vị trí người xem giả định.”
Trang 22Học viên: Phạm Tuấn Hùng – KTĐT 2014-2016 11
Hình 1.6: Cấu trúc của bộ mã hoá và giải mã Video MPEG - 4
“Trên hình 6 là cấu trúc của bộ mã hoá và giải mã Video MPEG - 4, các thiết bị mã hoá và giải mã video đều áp dụng sơ đồ mã hoá như nhau cho mỗi đối tượng video (video-object) riêng biệt.Ví dụ khi ta mã hoá và tổng hợp một khung hình, nhiều đối tượng đầu vào như: ôtô, nhà, người được tách ra khỏi video đầu vào Mỗi đối tượng video sau đó được mã hoá riêng rẽ bởi bộ mã hoá đối tượng video VO (video object) và được truyền đi trên mạng Tại vị trí thu, những đối tượng này được giải mã riêng rẽ nhờ bộ giải mã VO decoder và gửi đến bộ tổng hợp Compositor Vì vậy người sử dụng có thể thực hiện các hoạt động tương tác riêng với từng đối tượng (thay đổi tỷ lệ, di chuyển, kết nối, loại bỏ, bổ xung các đối tượng.) ngay tại vị trí giải mã hay mã hoá Ngoài ra, người dùng có thể download các đối tượng khác từ thư viện cơ sở dữ liệu (có sẵn trên thiết bị hay từ
xa thông qua mạng LAN, WAN hay Internet) để chèn thêm vào hay thay thế các đối tượng có trong khuôn hình gốc.”
Các bộ phận chức năng chính trong các thiết bị MPEG -4 bao gồm:
- Bộ mã hoá hình dạng ngoài Shape coder dùng để nén đoạn thông tin, giúp xác định khu vực và đường viền bao quanh đối tượng trong khung hình scene
Trang 23Học viên: Phạm Tuấn Hùng – KTĐT 2014-2016 12
- Bộ dự đoán và tổng hợp động để giảm thông tin dƣ thừa theo thời gian
- Bộ kết cấu mặt ngoài Texture coder dùng để xử lý dữ liệu bên trong và các
dữ liệu còn lại sau khi đã bù chuyển động
“Trong MPEG -4, tất cả các đối tƣợng có thể có thể đƣợc mã hoá với sơ đồ mã hoá tối ƣu riêng của nó: videođƣợc mã hoá theo kiểu video, text đƣợc mã hoá theo kiểu text, các đồ hoạ đƣợc mã hoá theo kiểu đồ hoạ thay vì việc xử lý tất cả các phần tử ảnh pixels nhƣ là mã hoá ảnh động Do các quá trình mã hoá đã đƣợc tối
ƣu hoá cho từng loại dữ liệu thích hợp, nên chuẩn MPEG -4 sẽ cho phép mã hoá với hiệu quả cao tín hiệu ảnh video, audio và cả các nội dung tổng hợp nhƣ các bộ mặt và cơ thể hoạt hình.”
1.5.3 Các Profiles và Levels trong MPEG-4
Trên hình vẽ (Hình 1.7) nói về một số bộ công cụ của thiết bị MPEG -4 Có
nhiều Proílles nhƣ: Media Proílles , Scene Graph Proílles, MPEG-J Proílles
Hình 1.7: Profiles và Levels trong MPEG -4
Trang 24Học viên: Phạm Tuấn Hùng – KTĐT 2014-2016 13
Chuẩn nén MPEG -4 bao gồm nhiều tính năng khác nhau và không phải bất
kỳ ứng dụng nào cũng đòi hỏi tất cả các tính năng của MPEG -4 Để sử dụng công
cụ MPEG -4 một cách hiệu quả nhất, mỗi thiết bị chuẩn MPEG -4 chỉ được trang
bị một số tính năng phù hợp với một phạm vi ứng dụng nhất định và để tạo điều kiện cho người sử dụng lựa chọn công cụ MPEG -4, các thiết bị MPEG -4 chia thành các nhóm công cụ gọi là các Proílles, mỗi nhóm Proílles chỉ chứa một vài tính năng cần thiết của chuẩn mã hoá thích hợp cho một phạm vi ứng dụng nào
đó Mỗi Proílles lại chỉ có một số các mức Levels khác nhau, thể hiện mức độ phức tạp xử lý tính toán dữ liệu của công cụ đó (thông qua việc xác định rõ tốc độ bít, con số tối đa của các đối tượng trong khung hình, độ phức tạp của quá trình giải
mã audio.)”
1.6 Kết luận chương 1:
Cho tới nay có rất nhiều các chuẩn nén đã được đưa vào ứng dụng cho nén video (tùy theo yêu cầu của mục đích) mà áp dụng phù hợp với nội dung truyền video Đối với truyền hình trên mạng internet đòi hỏi chất lượng xem các ảnh phải
ở chất lượng cao, dung lượng lớn vì vậy qua chương 1 khái quát về các chuẩn nén MPG Có thể khẳng định rằng chuẩn nén MP4 là phù hợp với yêu cầu xử lí tín hiệu của thực tế trong công nghiệp Truyền thông hiện nay
Trang 25Học viên: Phạm Tuấn Hùng – KTĐT 2014-2016 14
Chương 2 CHUẨN NÉN MP-4, ỨNG DỤNG XỬ LÝ TÍN HIỆU
H264 -H265/MP- 4
2.1 Ứng dụng xử lý tín hiệu ảnh H264/MP-4 AVC
2.1.1 Giới thiệu chung
“Kể từ khi mới xuất hiện vào đầu những năm 90, chuẩn nén video MPEG-2
đã hoàn toàn thống lĩnh thế giới truyền thông Chuẩn nén MPEG-2 đã được cải tiến
về nhiều mặt Việc ứng dụng nó được mở rộng hơn nhờ có các kỹ thuật như đoán chuyển động, tiền xử lý, xử lý đối ngẫu và phân bổ tốc độ bit tùy theo tình huống thông qua ghép kênh thống kê.”
“Tuy nhiên, chuẩn nén MPEG-2 cũng không thể được phát triển một cách
vô hạn định Thực tế hiện nay cho thấy chuẩn nén này đã đạt đến hết giới hạn ứng dụng của mình trong lĩnh vực truyền truyền hình từ sản xuất tiền kỳ đến hậu kỳ và lưu trữ Video số Bên cạnh đó, nhu cầu nén Video lại đang ngày một tăng cao kèm theo sự phát triển mạnh mẽ của mạng IP mà tiêu biểu là mạng Internet.”
Chuẩn video MPEG-2 bị hạn chế bởi hai yếu tố trong định nghĩa ban đầu (original definition) của nó:
- “Tốc độ bit nhắm tới của video được nén là khoảng 2-15 Mb/s (đối với main profile ở mail level) Tiêu chuẩn này không chứa giới hạn tốc độ bit thấp hơn bất kỳ vì điều này không được yêu cầu trong định nghĩa của bộ mã hóa tương thích Hiển nhiên MPEG-2 cũng không hiệu quả với tốc độ bit thấp hơn.”
- “Silicon cho thực hiện MPEG-2 đã bị giới hạn đến trình độ công nghệ của những ngày đó Điều này có nghĩa là trong năm 1994 ASIC (application Specific Integrated Circuit) được sử dụng trong thiết kế bộ giải mã với mật độ 120.000 gate/chip với kích thước gate 0.5 - 1 m Trong khi đó công nghệ tiên tiến ngày nay đã đạt 25.000.000 gate/ASIC với kích thước gate nhỏ hơn 0.1
m.”
Trang 26“thân thiện mạng” (network - friendly), nhắm tới các ứng dụng “hội thoại” (video telephone) và “không hội thoại” (lưu trữ, quảng bá hoặc streaming).”
“H.264/AVC đã thực hiện sự cải thiện đáng kể trong hiệu quả giảm tỷ lệ bit
và méo ở tốc độ bit đó, cung cấp (một cách gần đúng) hệ số tiết kiệm tốc độ bit khoảng hai lần so với các tiêu chuẩn đang tồn tại như MPEG-2 video.”
2.1.2 Cấu trúc dữ liệu và các kiểu nén
a Chia ảnh thành các macroblock
Mỗi ảnh video, frame hoặc field, được chia thành các macroblock (MB) có kích thước cố định bao trùm một diện tích ảnh hình chữ nhật gồm 16 x 16 mẫu thành phần luma và 8 x 8 mẫu cho mỗi một trong hai thành phần chroma
Trang 27Học viên: Phạm Tuấn Hùng – KTĐT 2014-2016 16
Hình 2.1 Cấu trúc dòng video h.264
Tất cả các mẫu macroblock luma hoặc chroma được dự đoán theo không gian hoặc thời gian, và dự đoán tại chỗ hợp thành được truyền đi nhờ dùng mã chuyển vị
Các macroblock được tổ chức thành các slice, biểu diễn các tập con của ảnh
đã cho và có thể được giải mã độc lập Thứ tự truyền các macroblock trong dòng bit phụ thuộc vào bản đồ phân phối Macroblock (Macroblock Allocation Map) và không nhất thiết phải theo thứ tự quét
H.264 / AVC hỗ trợ năm dạng mã hóa slice khác nhau:
- I (Intra): Là slice đơn giản nhất, trong đó tất cả macroblock được mã hóa không có tham chiếu tới các ảnh khác trong dãy video
- P (Predicted): Các macroblock được mã hóa tham chiếu tới các ảnh trước
nó
Trang 28Hình 2.2 Chuyển mạch cho slice P
Các tín hiệu dự đoán Inter của các dòng bit cho một frame SP đƣợc chọn đƣợc lƣợng tử hóa trong miền biến đổi, đƣa chúng vào dải biên độ thô hơn để cho phép mã hóa tốc độ bit thấp tín hiệu khác nhau giữa các dòng bit
Hình 2.3 Chuyển mạch cho slice I
Trang 29Học viên: Phạm Tuấn Hùng – KTĐT 2014-2016 18
Các frame SI được xác định để thực hiện sự thích nghi hoàn thiện cho các frame SP trong trường hợp mà dự đoán Inter không thể được sử dụng do các lỗi truyền dẫn
Cấu trúc các chuỗi bit:
Hình 2.4 Cấu trúc dòng bit H.264
Trong đó:
+ mb_type: Xác định xem macroblock được mã hóa trong ảnh hay liên ảnh
(P hoặc B); Xác định kích thước phân vùng macroblock
+ mb_pred: Xác định phương thức dự báo trong ảnh (macroblocks trong
ảnh) và xác định các list 0 / hoặc list 1 để mã hóa phần khác biệt của ảnh chuyển động so với ảnh tham chiếu.Vector cho mỗi phân vùng macroblock (Các macroblocks liên ảnh, trừ MBs liên ảnh với kích thước 8x8 pixel)
+ sub_mb_pred: (Liên ảnh MBs với kích thước 8x8) Xác định kích thước
các sub-macroblock cho mỗi phân vùng macroblock-sub, các list 0 hoặc list 1 của
Trang 30Học viên: Phạm Tuấn Hùng – KTĐT 2014-2016 19
ảnh tham chiếu cho mỗi phân vùng macroblock; mã hóa sự khác biệt của vector chuyển động cho mỗi phân vùng sub-macroblock
+ coded_block_pattern: Xác định được khối 8x8 (Luma và sắc) chứa
vertors chuyển động được mã hóa cho mỗi phân vùng sub- macroblock
+ mb_qp_delta: Thay đổi các tham số lượng tử
+ residual: mã hóa chuyển đổi hệ số tương ứng với các mẫu ảnh còn sót lại
sau khi dự đoán
b Mã hóa H.264
* Sơ đồ khối mã hóa H.264:
Hình 2.5 Mã hoá H.264
Trong đó:
- Fn (current): Ảnh hiện tại
- F’n-1(reference): Ảnh tham chiếu của 1 hoặc 2 khung hình được mã hóa trước đó
- F’n(reconstoncted): Ảnh khôi phục
- Intra prediction: Dự đoán trong ảnh
- Choose Intra Prediction: Chọn dự đoán trong ảnh
- Deblocking íỉlter: Bộ lọc tách khối
Trang 31- Entropy encode: Mã hóa entropy
- MC(Motion Compensation): Bù chuyển động
- ME(Motion estimation): Đánh giá chuyển động
c Định dạng mã hóa dữ liệu:
“Thiết kế H 264/ AVC hỗ trợ mã hóa video (trong định dạng 4:2:0) có chứa các frame liên tục hoặc xen kẽ, hoặc có thể được trộn với nhau trong cùng một dãy Nhìn chung một frame video chứa hai field đan xen, được cách ly về mặt thời gian bởi một chu kỳ field (nửa thời gian của chu kỳ frame), có thể được mã hóa riêng biệt như hai ảnh field, hoặc cùng với nhau như một ảnh frame Một frame liên tục phải luôn luôn được mã hóa như một ảnh frame đơn; tuy nhiên nó vẫn được xem như gồm hai field ở cùng một thời điểm.”
“Lớp trừu tượng mạng (NAL): được xác định để định dạng dữ liệu này và
cung cấp thông tin header trong cách thích hợp cho việc chuyên chở bởi các lớp truyền tải hoặc môi trường lưu trữ Tất cả dữ liệu được chứa trong các khối NAL, mỗi khối chứa một số nguyên byte Một khối NAL xác định định dạng chung cho việc sử dụng trong cả hệ thống định hướng gói (packet - oriented) và hệ thống định hướng dòng bit (bitstream) Định dạng của các khối NAL là đồng nhất cho cả việc phân phối dòng truyền tải định hướng gói và định hướng dòng bit, ngoại trừ rằng mỗi khối NAL trong lớp truyền tải định hướng dòng bit có thể có một tiền tố mã hóa khởi hành ở trước.”
“Lớp mã hóa video (VCL-Video Coding Layer): được định rõ để biểu
diễn hiệu quả nội dung của dữ liệu video.Lớp mã hóa video của H.264/AVC thì tương tự với các tiêu chuẩn khác như MPEG-2 video Nó là sự kết hợp dự đoán theo thời gian và theo không gian, và với mã chuyển vị.”
Trang 32Học viên: Phạm Tuấn Hùng – KTĐT 2014-2016 21
“Ảnh được tách thành các khối Ảnh đầu tiên của dãy hoặc điểm truy nhập ngẫu nhiên thì được mã hóa (trong khối) “Intra”, có nghĩa là không dùng thông tin nào ngoài thông tin chứa trong bản thân ảnh Mỗi mẫu của một khối trong một frame Intra được dự đoán nhờ dùng các mẫu không gian bên cạnh của các khối đã
mã hóa trước đó Đối với tất cả các ảnh còn lại của dãy hoặc giữa các điểm truy cập ngẫu nhiên, mã hóa “Inter” được sử dụng, dùng dự đoán bù chuyển động từ các ảnh được mã hóa trước.”
2.1.3 Ứng dụng công nghệ nén ảnh H.264/MPEG – 4 AVC
H.264/MPEG-4 AVC đánh dấu một bước ngoặt trong lĩnh vực nén video, áp dụng các kỹ thuật tiên tiến nhằm mục đích sử dụng băng thông hiệu quả hơn và đem lại chất lượng ảnh cao hơn Điều này có nghĩa là MPEG-4 AVC là một tất yếu thay thế MPEG-2
Các phạm vi ứng dụng và các Model kinh doanh mới
“Hiệu quả nén tăng của H.264/AVC tạo ra các phạm vi ứng dụng và các cơ hội kinh doanh mới Ví dụ: bây giờ đã có thể truyền tín hiệu video chất lượng TV (ví dụ PAL) ở tốc độ 1 Mb/s, cho phép streaming qua các đường ADSL.”
“Một phạm vi kinh doanh đáng quan tâm khác là truyền dẫn truyền hình qua
vệ tinh Bằng việc chọn điều chế 8-PSK và mã hóa Turbo (hiện đang được nghiên cứu cho tiêu chuẩn DVB-S2) và dùng H.264/AVC, số chương trình qua vệ tinh có thể tăng gấp ba so với các hệ thống DVB-S hiện tại dùng MPEG-2 Nếu điều này xảy ra tất sẽ dẫn đến cuộc cách mạng trong việc thay đổi các máy thu DVB-S hiện
có, cũng có nghĩa là đẩy mạnh công nghiệp sản xuất máy thu hình vệ tinh số.”
“Đối với DVB-T, H.264/AVC là một sự lựa chọn thú vị Giả sử các tham số truyền dẫn như đã được chọn ở Đức (mode 8K, 16 - QAM, tỷ lệ mã 2/3, khoảng bảo vệ A), ta có tốc độ bit 13.27 Mb/s cho mỗi kênh 8 MHz Nếu dùng mã hóa MPEG-2 thì số chương trìnhtruyền hình/kênh tần số bĩ hạn chế tới bốn Trong khi
đó nếu dùng H.264/AVC thì số chương trình có thể tăng lên đến mười hoặc hơn, vì
Trang 33“Một phạm vi kinh doanh đáng quan tâm khác là truyền dẫn và lưu trữ truyền hình có độ phân giải cao (HD) Có thể mã hóa tín hiệu HD ở tốc độ 8 Mb/s, thích hợp với một DVD thông thường Điều này sẽ làm tăng tốc thị trường home cinema Cũng có thể truyền bốn chương trình HD qua một kênh vệ tinh hoặc cáp, làm cho dịch vụ này hấp dẫn hơn đối với các nhà quảng bá vì giá thành truyền dẫn thấp hơn nhiều so với MPEG-2.”
“Trong lĩnh vực thông tin di động, H.264/AVC có vai trò quan trọng vì hiệu quả nén tăng gấp đôi so với các sơ đồ mã hóa được xác định bởi hệ thống điện thoại di động 3GPP cho streaming, có nghĩa là H.263 Baseline, H.263+ và MPEG-
4 Simple Profile Điều này là cực kỳ quan trọng vì tốc độ dữ liệu có sẵn trong các
hệ thống 3G là rất đắt Với tốc độ bit thấp như vậy H.264/AVC sẽ cho phép tải nội dung multimedia cho các dụng cụ di động như điện thoại, PDA (Personal Digital Assistant) hoặc PC laptop qua các công nghệ mạng LAN không dây, DAB (Digital Audio Broadcasting), UMTS (Universal Mobile Telecommications System) và cả DVB-T.”
2.2 Ứng dụng xử lý tín hiệu ảnh H265
“Tiêu chuẩn mã hóa video hiệu quả cao HEVC (High Efficiency Video Coding) hay còn gọi là H.265 là một chuẩn nén video mới nhất hiện tại đang được cộng tác phát triển bởi nhóm ITU-T VCEG (Video Coding Expert Group) và nhóm ISO/IEC MPEG (Moving Picture Experts Group) HEVC là tiêu chuẩn
video thế hệ tiếp theo sau H.264/AVC Mục tiêu của nỗ lực tiêu chuẩn hóa HEVC nhằm làm tăng gấp đôi hiệu quả mã hóa video so với H.264/AVC đang tồn tại, trong khi có thể hỗ trợ cho tất cả những ứng dụng tiềm năng khác như: Cuộc gọi Video, lưu trữ, quảng bá, streaming nhất là cho video kích thước hình lớn (định
Trang 34Học viên: Phạm Tuấn Hùng – KTĐT 2014-2016 23
dạng 4k x 2k) Trong tháng 02-2012, quá trình tiêu chuẩn hóa HEVC phát triển ở giai đoạn bản nháp HEVC đƣợc ISO/IEC và ITU-T hoàn thành nghiên cứu bản nháp tiêu chuẩn quốc tế phiên bàn cuối cùng trong tháng 01-2013 HEVC đƣợc mong đợi là 1 công cụ mạnh cải thiện hiệu quả mã hóa, giảm tỷ lệ méo hình ảnh so với H.264/AVC Bài viết này cung cấp cái nhìn tổng quan về những đặc điểm kỹ thuật của HEVC, bao gồm cấu trúc mức cao, đơn vị mẵ, đơn vị dự đoán, đơn vị chuyển đổi, truyền tải tín hiệu không gian và thực hiện PCM, dự đoán trong ảnh,
dự đoán liên ảnh, mã hóa entropy và lọc vòng Hiệu năng thực hiện mã hóa HEVC cũng đƣợc so sánh với
H.264/AVC.”
Phát triển các tiêu chuẩn mã hoá video nổi bật sau chu kỳ 10 năm:
- 1993: MPEG-2 (Digital Broacast TV)
Trang 35Những cuộc hội đàm cho việc đề xuất phát triển HEVC cuối cùng được thực hiện vào tháng 01-2010 Các mô hình thí nghiệm dưới sự tính toán kỹ lưỡng được thiết lập vào 3 tháng sau đó Vào tháng 08-2010, mô hình thí nghiệm HEVC đầu tiên đươc khởi tạo Sau 5 bản nháp và phát triển phần mềm tham khảo các mô hình, mã hóa HEVC được cải thiện liên tục Điều mà cần thiết đảm bảo việc thiết
kế nội dung đầy đủ cho bản nháp để trình lên hội đồng đánh giá tiêu chuẩn (hình 2)
Mục tiêu phát triển HEVC:
- Cải thiện hiệu quả nén Video: gấp 2 lần so với H.264/AVC
- Độ phân giải lên đến 4k x 2k và tốc độ khung lên tới 60 fps (hoặc cao hơn)
- Độ sâu màu: 8 bit hoặc 10 bit (có thể lên tới 14 bit)
Trang 36Học viên: Phạm Tuấn Hùng – KTĐT 2014-2016 25
Hình 2.6 Lịch sử của các chuẩn nén Video
Hình 2.7 Xu hướng tốc độ bit của các chuẩn nén video
(Nguồn : Ericsson tại hội thảo Technology Conference 12)
Trang 37Học viên: Phạm Tuấn Hùng – KTĐT 2014-2016 26
2.2.2 Ứng dụng và cấu trúc mức cao
So với những tiêu chuẩn mã hóa video thành công trước đó, tiêu chuẩn HEVC được thiết kế để cung cấp các giải pháp kỹ thuật cho ít nhất các ứng dụng bên dưới:
- Truyền hình cáp (CTV) qua mạng cáp quang và cáp đồng
- Dịch vụ video vệ tinh quảng bá trực tiếp (DBS: Direct Broadcast Satellite)
- Dịch vụ video đường dây thuê bao số (DSL: Digital Subscriber Line)
- Quảng bá truyền hình số mặt đất (DTTB: Digital Terrestrial Television Broadcasting)
- Môi trường lưu trữ tương tác (ISM: Interactive storage Media), ví dụ như đĩa quang
- Hệ thống e-mail đa dịch vụ (Multimedia Mailing)
- Dịch vụ đa phương tiện qua mạng gói
- Dịch vụ đàm thoại thời gian thực, ví dụ như Video hội nghị, video telephone
- Dịch vụ giám sát video từ xa
- Môi trường lưu trữ nối tiếp (SSM: Serial storage Media), ví dụ như VTR
số
- Phát triển cho các ứng dụng 3DTV, Ultra HDTV
- Phát triển kết hợp giữa HEVC và MPEG DASH cho streaming video Tất cả những ứng dụng này sẽ được triển khai trong các mạng hiện tại và mạng tương lai Điều này đặt ra những câu hỏi cho việc xử lý đa dạng dịch vụ và mạng Để thực hiện những yêu cầu này với tính linh hoạt cao, HEVC được thiết kế bao gồm một lớp mã hóa video (VCL: Video Coding Layer) cũng như lớp trừu
tượng mạng (NAL: Network Abstraction Layer), cái mà gần giống với cấu trúc
phân lớp trong H.264/AVC
Giao diện hệ thống của HEVC là 1 thành phần quan trọng trong chuỗi truy nhập môi trường, và là điều kiện tiên quyết cho triển khai thành công những ứng dụng thiết bị điện tử khách hàng khác nhau
Trang 38Học viên: Phạm Tuấn Hùng – KTĐT 2014-2016 27
Hình 2.8 Tổng quan mức cao của hệ thống các lớp trong HEVC
- Ở trong hình 8, RTP là giao thức internet cho truyền dẫn thời gian thực thông qua giao thức IP đã được triển khai trên mạng IPTV cũng như các ứng dụng đàm thoại như Video Conference, Video chat
- MPEG-2 được dùng để lưu trữ đĩa Blu-ray cũng như truyền dẫn kênh truyền hình số
- ISO Base Media File Format và MPEG DASH, cho phép người dùng download liên tục trong các ứng dụng VoD và HTTP Streaming qua mạng internet hoặc các ứng dụng download
Ở trong cấu trúc mức cao của một bộ mã hóa HEVC, lớp NAL được định vị bên dưới lớp VCL cung cấp giao diện mạng thân thiện để hỗ trợ những tiêu chuẩn khách hàng đơn giản và hiệu quả của việc dùng VCL cho sự thay đổi đa dạng của
hệ thống, ở đây những khái niệm tương tự như trong chuẩn H.264/AVC được sử dụng lại như: đơn vị NAL, đơn vị truy nhập (access unit) được dùng lại Trong VCL, những khái niệm tương tự và ứng dụng của thiết lập các thông số tuần tự (SPS: Sequence Parameter Set) và thiết lập thông số hình ảnh (PPS: Picture Parameter Set) được chấp thuận bởi JCT- vc trong HEVC để mang thông tin hiếm khi thay đổi và được tham khảo để giải mã một số lượng lớn đơn vị NAL của VCL
Trang 39Học viên: Phạm Tuấn Hùng – KTĐT 2014-2016 28
Hình 2.9 Cấu trúc tích hợp hệ thống các lớp trong HEVC
Để đạt được hiệu quả mã hóa cao, HEVC cũng giới thiệu một vài công cụ
mã hóa mức hình ảnh bao gồm danh sách, tỷ lệ, độ lệch tương thích mẫu (SAO: Sample Adaptive Offset), và bộ lọc vòng lặp tương thích Những thông số này có thể giống nhau khi mã hóa từng phần cắt nhỏ (slice) trong một hình ảnh nhưng sẽ thay đổi khi dịch chuyển dọc theo bức hình Để chia sẽ những thông tin này dọc theo các Slice một cách hiệu quả nhằm hỗ trợ xử lý các slice song song trong khi tạo thuận lợi cho cập nhật và tham khảo đến thông số công cụ, bộ thiết lập thông số tương thích (APS: Adaptation Parameter Set) cũng được thiết kế và giới thiệu trong HEVC Như là một bộ thông số mới dùng cho dữ liệu tương thích hình ảnh (nhất là bộ lọc vòng tương thích ALF: Adaptive Loop Filter), APS tạo thành đặc tính chủ yếu trong cấu trúc bộ thông số HEVC
Trang 40Học viên: Phạm Tuấn Hùng – KTĐT 2014-2016 29
Trong một bộ mã hóa HEVC, mỗi hình ảnh đã được mã hóa sẽ đại diện cho
1 đơn vị dạng khối phù hợp với các mẫu chói và mẫu màu được gọi là đơn vị mã
hóa (CU: Coding Unit) kích thước của CU lớn nhất (LCU: Largest CU) và cu nhỏ nhất (SCU: Smallest CU) có thể thiết lập linh hoạt trong bộ SPS, điều mà khác so với khái niệm khối macro (Macro block: MB) của một con số cố định
16x16 điểm ảnh vuông trong các tiêu chuẩn trước đó Một hình vuông - cây dựa trên sự xấp xỉ phân chia đệ quy được dùng để phân cắt LCU cho đến khi các phần đạt đến kích thước SCU Thuật toán mã hóa nguồn cơ bản trong HEVC là hỗn hợp không gian khai thác dự đoán trong ảnh và liên ảnh và sự phụ thuộc thống kê tạm thời và mã chuyển đổi của việc loại bỏ những khoảng trống dư thừa sau dự đoán Một phương pháp mã hóa entropy hợp nhất, ví dụ như mã hóa số nhị phân dựa trên
tương thích nội dung (CABAC: Context - based Adaptive Binary Arithmetic Coding) tương tự như trong H.264/AVC, cũng được tận dụng để tạo dòng bit mã