Ứng dụng neural networks trong dự đoán thông lượng nguồn video

Nén về cơ bản là một quá trình trong đó số lượng số liệu data biểu diễn lượng thông tin của một ảnh hoặc nhiều ảnh được giảm bớt bằng cách loại bỏ những số liệu dư thừa trong tín hiệu vi

Trang 1

TRƯỜNG ĐẠI HỌC BÁCH KHOA

LUẬN VĂN THẠC SĨ

ỨNG DỤNG NEURAL NETWORKS TRONG DỰ ĐOÁN THÔNG LƯỢNG NGUỒN VIDEO

CHUYÊN NGÀNH : KỸ THUẬT VÔ TUYẾN – ĐIỆN TỬ MÃ SỐ NGÀNH : 2.07.01

LÊ THANH TÂN

TP HỒ CHÍ MINH, THÁNG 7 NĂM 2004

Trang 2

TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH

Cán bộ hướng dẫn khoa học:

Cán bộ chấm nhận xét 1:

PGS.TS Nguyễn Hữu Phương

Cán bộ chấm nhận xét 2:

TS Nguyễn Đức Thành

Luận văn được bảo vệ tại HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ

TRƯỜNG ĐẠI HỌC BÁCH KHOA, ngày 16 tháng 8 năm 2004

Trang 3

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH Độc lập – Tự do – Hạnh phúc

TRƯỜNG ĐẠI HỌC BÁCH KHOA

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ và tên học viên: LÊ THANH TÂN Phái: Nam

Chuyên ngành: KỸ THUẬT VÔ TUYẾN ĐIỆN TỬ Mã số: VTĐT13.031

Khóa: 13 (2002-2004)

I TÊN ĐỀ TÀI: “Ưùng dụng neural networks trong dự đoán thông lượng

nguồn video”

II NHIỆM VỤ VÀ NỘI DUNG:

1 Nghiên cứu cấu trúc các dạng mã hoá MPEG-1, MPEG-2, MPEG-4

2 Nghiên cứu cấu trúc mạng Neural Networks, phân tích các giải thuật huấn luyện và các cách huấn luyện

3 Thiết kế bộ dự báo SSP (linear single-step predictor): là mạng hồi quy (RFMP) để dự báo I-VOP

4 Thiết kế bộ dự báo SSP (linear single-step predictor): là mạng feedforward (FMLP) để dự báo P-VOP, và B-VOP

5 Thiết kế bộ dự báo MSP (multi-step predictor) để ước lượng mức thông lượng nguồn Mục đích sử dụng bộ dự báo là ứng dụng ở on-line và trong thời gian thực Trong đề tài này, bộ dự báo 2 bước được thực hiện dựa trên

cơ sở của mạng hồi quy RFMP (Recurrent feedforward multilayer

perceptron)

6 Ứng dụng các bộ dự báo trong việc dự báo các chuỗi video được mã hoá với các mức lượng tử và các dạng mã hoá MPEG khác nhau

7 Trình bày phần mềm mô phỏng trên môi trường Matlab

III NGÀY GIAO NHIỆM VỤ: 15.02.2004

IV NGÀY HOÀN THÀNH NHIỆM VỤ:11.7.2004

V HỌ VÀ TÊN GIÁO VIÊN HƯỚNG DẪN:

VI HỌ VÀ TÊN GIÁO VIÊN PHẢN BIỆN:

1 PGS.TS Nguyễn Hữu Phương

2 TS Nguyễn Đức Thành

GVHD GVPB1 GVPB2

Trang 4

ngành

Trang 5

LỜI CẢM ƠN

Em xin chân thành cảm ơn thầy Phó Giáo Sư, Tiến sĩ Lê Tiến Thường đã tận tình hướng dẫn, đóng góp nhiều ý kiến quý báu giúp em hoàn thành luận án tốt nghiệp này

Em cũng xin cảm ơn các thầy cô trong bộ môn Viễn thông, khoa Điện – Điện tử, trường Đại học Bách khoa TP HCM đã tận tình giảng dạy và giúp đỡ em trong suốt thời gian theo học Đại học và sau Đại học tại trường

Con xin cảm ơn ba mẹ, người đã nuôi dạy con khôn lớn, dẫn dắt con đến con đường học tập, trau dồi tri thức

Tôi xin cám ơn tất cả bạn bè, người thân đã động viên, giúp đỡ tôi trong suốt quá trình học tập cũng như trong thời gian thực hiện luận án

TP HCM, tháng 7 năm 2004

KS Lê Thanh Tân

Trang 6

ABSTRACT

Nowsdays, multimedia is responsible for an increasing fraction of traffic over networks and this tendency is going on So algorithms for the prediction of traffic source are very essentially developed They could satisfy with designing the effective dynamic bandwith allocation methods and implementing multimedia quality – of – sevice (QoS) control strategies This thesis introduce an approach for improve MPEG – coded video source traffic predictors, these use in single – step – ahead and multi – step – ahead prediction Both single – step predictor (SSP) and multi – step predictor (MSP) are tested accurately on video stream coded MPEG-1 or MPEG-4

TÓM TẮT

Ngày nay, multimedia là nguyên nhân làm tăng thông lượng nguồn và xu hướng này sẽ tiếp tục tiếp diễn Vì thế, các giải thuật dự báo thông lượng nguồn cần được nghiên cứu và phát triển Các giải thuật này giúp cho việc cấp phát băng thông động và thực hiện điều khiển chất lượng dịch vụ (QoS) của multimedia một cách hiệu quả Đề tài này đưa ra một phương pháp cải thiện bộ dự báo thông lượng nguồn video mã hoá MPEG Bộ dự báo sử dụng dự báo đơn bước (SSP) và đa bước (MSP) Cả hai bộ dự báo này được dùng để dự báo thông lượng nguồn video mã hoá MPEG-1 và MPEG-4

Trang 7

1 Đặt vấn đề

Ngày nay, dự báo tốc độ bit của thông lượng nguồn video trong mạng đa phương tiện phát sinh từ 2 lý do quan trọng sau:

• Ưùng dụng tiện lợi cho sự cấp phát băng thông động

• Sự điều khiển chất lượng dịch vụ của dòng đa phương tiện trong thời gian thực Dòng đa phương tiện này truyền qua mạng mà không cần sự bảo vệ dịch vụ, ví dụ mạng nghi thức internet (IP)

⇒ Trong tương lai không xa, việc dự báo thông lượng nguồn là một trong những nhu cầu không thể thiếu trong tính toán mạng và ứng dụng

• Trong thông tin, việc tận dụng hiệu quả băng thông là một trong những mối quan tâm hàng đầu Để thích ứng một cách linh động với băng thông đã được cấp phát cho các user ở các đầu cuối, dự báo thông lượng nguồn của các user bắt buộc phải được thực hiện Hiện tại, multimedia là một trong những dạng làm gia tăng thông lượng của mạng và xu hướng này sẽ tiếp tục tăng Nếu có giải thuật dự báo thông lượng nguồn tốt (thông lượng nguồn này là do các nguồn multimedia gây ra), thì mục đích thiết kế phương pháp cấp phát băng thông động mới được thực thi một cách hiệu quả

• Như đã biết, tất cả các gói dữ liệu phải có mặt tại nơi thu để ghép lại, và các gói này phải đúng trình tự Do đó, giải pháp đưa ra là dùng bộ đệm bên nguồn thu Hiện nay, bộ đệm được thay thế bởi bộ edge-caching

Trang 8

Có nhiều khó khăn trong quá trình truyền những dòng multimedia (có thể là video hay audio) qua mạng trong thời gian thực Đó chính là dòng dữ liệu không yêu cầu sự bảo mật cho dịch vụ Nguyên nhân chính của khó khăn này bắt nguồn bản tính trễ trong khi truyền nội dung của multimedia Bất kỳ phương pháp nào ứng dụng trong truyền thông tin trên mạng IP đều phải chấp nhận bỏ ra một khoảng thời gian Bộ giải mã dùng khoảng thời gian này để giải mã thông tin trong quá trình phát lại Để khắc phục tình trạng này, bộ đệm được dùng ở đầu thu Hiện nay, bộ edge-caching thay thế cho bộ đệm Sự tương nhượng của kỹ thuật này là không chuyển dữ liệu đến đầu thu trong thời gian thực Thậm chí nhiều ứng dụng thông tin đều phải chịu khoảng delay trong đường truyền, trong khi đó nhiều ứng dụng yêu cầu sự truyền trong thời gian thực hoặc gần với thời gian thực Ví dụ: game, hội họp từ xa, điện thoại, … Khi thiết kế và thực thi điều khiển chất lượng dịch vụ trong mạng IP của những ứng dụng yêu cầu thời gian thực hay gần với thời gian thực, một trong những khó khăn lớn là phải biết thông lượng nguồn, biết được giá trị tương lai của chuỗi thời gian

• Chỉ nghiên cứu trên mô hình nguồn ngẫu nhiên và nguồn thống kê

• Ưùng dụng bộ dự báo tuyến tính để dự báo thông lượng nguồn Chỉ dự báo cho I-frame, P-frame

• Chưa có bộ dự báo dành cho B-frame, MPEG-4 video traces

2 Phạm vi nghiên cứu của đề tài

Trang 9

• Nghiên cứu cấu trúc các dạng mã hoá MPEG-1, MPEG-2, MPEG-4

• Nghiên cứu cấu trúc mạng Neural Networks, phân tích các giải thuật huấn luyện và các cách huấn luyện

• Thiết kế bộ dự báo SSP (linear single-step predictor): dự báo I-VOP, P-VOP, B-VOP, Moving Average time-series

• Thiết kế bộ dự báo MSP (multi-step predictor) để ước lượng mức thông lượng nguồn Mục đích sử dụng bộ dự báo là ứng dụng ở on-line và trong thời gian thực Trong đề tài này, bộ dự báo 2 bước được thực hiện dựa trên cơ sở của mạng hồi quy RFMP (Recurrent feedforward multilayer perceptron)

• Ứng dụng các bộ dự báo trong việc dự báo các chuỗi video được mã hoá với các mức lượng tử và các dạng mã hoá MPEG khác nhau

3 Bố cục luận văn

• Chương 1: Mở đầu

Chương này giới thiệu tổng quát về nén video

• Chương 2: Mã hoá DCT (Discrete Cosine Transform)

Chương này giới thiệu phép biến đổi DCT(Discrete Cosine Transform) và ứng dụng trong nén video

• Chương 3: Các tiêu chuẩn nén video

Chương này trình bày các tiêu chuẩn nén JPEG, MPEG

• Chương 4: Tổng quan về nén MPEG-4

Trang 10

Chương này trình bày về nén MPEG-4 Ưùng dụng của tiêu chuẩn MPEG-4 trong nén tín hiệu video

• Chương 5: Sơ lược về Neural Networks

Chương này giới thiệu sơ lược về Neural Networks và các mạng Neuron

cơ bản

• Chương 6: Giới Thiệu Về Mạng Neural Networks

Chương này trình bày cách tạo mạng Neuron cụ thể và những ứng dụng của mạng Neuron

• Chương 7: Chương trình và kết quả

• Kết luận và hướng phát triển

• Phụ lục: Trình bày bài báo đựơc báo cáo ISASE 2004

Trang 11

MỤC LỤC

TRANG

ABSTRACT

ĐẶT VẤN ĐỀ

CHƯƠNG 1: Mở đầu 1

1.1 Mô hình nén Video 2

1.2 Giải pháp giảm tốc độ bit cho Video 2

1.2.1.Độ dư thừa và entropy của tín hiệu video 3

1.2.2 Đặc trưng hệ thống nhìn của mắt người 4

1.3 Kỹ thuật giảm dữ liệu video 4

1.3.1.Giảm tốc độ dữ liệu không tổn thất 5

1.3.2 Giảm tốc độ dữ liệu có tổn thất 5

1.4 Tín hiệu video màu 7

1.4.1.Tín hiệu chói 7

1.4.2 Tín hiệu hiệu số màu 7

CHƯƠNG 2: Mã hoá DCT (Discrete Cosine Transform) 8

2.1 Quá trình mã hóa DCT 8

2.1.1 DCT một chiều 8

2.1.2 DCT hai chiều 9

2.2 Quá trình lượng tử hóa khối DCT 10

2.3 Quét Zigzag 11

CHƯƠNG 3: Các tiêu chuẩn nén video 13

3.1 Chuẩn JPEG 13

3.1.1 Khái quát 13

3.1.2 Mục đích của JPEG 13

3.1.3 Phân cấp cấu trúc số liệu video 14

Trang 12

3.2 Tổng quan chuẩn MPEG 15

3.2.1 Giới thiệu chung về MPEG 15

3.2.2 Các cấu trúc ảnh 16

3.2.3 Nhóm ảnh GOP (Groups of Picture) 17

3.2.4 Cấu trúc dòng bit MPEG video 18

3.2.5 Nguyên lý nén MPEG 20

3.3 Tiêu chuẩn MPEG – 1 22

3.3.1 Mã hóa và giải mã MPEG – 1 22

3.3.2 Cấu trúc video MPEG – 1 22

3.3.3 Cấu trúc dòng bit của MPEG – 1 24

3.4.1 Cấu trúc dòng bit của MPEG – 2 26

3.4.2 Đặc tính và mức 27

3.5.1 Tổng quát 28

3.5.2 Kỹ thuật mã hóa 29

3.6 Các chuẩn video khác 29

3.6.1 Chuẩn H.261 của ITU – T 29

3.6.2 Chuẩn H.263 của ITU – T 30

CHƯƠNG 4: Tổng quan về nén MPEG-4 31

4.1 Tổng quan về MPEG-4 31

4.2 Chức năng của MPEG-4 31

4.3 Các dạng ứng dụng của MPEG-4 31

4.4 Cấu trúc MPEG-4 32

4.5 Cấu trúc hệ thống MPEG-4 33

4.6 Tổng quan về MPEG-4 video 33

4.6.1 Lịch sử phát triển và một số đặc tính của MPEG-4 video 33

Trang 13

4.6.2 Chức năng chính của MPEG-4 Video 35

4.6.3 Cấu trúc thứ bậc của Video 36

4.6.4 Video Object Và Video Object Planes 36

4.6.5 Cấu Trúc Mã Hóa MPEG-4 Video 36

4.6.6 Cấu trúc bộ mã hóa VOP 37

4.6.7 Các kỹ thuật mã hóa MPEG-4 39

4.6.8 Thủ tục mã hóa hình dạng của VOP 40

4.6.9 Chain coding 40

4.6.10 Minh họa của SA-DCT 41

CHƯƠNG 5: Sơ lược về Neural Networks 42

5.1 Giới thiệu chung 42

5.2 Ý tưởng sinh học 42

5.3 Mô hình nhân tạo cơ bản 43

5.4 Sử dụng Neural Networks 45

5.5 Thu thập dữ liệu cho Neural Networks 46

5.6 Tiền và hậu xử lý 47

5.7 Perceptron nhiều lớp 49

5.7.1.Huấn luyện Perceptron nhiều lớp 49

5.7.2 Thuật toán backpropagation 49

5.7.3 Học quá mức và tổng quát hóa 50

5.7.4 Chọn lựa dữ liệu 52

5.7.5 Tìm hiểu cách huấn luyện MLP 53

5.7.6 Các thuật toán huấn luyện MLP khác 55

5.8 Các mạng hàm radial basis 57

5.9 Mạng Neuron xác suất (PNN) 60

5.10 Mạng Neuron hồi quy tổng quát hóa (GRNN) 61

5.11 Mạng tuyến tính 62

Trang 14

5.12 Mạng Kohonen 63

CHƯƠNG 6: Giới Thiệu Về Mạng Neural Networks 66

6.1 Mô hình mạng Neural Networks 66

6.1.1 Mô hình neuron 66

6.1.2 Cấu trúc mạng 68

6.1.3.Cấu Trúc Dữ Liệu 70

6.1.4 Kiểu Huấn Luyện 70

6.2 Mạng tuyến tính thích ứng 70

6.2.1 Mô hình Neuron 71

6.2.2 Cấu Trúc Mạng 71

6.2.3 Trung bình bình phương sai số - Mean Square Error 73

6.2.4 Thuật toán LMS 73

6.2.5 Lọc thích ứng 74

6.2.6 Kết luận 77

6.3 Backpropagation 77

6.3.1 Tổng Quát 77

6.3.2 Huấn luyện mạng 81

6.3.3 Huấn Luyện Nhanh 82

6.4 So Sánh Bộ Nhớ Và Tốc Độ 87

6.5 Cải Thiện Tính Tổng Quát Hóa 87

6.5.1 Regularization 88

6.5.2 Hàm Hiệu Suất Sửa Đổi 88

6.5.3 Tự Động Tổng Quát Hóa 89

6.5.4 Early Stopping 90

6.6 Tiền Và Hậu Xử Lý 90

6.6.1 Phương Pháp MIN và MAX 90

6.6.2 Phương Pháp Trung Bình Và Phương Sai Chuẩn 91

Trang 15

6.7 Giới Hạn 92

6.8 Tóm Tắt 93

Chương 7: Chương trình và kết quả 95

7.1 Dữ liệu dùng để huấn luyện 95

7.1.1 Tạo chuỗi dữ liệu video 95

7.1.2 Chuỗi Video dùng để huấn luyện 96

7.1.3 Các thông số đánh giá chất lượng 97

7.2 Giải thuật thực hiện chương trình 98

7.2.1 Lưu đồ thực hiện chương trình 98

7.2.2 Cấu trúc bộ dự báo SSP cho I-VOPs 99

7.2.3 Cấu trúc bộ dự báo P-VOPs 101

7.2.4 Cấu trúc bộ dự báo B-VOPs 103

7.2.5 Cấu trúc bộ dự báo trung bình của VOPs 104

7.2.6 Cấu trúc bộ dự báo Multi-Step-Ahead Predictor (MSP) 105

7.3 Chương trình mô phỏng và kết quả 107

7.3.1 Chương trình mô phỏng 107

7.3.2 Kết quả 110

7.3.2.1 SSP dự đoán I-VOPs 110

7.3.2.2 SSP dự đoán P-VOPs 117

7.3.2.3 SSP dự đoán B-VOPs 122

7.3.2.4 SSP dự đoán Moving Average time-series 126

7.3.2.5 MSP dự đoán Moving Average time-series 131

7.3.2.6 Kết quả dự báo trên các MPEG-1 video 132

Kết luận và hướng phát triển 133 Phụ lục

Tài liệu tham khảo

Trang 16

CHƯƠNG 1 MỞ ĐẦU

Trong tất cả các dạng tín hiệu thì tín hiệu truyền hình chiếm dải tần lớn nhất cho một kênh thông tin Tín hiệu video số thành phần (số hóa 8 bit) có tốc độ bit bằng

216 Mbits/s Dải phổ cần thiết để truyền tín hiệu này phải có bề rộng không dưới (3/4)x216 = 162 MHz Trong studio, truyền tín hiệu bằng cáp, rắc rối chất lượng cao với khoảng cách ngắn việc nén dải tần chỉ mang tính kinh tế, việc truyền tín hiệu có thể thực hiện mà không cần nén Song sẽ rất khó khăn, thậm chí không thể thực hiện được việc truyền tín hiệu video số qua vệ tinh với độ rộng dải tần một kênh 27 MHz hoặc qua hệ thống truyền hình quảng bá trên mặt đất với tiêu chuẩn 7 – 8 MHz cho một kênh truyền hình tiêu chuẩn Do vậy, nén tín hiệu video là công đoạn không thể thiếu để khắc phục được những khó khăn trên

Nén về cơ bản là một quá trình trong đó số lượng số liệu (data) biểu diễn lượng thông tin của một ảnh hoặc nhiều ảnh được giảm bớt bằng cách loại bỏ những số liệu dư thừa trong tín hiệu video Các chuỗi ảnh truyền hình có nhiều phần ảnh giống nhau Vậy tín hiệu truyền hình có chứa nhiều dữ liệu dư thừa, ta có thể bỏ qua mà không làm mất thông tin hình ảnh Đó là các phần xóa dòng, xóa mành, vùng ảnh tĩnh hoặc chuyển động rất chậm, vùng ảnh nền giống nhau, mà ở đó các phần tử liên tiếp giống nhau hoặc khác nhau rất ít Thường thì chuyển động trong ảnh truyền hình có thể được dự báo, do đó chỉ cần truyền các thông tin về chuyển động Các phần tử lân cận trong ảnh thường giống nhau, do đó chỉ cần truyền các thông tin biến đổi Các hệ thống nén sử dụng đặc tính nàycủa tín hiệu video và các đặc trưng của mắt người (là kém nhậy với sai số trong hình ảnh có nhiều chi tiết và các phần tử chuyển động) Quá trình sau nén ảnh là dãn ảnh để tạo lại ảnh gốc hoặc một xấp

xỉ ảnh gốc

Sự phát triển của kỹ thuật số và việc sử dụng công nghệ số vào kỹ thuật truyền hình làm cho khái niệm nén video trở thành đề tài nóng hổi trong những năm gần đây Thật ra khái niệm nén video đã có từ những năm 1950 cùng với sự ra đời của các hệ truyền hình màu Đó là nén độ rộng băng tần bằng kỹ thuật tương tự Ơû đây, ba tín hiệu thành phần màu (R, G, B) với tổng bề rộng dải thông 15 MHz đã được nén trong một tín hiệu video màu tổng hợp duy nhất với bề rộng dải thông bằng 5 MHz dải thông tần được giảm ba lần, hay nói cách khác, hệ số nén bằng 3:1

Nén video trong những năm 1950 được thực hiện bằng công nghệ tương tự với tỷ số nén thấp Ngày nay, công nghệ nén đã đạt được những thành tựu cao hơn bằng việc chuyển đổi tín hiệu video từ tương tự sang số Công nghệ nén số đòi hỏi năng lực tính toán nhanh, song với sự phát triển của công nghệ thông tin, nhất là từ khi

Trang 17

Mở đầu Trang 2 HV: KS Lê Thanh Tân

Shannon trình bày quan niệm xác suất về thông tin và cách biểu diễn truyền và nén chúng, thì điều này đã không còn trở ngại và nén ảnh càng trở nên quan trọng Từ những năm 1980, các nhà khoa học đã đạt được những thành tựu quan trọng trong việc nén tín hiệu video và audio Có rất nhiều hãng sản xuất thiết bị nén, nhưng đều dựa trên hai định dạng nén rất phổ biến là JPEG và MPEG Trong chương này, ta sẽ xem xét cụ thể từng loại tiêu chuẩn, đánh giá hiệu quả về kỹ thuật và tính kinh tế của từng loại tiêu chuẩn

1.1 Mô hình nén video

Hệ thống nén video gồm ba thành phần cơ bản:

Hình 1.1: Mô hình hệ thống nén video

Ở tầng đầu của bộ mã hóa video, tín hiệu video được trình bày dưới dạng thuận tiện để nén có hiệu quả nhất Điểm cốt yếu là phải xác định cái gì được mã hóa Sự biểu diễn có thể chứa nhiều mẫu thông tin để mô tả tín hiệu hơn là chính tín hiệu, nhưng hầu hết các thông tin quan trọng chỉ tập trung một phần nhỏ của sự mô tả này Trong cách biểu diễn có hiệu quả, chỉ có phần nhỏ dữ liệu là cần thiết để truyền cho việc tái tạo lại tín hiệu video

Hoạt động thứ hai của bộ mã hóa là lượng tử hóa, giúp rời rạc hóa thông tin được biểu diễn Để truyền tín hiệu video qua một kênh số, những thông tin biểu diễn được lượng tử hóa thành một số hữu hạn các mức

Hoạt động thứ ba là gán các từ mã Các từ mã này là một chuỗi bit dùng để biểu diễn các mức lượng tử hóa Các quá trình sẽ ngược lại trong bộ giải mã video

Mỗi hoạt động cố gắng loại bỏ phần dư thừa trong tín hiệu video và tận dụng sự giới hạn của hệ thống nhìn của mắt người Nhờ bỏ đi các phần tử dư thừa, các thông tin giống nhau hoặc có liên quan đến nhau sẽ không được truyền đi Những thông tin bỏ đimà không ảnh hưởng đến việc nhìn, cũng sẽ không được truyền đi

1.2 Giải pháp giảm tốc độ bit cho video

Các hệ truyền hình (tương tự) NTSC, PAL, SECAM sử dụng nén thông tin video bằng cách giảm độ rộng băng tần thành phần màu xuống ≤1.2 MHz do độ nhạy của mắt có giới hạn đối với tín hiệu màu ở tần số cao Các định dạng video tương tự dựa trên cơ sở cùng nguyên tắc Tiêu chuẩn định dạng video thành phần 4:2:2 (CCIR-

Trang 18

601) dùng độ rộng băng tần tín hiệu chói và màu là 5.75 MHz và 2.75 MHz (±0.1 dB) Sau khi số hóa, tốc độ bit tổng cộng của tín hiệu chói và màu là 270 Mb/s Giá trị này rất cao, không thích hợp cho các ứng dụng xử lý ảnh với giá thành thấp, do đó phải nén (hoặc giảm tốc độ bit BRR – Bit-Rate Reduction)

Các hệ thống nén thông tin ảnh dựa trên đặc điểm tâm sinh lý của mắt người và các giới hạn của nó để loại bỏ các thành phần dữ liệu không cần thiết (dư thừa) trong tín hiệu video

1.2.1 Độ dư thừa và entropy của tín hiệu video

Tín hiệu video có các loại dư thừa sau đây:

a Dư thừa dữ liệu theo thống kê

Gần như tất cả các ảnh đều chứa một số lượng lớn các giá trị dữ liệu thông tin giống nhau Trong các hệ thống không giảm dữ liệu, các dữ liệu giống nhau này được lặp lại để tạo lại các vùng đều nhau trong một ảnh và do đó có thông tin dư thừa trong một dòng dữ liệu Dư thừa dữ liệu tồn tại trong các vùng rộng của cùng một ảnh (dư thừa không gian) và giữa một chuỗi các ảnh (dư thừa thời gian) Các hệ thống nén sử dụng yếu tố dữ liệu giống nhau không cần phải lặp lại và không cần truyền hết mà chỉ cần mã hóa một dữ liệu đó và lặp lại toàn bộ tại phần giải mã Quá trình nhận dạng các pixel giống nhau trong một frame hoặc trong một chuỗi các frame được gọi là giải tương quan dữ liệu (data decorrelation) Ví dụ về giải tương quan tốt nhất là phép biến đổi cosine rời rạc DCT, nó tập trung hầu hết năng lượng của một block các pixels vào một số lượng ít nhất các hệ số

b Độ dư thừa tâm sinh lý

Giá trị của các mẫu trong một ảnh được hệ thống nhìn của mắt người HVS (Human Visual System) tiếp nhận không đều nhau Nếu hệ thống HVS không thể nhìn thấy một sai số, thì sai số này không tác động lên chất lượng thu nhận của các ảnh khôi phục Do đó, một số giá trị có thể được thay đổi hoặc loại bỏ mà không ảnh hưởng đến độ dung sai về giảm chất lượng ảnh

c Entropy

Entropy là phép đo trung bình nội dung thông tin của một ảnh được lấy mẫu theo các giá trị nhị phân Sự xuất hiện một sự kiện có xác suất nhỏ hơn (giá trị nhị phân của một mẫu) sẽ cho thông tin nhiều hơn là sự xuất hiện một sự kiện có xác suất cao hơn Từ nhận xét này, ta có thể nói là entropy xác định độ khó khăn về mã hóa một ảnh được cho

Entropy biểu diễn số lượng trung bình tối thiểu của thông tin/mẫu (nhị phân) cần được bảo toàn để loại bỏ sự không chắc chắn trong ảnh khôi phục Nếu bộ nén

Trang 19

video giảm tốc độ bit xuống dưới giá trị entropy của ảnh, thì một số thông tin ảnh sẽ

bị mất

1.2.2 Đặc trưng hệ thống nhìn của mắt người

Hình ảnh (video) được đưa đến và giải mã bằng hệ thốngnhìn của mắt người (HVS – Human Visual System) Mắt người, liên kết với hệ thần kinh não, là một hệ thống ảnh rất chính xác Nó có thể làm việc trong một khoảng rộng về cường độ sáng, tách các vi sai màu (color differences) và nhận độ tương phản (contrast) của ảnh như là một hàm số của tần số không gian và cường độ sáng

a Đặc trưng HVS liên quan với độ dư thừa không gian

Độ dư thừa không gian là kết quả tương quan giữa các giá trị pixels kề nhau Các thông số tác động lên độ dư thừa không gian bao gồm:

• Độ nhạy tần số không gian Tần số cao ít nhìn thấy

• Che lấp cấu trúc (texture) Sai số trong các vùng cấu trúc khó nhìn thấy Cho nên, HVS rất nhạy với méo trong vùng đồng mức

• Che lấp biên ảnh Sai số gần các biên ảnh khó nhìn hơn

• Che lấp độ chói Ngưỡng nhìn thấy tăng với độ chói nền Hiệu ứng này gọi là thích nghi ánh sáng

• Che lấp độ tương phản (contrast) Sai số và nhiễu trong các vùng sáng rất khó nhìn thấy Hiệu ứng này có liên quan đến việc giảm độ nhìn thấy một chi tiết ảnh do hiện diện một chi tiết khác Sự che lấp sẽ cực đại nếu các chi tiết rất giống nhau Các sai số trong ảnh khôi phục thấp hơn ngưỡng contract sẽ không nhìn thấy

• Nội dung nhiễu tần số Độ nhạy HVS đối với nhiễu được giảm trong các tần số không gian cao và lớn nhất tại các tần số thấp

b Đặc trưng HVS liên quan đến độ dư thừa thời gian:

Độ dư thừa thời gian gây ra bởi tương quan giữa các frames khác nhau trong một chuỗi ảnh Các thông số ảnh hưởng đến dư thừa thời gian bao gồm:

• Độ nhạy tần số thời gian Dưới 50 Hz thì hiệu ứng nhấp nháy sẽ rõ ràng

• Che lấp độ chói Các mức chói cao làm tăng hiệu ứng nhấp nháy

• Nội dung tần số không gian Các tần số không gian thấp làm độ nhạy của mắt đối với nhấp nháy ảnh

1.3 Kỹ thuật giảm dữ liệu video

Trang 20

Các hệ thống nén số liệu là sự phối hợp của rất nhiều các kỹ thuật xử lý nhằm giảm tốc độ bit của tín hiệu số mà vẫn bảo đảm chất lượng ảnh phù hợp với một ứng dụng nhất định

Nhiều kỹ thuật giảm dữ liệu có tổn thất và không tổn thất (mất và không mất thông tin) đã được phát triển trong nhiều năm qua Tuy nhiên, chỉ có một số là dùng thích hợp cho các ứng dụng video

Hình1.2: Các kỹ thuật giảm dữ liệu không tổn thất và có tổn thất được liên kết để

tạo ra các tín hiệu JPEG và MPEG

Hình1.2 tập hợp các kỹ thuật giảm dữ liệu để tạo ra các định dạng nén JPEG (Joint Photographic Expert Group), MPEG (Moving Picture Expert Group) Nhiều kỹ thuật khác vẫn còn tiếp tục nghiên cứu như biến đổi KLT (Karhunen-Loève Transform), WHT (Walsh-Hadamard Transform), lượng tử hóa vectơ, kỹ thuật fractal, …

1.3.1 Giảm tốc độ dữ liệu không tổn thất

Nén không tổn thất cho phép khôi phục lại thông tin dữ liệu gốc sau khi dãn (ngược lại với nén) Đó là một quá trình mã hóa đảo ngược được Nén không tổn thất đối với ảnh có chất lượng truyền hình sẽ không cho tỷ lệ nén cao (thường dùng tỷ lệ nén 2:1) Số lượng dữ liệu giảm phụ thuộc vào nội dung ảnh, dẫn đến các ứng dụng có tốc độ bit thay đổi VBR (Variable Bit Rate) như lưu trữ ảnh tĩnh và truyền dẫn Các kỹ thuật nén không tổn thất gồm:

• VLC (Variable Length Coding): Mã hóa Huffman và mã hóa entropy

(thuộc VLC) dựa trên cơ sở xác suất các giá trị biên độ giống nhau trong một

Video số

Nén không mất

Trang 21

ảnh và gán một mã ngắn cho các giá trị có xác suất xuất hiện cao nhất và các từ mã dài cho các giá trị biên độ còn lại (xác suất xuất hiện thấp) trong ảnh

Ở phần dãn (giải nén), việc gán các từ mã giống nhau được dùng để tạo lại các giá trị dữ liệu gốc Mã hóa và giải mã Huffman dễ sử dụng nhờ các bảng tìm kiếm trong phần cứng

• RLC (Run – length Coding): Kỹ thuật này dựa vào sự lặp lại cùng giá trị mẫu dữ liệu để tạo ra các mã đặc biệt chỉ thị sự bắt đầu và kết thúc một giá trị được lặp lại Chỉ có giá trị mẫu khác 0 là được mã hóa theo số chạy (run), các giá trị mẫu bằng 0 dọc theo dòng quét Các vòng 0 được tạo bằng các quá trình tách tương quan như DCT và DPCM

• Nếu loại bỏ dữ liệu vùng xóa, sẽ giảm dòng bit gốc thành nội dung vùng ảnh tích cực Vùng xóa dòng và xóa mành của tia quét video không được ghi và truyền

• DCT tiến kết hợp với một quá trình DCT ngược sẽ không tổn thất nếu độ dài từ của hệ số là 13 đến 14 bits cho 1 tín hiệu video đầu vào được số hóa bằng các mẫu dài 8 bits Nếu dùng một quá trình dài 11 bits (hoặc ngắn hơn) thì nén bằng DCT sẽ có tổn hao

1.3.2 Giảm tốc độ dữ liệu có tổn thất

Nén có tổn thất được thực hiện bằng cách liên kết 2 hoặc nhiều kỹ thuật xử lý để biểu diễn tín hiệu hình Nén có tổn thất có thể đạt tỉ lệ nén từ 2:1 đến 100:1, và kết quả có tổn thất dữ liệu và giảm chất lượng ảnh sau khi dãn vì có sự làm tròn và giảm dữ liệu trong một frame và giữa các frames Có thể tối thiểu hóa độ giảm chất lượng bằng cách tách độ dư thừa tâm lý các giá trị mẫu (dựa trên cơ sở các đặc tính của HVS) Tỷ số nén phụ thuộc nội dung ảnh được dùng trong các ứng dụng tốc độ bit cố định CBR (Constant Bit Rate) như lưu trữ và truyền ảnh Tốc độ dữ liệu trong các hệ thống nén có tổn thất phụ thuộc vào các yêu cầu về chất lượng ảnh được chấp nhận

Kỹ thuật nén có tổn thất bao gồm:

• Lấy mẫu các băng tần con: Đây là một phương pháp giảm dữ liệu rất có

hiệu quả, nhưng sự tổn thất độ phân giải ảnh và các thành phần chồng phổ sẽ làm giảm chất lượng nội dung ảnh gốc Vì lý do này, nên không dùng lấy mẫu băng tần con cho tín hiệu chói Các phương pháp lấy mẫu băng tần con (subsampling) tín hiệu màu trong các định dạng 4:2:0 và 4:1:1 hiện được sử dụng trong các ứng dụng ghi, còn định dạng 4:2:0 trong các ứng dụng sản xuất và truyền dẫn chương trình MPEG

Trang 22

• DPCM: Đây là mã hóa dự báo, truyền phần chênh lệch giữa các mẫu (mà không truyền giá trị mẫu đầy đủ) Phần chênh lệch được cộng vào giá trị mẫu đã giải mã và tại đầu cuối giải mã tạo một giá trị mẫu đã khôi phục lại

• Lượng tử hóa và VLC cho các hệ số DCT: Kết hợp ba quá trình này sẽ cho

phép biểu diễn một khối các bytes của pixel bằng một số lượng nhỏ bits và tạo được kỹ thuật giảm dữ liệu hiệu quả và kinh tế nhất

1.4 Tín hiệu video màu

Trong truyền hình, một màu thực được tạo ra từ ba màu cơ bản là: đỏ (Red), lục (Green), lam (Blue) Kết hợp ba màu cơ bản theo những tỷ lệ nhất định, ta sẽ có màu trắng và các màu khác nhau

1.4.1 Tín hiệu chói Y

Các tín hiệu truyền hình màu cơ bản đều có mang tin tức về độ chói, vì rằng khi độ chói của hình cần truyền tăng hoặc giảm thì biên độ của các tín hiệu màu cơ bản cũng tăng hoặc giảm theo, nhưng tỷ lệ giữa chúng không đổi

EY = 0.299ER + 0.587EG + 0.114EB

Hay có thể viết:

Y = 0.299R + 0.587G + 0.114B

1.4.2 Tín hiệu hiệu số màu

Cần chọn tín hiệu mang màu sao cho khi phát ảnh đen trắng thì tín hiệu mang màu triệt tiêu, chỉ còn lại Y Ngoài ra tín hiệu mang màu không tăng biên độ khi tăng độ chói của ảnh, nghĩa là tín hiệu mang màu không mang tin tức về độ chói

Các tín hiệu mang màu truyền đi được là các tín hiệu hiệu màu R-Y và B-Y

EB-Y = 0.877(EB – EY) ER-Y = 0.493(ER – EY)

Trang 23

CHƯƠNG 2 MÃ HÓA DCT (DISCRETE COSINE TRANSFORM)

Kỹ thuật giảm dữ liệu video sử dụng mã hóa DCT và kết hợp với một quá trình

lượng tử hóa và VLC để đạt tỉ lệ nén cao trong khi vẫn duy trì chất lượng ảnh ở mức

xác định trước

2.1 Quá trình mã hóa DCT

Công đoạn đầu tiên của hầu hết các quá trình nén là xác định thông tin dư thừa

trong miền không gian của một mành hoặc một ảnh của tín hiệu video Nén không

gian được thực hiện bởi phép biến đổi cosine rời rạc DCT DCT biến đổi dữ liệu

dưới dạng biên độ thành dữ liệu dưới dạng tần số

Các phép tính DCT được thực hiện trong phạm vi các khối 8x8 mẫu tín hiệu chói Y

và các khối tương ứng của tín hiệu màu

Trước khi thực hiện biến đổi DCT, cả ảnh được chia thành các khối lớn riêng biệt

không chồng nhau (MB – Macro Block) Mỗi MB bao gồm 4 block các mẫu tín hiệu

chói Y và 2, 4 hoặc 8 block các mẫu tín hiệu hiệu số màu CR , CB Số các block của

tín hiệu hiệu số màu phụ thuộc vào tiêu chuẩn của tín hiệu video

Hình 1.3: Cấu trúc của Macro Block

2.1.1 DCT một chiều

DCT một chiều biến đổi một bảng số biểu diễn các biên độ tín hiệu của các điểm

khác nhau theo thời gian hoặc không gian thành một bảng khác các số, mỗi số biểu

diễn biên độ một thành phần tần số nhất định từ tín hiệu gốc: phần tử thứ nhất là

trung bình của tất cả các mẫu trong bảng đầu vào và được coi là hệ số điều chế - hệ

số DC; các phần tử còn lại, mỗi phần tử biểu diễn biên độ của một thành phần tần

số đặc trưng của bảng đầu vào và được gọi là các hệ số AC

Hàm tính các hệ số có trọng số của mẫu:

]N2/k)1m2cos[(

)k(C)m,k(

0 knếu 2/1)k(C

Trang 24

k: chỉ số bảng kết quả m: chỉ số bảng của mẫu N: độ lớn của bảng của mẫu (block có N=8) Hàm biến đổi DCT thuận:

N2

k1m2cosmxkCN

2k

X

1 N

0 m

π+

k1m2coskCkXN

2)m(x

1 N

0 k

π+

2.1.2 DCT hai chiều

Để đạt được mức giải tương quan cao hơn nội dung của một ảnh, có thể sử dụng

phép biến đổi DCT hai chiều cho khối 8x8 giá trị các điểm chói

Hàm biến đổi DCT thuận:

16

v1j2cos16

u1i2cosjifv

CuC4

1v,uF

7

0 i 7

0 j

π+π

0v u,nếu

2

1v

C,uC

f(i, j): các mẫu gốc trong khối 8x8 F(u,v): các hệ số của khối DCT 8x8 u: tần số ngang chuẩn hóa (0 < u < 7) v: tần số đứng chuẩn hóa (0< v < 7) Đối với hệ số thứ nhất u, v = 0, được gọi là hệ số DC:

0 7

0

, 8

1 0 , 0

j i f F

Nếu dùng quá trình DCT cho các tín hiệu số thành phần Y, CR, CB thì các tín hiệu

CR, CB có biên độ cực đại ± 128, còn tín hiệu Y có khoảng cực đại từ 0 đến 255 giá

trị nhị phân Để đơn giản cho việc thiết kế bộ mã hóa DCT, tín hiệu Y được dịch

mức xuống dưới bằng cách trừ 128 vào từng giá trị pixel trong khối

Trang 25

75 74 72 70 68 66 64 62

82 81 79 77 75 73 71 69

68 67 65 63 31 59 57 55

50 49 47 45 43 41 39 37

591 35 -1 3 -1 0 -1 0

106 0 0 0 0 0 0 0

-18 0 0 0 0 0 0 0

28 0 0 0 0 0 0 0

-34 0 0 0 0 0 0 0

14 0 0 0 0 0 0 0

18 0 0 0 0 0 0 0

3 0 0 0 0 0 0 0

Hình 1.4a: Khối 8x8 các điểm chói f(i.j) Hình 1.4b: Khối các hệ số DCT tương ứng F(u,v)

24 26 40 51 68 81 103 112

40 58 57 87 109 104 121 100

51 60 69 80 103 113 120 103

61 55 56 62 77 92 101 99

40 3 0 0 0 0 0 0

10 0 0 0 0 0 0 0

-2 0 0 0 0 0 0 0

2 0 0 0 0 0 0 0

-1 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0

Hình 1.4c: Bảng trọng số Q(u,v) Hình 1.4d: Khối các hệ số DCT lượng tử hóa và chuẩn hóa Fq(u,v)

2.2 Quá trình lượng tử hóa khối DCT

Quá trình lượng tử hóa khối DCT là khâu nhạy nhất trong việc thiết kế một hệ thống nén vì nó tác động trực tiếp lên chất lượng ảnh khôi phục Độ nhạy hình ảnh của hệ thống HVS đối với hình khối mã hóa phụ thuộc vào các thành phần tần số và hoạt động cục bộ trong miền không gian Do đó, lượng tử hóa thích nghi được thực hiện bằng cách dùng trọng số lượng tử hóa xác định theo 3 yếu tố chính:

• Trọng số tần số

• Thông số hoạt động thụ cảm

• Thông số bộ nhớ đệm

2

v,uQv

,

u

Fq

vu,

Fnhất gầntốnguyênsố

vu,Q

vu,Ftròn

Khối pixel nhận dạng (khối ID), cho phép lượng tử hóa các giá trị chói và màu, vì thông tin màu ít tới hạn đối với HVS Nhiễu lượng tử hóa ít nhìn thấy trong các thành phần màu hơn các thành phần chói và có thể lượng tử hóa thô hơn

Biến đổi DCT

Trang 26

16 19 24 29 56 64 87 98

24 26 40 51 68 81 103 112

40 58 57 87 109 104 121 100

51 60 69 80 103 113 120 103

61 55 56 62 77 92 101 99

17 18 24 47 99 99 99 99

18 21 26 56 99 99 99 99

24 26 56 0 99 99 99 99

47 66 99 99 99 99 99 99

99 99 99 99 99 99 99 99

Bảng trọng số cho mẫu chói (JPEG) Bảng trọng số cho mẫu màu (JPEG) Hình 1.5: Bảng lượng tử hóa của tiêu chuẩn JPEG đối với tín hiệu chói và màu

2.3 Quét Zigzag

Hình 1.6: Quét Zigzag

Hình 1.7: Phổ của 64 hệ số DCT (block 8x8)

Trang 27

Khối DCT được lượng tử hóa, quét zigzag để có khả năng mã hóa và truyền dẫn theo kênh 1 chiều (1D) Hình 1.5 là biến đổi mảng 2 chiều thành dòng liên tiếp các hệ số có không gian tăng Quét zigzag được chọn và đọc đầu tiên các hệ số có ý nghĩa, nhóm cùng với các hệ số 0 nhiều nhất có thể Sự phân bố hệ số khác 0 phụ thuộc vào nội dung ảnh gốc

Trang 28

CHƯƠNG 3 TIÊU CHUẨN NÉN VIDEO

Các tiêu chuẩn nén video có 2 mục đích chính:

• Làm nổi bật độ dư thừa của tín hiệu và dung sai của HVS để giảm tốc độ dữ liệu ảnh gốc

• Biểu diễn dòng dữ liệu ảnh được nén trong một định dạng, có thể nhân lên trong các môi trường sản xuất và chịu đựng đối với các môi trường truyền dẫn hoặc lưu trữ không hoàn hảo

Để thỏa mãn các yêu cầu trên, ta dùng lớp cấu trúc dữ liệu video trong các tiêu chuẩn nén

3.1 Chuẩn JPEG

3.1.1 Khái quát

JPEG (Joint Photographic Expert Group) là tên của một tổ chức nghiên cứu về các chuẩn nén cho ảnh đa tần liên tục (trước đây là ISO) được thành lập vào năm 1982 Năm 1986, JPEG chính thức được thiết lập nhờ sự phối hợp giữa nhóm ISO/IEC và ITV Tiêu chuẩn này có thể được ứng dụng cho nhiều lĩnh vực: lưu trữ ảnh, fax màu, truyền ảnh báo chí, ảnh y học, camera số…

3.1.2 Mục đích của JPEG

Tiêu chuẩn JPEG được định ra cho nén ảnh tĩnh đơn sắc và màu, thực hiện bởi bốn mode mã hóa, đó là:

a) Mã hóa tuần tự: Aûnh được mã hóa theo kiểu quét từ trái qua phải, từ trên xuống dưới dựa trên khối DCT

b) Mã hóa lũy tiến: Aûnh được mã hóa bằng kiểu quét phức hợp theo chế độ phân giải khônggian cho các ứng dụng trên các kiểu băng hẹp và do đó thời gian truyền dẫn có thể dài

c) Mã hóa không tổn thất: Aûnh được đảm bảo khôi phục chính xác cho mỗi giá trị mẫu của nguồn Thông tin không cần thiết sẽ bị cắt bỏ nên cho hiệu quả nén thấp hơn so với phương pháp có tổn thất

d) Mã hóa phân cấp: Aûnh được mã hóa ở chế độ phân giải không gian phức hợp, để cho những ảnh có độ phân giải thấp có thể được truy xuất và hiển thị mà không cần giải nén như những ảnh có độ phân giải trong không gian cao hơn

Trang 29

3.1.3 Phân cấp cấu trúc số liệu video

Các tiêu chuẩn nén video ra đời nhằm đạt được các mục đích trình bày chi tiết các

dư thừa thông tin trong tín hiệu và dư thừa do cảm nhận của mắt người, qua đó giảm tốc độ dòng video số, đưa ra dòng số liệu video đã được nén theo một khuôn dạng nhất định có thể sử dụng cho các yêu cầu sản xuất chương trình cũng như để lưu trữ hay truyền dẫn chương trình

Tiêu chuẩn JPEG bao gồm một phân cấp cấu trúc số liệu video nhằm tạo điều kiện thuận lợi cho việc biến đổi các hình ảnh được mã hóa Các thông số mã hóa, chẳng hạn như dạng làm việc của JPEG, kích thước và tần số ảnh, độ chi tiết điểm ảnh, độ chính xác của lượng tử, các bảng mã đều được cộng vào dòng số được truyền đi Cấu trúc số liệu video JPEG gồm 6 cấp khác nhau phụ thuộc vào chế độ làm việc của JPEG:

a) Đơn vị số liệu DU (Data Unit): bao gồm một khối 8x8 các mẫu thành phần trong dạng nén mất thông tin

b) Đơn vị mã hóa nhỏ nhất MCU (Minimum Coded Unit): là nhóm nhỏ nhất các

DU xen kẽ Trong sử dụng nén DCT theo chuẩn CCIR-601, MCU bao gồm hai khối Y, một khối CR và một khối CB

c) Đoạn mã entropy ECS (Entropy Coded Segment): gồm một số các MCU Đoạn mã entropy cho phép giảm kích thước cho khôi phục từ giới hạn ngắt của số liệu mã entropy

d) Quét: tiêu chuẩn xác định phương pháp quét cho toàn bộ ảnh

e) Khung hình: có thể được tạo thành từ một hay nhiều quá trình quét

f) Lớp ảnh: Aûnh là cấp trên cùng của phân cấp số liệu nén, bao gồm lớp khung và các mã cho toàn bộ một bức ảnh

Với tỷ lệ nén cao, sơ đồ nén JPEG có thể cho ra ảnh có méo dạng hình khối các pixel (artifacts), rõ nét ở các biên ảnh theo chiều đứng và làm “mềm” độ phân giải video JPEG cung cấp khả năng dựng hình tốt về độ phân giải mành hoặc frame Độ trễ về xử lý mã hóa và giải mã sẽ đối xứng và cố định

Trên quan điểm xem hình ảnh động là một chuỗi liên tiếp các hình ảnh tĩnh Khi đó, tiêu chuẩn JPEG được áp dụng cho việc nén ảnh động và nó có tên gọi MJPEG Chuẩn nén MJPEG có ưu điểm khi sử dụng trong công nghệ sản xuất chương trình truyền hình Vì các ảnh được mã hóa độc lập với nhau nên việc thực hiện chính xác đến từng ảnh là có thể thực hiện được Tuy nhiên các thiết bị sử dụng phương pháp nén theo định dạng MJPEG không thể sử dụng cho truyền dẫn, phát sóng vì tốc độ dòng bit sau khi nén còn cao

Trang 30

3.2 Tổng quan chuẩn MPEG

3.2.1 Giới thiệu chung về MPEG

Chuẩn MPEG (Moving Picture Expert Group) là chuỗi các ảnh nén video với mục đích là mã hóa tín hiệu âm thanh và hình ảnh cho DSM (Digital Storage Media) ở tốc độ bit từ 1.5 đến 50 Mbps như MPEG-1, MPEG-2, MPEG-4,….Các chuẩn MPEG tiến tới tối ưu hóa cho những ứng dụng video động và các đặc điểm của nó cũng bao gồm một thuật toán cho việc nén dữ liệu audio với tỷ lệ vào khoảng từ 5:1 đến 10:1 a) MPEG-1: Tiêu chuẩn nén một ảnh động có kích thước 320x240 và tốc độ bit còn từ 1 Mbps đến 1.5 Mbps dùng cho ghi hình trên băng từ và đĩa quang (CD), đồng thời truyền dẫn trong các mạng (như mạng máy tính)

b) MPEG-2: Tiêu chuẩn nén được sử dụng cho các ứng dụng cao hơn với tốc độ còn ≤ 10 Mbps để truyền tín hiệu truyền hình số thông thường Chuẩn MPEG-2 cũng cho phép mã hóa video với hàng loạt các ứng dụng đòi hỏi có thể phân tích ảnh theo các cách khác nhau như thông tin video trên mạng ISDN sử dụng ATM

c) MPEG-3: Tiêu chuẩn nén tín hiệu số xuống còn ≤ 50 Mbps để truyền tín hiệu truyền hình có độ phân giải cao

d) Năm 1992, tiêu chuẩn MPEG-3 được kết hợp với MPEG-2 dùng cho truyền hình thông thường và truyền hình có độ phân giải cao có tên chunglà MPEG-

2

e) MPEG-4: Chuẩn này dùng cho nén hình ảnh video với ít khung hình và yêu cầu làm tươi chậm Tốc độ dữ liệu yêu cầu là 9 – 40 Kbps MPEG-4 hoàn thiện vào tháng 10 – 1998 nhằm mục đích phát triển các tiêu chuẩn mã hóa mới với tốc độ bit rất thấp

f) MPEG-7: Chuẩn này được đề nghị vào tháng 10 – 1998 và kế hoạch trở thành chuẩn quốc tế vào tháng 9 – 2001 MPEG-7 sẽ là chuẩn mô tả thông tin của rất nhiều loại đa phương tiện Mô tả này sẽ kết hợp với chính nội dung của nó cho phép khả năng tìm kiếm nhanh và hiệu quả theo yêu cầu người dùng MPEG-7 được gọi chính thức là “giao thức mô tả nội dung đa phương tiện”

Tiêu chuẩn MPEG là sự kết hợp giữa nén trong ảnh và nén liên ảnh Tức là phương pháp nén có tổn hao dựa trên biến đổi DCT và bù chuyển động

Tiêu chuẩn MPEG không biểu diễn cấu trúc bộ mã hóa một cách chính xác, chỉ đặc trưng chính xác các thuật toán nén và kích thước dòng số liệu Cấu trúc một hệ thống MPEG cơ bản bao gồm 3 phần chính:

Trang 31

• Bộ đồng bộ và dồn kênh tín hiệu Audio và Video

• Hệ thống Video

• Hệ thống Audio

3.2.2 Các cấu trúc ảnh

MPEG định nghĩa các loại ảnh khác nhau cho phép sự linh hoạt để cân nhắc giữa hiệu quả mã hóa và truy cập ngẫu nhiên Các loại ảnh đó như sau:

a Aûnh loại I (Intra – picture)

Là ảnh được mã hóa riêng, tương tự như việc mã hóa ảnh tĩnh trong JPEG Aûnh I chứa đựng dữ liệu để tái tạo lại toàn bộ hình ảnh vì chúng được tạo thành bằng thông tin của chỉ một ảnh Aûnh I cho phép truy cập ngẫu nhiên, tuy nhiên đạt được tỷ lệ nén thấp nhất

b Aûnh loại P (Predicted – picture)

Là ảnh được mã hóa có bù chuyển động từ ảnh I hoặc P phía trước (ảnh dự đoán trước) Aûnh P cung cấp cho hệ số nén cao hơn ảnh I và có thể sử dụng làm một ảnh

so sánh cho việc bù chuyển động cho các ảnh P và B khác

c Aûnh loại B (Bi-directional predicted picture)

Là ảnh được mã hóa sử dụng bù chuyển động từ các ảnh I hoặc P ở phía trước và ở phía sau (ảnh dự đoán hai chiều) Aûnh B cho tỷ lệ nén cao nhất, bên cạnh đó việc sử dụng ảnh B còn có thêm một số ưu điểm sau:

• Giải quyết được các vấn đề thay đổi ảnh cũng như không dự báo được sự thay đổi về nội dung hình ảnh

• Việc sử dụng bù chuyển động từ hai ảnh cho tỷ số tín hiệu trên tạp âm tốt hơn nếu như chỉ sử dụng bù chuyển động từ một ảnh

• Vì ảnh B không sử dụng là ảnh so sánh cho các ảnh khác, nó có thể mã hóa với số lượng bit thấp và không gây lỗi trễ đường truyền

d Aûnh loại D (DC-coded picture)

Là ảnh được sử dụng trong MPEG-1 và MPEG-4 nhưng không được sử dụng trong MPEG-2 Nó giống như ảnh I, tuy nhiên chỉ có thành phần một chiều ở đầu ra DCT được thể hiện

3.2.3 Nhóm ảnh GOP (Group of Pictures)

Trang 32

Đối với chuẩn MPEG, chất lượng ảnh khôngn hững phụ thuộc vào tỷ lệ nén trong từng khuôn hình mà còn phụ thuộc vào độ dài của nhóm ảnh Nhóm ảnh GOP là khái niệm cơ bản của MPEG, là đơn vị mang thông tin độc lập của MPEG

Ta đã biết công nghệ MPEG sử dụng ba loại ảnh I, P, B Trong đó ảnh P, B không phải là một ảnh hoàn chỉnh mà chỉ chứa sự khác biệt giữa ảnh đó và ảnh xuất hiện trước đó (đối với ảnh P) hay sự khác biệt đối với cả khuôn hình xuất hiện trước và sau đó (đối với B) Để có một khuôn hình hoàn chỉnh ảnh P và B cần có dữ liệu từ các ảnh lân cận, chính vì vậy đối với MPEG một khái niệm mới là GOP được sử dụng Mỗi GOP bắt buộc phải bắt đầu bằng một ảnh hoàn chỉnh I và tiếp sau nó là một loạt các ảnh P và B

Nhóm ảnh có thể mở (Open) hoặc đóng (Closed) Nhóm ảnh mở luôn bắt đầu từ một ảnh I và kết thúc ở một ảnh trước ảnh I tiếp theo, tức là ảnh cuối cùng của GOP dùng ảnh đầu tiên của GOP tiếp theo làm ảnh chuẩn Đối với cấu trúc ảnh khép kín, việc dự đoán ảnh không sử dụng thông tin của GOP khác Trong trường hợp này, theo qui định, ảnh cuối cùng của một GOP bao giờ cũng là ảnh P

Nhóm ảnh được xác định bởi hai thông số m và n Thông số m xác định số khung hình P và khung hình B xuất hiện giữa hai khung hình I gần nhau nhất Số n xác định số khung B giữa hai khung P

Tỷ lệ nén video của MPEG phụ thuộc rất nhiều vào độ dài của GOP Tuy nhiên, GOP dài thường gây khó khăn cho quá trình tua, định vị, sửa lỗi,… Do đó, tùy thuộc vàotừng khâu (sản xuất, dựng, truyền dẫn, phát sóng …) mà ta chọn độ dài GOP thích hợp Trong sản xuất hậu kỳ, nếu có yêu cầu truy cập ngẫu nhiên vào bất cứ ảnh nào, điều đó cũng có nghĩa là yêu cầu dựng chính xác đến từng ảnh, GOP đương nhiên sẽ phải chỉ có duy nhất ảnh I Trong trường hợp này, tỷ số nén sẽ đạt rất thấp Để tăng tỷ số nén cho truyền dẫn và phát sóng, trong GOP số lượng ảnh P,

B

5 6

B

6 7

B

4 2

p

7 5

I

Thứ tự hiện ảnh…………1 Thứ tự truyền……….1

Trang 33

B sẽ phải tăng lên Lúc này không cho phép việc dựng hình cũng như làm các kỹ xảo trên chuỗi hình ảnh đó Trong trường hợp này, ta có thể có GOP gồm 12 ảnh

3.2.4 Cấu trúc dòng bit MPEG video

Cấu trúc số liệu video MPEG-1 và MPEG-2 bao gồm 6 lớp, bao gồm:

a) Khối: Khối 8x8 các điểm ảnh tín hiệu chói và tín hiệu màu dùng cho phương

pháp nén DCT

b) Tổ hợp (cấu trúc) khối (macroblock): Một cấu trúc khối là một nhóm các

khối tương ứng với lượng thông tin chứa đựng trong kích thước 16x16 điểm trên bức ảnh Cấu trúc khối này cũng đã xác định lượng thông tin chứa trong đó sẽ thay đổi tùy theo cấu trúc mẫu được sử dụng Thông tin đầu tiên trong cấu trúc khối mang dạng của nó (là cấu trúc khối Y hay CR, CB) và các vectơ bù chuyểnđộng tương ứng

B

C CRY

Hình 1.10: Kiến trúc dòng video MPEG

c) Mảng (Slice): Mảng bao gồm một vài cấu trúc khối kề nhau Kích thước lớn

nhất của mảng có thể bao gồm toàn bộ bức ảnh và kích thước nhỏ nhất của mảng là một cấu trúc khối Thông tin đầu của mảng chứa đựng vị trí của mảng trong toàn bộ ảnh, và hệ số cân bằng lượng tử Kích thước thông tin đầu của mảng được xác định bằng số lỗi cho phép xuất hiện trong mảng đối với một ứng dụng nhất định, theo đó, bộ giải mã có thể bỏ qua các mảng có nhiều lỗi, và xác định bằng tính hiệu quả của phương pháp nén ảnh, theo đó, hệ số cân bằng lượng tử có thể được điều chỉnh thường xuyên với việc sử dụng các mảng có kích thước nhỏ hơn Hệ số DC tham chiếu, dùng trong mã hóa DPCM, sẽ được so chuẩn tại đầu mỗi mảng

Trang 34

d) Aûnh: Lớp ảnh cho phép bộ giải mã xác định loại của ảnh được mã hóa là ảnh

P, I hay ảnh B Thông tin đầu dùng để chỉ thứ tự truyền khung để bộ giải mã có thể sắp xếp các ảnh lại theo một thứ tự đúng Trong thông tin đầu của ảnh còn chứa các th6ng tin về đồng bộ, độ phân giải và phạm vi của vectơ chuyển động

R

C CB

Hình 1.11: Cấu trúc số liệu nén ảnh MPEG

e) Nhóm ảnh (GOP): Nhóm ảnh là tổ hợp của nhiều các khung I, P và B Cấu

trúc nhóm ảnh được xác định bằng hai tham số m và n Mỗi một nhóm ảnh

bắt đầu bằng một khung I và xác định điểm bắt đầu để tìm kiếm và biên tập Thông tin đầu gồm 25bit chứa mã định thời và điều khiển

f) Đoạn (chương trình) video: Đoạn video bao gồm thông tin đầu, một số

nhóm ảnh và thông tin kết thúc đoạn Thông tin đầu của đoạn video chứa đựng kích thước mỗi chiều của ảnh, kích thước của điểm ảnh, tốc độ bit của dòng video số, tần số ảnh và bộ đệm tối thiểu cần có Đoạn video và thông

Trang 35

tin đầu tạo thành một dòng bit được mã hóa gọi là dòng cơ bản (Elementary Stream)

3.2.5 Nguyên lý nén MPEG

Hình 1.12 đưa ra một sơ đồ nguyên lý chung theo chuẩn MPEG Với các loại ảnh như đã nói trên, việc mã hóa theo loại nào là tùy thuộc vào nhà thiết kế, vì vậy cấu trúc thực tế của các bộ mã hóa MPEG có một số điểm khác so với sơ đồ hình 1.12

∑

Hình 1.12: Sơ đồ khối quá trình mã hóa MPEG

a) Nguyên tắc hoạt động

Cách hoạt động của bộ mã hóa, phụ thuộc vào loại hình ảnh, là mã hóa tại thời điểm đang xét Ta thấy rằng nén MPEG là sự kết hợp giữa nén trong ảnh và nén liên ảnh Dạng thức đầu vào là Rec-601 4:2:2 hoặc 4:2:0 được nén liên ảnh trước tạo ra được ảnh khác biệt ở đầu ra bộ cộng, ảnh này sau đó lại được nén trong ảnh qua các bước: biến đổi DCT, lượng tử hóa, mã hóa Cuối cùng ảnh này được trộn cùng với vectơ chuyển động đưa đến bộ khuếch đại đệm sẽ thu được ảnh đã nén Ta xét ví dụ nén trên dùng ảnh I và P trong cấu trúc GOP

Trang 36

Aûnh thứ nhất trong nhóm phải được mã hóa như ảnh loại I Trong trường hợp này, sau khi lấy mẫu lần đầu, tín hiệu video được truyền đến block biến đổi DCT cho các

MB riêng, sau đó đến block của bộ lượng tử hóa và mã hóa entropy Tín hiệu ra từ bộ lượng tử hóa được đưa đến bộ lượng tử hóa ngược và biến đổi DCT ngược, sau đó được lưu vào bộ nhớ ảnh Bộ nhớ ảnh bao gồm ảnh xuất hiện trong bộ giải mã sau khi giải mã ảnh truyền loại I

Trong trường hợp mã hóa ảnh loại P, mạch nén chuyển động làm việc Trên cơ sở

so sánh ảnh đang xét và ảnh trong bộ nhớ, sẽ xác định được các vectơ chuyển động, sau đó dự báo ảnh Sự chênh lệch giữa ảnh đang xét và dự báo ảnh của nó lại được biến đổi DCT, lượng tử hóa và mã hóa entropy Cũng như trong trường hợp các ảnh loại I, tín hiệu ra từ bộ lượng tử hóa được giải lượng tử hóa và biến đổi DCT ngược rồi cộng với dự báo ảnh đang xét và lưu vào bộ nhớ Bằng cách này, luôn luôn trong bộ nhớ tồn tại ảnh như vậy giống như bộ giải mã giải mã ra ảnh đang xét Tốc độ bit của tín hiệu video được nén không cố định, phụ thuộc vào nội dung ảnh đang xét (ví dụ một phần nén ít hơn hoặcnhiều hơn) Ngược lại, tại đầu ra bộ mã hóa, dòng bit phải cố định để xác định tốc độ cho dung lượng kênh truyền Do đó, tại đầu ra của bộ mã hóa phải có bộnhớ đệm đủ lớn Bộ mã hóa phải kiểm tra trạng thái đầy của bộ nhớ đệm Khi số liệu trong bộ nhớ đệm gần bằng dung lượng cực đại, thì các hệ số biến đổi DCT được lượng tử hóa ít chính xác hơn Trong trường hợp ngược lại, có nghĩa là bộ nhớ đệm chứa số liệu quá ít, thì việc lượng tử hóa các hệ số sẽ tăng lên

b) Quá trình giải mã

Quá trình giải mã, theo lý thuyết, là ngược lại với quá trình mã hóa và được minh họa trên hình 1.13

∑

Hình 1.13: Giải mã MPEG

Giai đoạn 1 là tách mã hóa entropy ra Sau đó tách số liệu ảnh (hệ số biến đổi DCT)

ra khỏi các vectơ chuyển động Số liệu sẽ được giải lượng tử hóa và biến đổi DCT

Trang 37

ngược Trong trường hợp ảnh loại I bắt đầu ở mỗi nhóm ảnh trong chuỗi sẽ nhận được ảnh đầu ra hoàn chỉnh bằng cách trên Nó được lưu trong bộ nhớ ảnh và được sử dụng để giải mã các ảnh tiếp theo

Trong trường hợp ảnh loại P sẽ thực hiện giải lượng tử hóa và biến đổi DCT ngược với việc sử dụng các vectơ chuyển động và lưu vào bộ nhớ ảnh sớm hơn Trên cơ sở đó, xác định được dự báo ảnh đang xét Ta nhận được ảnh ra sau khi cộng dự báo ảnh và kết quả biến đổi DCT ngược, ảnh này cũng được lưu bộ nhớ để có thể sử dụng như là chuẩn khi giải mã các ảnh tiếp theo

3.3 Tiêu chuẩn MPEG – 1

MPEG-1 là tiêu chuẩn nén của nhóm chuyên gia về hình ảnh MPEG ở trong giai đoạn đầu tiên hay còn được ký hiệu: ISO/IEC – 11172, hình thành vào tháng 11 –

1992 với mục đích nghiên cứu một tiêu chuẩn mã hóa video và âm thanh kèm theo trong các môi trường lưu trữ số như CD-Rom, DAT, đĩa quang… với tốc độ vào khoảng 1.5 Mbps

Chuẩn MPEG-1 bao gồm 4 phần:

• Các hệ thống (ISO/IEC 11172 -1)

• Video (ISO/IEC 11172 -2)

• Audio (ISO/IEC 11172 -3)

• Hệ thống kiểm tra (ISO/IEC 11172 -4)

3.3.1 Mã hóa và giải mã MPEG-1

Chuẩn MPEG-1 cho phép vận dụng ảnh động một cách linh hoạt như một dạng dữ liệu của máy tính Cũng giống như các dạng dữ liệu khác như văn bản, đồ họa, ảnh động cũng có thể truyền và nhận thông qua máy tính và mạng viễn thông MPEG-1 chọn các khối MB 16x16 để thực hiện quá trình bù chuyển động Kích thước các khối này là sự hài hòa giữa hiệu quả nén bằng cách bù chuyển động và việc lưu trữ các khối MB Các khối MB này lại có thể chia ra làm nhiều loại khác nhau như: Intra coded, Forward prediction coded, Backward prediction coded và Bi-directional prediction coded Dựa trên các khối MB, thông tin các vectơ động được lưu trữ cùng với tín hiệu lỗi nén và các thông tin khác Sự khác nhau giữa vectơ động hiện tại và vectơ động truyền đi trước được mã hóa bằng mã entropy

3.3.2 Cấu trúc video MPEG-1

Để phù hợp với hai hệ thống quét truyền hình hiện nay (525/60 và 625/50), cần có một định dạng chung cho nguồn tín hiệu dùng cho bộ mã hóa nén số liệu, và các

Trang 38

xác định riêng khác nhau phù hợp mỗi hệ thống Định dạng chung cho nguồn tín hiệu được gọi là CSIF (Common Source Intermediate Format)

Trong định dạng chung này, tần số lấy mẫu được lấy theo xác định của chuẩn CCIR-601 Theo đó số mẫu trên một dòngtích cực của cả hai tiêu chuẩn 525/60 và 625/50 bằng nhau Quá trình chuyển đổi từ định dạng theo tiêu chuẩn CCIR-601 sang định dạng CSIF được thực hiện bằng cách sử dụng một bộ lọc thập phân theo chiều ngang cho các mành số lẻ Y, một bộ lọc theo chiều ngang và một bộ lọc theo chiều thẳng đứng cho các mành số lẻ CB và CR như trên hình 1.14

B C

R C

B C

R C

B C

Hình 1.14: Quá trình biến đổi sang định dạng CSIF và kích thước mảng các điểm

ảnh Hình 1.15 minh họa quá trình tính toán bộ lọc số thập phân cho tất cả các vị trí điểm ảnh trong ảnh CSIF Giá trị điểm ảnh tạivị trí n được tính bằng tích số của các giá trị điểm ảnh từ (n – 3) đến (n + 3) với các hệ số của bộ lọc tương ứng tại các vị trí này trên hình vẽ Tổng của các kết quả này được chia cho 256 và thu được giá trị điểm ảnh mới tại vị trí n Phép tính tiếp theo được thực hiện cho điểm ảnh ở vị trí n + 2 Một quá trình lọc tương tự áp dụng theo chiều thẳng đứng tạo ra giá trị thập phân tín hiệu CR và CB theo chiều này

Trang 39

Hình 1.15:Tính toán giá trị cho các điểm ảnh trong lọc thập phân

Số các điểm ảnh trên một dòng tích cực được giảm từ 360 xuống 352 để thu được một bội số của 16 nhằm tổ chức thuận lợi các cấu trúc khối điểm ảnh 16x16 với cấu trúc 4:2:0 Aûnh tích cực đã làm giảm (352x240) được gọi là vùng điểm ảnh xác định (có ý nghĩa) cho CSIF Định dạng CSIF phối hợp với cấu trúc lấy mẫu 4:2:0 làm giảm thêm số liệu tín hiệu màu

Trước khi mã hóa MPEG-1, tốc độ số liệu ban đầu cần đựoc giảm nhờ bộ biến đổi 4:2:2 sang định dạng CSIF, từ dòng có tốc độ 166 Mbps xuống dòng có tốc độ 31.5 Mbps Do vậy, quá trình giải mã sẽ cần một bộ chuyển đổi ngược lại quá trình này

3.3.3 Cấu trúc dòng bit của MPEG – 1

Để biểu diễn các đặc điểm của chuỗi bit, tiêu chuẩn MPEG-1 đưa ra một loạt các thông số

Cấu trúc phân lớp: Dòng bit được phân thành các lớp như: Sequence (chuỗi ảnh), GOP (Group of Picture – nhóm ảnh), Picture (ảnh), Slice (mảng), Macro Block (MB), Block (khối) Cấu tạo và chức năng của mỗi lớp được chỉ ra trong bảng 4.1 Bảng 1.1: Các thông số MPEG -1

GOP Gồm từ (1÷n) ảnh bắt đầu

phục hồi lỗi Macro Block (MB) Với 4:2:2 gồm 4 block Y; 1

block CR và 1 block CB

Đơn vị bù chuyển động

Bảng 1.2: Tham số theo tiêu chuẩn nén MPEG – 1

Trang 40

Tín hiệu mã hóa

Cấu trúc lấy mẫu

Kích thước ảnh tối đa (điểm ảnh x điểm

ảnh)

Biểu diễn mẫu

Độ chính xác của quá trình lượng tử hóa và

biến đổi DCT

Phương pháp lượng tử hóa hệ số DC

Cấu trúc khối trong quá trình lượng tử hóa

thích nghi

Độ chính xác cực đại của hệ số DC

Biến đổi RLC

Bảng VLC

Hệ số cân bằng các khối

Bù chuyển động

Quét

Độ chính xác dự đoán chuyển động

Tốc độ khi nén

Tuần tự

½ điểm ảnh 1.85 Mbps cho nén tham số

100 Mbps cho dòng đầy đủ tham số

Phương pháp nén MPEG -1 cho phép truy cập ngẫu nhiên các khung video, tìm kiếm thuận và nghịch trên dòng tín hiệu nén, biên tập và phát lại trên dòng tín hiệu nén MPEG – 1 là tập con của MPEG – 2, nên tất cả các bộ giải mã MPEG – 2 đều có thể giải mã được dòng tín hiệu MPEG -1

3.4 Tiêu chuẩn MPEG – 2

MPEG – 2 là dự án giai đoạn 2 của ủy ban ISO/PEC MPEG MPEG-2 hướng tới các ứng dụng rộng rãi hơn và có tốc độ bit cao hơn MPEG-1, bao gồm điện tử viễn thông và truyền hình số thế hệ kế tiếp

Chuẩn MPEG-2 bao gồm 4 phần chính:

• Các hệ thống (ISO/IEC 13818 – 1)

• Video (ISO/IEC 13818 – 2)

• Audio (ISO/IEC 13818 – 3)

• Các hệ thống kiểm tra (ISO/IEC 13818 – 4)

Phần 1 đưa ra cấu trúc kết nối phức tạp giữa dữ liệu audio và video và đồng bộ thời gian thực Phần 2 đưa ra cách mã hóa tín hiệu video và cũng chỉ ra quá trình giải mã

Định dạng
Số trang	161
Dung lượng	1,66 MB