Xử lý tín hiệu video theo chuẩn MPEG 4 ứng dụng trong Multimedia

Xử lý tín hiệu video theo chuẩn MPEG 4 ứng dụng trong Multimedia Xử lý tín hiệu video theo chuẩn MPEG 4 ứng dụng trong Multimedia Xử lý tín hiệu video theo chuẩn MPEG 4 ứng dụng trong Multimedia luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp

Trang 1

NGUYỄN ĐẮC NGUYÊN

xö lý tÝn hiÖu video theo chuÈn Mpeg-4

øng dông trong multimedia

LUẬN VĂN THẠC SỸ KHOA HỌC

Chuyªn ngµnh: §iÖn tö - ViÔn th«ng

NGƯỜI HƯỚNG DẪN

TS NGUYỄN THẾ TRUYỆN

HÀ NỘI, 11 - 2004

Trang 2

Môc lôc

Trang

Trang phô b×a

MôC lôc i

C¸c thuËt ng÷ vµ ch÷ viÕt t¾t vi

danh môc c¸c b¶ng viii

Danh môc c¸c h×nh vÏ ix

lêi nãi ®Çu 1

Ch-¬ng 1-Tæng quan vÒ nÐn ¶nh 3

1.1 Sù cÇn thiÕt nÐn ¶nh 3

1.2 §Æc ®iÓm ¶nh 3

1.2.1 D- thõa d÷ liÖu theo thèng kª 4

1.2.1.1 D- thõa trong pixel 4

1.2.1.2 D- thõa m· 4

1.2.2 D- thõa t©m sinh lý 4

1.3 Lý thuyÕt th«ng tin-Entropy 5

1.4 Ph©n lo¹i C¸c ph-¬ng ph¸p nÐn 7

1.4.1 NÐn kh«ng tæn hao 7

1.4.2 NÐn cã tæn hao 8

1.5 Tæ chøc MPEG 8

1.5.1 MPEG-1 10

1.5.2 MPEG-2 10

Trang 3

1.5.3 MPEG-4 11

1.5.4 MPEG-7 14

Ch-ơng 2-Tổng quan về nén ảnh trong MPEG 15

2.1 Nguyên lý nén ảnh 15

2.1.1 Mô hình nén ảnh 15

2.1.2 Nén trong ảnh 16

2.1.2.1 Tiền xử lý 16

2.1.2.2 Biến đổi DCT rời rạc 16

2.1.2.3 L-ợng tử hoá 21

2.1.2.4 Mã hoá entropy 24

2.1.3 Nén liên ảnh 26

2.1.3.1 Xấp xỉ và bù chuyển động 27

2.1.3.2 ảnh dự đoán tr-ớc (ảnh P) 30

2.1.3.3 ảnh dự đoán hai chiều (ảnh B) 32

2.1.3.4 Làm t-ơi 35

2.2 Nén ảnh trong MPEG 35

2.2.1 Các cấu trúc ảnh 36

2.2.2 Nhóm ảnh ( GOP) 37

2.2.3 Cấu trúc của dòng dữ liệu hình ảnh mã hoá 38

2.3 Giới thiệu chung về hệ thống MPEG-4 39

Ch-ơng 3: Xử lý video trong MPEG- 4 43

3.1 Cấu trúc dòng dữ liệu trong MPEG-4 43

3.2 Sơ đồ mã và giải mã 44

Trang 4

3.2.1 Sơ đồ mã hoá 44

3.2.2 Sơ đồ bộ giải mã 45

3.3 Mã hoá video tự nhiên trong MPEG-4 46

3.3.1 Dự đoán và bù chuyển động 47

3.3.1.1 Bù chuyển động 1/4 điểm ảnh ( Quarter- pel motion Compensation)

48 3.3.1.2 Bù chuyển động toàn cục (Global motion compensation) 52

3.3.1.3 Chế độ trực tiếp trong bù chuyển động hai chiều 54

3.3.1.4 Lựa chọn phù hợp 1 khối 16x16 hay 4 khối 8x8 56

3.3.1.5 Bù chuyển động chồng lẫn (Overlapped Motion Compensation)

57 3.3.2 Mã hoá kết cấu (Texture Coding) 58

3.3.2.1 Dự đoán Intra DC và AC 59

3.3.2.2 Dự báo bù chuyển động của VOP dạng tuỳ chọn 60

3.2.3.3 Mã hoá kết cấu của VOP dạng tuỳ chọn 61

3.3.3 Mã hoá dạng (Shape Coding) 64

3.3.3.1 Mã hoá dạng nhị phân với thuật toán CAE 66

3.3.3.2 Mã hoá dạng phân bố mức xám 69

3.3.4 Mã hoá bóng (Sprite Coding) 70

3.3.5 Visual Texture Coding (VTC) 72

3.3.6 Mã hoá video phân cấp 73

3.3.6.1 Phân cấp không gian 73

3.3.6.2 Phân cấp thời gian 79

Trang 5

3.3.6.3 Phân mức chất l-ợng SNR (Fine Granularity Scalability) 83

Ch-ơng 4 - Đánh giá xử lý Video trong MPEG 4-2 theo các mô hình 86

4.1 Tiêu chuẩn đánh giá chất l-ợng ảnh 86

4.2 Các đánh giá, ph-ơng pháp kiểm tra 87

4.2.1 Ph-ơng pháp kích thích đơn ( Single Stimulus) 87

4.2.2 Ph-ơng pháp phân cấp suy giảm kích thích kép 88

4.2.3 Ph-ơng pháp phân cấp chất l-ợng liên tục dùng kích thích kép 89

4.2.4 Ph-ơng pháp kích thích kép đồng thời cho đánh giá liên tục 90

4.3 Một số kiểm tra trắc nghiệm về chất luợng 91

4.3.1 Các yêu cầu khi thực hiện kiểm tra 91

4.3.2 Kiểm tra mã hoá h-ớng đối t-ợng 92

4.3.2.1 Các điều kiện 92

4.3.2.2 T- liệu kiểm tra 92

4.3.2.3 Ph-ơng pháp và thiết kế 93

4.3.2.4 Phân tích dữ liệu 93

4.3.3 Kiểm tra hiệu quả mã hoá với tốc độ bit thấp và trung bình 94

4.3.2.1 Các điều kiện 95

4.3.2.2 T- liệu kiểm tra 95

4.3.2.3 Ph-ơng pháp và thiết kế 95

4.3.2.4 Phân tích dữ liệu 95

Kết kuận 96

lời cảm ơn 98

Trang 6

Tài liệu tham khảo 99

Phụ lục 100

Danh mục Các từ viết tắt và thuật ngữ

Tên viết

tắt

AAC Advance Audio Coding Mã hoá âm thanh tiên tiến BAB Binary Alpha Block Khối alpha nhị phân

BBM Block Boudnary Mirroring Lấy đối xứng khối qua

đ ờng biên

Trang 7

BIFS BInary Format for Scene Định dạng nhị phân cho hình

ảnh

BM Block Matching Ph-ơng pháp đối sánh khối CAE Context-based Arithmetic Coding Mã hoá số học h-ớng đối

t-ợng

CI Confidence Interval Khoảng đáng tin

CIF Common Intermediate Fomat Định dạng trung gian

DCT Discrete Cosin Transform Chuyển đổi Cosin rời rạc DIS Draft International Standard Dự thảo chuẩn quốc tế

DPCM Differential Pulse Code Modulation Điều xung mã vi sai

DSCQS Double Stimulus Continuous Quality

Scale

Đánh giá chất l-ợng liên tục dùng kích thích kép

DSIS Double Stimulus Impairment Scale Ph-ơng pháp đánh giá chất

l-ợng theo tỉ lệ giảm cấp dùng kích thích kép DSM Digital Storage Multimedia L- trữ số đa ph-ơng tiện FGS Fine Granularity Scalability Khả năng phân cấp theo chất

l-ợng suy giảm đều GMC Global Motion Compensate Bù chuyển động toàn cục

HDTV Hi-Definition Television Truyền hình có độ phân giải

cao HVS Human Visual System Hệ thống nhìn của ng-ời

IC Intergrated Circuirt Mạch tổ hợp

ISO International Standard Orgnization Tổ chức tiêu chuẩn quốc tế ITU International Telecommunication Union Hiệp hội viễn thông quốc tế

MPEG Moving Picture Experts Group Nhóm các chuyên gia về ảnh

Trang 8

động

OMC Overlap Motion Compensation Bù chuyển động chồng lấn QSIF Quarter Standard Image Fomat Định dạng 1/4 ảnh chuẩn RLC Run Length Coding Mã hoá có độ dài chạy

SAD Sum of Absolute Difference Tổng các khác biệt tuyệt đối SA-DCT Shape Adaptive Discrete Cosin

Transform

DCT thích ứng dạng

SDSCE Simultaneous Double Stimulus for

Continuous Evaluation

Kích thích kép đồng thời cho

đánh giá liên tục SNR Signal-to-Noise Ratio Tỉ số tín hiệu trên nhiễu Sprite A static sprite is a - possibly large - still

image, describing panoramic

background

Thuật ngữ chỉ ảnh tĩnh mô tả toàn cảnh phông nền- đối với sprite tĩnh

VLC Variable Length Coding Mã hoá có độ dài thay đổi

VOL Video Object Layer Lớp các đối t-ợng video VOP Video Object Plane Nhóm các VO trong một mặt

phẳng

Trang 9

Danh mục các bảng

Danh mục các hình vẽ

STT

1

2

3

4

5

6

Ch-ơng 4

Trang

Bảng 4.1 Đánh giá chất l-ợng ảnh chủ quan 86

Bảng 4.2 Thang chất l-ợng 11 cấp cho ph-ơng pháp SS 88

Bảng 4.3 Thang giảm cấp 5 mức dùng cho DSIS 89

Bảng 4.4 Ví dụ bảng cho điểm dùng trong DSCQS 90

Bảng 4.5 Các điều kiện mã hoá dùng để kiểm tra mã hoá h-ớng đối

t-ợng 93

Bảng 4.6 Các điều kiện mã hoá cho việc kiểm tra hiệu quả mã hoá 94

Trang 10

Ch-ơng 2

Trang

Hình 2.1 Mô hình hệ thống nén video 15

Hình 2.2 Nén trong ảnh (Intra Frame Compression) 16

H ình 2.3 Cấu tạo của Macro Block 17

Hình 2.4 Biến đổi DCT hai chiều 20

Hình 2.5 L-ợng tử hóa có trọng số 21

Hình 2.6: Bảng phân bố các hệ số DCT 22

Hình 2.7 Các bảng l-ợng tử cho tín hiệu chói và tín hiệu màu theo chuẩn JPEG 23

Hình 2.8 Quét zic-zag các hệ số l-ợng tử hóa DCT 25

Hình 2.9 Các hệ số DCT của khối dữ liệu sau mã hóa VLC còn 48 bit 26

Hình 2.10 Mô hình nén liên ảnh 26

Hình 2.11 Dự đoán bù chuyển động một chiều và hai chiều 29

Hình 2.12 Xác định vector chuyển động 31

Hình 2.13 Nén liên ảnh (ảnh dự đoán tr-ớc) 32

Hình 2.14 Vector chuyển động trong ảnh dự đoán hai chiều 32

Hình 2.15 Bù chuyển động hai chiều 33

Hình 2.16 Thứ tự các khung video 34

Hình 2.17 Mối quan hệ giữa các loại ảnh trong một đoạn 8 ảnh 37

Hình 2-18: Cấu trúc dòng dữ liệu MPEG1 38

Hình 2.19 Ví dụ về khung hình ảnh- âm thanh MPEG-4 41

Hình 2.20 Biểu đồ hệ thống của khung AV trong hình 2.19 42

Trang 11

Ch-ơng 3

Hình 3.1 Cấu trúc dữ liệu video trongMPEG-4 43

Hình 3.2 Sơ đồ mã hoá MPEG-4 44

Hình 3.3 Mô hình giải mã visual trong MPEG-4 46

Hình 3.4 Nội suy mẫu cho các MV 1/2 pel 49

Hình 3.5 Nội suy mẫu cải tiến 1/2 pel, b-ớc thứ nhất cho nội suy mẫu 1/4 pel (chỉ theo chiều ngang ) 50

Hình 3.6 Sắp xếp các mẫu đ-ợc sử dụng cho phép nội suy 1/4 pel, sử dụng các giá trị mẫu 1/2 pel tính toán trong b-ớc 1 .51

Hình 3.7 Block Boundary Mirroring 51

Hình 3.8 Bù chuyển động chung của một Macro block trong MPEG-4 53

Hình 3.9 Phân bố mẫu cho nội suy mẫu hai chiều khi sử dụng trong GMC của MB 54

Hình 3.10 Nguyên tắc của chế độ bù chuyển động hai chiều 55

Hình 3.11 Các khối liền kề dùng trong dự báo hệ số DC 59

Hình 3.12 Hình chữ nhật bao kín VOP dùng để mã hoá 62

Hình 3.13 Minh hoạ SA-DCT 64

Hình 3.14 Mẫu dùng xác định nội dung của điểm ảnh X đ-ợc mã theo chế độ Intra 66

Hình 3.15 Mẫu dùng để xác định nội dung điểm ảnh X trong chế độ Inter 68

Hình 3.16 Mã hoá dạng phân bố mức xám 69

Hình 3.17 Xây dựng lại hình ảnh dùng BG sprite 70

Hình 3.18 Quá trình giải mã sprite của MPEG-4 72 Hình 3.19 Sơ đồ khối đơn giản cho mã hoá phân mức không gian [MPEG4-2]

Trang 13

Lời nói đầu

Thập kỷ vừa qua chứng kiến sự phát triển v-ợt bậc của các ứng dụng và dịch vụ đa ph-ơng tiện với thông tin nghe nhìn ngày càng đóng vai trò quan trọng Hàng chục triệu sản phẩm sử dụng thông tin nghe nhìn ngày nay liên quan chặt chẽ đến các lĩnh vực nh- là nén hình ảnh và âm thanh, điện tử số và các chuẩn mã hoá thông tin Các chuẩn mã hoá thông tin này mở ra những h-ớng cho sản xuất trong lĩnh vực tạo các sản phẩm và ứng dụng mới, trong khi đó ng-ời sử dụng có cơ hội sử dụng và thay đổi nội dung thông tin nghe nhìn một cách dễ dàng hơn

Trong lĩnh vực mã hoá thông tin này nhóm chuyên gia về ảnh động (MPEG) đóng vai trò quan trọng Sau việc phát triển thành công của các chuẩn MPEG-1 và MPEG-2, là các chuẩn đóng vai trò quan trọng trong lĩnh vực công nghệ và thị tr-ờng nh- là ghi tín hiệu video số, truyền hình số, phát sóng số audio, các thiết bị ghi và phát audio chất l-ợng cao, v v., nhóm MPEG đã đ-a ra một mô hình mới dựa trên sự hiển thị các đối t-ợng trong khung ảnh Mô hình mới này rất linh hoạt và ngoài việc mở ra các h-ớng mới mẻ cho các ứng dụng và dịch vụ trên nền đa ph-ơng tiện nó còn tạo ra các h-ớng mới cho ng-ời sử dụng trong quan hệ với thông tin nghe nhìn- chuẩn MPEG-4

Chuẩn MPEG-4 là chuẩn mã hoá đầu tiên tạo điều kiện thuận lợi cho việc trình bày thông tin nghe nhìn theo các cách phức tạp và hiệu quả Đây cũng là chuẩn mã hoá

đầu tiên khai thác tối đa năng lực của công nghệ số trong việc chuyển từ t-ơng tự vào thế giới số hoá Chuẩn MPEG-4 đã tạo ra b-ớc ngoặt tiếp theo cho công nghệ trình bày thông tin nghe nhìn MPEG-4 là chuẩn đầu tiên hỗ trợ mã hoá trên cơ sở nội dung các đối t-ợng Việc hiểu rõ về chuẩn này là cần thiết nh-ng không dễ dàng

do ứng dụng rộng rãi và phức tạp của nó trong lĩnh vực mã hoá thông tin nghe nhìn Trong luận văn này trình bày vấn đề liên quan đến một phần của chuẩn MPEG-4: Mã hoá hình ảnh hiệu quả Mã hoá hiệu quả trong MPEG-4 là tiền đề cho các ứng dụng truyền hình ảnh tốc độ thấp trên mạng IP nh- là : TV online, truyền hình t-ơng tác, truyền thông đa ph-ơng tiện theo dòng, Vì vậy nghiên cứu các công cụ mã hoá hình ảnh và đánh giá hiệu quả xử lý của các công cụ này là rất cần thiết

Trang 14

Mục đích của luận văn là khảo sát các công cụ nén hình ảnh trong chuẩn MPEG-4

và đánh giá hiệu quả mã hoá của các công cụ xử lý đó Trên cơ sở phân tích luận văn cũng nêu ra một số mô hình đánh giá chất l-ợng mã hoá theo khuyến cáo của ITU và đề xuất mô hình đánh giá chất l-ợng nén ảnh

Nội dung của luận văn đ-ợc trình bày trong 4 ch-ơng nh- sau:

đề xuất trong MPEG4-2

Kết luận đ-a ra kiến nghị và đề xuất h-ớng nghiên cứu tiếp theo của luận văn

Trang 15

Ch-ơng 1 Tổng quan về nén ảnh

1.1 Sự cần thiết nén ảnh

Hình ảnh có thể giúp con ng-ời cảm nhận, ghi nhớ và hiểu thế giới xung quanh Cùng sự phát triển của công nghệ điện tử, đặc biệt là công nghệ tổ hợp IC cỡ lớn và sự tăng mạnh của công nghệ xử lý trên máy tính đã cho phép ứng dụng video trên nhiều lĩnh vực trong đời sống Tuy nhiên các ảnh số còn tồn tại những thông tin d- thừa đôi khi là những thông tin không mong muốn Video có thể coi là chuỗi các khung ảnh tĩnh nên chứa luợng dữ liệu rất lớn Ví dụ mỗi khung video có độ phân giải 288 và 352 ( 288 dòng và 352 pixel/dòng), mỗi pixel đại diện bởi 3 màu cơ bản (R,G,B) , l-ợng tử 8bit/màu, tần số mặt là 30frame/s để có video chuyển

động Khi đó tốc độ bit cần là :

288x352x8x3x30 = 72.990.720 bps Tr-ờng hợp tín hiệu truyền hình có độ phân giải cao HDTV : độ phân giải 720x1280 pixel/khung, tốc độ quét mặt 60 khung/s, dung l-ợng đ-ờng truyền là:

(720x1280 pixel/khung)x(60 khung/s)x(3màu/pixel)x(8bit/màu)= 1.3Gb/s

Để đảm bảo chất l-ợng hình ảnh, với tốc độ bit nh- trên rõ ràng là các đ-ờng truyền thông th-ờng rất khó đáp ứng, ngoài ra giá thành thuê kênh truyền dẫn cũng là rất cao không thích hợp cho ứng dụng dân dụng Vì vậy ng-ời ta phải nghiên cứu các biện pháp nén ảnh nhằm tận dụng các đ-ờng truyền tốc độ thấp cho việc truyền ảnh

mà vẫn đảm bảo chất l-ợng yêu cầu Công nghệ nén là cầu nối giữa yêu cầu l-ợng dữ liệu video lớn với hạn chế về dung l-ợng đ-ờng truyền

1.2 Đặc điểm ảnh

Nén ảnh thực chất là quá trình loại bỏ thành phần d- thừa trong ảnh Các hệ thống nén thông tin ảnh dựa trên đặc điểm tâm sinh lý của mắt ng-ời và các giới hạn của nó để loại bỏ các thành phần này Có các loại d- thừa sau

Trang 16

1.2.1 D- thừa dữ liệu theo thống kê

D- thừa dữ liệu theo thống kê có thể chia làm hai loại : D- thừa trong điểm

ảnh (pixel) và d- thừa trong mã hoá thông tin

1.2.1.1 D- thừa trong pixel

Vì giá trị của một pixel bất kỳ nào đó cũng có thể đ-ợc dự báo từ giá trị của các lân cận của nó, nên thông tin từ các pixel riêng là t-ơng đối nhỏ Sự tham gia của riêng một pixel vào một ảnh là d- thừa Các d- thừa bao gồm: d- thừa không gian, d- thừa về thời gian đ-ợc đặt ra để phân biệt sự phụ thuộc này của các pixel D- thừa về mặt không gian liên quan đến mối liên hệ thống kê giữa các điểm ảnh trong khung ảnh D- thừa về mặt thời gian liên quan đến mối liên hệ giữa các điểm

ảnh từ các khung ảnh liên tiếp hay chuỗi video Ta dùng độ d- thừa trong pixel để chỉ tất cả các loại trên Để giảm độ d- thừa trong pixel của một ảnh, dãy pixel hai chiều (dùng cho việc nhìn và nội suy) phải đ-ợc biến đổi thành một dạng có hiệu quả hơn

1.2.2 D- thừa tâm sinh lý

Giá trị của các mẫu trong một ảnh đ-ợc hệ thống nhìn của mắt ng-ời HVS (Human Visual System) tiếp nhận không đều nhau Ta thấy rằng mắt ng-ời chỉ phân biệt đ-ợc c-ờng độ sáng thay đổi trong một phạm vi nhất định Nếu hệ thống HVS không thể nhìn thấy một sai số, thì sai số này không tác động lên chất l-ợng thu nhận của các ảnh khôi phục Do đó một số giá trị có thể đ-ợc thay đổi hay loại bỏ

mà không ảnh h-ởng nhiều đến chất l-ợng thu nhận ảnh Khác với độ d- thừa mã và d- thừa trong pixel, độ d- thừa tâm sinh lý có liên quan đến thông tin nhìn thực theo

Trang 17

định l-ợng Việc loại bỏ số liệu d- thừa tâm sinh lý làm mất thông tin theo định l-ợng, nó có quan hệ tới việc l-ợng tử hóa

Hệ thống HVS có liên quan tới độ d- thừa không gian và thời gian Các thông số tác động đến các d- thừa này là:

*Độ nhạy với tần số không gian và thời gian : Tần số cao và độ nhấp nháy

Độ nhạy của HVS đối với nhiễu giảm trong các tần số không gian cao và tăng ở tần

1.3 Lý thuyết thông tin-Entropy

L-ợng thông tin chứa đựng trong một hình ảnh tỷ lệ nghịch với khả năng xuất hiện hình ảnh Nói cách khác, một sự kiện ít xảy ra sẽ chứa đựng nhiều thông tin hơn một sự kiện có nhiều khả năng xuất hiện Đối với hình ảnh, l-ợng thông tin của một hình ảnh bằng tổng số l-ợng thông tin của từng phần tử (pixel) ảnh

Theo quan điểm của lý thuyết thông tin, l-ợng thông tin của từng phần tử ảnh

đ-ợc định nghĩa là logarit cơ số hai của nghịch đảo xác suất xuất hiện của phần tử

ảnh đó

)(log)

(

1log)

i

x P x

Trong đó:

I(xi) : l-ợng thông tin của phần tử ảnh xi (đ-ợc tính bằng bit);

P(xi) : xác suất xuất hiện của phần tử ảnh xi

Nếu một hình ảnh đ-ợc biểu thị bằng các phần tử x1, x2, x3 Xác suất xuất hiện của từng phần tử t-ơng ứng sẽ là P(x1), P(x2), P(x3)

Biết đ-ợc l-ợng tin tức của từng phần tử ảnh ch-a đủ, còn cần phải biết đ-ợc l-ợng tin tức trung bình của cả tập hợp các phần tử ảnh của hình ảnh L-ợng tin tức

Trang 18

trung bình ấy ng-ời ta gọi là entropy, đ-ợc biểu diễn bằng biểu thức trung bình thống kê sau

Gọi l-ợng thông tin trung bình của hình ảnh là H(x) ta có:

)(log)()

()()

N i

i

x P x

Độ dài trung bình của một từ mã là giá trị trung bình thống kê của tất cả các

từ mã trong một bộ mã CE Shannon đã chỉ ra rằng “ Độ dài trung bình của một từ mã không thể nào nhỏ hơn entropy của nguồn số liệu được mã hóa” Do vậy, entropy của hình ảnh là một giá trị có ý nghĩa quan trọng, bởi nó xác định số l-ợng bit trung bình tối thiểu cần thiết để biểu diễn một phần tử ảnh

Trong công nghệ nén không tổn hao, entropy là giới hạn d-ới của tỷ số bit/pixel Nếu tín hiệu video đ-ợc nén với tỷ số bit/pixel nhỏ hơn entropy, hình ảnh

sẽ bị mất thông tin và quá trình nén sẽ có tổn hao

Từ việc xác định giới hạn d-ới cho mã hoá nguồn số liệu ta có thể đánh giá hiệu quả của quá trình mã hóa theo Entropy Hiệu suất nén  đ-ợc tính nh- sau:

 =

Lavg

H

(1.3) trong đó H là entropy, Lavg là độ dài trung bình các từ mã của mã đang sử dụng Do entropy là giới hạn d-ới nên   1 Một tham số khác khi nói đến hiệu suất nén đó là hệ số d- thừa mã  đ-ợc tính nh- sau:

Trong tr-ờng hợp kênh truyền có nhiễu, định lý mã hoá kênh có nhiễu của Shannon chỉ ra rằng có thể truyền các mẫu qua kênh có nhiễu mà không gây lỗi nếu tốc độ bít mhỏ hơn dung l-ợng kênh truyền Tức là:

Trang 19

gây méo R(D) là nhỏ nhất cần để truyền nguồn tín hiệu mà độ méo nhỏ hơn hoặc bằng D Nh- vậy để có độ méo không v-ợt quá D, tốc độ bit thực tế cần thoả mãn

điều kiện:

R > R(D) (1.6) Kết hợp hai định lý về kênh truyền và mã hoá nguồn ta đ-ợc:

C  R(D) (1.7) Quan hệ trên thể hiện nội dung cơ bản của định lý truyền dẫn thông tin (Slepian, 1973) Định lý chỉ ra : nếu dung l-ợng kênh truyền dẫn có gây lỗi, C, lớn hơn tốc độ bit gây méo R(D) thì có thể truyền một nguồn thông tin với độ méo D qua kênh có gây lỗi

1.4 Phân loại Các ph-ơng pháp nén

1.4.1 Nén không tổn hao

Nén không mất thông tin cho phép phục hồi lại đúng tín hiệu ban đầu sau khi giải nén Đây là một quá trình mã hóa có tính thuận nghịch Tỉ số nén phụ thuộc vào chi tiết ảnh đ-ợc nén Tỉ số nén của ph-ơng pháp nén không tổn hao nhỏ hơn 2:1 Các kỹ thuật nén không tổn hao bao gồm:

1 Mã hóa với độ dài thay đổi (VLC: Variable Length Coding): Ph-ơng pháp

này còn đ-ợc gọi là mã hóa Huffman và mã hóa entropy, dựa trên khả năng xuất hiện của các giá trị biên độ trùng hợp trong một bức ảnh và thiết lập một từ mã ngắn cho các giá trị có tần suất xuất hiện cao nhất và từ mã dài cho các giá trị còn lại Khi thực hiện giải nén, các thiết lập mã trùng hợp sẽ đ-ợc sử dụng để tạo lại giá trị tín hiệu ban đầu Mã hóa và giải mã Huffman có thể đ-ợc thực hiện một cách dễ dàng

bằng cách sử dụng các bảng tìm kiếm

2 Mã hóa với độ dài chạy (RLC: Run Length Coding): Ph-ơng pháp này dựa trên sự lặp lại của cùng giá trị mẫu để tạo ra các mã đặc biệt biểu diễn sự bắt đầu và kết thúc của giá trị đ-ợc lặp lại Chỉ các mẫu có giá trị khác không mới đ-ợc mã hóa Số mẫu có giá trị bằng không sẽ đ-ợc truyền đi dọc theo cùng dòng quét Cuối cùng, các chuỗi số 0 đ-ợc tạo ra bằng quá trình giải t-ơng quan nh- ph-ơng pháp

DCT hay DPCM

Trang 20

3 Sử dụng khoảng xóa dòng và mành: Vùng thông tin xóa đ-ợc loại bỏ khỏi dòng tín hiệu để truyền đi vùng thông tin tích cực của ảnh Theo ph-ơng pháp đó, thông tin xóa dòng và xóa mành sẽ không đ-ợc ghi giữ và truyền đi Chúng đ-ợc

thay bằng các dữ liệu đồng bộ ngắn hơn tùy theo các ứng dụng

4 Biến đổi cosin rời rạc (DCT: Discrete Cosin Transform): Quá trình DCT thuận và nghịch đ-ợc coi là không mất thông tin nếu độ dài từ mã hệ số là 13 hoặc

14 băng tần đối với dòng video số sử dụng 8 bit biểu diễn mẫu Nếu độ dài từ mã hệ

số của phép biến đổi DCT nhỏ hơn, quá trình này trở nên có mất thông tin

Trong truyền hình, ph-ơng pháp nén không tổn hao đ-ợc kết hợp trong các ph-ơng pháp nén có tổn hao sẽ cho tỷ lệ nén tốt mà không gây mất mát về độ phân giải

1.4.2 Nén có tổn hao

Nén có tổn hao chấp nhận mất mát một ít thông tin để gia tăng hiệu quả nén, rất thích hợp với nguồn thông tin là hình ảnh và âm thanh Ph-ơng pháp nén này có thể cho tỷ lệ nén ảnh cao để có thể truyền dẫn và phát sóng Đồng thời cho một tỷ lệ nén thích hợp cho xử lý và l-u trữ ảnh trong studio

Nén tổn hao th-ờng thực hiện theo ba b-ớc liên tục

* B-ớc thứ nhất là biến đổi tín hiệu từ miền thời gian (không gian) sang miền tần số bằng cách sử dụng các thuật toán chuyển vị nh- biến đổi cosin rời rạc DCT B-ớc này thực hiện việc giảm độ d- thừa của pixel trong ảnh, tuy nhiên quá trình này không gây tổn hao

* B-ớc thứ hai là thực hiện l-ợng tử hóa các hệ số DCT, số liệu đ-ợc làm tròn Việc mất mát số liệu xảy ra ở giai đoạn làm tròn này

* B-ớc thứ ba là nén số liệu đã biến đổi và làm trơn bằng cách mã hóa

entropy, ở đây sử dụng các mã không tổn hao nh- mã Huffman, RLC

1.5 Tổ chức MPEG

Trên cơ sở hai ph-ơng thức nén: nén mất thông tin và nén không mất thông tin đã có rất nhiều thuật toán nén ra đời Một vấn đề cấp thiết đặt ra là phải xây dựng tiêu chuẩn nén thống nhất cho từng ứng dụng cụ thể

Trang 21

Từ những năm giữa thập kỷ 80, các thành viên trong hiệp hội viễn thông quốc

tế (ITU) và tổ chức tiêu chuẩn hoá quốc tế (ISO) đã cùng làm việc để xây dựng một tiêu chuẩn duy nhất cho quá trình nén ảnh tĩnh Nhóm làm việc này lấy tên gọi là JPEG (Join Photographic Expert Group) Một cách chính thức, JPEG t-ơng ứng với tiêu chuẩn quốc tế ISO/IEC 10918, hoặc khuyến cáo T.81 của ITU-T về quá trình mã hoá và nén ảnh tĩnh

Năm 1988 ISO đã thành lập nhóm MPEG (Moving Picture Expert Group) với nhiệm vụ xây dựng các tiêu chuẩn cho quá trình mã hoá các hình ảnh động và âm thanh cho các ứng dụng l-u trữ số MPEG, đ-ợc biết đến một cách chính thức với tên gọi: nhóm ISO-IEC/JTC1 SC29/WG11 Nhóm các chuyên gia của MPEG đã đề

ra các vấn đề cần giải quyết đối với video và audio nh- sau:

*Video và audio là hai tín hiệu xảy ra đồng thời, chúng có mối quan hệ chặt chẽ về thời gian Vậy nên phải bảo toàn mối quan hệ này khi chuyển từ t-ơng tự sang số

*Chuẩn đ-a ra để mã hóa video và audio phải ứng dụng đ-ợc trong nhiều công nghệ khác nhau

*Các chuẩn đ-a ra cần đáp ứng yêu cầu tối thiểu về giao tiếp để đảm bảo t-ơng thích giữa các công nghệ khác nhau

*Nội dung nghe-nhìn không gặp cản trở nào từ vấn đề kỹ thuật của các công nghệ khác nhau

Các chuẩn MPEG đã mở đ-ờng cho sự xuất hiện của các thiết bị Video-CD, DVD, cùng các dịch vụ số nh- : phát sóng, truyền tải hình ảnh, âm thanh trên mạng, Sự thành công của MPEG dựa vào nhiều yếu tố nh- là xuất hiện đúng thời

điểm công nghệ vi xử lý đạt độ phức tạp để thực hiện các giải thuật mã hoá video và audio; MPEG thu hút đ-ợc sự hợp tác của các công nghệ mới có liên quan và sự hỗ trợ của các chuyên gia kỹ thuật trong ngành sản xuất thiết bị nghe nhìn Một yếu tố khác là MPEG cung cấp giải pháp chuẩn hoá làm nền tảng cho nhà sản xuất có thể

đ-a ra những sản phẩm video và audio số Sự phát triển của MPEG đánh dấu bằng các chuẩn MPEG 1/2/4/7/21

Trang 22

1.5.1 MPEG-1

Chuẩn MPEG-1 có tên là :"Mã hoá ảnh động kết hợp audio cho việc l-u trữ

số " ở tốc độ 1.5Mbps Bắt đầu từ năm 1988 đến năm 1992 thì chuẩn MPEG-1 hoàn thành, nó đ-ợc biết d-ới tên ISO/IEC 1992b hay ISO-11172 Chuẩn MPEG-1 đ-ợc công bố gồm 5 phần:

* Phần 1 xác định cách thức mã hoá nhiều dòng audio và video cùng với nhau

* Phần 2 cách thức mã hoá 1 dòng video

* Phần 3 cách thức mã hóa 1 dòng audio

* Phần 4 cách thức giải mã dòng bit đ-ợc mã hoá bằng 3 phần trên

* Phần 5 là phần mền hoàn chỉnh viết bằng ngôn ngữ C để thực hiện mã hoá

và giải mã

Các thành công của MPEG-1

* L-u trữ phim trên video-CD theo chuẩn MPEG-1 cho chất l-ợng VHS và

âm thanh rõ ràng

* Các camera cầm tay dùng chuẩn MPEG-1 có trọng l-ợng nhẹ

* Audio theo chuẩn MPEG-1 đ-ợc sử dụng rộng rãi trên Web, đặc biệt là phiên bản MP3 ( MPEG-1 Audio Layer III )

* Phần 1 định nghĩa hai loại ghép kênh là: "Program Stream" nh- MPEG-1

và "Transport Stream" Loại thứ hai định nghĩa lớp truyền nằm ở giao diện của các

Trang 23

hệ thống t-ơng tự - số ( mạng cable, vệ tinh, mặt đất), phần này còn bao gồm cấu trúc về độ -u tiên khi truy cập vào hệ thống điều khiển

* Phần 2 nâng cấp từ MPEG-1 bằng cách hỗ trợ công cụ mã hoá video quét xen kẽ

* Phần 3 nâng cấp từ MPEG-1 audio stereo thành âm tầnh đa kênh có khả năng t-ơng thích ng-ợc ( bộ giải mã MPEG-1 có thể lấy đ-ợc thông tin âm thanh stereo từ dòng bit audio của MPEG-2 )

* Phần 9 xác định mức tr-ợt (Jitter) mà hệ thống giải mã có thể chấp nhận

đ-ợc

Sự ra đời của MPEG-2 cũng đạt đ-ợc một số thành công trong lĩnh vực nghe- nhìn: Phát sóng số mặt đất, ứng dụng trong sản xuất ch-ơng trình truyền hình, cung cấp các thông báo cho phép sử dụng dịch vụ tới các bộ giải mã

1.5.3 MPEG-4

Từ tháng 7/1993 bắt đầu đ-a ra MPEG - 4 với mục đích cung cấp công nghệ cho các ứng dụng đa ph-ơng tiện (Multimedia) Bản dự thảo (WD: Working Draft) hoàn thành vào 11/1996 Bản dự thảo quốc tế (DIS: Draft International/Standard)

đ-ợc hoàn thành vào 11/1998 và chuẩn quốc tế phiên bản 1 đ-ợc hoàn thiện vào 2/1999

Mục tiêu của MPEG- 4 là cung cấp công nghệ cho phép l-u trữ trên cơ sở nội dung hiệu quả cũng nh- truyền dẫn, điều khiển các dữ liệu V, A, đồ hoạ và dữ liệu khác, trong môi tr-ờng Multimedia

Trang 24

Điều khác biệt hấp dẫn của MPEG-4 so với các chuẩn mã Video: MPEG1/2 H261, H263 là: Cải thiện sự hiệu quả mã hoá, cung cấp khả năng phát triển truyền dẫn và t-ơng tác với ng-ời sử dụng đầu cuối

Đặc điểm quan trọng là mã hoá trên cơ sở nội dung MPEG-4 là chuẩn đầu tiên hỗ trợ mã hoá trên cơ sở nội dung các đối t-ợng nghe nhìn

- Với ng-ời cung cấp nội dung: MPEG-4 cung cấp: Sự tái sử dụng lớn hơn, linh hoạt hơn, khả năng kiểm soát nội dung đã tạo ra

- Với nhà cung cấp mạng MPEG- 4 sẽ đ-a ra thông tin trong suốt có thể dịch

và chuyển thành các thông tin báo hiệu gốc của từng mạng

- Với ng-ời kết cuối: MPEG- 4 có thể cung cấp nhiều chức năng nhằm cung cấp nhiều khả năng giao tiếp với nội dung cho ng-ời sử dụng

Các đặc tính chính là:

- Các nội dung: Audio, Video, dữ liệu đ-ợc trình bày theo dạng các đối t-ợng

A, V cơ bản (AVO: Audio, Video Object) Các AVO này có thể là tự nhiên (hình

ảnh và âm thanh) đ-ợc ghi bởi Camera hoặc là ng-ời hay vật, đ-ợc tạo ra từ Computer

- Các AVO có thể ghép và đồng bộ để có thể truyền qua các kênh mạng với các yêu cầu chất l-ợng nhất định

- Điều khiển trên cơ sở nội dung và soạn thảo chuỗi bit MPEG - 4 hỗ trợ điều kiện và mã chuỗi bit không cần chuyển đổi mã Trong MP1/2 không hỗ trợ điều khiển và soạn thảo thực trong vùng nén MPEG-4 cung cấp cơ cấu và các kỹ thuật

để điều khiển trên cơ sở đối t-ợng và soạn thảo dòng bit Mức truy cập, soạn thảo và

điều khiển có thể đ-ợc thực hiện theo mức đối t-ợng trong liên kết với đặc điểm mức nội dung đối t-ợng

- Mã hoá kết hợp tự nhiên và tổng hợp (SNHC) MPEG- 4 hỗ trợ việc tổng hợp hình ảnh hoặc đối t-ợng tổng hợp và tự nhiên Nó dùng tổng hợp dữ liệu nhân tạo với Video gốc dùng cho t-ơng tác Các kỹ thuật liên quan trong MPEG-4 để hỗ trợ thực hiện chức năng nay gồm có: Mã hoá Sprite(bóng) mã hoá hiệu quả bề mặt (2D và 3D; mã hoá Wavelet cho hình nền tĩnh (texture)

Trang 25

- Cải thiện truy cập ngẫu nhiên tức thời: MPEG-4 cung cấp một ph-ơng thức hiệu quả để truy cập một cách ngẫu nhiên trong thời gian giới hạn và với phần phân giải mịn Ví dụ: Các khung Video hoặc đối t-ợng ảnh dạng tuỳ chọn lấy từ chuỗi hình ảnh âm thanh Nó còn bao gồm truy nhập ngẫu nhiên ở tốc độ rất thấp bởi vậy cần thiết cho điều khiển và sửa chuỗi bít

- Cải thiện hiệu quả mã hoá MPEG-4 cung cấp chất l-ợng Video tốt hơn so với các chuẩn khác (MPEG1/2, H263) ở tốc độ bít t-ơng đối MPEG-4 Video chứa nhiều công cụ mới cho phép tối -u mã hốa ở dải tốc độ bít khác nhau Mã hoá trên cơ sở đối t-ợng đạt tính năng t-ơng tự mã hoá trên cơ sở frame

- Mã hoá nhiều dòng dữ liệu xuất hiện đồng thời MPEG -4 cung cấp khả năng mã hoá các cách nhìn về hình ảnh một cách hiệu quả Với các ứng dụng video hình nổi (Stereo -scopic) MPEG-4 cho phép khai thác phần d- thừa theo các điểm nhìn ảnh đa chiều, cho phép cùng chia sẻ các giải pháp mã cho phép t-ơng hợp với video bình th-ờng cũng nh- đối t-ợng không có giới hạn t-ơng hợp

- Vận hành tốt trong môi tr-ờng dễ gây lỗi: MPEG- 4 cung cấp khả năng hoạt

động trong môi tr-ờng gây lỗi cao nhằm tiếp cận các ứng dụng trên mạng không dây, mạng nối dây và ph-ơng tiện l-u trữ Đặc điểm này dùng cho các ứng dụng tốc

độ bít thấp trong điều kiện lỗi nghiêm trọng

- Thay đổi tỉ lệ theo nội dung: MPEG- 4 đ-a ra khả năng l-u trữ với độ mịn theo nội dung, chất l-ợng Ví dụ: Phân giải thời gian, không gian và tổng hợp Khả năng thay đổi tỉ lệ dùng cho phân tỉ lệ thông tin Video trên cơ sở nội dung

Các thành phần trong MPEG-4

*/ Hệ thống (MPEG-4 System)

Các công cụ chính chuẩn hoá trong MPEG-4 System [MPEG4-1] dùng để

định nghĩa mối liên kết giữa các dòng cơ sở với các đối t-ợng của hình ảnh, giao diện kết nối, cách thức đồng bộ, sắp xếp các đối t-ợng trong hình ảnh, tổng hợp hình ảnh Các công cụ nêu trong MPEG-4 System [MPEG4-1]

Trang 26

*/ Hình ảnh

Các công cụ đ-ợc đề cập đến trong MPEG-4 Visual [MPEG4-2] Các công

cụ trong phần này dùng làm chuẩn cho nén video, mã hoá hình ảnh tự nhiên và hình

ảnh tổng hợp, mã hoá l-ới 2D, 3D, công cụ về chuyển động mặt và cơ thể

*/Â mthanh

Các công cụ âm thanh là chuẩn dùng để mã hoá tiếng nói với dải bit từ

2Kbps tới 24Kbps, mã hoá âm thanh chung dùng mã AAC, mã hoá tiếng nói, âm thanh tổng hợp Các công cụ âm thanh đ-ợc cho trong MPEG-4 Audio [MPEG4-3]

*/ Các công cụ khác

Ngoài các công cụ về hệ thống, hình ảnh và âm thanh nêu trên chuẩn

MPEG-4 còn đ-a ra các công cụ xác định chẩn giao diện, giao thức liên kết multimedia (công cụ DIMF [MPEG4-6] ); các công cụ cho phép truyền nội dung MPEG-4 trên mạng IP [MPEG4-8]

*/ Phân mức theo mức và chất l-ợng ( Profile và Level )

Cũng nh- MPEG-2 các profile và level xác định các bộ công cụ cho các lớp ứng dụng khác nhau Profile xác định các các công cụ theo hình ảnh, âm thanh, đồ hoạ, cấu trúc cảnh ( scene graph), mô tả đối t-ợng ( Object Discriptor ), MPEG-J Các mức giới hạn độ phức hợp của các công cụ tại profile đã cho

1.5.4 MPEG-7

Từ tháng 10/1996 nhóm chuyên gia MPEG bắt đù nghiên cứu về giao diện biểu diễn nội dung multimedia và thành lập nhóm thành viên mới đó là MPEG -7 MPEG-7 đặc tr-ng cho tập tiêu chuẩn biểu diễn nhiều loại thông tin multimedia khác nhau

MPEG-7 có thể địa chỉ hoá các ứng dụng, l-u trữ on-line và off-line, tạo dòng dữ liệu (truyền hình, đ-a các mô hình lên Internet ), có thể hoạt động trong các môi tr-ờng thực và không thực, trả lời các yêu cầu của thuê bao

Chuẩn đ-ợc kêu gọi các đề xuất vào năm 1998, đến năm 9/2001 đã trở thành chuẩn quốc tế với tên " Multimedia Content Description Interface"

Trang 27

Ch-ơng 2 Tổng quan về nén ảnh trong MPEG

Xử lý kênh

Giải từ mã

Giải L-ợng tử hóa

Biểu diễn thuận lợi

Video khôi phục

Hình 2.1 Mô hình hệ thống nén video

Từ mô hình hệ thống nén video, ta thấy: ở tầng đầu tiên của bộ mã hóa video, tín hiệu video đ-ợc trình bày d-ới dạng thuận tiện để nén có hiệu quả nhất Điểm cốt yếu là phải xác định cái gì đ-ợc mã hóa Sự biểu diễn có thể chứa nhiều thông tin để mô tả tín hiệu hơn là chính tín hiệu, nh-ng hầu hết các thông tin quan trọng chỉ tập trung trong một phần nhỏ của sự mô tả này Trong cách biểu diễn có hiệu quả, chỉ có phần nhỏ dữ liệu là cần thiết để truyền cho việc tái tạo lại tín hiệu video Hoạt động thứ hai của bộ mã hóa là l-ợng tử hóa, giúp rời rạc hóa thông tin đ-ợc biểu diễn Để truyền tín hiệu video qua một kênh số, những thông tin biểu diễn đ-ợc l-ợng tử hóa thành một số hữu hạn các mức Hoạt động thứ ba là gán các từ mã Các

từ mã là một chuỗi bit dùng để biểu diễn các mức l-ợng tử hóa

Trong bộ giải mã video quá trình khôi phục tín hiệu đ-ợc thực hiện theo trình tự ng-ợc lại

Trang 28

2.1.2 Nén trong ảnh (Intra Frame Compression)

Nén trong ảnh là loại nén nhằm giảm bớt thông tin d- thừa trong miền không gian Nén trong ảnh sử dụng cả hai quá trình có tổn hao và không có tổn hao để giảm bớt dữ liệu trong một ảnh Quá trình này không sử dụng thông tin của các ảnh tr-ớc và sau ảnh đang xét

Thuật ngữ “ảnh” ở đây cần được hiểu một cách chính xác, bởi lẽ trong kỹ thuật nén ảnh cho phép sử dụng hoặc mành (field) hoặc ảnh (frame) nh- một ảnh gốc Nếu kỹ thuật nén dùng mành thì nén trong ảnh sẽ tạo ra hai ảnh trong mỗi ảnh Vì vậy, khi bàn về nén thuật ngữ “ảnh” không luôn luôn đồng nghĩa với thuật ngữ

ảnh trong lĩnh vực truyền hình Hình 2.2 là sơ đồ nguyên lý nén trong ảnh

Tiền

xử lý

DCT thuận L-ợng tử hóa

Mạch trộn

Khuếch đại

đệm

Hình 2.2 Nén trong ảnh (Intra Frame Compression)

Trong sơ đồ nguyên lý ta thấy sử dụng ph-ơng pháp biến đổi DCT Ph-ơng pháp chuyển đổi tối -u cho mã chuyển vị là ph-ơng pháp mà đạt đ-ợc bình ph-ơng của lỗi là nhỏ nhất trong quá trình khôi phục lại ảnh với một số bit đã cho Ng-ời ta đã nghiên cứu và thấy rằng ph-ơng pháp chuyển đổi tối -u là chuyển đổi KL (Karhunen - Loeve) Chuyển đổi này thông qua một ma trận chuyển đổi làm giảm trật tự t-ơng quan của một quá trình xử lý ngẫu nhiên liên tiếp d-ới dạng đ-ờng chéo Nh-ng khi sử dụng ph-ơng pháp chuyển đổi KL sẽ gặp vấn đề là chuyển đổi

KL không có một thuật toán biến đổi nhanh tổng quát, hay nói cách khác là nó không thông dụng cho tất cả các ứng dụng của việc nén ảnh số Do ph-ơng pháp chuyển đổi tối -u không thông dụng, ng-ời ta đã nghiên cứu và đ-a ra ph-ơng pháp chuyển đổi gần tối -u để thay thế Những ph-ơng pháp chuyển đổi nh- vậy đã đ-ợc

sử dụng cho việc nén ảnh số, nh-ng ph-ơng pháp thông dụng nhất là biến đổi DCT

Trang 29

2.1.2.1 Tiền xử lý

Tr-ớc khi th-c hiện biến đổi DCT, cả ảnh đ-ợc chia thành các khối lớn riêng biệt không chồng nhau (MB - Macro Block) Mỗi MB bao gồm 4 block các mẫu tín hiệu chói (Y) và 2; 4 hoặc 8 block các mẫu tín hiệu hiệu số màu (CR, CB) Số các block của tín hiệu hiệu màu phụ thuộc vào tiêu chuẩn của tín hiệu video

0 3 2

1

4 5

a) 4:2:0 (4:1:1)

0 3 2

1 4

7 6 5

b) 4:2:2

0 3 2

1 4 10 6 8

b) 4:4:4

5 11 7 9

H ình 2.3 Cấu tạo của Macro Block

Tất cả các block có cùng kích th-ớc và mỗi block là một ma trận điểm ảnh 8 x 8

đ-ợc lấy từ một ảnh màn hình theo chiều từ trái sang phải, từ trên xuống d-ới

Cấu trúc của MB cũng phụ thuộc vào loại quét ảnh Nếu quét liên tục thì các block bao gồm các mẫu từ các dòng liên tục Ng-ợc lại, trong tr-ờng hợp quét xen kẽ trong một block chỉ có các mẫu của một nửa ảnh Việc chia hình ảnh thành các ảnh con (block, MB) sẽ thực sự có ý nghĩa cho b-ớc chuyển vị tiếp theo

2.1.2.2 Biến đổi DCT rời rạc

Công đoạn đầu tiên của hầu hết các quá trình nén là xác định thông tin d- thừa trong miền không gian của một mành hoặc một ảnh của tín hiệu video Nén không gian đ-ợc thực hiện bởi phép biến đổi cosin rời rac DCT (Discrete Cosine Transform) DCT biến đổi dữ liệu d-ới dạng biên độ thành dữ liệu d-ới dạng tần số Mục đích của quá trình biến đổi là tách liên kết các pixel của từng ảnh con, hoặc gói càng nhiều năng l-ợng của ảnh con vào một phần nhỏ các hệ số hàm truyền Việc mã hóa và truyền chỉ thực hiện đối với các hệ số năng l-ợng này, và có thể cho kết quả tốt khi tạo lại tín hiệu video có chất l-ợng cao DCT đã trở thành tiêu chuẩn quốc tế cho các hệ số mã chuyển vị bởi nó có đặc tính gói năng l-ợng tốt, cho kết quả là số thực và có các thuật toán nhanh để thể hiện chúng Các phép tính DCT

Trang 30

đ-ợc thực hiện trong phạm vi các khối 8x8 mẫu tín hiệu chói Y và các khối t-ơng ứng của tín hiệu hiệu màu Việc chia hình ảnh thành các block đã đ-ợc thực hiện ở khối tiền xử lý Hiệu quả của việc chia này rất dễ thấy và đó là một trong những h-ớng quan trọng của mã hóa video có chất l-ợng cao Nếu ta tính toán DCT trên toàn bộ frame thì ta xem nh- toàn bộ frame có độ d- thừa là nh- nhau Đối với một hình ảnh thông th-ờng, một vài vùng có một số l-ợng lớn các chi tiết và các vùng khác có ít chi tiết Nhờ đặc tính thay đổi của các ảnh khác nhau và các phần khác nhau của cùng một ảnh, ta có thể cải thiện một cách đáng kể việc mã hóa nếu biết tận dụng nó Vì vậy, để sử dụng các đặc tính thay đổi của các phần d- thừa trên cơ

sở mở rộng không gian của ảnh, DCT đ-ợc tính trên các MB và mỗi MB đ-ợc xử lý riêng biệt Xét các biến đổi DCTmột chiều và hai chiều

*/DCTmột chiều

DCT một chiều biến đổi một bảng số biểu diễn các biên độ tín hiệu của các

điểm khác nhau theo thời gian hoặc không gian thành một bảng khác của các số, mỗi số biểu diễn biên độ của một thành phần tần số nhất định từ tín hiệu gốc Bảng kết quả các số chứa đựng cùng số giá trị nh- bảng gốc; phần tử thứ nhất là trung bình của tất cả các mẫu trong bảng đầu vào và đ-ợc coi nh- là hệ số điều chế - hệ số DC; các phần tử còn lại, mỗi phần tử biểu thị biên độ của một thành phần tần số đặc tr-ng của bảng đầu vào và đ-ợc gọi là các hệ số AC

Tần số đ-ợc biểu diễn bằng mỗi phần tử trong bảng kết quả là một hàm chỉ

số bảng cho phần tử đó Nội dung tần số của tập mẫu tại mỗi tần số đ-ợc tính bằng một trung bình có trọng số của tập toàn thể Trọng số xấp xỉ cho mỗi mẫu đầu vào

đ-ợc xác định bằng cách nhân chỉ số hiện tại của bảng kết quả với số thứ tự và chỉ

số của mẫu đầu vào Điều này có tác dụng tạo một chuỗi các hệ số có trọng số là xấp xỉ của một sóng cosin có tần số tỷ lệ với chỉ số của bảng kết quả Hàm tính các

hệ số có trọng số của mẫu đ-ợc tính theo công thức:

0k 2

/1)

(k

Trang 31

k : chỉ số bảng kết quả;

m : chỉ số bảng gốc;

N : độ lớn của bảng gốc (block có N = 8) Hàm tạo trung bình có trọng số đ-ợc cho sau đây (DCT một chiều):

2)

(

N

k m m

x k C N k

(2.2) Trong đó: X(k) là bảng kết quả; x(m) là bảng của mẫu

Hàm biến đổi ng-ợc (DCT một chiều ng-ợc):

2)

(

N

k m k

X k C N m

(2.3) Mã hóa DCT thực hiện chia dải phổ tín hiệu thành 8 dải băng nhỏ hơn, t-ớng ứng với mỗi dải băng tần số có một hệ số đặc tr-ng cho năng l-ợng của tín hiệu trong dải băng tần đó

*/DCT hai chiều

Để đạt đ-ợc mức giải t-ơng quan cao hơn của nội dung một ảnh, có thể sử dụng phép biến đổi DCT hai chiều cho khối 8x8 giá trị các điểm chói Việc biến đổi DCT hai chiều dựa trên cơ sở sắp xếp các mẫu f(i, j); ở đây ta xét i = 0, 1, 7; j = 0,

1, 2 7 của bảng hệ số F(u, v); u = 0,1, , 7; v = 0, 1, 7 cho mỗi block, thỏa mãn công thức sau:

)12(cos2

)12(cos),()

()(

2),

(

N i N

v j N

u i j

i f v

C u C N v

Ph-ơng trình trên là một liên kết của hai ph-ơng trình DCT một chiều, một cho tần

số ngang và một cho tần số dọc Đặc điểm của các hệ số DCT hai chiều là hệ số nằm ở góc trái trên cùng (hệ số 0, 0) là hệ số điều chế của tín hiệu video trong ma

Trang 32

trận 8 x 8 Các hệ số khác, d-ới giá trị thành phần một chiều, biểu thị các tần số cao hơn theo chiều dọc Các hệ số ở về phía bên phải của thành phần một chiều biểu thị các tần số cao hơn theo chiều ngang Hệ số trên cùng ở cận phải (0, 7) sẽ đặc tr-ng cho tín hiệu có tần số cao nhất theo ph-ơng nằm ngang của ma trận 8x8, và hệ số hàng cuối cùng bên trái (7, 0) sẽ đặc tr-ng cho tín hiệu có tần số cao nhất theo ph-ơng thẳng đứng Còn các hệ số khác ứng với những phối hợp khác nhau của các tần số theo chiều dọc và theo chiều ngang

Phép biến đổi DCT hai chiều là hoàn toàn đảo ng-ợc và luôn luôn có thể tạo lại các giá trị mẫu f(i, j) trên cơ sở các hệ số F(u, v) thỏa mãn công thức sau:

)12(cos2

)12(cos)()(

2)

,

(

N i N

v j N

u i v

C u C N

đ-ợc 64 hệ số Tuy nhiên nó làm thay đổi phân bố giá trị các hệ số so với phân bố các giá trị mẫu ban đầu

Hình 2.4 Biến đổi DCT hai chiều

DCT làm giảm độ t-ơng quan không gian của thông tin trong block Điều đó cho phép biểu diễn thích hợp ở miền DCT do các hệ số DCT có xu h-ớng có phần d- thừa ít hơn Hơn nữa, các hệ số DCT chứa thông tin về nội dung tần số không

Trang 33

gian của thông tin trong block Nhờ các đặc tính tần số không gian của hệ thống thị giác các hệ số DCT có thể đ-ợc mã hóa phù hợp, chỉ các hệ số DCT quan trọng nhất mới đ-ợc mã hóa và truyền đi

2.1.2.3 L-ợng tử hoá

B-ớc tiếp theo của quá trình nén trong ảnh là l-ợng tử hóa các hệ số F(u, v) sao cho làm giảm đ-ợc số l-ợng bit cần thiết Vì các hệ số có giá trị khác nhau, cho nên các hệ số riêng có thể đ-ợc l-ợng tử hóa bằng các ph-ơng pháp khác nhau Các

hệ số t-ơng ứng với tần số thấp có các giá trị lớn hơn, và nh- vậy nó chứa phần năng l-ợng chính của tín hiệu, do đó phải l-ợng tử hóa với độ chính xác cao Riêng hệ số một chiều đòi hỏi độ chính xác cao nhất, bởi lẽ nó biểu thị giá trị độ chói trung bình của từng khối phần tử ảnh

L-ợng tử hóa theo trọng số

Bảng l-ợng tử (8x8) Fq(u,v) Q(u,v)

Hình 2.5 L-ợng tử hóa có trọng số

Bất kỳ một sự sai sót nào trong quá trình l-ợng tử hóa, hệ số một chiều đều

có khả năng nhận biết dễ dàng bởi nó làm thay đổi mức độ chói trung bình của khối Ng-ợc lại, với các hệ số t-ơng ứng với tần số cao và có các giá trị nhỏ, thì có thể biểu diễn lại bằng tập giá trị nhỏ hơn hẳn các giá trị cho phép Quá trình này có thể

đ-ợc thực hiện bằng cách cho những khoảng cách giữa các b-ớc l-ợng tử hóa thay

đổi theo các hệ số

Trang 34

L-ợng tử hóa đ-ợc thực hiện bằng việc chia các hệ số F(u, v) cho các hệ số ở

vị trí t-ơng ứng trong bảng l-ợng tử (Q(u, v)) để biểu diễn số lần nhỏ hơn các giá trị cho phép của hệ số DCT (hình 2.5) Các hệ số ứng với tần số thấp đ-ợc chia cho các giá trị nhỏ, các hệ số ứng với tần số cao đ-ợc chia cho các giá trị lớn hơn Sau đó các hệ số đ-ợc làm tròn (bỏ đi các phần thập phân)

Kết quả ta nhận đ-ợc bảng Fq(u, v) mới, trong đó phần lớn các hệ số có tần số cao

sẽ bằng 0 Hệ số bảng l-ợng tử hóa thuận đ-ợc xác định theo biểu thức:

),()

,

(

v u Q

v u F Round

2/),(),(

v u Q

v u Q v u F

(2.6)

Các giá trị Fq(u,v) sẽ đ-ợc mã hóa trong các công đoạn tiếp theo

Để thực hiện việc chia các hệ số trên, các hệ số DCT đ-ợc phân vùng theo một ví dụ trong bảng sau

DC 0 0

1 1

2 1

2 2 2

0 1 1

2 1

2 2

3 3 3

1 2 1

2 2

3 3

3 3 3

2 2 2

3 3

3 3 3

Hình 2.6: Bảng phân bố các hệ số DCT

Theo bảng trên ta thấy có 4 vùng Khi áp “số lượng tử hóa” QN04 tức số có cấu trúc 0:2:2:4 thì vùng 0 sẽ đ-ợc để nguyên, hệ số DCT ở vùng 1 sẽ bị chia 2, vùng 2 cũng

bị chia 2, vùng 3 đ-ợc chia 4 Sau khi chia các hệ số DCT sẽ đ-ợc làm tròn, nhờ đó

mà trong bảng DCT sẽ xuất hiện nhiều số giống nhau và nhiều số 0 Ví dụ khác với QN08, vùng 3 sẽ bị chia cho 8, lúc đó toàn bộ các hệ số trong khoảng (-4 4) sau khi chia 8 sẽ thành số trong khoảng (-0,5 0,5) Các số trong khoảng này sẽ bị làm tròn thành 0 QN0 sẽ đ-ợc ghi lại vào băng, nhờ đó trong quá trình đọc lại, hệ thống giải nén sẽ biết đ-ợc phải áp QN0 nào để khôi phục lại dữ liệu

Trang 35

Cần phải xác định là trong quá trình l-ợng tử hóa có những trọng số bị mất thông tin, gây tổn hao Đây là b-ớc tổn hao duy nhất trong thuật toán nén Mức độ tổn hao phụ thuộc vào giá trị các hệ số trên bảng l-ợng tử Sau khi nhân các hệ số l-ợng tử hóa Fq(u, v) với Q(u, v) và biến đổi ng-ợc DCT sẽ không nhận đ-ợc block sơ cấp các mẫu f(i, j) Tuy nhiên, trong tr-ờng hợp ảnh tự nhiên và lựa chọn các giá trị Q(u,v) thích hợp, sự khác nhau sẽ nhỏ đến mức mà mắt ng-ời không phân biệt

đ-ợc giữa ảnh gốc và ảnh khôi phục

Trong hình 2.7, tín hiệu chói và tín hiệu màu đ-ợc l-ợng tử khác nhau Nhiễu l-ợng tử đối với tín hiệu màu khó nhìn thấy hơn đối với tín hiệu chói, cho nên có thể thực hiện l-ợng tử hóa thô tín hiệu màu Nh- vậy, khối DCT đóng vai trò quan trọng trong quá trình l-ợng tử hóa khi thiết kế hệ thống nén video vì nó ảnh h-ởng trực tiếp đến việc cho lại chất l-ợng ảnh khôi phục tốt hay xấu Các mã biến đổi sao cho chất l-ợng hình ảnh do mắt ng-ời cảm nhận tốt, phụ thuộc vào các thành phần tần

số và sự biến đổi chi tiết ảnh từng vùng trong miền không gian Các ảnh càng chi tiết thì hệ số thành phần tần số cao càng lớn, và có thể dẫn đến tràn bộ đệm nếu các

hệ số trong bảng l-ợng tử t-ơng ứng quá thấp Thông tin hồi tiếp về trạng thái bộ

đệm cho phép điều khiển một hệ số cân bằng qua đó tối -u trạng thái của bộ đệm

Hệ số cân bằng này chỉ đ-a vào các thành phần AC mà thôi Hệ số cân bằng là hằng

số trong một cấu trúc khối cơ bản chứa đựng hai khối màu và một số thay đổi các khối chói phụ thuộc vào cấu trúc lấy mẫu của ảnh ban đầu

16 24 58 26

40 51

55 60 61

24 40 87 51

57 69

62 80 56

56 68 104 81

109 103

92 113 77

87 103 100 112

121 120

99 103 101

18 24 66 26

47 99

99 99

99 99 99 99 99

24 66 47

25 55 99 99

99 99

99 99 99 99 99

99 99 99

99 99 99 99

99 99

99 99 99 99 99

99 99 99

99 99 99 99

99 99

99 99 99 99 99

k 7

Bảng trọng số (theo chuẩn JPEG cho mẫu tín hiệu màu)

Hình 2.7 Các bảng l-ợng tử cho tín hiệu chói và tín hiệu màu theo chuẩn JPEG

Trang 36

Với một cấu trúc khối gồm 4 khối điểm chói, các chi tiết ảnh có thể đ-ợc tập trung năng l-ợng cao vào một trong 4 khối, sẽ tạo ra l-ợng tử hóa thô cũng nh- xuất hiện lỗi l-ợng tử lớn và các hiện t-ợng nhiễu không mong muốn trong các khối còn lại Để tránh hiện t-ợng này, năng l-ợng chứa trong khối có thể đ-ợc đánh giá bằng cách xem xét hệ số AC có ý nghĩa nhất trong tất cả các khối và chia thành các mức

Các giá trị l-ợng tử hóa có thể chỉ biểu diễn nhờ các từ mã có độ dài cố định hay đồng đều, tức là các giá trị l-ợng tử hóa biểu diễn bằng cùng một số bit Tuy nhiên hiệu quả của việc mã hóa không cao Để cải tiến hiệu quả ng-ời ta dùng mã hóa entropy Mã hóa entropy dùng những đặc tính thống kê của tín hiệu đ-ợc mã hóa Mỗi tín hiệu, ở đây là giá trị pixel hoặc các hệ số chuyển vị, có chứa một l-ợng thông tin (entropy) phụ thuộc vào xác suất xuất hiện của những giá trị hay sự kiện

đó

Khi dùng mã hóa entropy có hai vấn đề đặt ra:

* Thứ nhất, mã hóa entropy làm tăng độ phức tạp và yêu cầu bộ nhớ hơn so với mã độ dài cố định

* Thứ hai, mã hóa entropy gắn liền với tính không ổn định của tín hiệu video

sẽ làm tốc độ bit thay đổi theo thời gian

Do vậy, cần một cơ cấu điều khiển bộ đệm khi mã hóa nguồn tốc độ bit biến

đổi đ-ợc ghép với kênh tốc độ bit hằng

Mã hóa entropy cho phép giảm độ d- thừa thống kê cố hữu trong các phần tử cần mã hóa để truyền Sự d- thừa chính là do phân bố xác suất không đồng đều trên giá trị của mỗi phần tử Phân bố xác suất càng lệch khỏi phân bố đều thì hiệu suất

Trang 37

càng tăng nhờ mã hóa entropy Mã Huffman là một trong những sơ đồ mã đ-ợc sử dụng phổ biến Ngoài ra trong mã hóa entropy còn sử dụng mã RLC (Run Length Code) sẽ cho hiệu suất nén rất cao

Để mã hóa entropy các hệ số đã được lượng tử hóa C’(u, v) trước hết cần biến đổi mảng hai chiều các hệ số C’(u, v) thành chuỗi số một chiều bằng cách quét zig-zag (hình 2.8)

Lúc đầu, chuỗi sẽ là các hệ số khác 0, sau đó sẽ là một chuỗi các số 0 liên tiếp Việc

xử lý 64 hệ số của khối 8x8 pixel bằng cách quét zic-zag hình 2.8 làm tăng tối đa chuỗi các giá trị 0 và do vậy làm tăng hiệu quả nén khi dùng RLC

Trang 38

Hình 2.9 Các hệ số DCT của khối dữ liệu sau mã hóa VLC còn 48 bit

Từ hình 2.9 ta thấy, giá trị 10 không có giá trị 0 nào tr-ớc đó đ-ợc biểu diễn bằng

<0, 10>, giá trị -2 có 2 giá trị 0 đứng tr-ớc đ-ợc biểu diễn bằng <2, -2> Riêng một dấu đặc biệt là End of Block (EOB) đ-ợc dùng để đánh dấu vị trí bắt đầu của chuỗi các số 0 liên tiếp ở ví dụ, này ta có một chuỗi 49 từ mã với giá trị 0 Nh- vậy chỉ xét riêng 49 từ mã giá trị 0 đ-ợc nén xuống chỉ còn 3 từ mã Điều đó chứng tỏ hiệu suất nén rất cao của từ mã RLC

Trang 39

phải có tốc độ frame cao để đạt đ-ợc cảm giác chuyển động thực sự Từ đó tạo ra độ d- thừa tạm thời giữa các frame kề nhau Bù chuyển động chính là để loại bỏ phần d- thừa tạm thời này Sau quá trình bù chuyển động, để tăng hiệu quả nén, cần sử dụng kỹ thuật nén trong ảnh để xử lý độ d- thừa trong không gian trong phần thừa

bù chuyển động

2.1.3.1 Xấp xỉ và bù chuyển động

Nhiều thay đổi về c-ờng độ sáng từ frame này đến frame kế tiếp là do chuyển

động của đối t-ợng Trong mã bù chuyển động, frame hiện hành đ-ợc dự báo từ frame tr-ớc bằng cách xấp xỉ chuyển động giữa hai frame và bù chuyển động đó Sự khác nhau giữa frame hiện hành và dự báo của frame đó gọi là phần d- thừa của bù chuyển động và phần d- thừa này sẽ đ-ợc mã hóa

Đối với một chuỗi video bình th-ờng, đặc tr-ng về năng l-ợng của phần d- thừa thấp hơn rất nhiều so với năng l-ợng trong tín hiệu video gốc do loại bỏ những thành phần d- thừa tạm thời Mã hóa phần d- thừa thay vì mã hóa video giúp đảm bảo thông tin d- thừa tạm thời không phải mã hóa lặp lại Nh- vậy, việc xác định phần ảnh động là “xấp xỉ chuyển động Quá trình khôi phục ảnh bằng cách dùng các phần tử ảnh tr-ớc cùng với thông tin về chuyển động chính là “bù chuyển động”

Sự đánh giá chuyển động có thể là toàn frame Để thực hiện tối -u, chia mỗi frame thành các khối (8x8 pixel) sau đó mới đánh giá chuyển động cho từng khối

Ta có thể xác định đ-ợc khối nào biểu diễn phần ảnh động và khối nào biểu diễn phần ảnh tĩnh Sử dụng xấp xỉ và bù chuyển động là để thay hai yêu cầu trong hệ thống mã/giải mã Đầu tiên bộ giải mã phải l-u ảnh tr-ớc trong khi tạo lại ảnh tiếp theo Sau đó, bộ giải mã phải tạo lại mỗi ảnh sau khi đã mã hóa để dự báo bộ giải mã phải tạo lại ảnh nh- thế nào Điều này là cần thiết vì bộ giải mã không có bất kỳ một ảnh gốc nào để có thể tạo lại các khối bù chuyển động

Ph-ơng pháp dự đoán để tìm ra các chi tiết ảnh thay đổi giữa hai khung hình liền nhau và tạo ra một vector chuyển động chỉ rõ vị trí mới của các chi tiết ảnh này trong khung hình t-ơng ứng Theo đó, vector chuyển động sẽ phối hợp tất cả các khối đ-ợc nén trong khung hình tr-ớc đó mà khối các điểm ảnh này lại đ-ợc lặp lại

Trang 40

tại một vị trí mới Các vector chuyển động và các mã hóa DCT khác nhau của cấu trúc khối hiện tại và cấu trúc khối tham chiếu đ-ợc chỉ ra bằng các vector này sẽ

đ-ợc truyền đi- sẽ tạo ra một ph-ơng pháp có hiệu quả hơn là mã hóa trực tiếp cấu trúc khối hiện tại bằng DCT

Có nhiều các kỹ thuật khác nhau để xác định vector thay thế Một trong số các ph-ơng pháp này có tên gọi là đối sánh khối (block matching) Khối số liệu

điểm ảnh đ-ợc lựa chọn, gọi là khối tham chiếu, trong khung hình hiện tại chuyển

động trong phạm vi tìm kiếm ở khung hình tr-ớc đó Các giá trị khối DCT tham chiếu đ-ợc so sánh với các giá trị khối 8x8 điểm trong vùng tìm kiếm để tìm ra khối thích hợp nhất, t-ơng ứng khi sự sai khác là nhỏ nhất Một vector xác định theo khoảng cách giữa vị trí tham chiếu và vị trí đối sánh đã tìm thấy đ-ợc tạo ra Thông tin số liệu về vector chuyển động đ-ợc truyền tới bộ giải mã cùng với khối hệ số DCT sai lệch Vùng tìm kiếm đ-ợc xác định quanh cấu trúc các khối trong khung hình hiện tại bao phủ toàn bộ các chuyển động giữa hai khung hình Các tọa độ của vùng tìm kiếm đ-ợc truyền đi trong khung hình tr-ớc để xác định vị trí tr-ớc đó của cấu trúc khối này Kích thức vùng tìm kiếm đ-ợc xác định theo mức độ phức tạp của quá trình đối sánh khối Trên vùng tìm kiếm có kích th-ớc 16x16 điểm, có vị trí khối theo chiều ngang đối sánh với 16 vị trí khối theo chiều dọc

Để giảm quá trình tính toán vector chuyển động, độ phân giải của ảnh có thể đ-ợc giảm xuống theo cả hai chiều ngang và chiều dọc Bằng cách này có thể làm giảm

số bit cần xử lý và dự đoán các phần chính đ-ợc thay thế trong khung hình Chẳng hạn một ảnh với độ phân giải đầy đủ 720x480 có thể đ-ợc giảm đến mức 360x240

ảnh với độ phân giải thấp có thể sử dụng cho vùng dự đoán lớn hơn Một dự đoán chuyển động mức thô (gần đúng) đầu tiên sẽ đ-ợc tiến hành trên các ảnh có độ phân giải thấp này Sau đó, một phép dự đoán vector chuyển động chính xác sẽ th-c hiện tính toán vị trí thay thế chính xác của các đối t-ợng giữa hai khung hình

Quá trình dự đoán sẽ đ-ợc thực hiện qua nhiều b-ớc để thu đ-ợc sự dự báo chính xác cuối cùng Các đối t-ợng chuyển động nhỏ có thể đ-ợc bỏ qua trong giai

đoạn dự đoán chuyển động gần đúng, và do đó tạo ra các vector dự đoán mang sai

số Tr-ờng hợp này sẽ sử dụng các khối nhỏ hơn Với một vùng thay thế có kích

Định dạng
Số trang	116
Dung lượng	1,14 MB