luận văn
Trang 1LỜI CAM ĐOAN
Tôi cam đoan các kết quả nghiên cứu đƣa ra trong luận án này dựa trên các kết quả thu đƣợc trong quá trình nghiên cứu của riêng tôi, không sao chép bất kỳ kết quả nghiên cứu nào của các tác giả khác Nội dung của luận án có tham khảo và sử dụng một số thông tin, tài liệu từ các nguồn sách, tạp chí đƣợc liệt kê trong danh mục các tài liệu tham khảo
Trần Mạnh Tuấn
Trang 2LỜI CẢM ƠN
Luận án Tiến sĩ kỹ thuật này được thực hiện tại Học viện Công nghệ Bưu chính Viễn thông Tôi xin chân thành cảm ơn TS Phùng Kim Anh và TS Nguyễn Hữu Hậu đã trực tiếp tận tình hướng dẫn, giúp đỡ, tạo mọi điều kiện thuận lợi cho tôi trong suốt quá trình nghiên cứu
Tôi xin cảm ơn Ban lãnh đạo Học viện Công nghệ Bưu chính Viễn thông, khoa Quốc tế và Sau đại học đã giúp đỡ tôi rất nhiều trong quá trình nghiên cứu, tạo mọi điều kiện thuận lợi về mặt thủ tục cho hoạt động nghiên cứu của tôi
Tôi xin cảm ơn tập thể lãnh đạo Cục Viễn thông - Bộ Thông tin và Truyền thông cùng các đồng nghiệp đã luôn động viên, tạo điều kiện thuận lợi để tôi hoàn thành luận án
Cuối cùng, tôi xin được bày tỏ lòng biết ơn sâu sắc tới toàn thể gia đình, bạn
bè đã luôn động viên, khích lệ tinh thần để tôi có đủ nghị lực hoàn thành luận án
Trần Mạnh Tuấn
Trang 3MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
MỤC LỤC iii
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT v
DANH MỤC CÁC BẢNG vii
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ viii
MỞ ĐẦU 1
CHƯƠNG 1: TỔNG QUAN VỀ NÉN VIDEO 7
1.1 Giới thiệu 7
1.2 Độ dư trong tín hiệu video, nhu cầu cần thiết nén video 8
1.2.1 Độ dư trong tín hiệu video 8
1.2.2 Nhu cầu cần thiết nén video 13
1.3 Khái niệm về nén video 13
1.4 Yêu cầu về ứng dụng nén video, một số kỹ thuật nén video 18
1.4.1 Yêu cầu về ứng dụng nén video 18
1.4.2 Một số kỹ thuật nén video 21
1.5 Kết luận 33
CHƯƠNG 2: TỔNG QUAN VỀ ƯỚC LƯỢNG CHUYỂN ĐỘNG CỦA ẢNH 34
2.1 Giới thiệu 34
2.2 Ước lượng chuyển động và các phương pháp ước lượng chuyển động 34
2.2.1 Ước lượng chuyển động 34
2.2.2 Các phương pháp ước lượng chuyển động 39
2.3 Kết luận 62
CHƯƠNG 3: ƯỚC LƯỢNG CHUYỂN ĐỘNG BẰNG CÁC GIẢI PHÁP MỚI 64
3.1 Giới thiệu 64
3.2 Ước lượng chuyển động bằng Kalman 65
3.2.1 Đặt bài toán 65
3.2.2 Ước lượng chuyển động của ảnh bằng thuật toán Kalman 66
3.3 Ước lượng chuyển động tối ưu của ảnh trong video 72
3.3.1 Đặt bài toán 72
3.3.2 Ước lượng chuyển động tối ưu của ảnh trong video 73
Trang 43.4 Ước lượng chuyển động của ảnh bằng phương pháp mù 76
3.4.1 Đặt bài toán 76
3.4.2 Ước lượng chuyển động của ảnh bằng phương pháp mù 77
3.5 Kết luận 92
CHƯƠNG 4: MỘT SỐ KẾT QUẢ TÍNH TOÁN SỐ 94
4.1 Giới thiệu 94
4.2 Thiết lập mô phỏng 94
4.2.1 Phương pháp Bayes 94
4.2.2 Phương pháp Kalman 97
4.3 Kết quả và bàn luận 100
4.4 Kết luận 109
KẾT LUẬN VÀ KIẾN NGHỊ 110
DANH MỤC CÔNG TRÌNH CÔNG BỐ CỦA TÁC GIẢ 113
DANH MỤC TÀI LIỆU THAM KHẢO 114
Trang 5DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
BDM Block Distortion Measure Độ đo biến dạng khối
BMA Block-Matching Algorithm Thuật toán phối hợp khối
BMME Block-Matching Motion Estimation Ước lượng chuyển động
phối hợp khối
DCT Discrete Cosine Transform Biến đổi Cosine rời rạc
DFD Displaced Frame Difference Hiệu dịch chuyển khung
DFT Discrete Fourier Transform Biến đổi Fourier rời rạc
DMS Discrete Memoryless Source Nguồn không nhớ rời rạc
DPCM Differential Pulse Code Modulation Điều chế xung mã vi sai
DVB-H Digital Video Broadcasting - Handheld Phát quảng bá video kỹ thuật số -
Thiết bị cầm tay
FFT Fast Fourier Transform Biến đổi Fourier nhanh
HDTV High Definition Television Truyền hình độ phân giải cao HVS Human Visual System Hệ thống nhìn của con người
KLT Karhunen-Loève Transform Biến đổi Karhunen-Loève
LMS Least Mean Square Bình phương trung bình tối thiểu MAE Mean Absolute Error Sai số tuyệt đối trung bình
MAP Maximum A posteriori Probability Cực đại xác suất hậu nghiệm
Trang 6ML Maximum Likelihood Hợp lý cực đại
MPEG Moving Picture Experts Group Nhóm chuyên gia về hình ảnh động
MSE Mean Squared Error Sai số trung bình bình phương NCCF Normalized Cross Correlation Function Hàm tương quan chéo chuẩn hóa NGN Next Generation Network Mạng thế hệ kế tiếp
NTSC National Television System Committee Ủy ban truyền hình quốc gia
PSNR Peak Signal to Noise Ratio Tỷ số tín hiệu đỉnh trên nhiễu SAD Sum of Absolute Differences Tổng các sai phân tuyệt đối
SSD Sum Squared Difference Tổng các sai phân bình phương TSVQ Tree-Structured Vector Quantizers Lượng tử véctơ có cấu trúc cây
VLC Variable Length Coding Mã hóa với độ dài từ mã thay đổi
Trang 7DANH MỤC CÁC BẢNG
Bảng 2.1 Độ phức tạp tính toán của SSD, SAD và NCCF với khối N N 51 Bảng 4.1 Bảng thống kê thời gian tính toán theo phương pháp Bayes 107 Bảng 4.2 Bảng thống kê thời gian tính toán theo phương pháp Kalman 108
Trang 8DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1.1 Nén video trong truyền video 8
Hình 1.2 Hàm tự tương quan theo chiều ngang của một số bức ảnh 9
Hình 1.3 Phổ công suất đặc trưng của tín hiệu TV quảng bá 10
Hình 1.4 (a) khung thứ 21 và (b) khung thứ 22 của dãy ảnh “Hoa hậu Mỹ” 11
Hình 1.5 Hệ thống nén video tổng quát 15
Hình 1.6 Tính chu kỳ tái cấu trúc của DFT và DCT 25
Hình 1.7 Biến đổi DCT ảnh của Lena: (a) ảnh gốc, (b) ảnh tái cấu trúc 26
Hình 1.8 (a) Khối con 8×8 ảnh gốc của Lena; (b) Các hệ số DCT 26
Hình 1.9 Ước lượng chuyển động phối hợp tốt nhất 31
Hình 1.10 Biểu diễn thuật toán tìm kiếm ba bước 32
Hình 2.1 Hình chiếu chuyển động 35
Hình 2.2 Ước lượng chuyển động phối hợp khối 48
Hình 2.3 Tái xác lập chất lượng của SSD, SAD, NCCF 50
Hình 2.4 Ba loại hồi quy khác nhau 52
Hình 2.5 Phương pháp dốc nhất 54
Hình 2.6 Mô tả phương pháp Newton-Raphson 57
Hình 4.1 a) Khung 1512 và b) Khung 1513 của videoclip-1 100
Hình 4.2 a) Khung 434 và b) Khung 435 của videoclip-2 101
Hình 4.3 Trường chuyển động của videoclip-1, phương pháp Bayes (λ=100) 102
Hình 4.4 Trường chuyển động của videoclip-1, phương pháp Bayes (λ=1500) 102
Hình 4.5 Trường chuyển động của videoclip-1, phương pháp Kalman (L=10) 104
Hình 4.6 Trường chuyển động của videoclip-1, phương pháp Kalman (L=100) 104
Hình 4.7 Trường chuyển động của videoclip-2, phương pháp Bayes (λ=100) 106
Hình 4.8 Trường chuyển động của videoclip-2, phương pháp Kalman (L=100) 106
Hình 4.9 Đồ thị biểu diễn thời gian tính toán theo phương pháp Bayes 107
Hình 4.10 Đồ thị biểu diễn thời gian tính toán theo phương pháp Kalman 108
Trang 9MỞ ĐẦU
Giới thiệu
Nén video là chủ đề đã và đang thu hút sự quan tâm của các nhà nghiên cứu trên thế giới Việc tìm giải pháp nén video luôn hướng tới mục tiêu làm sao tăng hiệu quả nén trong khi giảm thiểu sự biến dạng hình ảnh mà quá trình nén gây ra Hai yêu cầu này thường mâu thuẫn với nhau Vì vậy, tùy ứng dụng cụ thể mà người
ta chọn giải pháp nén phù hợp để dung hòa giữa hai yếu tố
Hiện nay trên thế giới cũng như ở Việt Nam đã triển khai mạng thông tin thế
hệ sau Một trong các đặc điểm của mạng thông tin thế hệ sau là truyền tải tất cả các thông tin và các dịch vụ trên cơ sở sử dụng công nghệ chuyển mạch mềm, cho phép cung cấp các dịch vụ đa phương tiện đến người sử dụng Trong đó, các dịch vụ đa phương tiện sử dụng video bao gồm: điện thoại video, hội nghị truyền hình, y tế từ
xa, đào tạo từ xa, xem các chương trình video phát quảng bá hoặc theo yêu cầu… Các dịch vụ của mạng thông tin thế hệ sau không chỉ trong suốt trên mạng cố định
mà với xu thế hội tụ cố định - di động thì chúng cũng phải trong suốt đến tận máy đầu cuối di động Để đáp ứng yêu cầu đó, cần tìm ra các phương pháp nén video hiệu quả để giải quyết một số bài toán đặt ra ở đây là:
- Nguồn tài nguyên tần số của môi trường vô tuyến là hữu hạn, vì vậy có giải pháp gì để tăng hiệu suất sử dụng tài nguyên đó
- Kênh truyền dẫn vô tuyến có tác động tiềm tàng của nhiễu, vì vậy có thuật toán xử lý tín hiệu mà chống được ảnh hưởng đó không
- Thiết bị đầu cuối di động có kích thước bé, nguồn năng lượng pin cung cấp cho nó hạn chế, vì vậy có giải pháp nào để tăng tốc độ xử lý nhằm tiết kiệm nguồn điện
Nhiều công trình nghiên cứu đã được công bố tập trung vào giải pháp nén tín hiệu video với mục tiêu là giảm băng tần cần thiết giành cho phổ tần tín hiệu video
Trang 10Trong đó đặc trưng là các công trình mã tốc độ thấp [4], [15], [24], [35], [64], [68] hoặc là giải pháp ước lượng chuyển động của ảnh trong video
Trong hệ thống nén video thì bù chuyển động là một bộ phận rất quan trọng, đóng vai trò then chốt, được Netravali và Robbins đưa ra năm 1997 Bù chuyển động là một kỹ thuật dự đoán hướng theo thời gian, nó ước lượng độ dịch chuyển của mục tiêu chuyển động từ khung tham chiếu đến khung hiện tại Ước lượng chuyển động thu được dự đoán bù chuyển động bằng cách tìm véctơ chuyển động giữa khung tham chiếu và khung hiện tại
Giai đoạn đầu người ta sử dụng phương pháp Bayes để ước lượng chuyển động của ảnh Phương pháp Bayes xét đặc điểm tự nhiên của nội dung ảnh và hiệu giữa các khung liên tiếp, mô tả được bản chất xuất hiện của ảnh nhưng việc tính toán phức tạp, đặc biệt khi phân bố nhiều chiều Đồng thời, chúng ta cũng biết rằng
để sử dụng được công thức Bayes thì điều kiện tiên quyết là dãy ảnh phải là dãy xác suất đầy đủ Đó là điều kiện tính toán khó vì phải nhận biết được dãy ảnh có thỏa mãn điều kiện “đầy đủ” hay không, nếu không thì quá trình ước lượng sẽ phạm phải sai số đáng kể
Trong những năm gần đây, một số tác giả đã mở rộng phương pháp Bayes cho ước lượng ảnh [57] Rất nhiều nỗ lực đã được thực hiện trong ước lượng IBM thông qua phương pháp học thống kê bằng Bayes Tuy nhiên, nhược điểm của nó là mặt nạ được ước lượng cho từng đơn vị thời gian - tần số một cách độc lập mà không tính đến mối tương quan giữa chúng Trong [57], Shan Liang, Wenju Liu và Wei Jiang đã đề cập đến mối tương quan đó bằng thông tin tương quan địa phương
Họ đã sử dụng những biến phụ để chỉ ra mối tương quan Phương pháp này đã chứng tỏ có độ chính xác cao hơn phương pháp Bayes thông thường Tuy vậy, phương pháp này đã bỏ qua một số tham số thống kê bậc hai vì vậy làm hạn chế độ chính xác trong ước lượng chuyển động
Bên cạnh những ưu điểm của phương pháp Bayes thì bản thân nó bộc lộ những điều kiện ứng dụng mà không phải dãy ảnh chuyển động nào cũng thỏa mãn,
Trang 11đó là tính độc lập, tính đầy đủ Vì vậy, những năm gần đây đã xuất hiện ước lượng chuyển động của ảnh bằng lọc Kalman làm tăng tốc độ xử lý Điển hình năm 2009, Nai-Chung Yang, Chaur Heh Hsieh và Chung Ming Kuo [50] đã công bố công trình ước lượng chuyển động trong mã hóa video bằng lọc Kalman Trong [50], các tác giả đã sử dụng mô hình ước lượng ba chiều Tuy nhiên, các tác giả đã không tính trực tiếp ba chiều trong các thuật toán Kalman mà đã giả thiết về tính độc lập để đưa
về tính trong không gian một chiều bằng phương pháp hồi qui và lọc Kalman địa phương Vì vậy, [50] còn có những hạn chế sau:
- Mô hình địa phương chỉ trợ giúp cho biến đổi không gian và thời gian sau đó phải cải tiến biểu diễn không gian trạng thái Biểu diễn không gian trạng thái của mô hình địa phương không gian và thời gian một cách riêng biệt
- Ước lượng chuyển động có ràng buộc tốc độ bằng lọc Kalman, mới đưa ra hàm mục tiêu bằng cách cực tiểu hàm Lagrange, chưa chỉ ra thuật toán
- Mới đưa ra sơ đồ khối thuật toán ước lượng chuyển động nâng cao kết hợp lọc Kalman với thuật toán BMA để nâng cao độ chính xác ước lượng, chưa chỉ ra thuật toán cụ thể
Để tăng tốc độ xử lý, cải tiến độ bám chuyển động, người ta đã đưa ra các phương pháp ước lượng chuyển động có tốc độ nhanh hơn, có độ phối hợp tốt giữa các khung ảnh [28], [36], [37], [43], [47], [58], [70] Tuy vậy, việc ước lượng chuyển động vẫn chủ yếu dựa trên không gian hai chiều còn trong không gian ba chiều thì họ vẫn phải chuyển từ không gian ba chiều sang hai chiều [26]
Trong luận án này, nghiên cứu sinh sẽ tiếp tục nghiên cứu áp dụng lọc Kalman để ước lượng chuyển động của ảnh với các giải pháp mở rộng hơn:
- Ước lượng chuyển động của ảnh bằng Kalman một bước
- Ước lượng chuyển động của ảnh bằng Kalman nhiều bước, nhiều chiều
- Ước lượng chuyển động tối ưu của ảnh trong video bằng lọc Kalman
Trang 12Để giải quyết bài toán nâng cao hiệu quả sử dụng băng tần hơn nữa, đồng thời tăng độ chính xác ước lượng trong môi trường kênh có nhiễu lớn và fading, luận án đã nghiên cứu, đề xuất ứng dụng thuật toán mù
Tính cấp thiết của đề tài
Hiện nay, với việc triển khai mạng thông tin thế hệ sau đã mở đường cho nhiều ứng dụng mới ra đời như truyền tín hiệu video trên các phương tiện thông tin
di động, đa môi trường Nhưng làm sao để nâng cao hiệu quả sử dụng tài nguyên băng tần, hạn chế tối đa tác động tiềm tàng của nhiễu trong môi trường truyền dẫn
vô tuyến thì bài toán đặt ra là phải nén tín hiệu video sao cho hiệu quả nhất mà vẫn đảm bảo chất lượng hình ảnh với sự trợ giúp đắc lực của công nghệ thông tin Vì vậy, đề tài này là một chủ đề cấp thiết cho ứng dụng truyền video trên các mạng viễn thông đa môi trường thế hệ mới
Mục tiêu nghiên cứu
Luận án tìm các thuật toán hợp lý để ước lượng chuyển động của ảnh trong video sao cho dễ tính toán, đảm bảo độ bám chuyển động của ảnh một cách tốt nhất
- Nghiên cứu đề xuất ứng dụng thuật toán ước lượng chuyển động trong không gian nhiều chiều với nghiệm ước lượng chuyển động tối ưu, độ bám tốt
- Tăng hiệu quả sử dụng băng tần truyền dẫn bằng các thuật toán không cần sử dụng tín hiệu đào tạo
- Thuật toán ước lượng làm việc ổn định trong điều kiện kênh có nhiễu
Đối tượng, phạm vi và phương pháp nghiên cứu
Luận án nghiên cứu các phương pháp nén video số, ứng dụng truyền video trong mạng thông tin di động thế hệ mới Đây là một phạm vi rộng, bao gồm: lượng
tử hóa, ước lượng chuyển động của ảnh, mã hóa - giải mã
Luận án tập trung vào việc nghiên cứu các thuật toán ước lượng chuyển động của ảnh, phân tích các kết quả nghiên cứu chuyển động ảnh đã có trước đây; nghiên cứu các thuật toán ước lượng về mặt toán học từ đó tìm ra thuật toán ước lượng hợp
Trang 13lý để đạt mục tiêu đề ra Từ phân tích toán học, luận án dùng công cụ mô phỏng để kiểm chứng
Ý nghĩa khoa học và thực tiễn
Ý nghĩa khoa học: Làm phong phú hơn về lý luận ước lượng chuyển động của ảnh bằng các thuật toán lặp, đó là:
- Dùng thuật toán Kalman: Đây là phương pháp lặp, sử dụng trong không gian nhiều chiều và chỉ ra nghiệm tối ưu của ước lượng chuyển động
- Dùng thuật toán mù: Đây là phương pháp lặp, không cần sử dụng tham chiếu trước mà chỉ cần mối tương quan giữa hai khung ảnh là ước lượng được chuyển động của ảnh
Ý nghĩa thực tiễn: Mở ra khả năng tính toán mới để ước lượng ảnh nhanh
hơn, có độ bám chuyển động tốt hơn, tránh được những thông tin dư thừa do độ
bám chuyển động không tốt gây ra; ứng dụng trong môi trường có nhiễu
Nội dung luận án
Nội dung của luận án được bố cục với các phần chính như sau:
Mở đầu: Giới thiệu bài toán và phương pháp nghiên cứu
Chương 1 - Tổng quan về nén video: Giới thiệu vai trò, vị trí, yêu cầu, mô hình hệ thống và một số kỹ thuật nén video
Chương 2 - Tổng quan về ước lượng chuyển động của ảnh: Đây là chương đưa ra những kiến thức cơ bản về ước lượng chuyển động của ảnh, những thuật toán hiện có, đánh giá ưu điểm và nhược điểm của những thuật toán hiện có
Chương 3 - Ước lượng chuyển động bằng các giải pháp mới: Chương này đề xuất áp dụng những thuật toán mới cho việc ước lượng chuyển động của ảnh, đó là thuật toán Kalman và thuật toán mù
Trang 14Chương 4 - Một số kết quả tính toán số: Trình bày một số kết quả mô phỏng
từ đó đưa ra nhận xét, so sánh hiệu năng giữa phương pháp Bayes và phương pháp Kalman
Kết luận và kiến nghị: Nêu lên các kết quả đã đạt được của luận án và chỉ ra các hướng nghiên cứu tiếp theo
Trang 15CHƯƠNG 1: TỔNG QUAN VỀ NÉN VIDEO
1.1 Giới thiệu
Để truyền được các chương trình video trên các hệ thống thông tin di động, một bài toán đặt ra là phải nén hình ảnh để tiết kiệm băng tần truyền dẫn mà vẫn đảm bảo chất lượng hình ảnh Đây là một yêu cầu đã và đang được nhiều nhà nghiên cứu quan tâm Truyền dẫn số tín hiệu ảnh động qua các hệ thống vệ tinh đã được nghiên cứu từ năm 1990, trong đó nén video bằng phương pháp mã hoá đóng vai trò rất quan trọng Cho đến nay, khi các hệ thống thông tin di động 3G và hệ thống NGN ra đời cho phép truyền các chương trình video trên đó thì việc nghiên cứu tìm ra các giải pháp nén mới càng đòi hỏi cấp thiết hơn bao giờ hết Nhóm chuyên gia về hình ảnh động (MPEG) đã hoàn thiện hai bộ tiêu chuẩn về mã hoá video là MPEG-1 và MPEG-2, xác định các phương pháp truyền thông tin video số theo các định dạng truyền hình và đa môi trường Ngày nay MPEG-4 đang nhắm vào việc truyền video tốc độ bit rất thấp; còn MPEG-7 đưa ra chuẩn hoá trong các dịch vụ lưu trữ và phục hồi video Trong hoàn cảnh mạng thế hệ mới NGN và di động thế hệ sau tiếp tục đòi hỏi phải hoàn thiện hơn các thuật toán nén - giải tín hiệu video số với mục đích làm cho chất lượng hình ảnh tốt hơn, băng tần truyền dẫn thấp hơn
Nén video số là một quá trình trong đó người ta tìm các giải pháp để giảm số lượng số liệu biểu thị hình ảnh video để đáp ứng tốc độ bit yêu cầu mà vẫn đáp ứng chất lượng video được khôi phục ở phía thu phải thỏa mãn yêu cầu ứng dụng và độ phức tạp tính toán Hình 1.1 biểu thị sơ đồ khối chức năng nén số liệu video trong
hệ thống truyền dẫn Nén video có nhiệm vụ rất quan trọng vì lượng dư của số liệu trong các hình ảnh nguyên thủy thường lớn hơn nhiều dung lượng mà các thiết bị điện tử ngày nay có thể xử lý
Ta cũng biết rằng thông tin và số liệu là hai khái niệm khác nhau nhưng liên quan chặt chẽ với nhau Số liệu biểu thị thông tin và chất lượng số liệu có thể đo được Nội dung của số liệu video thường được đo bằng số đơn vị bit; còn thông tin
Trang 16được xác định bằng sự nhận biết Như vậy toàn bộ số liệu biểu thị sự nhận biết, tuy vậy nó cũng có đơn vị đo của nó
Nén Video
Truyền hoặc Lưu trữ
Tái cấu trúc
số liệu
Hình 1.1 Nén video trong truyền videoTốc độ bit hay còn gọi là tốc độ mã hóa là một tham số quan trọng trong nén video và thường được biểu thị bằng đơn vị bit/giây Trong mã hóa nguồn tin, đôi lúc tốc độ bit được biểu thị bit trên ký hiệu Chất lượng hình ảnh được cấu trúc lại ở phía thu phụ thuộc vào ứng dụng vì vậy sẽ có loại nén tổn thất và nén không tổn thất Trong ứng dụng truyền các ảnh động, các chương trình truyền hình thì cho phép một lượng tổn thất nào đó
Từ định nghĩa này, ta có thể nhận thấy rằng nén số liệu video có một số khái niệm cơ bản bao gồm: thông tin, số liệu, chất lượng nhìn được của video và độ phức tạp tính toán Chương này tập trung vào một số vấn đề chính như sau:
- Phân tích độ dư trong tín hiệu video, nhu cầu cần thiết nén video
- Khái niệm về nén video
- Yêu cầu về ứng dụng nén video và một số kỹ thuật nén video
1.2 Độ dư trong tín hiệu video, nhu cầu cần thiết nén video
1.2.1 Độ dư trong tín hiệu video
1- Độ dư thống kê của ảnh
Độ dư thống kê có thể được phân thành hai kiểu: độ dư giữa các pixel và độ
dư mã hóa Độ dư giữa các pixel có nghĩa là các pixel của một khung ảnh và các pixel của một nhóm các khung ảnh hoặc video liên tiếp không độc lập thống kê với nhau Trái lại, chúng tương quan với nhau theo mức độ khác nhau Kiểu tương quan giữa các pixel như vậy được coi là độ dư giữa các pixel Độ dư giữa các pixel có thể
Trang 17được chia thành hai loại: độ dư không gian và độ dư thời gian Độ dư mã hoá là độ
dư thống kê liên quan đến các kỹ thuật mã hóa
a) Độ dư không gian
Độ dư không gian thể hiện mối tương quan thống kê giữa các pixel trong một khung ảnh Do đó nó còn được gọi là độ dư ngoài khung Ta biết rằng các giá trị cường độ của các pixel thuộc một hàng (hoặc một cột) có hệ số tự tương quan rất cao (gần bằng độ tự tương quan cực đại là 1) với các giá trị cường độ của các pixel thuộc chính hàng đó (hoặc chính cột đó) nhưng bị dịch đi một pixel Điều này không hề bất ngờ bởi vì hầu hết các giá trị cường độ thay đổi liên tục từ pixel này đến pixel khác trong một khung ảnh, ngoại trừ các miền rìa [27]
Từ những năm 1950, người ta đã bắt đầu nghiên cứu về các đặc tính thống kê của tín hiệu video nhằm mục đích hiểu được độ dư để loại bỏ độ dư [47] đã thiết kế một số dụng cụ thực nghiệm để đo một số đại lượng thống kê của ảnh Tác giả đã nhận thấy rằng độ tự tương quan theo cả chiều ngang và chiều dọc đều biểu lộ tương tự nhau, như được chỉ ra trên hình 1.2
Hình 1.2 Hàm tự tương quan theo chiều ngang của một số bức ảnh
Tác giả đã đo được các hàm tự tương quan của một số bức ảnh có độ phức tạp khác nhau và nhận thấy rằng, từ ảnh này đến ảnh kia, hình dạng của các đường
Trang 18cong tự tương quan sắp xếp theo thứ tự từ gần như là đường thẳng tới hơi giống đường hàm số mũ Khi độ dịch pixel nhỏ, độ tự tương quan cao Độ tự tương quan
có thể cao tới mức 0,97 đến 0,99 với độ dịch một hoặc hai pixel
Biến đổi Fourier của hàm tự tương quan, còn gọi là phổ công suất, cũng là một hàm quan trọng trong việc nghiên cứu biểu lộ đặc tính thống kê Hình 1.3 biểu thị phổ công suất đặc trưng của tín hiệu TV [4] và người ta cũng cho rằng phổ khá phẳng cho đến 30kHz Ngoài tần số này phổ bắt đầu tụt xuống với tốc độ khoảng 6dB/Octave Điều này biểu lộ rằng sự tập trung lớn của các tín hiệu video là ở các tần số thấp, có thể coi độ rộng băng tần chuẩn của video là 5MHz
Công suất tương đối (db)
100 k
10 k
Hình 1.3 Phổ công suất đặc trưng của tín hiệu TV quảng bá
Độ dư không gian ngụ ý rằng giá trị cường độ của một pixel có thể được ước lượng theo giá trị cường độ của các pixel lân cận nó Nói một cách khác, người ta không cần miêu tả từng pixel trong khung ảnh một cách độc lập Thay vào đó, người ta có thể dự đoán một pixel từ các pixel ở bên cạnh nó Mã hóa dự đoán là một loại mã hóa vi sai dựa vào nhận xét này Thành quả trực tiếp của việc nhận biết
độ dư không gian là bằng cách loại bỏ một số lượng lớn độ dư thừa trong một khung ảnh, chúng ta có thể tiết kiệm được rất nhiều dữ liệu trong việc biểu thị khung, vì vậy đạt được việc nén dữ liệu
Trang 19b) Độ dư thời gian
Độ dư thời gian có liên quan với tương quan thống kê giữa các pixel của các khung liên tiếp trong một dãy ảnh hoặc video theo thời gian Vì vậy nó còn được gọi là độ dư giữa các khung
Xét một dãy ảnh theo thời gian, với điều kiện là khoảng thời gian giữa hai bức ảnh đủ ngắn, tức là các bức ảnh được chụp đủ dày đặc, chúng ta có thể hình dung rằng đặc điểm giống nhau giữa hai khung là rất lớn Hình 1.4 (a) và hình 1.4
(b) tương ứng với khung thứ 21 và khung thứ 22 của dãy ảnh “Hoa hậu Mỹ” Các khung có độ phân giải là 176×144 Từ khung thứ 21 sang khung thứ 22, trong tổng
số 25.344 pixel chỉ có 3,4% thay đổi giá trị xám vào khoảng hơn 1% của giá trị xám cực đại (trong trường hợp này là 255) Điều này khẳng định nhận xét của Mounts trong [44]: đối với tín hiệu giống như điện thoại video có dịch chuyển vừa phải trong cảnh, trung bình có ít hơn 10% pixel thay đổi các giá trị xám giữa hai khung liên tiếp vào khoảng 1% tín hiệu đỉnh
Hình 1.4 (a) khung thứ 21 và (b) khung thứ 22 của dãy ảnh “Hoa hậu Mỹ” Điều đó dẫn ta tới suy nghĩ là có thể dự đoán một khung từ các khung cạnh
nó theo miền thời gian bằng cách mã hóa dự đoán trong khung và cũng giúp nghiên cứu sinh hướng tới ý tưởng sử dụng hàm tương quan giữa các pixel để ước lượng sự chuyển động của các khung kế tiếp nhau Đó sẽ là một đề xuất của luận án sẽ được trình bày ở chương 3: ước lượng chuyển động của ảnh bằng phương pháp mù
Trang 20Kretzmer cũng đã chỉ ra rằng những thay đổi từ một khung sang khung kế tiếp chủ yếu là do sự chuyển động của một số vật thể trong khung Nghiên cứu thông tin chuyển động này sẽ đưa ra được giải pháp mã dự đoán bù chuyển động Điều này luận án sẽ nghiên cứu kỹ ở các chương sau và sẽ đưa ra giải pháp khắc phục độ dư thời gian, nghĩa là nén số liệu
sẽ cho ta kết quả nén dữ liệu hình ảnh và video Với nghĩa đó thì độ dư mã là khác,
nó không thực hiện việc gì đối với sự dư thừa thông tin mà nó thực hiện với việc biểu diễn thông tin, nghĩa là chính việc mã hoá Từ việc nghiên cứu độ dư mã, rõ ràng là chúng ta nên tìm kiếm các kỹ thuật mã hiệu quả hơn để nén dữ liệu hình ảnh
và video Mã Huffman và mã số học là hai kỹ thuật mã hóa VLC thường được dùng trong xử lý ảnh và video
2- Độ dư khả năng nhìn thấy
Trong khi độ dư giữa các pixel vốn đã có trong số liệu hình ảnh và video, độ
dư khả năng nhìn thấy bắt nguồn từ các đặc trưng về hệ thống nhìn của con người
Ta biết rằng HVS cảm nhận được thế giới bên ngoài theo một cách thức khá phức tạp Đáp ứng của nó đối với các tác nhân nhìn không phải là một hàm tuyến tính theo cường độ của một vài thuộc tính vật lý, như độ sáng và màu Năng lực tri giác của HVS khác hẳn với độ nhạy của camera Trong HVS, thông tin nhìn thấy không được cảm nhận như nhau, một số thông tin có thể quan trọng hơn một số thông tin khác Điều đó có nghĩa rằng nếu chúng ta sử dụng ít dữ liệu hơn để biểu diễn những
Trang 21thông tin ít quan trọng hơn về nhìn thấy thì khả năng cảm nhận sẽ không bị ảnh hưởng Theo nghĩa đó, chúng ta thấy rằng một số thông tin có liên quan đến thị giác
là dư thừa về khả năng nhìn thấy Loại bỏ sự dư thừa khả năng nhìn thấy này chính
là nén dữ liệu
1.2.2 Nhu cầu cần thiết nén video
Những thành tựu đạt được trong công nghệ điện tử - viễn thông - tin học đã tạo điều kiện phát triển các kỹ thuật truyền video đáp ứng nhu cầu ngày càng tăng trong các ứng dụng cuộc sống hàng ngày như điện thoại video, hội nghị video, truyền hình độ phân giải cao…
Video là một dãy các khung ảnh bao gồm một lượng khổng lồ các số liệu, ví
dụ mỗi khung video có độ phân giải 288 dòng và 352 pixel trên một giây Mỗi một màu trong ba màu chính (đỏ, xanh, xanh da trời) được biểu thị bằng 1 pixel có 8 bit
và thông thường tốc độ khung truyền là 30 khung trên một giây để tạo ra video chuyển động liên tục Tốc độ bit yêu cầu là: 288×352×8×3×30 = 72.990.720 bit/s
Do đó tỷ số giữa tốc độ bit cần thiết và tốc độ bit có thể lớn nhất khoảng 1289 lần Điều này chứng tỏ rằng chúng ta cần phải nén số liệu video ít nhất là 1289 lần để truyền được trên mạng viễn thông
1.3 Khái niệm về nén video
Các phương tiện liên lạc video qua kênh thông tin số thế hệ mới yêu cầu rất lớn về việc truyền thông tin Nén video được xem xét ở đây bao hàm việc làm giảm tốc độ bit mã tín hiệu video số mang thông tin nhìn được hoặc loại bỏ các phần tử
dư thừa trong tín hiệu Mức độ mà bộ mã hoá làm giảm tốc độ bit được gọi là hiệu suất mã và nghịch đảo của hiệu suất mã được gọi là tỷ số nén:
Trang 222 ( , ) ( , )
Hình 1.5 mô tả sơ đồ khối của hệ thống nén video thực hiện mã một dãy ảnh
số theo không gian và thời gian Mỗi hình ảnh trong dãy I k được xác định theo công thức (1.1) Bộ mã hoá không gian hoạt động dựa vào các khối ảnh, thông thường mỗi khối ảnh có kích thước 8×8 pixel Bộ mã hoá thời gian thường hoạt động với các khối ảnh có kích thước 16×16 pixel Hệ thống này được thiết kế hoạt động theo hai phương thức là ngoài khung và trong khung
Trong sơ đồ tại hình 1.5, vòng phản hồi hoạt động theo phương thức trong khung và tạo ra lỗi dự đoán giữa các khối của khung hiện tại và khung dự đoán hiện tại Bộ bù chuyển động tạo ra giải thuật dự đoán Khối ước lượng chuyển động tạo
ra các véctơ chuyển động cho mỗi khối 16×16 pixel Các véctơ chuyển động và khung tái cấu trúc trước đó được đưa vào bộ bù chuyển động để tạo ra dự đoán
Phương thức ngoài khung thực hiện mã hoá không gian toàn bộ khung hiện tại theo chu kỳ, mỗi chu kỳ 15 khung, để đảm bảo các lỗi hệ thống không lan truyền liên tục Phương thức ngoài khung cũng sẽ được sử dụng để mã hoá không gian một khối bất cứ khi nào mà phương thức mã hoá trong khung không thể đạt được ngưỡng hiệu quả của nó
Trang 23Bộ toán tử không gian (T)
Bộ lượng tử (Q)
Bộ mã hóa độ dài biến đổi (VLC)
Nén chuyển động
Bộ nhớ khung trễ
Ước lượng chuyển động
Bộ mã hóa độ dài biến đổi (VLC)
Lỗi dự
đoán E k
Các véctơ chuyển động
Ngoài khung-Mở Trong khung-Đóng
Chuyển khối con ngoài khung được
mã hóa hoặc Lỗi dự đoán trong khung được mã hóa
và Véctơ chuyển động
Bộ toán tử không gian đảo (T ) -1
Hình 1.5 Hệ thống nén video tổng quát Phương thức mã hoá ngoài khung không nhận bất kỳ đầu vào nào từ vòng
phản hồi I k được mã hoá không gian và không tổn thất bởi bộ VLC để tạo nên I ke rồi đưa đến bộ giải mã Máy thu thực hiện giải mã I ke để tạo nên khối ảnh con được
tái cấu trúc Î k Trong thời gian thực hiện mã hoá trong khung, đầu vào khung hiện
tại I k được trừ cho dự đoán khung hiện tại P k để tạo ra lỗi dự đoán hiện tại E k Sau
đó lỗi dự đoán được mã hoá không gian bởi VLC để tạo ra E ke và E ke được truyền đi
cùng với các véctơ chuyển động MV k được mã hoá bởi VLC Dựa vào khung tái cấu
trúc trước đó Î k-1 (được lưu trong bộ giải mã), các véctơ chuyển động của khung
hiện tại và lỗi dự đoán, bộ giải mã có thể tái cấu trúc khung hiện tại Î k Các véctơ
chuyển động MV k hoạt động dựa vào Î k-1 để tạo ra khung dự đoán hiện tại P k Lỗi dự
đoán đã được mã hoá Ê ke được giải mã để tạo ra lỗi dự đoán tái cấu trúc Ê k Khung
hiện tại Î k được tạo ra bằng cách cộng dự đoán với lỗi dự đoán Các thuật toán hoạt động này người ta dùng hồi qui [8] tiền định, chúng phù hợp với hoàn cảnh như đã phân tích trên Trong trường hợp tương quan, các thông tin không biết trước phân
bố của nó thì luận án sẽ sử dụng phương pháp Kalman Đây là giải pháp hợp lý nhất khi các yếu tố tín hiệu đầu vào có yếu tố can nhiễu chưa xác định Trong mô hình tại hình 1.5 có những phần tử cơ bản sau:
Trang 241) Bộ toán tử không gian: Phần tử này thông thường thực hiện biến đổi unita tuyến tính hai chiều nhưng về nguyên tắc cấu tạo nó có thể là một toán tử unita bất kỳ thực hiện chức năng phân bố năng lượng tín hiệu thành một số các hệ số, tức là tách tương quan tín hiệu Tiếp đó, các biến đổi không gian được thực hiện đối với các khối ảnh nhỏ để lợi dụng mức độ tương quan bậc cao của số liệu trong các pixel ảnh kế cận Bộ toán tử không gian được sử dụng rộng rãi trước đây để mã hoá ảnh và video là biến đổi Cosine rời rạc (DCT) DCT được dùng cho các khối ảnh 8×8 pixel và rất phù hợp cho biến đổi ảnh vì nó sử dụng tính toán thời gian thực với tốc độ thực hiện nhanh, có thể tách tương quan các thành phần tín hiệu rất tốt và tránh việc tạo ra các thành phần giả tại rìa của các khối ảnh kế cận
2) Bộ lượng tử: Toán tử không gian được sử dụng cho đầu vào để sắp xếp tín hiệu thành dạng thích hợp hơn cho các hoạt động mã hoá tổn thất hoặc không tổn thất sau đó Bộ lượng tử hoạt động dựa vào các hệ số biến đổi đã được tạo ra Đây là hoạt động tổn thất thông tin với thành quả mang lại là làm giảm đáng kể tốc độ bit Phương pháp lượng tử được dùng trong bộ mã hoá video này thường là phương pháp không đồng nhất vô hướng Phương pháp lượng tử vô hướng làm giảm độ phức tạp trong hoạt động so với lượng tử véctơ (VQ) Khoảng thời gian lượng tử không đồng nhất được thay đổi theo
sự phân bố của các hệ số biến đổi để tối thiểu hoá tốc độ bit và méo gây ra bởi quá trình lượng tử Như một sự lựa chọn, cỡ bước lượng tử có thể được điều chỉnh dựa vào hiệu năng hệ thống nhìn của con người
3) Mã hoá với độ dài từ mã thay đổi (VLC): Bộ VLC không tổn thất được sử dụng để khai thác độ dư thừa chứa trong mỗi khối của các hệ số biến đổi nhằm mục đích làm tối thiểu hoá entropy của nguồn VLC được dùng cho chuỗi bit được tạo ra bằng cách quét khối hệ số biến đổi Mẫu quét nên lựa chọn với mục tiêu cực đại hoá hiệu suất của VLC
Trang 25Vòng phản hồi cấu trúc lại các khung lỗi dự đoán và khung lỗi không gian đã được mã hoá và lưu giữ các kết quả để tạo ra dự đoán hiện tại Để thực hiện nhiệm
vụ này cần có các phần tử sau: Bộ lượng tử ngược, thuật toán không gian ngược, bộ nhớ khung trễ, bộ ước lượng chuyển động và bộ bù chuyển động Sau đây ta sẽ điểm qua đặc điểm từng phần tử:
1) Các bộ tạo thuật toán ngược: Các bộ tạo thuật toán ngược Q-1 và T-1 được
dùng với khung hiện tại được mã hoá I ke hoặc lỗi dự đoán hiện tại E ke để cấu trúc lại và lưu giữ khung dành cho bộ ước lượng chuyển động và bộ bù chuyển động nhằm tạo ra khung dự đoán tiếp theo
2) Bộ nhớ khung trễ: Bộ nhớ khung trễ dùng cho bộ ước lượng chuyển động và
bộ bù chuyển động để tạo ra khung dự đoán Số lượng các khung trước đó được lưu trong bộ nhớ có thể biến đổi theo yêu cầu của thuật toán mã hoá 3) Ước lượng chuyển động: Mục tiêu của bộ ước lượng chuyển động là ước lượng sự chuyển động giữa hai khung Bộ ước lượng chuyển động hoạt động dựa vào tất cả các khối ảnh 16×16 của khung hiện tại và tạo nên sự dịch chuyển của pixel hoặc véctơ chuyển động đối với mỗi khối Các tác giả [3], [13], [15], [16], [37], [40], [43], [58], [60], [66], [69], [70] đã đưa ra phương pháp ước lượng chuyển động phối hợp khối Phương pháp này có ưu điểm là
sử dụng khung hiện tại I k và khung đã được cấu trúc lại trước đó Î k làm đầu vào Giả thiết mỗi khối trong khung trước đó có độ dịch chuyển có thể tìm kiếm được trong khung hiện tại Trong các công trình này, việc tìm kiếm bị hạn chế do độ phức tạp của tính toán Để giải quyết hạn chế này, luận án sẽ đưa ra các phương pháp lặp sẽ được giới thiệu trong chương 3 Trong [52], việc tìm kiếm dựa vào thuật toán cực tiểu MSE hoặc MAE Khi tìm được sự phối hợp, sự dịch chuyển pixel được sử dụng để mã hoá khối liên quan Nếu
sự tìm kiếm không đáp ứng được tiêu chuẩn ngưỡng MSE hoặc MAE cực tiểu thì bộ bù chuyển động sẽ chỉ ra rằng phải dùng phương pháp ngoài khung để mã hoá không gian khối hiện tại Chương 3 sẽ phát triển ý tưởng
Trang 26ước lượng chuyển động phối hợp khối bằng cách sử dụng hàm tương quan
giữa I k và I k-1 thay cho Î k-1 thông qua thuật toán ước lượng mù sẽ vừa phát huy được ưu điểm phối hợp vừa khắc phục được nhược điểm mà các thuật toán trước đây để lại là độ phức tạp tính toán
4) Bù chuyển động: Bộ bù chuyển động sử dụng ước lượng chuyển động khung
hiện tại MV k và khung tái cấu trúc trước đó Î k-1 để tạo ra dự đoán khung hiện
tại P k [52] Dự đoán khung hiện tại được xây dựng bằng cách đưa các khối khung trước đó vào khung hiện tại theo sự dịch chuyển pixel ước lượng chuyển động [11] Sau đó bộ bù chuyển động quyết định các khối nào sẽ được mã hoá thành các khối lỗi dự đoán bằng cách sử dụng các véctơ chuyển động và các khối nào sẽ chỉ để mã hoá không gian
Trong những năm gần đây có một số tác giả [36] đưa ra giải pháp nén video
sử dụng mã hoá wavelet 3D hoặc lượng tử hoá véctơ (VQ) để trực tiếp nén video
Tư tưởng của mã hoá VQ một khối 3D các pixel được mã hoá theo tiêu chí sai số trung bình bình phương bé nhất hoặc sai số tuyệt đối bé nhất Nhược điểm của phương pháp này là cỡ sách mã VQ tăng theo số đầu vào có thể Việc tìm kiếm không gian sách mã cho hàng xóm gần nhất nói chung rất phức tạp về tính toán
Phương pháp VQ cấu trúc cây (TSVQ) làm giảm độ phức tạp tìm kiếm từ N xuống logN (với N là cỡ của sách mã) với sự trả giá là gây ra méo trung bình Phương
pháp mã hoá video bằng wavelet sử dụng nén chuyển động thích nghi [36] Mã wavelet 3D đang được nhiều nhà nghiên cứu quan tâm Phương pháp này dựa vào biến đổi wavelet rời rạc [6]
1.4 Yêu cầu về ứng dụng nén video, một số kỹ thuật nén video
1.4.1 Yêu cầu về ứng dụng nén video
Hiện nay có nhiều ứng dụng video số khác nhau, chúng trải rộng từ các ứng dụng có yêu cầu đơn giản với độ phân giải thấp và độ rộng băng tần thấp (thiết bị đa phương tiện, điện thoại thấy hình) đến các ứng dụng có yêu cầu độ phân giải rất cao
và độ rộng băng tần cao (HDTV)
Trang 27Độ rộng băng tần cần thiết của tín hiệu TV số gần bằng một nửa số phần tử ảnh (pixel) xuất hiện trên một giây [31] Cỡ pixel tương tự theo chiều đứng là khoảng cách giữa các đường quét và theo chiều ngang là khoảng cách vết quét chuyển động trong khoảng thời gian một nửa chu kỳ của tần số truyền tín hiệu video cao nhất Độ rộng băng tần cho bởi [4]:
0,84(0,8)( )( )( )
trong đó B w là độ rộng băng tần hệ thống, F R là số khung đã phát đi trên một giây
(fps), N L là số đường quét trên một khung, R H là phân giải ngang tỷ lệ với phân giải
pixel Theo tiêu chuẩn NTSC thì F R = 29,97 fps, N L = 525 đường, R H = 340 đường
thì B w = 4,2 MHz
Đối với pixel màu số gồm 3 thành phần: thành phần độ chói (Y) chiếm 8 bit
và hai thành phần màu khác (U và V), mỗi thành phần yêu cầu 8 bit Khung ảnh NTSC có tổng cộng 720×480×2 pixel độ chói và màu Để truyền thông tin này trên
hệ thống truyền hình NTSC với tốc độ 29,97 khung/giây thì yêu cầu độ rộng băng tần là [4]:
' w
12129,97fps 24 bit/pixel 720 480 2 pixel/khung2
Trang 281) Các đặc tính video: Các tham số video như giải động, các thông số thống kê của nguồn, độ phân giải pixel và nhiễu ảnh hưởng đến hiệu năng của hệ thống nén
2) Yêu cầu truyền dẫn: Các yêu cầu về tốc độ bit truyền xác định năng lực của
hệ thống nén Các yêu cầu rất cao về độ rộng băng tần truyền dẫn, dung lượng bộ nhớ hoặc chất lượng có thể phải đòi hỏi nén không tổn thất Ngược lại, các yêu cầu tốc độ bit cực kỳ thấp có thể phải đòi hỏi các hệ thống nén đánh đổi chất lượng ảnh để có tỷ số nén lớn Ngoài ra, các lỗi kênh cũng ảnh hưởng đến hiệu năng của hệ thống và chất lượng video tái cấu trúc Để làm giảm ảnh hưởng của các lỗi kênh người ta thường dùng mã sửa sai (ECC) 3) Các đặc tính và hiệu năng của hệ thống nén: Căn cứ vào đặc điểm ứng dụng video mà người ta đưa ra các yêu cầu đối với hệ thống nén video Các ứng dụng video tương tác như hội nghị video thì đòi hỏi các hệ thống nén phải có khả năng đối xứng Nghĩa là mỗi phần trong đoạn video tương tác phải có cùng khả năng mã hoá và giải mã video và các yêu cầu năng lực hệ thống phải đáp ứng cho cả bộ mã hoá và bộ giải mã Trái lại, truyền hình video yêu cầu năng lực của máy phát phải rất cao vì nó phải đáp ứng việc cung cấp video được nén với chất lượng cao, thời gian thực phù hợp với dung lượng kênh truyền dẫn Các yêu cầu thực hiện hệ thống video số có thể thay đổi một cách đáng kể Hội nghị truyền hình qua máy tính có thể được thực hiện bằng cách dùng phần mềm cho việc mã hoá và giải mã hoặc dùng phần cứng chuyên dụng và các năng lực truyền dẫn để đạt được chất lượng cao Để chọn được giải pháp tốt nhất cần phải phân tích tỷ mỉ toàn bộ hệ thống và các phương án mã hoá
4) Yêu cầu về tỷ lệ méo: Đây là yêu cầu cơ bản trong việc lựa chọn bộ mã video Bộ mã video phải có khả năng đáp ứng được tốc độ bit và độ trung thực của hình ảnh theo yêu cầu của ứng dụng
Trang 295) Yêu cầu về tiêu chuẩn: Bộ mã hoá video phải tương thích với các tiêu chuẩn hiện tại và tương lai để có thể cùng hoạt động được với các hệ thống hiện tại hoặc trong tương lai
1.4.2 Một số kỹ thuật nén video
Nói chung các hệ thống nén video bao gồm hai phương thức làm giảm độ dư thông tin trong các miền không gian và thời gian Nén không gian và lượng tử hoá hoạt động trên một khối ảnh duy nhất bằng cách sử dụng các đặc tính ảnh cục bộ để giảm tốc độ bit Bộ mã hoá không gian cũng có VLC được đặt sau tầng lượng tử hoá Tầng VLC tạo ra mã không tổn thất của khối ảnh đã được lượng tử Bộ nén miền thời gian sử dụng các phương thức dòng quang (thường ở dạng phương pháp ước lượng chuyển động phối hợp khối) để nhận dạng và giảm độ dư thời gian
Các bộ mã hoá entropy [6] là các bộ mã hoá không tổn thất được sử dụng trong tầng VLC của hệ thống nén video Chúng được sử dụng tốt nhất cho các nguồn tin không nhớ và tối thiểu hoá tốc độ bit bằng cách ấn định các mã với độ dài thay đổi cho các giá trị đầu vào tuỳ theo hàm mật độ xác suất đầu vào Các bộ mã
dự đoán thích hợp cho các nguồn tin có nhớ Các bộ mã dự đoán có thể tạo ra hàm mật độ xác suất mới của nguồn với phương sai thống kê và entropy nhỏ hơn một cách đáng kể so với nguồn Sau đó nguồn đã biến đổi được đưa vào VLC để giảm tốc độ bit Mã entropy và mã dự đoán là những phương pháp mã tốt trong kỹ thuật nén ảnh
Các phép biến đổi khối là kỹ thuật chủ yếu để biểu thị thông tin không gian dưới dạng có ích cao cho việc lượng tử hoá và mã hoá VLC Các bộ biến đổi khối
có thể tạo ra độ lợi mã bằng cách đóng gói hầu hết năng lượng khối vào một số ít hơn các hệ số Lợi dụng độ dư thông tin lớn trong miền thời gian, phép bù chuyển động tạo ra các dự đoán khung hiện tại trên cơ sở ước lượng chuyển động phối hợp khối giữa các khung ảnh hiện tại và trước đó Nói chung phép bù chuyển động làm tăng một cách đáng kể hiệu suất mã video so với mã không gian thuần tuý
Sau đây ta lần lượt xét các giải pháp mã
Trang 30, với n là
số bit trên một pixel Bậc mà các ký hiệu ảnh đƣợc tạo ra phụ thuộc vào việc khối ảnh đƣợc sắp xếp hoặc đƣợc quét vào dãy ký hiệu Các bộ mã hoá không gian chuyển đổi các đặc trƣng thống kê của ảnh gốc với mục đích là ma trận hệ số có thể đƣợc quét trong chừng mực nào đó sao cho nguồn hoặc dãy các ký hiệu đƣợc tạo ra chứa đựng lƣợng tin ít nhất
Hai nguồn thông tin hữu ích đƣợc sử dụng trong việc mô hình hoá các bộ mã video: Nguồn không nhớ rời rạc (DMS) và nguồn Markov Mã hoá VLC dựa vào
mô hình DMS và bộ mã hoá dự đoán dựa vào mô hình nguồn Markov DMS đơn giản là nguồn mà mỗi ký hiệu đƣợc tạo ra một cách độc lập Các ký hiệu là độc lập thống kê và nguồn hoàn toàn đƣợc xác định bằng các ký hiệu của nó và một tập các
xác suất xuất hiện của mỗi ký hiệu: E = {e 1 , e 2 ,…, e n } và tập {p(e 1 ), p(e 2 ),…, p(e n)},
ở đây n là số các ký hiệu trong tập ký hiệu ảnh ban đầu Trên cơ sở đó, định nghĩa
entropy ở đây là lƣợng tin trung bình của nguồn tin Lƣợng tin của một ký hiệu đƣợc định nghĩa là:
1( ) log
Trang 31gắng tìm kiếm để đạt được các mã tiếp cận tới entropy của nguồn được gọi là các bộ
mã entropy
Để mô tả các đặc tính nguồn của các ảnh tự nhiên người ta thường sử dụng
mô hình Markov và mô hình nguồn trường ngẫu nhiên [2] Trong khối ảnh tự nhiên, giá trị của pixel hiện tại phụ thuộc vào một vài giá trị của các pixel xung quanh bởi chúng là một phần của cùng một mục tiêu Điều này có thể được mô hình hoá bằng
nguồn Markov bậc m, trong đó xác suất xuất hiện ký hiệu nguồn e i phụ thuộc vào m
ký hiệu nguồn trước đó Sự phụ thuộc này được biểu thị bằng việc xuất hiện sự kiện
e i có điều kiện khi xuất hiện m biến cố trước đó, tức là p(e i ׀e i-1 ,e i-2 ,…,e i-m) Nguồn
Markov được cấu thành bởi n m trạng thái, ở đây n là số ký hiệu trong nguồn tin ban đầu Mỗi trạng thái chứa một tập n xác suất có điều kiện biểu thị sự chuyển đổi
trạng thái có thể giữa ký hiệu hiện tại và ký hiệu tiếp theo Bộ mã dự đoán điều chế xung mã vi sai sử dụng mô hình nguồn Markov Hiện nay người ta dùng DPCM trong các chuẩn MPEG-1 và H.261 để mã hoá một tập các hệ số DC đã lượng tử được tạo ra bởi các biến đổi cosine rời rạc Tuy vậy bộ mã hoá này tương đối phức tạp DPCM được sử dụng kết hợp với bộ mã VLC để giảm tốc độ bit
2- Mã chuyển đổi khối bằng biến đổi Cosine rời rạc
Trong các hệ thống nén video, người ta thường sử dụng mã biến đổi khối [35] dựa vào hệ số tương quan bậc cao giữa các pixel ảnh kề cận để tạo ra gói năng
lượng hoặc độ lợi mã trong miền biến đổi Độ lợi mã chuyển đổi khối G TC được xác định bằng:
1 2 0
2 0
110log
N i i
i i
N G
trong đó N là số băng con chứa trong khối ảnh chuyển đổi, i2 là phương sai của
mỗi khối băng con i, 0 ≤ i ≤ N-1
Trang 32Độ lợi mã trong chuyển đổi khối được thực hiện bằng cách gói hầu hết năng lượng tín hiệu gốc vào một số ít các hệ số biến đổi, thích hợp hơn cho lượng tử hoá
Có thể hoàn toàn bỏ qua rất nhiều hệ số biến đổi chứa ít hoặc không chứa năng lượng Biến đổi không gian [29] cũng có thể là trực giao, tức là tạo ra các hệ số không tương quan với mục đích là việc lượng tử vô hướng đơn giản có thể được sử dụng để lượng tử các hệ số một cách độc lập
Biến đổi Karhunen-Loève (KLT) tạo ra các hệ số không tương quan và là giải pháp tối ưu theo gói năng lượng [51] Do tính phức tạp trong tính toán, KLT không được sử dụng rộng rãi trong thực tế Trong nén video số, DCT được sử dụng rộng rãi Nó là một biến đổi trực giao và có hiệu năng tiệm cận tới KLT đối với các nguồn Markov bậc nhất Sau đây ta điểm qua biến đổi Cosine rời rạc
Theo [51], tác giả đã sử dụng các pixel cỡ 8×8 thì biến đổi thuận DCT là:
trong đó i và j là các chỉ số theo chiều ngang và chiều dọc của dãy không gian 8×8
u và v là các chỉ số theo chiều ngang và chiều dọc của dãy các hệ số 8×8 DCT là
phương pháp biến đổi ảnh rất thông dụng và hữu hiệu thông qua cặp biến đổi (1.8)
và (1.9) nhưng hạn chế là việc tính toán vẫn chủ yếu trên giải tích cổ điển, khá phức tạp Để đơn giản hoá, luận án sẽ đưa ra giải pháp lặp dễ sử dụng trên các công cụ máy tính
Trang 33Một lý do nữa mà DCT thường được sử dụng trong nén video là khi tái tạo lại ảnh ở đầu thu phép IDCT dường như không tạo ra bất kỳ sự gián đoạn rõ nét nào
ở các rìa khối; đồng thời các biến đổi rời rạc tạo nên tín hiệu được tái cấu trúc có
chu kỳ Vì hàm Cosine là thực, chẵn và đầu vào F(u,v) là thực nên IDCT tạo ra hàm chẵn và chu kỳ là 2n, với n là độ dài của dãy gốc Trái lại, IDFT tạo ra sản phẩm tái cấu trúc có chu kỳ n mà lại không nhất thiết phải chẵn, rìa khối có đột biến
Hình 1.6 miêu tả phổ của DFT và DCT [4] tái cấu trúc Từ hình 1.6 ta nhận thấy rằng:
- Tính chu kỳ của IDFT ở hình 1.6 (b) có độ dài chu kỳ 5 mẫu, phổ tín hiệu tái cấu trúc bị gián đoạn
- Tính chu kỳ của IDCT ở hình 1.6 (c) có độ dài chu kỳ 10 mẫu, không xuất hiện sự đột biến gián đoạn phổ ở rìa phổ Thuộc tính quan trọng này của DCT làm cho lỗi tái cấu trúc ít hơn so với DFT Tổn thất nhìn được xuất hiện
vì mất các thành phần tần số cao DCT làm giảm đến mức bé nhất hình khối giả so với DFT vì nó không có mức gián đoạn tái cấu trúc tại các rìa của khối
Trang 34Để làm rõ hơn tác dụng của DCT ta lấy kết quả biến đổi DCT của ảnh Lena [4] trên hình 1.7 Ma trận khối ảnh gốc 8×8 của Lena đƣợc biểu thị trên hình 1.8 (a)
Ma trận dàn hệ số biến đổi DCT của ảnh đó đƣợc biểu thị trên hình 1.8 (b)
Hình 1.7 Biến đổi DCT ảnh của Lena: (a) ảnh gốc, (b) ảnh tái cấu trúc
136 141 143 153 152 154 154 156
143 150 153 156 160 156 155 155
149 155 163 163 158 155 156 155
158 161 161 161 160 158 160 157( , )
Trang 35Từ hình 1.8 ta có nhận xét như sau:
- Ma trận ảnh gốc ở hình 1.8 (a) có giá trị lớn ở mọi vị trí trong ma trận, điều này không thích hợp cho thuật toán nén không gian
- Nếu ta thực hiện biến đổi DCT thì hệ số của ma trận chỉ tập trung năng lượng
vào thành phần (u,v)=(0,0) có giá trị rất lớn 1255 và chứa đựng hầu hết năng
lượng tín hiệu Khoảng động và sự tập trung năng lượng này sẽ làm giảm một cách đáng kể các giá trị khác 0 và làm giảm tốc độ bit sau khi các hệ số được lượng tử
3- Lượng tử hoá
Mục đích của tầng lượng tử trong bộ mã video là tạo ra hình ảnh nén đảm bảo chất lượng ảnh phù hợp Lượng tử vô hướng và lượng tử véctơ là hai loại chủ yếu, chúng tiếp tục được phân loại là lượng tử có nhớ hoặc không nhớ; đối xứng hoặc không đối xứng
Bộ lượng tử vô hướng đồng nhất là bộ lượng tử cơ bản nhất Nó xử lý đặc tính vào-ra phi tuyến, chia khoảng vào thành các mức ra bằng nhau Để bộ lượng tử làm giảm tốc độ bit một cách hiệu quả thì số lượng các giá trị đầu ra cần phải nhỏ hơn nhiều so với số lượng các giá trị đầu vào Các giá trị tái cấu trúc được trọn tại điểm giữa của các mức đầu ra nhằm mục đích làm giảm thiểu MSE tái cấu trúc khi sai số lượng tử hoá có phân bố đều Các bộ lượng tử trong các bộ mã video theo chuẩn H.261, H.263, MPEG-1 và MPEG-2 gần như là các bộ lượng tử đồng nhất Chúng có cỡ bước lượng tử cố định, ngoại trừ khu vực “vùng chết” (khoảng đầu vào mà đầu ra là không)
Lượng tử hoá không đồng nhất được sử dụng cho các phân bố đầu vào không đều, ví dụ như các nguồn ảnh tự nhiên Bộ lượng tử mà tạo ra MSE nhỏ nhất đối với phân bố đầu vào không đều thì sẽ có các bước không đều So với bộ lượng tử đồng nhất thì bộ lượng tử không đồng nhất có hiệu năng MSE tốt hơn một cách đáng kể khi số bước lượng tử tăng lên Điều này làm giảm đến mức tối thiểu tổng sai số tuyệt đối trong mỗi bước lượng tử dựa vào phân bố đầu vào
Trang 36Các bộ lượng tử véctơ phân tích đầu vào thành một véctơ có độ dài n Ví dụ một ảnh có thể được phân tích M×N khối, mỗi khối n pixel hoặc khối ảnh có thể
được chuyển đổi thành một khối các hệ số biến đổi Véctơ được tạo ra bằng cách
quét các phần tử của khối hai chiều thành một véctơ có độ dài n Véctơ X được
lượng tử hoá bằng cách chọn một véctơ “sách mã” ˆX phù hợp nhất với nó Việc lựa
chọn phù hợp nhất có thể được thực hiện bằng cách tối thiểu độ đo sai số, tức là chọn ˆXX sao cho MSE trên tất cả các véctơ sách mã là nhỏ nhất: ˆi
Chỉ số i của véctơ ˆX biểu thị đầu vào sách mã mà máy thu sử dụng để giải i
mã véctơ Tốc độ bit thô của bộ lượng tử véctơ là:
trong đó log m là số bit cần thiết để truyền chỉ số i của véctơ sách mã ˆ2 X i
4- Bù và ước lượng chuyển động
Kỹ thuật bù chuyển động [44] được đề xuất từ những năm 1960 và được sử dụng để nâng cao hiệu suất của các bộ nén video Các bộ mã video bù chuyển động được thực hiện theo ba giai đoạn:
- Giai đoạn 1: Ước lượng chuyển động của mục tiêu (ước lượng chuyển động) giữa khung tái cấu trúc trước đó và khung hiện tại
- Giai đoạn 2: Tạo ra dự đoán khung hiện tại (bù chuyển động) bằng cách sử dụng các ước lượng chuyển động và khung tái cấu trúc trước đó
- Giai đoạn 3: Mã hoá vi sai dự đoán và khung thực hiện tại như là sai số dự đoán
Máy thu tái cấu trúc ảnh hiện tại bằng cách sử dụng các ước lượng chuyển động được mã hoá VLC và sai số dự đoán được mã hoá VLC theo không gian
Trang 37Ước lượng và bù chuyển động là các kỹ thuật phổ biến được dùng để mã hoá
về mặt thời gian của tín hiệu video [1], [4], [9], [11], [26] Các kỹ thuật bù chuyển động khối và ước lượng chuyển động được sử dụng trong các hệ thống nén video có khả năng làm giảm rất lớn tốc độ bit của tín hiệu Độ dư giữa các khung chứa trong miền thời gian của dãy ảnh số là lý do cho khả năng nén tín hiệu mà các bộ mã hoá video có thể đạt được [13] Thuật toán này người ta thường dựa vào nền tĩnh và sự chuyển động của các ảnh gần Trong khoảng thời gian ngắn, các dãy ảnh có thể được miêu tả bằng một nền tĩnh có các vật thể chuyển động trong ảnh gần Nếu nền không thay đổi giữa hai khung thì hiệu của chúng bằng 0 và hai khung có thể được
mã hoá thành một Do đó tỷ lệ nén tăng gấp hai lần so với nén không gian trong khung thứ nhất Nhìn chung, các nền không thay đổi hoặc tĩnh có thể cho thêm độ lợi mã hoá
Sự chuyển động của cận cảnh được mô hình hóa bằng các vật thể cứng không quay, chuyển động độc lập với nền Các vật thể chuyển động có thể được phát hiện bằng cách phối hợp vật thể cận cảnh giữa hai khung Phối hợp hoàn hảo đưa ra kết quả sai khác giữa hai khung bằng 0 Về lý thuyết, chuyển động cận cảnh cũng có thể tạo ra độ lợi mã bổ sung Trong thực tế, các vật thể chuyển động tuỳ thuộc vào tính khăng khít, chuyển động quay và mềm dẻo, các biến đổi độ sáng mà làm giảm độ lợi mã hoá có thể đạt được Các hệ thống bù chuyển động sử dụng các phương pháp ước lượng chuyển động làm tăng mạnh cả hai độ lợi mã nền và cận cảnh Chúng tạo ra mã vi sai trong khung thuần tuý khi hai nền là tĩnh, tức là véctơ chuyển động được tính toán bằng (0,0) Ước lượng chuyển động được ước tính trong trường hợp các cận cảnh chuyển động tạo ra dự đoán méo bé nhất
Ước lượng chuyển động là một quá trình dự đoán trong khung, có hai loại phổ biến là các thuật toán hồi quy điểm [8], [22] và các thuật toán phối hợp khối (BMA) [3], [13], [15], [16], [37], [40], [43], [58], [60], [66], [69], [70] Các phương pháp hồi qui điểm rất phức tạp và không chính xác vì vậy ít được sử dụng trong các
bộ mã video Các dãy ảnh số tự nhiên thường biểu lộ chuyển động vật thể không rõ ràng nên gây ảnh hưởng bất lợi đến đặc tính hội tụ của các thuật toán hồi quy điểm
Trang 38Ước lượng chuyển động phối hợp khối hoàn toàn thích hợp cho mã hóa các dãy
ảnh Ước lượng chuyển động phối hợp khối giả thiết rằng chuyển động của vật
được dự đoán là cứng và không quay
Các thuật toán BMA dự đoán chuyển động của một khối các pixel giữa hai
khung trong một dãy ảnh Dự đoán tạo ra độ dịch chuyển pixel hoặc véctơ chuyển
động với kích thước là toàn bộ vùng lân cận tìm kiếm Vùng lân cận tìm kiếm xác
định độ phức tạp của thuật toán Việc tìm kiếm dự đoán tốt nhất kết thúc khi sự phối
hợp khối tốt nhất được xác định trong vùng lân cận tìm kiếm [7] Phối hợp tốt nhất
có thể được chọn theo tiêu chí MSE bé nhất:
2 2
1
m n i j I i j I i m j n N
trong đó k là chỉ số khung, l là độ dịch chuyển theo thời gian trong các khung, N là
số lượng các pixel theo các hướng ngang và dọc của khối ảnh, i và j là các chỉ số
pixel trong khối ảnh, m và n là các chỉ số vùng lân cận tìm kiếm theo các hướng
ngang và dọc Ước lượng véctơ chuyển động phối hợp tốt nhất MV(m=h, n=v) là độ
dịch chuyển pixel giữa khối I k
(i,j) trong khung k và khối phối hợp tốt nhất
I k-l (i+h, j+v) trong khung dịch chuyển k-l Phương pháp Phối hợp tốt nhất được mô
tả trong hình 1.9
Trong trường hợp chuyển động khối là không đồng đều hoặc cảnh thay đổi
thì ước lượng chuyển động trong thực tế có thể làm tăng tốc độ bit trên mã không
gian của khối Trong trường hợp mà ước lượng chuyển động không hiệu quả thì bộ
mã hoá video sẽ không sử dụng ước lượng chuyển động và nó mã hoá khối bằng
cách sử dụng bộ mã hoá không gian
Cỡ không gian tìm kiếm xác định độ phức tạp của thuật toán ước lượng
chuyển động [7] Các phương pháp tìm kiếm đầy đủ tương đối tốn kém và nói
chung không được dùng trong các bộ mã hoá video thời gian thực Để khắc phục
điều đó, các kỹ thuật tìm kiếm nhanh [16], [19], [28], [58] có thể làm giảm một cách
đáng kể độ phức tạp tính toán mà vẫn duy trì khá tốt độ chính xác Các thuật toán
Trang 39này làm giảm quá trình tìm kiếm theo vài bước liên tục bằng cách mỗi hướng tìm kiếm dãy con dựa vào các kết quả của bước hiện tại Các thủ tục được thiết kế để tìm các nghiệm tối ưu cục bộ và không đảm bảo cho sự lựa chọn nghiệm tối ưu tổng thể trong vùng lân cận tìm kiếm Các thuật toán tìm kiếm lôgarít [24] thực hiện theo hướng tối thiểu hóa độ méo cho đến khi tìm được giá trị tối ưu cuối cùng Tìm kiếm lôgarít được dùng trong một vài bộ mã hoá MPEG Tìm kiếm ba bước [54] là một
kỹ thuật rất đơn giản thực hiện dọc theo đường phối hợp tốt nhất trong ba bước mà vùng lân cận tìm kiếm được giảm đi sau mỗi bước kế tiếp
Trang 40ví dụ này vùng tìm kiếm là 8×8) Độ dài các cạnh giảm một nửa sau mỗi bước trong hai bước đầu Mỗi bước có 9 điểm để so sánh bằng cách sử dụng tiêu chí phối hợp Chúng bao gồm 1 điểm trung tâm và 8 điểm bố trí cách đều nhau dọc chu vi của vùng tìm kiếm Vùng tìm kiếm ở bước 1 là chính tâm vùng lân cận tìm kiếm Việc tìm kiếm xuất phát bằng cách đặt vào trung tâm vùng tìm kiếm cho bước tiếp theo trên phối hợp tốt nhất từ bước trước đó Phối hợp tốt nhất tổng thể là độ dịch chuyển pixel được chọn để tối thiểu hoá các tiêu chí phối hợp trong bước 3 Tổng số phép so sánh của thuật toán 3 bước là 25 Như vậy thuật toán này đã làm giảm 87%
độ phức tạp so với phương pháp tìm kiếm đầy đủ đối với vùng lân cận tìm kiếm 14×14
Hình 1.10 Biểu diễn thuật toán tìm kiếm ba bước