Luận văn - Xử lí âm thanh và hình ảnh hoàn chỉnh Nén dữ liệu hình ảnh và video đề cập đến một quá trình mà trong đó lượng dữ liệu sử dụng mà tiêu...
Trang 1Luận văn
Xử lí âm thanh và hình
ảnh hoàn chỉnh
Trang 2MỤC LỤC
DANH MỤC HÌNH VẼ, BẢNG BIỂU 5
CÁC THUẬT NGỮ VIẾT TẮT 7
CHƯƠNG I: GIỚI THIỆU 11
1.1 Nhu cầu cần thiết của việc nén hình ảnh và video: 12
1.2 Tính khả thi của việc nén hình ảnh và video: 13
1.2.1 Dư thừa thống kê: 13
1.2.1.1 Không gian Redundancy 13
1.2.1.2 Thời gian dự phòng 15
1.2.1.3 Mã hóa Dự phòng 19
1.2.2 Dự phòng PSYCHOVISUAL 21
1.2.2.1 Mặt nạ chói 22
1.2.2.2 Kết cấu mặt nạ 25
1.2.2.3 Tần số mặt nạ 27
1.2.2.4 Mặt nạ thời gian 29
1.2.2.5 Mặt nạ màu 29
1.2.2.6 Chắn màu và ứng dụng của nó trong việc nén Video 32
1.2.2.7 Tóm tắt: Độ nhạy vi phân 33
1.3 Đo lường chất lượng hình ảnh 34
1.3.1 Đo lường chất lượng chủ quan 35
1.3.2 Mục tiêu chất lượng đo lường: 37
1.3.2.2 Mục tiêu đo lường chất lượng: 39
Trang 31.4.1 Dữ liệu ngẫu nhiên (ENTROPY) 43
1.4.1.1 Biện pháp thông tin 43
1.4.1.1 Đơn vị đo lường thông tin 43
1.4.1.2 Thông tin trung bình trong mỗi kí hiệu 44
1.4.2 Thuyết mã hóa nguồn Shannon 44
1.4.3 Mã hóa định kênh nhiễu của shannon 45
1.4.4 Định lý mã hóa nguồn của shannon 46
1.4.5 Định lý truyền tải thông tin 47
1.5 TÓM TẮT 47
1.6 Các bài tập 48
CHƯƠNG 11: KHỐI KẾT HỢP 50
11.1 Không chồng chéo, cách đều nhau, kích thước cố định, khối kết hợp nhỏ hình chữ nhật 50
11.2 Tiêu chí kết hợp 52
11.3 Thủ tục tìm kiếm 54
11.3.1 Tìm kiếm đầy đủ 55
11.3.2 Tìm kiếm Logarít 55
11.3.3 Ba bước tìm kiếm đơn giản 57
11.3.4 Hướng tìm kiếm liên hợp 57
11.3.5 Lấy mẫu con trong cửa sổ tương quan 59
11.3.6 Đa phân giải khối kết hợp 59
11.3.7 Ngưỡng phù hợp với nhiều độ phân giải 61
11.4 Kết hợp chính xác 70
11.5 Giới hạn với kỹ thuật kết hợp khối 71
Trang 411.6 Những cải tiến mới 73
11.6.1 Cấu trúc khối kết hợp 73
11.6.2 Khớp khối đa lưới 77
11.6.3 Đoán trước sự thay đổi lĩnh vực chia nhỏ gói dữ liệu 84
11.6.4 Sự thích ứng vùng phủ các khối 88
11.7 Tổng kết 90
11.8 - Bài tập 93
DANH MỤC HÌNH VẼ, BẢNG BIỂU
Trang 5Hình 1.3: Tự tương quan theo chiều ngang đối với một số hình ảnh.(Sau khi Kretzmer,
1952.) 17
Hình 1.4: Phổ công suất điển hình của một tín hiệu phát sóng truyền hình 18
Hình 1.5: (a) khung 21, và (b) khung hình 22 "Hoa hậu Mỹ" 19
Hình 1.6 Mô hình hai đơn vị xếp tầng của hệ thống thị giác của con người (HVS) 21
Hình 1.7: Một đối tượng thống nhất với màu xám mức I 1 với nền tảng là màu xám ở mức I 2 23
Hình 1.8 Cầu Burrard ở Vancouver (a) hình ảnh gốc (lịch sự Shi của Minhuai) (b) Hình ảnh đồng nhất bị hỏng bởi nhiễu phụ trắng Gaussian.25 Hình 1.9 Giáng sinh tại Winorlia (a) Bản gốc (b)-bit lượng tử hóa (c) Cải thiện lượng IGS với bốn bit 26
Hình 1.10: Mức độ nhạy cảm so với tần số không gian (Sửa đổi từ Van Ness và Bouman[1967] và Mullen[1985].) 34
Hình 1.11 Hệ thống xử lý âm thanh hình ảnh 37
Hình 11.1 Khối kết hợp 51
Hình 11.2 Cửa sổ tìm kiếm và cửa sổ tương quan 53
Hình 11.3: (a) 2-D lôgarít tìm kiếm thủ tục tại điểm (j, k+2), (j+2, k+2), (j+2, k+4), và (j+1, k+4) Được tìm thấy để cung cấp cho sự khác nhau tối thiểu trong các bước 1, 2, 3, và 4, tương ứng lôgarít tìm kiếm thủ tục (b) A 2-D lôgarít tìm kiếm thủ tục tại điểm (j, k-2), (j +2, k-2), và (j +2, k-1) được tìm thấy để cung cấp cho sự khác nhau tối thiểu trong các bước 1, 2, 3, và 4, tương ứng 56
Hình 11.4 thủ tục tìm kiếm ba bước Điểm (j +4, k-4), (j +4, k-6), và (j +5,k-7) cung cấp cho tối thiểu sự khác nhau trong các bước 1, 2 và 3, tương ứng 57
Hình 11.5: Hướng tìm kiếm liên hợp 58
Hình 11.6: một ví dụ về lấy mẫu con 2 x 2 trong khối ban đầu và cửa sổ tương quan cho tìm kiếm một cách nhanh chóng 60
Hình 11.7 Gaussian cấu trúc kim tự tháp 61
Trang 6Hình 11.8: Sơ đồ chặn cho phù hợp với ngưỡng ba cấp độ phân giải 64
Bảng 11.1: Các tham số được sử dụng trong những thí nghiệm này 64
Hình 11.10: Khung thứ 20 của chuỗi “Tàu hỏa” 68
Hình 11.11: Khung thứ 20 của chuỗi “Bóng đá” 68
Bảng 11.2: Kết quả thí nghiệm 69
Hình 11.12 Khung 21 tái tạo của "Hoa hậu Mỹ" trình tự bằng cách sử dụngmột cách giải mã H.263 72
Hình 11.13: Kết hợp khối phân cấp 74
Bảng 11.3: Các Kết quả thí nghiệm (II) 74
Bảng 11.4: Các tham số được sử dụng trong khớp khối theo thứ tự 3 mức 76
Hình 11.14: Một phần của bức ảnh với các điểm ảnh được xử lý trong cả 3 mức 77
Hình 11.15: Cấu trúc phân cấp 3 mức khác nhau 78
Hinh 11.16 : Sơ đồ của nhiều khối kết hợp 80
Hình 11.18 : Khung hình thứ 20 của chuỗi “ vườn hoa” 84
Hình 11.20: Khung hình thứ 20 của sự phối hợp chuỗi “bàn đánh bóng bàn” 87
Hình 11.21: Sự chổng chéo của các khối thích ứng 89
CÁC THUẬT NGỮ VIẾT TẮT
Trang 7MSE Maintenance Sub-Entities (Series M) Các thực thể bảo
PSNR Peak Signal to Noise Ratio Tỉ số tín hiệu đỉnh trên
HDTV High-definition television Truyền hình độ nét cao
VLSI Very Large Scale Integration Tích hợp quy mô rất lớn
ATSC Australian Telecommunications
Standardisation Committee
Ủy ban tiêu chuẩn hóa Úc
FCC Federal Communications Commission Hội Đồng Truyền Thông
Liên Bang
DTV Digital Television Truyền hình số
DBS Direct Broadcast Satellite Vệ tinh quảng bá trực tiếp VOD Video on Demand Video theo yêu cầu
CD Call Deflection Đổi hướng cuộc gọi
WWW World Wide Web Internet
IEEE Institute of Electrical and Electronic
Trang 8LLC logical link control Điều khiển liên kết logic
MPEG Motion Picture Experts
Group(ISO/IEC)
Nhóm các chuyên gia về hình ảnh động
DPCM Differential pulse-code modulation Điều chế xung mã vi phân
DM Delta modulation Điều chế delta
DCT Data Calling Tone Âm báo cuộc gọi dữ liệu
JPEG Joint Photographic Experts Group
(ISO)
Nhóm liên hợp các chuyên gia đồ họa
RL Return Loss Suy hao quay trở về
WT Working Text (DSL Forum) Đề mục làm việc (diễn đàn
CIF Common Intermediate Format Dạng trung gian chung
HVS Human visual system Hệ Thống Hình Ảnh Của
Con Người
Trang 9IGS Identify Graphic Subrepertoire (Series
T, X)
Nhận dạng siêu danh mục
đồ họa
RGB Red-green-blue Mô Hình Màu
CRT Cathode Ray Tube Ống tia cathode
NTSC National Television System
và một số nước Châu Phi
CCIR International Radio Consultative
Trang 10CHƯƠNG I: GIỚI THIỆU
Nén dữ liệu hình ảnh và video đề cập đến một quá trình mà trong đó lượng dữliệu sử dụng mà tiêu biểu là hình ảnh và video được nén xuống để đáp ứng yêu cầu vềtốc độ bít (thấp hơn hoặc bằng giá trị tốc độ bít tối đa), trong khi chất lượng của tái tạohình ảnh và video đáp ứng 1 yêu cầu dành cho 1 ứng dụng nào đó và độ phức tạp tínhtoán ở mức phải chăng dành cho 1 ứng dụng Các sơ đồ khối trong hình 1.1 mô tả cácchức năng của nén dữ liệu hình ảnh và video trong truyền dẫn hình ảnh và lưu trữ.Việc nén dữ liệu ảnh và video được tìm thấy được cho là cần thiết dành cho các ứngdụng quan trọng bởi vì 1 lượng lớn dữ liệu sẽ làm phức tạp hóa cho các ứng dụng này
và các ứng dụng khác mà nó rất thường xuyên rất lớn và vượt quá khả năng của phần
Trang 112 khái niệm rất gần nhau nhưng lại khác nhau Mô tả dữ liệu thông tin và có thể đođược số lượng Trong bối cảnh của hình ảnh số và video, dữ liệu thường được đo bằng
số lượng các đơn vị nhị phân (bits) Trông tin được định nghĩa như là kiến thức (sựhiểu biết), các sự kiện và các tin tức theo từ điển tiếng Anh quốc tế Cambridge Trongkhi dữ liệu là sự biểu thị của kiến thức, các sự kiện và các tin tức thì thông tin là kiếnthức, sự kiện và tin tức Tuy nhiên, thông tin cũng có thể đo lường, định lượng
Tỷ lệ bít (tốc độ mã hóa), là 1 tham số quan trọng trong nén hình ảnh và video vàthường được thể hiện theo 1 đơn vị là bits/sec, điều này rất tiện dụng trong truyềnthông hình ảnh Trong thực tế, ví dụ như trong mục 1.1 về việc giả video (1 trườnghợp của truyền hình ảnh) sử dụng tốc độ bít trong thuật ngữ bits/sec hoặc bps Trongứng dụng lưu trữ hình ảnh, tốc độ bít thường được biểu diễn bằng 1 đơn vị là bits/pixel(bpp) Thuật ngữ pixel là 1 từ viết tắt của các phần tử ảnh và đôi khi được gọi là PEL.Trong mã hóa nguồn thông tin, tốc độ bít đôi khi được thể hiện bằng 1 đơn vị làbit/symbol (bit/ký tự) Trong mục 1.4.2, khi thảo luận về định lý mã hóa nguồn khôngnhiễu, chúng ta xem xét tốc độ bít trên phương diện độ dài trung bình của các từ mãtheo đơn vị bit/symbol Yêu cầu về chất lượng của việc tái tạo hình ảnh và video phụthuộc vào từng ứng dụng Trong chẩn đoán y học và 1 số đo lường khoa học, chúng ta
có thể cần việc tái tạo hình ảnh và video để nhân bản hình ảnh và video gốc Nói theocách khác, cơ chế bảo quản thông tin được cho phép Đây là kỹ thuật nén không tổnthất Trong các ứng dụng như ảnh động và ti vi, cho phép có 1 lượng thông tin nhâtđịnh bị mất mát Đây là kỹ thuật nén có tổn thất Từ định nghĩa, người ta có thể thấynén dữ liệu hình ảnh và âm thanh bao gồm 1 số khái niệm cơ bản như thông tin, dữliệu, chất lượng hình ảnh của hình ảnh và video và độ phức tạp tính toán Chương này
đề cập đến 1 số khái niệm cơ bản trong nén hình ảnh và video Đầu tiên, thảo luận về
sự cần thiết cũng như tính khả thi của nén dữ liệu hình ảnh và video Việc thảo luậnxung quanh việc sử dụng 1 số dư thừa tồn tại trong dữ liệu hình ảnh và video, và nhậnthức trực quan về cơ quan thị giác của con người Từ đó chất lượng của việc tái tạohình ảnh và video là 1 trong những mối quan tâm chính, để các biện pháp chủ quancũng như khách quan về chất lượng hình ảnh được giải quyết Từ đó, chúng ta trìnhbày 1 số kết quả lý thuyết thông tin cơ bản để thấy rằng nó đóng vai trò chủ chốt trongnén hình ảnh và video
Trang 12Hình 1.1: Hình ảnh và video nén để truyền hình ảnh và lưu trữ.
1.1 Nhu cầu cần thiết của việc nén hình ảnh và video:
Không cần phải nói, thị giác đóng tầm quan trọng sống còn giúp con ngườinhận thức, nhận biết, và hiểu thế giới xung quanh Với sự tiến bộ to lớn của công nghệtiên tiến, đặc biệt là ở quy mô sự tích hợp mạch cỡ lớn (VLSI), và hơn bao giờ hếtvideo được sử dụng rộng rãi trong cuộc sống hàng ngày Ví dụ như videophony, hộinghị truyền hình, truyền hình độ nét cao (HDTV), và đĩa video kỹ thuật số (DVD)…
Video như là một chuỗi các khung hình video, tuy nhiên, liên quan đến một sốlượng lớn dữ liệu Chúng ta hãy xem xét một ví dụ minh họa Giả sử hiện nay việcchuyển đổi modem mạng điện thoại (PSTN) có thể hoạt động với tốc độ bit tối đa là56.600 bit mỗi giây Giả sử mỗi khung hình video có độ phân giải là 288 và 352 (288dòng và 352 điểm ảnh trên mỗi dòng), đó là so sánh với một hình ảnh truyền hình bìnhthường và được gọi là định dạng trung gian phổ biến (CIF) Ba màu cơ bản RGB (đỏ,xanh lá cây, xanh dương) được đại diện cho 1 pixel với 8 bit, và tỷ số khung hìnhtrong truyền tải là 30 khung hình mỗi giây để cung cấp một đoạn video chuyển độngliên tục Sau đó tỷ số bit yêu cầu là 288 x 352 x 8 x 3 x 30 = 72.990.720 bps Do đó, tỷ
số giữa tỷ số bit yêu cầu và tốc độ bit lớn nhất có thể là khoảng 1289 Nghĩa là chúng
ta phải nén dữ liệu video ít nhất 1289 lần để thực hiện việc truyền tải được mô tả trong
ví dụ này
Với các dịch vụ video ngày càng phức tạp như phim 3D, trò chơi 3D và videochất lượng cao như HDTV, việc nén dữ liệu video là cần thiết Nó trở thành một côngnghệ cho phép thu hẹp khoảng cách giữa số lượng lớn yêu cầu của dữ liệu video vàkhả năng hạn chế của phần cứng
1.2 Tính khả thi của việc nén hình ảnh và video:
Trong phần này chúng ta sẽ thấy rằng việc nén hình ảnh và video không chỉ làmột điều cần thiết cho sự phát triển nhanh chóng của truyền thông hình ảnh kỹ thuật
Trang 13thống kê và dư thừa tâm lí thị giác Bằng cách loại bỏ các dư thừa, chúng ta có thể nénhình ảnh và video.
1.2.1 Dư thừa thống kê:
Dư thừa thống kê có thể được phân loại thành hai loại: dư thừa interpixel và dưthừa mã hóa Dư thừa interpixel nghĩa là điểm ảnh của một khung hình ảnh và cácđiểm ảnh của một nhóm các hình ảnh kế tiếp hoặc khung video không phải là thống kêđộc lập Ngược lại, chúng là tương quan với mức độ khác nhau.(Lưu ý rằng sự khácbiệt và mối quan hệ giữa hình ảnh và chuỗi video được thảo luận trong Chương 10, khichúng ta bắt đầu thảo luận về nén video) Mối tương quan interpixel được gọi là dưthừa interpixel( trong điểm ảnh ) Dư thừa Interpixel có thể được chia thành hai loại,
dư thừa không gian và dư thừa thời gian Bằng cách mã hóa dư thừa, dư thừa thống kêliên quan đến kỹ thuật mã hóa
1.2.1.1 Không gian Redundancy
Không gian dự phòng đại diện cho mối tương quan thống kê giữa các điểm ảnhtrong một khung hình ảnh Do đó nó còn được gọi là intraframe dự phòng Nó cũngđược biết rằng đối với hầu hết đúng mẫu TV tín hiệu tự tương quan bình thường hệ sốcùng một hàng (hoặc một cột) với một sự thay đổi một điểm ảnh là rất gần với giá trịtối đa là 1 Đó là, các giá trị cường độ của các điểm ảnh cùng một hàng (hoặc một cột)
có tự tương quan rất cao (Gần với tự tương tối đa) với những điểm ảnh dọc theo cùngmột hàng (hoặc tương tự cột), nhưng thay đổi bởi một điểm ảnh Điều này không có gìđáng ngạc nhiên bởi vì cường độ giá trị thay đổi liên tục từ điểm ảnh cho điểm ảnhtrong một khung hình ảnh ngoại trừ các khu vực cạnh Điều này được thể hiện tronghình 1.2 Hình 1.2 (a) là một hình ảnh bình thường - một cậu bé và một cô gái trongcông viên, và có độ phân giải 883 x 710 Cường độ hồ sơ dọc theo dòng 318 và 262cột được mô tả trong hình 1.2 (b) và (c), tương ứng Để tham khảo dễ dàng, vị trí củacác 318 dòng và 262 cột hình ảnh được hiển thị trong hình 1.2 (d) Đó là, trục thẳngđứng đại diện cho giá trị cường độ, trong khi trục ngang cho biết vị trí pixel trong hànghoặc cột Hai lô (thể hiện trong hình 1.2 (b) và 1.2 (c)) chỉ ra các giá trị cường độthường xuyên thay đổi dần dần từ một trong những điểm ảnh khác dọc theo hàng một
và cùng một cột Nghiên cứu về các tính chất thống kê của tín hiệu video có thể đượctruy trở lại những năm 1950 Biết Kretzmer thiết kế mà chúng ta phải nghiên cứu vàhiểu dự phòng để loại bỏ sự dư thừa, một số thiết bị thử nghiệm như mộtautocorrelator hình ảnh và một probabiloscope để đo lường một số thống kê số lượngtín hiệu truyền hình và xuất bản tác phẩm xuất sắc của mình (Kretzmer, 1952) Ông
Trang 14thấy rằng tự tương trong cả hai hướng ngang và thẳng đứng trưng bày các hành vitương tự, như thể hiện trong hình 1.3 Tự tương quan chức năng của một số hình ảnhphức tạp khác nhau được đo Nó được tìm thấy rằng các hình ảnh, hình dạng của tựtương quan đường cong dao động từ nhiều tuyến tính để phần nào theo cấp sốnhân.Đối xứng trung tâm đối với các trục thẳng đứng và phân phối hình chuông, tuynhiên, vẫn giống nhau Khi các điểm ảnh thay đổi trở nên nhỏ, nó đã được tìm thấyrằng tự tương quan cao Tự tương quan này "địa phương" có thể cao 0,97-0,99 chomột hoặc hai điểm ảnh thay đổi.Đối với hình ảnh rất chi tiết, nó có thể được từ 0,43đến 0,75 Nó cũng được tìm thấy rằng tự tương quan không có hướng ưa thích Biếnđổi Fourier của tự tương quan, quang phổ điện, được biết đến như một quan trọngchức năng trong nghiên cứu hành vi thống kê Hình 1.4 cho thấy một quang phổ nănglượng điển hình của truyền hình tín hiệu (Fink, 1957; Connor và cộng sự, 1972) Đó làthông báo rằng quang phổ khá bằng phẳng cho đến khi 30 kHz cho một tín hiệu truyềnhình phát sóng Ngoài phổ tần số dòng này bắt đầu giảm với tốc độ khoảng 6 dB chomỗi quãng tám Điều này cho thấy nồng độ nặng của các tín hiệu video tần số thấp,xem xét danh nghĩa của một băng thông 5 MHz Không gian dư thừa hàm ý rằng giátrị cường độ của một điểm ảnh có thể được đoán tối đa láng giềng pixels Nói cáchkhác, nó không phải là cần thiết để đại diện cho mỗi điểm ảnh trong một khung hìnhảnh độc lập Thay vào đó, người ta có thể dự đoán một điểm ảnh từ các nước lánggiềng Đoán trước mã hóa, cũng được biết đến như mã hóa khác biệt, dựa trên quan sátnày và được thảo luận trong Chương 3 Trực tiếp hậu quả của sự công nhận của sự dưthừa không gian là bằng cách loại bỏ một số lượng lớn dự phòng (hoặc sử dụng cácmối tương quan cao) trong một khung hình ảnh, chúng tôi có thể tiết kiệm rất nhiều dữliệu đại diện cho khung, do đó đạt được nén dữ liệu.
1.2.1.2 Thời gian dự phòng
Thời gian dự phòng là có liên quan với mối tương quan thống kê giữa các điểmảnh từ tiếp khung hình trong một hình ảnh thời gian hoặc chuỗi video Vì vậy, nó cũngđược gọi là interframe dự phòng
Hãy xem xét một chuỗi hình ảnh thời gian Đó là, một máy ảnh là cố định trongthế giới 3-D và phải mất hình ảnh của một cảnh như thời gian trôi qua Miễn là khoảngthời gian giữa hai hình ảnh liên tiếp là đủ ngắn, tức là, những hình ảnh được đông đủ,chúng ta có thể tưởng tượng rằng sự giống nhau giữa hai khung hình láng giềng mạnh
mẽ Hình 1.5 (a) và (b) chương trình, tương ứng, 21 và 22 khung hình của "Hoa hậu
Trang 16Hình 1.2 : (a) Một bức ảnh của "Boy và Girl," hồ sơ cá nhân Cường độ (b) cùng hàng
318, (c) Cường độ hồ sơ dọc theo cột 262, (d) Vị trí của dòng 318 và 262 cột.
Trang 17Hình 1.3: Tự tương quan theo chiều ngang đối với một số hình ảnh.(Sau khi Kretzmer,
1952.)
Trình tự 21 và 22 khung hình của "Hoa hậu Mỹ" Các khung hình có độ phân giải176x 144 Trong số tổng cộng 25.344 điểm ảnh, chỉ có 3,4% thay đổi giá trị màuxám của nó hơn 1% giá trị màu xám tối đa (255trong trường hợp này) từ khung 21 đếnkhung 22 Điều này khẳng định một sự quan sát được thực hiện trong (Mounts, 1969) Cho một tín hiệu điện thoại truyền hình giống như với chuyển động trungbình trong cảnh, trung bình, ít hơn 10% các điểm ảnh thay đổi giá trịmàu xám của
nó giữa hai khung hình liên tiếp bởi một số lượng 1% tín hiệu cao điểm Tươngquan interframe cao đã được báo cáo (Kretzmer, năm 1952) Có, tự tươngquan giữa hai khung liền kề được đo trong hai bộ phim hình ảnh chuyển động điểnhình Các mối tương quan tự động đo là 0,80 và 0,86
Tóm lại, điểm ảnh trong khung hình kế tiếp thường phải chịu một sự tươngđồng hoặc tương quan mạnh mẽ Kết quả là, chúng ta có thể dự đoán mộtkhung từ khung lân cận dọc theo chiều thời gian Điều này được gọi là interframe mãhóa dự đoán và được thảo luận trong Chương 3 Do đó, chính xác hơn hiệu quảhơn interframe dự đoán mã hóa đề án, đã được phát triển từ
Trang 18Hình 1.4: Phổ công suất điển hình của một tín hiệu phát sóng truyền hình.
(Phỏng Fink, D.G., Cẩm nang kỹ thuật tivi, McGraw-Hill, New York, 1957.)
Hình 1.5: (a) khung 21, và (b) khung hình 22 "Hoa hậu Mỹ"
năm 1980, sử dụng phân tích chuyển động.Nghĩa là, nó cho rằng những thay đổi từmộtkhung hình tiếp theo chủ yếu là do chuyển động của một số đối tượng trong khunghình Lấy thông tin chuyển động này,vào xem xét, chúng tôi đề cập đến phương
Trang 19pháp như chuyển động bồi thường mã hóa tiên đoán Chèn cả tương quan và chuyểnđộng bù vào mã hóa tiên đoán được đề cập chi tiết trong Chương 10.
Loại bỏ một số lượng lớn của sự dư thừa theo thời gian dẫn đến một lượng lớn
dữ liệu được nén Hiện nay tất cả các tiêu chuẩn video quốc tế mãhóa đã thông qua chuyển bù dự báo mã hóa, mà đã là một yếu tố quan trọng để tăngcường sử dụng video số trong các phương tiện truyền thông kỹ thuật số
1.2.1.3 Mã hóa Dự phòng.
Như chúng ta đã thảo luận, dự phòng interpixel là có liên
quan với mối tương quan giữa các điểm ảnh Đó là, một số thông tin liên kết với cácđiểm ảnh là không cần thiết Psychovisual dự phòng , được thảoluận trong phần tiếp theo, liên quan đến các thông tin đó là psychovisually dựphòng, nghĩa là, mà HVS không phải là độ nhạy Do đó, nó cho thấy rằng cả hai dưthừa interpixel và psychovisual bằng cách nào đó liên kết với một số thông tin chứatrong hình ảnh và video Loại bỏ những dư thừa, hoặc sử dụng những mối tươngquan này bằng cách sử dụng các bit ít hơn để miêu tả cho thông tin kết quả trong hìnhảnh và video nén dữ liệu Nó có nghĩa là, sự thừa mã hóa là khác nhau Nó không có
gì để làm với khả năng dự phòng thông tin, nhưng với các đại diện tức là, thôngtin, mã hóa riêng của mình Để xem điều này, chúng ta hãy xem ví dụ sau đây
Một ví dụ minh họa được cho bởi trong Bảng 1.1.Cột đầu tiên liệt kê các biểutượng riêng biệt mà cần phải được mã hóa Cột thứ hai có xác suất xuất hiện của 5 kýhiệu.Cột thứ ba danh sách mã số 1, một bộ các Từ mã thu được bằng cách sửdụng đồng hình có độ dài từ mã dài (Mã này được gọi là các mã nhị phân ngẫu nhiên.)Cột thứ 4 cho thấy 2 mã, trong đó mỗi từ mã có chiều dài thay đổi.Vì vậy,mã 2 được
Trang 20gọi là mã có độ dài thay đổi Lưu ý rằng các ký hiệu với một xác suất xảy racao hơn được mã hóa với chiều dài ngắn hơn Đó là, chúng tôi sẽ khảo sát mà mộttrong những cung cấp một chiều dài trung bình ngắn hơn từ mã.Rõ ràng là chiềudài trung bình của từ mã trong mã 1 Lavg,1 , Ba bit Chiều dài trung bình của Từ
mã trong mã 2, Lavg, 2 , Có thể được tính toán như sau
Vì vậy, kết quả là mã 2 với mã hóa biến chiều dài là hữu hiệu hơn mã số
1 với mã hóa nhị phân tự nhiên
Từ ví dụ này, chúng ta có thể thấy rằng đối với cùng một bộ các ký hiệu mã
số khác nhau có thể thực hiện khác nhau Một số có thể có hiệu quả hơn hơn nhữngngười khác Đối với cùng một lượng thông tin, mã 1 có chứa số dự phòng Đó là, một
số thông tin trong mã 1 là không cần thiết và có thể được loại bỏ mà không có bất kỳảnh hưởng nào Mã hóa Huffman và mã hóa số học, kỹ thuật mã hóa độ dài thay đổi sẽđược thảo luận trong chương 5
Từ việc nghiên cứu mã hóa dự phòng, nó là rõ ràng rằng chúng ta nên tìm cách
để hiệu quả hơn kỹ thuật mã hóa để nén các dữ liệu hình ảnh và video
1.2.2 Dự phòng PSYCHOVISUAL
Trong khi dự phòng interpixel vốn đã nằm trong dữ liệu ảnh và video, dự phòng
psychovisual xuất phát từ các đặc tính của hệ thống thị giác của con người (HVS) Được biết, HVS cảm nhận thế giới bên ngoài một cách khá phức tạp.Phảnứng của nó để kích thích thị giác không phải là một hàm tuyến tính về cường độcủa một số thuộc tính kích thích của các yếu tố vật lý, chẳng hạn như cường độ và màusắc HVS cảm nhận được sự khác nhau từ các cảm biến máy ảnh Trong HVS, thôngtin thị giác không được biết giống nhau, một số thông tin có thể quantrọng hơn so với các thông tin khác Điều này chỉ ra rằng nếu chúng ta áp dụng dữliệu ít hơn để đại diện cho sự cảm nhận kém quan trọng hơn sẽ không bị ảnh hưởngtới thông tin thị giác Trong ý nghĩa này, chúng ta thấy rằng một số thông tin hìnhảnh là dư thừa psychovisually Việc loại bỏ các loại dự phòng psychovisual là để nén
dữ liệu
Trang 21Để hiểu kiểu loại dự phòng này, chúng ta hãy nghiên cứu một số đặc tính củaHVS Chúng tôi có thể mô hình hóa hệ thống thị giác của con người như một dòngthác của hai đơn vị (Lim, 1990), như mô tả trong hình 1.6
Hình 1.6 Mô hình hai đơn vị xếp tầng của hệ thống thị giác của con người (HVS).
Đầu tiên là đơn vị xử lý mức thấp chuyển đổi ánh sáng tới thành tín hiệu trungtính Thứ hai là một đơn vị xử lý mức cao, mở rộng thông tin từ tín hiệu trung tính.Trong khi nhiều nghiên cứu đã được khám phá ở mức xử lý thấp và mức xử lý cao vẫncòn đang được mở rộng Đơn vị xử lý mức thấp được biết là một hệ thống phi tuyến(khoảng chừng logarit như hình dưới đây) Trong một phần chính của một vấn để tồntại, chúng tôi sẽ hạn chế thảo luận, chủ yếu liên quan đến kết quả nén video Đó là,một khía cạnh của HVS liên quan chặt chẽ đến nén ảnh và video được thảo luận trongmục này Đó là mặt nạ chói, mặt nạ kết cấu, mặt nạ tần số, mặt nạ thời gian và mặt nạmàu sắc Liên quan đến chúng trong việc nén ảnh và video là địa chỉ Cuối cùng, mộtkết luận là nó cung cấp, nhấn mạnh là tất cả các tính năng của chúng có thể thống nhấtnhư một: độ nhạy khác nhau Điều này có vẻ là tính năng quan trọng nhất của nhậnthức thị giác của con người
1.2.2.1 Mặt nạ chói
Mặt nạ chói có liên quan đến việc nhận thức độ chói của HVS Cơ bản nhấtnằm trong 5 khía cạnh được thảo luận ở đây Mặt nạ chói cũng được coi như là sự phụthuộc chói (Connor er al.,1972), và mặt nạ tương phản (Legge and Foley, 1980,Watson, 1987) As pointed in (Legge and Foley, 1980), thuật ngữ mặt nạ thường đượcdùng để chỉ một sự tương tác phá hoại hoặc can thiệp giữa các kích thích được gắn kếttrong thời gian hoặc không gian Điều này có thể đẫn đến thất bại trong việc phát hiệnhoặc những sai sót trong nhìn nhận Ở đây chúng ta chủ yếu quan tâm đến việc pháthiện tác nhân kích thích khi có một tác nhận kích thích khác có mặt đồng thời Hiệuquả của một kích thích trên một phát hiện khác, tuy nhiên, nó không làm giảm đi sự
Trang 22phát hiện Thật vậy, trong một số trường hợp độ tương phản thấp làm tăng sự nhậnnhận biết của tín hiệu Điều này đôi khi là một điều kiện thuận lợi Nhưng trong bàiviết này chúng ta chỉ sử dụng thuật ngữ mặt nạ.
Quan sát hình ảnh đơn sắc trong hình 1.7 Tại đó, một vật thể đồng dạng hìnhđĩa với mức xám( giá trị cường độ) I1 được xác định dựa trên phông nên đồng dạngvới mứa xám I2 Bây giờ câu hỏi được đưa ra là trong trường hợp nào một vật thể hìnhđĩa có thể được phân biệt với phông nền bởi HVS? Chúng ta muốn tìm hiểu tác độngcủa một động lực/ một tác nhân khác (trong trường hợp này là “ mặt nạ” Hai trườnghợp là rõ rang Đó là, nếu sự khác biệt giữa 2 mức xám là khá lớn,HVS không có vấn
đề với sự tách lọc, hoặc một từ khác trong HVS chú ý đến đối tượng từ phông nền Ởmặt khác, hai mức là như nhau, HVS không thể xác định sự tồn tại của đối tượng Điều
mà chúng ta quan tâm đến ở đây là ngưỡng tới hạn trong sự khác nhau giữa các mứcxám cho sự tách lọc diễn ra Nếu chúng ta xác định mức ngưỡng DI là sự chênh lệchDI= I1- I2 thì đối tượng không thể được xác định được trong HVS với 50% kênh.Chúng ta dựa vào mối quan hệ sau đó là độ nhạy tương phản, dựa theo quy tắcWeber’s:
(1.2)
Trang 23Hình 1.7: Một đối tượng thống nhất với màu xám mức I 1 với nền tảng là màu xám ở
mức I 2
Nơi mà có giá trị không đổi bằng 0.02 Định luật trạng thái của Weber cho biết độrộng của cường độ âm thanh I, phân biệt ngưỡng ∆ I, tỷ lệ thuận với I Việc này dẫnđến kết quả ta thu được nền sáng chói, ở mức xám hệ thống thị giác của con người( HSV ) phân biệt các đối tượng dễ dàng hơn.Mặt khác sự chênh lệch về cường độsáng có thể nhỏ hơn, nếu như nền là tối.Chú ý rằng, phương trình 1.2 là phương trìnhLoga của phản ứng của hệ thống thị giác của con người, và các giác quan khác của conngười cũng tuân theo định luật này
Hơn nữa,thực tế nghiên cứu đã chỉ ra rằng ngưỡng ∆ I tăng chậm hơn so với dựđoán từ định luật Weber.Một số chức năng độ nhạy tương phản chính xác hơn đã đượctrình bày trong tài liệu.( Legge and Foley ,1980),cho biết rằng phương trình hàm số
mũ đã được thay thế bới phương trình tuyến tính trong định luật Weber Phương trìnhhàm mũ được biểu diễn như sau (Watson,1987)
Trang 24
Trong đó, I0 là cường độ sáng khi mức xám có giá trị bằng 0,tức là I =0 , và α cógiá trị không đổi, và băng khoảng 0.07
Hình 1.8, biểu diễn sự ảnh hưởng của tạp âm trắng cộng (AWGN).Việc nhận biếtảnh hưởng của tạp âm này trong vùng tối thì dễ dàng hơn quan sát trong vùng sáng.Ví
dụ như,một vùng tối và một vúng sáng của chiếc cầu Điều này cho thấy rằng , việc lọcnhiễu trong vùng tối là cần thiết hơn trong vùng sáng Ở các vùng sáng hơn có thểđược điều tiết nhiễu phù hợp trước khi các nhiễu này có thể nhận biết được Đặc tínhnày được ứng dụng trong phương pháp thủy ấn hay còn gọi là nhúng thủy vân ( Huangand Shi 1998 )
Sự va chạm trực tiếp của mặt nạ cường độ sáng trong nén ảnh và nén video cóliên quan đến lượng tử hóa, nó sẽ được trình bày chi tiết trong chương tiếp theo.Lượng tử hóa là quá trình biến đổi liên tục các mức lượng tử vào một tập hữu hạn cácmực lượng tử riêng biệt Các số của mức lượng tử riêng biệt còn được gọi là cấp độlượng tử hóa Nó là chìa khóa trong thiết kế bộ lượng tử hóa Nó ảnh hưởng đáng kêtđến tốc độ bít và chất lượng nén hình ảnh và video Việc lượng tử hóa hiệu quả giúpgiảm thiểu khả năng hiển thị của lỗi Chức năng độ nhạy tương phản cho phép ta phântích sự hiển thị của lỗi trong quá trình lượng tử hóa.Vì thế, nó được ứng dụng trongthiết kệ bộ lượng tử hóa Mặt nạ cường độ sáng cho ta giản đồ về quá trình lượng tửhóa không đều được xem xét đưa vào chức năng độ nhạy tương phản
Trang 25Hình 1.8 Cầu Burrard ở Vancouver (a) hình ảnh gốc (lịch sự Shi của Minhuai) (b) Hình
ảnh đồng nhất bị hỏng bởi nhiễu phụ trắng Gaussian.
1.2.2.2 Kết cấu mặt nạ
Mặt nạ kết cấu đôi khi còn được gọi là sự phụ thuộc chi tiết (Connor và cáccộng sự, 1972), mặt nạ không gian (Netravali và Presada, 1977; Lim, 1990,) hoặc mặt nạ hoạt tính (Mitchell và các cộng sự, 1997) Nó khẳng định rằng ngưỡng phânbiệt làm tăng với các chi tiết hình ảnh ngày càng tăng Đó là, kết cấu,ngưỡng phân biệt Trong hình 1.8, nếu so sánh chúng ta có thể được quan sát thấyrằng tiếng ồn phụ gia ngẫu nhiên ít rõ ràng hơn trong khu vực kết cấu mạnh
mẽ hơn trong khu vực trơn , Ví dụ, phần tối của đám mây (góc trên bên phải của hìnhảnh) với các khu vực nước (góc dưới bên phải của hình ảnh) Đây là một xác nhận củamặt nạ kết cấu.Trong hình 1.9 (b), số lượng mức lượng tử hóa giảm từ 256, như ở hình1.9 (a), 16 Đó là, chúng tôi sử dụng chỉ có bốn bit thay vì tám bit để đạidiện cho giá trị cường độ cho mỗi điểm ảnh
Trang 26Hình 1.9 Giáng sinh tại Winorlia (a) Bản gốc (b)-bit lượng tử hóa (c) Cải thiện
lượng IGS với bốn bit.
Trang 27So với hình 1.9 (a) Các đường đồng mức không tự nhiên do lượng tử hóa thô cóthể được nhận thấy ở các khu vực tương đối đồng đều Hiện tượng này lần đầu tiênđược ghi nhận trong (Goodall, 1951) và được gọi là đường mức giả (Gonzalez vàWoods, 1992) Bây giờ chúng ta thấy rằng các đường mức giả có thể được giải thíchbằng việc sử dụng kết cấu mặt nạ, kể từ khi mặt nạ kết cấu chỉ ra rằng mắt người nhạycảm hơn với khu vực mịn hơn là khu vực kết cấu, cường độ biểu hiện một biến thểcao Một tác động trực tiếp nén hình ảnh và video rằng số lượng các mức lượng tử hóa,ảnh hưởng đến tốc độ bitđáng kể, nên được điều chỉnh theo sự biến đổi cường độ củacác vùng hình ảnh.
1.2.2.3 Tần số mặt nạ
Kết cấu mặt nạ đôi khi còn được gọi là chi tiết phụ thuộc (Connor và cộng sự,1972), không gian mặt nạ (Netravali và Presada, 1977; Lim, 1990), hoặc mặt nạ hoạtđộng (Mitchell et al,1997.).Nó khẳng định rằng ngưỡng phân biệt đối xử làm tăng vớicác chi tiết hình ảnh ngày càng tăng.Đó là, kết cấu mạnh mẽ hơn, lớnhơn ngưỡng phân biệt
Trong hình 1.8,nó có thể được quan sát thấy rằng lỗi phụ ngẫu nhiên là ít rõràng hơn trong khu vực kết cấu mạnh mẽ hơn trong khu vực trơn tru nếu so sánh, ví
dụ, phần tối của đám mây (góc trên bên phải của hình ảnh) với cácdiện tích mặtnước (góc dưới bên phải của hình ảnh).Đây là một xác nhận của mặt nạ kết cấu.Trong hình 1.9 (b), số lượng mức lượng tử hóa giảm từ 256, như ở hình 1.9 (a), đến
16 Đó là, chúng tôi sử dụng chỉ có bốn bit thay vì tám bit để đại diện cho giátrị cường độ cho mỗi điểm ảnh
Trang 28Hình 1.9: (tiếp)
Lớp tần số có thể được minh họa sử dụng trong hình 1.9 trên Trong hình 1.9c tiếng ồnngẫu nhiên của tần số cao đã được thêm vào ảnh trước khi lượng tử hóa Phương phápnày được gọi là sự lượng tử cải thiện tỷ lệ (IGS) xám (Gonzalez and Woods), 1992.Với mức lượng tử giống như nhau, 16 như trong hình 1.9b, chất lượng hình ảnh củahình 1.9c cải thiện đáng kể so với hình 1.9b: các lỗi phiền nhiễu xung quanh có biếnmất mặc dầu tăng ở gốc có nghĩa là giá trị bình phương của tổng số tiếng ồn ở hình1.9c Điều này thực tế là thấp- lỗi lượng tử tần số được chuyển thành tiếng ồn tần sốcao Và các HVS thì ít nhạy cảm với các nội dung số cao Như vậy chúng ta thấy,như đã chỉ ra ở trong( Connor, 1972), chức năng mắt của con người chúng ta giống vớinhững bộ lọc thông thấp
Do mặt nạ tần số trong miền biến đổi, nói đến, miền biến đổi cosi rời rạc( DTC).Chúng ta có thể thả một vài hệ số tần số cao nào đó với độ lớn nhỏ để đạt được dữ liệu
Trang 29nén mà không ảnh hưởng tới sự nhận biết của HVS Điều này dẫn đến những gì đượcgọi là biến đổi mã hóa Điều mà được thảo luận trong chương 4.
1.2.2.4 Mặt nạ thời gian
Mặt nạ thời gian là một tính năng hình ảnh độc lập của HVS Điều đó khẳngđịnh rằng phải mất một thời gian cho HVS để thích nghi với chính nó trong hoàn cảnhkhi hoàn cảnh có những thay đổi đột ngột Trong quá trình chuyển đổi này HVSkhông nhạy cảm 1 cách chi tiết Mặt nạ này diễn ra cả trước và sau khi có sự thay đổiđột ngột Điều đó được gọi là chuyển tiếp mặt nạ thời gian Nếu điều này sảy ra saukhi hoàn cảnh thay đổi Nếu không, nó được gọi quay trở lại mặt nạ thời gian( Mitchell et al ,1997)
Điều này muốn nói rằng nên dùng mặt nạ thời gian để xem xét khi phân bổ dữ liệutrong mã hóa hình ảnh và video
1.2.2.5 Mặt nạ màu
Việc xử lý ảnh màu số đang ngày càng phổ biến do các ứng dụng rộng rãi củahình ảnh màu trong cuộc sống hiện đại Như đã đề cập ở đầu cuộc thảo luận về dựphòng tính trực quan tâm lý Chúng ta sẽ không bao gồm tất cả các khía cạnh nhậnbiết của HVS, Thay vào đó, Chúng ta chỉ bao gồm những khía cạnh lien quan tới dựphòng trực quan tâm lý, trong việc nén hình ảnh và video, Do vậy thảo luận của chúng
ta ở đây về nhận thức màu sắc là không có nghĩa đầy đủ
Trong vật lý Nó được biết rằng bất kỳ ánh sang nhìn thấy được tương ứng vớimột phân phối quang phổ điện từ Do đó một màu sắc như là một cảm giác của ánhsáng nhìn thấy, là một năng lượng và cường độ tốt như một tập hợp các bước sóng liênkết với các quang phổ điện từ Rõ ràng cường độ là một thuộc tính của ánh sáng nhìnthấy, các thành phần của bước sóng là một thuộc tính độ màu, có hai yếu tố trongthuộc tính “chrominance”: màu sắc và độ bão hòa Màu sắc của hue thì đặc trưng bởibước sóng chiếm ưu thế trong thành phần như là thước đo về độ tinh khiết của màusắc Độ tinh khiết của màu sắc có độ bão hòa là 100% Những vùng ánh sáng trắng có
độ bão hòa là 0
Mô hình RGB – Màu đỏ- xanh lá cây- xanh lam( RGB) Hệ thống mầu cơ bản tốt nhất
được biết đến trong một vài hệ thống màu Đây là do tính năng nhận thức về màu sắccủa loài người Những vùng cảm nhận màu sắc trong HVS bao gồm ba thiết lập khácnhau của tế bào hình nón và mỗi thiết lập thì nhạy cảm với ánh sáng của một trong bamàu cơ bản: đỏ- xanh lá cây và xanh lam Do đó, bất kỳ cảm nhận màu sắc nào của
Trang 30HVS được xem như là sự kết hợp đặc biệt của ba màu cơ bản Nhiều nghiên cứu thì cósẵn, CIE(Commission Internationale de l’Eclairage) sơ đồ kết tủa là một ví dụ nổitiếng Những kết quả này sẽ dễ dàng tìm thấy trong quang học cổ điển và các văn bản
sử lý hình ảnh kỹ thuật số Mẫu RGB được sử dụng chính trong việc hiển thị và ghi lạinhững ảnh màu Trong việc sử lý những tín hiệu màu bao gồm nén video và hình ảnh,tuy nhiên, hệ thống độ chói và tín hiệu màu sắc sẽ hiệu quả hơn,, do đó được sử dụngrộng rãi Điều đó có cái gì để làm với sự nhận biết màu sắc của HVS Nó được biếtrằng HVS thì nhạy cảm màu xanh lá cây hỏn so với màu đỏ, và nhạy cảm ít nhất sovới màu xanh lam Một sự trình bày bằng nhau của màu đỏ, xanh lục, xanh lam dẫn tớiviệc trình bày dữ liệu một cách hiệu quả khi HVS là người xem cuối cùng Việc phân
bổ dữ liệu để những thông tin mà HVS có thể cảm nhận được, mặt khác, có thể làmviệc mã hóa hiệu quả hơn
Độ sáng là thì liên quan tới độ cảm nhận ánh sáng Trong khi đó thành phần màu sắc
của video thì liên quan tới sự cảm nhận màu của màu sắc và độ bão hòa Nói rõ ràng,
Thành phần màu sắc và độ sáng hiển thị đông ý với cảm nhận màu sắc của HVS Tínhnăng này làm cho các mô hình màu độ sáng, độ màu phù hợp hơn cho việc sử lý hìnhảnh màu Một ví dụ tốt nhất được giới thiệu trong (Gonzalez and Woods, 1992) Doviệc phức tạp này, mô hình HIS không được sử dụng trong những hệ thống TV
YUV model- Trong mô hình này, Y đặc trưng cho thành phần độ sáng, và U và V
được hai thành phần độ màu Độ sáng Y có thể được xác định từ mô hình RGB thôngqua mối quan hệ sau
Cần chú ý rằng trọng lượng kết hợp với ba màu cơ bản, R, G, và B, là không giốngnhau Sự khác biệt lớn này phản ánh sự phản ứng khác nhau của HVS với các màu cơbản
Thay vào đó mối lien quan trực tiếp tới “màu sắc và độ bão hòa”, Hai thành phần độmàu khác U và V được định nghĩa như màu khác như sau
Trong cách này, Mô hình YUV có độ tính toán phức tạp thấp hơn Nó được sử dụng
Trang 31chuẩn TV màu phức hợp tương tự và được sử dụng ở hầu hết các nước châu âu, và một
số nước châu Á và Úc Bởi hệ thống phức hợp, có nghĩa là cả độ sáng và độ màu lienkết trong tín hiệu TV được ghép trong cùng một kênh Theo tính chất đầy đủ, một cáchbiểu đạt của YUV trong điều khoản của RGB được liệt kê dưới đây
Mô Hình YIQ- Không gian màu này được tận dụng trong NTSC (National Television
Systems Committee) hệ thống TV được sử dụng nhiều năm Chú ý rằng NTSC là tiêuchuẩn TV màu theo tín hiệu tương tự và được sử dụng ở Bắc Mỹ và nhật bản Thànhphần Y vẫn có độ sáng Hai thành phần độ màu là biến đổi tuyến tính của thành phần
U và V đã định nghĩa trong mô hình YUV.Một cách cụ thể,
Việc thay thế U và V được cụ thể trong phương trình 1.4 và 1.5 sang 2 phương trìnhtrên, chúng ta có thể YIQ trực tiếp trong điều khoản của RGB Đó là
Có nghĩa là:
Trang 32Mô hình YCbCr- Theo như trên ta có thể thấy thành phần mầu U và V có sự khác biệtgiữa màu hiệu chỉnh gama B và độ sáng chói Y, và hiệu chỉnh gama R và độ chói Ymột cách tương ứng Cặp thành phần màu I và Q cùng với Db và Dr đều là biến đổituyến tính của U và V Do đó, chúng liên hệ mật thiết với nhau Cần chú ý rằng U và
V có thể mang giá trị âm Để tạo ra các thành phần màu không âm thì Y, U và V được
đo lường và hoán đổi để cho ra mô hình YCbCr vốn dĩ được dùng nhiều trong tiêuchuẩn mã hóa quốc tế JPEG và MPEG (Hai tiêu chuẩn này được trình bày tương ứngtrong chương 7 và chương 16)
1.2.2.6 Chắn màu và ứng dụng của nó trong việc nén Video
Ta biết rằng HVS nhạy cảm với thành phần độ sáng hơn là với thành phần sắc độ.Theo sau Van Ness và Bouman (1967) cùng với Mullen (1985), có 1 biểu đồ trongMitchell et al (1997) dùng để minh họa về định lượng phần trình bày nêu trên Một môhình ngắn gọn được nêu ra trong Hình 1.10 Tại đó, hoành độ biểu thị tần số khônggian trong mỗi đơn vị chu trình trên độ (cpd), và tung độ là ngưỡng đối lập đối vớinhững thay đổi có thể nhận ra trong tín hiệu thử hình sin Hai quan sát được tiến hànhtheo trình tự Thứ nhất, đối với mỗi một đường trong 3 đường cong, ví dụ, đối vớinhững đường thành phần độ sáng Y và thành phần màu đối sáng, nói chung độ nhạytương phản tăng lên khi tần số không gian tăng lên Điều này hoàn toàn đúng với tần
số chắn được nêu ở trên Thứ hai, đối với cùng một ngưỡng đối lập, ta có thể thấy rằngthành phần độ chói sáng phù hợp với tần số không gian cao hơn Điều này cho thấyHVS nhạy cảm với độ chói sáng hơn là với sắc độ Kết luận này có thể dễ dàng đượcchứng thực bằng cách kiểm tra các tần số không gian này mà tại đó cả 3 đường đều cósẵn dữ kiện Sau đó, chúng ta có thể thấy rằng ngưỡng đối lập của độ chói sáng thấphơn nhiều so với những thành phần sắc độ này
Ảnh hưởng trực tiếp của màn che màu lên ảnh và mã hóa video chính là bằng việc
sử dụng tính năng tâm lý thị giác chúng ta có thể phân bổ nhiều bit đến thành phầnchói sáng hơn là đến thành phần sắc độ Điều này dẫn đến 1 thực tế phổ biến trong ảnh
Trang 33khi đó sử dụng 1 mẫu con tỷ lệ 2:1 đối với cả chiều ngang lẫn chiều dọc cho 2 thànhphần sắc độ này Điều này đã được chấp nhận trong tiêu chuẩn mã hóa thông dụngđược đề cập đến trong chương 16.
1.2.2.7 Tóm tắt: Độ nhạy vi phân
Trong mục nhỏ này chúng ta bàn về lớp che độ chói, lớp che kết cấu, lớp che tần số,lớp che thời gian, và lớp che màu sắc Trước khi đi vào phần tiếp theo, chúng ta hãytóm tắt lại những gì đã nói đến từ trước cho đến giờ
Chúng ta thấy rằng lớp che độ chói, còn được gọi là lớp che tương phản có tầmquan trọng trong một số loại lớp che Nó chỉ ra rằng sự nhạy cảm của mắt để kích thíchphụ thuộc vào cường độ của kích thích khác Như vậy đó là sự nhạy cảm khác nhau
Cả hai cấu tạo (chi tiết hoặc hoạt động) và tần số của kích thích khác ảnh hưởng đáng
kể đến sự nhạy cảm này Cùng một chi tiết tồn tại trong cảm nhận màu sắc, nơi màHVS nhạy cảm hơn với độ sáng hơn các thành phần màu Vì vậy chúng ta kết luậnrằng sự khác biệt giữa độ nhạy khác nhau là chìa khóa trong hoạt động nhận thưc củacon người Những chức năng này có thể được sử dụng để loại bỏ sự dư thừa và do đó
có thể nén dữ liệu hình ảnh và video Nó được chú ý biến lượng tử phụ thuộc vào độsáng ở các vùng khác nhau, có vẻ là hợp lý từ một điểm nén dữ liệu Áp dụng vào thực
tế, tuy nhiên làm cách nào đó để trả lời câu hỏi Đó là, một số thử nghiệm không hỗ trợmong đợi (Mitchell et al., 1997)
Nó được lưu ý rằng đối với độ nhạy khác nhau của HVS là phổ biến để con ngườinhận thức Chứng minh, đó cũng là sự tiến bộ và lạc hậu lớp che thời gian trong nhậnthức âm thanh của con người
Trang 34Hình 1.10: Mức độ nhạy cảm so với tần số không gian (Sửa đổi từ Van Ness và
Bouman[1967] và Mullen[1985].)
1.3 Đo lường chất lượng hình ảnh
Như định nghĩa của nén hình ảnh và video chỉ ra, chất lượng hình ảnh và video là
chỉ tiêu quan trọng trong xử lý nén hình ảnh và video.Ví dụ, trong việc đánh giá haiphương pháp nén khác nhau chúng ta phải đánh giá căn cứ vào chất lượng một số hìnhảnh rõ ràng và video Khi cả hai phương pháp đạt được cùng một chất lượng trong táitạo hình ảnh và video, khi đó một yêu cầu ít dữ liệu được xem là tốt hơn so vớiphương pháp còn lại Ngoài ra, với cùng một lượng dữ liệu thì phương pháp cung cấpmột hình ảnh hoặc video tái tạo có chất lượng cao hơn sẽ được đánh giá là phương
Trang 35pháp tốt hơn Lưu ý rằng ở đây chúng ta đã không xem xét các tiêu chí hiệu năng khác,chẳng hạn như độ phức tạp tính toán.
Tuy nhiên, thật đáng ngạc nhiên, nó lại chỉ ra rằng việc đo lường chất lượng hìnhảnh và video không phải là đơn giản Có 2 phương pháp đánh giá chất lượng hình ảnh.Một là đánh giá khách quan (bằng cách sử dụng các phép đo điện tử) và hai là đánh giáchủ quan (sử dụng các quan sát của con người) Mỗi phương pháp có những ưu vànhược điểm của nó Một sự kết hợp của hai phương pháp trên được sử dụng rộngrãi trong thực tiễn Trong phần này trước hết chúng ta thảo luận về đo lường chấtlượng hình ảnh chủ quan, tiếp theo là mục tiêu đo lường chất lượng
1.3.1 Đo lường chất lượng chủ quan
Điều tự nhiên là chất lượng hình ảnh của tái tạo khung hình video cần phảiđược đánh giá bởi người xem nếu họ là người nhận của dữ liệu cuối cùng (xem Hình1.1) Vì vậy, đo lường chất lượng hình ảnh chủ quan đóng một vai trò quan trọng trongtruyền thông hình ảnh
Trong đo lường chất lượng hình ảnh chủ quan, một tập hợp các khung hìnhvideo được tạo ra với sự thay đổi các thông số mã hóa Các quan sát viên được mời để đánh giá chủ quan chất lượng hình ảnh của những khung hình.Cụ thể, các quan sátviên được yêu cầu xếp hạng những hình ảnh dựa theo chất lượng đo kiểm của bức ảnh.Ngoài ra, các nhà quan sát được đề nghị chỉ ra 1 số lỗi suy giảm của hình ảnh Một hệthống đánh giá xếp hạng dựa trên 5 thang đo về mức độ suy giảm ,được sử dụngbởi Phòng thí nghiệm Bell, được liệt kê dưới đây (Sakrison, 1979) Nó đã được ápdụng như một tiêu chuẩn trong CCIR khuyến nghị 500-3 (CCIR, 1986) Khuyến nghị)
1 Suy giảm là không đáng kể
2 Suy giảm vừa phải
3 Suy giảm thực sự đáng kể,nhưng chấp nhận được
4 Suy giảm không chấp nhận được
5 Suy giảm rất không chấp nhận được
Về đánh giá chủ quan, có một vài điều đáng nói đến Trong hầu hết các ứngdụng có một mảng hình ảnh khả dụng đồng thời để đánh giá Những hình ảnh được tạo
ra với các thông số mã hóa khác nhau Bằng cách giữ một số thông số cố định trongkhi làm việc với một tham số (hoặc một tập hợp các thông số) đang rỗi để thay đổi,
Trang 36đánh giá chất lượng kết quả có thể được sử dụng để nghiên cứu ảnh hưởng của một sốthông số số (hoặc tập hợp các thông số) đối với mã hoá.Một ví dụ về việc sử dụngphương pháp này là để nghiên cứu ảnh hưởng của việc thay đổi số các mức lượng tửhóa về chất lượng hình ảnh có thể được tìm thấy trong (Gonzalez và Woods, 1992).
Một cách khác có thể nghiên cứu tác động là xác định hình ảnh với cùng một đolường chất lượng chủ quan từ các mảng hình ảnh Từ tập hình ảnh thử nghiệm này,chúng ta có thể sản xuất, mã hóa vùng tham số, mức ưu tiên có thể được sử dụng đểnghiên cứu tác động của tham số (s) đang được khảo sát Một ví dụ về việc sử dụngphương pháp này để nghiên cứu tác động của thay đổi độ phân giải hình ảnh và sốlượng mức lượng tử hóa trong chất lượng hình ảnh có thể được tìm thấy trong (Huang,1965)
Trong đánh giá này, một mảng các hình ảnh thường được chia thành các cột,mỗi cột chia sẻ một số điều kiện phổ biến Đánh giá bắt đầu trong mỗi cột với một sosánh cặp Điều này là bởi vì một so sánh cặp là tương đối dễ dàng cho đôi mắt Kếtquả là, hình ảnh trong một cột được sắp xếp theo thứ tự theo chất lượng hình ảnh vàchất lượng hoặc các biện pháp suy giảm này sau đó được gán cho những hình ảnhtrong một cột Sau khi mỗi cột đã được đánh giá, một sự thống nhất giữa các cột là cầnthiết Đó là, các cột khác nhau cần phải có một đại lượng đo lường chất lượng thốngnhất Như đã chỉ ra trong (Sakrison, 1979), nhiệm vụ này là không dễ dàng vì nó cónghĩa là chúng ta có thể cần phải đánh đồng kết quả suy giảm này từ các loại lỗi khácnhau
Một điều có thể được rút ra từ các cuộc thảo luận ở trên: đánh giá chủ quan chấtlượng hình ảnh là tốn kém.Nó cần một số lượng lớn các hình ảnh và quan trắc viên.Việc đánh giá mất một thời gian dài bởi vì mắt người có thể dễ dàng mệt mỏi Một sốbiện pháp đặc biệt phải được thực hiện để đi đến đo lường chất lượng chủ quan chínhxác
Trang 37Hình 1.11 Hệ thống xử lý âm thanh hình ảnh
Để biết thêm chi tiết về đo lường chất lượng của hình ảnh một cách khách quan,độc giả có thể tham khảo Sakrison (1979), Hidaka và Ozawa (1990) hoặc Webster et
al, 1993
1.3.2 Mục tiêu chất lượng đo lường:
Trong mục tiêu này, lần đầu tiên chúng tôi giới thiệu tỷ số tín hiệu trên nhiễu(SNR) Tiếp theo chúng tôi sẽ trình bày mục tiêu chất lượng mới đầy hứa hẹn là chấtlượng hình ảnh kỹ thuật đánh giá dựa trên nhận thức bằng thị giác của con người
1.3.2.1 Tỷ số tín hiệu trên nhiễu:
Theo dõi hình 1.11, f(x,y) là hình ảnh đầu vào cho hệ thống xử lý, hệ thống cóthể là một bộ lọc thông thấp, một bộ lấy mẫu, hoặc một hệ thống nén Nó thậm chí cóthể đại diện cho một quá trình trong đó sử dụng định lý Gauss g (x,y) là đầu ra, trongđánh giá chất lượng của g(x,y) chúng tôi xác định lỗi e(x,y) là sự chênh lệch giữa đầu
Trang 38
Nó đôi khi được biểu thị bằng RMSE Như đã nói ở trên, SNR được sử dụngrộng rãi trong đo lường chất lượng khách quan Tùy thuộc vào lỗi vuông được sửdụng, SNR có thể được gọi là hình vuông có nghĩa là sighlto Tỷ lệ tiếng ồn SNRms,hoặc nghĩa gốc là tín hiệu xung vuông Ta có:
(1.20)
Giá trị các SNR lớn hơn SNR ( , , hoặc PSNR) và chất lượng xử lýhình ảnh tốt hơn, g (x,y); nghĩa là, gần hơn với xử lý hình ảnh g (x, y) là hình ảnh ban
Trang 39giác một cách đơn giản Đơn vị xử lý cấp thấp của nó được biết đến là hiện tượng phituyến Một số hiện tượng che chắn tồn tại Lưu ý rằng sự hiểu biết của chúng ta về cácđơn vị xử lý cấp cao của các HVS là hoàn toàn đầy đủ Vì vậy, có thể hiểu rằng SNRkhông phải luôn luôn cung cấp cho chúng tôi những đánh giá đáng tin cậy của chấtlượng hình ảnh Một ví dụ được trình bày trong mục 1.2.2.3, trong đó sử dụng các kỹthuật lượng tử hóa IGS để đạt được nén chất lượng cao (sử dụng chỉ có bốn bit cholượng tử hóa thay vì tám bit thông thường) mà không cần thêm vào đường ngưỡng visai Trong trường hợp này, chất lượng được cải thiện, và SNR giảm do bổ sung tiếng
ồn ngẫu nhiên tần số cao Một ví dụ khác, được rút ra từ cuộc thảo luận của chúng tôi
về các hiện tượng che chắn một số tiếng ồn cộng tính trong vùng sáng hoặc ở các vùngkết cấu cao bị chắn, trong khi một số ở các vùng tối và vùng đều có thể khá khó để bật
ra Trong trường hợp này, SNR có thể không phản ánh chất lượng hình ảnh một cáchtrung thực
Một mặt, chúng ta thấy rằng mục tiêu đo lường chất lượng không phải luôn luôncung cấp đánh giá chất lượng hình ảnh đáng tin cậy Tuy nhiên, mặt khác, việc thựchiện của nó là nhanh hơn nhiều và dễ dàng hơn đo lường chất lượng chủ quan Hơnnữa, mục tiêu đánh giá là có thể lặp lại Do những ưu điểm trên, đánh giá chất lượngkhách quan vẫn được sử dụng rộng rãi mặc dù chúng có nhiều nhược điểm
1.3.2.2 Mục tiêu đo lường chất lượng:
Giới thiệu ở đây là một phát triển mới trong đánh giá chất lượng hình ảnh,và làmột đo lường chất lượng khách quan dựa trên nhận thức thị giác của con người(Webster et al, 1993) Kể từ khi nó được đánh giá khách quan, nó được lặp lại, thựchiện nhanh chóng và dễ dàng
Thị giác đánh giá chất lượng tốt nhất được thực hiện thông qua các phươngpháp tiếp cận chủ quan vì trong trường hợp này HVS là người xem cuối cùng Việcthực hiện đánh giá là chủ quan, tuy nhiên, tốn thời gian, tốn kém, và thiếu lặp lại Mặtkhác, mặc dù không phải luôn luôn chính xác, đánh giá khách quan là nhanh chóng, dễdàng, và lặp lại Mục tiêu ở đây là để phát triển một hệ thống chất lượng đo lườngkhách quan như vậy Để đạt được mục tiêu này, hệ thống được dựa trên đánh giá chủquan Đó là, nó sử dụng đánh giá đạt được thông qua đánh giá chủ quan như là mộttiêu chí để tìm kiếm cho các phép đo khách quan mới để có đánh giá khách quan gầngiống với một trong những chủ quan nào nhất có thể
Nguồn gốc - Phương pháp đánh giá chất lượng của hệ thống khách quan đượcthể hiện trong Hình 1.12 Thử nghiệm Video đầu vào đi qua một khối suy giảm Khối
Trang 40suy giảm, hoặc máy phát điện suy giảm, bao gồm các mã nén video khác nhau (cặpmã-giải mã) với tỷ lệ bit khác nhau, và hoạt động vận hành video từ 56 kb / giây đến
45 Mb / giây
Dưới hình thức một cặp video thử nghiệm, các video đầu vào và video đầu vàosuy giảm, được gửi đến một khối đánh giá chủ quan cũng như các khối lựa chọn mộttính năng thống kê
Việc đánh giá chủ quan chất lượng hình ảnh thông thường như đã giới thiệu trongphần mục trước được thực hiện trong khối đánh giá chủ quan, trong đó bao gồm mộtbảng điều khiển lớn của các nhà quan sát, ví dụ như, 48 cộng sự quan sát ở Webster (1993) Trong khối lựa chọn tính năng thống kê, một loạt các hoạt động thống kê đượctiến hành và thống kê tính năng khác nhau được lựa chọn Ví dụ bao gồm lọc Sobel,nhà điều hành Laplacian, lệnh differencing đầu tiên, tính toán mômen, biến đổiFourier, v.v đo lường thống kê sau đó được lựa chọn dựa trên các hoạt động thống kê
và các tính năng Đánh giá khách quan được hình thành như sau: