1. Trang chủ
  2. » Luận Văn - Báo Cáo

phân tích phương pháp biến đổi cosin rời rạc để nén ảnh trong truyền hình kỹ thuật số

61 3,3K 6
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân tích phương pháp biến đổi cosin rời rạc để nén ảnh trong truyền hình kỹ thuật số
Tác giả Nguyễn Văn Chiến
Người hướng dẫn TS. Lê Quốc Vượng
Trường học Trường Đại Học Kỹ Thuật - Công Nghệ, [Link website trường](http://www.duong.edu.vn) (ví dụ)
Chuyên ngành Truyền hình kỹ thuật số
Thể loại Đề tài nghiên cứu
Năm xuất bản 2023
Thành phố Hà Nội
Định dạng
Số trang 61
Dung lượng 3,52 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Tất cả đều với một mục đích chung làlàm thế nào để biểu diễn một ảnh với ít bit nhất để có thể tối thiểu hoá dung lượngkênh truyền và không gian lưu trữ trong khi vẫn giữ được tính trung

Trang 1

LỜI MỞ ĐẦU

Truyền hình nói chung đã và đang đáp ứng được rất nhiều nhu cầu thiết yếucủa con người như : giải trí, giáo dục, văn hóa, chính trị, nghệ thuật…Cùng với sựphát triển khoa học kĩ thuật, truyền hình đã liên tục được cải tiến từ những hệ thồngtruyền hình sơ khai,truyền hình đen trắng, truyền hình màu và truyền hình số ra đời

đã có một sự phát triển nhảy vọt về chất bằng việc số hoá tín hiệu truyền hình Côngnghệ truyền hình số ra đời có nhiều ưu điểm hơn hẳn so với truyền hình tương tựnhư: tính chống nhiễu cao, chất lượng âm thanh, hình ảnh tốt và đồng đều, dàndựng được nhiều kỹ xảo phức tạp mà truyền hình tương tự không thể thực hiệnđược Nhất là trong các yêu cầu về truyền dẫn, phát, lưu trữ dữ liệu, tín hiệu truyềnhình từ ảnh đen trắng, ảnh đen trắng lồng tiếng, ảnh mầu có lồng tiếng và việcquảng bá đòi hỏi phải ghép các tín hiệu thành phần thành tín hiệu của một kênh duynhất Sau đó, nhu cầu về các dịch vụ truyền hình đa chức năng (multimedia) vàtương tác hai chiều giữa trung tâm phát hình và người sử dụng đòi hỏi độ rộng kênhtruyền phải lớn mà dải thông của các kênh thông tin hạn chế Do vậy để đáp ứngnhu cầu về truyền dẫn và lưu giữ thông tin ngày càng tăng trưởng mạnh mẽ theohàm mũ, bên cạnh việc nghiên cứu và áp dụng các công nghệ thông tin mới thì việc

áp dụng các kỹ thuật nén dữ liệu cũng đóng vai trò quyết định

Trong những năm gần đây, có rất nhiều các phương pháp đã và đang đượcnghiên cứu rộng rãi để thực hiện nén ảnh Tất cả đều với một mục đích chung làlàm thế nào để biểu diễn một ảnh với ít bit nhất để có thể tối thiểu hoá dung lượngkênh truyền và không gian lưu trữ trong khi vẫn giữ được tính trung thực của ảnh.Điều này tương đương với việc biểu diễn ảnh có độ tin cậy cao nhất với tốc độ bitnhỏ nhất.Để hiểu sâu hơn về lĩnh vực nén dữ liệu đặc biệt là nén ảnh số, em đã chọn

đề tài:"PHÂN TÍCH PHƯƠNG PHÁP BIẾN ĐỔI COSIN RỜI RẠC ĐỂ NÉN ẢNH TRONG TRUYỀN HÌNH KỸ THUẬT SỐ" làm đề tài bảo vệ tốt nghiệp.

Nội dung đề tài gồm 3 chương là:

+Chương I: Tổng quan về truyền hình kỹ thuật số và vấn đề nén ảnh số.+Chương II: Quá trình nén ảnh số dựa trên phép biến đổi cosin rời rạc

Trang 2

+Chương III: Mô phỏng biến đổi cosine rời rạc hai chiều (DCT2-D) trongquá trình nén ảnh số.

Trong quá trình làm đồ án em đã hết sức cố gắng tìm hiểu cùng với sự hướngdẫn tận tình của TS Lê Quốc Vượng em đã hoàn thành đề tài kịp thời gian quyđịnh Tuy nhiên do thời gian có hạn, sự hiểu biết còn hạn chế, đồ án của em mới chỉdừng lại ở những khái quát cơ bản và chắc chắn không tránh khỏi những sai sót.Kính mong nhận được sự chỉ bảo, góp ý chân thành của các thầy, các cô

Em xin chân thành cảm ơn!

Sinh viên

Nguyễn Văn Chiến

Trang 3

CHƯƠNG I TỔNG QUAN VỀ TRUYỀN HÌNH SỐ

VÀ VẤN ĐỀ NÉN ẢNH SỐ 1.1 Tổng quan về truyền hình số

1.1.1 Hệ thống truyền hình số

Truyền hình số là tên gọi một hệ thống truyền hình mới mà tất cả các thiết bị

kỹ thuật từ Studio cho đến máy thu đều làm việc theo nguyên lý kỹ thuật số Trong

đó, một hình ảnh quang học do camera thu được qua hệ thống ống kính, thay vìđược biến đổi thành tín hiệu điện biến thiên sẽ được biến đổi thành một dãy tín hiệunhị phân (dãy các số 0 và 1) nhờ quá trình biến đổi tương tự số (Analog - Digital).Quá trình số hoá tín hiệu phải trải qua 3 công đoạn: lấy mẫu, lượng tử hoá, số hoá.Tín hiệu video theo chuẩn OIRT có tần số nhỏ hơn hoặc bằng 6 MHz, để đảm bảotần số lấy mẫu phải lớn hơn hoặc bằng 12 MHz, với số hoá 8 bit/s để truyền tải đầy

đủ thông tin 1 tín hiệu video thành phần với độ phân giải tiêu chuẩn thì tốc độ bitphải lớn hơn 200 bit/s Với truyền hình độ phân giải cao (HDTV) tốc độ bit phải lớnhơn 1 Gbit/s Dung lượng này quá lớn các kênh truyền hình thông thường không cókhả năng truyền tải

Nguyên lý cấu tạo của hệ thống và các thiết bị truyền hình kỹ thuật số đượcđưa ra như sau:

Hình 1.1 Sơ đồ cấu trúc tổng quát của hệ thống truyền hình kỹ thuật số

Đầu vào của thiết bị truyền hình số sẽ tiếp nhận tín hiệu truyền hình tương tự.Trong thiết bị mã hoá (biến đổi A/D), tín hiệu hình sẽ được biến đổi thành thiết bịtruyền hình số, các tham số và đặc trưng của tín hiệu này được xác định từ hệ thống

Biến đổi A/D

Biến đổi D/A

Mã hóa nguồn

Giải mã hóa nguồn

Mã hoá kênh

Giải mã hoá kênh

Điều chế

Giải điều chế

Kênh thông tin Thiết bị phát

Trang 4

truyền hình được lựa chọn Tín hiệu truyền hình số được đưa tới thiết bị phát Sau

đó tín hiệu truyền hình số được đưa tới bên thu qua kênh thông tin Tại bên thu tínhiệu truyền hình số được biến đổi ngược lại với quá trình xử lý tại phía phát Bộgiải mã tín hiệu truyền hình thực hiện biến đổi tín hiệu truyền hình số thành tín hiệutruyền hình tương tự Hệ thống truyền hình số sẽ trực tiếp xác định cấu trúc mã hoá

và giải mã tín hiệu truyền hình

Khi truyền qua kênh thông tin, tín hiệu truyền hình số được mã hoá kênh Mãhoá kênh đảm bảo chống các sai sót cho tín hiệu trong kênh thông tin Thiết bị mãhoá kênh phối hợp đặc tính của tín hiệu số với kênh thông tin Khi tín hiệu truyềnhình số được truyền đi theo kênh thông tin, các thiết bị biến đổi trên được gọi là bộđiều chế và giải điều chế

Tại bên thu, tín hiệu truyền hình số được biến đổi ngược lại với quá trình xử

lý tại phía phát Giải mã tín hiệu truyền hình thực hiện biến đổi tín hiệu truyền hình

số thành tín hiệu truyền hình tương tự Hệ thống truyền hình số sẽ trực tiếp xác địnhcấu trúc mã hóa và giải mã tín hiệu truyền hình

1.1.2 Đặc điểm của hệ thống truyền hình kỹ thuật số

Thiết bị truyền hình số dùng trong chương trình truyền hình là thiết bị nhiềukênh Ngoài tín hiệu truyền hình, còn có các thông tin kèm theo là các kênh âmthanh và các thông tin phụ như các tín hiệu điện báo, thời gian chuẩn, tần số kiểmtra, hình ảnh tĩnh…Tất cả các tín hiệu này được ghép vào các khoảng trống củađường truyền nhờ bộ ghép kênh

Truyền tín hiệu truyền hình số được thực hiện khi có sự tương quan giữa cáckênh tín hiệu, thông tin đồng bộ sẽ được truyền đi để đồng bộ các tín hiệu đó Đểkiểm tra tình trạng của thiết bị truyền hình số sử dụng các thiết bị đo kiểm tra nhưđối với truyền hình tương tự, thông qua đo kiểm tra tín hiệu chuẩn

a Yêu cầu về băng tần

Tín hiệu số yêu cầu về băng tần rộng hơn rất nhiều so với tín hiệu tương tự Ví

dụ đối với tín hiệu tổng hợp yêu cầu tần số lấy mẫu phải bằng 4fsc như đối với hệNTSC là 14,4 MHz Nếu thực hiện mã hoá 8 bit/mẫu, tốc độ dòng bít sẽ là 115,2Mbit/s, độ rộng băng tần khoảng 58 MHz Trong khi đó tín hiệu tương tự cần 1băng tần 4,2 MHz Biện pháp khắc phục sẽ là nén tín hiệu

b Tỷ lệ tín hiệu trên tạp âm (S/N)

Nhiễu tạp âm trong hệ thống tương tự có tính chất cộng các nguồn nhiễu thành

phần gây ra, vì vậy luôn nhỏ hơn tỷ lệ S/N của khâu có tỷ lệ thấp nhất

Trang 5

Đối với tín hiệu số nhiễu là các bít lỗi được khắc phục bằng mạch sửa lỗi Khi

có quá nhiều bít lỗi, sự ảnh hưởng của nhiễu được làm giảm bằng cách che lỗi, tỷ sốS/N của hệ thống sẽ giảm rất ít hoặc không đổi trừ trường hợp tỷ lệ lỗi quá lớn làmcho mạch sửa lỗi mất tác dụng khi đó dòng bít không còn ý nghĩa tin tức

Ý nghĩa: tính chất này của hệ thống số đặc biệt có ích cho việc sản xuất chươngtrình truyền hình với các chức năng biên tập phức tạp cần nhiều lần đọc và ghi Việctruyền tín hiệu qua nhiều chặng cũng được thực hiện rất thuận lợi với tín hiệu số màkhông làm suy giảm chất lượng hình

c Méo phi tuyến

Tín hiệu số không bị ảnh hưởng của méo phi tuyến trong quá trình ghi và

truyền Cũng như đối với tỷ lệ S/N tính chất này rất quan trọng trong quá trình ghiđọc nhiều lần

g Khoảng cách giữa các trạm truyền hình đồng kênh

Tín hiệu số cho phép các trạm truyền hình đồng kênh thực hiện ở 1 khoảngcách gần nhau hơn nhiều so với hệ thống tương tự mà không bị nhiễu Một phần vìtín hiệu số ít chịu ảnh hưởng của nhiễu đồng kênh, một phần là do khả năng thay

Trang 6

thế xung hoá và xung đồng bộ bằng các từ mã nơi mà hệ thống tương tự gây ranhiễu lớn nhất.

h Hiện tượng bóng ma (Ghosts)

Hiện tượng này xảy ra trong hệ thống tương tự do tín hiệu truyền đến máy thutheo nhiều đường Việc tránh nhiễu đồng kênh của hệ thống số cũng làm giảm đihiện tượng này trong truyền hình quảng bá

1.1.3 Cấu trúc và tiêu chuẩn lấy mẫu

A Các cấu trúc lấy mẫu:

A1 Cấu trúc trực giao

Dòng 1,mành 1

Dòng 1,mành 2

Dòng 2,mành 2Dòng 2,mành 1

Dòng 1,mành 1

Trang 7

Các mẫu trên các dòng kề nhau thuộc 1 mành xếp thẳng hàng theo chiều đứng(trực giao), nhưng các mẫu thuộc mành 1 lại dịch đi một nửa chu kỳ lấy mẫu so vớicác mẫu mành thứ 2.

Phân bố phổ tần của các cấu trúc quincunx mành rất có ý nghĩa đối với mành 1,

nó cho phép giảm tần số lấy mẫu theo dòng Phổ tần cấu trúc nói trên của mành 2 sovới phổ mành 1 bị dịch và có thể lồng với phổ tần cơ bản, gây ra méo ở các chi tiếtảnh (khi hình ảnh có các sọc hoặc các đường thẳng đứng)

A3 Cấu trúc ‘quincunx’ dòng

Tuỳ theo cấu trúc lấy mẫu sẽ xuất hiện loại méo ảnh đặc trưng Với cấu trúctrực giao độ phân giải ảnh sẽ giảm Đối với cấu trúc ‘quincunx’ mành sẽ xuất hiệnnhấp nháy các điểm ảnh Cấu trúc ‘quincunx’ dòng sẽ xuất hiện các vòng tròn theochiều ngang (méo đường biên)

Như vậy cấu trúc trực giao có nhiều ưu điểm hơn, nó cho chất lượng ảnh caonhất vì đối với mắt người độ phân giải giảm còn dễ chấp nhận hơn 2 loại méo kểtrên

B Các tiêu chuẩn lấy mẫu

Có nhiều tiêu chuẩn lấy mẫu tín hiệu video số thành phần, điểm khác nhau chủyếu ở tỷ lệ giữa tần số lấy mẫu và phương pháp lấy mẫu tín hiệu chói và các tín hiệumàu, trong đó bao gồm: tiêu chuẩn 4:4:4; 4:2:2; 4:2:0; 4:1:1 Các định dạng sốvideo có nén chỉ lấy mẫu cho các dòng tích cực của video

B1 Tiêu chuẩn 4:4:4

Mẫu tín hiệu chỉ được lấy đối với các phần tử tích cực của tín hiệu video Với

hệ PAL màn hình sẽ được chia làm 625×720 điểm (pixel)

Dòng 1,mành2

Dòng 2,mành 2 Dòng 2,mành 1

Dòng 1,mành 1

Trang 8

Hình 1.5 Tiêu chuẩn 4:4:4

Các tín hiệu chói Y, tín hiệu màu (CR, CB) được lấy mẫu tại tất cả các điểm lấymẫu trên dòng tích cực của tín hiệu video Cấu trúc lấy mẫu là cấu trúc trực giao, vịtrí lấy mẫu minh hoạ như hình trên

Tiêu chuẩn 4:4:4 có khả năng khôi phục hình ảnh chất lượng tốt nhất trong sốcác tiêu chuẩn, thuận tiện cho việc xử lý tín hiệu Tiêu chuẩn này có thể dùng trongtrường hợp xử lý tín hiệu chói và tín hiệu màu R, G, B Nó có thể được dùng trongstudio nhằm rời rạc hoá tín hiệu Tuy nhiên tiêu chuẩn này sẽ đòi hỏi tốc độ bit rấtcao Các tổ chức tiêu chuẩn quốc tế đã thống nhất về chỉ tiêu tần số lấy mẫu chotruyền hình số theo tiêu chuẩn này với tên gọi CCIR-601

Với chuẩn 4:4:4 tốc độ dòng dữ liệu (ví dụ cho hệ PAL) được tính như sau: + Khi lấy mẫu 8 bit: (720 + 720 + 720) x 576 x 8 x 25 = 249 Mbit/s

+ Khi lấy mẫu 10 bit: (720 + 720 + 720) x 576 x 10 x 25 = 311 Mbit/s

B2 Tiêu chuẩn 4:2:2

Điểm đầu lấy mẫu toàn bộ 3 tín hiệu: chói Y và tín hiệu màu (CR, CB) Điểm kếtiếp chỉ lấy mẫu tín hiệu chói Y, còn 2 tín hiệu màu không lấy mẫu Khi giải mãmàu suy ra từ màu của điểm ảnh trước

Điểm sau nữa là lấy mẫu đủ 3 tín hiệu Y, CR, CB

Tuần tự như thế cứ 4 lần lấy mẫu tín hiệu chói Y, thì 2 lần lấy mẫu CR, 2 lần lấymẫu CB tạo nên cơ cấu 4:2:2

Điểm lấy mẫu tín hiệu chói Y Điểm lấy mẫu màu đỏ CR Điểm lấy mẫu màu lam CB

Điểm lấy mẫu tín hiệu chói Y Điểm lấy mẫu màu đỏ CR Điểm lấy mẫu màu lam CB

Trang 9

Hình 1.6 Tiêu chuẩn 4:2:2

Đối với hệ PAL tốc độ dòng dữ liệu theo chuẩn này được tính như sau:

+ Khi lấy mẫu 8 bit: (720 + 360 + 360) x 576 x 8 x 25 = 166 Mbit/s

+ Khi lấy mẫu 10 bit: (720 + 360 + 360) x 576 x 10 x 25 = 207 Mbit/s

Tiêu chuẩn 4:2:2 là tiêu chuẩn cơ bản của truyền hình số Chất lượng hình ảnh củatiêu chuẩn này cao hơn sau 4:4:4 Nó cho phép xử lý tín hiệu 1 cách thuận lợi

B3 Tiêu chuẩn 4:2:0

Theo chuẩn này tín hiệu Y được lấy mẫu tại tất cả các điểm ảnh của dòng, còntín hiệu màu thì cứ cách 1 điểm sẽ lấy mẫu cho 1 tín hiệu màu Tín hiệu hiệu màuđược lấy xen kẽ, nếu hàng chẵn lấy mẫu cho tín hiệu màu CR, thì dòng lẻ sẽ lấy mẫucho tín hiệu hiệu màu CB

Đối với hệ PAL tốc độ dòng dữ liệu theo chuẩn này được tính như sau:

+ Khi lấy mẫu 8 bit: (720 + 360) × 576 × 8 × 25 = 124,4 Mbit/s

+ Khi lấy mẫu 10 bit: (720 + 360) × 576 × 10 ×25 = 155,5 Mbit/s

Hình 1.7 Tiêu chuẩn 4:2:0

B4 Tiêu chuẩn 4:1:1

Điểm ảnh đầu lấy mẫu đủ Y, CR, CB

Ba điểm ảnh tiếp theo chỉ lấy Y không lấy mẫu CR, CB

Khi giải mã màu của 3 điểm ảnh sau phải suy ra từ điểm ảnh đầu Tuần tự nhưthế cứ 4 lần lấy mẫu Y, một lần lấy mẫu CB.

Điểm lấy mẫu tín hiệu chói Y

Điểm lấy mẫu màu đỏ C

R

Điểm lấy mẫu màu lam C

B

Trang 10

Hình1.8 Tiêu chuẩn 4:1:1

Đối với hệ PAL tốc độ dòng dữ liệu theo chuẩn này được tính như sau:

+ Khi lấy mẫu 8 bit: (720 + 180 + 180) × 576 × 8 × 25 = 124,4 Mbit/s

+ Khi lấy mẫu 10 bit: (720 + 180 + 180) × 576 ×10 × 25 = 155,5 Mbit/s

Tiêu chuẩn này cho chất lượng hình ảnh tương đối thấp, thường được dùng chođiện thoại truyền hình

Nhận xét:

Ta nhận thấy rằng, với các tiêu chuẩn khác nhau thì tốc độ dòng bit khác nhau.Với tiêu chuẩn cho tốc độ dòng bít thấp thì giá phải trả đó là giảm chất lượng hìnhảnh Phương pháp này không được áp dụng rộng rãi trong truyền hình nhất là trongtruyền hình số Có một phương pháp làm giảm tốc độ dòng bít mà vẫn đảm bảo chấtlượng hình ảnh truyền đi đó là giảm lượng dư thừa thông tin trong tín hiệu (hìnhảnh) cần truyền hay chính là nén ảnh

1.1.4 Ảnh số

a Giới thiệu

Đứng trên góc độ cảm nhận thị giác, ảnh là một sự vật đại diện cho người, sinhvật hay một đồ vật nào đó… Đứng trên góc độ kỹ thuật thì ảnh được nhận biếtthông qua hệ thống thị giác hai chiều Ảnh động như đã thấy trệ truyền hình, phimảnh là tập hợp của rất nhiều ảnh tĩnh liên tiếp Khi một ảnh được số hóa thì nó trởthành ảnh số và ảnh số này lại là một tập của các phần tử ảnh nhỏ được gọi là điểmảnh “ pixel” Ta có các loại ảnh:

+ Ảnh Index: Ảnh được biểu diễn bởi hai ma trận, một ma trận dữ liệu ảnh X

và một ma trận màu (còn gọi là bản đồ màu) map Ma trận dữ liệu có thể thuộc kiểuuint8, uint16 hoặc double Ma trận màu là một ma trận kich thước m x 3 gồm cácthành phần thuộc kiểu double có giá trị trong khoảng [0 1] Mỗi hàng của ma trậnxác định thành phần red, green, blue của một màu trong tổng số m màu được sửdụng trong ảnh Giá trị của một phần tử trong ma trận dữ liệu ảnh cho biết màu củađiểm ảnh đó nằm ở hàng nào trong ma trận màu

Điểm lấy mẫu tín hiệu chói Y Điểm lấy mẫu màu đỏ CR Điểm lấy mẫu màu lam CB

Trang 11

+ Ảnh grayscale: Mỗi ảnh được biểu diễn bởi một ma trận hai chiều, trong

đó giá trị của mỗi phần tử cho biết độ sang (hay mức xám) của điểm ảnh đó Matrận này có thể một trong các kiểu uint8, uint16 hoặc double Ảnh biểu diễn theokiểu này còn gọi là ảnh „trắng đen‟

+ Ảnh nhị phân: Ảnh được biểu diễn bởi một ma trận hai chiều thuộc kiểu

logical Mỗi điểm ảnh chỉ có thể nhận một trong hai giá trị là 0 (đen) hoặc 1 (trắng)

+ Ảnh RGB: Còn gọi là ảnh “truecolor” do tính trung thực của nó Ảnh này

được biểu diễn bởi một ma trận ba chiều kích thước m x n x 3, với m x n là kíchthước ảnh theo pixels Ma trận này định nghĩa các thành phần màu red, green, bluecho mỗi điểm ảnh, các phần tử của nó có thể thuộc kiểu uint8, uint16 hoặc double

b Biểu diễn ảnh số

Đối với ảnh đen trắng thì ảnh được biểu diễn bằng một hàm cường độ sáng haichiều f(x,y), trong đó x,y là các giá trị tọa độ không gian và giá trị f tại một điểm(x,y) sẽ tỉ lệ với độ sáng ( hoặc mức xám) của ảnh tại điểm này

Một ảnh số là một ảnh f(x,y) được gián đoạn theo không gian và độ sáng Mộtảnh số được xem như một ma trận với hang và cột biểu diễn một điểm trong ảnh vàgiá trị điểm ma trận tương ứng mức xám tại điểm đó Các phần tử của một dãy sốnhư thế được gọi là các điểm ảnh (pixel)

Kích thước của một ảnh số thay đổi theo mục đích sử dụng

Hình 1.9 Biểu diễn ảnh số

Ví dụ một ảnh có chất lượng ảnh truyền hình đen trắng sẽ có kích thước 512 x 512với 128 mức xám

Trang 12

c/ Quan hệ giữa các pixel

c1 Các điểm ảnh lân cận

Mỗi điểm ảnh p tại tọa độ (x,y) sẽ có 4 điểm ảnh được gọi là lân cận theochiều ngang và dọc, đó là các điểm (x +1,y),(x −1,y),(x,y +1)(x,y −1) Tập hợp 4điểm lân cận trên được ký hiệu là N4(p) Mỗi điểm lân cận nằm cách điểm (x,y) 1đơn vị, 4 điểm ảnh lân cận với điểm (x,y) theo đường chéo ký hiệu là ND(p) , đó làcác điểm: (x +1,y +1),(x +1,y −1),(x −1,y +1)(x −1,y −1) Tập hợp 8 điểm N4(p) vàND(p) được gọi là 8 điểm lân cận: N8(p) Trong trường hợp khi điểm p nằm ở biêncủa ảnh, các điểm lân cận có thể nằm bên ngoài ảnh

c2 Mối liên kết (connectivity)

Mối liên kết giữa các điểm ảnh là khái niệm quan trọng, cho phép xác định các

giới hạn của chi tiết hay các vùng trong một ảnh Hai điểm ảnh có sự liên kết vớinhau nếu chúng là các điểm lân cận và giá trị mức xám của chúng đáp ứng 1 tiêuchuẩn nào đó (thí dụ nếu chúng giống nhau) Ví dụ, đối với ảnh nhị phân, hai điểmảnh có liên kết, khi chúng năm trong bộ 4 lân cận và có giá trị giống nhau

Cho V là tập các mức xám dùng để định nghĩa mối liên kết, ví dụ trong ảnh đentrắng, giá trị các mức xám thay đổi từ 0-255, thì V có thể là 1 tập bất kỳ trong số

255 giá trị này

Khả năng tạo thành các phần khác nhau cho nhiều thành phần liên kết tách rờinhau của một ảnh là rất quan trọng trong tự động phân tích ảnh Ngoài ra, nghiêncứu các đặc điểm này của các pixel trong ảnh truyền hình sẽ cho phép tạo ra cácthuật toán loại bỏ các thành phần dư thừa trong pixel trong các tiêu chuẩn nén video

và xử lý ảnh

1.2 Kỹ thuật nén ảnh số

Trong tất cả các dạng tín hiệu thì tín hiệu truyền hình chiếm dải tần lớn nhấtcho một kênh thông tin Tín hiệu số thành phần (số hóa 8 bit) có tốc độ bit bằng216Mbit/s Dải phổ cần thiết để truyền tín hiệu này phải có bề rộng không dưới(3/4)x216=162MHz Trong sudio, truyền tín hiệu bằng cáp, rắc rối chất lượng cao

và với khoảng cách ngắn việc nén dải tần chỉ mang tính kinh tế, việc truyền tín hiệu

có thể thực hiện mà không cần nén Song sẽ rất khó khăn, thậm chí không thể thựchiện được việc truyền tín hiệu video số qua vệ tinh với độ rộng tải tần một kênh27MHz hoặc qua hệ thống truyền hình quảng bá trên mặt đất với tiêu chuẩn7÷8MHz cho một kênh truyền hình tiêu chuẩn Do vậy nén tín hiệu video là côngđoạn không thể thiếu để khắc phục được những khó khăn trên

Trang 13

1.2.1 Cơ sở nén ảnh

Nén về cơ bản là một quá trình trong đó lượng số liệu (data) biểu diễn lượngthông tin của một ảnh được giảm bớt bằng cách loại bỏ những số liệu dư thừatrong tín hiệu video Các chuỗi ảnh truyền hình có nhiều thành phần ảnh giốngnhau Vậy tín hiệu truyền hình có chứa nhiều dữ liệu dư thừa, ta có thể bỏ qua

mà không làm mất thông tin hình ảnh Đó là các phần xóa dòng, xóa mành, vùngảnh tĩnh hoặc chuyển động rất chậm, vùng ảnh nền giống nhau, mà ở đó cácphần tử liên tiếp giống nhau hoặc khác nhau rất ít Thường thì chuyển độngtrong ảnh truyền hình có thể được dự báo, do đó chỉ cần truyền các thông tin vềchuyển động Các phần tử lân cận trong ảnh thường giống nhau, do đó chỉ cầntruyền thông tin biến đổi Các hệ thống nén sử dụng đặc tính này của tín hiệuvideo và các đặc trưng của mắt người (là kém nhạy với sai số trong hình ảnh cónhiều chi tiết và các phần tử chuyển động

 Sự dư thừa về mặt không gian (spatial redundancy): Các điểm ảnh kề nhautrong một mành có nội dung gần giống nhau

 Sự dư thừa về mặt thời gian (temporal redundancy): Các điểm ảnh có cùng vịtrí ở các mành kề nhau rất giống nhau

 Sự dư thừa về mặt cảm nhận của con người: Mắt người nhạy cảm hơn vớicác thành phần tần số thấp và ít nhạy cảm với sự

thay đổi nhanh, tần số cao Do vậy, có thể coi nguồn hình ảnh là nguồn có nhớ(memory source) Nén ảnh thực chất là quá trình sử dụng các phép biến đổi để loại

bỏ đi các sự dư thừa và loại bỏ tính có nhớ của nguồn dữ liệu, tạo ra nguồn dữ liệumới có lượng thông tin nhỏ hơn Đồng thời sử dụng các dạng mã hoá có khả năngtận dụng xác suất xuất hiện của các mẫu sao cho số lượng bít sử dụng để mã hoámột lượng thông tin nhất định là nhỏ nhất mà vẫn đảm bảo chất lượng theo yêu cầu

Hệ thống nén video gồm 3 thành phần cơ bản như sau:

Hình 1.10 Mô hình hệ thống nén video

Xử lý kênh

Giải lượng

tử hoá

Biểu diễn thuận lợi VideoNguồn

tin

Trang 14

Ở tầng đầu tiên của bộ mã hoá video, tín hiệu video được trình bày dưới dạngthuận tiện để nén có hiệu quả nhất Sự biểu diễn có thể chứa nhiều mẩu thông tin để

mô tả tín hiệu hơn là chính tín hiệu nhưng hầu hết các thông tin quan trọng chỉ tậptrung trong 1 phần nhỏ của sự mô tả này Trong cách biểu diễn có hiệu quả chỉ cóphần nhỏ dữ liệu là cần thiết để truyền cho việc tái tạo lại tín hiệu video

Bước thứ 2 của bộ mã hoá là lượng tử hoá giúp rời rạc hoá thông tin được biểudiễn Để truyền tín hiệu video qua 1 kênh số những thông tin biểu diễn được lượng

là ảnh nguyên thủy

Đối với nén có tổn thất, chất lượng ảnh là mội yếu tố vô cùng quan trọng.Tuỳ theo yêu cầu ứng dụng mà các mức độ loại bỏ khác nhau được sử dụng, chomức độ chất lượng theo yêu cầu

1.2.3 Một số phương pháp mã hóa dùng trong kỹ thuật nén

a Lý thuyết thông tin_Entropy

Entropy là phép đo trung bình nội dung thông tin của một ảnh được lấy mẫutheo các giá trị nhị phân Entropy xác định số lượng bit trung bình tối thiểu cần thiết

để biểu diễn một phần tử ảnh Trong công nghệ nén không tổn hao, entropy là giớihạn dưới của tỉ số bit/pixel Tín hiệu video được nén với tỉ số bit/pixel nhỏ hơnentropy của ảnh, thì một số thông tin ảnh sẽ bị mất và quá trình nén có tổn hao

Trang 15

Entropy biểu diễn bằng biểu thức thống kê sau:

I(xi) - lượng thông tin vủa phần tử ảnh xi (được tính bằng bit)

p(xi) - xác xuất xuất hiện của phần tử ảnh xi

Ví dụ: Xét 2 block, mỗi block có 8*8= 64 pixel Block ảnh 1 gồm 63 phần tử có giátrị “0” và một phần tử giá trị “1” Block ảnh 2 bao gồm 32 phần tử giá trị “0” vμ 32phần tử giá trị “1” Theo biểu thức trên ta có entropy của block ảnh 1 là:

“Entropy” của nguồn tin quy định giới hạn dưới tốc độ bit tại đầu ra bộ mãhoá Phương pháp mã hoá nào có độ dài mã trung bình (số bit trung bình cần để mãhoá một mẫu) càng gần giá trị H thì phương pháp mã hoá đó càng hiệu quả

b Mã hóa loạt dài RLC (Run length coding)

Sự liên tiếp lặp đi lặp lại các điểm ảnh trong ảnh số xuất hiện là do sự tươngquan giữa các điểm ảnh, đặc biệt đối với ảnh 2 mức Từ sự lặp đi lặp lại này 1phương pháp nén đã được xây dựng trên cơ sở sử dụng số lần lặp lại của các điểmảnh, phương pháp này gọi là phương pháp RLC RLC tách chuỗi các giá trị giốngnhau và biểu điễn như là 1 tổng Khi giãn giá trị này tạo lại số lần biểu diễn tổng

Kỹ thuật này chỉ có thể áp dụng cho các chuỗi symbols tuyến tính Do đó khi ápdụng cho ảnh 2 chiều, hình ảnh được tách thành 1 chuỗi các dòng quét

Có 2 cách để mã hoá RLC:

+ Tạo ra những từ mã cho mỗi độ dài chạy và kết hợp với symbol nguồn

+ Sử dụng 1 số độ dài chạy và 1 symbol nguồn nếu như symbol nguồn không phải

là 1 số hay 1 ký tự đặc biệt để chỉ ra cho mỗi symbol nguồn

Trang 16

RLC được dùng với các kỹ thuật khác như các chuẩn nén JPEG, MPEG sẽ chokết quả nén tốt RLC được dùng cho các hệ số lượng tử hoá tốt hơn là dùng trực tiếpcho số liệu ảnh.

c Mã SHANNON-FANO

Theo lý thuyết thông tin của Shannon thì tỷ lệ nén tốt nhất mà chúng ta có thểđạt được chính là entropy nguồn Vào cuối năm 1940 Shannon và fano đã tìm ra 1phương pháp nén mới dựa trên xác suất xuất hiện của những symbol nguồn bêntrong 1 lượng thông tin Về cơ bản phương pháp này sử dụng những từ mã có độ dàithay đổi để mã hoá các symbol nguồn thông qua xác suất của chúng Với nhữngsymbol có xác suất xuất hiện càng lớn thì từ mã dùng để mã hóa chúng càng ngắn Các bước mã hoá Shannon-Fano:

+ B1: Sắp xếp các symbol nguồn với xác suất xuất hiện của chúng theo thứ tự giảmdần

+ B2: Chia tập đã sắp xếp đó thành 2 phần sao cho tổng xác suất xuất hiện của cácsymbol ở mỗi phần xấp xỉ nhau

+ B3: Mã sử dụng bit 0 để mã hoá cho các symbol trong phần 1 và bit 1 để mã hoácho các symbol trong phần 2

+ B4: Quay trở lại bước 2 và tiếp tục làm cho tới khi mỗi phần chỉ còn lại 1 symbol

Các bước mã hoá Huffman:

+ B1: Liệt kê xác suất của các symbol nguồn và tạo ra các nút bằng cách chonhững xác suất này thành các nhánh của cây nhị phân

Trang 17

+ B2: Lấy 2 nút tới xác suất nhỏ nhất từ tập nút tạo ra 1 xác suất mới bằng tổng cácxác suất đó.

+ B3: Tạo ra 1 nút mẹ với các xác suất mới và đánh dấu 1 nút con mới bằng tổngcác xác suất đó

+ B4: Tạo tiếp tập nút bằng cách thay thế 2 nút với xác suất nhỏ nhất cho nút mới.Nếu tập nút chỉ chứa 1 nút thì kết thúc, ngược lại quay lại bước 2

Hình 1.11 Cây mã Huffman

Cây mã Huffman là cây nhị phân có các nhánh được gán cho các giá trị 0 hoặc

1 Gốc của cây là nút gốc, các điểm rẽ nhánh gọi là nút nhánh Điểm kết thúc của 1nhánh gọi là nút lá Mỗi nút lá được gán tương ứng với 1 phần tử mã hoá Từ 1 nútnhánh khi rẽ thành 2 nhánh mới thì nhánh bên trái được gán giá trị 0, nhánh bênphải gán giá trị 1 (có thể ngược lại) Từ mã của 1 symbol được xác định bằng cách

đi từ nút gốc đến nút lá tương ứng với symbol đó Các bit của cá00c từ mã được tậphợp từ các giá trị tương ứng của nhánh phải đi qua

e Mã hoá dự đoán (Predictive coding)

Như đã nói, nguồn ảnh chứa một lượng thông tin rất lớn Nếu mã hoá trựctiếp nguồn tin này theo PCM, tốc độ dòng bit thu được sẽ rất cao Mặt khác, nguồnảnh lại chứa đựng sự dư thừa và tính “có nhớ”: giữa các điểm ảnh lân cận có mốiquan hệ tương hỗ với nhau

Mã hoá dự đoán được xây dựng dựa trên nguyên tắc cơ bản như sau:

 Lợi dụng mối quan hệ tương hỗ này, từ giá trị các điểm ảnh lân cận,

theo một nguyên tắc nào đó có thể tạo nên một giá trị gần giống điểm ảnh hiệnhμnh Giá trị này được gọi là giá trị “dự báo”

 Loại bỏ đi tính “có nhớ” của nguồn tín hiệu bằng một bộ lọc đặc biệt

Nút gốc (8)

Nút lá a (4) Nút lá b (2)

Nút lá c (1)

Nút nhánh (4) Nút nhánh (2)

Nút lá d (1) 0

Trang 18

có đáp ứng đầu ra là hiệu giữa tín hiệu vào s(n) và giá trị dự báo của nó.

 Thay vì lượng tử hoá trực tiếp các mẫu điểm ảnh, mã hoá dự đoán

lượng tử và mã hoá các “sai số dự báo” tại đầu ra bộ lọc

”Sai số dự báo” là sự chênh lệch giữa giá trị dự báo và giá trị thực của mẫu

hiện hành Do nguồn “sai số dự báo”(error prediction source) là nguồn không cónhớ và chứa đựng lượng thông tin thấp, nên số bit cần để mã hoá sẽ giảm đi rấtnhiều

Phương pháp tạo điểm ảnh dựa trên tổng giá trị của điểm dự đoán và sai số

dự báo gọi là “điều chế xung mã vi sai (DPCM)”

Mã hoá dự đoán đóng một vai trò vô cùng quan trọng trong các chuẩn nén như:MPEG, JPEG, JBIG nhằm tạo một hiệu suất nén cao

f Mã hoá chuyển đổi (Transform coding)

Trong phương pháp mã hoá chuyển đổi, tính có nhớ của nguồn tín hiệu đượcloại bỏ đi bằng một phép biến đổi Một khối các điểm ảnh được chuyển sang miềntần số theo một ma trận biến đổi phù hợp Từ khối N giá trị mẫu điểm lân cận nhau

s = {s(n),s(n+1), , s(n-N+1)}, thu được khối N hệ số c = (c1, c2, , cN)

Phép biến đổi này có tính thuận nghịch, các hệ số này hoàn toàn có thể hồi phụcthành giá trị tín hiệu ban đầu bằng phép chuyển đổi ngược

So với nguồn giá trị thực của điểm ảnh, nguồn các hệ số là không có nhớ.Mặt khác, thông tin của nguồn ảnh tập trung phần lớn ở các thành phần tần số thấp,nên trong khối các hệ số, thông tin cũng tập trung tại một số ít các hệ số chuyển đổici

Do vậy sẽ giảm được lượng bit nếu mã hoá các hệ số nμy thay cho việc mãhoá trực tiếp các mẫu Số lượng bit mã hoá còn có thể giảm hơn nữa nếu lợi dụngđặc điểm của mắt người không nhạy cảm với sai số ở tần số cao Bởi vậy,có thể sửdụng bước lượng tử thô cho các hệ số ứng với tần số cao mà không làm giảm sútchất lượng ảnh khôi phục

Hình vẽ sau đây minh hoạ quá trình mã hoá chuyển đổi cho ảnh số:

Trang 19

Hình1.12 Quá trình mã hóa chuyển đổi hai chiều

Hình1.13 quá trình giải mã chuyển đổi hai chiều

Ảnh số được chia thành các khối cỡ pxq Các khối này sẽ được chuyển đổisang miền tần số Các hệ số biến đổi sẽ được lượng tử hoá và mã hoá Quá trình giải

mã sẽ áp dụng phép biến đổi ngược đối với các hệ số để hồi phục ảnh ban đầu.Trong mã hoá chuyển đổi, một điều vô cùng quan trọng là phải chọn được phépbiến đổi phù hợp có khả năng giảm tối đa mối quan hệ tương hỗ giữa các điểm ảnhtrong cùng một khối

Bản thân phép biến đổi trong mã hoá chuyển đổi không nén dữ liệu Songnếu lượng tử hoá các hệ số, rất nhiều hệ số tần số cao sẽ quy tròn về giá trị 0 Việclựa chọn bảng lượng tử và số bit mã hoá cho các hệ số cũng rất quan trọng do phầnlớn hiệu suất nén dữ liệu tập trung trong quá trình này Cuối cùng, mã hoá entropyđược chọn để giảm tối đa tốc độ dòng bít

Trang 20

ISO/IEC và ITV Tiêu chuẩn này có thể được ứng dụng cho nhiều lĩnh vực: lưu trữảnh, fax màu, truyền ảnh báo chí, ảnh cho y học, camera số…

a2 Mục đích của JPEG

Tiêu chuẩn JPEG được định ra cho nén ảnh tĩnh đơn sắc và màu, thực hiện bởi

-Mã hóa không tổn thất: Ảnh được đảm bảo khôi phục chính xác cho mỗi giátrị mẫu của nguồn Thông tin không cần thiết sẽ bị cắt bỏ cho nên cho hiệu quả nénthấp hơn so với phương pháp có tổn thất

-Mã hóa phân cấp: Ảnh được mã hóa ở chế độ phân giải không gian phức hợp,

để cho những ảnh có phân giải thấp có thể được truy xuất và hiển thị mà không cầngiải nén như những ảnh có độ phân giải trong không gian cao hơn

a3 Mã hóa và giải mã JPEG

Hình 1.14 Sơ đồ khối mã hóa và giải mã JPEG

Quá trình mã hoá và giải mã là 2 quá trình ngược nhau Đặc trưng dùngtrong quá trình mã hoá cho ra dòng số liệu sau khi nén và sau đó được đưa tới phần

Block 88

Trang 21

giãn (giải nén) Ở bộ giải nén, bộ mã hoá entropy biến đổi dòng bit được nén thành

1 bảng zig-zag mới có các hệ số DCT Các hệ số này được nhân với các hệ số giảilượng tử hoá và đưa đến quá trình biến đổi DCT ngược (Iverse DCT) Đầu ra ta có

1 khối 8×8 pixel có thể không tạo lại 1 ảnh chính xác tín hiệu gốc vì thông tin bị

mất trong quá trình mã hoá (nén có tổn hao)

a4 Đặc điểm của M-JPEG

Theo quan điểm coi ảnh động là 1 chuỗi liên tiếp các ảnh tĩnh thì khi đó tiêuchuẩn JPEG được áp dụng cho việc nén ảnh động và được gọi là M-JPEG

Vì nén M-JPEG chỉ thực hiện trong mỗi ảnh, điều đó dẫn đến hiệu quả (tỷ sốnén) thấp

Đặc điểm của nén M-JPEG:

-Tín hiệu 48Mbit/s (hệ số nén 3,5) cho kết quả ảnh rất tốt

-Tín hiệu 36Mbit/s (hệ số nén 4,6) cho kết quả có nhiễu với mực độchất lượng nhất định

-Tín hiệu 24Mbit/s (hệ số nén 7) cho kết quả có nhiễu nhìn thấy, chấtlượng ảnh khôi phục không dùng đủ cho mục đích chuyên dùng

Trường hợp nén với tỷ số cao sẽ xuất hiện các ô vuông trên ảnh khôi phục,

đó là các đặc trưng của các hệ số DCT Nếu mã hóa nhiều lần thì hiệu ứng trên sẽtăng lên Các thiết bị sử dụng phương pháp nén theo định dạng M-JPEG không thể

sử dụng cho truyền dẫn, phát sóng vì tốc độ dòng bit sau nén còn tương đối cao

b Chuẩn nén MPEG

b1 Khái quát chuẩn nén MPEG

Chuẩn MPEG (Moving Picture Expert Group) là chuỗi các chuẩn nén videovới mục đích là mã hóa tín hiệu hình ảnh và âm thanh cho DSM (Digital StorageMedia) ở tốc độ bit từ 1,5 tới 50Mbit/s và được biết đến như là MPEG-1, MPEG-2,MPEG-4…Các chuẩn MPEG tiến tới tối ưu hóa cho những ứng dụng video động vàcác đặc điểm của nó cũng bao gồm một thuật toán cho việc nén dữ liệu audio với tỷ

lệ vào khoảng từ 5:1 cho tới 10:1

-Chuẩn MPEG-1: Tiêu chuẩn nén một ảnh động có kích thước 320x240 và tốc

độ bit còn từ 1Mbit/s đến 1,5Mbit/s dùng cho ghi hình trên băng từ và đĩa quang(CD), đồng thời truyền dẫn trong các mạng (mạng máy tính…)

-Chuẩn MPEG-2: Tiêu chuẩn nén được sử dụng cho các ứng dụng cao hơn vớitốc độ còn ≤ 10Mbit/s để truyền tín hiệu truyền hình số thông thường ChuẩnMPEG-2 cũng cho phép mã hóa video với hàng loạt các ứng dụng đòi hỏi có thể

Trang 22

phân tích ảnh theo các cách khác nhau như thông tin video trên mạng ISDN sử dụngATM.

-MPEG-3: Tiêu chuẩn nén tín hiệu số xuống còn ≤ 50Mbit/s để truyền tín hiệutruyền hình có độ phân giải cao Năm 1992, tiêu chuẩn MPEG-3 được kết hợp vớiMPEG-2 dùng cho truyền hình thông thường và truyền hình có độ phân giải cao và

có tên chung là MPEG-2

-MPEG-4: Chuẩn này dành cho nén hình ảnh video với ít khung hình và yêucầu làm tươi chậm Tốc độ dữ liệu yêu cầu là 9÷40Kbit/s MPEG-4 hoàn thiện vàothánh 10/1998 nhằm mục đích phát triển các tiêu chuẩn mã hóa mới với tốc độ bitrất thấp

-MPEG-7: Chuẩn này được đề nghị vào thánh 10/1998 và kế hoạch trở thànhchuẩn quốc tế vào tháng 9/2001 MPEG-7 sẽ là chuẩn mô tả thông tin của rất nhiềuloại đa phương tiện Mô tả này sẽ kết hợp với chính nội dung của nó cho phép khảnăng tìm kiếm nhanh và hiệu quả theo yêu cầu người dùng MPEG được gọi chínhthức là “Giao thức mô tả nội dung đa phương tiện”

Tiêu chuẩn MPEG là sự kết hợp giữa nén trong ảnh và nén liên ảnh Tức làphương pháp nén có tổn hao dựa trên biến đổi DCT và bù chuyển động

Tiêu chuẩn MPEG không biểu diễn cấu trúc bộ mã hóa một cách chính xác,chỉ đặc trưng chính xác các thuật toán nén và kích thước dòng số liệu Cấu trúc một

hệ thống MPEG cơ bản bao gồm 3 phần chính:

-Bộ đồng bộ và dồn kênh tín hiệu Audio và Video

-Hệ thống Video

Trang 23

b2 Nguyên lý nén MPEG:

-Nguyên lý hoạt động:

+Cách hoạt động của bộ mã hóa, phụ thuộc vào loại hình ảnh, là mã hóa tạithời điểm đang xét Ta thấy rằng nén MPEG là sự kết hợp giữa nén trong ảnh vànén liên ảnh Dạng thức đầu vào là Rec-601 4:2:2 hoặc 4:2:0 được nén liên ảnhtrước tạo ra được ảnh khác biệt ở đầu ra bộ cộng Ảnh này sau đó lại được nén trongảnh qua các bước: biến đổi DCT, lượng tử hóa, mã hóa Cuối cùng ảnh này đượctrộn cùng với vector chuyển động đưa đến bộ khuếch đại đệm sẽ thu được ảnh đãnén

+Tốc độ bit của tín hiệu video được nén không cố định, phụ thuộc vào nộidung ảnh đang xét Ngược lại, tại đầu ra bộ mã hóa, dòng bit phải cố định để xácđịnh tốc độ cho dung lượn kênh truyền Do đó tại đầu ra bộ mã hóa phải có bộ nhớđệm đủ lớn Bộ mã hóa phải kiểm tra trạng thái đầy của bộ nhớ đệm Khi số liệutrong bộ nhớ đệm gần bằng dung lượng cực đại, thì các hệ số biến đổi DCT đượclượng tử hóa ít chính xác hơn Trong trường hợp ngược lại, có nghĩa là bộ nhớ đệmchứa số liệu quá ít, thì việc lượng tử hóa các hệ số sẽ tăng lên

Điều khiển tốc độ bit

Khuếch đại đệm

Video nén

4:2:2

Lượng tử hoá

Mã hoá entropy TrộnΣ

Vectơ chuyển động

Video

Điều khiển nhóm ảnh

Bảng lượng tử

Trang 24

CHƯƠNG II QUÁ TRÌNH NÉN ẢNH DỰA TRÊN BIẾN ĐỔI COSIN RỜI RẠC (DCT) 2.1 Nguyên lý chung của nén ảnh dựa trên các phép biến đổi

Hình 2.1 Quá trình nén ảnh bằng các phương pháp biến đổi

2.1.1 Khối định dạng khối và cấu trúc khối ( khối tiền xử lý)

Trước khi thực hiện biến đổi DCT cả ảnh được chia thành các khối lớn riêngbiệt không chồng lên nhau (MB - Marco Block) Mỗi MB bao gồm 4 block các mẫutín hiệu chói U Yvà 2; 4 hoặc 8 block các mẫu tín hiệu số màu (CR, CB) Số cácblock của tín hiệu màu phụ thuộc vào tiêu chuẩn của tín hiệu video

Các block có cùng kích thước mỗi block là 1 ma trận điểm ảnh 8×8 được lấy

từ màn hình theo chiều từ trái sang phải, từ trên xuống dưới Kích thước block là8x8 được chọn bởi hai lý do:

+ Thứ nhất, qua việc nghiên cứu cho thấy hàm tương quan suy giảm rất nhanh khikhoảng cách giữa các pixel vượt quá 8

+ Thứ hai, là sự tiện lợi cho việc tính toán và thiết kế phần cứng Nói chung độphức tạp về tính toán sẽ tăng nếu kích thước block tăng

Bảng trọng số

Bảng Huffman

VLCRLC

Quét zig-zag

Lượng tử hoá Biến đổi

Mã DPCM

hệ số DC

Điều khiển đệm Xác định khối

Phân lớp năng lượng khối

VLC RLC

Khối DCT được lượngtử

Trang 25

Cấu trúc MB phụ thuộc vào loại ảnh quét Nếu quét liên tục thì các block baogồm các mẫu từ các dòng liên tục Ngược lại trong trường hợp quét xen kẽ, trong 1block chỉ có các mẫu của 1 nửa ảnh

Việc chia ảnh thành các ảnh con (block,MB) sẽ thực sự có ý nghĩa cho bước chuyển

vị tiếp theo

2.1.2 Khối phép biến đổi

Một số phép biến đổi ảnh được sử dụng:

a Biến đổi Fourier:

Biến đổi Fourier – FT (Fourier Transform) là một phép biến đổi thuận nghịch,

nó cho phép sự chuyển đổi thuận – nghịch giữa thông tin gốc (miền không gianhoặc thời gian) và tín hiệu được xử lý (được biến đổi) Tuy nhiên ở một thời điểmbất kỳ chỉ tồn tại một miền thông tin được thể hiện Nghĩa là tín hiệu trong miềnkhông gian không có sự xuất hiện thông tin về tần số và tín hiệu sau biến đổi

Fourier không có sự xuất hiện thông tin về thời gian FT cho biết thông tin tần số

của tín hiệu, cho biết những tần số nào có trong tín hiệu, tuy nhiên nó không chobiết tần số đó xuất hiện khi nào trong tín hiệu Nếu như tín hiệu là ổn định

(stationary – có các thành phần tần số không thay đổi theo thời gian) thì việc xác

định các thành phần tần số xuất hiện khi nào trong tín hiệu là không cần thiết

Phép biến đổi FT thuận và nghịch được định nghĩa như sau:

(2.1)

(2.2)

Phép biến đổi FT cũng có thể được áp dụng cho tín hiệu không ổn định stationary) nếu như chúng ta chỉ quan tâm đến thành phần phổ nào có trong tín hiệu

(non-mà không quan tâm đến nó xuất hiện khi nào trong tín hiệu Tuy nhiên, nếu thông

tin về thời gian xuất hiện của phổ trong tín hiệu là cần thiết, thì phép biến đổi FT

không có khả năng đáp ứng được yêu cầu này, đây cũng là hạn chế của phép biến

đổi này Để có biến đổi Fourier rời rạc –DFT (Discrete Fourier Transform) thì ở phép tích phân trong biểu thức toán học của biến đổi FT, ta thay bằng phép tổng và

tính toán nó với các mẫu hữu hạn

Trang 26

Hệ số phép biến đổi DFT thứ k của một chuỗi gồm N mẫu {x(n)} được định

hệ số còn lại chứa rất ít thông tin

Biến đổi DCT thuận và ngược một chiều gồm N mẫu được định nghĩa

tách thành các biến đổi một chiều Tính chất trực giao ở đây nghĩa là nếu các ma

trận của DCT và IDCT là không bất thường (non-singular) và thực thì biến đổi

ngược của chúng có thể đạt được bằng cách áp dụng toán tử hoán vị Cũng như biến

đổi FT, DCT cũng coi dữ liệu đầu vào là tín hiệu ổn định (bất biến).

Trong các chuẩn nén ảnh tĩnh vào video, người ta thường sử dụng DCT và IDCT có kích thước 8 mẫu Bức ảnh hoặc khung ảnh video kích thước NxN được

chia thành các khối không chồng chéo nhau hai chiều gọi là các ảnh con kích thước

8x8 rồi áp dụng biến đổi DCT hai chiều ở bộ mã hoá và áp dụng biến đổi IDCT ở bộ giải mã Biến đổi DCT và IDCT 8 mẫu tạo thành các ma trận 8x8 theo công thức:

Trang 27

c Phép biến đổi Wavelet (DWT):

Không giống như biến đổi Fourier chỉ thích hợp khi phân tích những tín hiệu ổn định (stationary),Wavelet là phép biến đổi được sử dụng để phân tích các tín hiệu không ổn định (non-stationary) – là những tín hiệu có đáp ứng tần số thay đổi theo thời gian Để khắc phục những hạn chế của biến đổi FT, phép biến đổi Fourier thời gian ngắn – STFT được đề xuất Chỉ có một sự khác biệt nhỏ giữa STFT và FT: Trong biến đổi STFT, tín hiệu được chia thành các khoảng nhỏ và trong khoảng đó

tín hiệu được giả định là tín hiệu ổn định Để thực hiện kỹ thuật này cần chọn một

hàm cửa sổ w sao cho độ dài của cửa sổ đúng bằng các khoảng tín hiệu phân chia Với phép biến đổi STFT, chúng ta có thể thu được đáp ứng tần số - thời gian của tín hiệu đồng thời mà với phép biến đổi FT ta không thực hiện được Biến đổi STFT

đối với tín hiệu liên tục thực được định nghĩa như sau:

(2.9)

Trong đó độ dài thời gian của cửa sổ là (t-τ), chúng ta có thể dịch chuyển vị trí của cửa sổ bằng cách thay đổi giá trị t và để thu được các đáp ứng tần số khác

nhau của đoạn tín hiệu ta thay đổi giá trị τ

Trên cơ sở cách tiếp cận biến đổi STFT, biến đổi Wavelet được phát triển để giải quyết vấn đề về độ phân giải tín hiệu (miền thời gian hoặc tần số) mà STFT vẫn còn hạn chế Biến đổi Wavelet được thực hiện theo cách: tín hiệu được nhân với hàm Wavelet (tương tự như nhân với hàm cửa sổ trong biến đổi STFT), rồi thực

hiện biến đổi riêng rẽ cho các khoảng tín hiệu khác nhau trong miền thời gian tạicác tần số khác nhau Cách tiếp cận như vậy còn được gọi là: phân tích đa phân giải

– MRA (Multi Resolution Analysis): phân tích tín hiệu ở các tần số khác nhau và cho các độ phân giải khác nhau.

Trang 28

MRA khi phân tích tín hiệu cho phép: phân giải thời gian tốt và phân giải tần số kém ở các tần số cao; phân giải tần số tốt và phân giải thời gian kém ở các tần số thấp Như vậy kỹ thuật này rất thích hợp với những tín hiệu: có các thành

phần tần số cao xuất hiện trong khoảng thời gian ngắn, các thành phần tần số thấpxuất hiện trong khoảng thời gian dài chẳng hạn như ảnh và khung ảnh video

Có thể hiểu phép biến đổi DWT như là áp dụng một tập các bộ lọc: thông cao và

thông thấp Thiết kế các bộ lọc này tương đương như kỹ thuật mã hoá băng con

(subband coding) nghĩa là: chỉ cần thiết kế các bộ lọc thông thấp, còn các bộ lọc thông cao chính là các bộ lọc thông thấp dịch pha đi một góc 180o Tuy nhiên khác với mã hoá băng con, các bộ lọc trong DWT được thiết kế phải có đáp ứng phổ phẳng, trơn và trực giao.

d Chuyển đổi KL (Karhunen-loeve):

Phương pháp chuyển đổi tối ưu cho mã chuyển vị là phương pháp mà đạtđược bình phương của lỗi trong quá trình xây dựng lại ảnh với 1 số bit đã cho lànhỏ nhất Người ta thấy rằng phương pháp chuyển đổi tối ưu là chuyển đổi KL(Karhunen-loeve), chuyển đổi này thông qua 1 ma trận chuyển đổi làm giảm trật tựtương quan của 1 quá trình xử lý ngẫu nhiên liên tiếp dưới dạng đường chéo Nhưngphương pháp KL có nhược điểm là không có 1 thuật toán biến đổi nhanh tổng quát,nói cách khác là nó không thông dụng cho tất cả các ứng dụng của việc nén ảnh số

Do đó người ta đã nghiên cứu và đưa ra phương pháp chuyển đổi gần tối ưu để thaythế và là phương pháp thông dụng nhất đó là phương pháp biến đổi DCT (DiscreteCosin Transform)

2.1.3 Lượng tử hóa khối DCT

Bước tiếp theo của quá trình nén ảnh là lượng tử hóa các hệ số DCT X(k1,k2)sao cho làm giảm được số lượng bit cần thiết Quá trình này đóng vai trò quan trọngtrong thiết kế hệ thống nén video vì nó ảnh hưởng trực tiếp đến việc cho lại chấtlượng hình ảnh khôi phục tốt hay xấu

Chức năng cơ bản của bộ lượng tử hóa là thực hiện chia mỗi hệ số DCT chomột số lớn hơn 1 để tạo ra các số có giá trị 0 hoặc gần 0 sao cho có thể làm trònhoặc bỏ qua trong quá trình mã hóa tiếp theo.Các hệ số có năng lượng thấp, đặctrưng cho sự biến đổi ít giữa các điểm ảnh có thể loại bỏ mà không gây ảnh hưởngđến sự cảm thụ chất lượng ảnh tái tạo tại mắt người

* Phương pháp lượng tử hoá các hệ số DCT đơn giản nhất là lấy mẫu theotừng vùng (zonal sampling) theo nguyên tắc như sau: loại bỏ một phần hệ số tần sốcao mà mã hoá phần còn lại bằng số lượng bít cố định Có thể hiểu đây như một bộ

Trang 29

lượng tử chứa một bước lượng tử duy nhất Mặc dù phương pháp này đơn giảnnhưng nó có rất nhiều hạn chế:

+Không tận dụng được đặc tính thị giác của con ng-ời là không nhậy cảmvới tần số cao, cũng như không tận dụng được đặc tính khó nhận biết sai số trongvùng ảnh có độ linh hoạt cao

+Từ mã có độ dài cố định không cho sự tối-u trong việc giảm tốc độ bit.Đặc biệt khi dùng đồng bộ lượng tử hoá tuyến tính Một từ mã sẽ được truyền đicho dù giá trị hệ số lượng tử là 0 Có rất nhiều hệ số DCT sau khi lượng tử trở vềgiá trị 0 dẫn tới hiệu suất nén rất thấp

* Phương pháp lượng tử hóa tối ưu nhất cho nén ảnh là phương pháp lượng

tử có trọng số

Mắt người không nhạy cảm với các thành phần tần số cao tức là kém phát hiệnsai số tại những vùng ảnh có nhiều chi tiết, biến đổi nhanh Hơn nữa sự phân giảitheo hướng xiên ít ảnh hưởng tới chất lượng ảnh hơn các hướng ngang và thẳngđứng Điều này có nghĩa rằng, sai số lượng tử của các hệ số DCT khác nhau làkhông đều Sai số của các hệ số tần số cao cũng như hệ số theo đường chéo ít ảnhhưởng hơn tới chất lượng ảnh khôi phục

Điều này đã được nghiên cứu và liệt kê trong một bảng trọng số dành cholượng tử hoá gọi là HVS weighting table Ví dụ bảng trọng số được mặc định trongtiêu chuẩn nén JPEG như sau:

Hình 2.2 Bảng trọng số lượng tử cho tín hiệu chói

và tín hiệu màu theo chuẩn JPEG

Trang 30

Lượng tử hóa có trọng số được thực hiện bằng công việc chia các hệ sốX(k1,k2) cho các hệ số tương ứng trong bảng lượng tử Q(k1,k2) để biểu diễn số lầnnhỏ hơn các giá trị cho phép của hệ số DCT,(hình 2.5) Các hệ số có tần số thấpđược chia cho các giá trị nhỏ, các hệ số ứng với tần số cao được chia cho các giá trịlớn hơn Sau đó các hệ số được làm tròn.

Hình 2.3 Lượng tử hóa có trọng số

Kết quả nhận được bảng Xq(k1,k2) mới, trong đó phần lớn các hệ số có tần sốcao bằng 0 Hệ số bảng lượng tử hóa thuận được xác định theo biểu thức:

( 1, 2)( 1, 2)

Các giá trị Xq(k1,k2) sẽ được mã hóa trong các công đoạn tiếp theo

Lượng tử hoá là quá trình làm mất thông tin và tạo ra các hiệu ứng giả Nhằmđạt được 1 hệ thống nén không làm ảnh hưởng nhiều tới chất lượng ảnh rất nhiềucác yếu tố sẽ cần được tính đến trong 1 thiết kế, phụ thuộc vào các ứng dụng, tínhhiệu quả, độ phức tạp và giá thành…

Ngày đăng: 21/06/2014, 21:24

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1]Đỗ Hoàng Tiến, Vũ Đức Lý,”Truyền hình số”, NXB Khoa học và kỹ thuật Hà Nội 2001 Sách, tạp chí
Tiêu đề: ”Truyền hình số”
Nhà XB: NXB Khoa học và kỹ thuậtHà Nội 2001
[2]GS.TSKH. Nguyễn Kim Sách”Truyền hình số có nén và Multimedia”, NXB Khoa học và kỹ thuật 2000 Sách, tạp chí
Tiêu đề: ”Truyền hình số có nén và Multimedia”
Nhà XB: NXB Khoa học và kỹ thuật 2000
[3]TS.Hồ Văn Sung,”Xử lý ảnh số-Lý thuyết và thực hành với MATLAB”, NXB Khoa học và kỹ thuật 2009 Sách, tạp chí
Tiêu đề: ”Xử lý ảnh số-Lý thuyết và thực hành với MATLAB”
Nhà XB: NXB Khoa học và kỹ thuật 2009
[4] TS. Nguyễn Thanh Bình, ThS. Võ Nguyễn Quốc Bảo, “Xử lý âm thanh và hình ảnh”, Học viện công nghệ bưu chính viễn thông 2007 Sách, tạp chí
Tiêu đề: Xử lý âm thanh vàhình ảnh
[5] Nguyễn Quốc Trung, “Xử lý tín hiệu và lọc số”,Tập 2, NXB Khoa học và kỹ thuật 1999 Sách, tạp chí
Tiêu đề: Xử lý tín hiệu và lọc số
Nhà XB: NXB Khoa học vàkỹ thuật 1999

HÌNH ẢNH LIÊN QUAN

Hình 1.1  Sơ đồ cấu trúc tổng quát của hệ thống truyền hình kỹ thuật  số - phân tích phương pháp biến đổi cosin rời rạc để nén ảnh trong truyền hình kỹ thuật số
Hình 1.1 Sơ đồ cấu trúc tổng quát của hệ thống truyền hình kỹ thuật số (Trang 3)
Hình 1.10  Mô hình hệ thống nén video - phân tích phương pháp biến đổi cosin rời rạc để nén ảnh trong truyền hình kỹ thuật số
Hình 1.10 Mô hình hệ thống nén video (Trang 13)
Hình 1.14 Sơ đồ khối mã hóa và giải mã JPEG - phân tích phương pháp biến đổi cosin rời rạc để nén ảnh trong truyền hình kỹ thuật số
Hình 1.14 Sơ đồ khối mã hóa và giải mã JPEG (Trang 20)
Bảng lượng tử - phân tích phương pháp biến đổi cosin rời rạc để nén ảnh trong truyền hình kỹ thuật số
Bảng l ượng tử (Trang 23)
Hình 2.1 Quá trình nén ảnh bằng các phương pháp biến đổi 2.1.1 Khối định dạng khối và cấu trúc khối ( khối tiền xử lý) - phân tích phương pháp biến đổi cosin rời rạc để nén ảnh trong truyền hình kỹ thuật số
Hình 2.1 Quá trình nén ảnh bằng các phương pháp biến đổi 2.1.1 Khối định dạng khối và cấu trúc khối ( khối tiền xử lý) (Trang 24)
Hình 2.5 Quét các hệ số DCT 2.1.5 Mã hóa các hệ số DCT - phân tích phương pháp biến đổi cosin rời rạc để nén ảnh trong truyền hình kỹ thuật số
Hình 2.5 Quét các hệ số DCT 2.1.5 Mã hóa các hệ số DCT (Trang 32)
Bảng 2.1 Giá trị hệ số AC và phân hạng - phân tích phương pháp biến đổi cosin rời rạc để nén ảnh trong truyền hình kỹ thuật số
Bảng 2.1 Giá trị hệ số AC và phân hạng (Trang 34)
Bảng 2.3 Bảng mã Huffman cho hệ số AC - phân tích phương pháp biến đổi cosin rời rạc để nén ảnh trong truyền hình kỹ thuật số
Bảng 2.3 Bảng mã Huffman cho hệ số AC (Trang 35)
Hình 2.8 Giải mã DCT - phân tích phương pháp biến đổi cosin rời rạc để nén ảnh trong truyền hình kỹ thuật số
Hình 2.8 Giải mã DCT (Trang 38)
Hình 2.9 Biến đổi DCT ngược cho khối 8x8 và sai số so với khối ban đầu - phân tích phương pháp biến đổi cosin rời rạc để nén ảnh trong truyền hình kỹ thuật số
Hình 2.9 Biến đổi DCT ngược cho khối 8x8 và sai số so với khối ban đầu (Trang 38)
Sơ đồ khối quá trình nén như sau: - phân tích phương pháp biến đổi cosin rời rạc để nén ảnh trong truyền hình kỹ thuật số
Sơ đồ kh ối quá trình nén như sau: (Trang 44)
Hình 3.1 Ảnh gốc ban đầu ( Ảnh mầu) - phân tích phương pháp biến đổi cosin rời rạc để nén ảnh trong truyền hình kỹ thuật số
Hình 3.1 Ảnh gốc ban đầu ( Ảnh mầu) (Trang 49)
Hình 3.4 Ảnh khôi phục khi giữ nguyên hệ số DCT - phân tích phương pháp biến đổi cosin rời rạc để nén ảnh trong truyền hình kỹ thuật số
Hình 3.4 Ảnh khôi phục khi giữ nguyên hệ số DCT (Trang 51)
Hình 3.5 Ảnh khôi phục khi loại bớt đi các hệ số DCT có trị tuyệt đối nhỏ hơn 10 - phân tích phương pháp biến đổi cosin rời rạc để nén ảnh trong truyền hình kỹ thuật số
Hình 3.5 Ảnh khôi phục khi loại bớt đi các hệ số DCT có trị tuyệt đối nhỏ hơn 10 (Trang 51)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w