1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu phương pháp nén ảnh sử dụng các phép biến đổi dct và dwt

60 64 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 60
Dung lượng 1,03 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC VINH THÁI THỊ TUYẾT THANH NGHIÊN CỨU PHƯƠNG PHÁP NÉN ẢNH SỬ DỤNG CÁC PHÉP BIẾN ĐỔI DCT VÀ DWT Chuyên ngành: Công nghệ thông tin Mã số: 60 48 02

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC VINH

THÁI THỊ TUYẾT THANH

NGHIÊN CỨU PHƯƠNG PHÁP NÉN ẢNH

SỬ DỤNG CÁC PHÉP BIẾN ĐỔI DCT VÀ DWT

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Nghệ An, năm 2017

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC VINH

THÁI THỊ TUYẾT THANH

NGHIÊN CỨU PHƯƠNG PHÁP NÉN ẢNH

SỬ DỤNG CÁC PHÉP BIẾN ĐỔI DCT VÀ DWT

Chuyên ngành: Công nghệ thông tin

Mã số: 60 48 02 01

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Người hướng dẫn khoa học: TS PHAN ANH PHONG

Nghệ An, năm 2017

Trang 3

MỤC LỤC

1 Sự cần thiết của vấn đề nghiên cứu 9

2 Mục tiêu nghiên cứu 11

3 Đối tượng và phạm vi nghiên cứu 12

4 Nội dung nghiên cứu 12

5 Kết cấu của luận văn 13

Chương 1 TỔNG QUAN VỀ ẢNH SỐ VÀ NÉN ẢNH SỐ 14

1.1 Giới thiệu về ảnh số 14

1.1.1 Ảnh số 14

1.1.2 Các không gian màu 16

1.1.3 Ảnh đen trắng và ảnh màu 19

1.2.2 Các khái niệm về nén ảnh số 21

1.2.3 Phân lớp các phương pháp nén ảnh số 23

1.3.1 Biến đổi Cosin rời rạc (DCT - Discrete Cosine Transform) 26

1.3.2 Biến đổi Wavelet rời rạc (DWT – Discrete Wavelet Transform) 28

Chương 2 PHƯƠNG PHÁP NÉN ẢNH SỬ DỤNG CÁC PHÉP BIẾN ĐỔI DCT VÀ DWT 30

2.1 Đặt vấn đề 30

2.2.1 Phương pháp nén ảnh JPEG dựa vào phép biến đổi DCT 30

2.2.2 Phương pháp nén ảnh JPEG2000 dựa vào phép biến đổi DWT 35

2.2.3 Phương pháp nén ảnh kết hợp DCT và DWT 39

2.3 Kết luận chương 2 40

Chương 3 THỬ NGHIỆM VÀ ĐÁNH GIÁ 42

3.1 Bộ dữ liệu thử nghiệm 42

3.2 Phương pháp đánh giá của các thuật toán nén ảnh 42

3.3 Xử lý ảnh trong Matlab 44

3.4 Kết quả thử nghiệm của phương pháp nén ảnh JPEG 48

Trang 4

3.5 Kết quả thử nghiệm của phương pháp nén ảnh JPEG2000 50 3.6 Đánh giá chung về 3 phương pháp nén 51

Trang 5

LỜI CẢM ƠN

Lời đầu tiên cho phép em gửi lời cảm ơn sâu sắc tới toàn thể các thầy

cô giáo trong khoa Công nghệ Thông tin – Đại học Vinh, những người đã hết mình truyền đạt cho chúng em những kiến thức quý báu và bổ ích trong suốt những năm học vừa qua Nhờ công lao giảng dạy, chỉ bảo tận tình của các thầy các cô mà em đã có được những kiến thức chuyên ngành về công nghệ thông tin để thực hiện đề tài này

Để hoàn thành được đồ án này, đặc biệt em xin được bày tỏ sự cảm

động và xin chân thành cảm ơn giảng viên hướng dẫn thầy TS Phan Anh Phong, người trực tiếp hướng dẫn, chỉ bảo em trong suốt quá trình học tập và

nghiên cứu để hoàn thành đồ án này

Cuối cùng xin được biết ơn sự động viên của gia đình và sự giúp đỡ tận tình của bạn bè trong suốt quá trình học tập, nghiên cứu để hoàn thành đồ án

Mặc dù đã cố gắng nỗ lực thực hiện đề tài với quyết tâm cao nhưng đề tài không thể tránh khỏi những thiếu sót Em rất mong nhận được những ý kiến đóng góp ý kiến của thầy cô và các bạn để đề tài ngày càng hoàn thiện và hướng tới áp dụng thực tế hơn

Em xin chân thành cảm ơn!

Nghệ An, tháng 6 năm 2017

Học viên thực hiện

Thái Thị Tuyết Thanh

Trang 6

Tôi xin cam đoan:

Những kết quả nghiên cứu được trình bày trong luận văn là hoàn toàn trung thực, của tôi, không vi phạm bất cứ điều gì trong Luật Sở hữu trí tuệ và pháp luật Việt Nam Nếu sai, tôi hoàn toàn chịu trách nhiệm trước pháp luật

TÁC GIẢ LUẬN VĂN

Thái Thị Tuyết Thanh

Trang 7

DANH MỤC CÁC TỪ VIẾT TẮT

DCT Biến đổi Cosin rời rạc - Discrete Cosine Transform

DWT Biến đổi Wavelet rời rạc - Discrete Wavelet Transform

JPEG Joint Photographic Experts Group

MSE Sai số bình phương trung bình - Mean Square Error

PSNR Tỷ lệ tín hiệu/ tín hiệu nhiễu - Peak Signal to Noise Ratio

Trang 9

MỞ ĐẦU

1 Sự cần thiết của vấn đề nghiên cứu

Ngày nay, cùng với sự phát triển không ngừng của khoa học và công nghệ, máy tính cùng với các ứng dụng trên máy tính đóng vai trò ngày càng quan trọng trong cuộc sống xã hội loài người Việc trao đổi thông tin của con người trong tất cả các ngành, các lĩnh vực của đời sống ngày càng trở nên cần thiết cùng với sự ra đời và phát triển của mạng Internet

Xử lý ảnh là một lĩnh vực đã và đang được tập trung nghiên cứu vì khả năng ứng dụng rất lớn của nó trong nhiều ngành, nhiều lĩnh vực khác nhau Nén ảnh là một trong những kỹ thuật quan trọng của xử lý ảnh, cụ thể hơn là

sự hữu ích trong truyền thông và trong lưu trữ Hiện nay, đã có rất nhiều phương pháp nén ảnh được ra đời và không ngừng được cải tiến để ngày càng hoàn thiện đem lại hiệu quả nén cao và cho chất lượng ảnh tốt nhất

Về bản chất, nén ảnh là một kỹ thuật mã hoá các ảnh số nhằm giảm số lượng các bit dữ liệu cần thiết để biểu diễn ảnh Mục đích là giảm đi những chi phí trong việc lưu trữ ảnh và chi phí thời gian để truyền ảnh đi xa trong truyền thông nhưng vẫn đảm bảo được chất lượng của ảnh Nén ảnh thực hiện được là do một thực tế: thông tin trong bức ảnh không phải là ngẫu nhiên mà

có trật tự, tổ chức.Vì thế nếu bóc tách được tính trật tự, cấu trúc đó thì sẽ biết phần thông tin nào quan trọng nhất trong bức ảnh để biểu diễn và truyền đi với số lượng ít bit hơn so với ảnh gốc mà vẫn đảm bảo tính đầy đủ của thông tin Ở bên nhận quá trình giải mã sẽ tổ chức, sắp xếp lại được bức ảnh xấp xỉ gần chính xác so với ảnh gốc nhưng vẫn thỏa mãn chất lượng yêu cầu

Thực tế cho thấy có nhiều vấn đề trong việc lưu trữ và truyền tải ảnh số hoá Nén ảnh thực sự có nhiều ứng dụng trong thực tế như: truyền các văn bản đồ hoạ, nén ảnh trong y tế và truyền hình cáp

Trang 10

Do tính chất hấp dẫn và ý nghĩa quan trọng của nó, nén ảnh thu hút được nhiều mối quan tâm của các nhà nghiên cứu trong lĩnh vực công nghệ thông tin trong nước và trên thế giới Khi làm việc với các phương pháp nén ảnh, người ta nhận thấy rằng có phương pháp nén không thể áp dụng nén nhiều loại tập tin, lại có phương pháp có hệ số nén tương đối cao, nhưng tốn nhiều bộ nhớ, khó thực hiện trên các ảnh có kích thước bé, cũng có phương pháp có hệ số nén tương đối cao, phương pháp thực hiện lại tương đối đơn giản, đòi hỏi ít bộ nhớ, có thể xây dựng dựa trên các ảnh có kích thước bé Ngoài ra, một số phương pháp nén ảnh xử lý trên miền tần số ảnh lại cho kết quả nén tốt hơn khi xử lý nén trên miền không gian ảnh Do vậy, việc nghiên cứu các phương pháp nén ảnh để chọn phương pháp nén trong các trường hợp

cụ thể có ý nghĩa vô cũng quan trọng trong lưu trữ và truyền tải dữ liệu ảnh

số

Để xác định ưu nhược điểm của các phương pháp nén ảnh, người ta đã phân loại các phương pháp nén ảnh thành nhiều loại khác nhau Có nhiều cách phân loại các phương pháp nén Cách thứ nhất dựa vào nguyên lý nén, cách này không mất thông tin Cách thứ hai dựa vào cách thức thực hiện nén, theo cách này, người ta cũng phân thành hai nhóm: phương pháp không gian (Spatial Data Compression), các phương pháp thuộc nhóm này thực hiện nén bằng các tác động trực tiếp lên việc lấy mẫu của ảnh trong miền không gian;

và nhóm phân các phương pháp nén thành hai nhóm: nén chính xác hay nén phương pháp sử dụng biến đổi (Transform Coding), gồm các phương pháp tác động lên sự biến đổi của ảnh gốc

Bên cạnh đó phương pháp nén ảnh lai ghép giữa DCT và DWT là một

kỹ thuật mà sẽ khai thác lợi thế của DCT và DWT, để có được hình ảnh nén biến đổi Lai biến đổi DCT-DWT cho tỉ lệ nén cao hơn so với JPEG và

Trang 11

JPEG2000, bảo quản hầu hết các thông tin hình ảnh và tạo ra chất lượng tốt của tái hình ảnh giải nén

Xuất phát từ yêu cầu của thực tế, mục đích chính của luận văn tốt

nghiệp này là “NGHIÊN CỨU PHƯƠNG PHÁP NÉN ẢNH SỬ DỤNG CÁC PHÉP BIẾN ĐỔI DCT VÀ DWT”, trong đó đi sâu nghiên cứu một số

phương pháp nén ảnh, đồng thời tiến hành phân tích, đánh giá, so sánh một số phương pháp nén ảnh JPEG và phương pháp nén ảnh JPEG2000 dựa trên biến đổi Wavelet với những đặc tính vượt trội so với các chuẩn nén trước đó đem lại hiệu quả nén cao cho ảnh nén chất lượng tốt và nhiều những ưu điểm khác

mà các chuẩn nén trước đó không thể có Luận văn cũng sẽ đề cập đến phương pháp nén ảnh dựa trên 2 phép biến đổi giữa DCT và DWT

2 Mục tiêu nghiên cứu

Đề tài tập trung vào 3 mục tiêu chính sau:

(i) Nghiên cứu tổng quan về ảnh số, kỹ thuật nén ảnh số và các phép biến đổi sử dụng trong nén ảnh

(ii) Nghiên cứu các thuật toán nén ảnh sử dụng DCT và DWT

(iii) Cài đặt các thuật toán nén ảnh sử dụng DCT và DWT, phân tích, đánh giá so sánh chất lượng của các thuật toán

Trang 12

3 Đối tượng và phạm vi nghiên cứu

3.1 Đối tượng nghiên cứu

(i) Nghiên cứu lý thuyết

Nghiên cứu các tài liệu về nén ảnh đã công bố ở trong và ngoài nước; các kết quả khảo sát có tính chất đánh giá của các nghiên cứu đi trước; các tài liệu lập trình để cài đặt thuật toán

(ii) Nghiên cứu thực nghiệm

Nghiên cứu ngôn lập trình Matlab và cài đặt một số thuật toán nén ảnh;

so sánh, đánh giá hiệu quả nén ảnh cho các thuật toán

3.2 Phạm vi nghiên cứu

Luận văn tập trung nghiên cứu các kỹ thuật nén ảnh số:

- Phương pháp nén ảnh dựa vào phép biến đổi DCT

- Phương pháp nén ảnh dựa vào phép biến đổi DWT

- Phương pháp lai kết hợp phép biến đổi DCT và DWT

- Nén ảnh với các không gian màu khác nhau

4 Nội dung nghiên cứu

- Nghiên cứu tổng quan về nén ảnh, các phép biến đổi sử dụng trong nén ảnh

- Khảo sát và đánh giá về các thuật toán nén ảnh nhằm xác định ưu điểm và hạn chế của các thuật toán

- Nghiên cứu ngôn ngữ lập trình Matlab để cài đặt mô phỏng các thuật toán trên máy tính

Trang 13

- Đánh giá hiệu quả của các thuật toán nén ảnh về chất lượng nén và thời gian thực hiện thuật toán

5 Kết cấu của luận văn

Luận văn được chia làm 3 chương

Chương 1 Tổng quan về ảnh số và nén ảnh số

Chương một trình bày những khái niệm cơ bản liên quan đến ảnh số và nén ảnh số, trình bày các phép biến đổi trong xử lý ảnh nói chung và nén ảnh nói riêng

Chương 2 Phương pháp nén ảnh sử dụng các phép biến đổi DCT

và DWT

Chương này trình bày cách phân loại các phương pháp nén ảnh, một số phương pháp nén ảnh số: Phương pháp nén ảnh JPEG dựa vào phép biến đổi DCT; Phương pháp nén ảnh JPEG2000 dựa vào phép biến đổi DWT và phương pháp nén ảnh dựa trên 2 phép biến đổi giữa DCT và DWT Nội dung chương 2 sẽ là cơ sở quan trọng để tiến hành thử nghiệm trong chương 3

Chương 3 Thử nghiệm và đánh giá

Chương này sẽ tiến hành cài đặt các thuật toán nén ảnh sử dụng DCT

và DWT, đưa ra các đánh giá, so sánh chất lượng của các thuật toán này

Trang 14

Chương 1 TỔNG QUAN VỀ ẢNH SỐ VÀ NÉN ẢNH SỐ

1.1 Giới thiệu về ảnh số

Mục này sẽ trình bày các kiến thức cơ bản về ảnh số như: Điểm ảnh; Mức xám của ảnh; Độ phân giải của ảnh; Các khái niệm cơ bản về các loại ảnh Nội dung mục cũng sẽ trình bày sơ lược về các không gian màu thường được sử dụng trong xử lý ảnh

1.1.1 Ảnh số

Ảnh số là tập hợp hữu hạn các điểm ảnh với mức xám phù hợp dùng để

mô tả ảnh gần với ảnh thật Số điểm ảnh xác định độ phân giải của ảnh Ảnh

có độ phân giải càng cao thì càng thể hiện rõ nét các đặt điểm của tấm hình càng làm cho tấm ảnh trở nên thực và sắc nét hơn

Điểm ảnh là một phần tử của ảnh số tại toạ độ (x, y) với độ xám hoặc màu nhất định Kích thước và khoảng cách giữa các điểm ảnh đó được chọn thích hợp sao cho mắt người cảm nhận sự liên tục về không gian và mức xám (hoặc màu) của ảnh số gần như ảnh thật Mỗi phần tử trong ma trận được gọi

là một phần tử ảnh

Mức xám của ảnh là kết quả của sự biến đổi tương ứng 1 giá trị độ sáng của 1 điểm ảnh với 1 giá trị nguyên dương Thông thường nó xác định trong [0, 255] tuỳ thuộc vào giá trị mà mỗi điểm ảnh được biểu diễn Các thang giá trị mức xám thông thường: 16, 32, 64, 128, 256 (Mức 256 là mức phổ dụng

Lý do: từ kỹ thuật máy tính dùng 1 byte (8 bit) để biểu diễn mức xám Mức xám dùng 1 byte biểu diễn: 28 =256 mức, tức là từ 0 đến 255)

Độ phân giải của ảnh là mật độ điểm ảnh được ấn định trên một ảnh số được hiển thị

Trang 15

Theo định nghĩa, khoảng cách giữa các điểm ảnh phải được chọn sao cho mắt người vẫn thấy được sự liên tục của ảnh Việc lựa chọn khoảng cách thích hợp tạo nên một mật độ phân bổ, đó chính là độ phân giải và được phân

bố theo trục x và y trong không gian hai chiều

Ví dụ: Độ phân giải của ảnh trên màn hình CGA (Color Graphic Adaptor) là một lưới điểm theo chiều ngang màn hình: 320 điểm chiều dọc *

200 điểm ảnh (320*200) Rõ ràng, cùng màn hình CGA 12” ta nhận thấy mịn hơn màn hình CGA 17” độ phân giải 320*200 Lý do: cùng một mật độ (độ phân giải) nhưng diện tích màn hình rộng hơn thì độ mịn (liên tục của các điểm) kém hơn

Mức xám của ảnh: một điểm ảnh (pixel) có hai đặc trưng cơ bản là vị

trí (x, y) của điểm ảnh và độ xám của nó Dưới đây chúng ta xem xét một số

khái niệm và thuật ngữ thường dùng trong xử lý ảnh

Định nghĩa: Mức xám của điểm ảnh là cường độ sáng của nó được

gán bằng giá trị số tại điểm đó

Các thang giá trị mức xám thông thường: 16, 32, 64, 128, 256 (Mức

256 là mức phổ dụng Lý do: người ta thường dùng 1 byte (8 bit) để biểu diễn mức xám: Mức xám dùng 1 byte biểu diễn: 28=256 mức, tức là từ 0 đến 255)

Ảnh đen trắng: là ảnh có hai màu đen, trắng (không chứa màu khác)

với mức xám ở các điểm ảnh có thể khác nhau

Ảnh nhị phân: ảnh chỉ có 2 mức đen trắng phân biệt tức dùng 1 bit mô

tả 21 mức khác nhau Nói cách khác: mỗi điểm ảnh của ảnh nhị phân chỉ có thể là 0 hoặc 1

Ảnh màu: trong khuôn khổ lý thuyết ba màu (Red, Blue, Green) để

Trang 16

tạo nên thế giới màu, người ta thường dùng 3 byte để mô tả mức màu, khi

đó các giá trị màu: 28*3=224≈ 16,7 triệu màu

1.1.2 Các không gian màu

Không gian màu là một mô hình toán học dùng để mô tả các màu sắc trong thực tế được biểu diễn dưới dạng số học Trên thực tế có rất nhiều không gian màu khác nhau được mô hình để sử dụng vào những mục đích khác nhau Trong khuôn khổ luận văn sẽ giới thiệu về hai không gian màu cơ bản hay được nhắc tới và ứng dụng nhiều, đó là hệ không gian màu RGB và CMYK

Không gian màu RGB

RGB là không gian màu rất phổ biến được dùng trong đồ họa máy tính

và nhiều thiết bị kĩ thuật số khác Ý tưởng chính của không gian màu này là

sự kết hợp của 3 màu sắc cơ bản : màu đỏ (R, Red), xanh lục (G, Green) và xanh lơ (B, Blue) để mô tả tất cả các màu sắc khác Nếu như một ảnh số được

mã hóa bằng 24bit, nghĩa là 8bit cho kênh R, 8bit cho kênh G, 8bit cho kênh

B, thì mỗi kênh này màu này sẽ nhận giá trị từ 0-255 Với mỗi giá trị khác nhau của các kênh màu kết hợp với nhau ta sẽ được một màu khác nhau, như vậy ta sẽ có tổng cộng 255x255x255 = 1.66 triệu màu sắc Ví dụ: màu đen là

sự kết hợp của các kênh màu (R, G, B) với giá trị tương ứng (0, 0, 0) màu trắng có giá trị (255, 255, 255), màu vàng có giá trị (255, 255, 0), màu tím đậm có giá trị (64, 0, 128) .Nếu ta dùng 16bit để mã hóa một kênh màu (48bit cho toàn bộ 3 kênh màu) thì dãi màu sẽ trãi rộng lên tới 3*2^16

Không gian màu CMYK

CMYK là không gian màu được sử dụng phổ biến trong ngành công nghiệp in ấn.Ý tưởng cơ bản của hệ không gian này là dùng 4 màu sắc cơ bản

Trang 17

để phục vụ cho việc pha trộn mực in Trên thực tế, người ta dùng 3 màu là C=Cyan: xanh lơ, M=Magenta: hồng sẫm, và Y=Yellow: vàng để biểu diễn các màu sắc khác nhau Nếu lấy màu hồng xẫm cộng với vàng sẽ ra màu đỏ, màu xẫm kết hợp với xanh lơ sẽ cho xanh lam Sự kết hợp của 3 màu trên sẽ cho ra màu đen, tuy nhiên màu đen ở đây không phải là đen tuyệt đối và thường có độ tương phản lớn, nên trong ngành in, để tiết kiệm mực in người

ta thêm vào màu đen để in những chi tiết có màu đen thay vì phải kết hợp 3 màu sắc trên Và như vậy ta có hệ màu CMYK Chữ K ở đây là để kí hiệu màu đen (Black), có thể chữ B đã được dùng để biểu diễn màu Blue nên người ta lấy chữ cái cuối K để biểu diễn màu đen?

Nguyên lý làm việc của hệ màu này như sau: Trên một nền giấy trắng, khi mỗi màu này được in lên sẽ loại bỏ dần đi thành phần màu trắng 3 màu

C, M, Y khác nhau in theo những tỉ lệ khác nhau sẽ loại bỏ đi thành phần đó một cách khác nhau và cuối cùng cho ta màu sắc cần in Khi cần in màu đen, thay vì phải in cả 3 màu người ta dùng màu đen để in lên Nguyên lý này khác với nguyên lý làm việc của hệ RGB ở chỗ hệ RGB là sự kết hợp của các thành phần màu, còn hệ CMYK là sự loại bỏ lẫn nhau của các thành phần màu

Chuyển đổi RGB sang CMYK và ngược lại

Như đã nói ở trên, thành phần K là thành phần phụ dùng để in cho những điểm màu có màu đen trong hệ CYMK, do vậy để chuyển không gian màu từ RGB sang CMYK trước hết ta chuyển RGB sang CMY sau đó tìm thành phần K còn lại Công thức chuyển từ RGB sang CMY:

(C', M', Y') = ((255 - R), (255 - G), (255 - B))

Trang 18

Việc tính giá trị của K lại là một vấn đề khác vì nó liên quan tới nhà sản xuất công nghệ in, tuy nhiên về mặt lý thuyết có thể chấp nhận rằng K = min {C'/2.55, M'/2.55, Y'/2.55}, như vậy 0<= K <=100

Nếu K = 100, thì C = M = Y =0 (trương hợp in màu đen)

Nếu 0< K < 100: C = (C'/2.55 - K) * 100 /(100 - K), M = (M'/2.55 - K)

* 100 /(100 - K), Y = (Y'/2.55 - K) *100 /(100 - K) và K = K

Trong đó C, M, Y, K được làm tròn tới để lấy chỉ số nguyên

Không gian màu YUV

Mô hình YUV quy định một không gian màu được tạo bởi một độ sáng và hai thành phần màu (chrominance) YUV được sử dụng trong hệ thống phát sóng truyền hình theo chuẩn PAL, đây là chuẩn ở phần lớn các nước

Mô hình YUV giúp tạo ra màu đúng với nhận thức của con người hơn chuẩn RGB, là loại được dùng trong các thiết bị đồ hoạ máy tính, nhưng không chuẩn bằng không gian màu HSV

Y đại diện cho thành phần độ sáng, U và V là đại diện cho các thành phần màu Không gian màu YCbCr hay YPbPr, được sử dụng trong các thiết

bị phát hình, đều xuất phát từ nó (Cb/Pb và Cr/Pr là những phiên bản biến thể của U và V), và đôi khi bị gọi một cách không chính xác là "YUV" Không gian màu YIQ được dùng trong các hệ thống truyền hình NTSC cũng liên quan đến nó, tuy nhiên lại đơn giản hơn nó nhiều

Các tín hiệu YUV đều xuất phát từ các nguồn RGB Các giá trị trọng số của R, G và B được cộng lại với nhau để tạo ra một tín hiệu Y đơn, để biểu diễn độ sáng chung tại một điểm đó Tín hiệu U sau đó được tạo ra bằng các trừ Y khỏi tín hiệu xanh lam (B của RGB), và được nhân với một tỉ lệ có sẵn;

Trang 19

còn V được tính bằng cách trừ Y khỏi màu đỏ (R của RGB), và nhân tỉ lệ với một hệ số khác

1.1.3 Ảnh đen trắng và ảnh màu

Ảnh có thể biểu diễn dưới dạng tín hiệu tương tự hoặc tín hiệu số Trong biểu diễn số của các ảnh đa mức xám, một ảnh được biểu diễn dưới dạng một ma trận hai chiều Mỗi phần tử của ma trận biểu diễn cho mức xám hay cường độ của ảnh tại vị trí đó

Ảnh đen trắng

Ảnh đen trắng chỉ bao gồm 2 màu: màu đen và màu trắng Người ta

phân mức đen trắng đó thành L mức Nếu sử dụng số bit B=8 bít để mã hóa mức đen trắng (hay mức xám) thì L được xác định :

Ảnh nhị phân khá đơn giản, các phần tử ảnh có thể coi như các phần tử logic Ứng dụng chính của nó được dùng theo tính logic để phân biệt đối tượng ảnh với nền hay để phân biệt điểm biên với điểm khác

Trang 20

Ảnh màu

Ảnh màu theo lý thuyết của Thomas là ảnh tổ hợp từ 3 màu cơ bản: đỏ (R), lục (G), lơ (B) và thường thu nhận trên các dải băng tần khác nhau Với ảnh màu, cách biểu diễn cũng tương tự như với ảnh đen trắng, chỉ khác là các

số tại mỗi phần tử của ma trận biểu diễn cho ba màu riêng rẽ gồm: đỏ (red), lục (green) và lam (blue) Để biểu diễn cho một điểm ảnh màu cần 24 bit, 24

bit này được chia thành ba khoảng 8 bit Mỗi màu cũng phân thành L cấp màu khác nhau (thường L=256) Mỗi khoảng này biểu diễn cho cường độ sáng của

một trong các màu chính

Do đó, để lưu trữ ảnh màu người ta có thể lưu trữ từng màu riêng biệt, mỗi màu lưu trữ như một ảnh đa cấp xám Do đó, không gian nhớ dành cho một ảnh màu lớn gấp 3 lần một ảnh đa cấp xám cùng kích cỡ

1.2 Tổng quan nén ảnh

Mục này sẽ trình bày các kiến thức cơ bản về nén ảnh số, trình bày và phân tích các khái niệm về nén ảnh, tỷ lệ nén Nội dung mục cũng sẽ trình bày các kiến thức về các loại dư thừa dữ liệu Đặc biệt, mục 1.2 sẽ trình bày về các phương pháp nén ảnh phổ biến hiện nay

1.2.1 Giới thiệu chung về nén ảnh số

Hiện nay có nhiều vấn đề trong việc lưu trữ và truyền tải ảnh số hoá Nén ảnh thực sự có nhiều ứng dụng trong thực tế như: truyền các văn bản đồ hoạ qua đường điện thoại (Fax), nén ảnh trong y tế và truyền hình cáp…

Nén ảnh là một kỹ thuật mã hoá các ảnh số hoá nhằm giảm số lượng các bit dữ liệu cần thiết để biểu diễn ảnh Mục đích là giảm đi những chi phí trong việc lưu trữ ảnh và chi phí thời gian để truyền ảnh đi xa trong truyền thông nhưng vẫn đảm bảo được chất lượng của ảnh

Trang 21

Nén ảnh thực hiện được là do một thực tế: thông tin trong bức ảnh không phải là ngẫu nhiên mà có trật tự, tổ chức Vì thế nếu bóc tách được tính trật tự, cấu trúc đó thì sẽ biết phần thông tin nào quan trọng nhất trong bức ảnh để biểu diễn và truyền đi với số lượng ít bit hơn so với ảnh gốc mà vẫn đảm bảo tính đầy đủ của thông tin Ở bên nhận quá trình giải mã sẽ tổ chức, sắp xếp lại được bức ảnh xấp xỉ gần chính xác so với ảnh gốc nhưng vẫn thỏa mãn chất lượng yêu cầu

Nén ảnh đạt được bằng cách loại bỏ các phần dư thừa trong ảnh đã được số hoá Dư thừa có thể là dư thừa thông tin về không gian, dư thừa về cấp xám hay dư thừa về thời gian

Ngoài thuật ngữ “nén dữ liệu”, do bản chất của kỹ thuật này nó còn có

một số tên gọi khác như: giảm độ dư thừa, mã hóa ảnh gốc

Từ hơn hai thập kỷ nay, có rất nhiều kỹ thuật nén đã được công bố trên các tài liệu về nén và các phần mềm nén dữ liệu đã xuất hiện ngày càng nhiều trên thương trường Tuy nhiên, chưa có phương pháp nén nào được coi

là phương pháp vạn năng (universal) vì nó phụ thuộc vào nhiều yếu tố và bản chất của dữ liệu gốc Trong mục này, chúng ta không thể hy vọng xem xét tất

cả các phương pháp nén Ở đây, chúng ta chỉ đề cập các phương pháp nén có đặc thù riêng cho dữ liệu ảnh

Trang 22

Tỷ lệ nén (Compression Rate): tỷ lệ nén là một trong các đặc trưng

quan trọng nhất của mọi phương pháp nén Tuy nhiên, về cách đánh giá và các kết quả công bố trong các tài liệu cũng cần quan tâm xem xét Nhìn chung, người ta định nghĩa tỷ lệ cơ bản của phương pháp nén Nhiều khi tỷ lệ nén cao cũng chưa thể nói phương pháp đó hiệu quả hơn các phương pháp khác, vì còn các chi phí như thời gian, không gian và thậm chí cả độ phức tạp tính toán nữa Thí dụ như nén phục vụ trong truyền dữ liệu: vấn đề đặt ra

là hiệu quả nén có tương hợp với đường truyền không

Các loại dư thừa dữ liệu: như trên đã nói, nén nhằm mục đích giảm

kích thước dữ liệu bằng cách loại bỏ dư thừa dữ liệu Việc xác định bản chất các kiểu dư thừa dữ liệu rất có ích cho việc xây dựng các phương pháp nén

dữ liệu khác nhau Nói một cách khác, các phương pháp nén dữ liệu khác nhau là do sử dụng các kiểu dư thừa khác nhau Người ta coi có 4 kiểu dư thừa chính:

- Sự phân bố ký tự: Trong một dãy ký tự, có một số ký tự có tần suất xuất hiện nhiều hơn so với các dãy khác Do vậy, ta có thể mã hóa dữ liệu một cách cô đọng hơn Các dãy ký tự có tần suất cao được thay bởi một từ mã nhị phân với số bít nhỏ; ngược lại các dãy có tần suất xuất hiện thấp sẽ được

mã hóa bởi từ mã có nhiều bít hơn Đây chính là bản chất của phương pháp

mã hóa từ hóa Huffman

- Sự lặp lại của các ký tự: Kỹ thuật nén dùng trong trường hợp này là thay dãy lặp đó bởi dãy mới gồm hai thành phần: số lần lặp và kí hiệu dùng

để mã Phương pháp mã hóa kiểu này có tên là mã hóa loạt dài RLC (Run Length Coding)

- Những mẫu sử dụng tần suất: Có thể có dãy ký hiệu nào đó xuất hiện với tần suất tương đối cao Do vây, có thể mã hóa bởi ít bít hơn Đây là cơ sở

Trang 23

của phương pháp mã hóa kiểu từ điển do Lempel-Ziv đưa ra và có cải tiến vào năm 1977, 1978 và do đó có tên gọi là phương pháp nén LZ77, LZ78 Năm 1984, Tery Welch đã cải tiến hiệu quả hơn và đặt tên là LZW (Lempel-Ziv-Welch)

- Độ dư thừa vị trí: Do sự phụ thuộc lẫn nhau của dữ liệu, đôi khi biết được ký hiệu (giá trị) xuất hiện tại một vị trí, đồng thời có thể đoán trước sự xuất hiện của các giá trị ở các vị trí khác nhau một cách phù hợp Chằng hạn, ảnh biểu diễn trong một lưới hai chiều, một số điểm ở hàng dọc trong một khối dữ liệu lại xuất hiện trong cùng vị trí ở các hàng khác nhau Do vậy, thay

vì lưu trữ dữ liệu, ta chỉ cần lưu trữ vị trí hàng và cột Phương pháp nén dựa trên sự dư thừa này gọi là phương pháp mã hóa dự đoán

Cách phân loại thứ hai dựa vào cách thức thực hiện nén Theo cách này, người ta cũng phân thành hai họ:

- Phương pháp không gian (Spatial Data Compression): Các phương

Trang 24

pháp thuộc họ này thực hiện nén bằng các tác động trực tiếp lên việc lấy mẫu của ảnh trong miền không gian

- Phương pháp sử dụng biến đổi (Transform Coding): gồm các phương pháp tác động lên sự biến đổi của ảnh gốc mà không tác động trực tiếp như họ trên

Dưới đây, ta lần lượt xem xét các phương pháp nén cơ bản:

Phương pháp mã hóa loạt dài: phương pháp mã hóa loạt dài lúc đầu

được phát triển dành cho ảnh số 2 mức: mức đen (1), và mức trắng (0) như các văn bản trên nền trắng, trang in, các bản vẽ kỹ thuật

Nguyên tắc của phương pháp là phát hiện một loạt các bít lặp lại, thí dụ như một loạt các bít 0 nằm giữa hai bít 1, hay ngược lại, một loạt bít 1 nằm giữa hai bít 0 Phương pháp này chỉ có hiệu quả khi chiều dài dãy lặp lớn hơn một ngưỡng nào đó Dãy các bít lặp gọi là loạt hay mạch (run) Tiếp theo, thay thế chuỗi đó bởi một chuỗi mới gồm 2 thông tin: chiều dài chuỗi và bít lặp (ký tự lặp) Như vậy, chuỗi thay thế sẽ có chiều dài ngắn hơn chuỗi cần thay

Cần lưu ý rằng, đối với ảnh, chiều dài của chuỗi lặp có thể lớn hơn

255 Nếu ta dùng 1 byte để mã hóa thí sẽ không đủ Giải pháp được dùng là tách các chuỗi đó thành hai chuỗi: một chuỗi có chiều dài 255, chuỗi kia là số bít còn lại

Phương pháp mã hóa Huffman: phương pháp mã hóa Huffman là

phương pháp dựa vào mô hình thông kê Dựa vào dữ liệu gốc, người ta tính tần suất xuất hiện của các ký tự Việc tính tần suất được thực hiện bởi cách duyệt tuần tự tệp gốc từ đầu đến cuối Việc xử lý ở đây tính theo bit Trong phương pháp này người ta gán cho các ký tự có tần suất cao một từ mã

Trang 25

ngắn, các ký tự có tần suất thấp từ mã dài Nói một cách khác, các ký tự có tần suất càng cao được gán mã càng ngắn và ngược lại Rõ ràng với cách thức này, ta đã làm giảm chiều dài trung bình của từ mã hóa bằng cách dùng chiều dài biến đổi Tuy nhiên, trong một số tình huống khi tần suất là rất thấp, ta có thể không được lợi một chút nào, thậm chí còn bị thiệt một ít bit

Thuật toán: thuật toán bao gồm hai giai đoạn chính:

- Giai đoạn thứ nhất: tính tần suất của các ký tự trong dữ liệu gốc: duyệt tệp gốc một cách tuần tự từ đầu đến cuối để xây dựng bảng mã Tiếp sau đó là sắp xếp lại bảng mã theo thứ tự tần suất giảm dần

- Giai đoạn thứ hai: mã hóa, duyệt bảng tần suất từ cuối lên đầu để thực hiện ghép 2 phần tử có tần suất xuất hiện thấp nhất thành một phần tử duy nhất Phần tử này có tần suất bằng tổng 2 tần suất thành phần Tiến hành cập nhật lại bảng và đương nhiên loại bỏ 2 phần tử đã xét Quá trình được lặp lại cho đến khi bảng chỉ có một phần tử Quá trình này gọi là quá trình tạo cây

mã Huffman vì việc tập hợp được tiến hành nhờ một cây nhị phân 2 nhánh Phần tử có tần suất thấp ở bên phải, phần tử kia ở bên trái Với cách tạo cây này, tất cả các bit dữ liệu/ký tự là nút lá; các nút trong là các nút tổng hợp Sau khi cây đã tạo xong, người ta tiến hành gán mã cho các nút lá Việc mã hóa rất đơn giản: mỗi lần xuống bên phải ta thêm 1 bit “1” vào từ mã; mỗi lần xuống bên trái ta thêm một bit “0”

1.3 Nén ảnh trên miền tần số

Nén ảnh trên miền tần số là kỹ thuật nén ảnh có nhiều ưu điểm Mục 1.3 sẽ trình bày về phép biến đổi biến đổi cosin rời rạc (DCT - Discrete Cosine Transform) và phép biến đổi wavelet rời rạc (DWT - Discrete Waveet Transform), đây là 2 phép biến đổi quan trọng thường được sử dụng trong nén ảnh

Trang 26

1.3.1 Biến đổi Cosin rời rạc (DCT - Discrete Cosine Transform)

Có nhiều phép biến đổi cho dữ liệu ảnh, trong đó có phép biến đổi được

sử dụng rất phổ biến là biến đổi Cosin rời rạc (DCT)

DCT là phép biến đổi Cosin rời rạc để chuyển tín hiệu từ miền thời gian hay không gian sang miền tần số Đặc điểm của phép biến đổi này là tín hiệu ảnh trong miền không gian chuyển sang miền tần số thì các thành phần

DC và các thành phần AC mang hầu hết các thông tin chứa trong ảnh gốc Trong đó, DC là thành phần quan trọng nhất mang độ chói trung bình của ảnh, các thành phần AC chứa các thông tin về chi tiết của ảnh Sau đó, khi qua tầng lượng tử hoá, các hệ số ít quan trọng sẽ bị loại bỏ bớt và chỉ giữ lại một số hệ số hệ số đầu tiên gọi là hệ số DCT Vai trỏ chủ yếu của phương pháp DCT là giảm độ dư thừa dữ liệu trong pixcel ở miền tần số cao Bởi vì bất kì một giá trị pixcel nào đó cũng có thể dự đoán từ các giá trị pixcel lân cận của nó nên thông tin từ các pixcel riêng lẻ là tương đối nhỏ Để giảm độ

dư thừa của các pixcel đặc biệt là các pixcel ở miền tần số cao, thì phương pháp DCT là vô cùng thích hợp

Phép biến đổi cosin rời rạc (Discrete Cosine Transform - DCT) lần đầu tiên được Ahmed và đồng nghiệp vận dụng vào năm 1974 Từ đó cho đến nay kỹ thuật này được sử dụng rất phổ biến trong nhiều kỹ thuật xử lí ảnh

số nói riêng và xử lí tín hiệu số nói chung Trong các kỹ thuật nén ảnh dựa trên các phép biến đổi dữ liệu ảnh sang miền tần số thì phép biến đổi DCT cũng được sử dụng nhiều nhất Lí do là phép biến đổi DCT cũng đã được dùng trong dạng chuẩn ảnh JPEG hay các phép nén ảnh Nếu áp dụng DCT thì cũng theo chuẩn của JPEG và do đó sẽ tránh được mất mát do phép nén JPEG Biến đổi DCT hai chiều tổng quát là biến đổi trên khối điểm

Trang 27

ảnh bất kỳ NN, trong đó các khối kích thước 88, 1616 được sử dụng

nhiều nhất

Phép biến đổi thuận DCT cho khối NN được định nghĩa như sau Ký

hiệu ma trận đầu vào là X, ma trận đầu ra là I Nếu bậc của các ma trận là N

thì các chỉ số dòng và cột sẽ biến thiên từ 0 đến N-1 X[i,j] và I[i,j], 0  i,j  N

-1 là các phần tử nằm trên giao của dòng i và cột j của các ma trận tương ứng

Khi đó phần tử I[i,j] của ma trận ra sẽ được tính theo công thức:

I[u,v] được gọi là hệ số DCT và là số thực

Đặc điểm của phép biến đổi DCT trên ảnh hai chiều

- Dựa theo các công thức biến đổi nói trên ta thấy độ phức tạp của các

thuật toán biến đổi DCT thuận và nghịch trên mỗi khối bậc n đều là O(n2

)

- Thể hiện đặc tính nội dung về tần số của thông tin ảnh Hệ số DC là

lớn và đặc trưng cho giá trị trung bình thành phần một chiều, còn các hệ số

khác có giá trị nhỏ hơn biểu diễn cho các thành phần tần số cao theo hướng

ngang và theo hướng thẳng đứng gọi là các hệ số AC

- Theo nguyên lý chung, khi biến đổi chi tiết giữa các điểm ảnh càng

lớn theo một hướng nào đó trong khối các điểm ảnh như hướng ngang, hướng

0

) 2

) 1 2 ( cos(

) 2

) 1 2 ( cos(

, )

( ) ( ,

N

k N

v l N

u k l

k X N

v u v

u

1.

1 (1.1)

Nếu u = 0 Nếu u > 0

Nếu v > 0 Nếu v =0

Trang 28

thẳng đứng hay theo đường chéo, thì tương ứng theo các hướng đó, các hệ số biến đổi DCT cũng lớn

Tóm lại, các hệ số DCT chứa thông tin về nội dung tần số không gian của thông tin trong khối Nhờ các đặc tính tần số không gian của hệ thống thị giác của mắt người, các hệ số DCT có thể được mã hoá cho phù hợp

Khối hệ số DCT có thể chia thành 3 miền, miền tần số thấp, chứa các thông tin quan trọng ảnh hưởng đến tri giác, miền tần số giữa, và miền tần số cao Các thông tin trong miền tần số cao thường không mang tính tri giác cao, trong các thuật toán nén JPEG, các thông tin trong miền này thường được loại

bỏ

1.3.2 Biến đổi Wavelet rời rạc (DWT – Discrete Wavelet Transform)

Phép biến đổi thực hiện qua hàm wavelet được cho bởi:

Các phép lọc được tiến hành với nhiều tầng (level) khác nhau và để khối lượng tính toán không tăng, khi qua mỗi bộ lọc, tín hiệu được lấy mẫu xuống 2

Ứng với mỗi tầng, tín hiệu có độ phân giải khác nhau Do đó, phép biến đổi wavelet rời rạc được gọi là phân tích đa phân giải (MRA, multiresolution analysis)

Tại mỗi tầng lọc, biểu thức của phép lọc được cho bởi công thức:

Trang 29

Trong đó, S(n) là tín hiệu, h(n) là đáp ứng xung của các bộ lọc thông thấp tương ứng với hàm tỉ lệ Φ(n) và g(n) là đáp ứng xung của các bộ lọc thông cao tương ứng với hàm wavelet ψ(n) Hai bộ lọc này liên hệ nhau theo

hệ thức: h(N-1-n)=(-1)ng(n) Trong đó, N là số mẫu trong tín hiệu

Tín hiệu S(n) có thể được tái tạo theo các bước ngược lại gọi là phép biến đổi wavelet rời rạc nghịch (IDWT, inverse discrete wavelet transform) được cho bởi:

Trong đó, yhigh(k) và ylow(k) lần lượt là tín hiệu ngõ ra sau khi đi qua các bộ lọc thông cao và bộ lọc thông thấp đã thực hiện

1.4 Kết luận chương 1

Chương 1 đã trình bày tổng quan về ảnh số, kỹ thuật nén ảnh số và các phép biến đổi sử dụng trong nén ảnh Nghiên cứu các thuật toán nén ảnh sử dụng DCT và DWT Nội dung chương 1 là cơ sở lý thuyết quan trọng để làm

rõ các phương pháp nén ảnh được trình bày trong chương 2

Trang 30

Chương 2 PHƯƠNG PHÁP NÉN ẢNH SỬ DỤNG CÁC PHÉP

BIẾN ĐỔI DCT VÀ DWT 2.1 Đặt vấn đề

Chương 1 luận văn đã trình bày về các phép biến đổi DCT và DWT Trong chương 2 này luận văn sẽ áp dụng hai phép biến đổi này vào nén ảnh Nội dung chương sẽ trình bày về phương pháp nén ảnh JPEG dựa vào phép biến đổi DCT, phương pháp nén ảnh JPEG 2000 dựa vào phép biến đổi DWT,

và phương pháp nén ảnh lai ghép 2 phép biến đổi là DCT và DWT Nội dung chương 2 sẽ là cơ sở quan trọng để tiến hành thử nghiệm trong chương 3

2.2 Nén ảnh số sử dụng phép biến đổi DCT và DWT

2.2.1 Phương pháp nén ảnh JPEG dựa vào phép biến đổi DCT

JPEG là viết tắt của Joint Photographic Expert Group (nhóm các chuyên gia đồ hoạ phát triển chuẩn này ) Chuẩn này được phát triển từ giữa thập niên 80 bởi sự hợp tác của tổ chức ISO và ITU và đến 1992 được công nhận là chuẩn ảnh quốc tế, phục vụ các ứng dụng về ảnh cho các lĩnh vực như mạng, y học, khoa học kỹ thuật, ảnh nghệ thuật…

Chuẩn JPEG được sử dụng để mã hoá ảnh đa mức xám, ảnh màu JPEG không cho kết quả ổn định lắm với ảnh đen trắng, nó cung cấp cả 2 chế

độ nén: nén mất mát thông tin và nén không tổn thất Dưới đây trình bày chi tiết về một trong các dạng nén biến đổi chấp nhận mất mát thông tin dùng biến đổi Cosin tuần tự (Sequential DTC- Based) của chuẩn JPEG

Quá trình nén JPEG có thể tóm tắt gồm các bước sau

Bước 1 Chuyển đổi không gian màu

Bước 2 Chia ảnh thành các khối 8 x 8

Ngày đăng: 25/08/2021, 16:34

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w