1. Trang chủ
  2. » Luận Văn - Báo Cáo

Wavelet và ứng dụng

91 6 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 91
Dung lượng 2,14 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT CWT Continuous Wavelet Transform Biến đổi Wavelet liên tục DCT Discrete Cosine Transform Biến đổi Cosine rời rạc DFT Discrete Fourier Transform Biế

Trang 1

LUẬN VĂN THẠC SĨ KỸ THUẬT

HÀ NỘI - 2013

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

- NGUYỄN THỊ THẮM

Chuyên ngành: Kỹ thuật truyền thông

LUẬN VĂN THẠC SĨ KỸ THUẬT

KỸ THUẬT TRUYỀN THÔNG

NGƯỜI HƯỚNG DẪN:

PGS.TS NGUYỄN QUỐC TRUNG

HÀ NỘI - 2013

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan bản luận văn “WAVELET VÀ ỨNG DỤNG” là do tôi tự nghiên cứu và hoàn thành dưới sự hướng dẫn của PGS.TS NGUYỄN QUỐC TRUNG

Tôi xin chịu hoàn toàn trách nhiệm về lời cam đoan này

Hà Nội, ngày tháng năm 2013

Học viên

Nguyễn Thị Thắm

Trang 4

MỤC LỤC

LỜI CAM ĐOAN

DANH MỤC CÁC BẢNG BIỂU

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

PHẦN MỞ ĐẦU 1

CHƯƠNG I: TỔNG QUAN CÁC KỸ THUẬT NÉN TRONG MÃ HÓA 3

ÂM THANH 3

1.1 Âm thanh 3

1.1.1 Định nghĩa 3

1.1.2 Các đặc điểm của thính giác 3

1.2 Phân loại các kỹ thuật nén âm thanh 4

1.2.1 Giải thuật nén mất dữ liệu và không mất dữ liệu 5

1.2.2 Nén đối xứng và không đối xứng 10

1.2.3 Mã hóa audio theo chuẩn MPEG 10

1.3 Tiêu chuẩn đánh giá chất lượng mã hóa âm thanh 13

CHƯƠNG II: CƠ SỞ LÝ THUYẾT BIẾN ĐỔI WAVELET 14

2.1 Các Wavelet Daubechies 15

2.2 Phân tích đa phân giải (Multiresolution analysis) 17

2.2.1 Định nghĩa 18

2.2.2 Xây dựng wavelet 22

2.3 Xây dựng wavelet sử dụng kỹ thuật Fourier 24

2.3.1 Wavelet Meyer 24

2.3.2 Các wavelet trực chuẩn của các không gian Spline 25

2.4 Chuỗi wavelet và các tính chất của nó 29

2.4.1 Định nghĩa và các tính chất 29

2.4.3 Tính chất của các hàm cơ sở 33

CHƯƠNG III: BIẾN ĐỔI WAVELET 36

3.1 Các khái niệm 36

3.1.1 Phép phân chia 36

Trang 5

3.1.2 Phép nội suy 39

3.1.3 Dãy lọc số (Filter Bank) 42

3.2 Biến đổi wavelet (wavelet transform) 43

3.2.1 Giới thiệu 43

3.2.2 Lý thuyết biến đổi Wavelet 44

3.2.3 So sánh STFT và WT 55

3.3 Các Wavelet trực giao hai chiều 56

3.4 Gói Wavelet 59

3.5 Giới thiệu một số họ Wavelet 60

3.5.1 Biến đổi Wavelet Haar 60

3.5.2 Biến đổi Wavelet Meyer 61

3.5.3 Biến đổi Wavelet Daubechies 61

3.6 Một số ứng dụng nổi bật của Wavelet 62

3.6.1 Nén tín hiệu 62

3.6.2 Khử nhiễu 63

3.6.3 Mã hóa nguồn và mã hóa kênh 63

CHƯƠNG IV: ỨNG DỤNG NÉN ÂM THANH SỬ DỤNG BIẾN ĐỔI WAVELET 64

4.1 Nén âm thanh bằng Wavelet 64

4.1.1 Các bước thực hiện 64

4.1.2 Biến đổi Wavelet 65

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI 69

TÀI LIỆU THAM KHẢO 70

PHỤ LỤC 71

Trang 6

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

CWT Continuous Wavelet Transform Biến đổi Wavelet liên tục

DCT Discrete Cosine Transform Biến đổi Cosine rời rạc

DFT Discrete Fourier Transform Biến đổi Fourier rời rạc

DPCM Differized Pulse Code Modulation Điều xung mã vi sai

DWT Discrete Wavelet Transform Biến đổi Wavelet rời rạc

EZW Embedded Zerotree Wavelet Wavelet cây zero

HVS Human Visual System Hệ thống cảm nhận hình

ảnh của mắt người

ngược

MRA Multi Resolution Analysis Phân tích đa phân giải

MSE Mean Square Error Sai số bình phương trung

bình

PCM Pulse Code Modulation Điều xung mã

PSNR Peak Signal to Noise Ratio Tỷ số tín hiệu đỉnh trên

nhiễu

QMF Quardrature Mirror Filters Lọc gương cầu tứ phương

RLC Run Length Coding Mã hoá loạt dài

STFT Short Time Fourier Transform Biến đổi Fourier thời gian

ngắn

Trang 7

DANH MỤC CÁC BẢNG BIỂU

Bảng 1.1 Tính chất đều, sự định vị hoặc suy giảm của các wavelet……….…….35 Bảng 3.1 So sánh STFT và WT……….……….………….…56

Trang 8

DANH MỤC CÁC HèNH VẼ, ĐỒ THỊ

Hỡnh 1.1: Ngưỡng mà tại đú cỏc õm thử bắt đầu cú thể phõn biệt được 7

Hỡnh 1.2: Thớ nghiệm với cỏc “masking tones” cú cỏc tần số khỏc nhau 7

Hỡnh 1.3: Thớ nghiệm cho cỏc mức to khỏc nhau của õm thử 8

Hình2.1: Hàm hằng từng mẫu f(t) 19

Hình 2.2: Phổ của các không gian con 19

Hình 2.3:Cơ sở spline tuyến tính (a)hàm tỷ lệ (b) wavelet 27

Hỡnh 2.4 Lấy mẫu hai ngụi thời gian-tần số 31

Hỡnh 2.5 a, Cỏc hệ số bị ảnh hưởng của cỏc giỏ trị hàm ở t0 32

b, Ảnh hưởng của F(t0) 32

Hỡnh 3.1 Hệ thống phõn chia theo hệ số M 36

Hỡnh 3.2 Hệ thống phõn chia theo hệ số M trong miền n 36

Hỡnh 3.3 Hệ thống phõn chia theo hệ số M trong miền tần số 37

Hỡnh 3.4 Hệ thống nội suy 39

Hỡnh 3.5 Hệ thống nội suy với hệ số L trong miền n 40

Hỡnh 3.6 Hệ thống nội suy với hệ số L trong miền tần số 41

Hỡnh 3.7 Cấu trỳc của dóy lọc số phõn tớch 42

Hỡnh 3.8 Cấu trỳc của dóy lọc số tổng hợp 43

Hình 3.9 Định vị tần số của biến đổi wavelet sử dụng wavelet sinc (a) phổ biên độ và các bản ảnh tỷ lệ (b) Độ lớn khác không của biến đổi wavelet liên tục 47

Hình 3.10 Wavelet Morlet (a) miền thời gian (b) phổ biên độ 48

Hỡnh 3.11 Sơ đồ băng lọc số nhiều nhịp hai kờnh 48

Hỡnh 3.12 Sơ đồ phõn tớch một tớn hiệu f bằng biến đổi wavelet rời rạc 52

Hỡnh 3.13 Sơ đồ tổng hợp bằng biến đổi wavelet rời rạc ngược 53

Hỡnh 3.14 Sơ đồ bank lọc thực hiện biến đổi Wavelet 53

Hình 3.15 Biến đổi wavelet hai chiều 55

Hỡnh3.16 Sơ đồ cỏc hệ số biến đổi wavelet hai chiều 55

Trang 9

Hình 3.17 Đáp ứng xung của bộ lọc trực giao hai chiều phân tích / tổng hợp (a)

h0(n), (b) h1(n), (c)g0(n), (d)g1(n) 58

Hình 3.18 Đáp ứng pha của các bộ lọc phân tích / tổng hợp 58

Hình 3.19 Sơ đồ phân tích gói Wavelet 60

Hình 3.20 Hàm ψ (t ) của biến đổi Haar 60

Hình 3.21 Hàm ψ (t ) của biến đổi Meyer 61

Hình 3.22 Hàm ψ (t ) của họ biến đổi Daubechies n với n=2, 3, 7, 8 62

Hình 4.1 Sơ đồ khối mã hóa và giải mã tín hiệu âm thanh 65

Hình 4.2 Cấu trúc dạng cây đa phân giải của băng lọc số phân tích 5 tầng 67

Hình 4.3 Cấu trúc dạng cây đa phân giải của băng lọc số tổng hợp 5 tầng 67

Trang 10

PHẦN MỞ ĐẦU

Sự phát triển trong ngành điện từ sản xuất các thiết bị âm thanh chuyên dụng

và dân dụng đều dựa trên công nghệ số Khi dung lượng lưu trữ và độ rộng kênh truyền số liệu được quan tâm đúng mức, tốc độ dòng số liệu của các tín hiệu âm thanh này sẽ có đủ độ lớn để giữ được mức âm thanh trung thực Tuy nhiên, một khó khăn gặp phải đó là thời gian lưu trữ và giá thành của thết bị sẽ tăng cao Do đó

để giảm giá thành và tốc độ lưu trữ số liệu, một phương pháp đưa ra là nén audio Nguyên tắc chính của các kỹ thuật nén hiện nay là giảm thông tin dư thừa và không cần thiết trong các tín hiệu âm thanh Mã hoá dải con (SBC) được phát minh năm 1980 có ưu điểm nổi bật là nén dữ liệu với hệ số rất lớn nhưng vẫn đảm bảo chất lượng tín hiệu cho phép

Trong thực tế, tuỳ theo mục đích khác nhau ta phải giải quyết mâu thuẫn giữa tỷ lệ nén dữ liệu và chất lượng âm thanh sao cho vẫn đảm bảo về tiêu chuẩn Chính vì vậy, các vấn đề về nén và mã hoá tín hiệu âm thanh trong các thiết bị xử

lý, lưu trữ truyền dẫn là vấn đề đặc biệt được quan tâm đối với ngành truyền thông

Xuất phát từ lý do đó, tôi chọn đề tài “Wavelet và ứng dụng” cho luận văn của

mình

Mục đích nghiên cứu của luận văn là nghiên cứu về biến đổi Wavelet, cơ sở dựa trên phân tích Wavelet đa phân giải, ứng dụng của biến đổi Wavelet trong lĩnh vực nén tín hiệu số, đặc biệt trong các kỹ thuật nén tín hiệu âm thanh

Nội dung luận văn được trình bày bao gồm:

Chương 1: Tổng quan các kỹ thuật nén trong mã hóa âm thanh

Chương 2: Cơ sở lý thuyết biến đổi Wavelet

Chương 3: Biến đổi Wavelet

Chương 4: Ứng dụng nén âm thanh sử dụng biến đổi Wavelet

Phụ lục bao gồm chương trình mô phỏng bằng phần mềm Matlab, các kết quả đạt được trước và sau nén tín hiệu

Trang 11

Trong quá trình làm và hoàn thành luận văn với đề tài: “Wavelet và ứng dụng”, tôi đã có thêm những hiểu biết nhất định về lĩnh vực xử lý tín hiệu số giúp

tôi nâng cao trình độ chuyên môn và phát triển trong những nghiên cứu chuyên môn tiếp theo

Tôi xin chân thành cám ơn thầy giáo PGS.TS Nguyễn Quốc Trung đã quan

tâm hướng dẫn tận tình giúp tôi trong quá trình thực hiện luận văn

Tôi xin chân thành cám ơn các thầy, cô giáo khoa Điện tử viễn thông – Đại học Bách Khoa Hà Nội, đồng cám ơn lãnh đạo trường Đại học Sư Phạm Kỹ Thuật Hưng Yên, các đồng nghiệp khoa Điện – Điện tử đã tạo điều kiện cho tôi trong suốt quá trình học tập và thực hiện luận văn tốt nghiệp

Trong quá trình thực hiện luận văn, tôi đã nỗ lực tìm và nghiên cứu tài liệu liên quan đến đề tài kết hợp với kiến thức tích lũy trong quá trình học tập để hoàn thiện luận văn, tuy nhiên khó tránh khỏi những thiếu sót Kính mong các thầy, cô giáo và bạn bè đồng nghiệp quan tâm đến lĩnh vực này đọc và góp ý nhận xét và phê bình để luận văn của tôi thêm hoàn thiện hơn

Hà Nội, tháng 4 năm 2013

Học viên

Nguyễn Thị Thắm

Trang 12

CHƯƠNG I: TỔNG QUAN CÁC KỸ THUẬT NÉN TRONG MÃ HÓA

1.1.2 Các đặc điểm của thính giác

1.1.2.1 Dải tần đáp ứng phi tuyến mà tai người nghe thấy

Âm thanh là các dao động cơ học (biến đổi vị trí qua lại) của các phân tử,

nguyên tử hay các hạt làm nên vật chất và lan truyền trong vật chất như các sóng

Âm thanh, giống như nhiều sóng, được đặc trưng bởi tần số, bước sóng, chu kỳ, biên độ và vận tốc lan truyền (tốc độ âm thanh)

Đối với thính giác của người, âm thanh thường là sự dao động, trong dải tần

số từ khoảng 16Hz đến khoảng 20kHz, của các phân tử không khí, và lan truyền trong không khí, va đập vào màng nhĩ, làm rung màng nhĩ và kích thích bộ não Tuy nhiên âm thanh có thể được định nghĩa rộng hơn, tuỳ vào ứng dụng, bao gồm các tần số cao hơn hay thấp hơn tần số mà tai người có thể nghe thấy, và không chỉ lan truyền trong không khí, mà trong bất cứ vật liệu nào Trong định nghĩa rộng này,

âm thanh là sóng cơ học và theo lưỡng tính sóng hạt của vật chất, sóng này cũng có thể coi là dòng lan truyền của các hạt phonon, các hạt lượng tử của âm thanh

Cả tiếng ồn và âm nhạc đều là các âm thanh Trong việc truyền tín hiệu bằng âm thanh, tiếng ồn là các dao động ngẫu nhiên không mang tín hiệu

1.1.2.2 Thuộc tính mặt nạ của hệ thống thính giác

Mặt nạ tần số (frequency masking)

Cho dù một thành phần tín hiệu cao hơn mức ngưỡng nghe, thì nó vẫn có thể

bị che khuất bởi các thành phần lớn hơn mà gần tín hiệu đó trong miền tần số Hiện

Trang 13

tượng này gọi là mặt nạ tần số Mỗi một thành phần trong một tín hiệu có thể lấy ra

“phần bóng” qua các thành phần bên cạnh Nấu như thành phần tần số bên cạnh bị che phủ bởi “phần bóng” này thì các thành phần tín hiệu tần số này sã không nghe được Kêt quả là có một thành phần – thành phần che khuât làm dịch ngưỡng nghe

Mặt nạ thời gian

Chỉ khi các tiếng đưa ra vùng các “bóng” lên những thành phân bên cạnh trong miền tần số, thì âm lượng tăng đột biến có thể che khuất âm thanh nhỏ hơn, gần với âm thanh che khuất về mặt thời gian Ở đây, những âm thanh xuất hiện cả trước lẫn sau khi tăng âm lượng có thể bị che khuất

1.2 Phân loại các kỹ thuật nén âm thanh

Nén âm thanh có thể được thực hiện theo một trong 2 cách Cách thứ nhất là

mã hóa dạng sóng, các tín hiệu được biến đổi toán học bằng phép biến đổi wavelet thành các thành phần tần số-thời gian Các biên độ của mỗi thành phần sau đó được

mã hóa Mục tiêu là để tái tạo lại dạng sóng một cách chính xác với số lượng bit mã hóa thấp nhất có thể

Cách thứ 2 là mã hóa dựa trên cảm nhận của các giác quan của con người Ở đây người ta khai thác một số điểm yếu trong hệ thống thính giác của con người để

mã hóa một tín hiệu, đó là mã hóa dựa trên khoa học tâm sinh lý nghe-cách thức con người cảm nhận âm thanh.Chuẩn nén MP3 dựa trên mã hóa cảm nhận này

Đặc tính của mã hóa cảm nhận là một số âm thanh có thể che các âm thanh khác Hãy tưởng tượng bạn thổi sáo trong một ngày mùa hè ấm áp Sau đó đột ngột

có một nhóm thợ gần đó bật búa khoan và bắt đầu phá mặt đường Khi đó không ai

có thể nghe được sáo nữa Âm thanh của tiếng sáo đã bị che bởi âm thanh của tiếng búa Do vậy để mã hóa chỉ cần tần số bằng tần số của búa bởi vì không thể nghe được tiếng sáo Đây gọi là che tần số(frequency masking)-khả năng một âm thanh lớn trong một băng tần số sẽ che những âm thanh có tần số thấp hơn và do vậy chỉ nghe được những âm thanh có tần số lớn hơn Trong thực tế ngay cả khi âm thanh của tiếng búa ngừng cũng không thể nghe thấy âm thanh của tiếng sáo trong một

Trang 14

khoảng thời gian ngắn Hiện tượng này được gọi là che thời gian(temporal masking)

1.2.1 Giải thuật nén mất dữ liệu và không mất dữ liệu

1.2.1.1 Giải thuật nén không mất dữ liệu

Nén không mất dữ liệu cho phép khôi phục lại dòng bit những thông tin nguyên thủy

sau bộ giải nén mà không gây ra tổn hao

* Mã hóa số học

Dùng mô phỏng: bắt đầu bằng việc đoán tần số của một ký hiệu Cập nhật tần số cho mỗi ký hiệu mới

* Giải thuật Lempel-Ziv-Welch (LZW)

LZW là một phương pháp nén được phát minh bởi Lempel - Ziv và Welch

Nó hoạt động đựa trên một ý tưởng rất đơn giản là người mã hoá và người giải mã cùng xây dựng bảng mã Bảng mã này không cần được lưu kèm với dữ liệu trong quá trình nén, mà khi giải nén, người giải nén sẽ xây dựng lại nó

Ưu điểm của phương pháp nén LZW là bên nhận có thể tự xây dựng bảng

mã mà không cần bên gửi phải gửi kèm theo bản tin nén

Nhược điểm của thuật toán này là tốn nhiều bộ nhớ, khó thực hiện dựa trên các mảng đơn giản (bé hơn 64KB)

1.2.1.2 Giải thuật nén có mất dữ liệu

Trang 15

* Nén âm thanh dùng mô hình âm tâm lý

“Ngưỡng nghe”: “Ngưỡng nghe” : là mức mà dưới nó 1 âm thanh không thể

nghe được Nó thay đổi theo tần số âm thanh, và dĩ nhiên giữa mỗi người khác nhau Hầu hết mọi người đều nhạy cảm ở mức 2 đến 5 kHz Một người có nghe được âm thanh hay không tùy thuộc vào tần số của âm và độ to của âm đó ở trên hay dưới ngưỡng nghe tại tần số đó Tai nhạy cảm ở mức 2 đến 5 kHz

Ngưỡng nghe cũng có tính thích nghi, thay đổi cố định bởi âm thanh mà ta nghe được Ví dụ, một cuộc nói chuyện bình thường trong một phòng thì có thể nghe được rõ ràng ở điều kiện bình thường Tuy nhiên, cũng cuộc trò chuyện đó nằm trong vùng lân cận của những tiếng ồn lớn, như là tiếng ồn do một chiếc phản lực bay ngang bên trên, là hồn tồn không thể nghe được do lúc này ngưỡng nghe đã

bị sai lệch Khi chiếc phản lục đã đi rồi thì ngưỡng nghe trở lại bình thường Âm thanh mà ta không thể nghe được do sự thích nghi động của ngưỡng nghe gọi là bị

“che” (masked)

Hiệu ứng che (masking): là âm lớn át âm bé, âm mạnh át âm yếu

Che tần số (Frequency Masking):

Thí nghiệm:

- Phát ra 1 âm có tần số 1 kHz với mức to cố định là 60dB, gọi là “âm che” (masking tone) Phát ra một âm khác (gọi là test tone) ở mức tần số khác (ví dụ 1.1kHz), và tăng mức to của âm này cho đến khi có thể nghe được nó (phân biệt được âm 1.1 kHz và âm che 1kHz)

- Làm lại thí nghiệm với các âm thử (test tone) và vẽ ra một ngưỡng mà tại đó các

âm thử bắt đầu có thể phân biệt được:

Trang 16

Hình 1.1: Ngƣỡng mà tại đó các âm thử bắt đầu có thể phân biệt đƣợc

Làm thí nghiệm với các “masking tones” có các tần số khác nhau, ta có đƣợc hình vẽ:

Hình 1.2: Thí nghiệm với các “masking tones” có các tần số khác nhau

Che nhất thời (che thời gian)

Nếu ta nghe một âm thanh lớn, rồi ngƣng nó lại, mãi một lúc sau ta mới có thể nghe đƣợc một âm lân cận nhỏ hơn

Thí nghiệm: phát ra một âm che “masking tone” có tần số 1kHz ở mức 60dB, kèm một âm thử (test tone) 1.1kHz ở mức 40dB Ta không nghe đƣợc âm thử này (nó đã bị che)

Dừng âm che lại, đợi một lúc (delay time) ta dừng tiếp âm thử (test tone)

Trang 17

Điều chỉnh thời gian delay để cho ta vừa có thể nghe đƣợc âm chủ (ví dụ khoảng 5ms)

Lặp lại thí nghiệm cho các mức to khác nhau của âm thử, ta vẽ đƣợc đồ thị sau:

Hình 1.3: Thí nghiệm cho các mức to khác nhau của âm thử

“Ngƣỡng che” (Threshold masking): sinh ra từ hiệu ứng che, mỗi âm với một

Định nghĩa một đơn vị mới cho tần số là bark ( Barkhausen)

1 Bark = bề rộng của băng giới hạn:

- Tần số <500Hz : 1 bark = freq/100

- Tần số >500Hz : 1 bark = 9 + 4log(freq/1000)

Nghiên cứu thử nghiệm cho thấy: độ nhạy của tai khác nhau đối với các thành phần tần số khác nhau, nên có thể lợi dụng điều này để lƣợng tử hóa tín hiệu audio với số bit khác nhau cho mỗi băng con, dẫn đến số bit trung bình giảm xuống

* Mã hóa dải con [5],[7],[3]

Trang 18

Bộ mã hóa dải con M kênh, mỗi kênh có một hệ số phân chia ni 1) Tổ hợp [n0, n1, nM-1], gọi là tổ hợp phân chia Thành phần chính trong SBC

(i=0,1, M-là băng lọc nhiều nhịp phân tích và tổng hợp Trong mỗi băng lọc có 1bộ lọc thông thấp, 1 bộ lọc thông cao và M-2 bộ lọc thông dải Bộ lọc phân tích chia dải tần của tín hiệu vào thành các dải con Băng lọc tổng hợp có nhiệm vụ khôi phục lại dải tần tín hiệu vào từ các dải con

Nguyên lý mã hóa dải con

Mã hóa dải con là thuật toán được áp dụng để nén tín hiệu âm thanh, thuật toán dùng mô hình tâm lý thính giác để lượng tử hóa thích nghi chỉ những thành phần tai người nghe được Những thành phần tín hiệu dưới ngưỡng nghe tuyệt đối hoặc bị che bởi tín hiệu lớn hơn thì không được mã hóa

Tín hiệu âm thanh trong miền thời gian, được lấy trên những khoảng ngắn liên tiếp, đưa vào băng lọc số Băng lọc số phân chia dải tần tín hiệu thành một số dải con nhất định

Độ rộng và phân bố của các dải con càng gần với các dải tới hạn của tai người càng tốt Đồng thời các tín hiệu dải con lần lượt được đưa vào mô hình tâm

lý thính giác Mô hình tâm lý thính giác đánh giá phổ của từng dải con, sau đó so sánh với ngưỡng nghe để loại bỏ các thành phần mà tai người không nghe thấy

Các thông số kỹ thuật của mã hóa dải con

- Số kênh

- Tổ hợp phân chia

- Số bít trung bình trên một mẫu

- Lỗi khôi phục

* Nén âm thanh theo chuẩn MPEG[6],[10]

Thuật toán nén âm thanh theo chuẩn MPEG bao gồm 3 bước:

Bước 1: Tín hiệu audio PCM được chuyển sang miền tần số, toàn bộ dải phổ của nó

được chia thành 32 băng con thông qua bộ lọc băng con

Bước 2: Với mỗi băng con ta xác định mức biên độ tín hiệu và mức nhiễu bằng mô

hình tâm sinh lý nghe Đây là thành phần chính của bộ mã hóa MPEG audio và

Trang 19

chức năng của nó là phân tích tín hiệu vào Mô hình tâm sinh lý nghe xác định tỷ lệ signal- mask cho mỗi băng

Bước 3: Mỗi băng con đó được lượng tử hóa thông qua lượng tử các thành phần

nghe thấy trong mỗi băng Nó đi kèm với mã Huffman để mã hóa các giá trị phổ tín hiệu và cho nén số liệu tốt hơn và định dạng số liệu

- Chuẩn nén MPEG -1

- Chuẩn nén MPEG -2

1.2.2 Nén đối xứng và không đối xứng

Các kỹ thuật nén có sự tham gia của một lượng xử lý nào đó để nén dữ liệu

và sau đó lượng xử lý cần nhiều hơn để giải nén dữ liệu ở đầu cuối của hệ thống Các quá trình này thường cần tới số lượng và tần số lần tham gia rất đáng kể của phần cứng cũng như phần mềm để thực hiện mỗi quá trình Nén đối xứng có nghĩa

là quá trình nén và giải nén gần bằng nhau về lượng tham gia của phần cứng, phần mềm và thời gian xử lý

Tuy nhiên thuật toán đối xứng hoạt động trên một hệ thống nhỏ phải đặt giới hạn cho độ phức tạp của hệ thống được sử dụng Như sẽ thấy sau này, hiệu quả của nén có thể được cải thiện bằng cách sử dụng những thuật toán phức tạp hơn, thậm chí ngay khi giải nén được thực hiện trên một hệ thống nhỏ Điều này dẫn đến khả năng xảy ra các thuật toán không đối xứng, tức là quá trình nén yêu cầu một hệ thống lớn, chuyên dụng và có thể không hoạt động trong thời gian thực, nhưng quá trình giải nén lại được thực hiện trong thời gian thực, trên một hệ thống nhỏ có giá thành thấp Nén không đối xứng rất quan trọng đặc biệt trong các hệ thống phát lại chúng như truyền hình quảng bá hay CD-ROM Nhiều khi nén có thể được thực hiện trước hệ thống lớn, được lưu trữ và sao chép để sau này phân phối cho các phương tiện truyền tới người sử dụng

1.2.3 Mã hóa audio theo chuẩn MPEG

Từ năm 1988, tổ chức ISO/MPEG đảm trách việc tiêu chuẩn hóa các kỹ thuật nén âm thanh và hình ảnh

Trang 20

MPEG viết tắt của cụm từ””Moving Picture Experts Group, là một nhóm chuyên nghiên cứu phát triển các tiêu chuẩn về hình ảnh số và nén âm thanh theo chuẩn ISO/IEC

MPEG mô tả nén tín hiệu âm thanh sử dụng các mô hình nén theo nhận thức, đưa ra một hệ với ba mô hình nén âm thanh đơn giản là Layer I, Layer II và Layer III theo mức độ tăng lên của độ phức tạp và khả năng thực hiện(chất lượng âm thanh theo dòng bit) của bộ mã hóa Ba bộ mã hóa này tương thích với nhau theo cách có thứ tự, có nghĩa là bộ giải mã Layer N có khả năng giải mã dòng dữ liệu được mã hóa trong Layer N và tất cả các Layer thấp hơn N

Đối với mỗi Layer, tiêu chuẩn nêu chuẩn dòng bít và bộ giải mã Tất cả các Layer

sử dụng cùng cấu trúc Mô hình mã hóa có thể được mô tả như định dạng nhiễu nhận thức hay chuyển đổi mã hóa băng phụ theo nhận thức Bộ mã hóa phân tích thành phần phổ của tín hiệu âm thanh bằng cách tính dải lọc và áp dụng mô hình âm thanh cảm nhận để xác định mức nhiễu có thể nghe thấy Trong giai đoạn lượng tử hóa và mã hóa, bộ mã hóa sẽ cố gắng để chỉ rõ số bít dữ liệu cần để đáp ứng cả yêu cầu dòng bít và hiện tượng che lấp Bộ giải mã đơn giản hơn, nhiệm vụ chính là tổng hợp tín hiệu âm thanh từ các thành phần phổ đã được mã hóa

Tất cả các Layer:

- Dùng chung cấu trúc bộ lọc dải filerband

- Dùng chung thông tin của phần đầu header information trong dòng dữ liệu

- Đều có khả năng nhạy đối với lỗi bít tương tự nhau, sử dụng cùng cấu trúc dòng bít với các phần nhạy với lỗi bit(“header”, “bit location”, “scale factor”, “side information”) và các phần ít nhạy hơn (dữ liệu về các thành phần phổ”data of spectral components”)

- Hỗ trợ khả năng chèn các thông tin về chương trình vào dòng dữ liệu âm thanh

- Có thể sử dụng tần số lấy mẫu là 32, 44.1 hoặc 48kHz

- Cho phép hoạt động với các dòng bít giống nhau

MPEG1: Đây là chuẩn của VideoCD và đĩa CD-I (Compact Disc – interactive, đĩa

CD tương tác) Nó được thiết kế để mã hóa video với tốc độ khoảng 1,5 triệu

Trang 21

bit/giây Với tốc độ truyền tải đồng bộ video và audio 150KB/s, nó tương đương với tốc độ của ổ CD-ROM 1x MPEG-1 cho video có độ phân giải 353x240 pixels với tốc độ 30 khuôn hình một giây (fps) Tuy nhiên, chất lượng của nó hơi kém hơn

so với băng video VCR và kém xa chất lượng tivi chuẩn

MPEG2: Nó chia thành hai cấp: cao nhất là DVD Video và thấp hơn một chút là

SuperVCD (SVCD) Nó mã hóa video với tốc độ dày ken (interlaced video) bắt chóng mặt hơn 4 triệu bit/giây MPEG-2 cũng được dùng trong truyền hình kỹ thuật

số MPEG-2 cho video có độ phân giải 720x480 và 1280x720 pixel với tốc độ 60fps

và âm thanh đạt chất lượng AudioCD Chuẩn này có thể nén một bộ phim dài 2 giời thành một file có dung lượng vài GB

MPEG3: Chuẩn này ban đầu được tính dành cho truyền hình độ phân giải cao

(HDTV) Nhưng cuối cùng nó lại được sát nhập với chuẩn MPEG-2 khi các chuyên gia xác định rằng chuẩn MPEG-2 đủ sức đáp ứng được các yêu cầu của HDTV

MPEG4: Đây là chuẩn nén video giàu tham vọng nhất Các chuyên gia muốn huy

động các yếu tố như sự tổng hợp thoại và hình, hình học bất quy tắc, trực quan máy tính và trí thông minh nhân tạo (AI) để tái tạo lại các hình ảnh

MPEG-4 tạo ra một bước ngoặc mới cho truyền thông video Trước nay, trên mạng Internet, người ta chỉ có thể xem phim với các định dạng rút gọn tới mức não lòng (xem bằng Real, Quick Time, Windows Media Player, ) Với kỹ thuật nén MPEG-4, người ta có thể thưởng thức các bộ phim điện ảnh chất lượng cao trên mạng Internet, đặc biệt là qua các giao thức băng rộng Wireless, vệ tinh, ADSL, MPEG-4 là chuẩn thuật toán đồ họa và video dựa trên hai chuẩn MPEG-1, MPEG-2 và công nghệ QuickTime của Apple Nhờ có kích thước nhỏ hơn và tốc độ truyền tải thấp hơn, MPEG-4 có thể truyền qua một băng thông hẹp hơn, có thể trộn video với text, đồ họa, các lớp 2D và 3D động, Nó đã được tổ chức ISO công nhận vào tháng 10-1998

MPEG-4 được coi là một cuộc cách mạng mới trong media số Nó là chuẩn multimedia toàn cầu thế hệ kế tiếp Nó được thiết kế để truyền tải video với chất lượng DVD (MPEG-2) qua mạng

Trang 22

1.3 Tiêu chuẩn đánh giá chất lượng mã hóa âm thanh

Khi đánh giá chất lượng của âm thanh nén nó cũng thuận tiện để phân biệt giữa các tín hiệu giọng nói và tín hiệu âm thanh / âm nhạc nói chung Mặc dù tín hiệu tiếng nói có phương pháp chi tiết hơn để đánh giá chất lượng của một tín hiệu nén (như test dễ hiểu), cả âm thanh / âm nhạc và lời nói chia sẻ một trong những phương pháp phổ biến nhất: chấp nhận được kiểm tra Những thử nghiệm này là cách chung nhất để đánh giá chất lượng của một tín hiệu âm thanh / lời nói, và chúng chủ yếu được xác định bằng cách yêu cầu người dùng ưu tiên đối với cách phát âm khác nhau Trong số những bài đánh giá, thử nghiệm Mean Opinion Score (MOS) là một trong những phương pháp được sử dụng nhiều nhất Đó là một phép

đo chính có nguồn gốc hoàn toàn bởi những người nghe các tín hiệu và ghi các kết quả từ 1 đến 5, với một ý nghĩa 5 phát biểu chất lượng là hoàn hảo hay "minh bạch" Các bước kiểm tra đòi hỏi phải có các điều kiện đo kiểm chuẩn bị kỹ lưỡng

và được kiểm soát "Chất lượng minh bạch" có nghĩa là hầu hết các mẫu thử nghiệm không thể phân biệt từ bản gốc đối với hầu hết người nghe Thuật ngữ này được xác định bởi Liên minh phát thanh truyền hình châu Âu (EBU) vào năm 1991 và thống

kê được thực hiện chính thức trong bài kiểm tra nghe từ đó đến nay

Trang 23

CHƯƠNG II: CƠ SỞ LÝ THUYẾT BIẾN ĐỔI WAVELET

Lần đầu tiên wavelet đã được Haar tìm ra, nhưng cấu trúc chung của các wavelet để hình thành cơ sở cho các hàm trung bình bình phương đã được phát minh từ trước đó từ lâu với các thuật toán hiệu quả để tính toán khai triển Cũng thời gian đó, ứng dụng của kỹ thuật này trong xử lý tín hiệu được phát triển

Bên cạnh vấn đề cơ bản là khai triển hàm tuyến tính, wavelet cho sự đa phân giải về thời gian và tần số rất tốt Tính năng này rất quan trọng đối với việc phân tích các tín hiệu không tĩnh Trong khi các hàm Fourier cơ bản được cho ở dạng khép kín thì nhiều wavelet có thể thu được chỉ qua một thủ tục tính toán Việc sử dụng một thủ tục tính toán để khai triển tín hiệu trên dữ liệu thật thì tốt hơn là biểu thức dạng khép kín

Trong xử lý tín hiệu người ta phát hiện ra cách thức giải tích Fourier địa phương trên cơ sở hàm nguyên đơn, sự dịch chuyển và tỷ lệ của nó Sự điều chế bởi hàm mũ phức trong biến đổi Fourier được thay thế bởi sự tỷ lệ và thay thế tần số Tính đơn giản của giản đồ wavelet đã và đang xuất hiện, các nhà nghiên cứu khoa học đang nghiên cứu wavelet như là một phương pháp để thay thế cho Fourier Sự chính thức hoá một vài cấu trúc của Mallat và Meyer đã tạo ra cơ chế khai triển wavelet gọi là phân tích đa phân giải và thành lập liên kết với các phương pháp đã

sử dụng trong các lĩnh vực khác Cũng vậy cấu trúc wavelet của Daubechies cũng kết nối chặt chẽ với các phương pháp bank lọc được sử dụng trong xử lý số tín hiệu

Wavelet là các hàm cơ sở jk(t) trong miền thời gian liên tục Một cơ sở là một tập hợp các hàm độc lập tuyến tính mà có thể dùng để tạo ra các hàm f(t)

f(t) = tổ hợp của các hàm cơ sở = 

k j

jk

jk t b

,

) (

 (2.1)

Đặc tính đặc biệt của cơ sở wavelet là tất cả các hàm jk(t) đều được xây dựng từ một hàm wavelet mẹ (t) Wavelet này là một sóng (một xung) nhỏ Thông thường nó bắt đầu ở thời điểm t = 0 và kết thúc ở thời điểm t = N

Trang 24

Wavelet đã được trễ đi 0k bắt đầu ở t = k và kết thúc ở t = k + N Các wavelet được tỷ lệ j0 thì bắt đầu từ t = 0 và kết thúc ở t = N/2j Đồ thị của chúng được nén lại với hệ số là 2j

, trong khi đồ thị của 0k thì lại được dịch đi (về bên phải) một lượng là k:

Nén: j0 = (2jt) Trễ: 0k = (t-k)

Một wavelet điển hình jk vừa bị nén j lần và vừa bị làm trễ đi k lần có công thức như sau:

jk(t) = (2jt - k) (2.2) Wavelet có một tính chất quan trọng đó là tính trực giao (orthogonality) Các wavelet trực giao khi tích vô hướng (inner product) của chúng bằng không:

ωjk JK tích vô hướng của ωjk và ωJK  0 (2.3) Trong trường hợp này thì các wavelet đó sẽ có một cơ sở wavelet trực giao đối với không gian hàm Cơ sở đó tương ứng với một tập hợp của các trục tạo với nhau một góc 900 Tính trực giao dẫn đến một công thức đơn giản hơn đối với mỗi

hệ số bJK trong công thức mở rộng của f(t) Nhân f(t) trong phương trình (2.1) với

fJK JKJK 2 (2.4) Phương trình (2.3) giới hạn tất cả các tích phân của jk nhân với JK, trừ trường hợp j = J và k = K Thành phần đó tạo ra (JK(t))2 Khi đó bJK là tỷ số của hai tích phân trong phương trình (2.4)

2.1 Các Wavelet Daubechies

Hiện nay wavelet vẫn đang là một chủ đề nóng nhưng wavelet Haar thì đã được người ta biết đến từ năm 1910 Đồ thị của chúng được tạo thành từ các mảnh phẳng, và sự xấp xỉ đối với hầu hết các tín hiệu rất hạn chế Chúng ta cần có nhiều mảnh phẳng để có thể biểu diễn một đường nghiêng với độ chính xác tốt nhất Mặt

Trang 25

khác các cơ sở của chúng thì lại không cho phép nén theo tỷ lệ lớn 20:1 hoặc 100:1 như mong muốn, cho nên chúng ta cũng cần phải chọn một cơ sở tốt nhất

Các wavelet mới thì càng phức tạp hơn và công thức của chúng là một tích

vô hạn, nhưng cuối cùng thì các nhà toán học cũng vẫn phải tìm ta chúng Năm

1988 trong phòng thí nghiệm ở AT  T Laboratories, Ingrid Daubechies đã tìm ra một xung mà có điểm bắt đầu và điểm kết thúc và điều quan trọng là nó trực giao với tất cả các bản ảnh tỷ lệ và bản ảnh trễ của nó Nó dựa trên cơ sở là bốn số “thần kỳ” : h0, h1, h2, h3 Bà sử dụng véctơ tỷ lệ S = (h0, h1, h2, h3) và wavelet W = (h3, -

h2, h1, -h0) Chúng ta thấy ngay là hai vectơ đó trực giao với nhau Bằng cách thực hiện các phép nhân và phép cộng thì tích thấy S.W=0 Bà cũng muốn (1,1,1,1) và (1,2,3,4) có thành phần bằng không theo W, bởi vậy các tín hiệu tuyến tính và tín hiệu không đổi có thể được nén Khi đó tích của chúng phải bằng không, nghĩa là:

h3 - h2 + h1 - h0 = 0 và h3 - 2h2 + 3h1 - 4h0 = 0

Ở đây chúng ta chỉ có hai phương trình đối với các biến h, tuy nhiên chúng ta cần nhiều hơn nữa Phương trình thứ ba sẽ tạo ra (h3, -h2, h1, -h0, 0, 0) trực giao với (0, 0, h3,-h2,h1,-h0) Khi đó phải có tích của chúng là h1h3+h0h2 = 0 Và phương trình thứ tư h0+h1+ h2+ h3 = 2 sẽ cho phép tính các giá trị của h Daubechies đã giải bốn phương trình và tìm ra các số cho một bộ lọc tốt hơn Haar:

314,334,334,

 th0 2th12t1h22t2h32t3

(2.5) Thay t = 1 và t = 2 vào phương trình trên để tìm (1) và (2) Khi đó phương

trình cho ta  ở t =

2

5,2

3,21

bởi vì với 2t thì các số ở bên phải là một số nguyên Từ

Trang 26

Khi Fourier sử dụng sóng cosine và Haar sử dụng sóng vuông thì Daubechies lại bắt đầu bằng các hàm tỷ lệ Wavelet (t) của Daubechies có cùng các giá trị bên phải như ở phương trình trên nhưng với các hệ số là h3, -h2, h1, -h0 Đồ thị của nó thì không đều đặn Việc nén và dịch nó sẽ tạo ra cơ sở wavelet hoàn hảo Nhưng tất cả các tính toán đều quay lại với bốn hệ số h

2.2 Phân tích đa phân giải (Multiresolution analysis)

Nhiều chuyên gia nghiên cứu trong các lĩnh vực khác nhau đều mong muốn tìm ra các giải thuật thiết thực để phân tích các hàm tuỳ ý thành tổng của các hàm riêng có các ưu điểm của các hệ thống Fourier và hệ thống Haar Mỗi hệ thống này đều có hạn chế:

- Các hàm của hệ thống lượng giác được định vị bởi tần số, nhưng không định vị chính xác theo không gian

- Các hàm ở hệ thống Haar thì định vị hoàn toàn theo không gian nhưng không định

vị theo tần số

“Theo lý thuyết thông tin, biểu diễn một tín hiệu phù hợp với sự xếp chồng các xử lý wavelet cơ bản theo cả định vị tần số và định vị thời gian Thật vậy, thông tin thích hợp thường được mang đồng thời cả theo tần số và cấu trúc thời gian của tín hiệu Biểu diễn tín hiệu như là một hàm thời gian không nói lên được biến tần

số, trong khi biểu diễn Fourier thì lại dấu đi thời điểm phát và thời gian tồn tại của tín hiệu Một sự biểu diễn đầy đủ phải tổ hợp được các ưu điểm của cả hai phương pháp trên, nó cũng phải ở dạng rời rạc phù hợp với lý thuyết về thông tin”

Các biến đổi wavelet tạo ra một lớp mở rộng trực giao mới của các hàm trong L2(R) với các tính chất đều, xấp xỉ và định vị tốt theo cả thời gian và tần số Nói một cách ngắn gọn, các wavelet thành công hơn ở chỗ biến đổi Fourier cửa sổ không đáp ứng được một hệ thống trực chuẩn hoàn hảo của các hàm định vị trong

R Ngược lại với chuỗi Fourier có các hệ số mang tính chất toàn cục trong hàm thì

Trang 27

các hệ số trong phương trình mở rộng wavelet là những con số địa phương Hơn

nữa trong khi các thành phần trong chuỗi Fourier biểu diễn các tín hiệu gốc tuyến

tính theo tần số thì các thành phần trong phương trình mở rộng wavelet được

khoanh vùng theo các khối tỷ lệ hàm mũ trong miền tần số

Các biến đổi wavelet đạt được sự định vị không gian - pha thông qua sự phân

tích tỷ lệ - thời gian Các hàm được biểu diễn bằng sự xếp chồng các thành phần

dạng (2jx-k), ở đó các thành phần với j lớn thì biểu diễn các hàm chu kỳ ngắn,

định vị trong không gian bằng tham số trễ k Mỗi hàm f  L2(R) có phương trình

c x

Các hàm j,k x 2j/22j xk xác định một cơ sở trực giao đối với L2(R)

bao gồm cả các bản ảnh trễ và tỷ lệ của wavelet mẹ  Trong phân tích wavelet, sự

phân tích tỷ lệ - tần số được thay thế bằng sự phân tích tỷ lệ - dãn vì cơ sở wavelet

định vị theo cả không gian và tần số nên các phương trình mở rộng wavelet biểu

diễn một hybrid của các phương pháp định vị không gian, như là xấp xỉ spline, và

các mở rộng miền tần số như chuỗi Fourier

Chúng ta có một cách thức mới để phân tích dựa trên việc dãn và trễ

2.2.1 Định nghĩa

Một phân tích đa phân giải trực giao là sự phân tích một tín hiệu s(t) thành

các thành phần ở các tỷ lệ (tần số) khác nhau (2j, j nguyên) Kết hợp với mỗi tỷ lệ

(dải tần) là một không gian con kín Vj , j  Z, các không gian con này là các hàm

thời gian thoả mãn các điều kiện sau:

1 Vj Vj+1 với mọi j  Z (2.7)

Với ̅̅̅̅̅ (2.8)

⋂ (2.9)

Trang 28

2 f(x)  Vj nếu và chỉ nếu f(2jx)  V0 (2.10)

3 Nếu f(x)  Vj thì f(x - k)  Vj với mọi k Z (2.11)

4 Tồn tại một hàm  L2(R), gọi là hàm tỷ lệ, sao cho

{k(x) (x-k);k Z}là một cơ sở trực chuẩn của V0 (2.12)

Một ví dụ đơn giản nhất về xấp xỉ đa phân giải do Alfred Haar đề xuất Với 

là hàm đặc trƣng của khoảng đơn vị ,  = [0,1), các hàm j,k mở rộng tập hợp của tất

cả các hàm có giá trị trên các khoảng dyadic Haar nhận thấy các hàm này có thể

Trang 29

Pr là hình chiếu trực giao của f(x) lên

Vj thì (2.8) cho thấy là oj f x

j V j

3 Hàm (x) trong (2.12) được gọi là hàm tỷ lệ (scaling function)

4 Việc sử dụng công thức Poisson, tính trực giao của {k(x) (x-k); k

 Z} trong (2.12) tương đương với phương trình sau trong miền Fourier:

x (2.14) Chú ý là khi chuẩn hoá thì g0 k 1vµg0 k  2  xk  ,x Lấy biến đổi Fourier cả hai vế ta được:

Trang 30

dx e

x e

n g 2 1

dx e

e x 2

1 n g 2

dx e k x 2 k g 2 dx e x

2 j 0 k

x 2 j k

2 j 0 k

2 k j 2 x j 0

k

x j 0

x j

n j j

e k g e

Hàm này đặc trƣng cho phân tích đa phân giải Đó là hàm tuần hoàn chu kỳ

2 và có thể xem là biến đổi Fourier của một bộ lọc thời gian rời rạc g0(k) Nhận xét này liên kết thời gian rời rạc và liên tục, và cho phép xây dựng cơ sở wavelet thời gian liên tục bắt đầu từ các bộ lọc lặp rời rạc Nó cũng cho phép tính toán các mở rộng wavelet thời gian liên tục sử dụng các giải thuật thời gian rời rạc

Một tính chất quan trọng của G0(ej) là:

0 j 2  0 j    2 2

e G e

12

2

1

122

12

2 0

2 2

0 2

2 0

2 2

1 2 0 2

2 2 0

2 2

0

đpcm e

G e

G

n e

G n

e G

n e

G n

e G

n e

G

j j

j j

n j n

Ñ n

n j

Trang 31

2.2.2 Xây dựng wavelet

Ta thấy là một phân tích đa phân giải được đặc trưng bởi một hàm G0(ej)

tuần hoàn chu kỳ 2 Các điều kiện (2.7-2.12) để đảm bảo sự tồn tại của cơ sở của

các không gian xấp xỉ Vj Điểm quan trọng của phân tích đa phân giải được nhấn

mạnh trong định lý dưới đây Chúng ta sẽ chứng minh định lý và xét ứng dụng của

nó trong việc xây dựng các wavelet

Định lý: Một chuỗi bất kỳ thoả mãn các điều kiện (2.7-2.12), thì tồn tại một

cơ sở trực chuẩn của L2

(R):

j k x  j  j tkj kZ

,2

2 2

sao cho {j,k}, kZ là một cơ sở trực chuẩn của Wj, ở đó Wj là thành phần

trực giao của Vj trong Vj+1

Để chứng minh định lý này trước hết chúng ta phải thiết lập một cặp cơ sở

quan trọng Đầu tiên ta định nghĩa Wj là thành phần trực giao của Vj trong Vj+1 Nói

cách khác:

Vj+1 = Vj + WjBằng cách lặp lại quá trình và sử dụng (2.8) ta có:

L  R Wj

Z j

Mục đích của chúng ta ở đây là xây dựng wavelet (t)  W0 sao cho (t-k),

với k  Z, là một cơ sở trực chuẩn của W0 Nếu ta có một wavelet như thế thì nhờ

tính chất tỷ lệ j,k(t) sẽ là một cơ sở trực chuẩn của Wj Nói cách khác cùng với các

tính chất hoàn hảo upward/downward thì {j,k} là một cơ sở của L2(R) Do đó

chúng ta bắt đầu xây dựng wavelet (t) sao cho  W0 V1 Vì   V1 nên:

g 2

t

(2.20)

Trang 32

biến đổi Fourier cả hai vế ta đƣợc:

l

k j

l l

j l

l j l

j

l e

G l

e G

l e

G l e

G

0 1 2 2 1

2 2 2

1

2 2 2

2 2

1

* 1 2 2

* 0 1

2 2 1

* 2 2

* 0 2

2 1

l

j j

l e

G e

G l

e G e

Tổng () bằng 1 và do đó:

   1 1   1  *  1  0

0 1

* 0

e G e

G e

G e

điều này cũng cho thấy đƣợc sự liên kết giữa thời gian rời rạc và thời gian liên tục Ta thấy G0(ej) và G0(ej(+)) không thể đồng thời bằng không đƣợc, nghĩa là:

   j  j  j    

e G e e

ở đó (ej) là một hàm tuần hoàn chu kỳ 2 và:

Trang 33

(ej) + (ej+) = 0

có thể chọn (ej) = -ej ta được:

 j   j  j    

e G e e

G1 0* (2.24) hoặc trong miền thời gian

n

j j

n t n

g t

e G e

211

2

22

1

0

2

* 0 2

2.3 Xây dựng wavelet sử dụng kỹ thuật Fourier

Trước đây chúng ta mới chỉ xét về việc xây dựng cơ sở trực giao theo cấu trúc đa phân giải Bây giờ sẽ tập trung vào phương pháp xây dựng cơ sở trực giao trong miền Fourier Đầu tiên wavelet của Meyer được đề xuất và cho thấy từng bước kiểm tra các điều kiện đa phân giải Sau đó các wavelet của các không gian spline được xây dựng

2.3.1 Wavelet Meyer

ý tưởng của wavelet Meyer là làm mềm trường hợp sinc Việc chứng minh là

để xây dựng một hàm tỷ lệ (t) thoả mãn tính trực giao và các yêu cầu tỷ lệ của phân tích đa phân giải và sau đó xây dựng wavelet sử dụng phương pháp chuẩn Để làm mềm hàm tỷ lệ sinc thì phải tìm một hàm bằng phẳng (theo tần số) thoả mãn (2.11)

Từng bước một chúng ta sẽ xây dựng: đầu tiên là hàm tỷ lệ và sau đó là wavelet liên hợp

Trang 34

Bắt đầu với một hàm không âm (x) khả vi theo thời gian sao cho:

11

00

(2.26)

và thoả mãn (x) + (1-x) = 1 với 0 x  1 Tồn tại các lựa chọn khác nhau

đối với (x), một trong số đó là:

x

x x

11

10

23

00

3 2

 (2.27) Xây dựng hàm tỷ lệ () sao cho:

32

02

32

{(t-n)}n  Z là một họ trực chuẩn của L2(R) Từ công thức Poisson ta thấy:

2.3.2 Các wavelet trực chuẩn của các không gian Spline

Chúng ta áp dụng các phương pháp đã được mô tả để xây dựng các wavelet

cho các không gian của các hàm đa thức từng đoạn (piecewise polynomial) Chúng

ta bắt đầu với một ví dụ đơn giản về spline tuyến tính được cho bởi:

11

2 2

Trang 35

d e

d k e

b

N N

N jn

Z k

N jn

2

21

22

2 1 cos 3

1 3

2 6

1 6

1 3

e e

2sin

là một hàm tỷ lệ trực chuẩn của không gian spline tuyến tính V0(1) Nhận xét

từ biến đổi Fourier ngược của hàm tuần hoàn chu kỳ 2 (1-(2/3)sin2(/2))1/2, ứng với chuỗi {an}, cho thấy (t) có thể được viết dưới dạng tổ hợp tuyến tính của {(1)

Cơ sở spline tuyến tính được minh hoạ như hình vẽ:

Trang 36

12

1e

2

j 0

sin3

21

2

sin3

212cos2e

(a)

0-0,5

0,511,5

(b)

Trang 37

21

4

cos3

214sin

2 1 2

2 2

2 2

212

sin3

21

4

cos3

21

4

4sin

n t n

q

(2.38)với chuỗi q(n) là biến đổi Fourier ngược của Q()

Với việc xây dựng như trên chúng ta đã có được một cơ sở trực chuẩn cho

V0(1) và W0(1) là tập hợp các hàm {(t-n) và (t-n)} Có thể thấy là hàm tỷ lệ (scaling function) và wavelet bị suy giảm theo hàm mũ Lý do bắt đầu từ (t) là một

 trong đó k = [t] {k} là đáp ứng xung của một bộ lọc

ổn định bởi vì nó không có các điểm cực ở trong vòng tròn đơn vị Do đó chuỗi k

suy giảm theo hàm mũ và tạo nên hàm (t) Nhận xét tương tự đối với hàm (t) Trong khi (N)

(t) bị mất giá compact thì sự suy giảm nhanh cho thấy là (t) và (t) tập trung quanh một gốc như trong hình vẽ sau:

Trang 38

Những vấn đề về sự trực giao hoá đã nói đến ở trên bị giới hạn để cho trường hợp spline tuyến tính đơn giản Tuy nhiên rõ ràng là nó ứng dụng cho trường hợp B-spline nói chung vì nó dựa trên sự trực giao hoá

2.4 Chuỗi wavelet và các tính chất của nó

2.4.1 Định nghĩa và các tính chất

Định nghĩa: giả sử một phân tích đa phân giải được định nghĩa bởi các điều

kiện (2.7-2.12) và wavelet mẹ (t) được cho bởi công thức (2.20), thì một hàm bất

kỳ f  L2(R) có thể được biểu diễn như sau:

      

Z n m

n

m t n m F t

Tuyến tính:

Giả thiết là phép toán T được định nghĩa như sau:

T[f(t)] = F[m,n] = < m,n(t), f(t)> (2.41) Khi đó với a,b bất kỳ thuộc R ta có:

T[a.f(t) + b.g(t)] = a.T[f(t)] + b.T[g(t)] (2.42) Nghĩa là phép toán với chuỗi wavelet là tuyến tính Điều này được chứng minh từ tính chất tuyến tính của tích vô hướng (inner product)

Trang 39

dt t f t n

m F

m m

m

n m

2

,

2

, '

Nghĩa là:

ftm k  Fm' nmm kkZ m' m

,,

2,

n

m t n m F t

t a

dt at f t n

m F

m m

n m

2 2

1

,

2

, '

Trang 40

,

2 2

2

(2.46)

Khi xét một mở rộng chuỗi thì việc định vị các hàm cơ sở trong mặt phẳng thời gian-tần số là rất quan trọng Việc lấy mẫu theo thời gian, ở tỷ lệ m, được thực hiện với chu kỳ 2m, vì m,n(t) = m,0(t-2m n) Vì tần số thì ngược lại với tỷ lệ nên ta tìm được là nếu wavelet tập trung quanh 0, thì m,n() tập trung quanh 0/2m Điều này dẫn đến việc lấy mẫu dyadic của mặt phẳng thời gian-tần số như minh hoạ trong hình vẽ dưới đây:

Ngày đăng: 08/12/2021, 23:20

HÌNH ẢNH LIÊN QUAN

Hình 1.1: Ngƣỡng mà tại đó các âm thử bắt đầu có thể phân biệt đƣợc - Wavelet và ứng dụng
Hình 1.1 Ngƣỡng mà tại đó các âm thử bắt đầu có thể phân biệt đƣợc (Trang 16)
Hình 1.2: Thí nghiệm  với  các  “masking  tones”  có các  tần  số khác  nhau - Wavelet và ứng dụng
Hình 1.2 Thí nghiệm với các “masking tones” có các tần số khác nhau (Trang 16)
Hình 1.3: Thí nghiệm cho các mức to khác nhau của âm thử - Wavelet và ứng dụng
Hình 1.3 Thí nghiệm cho các mức to khác nhau của âm thử (Trang 17)
Hình 2.2: Phổ của các không gian con - Wavelet và ứng dụng
Hình 2.2 Phổ của các không gian con (Trang 28)
Hình 2.3:Cơ sở spline tuyến tính. (a)hàm tỷ lệ. (b) wavelet. - Wavelet và ứng dụng
Hình 2.3 Cơ sở spline tuyến tính. (a)hàm tỷ lệ. (b) wavelet (Trang 36)
Hình 2.5 a, Các hệ số bị ảnh hưởng của các giá trị hàm ở t 0 - Wavelet và ứng dụng
Hình 2.5 a, Các hệ số bị ảnh hưởng của các giá trị hàm ở t 0 (Trang 41)
Hình 3.6 Hệ thống nội suy với hệ số L trong miền tần số  Trong miền biến số độc lập n ta có: - Wavelet và ứng dụng
Hình 3.6 Hệ thống nội suy với hệ số L trong miền tần số Trong miền biến số độc lập n ta có: (Trang 50)
Hình 3.7 Cấu trúc của dãy lọc số phân tích - Wavelet và ứng dụng
Hình 3.7 Cấu trúc của dãy lọc số phân tích (Trang 51)
Hình 3.8 Cấu trúc của dãy lọc số tổng hợp - Wavelet và ứng dụng
Hình 3.8 Cấu trúc của dãy lọc số tổng hợp (Trang 52)
Hình 3.9 Định vị tần số của biến đổi wavelet sử dụng wavelet  sinc. (a) phổ biên độ và các bản ảnh tỷ lệ - Wavelet và ứng dụng
Hình 3.9 Định vị tần số của biến đổi wavelet sử dụng wavelet sinc. (a) phổ biên độ và các bản ảnh tỷ lệ (Trang 56)
Hình 3.11 Sơ đồ băng lọc số nhiều nhịp hai kênh - Wavelet và ứng dụng
Hình 3.11 Sơ đồ băng lọc số nhiều nhịp hai kênh (Trang 57)
Hình chiếu trực giao của f trong V j-1  đƣợc phân tích thành tổng của các hình chiếu - Wavelet và ứng dụng
Hình chi ếu trực giao của f trong V j-1 đƣợc phân tích thành tổng của các hình chiếu (Trang 60)
Sơ đồ phân tích một tín hiệu f bằng biến đổi wavelet rời rạc: - Wavelet và ứng dụng
Sơ đồ ph ân tích một tín hiệu f bằng biến đổi wavelet rời rạc: (Trang 61)
Sơ đồ bank lọc thực hiện biến đổi Wavelet - Wavelet và ứng dụng
Sơ đồ bank lọc thực hiện biến đổi Wavelet (Trang 62)
Hình 3.13 Sơ đồ tổng hợp bằng biến đổi wavelet rời rạc ngƣợc - Wavelet và ứng dụng
Hình 3.13 Sơ đồ tổng hợp bằng biến đổi wavelet rời rạc ngƣợc (Trang 62)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w