Phương pháp nén tín hiệu audio dùng biến đổi wavelet

Nói về biến đổi Wavelet của tín hiệu thì tín hiệu gốc được phân tích trong các hệ số Wavelet tại các thang đo khác nhau và các vị trí khác nhau.. Các hệ số đó biểu diễn tín hiệu trong mi

Trang 1

MỤC LỤC

LỜI NÓI ĐẦU 3

CHƯƠNG 1 5

CÁC KIẾN THỨC CƠ BẢN VỀ ÂM THANH 5

1.1.2 Đơn vị vật lý của âm thanh .5

1.1.2.2.Đơn vị âm chủ quan 7

1.1.2.3 Quãng độ cao (quãng tần số) 8

1.1.3 Đặc tính sinh lý về sự cảm thụ âm thanh .9

1.1.3.1 Mức to, độ to, mức âm cảm giác .9

1.1.3.3 Thính giác định vị (hiệu ứng Stereo) .11

1.1.3.4 Nghe âm và chênh lệch thời gian .11

1.2 Xử lý tín hiệu số đối với sóng âm .12

1.2.1.Tín hiệu và hệ thống rời rạc .12

1.2.1.1 Giới thiệu 12

1.2.1.2 Đáp ứng xung trong hệ tuyến tính bất biến 12

1.2.1.3 Tính chất của tổng chập của hệ TTBB .13

1.2.1.4 Hệ nhân quả (causal system) .14

1.2.1.5 Tính ổn định .14

1.2.1.6 Phương trình sai phân tuyến tính hệ số hằng .15

1.2.1.7 Biểu diễn các hệ rời rạc trong miền tần số 15

1.2.1.8 Định lý lấy mẫu Shannon 17

1.2.2 Phép biến đổi Fourier rời rạc 17

1.2.2.1 Chuỗi Fourier rời rạc của tín hiệu rời rạc tuần hoàn .17

1.2.2.2 Biến đổi Fourier rời rạc của tín hiệu có độ dài hữu hạn .18

1.2.2.3 Phép biến đổi nhanh fourier .19

CHƯƠNG 2 20

CHUẨN NÉN ÂM THANH MPEG 20

2.1 Giới thiệu về chuẩn nén MPEG .20

2.1.1 MPEG là gì? 20

2.1.2 So sánh các chuẩn MPEG .20

2.1.3 Âm thanh MPEG .21

2.1.4 Các khái niệm trong âm thanh MPEG 22

2.1.4.1 Hiệu ứng che (masking) .22

2.1.4.2 Ngưỡng nghe và mức nhạy cảm 22

2.1.4.3 Che tần số (Frequency Masking) 23

2.1.4.4 Che nhất thời (che thời gian) 24

2.1.5 Hoạt động .25

2.2 Các khái niệm cơ bản về MPEG .26

2.2.1 Lược đồ mã hóa Perceptual Subband .27

2.2.2 Giải thích về hiệu quả che (masking effect) .27

2.2.2.1 Nén âm thanh MPEG .28

2.2.2.2 Hiệu quả che .28

2.2.2.3 Các lớp của âm thanh MPEG .29

CHƯƠNG 3 32

Trang 2

PHÉP BIẾN ĐỔI WAVELET 32

3.1 Biến đổi Fourier 32

3.2 Biến đổi Fourier thời gian ngắn (STFT) .33

3.3 Biến đổi Wavelet .33

3.4 Các loại biến đổi Wavelet .34

3.4.1 Wavelet liên tục CWT .34

3.4.2 Biến đổi Wavelet rời rạc DWT .37

3.4.3 Biến đổi Wavelet gói .40

CHƯƠNG 4 43

PHƯƠNG PHÁP NÉN TÍN HIỆU ÂM THANH 43

DÙNG BIẾN ĐỔI WAVELET 43

4.1 Thực hiện phân tích dùng bộ lọc .43

4.1.1 Thuật toán biến đổi .43

4.1.2 Phân rã nhiều mức .44

4.2 Kỹ thuật nén tiếng nói bằng wavelet .45

4.2.1 Giới thiệu 45

4.2.2 Chọn Wavelet .45

4.2.3 Phân tích wavelet 46

4.2.4 Lược bỏ hệ số phân rã tín hiệu .47

4.2.5 Hệ số mã hóa .49

4.2.6 Mô hình Psychoacoustic .50

4.2.7 Phân tích âm hữu thanh và vô thanh 50

4.2.8 Thiết kế hệ thống .51

4.2.8.1 Tổng quan về hệ thống 51

4.2.8.2 Tính toán mức ngưỡng 52

4.2.8.3 Mức phân rã tối ưu trong biến đổi wavelet .52

4.2.8.4 Hữu thanh, vô thanh và cấu trúc trộn tiếng 53

4.2.9 Các phép đo .55

4.2.10 Ảnh hưởng của kích cỡ khung lên kết quả nén .56

4.3 Đánh giá kết quả thực hiện và nhiệm vụ trong tương lai .57

4.3.1 Đánh giá kết quả thực hiện 57

4.3.2 Nhiệm vụ trong tương lai .58

4.3.2.1 Tăng chất lượng .58

4.3.2.2 Cải tiến tỷ lệ nén .58

CHƯƠNG 5 59

THỰC NGHIỆM 59

5.1 Xây dựng cấu trúc wavelet 59

5.2 Kết hợp nén bằng wavelet và mô hình Psychoacoustic 60

5.3 Kết quả đạt được 60

KẾT LUẬN 63

PHỤ LỤC 64

TÀI LIỆU THAM KHẢO 66

NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN 67

Trang 3

LỜI NÓI ĐẦU

Nén tiếng nói là kỹ thuật biến đổi giọng nói của con người thành dạng mã hoá và sau đó tín hiệu có khả năng giải mã để trở đưa ra tín hiệu cuối cùng gần với tín hiệu gốc nhất Luận văn này đưa ra một công nghệ mới để nén tín hiệu âm thanh sử dụng kỹ thuật DWT (biến đổi Wavelet rời rạc)

Phân tích Wavelet là biến đổi tín hiệu gốc thành một hệ có thể đo được rồi sau đó phải có khả năng dịch trở lại thành tín hiệu gốc Nói về biến đổi Wavelet của tín hiệu thì tín hiệu gốc được phân tích trong các hệ số Wavelet tại các thang

đo khác nhau và các vị trí khác nhau Các hệ số đó biểu diễn tín hiệu trong miền Wavelet và việc biến đổi dữ liệu đó thực hiện chỉ phù hợp với các hệ số của Wavelet

Trong luận văn này bộ mã hoá tiếng nói trên nền tảng Wavelet được thực hiện bằng phần mềm “MATLAB 7.0.1 Wavelet Tool box” Vấn đề chủ yếu liên quan đến việc thiết kế bộ mã hoá âm thanh sử dụng Wavelet là phải sử dụng Wavelet tối ưu cho tín hiệu, đánh giá mức phân rã tín hiệu trong DWT, đánh giá mức ngưỡng lược bỏ hệ số và đánh giá hiệu quả của nén

Một ưu điểm của mã hoá âm thanh sử dụng Wavelet là đa dạng hoá tỷ lệ nén, trong khi đó với các kỹ thuật khác hầu như tỷ lệ nén là cố định

Ứng dụng cao hơn nữa của kỹ thuật Wavelet là khôi phục chất lượng tín hiệu và tăng tỷ lệ nén tín hiệu

Có thể nói đây là một lĩnh vực nghiên cứu khá mới mẻ có nhiều tiềm năng

và hết sức hấp dẫn, đặc biệt là đối với Việt Nam Đó cũng chính là lý do em chọn

đề tài: “Phương pháp nén tín hiệu Audio dùng biến đổi Wavelet” Luận văn

được chia làm 5 chương:

- Chương 1: Các kiến thức cơ bản về âm thanh

- Chương 2: Giới thiệu về chuẩn nén MPEG

Trang 4

- Chương 3: Tìm hiểu về phép biến đổi Wavelet

- Chương 4: Phương pháp nén tín hiệu âm thanh dùng biến đổi Wavelet

- Chương 5: Chương trình kiểm nghiệm

Với một quỹ thời gian có hạn nên luận văn chưa thể giải quyết vấn đề một cách hoàn chỉnh, đặc biệt trong phần ứng dụng Rất mong các thầy cô và các bạn độc giả góp ý phê bình để kết quả nghiên cứu ngày một hoàn thiện hơn

Trang 5

CHƯƠNG 1 CÁC KIẾN THỨC CƠ BẢN VỀ ÂM THANH

1.1 Các khái niệm sóng âm

1.1.1 Dao động âm và sự truyền dao động

Sóng âm là một loại sóng cơ có biên độ dao động nhỏ mà thính giác nhận biết được Thí dụ dao động phát ra từ dây đàn, mặt trống… đang rung động Sóng âm là một loại sóng cơ nên mọi khái niệm và hiện tượng về dao động và sóng cơ trên đây đều áp dụng cho sóng âm

Trong không khí cũng như trong mọi chất khí khác, những dao động truyền

đi dưới dạng sóng dọc, khi đến tai người những dao động có tần số từ 16 đến

20000 Hz sẽ gây cảm giác đặc biệt về âm

Các dao động đàn hồi có tần số f>20.000 Hz là sóng siêu âm.Các dao động đàn hồi có tần số f<16 Hz là sóng hạ âm

Mỗi âm có một tần số riêng, đơn vị của tần số là héc (Hz)

1 Héc (Hz) = 1 dao động / 1 giây

Việc phân chia sóng hạ âm, sóng siêu âm và sóng âm (âm thanh) liên quan tới khả năng sinh lý của thính giác

1.1.2 Đơn vị vật lý của âm thanh

Âm thanh hay tiếng động mà con người nhận biết được do tác động của sóng âm lên màng nhĩ tai

Các dao động âm phát ra từ nguồn lan truyền trong môi trường đàn hồi như không khí… dưới dạng sóng đàn hồi gọi là sóng âm Sóng âm đến kích động màng nhĩ tai gây cảm giác về âm, do đó cần phân biệt hai loại đại lượng về âm :

- Đại lượng âm khách quan: những đại lượng thuần túy vật lý, không phụ thuộc vào tai người

Trang 6

- Đại lượng âm chủ quan: những đại lượng tâm lý vật lý phụ thuộc vào tai người

1.1.2.1 Đơn vị âm khách quan

1.1.2.1.1 Áp suất âm

Khi sóng âm tới một mặt nào đó, do các phần tử môi trường dao động tác dụng lên mặt đó một lực gây ra áp suất Áp suất ở đây là áp suất dư do sóng âm gây ra ngoài áp suất khí quyển

Trong phạm vi nghe được, áp suất âm trong khoảng từ 2.10-4 đến 2.102

bar, chênh lệch 106 lần, đó là 1 phạm vi rất rộng

1.1.2.1.2 Cường độ âm (I)

Cường độ âm ở một điểm nào đó trên phương đã cho trong trường âm là số năng lượng âm đi qua đơn vị diện tích của mặt S vuông góc với phương truyền

âm, tại điểm đó trong đơn vị thời gian

Một vài cường độ âm đáng chú ý:

Người nói thường I = 2.10-3 W/m2 Còi ô-tô I = 5 W/m2 Còi báo động I = 3.000 W/m2 Trong điều kiện chuẩn (to = 20oC, áp suất 760mmHg):

Vận tốc âm trong không khí : C = 340 m/s

 = 0,00121 gr/cm3  = Cp/Cv = 1,4

Trong tính toán người ta quy ước lấy âm đơn tần số f = 1000 Hz làm chuẩn

để so sánh (gọi là âm chuẩn)

Đối với âm chuẩn, trong phạm vi nghe được:

Áp suất âm nhỏ nhất Po = 2.10-4 bar

Cường độ âm nhỏ nhất Io = 10-16 W/cm2

Áp suất âm và cường độ âm lớn nhất mà tai người có thể chịu được là :

P = 2.102 bar

Trang 7

I = 10-4 W/cm2 Công suất âm nhỏ nhất có thể nghe thấy được Wo = 10-12 Watt

1.1.2.2.Đơn vị âm chủ quan

Tai người trung bình có thể nhận được những sóng âm có tần số từ 16 đến

20000 Hz, hiệu quả này có liên quan tới khả năng sinh lý của tai người

Như vậy, âm thanh là một hiện tượng tâm lý vật lý, không phải bất cứ sóng

âm nào tới tai cũng gây ra cảm giác âm thanh như nhau Âm có tần số khác nhau gây ra cảm giác khác nhau

Cường độ âm nhỏ nhất của một sóng âm xác định mà tai người nghe thấy được gọi là “Ngưỡng nghe” Âm có tần số khác nhau giá trị ngưỡng nghe cũng khác nhau Tai người thính nhất với âm có tần số trong khoảng từ 1000 đến 3000

Hz, trong phạm vi này cường độ âm ngưỡng nghe nhỏ nhất Những tần số khác, tai kém thính hơn, ngưỡng nghe có giá trị lớn hơn

Đối với âm chuẩn, cường độ và áp suất ở ngưỡng nghe bằng:

Po = 2.10-5 N/ m2

Io = 10-12 W/m2

Do cảm giác âm thanh phụ thuộc vào đặc tính sinh lý của tai người, cho nên phải có một số đại lượng đặc trưng cho cảm giác âm thanh phụ thuộc vào tai người, những đại lượng như vậy gọi là đại lượng âm chủ quan

1.1.2.2.1 Bel và decibel (db)

Theo định lý sinh lý của Vebe-Fécne, cảm giác nghe to đối với một âm không tỉ lệ thuận với cường độ âm của âm đó Khi cường độ âm tăng từ Io tới I thì cảm giác nghe to tăng tỉ lệ với lg(I/Io) Do đó người ta dùng thang lô-ga-rít cơ

số 10 để đo mức cảm giác so với mức ngưỡng

Mức ngưỡng gọi là mức zê-rô quy ước :

lg(I/Io) = lg(10-12/ 10-12) = 0 bel

Đơn vị là Bel hay db 10db = 1 bel

Trang 8

Nếu gọi I là cường độ âm của âm đang xét và Io là cường độ âm của mức zê-rô quy ước của âm chuẩn thì mức cường độ âm LI bằng :

LI = 10lg(I/Io) db , I tính bằng W/m2

1.1.2.2.3 Mức áp suất âm (Lp)

Mức áp suất âm suy dẫn từ mức cường độ âm Lp = 20lg(P/Po) db

Trong đó:

P : áp suất âm có ích của âm đang xét (N/m2)

Po: áp suất âm của âm chuẩn ở ngưỡng nghe

Thực tế áp suất âm là đại lượng cơ bản hơn cường độ âm, nên thường dùng mức áp suất âm sau đó suy ra mức cường độ âm Đơn vị chung là bel hay db Đơn vị này cũng dùng để đo mức công suất, mức năng lượng âm

Vài mức áp suất âm đáng chú ý :

Nói chuyện thường : 30db

Nói chuyện to: 70db

1.1.2.3 Quãng độ cao (quãng tần số)

Quãng tần số của hai âm là khoảng cách tần số của hai âm đó Nếi một âm tần số là f1, một âm khác tần số là f2 (f2 > f1) thì f2 / f1 = 2x

Khi x=1 tức f2 / f1 = 2 gọi là 1 quãng tần số (hay 1 ốc-ta)

Khi x=1/2 tức f2 / f1 = 1.41 gọi là nửa ốc-ta

Khi x=1/3 tức f2 / f1 = 1.26 gọi là 1/3 ốc-ta

Mức áp suất âm của 1 ốc-ta bằng mức áp suất âm của 1/2 ốc-ta cộng thêm 3db Mức áp suất âm của 1 ốc-ta bằng mức áp suất âm của 1/3 ốc-ta cộng thêm 5db

Vì quãng tần số của một âm quy định độ cao của âm đó nên còn gọi là quãng độ cao Theo tập quán âm nhạc thì quãng độ cao gọi là quãng 8 (bát độ) Chẳng hạn âm LA, tần số f=440 Hz tăng 1 bát độ là tăng gấp đôi tần số, tức

là 880 Hz

Trang 9

Trong thực tế thường gặp những âm phức tạp bao gồm nhiều tần số Tập hợp tất cả những tần số cấu tạo trong 1 âm thanh gọi là “tần phổ” của âm đó, tần phổ có thể gián đoạn hay liên tục Một âm có tần phổ liên tục được đặc trưng bằng “ Mức tần phổ B ” với định nghĩa:

- Mức tần phổ là mức áp suất âm trong chiều rộng của dãi tần số bằng 1

- Một âm có mức tần phổ B không đổi với mọi tần số gọi là tiếng ồn trắng

- Một âm có tần phổ gián đoạn được đặc trưng bằng “mức dãi tần số” với định nghĩa: mức dãi tần số là mức áp suất âm trong chiều rộng của dãi tần số lớn hơn 1Hz

1.1.3 Đặc tính sinh lý về sự cảm thụ âm thanh

1.1.3.1 Mức to, độ to, mức âm cảm giác

Mức áp suất âm, mức cường độ âm trên đây vừa mang tính chất chủ quan vừa mang tính chất khách quan vì những đại lượng này xác định từ những đại lượng thuần túy vật lý Vấn đề có ý nghĩa to lớn trong thực tế là cần biết được sức mạnh của âm thanh đo bằng tai người

Mức to, độ to của 1 âm là sức mạnh cảm giác do âm thanh gây nên trong tai người, nó không những phụ thuộc vào áp suất âm mà còn phụ thuộc vào tần số của âm đó Thí dụ 2 âm có tần số 100 Hz và 1000 Hz áp suất âm đều bằng 0,02

bar nhưng nghe to nhỏ khác nhau, âm 1000 Hz nghe to hơn âm 100 Hz Muốn nghe to bằng âm 1000 Hz thì âm 100 Hz phải có áp suất bằng 0,25 bar Như vậy tai người không nhạy đối với âm 100 Hz bằng âm 1000 Hz Tần số càng thấp tai người càng kém nhạy

1.1.3.1.1 Mức to

Để biểu thị mức to trên cảm giác chủ quan, ta dùng đại lượng “mức to”, đơn

vị là “Fôn” với định nghĩa như sau : Fôn là mức to của âm chuẩn, về giá trị bằng mức áp suất âm của âm chuẩn tức là :

L = 20lg P/Po (Fôn)

Trang 10

Vậy mức to của một âm bất kỳ đo bằng Fôn, về giá trị bằng mức áp suất âm của âm chuẩn đo bằng db có cùng mức to với âm đó Thí dụ: âm có tần số 500

Hz mức áp suất âm bằng 25 db và âm có tần số 50 Hz mức áp suất âm bằng 64

db sẽ có cùng mức to bằng 20 Fôn, bằng mức to của âm 1000 Hz mức áp suất bằng 20 db

Muốn biết mức to của 1 âm bất kỳ phải so sánh với âm chuẩn Đối với âm chuẩn, mức to ở ngưỡng nghe là 0 Fôn, ngưỡng chói tai là 120 Fôn Cùng một giá trị áp suất, âm tần số càng cao, mức to càng lớn

1.1.3.1.2 Độ to

Khi so sánh âm này to hơn âm kia bao nhiêu lần, dùng khái niệm “độ to” đơn vị là “Sôn” với định nghĩa như sau: Số lượng Sôn biểu thị số lần mạnh hơn của 1 âm nào đó so với âm chuẩn mà tai người có thể phân biệt được

Độ to là 1 thuộc tính của thính giác, cho phép phán đoán tính chất mạnh yếu của âm thanh Căn cứ vào độ to mà sắp xếp âm từ nhỏ tới to Mức to tăng 10 Fôn thì độ to tăng gấp đôi và ngược lại

1.1.3.2 Âm điệu và âm sắc

Âm điệu chỉ âm cao hay thấp, trầm hay bổng Âm điệu chủ yếu phụ thuộc vào tần số của âm, tần số càng cao, âm nghe càng cao, tần số càng thấp âm nghe càng trầm

Âm sắc chỉ sắc thái của âm du dương hay thô kệch, thanh hay rè, trong hay đục Âm sắc phụ thuộc vào cấu tạo của sóng âm điều hòa, biểu thị bằng số lượng các loại tần số, cường độ và sự phân bố của chúng quanh âm cơ bản Âm sắc có quan hệ mật thiết với cường độ, âm điệu và thời gian âm vang, sự trưởng thành

và tắt dần của trường âm

Khi hai ca sĩ cùng hát một câu ở cùng một độ cao, ta vẫn phân biệt được giọng hát của từng người Khi đàn ghi-ta, sáo, kèn cùng tấu lên một đoạn nhạc

ở cùng một độ cao, ta vẫn phân biệt được tiếng của từng nhạc cụ Mỗi người, mỗi

Trang 11

nhạc cụ phát ra những âm có sắc thái khác nhau mà tai ta phân biệt được Đặc tính đó của âm chính là âm sắc

Âm sắc là một đặc tính sinh lý của âm, được hình thành trên cơ sở các đặc tính vật lý của âm là tần số và biên độ Thực nghiệm chứng tỏ rằng khi một nhạc

cụ phát ra một âm có tần số f1 thì đồng thời cũng phát ra các âm có tần số f2=2f1,

f3=3f1

Âm có tần số f1 gọi là âm cơ bản hay họa âm thứ nhất, các âm có tần số f2 ,

f3 gọi là các họa âm thứ hai, thứ ba Âm cơ bản bao giờ cũng mạnh nhất, các họa âm có tác dụng quyết định âm sắc của âm cơ bản, giúp ta phân biệt các nguồn âm khác nhau Chẳng hạn tiếng đàn Pi-a-nô và tiếng sáo tuy cùng một âm

cơ bản nhưng lại rất dễ phân biệt, nguyên nhân là do số lượng, cấu trúc những họa âm quanh âm cơ bản của chúng khác nhau Họa âm càng nhiều âm nghe càng

du dương phong phú

1.1.3.3 Thính giác định vị (hiệu ứng Stereo)

Khi nghe âm tuy mắt không nhìn thấy nguồn âm nhưng có thể xác định chính xác vị trí của nguồn âm Đặc điểm này là kết quả của hai tác dụng:

- Do cường độ, độ to, âm sắc của âm đến hai tai không giống nhau

- Do âm đến hai tai lệch pha nhau, vì thời gian đến hai tai không giống nhau Cường độ, độ to của âm đến hai tai chênh lệch nhau là do nhiễu xạ gây ra

Âm có tần số f < 1000 Hz sự chênh lệch cường độ do nhiễu xạ gây ra rất bé nhưng ở những tần số cao, sự chênh lệch này có thể đạt tới 20 - 30 db

Do khả năng định vị của tai như vậy cho nên khi nghe âm có thể tập trung chú ý vào nguồn âm cần nghe, bỏ qua một cách tự nhiên những âm không cần nghe Nhờ hiệu quả này mà tiếng ồn bị phủ lấp hoặc giảm nhỏ một cách tự nhiên Nếu chỉ nghe âm một tai thì hiệu quả này mất

1.1.3.4 Nghe âm và chênh lệch thời gian

Trang 12

Tương tự như tác dụng lưu ảnh của mắt, tai người cũng có tác dụng lưu âm Thí nghiệm với nhiều thính giác bình thường cho thấy rằng, nếu hai âm như nhau đến tai người cách nhau < 50 ms thì tai người không phân biệt được, nghe như một âm duy nhất

1.2 Xử lý tín hiệu số đối với sóng âm

1.2.1.Tín hiệu và hệ thống rời rạc

1.2.1.1 Giới thiệu

Tín hiệu là biểu hiện vật lý của thông tin, thường là thông tin về trạng thái hay hành vi của một hệ vật lý nào đó Về mặt toán học, tín hiệu được coi là hàm của một hay vài biến độc lập Ví dụ: tín hiệu âm thanh là sự thay đổi áp suất không khí theo thời gian; tín hiệu hình ảnh là hàm độ sáng theo hai biến không gian

Theo quy ước chung, tín hiệu được coi là hàm theo một biến độc lập và là biến thời gian

Tín hiệu số (Digital signal) là tín hiệu rời rạc (theo biến độc lập thời gian) đồng thời có biên độ cũng rời rạc hóa (lượng tử hóa)

1.2.1.2 Đáp ứng xung trong hệ tuyến tính bất biến

Tín hiệu vào x(n) được gọi là tác động, tín hiệu ra y(n) được gọi là đáp ứng của hệ xử lý Ta có quan hệ :

y(n) = T[x(n)]

T : phép biến đổi x(n)  y(n)

Một hệ thống là tuyến tính nếu thỏa nguyên lý xếp chồng: giả sử y1(n) và

y2(n) là đáp ứng của hệ tương ứng với tác động vào là x1(n) và x2(n) Hệ là tuyến tính nếu và chỉ nếu :

T[a x1(n) + b x2(n)] = a.y1(n) + b.y2(n)

Như vậy, một hệ tuyến tính có thể xử lý tổng tác động như là các tác động này được xử lý độc lập, sau đó các đáp ứng tương ứng sẽ được cộng lại



Trang 13

Một tín hiệu x(n) bất kỳ có thể biểu diễn :

Do vậy đối với hệ tuyến tính:

hk(n) gọi là đáp ứng xung của hệ đối ới tác động là xung (n-k)

Theo công thức trên, hệ tuyến tính vẫn còn tùy thuộc vào thời điểm tác động

k Một hệ tuyến tính là bất biến (theo thời gian) nếu tín hiệu vào bị dịch đi một đoạn thời gian là k thì tín hiệu ra cũng chỉ dịch một đoạn k, tức mọi hk(n) trở thành h(n-k)

Như vậy mọi hệ tuyến tính bất biến đều được đặc trưng hoàn toàn bằng đáp ứng h(n), biết h(n) ta hoàn toàn tính được đáp ứng y(n) của tín hiệu vào x(n)

Công thức trên còn được gọi là Tổng chập (convolution sum) của hai tín hiệu x(n) và h(n), và còn được ký hiệu:

là h1(n) và h2(n) được mắc nối tiếp nhau sẽ tương đương với 1 hệ có đáp ứng xung : h(n) = h1(n)* h2(n) và thứ tự mắc nối tiếp không quan trọng

 y(n) =  x(k).hk(n)

k=-

 y(n) =  x(k).h(n-k) k=-

 =  x(k).h(n-k) k=-

 =  h(k).x(n-k) k=-

Trang 14

Từ tính chất phân phối, hai hệ TTBB mắc song song nhau sẽ tương đương với 1 hệ có đáp ứng xung bằng tổng hai đáp ứng xung:

h(n) = h1(n)+ h2(n)

h1(n)

h2(n) x(n) h1(n)+ h2(n) y(n)

1.2.1.4 Hệ nhân quả (causal system)

Các hệ có tín hiệu ra chỉ phụ thuộc vào tín hiệu trong quá khứ và hiện tại được gọi là các hệ nhân quả, tức phải có tác động vào (nguyên nhân) thì mới có tác động ra (kết quả)

Định lý: Hệ tuyến tính bất biến (TTBB) là nhân quả nếu đáp ứng xung

h(n) = 0 với mọi n<0

Đối với một hệ TTBB và nhân quả, dạng chung của công thức tổng chập sẽ thay đổi gọn lại:

hoặc viết cách khác:

Nếu đáp ứng xung h(n) có độ dài hữu hạn N thì:

Mở rộng cho tín hiệu: tín hiệu nhân quả là tín hiệu bắt đầu khác 0 từ thời điểm 0

1.2.1.5 Tính ổn định

động vào bị chặn

 y(n) =  x(k).h(n-k) k=-

 y(n) =  x(n-k).h(k) k=0

N-1 y(n) =  x(n-k).h(k) k=0

Trang 15

Định lý: Một hệ TTBB là ổn định nếu và chỉ nếu đáp ứng xung thỏa mãn điều kiện sau:

1.2.1.6 Phương trình sai phân tuyến tính hệ số hằng

Ta chỉ khảo sát các hệ thống tuyến tính bất biến và có thể đặc trưng bởi các phương trình sai phân có hệ số hằng Mối liên hệ giữa các dãy vào x(n) và dãy ra y(n) có dạng như sau:

Trong đó tập các hệ số ak và br đặc trưng cho hệ TTBB

1.2.1.7 Biểu diễn các hệ rời rạc trong miền tần số

1.2.1.7.1 Phép biến đổi Fourier của tín hiệu rời rạc

Với tín hiệu vào x(n)= ejn (có tần số =2f) và đáp ứng xung h(n), ta có tín hiệu ra:

y(n)= ejn.H(ej) Hàm H(ej) gọi là đáp ứng tần số của hệ, biểu diễn đáp ứng của hệ thống theo hàm của tần số đối với dãy tác động ejn, nó cho biết sự thay đổi về biên độ

và pha theo tần số khi tín hiệu đi qua hệ

H(ej) là một hàm số phức và có thể biểu diễn theo phần thực và ảo:

H(ej)= Hr(ej)+ jHi(ej) (r: real; i: image) Hoặc theo biên độ và pha:

H(ej)= | H(ej)| ejargH(ej ) (02)

  y(n) =  h(k).x(n-k) = h(k) ej(n-k)

k=- k=-

Trang 16

H(ej) là hàm liên tục theo  và tuần hoàn với chu kỳ 2 Ta có thể khai triển nó thành chuỗi Fourier, ngược lại h(n) có thể được tính toán từ H(ej) bằng các công thức tính hệ số khai triển chuỗi Fourier:

Trong đó :

Biến đổi Fourier của dãy rời rạc:

Đối với tín hiệu tuần hoàn

1.2.1.7.2 Phép biến đổi Fourier thuần

1.2.1.7.3 Phép biến đổi Fourier nghịch

1.2.1.7.4 Phổ biên độ, phổ pha và phổ năng lượng

Do X(f) là một hàm phức nên ta có thể biểu diễn dưới dạng modul và argument:

X(f) = |X(f)|ej.arg[X(f)]

 h(n) = 1/2H(ej) ejn.d

-

 H(ej) =  h(n) e-jn

n=-

 S(t) =  Ak.e(jk2T)t

n=-

 x(n) = 1/2 X(ej) ejn.d

-

Trang 17

Hàm modul X(f) theo f được gọi là phổ biên độ của tín hiệu x(n), còn hàm

(f)=arg[X(f)] được gọi là phổ pha

Cuối cùng (f)=|X(f)|2 được gọi là phổ năng lượng, biểu diễn sự phân bố theo tần số của năng lượng tín hiệu x(n)

1.2.1.8 Định lý lấy mẫu Shannon

Một tín hiệu tương tự xa(t) có dãi phổ hữu hạn với giới hạn trên là Fmax(Hz) (tức là phổ bằng 0 khi f nằm ngoài dải - Fmax Fmax) Ta sẽ chỉ có thể khôi phục lại xa(t) một cách chính xác từ các mẫu xa(n.Ts) nếu như :

Fs  2Fmaxhay Ts  1/(2Fmax)

Khôi phục lại tín hiệu tương tự từ tín hiệu lấy mẫu:

Ta có thể khôi phục lại tín hiệu xa(t) bằng cách cho tín hiệu lấy mẫu đi qua một mạch lọc (tương tự) thông thấp lý tưởng (low-pass filter) có đáp ứng tần số

Hlp(f) với tần số cắt là fc = Fs/2 Phổ của tín hiệu xa(t) sẽ được lọc lại chính xác chỉ với điều kiện :

Fs  2FmaxNghĩa là thỏa mãn định lý lấy mẫu

Khi đó trong không gian tần số:

Xa(f) = X(f).Hlp(f) Còn trong không gian thời gian:

Xa(t) = x(nTs)*hlp(t) Trong đó hlp(t) là đáp ứng xung của mạch lọc thông thấp lý tưởng có biên

độ dải thông là Ts

1.2.2 Phép biến đổi Fourier rời rạc

1.2.2.1 Chuỗi Fourier rời rạc của tín hiệu rời rạc tuần hoàn

Trang 18

Tín hiệu tuần hoàn xp(n)là tuần hoàn với chu kỳ N nếu:

Trong đó các hệ số ak là các hệ số khai triển chuỗi Fourier rời rạc hay còn được gọi là các vạch phổ của tín hiệu tuần hoàn

1.2.2.2 Biến đổi Fourier rời rạc của tín hiệu có độ dài hữu hạn

Việc biểu diễn Fourier cho tín hiệu rời rạc có độ dài hữu hạn gọi là phép biến đổi Fourier rời rạc (DFT)

Tín hiệu có độ dài hữu hạn là tín hiệu có giá trị khác 0 trong một khoảng hữu hạn thời gian nào đó, và bằng 0 trong khoảng còn lại Đây là loại tín hiệu tồn tại trong thực tế vì chúng ta chỉ có thể quan sát mọi tín hiệu trong một khoảng thời gian là hữu hạn từ N1 đến N2 Để đơn giản hoá, ta có thể quy ước tín hiệu x(n) tồn tại trong khoảng thời gian: 0  n  M-1, tức là :

M = N2 - N1+1

Với tín hiệu x(n) này được dùng như là một chu kỳ tín hiệu, ta có thể xây dựng tín hiệu xp(n) tuần hoàn với chu kỳ N bằng cách xếp chồng tuần hoàn:

xp(n) =  ak.ej(2k/N)n k=<N>



xp(n) =  x(n+iN)

i =-

Trang 19

Nếu N  M thì không xảy ra hiện tượng trùm thời gian giữa các phần của

1.2.2.3 Phép biến đổi nhanh fourier

Fast Fourier Transform (FFT) là một giải thuật rất hiệu quả để tính DFT Công thức biến đổi DFT:

Đặt Wnk = e-j(2nk/N :

Chia DFT thành 2 phần :

Ký hiệu thành phần chẵn là xev và lẻ là xod, ta viết lại:

X(k) = Xev(k) + WkN/2Xod(k) , k = 0 N-1

Để tính X(k) chỉ cần tính trong nửa chu kỳ N/2

Xev(k) và Xod(k) tuần hoàn với chu kỳ N/2 : Xev(k) = Xev(k - N/2) ,N/2  k  N-1

N - 1 X(k) =  x(n).ej(2kn)/N k=0

N - 1 X(k) =  x(n).Wnk k=0

N/2 - 1 N/2 - 1 X(k) =  x(2n).WN2nk +  x(2n+1).WN(2n+1)k n=0 n=0

N/2 - 1 N/2 - 1 X(k) =  xev(n)WnkN/2 +  xod(n)WnkN n=0 n=0

Trang 20

CHƯƠNG 2 CHUẨN NÉN ÂM THANH MPEG

2.1 Giới thiệu về chuẩn nén MPEG

2.1.1 MPEG là gì?

MPEG, viết tắt của cụm từ “Moving Picture Experts Group”, là 1 nhóm chuyên nghiên cứu phát triển các tiêu chuẩn về hình ảnh số và nén âm thanh theo chuẩn ISO/IEC Ngày nay, nhóm làm việc MPEG đã phát triển và phát hành các tiêu chuẩn MPEG-1, MPEG-2 và MPEG-4 Chuẩn MPEG-3 được kết hợp vào MPEG-2 và không còn tách riêng nữa Nhóm MPEG hiện nay đã phát triển đến chuẩn MPEG-7 MPEG chỉ là một tên riêng, tên chính thức của nó là : ISO/IEC JTC1 SC29 WG11

2.1.2 So sánh các chuẩn MPEG

MPEG-1 định nghĩa một tiêu chuẩn cho việc lưu trữ và phục hồi các hình ảnh động và âm thanh trên các thiết bị lưu trữ Tiêu chuẩn này định nghĩa rằng hình ảnh được phát lại ở tốc độ 30 frames một giây và âm thanh được phát lại ở chất lượng như CD-audio, độ phân giải hình ảnh là 352 x 240 Chuẩn MPEG-1 được dùng điển hình trong các phần mềm huấn luyện bằng máy tính, các game hành động trong máy tính, video chất lượng VHS, Karaoke

MPEG-2 định nghĩa cho một tiêu chuẩn kỹ thuật truyền hình số Chuẩn MPEG-2 khắc phục một vài nhược điểm của chuẩn MPEG-1 Ví dụ, MPEG-2 có thể tạo hình ảnh lớn gấp 4 lần MPEG-1 với độ nét cao hơn và rõ hơn (720 x 480

Trang 21

và 1280 x 720) Các đặc tính của MPEG-2 bao gồm hình ảnh chất lượng cao và

âm thanh nổi

MPEG-3 định nghĩa một tiêu chuẩn cho High Difinition Television (HDTV), là thế hệ tiếp theo của công nghệ truyền hình theo định dạng số đầu đủ Tiêu chuẩn này đã không được phát triển hoàn thiện và cuối cùng được kết hợp vào với chuẩn MPEG-2 MPEG-3 nhắm đến mục tiêu là các ứng dụng HDTV với kích thước mẫu lên đến 1920x1080x30 Hz và được mã hoá ở tốc độ bit 20 đến 40 Mbits/s Cuối cùng người ta đã nhận ra rằng với một vài điều chỉnh thích hợp, MPEG-1 và MPEG-2 làm việc rất tốt đối với HDTV

MPEG-4 định nghĩa một tiêu chuẩn cho các ứng dụng Multi-media Đặc biệt nó định nghĩa tiêu chuẩn truyền cho dòng phức tạp các hình ảnh, âm thanh

và dữ liệu đồ hoạ và việc tái hợp chúng trên thiết bị thu MPEG-4 được phát triển theo 2 giai đoạn, 1 và 2 Chuẩn MPEG-4 định nghĩa các đối tượng hình ảnh mà trong đó các phần của một cảnh có thể được thao tác trong khi những phần khác vẫn không đổi

MPEG-5 và MPEG-6 vẫn chưa được công bố

MPEG-7 định nghĩa một tiêu chuẩn về việc biểu diễn nội dung cho các nghiên cứu thông tin hình ảnh và âm thanh Tên chính thức là “Multimedia Content Description Interface” Mục tiêu của MPEG-7 là chuẩn hoá việc biểu diễn các mô tả về nội dung nghe nhìn Tuy nhiên chuẩn không định nghĩa các công cụ để nhận ra nội dung nghe nhìn thật sự

2.1.3 Âm thanh MPEG

Về cơ bản, âm thanh MPEG sẽ làm giảm kích thước lưu trữ 1 tập tin âm thanh đi rất nhiều Một đĩa Audio-CD lưu trữ được khoảng 650 Mbyte dữ liệu âm thanh thô với cách mã hóa 16 bit (bitdepth) và tần số lấy mẫu (sample rate) 44.1 kHz Nếu đem phát ra thì cũng chỉ được 60 đến 72 phút

- bitdepth: mô tả mức biên độ lớn nhất mà một mẫu âm thanh có thể đạt tới

Ví dụ : 8 bit = 256 mức, 16 bit = 65.536 mức, về hình ảnh thì đó chính là độ phân giải

Trang 22

- sample rate: mô tả số mẫu âm thanh được lấy trong 1 giây Ví dụ : 22 kHz

= 22.000 mẫu/1giây

Phương pháp cổ điển để giảm kích thước lưu trữ là giảm lượng thông tin Nếu đổi cách lưu trữ âm thanh từ 16 bit sang 8 bit chúng ta có thể giảm kích thước lưu trữ đi 1 nửa, tuy nhiên như thế chất lượng âm thanh cũng sẽ giảm đi 1 nửa

Hình 2.1

2.1.4 Các khái niệm trong âm thanh MPEG

2.1.4.1 Hiệu ứng che (masking)

Nói nôm na là âm lớn át âm bé, âm mạnh át âm yếu

2.1.4.2 Ngưỡng nghe và mức nhạy cảm

Trang 23

Thí nghiệm: đặt một người trong phòng yên tĩnh Tăng mức to của âm

1kHz lên cho đến ngay khi có thể nghe được rõ ràng Lặp lại thí nghiệm với các tần số khác nhau, ta vẽ được đồ thị sau:

Hình 2.2

“Ngưỡng nghe”: là mức mà dưới nó 1 âm thanh không thể nghe được Nó thay đổi theo tần số âm thanh, và dĩ nhiên giữa mỗi người khác nhau Hầu hết mọi người đều nhạy cảm ở mức 2 đến 5 kHz Một người có nghe được âm thanh hay không tùy thuộc vào tần số của âm và độ to của âm đó ở trên hay dưới ngưỡng nghe tại tần số đó Tai nhạy cảm ở mức 2 đến 5 kHz

Ngưỡng nghe cũng có tính thích nghi, thay đổi cố định bởi âm thanh mà ta nghe được Ví dụ, một cuộc nói chuyện bình thường trong một phòng thì có thể nghe được rõ ràng ở điều kiện bình thường Tuy nhiên, cũng cuộc trò chuyện đó nằm trong vùng lân cận của những tiếng ồn lớn, như là tiếng ồn do một chiếc phản lực bay ngang bên trên, là hoàn toàn không thể nghe được do lúc này ngưỡng nghe đã bị sai lệch Khi chiếc phản lực đã đi rồi thì ngưỡng nghe trở lại bình thường Âm thanh mà ta không thể nghe được do sự thích nghi động của ngưỡng nghe gọi là bị “che” (masked)

2.1.4.3 Che tần số (Frequency Masking)

Thí nghiệm:

 Phát ra 1 âm có tần số 1 kHz với mức to cố định là 60dB, gọi là “âm che” (masking tone) Phát ra một âm khác (gọi là test tone) ở mức tần số khác (ví dụ

Trang 24

1.1kHz), và tăng mức to của âm này cho đến khi có thể nghe được nó (phân biệt được âm 1.1 kHz và âm che 1kHz)

 Làm lại thí nghiệm với các âm thử (test tone) và vẽ ra một ngưỡng mà tại

đó các âm thử bắt đầu có thể phân biệt được:

Hình 2.3

 Làm thí nghiệm với các “masking tones” có các tần số khác nhau, ta có được hình vẽ:

2.1.4.4 Che nhất thời (che thời gian)

Nếu ta nghe một âm thanh lớn, rồi ngưng nó lại, mãi một lúc sau ta mới có thể nghe được một âm lân cận nhỏ hơn

Trang 25

Thí nghiệm: phát ra một âm che “masking tone” có tần số 1kHz ở mức

60dB, kèm một âm thử (test tone) 1.1kHz ở mức 40dB Ta không nghe được âm thử này (nó đã bị che)

 Dừng âm che lại, đợi một lúc (delay time) ta dừng tiếp âm thử (test tone)

 Điều chỉnh thời gian delay để cho ta vừa có thể nghe được âm chủ (ví dụ khoảng 5ms)

 Lặp lại thí nghiệm cho các mức to khác nhau của âm thử, ta vẽ được đồ thị sau:

Trang 26

Khi đưa ra phương pháp mã hóa âm thanh, nền tảng vẫn là yếu tố “hệ thống nghe” của con người Thật không may đó không phải 1 thiết bị hoàn hảo để nhận biết âm thanh nhưng là thiết bị duy nhất chúng ta có được Nhưng chúng ta có thể chuyển những khuyết điểm của nó thành ưu điểm: đó là đặc tính phi tuyến của ngưỡng nghe và khả năng thích hợp của nó

MPEG hoạt động dựa trên hệ thống nghe của con người, đó là cảm giác về

âm mang đặc tính sinh lý và tâm lý

Âm thanh CD ghi lại tất cả tần số, kể cả những tần số bị ‘che’

Âm thanh MPEG chỉ ghi lại những tần số mà tai người có thể nghe

Như vậy, MPEG sẽ bỏ qua những thông tin không quan trọng Dựa trên nghiên cứu về nhận thức âm thanh của con người, bộ mã hóa sẽ quyết định những thông tin nào là căn bản và những thông tin nào có thể bỏ qua

Hiệu quả này là bao quát nhưng đặc biệt quan trọng trong âm nhạc Nếu trong một dàn nhạc có một nhạc cụ chơi cực mạnh, làm át tiếng của các nhạc cụ khác ta không thể nghe được Nhưng máy thâu âm vẫn ghi lại đầy đủ tất cả tần số của tất cả nhạc cụ, nghĩa là thiết bị thâu âm hoàn toàn không có khả năng thích nghi động như con người Nhưng khi phát lại, ta vẫn không nghe được âm thanh của những nhạc cụ bị át Vì vậy việc lưu trữ/ghi lại những tần số này là thừa, làm chiếm dung lượng khá nhiều Cách ghi âm tuyến tính trên đĩa CD là hoàn toàn không hiệu quả về khía cạnh này Do đó thay vì phải ghi lại thông tin của những

âm không nghe được, ta sẽ dành chỗ cho các âm có thể nghe được Theo cách này, dung lượng của thiết bị ghi âm cần thiết có thể xem như giảm đi mà không làm giảm chất lượng âm thanh

Trước khi chúng ta nghe được điều gì, thông tin sẽ được phân tích bởi bộ não của chúng ta Não bộ sẽ dịch âm thanh và lọc bỏ những thông tin không cần thiết Kỹ thuật âm thanh MPEG làm việc này thay thế cho não bộ Như vậy, những thông tin lẽ ra phải được lọc bởi não bộ bây giờ không còn cần phải lưu trữ chiếm giữ không gian đĩa nữa

2.2 Các khái niệm cơ bản về MPEG

Trang 27

2.2.1 Lược đồ mã hóa Perceptual Subband

Bộ mã hóa âm thanh theo “perceptual subband” phân tích liên tục các tín hiệu vào và xác định ra đường cong che (masking curve), đó là mức ngưỡng mà những âm thanh ở dưới nó không thể nghe được bởi hệ thống nghe của con người

Hình 2.7

Tín hiệu vào được chia thành 1 số dãi tần số, gọi là “subband” Mỗi tín hiệu

“subband” được lượng tử hóa theo cách mà sự lượng tử hóa tiếng ồn được bắt đầu bởi việc mã hóa sẽ không vượt qua đường cong che của subband đó Sự lượng tử hóa phổ tiếng ồn vì thế thích nghi động với phổ của tín hiệu Thông tin trên bộ số hóa được dùng trong mỗi subband được truyền dọc theo các mẫu subband được mã hóa Bộ giải mã sẽ giải mã dòng bit (bitstream) mà không cần phải biết cách mà bộ mã hóa xác định những thông tin này Điều này cho phép bộ

mã hóa hoạt động với những mức độ khác nhau về chất lượng và độ phức tạp, và cũng cho phép sự phát triển trong tương lai của bộ mã hóa

2.2.2 Giải thích về hiệu quả che (masking effect)

Trang 28

2.2.2.1 Nén âm thanh MPEG

MPEG có thể nén 1 dòng bit 32 kbit/s đến 384 kbit/s Một dòng bit âm thanh PCM thô thì khoảng 705 kbit/s, do đó tỉ số nén tối đa có thể là 22 Tỉ số nén bình thường là 1:6 hay 1:7 96 kbit/s là xem như trong suốt cho hầu hết các mục đích thực tế Có nghĩa rằng ta không cần phải lưu tâm đến bất kỳ sự khác biệt nào giữa tín hiệu gốc và tín hiệu nén đối với nhạc pop hay nhạc rock’n roll Đối với một số ứng dụng khác như là hòa tấu piano, tốc độ bit có thể lên tới 128 kbit/s

Để đạt được tỉ số nén này, đối với âm thanh, về cơ bản ta có hai chọn lựa: hoặc giảm số lần lấy mẫu, hoặc giảm số bit để lượng tử hoá Con người có thể nghe âm thanh với tần số từ 20 Hz đến 20 kHz Theo thuyết của Nyquist, ta phải lấy mẫu âm thanh ở tần số tối thiểu là hai lần tần số cao nhất mà ta muốn phát lại Tần số lấy mẫu 44,1 kHz là thích hợp Vấn đề còn lại là phải chọn số bit cho một mẫu mã hóa là bao nhiêu Thông thường là 16 bit

Lý do để chọn con số 16 bit bắt nguồn từ tỉ số tín hiệu và nhiễu (s/n) Nhiễu nói ở đây sinh ra do quá trình số hóa Cứ mỗi bit thêm vào, ta có tỉ số s/n tốt hơn 6dB (đối với tai người, 6 dB tương ứng với mức to gấp đôi) Âm thanh CD đạt tới khoảng 90 dB s/n Mức này phù hợp với phạm vi động của tai người còn tốt Nghĩa là ta không thể nghe được bất kỳ nhiễu nào đến từ bản thân hệ thống Điều

gì xảy ra nếu ta lấy mẫu với 8 bit? Ta sẽ nghe thấy rất nhiều tiếng sôi trong bản ghi Dễ dàng nghe thấy nhiễu trong khoảng nghỉ của bản nhạc hoặc giữa các từ nếu ta ghi âm một giọng nói

2.2.2.2 Hiệu quả che

Giả sử có một âm mạnh với tần số 1000Hz, và một âm kèm theo có tần số 1100Hz nhưng với cường độ âm nhỏ hơn 18dB Ta sẽ không thể nghe thấy âm này vì nó đã bị che hoàn toàn bởi âm chủ 1000Hz Nói một cách khác, một âm thanh yếu gần một âm thanh mạnh sẽ bị che Nếu có một âm thanh khác tần số 2000Hz cũng có mức to thấp hơn âm 1000Hz là 18dB thì ta sẽ nghe được âm này Để không nghe được âm này ta phải giảm mức to của âm này xuống còn

Trang 29

thấp hơn 45dB so với âm chủ 1000Hz Hiệu quả che có ý nghĩa rằng ta có thể gia tăng mức ồn nền xung quanh một âm mạnh mà vẫn không nghe được tiếng ồn vì chúng sẽ bị che hoàn toàn Tăng mức ồn nền còn có nghĩa là dùng ít bit để số hóa Và điều này cũng giống như là ta đã nén âm thanh vậy

Bây giờ hãy xem bộ mã hoá âm thanh MPEG hoạt động như thế nào Bộ mã hóa chia phổ tần số (20Hz đến 20kHz) thành 32 dãi nhỏ (sub-band) Mỗi sub-band giữ 1 phần nhỏ của phổ Trong vùng trên của sub-band 8 ta phát một âm có tần số 1000Hz với mức to 60dB Bộ mã hóa sẽ tính toán hiệu quả che của âm này

và nhận ra rằng có một ngưỡng che cho toàn bộ sub-band thứ 8 (tất cả những âm

có cùng tần số) Ngưỡng che này thấp hơn âm phát ra 35 dB Tỉ số s/n có thể chấp nhận được là 60 - 35 = 25 dB, tương đương với 4 bit Ngoài ra nó còn ảnh hưởng trên các sub-band 9-13 và 5-7 với hiệu quả che giảm dần từ sub-band 8 Hơn nữa,bộ mã hóa cũng xem xét mức độ nhạy cảm của tai đối với các tần số khác nhau Tai người ít nhạy cảm với các tần số cao và thấp Nó nhạy cảm nhất đối với tần số 2-4 kHz, cùng dải tần số với tiếng nói con người

Các sub-band nên phù hợp với tai người., nghĩa là mỗi sub-band cần có các tần số có cùng các tính chất âm học tâm lý Trong MPEG layerII, mỗi sub-band

có độ rộng 625Hz, do đó cần phải có những bộ lọc băng thông phức tạp Để các

bộ lọc đỡ phức tạp, người ta thêm FFT (Fast Fourie Transform) vào song song với bộ lọc và sử dụng các thành phần phổ từ FFT như là các thông tin thêm vào

bộ mã hóa Bằng cách này ta sẽ lấy mật độ bit cao hơn đối với các tần số thấp mà tai người nhạy cảm hơn

Còn nhiều vấn đề cần phải bàn tới Chúng ta chỉ mới giải thích sự che đồng

bộ, hiệu quả che còn xảy ra trước và sau một âm mạnh

2.2.2.3 Các lớp của âm thanh MPEG

Trang 30

Có nhiều sự nhầm lẫn về lớp âm thanh MPEG Tất cả các lớp đều dựa trên cùng một lược đồ mã hóa (mã hóa theo nhận thức) Mức độ phức tạp của bộ mã hóa và giải mã tuỳ thuộc vào mỗi lớp Sau đây là hình ảnh cho thấy tỉ số nén mà

ta cần phải đạt tới 100% chất lượng CD với các bộ mã hóa và giải mã khác nhau

Hình 2.8

Sau đây là chi tiết về các lớp

 Lớp I (Layer I)

Đây là lớp đơn giản nhất phù hợp cho ứng dụng của người dùng Mô hình

âm học tâm lý của lớp này chỉ sử dụng các tần số che Điều này có nghĩa rằng nó

sẽ bỏ qua các tần số bị khuất sau các tần số khác Phạm vi tốc độ bit từ 32 kbit/s (mono) đến 448 kbit/s (stereo) Tùy thuộc vào mức độ phức tạp của bộ mã hóa, một âm thanh chất lượng cao (gần với âm thanh CD) yêu cầu tốc độ bit khoảng

256 - 384 kb/s trên một chương trình stereo Không nên mã hóa với mức nén cao hơn 384 kb/s Độ phức tạp của bộ giải mã thấp, độ phức tạp của bộ mã hóa cao hơn 1.5 - 3 lần Lớp I được dùng nhiều trong DDC và Solid State Audio

 Lớp II (Layer II)

Lớp II đề nghị mức độ nén cao hơn lớp I và mức độ lọc sâu hơn Nó có những ứng dụng số cho cả âm thanh chuyên nghiệp và tài tử, như qua đài phát

Trang 31

thanh, TiVi Phạm vi tốc độ bit từ 32 - 192 kb/s cho âm thanh mono, và từ 64 -

384 kb/s cho âm thanh stereo Tùy thuộc vào mức độ phức tạp của bộ mã hóa, một âm thanh chất lượng cao (gần với âm thanh CD) yêu cầu tốc độ bit khoảng

256 - 384 kb/s trên một chương trình stereo Mức độ phức tạp của bộ giải mã 25% cao hơn so với lớp I, và bộ mã hóa có mức phức tạp cao hơn 2 - 4 lần

 Lớp III (Layer III)

Lớp III còn đưa ra mức độ nén và lọc cao hơn cả lớp II và sử dụng một bộ

Trang 32

CHƯƠNG 3 PHÉP BIẾN ĐỔI WAVELET

Biến đổi wavelet thực chất là một sự biểu diễn tín hiệu thành các băng tần octave, nó dựa trên cơ sở của các bank lọc số và mã hoá băng con Để hiểu rõ hơn về wavelet, chúng ta sẽ xét qua một số biến đổi truyền thống biểu diễn tín hiệu trong miền tần số và miền thời gian – tần số

3.1 Biến đổi Fourier

Ta biết biến đổi Fourier truyền thống phân tích tín hiệu thành những đường sin liên tục ở các tần số khác nhau Về mặt toán học, biến đổi này chuyển việc bảo dưỡng tín hiệu ở miền thời gian sang miền tần số

Đối với nhiều tín hiệu, phân tích Fourier rất có lợi do nội dung tần số của tín hiệu đóng vai trò rất quan trọng Nhưng phân tích Fourier cũng có một hạn chế rất lớn là khi chuyển sang miền tần số thì thông tin thời gian bị mất đi Nhìn vào biến đổi Fourier của một tín hiệu ta không thể xác định thời điểm xảy ra một sự kiện nào đó Nếu tính chất của tín hiệu không thay đổi theo thời gian hay tín hiệu

là tĩnh thì hạn chế này không quan trọng Tuy nhiên, hầu hết các tín hiệu đều có những đặc tính động hay nhất thời, chớp nhoáng như là sự dịch chuyển, tạo các

xu hướng khác nhau, những thay đổi đột ngột từ các thời điểm bắt đầu đến kết thúc của các sự kiện

Những đặc tính này thường là phần quan trọng nhất của tín hiệu và phân tích Fourier rõ ràng là không thích hợp để phát hiện chúng

Trang 33

Hình 3.1 : Biến đổi Fourier

3.2 Biến đổi Fourier thời gian ngắn (STFT)

Để khắc phục nhược điểm trên, Dennis Gobor (1946) đã sử dụng biến đổi Fourier để phân tích một vùng nhỏ của tín hiệu tại một thời điểm và gọi là kỹ thuật lấy cửa số tín hiệu Đây chính là biến đổi Fourer thời gian ngắn, thực hiện ánh xạ một tín hiệu thành một hàm hai chiều thời gian – tần số

Hình 3.2: Biến đổi Fourier thời gian ngắn

STFT sử dụng các hàm cơ sở là những hàm mũ phức đã lấy cửa sổ và các hàm dịch của chúng để tạo nên biến đổi Để có được biến đổi Fourier cục bộ, ta thực hiện như sau trước tiên, tín hiệu được nhân với một hàm cửa sổ (t-) và sau đố thực hiện biến đổi Fourier Kết quả tạo ra một biến đổi hai chiều STFT

3.3 Biến đổi Wavelet

Định dạng
Số trang	67
Dung lượng	1,82 MB