tín hiệu tiếng nói và các phương pháp mã hoá

Cũng từ đó tín hiệu tiếng nói trở thành một đối tượng và cũng là một nguồn tải lớn nhất của mạng viễn thông, cùng với sự phát triển của kỹ thuật số, các công nghệ bán dẫn thì các phương

Trang 1

Mục lục

Lời nói đầu 1

Chương I Tín hiệu tiếng nói 6

1 Quá trình phát âm của con người: 6

2 Đặc tính thống kê của tín hiệu tiếng nói: 9

2.1, Hàm phân bố mật độ xác suất(pdf) 10

2.2, Hàm tự tương quan(ACF) 10

2.3, Hàm mật độ phổ công suất PSD 11

3 Các mô hình biểu diễn 13

a Cơ quan phát âm (vocal tract) 13

b Mô hình sự kích thích 14

Chương II Mã hoá vùng thời gian 18

1 Công nghệ PCM: 18

1.1 Cấu hình cơ bản của kiểu truyền tin PCM: 18

1.2 Lấy mẫu: 19

1.3 Lượng tử hoá: 21

1.4 Sự nén và giãn: 22

1.5 Mã hoá và Giải mã: 25

2.Các phương pháp mã hoá khác: 27

2.1 phương pháp mã hoá DPCM ( Điều xung mã vi sai): 27

2.2 Phương pháp DM ( điều chế delta): 29

2.3 Điều chế Deta tự thích nghi (ADM): 31

3 Phương pháp mã hoá ADPCM (Điều chế xung mã vi sai thích ứng) (DAPTIVE DIFFERENTIAL PULSE CODE MODULATION ): 32

3.1 Tổng quan: 32

3.1.1 Mã hoá ADPCM(ADPCM encoder): 34

3.1.2 Giải mã ADPCM (ADPCM decoder): 34

3.2 Nguyên lý mã hóa ADPCM( ADPCM encoder principles): 35

Trang 2

3.2.1 Biến đổi định dạng đầu vào(Input PCM format conversion): 35

3.2.2 Tính toán tín hiệu vi sai (Difference signal computation): 35

3.2.3 Bộ lượng tử tương thích (Adaptive quantizer): 35

3.2.3.1 Tốc độ 40 kbps(Operation at 40 kbit/s): 35

3.2.3.3 Tốc độ 24kbps(Operation at 24 kbit/s): 37

3.2.4 Bộ lượng tử hoá tương thích ngược( Inverse adaptive quantizer): 38 3.2.5 Tương thích hệ số phân thang bộ lượng tử (Quantizer scale factor adaptation): 39

3.2.6 Điều khiển tương thích tiếng nói(Adaptation speed control): 40

3.2.7 Bộ tinh toán tín hiệu hồi phục và bộ phỏng đoán tương thích (Adaptive predictor and reconstructed signal calculator): 42

3.2.8 Bộ phát hiện truyền và tone (Tone and transition detector): 43

3.3 Nguyên lý giải mã ADPCM(ADPCM decoder principles): 43

3.3.1 Bộ lượng tử thích ứng đảo (Inverse adaptive quantizer): 43

3.3.2.Bộ lượng tử tương thích hệ số thang (Quantizer scale factor adaptation): 44

3.3.3 Điều khiển tốc độ thích ứng ( Adaptation speed control): 44

3.3.4 Bộ tính tín hiệu hồi phục và bộ tiến đoán tương thích (Adaptive predictor and reconstructed signal calculator): 44

3.3.5 Phát hiện truyền và tone (Tone and transition detector): 45

3.3.6 Biến đổi định dạng đầu ra PCM (Output PCM format conversion): 45

3.3.7 Điều chỉnh mã hoá đồng bộ (Synchronous coding adjustment): 45

Chương III Mã hoá vùng tần số 46

1 Mã hoá dải nhỏ(Sbc) 47

2 Mã hoá biến đổi thích nghi (ATC) 53

chương IV Phương pháp mã hoá tham số nguồn (resourd parameters method) 55 1 Bộ mã hoá nguồn theo kênh: 57

Trang 3

2 Bộ mã nguồn tiếng nói formant 57

3 Bộ mã nguồn tiếng nói phổ tách 58

4 Phương pháp dự đoán tuyến tính LPC 58

5 Bộ mã hoá nguồn tiếng nói âm thanh được kích thích 64

• Mã hoá CELP 65

A RPE- LPT (Bộ lập mã và giải mã tiên đoán thời hạn dài kích thích xung đều đặn) 68

B V-CELP (mã hoá tiên đoán kích thích xung tổng hợp): 70

C Phương pháp LD-CELP(mã hoá tiên đoán kích thích xung có độ trễ nhỏ) 73

D Phương pháp CS-ACELP 90

Chương V Phương pháp đánh giá: 107

I Kiểm tra định lượng 109

1 Tính tỉ số tín hiệu trên nhiễu(SNR): 109

2 Chỉ số độ rõ AI (articulation index): 111

3 Khoảng phổ Log 112

II Phương pháp đánh giá định tính : 113

1 Kiểm tra độ dễ hiểu : 113

2 Kiểm tra chất lượng: 116

Kết luận 120

Mục lục 121

Trang 4

Lời nói đầu

Vào năm 1892 Alexander Graham Bell khai trương tuyến điện thoại

thương mại đầu tiên trên thế giới và cho tới gần đây con người coi điện thoại

là một công cụ truyền tin hữu hiệu Nhờ điện thoại mà con người có khả năng trao đổi thông tin giữa các điểm khác nhau trên toàn thế giới một cách dễ dàng Ngoài ưu thế như khả năng truyền thông tin theo thời gian thực và dễ sử dụng, mạng điện thoại ngày nay còn có các ưu điểm rất cơ bản, đó là được phổ biến trên toàn cầu, giúp ta có khả năng liên lạc hầu như mọi điểm trên trái

đất, thời gian đáp ứng ngắn và thuận tiện cho người sử dụng Cũng từ đó tín hiệu tiếng nói trở thành một đối tượng và cũng là một nguồn tải lớn nhất của mạng viễn thông, cùng với sự phát triển của kỹ thuật số, các công nghệ bán dẫn thì các phương pháp mã hoá tín hiệu tiếng nói cũng phát triển mạnh, lý thuyết mà các nhà khoa khọc đưa ra từ nhiều thập kỷ trước đã được thực hiện

Đặc biệt khoảng 10 năm trở lại đây với sự phát triển mạnh của mạng viễn thông toàn cầu, mạng Internet các dịch vụ viễn thông tích hợp thoại, hình , số liệu thì băng tần truyền dẫn ngày càng trở nên hạn chế, ngoài việc phát triển các công nghệ truyền dẫn có hiệu năng cao như SDH,VLSI , thì xu hướng làm giảm băng tần truyền dẫn từ chính nguồn tín hiệu được xem là biện pháp khả thi và kinh tế, các hãng liên tiếp đưa ra các cải tiến, và đề xuất các phương thức mã hoá mới như MPX, Q-CELP, LD-CELP,V-CELP, SBC ở Việt nam lĩnh vực này còn khá mới mẻ, vì vậy nghiên cứu các đặc tính của tín hiệu tiếng nói và các phương pháp xử lý mã hoá là một công việc hết sức cần thiết

Trong đề tài tôt nghiệp, em được giao nhiệm vụ nghiên cứu “đặc tính của tín hiệu tiếng nói và các phương pháp mã hoá” Em xin được trình bày luận án tốt nghiệp của mình với các nội dung sau:

• Chương 1 :Nghiên cứu quá trình phát âm và các đặc tính của âm thanh

• Chương 2 :Phương pháp mã hoá vùng thời gian

• Chương 3 :Phương pháp mã hoá vùng tần số

• Chương 4 :Các kỹ thuật mã hoá đang được sử dụng phổ biến cho các dịch vụ tiên tiến

Trang 5

• Chương 5 :Tổng quan các phương thức đánh giá phương thức mã hoá tín hiệu tiếng nói

Cuối cùng em xin chân thành cảm ơn các thầy cô trong khoa Điện -

Điện Tử, Trường đại học giao thông vận tải Hà nội, và đặc biệt xin chân thành cảm ơn thầy giáo Tiến sỹ Trần Quốc Thịnh đã giúp đỡ em hoàn thành đề tài của mình

Do trình độ, và thời gian hạn chế cho nên đề tài không thể tránh khỏi những thiếu sót, em rất mong nhận được sự đóng góp của các thầy cô

Trang 6

Chương I Tín hiệu tiếng nói

1 Quá trình phát âm của con người:

Quá trình phát âm của con người được mô tả như sau:

áp lực tạo ra từ phổi làm cho các thanh quản phát ra các rung động

Lỗ giãn giữa các thanh quản gọi là thanh môn, thanh môn giống như một nút

cổ chai, không khí đi qua đây sẽ có áp suất thay đổi đột ngột tạo thành xung lực, ảnh hưởng của thanh môn chính là sự phóng các chuỗi không khí bị nén

đến các hốc cộng hưởng âm với tần số thay đổi theo sự giãn nở này(do thần kinh điều khiển)

Luồng khí xuyên qua các hốc, phản xạ lên các vật chắn (là các bộ phận giới hạn cơ quan phát âm như các cơ), đi qua các hốc cộng hưởng cuối cùng phát ra ở môi và lỗ mũi dưới dạng sóng áp lực, còn gọi là sóng áp lực

âm thanh tiếng nói

Thanh quản có thể bị làm cứng, hoặc nới lỏng (do thần kinh điều khiển các cơ) để thay đổi tốc độ dãn

Cơ quan chắn giữa khoang mũi và khoang miệng hoạt động như một cổng giữa hốc âm mũi và hốc âm miệng, nó có thể đóng để cô lập hay mở để kết hợp với hốc âm miệng một cách hài hoà trong các tình huống khác nhau (ví dụ như khi hát, khi nói chuyện, khi nói thầm) và trong các ngôn ngữ khác nhau (ví dụ tiếng Pháp thường phát ra nhiều âm mũi hơn tiếng Việt)

Lưỡi, quai hàm, răng, môi được thay đổi vị trí không gian để thay đổi hình dạng (tức là thay đổi tần số cộng hưởng) của hốc âm miệng, sóng áp lực

âm thanh phát ra từ miệng phụ thuộc vào sự liên kết giữa các âm phát ra và sự suy hao trên các cơ quan phản xạ

Sóng áp lực âm thanh tồn tại dưới dạng sự di chuyển liên tục của các luồng khí, khi đến cơ quan thính giác thì được phản ánh qua các thông số: độ

rõ, âm sắc, độ cao, độ lớn của âm

Cơ quan phát âm được kích thích bởi luồng khí từ phổi, nguồn kích thích này có thể tạo ra âm kêu hoặc không kêu âm kêu ứng với quá trình sau: Thanh đới dao động tại tần số gọi là “tần số căn bản”, hay còn gọi là độ cao

Trang 7

của âm, có thể trực tiếp kiểm tra bằng cách đặt ngón tay vào cổ họng khi nói, nếu có sự rung động sang tay thì đó là âm kêu

Còn âm không kêu ứng với quá trình sau: Khi thanh đới không dao

động, tức là bị “làm cứng” bởi các cơ, luồng khí hoặc cũng được phát ra cơ quan phát âm hoặc bị thanh môn chặn lại hiệu ứng của chúng là có sự hỗn loạn của các luồng khí đi qua các cơ quan

Bởi vậy trong thời gian xem xét sóng âm thanh phát ra là sự kết hợp của âm thanh và âm vô thanh

Liên quan đến quá trình phát âm, ta có khái niệm formant, một đặc

điểm hết sức quan trọng trong lĩnh vực xử lý tín hiệu tiếng nói, nó được hiểu như sau:

Formant là tần số cổng hưởng cơ bản của cơ quan phát âm, nó phụ thuộc vào cỡ, hình dạng của toàn bộ cơ quan phát âm Năng lượng của những tần số này được tăng cường do có sự phản xạ đồng thời của các thành phần khác, còn năng lượng ở những thành phần tần số khác có khuynh hướng suy

h1 Cấu tạo cơ quan phát âm

Trang 8

giảm đặc biệt là tại các tần số triệt tiêu, năng lượng bị làm nhụt Quan sát trên máy phân tích phổ tần số cổng hưởng này(formant) xuất hiện như một cái bướu như hình vẽ

Ngôn ngữ khác nhau trên thế giới chỉ là ở sự khác nhau giữa các tần số formant cho nên để xây dựng một hệ thống mã hoá tham số nguồn hiệu quả thì cần phải gắn cả yếu tố dân tộc, ngôn ngữ vào đó

Phân tích bản chất của quá trình phát âm không những giúp cho việc mã hoá tín hiệu tiếng nói mà còn đóng vai trò quan trọng trong quá trình tổng hợp tiếng nói, và nhận dạng tiếng nói Cả ba lĩnh vực công nghệ này đang

được Việt nam rất quan tâm

Thính giác :

Sản phẩm của các quá trình xử lý tín hiệu tiếng nói phải được phản ánh bởi chính con người thông qua cơ quan thính giác Các thông tin của thính giác liên quan đến vấn đề mã hoá tín hiệu là:

Hình 1-1 : Dạng sóng âm của tiếng nói

Trang 9

• Thính giác có tính quán tính : Đáp ứng của thính giác với tác động của

âm thanh không phải là ngay tức thì, mà là có tính trễ, các thí nghiệm

đã cho kết quả với môi trường truyền âm bình thường sau khi bắt đầu khoảng 200ms thính giác mới xác định âm lượng của nó khi âm ngừng cảm nhận còn âm kéo dài chừng 150-200 ms thính giác không phân biệt được hai âm giống nhau đi liền nhau khoảng nhỏ hơn 50 ms, tức là

có hiện tượng che lấp của âm, phải qua tác động vài chu kỳ thì tai người mới “quen” với cao độ của âm (tần số cao hay thấp)

• Hiệu ứng không gian (stereo) của tai người là hiệu ứng cảm ứng hai tai với hai nguồn âm tương quan, điều này có ảnh hưởng đến độ rõ của âm khi tiến hành kiểm tra hệ thống

• Tính phi tuyến của thính giác, thính giác có mức độ cảm thụ âm nhiễu không phải là tỉ lệ thuận với độ dộng dải tần, ảnh hưởng của nó là méo

âm thanh do thêm thành phần sóng hài, không gây ra sai lệch cho người nghe bằng do thêm thành tần số không bội, khi mã hoá phải chú

2 Đặc tính thống kê của tín hiệu tiếng nói:

Dạng sóng tín hiệu tiếng nói có một số tính chất hữu ích có thể khai thác

được khi tiến hành mã hoá tín hiệu Tính chất thường dùng nhất là sự phân bố xác suất không đều của biên độ tiếng nói, có sự tự tương quan giữa các mẫu liên tiếp, bản chất không phẳng của phổ tín hiệu tiếng nói sự tồn tại của các thành phần âm kêu và âm không kêu và tính chất tựa tuần hoàn của các tín hiệu tiếng nói Tính chất quan trọng nhất mà tất cả các bộ mã hoá khai thác đó là 0 Một độ rộng dải tần giới hạn có nghĩa là nó có thể được

rời rạc hoá về mặt thời gian với một tốc độ giới hạn và được khôi phục lại hoàn toàn đầy đủ từ các mẫu của nó với điều kiện thoả mãn điều kiện lấy mẫu Nyquiet Còn các tính chất khác nói lên khả năng cho phép lượng tử hoá

Trang 10

2.1, Hàm phân bố mật độ xác suất(pdf)

Hàm mật độ không đều của biên độ tiếng nói, nói chung được đặc trưng bởi xác suất cao của các biên độ gần giá trị “không”, một xác suất đáng kể ở các biện độ rất lớn và một hàm giảm không tăng đều của các biên độ gần các cực trị này Tuy nhiên sự phân bố chính xác lại phụ thuộc vào độ rộng dải tần lối vào và điều kiện thu âm thanh, hàm đăc trưng pdf:

Χ Χ

(x

p

Hàm này gần giống phân bố Gauss chuẩn, các bộ lượng tử hoá không

đều (PCM) và các bộ lượng tử hoá vectơ (CELP) cố gắng hoà hợp sự phân bố các pdf tín hiệu tiếng nói lối vào bằng cách dùng nhiều mức lượng tử hơn ở vùng có xác suất cao và ít ở mức lượng tử hơn ở vùng có xác suất nhỏ

2.2, Hàm tự tương quan(ACF)

Tính chất có ích khác của tín hiệu tiếng nói khi phân tích là tính có một

sự tương quan đáng kể (tức là sự giống nhau) giữa các mẫu tiếng nói kế cận nhau của một đoạn tiếng nói

Tức là trong mỗi mẫu của tín hiệu tiếng nói có một bộ phận lớn có thể dự

đoán từ các giá trị của các mẫu trước với một sai số ngẫu nhiên nhỏ nào đó các phương pháp AD, ADPCM, APCM, CELP, LPC dựa trên tính chất này Hàm tự tương quan:

Trang 11

2.3, Hàm mật độ phổ công suất PSD

Đặc tính không phẳng của mật độ phổ công suất của tiếng nói làm cho

nó có thể thu được một hiệu suất nén đáng kể bằng việc mã hoá tiếng nói vùng tần số Bản chất không phẳng của PSD là thể hiện trong vùng tần số của tính chất tự tương quan là khác không PSD tính trung bình trong một thời gian dài của tiếng nói chứng tỏ các thành phần tần số cao đóng góp rất ít vào năng lượng tiếng nói tổng cộng Điều này chứng tỏ rằng sự mã hoá tiếng nói tách biệt trong các dải tấn số khác nhau có thể đưa đến bộ khuyếch đại mã hoá

đáng kể, tuy nhiên không thể bỏ qua được các thành phần này vì chúng có ý nghĩa là các phần tải thông tin quan trọng

Phổ công suất của tín hiệu tương tự là kết quả của phép biến đổi Furier của ∅n(τ):

Trang 12

Mật độ phổ công suất LAPLACE, GAMMA

và tín hiệu thực của tín hiệu tiếng nói thực tế

Trang 13

3 Các mô hình biểu diễn

a Cơ quan phát âm (vocal tract)

Sự cộng hưởng của tiếng nói (formant) là tương ứng với điểm cực của hàm truyền V(z)

G z

v

1

) (

Mô hình toàn cực của hàm truyền là mô hình mô tả tốt nhất cho thành phần âm kêu, tuy nhiên các ảnh hưởng của mũi, và kẽ răng lại yêu cầu mô hình phải có cả hai sự cổng hưởng và sự triệt tiêu trong trường hợp này, cần phải thêm các điểm không vào mô hình Các hệ số của mẫu phương trình trên phải là hoặc thực hoặc cặp phức

Tần số cộng hưởng điển hình của cơ quan phát âm:

k

* , k = ư k ± j2Π F

k s

tương ứng rời rạc về thời gian là:

fT je

fT e

z

sin 2 2

cos

* ,

σ σ

Băng tần của formant tương ứng là 2σk và tần số trung tâm là 2∏Fk Trong mặt phẳng Z đường kính trung tâm đến cực sẽ quyết định băng tần nghĩa là :

|Z|=e-σkT và θk=2∏FkT

-σk

∏/T 2∏Fs

-∏/T -2∏Fs

σ

|Zk|

mặt phẳng S mặt phẳng Z

Trang 14

Bởi vậy nếu V(z) tìm được thì tần số cộng hưởng và băng tần cũng được tính, như chỉ ra trên hình vẽ trên tần số thực phức của cơ quan phát âm tất cả thuộc nửa bên trái mặt phẳng s vì vậy nó là hệ thống ổn định của phép biến

đổi s, do đó σk>0 và |Zk|<1 nghĩa là tất cả các điểm cực tương ứng của mô hình rời rạc thời gian phải nằm bên trong vòng tròn đơn vị để đảm bảo tính ổn

Máy phát chuỗi xung

Chế độ xung kích thích

+chu kỳ cao độ

điều khiển biên độ Các xung âm kêu

Trang 15

Điều chỉnh biên độ Gv, điều khiển một mạch kích thích âm kêu, các nghiên cứu chỉ ra rằng dạng sóng "thanh môn" có thể được thay bằng dạng sóng của xung tổng hợp theo dạng:

Tổng hợp hai cách trên ta có mô hình hoàn thiện:

Như trên đã phân tích các bản chất của tín hiệu tiếng nói với mô hình cho cơ quan phát âm, nhìn chung xử lý tín hiệu tiếng nói trong viễn thông có thể dùng điều biến tương tự, tuy nhiên kỹ thuật này đã trở nên lỗi thời, hiện nay chúng ta đều dùng kỹ thuật số cho tất cả các loại tín hiệu do vậy tín hiệu tiếng nói cũng phải xem xét trong mô hình số Như vậy bản chất của mã hoá tín hiệu thoại chỉ là xử lý số thông thường Các phương pháp tiếp cận đối tượng khác nhau cho ta các phương pháp mã hoá khác nhau, căn cứ vào cách tiếp cận đối tượng ta chia các phương pháp mã hoá như hình vẽ:

Khuyếch đạichu kỳ cao độ

s(n)

Trang 16

Bé m∙ ho¸ tiÕng nãi

CS ACELP

- CELP

LD-APCM, DA,APC

Sù ph©n tÇng bé m· ho¸ tiÕng nãi

LTP

RPE-Bé m· ho¸ d¹ng

Trang 17

Bộ mã hoá tiếng nói được phân thành hai loại lớn :bộ mã hoá dạng sóng

và bộ mã hoá tham số nguồn Bộ mã hoá dạng sóng nhằm tạo ra dạng sóng thời gian của tín hiệu tiếng nói càng chính xác càng tốt, chúng được thiết kế

độc lập với nguồn tín hiệu (có nghĩa là có thể áp dụng cho cả loại tín hiệu khác) nên chất lượng không phụ thuộc nhiều vào nguồn tín hiệu chúng có ưu

điểm là chất lượng ổn định với phạm vi rộng của các đặc trưng tiếng nói, và các môi trường ồn khác nhau Còn các bộ mã hoá nguồn tiếng nói thì lại có ưu thế trong việc tiết kiệm băng tần nhưng lại rất phức tạp và có độ ổn định không cao tuy nhiên chúng ngày càng được khắc phục, để phục vụ cho các công nghệ viễn thông hiện tại và trong tương lai Nội dung cụ thể sẽ được trình bày trong các chương tiếp theo

Trang 18

Chương II M∙ hoá vùng thời gian.

1 Công nghệ PCM:

1.1 Cấu hình cơ bản của kiểu truyền tin PCM:

Mã hoá là quá trình biến đổi các giá trị rời rạc thành các mã tương ứng Nhìn chung, việc lấy mẫu liên quan tới quá trình biến đổi các tín hiệu liên tục thành các tín hiệu rời rạc của trường thời gian gọi là PAM (điều chế biên độ xung) Việc mã hoá là quá trình lượng tử hoá các giá trị mẫu này thành các giá trị rời rạc của trường biên độ và sau đó biến đổi chúng thành mã nhị phân hay các mã ghép kênh Khi truyền thông tin mã, nhiều xung được yêu cầu cho mỗi giá trị lấy mẫu và vì thế độ rộng dải tần số cần thiết cho truyền dẫn phải được

mở rộng Đồng thời xuyên âm, tạp âm nhiệt, biến dạng mẫu, mất xung mẫu, biến dạng nén, tạp âm mã hoá, tạp âm san bằng được sinh ra trong lúc tiến hành lấy mẫu và mã hoá Việc giải mã là quá trình khôi phục các tín hiệu đã mã hoá thành các tín hiệu PAM được lượng tử hoá Quá trình này tiến hành theo thứ tự đảo đúng như quá trình mã hoá Mặt khác quá trình lượng tử hoá, nén và mã hoá các tín hiệu PAM được gọi là quá trình mã hoá và quá trình chuyển đổi các tín hiệu PCM thành D/A, sau đó, lọc chúng sau khi giãn để

đưa về tiếng nói ban đầu gọi là quá trình giải mã Cấu hình cơ sở của hệ thống truyền dẫn PCM đối với việc thay đổi các tín hiệu tương tự thành các tín hiệu xung mã để truyền dẫn được thể hiện ở hình (pcm1) Trước tiên các tín hiệu

đầu vào được lẫy mẫu một cách tuần tự, sau đó được lượng tử hoá thành các giá trị rời rạc trên trục biên độ Các giá trị lượng tử hoá đặc trưng bởi các mã nhị phân Các mã nhị phân này được mã hoá thành các dạng mã thích hợp tuỳ theo đặc tính của đường truyền dẫn

Trang 19

Thiết bị đầu cuối mã hoá chuyển đổi các tín hiệu thông tin như tiếng nói thành các tín hiệu số như PCM Khi các tín hiệu thông tin là các tín hiệu tương

tự, việc chuyển đổi A/D được tiến hành và việc chuyển đổi D/D đợc tiến hành

ở trường hợp của các tín hiệu số Đôi khi, quá trình nén và mã hoá băng tần rộng được tiến hành bằng cách triệt sự dư thừa trong quá trình tiến hành chuyển đổi A/D hoặc D/D)

1.2 Lấy mẫu:

Nguyên tắc cơ bản của điều xung mã là quá trình chuyển đổi các tín hiệu liên tục như tiếng nói thành tín hiệu số rời rạc và sau đó tái tạo chúng lại thành thông tin ban đầu Để tiến hành việc này, các phần tử thông tin được rút ra từ các tín hiệu tương tự một cách tuần tự Quá trình này được gọi là công việc lấy mẫu

(a) Tín hiệu tiếng nói m(t)

(b) Xung lấy mẫu s(t)

(c) Chức danh lấy mẫu

(d) Tín hiệu PAM đã lấy mẫu

Phần phát Tái tạo và truyền dẫn Phần thu

Đầu vào

Đầu ra tương tự

Cấu hình cơ bản của phương pháp thông tin PCM

Trang 20

Quá trình lấy mẫu

Theo thuyết lấy mẫu của Shannon, các tín hiệu ban đầu có thể được khôi phục khi tiến hành công việc lấy mẫu trên các phần tử tín hiệu được truyền đi

ở chu kỳ hai lần nhan hơn tần số cao nhất Nói cách khác, khi độ rộng dải tần của tín hiệu được truyền đi gọi là BW, tỷ lệ lấy mẫu tới hạn là tỷ lệ Nyquitst trở thành Rmax = 2 x BW Các tín hiệu xung lấy mẫu là tín hiệu dạng sóng chu k, là tổng các tín hiệu sóng hài có đường bao hàm số sin đối với các tần

số Vì thế, phổ tín hiệu tiếng nói tạo ra sau khi đã qua chức năng lấy mẫu thể hiện ở hình sau

Phổ trước và sau quá trình lẫy mẫu

Trang 21

Có hai kiểu lấy mẫu tuỳ theo dạng của đỉnh độ rộng xung, lấy mẫu tự nhiên và lấy mẫu đỉnh bằng phẳng Lấy mẫu tự nhiên được tiến hành một cách

lý tưởng khi phổ tần số sau khi lấy mẫu trùng với phổ của các tín hiệu ban

đầu Tuy nhiên trong các hệ thống thực tế, điều này không thể có được Khi tiến hành lấy mẫu đỉnh bằng phẳng, một sự nén gọi là hiệu ứng biên độ lấy mẫu làm xuất hiện méo Ngoài ra, nếu các phần tử tín hiệu đầu vào vượt quá

độ rộng dải tần 4 KHz, xuất hiện sự nén quá nếp gấp Vì vậy, việc lọc băng rộng các tín hiệu đầu vào phải được tiến hành trước khi lấy mẫu

1.3 Lượng tử hoá:

PAM với biên độ tương tự chuyển đổi thành các tín hiệu số là các tín hiệu rời rạc sau khi đi qua quá trình lượng tử hoá Khi chỉ thị biên độ của tiếng nói liên tục với số lượng hạn chế, nó được đặc trưng với dạng sóng xấp xỉ của bước Tạp âm lượng tử NQ = Q - S tồn tại giữa dạng sóng ban đầu (S) và dạng sóng đã lượng tử (Q); nếu bước nhỏ tạp âm lượng tử được giảm đi nhưng số l-

ượng bước đầu cần thiết cho lượng tử toàn bộ dải tín hiệu đầu vào trở nên rộng hơn Vì thế số lượng các dãy số mã hoá tăng lên

Tạp âm tạo ra khi biên độ của các tín hiệu đầu vào vượt quá dãy lượng tử gọi là tạp âm quá tải hay tạp âm bão hoà S/NQ được sử dụng như một đơn vị

Tạp âm lượng tử theo biên độ tín hiệu đầu vào

Trang 22

để đánh giá những ưu điểm và nhược điểm của phương pháp PCM Khi số lượng các dãy số mã hoá trên mỗi mẫu tăng lên 1 bit, S/NQ được mở rộng thêm 6 dB

1.4 Sự nén và gi∙n:

Như phương pháp tiến hành mã hoá hoặc giải mã, mã đường, mã không phải mã đường và mã đánh giá có thể được lựa chọn theo các kiểu của nguồn thông tin Mã đường là một quá trình triệt số lượng tạp âm lượng tử sinh ra trên thông tin được gửi đi bất chấp mức đầu vào Nó được sử dụng trong một

hệ thống ở đó giá trị tuyệt đối của số lượng tạp âm là tới hạn hơn S/NQ Mã không phải là mã đường được sử dụng rộng dãi trong một hệ thống ở đó S/N của hệ thống thu được quan trọng hơn số lượng tuyệt đối của tạp âm như tiếng nói Khi bước lượng tử là một hằng số, S/N thay đổi theo mức tín hiệu Chất lượng gọi trở nên xấu hơn khi mức tín hiệu thấp Vì thế đối với các tín hiệu mức thấp, bước lượng tử được giảm và đối với các tín hiệu mức cao nó được tăng để ít hoặc nhiều cân bằng S/N với mức tín hiệu đầu vào Những vấn đề trên được tiến hành bằng cách nén biên độ Một cách lý tưởng, đối với các tín hiệu mức thấp đường cong nén và giãn là truyến tính Đối với các tín hiệu mức cao chúng đặc trưng bởi đường cong đại số Hiện nay, ITU-T khuyến nghị luật

μ (μ =255) là phương pháp 15 đoạn(các hệ thống của Hoa Kỳ và Nhật) và luật (A= 87,6) (các hệ thống của châu âu, trong đó có Việt nam) là phương pháp

13 đoạn như là phương pháp nén đoạn mà các hàm đại số được biểu diễn gần

đúng với một vài đường tuyến tính

y=yma

A

x x A

ln 1

) / ( max+ với 0≤(x/xmax)≤1/A

=yma

A

x Ax

ln 1

) / ln(

)) / ( 1

+

ư x x

với -xmax ≤ x ≤ 0

Trang 23

ymax, xmax: là các biên độ lớn nhất tại đầu vào

Với việc sử dụng công nghệ nén đ−ợc mô tả ở trên, những đặc tính tạp

âm ở các tín hiệu mức thấp có thể đ−ợc giảm đến mức hầu nh− giống với mức

của mã tuyến tính 13 bits Một bộ nén - giãn đôi khi đ−ợc nói tới nh− là một từ

viết tắt kết hợp nén và bộ dãn

Trang 24

Cả hai phương pháp mã hoá và phương pháp nén là đồng thời được tiến hành qua bước nén số - số hoặc tự mã hoá mà không thêm những mạch riêng

rẽ khác bởi sử dụng tính chất tuyến tính của phương pháp nén đoạn trong số Một bảng giá trị với phương pháp mã hoá và cách nén mã μ =255 được chỉ ra trên bảng dưới đây

Trang 25

để đánh giá xem có các tín hiệu nào không Như vậy, một bộ phận chuyển đổi D/A hoặc bộ giải mã là cần thiết cho việc tạo ra điện áp chuẩn Trong liên lạc công cộng PCM, tiếng nói được biểu diễn với 8 bits Tuy nhiên trong trường hợp của luật μ , các từ PCM đợc lập nên như sau (8 bits)

Mã hoá từ PCM

Trang 26

Việc báo hiệu được thực hiện sau khi thay đổi "0" của từ PCM sang "1"

và "1" sang "0" và vì thế, một lượng lớn số 1 đã được thu thập chung quanh mức 0 và sự tách các tín hiệu thời gian trong khi thu nhận có thể dễ dàng thực hiện B8 là bít thứ 8 của từ PCM, đôi khi được dùng như là một bit báo hiệu B7 (hoặc B8) chuyển đổi sang "1" khi mọi từ của PCM là "0" Như vậy, trong các tín hiệu PCM được gửi đi, các số "0" liên tục luôn luôn ít hơn 16 Mặt khác, khi sử dụng phương pháp Bắc Mỹ, bit B2 của mọi kênh được thay đổi thành "0" nhằm chuyển đi thông tin cảnh báo cho đối phương ở Nhật Bản, bit

"S" đó là một phần của khung các bit chỉ định được dùng thay thế cho mục

đích này Các từ PCM nhận được, được chuyển đổi thành các tín hiệu PAM bởi bộ giải mã ở phía thu, các xung tương ứng với mỗi kênh được chọn lọc từ các dẫy xung ghép kênh để tạo ra các tín hiệu PAM Rồi, các tín hiệu tiếng nói được phục hồi bằng một bộ lọc thông thấp

Quá trình giải mã Phổ của tín hiệu đã lấy mẫu

Trang 27

2.Các phương pháp mã hoá khác:

Các quy luật đối với PCM vi phân thích ứng 32Kbps có nén giãn như mã hoá dự đoán của các tín hiệu tiếng được chỉ rõ trong các khuyến nghị G712 của ITU-T Phương pháp ADPCM 32 Kbps được chấp nhận vào tháng 10 năm

1984 được dùng để chuyển đổi các tín hiệu PCM 64 Kbps theo luật A hay luật

μ hiện nay sang các tín hiệu ADPCM Phương pháp 32 Kbps ADPCM có khả năng chuyển một lượng tiếng nói lớn gấp hai lần thậm trí còn nhiều hơn phương pháp qui ước 64 Kbps PCM, được chấp nhận một cách rộng rãi bởi bộ chuyển mã hoặc các thiết bị đầu cuối mã hoá với hiệu quả cao Hiện nay các nước tiên tiến trên thế giới đang tiến hành nghiên cứu một cách ráo riết về công nghệ mã hoá tốc độ không những cho thoại mà cả truyền hình Cụ thể sẽ bàn đến tiếp ở các phần tiếp theo

2.1 phương pháp m∙ hoá DPCM ( Điều xung m∙ vi sai):

Đây là phương pháp dựa trên tính chất tương quan của tín hiệu tiếng nói, chỉ truyền đi độ trênh lệch giữa các mẫu cạnh nhau của tín hiệu tiếng nói:

Quá trình giải mã và phổ

Trang 28

Tín hiệu tiếng nói tương tự vào qua bộ lọc thông thấp, hạn chế băng tần của tín hiệu vào(thường là một nửa tần số lấy mẫu), máy phát lượng tử và mã hoá lượng tử trênh lệch giữa xung lấy mẫu tương tự xn và tín hiệu dự đoán xnlấy từ đầu ra bộ dự đoán x`n Giá trị dự đoán của mẫu tiếp theo có được nhờ ngoại suy từ p giá trị mẫu cho trước:

x`(n)=∑

p i

i n

i x a

1

`

ai là hệ số của các bộ dự đoán, độ trênh lệch giữa xung lấy mẫu đầu vào

và tín hiệu ra lấy mẫu là:

Bộ giải mã

tiếng nói

e`(n)=x`(n)-x`’(n)DPCM

DPCM en xn

x`’

tiếng nói ra

DPCM 1 Sơ đồ mã hóa và giải mã DPCM

Trang 29

phục trước đó, tuy nhiên để giảm lỗi cộng lại của nhiều lần ta dùng phia thu một bộ dự đoán giống với phía phát Việc sử dụng vòng phản hồi giúp cho bộ lượng tử hạn chế độ trênh lệch giữa sai số en và si số được lượng tử e`n (en`- en) Nếu giá trị này càng nhỏ thì chất lượng tiếng nói càng tốt, theo các tính toán thì phương pháp này có độ rộng băng tần đi một nửa

Tốc độ bit của điều chế delta bằng tốc độ của tần số lấy mẫu, tức là 8 kbps

Phương pháp này như đã nói là khá đơn giản, đạt được tốc độ mã hoá rất thấp, nó là phương pháp duy nhất của phương pháp mã hoá dạng sóng có thể so sánh về tốc độ với phương pháp tham số nguồn về tốc độ, song chất lượng tín hiệu mã hoá không cao, không đảm bảo được phạm vi động của hệ thống PCM

Trang 31

2.3 Điều chế Deta tự thích nghi (ADM):

Phương pháp này còn gọi là phương pháp điều chế delta có độ dốc thay

đổi liên tục Phương pháp này khắc phục cho điều chế delta về khả năng dải

động, phương pháp này dựa trên phương pháp thay đổi động hệ số khuyếch

đại của bộ tích phân phù hợp với mức công suất trung bình của tín hiệu vào

thoại vào

hình adm 1 Sơ đồ mã hóa và giải mã AD

Bình phương

mạch RC

điều khiển

) ' (

n

s

nT t

δ

Dạng sóng tín hiệu nguồn, hồi phục, tín hiệu truyền của ADM

Trang 32

Cỡ của bước lượng tử thay đổi nhờ thay đổi hệ số khuyếch đại của bộ tích phân nhờ mạch RC và mạch bình phương, khi tín hiệu vào là hằng số hoặc thay đổi chậm theo thời gian thì bộ điều chế này sẽ tìm kiếm và đưa ra một dãy xung có cực tính xen kẽ, mạch RC lấy trung bình các dãy này, khi nó đưa

ra gía trị bằng zero Có nghĩa là tín hiệu điều khiển làm hệ số khuyếch đại của

bộ khuyếch đại thay đổi rất ít Đầu ra bộ khuyếch đại có bước Δ kích thước nhỏ, khi tín hiệu vào có sườn dốc thì hàm bậc thang được tạo ra để kịp độ dốc của tín hiệu vào Lúc đó sẽ tạo ra một loạt xung âm mạch RC lấy trung bình loạt xung này và đưa ra điện áp điều khiển lớn, tức là cỡ của bước tăng lên, nhờ mạch bình phương nên điện điều khiển bộ khuyếch đại luôn luôn dương,

mà không phụ thuộc cực tính của xung thế nào phương pháp này có khả năng giảm méo do quá tải sườn và tạp âm hạt

3 Phương pháp mã hoá ADPCM (Điều chế xung mã vi sai thích ứng) (ADAPTIVE DIFFERENTIAL PULSE CODE MODULATION):

Đây là phương pháp mã hoá khá quan trọng, tập hợp được những ưu điểm của các phương pháp trên và đã được ITU-T tiêu chuẩn hoá trong khuyến nghị G721, và đã có nhiều ứng dụng trong thực tế như hệ thống di động CT2 của Hàn Quốc, DECT của Mỹ Vì vậy ta sẽ nghiên cứu sâu phương pháp Các tốc

độ được tiêu chuẩn là 40,32, 24, 26 kbps

Phương pháp này dựa trên tính chất thay đổi chậm của phương sai và hàm tự tương quan, với phương pháp PCM ta dùng bộ lượng tử đều có công suất tạp âm là Δ2/12, phương pháp ADPCM và các phương pháp dự đoán tuyến tính nói chung là thay đổi Δ hay còn gọi là phương pháp dùng bộ lượng

tử hoá tự thích nghi Các thuật toán được phát triển cho hệ thống điều xung mã

vi sai khi khi mã hoá tín hiệu tiếng nói bằng cách sử dụng bộ lượng tử hoá và

bộ dự đoán thích nghi, co thông số thay đổi theo chu kỳ để phản ánh tính thông kê của tín hiệu tiếng nói

Thuật toán cụ thể được xem xét cụ thể được trình bày trong các phần dưới đây

3.1 Tổng quan:

Bộ mã hoá có vai trò biến đổi tín hiệu điều chế xung mã PCM luật A huặc μ 64 kbit/s thành tín hiệu đầu ra có tốc độ là 40, 32, 24,16 kbit/s

Trang 33

Biến đổi

thànhPCM

Lượng tử hóa thích ứng đảo

Điềuchỉnh

đồng bộ mã hoá

Tiên đoán tương thích +

Biến đổi thànhPCM đồng dạng

Tiên đoán tương thích

Lượng tử hóa thích ứng đảo

Lượng tử hóathích ứng +

+

tính hiệu hồi phục

Tín hiệu vi phân lượngtử hóa

Tín hiệu vi phân

Tín hiệu ước lượng

Tín hiệu vào PCM

2.Giải Mã

Sơ đồ khối bộ mã hoá và giải mã

Trang 34

3.1.1 Mã hoá ADPCM(ADPCM encoder):

Sau khi biến đổi tín hiệu thành dạng PCM đồng dạng, tín hiệu vi phân

được tính toán, bằng phép trừ giá trị ước lượng của tín hiệu vào và chính nó

Bộ lượng tử thích ứng 31-, 15-, 7-, 4 sử dụng 5, 4, 3 hoặc hai bít nhị phân tương ứng, giá trị của tín hiệu vi phân được truyền đến phía thu Một bộ lượng

tử ngược tạo ra các tín hiệu vi sai lượng tử hóa từ các mẫu bit này Tín hiệu

ước lượng được cộng vào tín hiệu vi phân lượng tử hoá này để hồi phục dạng tín hiệu Cả hai tín hiệu hồi phục và tín hiệu vi phân lượng tử hoá thực hiện nhờ bộ phỏng đoán tương thích ( adaptive predictor), có tác dụng ước lượng tín hiệu vào, và hoàn thành vòng lặp

3.1.2 Giải mã ADPCM (ADPCM decoder):

Dạng sóng tín hiệu nguồn, hồi phục, tín hiệu truyền của ADPCM

Trang 35

Khối giải mã có cấu trúc gần giống với phần hồi tiếp của bộ mã hoá, Cùng với khối biến đổi ngược từ PCM đồng dạng thành PCM luật A huặc μ 64 kbit/s và khối điều chỉnh mã hoá đồng bộ, khối điều chỉnh mã hoá đồng bộ

điều chỉnh để tránh tích luỹ méo xuất hiện khi mã hoá đồng bộ Tandem Điều chỉnh mã PCM phía ra sao cho méo lượng tử trong bước tiếp theo là nhỏ nhất

3.2 Nguyên lý m∙ hóa ADPCM( ADPCM encoder principles):

3.2.1 Biến đổi định dạng đầu vào(Input PCM format conversion):

Khối này biến đổi tín hiệu s (k) luật A huặc μ PCM thành tín hiệu PCM

thang Đặc tính đầu vào/đầu ra tiêu chuẩn hoá (giá trị định nghĩa) của bộ lượng tử như bảng sau

3.2.3.1 Tốc độ 40 kbps(Operation at 40 kbit/s):

Năm bít nhị phân được sử dụng để thể hiện mức lượng d(k) (bốn bít biên

độ và một bít dấu) Năm bít lượng tử phía ra I (k) tương ứng với tốc 40 kbit/s;

I(k) lấy một trong 31 giá trị zero, I (k) được đưa đến khối lượng tử hoá thích

ứng, điều khiển tiếng nói tương thích và khối thích ứng hệ số thang bộ lượng

tử hoá làm việc với 5-bit I (k) có 32 giá trị có thể I (k) = 00000 là một giá trị

có thể truyền đến đầu những khối này khi sử dụng bộ giải mã, tức là thông báo

đường truyền có lỗi

Trang 36

Bốn bít nhị phân được sử dụng để thể hiện mức lượng d (k) ( 3 bít biên

độ và một bít dấu) Năm bít lượng tử phía ra I (k) tương ứng với tốc 32 kbit/s;

I(k) lấy một trong 32 giá trị zero, I (k) được đứa đến khối lượng tử hoá thích

ứng, Điều khiển tiếng nói tương thích và khối thích ứng hệ số thang bộ lượng

tử hoá làm việc với 4-bit I (k) có 32 giá trị có thể I (k) = 0000 là một giá trị

Trang 37

có thể truyền đến đầu những khối này khi sử dụng bộ giải mã, tức là đường truyền có lỗi

Bảng2 Đặc tính vào , ra bộ lượng tử hoá tiêu chuẩn 32 kbit/s

Ba bít nhị phân được sử dụng để thể hiện mức lượng d (k) ( 2 bít biên độ

và một bít dấu) Năm bít lượng tử phía ra I (k) tương ứng với tốc 24 kbit/s; I (k) được đứa đến khối lượng tử hoá thích ứng, Điều khiển tiếng nói tương thích và khối thích ứng hệ số thang bộ lượng tử hoá làm việc với 3-bit I (k) có

32 giá trị có thể I (k) = 000 là một giá trị có thể truyền đến đầu những khối

này khi sử dụng bộ giải mã, tức là đường truyền có lỗi

Trang 38

Bảng3 Đặc tính vào ra bộ lượng tử hoá tiêu chuẩn 24 kbit/s

Khoảng vào bộ lượng tử hoá tiêu chuẩn

Hai bít nhị phân được sử dụng để thể hiện mức lượng d(k) (1bít biên độ

và một bít dấu) Năm bít lượng tử phía ra I (k) tương ứng với tốc 16 kbit/s; I (k) ợc đứa đến khối lượng tử hoá thích ứng, Điều khiển tiếng nói tương thích

và khối thích ứng hệ số thang bộ lượng tử hoá làm việc với 4-bit I (k) có

32 giá trị có thể I (k) = 00000 là một giá trị có thể truyền đến đầu những khối

này khi sử dụng bộ giải mã, tức là đường truyền có lỗi

Bảng4 Đặc tính vào , ra bộ lượng tử hoá tiêu chuẩn 16 kbit/s

Bộ lượng tử hoá 16 kbit/s là bộ lượng tử hoá chẵn lẻ (4 mức)

3.2.4 Bộ lượng tử hoá tương thích ngược( Inverse adaptive quantizer): Một dạng lượng tử hoá của tín hiệu vi sai dq(k) được tạo ra bằng cách chia thang, sử dụng y(k), giá trị cụ thể được lựa từ đặc tính lượng tử hoá tiêu

chuẩn như chỉ ra ở các bảng trên và sau đó kết quả được truyền từ vùng tính toán

Trang 39

3.2.5 Tương thích hệ số phân thang bộ lượng tử (Quantizer scale factor

adaptation):

Khối này tính toán hệ số y(k) Xung vào là 5-bit, 4-bit, 3-bit, 2-bit đầu ra

là I (k) và thông số điều khiển tiếng nói thích ứng al (k)

Nguyên lý căn bản sử dụng trong phân mức bộ lượng tử hoá là hai chế

độ:

– Nhanh với tín hiệu mà có tín hiệu vi sai có độ thay đổi lớn (thoại) – Nhanh với tín hiệu mà có tín hiệu vi sai có độ thay đổi nhỏ (số liệu)

Sự tương thích của tín hiệu tiếng nói được điều khiển bởi hệ số thang kết hợp nhanh chậm

Hệ số phân thang nhanh yu (k) được tính theo vòng lặp :

trong đó yu (k) dược giới hạn trong khoảng1.06 và 10.00

Với ADPCM 40 kbit/s, hàm rời rạc W(I) được định nghĩa (giá trị chính

Trang 40

|(k) | 3 2 1 0 W[I(k)] 36.38 8.56 1.88 -.25

Với ADPCM 16bit/s, hàm rời rạc W(I) được định nghĩa (giá trị chính

3.2.6 Điều khiển tương thích tiếng nói(Adaptation speed control):

al (k) lấy giá trị thuộc khoảng [0, 1] tín hiệu thoại nó có xu hướng tiến

đến 1 còn lấy giá trị 0 nếu truyền số liệu trên băng thoại Nó có nguồn gốc từ giá trị của tốc độ thay đổi tín hiệu vi phân

Hai giá trị trung bình của biên độ I (k)được tính như sau

Tiêu đề	Tín hiệu tiếng nói và các phương pháp mã hoá
Trường học	Trường Đại học Giao thông Vận tải Hà Nội
Chuyên ngành	Kỹ thuật điện tử và truyền thông
Thể loại	Luận văn
Năm xuất bản	2023
Thành phố	Hà Nội

Định dạng
Số trang	123
Dung lượng	747,96 KB