Cũng từ đó tín hiệu tiếng nói trở thành một đối tượng và cũng là một nguồn tải lớn nhất của mạng viễn thông, cùng với sự phát triển của kỹ thuật số, các công nghệ bán dẫn thì các phương
Trang 1Mục lục
Lời nói đầu 1
Chương I Tín hiệu tiếng nói 6
1 Quá trình phát âm của con người: 6
2 Đặc tính thống kê của tín hiệu tiếng nói: 9
2.1, Hàm phân bố mật độ xác suất(pdf) 10
2.2, Hàm tự tương quan(ACF) 10
2.3, Hàm mật độ phổ công suất PSD 11
3 Các mô hình biểu diễn 13
a Cơ quan phát âm (vocal tract) 13
b Mô hình sự kích thích 14
Chương II Mã hoá vùng thời gian 18
1 Công nghệ PCM: 18
1.1 Cấu hình cơ bản của kiểu truyền tin PCM: 18
1.2 Lấy mẫu: 19
1.3 Lượng tử hoá: 21
1.4 Sự nén và giãn: 22
1.5 Mã hoá và Giải mã: 25
2.Các phương pháp mã hoá khác: 27
2.1 phương pháp mã hoá DPCM ( Điều xung mã vi sai): 27
2.2 Phương pháp DM ( điều chế delta): 29
2.3 Điều chế Deta tự thích nghi (ADM): 31
3 Phương pháp mã hoá ADPCM (Điều chế xung mã vi sai thích ứng) (DAPTIVE DIFFERENTIAL PULSE CODE MODULATION ): 32
3.1 Tổng quan: 32
3.1.1 Mã hoá ADPCM(ADPCM encoder): 34
3.1.2 Giải mã ADPCM (ADPCM decoder): 34
3.2 Nguyên lý mã hóa ADPCM( ADPCM encoder principles): 35
Trang 23.2.1 Biến đổi định dạng đầu vào(Input PCM format conversion): 35
3.2.2 Tính toán tín hiệu vi sai (Difference signal computation): 35
3.2.3 Bộ lượng tử tương thích (Adaptive quantizer): 35
3.2.3.1 Tốc độ 40 kbps(Operation at 40 kbit/s): 35
3.2.3.2 Tốc độ 32 kbps(Operation at 32 kbit/s): 36
3.2.3.3 Tốc độ 24kbps(Operation at 24 kbit/s): 37
3.2.3.4 Tốc độ 16 kbps(Operation at 16 kbit/s): 38
3.2.4 Bộ lượng tử hoá tương thích ngược( Inverse adaptive quantizer): 38 3.2.5 Tương thích hệ số phân thang bộ lượng tử (Quantizer scale factor adaptation): 39
3.2.6 Điều khiển tương thích tiếng nói(Adaptation speed control): 40
3.2.7 Bộ tinh toán tín hiệu hồi phục và bộ phỏng đoán tương thích (Adaptive predictor and reconstructed signal calculator): 42
3.2.8 Bộ phát hiện truyền và tone (Tone and transition detector): 43
3.3 Nguyên lý giải mã ADPCM(ADPCM decoder principles): 43
3.3.1 Bộ lượng tử thích ứng đảo (Inverse adaptive quantizer): 43
3.3.2.Bộ lượng tử tương thích hệ số thang (Quantizer scale factor adaptation): 44
3.3.3 Điều khiển tốc độ thích ứng ( Adaptation speed control): 44
3.3.4 Bộ tính tín hiệu hồi phục và bộ tiến đoán tương thích (Adaptive predictor and reconstructed signal calculator): 44
3.3.5 Phát hiện truyền và tone (Tone and transition detector): 45
3.3.6 Biến đổi định dạng đầu ra PCM (Output PCM format conversion): 45
3.3.7 Điều chỉnh mã hoá đồng bộ (Synchronous coding adjustment): 45
Chương III Mã hoá vùng tần số 46
1 Mã hoá dải nhỏ(Sbc) 47
2 Mã hoá biến đổi thích nghi (ATC) 53
chương IV Phương pháp mã hoá tham số nguồn (resourd parameters method) 55 1 Bộ mã hoá nguồn theo kênh: 57
Trang 32 Bộ mã nguồn tiếng nói formant 57
3 Bộ mã nguồn tiếng nói phổ tách 58
4 Phương pháp dự đoán tuyến tính LPC 58
5 Bộ mã hoá nguồn tiếng nói âm thanh được kích thích 64
• Mã hoá CELP 65
A RPE- LPT (Bộ lập mã và giải mã tiên đoán thời hạn dài kích thích xung đều đặn) 68
B V-CELP (mã hoá tiên đoán kích thích xung tổng hợp): 70
C Phương pháp LD-CELP(mã hoá tiên đoán kích thích xung có độ trễ nhỏ) 73
D Phương pháp CS-ACELP 90
Chương V Phương pháp đánh giá: 107
I Kiểm tra định lượng 109
1 Tính tỉ số tín hiệu trên nhiễu(SNR): 109
2 Chỉ số độ rõ AI (articulation index): 111
3 Khoảng phổ Log 112
II Phương pháp đánh giá định tính : 113
1 Kiểm tra độ dễ hiểu : 113
2 Kiểm tra chất lượng: 116
Kết luận 120
Mục lục 121
Trang 4Lời nói đầu
Vào năm 1892 Alexander Graham Bell khai trương tuyến điện thoại
thương mại đầu tiên trên thế giới và cho tới gần đây con người coi điện thoại
là một công cụ truyền tin hữu hiệu Nhờ điện thoại mà con người có khả năng trao đổi thông tin giữa các điểm khác nhau trên toàn thế giới một cách dễ dàng Ngoài ưu thế như khả năng truyền thông tin theo thời gian thực và dễ sử dụng, mạng điện thoại ngày nay còn có các ưu điểm rất cơ bản, đó là được phổ biến trên toàn cầu, giúp ta có khả năng liên lạc hầu như mọi điểm trên trái
đất, thời gian đáp ứng ngắn và thuận tiện cho người sử dụng Cũng từ đó tín hiệu tiếng nói trở thành một đối tượng và cũng là một nguồn tải lớn nhất của mạng viễn thông, cùng với sự phát triển của kỹ thuật số, các công nghệ bán dẫn thì các phương pháp mã hoá tín hiệu tiếng nói cũng phát triển mạnh, lý thuyết mà các nhà khoa khọc đưa ra từ nhiều thập kỷ trước đã được thực hiện
Đặc biệt khoảng 10 năm trở lại đây với sự phát triển mạnh của mạng viễn thông toàn cầu, mạng Internet các dịch vụ viễn thông tích hợp thoại, hình , số liệu thì băng tần truyền dẫn ngày càng trở nên hạn chế, ngoài việc phát triển các công nghệ truyền dẫn có hiệu năng cao như SDH,VLSI , thì xu hướng làm giảm băng tần truyền dẫn từ chính nguồn tín hiệu được xem là biện pháp khả thi và kinh tế, các hãng liên tiếp đưa ra các cải tiến, và đề xuất các phương thức mã hoá mới như MPX, Q-CELP, LD-CELP,V-CELP, SBC ở Việt nam lĩnh vực này còn khá mới mẻ, vì vậy nghiên cứu các đặc tính của tín hiệu tiếng nói và các phương pháp xử lý mã hoá là một công việc hết sức cần thiết
Trong đề tài tôt nghiệp, em được giao nhiệm vụ nghiên cứu “đặc tính của tín hiệu tiếng nói và các phương pháp mã hoá” Em xin được trình bày luận án tốt nghiệp của mình với các nội dung sau:
• Chương 1 :Nghiên cứu quá trình phát âm và các đặc tính của âm thanh
• Chương 2 :Phương pháp mã hoá vùng thời gian
• Chương 3 :Phương pháp mã hoá vùng tần số
• Chương 4 :Các kỹ thuật mã hoá đang được sử dụng phổ biến cho các dịch vụ tiên tiến
Trang 5• Chương 5 :Tổng quan các phương thức đánh giá phương thức mã hoá tín hiệu tiếng nói
Cuối cùng em xin chân thành cảm ơn các thầy cô trong khoa Điện -
Điện Tử, Trường đại học giao thông vận tải Hà nội, và đặc biệt xin chân thành cảm ơn thầy giáo Tiến sỹ Trần Quốc Thịnh đã giúp đỡ em hoàn thành đề tài của mình
Do trình độ, và thời gian hạn chế cho nên đề tài không thể tránh khỏi những thiếu sót, em rất mong nhận được sự đóng góp của các thầy cô
Trang 6Chương I Tín hiệu tiếng nói
1 Quá trình phát âm của con người:
Quá trình phát âm của con người được mô tả như sau:
áp lực tạo ra từ phổi làm cho các thanh quản phát ra các rung động
Lỗ giãn giữa các thanh quản gọi là thanh môn, thanh môn giống như một nút
cổ chai, không khí đi qua đây sẽ có áp suất thay đổi đột ngột tạo thành xung lực, ảnh hưởng của thanh môn chính là sự phóng các chuỗi không khí bị nén
đến các hốc cộng hưởng âm với tần số thay đổi theo sự giãn nở này(do thần kinh điều khiển)
Luồng khí xuyên qua các hốc, phản xạ lên các vật chắn (là các bộ phận giới hạn cơ quan phát âm như các cơ), đi qua các hốc cộng hưởng cuối cùng phát ra ở môi và lỗ mũi dưới dạng sóng áp lực, còn gọi là sóng áp lực
âm thanh tiếng nói
Thanh quản có thể bị làm cứng, hoặc nới lỏng (do thần kinh điều khiển các cơ) để thay đổi tốc độ dãn
Cơ quan chắn giữa khoang mũi và khoang miệng hoạt động như một cổng giữa hốc âm mũi và hốc âm miệng, nó có thể đóng để cô lập hay mở để kết hợp với hốc âm miệng một cách hài hoà trong các tình huống khác nhau (ví dụ như khi hát, khi nói chuyện, khi nói thầm) và trong các ngôn ngữ khác nhau (ví dụ tiếng Pháp thường phát ra nhiều âm mũi hơn tiếng Việt)
Lưỡi, quai hàm, răng, môi được thay đổi vị trí không gian để thay đổi hình dạng (tức là thay đổi tần số cộng hưởng) của hốc âm miệng, sóng áp lực
âm thanh phát ra từ miệng phụ thuộc vào sự liên kết giữa các âm phát ra và sự suy hao trên các cơ quan phản xạ
Sóng áp lực âm thanh tồn tại dưới dạng sự di chuyển liên tục của các luồng khí, khi đến cơ quan thính giác thì được phản ánh qua các thông số: độ
rõ, âm sắc, độ cao, độ lớn của âm
Cơ quan phát âm được kích thích bởi luồng khí từ phổi, nguồn kích thích này có thể tạo ra âm kêu hoặc không kêu âm kêu ứng với quá trình sau: Thanh đới dao động tại tần số gọi là “tần số căn bản”, hay còn gọi là độ cao
Trang 7của âm, có thể trực tiếp kiểm tra bằng cách đặt ngón tay vào cổ họng khi nói, nếu có sự rung động sang tay thì đó là âm kêu
Còn âm không kêu ứng với quá trình sau: Khi thanh đới không dao
động, tức là bị “làm cứng” bởi các cơ, luồng khí hoặc cũng được phát ra cơ quan phát âm hoặc bị thanh môn chặn lại hiệu ứng của chúng là có sự hỗn loạn của các luồng khí đi qua các cơ quan
Bởi vậy trong thời gian xem xét sóng âm thanh phát ra là sự kết hợp của âm thanh và âm vô thanh
Liên quan đến quá trình phát âm, ta có khái niệm formant, một đặc
điểm hết sức quan trọng trong lĩnh vực xử lý tín hiệu tiếng nói, nó được hiểu như sau:
Formant là tần số cổng hưởng cơ bản của cơ quan phát âm, nó phụ thuộc vào cỡ, hình dạng của toàn bộ cơ quan phát âm Năng lượng của những tần số này được tăng cường do có sự phản xạ đồng thời của các thành phần khác, còn năng lượng ở những thành phần tần số khác có khuynh hướng suy
h1 Cấu tạo cơ quan phát âm
Trang 8giảm đặc biệt là tại các tần số triệt tiêu, năng lượng bị làm nhụt Quan sát trên máy phân tích phổ tần số cổng hưởng này(formant) xuất hiện như một cái bướu như hình vẽ
Ngôn ngữ khác nhau trên thế giới chỉ là ở sự khác nhau giữa các tần số formant cho nên để xây dựng một hệ thống mã hoá tham số nguồn hiệu quả thì cần phải gắn cả yếu tố dân tộc, ngôn ngữ vào đó
Phân tích bản chất của quá trình phát âm không những giúp cho việc mã hoá tín hiệu tiếng nói mà còn đóng vai trò quan trọng trong quá trình tổng hợp tiếng nói, và nhận dạng tiếng nói Cả ba lĩnh vực công nghệ này đang
được Việt nam rất quan tâm
Thính giác :
Sản phẩm của các quá trình xử lý tín hiệu tiếng nói phải được phản ánh bởi chính con người thông qua cơ quan thính giác Các thông tin của thính giác liên quan đến vấn đề mã hoá tín hiệu là:
Hình 1-1 : Dạng sóng âm của tiếng nói
Trang 9• Thính giác có tính quán tính : Đáp ứng của thính giác với tác động của
âm thanh không phải là ngay tức thì, mà là có tính trễ, các thí nghiệm
đã cho kết quả với môi trường truyền âm bình thường sau khi bắt đầu khoảng 200ms thính giác mới xác định âm lượng của nó khi âm ngừng cảm nhận còn âm kéo dài chừng 150-200 ms thính giác không phân biệt được hai âm giống nhau đi liền nhau khoảng nhỏ hơn 50 ms, tức là
có hiện tượng che lấp của âm, phải qua tác động vài chu kỳ thì tai người mới “quen” với cao độ của âm (tần số cao hay thấp)
• Hiệu ứng không gian (stereo) của tai người là hiệu ứng cảm ứng hai tai với hai nguồn âm tương quan, điều này có ảnh hưởng đến độ rõ của âm khi tiến hành kiểm tra hệ thống
• Tính phi tuyến của thính giác, thính giác có mức độ cảm thụ âm nhiễu không phải là tỉ lệ thuận với độ dộng dải tần, ảnh hưởng của nó là méo
âm thanh do thêm thành phần sóng hài, không gây ra sai lệch cho người nghe bằng do thêm thành tần số không bội, khi mã hoá phải chú
2 Đặc tính thống kê của tín hiệu tiếng nói:
Dạng sóng tín hiệu tiếng nói có một số tính chất hữu ích có thể khai thác
được khi tiến hành mã hoá tín hiệu Tính chất thường dùng nhất là sự phân bố xác suất không đều của biên độ tiếng nói, có sự tự tương quan giữa các mẫu liên tiếp, bản chất không phẳng của phổ tín hiệu tiếng nói sự tồn tại của các thành phần âm kêu và âm không kêu và tính chất tựa tuần hoàn của các tín hiệu tiếng nói Tính chất quan trọng nhất mà tất cả các bộ mã hoá khai thác đó là 0 Một độ rộng dải tần giới hạn có nghĩa là nó có thể được
rời rạc hoá về mặt thời gian với một tốc độ giới hạn và được khôi phục lại hoàn toàn đầy đủ từ các mẫu của nó với điều kiện thoả mãn điều kiện lấy mẫu Nyquiet Còn các tính chất khác nói lên khả năng cho phép lượng tử hoá
Trang 102.1, Hàm phân bố mật độ xác suất(pdf)
Hàm mật độ không đều của biên độ tiếng nói, nói chung được đặc trưng bởi xác suất cao của các biên độ gần giá trị “không”, một xác suất đáng kể ở các biện độ rất lớn và một hàm giảm không tăng đều của các biên độ gần các cực trị này Tuy nhiên sự phân bố chính xác lại phụ thuộc vào độ rộng dải tần lối vào và điều kiện thu âm thanh, hàm đăc trưng pdf:
Χ Χ
(x
p
Hàm này gần giống phân bố Gauss chuẩn, các bộ lượng tử hoá không
đều (PCM) và các bộ lượng tử hoá vectơ (CELP) cố gắng hoà hợp sự phân bố các pdf tín hiệu tiếng nói lối vào bằng cách dùng nhiều mức lượng tử hơn ở vùng có xác suất cao và ít ở mức lượng tử hơn ở vùng có xác suất nhỏ
2.2, Hàm tự tương quan(ACF)
Tính chất có ích khác của tín hiệu tiếng nói khi phân tích là tính có một
sự tương quan đáng kể (tức là sự giống nhau) giữa các mẫu tiếng nói kế cận nhau của một đoạn tiếng nói
Tức là trong mỗi mẫu của tín hiệu tiếng nói có một bộ phận lớn có thể dự
đoán từ các giá trị của các mẫu trước với một sai số ngẫu nhiên nhỏ nào đó các phương pháp AD, ADPCM, APCM, CELP, LPC dựa trên tính chất này Hàm tự tương quan:
Trang 112.3, Hàm mật độ phổ công suất PSD
Đặc tính không phẳng của mật độ phổ công suất của tiếng nói làm cho
nó có thể thu được một hiệu suất nén đáng kể bằng việc mã hoá tiếng nói vùng tần số Bản chất không phẳng của PSD là thể hiện trong vùng tần số của tính chất tự tương quan là khác không PSD tính trung bình trong một thời gian dài của tiếng nói chứng tỏ các thành phần tần số cao đóng góp rất ít vào năng lượng tiếng nói tổng cộng Điều này chứng tỏ rằng sự mã hoá tiếng nói tách biệt trong các dải tấn số khác nhau có thể đưa đến bộ khuyếch đại mã hoá
đáng kể, tuy nhiên không thể bỏ qua được các thành phần này vì chúng có ý nghĩa là các phần tải thông tin quan trọng
Phổ công suất của tín hiệu tương tự là kết quả của phép biến đổi Furier của ∅n(τ):
Trang 12Mật độ phổ công suất LAPLACE, GAMMA
và tín hiệu thực của tín hiệu tiếng nói thực tế
Trang 133 Các mô hình biểu diễn
a Cơ quan phát âm (vocal tract)
Sự cộng hưởng của tiếng nói (formant) là tương ứng với điểm cực của hàm truyền V(z)
G z
v
1
1
) (
Mô hình toàn cực của hàm truyền là mô hình mô tả tốt nhất cho thành phần âm kêu, tuy nhiên các ảnh hưởng của mũi, và kẽ răng lại yêu cầu mô hình phải có cả hai sự cổng hưởng và sự triệt tiêu trong trường hợp này, cần phải thêm các điểm không vào mô hình Các hệ số của mẫu phương trình trên phải là hoặc thực hoặc cặp phức
Tần số cộng hưởng điển hình của cơ quan phát âm:
k
* , k = ư k ± j2Π F
k s
tương ứng rời rạc về thời gian là:
fT je
fT e
z
sin 2 2
cos
* ,
σ σ
Băng tần của formant tương ứng là 2σk và tần số trung tâm là 2∏Fk Trong mặt phẳng Z đường kính trung tâm đến cực sẽ quyết định băng tần nghĩa là :
|Z|=e-σkT và θk=2∏FkT
-σk
∏/T 2∏Fs
-∏/T -2∏Fs
σ
|Zk|
mặt phẳng S mặt phẳng Z
Trang 14Bởi vậy nếu V(z) tìm được thì tần số cộng hưởng và băng tần cũng được tính, như chỉ ra trên hình vẽ trên tần số thực phức của cơ quan phát âm tất cả thuộc nửa bên trái mặt phẳng s vì vậy nó là hệ thống ổn định của phép biến
đổi s, do đó σk>0 và |Zk|<1 nghĩa là tất cả các điểm cực tương ứng của mô hình rời rạc thời gian phải nằm bên trong vòng tròn đơn vị để đảm bảo tính ổn
Máy phát chuỗi xung
Chế độ xung kích thích
+chu kỳ cao độ
điều khiển biên độ Các xung âm kêu
Trang 15Điều chỉnh biên độ Gv, điều khiển một mạch kích thích âm kêu, các nghiên cứu chỉ ra rằng dạng sóng "thanh môn" có thể được thay bằng dạng sóng của xung tổng hợp theo dạng:
Tổng hợp hai cách trên ta có mô hình hoàn thiện:
Như trên đã phân tích các bản chất của tín hiệu tiếng nói với mô hình cho cơ quan phát âm, nhìn chung xử lý tín hiệu tiếng nói trong viễn thông có thể dùng điều biến tương tự, tuy nhiên kỹ thuật này đã trở nên lỗi thời, hiện nay chúng ta đều dùng kỹ thuật số cho tất cả các loại tín hiệu do vậy tín hiệu tiếng nói cũng phải xem xét trong mô hình số Như vậy bản chất của mã hoá tín hiệu thoại chỉ là xử lý số thông thường Các phương pháp tiếp cận đối tượng khác nhau cho ta các phương pháp mã hoá khác nhau, căn cứ vào cách tiếp cận đối tượng ta chia các phương pháp mã hoá như hình vẽ:
Khuyếch đạichu kỳ cao độ
s(n)
Trang 16Bé m∙ ho¸ tiÕng nãi
CS ACELP
- CELP
LD-APCM, DA,APC
Sù ph©n tÇng bé m· ho¸ tiÕng nãi
LTP
RPE-Bé m· ho¸ d¹ng
Trang 17Bộ mã hoá tiếng nói được phân thành hai loại lớn :bộ mã hoá dạng sóng
và bộ mã hoá tham số nguồn Bộ mã hoá dạng sóng nhằm tạo ra dạng sóng thời gian của tín hiệu tiếng nói càng chính xác càng tốt, chúng được thiết kế
độc lập với nguồn tín hiệu (có nghĩa là có thể áp dụng cho cả loại tín hiệu khác) nên chất lượng không phụ thuộc nhiều vào nguồn tín hiệu chúng có ưu
điểm là chất lượng ổn định với phạm vi rộng của các đặc trưng tiếng nói, và các môi trường ồn khác nhau Còn các bộ mã hoá nguồn tiếng nói thì lại có ưu thế trong việc tiết kiệm băng tần nhưng lại rất phức tạp và có độ ổn định không cao tuy nhiên chúng ngày càng được khắc phục, để phục vụ cho các công nghệ viễn thông hiện tại và trong tương lai Nội dung cụ thể sẽ được trình bày trong các chương tiếp theo
Trang 18Chương II M∙ hoá vùng thời gian.
1 Công nghệ PCM:
1.1 Cấu hình cơ bản của kiểu truyền tin PCM:
Mã hoá là quá trình biến đổi các giá trị rời rạc thành các mã tương ứng Nhìn chung, việc lấy mẫu liên quan tới quá trình biến đổi các tín hiệu liên tục thành các tín hiệu rời rạc của trường thời gian gọi là PAM (điều chế biên độ xung) Việc mã hoá là quá trình lượng tử hoá các giá trị mẫu này thành các giá trị rời rạc của trường biên độ và sau đó biến đổi chúng thành mã nhị phân hay các mã ghép kênh Khi truyền thông tin mã, nhiều xung được yêu cầu cho mỗi giá trị lấy mẫu và vì thế độ rộng dải tần số cần thiết cho truyền dẫn phải được
mở rộng Đồng thời xuyên âm, tạp âm nhiệt, biến dạng mẫu, mất xung mẫu, biến dạng nén, tạp âm mã hoá, tạp âm san bằng được sinh ra trong lúc tiến hành lấy mẫu và mã hoá Việc giải mã là quá trình khôi phục các tín hiệu đã mã hoá thành các tín hiệu PAM được lượng tử hoá Quá trình này tiến hành theo thứ tự đảo đúng như quá trình mã hoá Mặt khác quá trình lượng tử hoá, nén và mã hoá các tín hiệu PAM được gọi là quá trình mã hoá và quá trình chuyển đổi các tín hiệu PCM thành D/A, sau đó, lọc chúng sau khi giãn để
đưa về tiếng nói ban đầu gọi là quá trình giải mã Cấu hình cơ sở của hệ thống truyền dẫn PCM đối với việc thay đổi các tín hiệu tương tự thành các tín hiệu xung mã để truyền dẫn được thể hiện ở hình (pcm1) Trước tiên các tín hiệu
đầu vào được lẫy mẫu một cách tuần tự, sau đó được lượng tử hoá thành các giá trị rời rạc trên trục biên độ Các giá trị lượng tử hoá đặc trưng bởi các mã nhị phân Các mã nhị phân này được mã hoá thành các dạng mã thích hợp tuỳ theo đặc tính của đường truyền dẫn
Trang 19Thiết bị đầu cuối mã hoá chuyển đổi các tín hiệu thông tin như tiếng nói thành các tín hiệu số như PCM Khi các tín hiệu thông tin là các tín hiệu tương
tự, việc chuyển đổi A/D được tiến hành và việc chuyển đổi D/D đợc tiến hành
ở trường hợp của các tín hiệu số Đôi khi, quá trình nén và mã hoá băng tần rộng được tiến hành bằng cách triệt sự dư thừa trong quá trình tiến hành chuyển đổi A/D hoặc D/D)
1.2 Lấy mẫu:
Nguyên tắc cơ bản của điều xung mã là quá trình chuyển đổi các tín hiệu liên tục như tiếng nói thành tín hiệu số rời rạc và sau đó tái tạo chúng lại thành thông tin ban đầu Để tiến hành việc này, các phần tử thông tin được rút ra từ các tín hiệu tương tự một cách tuần tự Quá trình này được gọi là công việc lấy mẫu
(a) Tín hiệu tiếng nói m(t)
(b) Xung lấy mẫu s(t)
(c) Chức danh lấy mẫu
(d) Tín hiệu PAM đã lấy mẫu
Phần phát Tái tạo và truyền dẫn Phần thu
Đầu vào
Đầu ra tương tự
Cấu hình cơ bản của phương pháp thông tin PCM
Trang 20Quá trình lấy mẫu
Theo thuyết lấy mẫu của Shannon, các tín hiệu ban đầu có thể được khôi phục khi tiến hành công việc lấy mẫu trên các phần tử tín hiệu được truyền đi
ở chu kỳ hai lần nhan hơn tần số cao nhất Nói cách khác, khi độ rộng dải tần của tín hiệu được truyền đi gọi là BW, tỷ lệ lấy mẫu tới hạn là tỷ lệ Nyquitst trở thành Rmax = 2 x BW Các tín hiệu xung lấy mẫu là tín hiệu dạng sóng chu k, là tổng các tín hiệu sóng hài có đường bao hàm số sin đối với các tần
số Vì thế, phổ tín hiệu tiếng nói tạo ra sau khi đã qua chức năng lấy mẫu thể hiện ở hình sau
Phổ trước và sau quá trình lẫy mẫu
Trang 21Có hai kiểu lấy mẫu tuỳ theo dạng của đỉnh độ rộng xung, lấy mẫu tự nhiên và lấy mẫu đỉnh bằng phẳng Lấy mẫu tự nhiên được tiến hành một cách
lý tưởng khi phổ tần số sau khi lấy mẫu trùng với phổ của các tín hiệu ban
đầu Tuy nhiên trong các hệ thống thực tế, điều này không thể có được Khi tiến hành lấy mẫu đỉnh bằng phẳng, một sự nén gọi là hiệu ứng biên độ lấy mẫu làm xuất hiện méo Ngoài ra, nếu các phần tử tín hiệu đầu vào vượt quá
độ rộng dải tần 4 KHz, xuất hiện sự nén quá nếp gấp Vì vậy, việc lọc băng rộng các tín hiệu đầu vào phải được tiến hành trước khi lấy mẫu
1.3 Lượng tử hoá:
PAM với biên độ tương tự chuyển đổi thành các tín hiệu số là các tín hiệu rời rạc sau khi đi qua quá trình lượng tử hoá Khi chỉ thị biên độ của tiếng nói liên tục với số lượng hạn chế, nó được đặc trưng với dạng sóng xấp xỉ của bước Tạp âm lượng tử NQ = Q - S tồn tại giữa dạng sóng ban đầu (S) và dạng sóng đã lượng tử (Q); nếu bước nhỏ tạp âm lượng tử được giảm đi nhưng số l-
ượng bước đầu cần thiết cho lượng tử toàn bộ dải tín hiệu đầu vào trở nên rộng hơn Vì thế số lượng các dãy số mã hoá tăng lên
Tạp âm tạo ra khi biên độ của các tín hiệu đầu vào vượt quá dãy lượng tử gọi là tạp âm quá tải hay tạp âm bão hoà S/NQ được sử dụng như một đơn vị
Tạp âm lượng tử theo biên độ tín hiệu đầu vào
Trang 22để đánh giá những ưu điểm và nhược điểm của phương pháp PCM Khi số lượng các dãy số mã hoá trên mỗi mẫu tăng lên 1 bit, S/NQ được mở rộng thêm 6 dB
1.4 Sự nén và gi∙n:
Như phương pháp tiến hành mã hoá hoặc giải mã, mã đường, mã không phải mã đường và mã đánh giá có thể được lựa chọn theo các kiểu của nguồn thông tin Mã đường là một quá trình triệt số lượng tạp âm lượng tử sinh ra trên thông tin được gửi đi bất chấp mức đầu vào Nó được sử dụng trong một
hệ thống ở đó giá trị tuyệt đối của số lượng tạp âm là tới hạn hơn S/NQ Mã không phải là mã đường được sử dụng rộng dãi trong một hệ thống ở đó S/N của hệ thống thu được quan trọng hơn số lượng tuyệt đối của tạp âm như tiếng nói Khi bước lượng tử là một hằng số, S/N thay đổi theo mức tín hiệu Chất lượng gọi trở nên xấu hơn khi mức tín hiệu thấp Vì thế đối với các tín hiệu mức thấp, bước lượng tử được giảm và đối với các tín hiệu mức cao nó được tăng để ít hoặc nhiều cân bằng S/N với mức tín hiệu đầu vào Những vấn đề trên được tiến hành bằng cách nén biên độ Một cách lý tưởng, đối với các tín hiệu mức thấp đường cong nén và giãn là truyến tính Đối với các tín hiệu mức cao chúng đặc trưng bởi đường cong đại số Hiện nay, ITU-T khuyến nghị luật
μ (μ =255) là phương pháp 15 đoạn(các hệ thống của Hoa Kỳ và Nhật) và luật (A= 87,6) (các hệ thống của châu âu, trong đó có Việt nam) là phương pháp
13 đoạn như là phương pháp nén đoạn mà các hàm đại số được biểu diễn gần
đúng với một vài đường tuyến tính
y=yma
A
x x A
ln 1
) / ( max+ với 0≤(x/xmax)≤1/A
=yma
A
x Ax
ln 1
) / ln(
)) / ( 1
)) / ( 1
+
ư x x
với -xmax ≤ x ≤ 0
Trang 23ymax, xmax: là các biên độ lớn nhất tại đầu vào
Với việc sử dụng công nghệ nén đ−ợc mô tả ở trên, những đặc tính tạp
âm ở các tín hiệu mức thấp có thể đ−ợc giảm đến mức hầu nh− giống với mức
của mã tuyến tính 13 bits Một bộ nén - giãn đôi khi đ−ợc nói tới nh− là một từ
viết tắt kết hợp nén và bộ dãn
Trang 24Cả hai phương pháp mã hoá và phương pháp nén là đồng thời được tiến hành qua bước nén số - số hoặc tự mã hoá mà không thêm những mạch riêng
rẽ khác bởi sử dụng tính chất tuyến tính của phương pháp nén đoạn trong số Một bảng giá trị với phương pháp mã hoá và cách nén mã μ =255 được chỉ ra trên bảng dưới đây
Trang 25để đánh giá xem có các tín hiệu nào không Như vậy, một bộ phận chuyển đổi D/A hoặc bộ giải mã là cần thiết cho việc tạo ra điện áp chuẩn Trong liên lạc công cộng PCM, tiếng nói được biểu diễn với 8 bits Tuy nhiên trong trường hợp của luật μ , các từ PCM đợc lập nên như sau (8 bits)
Mã hoá từ PCM
Trang 26Việc báo hiệu được thực hiện sau khi thay đổi "0" của từ PCM sang "1"
và "1" sang "0" và vì thế, một lượng lớn số 1 đã được thu thập chung quanh mức 0 và sự tách các tín hiệu thời gian trong khi thu nhận có thể dễ dàng thực hiện B8 là bít thứ 8 của từ PCM, đôi khi được dùng như là một bit báo hiệu B7 (hoặc B8) chuyển đổi sang "1" khi mọi từ của PCM là "0" Như vậy, trong các tín hiệu PCM được gửi đi, các số "0" liên tục luôn luôn ít hơn 16 Mặt khác, khi sử dụng phương pháp Bắc Mỹ, bit B2 của mọi kênh được thay đổi thành "0" nhằm chuyển đi thông tin cảnh báo cho đối phương ở Nhật Bản, bit
"S" đó là một phần của khung các bit chỉ định được dùng thay thế cho mục
đích này Các từ PCM nhận được, được chuyển đổi thành các tín hiệu PAM bởi bộ giải mã ở phía thu, các xung tương ứng với mỗi kênh được chọn lọc từ các dẫy xung ghép kênh để tạo ra các tín hiệu PAM Rồi, các tín hiệu tiếng nói được phục hồi bằng một bộ lọc thông thấp
Quá trình giải mã Phổ của tín hiệu đã lấy mẫu
Trang 272.Các phương pháp mã hoá khác:
Các quy luật đối với PCM vi phân thích ứng 32Kbps có nén giãn như mã hoá dự đoán của các tín hiệu tiếng được chỉ rõ trong các khuyến nghị G712 của ITU-T Phương pháp ADPCM 32 Kbps được chấp nhận vào tháng 10 năm
1984 được dùng để chuyển đổi các tín hiệu PCM 64 Kbps theo luật A hay luật
μ hiện nay sang các tín hiệu ADPCM Phương pháp 32 Kbps ADPCM có khả năng chuyển một lượng tiếng nói lớn gấp hai lần thậm trí còn nhiều hơn phương pháp qui ước 64 Kbps PCM, được chấp nhận một cách rộng rãi bởi bộ chuyển mã hoặc các thiết bị đầu cuối mã hoá với hiệu quả cao Hiện nay các nước tiên tiến trên thế giới đang tiến hành nghiên cứu một cách ráo riết về công nghệ mã hoá tốc độ không những cho thoại mà cả truyền hình Cụ thể sẽ bàn đến tiếp ở các phần tiếp theo
2.1 phương pháp m∙ hoá DPCM ( Điều xung m∙ vi sai):
Đây là phương pháp dựa trên tính chất tương quan của tín hiệu tiếng nói, chỉ truyền đi độ trênh lệch giữa các mẫu cạnh nhau của tín hiệu tiếng nói:
Quá trình giải mã và phổ
Trang 28
Tín hiệu tiếng nói tương tự vào qua bộ lọc thông thấp, hạn chế băng tần của tín hiệu vào(thường là một nửa tần số lấy mẫu), máy phát lượng tử và mã hoá lượng tử trênh lệch giữa xung lấy mẫu tương tự xn và tín hiệu dự đoán xnlấy từ đầu ra bộ dự đoán x`n Giá trị dự đoán của mẫu tiếp theo có được nhờ ngoại suy từ p giá trị mẫu cho trước:
x`(n)=∑
p i
i n
i x a
1
`
ai là hệ số của các bộ dự đoán, độ trênh lệch giữa xung lấy mẫu đầu vào
và tín hiệu ra lấy mẫu là:
Bộ giải mã
tiếng nói
e`(n)=x`(n)-x`’(n)DPCM
DPCM en xn
x`’
tiếng nói ra
DPCM 1 Sơ đồ mã hóa và giải mã DPCM
Trang 29phục trước đó, tuy nhiên để giảm lỗi cộng lại của nhiều lần ta dùng phia thu một bộ dự đoán giống với phía phát Việc sử dụng vòng phản hồi giúp cho bộ lượng tử hạn chế độ trênh lệch giữa sai số en và si số được lượng tử e`n (en`- en) Nếu giá trị này càng nhỏ thì chất lượng tiếng nói càng tốt, theo các tính toán thì phương pháp này có độ rộng băng tần đi một nửa
Tốc độ bit của điều chế delta bằng tốc độ của tần số lấy mẫu, tức là 8 kbps
Phương pháp này như đã nói là khá đơn giản, đạt được tốc độ mã hoá rất thấp, nó là phương pháp duy nhất của phương pháp mã hoá dạng sóng có thể so sánh về tốc độ với phương pháp tham số nguồn về tốc độ, song chất lượng tín hiệu mã hoá không cao, không đảm bảo được phạm vi động của hệ thống PCM
Trang 312.3 Điều chế Deta tự thích nghi (ADM):
Phương pháp này còn gọi là phương pháp điều chế delta có độ dốc thay
đổi liên tục Phương pháp này khắc phục cho điều chế delta về khả năng dải
động, phương pháp này dựa trên phương pháp thay đổi động hệ số khuyếch
đại của bộ tích phân phù hợp với mức công suất trung bình của tín hiệu vào
thoại vào
hình adm 1 Sơ đồ mã hóa và giải mã AD
Bình phương
mạch RC
điều khiển
) ' (
n
s
nT t
δ
Dạng sóng tín hiệu nguồn, hồi phục, tín hiệu truyền của ADM
Trang 32Cỡ của bước lượng tử thay đổi nhờ thay đổi hệ số khuyếch đại của bộ tích phân nhờ mạch RC và mạch bình phương, khi tín hiệu vào là hằng số hoặc thay đổi chậm theo thời gian thì bộ điều chế này sẽ tìm kiếm và đưa ra một dãy xung có cực tính xen kẽ, mạch RC lấy trung bình các dãy này, khi nó đưa
ra gía trị bằng zero Có nghĩa là tín hiệu điều khiển làm hệ số khuyếch đại của
bộ khuyếch đại thay đổi rất ít Đầu ra bộ khuyếch đại có bước Δ kích thước nhỏ, khi tín hiệu vào có sườn dốc thì hàm bậc thang được tạo ra để kịp độ dốc của tín hiệu vào Lúc đó sẽ tạo ra một loạt xung âm mạch RC lấy trung bình loạt xung này và đưa ra điện áp điều khiển lớn, tức là cỡ của bước tăng lên, nhờ mạch bình phương nên điện điều khiển bộ khuyếch đại luôn luôn dương,
mà không phụ thuộc cực tính của xung thế nào phương pháp này có khả năng giảm méo do quá tải sườn và tạp âm hạt
3 Phương pháp mã hoá ADPCM (Điều chế xung mã vi sai thích ứng) (ADAPTIVE DIFFERENTIAL PULSE CODE MODULATION):
Đây là phương pháp mã hoá khá quan trọng, tập hợp được những ưu điểm của các phương pháp trên và đã được ITU-T tiêu chuẩn hoá trong khuyến nghị G721, và đã có nhiều ứng dụng trong thực tế như hệ thống di động CT2 của Hàn Quốc, DECT của Mỹ Vì vậy ta sẽ nghiên cứu sâu phương pháp Các tốc
độ được tiêu chuẩn là 40,32, 24, 26 kbps
Phương pháp này dựa trên tính chất thay đổi chậm của phương sai và hàm tự tương quan, với phương pháp PCM ta dùng bộ lượng tử đều có công suất tạp âm là Δ2/12, phương pháp ADPCM và các phương pháp dự đoán tuyến tính nói chung là thay đổi Δ hay còn gọi là phương pháp dùng bộ lượng
tử hoá tự thích nghi Các thuật toán được phát triển cho hệ thống điều xung mã
vi sai khi khi mã hoá tín hiệu tiếng nói bằng cách sử dụng bộ lượng tử hoá và
bộ dự đoán thích nghi, co thông số thay đổi theo chu kỳ để phản ánh tính thông kê của tín hiệu tiếng nói
Thuật toán cụ thể được xem xét cụ thể được trình bày trong các phần dưới đây
3.1 Tổng quan:
Bộ mã hoá có vai trò biến đổi tín hiệu điều chế xung mã PCM luật A huặc μ 64 kbit/s thành tín hiệu đầu ra có tốc độ là 40, 32, 24,16 kbit/s
Trang 33Biến đổi
thànhPCM
Lượng tử hóa thích ứng đảo
Điềuchỉnh
đồng bộ mã hoá
Tiên đoán tương thích +
Biến đổi thànhPCM đồng dạng
Tiên đoán tương thích
Lượng tử hóa thích ứng đảo
Lượng tử hóathích ứng +
+
tính hiệu hồi phục
Tín hiệu vi phân lượngtử hóa
Tín hiệu vi phân
Tín hiệu ước lượng
Tín hiệu vào PCM
2.Giải Mã
Sơ đồ khối bộ mã hoá và giải mã
Trang 343.1.1 Mã hoá ADPCM(ADPCM encoder):
Sau khi biến đổi tín hiệu thành dạng PCM đồng dạng, tín hiệu vi phân
được tính toán, bằng phép trừ giá trị ước lượng của tín hiệu vào và chính nó
Bộ lượng tử thích ứng 31-, 15-, 7-, 4 sử dụng 5, 4, 3 hoặc hai bít nhị phân tương ứng, giá trị của tín hiệu vi phân được truyền đến phía thu Một bộ lượng
tử ngược tạo ra các tín hiệu vi sai lượng tử hóa từ các mẫu bit này Tín hiệu
ước lượng được cộng vào tín hiệu vi phân lượng tử hoá này để hồi phục dạng tín hiệu Cả hai tín hiệu hồi phục và tín hiệu vi phân lượng tử hoá thực hiện nhờ bộ phỏng đoán tương thích ( adaptive predictor), có tác dụng ước lượng tín hiệu vào, và hoàn thành vòng lặp
3.1.2 Giải mã ADPCM (ADPCM decoder):
Dạng sóng tín hiệu nguồn, hồi phục, tín hiệu truyền của ADPCM
Trang 35Khối giải mã có cấu trúc gần giống với phần hồi tiếp của bộ mã hoá, Cùng với khối biến đổi ngược từ PCM đồng dạng thành PCM luật A huặc μ 64 kbit/s và khối điều chỉnh mã hoá đồng bộ, khối điều chỉnh mã hoá đồng bộ
điều chỉnh để tránh tích luỹ méo xuất hiện khi mã hoá đồng bộ Tandem Điều chỉnh mã PCM phía ra sao cho méo lượng tử trong bước tiếp theo là nhỏ nhất
3.2 Nguyên lý m∙ hóa ADPCM( ADPCM encoder principles):
3.2.1 Biến đổi định dạng đầu vào(Input PCM format conversion):
Khối này biến đổi tín hiệu s (k) luật A huặc μ PCM thành tín hiệu PCM
thang Đặc tính đầu vào/đầu ra tiêu chuẩn hoá (giá trị định nghĩa) của bộ lượng tử như bảng sau
3.2.3.1 Tốc độ 40 kbps(Operation at 40 kbit/s):
Năm bít nhị phân được sử dụng để thể hiện mức lượng d(k) (bốn bít biên
độ và một bít dấu) Năm bít lượng tử phía ra I (k) tương ứng với tốc 40 kbit/s;
I(k) lấy một trong 31 giá trị zero, I (k) được đưa đến khối lượng tử hoá thích
ứng, điều khiển tiếng nói tương thích và khối thích ứng hệ số thang bộ lượng
tử hoá làm việc với 5-bit I (k) có 32 giá trị có thể I (k) = 00000 là một giá trị
có thể truyền đến đầu những khối này khi sử dụng bộ giải mã, tức là thông báo
đường truyền có lỗi
Trang 36Bốn bít nhị phân được sử dụng để thể hiện mức lượng d (k) ( 3 bít biên
độ và một bít dấu) Năm bít lượng tử phía ra I (k) tương ứng với tốc 32 kbit/s;
I(k) lấy một trong 32 giá trị zero, I (k) được đứa đến khối lượng tử hoá thích
ứng, Điều khiển tiếng nói tương thích và khối thích ứng hệ số thang bộ lượng
tử hoá làm việc với 4-bit I (k) có 32 giá trị có thể I (k) = 0000 là một giá trị
Trang 37có thể truyền đến đầu những khối này khi sử dụng bộ giải mã, tức là đường truyền có lỗi
Bảng2 Đặc tính vào , ra bộ lượng tử hoá tiêu chuẩn 32 kbit/s
Ba bít nhị phân được sử dụng để thể hiện mức lượng d (k) ( 2 bít biên độ
và một bít dấu) Năm bít lượng tử phía ra I (k) tương ứng với tốc 24 kbit/s; I (k) được đứa đến khối lượng tử hoá thích ứng, Điều khiển tiếng nói tương thích và khối thích ứng hệ số thang bộ lượng tử hoá làm việc với 3-bit I (k) có
32 giá trị có thể I (k) = 000 là một giá trị có thể truyền đến đầu những khối
này khi sử dụng bộ giải mã, tức là đường truyền có lỗi
Trang 38Bảng3 Đặc tính vào ra bộ lượng tử hoá tiêu chuẩn 24 kbit/s
Khoảng vào bộ lượng tử hoá tiêu chuẩn
Hai bít nhị phân được sử dụng để thể hiện mức lượng d(k) (1bít biên độ
và một bít dấu) Năm bít lượng tử phía ra I (k) tương ứng với tốc 16 kbit/s; I (k) ợc đứa đến khối lượng tử hoá thích ứng, Điều khiển tiếng nói tương thích
và khối thích ứng hệ số thang bộ lượng tử hoá làm việc với 4-bit I (k) có
32 giá trị có thể I (k) = 00000 là một giá trị có thể truyền đến đầu những khối
này khi sử dụng bộ giải mã, tức là đường truyền có lỗi
Bảng4 Đặc tính vào , ra bộ lượng tử hoá tiêu chuẩn 16 kbit/s
Bộ lượng tử hoá 16 kbit/s là bộ lượng tử hoá chẵn lẻ (4 mức)
3.2.4 Bộ lượng tử hoá tương thích ngược( Inverse adaptive quantizer): Một dạng lượng tử hoá của tín hiệu vi sai dq(k) được tạo ra bằng cách chia thang, sử dụng y(k), giá trị cụ thể được lựa từ đặc tính lượng tử hoá tiêu
chuẩn như chỉ ra ở các bảng trên và sau đó kết quả được truyền từ vùng tính toán
Trang 393.2.5 Tương thích hệ số phân thang bộ lượng tử (Quantizer scale factor
adaptation):
Khối này tính toán hệ số y(k) Xung vào là 5-bit, 4-bit, 3-bit, 2-bit đầu ra
là I (k) và thông số điều khiển tiếng nói thích ứng al (k)
Nguyên lý căn bản sử dụng trong phân mức bộ lượng tử hoá là hai chế
độ:
– Nhanh với tín hiệu mà có tín hiệu vi sai có độ thay đổi lớn (thoại) – Nhanh với tín hiệu mà có tín hiệu vi sai có độ thay đổi nhỏ (số liệu)
Sự tương thích của tín hiệu tiếng nói được điều khiển bởi hệ số thang kết hợp nhanh chậm
Hệ số phân thang nhanh yu (k) được tính theo vòng lặp :
trong đó yu (k) dược giới hạn trong khoảng1.06 và 10.00
Với ADPCM 40 kbit/s, hàm rời rạc W(I) được định nghĩa (giá trị chính
Trang 40|(k) | 3 2 1 0 W[I(k)] 36.38 8.56 1.88 -.25
Với ADPCM 16bit/s, hàm rời rạc W(I) được định nghĩa (giá trị chính
3.2.6 Điều khiển tương thích tiếng nói(Adaptation speed control):
al (k) lấy giá trị thuộc khoảng [0, 1] tín hiệu thoại nó có xu hướng tiến
đến 1 còn lấy giá trị 0 nếu truyền số liệu trên băng thoại Nó có nguồn gốc từ giá trị của tốc độ thay đổi tín hiệu vi phân
Hai giá trị trung bình của biên độ I (k)được tính như sau