Hình vẽ 1, a biểu diễn theo thời gian của tín hiệu tiếng nóib và c biểu diễn phổ của thành phần thoại và phi thoại hệ thống thông tin số: Khi hệ thống thông tin số cha ra đời thì hệ thốn
Trang 1- ¢m trë cña m«i trêng:
)xscm/g(c
Trang 2- Khi tăng liên tiếp gấp đôi tần số thì tai ngời thấy bậc biến thiên bằng nhau về
độ cao âm
Trong âm học ngời ta dùng đơn vị Octave (oct)
Số oct tơng ứng với tần số fn đợc xác định nh sau:
fo
fnlg34,3fo
fnlog
Vậy 1 oct tơng ứng biến thiên gấp đôi lần về tần số so với tần số chuẩn f0
Khoảng âm tần chiếm từ 10 oct
Ngời ta còn dùng đơn vị 1/3 oct Ví dụ nh chọn f0 = 20Hz ta có bảng sau:
- Cực tiểu biến thiên tơng đối của tần số mà tai ngời nhận ra (nh là có thay đổi
độ cao âm) gọi là ngỡng vi phân của độ thính theo tần số Ngỡng này phụ thuộc vào tần số theo giá trị khởi đầu của tần số, cũng phụ thuộc vào biên độ di tần và tốc
Trang 3- Ngỡng chói tai: Là mức thanh áp của thanh đơn là lớn nhất mà tai ngời còn chịu đựng đợc Ngỡng chói tai mức là giới hạn khả năng chịu đựng nếu vợt quá sẽ gây ra tổn thơng về thính giác không hồi phục đợc.
Ngỡng chói tai phụ thuộc vào tần số (nhng phụ thuộc ít hơn so với ngỡng nghe
đợc)
một cách gần đúng cứ mỗi khoảng tăng gấp 10 lần cờng độ âm (đơn) thì tơng ứng tăng âm lợng một lần Cảm thụ về biên độ âm gần với quy luật log10 (theo âm lợng).Ben là đơn vị so sánh tơng đối với chuẩn để biểu thị mức âm lợng:
Trang 4Nếu chuẩn so sánh là ngỡng nghe đợc tiêu chuẩn (I0 = 10-12 w/m2; ε0 = 3.10-15
J/m3 ; V0 = 3.10-8 m/s)
Thì số dB tơng ứng là mức tuyệt đối của âm
Ví dụ mức tuyệt đối của ngỡng chói tai là 120 dB
Cực tiểu biến thiên âm lợng mà tai ngời nhận ra gọi là ngỡng vi phân của độ thính theo biên độ Nghĩa là âm lợng biểu thị tính chất "lợng tử" của thính giác với
∆N ≈ 0,4dB Trong thông tin, ngời ta thờng dùng đơn vị dB để chỉ mức các đại lợng
điện so sánh với chuẩn Cần lu ý rằng ngời ta chọn rất nhiều giá trị chuẩn khác nhau tuỳ theo ứng dụng do đó dễ nhầm lẫn:
Ví dụ: (dBW)=10tg1WP
V1
Ulg20)dBV
mW1
Plg10)dBm
th-ờng đợc coi là điểm đầu vào mạng thông tin điện thoại, thì ta có tơng đơng:
(dBm) = 20 lg 0,775U V = 20 lg 1,291mA(1dB = 0,115 Nêpe ; 1 Nêpe = 8,686 dB)
Khi dùng đơn vị so sánh tơng đối việc cộng hay trừ không thể nh số thờng
Ví dụ: 2 loa cùng phát cùng một chơng trình có mức lệch nhau 7 dB, nếu loa
có công suất bé bị ngắt thì âm lợng chỉ giảm 0,8 dB
c Đờng cong đẳng âm lợng:
- ĐCĐÂL là kết quả tổng hợp nghiên cứu thống kê về thính giác Để xây đựng
đờng cong đẳng âm ngời ta đa ra đơn vị "phôn", số "phôn" của một âm đơn tần số f nào đó đúng bằng số dB của âm 1000Hz khi thính giác cân bằng âm lợng của chúng
ĐCĐÂL đợc vẽ trên đồ thị mà trục tung là mức dB, trục hoành là thang tần số âm với tham số họ đờng cong là "phôn"
Trang 5- Cách vẽ đờng cong đẳng âm lợng:
+ Vẽ đờng 60 phôn cho máy phát A phát âm đơn 1000Hz, 60dB, cho máy phát
B phát âm đơn 100hz Ngời nghe sẽ điều chỉnh mức âm đơn 100 sao cho đạt tới cảm giác âm lợng 100Hz cân bằng với âm lợng máy phát A Đồng hồ đo thanh áp của máy phát B cho biết mức âm 100Hz là 65dB
Vậy ở 100Hz mức tuyệt đối 65 dB đẳng âm lợng với mức tuyệt đối 60dB của
âm 1000Hz, tung độ là 65dB
Thay đổi tần số và mức âm lợng của máy phát B, dùng tai để cân bằng âm lợng máy phát B với máy A, ta vẽ đợc một đờng cong đẳng âm lợng 60 phôn Đờng này cắt đờng f = 1000hz ở điểm có tung độ 60dB, phần ĐCĐÂL 60 phôn nằm dới đờng
N = 60dB ở trong khoảng tần số trung bình, ở đó tai có độ nhạy lớn Phần đờng cong
đẳng âm lợng 60 phôn nằm trên đờng N = 60dB ở 2 đầu dải âm tần, ở đó tai kém nhạy hơn
* Nhận xét:
- Với âm lợng càng lớn thì đờng cong đẳng âm lợng phẳng hơn nghĩa là âm ợng ít thay đổi theo tần số hơn
l ở tần số thấp (f<2000Hz) thì độ nhạy của tai kém
- Khi mức truyền đạt giảm tuyệt đối, không phụ thuộc vào tần số thì cảm thụ dải tần bị cắt xén
Ví dụ: ở mức 60dB dải tần từ 35Hz ở mức 20dB dải tần từ 120Hz bị thu hẹp lại Vậy mạch điều chỉnh âm lợng đợc thiết kế tốt nhất là thay đổi số phôn
0 , 2
2 0 5 0 1 0 0 2 0 0 5 0 0 1 0 0 0 2 0 0 0 5 0 0 0 1 0 0 0 0 2 0 0 0 0 K H z
Trang 6d Hiệu ứng che lấp:
- Là hiệu ứng nâng cao mức nghe đợc (độ nhạy thính giác giảm đối với một
âm thanh xét khi có một âm thanh nhiễu)
Ngời ta đánh giá mức che lấp bằng đại lợng mức che lấp
M=N’0 -N 0
N0 mức ngỡng nghe đợc đối với âm xét khi không nhiễu
N’0 mức ngỡng nghe đợc với âm xét khi có nhiễu
Đại lợng che lấp mức M phụ thuộc vào mức và tần số, vào chênh lệch mức và chênh lệch tần số, của âm thanh bị che lấp và nhiễu
- Hiệu ứng che lấp là đặc điểm của thính giác bình thờng (khác với bệnh nặng tai do thính giác bị quá tải, không hồi phục do tác động của âm năng lợng lớn)
e Tính phi tuyến của thính giác:
Giả sử tín hiệu âm thanh có dải tần hẹp (hay âm đơn) Ví dụ cho tác động âm nhiễu: - Lúc đầu có cùng dải tần nh tín hiệu xét, sau đó ta điều chỉnh mở rộng dải tần âm nhiễu về 2 phía Do năng lợng âm nhiễu tăng lên đại lợng che lấp tăng dần Những âm nhiễu đạt dải thông tới hạn ∆Fth thì đại lợng che lấp đạt cực đại, băng M tới hạn ngay cả ∆F > ∆Fth thì M = Mth ∆Fth tơng ứng dải tới hạn nào đó của thính giác Trong khoảng 20 - 16000Hz có 24 dải tới hạn của thính giác chính cấu trúc dải tới hạn của thính giác làm cơ sở cho tính phi tuyến của thính giác Các thực nghiệm sau đây thể hiện tính phi tuyến của thính giác:
còn cảm thấy có hài bậc (2f1) với âm lợng 88dB, cả hài bậc (3f1) với âm lợng 74dB.+ Cho tác động âm dơn f1 đồng thời với âm đơn f2 khác mà tần số f2 thay đổi liên tục tuỳ ý Ngời nghe cảm thụ thấy âm phách F = f2−f1 khi f2 = nf1 với n=1,2,3
- Cho tác động 2 âm đơn f1 và f2 Tần số 2âm đơn này ở vào 2 dải tần số tới hạn khác nhau của thính giác Ngời nghe cảm thụ các âm f = mf1 ±nf2 với các mức âm l-ợng khác nhau, trong đó lớn nhất là f1 - f2
Trang 7Do thính giác có tính phi tuyến nên ta cảm thụ gần đúng các âm phức gồm âm tần cơ bản và các sóng hài, nhng ta lại cảm thụ sai các âm phức gồm những thành phần tần số không bội (méo âm thanh do thêm thành phần sóng hài không gây sai lệch cảm thụ lớn bằng méo âm thanh do thêm thành phần tần số không bội )
3 tiếng nói
Phần trình bày này sẽ đợc nêu kỹ trong chơng 3 Tuy nhiên ở đây nêu ra định nghĩa cơ bản về ttiếng nói
- Tiếng nói: tiếng nói là do cơ quan phát âm của con ngời tạo ra nhằm mục
đích thông tin Tiếng nói đợc phân loại thô thành 2 loại âm hữu thanh và âm vô thanh
+ Âm hữu thanh tạo ra do luồng không khí từ phổi làm dao động thanh đới phát ra những xung âm thanh (Đa ra từ thanh quản) trên hình vẽ là chuỗi xung có tần số f0 gọi là tần số âm cơ bản phạm vi từ 70Hz- 450Hz, trung bình f0 của nam là 150Hz còn của nữ là 250Hz Đờng bao phổ của những xung âm cơ bản có độ dốc giảm dần từ phía tần số cao khoảng 60dB/1 oct
+ Âm vô thanh là âm có bản chất tạp âm(trắng) kết quả của sự phụt hơi qua các khe trong khoang miệng (môi, mũi, răng, lơị ).Thực chất khoang miệng là môt hệ thống bộ lọc âm học phức tạp với hàng loạt hốc cộng hởng mà tần số cộng hởng thay đổi nhờ con ngời điều khiển tinh vi rất nhiều cơ trong khoang miệng
Khi xét đến đặc điểm phổ của một ngôn ngữ, ngời ta thấy có một số xác định những mẫu âm nguyên tố gọi là phonem Đờng bao phổ của mỗi phonem có dạng xác định với một số xác định các cực đại (formant) và các cực tiểu (Cantiformant).Thành phần phổ mang tin tức là khá hẹp so với toàn bộ phổ tiếng nói và không khớp với phần mang năng lợng âm chủ yếu (94% công suất tiếng nói thuộc dải tần 80-2000Hz) Dải tần của tín hiệu thoại từ 300 - 3400Hz Hình vẽ sau miêu tả đặc tr-
ng của tiếng nói và đờng bao phổ liên quan
Trang 8Hình vẽ 1, a) biểu diễn theo thời gian của tín hiệu tiếng nói
b) và c) biểu diễn phổ của thành phần thoại và phi thoại
hệ thống thông tin số):
Khi hệ thống thông tin số cha ra đời thì hệ thống thông tin tơng tự đợc sử dụng làm công cụ liên lạc (thoại) Khi sử dụng HTTTTT tuy đơn giản hơn nhng không tăng đợc dung lợng kênh truyền nên rất khó khăn cho việc tăng số lợng thuê bao, nên việc thông tin liên lạc bị trì trệ cha đáp ứng đợc nhu cầu thông tin trong mọi nơi mọi lúc Vì thế mà HTTTS ra đời nhằm khắc phục những nhợc điểm của HTTTTT là tăng đợc dung lợng kênh truyền và nhiều ngời có thể gọi cùng một thời điểm Trong
hệ thống thông tin số tin tức đợc má hoá thành các con số nhị phân trớc khi đa tới bộ
điều chế số, điều này làm cho chất lợng thông tin tăng lên
+ Nguyên lý hoạt động của hệ thống thông tin số:
- Tiếng nói đợc biến đổi từ tơng tự sang số sau đó đợc truyền đi qua các kênh TDMA (ghép kênh theo thời gian) tức là cùng một tần số có thể truyền tiếng nói theo các thời điểm khác nhau sau đó đợc điều chế số (chuyển đổi tiếng nói số sang tơng tự ở tần số thấp sang tần số cao) sau đó truyền đi qua kênh truyền đến phía thu qua bộ trộn chọn lấy tần số tổng hợp sau đó đợc đa đến bộ giải điều chế số biến đổi
Trang 9tiếng nói số biến đổi tín hiệu tơng tự thành tiếng nói số từ tần số cao sang tần số thấp sau đó ghép kênh theo thời gian và đợc khôi phục tiếng nói nhờ bộ giải mã.
Nh vậy quá trình biến đổi tiếng nói trong HTTTS tởng chừng nh phức tạp nhng hiệu quả của việc truyền thông tin tăng đáp ứng đợc nhu cầu của ngời liên lạc qua hệ thống liên lạc thoại
Tuy nhiên HTTTS phát triển dựa trên nền tảng của HTTTTT
Ta sẽ đi tìm hiểu các phơng pháp mã hoá tiếng nói của HTTTS dựa trên nguyên lý dự đoán tuyến tính (LPC), các phơng pháp mã hoá khác nh PCM, DPCM, ADPCM, Chơng 2 trình bày về cơ sở toán học cho mã hoá tiếng nói, lợng tử véc tơ, lợng tử vô hớng, biến đổi Z sử dụng trong mạch lọc số ứng dụng trong mã hoá tiếng nói nhằm nâng cao hiệu quả mã hoá với tốc độ bít thấp Chơng 3 trình tổng quan về các phơng pháp mã hoá tiếng nói trong đó nêu bảng tổng hợp các thuật toán mã hoá đợc ứng dụng trong điện thoại cố định và di động Chơng 4 trình bày phơng pháp mã hoá tiếng nói bằng nội suy và nội suy tăng cờng (Waveform Interpolation
WI và Enhanced Waveform InterpolationEWI) với chất lợng cao tốc độ bit thấp với các thuật toán tối u hoá tốc độ bít thấp để khắc phục những nhợc điểm khi truyền tiếng nói (lỗi đơn, lỗi kênh ) đem lại tiếng nói trung thực, chất lợng
Hình vẽ sau đa ra sơ đồ khối một hệ thống thông tin thoại
Trang 10DS0 DS0
DS1
DS0 DS0
DS1
DS1
OC-48
Class-5 Switch
Class-4 Switch
Class-4 Switch
Class-5 Switch
3/1 DACS
SONET ADM
OC-3/12
Customer
CO
• Switching and transport based on circuits
• Rigid structure yields high cost for packet
Transport Switching
sơ đồ khối của một hệ thống thông tin điện thoại
Hình 2 Sơ đồ một hệ thống thông tin điện thoại Trong các hệ thống thông tin thoại ngày nay việc sử dụng hệ thống đã số hoá làm tăng hiệu qủa sử dụng kênh truyền lên đáng kể từ đó giảm giá thành cho ngời sử dụng Sơ đồ trên là một ví dụ của hệ thống thông tin thoại đang đợc áp dụng Tại khâu ngời sử dụng tín hiệu tiếng nói tơng ứng với mã hoá cơ bản DS0 64kbit trên giây, sau đó đợc đa qua các hệ thống sử lý phức tạp để mã hoá xuống tốc độ thấp hơn rối đợc đa qua các khối sử lý chuyển mạch áp dụng các công nghệ mới nh VOiP, Frame relay, ATM Chính vì vậy chất lợng thông tin thoại ngày càng tăng kèm theo là giá thành giảm và tiện lợi cho ngời sử dụng trong thông tin di động
Trang 11chơng ii cơ sở lý thuyết mã hoá tiếng nói
I Lợng tử hoá:
Lợng tử hoá là quá trình biến đổi biên độ của một xung lấy mẫu thành một
xung lấy mẫu thành giá trị mức lợng tử) Mục đích của lợng tử hoá là nhằm biến đổi
các xung lấy mẫu thành các tín hiệu nhị phân hay nói cách khác là biến đổi tín hiệu tiếng nói thành tín hiệu số để đa lên kênh truyền Ngày nay ngời ta sử dụng hai ph-
ơng pháp lợng tử là lợng tử đồng dạng hay lợng tử vô hớng và lợng tử véc tơ trong việc mã hoá và giải mã tiếng nói Trớc khi phân tích phơng pháp lợng tử véc tơ ta hãy phân tích phơng pháp cơ bản là lợng tử đồng dạng, gọi tắt là lợng tử hoá
1 Lợng tử vô hớng:
Lợng tử hoá chia ra 2 bớc thực hiện là: Chia mức và làm tròn
- Chia mức: Chia giới hạn dải động của tín hiệu thành các mức lợng tử Ta có một số khái niệm:
Trang 12+Vạch giới hạn các mức (VK): Các giá trị biên độ giới hạn phân chia giữa các mức (Trong đó chỉ số k là số tự nhiên = 1,2,3 )
+ Độ lớn bớc (Gọi tắt là bớc - B): khoảng cách giữa 2 vạch giới hạn mức
Quan hệ giữa các đại lợng trên nh sau: Ta gọi ∆S’ là khoảng biến thiên biên
độ của tín hiệu có tính thêm phần dự trữ biên độ, đợc tính theo biểu thức:
Trang 13= ∆S + smin + d/2 =
= smax + d/2
đến k + 1 có thể nhận Mức lợng tử L theo 2 quy tắc nh sau:
Trang 14Nh trên trình bày lợng tử vô hớng biểu diễn các mức biên độ của tín hiệu tiếng
nói thành chuỗi các con số nhị phân vì vậy từ mã biểu diễn dài khi múc biên độ tăng lên Ví dụ với mức biên độ 256 ta cần từ mã có độ dài n=8 bít và tốc độ mã hoá tơng
đơng là 8x8kHz=64kbit trên giây Tốc độ này tơng đơng tốc độ một kênh truyền Để giảm tốc độ mã hoá tiếng nói ngời ta đa ra Lợng tử véc tơ
Mỗi tập thông số đầu vào đợc đại diện thành một véc tơ, độ dài véc tơ tơng ứng với độ dài từ mã và tập hợp các véc tơ đầu vào tơng ứng với một bảng mã
Trớc hết mã hoá tín hiệu rời rạc S(n) thành véc tơ cha lợng tử X(n) sau đó biến véc tơ này thành Y(n) (vectơ đã lợng tử) Tín hiệu số đại diện cho véc tơ Y(n) đợc phát trên kênh truyền là C(n) Tại phía thu, nhận đợc C'(n) khác C(n) do sai số kênh truyền, bên thu giải mã C'(n) thành Y'(n) đa vào bộ phân tích để cho ra R(n) xấp xỉ S(n) Nếu không có sai số kênh truyền thì C(n) = C'(n) , Y' = Y(n)
- Quá trình sử lý bằng cách xấp xỉ tín hiệu cho biên độ biến thiên liên tục theo thời gian thành tín hiệu số có biên độ rời rạc là một khía cạnh quan trọng trong việc mã hoá và nén số liệu Việc giảm tốc độ mã hoá bit/s sẽ làm tăng dung lợng kênh và giảm yêu cầu bộ nhớ cho các thiết bị thông tin Tuy nhiên để đánh giá chất lợng mã hoá thoại lợng tử riêng biệt mỗi giá trị thông số với tín hiệu đợc gọi là lợng
tử vô hớng, trong khi đó lợng tử liên kết của mỗi khối, các thông số đợc gọi là lợng
tử khối hay lợng tử vectơ
Lợng tử vectơ ngày nay đợc áp dụng cho cả mã hoá hình ảnh và tiếng nói, tuy nhiên trong luận văn chỉ đi sâu phân tích lợng tử vectơ trong việc mã hoá thoại
* Công thức liên quan:
Coi X = (X1.X2 Xn) là vectơ N chiều, các thành phần của nó (Xn, n ≤ k ≤ N)
là các biến ngẫu nhiên biến đổi liên tục (T thể hiện là sự chuyển vị trong lợng tử vectơ, vectơ X đợc vẽ thành vectơ Y có biên độ rời rạc và có giá trị thực, hay nói cách khác X đợc lợng tử thànhY và Y là giá trị đã đợc lợng tử của X và viết Y = q(X) (q: quantize) trong đó q(.) là hàm lợng tử Y là vectơ tái tạo hay là vectơ đầu ra
tơng ứng và X, Y nhận một Yi là Y
bảng mã và (Yi) là các thành phần hay khuôn L đợc gọi là số lợng các mức Để thiết
kế bảng mã đó ta phân không gian N chiều của vectơ ngẫu nhiên X thành L mức
Trang 15hoặc tế bào {Ci ; 1 ≤ i ≤ L} và tổ chức mỗi tế bào Ci một vectơ Yi Khối lợng tử sau
đó ấn định vectơ mã Yi nếu X ở trong Ci
Giá trị mã (Đầu ra hay mức tái tạo) đợc vẽ bằng các dáu chấm Các giá trị đầu
vào X nằm trong khoảng Ci đợc lu trữ thành Yi Mức ở đây là L = 8
Lợng tử vô hớng có dạng tế bào (Cell) giống nhau (Vì 1 chiều)
Trang 16Khi X đợc lợng tử thành Y thì kết quả sai số xuất hiện và một hệ số méo d(x,y) gọi là thông số khoảng cách Do vectơ Y(n) (ở các thời gian khác nhau n) đợc phát
đi vì vậy xuất hiện độ méo trung bình
∑
−
1 n
)]
n(Y),n(X[dM
1limD
Để phát xạ, mỗi vectơ Yi đợc mã hoá thành một từ mã các số nhị phân (bit) Ci
với độ dài Bi bit Tốc độ mã hoá T đợc xác định nh sau:
M
1lim
Đây là độ dài từ mã trung bình, B(n) là số bit đợc dùng để mã hoá vectơ X(n)
ở thời điểm n và Fc là số từ mã hoá đợc phát trên giây
3 Đo độ méo trong lợng tử vectơ:
Để đánh giá độ méo ngời ta đa ra các phơng pháp sau:
3.1 Sai số trung bình: dựa vào công thức
2 K K
T
N
1)YX()YX(N
1)Y,X(dPhơng pháp này đơn giản về mặt toán học nó có thể đợc kiểm soát dễ dàng
Trang 17r = E [(X - X) (X - X)T] X = ε (X) Trong trờng hợp này dw giảm thành:
dw (X,Y) = (X - Y)T r-1 (X - Y)
3.3 Méo Itakura - Saito:
Một phép đo độ méo dùng trong dự đoán lợng tử là phép đo Itakura - Saito đa
ra và bắt nguồn từ nguyên tắc cực đại một dạng thay đổi của méo Itakura - Saito giữa 1 véc tơ của hệ số dự đoán X = [a(1),a(2) a(N)]T và véc tơ khác của hệ số dự
đoán Y đợc nêu ra sau đây :
d1(X,Y) = (X-Y)TΦX(X-Y) trong đó
ΦX = {Φ(i-k) / Φ(0), i ≥ 0, k≤ N-1}
Là ma trận tơng quan mà hệ số của nó Φ(i-k) đợc sử dụng để tính toán véc tơ của hệ số dự đoán
Trang 18
chơng iii mã hoá và giải mã tiếng nói
i khái niệm mã hoá tiếng nói
1 Mô hình và định nghĩa liên quan
a Mô hình phát tiếng nói:
- Nguồn âm thanh đợc điều chế bởi bộ lọc thực hiện các chỉnh lý mịn
Cho âm sắc tuỳ theo hình dạng của hệ thống phát âm (hàm, lỡi môi)
- Nguồn âm (thanh quản)
* Định nghĩa:
- Tiếng nói: tiếng nói là do cơ quan phát âm của con ngời tạo ra nhằm mục
đích thông tin.Tiếng nói đợc phân loại thô thành 2 loại âm hữu thanh và âm vô thanh
+ Âm hữu thanh tạo ra do luồng không khí từ phổi làm dao động thanh đới phát ra những xung âm thanh (Đa ra từ thanh quản) trên hình vẽ là chuỗi xung có tần số f0 gọi là tần số âm cơ bản phạm vi từ 70Hz- 450Hz, trung bình f0 của nam là 150Hz còn của nữ là 250Hz Đờng bao phổ của những xung âm cơ bản có độ dốc giảm dần từ phía tần số cao khoảng 60dB/1 oct
+ Âm vô thanh là âm có bản chất tạp âm(trắng) kết quả của sự phụt hơi qua các khe trong khoang miệng (môi, mũi, răng, lợi ).Thực chất khoang miệng là môt
hệ thống bộ lọc âm học phức tạp với hàng loạt hốc cộng hởng mà tần số cộng hởng thay đổi nhờ con ngời điều khiển tinh vi rất nhiều cơ trong khoang miệng
Khi xét đến đặc điểm phổ của một ngôn ngữ, ngời ta thấy có một số xác định những mẫu âm nguyên tố gọi là phonem Đờng bao phổ của mỗi phonem có dạng xác định với một số xác định các cực đại (formant) và các cực tiểu Cantiformant.Thành phần phổ mang tin tức là khá hẹp so với toàn bộ phổ tiếng nói và không khớp với phần mang năng lợng âm chủ yếu (94% công suất tiếng nói thuộc dải tần 80-2000Hz) Dải tần của tín hiệu thoại từ 300 - 3400Hz
b ứng dụng mô hình:
Trang 19Bản thân tiếng nói gốc là tơng tự Nhờ số hoá và xử lí số đối với tiếng nói, ngời
ta có thể chỉnh lý truyền thoại bằng kĩ thuật thông tin số, có thể tổng hợp và phân tích tiếng nói (trong thông minh nhân tạo) Để số hoá tiếng nói ngời ta lấy mẫu với chu kì khoảng 20ms Mỗi mẫu đợc đặc trng bởi tập các thông số: thông số chuyển mạch (để chỉ mẫu âm là âm vô thanh hay hữu thanh) thông số về âm cơ bản (nếu là
âm hữu thanh) nếu là thông số về tạp âm (nếu là âm vô thanh) thông số về bộ lọc khoang miệng
Mục đích xử lý số là đảm bảo sự chính xác khi phân tích hay tổng hợp tiếng nói Một kĩ thuật xử lí tiếng nói là mã hoá dự đoán tuyến tính LPC (linear predictive coding) LPC dự đoán tín hiệu thoại ở mẫu xét trên cơ sở lấy trung bình cuả mẫu tr-
ớc Số các mẫu trớc (đợc lấy trung bình) bằng số các thông số (theo nguyên tắc số phơng trình độc lập cần có bằng số ẩn cần tìm) Sự sai lệch giữa thông số thực với thông số dự doán đợc gọi là sai số dự đoán Thực chất của mạng thông tin số truyền thoại là truyền dòng bit hiển thị các thông số đặc trng của tiếng nói Tại nơi thu, với
số liệu nhận đợc và với mô hình đã biết về tiếng nói ngời ta sẽ tạo lại tiếng nói đã phát
2 Cơ sở công nghệ mã hoá tiếng nói :
N g u ồ n â m ( T h a n h q u ả n , v v )
Trang 20Việc truyền dẫn tín hiệu tiếng nói trên các đờng thông tin thoại, kênh vô tuyến cho đến nay đang thu hút mạnh mẽ sự quan tâm của nhiều nhà nghiên cứu Do đó trên 3 thập kỷ qua nhiều nghiên cứu đã tập trung vào các công nghệ mã hoá và giải mã tiếng nói
Nguồn tín hiệu tơng tự ( tiếng nói ) có dạng x(t) đó là hàm mẫu của một quá trình
ngẫu nhiên X(t) Giả sử X(t) là một quá trình ngẫu nhiên dừng với hàm tự tơng quan
xx ( )
Φ τ và hàm mật độ phổ công suất Φxx (f) Thêm vào đó giả sử rằng X(t) là một
quá trình dừng trong dải đã đợc giới hạn Do đó theo lý thuyết lấy mấu, X(t) có thể
đợc biểu diễn nh sau:
mẫu trên giây Đầu ra của nguồn tín hiệu tơng tự đợc biến đổi thành các mẫu liên tiếp rời rạc theo thời gian còn đợc gọi là quá trình rời rạc hoá tín hiệu Các mẫu này sau đó đợc lợng tử hoá về biên độ và đợc mã hoá thành các số nhị phân Do vậy nếu
R= log 2 L +1 với trờng hợp L còn lại Mặt khác nếu các mức không cân bằng và xác
suất của các mức đầu ra đã biết ta có thể dùng mã Huffman để cải thiện hiệu quả của quá trình mã hoá Lợng tử hoá mức biên độ của tín hiệu tiếng nói đã lấy mẫu sẽ tạo ra quá trình nén số liệu nhng cũng đồng thời tạo ra méo dạng sóng hoặc gây ra suy giảm hay mất độ trung thực Cực tiểu hoá độ méo trong quá trình này đóng vai trò rất quan trọng trong việc mã hoá tiếng nói
Trong các hệ thống thông tin thoại số hay hệ thống lu trữ, quá trình lấy mẫu và ợng tử tín hiệu tơng tự thờng tạo ra một đại diện số đó là tín hiệu PCM (Pulse code mudulation) Trong hệ thống mạng tổ hợp đa dịch vụ (ISDN), băng tần thoại 300Hz
l-đến 3400Hz, tỷ lệ lấy mẫu yêu cầu là 8kHz Để tái tạo lại tiếng nói một cách trung thực, lợng tử theo luật A hoặc μ với 8 bít trên một mẫu sẽ đợc sử dụng và tạo ra tốc
độ tơng đơng 64 kbit/s ( theo khuyến nghị G.711 ITU) Tuy nhiên để khai thác hiệu quả băng thông thì cần thực hiện nén hơn nữa Trong hệ thống di động các thuật toán mã hoá tiếng nói có thể tạo ra cả các thành phần d và không liên quan Vì vậy
)2/(2sin)2()
(
W n t W
W n t W W
n X t
X
ππ
Trang 21sự tái tạo tiếng nói cần đảm bảo duy trì chất lợng tiếng nói một cách tốt nhất Việc phát triển các thuật toán mã hoá đợc xác định theo các yêu cầu đó là: chất lợng cao, tốc độ bít thấp, độ phức tạp tính toán thấp, cờng độ mạnh nhằm chống lại sai số do kênh truyền và có độ trễ thuật toán thấp Với một ứng dụng nào đó thì việc dung hoà giữa các điều kiện trái ngợc nh vậy phải đợc thực hiện Đặc biệt trong các hệ thống thông tin thoại công cộng việc dùng các thuật toán mã hoá đã đợc tiêu chuẩn hoá là rất quan trọng, nó cho phép các sản phẩm có khả năng phù hợp giữa các nhà sản xuất thiết bị và dich vụ cung cấp cho ngời sử dụng Các nghiên cứu mã hoá tiếng nói thờng liên qua tới tiêu chuẩn của uỷ ban t vấn điện báo và điện thoại quốc tế CCITT/ITU-T, ETSI hoặc ISO-MPEG.
So với tín hiệu âm thanh, tiếng nói có đặc điểm là băng tần hẹp hơn rất nhiều,300Hz đến 3400 Hz so với 20Hz đến 20000Hz Vì vậy tần số lấy mẫu tín hiệu tiếng nói cũng thấp hơn đó là 8kHz so với 32kHz đến 48kHz của âm thanh Đối với tiếng nói băng thông rộng tới 7kHz tỷ lệ lấy mẫu 16kHz đang thu hút sự quan tâm của nhiều nhà nghiên cứu đặc biệt là cho các ứng dụng trong hệ thống ISDN chất lợng cao thuận tiện với dịch vụ thoại cho hội nghị truyền hình Hầu hết các thuật toán mã hoá tiếng nói đều căn cứ vào sự tạo ra tiếng nói với tốc độ mã hoá thấp và trung bình từ 0.5 đến 2 bít trên một mẫu tơng đơng 4 đến 16 kilô bít trên giây
Hình vẽ sau nêu ra các kỹ thuật mã hoá tiếng nói phổ biến đã và đang đ ợc ứng dụng hiện tại cũng nh trong tơng lai Về phân loại, các bộ mã hoá và giải mã tiếng nói hiện nay có thể đợc phân loại thành các loại nh sau: Mã hoá dạng sóng (Waveform codecs), mã hoá nguồn (source codecs), mã hoá hỗn hợp hay mã hoá lai (hybrid codecs) Ngoài 3 loại trên vào thập kỷ 90 các nhà nghiên cứu bắt đầu hớng vào loại mã hoá mới đó là phơng pháp nội suy ( hay xen kẽ ) dạng sóng nguyên mẫu ( Prototype waveform Interpolation - PWI) Vào giữa và cuối thập kỷ 90 trên cơ sở PIW một số nghiên cứu đã tập trung vào mã hoá và giải mã WI và mã hoá nội suy tăng cờng ( Enhance Waveform Interpolation - EWI) Về cơ bản bộ mã hoá dạng sóng đợc sử dụng với tốc độ bít cao và cho tiếng nói chất lợng rất cao Mã hoá nguồn hoạt động ở tốc độ bít thấp thậm chí rất thấp nhng tiếng nói mang tính tổng hợp và không đạt chất lợng cao Mã hoá lai sử dụng phối hợp các kỹ thuật của cả
Trang 22hai loại trên và cho ra tiếng nói chất lợng cao với tốc độ bít trung bình Hình vẽ sau mô tả đặc điểm quan hệ giữa tốc độ và chất lợng tiếng nói của 3 loại mã hoá trên
Hình vẽ 4: Biểu diễn quan hệ giữa tốc độ và chất lợng của 3 loại mã hoá
Từ hình vẽ ta thấy rằng phơng pháp mã hoá dạng sóng cho phép tốc độ từ khoảng
10 đến 64 ki lô bít giây và cho chất lợng thoại rất cao Trong khi đó phơng pháp mã hoá nguồn cho chất lợng thoại tồi đến kém nhng có đạt tốc độ mã hoá rất thấp vào khoảng gần 1 ki lô bít giây Phơng pháp hỗn hợp hay mã hoá lai có tốc độ trung bình 2 đến 16 ki lô bít giây và cho ra chất luợng thoại từ mức chấp nhận đợc cho đến mức chất lợng cao
Mã hoá dạng sóngMã hoá lai
Mã hoá nguồn
Trang 23
Hình 5: Sơ đồ biểu diễn theo khối của 3 loại mã hoá
Trong các sơ đồ trên, sơ đồ a biểu diễn cho bộ mã hoá và giải mã nguồn (Waveform codecs ), sơ đồ b biểu diễn cho bộ mã hoá dạng sóng (Vocoders ), và sơ
đồ c biểu diễn cho bộ mã hoá lai ( Hybrid coders )
Các bộ biến đổi A/D thực hiện biến đổi nguồn tín hiệu đầu vào từ tơng tự sang tín hiệu số Bên phía thu, quá trình biến đổi ngợc từ số về tơng tự D/A khôi phục hay tái tạo lại tiếng nói đã phát đi từ phía phát Với sơ đồ a, nguồn tín hiệu số đại diện cho tiếng nói đợc đa qua bộ lọc lọc lấy thành phần mong muốn, tín hiệu này đợc lợng tử
và đi tới máy phát Kênh truyền (channel ) có thể là các kênh vô tuyến, vệ tinh, cáp dẫn hay cáp quang Tại đầu thu (Receiver) ngời ta thực hiện quá trình tổng hợp (Synthesis) và lọc lấy tín hiệu số đã phát đi Từ sơ đồ b, sau khi biến đổi A/D thay vì phát đi toàn bộ các thành phần đại diện cho tiếng nói, ngời ta thực hiện quá trình phân tích các thông số ( Parameter analysis) lấy ra các thông số đặc trng và phát đi trên kênh truyền Tại đầu thu khối tái tạo hàm kích hoạt (Generator) đợc kích thích bằng các chỉ số từ trạm phát, tạo ra các tín hiệu kích hoạt hay còn gọi là kích thích
Trang 24(excitation) đa tới tác động vào các thông số của bộ lọc tổng hợp (Synthesis Filter) tái tạo lại tín hiệu số đã phát đi Sơ đồ c là tổng hợp hai sơ đồ trên Các phân tích cụ thể của 3 loại trên sẽ đợc phân tích kỹ hơn trong các mục sau.
3 Các thành phần của bộ mã hoá tiếng nói:
a Một số khái niệm
+ Bộ mã hoá tiếng nói, hay gọi đầy đủ tên là Bộ mã hoá và giải mã tiếng nói, (speech coder) hay (speech codecs) luôn bao gồm khối mã hoá (Encoder) và khối giải mã (Decoder) Bộ mã hoá thực hiện nh là một quá trình (hay hàm) nén trong khi
bộ giải mã là một hàm bung nén hay giải nén Quá trình trên luôn đợc kết hợp trong các hệ thống truyền phát hay lu trữ tiếng nói Hình vẽ sau mô tả quá trình đó Trong trạng thái nén, khối mã hoá nhận tín hiệu tiếng nói ban đầu đã đợc số hoá và tạo ra dòng bít có tốc độ thấp để đa tới máy phát hoặc thiết bị lu trữ Ngợc lại ở trạng thái giải nén bộ giải mã thực hiện biến đổi ngợc lại quá trình bên khối mã hoá đã thực hiện và xây dựng lại giá trị xấp xỉ của tiếng nói ban đầu từ dòng bít thu đợc
Hình 6: Sơ đồ khối hệ thống lu trữ và truyền tiếng nói
+ Khung và khung con: Trong các bộ mã hoá tiếng nói, để nâng cao hiệu quả và giảm tốc độ mã hoá một số biện pháp phân chia cần thiết khác nh phân chia các khung (20 mi-li giây) thành các khung con (Frame và subframe ) Ngời ta đã đo đạc
và thấy rằng trong khoảng thời gian 20 mi li giây tiếng nói có đặc điểm là không thay đổi, thời gian đó đợc gọi là một khung tiếng nói Một số bớc sử lý tiếp theo với
Mã hoá và
Trang 25yêu cầu độ phân giải cao hơn theo thời gian và cần phải thực hiện trong khoảng thời gian hẹp hơn hay khung hẹp hơn khoảng đó đợc gọi là khung con.
+ Các khía cạnh cần xem xét:
Để chọn lựa bộ mã hoá tiếng nói, các yếu tố đợc và mất cần đợc xem xét và dung hoà Ví dụ việc giảm tốc độ bít làm tăng tốc độ hay dung lợng kênh truyền và tăng hiệu quả sử dụng kênh nhng cũng đồng thời làm giảm chất lợng và độ trung thực của tiếng nói đồng thời gây ra trễ do các thuật toán và quá trình tính toán gây nên
Ví dụ trích dẫn sau đây cho thấy sự liên quan giữa mức thời gian trễ theo tiêu chuẩn của ITU và thời gian trễ do quá trình tính toán của các thuật toán gây ra: Trễ thuật toán thờng nằm trong phạm vi 10 đến 15 mi li giây với hầu hết các thuật toán mã hoá Trễ kênh truyền theo tiêu chuẩn thoại của ITU là trong phạm vi từ 0 đến 150 mi
li giây Tuy nhiên một số tiêu chuẩn cho phép độ trễ kênh truyền từ dới 400 mi li giây Đối với thông tin vệ tinh nh hệ thống INMARSAT độ trễ thoại trong một kênh
vệ tinh lên và xuống có thể vợt 400 mi li giây
Các ứng dụng khác nhau cũng yêu cầu các bộ mã hoá đạt mức độ tối u khác nhau với những khía cạnh khác nhau Tám khía cạnh quan trọng đợc nêu ra sau đây:
(i) Tốc độ bít trung bình: Đợc đo bằng bít/giây và đợc nêu ra vì một số bộ mã hoá
có tỷ lệ bit thay đổi
(ii) Chất lợng tiếng nói: Một phơng pháp phổ biến để đánh giá chất lợng tiếng nói
là Điểm trung bình chung ( MOS - Mean Opinion Score ) đó là thực hiện thẩm định theo đánh giá chủ quan của ngời nghe (Subjective measurement) Ngời nghe đánh giá theo các thang điểm: xấu, kém, trung bình, tốt và vô cùng tốt ( bad, poor, fair, good, excellent ) ( xem hình trên ) Phơng pháp này yêu cầu số lợng trong phạm vi rộng ngời nghe, ngời nói và số liệu tiếng nói Tại bắc Mỹ thang điểm MOS giữa 4
và 4,5 đợc coi là tốt ( toll-quality ) trong khi đó chất lợng tổng hợp ( synthetic quality ) nằm trong khoảng 3,5 Cũng có một số quan điểm đo tỷ số tín hiệu trên tạp
âm SNR đợc gọi là phơng pháp đo các thông số bằng thiết bị đo (Objective measurements) Phơng pháp này có thể thực hiện nhanh và rẻ nhng nó không căn cứ vào các thành phần cảm nhận của con ngời
(iii) Trễ thuật toán: Các bộ mã hoá đều sử lý các mẫu theo các khối do đó luôn gây
ra trễ thời gian hay gọi là trễ mã hoá Nó đợc xác định là thời gian cho việc sử lý 2 khối tiếng nói liên tiếp Đối với thông tin thoại giới hạn rất khắt khe đối với thời
Trang 26gian trễ ( thờng trong khoảng 5 đến 20 mi-li giây, ví dụ theo ITU-T G.729 là 5ms) trong khoảng thời gian tổng cho phép giữa ngời nói và ngời nghe 150 đến 400 mi-li giây ( chuẩn ITU ).
(iv) Mức độ phức tạp tính toán: Các thuật toán mã hoá tiếng nói luôn hoạt động trong các chip sử lý tín hiệu số (DSP) Việc sử dụng bộ nhớ và tốc độ là hai yếu tố quan trọng ảnh hởng tới mức độ phức tạp trong tính toán Bộ nhớ RAM đợc dùng cho việc thực hiện một thuật toán Trong khi đó tốc độ đợc tính bằng triệu phép tính trên giây (MIPS)
(v) Độ nhậy đối với sai số do kênh truyền: Thông số này đợc xác định theo sự bật của tiếng nói của bộ mã hoá khi có sai số do kênh truyền dẫn, do tạp âm kênh, pha
đinh và nhiễu chồng lấn các ký hiệu ( Intersymbols ) Sai số kênh thờng tăng lên
đáng kể trong mã hoá tiếng nói do có nhiều bộ mã hoá tiếng nói đợc sử dụng trong thông tin vô tuyến Trong các hệ thống nh vậy bộ mã hoá tiếng nói phải có khả năng cho ra chất lợng tiếng nói với tỷ lệ sai số khoảng 10 phần trăm
(vi) Sự xuất hiện (bật ra) của tiếng nói chống lại tạp âm nền đối với thính giác: Trong các ứng dụng thực tiễn, các tạp âm nền đối với thính giác nh tiếng ồn của ô tô, âm thanh trên đờng phố hay tiếng động trong công sở thờng tác động tới tiếng nói Do đó các thuật toán mã hoá tiếng nói cần đảm bảo giảm sự tác động của các tiếng ồn trong các môi trờng nh vậy Tiếng ồn trở thành vấn đề đáng kể đối với các
áp dụng trong quân sự hay thông tin di động Thực tế từ năm 1996 tiêu chuẩn của bộ quốc phòng Mỹ trên giây đã yêu cầu rằng bộ mã hoá nguồn 2,4 kbit phải đảm bảo rằng nó hoạt động tốt trong cả môi trờng nhiễu và không nhiễu
(vii) Băng thông của tín hiệu tiếng nói đã đợc mã hoá:
Bộ mã hoá tiếng nói băng thông hẹp nằm trong khoảng 200-3400 Hz Trong khi
đó các ứng dụng băng thông rộng nằm trong khoảng từ 7 đến 20kHz kể cả dải âm thanh dùng cho hội nghị từ xa hoặc dạy học từ xa
(viii) Đặc thù của thính giác: Một số bộ mã hoá có khả năng tạo ra tiếng nói và sử
lý các đặc trng, đó là thành phần độ cao và đờng bao phổ, điều khiển phát lại tiếng nói tốc độ nhanh chậm mà không ảnh hởng tới quá trình truy theo độ cao
b.Vấn đề lợng tử
Về mặt lý thuyết, sự đại diện số chính xác của một giá trị hay một tập các giá trị tơng ứng với một số lợng bit là vô cùng, đây không phải là mục tiêu có thể đạt đợc
Trang 27Do đó sự khác nhau giữa giá trị nguyên bản và phiên bản số hoá của nó luôn tồn tại trong quá trình phát xạ hay lu trữ tín hiệu số Mục tiêu của lợng tử là làm giảm sự khác nhau đó Sự khác nhau trên đợc gọi là tạp âm hay sai số lợng tử ( hay méo lợng tử).
Có hai loại lợng tử đó là: Lợng tử vô hớng và lợng tử véc tơ Khối lợng tử vô hớng vạch ra giá trị của một số theo giá trị gần đúng nhất với giá trị thực từ một tập hữu hạn đã xác định trớc Lợng tử véc tơ hoạt động với một khối các giá trị thay vì lợng
tử mỗi giá trị trong khối một cách độc lập Nó xử lý cả khối đầu vào nh một thực thể hoặc một véc tơ và biểu diễn nó thành chỉ số véc, đồng thời cực tiểu hoá lợng méo tạo ra Do đó Lợng tử véc tơ làm tăng hiệu quả mã hoá khi có sự tơng quan giữa các giá trị trong khối
Trong các thành phần của Lợng tử véc tơ, tập hợp của các véc tơ đợc gọi là bảng mã Mỗi véc tơ này đợc gọi là một từ mã Số lợng các từ mã gọi là kích thớc bảng mã và số lợng các thành phần trong mỗi từ mã gọi là kích thớc một từ mã
Do mang lại hiệu quả trong mã hoá tiếng nói, lợng tử véc tơ đợc nhiều nghiên cứu
đề cập Nhiều thuật toán đã đợc phát triển để thực hiện việc dò bảng mã một cách hiệu quả Nửa cuối thập kỷ 90 lợng tử véc tơ có kích thớc biến thiên xuất hiện Khối lợng tử này có khả năng sử lý các véc tơ đầu vào có kích thớc biến thiên và mỗi véc tơ đâù vào có thể đợc lợng tử với một bảng mã tổng hợp
Nhiều bộ mã hoá hiện đại giảm tốc độ bit bằng cách bỏ đi các thành phần d, thông tin đã đợc xác định trớc và thành phần có thể dự đoán Vì vậy việc phân tích các thành phần của tiếng nói là cần thiết
Nh đã nêu trong chơng hai, về mặt vật lý, tiếng nói của con ngời đợc tạo ra khi luồng không khí phát lên từ phổi, thông qua vòm họng và thanh quản đi ra qua miệng Trên quan điểm sử lý tín hiệu cơ chế tạo tiếng nói có thể đợc mô hình hoá
nh một tín hiệu kích thích một bộ lọc có thông số biến đổi theo thời gian (tơng ứng
nh cơ quan phát âm) Bộ lọc này có thể khuếch đại hay làm suy giảm các tần số âm thanh nào đó trong khi đợc kích thích Cơ quan phát âm đợc mô hình hoá nh một hệ thống biến đổi theo thời gian vì nó bao gồm họng, miệng, lỡi, môi, răng, mũi Chúng thay đổi hình dạng trong quá trình phát ra tiếng nói Thành phần của tín hiệu kích thích căn cứ vào loại âm thanh của tiếng nói, đó là nó mang tính thoại hay phi
Trang 28thoại Ví dụ trong tiếng Anh, tiếng thoại là các nguyên âm ( /a/, /i/,/o/,/u/ ) trong khi các phụ âm xát nh ( /p/, và /k/ ) là các âm hay tiếng phi thoại.
Sự kích thích đối với tiếng thoại là một tín hiệu có thể coi là chu kỳ Đối với tiếng phi thoại vòm họng đợc mở rộng Quá trình kích thích đợc hình thành do luồng không khí bị đẩy qua một ống dẫn hẹp ở một số điểm trong cơ quan phát âm và tạo
ra luồng không khí hỗn loạn Tiếng phi thoại và tín hiệu kích thích của nó trở nên giống nh nguồn tạp âm và có mức năng lợng thấp hơn so với tiếng thoại Hình vẽ sau mô tả sự khác nhau của tiếng thoại và phi thoại
Hình a mô tả đoạn tiếng nói thoại và phi thoại trong miền thời gian Hình b, và c, mô tả phổ công suất tơng ứng với đờng bao phổ trong đoạn cửa sổ Hamming 32 mi-li-giây Trong cấu trúc phổ, do có tính chu kỳ tiếng thoại có cấu trúc các vạch hài nhô lên nh hình c Khoảng cách giữa các hài đợc gọi là tần số cơ bản Đờng bao phổ, hay là cấu trúc đờng bao phổ đợc đặc trng bởi tập hợp các đỉnh Cấu trúc đờng bao đó ( Cực và không của đờng bao ) đặc trng cho hình dạng của cơ quan phát âm
Do đó bằng cách dich chuyển lỡi, răng, môi, cấu trúc đờng bao phổ sẽ thay đổi tơng ứng Ngời ta đã xác định đợc rằng điểm bao sẽ giảm khoảng -6 dB trên một octave Hình vẽ sau mô tả đặc điểm của tín hiệu tiếng nói thoại và phi thoại
Hình 7: Hình vẽ đặc trng cho tiếng thoại và phi thoại và phổ tơng ứng
Phổ công suất
Trang 29II Tổng quan các phơng pháp mã hoá tiếng nói.
Trong mục này đề tài phân tích các đặc thù của các phơng pháp mã hoá tiếng nói
đó là mã hoá dạng sóng, mã hoá nguồn, mã hoá lai và mã hoá nội suy Đây là các phơng pháp tiêu biểu đặc trng cho các phơng pháp mã hoá đợc nhiều nhà nghiên cứu
đề cập
1 Phơng pháp mã hoá dạng sóng (waveform coders)
Trong phơng pháp này ngời ta tìm cách giảm giải động của tín hiệu tiếng nói Việc này có thể đạt đợc bằng cách sử dụng các bộ lợng tử cố định hay thích nghi Nh đã biết lợng tử thích nghi cho kết quả tốt hơn vì nó chỉ lợng tử lợng biến đổi tơng quan cho nên tạo ra các từ mã ngắn hơn so với lợng tử cố định hay lợng tử đều Lợng biến
đổi tơng quan đợc xác định bằng cách sử dụng một bộ lọc dự đoán lọc ra lợng d của các điểm tiếng nói liên tiếp Các thông số của bộ lọc dự đoán có thể đợcđiều chỉnh thích nghi sử dụng tín hiệu đã đợc tái tao Một bộ mã hoá đợc nói đến nhiều đó là
Điều chế mã xung vi sai thích nghi (ADPCM) Phơng pháp này cho sự tái tạo tiếng nói chất lợng tốt, tỷ lệ tín hiệu trên tạp âm SNR trong khoảng 30-35dB ở tốc độ 32 kbit trên giây (xem ITU-T G.726 và G.727 trong bảng dới đây) Với các ứng dụng trong hệ thống dịch vụ số tổ hợp (ISDN) ngời ta kết hợp phơng pháp mã hoá tiếng nói ADPCM với mạch lọc băng gơng cầu phơng (QMF) sử lý các băng con cho hai
đoạn tín hiệu tiếng nói 0-4kHz và 4-7kHz nhằm mã hoá băng thông rộng 7kHz theo tiêu chuẩn ITU-T G.722, từ đó cho chất lợng tiếng nói cao và băng thông rộng
Nguồn gốc của ADPCM xuất phát từ PCM ( Điều chề mã xung ) Dới đây trình bày tóm tắt phơng pháp mã hoá PCM Theo tiêu chuẩn Nyquist thì tần số lấy mẫu
Xử lý
biên độOSC mẫu
Tin tức 300-400Hz
(D)
Khối mã hóa
Trang 30của tiếng nói Fs = 8kHz, đây cũng là tiêu chuẩn mà ITU khuyến nghị trong G.711 Giả sử mỗi mẫu đợc biểu diễn bằng một từ mã dài 8 bit, tốc độ mã hoá tơng ứng là
64 kbit trên giây Gọi q là sai số lợng tử, Xq là giá trị đã lợng tử của X đợc lấy mẫu tại thời điểm nào đó, ta có: Xq = X + q khi sử dụng lợng tử đều hay đồng dạng Sai
số lợng tử đợc đặc trng bởi hàm mật độ công suất (pdf) hay P(q)=1/ với - /2 = <Δ Δ
q = < /2 trong đó =2 Δ Δ -R là bớc lợng tử Trung bình bình phơng của sai số lợng tử
đợc tính theo công thức sau:
E(q2) = Δ2/12 = 2 -2R/12 hay E(q2) dB = 10log(2 -2R/12) = -6R-10,8 dB
Trong thực tế để nén dải động của tiếng nói trớc tiên ngời ta cho tín hiệu đi qua linh kiện phi tuyến có dạng hàm logarit sau đó mới thực hiện lợng tử, quá trình đó t-
ơng đơng nh một khối lợng tử phi tuyến Bộ nén logarit đợc sử dụng đó là luật vàμluật A
a Theo luật à của Mỹ:
y = [log(1 + àx)] / [log(1 + à)] với -1 < x < 1 à = 255
Phép xấp xỉ thực hiện với 15 đoạn (Segment)
b Theo luật A châu Â.u
y = [log(1 + Ax)] / 1 + logA với 1/A ≤ x ≤ 1
y = Ax/1 + logA (0 ≤ x ≤ 1/A) với A = 87,6
Phép xấp xỉ thực hiện với 13 đoạn Với x là tốc độ vào/ tốc độ cực đại, y là mức
đầu ra
Nh vậy dựa vào luật mã hoá à hoặc A ta có thể lấy mẫu tín hiệu theo biểu đồ của tín hiệu xung lấy mẫu dựa vào phép toán theo luật A hoặc luật à
Với à = 255, một khối lợng tử 7 bit, sử dụng lợng tử đều sẽ cho tạp âm lợng tử
là khoảng -53dB ( -6.7-10,8 dB), trong khi đó bộ nén logarit có mức công suất tạp
âm lợng tử vào khoảng -77dB Để bung nén, tại phía thu ngời ta dùng bộ giải nén logarit để mở rộng biên độ trở lại nhằm tạo ra tiếng nói ban đầu Hệ thống nén và giải nén đợc gọi là cặp nén - dãn (hay compander)
Sau khi bộ mã hoá PCM ra đời ngời ta thấy rằng có thể đạt đợc tốc độ mã hoá thấp hơn nếu chỉ mã hoá sự sai khác của hai mẫu liên tiếp thay vì mã hoá toàn bộ
Trang 31giá trị mẫu của PCM Do vậy phơng pháp DPCM ra đời Sự thay đổi trung bình về biên độ của các mẫu liên tiếp có là lợng nhỏ về tơng quan Vấn đề đặt ra là phải dự
đoán mẫu hiện tại dựa vào p mẫu trớc đó
Gọi xn là giá trị mẫu hiện tại thì giá trị đã đợc dự đoán của nó là:
đó là một tổ hợp tuyến tính đợc đánh trọng số của p mẫu trong quá khứ Tập {ai }
là các hệ số dự đoán đợc lựa chọn để làm cực tiểu hoá hàm sai số Theo công thức sai số trung bình bình phơng (MSE) ta có:
Để giảm sai số ta phải giảm các giá trị hệ số dự đoán {ai } Do nguồn đầu ra không đổi nên có thể biểu diễn sai số trên theo công thức sau:
trong đó (m) là hàm tΦ ơng quan tự động của chuỗi tín hiệu đã đợc lấy mẫu xn Sự
giảm Ep theo {ai } tạo ra tập phơng trình tuyến tính:
từ đây có thể tìm đợc các giá trị của hệ số dự đoán ai
x
1ˆ
p j
j n i n j i i
n n i n
p i
i n i n
Φ
− Φ
i
p i
p j
j i i
E
) ( )
( 2
) 0 (
p ,
2 , 1 j
) j ( )
j i ( ap 1 i i
=
Φ
=
− Φ
∑
=
Trang 32Dới đây là sơ đồ khối mô tả quá trình mã hoá DPCM
Tới máy phát
x(t) x n + e n
Hình 8: Sơ đồ khối bộ mã hoá DPCM, với qn là sai số lợng tử
Trong sơ đồ trên các hệ số dự đoán ai đợc tạo ra bằng vòng phản hồi kín quanh khối lợng tử Đầu vào khối dự đoán đợc điều chỉnh do khối xử lý lợng tử Tại đầu ra khối dự đoán ta nhận đợc sai số:
Sai số này cho phép từ mã ngắn hơn so với PCM
Tới bộ lọc LPF
Hình 9: Sơ đồ khối bộ giải mã DPCM
k n p
k k n
n n
q x x x x e x x e e e
x a x
x x e
=
−
=
−+
~)ˆ~
(
~
~
~ˆ~
1
n n
n x e
x ˆ~ ~
+ +_++_
Dự đoán
{ }a i
Trang 33Trong khối giải mã, nguồn tín hiệu thu đợc tơng ứng đợc đa tới khối cộng, nó đợc tổng hợp với thành phần đã đợc nhân với các hệ số dự đoán ai Tại đầu ra ngời ta cho tín hiệu trên đi qua bộ lọc thông thấp để khôi phục lại đờng bao tín hiệu và lấy
ra tín hiệu tiếng nói tơng ứng
Để giảm tốc độ bit trong các bộ mã hoá hơn nữa, ngời ta sử dụng các bộ mã hoá vi phân thích nghi đó là APCM, ADPCM Các phơng pháp này cho phép giảm phạm vi hay giải động của tạp âm lợng tử, chúng cho phép giảm tốc độ bit xuống 24kbit trên giây và tạo ra chất lợng tiếng nói cải thiện trong khi hiệu quả mã hoá cao
Bảng tại sau đây tổng kết các thuật toán của mã hoá nguồn đã đợc tiêu chuẩn hoá bởi tổ chức ITU, đồng thời cũng nêu lên một số tiêu chuẩn mã hoá âm thanh
pulse code modulation PCM
64 kbit/giây
MP-MLQ/ACELP
6,3/5,3 kbit/giây
ADPCM, bao gồm các tiêu chuẩn cũ G721/723
16,24,32,40 kbit/giây
kbit/giây
độ trễ thấp LD-CELP
16 kbit/giây
hợpCS-ACELP,+Và CS-ACELP đã giảm thuật toán phức tạp 8kbps
+CS-ACELP tăng cờng phía tốc độ thấp 6,4kbps
+CS-ACELP tăng cờng phía tốc độ cao 11,8kbps
8 kbit/giây6,4 11,8 kbit/giây
Trang 34dụng băng con ADPCM (SB-ADPCM) kbit/giâyETSI GSM 06.10 Mã hoá biến đổi toàn tốc, kích hoạt xung
chu kỳ- dự đoán trong khoảng thời gian dài RPE-LTP
TETRA ( vô tuyến Trung kế mặt đất ), mã
hoá biến đổi toàn tốc ACELP
4,567 kbit/giây
INMARSAT-IMBE
- MPEG 1 so sánh nhiều điểm trớc và sau
- Mã hoá âm thanh tiên tiến AAC
Phạm vi nhiều tốc
độ
nén tiếng nói, hiện tại có ba bộ mã hoá và giải mã chính: Mã hoá/giải mã thông số, mã hoá/giải mã phân tích bằng tổng hợp (AbS ), và mã hoá/giải mã biến đổi băng con ( subband )
Trang 35N0
x(k)
σ
các thông sốHình 10: Sơ đồ lớp phân tích của một bộ mã hoá nguồn đơn giản
Bộ lọc phân tích biến đổi theo thời gian tơng ứng với cơ quan phát âm và có thể bao gồm cả ống thính giác và sự bức xạ của môi Bằng cách gần đúng ngời ta dùng mô hình toàn cực Việc sử dụng bộ lọc này tơng ứng với nguyên lý của bộ mã hoá
dự đoán tuyến tính LPC Tín hiệu kích thích vào vòm họng hay thanh môn có thể bao gồm cả các đoạn chu kỳ đợc tạo ra từ bộ tạo xung kích thích đại diện cho âm thoại, hoặc các đoạn tạp âm đại diện cho tiếng phi thoại Để chuyển đổi giữa kích thích thoại và phi thoại các mô hình mã hoá tăng cờng thờng dùng khối hỗn hợp ( ví
dụ nh kích thích đa băng MBE hay kích hoạt đa băng cải tiến IMBE đợc ứng dụng trong INMARSAT M cho tốc độ mã hoá 4.15 kbit trên giây)
b) Phơng pháp Mã hoá dự đoán tuyến tính LPC
Đây là phơng pháp mã hoá tiếng nói đóng vai trò quan trọng trong hầu hết các thuật toán mã hoá tiếng nói Trong đề tài này mã hoá dự đoán tuyến tính đợc ứng dụng để phân tích và tổng hợp tiếng nói, đánh giá các thông số có liên quan Nó sẽ
đợc trình bày kỹ trong mục III dới đây Trong phần này chỉ nêu một vài điểm cơ sở
lý thuyết tổng quát Trong mã hoá dự đoán tuyến tính LPC, chuỗi lấy mẫu coi nh
đ-ợc tạo ra từ bộ lọc toàn cực rời rạc theo thời gian với hàm truyền H(z)
G z
H
1
1
)
(
; trong đó p=pole là cực của bộ lọc
Bộ tạo xungkích thích
Bộ tạo dao
động tạp âm
Bộ lọc đápứng nhanh
Trang 36+ Giả sử rằng chuỗi đầu vào là Vn với n = 0, 1, 2, thì chuỗi ra của mô hình toàn cực thoả mãn phơng trình vi phân:
Xn = ∑
=
p 1 k
K ax Xn - k)2] =
= Φ(0) - 2∑
=
P 1
K ak Φk + ∑
=
P 1
=
P 1
K ax am Φ(k - m)Trong đó Φm là hàm tơng quan của chuỗi Xn n = 0 N - 1
Nhng Cp là đồng nhất với sai số trung bình bình phơng
Kết quả là Cp min ở phơng trình trên tạo ra tập phơng trình chuẩn có dạng:
K akΦ(k)Trong thực tế ta không biết trớc hàm tơng quan đúng của nguồn ra, do đó ta
thay Φ(n) bằng ˆ )
n
n N
i
i X
X N
Trang 37ˆ
n
Φ nhận đợc từ tập hợp mẫu X(n) với n = 0, 1 N - 1
Để thuận tiện ta biểu diễn phơng trình (*) bằng cách thay Φ1 bằng Φ(n) trong
ma trận Φ(a) = Φ trong đó Φ là ma trận vuông p x p với các thành phần Φ(i), i = 1,
ˆ
ˆ.ˆ
ii
a a
ε
điều kiện 1≤ k ≤ i-1 với i=2,3, ,p
k i i ii k i
ik a a a
a = −1 − −1−
1
ˆ1
Φ
=
a εˆ0 =Φˆ 0
Trong đó aiK, k = 1, 2 i biểu diễn các hệ số của thông số dự đoán thứ i
Hệ số mong muốn dự đoán theo P là:
ak = apkk = 1, 2 P và phần d của sai số trung bình bình phơng là:
−Φ
=Φ
−Φ
=
k
p i
ii k
k
p G a a
2 0
Trang 38Khi hệ số dự đoán và độ lợi G đợc tính toán từ nguồn ra [Xn] thì mỗi thông số
đợc mã hoá thành chuỗi nhị phân và đợc phát tới máy thu Việc giải mã hoặc tổng hợp dạng tín hiệu có thể đợc hoàn thành ở máy thu theo hình sau:
Hình 11: Sơ đồ khối tổng hợp tiếng nói tại máy thu
Khối (2) đợc sử dụng để tạo ra một hàm kích hoạt [Vn] đa tới bộ lọc H(z) Bộ lọc này đợc tổng hợp từ các hệ số dự đoán đã thu đợc Tín hiệu analog có thể thu đ-
ợc tái tạo từ chuỗi đầu ra [Xn] của bộ lọc H(z) và cho đi qua bộ lọc LPC hình thành chức năng nội suy tín hiệu từ các điểm lấy mẫu Để thực hiện đợc nh vậy với khối tổng hợp dạng tín hiệu thì hàm kích hoạt, thông số độ lợi và thông số dự đoán đợc phát tới máy thu
Khi nguồn ra là ổn định thì các thông số bộ lọc chỉ cần xác định một lần Tuy nhiên số liệu thống kê của hầu hết các nguồn trong thực tế đều ở điều kiện ổn định nhất Vì vậy cần thiết phải cập nhật theo chu kỳ các hệ số của bộ lọc, độ lợi G và các loại hàm kích hoạt và phát các thông số này đến máy thu
* Mô hình của mộ bộ tạo tín hiệu tiếng nói: