Giáo trình xử lý tiếng nói
Trang 1TrÞnh V¨n Loan
FIT-HUT
Trang 2Tµi liÖu tham kh¶o
1 La parole et son traitement automatique
Calliope, Masson, 1989
2 Traitement de la parole
Rene Boite et Murat Kunt, Presse Polytechniques
Romandes, 1987
3 Fundamentals of Speech Signal Processing
Saito S., Nakata K , Academic Press, 1985
Trang 3Néi dung
1 Mét sè kh¸i niÖm c¬ b¶n
2 Xö lý tin hiÖu tiÕng nãi
3 M· ho¸ tiÕng nãi
4 Tæng hîp tiÕng nãi
5 NhËn d¹ng tiÕng nãi
Trang 4Xử lý tiếng nói ?
Xử lý thông tin chứa trong tín
hiệu tiếng nói nhằm truyền, lưu trữ
tín hiệu này hoặc tổng hợp, nhận
dạng tiếng nói.
Các nghiên cứu được tiến hành
để xử lý tiếng nói yêu cầu những hiểu biết trên nhiều lĩnh vực ngày càng đa dạng: từ ngữ âm và ngôn ngữ học cho đến xử lý tín hiệu
Trang 5Mục đích
hiệu tiếng nói để truyền và lưu trữ tiếng
nói.
tới giao tiếp người-máy bằng tiếng nói.
nói đều cần phải dựa trên các kết quả
của
Trang 6Phân biệt tiếng nói và âm thanh:
Tiếng nói được phân biệt với các âm thanh
khác bởi các đặc tính âm học có nguồn gốc
từ cơ chế tạo tiếng nói.
Có 2 loại nguồn âm
tuần hoàn (dây thanh rung)
tạp âm (dây thanh không rung)
Trang 7Thực quảnNắp thanh quản
Khí quản
Dây thanh
Vòm miệng cứng
Vòm miệng mềmKhoang mũi
Lưỡi
Trang 8Sơ đồ khối bộ máy phát âm
Trang 9Thanh môn
Dây thanh
Trang 10Thanh m«n (2)
Trang 11Dây thanh trong một chu kỳ dao động
Trang 12BiÓu diÔn tÝn hiÖu tiÕng nãi
Trang 13BiÓu diÔn tÝn hiÖu tiÕng nãi
Trang 14BiÓu diÔn tÝn hiÖu tiÕng nãi
Trang 15T¹o ©m h÷u thanh Formant vµ
antiformant
Trang 16T¹o ©m v« thanh
Trang 17Một số đặc điểm ngữ âm tiếng Việt
điệu kèm theo biến đổi nghĩa
Trang 18M« h×nh t¹o tiÕng nãi (Fant-1960)
) z 1
)(
z 1
(
A )
z (
β + α
= K
1 k
2 k 2
1 k
1 z b z ) b
1 (
B )
z ( V
) z 1 ( C )
z (
R = − − 1
P Läc th«ng
thÊp G(z)
Läc th«ng thÊp G(z)
TuyÕn ©m V(z)
TuyÕn ©m V(z)
T¶i bøc x¹ R(z) T¶i bøc x¹ R(z)
Trang 19A(z): Hàm truyền đạt của bộ lọc đảo
Mô hình toàn điểm cực (AR)
) z ( A
) z ( R ) z ( V ) z ( G )
z (
i
i z a 1
) z ( A
) n ( u )
i n ( x a )
n ( x
p
1 i
i − = σ
+ ∑
=
) z ( A
) z (
Trang 20Nếu tính đến khoang mũi
xuất hiện các điểm không(ARMA)
) z ( A
) z (
C )
z ( A )
z ( A
) z
(
T
2
2 1
1 + σ = σ
σ
0 i
= ∑
c
) i n ( u c )
i n ( x a )
n ( x
q
0 i
i
p
1 i
i − = σ −
=
=
Trang 21Hàm truyền đạt của một bộ lọc số ở tần số formant Fk được cho bởi:
trong đó , , T: chu kỳ lấy mẫu, : dải thông.
1 Vẽ các điểm cực của Hk(z) trong mặt phẳng Z
2 Viết phương trình sai phân mô tả quan hệ giữa tín hiệu ra yk(n) và tín hiệu vào xk(n)
3 Vẽ sơ đồ khối của bộ lọc số này với 3 bộ nhân.
4 Bằng cách sắp xếp lại các số hạng của phương trình sai phân,
vẽ sơ đồ khối của bộ lọc số chỉ có 2 bộ nhân
k T k
z = e−σ
k 2 F Tk
Trang 22Bài tập
Bài 1.
Hàm truyền đạt của một bộ lọc số ở tần số formant Fk được cho bởi:
trong đó , , T: chu kỳ lấy mẫu, : dải thông
Trang 23Bài tập
1 0,7
Trang 25Bài tập
a) Xác định biến đổi z của g(n): Tra bảng
Trang 26Ph©n tÝch phæ tÝn hiÖu tiÕng nãi
2 Xö lý tÝn hiÖu tiÕng nãi
Bé läc hiÖu chØnh
Trang 27X’(f) = X(f) * W(f)
Trang 28FFT -1 {log[H( ω )]}: thông tin vê`h(n):
FFT -1 {log[E( ω )]}: thông tin vê`nguô`n:
s(n) )
h(n) )
e(n) )
Trang 29Sơ đồ khối xử lý đồng hình
Bộ lọc hiệu chỉnh
?
Trang 30h(n) )
ˆ s(n) h(n) e(n) ˆ
Trang 31Tiªn ®o¸n tuyÕn tÝnh (Linear Prediction Coding)
i x ( n i ) aˆ
) n ( xˆ
Sai sè tiªn ®o¸n e ( n ) = x ( n ) − xˆ ( n )
n
2 ( n ) e
i − = σ + ∑
=
Trang 32Xác định tần số cơ bản Fo
Giọng nam: 80 250 Hz Giọng nữ: 150 500 Hz
Xác định Fo
Xác định Fo
Dựa vào hàm tự tương quan
Dựa vào hàm vi sai biên độ trung bình
Dùng bộ lọc đảo và hàm tự tương quan
Xử lý đồng hình
Trang 33 Dựa vào hàm tự tương quan
Trang 34 Dựa vào hàm tự tương quan
Hạn chế, loại bỏ |x|<C L
Trang 35Dựa vào hàm vi sai biên độ trung bình (Average Magnitude Difference Function) (1)
1/2 N-1
n=0
N
λ λ λ
k n
x n
x k
n
, , 1
, 0
) (
) ( )
Trang 36 Dựa vào hàm vi sai biên độ trung bình (Average Magnitude Difference Function) (2)
1000 1050 1100 1150 1200 1250 -0.25
-0.2 -0.15 -0.1 -0.05 0 0.05 0.1 0.15 0.2 0.25
n
50 100 150 200 0
10 20 30 40 50
k
Trang 39 Xử lý đồng hình
Trang 40 Xử lý đồng hình
Xác định formant (1)
Bộ lọc hiệu chỉnh
Trang 41 Xử lý đồng hình
Xác định formant (1)
Trang 42 Tiên đoán tuyến tính (LPC)
F k ,B k s(n)
Bộ lọc hiệu chỉnh
Tìm cực đại
Tính nghiệm của A(z)
Tính nghiệm của A(z)
Quyết định
Xác định formant (2)
Trang 433 M· ho¸ tiÕng nãi
D·y thao t¸c m· ho¸ vµ gi¶i m·
Trang 45 Giá trị trung bình và phương sai
• Giá trị trung bình của tín hiệu dừng
với tín hiệu tiếng nói, giả thiết à x = 0
• Phương sai
1 ( ) d lim ( )
Trang 47Thông lượng (1)
• Tín hiệu lượng tử 8 bit (256 mức), Fs = 8
kHz Thông lượng = 64 kbit/s
• Tín hiệu lượng tử 16 bit (65536 mức), Fs =
16 kHz Thông lượng = 256 kbit/s ,
1 giờ tiếng nói ≈ 100 Mbyte
• Cần phải mã hoá tín hiệu tiếng nói (MPEG, GSM, G723, ) để truyền tiếng nói trên mạng hoặc lưu trữ
Trang 48Thông lượng (2)
Tần số lấy mẫu (kHz) Số bit cho 1 mẫu luợng kbit/s Thông
Dung lượng / phút (kbyte) Lĩnh vực
Trang 49Lượng tử đều
Trang 50Lượng tử đều
L = 9
Trang 51Lượng tử đều
L = ?
-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1
Trang 52Lượng tử đều
L = 16
-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1
Trang 53Lượng tử đều
-1 0 1
-1 0 1
-1 0 1
-0.2 0 0.2
Quantification Error
Trang 55Các tính chất lượng tử đều
• Tỷ số tín hiệu trên nhiễu
2 2
10 lg x (d B) 6, 02 4, 77 20 lg s
x e
x
σ σ
Trang 56Tỷ số tín hiệu trên nhiễu
Trang 59Lượng tử logarit
log(1 ) log(1 )
Trang 62M· ho¸ vi sai (DPCM)
Trang 63• Linear Predictive Encoding (Xerox), 5 kbps
• Code Excited Linear Prediction (CELP)
• Digital Video Interactive : ~ADPCM, 4 đến 8 bits
• VoIP: G723.1 (6.4kbits/s), G728, G729 (8kbits/s)