Xử lý tín hiệu tiếng nói 3.. Nhận dạng tiếng nói 4 hợp, nhận dạng tiếng nói.. Tổng hợp và à nh nh ận dạng tiếng nói tiến tới giao tiếp người-máy bằng tiếng nói.. Tất cả các ứng dụng
Trang 1Tài liệu tham khảo
La parole et son traitement automatique
Calliope, Masson, 1989
Traitement de la parole
Rene Boite et Murat Kunt, Presse Polytechnique Romandes, 1987
Fundamentals of Speech Signal Processing
Saito S., Nakata K , Academic Press, 1985
Digital Processing of Speech Signals
Lawrence R Rabiner, Ronald W Schafer, Prentice-Hall 1978
Discrete-Time Processing of Speech Signals
John R Deller, John G Proakis, Hansen John H L 1999
Tiếng Việt hiện đại (Ngữ âm, ngữ pháp, phong cách)
Nguyễn Hữu Quỳnh, Hà Nội, 1994
1 Một số khái niệm cơ bản
2 Xử lý tín hiệu tiếng nói
3 Mã hoá tiếng nói
4 Tổng hợp tiếng nói
5 Nhận dạng tiếng nói
4
hợp, nhận dạng tiếng nói.
tiếng nói yêu cầu những hiểu biết trên nhiều
Trang 2Mục đích
tiếng nói để truyền và lưu trữ tiếng nói.
Tổng hợp và à nh nh ận dạng tiếng nói tiến
tới giao tiếp người-máy bằng tiếng nói.
Tất cả các ứng dụng của xử lý tiếng
nói đều cần phải dựa trên các kết quả
của a phân t phân t ích tiếng nói
6
Phân biệt tiếng nói và âm thanh Tiếng nói được phân biệt với các âm thanh khác bởi các đặc tính âm học có nguồn gốc từ cơ chế tạo tiếng nói.
Có 2 loại nguồn âm
7
8
Trang 3NASAL CAVITY: Khoang mũi SOFT PALATE: Vịm miệng mềm EPIGLOTTIS: Nắp thanh quản VOCAL FOLDS (CORDS): Dây thanh OESOPHAGUS: Thực quản TRACHEA: Khí quản PHARYNX: Họng
A Glotte pendant la respiration B Glotte pour la phonation
1 Glotte 2 Cordes vocales 3 Epiglotte 5 Cartilages aryténọdes
Thanh mơn
Trang 4Dây thanh trong một chu kỳ
dao động
14
Biểu diễn tín hiệu tiếng nói
Dạng sóng theo thời gian
Biểu diễn tín hiệu tiếng nói
Phổ t n hiệu tiếng nói
Trang 5Biểu diễn tín hiệu tiếng nói
Thu bằng micro khác loại
Trang 6Biểu diễn tín hiệu tiếng nói
Hai giọng khác nhau cho cùng một âm
22
Biểu diễn tín hiệu tiếng nói
Cùng người nói, cùng một âm
Trang 7 Đơn âm tiết
Có thanh điệu (6), biến đổi thanh điệu kèm theo biến đổi nghĩa
Không biến đổi hình thái
tiếng Việt
Hệ thống âm vị: 14 nguyên âm (11
nguyên âm đơn, 3 nguyên âm đôi, 22 phụ âm)
Trang 8tiếng Việt
Phân loại nguyên âm theo độ nâng
của lưỡi và chuyển động của lưỡi
30
Hàng
Độ mở h ng trước
h ng sau không tròn môi
h ng sau tròn môi
Hữu thanh b đ
Vị trí cấu âm Đầu lưỡi
Môi Răng Vòm miệng
Tắc
Mặt lưỡi
tiếng Việt
Phân loại phụ âm theo tắc hay xát,
hữu thanh hay vô thanh, mũi hó
32
tiếng Việt
âm.
thời tạo nên tiếng thanh
Trang 9-0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5
CHUR.WAV, Fs = 11025Hz, 5669 samples, Time = 514ms
Time in ms
Trang 10KHAR.WAV, Fs = 11025Hz, 7718 samples, Time = 700ms
XOA.WAV, Fs = 11025Hz, 7690 samples, Time = 697ms
Time in ms
Trang 11MEJ.WAV, Fs = 11025Hz, 4922 samples, Time = 446ms
TAMS.WAV, Fs = 11025Hz, 4989 samples, Time = 452ms
Time in ms
Trang 12VIF.WAV, Fs = 11025Hz, 9872 samples, Time = 895ms
NHAAN.WAV, Fs = 11025Hz, 5713 samples, Time = 518ms
Time in ms
Trang 13TRIJ.WAV, Fs = 11025Hz, 4108 samples, Time = 373ms
TIMF.WAV, Fs = 11025Hz, 5589 samples, Time = 507ms
Time in ms
Trang 14= K
1
2 k 1
b 1 (
B )
z (
V
) z 1 ( C ) z (
z 1
(
A )
z
(
β α +
=
54
) z ( A ) z ( R ) z ( V ) z ( G ) z (
p 2K 1
p
1 i
+ ∑
=
) z ( A ) z (
T = σ
P = 2K+1
Mô hình toàn điểm cực (AR)
A(z): Hàm truyền đạt của bộ lọc đảo
55
Mô hình ARMA
) z ( A ) z ( C ) z (
= ∑
c
) n ( u c ) n ( x a )
n
(
x
q 0 i i p
Trang 15frame <= N/2, >0
59
Xử lý đồng hình (homomorphic)
F -1 {log[S(ω)]} = F -1 {log[H(ω)]} + F -1 {log[E(ω)]}
Cửa sổ
FFT -1
Trang 16Tối thiểu hóa sai số
Đánh giá kết quả
Dựa vào hàm tự tương quan
Dựa vào hàm vi sai biên độ trung bình
Dùng bộ lọc đảo và hàm tự tương quan
Xử lý đồng hình
Trang 17Dựa vào hàm tự tương quan
Tính hàm tự tương quan R(k)c a tín hiệu tiếng nó
bình (Average Magnitude Difference Function)
0 0.1 0.3
n
0 50 100 150 200 250 300 -0.01
-0.005 0 0.005 0.01 0.015
k
0 50 100 150 200 250 300 0
0.05 0.1 0.15 0.2
k
700 750 800 850 900 950 1000 1050 1100 1150 -0.2
0 0.1 0.3
n
0 50 100 150 200 250 300 -0.01
-0.005 0 0.005 0.01 0.015
k
0 50 100 150 200 250 300 0
0.05 0.1 0.15 0.2
k
Trang 18tiếng nói
Trang 19Xử lý đồng hình
74
Fk,Bks(n)
Tính nghiệm của A(z)
3 Mã hóa tiếng nói
Dãy thao tác mã hoá và giải mã
76 0
( ) lim [ /(2 1)]
x N
n ∈[-N, ,N]
Trang 20 Giá trị trung bình của tín hiệu dừng
với tín hiệu tiếng nói µx = 0
Phương sai
78
Luật lượng tử y = Q(x) được định nghĩa:
– (L+1) mức tín hiệu x(0), x(1), , x(L) – L mức lượng tử hoá
Mỗi mức lượng tử hoá biểu diễn bằng từ b bit
L = 2 b
Sai số lượng tử (tạp âm lượng tử) e = Q(x) - x
Bước lượng tử : hiệu 2 mức tín hiệu kề nhau
δ(i) = x(i)-x(i-1)
Thông lượng I = bFs (bit/s) Fs : tần số lấy mẫ
79
GSM, G723, )đ truyền tiếng nói trên mạng
hoặc lưu trữ
Thông lượng
80
T n số lấy mẫu (kHz) Số 1 mẫ bit cho luợng kbit/s Thông Dung lượng / phút (kbyte) Lĩnh vực
Trang 21Lượng tử đều
Tổng quát, bước lượng tử là h m của biên độ t n
hiệu x (lượng tử không đều) → đơn giản nhất là
-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1
Lượng tử đều
L = 16
Trang 22σ σ
Tỷ số t n hiệu trờn nhiễ
Với b ≥ 6, tăng6 dB mỗi khi tăng 1 bit lượng tử Để
W SN
SN = 20 log Biê n độ tín hiệu
Biê n độ nhiễu
Trang 23+
= +
8 bit logarit ~ 12 bit lượng tử đề
Trang 24 Linear Predictive Encoding (Xerox), 5 kbps
Code Excited Linear Prediction (CELP)
Digital Video Interactive : ~ADPCM, 4 đ n 8 bits
VoIP: G723.1 (6.4kbits/s), G728, G729 (8kbits/s)
Trang 25– âm vị – âm tiết (diphone) – từ
– tổ hợp từ – câu
Trang 26Mô phỏng dây thanh:Mô hình một khối, Mô hình
hai khối, Mô hình nhiều khối, Mô hình hai dầm
Tham số điều khiể
thiên diện tích không quá đột ngột
Trang 27Ống tiết diện đều, không tổn hao
Ống tiết diện đều và
đường dây tương đương
ρ0/A: Điện cảm âm học L: Điện cảm A/ρ0c 2 : Điện dung âm học C: Điện dung
107
Xét trong miền tần số
– Điều kiện biên tại thanh môn
– Điều kiện biên tại môi
( ) cos( / )
G
U H
(2 1) 4
= l 17,5 , 500,1500, 2500 cm c=350 m/s
=
= l
Trang 28Tiếp giáp
112
Hiệu ứng của các tổn hao
Tổn hao do dịch chuyển không khí trong tuyến âm – Do tính lỏng của không khí
– Do truyền nhiệt – Do rung vách ngăn
truyền nhiệt
tính lỏng
rung
Trang 29Hiệu ứng của các tổn hao
Tổn hao do bức xạ tại môi
– Mô hình quả óng vô hạ
– Trở kháng bức xạ
( ) ( , )
r r r
j L R p
Z
Ω Ω
Từ vựng nhiều hơn (vài nghìn từ), một người nói
Như trên nhưng cho hệ thống nhiều người nói
Nhận dạng các từ đi với nhau, từ vựng ít (hàng chục từ)
Nhận dạng câu ngắn, từ vựng hạn chế, một người
n i
Như trên nhưng cho hệ thống nhiều người nói
Nhận dạng lời nói liên tục, một hoặc nhiều người
n i
Trang 30Nhận dạng người nói (Speaker Recognition)
Kiểm tra (verification) giọng nói
Định danh (identification) giọng nói