Bài viết ực hiện khảo sát và đánh giá hiệu quả của việc cập nhật nhiễu trực tuyến theo thời gian trong các thuật toán nâng cao chất lượng tiếng nói. Việc khảo sát và đánh giá được thực hiện cho ba dạng thuật toán chính là: thuật toán dựa trên mô hình thống kê; thuật toán không gian con (subspace); thuật toán trừ phổ. Bên cạnh đó, bài báo cũng đề xuất phương pháp chọn giá trị ngưỡng quyết định tín hiệu phù hợp với mỗi ứng dụng cụ thể. Mời các bạn cùng tham khảo!
Trang 1Đánh Giá Hiệu Quả Cập Nhật Nhiễu Trực Tuyến Trong Các Thuật Toán Nâng Cao Chất Lượng Tiếng Nói
Đào Văn Lân, Hoàng Văn Phúc và Vũ Hỏa Tiễn
Trường Đại học Kỹ thuật Lê Quý Đôn, 236 Hoàng Quốc Việt, Hà Nội, Việt Nam Email: kqha1025@gmail.com, phuchv@mta.edu.vn, hoatien57@yahoo.com
Tóm tắt – ực hiện kh o sát và
đ ệu qu của việc cập nhật nhiễu trực tuyến theo thời
gian trong các thuật toán nâng cao chấ lượng tiếng nói Việc
kh s v đ được thực hiện cho ba dạng thuật toán
chính là: thuật toán dựa trên mô hình thống kê; thuật toán không
gian con (subspace); thuật toán trừ phổ Bên cạ đ
ũ đề xuấ p ươ p p chọn giá trị ưỡng quyế định tín
hiệu phù hợp với mỗi ứng dụng cụ thể
Từ khóa- Speech enhancement, statistical model based methods,
subspace algorithms, spectral-subtractive algorithms
I GIỚI THIỆU Hiện nay, có rất nhiều nghiên cứu liên quan đến việc xử lý
tiếng nói ứng dụng trong nhận dạng con người, nhận dạng nội
dung tiếng nói, chuyển tiếng nói sang văn bản, chuyển từ tiếng
nói sang tiếng nói như các tài liệu - đ đề cập
Hình là sơ đồ khối tổng quát của các ứng dụng xử lý số
tín hiệu tiếng nói Sau khi chuyển đổi từ tương tự sang số
(ADC), tín hiệu đ u vào bao gồm cả tín hiệu có ích (tiếng nói)
và nhiễu từ nhiều nguồn khác nhau (như tiếng ô tô, xe máy,
tiếng ồn tại nhà máy… ) Vì thế tất cả các ứng dụng đều sử
dụng khối tiền xử lý, nhằm nâng cao chất lượng tiếng nói trước
khi áp dụng các thuật toán ứng dụng cụ thể Trong khối tiền xử
lý việc cập nhật nhiễu (noise update) có ý nghĩa rất quan
trọng, ảnh hưởng đến chất lượng của các thuật toán nâng cao
chất lượng tiếng nói
K ố ề xử lý
â a ấ
lượ ế
í ệu v
( ế , ễu)
N ậ dạ ườ
N ậ dạ ộ du
ế
C u ể ừ ế
sa vă
C u ể ế
sa ế
……. í ệu a
Hình 1 Sơ đồ tổng quát ứng dụng xử lý số tín hiệu tiếng nói
Mục đích chính của bài báo này là khảo sát đánh giá hiệu
quả của việc cập nhật nhiễu trực tuyến đối với các thuật toán
nâng cao chất lượng tiếng nói trong khối tiền xử lý nâng cao
chất lượng tiếng nói như được mô tả trong hình 1 Nội dung
tiếp theo của bài báo, trong ph n tác giả sẽ giới thiệu qui tắc
cập nhật nhiễu trực tuyến và kết quả thực nghiệm Đánh giá
hiệu quả nhiễu trực tuyến được mô tả trong ph n III Cuối cùng
ph n V là nh ng kết luận
II QUY TẮC CẬP NHẬT NHIỄU TRỰC TUYẾN Trong các tài liệu [1, 3, 4, 7, 15, 6 đ đưa ra một số phương pháp cập nhật nhiễu theo thời gian trong các thuật toán
xử lý nâng cao chất lượng tiếng nói
Cập nhật nhiễu trực tuyến là phương pháp thực hiện liên tục việc cập nhật phổ của nhiễu trong các chu kỳ trích mẫu song song với việc thực hiện các thuật toán xử lý tín hiệu tiếng nói Căn cứ để thực hiện việc cập nhật nhiễu trực tuyến là phát hiện
tiếng nói (VAD: Voice Activity Detection) để cập nhật phổ
nhiễu trong các khoảng chu kỳ không có tiếng nói
Trong các thuật toán dựa trên mô hình thống kê [1], vấn đề đặt ra trong việc nâng cao chất lượng tiếng nói là phải đề ra được khung mô tả mang tính thống kê, là một tập các phép đo tương ứng với hệ chuyển đổi Fourier của tín hiệu nhiễu và chúng ta mong muốn tìm ra được một phương pháp ước lượng tuyến tính hoặc phi tuyến với các tham số có lợi đó là hệ chuyển đổi tín hiệu sạch
Quy luật cập nhật nhiễu trực tuyến đối với các thuật toán dựa trên mô hình thống kê [1, 2, 8, 9, 5 được quyết định bởi các công thức (1) và (2)
1
0
1 1
1 N log H
k k
H
(1)
Với
k
k k k
exp 1 1
1
) 1 ( ) )
1 ( ) (i Y2 i D i
Trong đó γ k , ξ k tương ứng với tỷ số tín hiệu/nhiễu (SNR) tiên nghiệm và hậu nghiệm [15]
N là số điểm thực hiện thuật toán FFT
H 1là giả thiết rằng tín hiệu đ u vào gồm tín hiệu có ích là
tiếng nói, còn H 0 là giả thiết rằng tín hiệu đ u vào chỉ có nhiễu
δ là giá trị ngưỡng quyết định tín hiệu vào chỉ có nhiễu hay
gồm cả tín hiệu có ích
Trang 22( )
k
Y i là công suất phổ của tín hiệu gồm cả tiếng nói và
nhiễu
β là hằng số làm mịn (smoothing constant) chọn trong dải
(0<β<1) và ở đây giá trị được chọn (trừ trường hợp của phương
pháp trừ phổ) là β = 0,98.
Thuật toán nâng cao chất lượng tiếng nói theo phương pháp
trừ phổ [1] dựa trên nguyên lý sau: giả sử tín hiệu nhiễu có
dạng cộng tính, ta có thể ước lượng được phổ của tín hiệu sạch
bằng cách trừ ước lượng phổ của tiếng nói có nhiễu cho ước
lượng phổ của nhiễu Phổ của nhiễu có thể được ước lượng và
cập nhật trong các khoảng thời gian không có tiếng nói
Quy luật cập nhật nhiễu trực tuyến lớp các thuật toán trừ
phổ được quyết định theo các công thức (3) và (4) trong các tài
liệu tham khảo [1,17]
2
( ) (dB) 10log
( )
i
i
e i
b k
b i k
Y SNR
D
(3)
(i) (i 1) (1 ) Y(i)
Riêng với thuật toán trừ phổ, giá trị β được chọn là 0,9.
Lớp các thuật toán không gian con là phương pháp chủ
yếu dựa trên lý thuyết đại số tuyến tính Hơn n a, các thuật
toán này dựa trên giả thiết là tín hiệu sạch có thể được giới hạn
trong một không gian con của không gian nhiễu Euclid Vì vậy,
phương pháp này phân tách không gian vector của tín hiệu có
nhiễu thành không gian con chứa chủ yếu là tín hiệu sạch bằng
cách bỏ qua các thành ph n của vector nhiễu ở trong không
gian con nhiễu
Với lớp các thuật toán không gian con (subspace), quy luật
cập nhật nhiễu trực tuyến [1, 16, 18, 9 được quyết định bởi
các công thức (5) và (6)
(1,1)
;
(1,1)
y
n
R
(5)
(1 ).R
R R (6)
Với R y , R x , R ntương ứng là ma trận hiệp phương sai của tín
hiệu có nhiễu, tín hiệu sạch, nhiễu
Trong thuật toán không gian con, giá trị β được chọn là
0,98
III THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ
D liệu phục vụ khảo sát và đánh giá kết quả trong bài báo
này được lấy trên cơ sở tham khảo [1,6], theo đó tín hiệu tiếng
nói sạch trong một file tiếng nói (“sp04.wav”) và tín hiệu có
(“sp04_babble_sn10.wav”)
Tiêu chí để đánh giá chất lượng của các thuật toán nâng cao chất lượng tiếng nói theo [1, 5] gồm độ méo tín hiệu tiếng nói (SIG), nền nhiễu (BAK) và hiệu ứng tổng thể (OVL)
Trong bài báo này tác giả đề xuất phương pháp tìm giá trị
tối ưu của δ từ thực nghiệm theo các bước sau:
Bước 1: Khảo sát và đánh giá từng thuật toán nâng cao chất
lượng tiếng nói với các giá trị δ khác nhau theo các tiêu chí ở
các bảng 1-3
Bước 2: Từ bước 1, chọn giá trị δ cho kết quả ứng với các
tiêu chí tốt nhất
Bảng 1 Hệ số độ méo của tín hiệu (SIG)
5 Rất tự nhiên, không có suy hao
4 Khá tự nhiên, mức suy hao rất nhỏ
3 Ít tự nhiên, mức suy hao nhỏ
2 Khá tự nhiên, khá suy hao
1 Rất không tự nhiên và mức suy hao lớn Bảng 2 Hệ số nền nhiễu (BAK)
3 Có thể nhận ra nhưng khó chịu
2 Tương đối dễ nhận ra tương đối khó chịu
1 Rất dễ nhận ra, rất khó chịu Bảng 3 Hiệu ứng tổng thể (OVL)
Trong số các thuật toán nâng cao chất lượng tiếng nói dựa trên mô hình thống kê tác giả chọn các thuật toán SE log SE log SE SPU trình bày trong để khảo sát với
các giá trị δ khác nhau Trong đó SE (minimum
mean-square-error) là thuật toán tối ưu theo sai số trung bình bình phương nhỏ nhất, logMMSE (MMSE log-spectral amplitude estimator) là thuật toán logarithm ước lượng biên độ phổ theo tối ưu sai số trung bình bình phương nhỏ nhất, logMMSE_SPU (logMMSE under signal presence uncertainty) là thuật toán dựa trên thuật toán logMMSE khi không chắc chắn có tín hiệu tiếng nói Kết quả khảo sát thể hiện trên các hình 2-4
Trang 3Từ kết quả khảo sát thực nghiệm trên các hình 2-4 cho thấy,
đối với các thuật toán nâng cao chất lượng tiếng nói dựa trên
mô hình thống kê, khi δ = 0,9, cho hiệu quả nâng cao chất
lượng tiếng nói tốt nhất theo các tiêu chí SIG, BAK, OVL theo
các bảng 1-3
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
2.5
2.6
2.7
2.8
2.9
3
3.1
3.2
3.3
3.4
3.5 §å thÞ kh¶o s¸t thuËt to¸n n©ng cao chÊt l- îng tiÕng nãi MMSE theo delta
delta
SIG BAK OVL
Hình 2 ết quả khảo sát chất lượng thuật toán MMSE theo δ
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
2.6
2.7
2.8
2.9
3
3.1
3.2
3.3
3.4
3.5 §å thÞ kh¶o s¸t thuËt to¸n n©ng cao chÊt l- îng tiÕng nãi LogMMSE theo delta
delta
SIG BAK OVL
Hình 3 ết quả khảo sát chất lượng thuật toán LogMMSE theo δ.
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
2.5
2.6
2.7
2.8
2.9
3
3.1
3.2
3.3§å thÞ kh¶o s¸t thuËt to¸n n©ng cao chÊt l- îng tiÕng nãi LogMMSE-SPU theo delta
delta
SIG BAK OVL
Hình 4 ết quả khảo sát chất lượng thuật toán LogMMSE-SPU theo δ.
Kết quả khảo sát thuật toán nâng cao chất lượng tiếng nói
trừ phổ với các giá trị δ khác nhau thể hiện trên hình 5 Từ
nh ng kết quả đó ta rút ra nhận xét là đối với thuật toán trừ phổ
thì giá trị δ=5,5 cho hiệu quả nâng cao chất lượng tiếng nói là
tốt nhất theo cả ba tiêu chí đ dẫn ra trong các bảng 1-3
Khi khảo sát thuật toán nâng cao chất lượng tiếng nói
không gian con với các giá trị δ khác nhau ta nhận được kết quả như trên hình 6 Từ đó ta thấy với giá trị δ=1 thì kết quả
của thuật toán nâng cao chất lượng tiếng nói không gian con tốt nhất theo cả ba tiêu chí đ nêu
1.8 2 2.2 2.4 2.6 2.8 3 3.2 3.4 3.6 §å thÞ kh¶o s¸t thuËt to¸n n©ng cao chÊt l- îng tiÕng nãi trõ phæ theo delta
delta
SIG BAK OVL
Hình 5 Đồ thị khảo sát chất lượng thuật toán trừ phổ theo δ.
2.5 2.6 2.7 2.8 2.9 3 3.1 3.2 3.3 3.4§å thÞ kh¶o s¸t thuËt to¸n n©ng cao chÊt l- îng tiÕng nãi kh«ng gian con theo delta
delta
SIG BAK OVL
Hình 6 Đồ thị khảo sát chất lượng thuật toán không gian con theo δ
IV KẾT LUẬN Trong bài báo này nhóm tác giả đ thực hiện nghiên cứu, khảo sát và đánh giá hiệu quả của các thuật toán nâng cao chất lượng tiếng nói sử dụng phương pháp cập nhật nhiễu trực tuyến Ngoài ra bài báo cũng đề xuất phương pháp lựa chọn
giá trị δ phù hợp trên cơ sở đánh giá các tiêu chí S và
OVL, để các thuật toán đạt được hiệu quả thực thi cao nhất
Trang 4Trong các nghiên cứu tiếp theo nhóm tác giả sẽ tiến hành
hiện thực hóa các thuật toán nâng cao chất lượng tiếng nói cập
nhật nhiễu trực tuyến này vào các ứng dụng, cụ thể như nhận
dạng tiếng nói có tính tới các đặc điểm của tiếng Việt
TÀI LIỆU THAM KHẢO
[1] Philipos C.Loizou, Speech enhancement: theory and practice, second
edition, Publisher of Engineering and Environmental Sciences CRC
Press, Baco Raton, Florida, 2013
[2] Yang Lu; P.C Loizou, “Speech enhancement by combining statistical
estimators of speech and noise,” 2010 IEEE International Conference on
Acoustics Speech and Signal Processing (ICASSP), vol., no.,
pp.4754-4757, March 2010
[3] Dubey, Rajesh Kumar; Kumar, Arun, “Comparison of subjective and
objective speech quality assessment for different degradation / noise
conditions,” 2015 International Conference on Signal Processing and
Communication (ICSC), vol., no., pp.261-266, March 2015
[4] Yi Hu; Loizou, P.C., “Subjective Comparison of Speech Enhancement
Algorithms,” 2006 IEEE International Conference on Acoustics, Speech
and Signal Processing, 2006 ICASSP 2006 Proceedings, vol.1, May
2006
[5] TU “Perceptual evaluation of speech quality (PESQ) and objective
method for end-to-end speech quality assessment of narrowband
telephone networks and speech codecs ” TU-T Recommendation 862,
2000
[6] Speech noise reference database:
http://ecs.utdallas.edu/loizou/speech/noizeus
[7] Kisoo Kwon; Jong Won Shin; Sonowat, S.; Inkyu Choi; Nam Soo Kim,
“Speech enhancement combining statistical models and NMF with
update of speech and noise bases,” 2014 IEEE International Conference
on Acoustics, Speech and Signal Processing (ICASSP), pp.7053-7057,
May 2014
[8] Y Ephraim, “Statistical-model-based speech enhancement systems,”
Proceedings of the IEEE , vol.80, no.10, pp.1526-1555, Oct 1992
[9] Y Ephraim and D alah “Speech enhancement using a minimum
mean-square error log-spectral amplitude estimator ” EEE Trans
Acoust Speech Signal Processing, vol ASSP-33, pp 443-445, Apr
1985
[10] Mitra, V.; Franco, H.; Graciarena, M.; Vergyri, D., “Medium-duration
modulation cepstral feature for robust speech recognition,” 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp.1749-1753, May 2014
[11] Sultana, R.; Palit, R., “A survey on Bengali speech-to-text recognition
techniques,” 2014 9th International Forum on Strategic Technology (IFOST), pp.26-29, Oct 2014
[12] M.P Admane, R Jasutkar, “Speech to text and accelerometer based smart phone interaction system,” 2014 International Conference on Information Communication and Embedded Systems (ICICES), pp.1-4,
Feb 2014
[13] Faizullah Ansari, M.D.; Shaji, R.S.; SivaKarthick, T.J.; Vivek, S.; Aravind, A., “Multilingual speech to speech translation system in
bluetooth environment,” 2014 International Conference on Control, Instrumentation, Communication and Computational Technologies (ICCICCT), pp.1055-1058, Jul 2014
[14] Seung Yun; Young-Jik Lee; Sang-Hun Kim, “Multilingual
speech-to-speech translation system for mobile consumer devices,” IEEE Transactions on Consumer Electronics, vol.60, no.3, pp.508-516, Aug
2014
[15] Jongseo Sohn; Nam Soo Kim; Wonyong Sung, “A statistical
model-based voice activity detection,” IEEE Signal Processing Letters, vol.6,
no.1, pp.1-3, Jan 1999
[16] Mittal, U.; Phamdo, N., “Signal/noise KLT based approach for
enhancing speech degraded by colored noise,” IEEE Transactions on Speech and Audio Processing, vol.8, no.2, pp.159-167, Mar 2000
[17] Berouti, M.; Schwartz, R.; Makhoul, J., “Enhancement of speech corrupted by acoustic noise,” IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP '79), vol.4,
pp.208-211, Apr 1979
[18] Yi Hu; Loizou, P.C., “A generalized subspace approach for enhancing speech corrupted by colored noise,” IEEE Transactions on Speech and Audio Processing, vol.11, no.4, pp.334-341, Jul 2003
[19] Yi Hu; Loizou, P.C., “A subspace approach for enhancing speech corrupted by colored noise,” 2002 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), vol.1,
pp.I-573-I-576, May 2002
[20] Yi Hu; P.C Loizou, “Speech enhancement based on wavelet thresholding the multitaper spectrum,” IEEE Transactions on Speech and Audio Processing, vol.12, no.1, pp.59-67, Jan 2004