Trong bài báo này, các thuật toán nâng cao tiếng nói được đề xuất bởi việc dùng biến đổi các gói wavelet để tang khả năng phân tích tín hiệu. Trong khi đó, phương pháp lọc thống kê cảm quan dựa trên wavelet cũng được khai thác để lấy được sự ước lượng ngưỡng nhiễu tốt hơn và thuật toán nén tối toán được áp dụng để nén nhiễu. Các phương pháp đánh giá khách quan dùng PESQ và SegSNR chỉ ra rằng các kết quả của các thuật toán đã đề xuất đạt được những kết quả tốt về chất lượng khi so sánh với các thuật toán khác trong miền tần số. Mời các bạn cùng tham khảo!
Trang 1Nâng Cao Tín Hiệu Tiếng Nói Bằng Giảm Nhiễu Phi
Tuyến Dựa Vào Miền Wavelet
Tuan V Tran Faculty of Electronic and Telecommunication
Danang University of Science and Technology
Da Nang, Viet Nam tuantran.kl@engineer.com
Tuan V Pham Faculty of Electronic and Telecommunication
Center of Excellence Danang University of Science and Technology
Da Nang, Viet Nam pvtuan@dut.udn.vn
Tóm tắt— Trong bài báo này, các thuật toán nâng cao tiếng
nói được đề xuất bởi việc dùng biến đổi các gói wavelet để
tang khả năng phân tích tín hiệu Trong khi đó, phương
pháp lọc thống kê cảm quan dựa trên wavelet cũng được
khai thác để lấy được sự ước lượng ngưỡng nhiễu tốt hơn
và thuật toán nén tối toán được áp dụng để nén nhiễu Các
phương pháp đánh giá khách quan dùng PESQ và
SegSNR chỉ ra rằng các kết quả của các thuật toán đã đề
xuất đạt được những kết quả tốt về chất lượng khi so sánh
với các thuật toán khác trong miền tần số Bên cạnh đó,
việc đánh giá chủ quan được thực hiện bằng việc dùng
Mean Opinion Score (MOS) và kết quả đạt được từ việc
kiểm tra này không những cho thấy có cùng kết luận với
phương pháp đánh giá khách quan và còn khẳng định
trong việc tin tưởng hơn vào độ chính xác của các phương
pháp đánh giá khách quan
Từ khóa—Wavelet Packet, Percentile Filter, Voice Activity
Detection , Wavelet thresholding, Wavelet Shrinking
I GIỚITHIỆU Vẫn đề xử lý tiếng nói khi bị anh hưởng bởi nhiều loại nhiễu
vẫn còn là một thách thức lớn và các thuật toán nâng cao tiếng
nói vẫn đang được phát triển và nghiên cứu để hỗ trợ tốt hơn
cho các ứng dụng như nhận dạng tiếng nói, nhận dạng người
nói Tại bài báo này, thuật toán nâng cao tiếng nói dựa vào
việc phân tích các gói wavelet và kết hợp với các kỹ thuật để
đạt được các ngưỡng nhiễu tốt hơn là được đề xuất để giảm
nhiễu trong tiếng nói
Có nhiều phương pháp đã được tiếp cận để thực hiện việc
giảm nhiễu cho việc nâng cao tiếng nói như: Thực hiện việc
phân tích tín hiệu nhiễu và nén nhiễu bị ảnh hưởng bởi nhiễu
Gaussian và nhiễu trong thực tế dùng bộ lọc hồi qui được đề
suất bởi Suman M và Khan H trong [1]; một kỹ thuật khác mà
McCallum M và Guillemin B muốn giới thiệu trong bài báo sô
[2] thuật toán Bayesian STSA đã dùng một mô hình tiếng nói
a stochastic – deterministic để làm một sự tiên đoán trước các
thông tin bằng việc xem xét non-zero mean Việc ước tiếng
nói tại các băng con tương đồng với sự giảm nhiễu thông qua
bày một thuật toán sẽ giúp tối thiểu hóa việc méo tiếng nói bị gây bởi nhiễu dư được đề cập trong [4] Trong khi đó, Kirubagari vaf Subathra là dùng sự kết hợp của phương pháp tối thiểu hóa sai số bình phương và bộ lọc trừ để nâng cao chất lượng tiếng nói đề cập trong [5] Phương pháp biến đổi Wavelet Dual tree complex được đề xuất bởi Tasmaz trong bài báo [6] Một kỹ thuật khác dựa trên Wavlet là Robust hybrid adaptive perceptual wavelet packet threshold được đề xuất bởi Jain B và được đề cập trong [7]
Trong bài báo này, một thuật toán được đề xuất dựa vào việc
sử dụng phân tích gói wavelet để hỗ trợ cho quá trình phân tích tín hiệu, các thuật toán ước lượng nhiễu cũng sẽ được sử dụng để xác định các ngưỡng tốt hơn và cuối cùng các thuật toán giảm nhiễu là được dùng để hoàn thành hệ thống nâng cao tín hiệu tiếng nói Sơ đồ của thuật toán đã đề xuất là được
mô tả trong hình 1.1 phía dưới:
Trang 2Hình 2.1: Mô hình nhiễu cộng
Bài báo này được chia thành năm phần Phân II sẽ nói về các
thuật toán giảm nhiễu trong miền tần số và việc cập nhật
nhiễu Các thuật toán trong miền wavelet được giới thiệu trong
phần III Kế tiếp, phần bốn sẽ cho chúng ta thấy các kết quả
của thí nghiệm Kết luận và các hướng nghiên cứu trong tương
lai được thể hiện ở phần V
II GIẢMNHIỄUTRONGMIỀNTẦNSỐ
Chủ đề nghiên cứu trong bài báo này là về nhiễu cộng Khi
nhìn vào hình 2.1, nhiễu trong tín hiệu tiếng nói y (n) nhận từ
microphone được tạo ra từ tín hiệu sạch x (n) đã được cộng
với nhiễu nền d (n):
A MMSE and Log-MMSE
Kết quả được đề xuất trong [2] là một trong nhiều nghiên cứu
chỉ ra rằng biên độ phổ trong thời gian ngắn có ảnh hưởng
mạnh đến chất lượng và tính dễ nghe của tiếng nói Bởi vậy,
một vài nhà nghiên cứu đã đề xuất các phương pháp optimal
non-linear để cải thiện phổ từ phổ tín hiệu nhiễu
a) Minimum Mean Sequare Error (MMSE)
Ước lượng phổ biên độ MMSE(Minimum Mean Square Error)
tối thiểu hóa sai số bình phương trung bình giữa biên độ thật
và biên độ ước lượng:
e (2.1)
Trong đó, Xˆk và X k là biên độ phổ ước lượng và phổ biên
độ thật của tín hiệu sạch tại tần sốk (chỉ số k dùng thay
k
để đơn giản trong ký hiệu)
Với các hàm mật độ xác suất:
)
1 exp ) (
1 )
,
|
k k d d
xk
k
) ( exp ) ( )
,
(
2
k
X k
X X
p
x k x
k xk
k (2.4)
Và áp dụng định lý Bayes ta có được ước lượng của phổ biên
độ tiếng nói tăng cường:
k k k k k k k
k
k
k
k
Y v I v v I v v v
Y
X
E
X
)]
2 ( ) 2 ( ) 1 )[(
2 exp(
2
]
|
[
ˆ
1
0
Trong đó, I0(.) và I1(.) là ký hiệu cho các hàm Bessel bậc 0 và
1 và k được định nghĩa như sau :
k
k
k k
1 (2.6)
Với k và k được định nghĩa như a priori SNR và a posteriori SNR:
2
2
) (
) ( ) (
) (
k
k d
x k
D E
X E k
k
(2.7)
2 2
) ( )
k d
k k
D E
Y k
Y
(2.8)
b) Log-MMSE
MMSE sẽ dàng thực hiện theo toán hoc nhưng nó không mang đến chúng ta ý nghĩa về việc cải thiện chất lượng của tiếng nói Lý do là vì tiếng nói có rất nhiều thành phần biên độ thấp nhưng mà các thành phần này đống vai trò quyết định chất lượng và độ dễ nghe của tiếng nói Do đó, Ephraim và Malah
đã đề xuất một phương pháp có ý nghĩa hơn đó là việc dùng Log- MMSE [8]:
e (2.9)
Khi đó,
k k
k k
K k k
Y dt t
t X
Y X E X
2
1 exp 1 ˆ
ln exp ˆ
(2.10)
B Các kỹ thuật ước lượng và cập nhật nhiễu a) Voice Activity Detection (VAD)
Nhiễu sẽ được ước lượng lúc ban đầu bằng cách lấy trung bình biên độ phổ của tín hiệu bị nhiễu:
0 ( )
1 )
i i
M
(2.11) Sau đó chúng ta sẽ thực hiện so sánh biên độ phổ của nhiễu được ước lượng với biên độ phổ của tín hiệu bị nhiễu: ( ) 0.9 ( 1) 0.1 ( )N i N i N i (2.12)
Nếu T12dB [9] thì frame đó không phải là frame có tiếng nói, khi đó ta có thể cập nhật lại nhiễu đã được ước lượng trước đó the công tức VAD thực hiện tốt trong môi trường nhiễu ổn định nhưng không tốt trong môi trường thực tế do đó
bộ lục percentile được để xuất để khắc phục nhược điểm trên
b) Percentile Filter
2
0 0 0
) , ( )
(
k xk k k k k k k
k
k
Trang 3Bộ lọc Percentile Filter [10] đã được đề xuất cho việc ước
lượng phổ của nhiễu trong miền tần số Thuật toán này sẽ
được thực hiện theo các bước sau:
Step 1 : Tại mỗi frame λ, tính Y( , ) k 2 của khung tiếng nói bị
nhiễu, hệ số làm mượt , và phổ công suất đã dược làm ( , )k
trơnP k( , )
2
(2.13) Trong đó:
max
1 ) ,1 ( ˆ ) ,1 ( 1
) ( )
,
(
k k
P
k
d
c
)
,
1
(
là ước lượng nhiễu tại khung 1
Step 2: Ước lượng nhiễu bằng Percentile Filter:
Gọi D is( )là giá trị tại mỗi vị trí trong N f frames lưu trữ bởi
bộ đêm b Trong khi đó i chỉ số chạy của các khung λ liên tiếp
có được trong bộ nhớ đệm b Thực hiện ước lượng percentile
mức nhiễu như sau:
- Sắp xếp D is( )theo thứ tự tăng dần qua toàn bộ đệm
thứ b để có D is( ')with i’= [1, 2, 3…Nf]
Xác định mức ngưỡng thích nghi T q b( )( )i bằng cách lấy phần
trăm q b( )th theo công thức: T q b( )( )i D i i s( ') | ' q b N( ) f
( )
q b được lựa chọn sao cho thích nghi với mỗi bộ đệm để đạt
được mức ước lượng tốt nhất Tiếp theo ( )q b được định nghĩa:
( ) 'q b i If ( ')D i s D i s( ' 4) (2.15)
Hệ số q=0.35 được chọn sau khi thực hiện các bước như trên
Giả sử rằng nhiễu không thay đổi nhanh bằng tiếng nói theo
thời gian, mức ngưỡng của nhiễu ước lượng theo phần trăm
được làm phẳng bằng cách áp dụng mô hình hồi qui bậc 1 với
hệ số α là 0.96:
T b)(i)T (b1)(i1)(1)T b)(i) (2.16)
III GIẢMNHIỄUDỰAVÀOPHẦNTÍCHGÓIWAVELET
A Phương pháp dùng bộ lọc wavelet thống kê có tính cảm
quan
Phương pháp này được đề xuất dựa trên việc phân tích tín hiệu
nhiễu của Wavelet Packet Decomposition khi đó các mức
số của nó bởi các thuật toán xác định ngưỡng, những ngưỡng sau khi ước lượng sẽ được dùng để nén các hệ số nhiễu của tất
cả các kênh của Wavelet Cuối cùng, tín hiệu đã xử lý sẽ được phục hồi bởi Wavelet Packet Recovery và nó có thể thực hiện như hình sau:
B Các thuật toán xác định ngưỡng
Hai phương pháp phổ biến sử dụng ngương wavelet là ngưỡng cứng và ngưỡng mềm Ngưỡng mềm sẽ nén các hệ số
a) Thuật toán xác định ngưỡng cứng
Thuật toán ngưỡng cứng thực hiện như biểu thức sau:
(3.1)
b) Thuật toán xác định ngưỡng mềm
Thuật toán ngưỡng mềm được định nghĩa như sau:
(3.2)
C Giảm nhiễu thích nghi theo µ - Law
Một thuật toán khác nhằm giảm nhiễu dựa trên Wavelet và nó được biết như một sự cải thiện của thuật toán ngưỡng cứng như hình 3.2 theo µ-law Qui luật của việc nén là được thể hiện bởi hàm posteriori k , i như sau:
1 ,
1 ) 1 ( ) ( sgn
1 ,
1
, ,
,
, ,
,
i k i
k i k i k i
k
i k i
k
if p
Y
if
(3.3) Trong đó:
i k
i k i k
p Y
,
, ,
) (
và áp dụng tham số k , i được định
2
1 ( )
1 ( 1, ) / ( , ) 1
(2.14)
Hình 3.1: Sơ đồ thuật toán của PSWF
Trang 4
i k
i k p i k i
i k i
k
p Y
,
~ ,
,
~ ,
~ ,
| ) (
| max } { max
exp
Trong đó, Hàm mũ exp tự thích nghi với chính nó bởi nhiễu
được làm trơn và chuẩn hóa k , i
~
với hằng số độ dốc 5 8
IV KẾTQUẢTHÍNGHIỆMVÀĐÁNHGIÁ
Các thuật toán trong miền wavelet và các thuật toán đã được
cải thiện trong miền tần số là được sử dụng để xử lý các tín
hiệu nhiễu, các tín hiệu nhiễu này cung được xây dựng trên cơ
sở dữ theo tiêu chuẩn IEEE Những mẫu tín hiệu tiếng nói này
sẽ được cộng vào các loại nhiễu khác nhau như CAR,
BABBLE, WHITE, STREET và TRAIN Hơn nữa, nhiều mức
nhiễu khác nhau sẽ cho ra kết quả chính xác hơn Những kết
quả này sẽ được đánh giá thông qua các phương pháp đánh giá
khách quan là PESQ và SegSNR, bởi vì những phương pháp
này có độ ổn định và tin cậy cao [11] nên được IEEE khuyến
cáo nên sử dụng để đánh giá các tín hiệu đã tăng cường
Những tín hiệu đã được tăng cường cũng được sử dụng đẻ hỗ
trợ cho việc đánh giá chủ quan với phương pháp Mean
Opinion Score (MOS)
A Kết quả đánh giá khách quan
Trong hình 4.1, kết quả của phương pháp PESQ đã cho thấy rằng các thuật toán trong miền tần số có kết quả tốt hơn các thuật toán trong miền wavelet Kết quả này thật sự ấn tượng với thuật toán NSS-PF Trong miền wavelet thì thuật toán Shrinking – UT – PF có một kết quả cũng tốt và nó cũng cho thấy hiệu quả hơn các thuật toán khác trong miền wavelet SoftTh – PF đã có một kết quả không như mong đợi khi nó được dùng để xử lý nhiễu trong môi trường nhiễu BABBLE
B Kết quả đánh giá chủ quan
Với biểu đồ hình 4.2, chúng ta có thể thấy rằng kết quả sau khi chúng ta thực hiện khảo sát để hoàn thành việc đánh giá chủ quan Chúng ta có thể có một cái nhìn tổng quát hơn khi nhìn vào biểu đồ này, kết quả chỉ ra rằng thuật toán Shrinking – UT – PF làm việc rất tốt và đạt kết quả tốt khi thuật toán này được dùng để xử lý tín hiệu nhiễu tại các môi trường nhiễu khác nhau mà chúng ta đang xét, đặc biệt là xử lý tốt với loại nhiễu WHITE Nếu chúng ta so sánh kết quả đánh giá giữa đánh giá khách quan và đánh giá chủ quan, chúng ta sẽ thấy chúng gần như có cùng kết quả ví dụ như kết quả của Shrinking – UT –
PF đạt được kết quả cao với tín hiệu nhiễu do BABBLE
Hình 4.1: Các thuậ toán nén nhiễu được đánh giá bởi PESQ
với môi trường nhiễu BABBLE
Hình 3.2: Đặc tuyên hàm nén nhiễu trong
miền wavelet
Hình 4.2: Biểu đồ so sánh khả năng xử lý nhiễu các thuật toán
với mức SNR – 5dB
Trang 5C So sánh kết quả đánh giá khách quan và chủ quan
Thông qua việc quan sát hình ảnh ở trên tại mức 5dB và so
sánh với biểu đồ phía dưới chúng ta có thể nhận ra được sự
tương đồng giữa đánh giá khách quan và đánh giá chủ quan
Đặc biệt, hình ảnh ở trên cho thấy các thuật toán trong miền
tần số như LogMMSE-PF và NSS-PF đã đạt được kết quả xử
lý tốt với nhiễu BABBLE, những thanh Error bar ở dưới của
những thuật toán này là khá tương đồng và trong biểu đồ phía
dưới chúng ta cũng thấy được kết quả tương tự Thuật toán
Shrinking – UT – PF (Optimal Shrinking) trong biểu đồ phía
dưới cho chúng ta thấy kết quả lớn nhất nhưng nó lại có sự
chênh lệch lớn bởi vậy kết quả này sẽ ít sự chính xác nhưng
cũng gần với kết quả đánh giá chủ quan
V KẾTLUẬN Với bài báo này, chúng tôi đã trình bày kết quả và đề xuất giải
pháp mới để cải thiện chất lượng tiếng nói dựa vào các
phương pháp ước lượng và giảm nhiễu phi tuyến tối ưu cả
trong miền tần số và miền wavelet Nội dung của sự nghiên
cứu này được tập trung vào việc nén nhiễu trong miền wavelet
với ngưỡng mềm and ngưỡng cứng Bên cạnh đó, những thuật
toán ước lượng như Percentile Filter được tích hợp vào bên
trong các hàm nén nhiễu để phát triển các thuật toán như:
NSS_PF, LogMMSE-PF, MMSE-PF, HardThr-PF,
SoftThr-câu thoại đã được cộng nhiễu ban đầu Sau đó tiến hành tính giá trị trung bình các chỉ số trên cơ sở 30 câu ứng với 4 mức SNR trong 5 môi trường nhiễu, bởi vậy chúng tôi có thể nói rằng kết quả kiểm tra của chúng tôi được đảm bảo Những thuật toán cũng được phân tích và so sánh hiệu suất của việc
xử lý trực tiếp bởi các phương pháp đánh giá khách quan như:
IS, CEP, LLR, WSS, PESQ và SNRseg Sự đánh giá đã cho thấy rằng các thuậ toán trong miền tần số như MMSE-PF cho chúng ta kết quả hay hiệu suất xử lý tốt với sự giảm nhiễu lớn nhất và trong miền Wavelet là thuật toán Shrinking – UT –PF cho chúng ta thấy được kết quả tốt hơn những thuật toán khác, đặc biệt là khi thuật toán này được dùng để xử lý nhiễu WHITE Hơn nữa, thuật toán này còn nén tốt hơn, ít tác động xấu đến tín hiệu như gây méo tín hiệu và đảm bảo được tính
dễ nghe của tín hiệu sau khi xử lý Trong tương lai chúng tôi vẫn muốn nghiên cứu sâu hơn để cải thiện hơn giải pháp này cho việc tối ưu hơn nữa khả năng nén nhiễu trong miền wavelet và tiếp tục so sánh với các thuật toán trong miền tần
số để đánh giá hiệu quả của việc nâng cao tín hiệu cho người nghe Chúng tôi cũng đã thực hiện việc đánh giá chủ quan và kết quả mà chúng tôi đạt được từ sự đánh giá này giúp cho chúng tôi tin rằng những phương pháp đánh giá khách quan như PESQ, SegSNR là đáng tin cậy bởi vậy chúng tôi hoàn toàn tin tưởng những phương pháp này khi sử dụng đánh giá trong thí nghiệm
LỜICÁMƠN Chúng tôi muốn gửi lời cám ơn đặc biệt đến PGS.TS Phạm Văn Tuấn và ThS Võ Thị Diệu Hanh Nghiên cứu này đã cho thấy những thách thức và khó khan khi thực hiện Tất cả chúng tôi thật sự không thể hoàn thành nghiên cứu này nếu không có sự giúp đỡ của họ
TÀILIỆUTHAMKHẢO [1] Suman, M ; K.L Univ., Guntur, India ; Khan,
H ; Latha, M.M ; Kumari, D.A “Performance analysis
of enhanced noisy compressed speech signal corrupted
by Gaussian and real world noise using recursive filter”,IEEE, p 340-348, Jan 2015
[2] Tasmaz, H.; Elektrik-Elektron Muhendisligi Bolumu, Adiyaman Univ Muhendislik Fak., Adyaman, Turkey,
“Dual tree complex wavelet transform based speech enhancement”, IEEE, p 823 – 826, May 2015
[3] Schasse, A.; Inst of Commun Acoust, Ruhr-Univ Bochum, Bochum, Germany; Martin, R., “Estimation
of Subband Speech Correlations for Noise Reduction via MVDR Processing”, IEEE, p 1355 – 1365, July
2014
Hình 4.3: Biểu đồ so sánh khả năng xử lý nhiễu và sự
tương đồng của 2 phương pháp đánh giá tại SNR – 5dB
Trang 6China ; Yi Liu, “A novel perceptual distortion
minimization speech enhancement algorithm”, IEEE, p
1- 6, July 2014
[5] Kirubagari, B.; Dept of Comput Sci & Eng.,
Annamalai Univ., Annamalai Nagar, India ; Palanivel,
S ; Subathra, N., “Speech enhancement using
minimum mean square error filter and spectral
subtraction filter”, IEEE, p 1 – 7, Feb 2014
[6] McCallum, M.; Dept of Electr & Comput Eng., Univ
of Auckland, Auckland, New Zealand; Guillemin, B
“Stochastic-Deterministic MMSE STFT Speech
Enhancement with General A Priori Information”,
IEEE, p 1445 – 1457, July 2013
[7] Jain, B.; Poornima Coll of Eng., Sitapura,
India; Bansal, A.K., “Robust hybrid adaptive
perceptual wavelet packet threshold to enhance speech
in adverse noisy environment”, IEEE, p 1 – 6, May
2014
[8] Bensty J., Jingdong Chen and Yiteng Arden Huang,
‘Noise Reduction Algorithms in a Generalizaed
Transform Domain”, IEEE Transaction on Audio,
Speech, and Language Processing, vol.17, No.6, 2009
[9] Steven F.Boll,“Suppression of Acoustic Noise in
Speech Using Spectral Subtraction”,IEEE, p 113 – 120,
Jan 2003
[10] Pham T.V., Gernot Kubin, Erhard Rank, "Robust Speech Recognition Using Adaptive Noise Threshold Estimation and Wavelet Shrinkage", Proc IEEE ICCE, Hoi an, Vietnam, p 04-06, Feb 2008
[11] Hu Y and Loizou P.C., “Evaluation of Objective Quality Measures for Speech Enhancement”, IEEE, p
229 -238, Jan 2008
[12] Cohen I., “Speech enhancement using a noncausal a Priori SNR estimator”, IEEE Signal Processing Letters, vol 11, no.9, pp 725-728, Sept 2004
[13] Singh, S.; Dept of Electr Eng., Indian Inst of Technol Roorkee, Roorkee, India; Tripathy, M ; Anand, R.S.,
“A fuzzy mask based on wavelet packet for improving speech quality and intelligibility”, IEEE, p 1 – 4, Feb
2014
[14] Pham T.V., Gernot Kubin, "WPD-based Noise Suppression Using Nonlinearly Weighted Threshold Quantile Estimation and Optimal Wavelet Shrinking", Proc Interspeech, Lisboa, Portugal, p 4-8, Sep 2005 [15] Zhang Jie; Coll of Electron & Inf Eng., Tongji Univ., Shanghai, China ; Xiaoqun Zhao ; Jingyun Xu ; Zhang Yang, “Suitability of speech quality evaluation measures in speech enhancement”, IEEE, p 22-26, July
2014