1. Trang chủ
  2. » Kỹ Thuật - Công Nghệ

Đánh giá hiệu quả cập nhật nhiễu trực tuyến trong các thuật toán nâng cao chất lượng tiếng nói

4 5 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 4
Dung lượng 533,83 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Bài viết ực hiện khảo sát và đánh giá hiệu quả của việc cập nhật nhiễu trực tuyến theo thời gian trong các thuật toán nâng cao chất lượng tiếng nói. Việc khảo sát và đánh giá được thực hiện cho ba dạng thuật toán chính là: thuật toán dựa trên mô hình thống kê; thuật toán không gian con (subspace); thuật toán trừ phổ. Bên cạnh đó, bài báo cũng đề xuất phương pháp chọn giá trị ngưỡng quyết định tín hiệu phù hợp với mỗi ứng dụng cụ thể. Mời các bạn cùng tham khảo!

Trang 1

Đánh Giá Hiệu Quả Cập Nhật Nhiễu Trực Tuyến Trong Các Thuật Toán Nâng Cao Chất Lượng Tiếng Nói

Đào Văn Lân, Hoàng Văn Phúc và Vũ Hỏa Tiễn

Trường Đại học Kỹ thuật Lê Quý Đôn, 236 Hoàng Quốc Việt, Hà Nội, Việt Nam Email: kqha1025@gmail.com, phuchv@mta.edu.vn, hoatien57@yahoo.com

Tóm tắt – ực hiện kh o sát và

đ ệu qu của việc cập nhật nhiễu trực tuyến theo thời

gian trong các thuật toán nâng cao chấ lượng tiếng nói Việc

kh s v đ được thực hiện cho ba dạng thuật toán

chính là: thuật toán dựa trên mô hình thống kê; thuật toán không

gian con (subspace); thuật toán trừ phổ Bên cạ đ

ũ đề xuấ p ươ p p chọn giá trị ưỡng quyế định tín

hiệu phù hợp với mỗi ứng dụng cụ thể

Từ khóa- Speech enhancement, statistical model based methods,

subspace algorithms, spectral-subtractive algorithms

I GIỚI THIỆU Hiện nay, có rất nhiều nghiên cứu liên quan đến việc xử lý

tiếng nói ứng dụng trong nhận dạng con người, nhận dạng nội

dung tiếng nói, chuyển tiếng nói sang văn bản, chuyển từ tiếng

nói sang tiếng nói như các tài liệu - đ đề cập

Hình là sơ đồ khối tổng quát của các ứng dụng xử lý số

tín hiệu tiếng nói Sau khi chuyển đổi từ tương tự sang số

(ADC), tín hiệu đ u vào bao gồm cả tín hiệu có ích (tiếng nói)

và nhiễu từ nhiều nguồn khác nhau (như tiếng ô tô, xe máy,

tiếng ồn tại nhà máy… ) Vì thế tất cả các ứng dụng đều sử

dụng khối tiền xử lý, nhằm nâng cao chất lượng tiếng nói trước

khi áp dụng các thuật toán ứng dụng cụ thể Trong khối tiền xử

lý việc cập nhật nhiễu (noise update) có ý nghĩa rất quan

trọng, ảnh hưởng đến chất lượng của các thuật toán nâng cao

chất lượng tiếng nói

K ố ề xử lý

â a ấ

lượ ế

í ệu v

( ế , ễu)

N ậ dạ ườ

N ậ dạ ộ du

ế

C u ể ừ ế

sa vă

C u ể ế

sa ế

……. í ệu a

Hình 1 Sơ đồ tổng quát ứng dụng xử lý số tín hiệu tiếng nói

Mục đích chính của bài báo này là khảo sát đánh giá hiệu

quả của việc cập nhật nhiễu trực tuyến đối với các thuật toán

nâng cao chất lượng tiếng nói trong khối tiền xử lý nâng cao

chất lượng tiếng nói như được mô tả trong hình 1 Nội dung

tiếp theo của bài báo, trong ph n tác giả sẽ giới thiệu qui tắc

cập nhật nhiễu trực tuyến và kết quả thực nghiệm Đánh giá

hiệu quả nhiễu trực tuyến được mô tả trong ph n III Cuối cùng

ph n V là nh ng kết luận

II QUY TẮC CẬP NHẬT NHIỄU TRỰC TUYẾN Trong các tài liệu [1, 3, 4, 7, 15, 6 đ đưa ra một số phương pháp cập nhật nhiễu theo thời gian trong các thuật toán

xử lý nâng cao chất lượng tiếng nói

Cập nhật nhiễu trực tuyến là phương pháp thực hiện liên tục việc cập nhật phổ của nhiễu trong các chu kỳ trích mẫu song song với việc thực hiện các thuật toán xử lý tín hiệu tiếng nói Căn cứ để thực hiện việc cập nhật nhiễu trực tuyến là phát hiện

tiếng nói (VAD: Voice Activity Detection) để cập nhật phổ

nhiễu trong các khoảng chu kỳ không có tiếng nói

Trong các thuật toán dựa trên mô hình thống kê [1], vấn đề đặt ra trong việc nâng cao chất lượng tiếng nói là phải đề ra được khung mô tả mang tính thống kê, là một tập các phép đo tương ứng với hệ chuyển đổi Fourier của tín hiệu nhiễu và chúng ta mong muốn tìm ra được một phương pháp ước lượng tuyến tính hoặc phi tuyến với các tham số có lợi đó là hệ chuyển đổi tín hiệu sạch

Quy luật cập nhật nhiễu trực tuyến đối với các thuật toán dựa trên mô hình thống kê [1, 2, 8, 9, 5 được quyết định bởi các công thức (1) và (2)

1

0

1 1

1 N log H

k k

H

 (1)

Với

k

k k k

 exp 1 1

1

) 1 ( ) )

1 ( ) (i   Y2 iD i

Trong đó γ k , ξ k tương ứng với tỷ số tín hiệu/nhiễu (SNR) tiên nghiệm và hậu nghiệm [15]

N là số điểm thực hiện thuật toán FFT

H 1là giả thiết rằng tín hiệu đ u vào gồm tín hiệu có ích là

tiếng nói, còn H 0 là giả thiết rằng tín hiệu đ u vào chỉ có nhiễu

δ là giá trị ngưỡng quyết định tín hiệu vào chỉ có nhiễu hay

gồm cả tín hiệu có ích

Trang 2

2( )

k

Y i là công suất phổ của tín hiệu gồm cả tiếng nói và

nhiễu

β là hằng số làm mịn (smoothing constant) chọn trong dải

(0<β<1) và ở đây giá trị được chọn (trừ trường hợp của phương

pháp trừ phổ) là β = 0,98.

Thuật toán nâng cao chất lượng tiếng nói theo phương pháp

trừ phổ [1] dựa trên nguyên lý sau: giả sử tín hiệu nhiễu có

dạng cộng tính, ta có thể ước lượng được phổ của tín hiệu sạch

bằng cách trừ ước lượng phổ của tiếng nói có nhiễu cho ước

lượng phổ của nhiễu Phổ của nhiễu có thể được ước lượng và

cập nhật trong các khoảng thời gian không có tiếng nói

Quy luật cập nhật nhiễu trực tuyến lớp các thuật toán trừ

phổ được quyết định theo các công thức (3) và (4) trong các tài

liệu tham khảo [1,17]

2

( ) (dB) 10log

( )

i

i

e i

b k

b i k

Y SNR

D

(3)

(i) (i 1) (1 ) Y(i)

Riêng với thuật toán trừ phổ, giá trị β được chọn là 0,9.

Lớp các thuật toán không gian con là phương pháp chủ

yếu dựa trên lý thuyết đại số tuyến tính Hơn n a, các thuật

toán này dựa trên giả thiết là tín hiệu sạch có thể được giới hạn

trong một không gian con của không gian nhiễu Euclid Vì vậy,

phương pháp này phân tách không gian vector của tín hiệu có

nhiễu thành không gian con chứa chủ yếu là tín hiệu sạch bằng

cách bỏ qua các thành ph n của vector nhiễu ở trong không

gian con nhiễu

Với lớp các thuật toán không gian con (subspace), quy luật

cập nhật nhiễu trực tuyến [1, 16, 18, 9 được quyết định bởi

các công thức (5) và (6)

(1,1)

;

(1,1)

y

n

R

 (5)

(1 ).R

R   R    (6)

Với R y , R x , R ntương ứng là ma trận hiệp phương sai của tín

hiệu có nhiễu, tín hiệu sạch, nhiễu

Trong thuật toán không gian con, giá trị β được chọn là

0,98

III THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ

D liệu phục vụ khảo sát và đánh giá kết quả trong bài báo

này được lấy trên cơ sở tham khảo [1,6], theo đó tín hiệu tiếng

nói sạch trong một file tiếng nói (“sp04.wav”) và tín hiệu có

(“sp04_babble_sn10.wav”)

Tiêu chí để đánh giá chất lượng của các thuật toán nâng cao chất lượng tiếng nói theo [1, 5] gồm độ méo tín hiệu tiếng nói (SIG), nền nhiễu (BAK) và hiệu ứng tổng thể (OVL)

Trong bài báo này tác giả đề xuất phương pháp tìm giá trị

tối ưu của δ từ thực nghiệm theo các bước sau:

Bước 1: Khảo sát và đánh giá từng thuật toán nâng cao chất

lượng tiếng nói với các giá trị δ khác nhau theo các tiêu chí ở

các bảng 1-3

Bước 2: Từ bước 1, chọn giá trị δ cho kết quả ứng với các

tiêu chí tốt nhất

Bảng 1 Hệ số độ méo của tín hiệu (SIG)

5 Rất tự nhiên, không có suy hao

4 Khá tự nhiên, mức suy hao rất nhỏ

3 Ít tự nhiên, mức suy hao nhỏ

2 Khá tự nhiên, khá suy hao

1 Rất không tự nhiên và mức suy hao lớn Bảng 2 Hệ số nền nhiễu (BAK)

3 Có thể nhận ra nhưng khó chịu

2 Tương đối dễ nhận ra tương đối khó chịu

1 Rất dễ nhận ra, rất khó chịu Bảng 3 Hiệu ứng tổng thể (OVL)

Trong số các thuật toán nâng cao chất lượng tiếng nói dựa trên mô hình thống kê tác giả chọn các thuật toán SE log SE log SE SPU trình bày trong để khảo sát với

các giá trị δ khác nhau Trong đó SE (minimum

mean-square-error) là thuật toán tối ưu theo sai số trung bình bình phương nhỏ nhất, logMMSE (MMSE log-spectral amplitude estimator) là thuật toán logarithm ước lượng biên độ phổ theo tối ưu sai số trung bình bình phương nhỏ nhất, logMMSE_SPU (logMMSE under signal presence uncertainty) là thuật toán dựa trên thuật toán logMMSE khi không chắc chắn có tín hiệu tiếng nói Kết quả khảo sát thể hiện trên các hình 2-4

Trang 3

Từ kết quả khảo sát thực nghiệm trên các hình 2-4 cho thấy,

đối với các thuật toán nâng cao chất lượng tiếng nói dựa trên

mô hình thống kê, khi δ = 0,9, cho hiệu quả nâng cao chất

lượng tiếng nói tốt nhất theo các tiêu chí SIG, BAK, OVL theo

các bảng 1-3

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

2.5

2.6

2.7

2.8

2.9

3

3.1

3.2

3.3

3.4

3.5 §å thÞ kh¶o s¸t thuËt to¸n n©ng cao chÊt l- îng tiÕng nãi MMSE theo delta

delta

SIG BAK OVL

Hình 2 ết quả khảo sát chất lượng thuật toán MMSE theo δ

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

2.6

2.7

2.8

2.9

3

3.1

3.2

3.3

3.4

3.5 §å thÞ kh¶o s¸t thuËt to¸n n©ng cao chÊt l- îng tiÕng nãi LogMMSE theo delta

delta

SIG BAK OVL

Hình 3 ết quả khảo sát chất lượng thuật toán LogMMSE theo δ.

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

2.5

2.6

2.7

2.8

2.9

3

3.1

3.2

3.3§å thÞ kh¶o s¸t thuËt to¸n n©ng cao chÊt l- îng tiÕng nãi LogMMSE-SPU theo delta

delta

SIG BAK OVL

Hình 4 ết quả khảo sát chất lượng thuật toán LogMMSE-SPU theo δ.

Kết quả khảo sát thuật toán nâng cao chất lượng tiếng nói

trừ phổ với các giá trị δ khác nhau thể hiện trên hình 5 Từ

nh ng kết quả đó ta rút ra nhận xét là đối với thuật toán trừ phổ

thì giá trị δ=5,5 cho hiệu quả nâng cao chất lượng tiếng nói là

tốt nhất theo cả ba tiêu chí đ dẫn ra trong các bảng 1-3

Khi khảo sát thuật toán nâng cao chất lượng tiếng nói

không gian con với các giá trị δ khác nhau ta nhận được kết quả như trên hình 6 Từ đó ta thấy với giá trị δ=1 thì kết quả

của thuật toán nâng cao chất lượng tiếng nói không gian con tốt nhất theo cả ba tiêu chí đ nêu

1.8 2 2.2 2.4 2.6 2.8 3 3.2 3.4 3.6 §å thÞ kh¶o s¸t thuËt to¸n n©ng cao chÊt l- îng tiÕng nãi trõ phæ theo delta

delta

SIG BAK OVL

Hình 5 Đồ thị khảo sát chất lượng thuật toán trừ phổ theo δ.

2.5 2.6 2.7 2.8 2.9 3 3.1 3.2 3.3 3.4§å thÞ kh¶o s¸t thuËt to¸n n©ng cao chÊt l- îng tiÕng nãi kh«ng gian con theo delta

delta

SIG BAK OVL

Hình 6 Đồ thị khảo sát chất lượng thuật toán không gian con theo δ

IV KẾT LUẬN Trong bài báo này nhóm tác giả đ thực hiện nghiên cứu, khảo sát và đánh giá hiệu quả của các thuật toán nâng cao chất lượng tiếng nói sử dụng phương pháp cập nhật nhiễu trực tuyến Ngoài ra bài báo cũng đề xuất phương pháp lựa chọn

giá trị δ phù hợp trên cơ sở đánh giá các tiêu chí S và

OVL, để các thuật toán đạt được hiệu quả thực thi cao nhất

Trang 4

Trong các nghiên cứu tiếp theo nhóm tác giả sẽ tiến hành

hiện thực hóa các thuật toán nâng cao chất lượng tiếng nói cập

nhật nhiễu trực tuyến này vào các ứng dụng, cụ thể như nhận

dạng tiếng nói có tính tới các đặc điểm của tiếng Việt

TÀI LIỆU THAM KHẢO

[1] Philipos C.Loizou, Speech enhancement: theory and practice, second

edition, Publisher of Engineering and Environmental Sciences CRC

Press, Baco Raton, Florida, 2013

[2] Yang Lu; P.C Loizou, “Speech enhancement by combining statistical

estimators of speech and noise,” 2010 IEEE International Conference on

Acoustics Speech and Signal Processing (ICASSP), vol., no.,

pp.4754-4757, March 2010

[3] Dubey, Rajesh Kumar; Kumar, Arun, “Comparison of subjective and

objective speech quality assessment for different degradation / noise

conditions,” 2015 International Conference on Signal Processing and

Communication (ICSC), vol., no., pp.261-266, March 2015

[4] Yi Hu; Loizou, P.C., “Subjective Comparison of Speech Enhancement

Algorithms,” 2006 IEEE International Conference on Acoustics, Speech

and Signal Processing, 2006 ICASSP 2006 Proceedings, vol.1, May

2006

[5] TU “Perceptual evaluation of speech quality (PESQ) and objective

method for end-to-end speech quality assessment of narrowband

telephone networks and speech codecs ” TU-T Recommendation 862,

2000

[6] Speech noise reference database:

http://ecs.utdallas.edu/loizou/speech/noizeus

[7] Kisoo Kwon; Jong Won Shin; Sonowat, S.; Inkyu Choi; Nam Soo Kim,

“Speech enhancement combining statistical models and NMF with

update of speech and noise bases,” 2014 IEEE International Conference

on Acoustics, Speech and Signal Processing (ICASSP), pp.7053-7057,

May 2014

[8] Y Ephraim, “Statistical-model-based speech enhancement systems,”

Proceedings of the IEEE , vol.80, no.10, pp.1526-1555, Oct 1992

[9] Y Ephraim and D alah “Speech enhancement using a minimum

mean-square error log-spectral amplitude estimator ” EEE Trans

Acoust Speech Signal Processing, vol ASSP-33, pp 443-445, Apr

1985

[10] Mitra, V.; Franco, H.; Graciarena, M.; Vergyri, D., “Medium-duration

modulation cepstral feature for robust speech recognition,” 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp.1749-1753, May 2014

[11] Sultana, R.; Palit, R., “A survey on Bengali speech-to-text recognition

techniques,” 2014 9th International Forum on Strategic Technology (IFOST), pp.26-29, Oct 2014

[12] M.P Admane, R Jasutkar, “Speech to text and accelerometer based smart phone interaction system,” 2014 International Conference on Information Communication and Embedded Systems (ICICES), pp.1-4,

Feb 2014

[13] Faizullah Ansari, M.D.; Shaji, R.S.; SivaKarthick, T.J.; Vivek, S.; Aravind, A., “Multilingual speech to speech translation system in

bluetooth environment,” 2014 International Conference on Control, Instrumentation, Communication and Computational Technologies (ICCICCT), pp.1055-1058, Jul 2014

[14] Seung Yun; Young-Jik Lee; Sang-Hun Kim, “Multilingual

speech-to-speech translation system for mobile consumer devices,” IEEE Transactions on Consumer Electronics, vol.60, no.3, pp.508-516, Aug

2014

[15] Jongseo Sohn; Nam Soo Kim; Wonyong Sung, “A statistical

model-based voice activity detection,” IEEE Signal Processing Letters, vol.6,

no.1, pp.1-3, Jan 1999

[16] Mittal, U.; Phamdo, N., “Signal/noise KLT based approach for

enhancing speech degraded by colored noise,” IEEE Transactions on Speech and Audio Processing, vol.8, no.2, pp.159-167, Mar 2000

[17] Berouti, M.; Schwartz, R.; Makhoul, J., “Enhancement of speech corrupted by acoustic noise,” IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP '79), vol.4,

pp.208-211, Apr 1979

[18] Yi Hu; Loizou, P.C., “A generalized subspace approach for enhancing speech corrupted by colored noise,” IEEE Transactions on Speech and Audio Processing, vol.11, no.4, pp.334-341, Jul 2003

[19] Yi Hu; Loizou, P.C., “A subspace approach for enhancing speech corrupted by colored noise,” 2002 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), vol.1,

pp.I-573-I-576, May 2002

[20] Yi Hu; P.C Loizou, “Speech enhancement based on wavelet thresholding the multitaper spectrum,” IEEE Transactions on Speech and Audio Processing, vol.12, no.1, pp.59-67, Jan 2004

Ngày đăng: 27/04/2022, 10:07

HÌNH ẢNH LIÊN QUAN

Hình 1. Sơ đồ tổng quát ứng dụng xử lý số tín hiệu tiếng nói. - Đánh giá hiệu quả cập nhật nhiễu trực tuyến trong các thuật toán nâng cao chất lượng tiếng nói
Hình 1. Sơ đồ tổng quát ứng dụng xử lý số tín hiệu tiếng nói (Trang 1)
Hình là sơ đồ khối tổng quát của các ứng dụng xử lý số - Đánh giá hiệu quả cập nhật nhiễu trực tuyến trong các thuật toán nâng cao chất lượng tiếng nói
Hình l à sơ đồ khối tổng quát của các ứng dụng xử lý số (Trang 1)
Bảng 2. Hệ số nền nhiễu (BAK). - Đánh giá hiệu quả cập nhật nhiễu trực tuyến trong các thuật toán nâng cao chất lượng tiếng nói
Bảng 2. Hệ số nền nhiễu (BAK) (Trang 2)
Bảng 3. Hiệu ứng tổng thể (OVL). - Đánh giá hiệu quả cập nhật nhiễu trực tuyến trong các thuật toán nâng cao chất lượng tiếng nói
Bảng 3. Hiệu ứng tổng thể (OVL) (Trang 2)
Bảng 1. Hệ số độ méo của tín hiệu (SIG). - Đánh giá hiệu quả cập nhật nhiễu trực tuyến trong các thuật toán nâng cao chất lượng tiếng nói
Bảng 1. Hệ số độ méo của tín hiệu (SIG) (Trang 2)
III. THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ Dliệu phục vụkh ảo sát và đánh giá kết quả trong bài báo  - Đánh giá hiệu quả cập nhật nhiễu trực tuyến trong các thuật toán nâng cao chất lượng tiếng nói
li ệu phục vụkh ảo sát và đánh giá kết quả trong bài báo (Trang 2)

TỪ KHÓA LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm