GIẢI PHÁP GIẢM NHIỄU TRONG MIỀN WAVELET ĐỂ NÂNG CAO HIỆU SUẤT NHẬN DẠNG TIẾNG NÓI TỰ ĐỘNG

GIẢI PHÁP GIẢM NHIỄU TRONG MIỀN WAVELET ĐỂ NÂNG CAO HIỆU SUẤT NHẬN DẠNG TIẾNG NÓI TỰ ĐỘNG GIẢI PHÁP GIẢM NHIỄU TRONG MIỀN WAVELET ĐỂ NÂNG CAO HIỆU SUẤT NHẬN DẠNG TIẾNG NÓI TỰ ĐỘNG GIẢI PHÁP GIẢM NHIỄU TRONG MIỀN WAVELET ĐỂ NÂNG CAO HIỆU SUẤT NHẬN DẠNG TIẾNG NÓI TỰ ĐỘNG

Trang 1

GIẢI PHÁP GIẢM NHIỄU TRONG MIỀN WAVELET ĐỂ NÂNG CAO

HIỆU SUẤT NHẬN DẠNG TIẾNG NÓI TỰ ĐỘNG

A WAVELET-BASED NOISE REDUCTION APPROACH FOR ROBUST

AUTOMATIC SPEECH RECOGNITION

Phạm Văn Tuấn, Hoàng Lê Uyên Thục

Trường Đại học Bách khoa, Đại học Đà Nẵng

TÓM TẮT

Công nghệ xử lý tiếng nói hiện đại là chuyên ngành liên quan tới nhiều lĩnh vực khác nhau, là sự tích hợp của các kỹ thuật phân tích, mã hóa, tổng hợp, nhận dạng và truyền tiếng nói trong môi trường thực Tất cả những lĩnh vực trên đòi hỏi các thuật toán phải có sự ổn định cao đối với môi trường nhiễu âm học, một vấn đề đầy thách thức cho thông tin thoại trong môi trường thực Bài báo này trình bày nghiên cứu về phương pháp giảm nhiễu (NR) mới trong miền Wavelet Bằng cách tích hợp thuật toán NR vào trong các khối front-ends trong hệ thống nhận dạng tiếng nói tự động (ASR), hiệu suất nhận dạng đã được cải thiện rõ rệt trong môi trường có nhiễu

ABSTRACT

Modern speech processing technology is the interdisciplinary subject of dealing with a complex integrated system consisting of speech analysis, coding, synthesis, recognition and transmission in realistic environments All addressed topics make robustness to acoustic background noise highly challenging in speech communications In this paper, these challenges are studied by novel Wavelet-based noise reduction (NR) methods By integrating the NR algorithms into front-end units of an Automatic Speech Recognition (ASR) engine, we realize that recognition performance is significantly improved in noisy environments

1 Giới thiệu

Như là một phần của hệ thống thông tin người-máy, có thể thấy mục tiêu của hệ ASR là chuyển nội dung ngôn ngữ của tiếng nói sang từ hay câu Đề tài được quan tâm nhiều nhất trong lĩnh vực này trong những năm qua là nâng cao hiệu suất cho hệ thống ASR trong môi trường có nhiễu Hệ thống ASR đang thử nghiệm hiện nay có tỷ lệ lỗi trung bình khoảng 5% đến 10% Tuy nhiên, khả năng nhận dạng tiếng nói bị giảm đột ngột trong môi trường có nhiễu mạnh, môi trường này làm tiếng nói bị méo đi nhiều Một hệ thống ASR hiệu suất cao phải là một hệ thống có thể nhận dạng tiếng nói chính xác trong môi trường có nhiều nguồn nhiễu khác nhau và rất phức tạp như ngoài đường,

Trang 2

Hình 1 Giải pháp giảm nhiễu để nâng cao tính ổn định của ASR

Kể từ thập kỷ qua, nhiều phương pháp đã được đề xuất và nghiên cứu để cải

thiện hiệu suất nhận dạng của ASR trong những môi trường nhiễu khắc nghiệt Có thể

chia ra ba hướng giải pháp: thích nghi mô hình âm học, trích thuộc tính âm học bền

vững đối với nhiễu, giảm nhiễu ở khối tiền xử lý Có thể xem giảm nhiễu như là phương

pháp hiệu quả đối với các hệ thống ASR Như chỉ ra trong hình 1, chất lượng của tiếng

nói thu âm phải được tăng cường trong giai đoạn tiền xử lý, để đảm bảo trích ra được

các thông tin đặc trưng, theo đó khả năng nhận dạng trong các hệ thống ASR sẽ được

tăng lên Hướng nghiên cứu này đã và đang được thực hiện trong dự án AURORA3 [1]

về nhận dạng tiếng nói trong môi trường xe cộ, và dự án European SNOW [2] nghiên

cứu về hệ thống ASR trong môi trường nhiễu trong phân xưởng, kiểm tra nhiễu do máy

bay gây ra Nguồn nhiễu không trắng và không ổn định là thách thức lớn trong hầu hết

các kỹ thuật nén nhiễu

Nội dung bài báo được cấu trúc như sau: Phần II trình bày phương pháp nén

nhiễu trong miền Wavelet với thuật toán đề xuất PSWF Phần tiếp theo mô tả ứng dụng

của thuật toán giảm nhiễu PSWF để tăng hiệu suất nhận dạng của ASR Các kết quả thí

nghiệm được đánh giá và phân tích Phần kết luận kết thúc bài báo

2 Giải thuật nén nhiễu trong miền Wavelet

2.1 Mô hình nhiễu cộng

Tín hiệu sạch x(n) bị gây méo bởi nhiễu cộng d(n) và tạo ra tín hiệu bị nhiễu:

Do tính tuyến tính của biến đổi Wavelet (WT) nên mô hình nhiễu cộng được duy

trì trong miền Wavelet:

Trong đó, và mô tả các chuỗi hệ số gói Wavelet của các

tín hiệu bị nhiễu, tín hiệu sạch và tín hiệu nhiễu tương ứng được tính tại tỷ lệ thứ m th

cho frame thứ i th (k = 1, 2, 3, …2 m) Trong nghiên cứu này, phân tích gói Wavelet nhị

phân (WPD) thực hiện tại tỷ lệ phân tích m = 7 (từ đây về cuối bài báo, chỉ số m được

loại bỏ để đơn giản hóa các biến)

Trang 3

Giải pháp khử nhiễu Wavelet được xem như là phương pháp ước lượng thống kê

không có tham số Nguyên lý thực hiện dựa trên việc định ngưỡng hoặc nén các hệ số

Wavelet mà giá trị của chúng thấp hơn ngưỡng nhiễu Việc chọn ngưỡng sẽ tác động

đến sự làm trơn hoặc làm cho khớp với tín hiệu được khử nhiễu Cụ thể là ngưỡng giá

trị nhỏ sẽ dẫn đến sự khử nhiễu nhẹ và hệ quả là nhiễu còn tồn đọng nhiều sau xử lý

Ngược lại ngưỡng với giá trị lớn hơn sẽ nén nhiều hệ số Wavelet dẫn đến làm trơn tín

hiệu nhưng cũng đồng thời làm suy hao các thành phần unvoiced (ví dụ âm /s/) của

tiếng nói và gây méo tín hiệu tiếng nói sau khi khử nhiễu Trong công bố [3], Dono đã

đề xuất công thức tính ngưỡng nhiễu Universal Threshold dựa trên nguyên tắc tối thiểu

hóa hàm rủi ro (risk function) giữa tín hiệu sạch mong muốn và tín hiệu được khử

nhiễu:

(3) Trong đó E{.} là toán tử trung bình thống kê, là hệ số đã được cải thiện

Với giả thiết về tính trực giao của biến đổi Wavelet và phân bố nhiễu iid với phương sai

, Universal Threshold tỷ lệ thuận với độ lệch chuẩn và chiều dài N của chuỗi hệ số

Wavelet Để ước lượng tốt nhiễu màu, UT được tính toán cho mỗi gói Wavelet độc lập

tại mỗi frame ith:

Trong đó là ước lượng bền vững của độ lệch chuẩn

bằng cách tính median absolute deviation (MAD) của chuỗi các hệ số

3 Hàm nén nhiễu thích nghi

Kỹ thuật khử nhiễu trong miền wavelet xuất phát từ nguyên tắc: mỗi hệ số

wavelet đóng góp vào mức nhiễu với phương sai là , nhưng chỉ có một vài số hệ số

wavelet ảnh hưởng tới tín hiệu [3] Điều này cho phép thay thế các hệ số nhiễu bằng

zero Các quyết định cứng và quyết định mềm được đề xuất trong [3] là các hàm khử

nhiễu khá đơn giản nhưng chưa tối ưu Trong bài báo này, chúng tôi sử dụng một hàm

wavelet nén nhiễu được cải tiến mà về bản chất chính là hàm quyết định cứng được làm

trơn theo cơ sở luật µ Quy tắc nén được thể hiện bởi hàm ước lượng sau (posteriori

function) của tỷ số tín hiệu trên ngưỡng được phân đoạn trước như sau:

Ở đây và thông số thích nghi được định nghĩa trong [3] như

Trang 4

(6) Trong đó, phần mũ exp tự thích nghi với chính nó bởi ngưỡng nhiễu được làm

trơn và chuẩn hóa với hằng số độ dốc Kỹ thuật nén theo luật µ biểu diễn

một sự thỏa hiệp giữa ngưỡng quyết định cứng và ngưỡng quyết định mềm Trong khi

hàm ngưỡng cứng có phương sai lớn hơn nhưng bias nhỏ hơn thì hàm ngưỡng mềm có

bias lớn hơn và phương sai nhỏ hơn Nói cách khác, ngưỡng cứng có xu hướng giữ dạng

gốc của tín hiệu, còn ngưỡng mềm có xu hướng làm mịn tín hiệu hơn [4] Một ưu điểm

lớn của nén luật µ so với các luật khác là nó không thiết lập tất cả hoặc một phần của

các hệ số wavelet, mà trị tuyệt đối của các hệ số này đều thấp dưới ngưỡng, về bằng 0

như được thực hiện bởi ngưỡng quyết định cứng hoặc mềm

4 Đề xuất thuật toán giảm nhiễu mới

Trong nghiên cứu này, chúng tôi cải tiến phương pháp giảm nhiễu Wavelet đề

xuất trong [5] bởi thuật toán lọc Wavelet thống kê có tính cảm quan (Perceptually

Statistical Wavelet Filtering – PSWF) với sơ đồ khối trong hình 2:

Hình 2 Sơ đồ khối của thuật toán được đề xuất PSWF

Trước hết, ngưỡng được tính từ các hệ số Wavelet tại mỗi gói Sau đó

ngưỡng nhiễu cảm quan được tính cho mỗi critical wavelet subband (CWS) thông

qua bộ ánh xạ ngưỡng Kỹ thuật lọc percentile thống kê được áp dụng tiếp theo để ước

lượng ngưỡng nhiễu percentile cho mỗi CWS một cách thích nghi Các ngưỡng đã

được ước lượng này lại tiếp tục được tinh chỉnh bởi sự trọng số hóa trong miền thời gian

và miền tần số Cuối cùng, sau khi qua bộ ánh xạ ngược ngưỡng từ CWS sang toàn bộ

các băng con tương ứng các gói phân tích Wavelet, các ngưỡng này được đưa vào

hàm nén nhiễu thích nghi để khử nhiễu các hệ số Wavelet Các mẫu tiếng nói được khôi

phục bởi phép khôi phục gói Wavelet (WPR)

4.1 Ánh xạ ngưỡng giác quan

Để nâng cao sự chính xác khi ước lượng nhiễu, chúng tôi đề xuất giải pháp ước

lượng ngưỡng nhiễu cảm quan Thay vì sử dụng tất cả các ngưỡng UT ước lượng từ tất

Trang 5

Tùy theo đặc tính của tần số trung tâm và critical bandwidth tương ứng [6], có xấp xỉ 17

CWS cho băng thông tín hiệu 4kHz (băng thông của tín hiệu tiếng nói được xem xét

trong nghiên cứu này) Ngưỡng nhiễu cảm quan của mỗi critical subband j, tại frame

thứ i th được ước lượng:

(7) Trong đó là thứ tự của các gói Wavelet Với module ánh xạ này, độ

phức tạp của hệ thống được giảm xuống dáng kể do chỉ phải thực hiện lọc percentile

thích nghi và hàm trọng số miền thời gian-tần số (được trình bày trong phần tiếp theo)

trên 17 critical subbands

4.2 Kỹ thuật lọc percentile thích nghi

Do các ngưỡng UT tính theo (4) được ước lượng cục bộ tại mỗi gói Wavelet tại

mỗi frame thứ i th, đặc điểm động thay đổi theo thời gian của tiếng nói và nhiễu đã

không được xem xét đến Do đó, chúng tôi đề xuất ứng dụng thuật toán lọc percentile

thống kê [5] để dò tìm mức nhiễu động tại mỗi khung tiếng nói Cơ sở của kỹ thuật này

dựa trên quan sát thật là thong tin thoại không luôn xuất hiện tại tất cả kênh tần số cùng

một lúc, kể cả trong khoảng chỉ có tín hiệu thoại Do đó, mức nhiễu tại môi kênh có thể

được ước lượng bởi percentile q th trong một khoảng thời gian ngắn (bộ đệm dài 1 giây)

của tín hiệu như sau:

- Sắp xếp các giá trị ngưỡng nhiễu cảm quan từ N f frames của bộ đệm p th

theo giá trị tăng dần để có được với

- Xác định ngưỡng nhiễu thích nghi bằng cách lấy percentile thứ q th như sau:

Trong đó, hệ số percentile đã chuẩn hóa được chọn là q = 0.2 cho ra kết quả ước

lượng nhiễu tốt nhất trong nghiên cứu này

4.3 Trọng số hóa trong miền thời gian và tần số

Với giả thiết rằng nhiễu không thể bị thay đổi quá nhanh so với tín hiệu tiếng nói,

ngưỡng nhiễu lại được tiếp tục làm trơn bởi mô hình đệ quy bậc 1:

(8)

Do ngưỡng UT không xem xét đến sự tương quan giữa các hệ số Wavelet ở các

gói khác nhau nên chúng tôi thiết kế thêm hàm trọng số miền tần số để tăng

cường độ nén cho các ngưỡng lớn và qua đó giam bớt nhiễu Đồng thời, một hàm

trọng số miền thời gian được xây dựng để bám chính xác hơn thông tin thoại và

Trang 6

nhiễu Các frame với ngưỡng nhỏ hơn có thể là kết quả ước lượng của nhiễu nên sẽ

được nén mạnh hơn và ngược lại:

(9)

lựa để đạt được hiệu suất nhận dạng từ cao nhất (khi tích hợp thuật toán PSWF vào

ASR)

5 Đánh giá kết quả thực nghiệm

Thuật toán PSWF được tích hợp vào tầng tiền xử lý của khối front-end của hệ

thống nhận dạng tiếng nói HTK [7] Trong nghiên cứu này, khối Standard front-end

(SFE) [8] và khối Advanced front-end (AFE) [9] lần lượt được kết hợp với bộ nhận

dạng HTK Các mô hình âm học left-to-right với 16 trạng thái cho 1 từ và một tổ hợp 3

phân bố Gaussians cho mỗi trạng thái được huấn luyện cho bộ nhận dạng này Chúng

tôi thực hiện các bài tests trên cơ sở dữ liệu AURORA3 SpeechDat Car corpus gồm các

chuỗi chữ số được ghi âm với một mic đặt gần (close talking mic) và một mic để ở xa

(hands-free mic) trong xe hơi chạy ở các điều kiện khác nhau Hiệu quả của thuật toán

PSWF được đánh giá thông qua hiệu suất nhận dạng từ và được so sánh với các giải

pháp khử nhiễu khác như phương pháp WPDe [5], bộ lọc Wiener 2 tầng (2sWF) của

AFE [9] và thuật toán trừ phổ đề xuất bởi Ephraim and Malah (EMSS) [10] Hai chế độ

kiểm tra khác nhau được thực hiện gồm: có (with – wi.) và không có (without – wo.)

huấn luyện lại mô hình âm học Bên cạnh đó, để đánh giá tính hiệu quả của việc tích

hợp bộ NR vào trong ASR, 3 điều kiện về phân bố cơ sở dữ liệu training-test đều được

xem xét như: high-mismatch – hm (dữ liệu audio sạch được ùng trong pha training và

dữ liệu audio bị nhiễu được nhận dạng trong pha testing); medium mismatch – mm và

well-match – wm

Trong lần test thư nhất,

thuật toán PSWF được sử dụng

tại tầng tiền xử lý bộ front-ends

của hệ thống nhận dạng đã được

huấn luyện Kết quả trong bảng 1

cho thấy tỷ lệ nhận dạng từ

(Word Recognition Rate - WRR)

tăng từ 66.70% lên đến 73.13%

và độ chính xác từ (Word

Accuracy - WAC) tăng từ

63.23% lên đến 70.77% cho bộ

SFE Tuy nhiên, khi dùng AFE,

WRR và WAC giảm từ 89.78% xuống còn 86.63% và 89.45% xuống còn 68.87%

Chúng tôi cho rằng sự suy giảm hiệu suất này là do quá trình khử nhiễu kép bởi PSWF

Bảng 1 Hiệu suất nhận dạng trong điều kiện hm

Trang 7

Với lần test thứ hai, mô hình âm học của bộ HTK được huấn luyện lại trên cơ sở

dữ liệu audio huấn luyện đã được xử lý bởi thuật toán PSWF Chúng tôi lập lại các bước như lần test thứ nhất Bằng cách thay thế 2sWF bởi PSWF cho AFE trong pha training, WRR đạt được gần giống nhau (89.45% so với 89.78%) và WAC bị giảm đi chút ít Tuy nhiên, khi áp dụng cho SFE, WRR và WAC được tăng lên rất nhiều: từ 66.70% lên 77.71% và từ 63.23% lên đến

76.73% Ngoài ra, hiệu suất nhận

dạng cũng được tăng lên đáng kể

so với khi dùng các giải thuật

giảm nhiễu khác

Ở lần test thứ ba, các điều

kiện test mm và wm được thực

hiện với kết quả trình bày trong

bảng 2 Rõ ràng là việc áp dụng

thuật toán giảm nhiễu vào tầng

tiền xử lý chỉ có ý nghĩa trong

điều kiện hm Chúng tôi quan sát thấy rằng WRR được cải thiện đến 11.01% cho điều

kiện hm trong khi sự gia tăng này là thấp hơn trong các điều kiện mm và wm, 3.44% và 2.43% Thêm vào đó, chúng tôi nhận thấy việc huấn luyện lại mô hình âm học rất tùy thuộc vào điều kiện mismatch về dữ liệu giữa pha huấn luyện và pha kiểm thử mà không phụ thuộc vào front-end

6 Kết luận

Phương pháp giảm nhiễu mới dựa trên hàm nén wavelet thống kê trong miền cảm quan PSWF và ứng dụng của nó cho hệ thống nhận dạng được trình bày trong bài báo Kết quả chỉ ra rằng, bằng cách tích hợp thuật toán PSWF vào tầng tiền xử lý của khối front-end của bộ nhận dạng, tính ổn định của hệ thống nhận dạng trong môi trường nhiễu sẽ được cải thiện đáng kể Kết quả cho thấy, bằng cách huấn luyện lại mô hình âm học dùng dữ liệu huấn luyện audio đã được xử lý cải thiện bởi thuật toán PSWF, chúng

ta đạt được tỷ lệ nhận dạng tương tự với tiêu chuẩn AFE ETSI 202 050 và sự cải thiện đáng kể khi sử dụng tiêu chuẩn SFE ETSI 201 108 Kết quả này cho thấy giải thuật PSWF được đề xuất có tính hiệu quả ngang với các phương pháp giảm nhiễu đã được tiêu chuẩn hóa

Do sự phân bố thông tin thoại tại các kênh tần số khác nhau là không đồng nhất,

bộ lọc percentile với hệ số phần trăm thích nghi cho mỗi kênh tại mỗi thời điểm cần

Bảng 2 Hiệu suất nhận dạng cho điều kiện mm, wm

Trang 8

TÀI LIỆU THAM KHẢO

[1] “AURORA Project Database - Subset of SpeechDat-Car German database (AURORA/CD0003-03),” Evaluations and Language resources Distribution Agency, Tech Rep., 2001

[2] “Services for NOmadic Workers (snow),” Strategic Targeted Research Project in the 6th Frame Program of the European Union, FP6-511587 [Online] Available:

[3] D L Donoho and I M Johnstone, “Adapting to unknown smoothness via wavelet

shrinkage,” Journal of the American Statistical Association, vol 90, no 432, pp

1200–1224, 1995

[4] A G Bruce and H Gao, “Understanding WaveShrink: Variance and bias

estimation,” Biometrika, vol 83, pp 727–745, 1996

[5] E Rank, T V Pham, and G Kubin, “Noise suppression based on wavelet packet decomposition and quantile quantile noise estimation for robust automatic speech

recognition,” in Proc ICASSP, vol 1, 2006, pp 477–480

[6] E Zwicker and E Terhardt, “Analytical expression for critical band rate and

critical bandwidth as a function of frequency,” Journal of the Acoustical Society of

America, vol 68, pp 1523–1525, 1980

[7] S Young and et al., The HTK Book (for HTK Version 3.3) Microsoft Corporation-Cambridge University, Engineering Department, Cambridge University, 2005 http://htk.eng.cam.ac.uk/

[8] ETSI ES 201 108 V1.1.1 Speech Processing, Transmission and Quality Aspects (STQ), Distributed speech recognition, Front-end feature extraction algorithm, Compression algorithms, ETSI, 2000

[9] ETSI ES 202 050 V1.1.3 Speech Processing, Transmission and Quality Aspects (STQ), Distributed speech recognition, Advanced front-end feature extraction algorithm, Compression algorithms, ETSI, 2003

[10] Y Ephraim and D Malah, “Speech enhancement using a minimum mean-square

error short-time spectral amplitude estimator,” IEEE Trans Acoustics, Speech, and

Signal Processing, vol 32, pp 1109–1121, 1984

Định dạng
Số trang	8
Dung lượng	805,35 KB