Lựa chọn phương pháp nhận dạng bền vững với nhiễu của môi trường...21 CHƯƠNG 2: PHƯƠNG PHÁP THÍCH NGHI MÔ HÌNH CỦA HỆ THỐNG NHẬN DẠNG TIẾNG NÓI DÙNG CHUỖI TAYLOR VECTOR TAYLOR SERIES -
Trang 1- NGUYỄN THỊ ANH XUÂN
Nghiên cứu hệ thống nhận dạng bền vững tiếng nói - Ứng dụng trong nhận dạng từ khóa tiếng Việt
Chuyên ngành : Đo lường và các hệ thống điều khiển
LUẬN VĂN THẠC SĨ KHOA HỌC :
ĐO LƯỜNG
NGƯỜI HƯỚNG DẪN KHOA HỌC :
Hà Nội, 2010
Trang 2Trần Thị Anh Xuân i
MỤC LỤC……… i
LỜI CAM ĐOAN iv
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT vi
DANH MỤC CÁC BẢNG vii
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ viii
MỞ ĐẦU 1
CHƯƠNG 1: CƠ SỞ LÝ THUYẾT 3
1.1.Mô hình hệ thống tự động nhận dạng tiếng nói 3
1.2 Các vấn đề tồn tại trong hệ thống nhận dạng tiếng nói hiện nay 6
1.2.1 Các vấn đề tồn tại 6
1.2.2 Hướng giải quyết 7
1.3 Một số phương pháp nâng cao chất lượng nhận dạng tiếng nói 8
1.3.1 Các phương pháp lọc nhiễu tín hiệu tiếng nói đầu vào 8
1.3.2 Các phương pháp biến đổi chuẩn hóa đặc trưng tín hiệu tiếng nói 12
1.3.3 Mô hình nhận dạng thích nghi với môi trường 14
1.4 Lựa chọn phương pháp nhận dạng bền vững với nhiễu của môi trường 21
CHƯƠNG 2: PHƯƠNG PHÁP THÍCH NGHI MÔ HÌNH CỦA HỆ THỐNG NHẬN DẠNG TIẾNG NÓI DÙNG CHUỖI TAYLOR (VECTOR TAYLOR SERIES - VTS) 27
2.1 Ý tưởng và sơ đồ khối của phương pháp VTS 27
2.2 Thuật toán cập nhật lại Mean và Variance mô hình của hệ thống nhận dạng tiếng nói 28
2.3 Cập nhật lại Mean và Variance của nhiễu và kênh truyền 31
2.3.1 Cập nhật lại Mean của kênh truyền 32
Trang 3Trần Thị Anh Xuân ii
2.3.2 Cập nhật lại Mean và Variance của nhiễu 32
2.4 Lưu đồ thuật toán 35
CHƯƠNG 3: TRIỂN KHAI THUẬT TOÁN VTS 37
3.1 Những khó khăn trong quá trình triển khai thuật toán 37
3.2 Tổng quan về Sphinx 38
3.3 Cách tích hợp thuật toán VTS vào hệ thống Sphinx 40
3.3.1 Cấu trúc chung của một module trong Sphinx 40
3.3.2 Xây dựng module về thuật toán VTS 42
3.4 Ứng dụng thuật toán VTS trong bài toán nhận dạng tiếng nói chữ số tiếng Việt 45
3.4.1 Cơ sở dữ liệu 45
3.4.2 Xây dựng mô hình nhận dạng 47
3.4.3 Chạy thử nghiệm và đánh giá kết quả của thuật toán ở thử nghiệm 1 50
3.5 Xây dựng chương trình mô phỏng thuật toán HMM + VTS 55
3.5.1 Giao diện của chương trình mô phỏng 56
3.5.2 Cách sử dụng chương trình mô phỏng 56
CHƯƠNG 4: ỨNG DỤNG TRONG NHẬN DẠNG TỪ KHÓA 58
4.1 Khái niệm về nhận dạng từ khóa 58
4.2 Mô hình của hệ thống nhận dạng từ khóa 58
4.3 Các phương pháp nhận dạng từ khóa 61
4.3.1 Xây dựng mô hình dựa trên kinh nghiệm và hiểu biết về mặt âm học tiếng nói 61
4.3.2 Xây dựng mô hình dựa trên hệ thống nhận dạng từ điển lớn 61
4.3.3 Xây dựng mô hình cho các nhóm từ bổ sung 62
Trang 4Trần Thị Anh Xuân iii
4.4 Ứng dụng thuật toán VTS trong bài toán nhận dạng từ khóa tiếng Việt 62
4.4.1 Cơ sở dữ liệu 62
4.4.2 Xây dựng mô hình nhận dạng 63
4.4.3 Chạy thử nghiệm và đánh giá kết quả của thuật toán ở thử nghiệm 2 64
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 66
TÀI LIỆU THAM KHẢO 67
Trang 5Trần Thị Anh Xuân iv
LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi, dưới sự hướng dẫn trực tiếp của TS.Nguyễn Quốc Cường – Đại học Bách Khoa Hà Nội.Các số liệu, kết quả nghiên cứu trình bày trong luận văn là trung thực và chưa từng được ai công bố trong bất kỳ một công trình nghiên cứu nào khác
Học viên
Trần Thị Anh Xuân
Trang 6Trần Thị Anh Xuân v
LỜI CẢM ƠN
Tác giả xin chân thành cảm ơn TS.Nguyễn Quốc Cường đã tận tình chỉ bảo, hướng dẫn, giúp đỡ và tạo mọi điều kiện trong suốt thời gian tác giả nghiên cứu để hoàn thành luận văn
Tác giả cũng xin chân thành cảm ơn ban lãnh đạo và các anh chị tại trung tâm MICA – Đại học Bách Khoa Hà Nội đã tạo mọi điều kiện cho tác giả trong suốt thời gian thực tập hoàn thành luận văn
Trang 7Trần Thị Anh Xuân vi
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
Các ký hiệu, các chữ viết tắt được sử dụng trong luận văn: CMN : Cepstral Mean Normalization
CMVN : Cepstral Mean and Variance Normalization HMM : Hidden Markov Models
MFCC : Mel-Frequency Cepstrum Coefficients MLLR : Maximum Likelihood Linear Regression PMC : Parallel Model Combination
VTS : Vector Taylor Series
WAcc : Word Accuracy
WER : Word Error Rate
Trang 8Trần Thị Anh Xuân vii
DANH MỤC CÁC BẢNG Bảng 1: Tỷ lệ nhận dạng đúng của PMC và VTS trong môi trường có nhiễu 21
Bảng 2: Tỷ lệ nhận dạng đúng của PMC và VTS trong môi trường có ồn trắng 22
Bảng 3: Tỷ lệ nhận dạng đúng của PMC và VTS trong môi trường có nhiễu pink 22
Bảng 4: Tỷ lệ nhận dạng đúng của PMC và VTS trong môi trường có nhiễu 23
công nghiệp 23
Bảng 5: Tỷ lệ lỗi trung bình của phương pháp PMC và MLLR,1 24
Bảng 6: Tỷ lệ lỗi trung bình của phương pháp PMC và MLLR, 2 24
Bảng 7: Tỷ lệ nhận dạng đúng của VTS và MLLR trong môi trường có nhiễu thuộc nhóm A: a, VTS; b, MLLR 25
Bảng 8: Tỷ lệ nhận dạng đúng của VTS và MLLR trong môi trường có nhiễu thuộc nhóm B: a, VTS; b, MLLR 26
Bảng 9: WER của hệ thống nhận dạng với HMM sạch ở thử nghiệm 1 51
Bảng 10: WER của hệ thống nhận dạng với HMM + VTS ở thử nghiệm 1 51
Bảng 11: WER của HMM sạch và HMM+VTS ở SNR =0dB, ở thử nghiệm 2 64
Trang 9
Trần Thị Anh Xuân viii
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1: Sơ đồ quá trình huấn luyện 3
Hình 2: Sơ đồ hệ thống tự động nhận dạng tiếng nói 3
Hình 3: Sơ đồ khối của thuật toán nâng cao chất lượng tiếng nói sử dụng 10
phương pháp trừ phổ 10
Hình 4: Mô hình tiếng nói trong môi trường có nhiễu 12
Hình 5: Mô hình của phương pháp PMC 20
Hình 6: Sơ đồ khối hệ thống nhận dạng có áp dụng phương pháp VTS i
Hình 7: Mô hình của tiếng nói trong môi trường có nhiễu 28
Hình 8: Sơ đồ lưu đồ thuật toán thích nghi mô hình HMM dùng xấp xỉ Taylor 37
Hình 9: Mô hình hệ thống nhận dạng từ khóa không áp dụng thuật toán VTS 48
Hình 10: Mô hình hệ thống nhận dạng từ khóa áp dụng thuật toán VTS 48
Hình 11: Sơ đồ khối phân tích đặc trưng MFCC của tín hiệu tiếng nói 49
Hình 12: Đồ thị kết quả nhận dạng của HMM sạch và HMM+VTS ở SNR = 0dB ở thử nghiệm 1 53
Hình 13: Đồ thị kết quả nhận dạng của HMM sạch và HMM+VTS ở SNR = 5dB ở thử nghiệm 1 53
Hình 14: Đồ thị kết quả nhận dạng của HMM sạch và HMM+VTS ở SNR = 10dB ở thử nghiệm 1 54
Hình 15: Đồ thị kết quả nhận dạng của HMM sạch và HMM+VTS ở SNR = 15dB ở thử nghiệm 1 54
Hình 16: Giao diện chương trình mô phỏng thuật toán VTS 56
Hình 17: Sơ đồ nhận dạng tiếng nói chung 60
Hình 18: Mô hình ngôn ngữ sử dụng trong nhận dạng từ khóa 60
Hình 19: Đồ thị kết quả nhận dạng của HMM sạch và HMM+VTS ở SNR = 0dB ở thử nghiệm 2 65
Trang 10Trần Thị Anh Xuân 1
MỞ ĐẦU
Lý do chọn đề tài
• Cơ sở khoa học:
Nhận dạng tiếng nói là lĩnh vực nghiên cứu đuợc bắt đầu từ những năm 1960
và hiện nay vẫn đang được nghiên cứu tại các phòng thí nghiệm trên thế giới Nhận dạng tiếng nói bao gồm: xử lý tín hiệu tiếng nói và kỹ thuật nhận dạng
• Cơ sở thực tiễn:
Các hệ thống tự động nhận dạng tiếng nói có những ứng dụng rất tích cực vào đời sống của con người Các hệ thống này góp phần làm “thông minh hóa” cuộc sống của chúng ta, như điều khiển các thiết bị điện-điện tử bằng tiếng nói: ti vi, điều hòa nhiệt độ,…,nhập các thông tin bằng tiếng nói, và đặc biệt có vai trò quan trọng trong các trường hợp điều khiển khi mà hai tay của người vận hành đều bận
Do vậy, việc nâng cao chất lượng của hệ thống nhận dạng tiếng nói là rất cần
thiết Đó chính là lý do quan trọng để tôi chọn đề tài “Nghiên cứu hệ thống nhận
dạng bền vững tiếng nói – Ứng dụng trong nhận dạng từ khóa tiếng Việt” làm luận
văn thạc sỹ của mình
Lịch sử nghiên cứu
Các phương pháp bền vững tiếng nói được nghiên cứu từ khoảng cách đây 10 năm, nhưng các phương pháp này mới được nghiên cứu và phát triển vào trong các
hệ thống nhận dạng tiếng nói ở Việt Nam trong mấy năm gần đây
Mục đích nghiên cứu của luận văn
Nghiên cứu và lựa chọn ra phương pháp nhận dạng tiếng nói bền vững với
nhiễu để cải thiện chất lượng nhận dạng tiếng nói so với mô hình hệ thống nhận dạng được huấn luyện bởi bộ dữ liệu sạch
Trang 11Trần Thị Anh Xuân 2
Các đóng góp mới
Ứng dụng phương pháp bền vững với nhiễu vào hệ thống nhận dạng tiếng Việt Đây là lĩnh vực chưa được nghiên cứu tại Việt Nam
Phương pháp nghiên cứu:
Đầu tiên nghiên cứu lý thuyết, và triển khai thuật toán trên Matlab Sau đó triển khai thuật toán bằng ngôn ngữ C và tích hợp vào hệ thống nhận dạng tiếng nói Sphinx3 để đánh giá chất lượng của thuật toán
Hệ thống nhận dạng được xây dựng bằng mô hình Markov ẩn HMM kết hợp với phương pháp thích nghi với nhiễu
Cấu trúc luận văn:
Tác giả chia luận văn gồm các phần sau:
Mở đầu
Chương 1: Cơ sở lý thuyết
Chương 2: Phương pháp thích nghi mô hình của hệ thống nhận dạng tiếng nói dùng chuỗi Taylor (Vector Taylor Series - VTS)
Chương 3: Triển khai thuật toán
Chương 4: Ứng dụng trong nhận dạng từ khóa
Và do thuật toán thích nghi với nhiễu chỉ tác động đến mô hình âm học của hệ
thống nhận dạng, nên trong mô hình nhận dạng của hai thử nghiệm trên tác giả chỉ
sử dụng mô hình âm học, không sử dụng mô hình ngôn ngữ.
Trang 12Trần Thị Anh Xuân 3
CHƯƠNG 1: CƠ SỞ LÝ THUYẾT
1.1.Mô hình hệ thống tự động nhận dạng tiếng nói
Hình 1: Sơ đồ quá trình huấn luyện
huấn luyện càng lớn thì khả năng nhận dạng của mô hình sẽ càng cao
Giải mã (Decoding)
Mô hình ngôn ngữ
Trích chọn đặc trưng
Huấn luyện
Tín hiệu
tiếng nói
Trích chọn đặc trưng
Mô hình
âm học
Từ điển
phiên âm
Trang 13Trần Thị Anh Xuân 4
Quá trình trích chọn đặc trưng tiếng nói
Quá trình này nhằm giảm kích thước (dung lượng thông tin) của tiếng nói đầu vào và lấy ra các thông tin có ích về tín hiệu tiếng nói Tiếng nói được phân tích theo các khung thời gian được gọi là frame Kết quả của giai đoạn này là các vector đặc tính của mỗi khung tín hiệu tiếng nói
Có nhiều phương pháp trích chọn đặc trưng tiếng nói như MFCC, LPC, PLP,…Trong đó, phương pháp MFCC là được dùng phổ biến hiện nay
MFCC là phương pháp phân tích đặc trưng tín hiệu tiếng nói dựa trên sự cảm nhận của tai người đối với các dải tần số khác nhau Với tần số thấp (< 1000Hz), độ cảm nhận của tai người là tuyến tính với tần số Đối với các tần số cao, độ cảm nhận của tai người là biến thiên theo hàm logarit
Người ta chọn tần số 1kHz, 40dB trên ngưỡng nghe là 1000 Mel Công thức gần đúng biểu diễn quan hệ tần số ở thang Mel và thang Hz như sau:
(1)Một phương pháp để chuyển đổi sang thang Mel là sử dụng băng lọc, trong đó mỗi bộ lọc có đáp ứng tần số dạng tam giác Các băng lọc tuyến tính ở tần số thấp
và biến thiên theo hàm số logarit ở tần số cao
Phương pháp huấn luyện mô hình và giải mã (decoding) câu tiếng nói
Một phương pháp kinh điển được sử dụng trong hệ thống nhận dạng tiếng nói đó
là mô hình Markov ẩn HMM [1]
Mô hình Markov ẩn là phương pháp mô hình hóa cấu trúc động của tiếng nói Phương pháp này là hướng tiếp cận đối sánh mẫu xác suất, với giả định rằng ở đó các mẫu tiếng nói tuần tự theo thời gian là kết quả của quá trình thống kê, và các kết quả này có thể ước lượng
Các thành phần cơ bản của mô hình Markov ẩn:
Trang 14Trần Thị Anh Xuân 5
1 Số lượng trạng thái của mô hình N: Ký hiệu trạng thái ở thời điểm t
là
2 Số lượng quan sát phân biệt M Ký hiệu tập quan sát là V =
3 Ma trận phân phối xác suất chuyển trạng thái A = , trong đó a ijlà xác suất chuyển từ trạng thái i ở thời điểm t sang trạng thái j ở thời điểm t+1
a ij = P ( ) với
Với điều kiện:
4 Ma trận phân phối xác suất phát ra một quan sát ở một trạng thái B = , trong đó là xác suất nhận được quan sát ở trạng thái j:
với
Với điều kiện:
5 Ma trận phân phối trạng thái ban đầu: , trong đó là xác suất của mô hình ở trạng thái i tại thời điểm ban đầu t=1:
Với điều kiện:
Mô hình Markov ẩn được ký hiệu như sau:
Ý tưởng của quá trình nhận dạng với mô hình Markov ẩn:
Cho chuỗi quan sát O = và mô hình , làm sao ta chọn được một chuỗi quan sát tương ứng phù hợp nhất
Ý tưởng của quá trình huấn luyện với mô hình Markov ẩn: Làm thế nào để điều
chỉnh tham số mô hình để mô tả tốt nhất sự xuất hiện của mỗi chuỗi quan sát, nghĩa là tìm max P(O|λ)
Trang 151 Ảnh hưởng của nhiễu làm sai lệch tín hiệu tiếng nói
2 Sự không phù hợp giữa tập dữ liệu luyện (môi trường luyện) và dữ liệu kiểm tra (môi trường kiểm tra)
3 Môi trường truyền khác nhau (microphone khác nhau)
…
c Các chỉ tiêu đánh giá chất lượng hệ thống nhận dạng
Khi thiết kế hệ thống tự động nhận dạng tiếng nói, các yếu tố có tính chất quyết định tính khả thi của hệ thống đó là:
1 Chất lượng nhận dạng tiếng nói
Chất lượng của hệ thống nhận dạng tiếng nói thường được đánh giá dựa trên tỷ lệ lỗi từ Hệ thống nhận dạng tiếng nói có tỷ lệ lỗi từ càng thấp là hệ thống nhận dạng tiếng nói càng chính xác
Công thức xác định tỷ lệ lỗi Word Error Rate (WER) như sau:
(2)Trong đó:
S là số lượng từ bị thay thế
I là số lượng từ bị them vào
Trang 162 Thời gian nhận dạng tiếng nói
d Bài toán đặt ra với hệ thống tự động nhận dạng tiếng nói
Bài toán: Xây dựng hệ thống nhận dạng tiếng nói có thể hoạt động được trong môi trường có nhiễu
Muốn tăng chất lượng của hệ thống tự động nhận dạng tiếng nói, chúng ta cần
áp dùng rất nhiều thuật toán phức tạp vào trong quá trình trích đặc trưng tiếng nói hoặc quá trình cập nhật lại bộ tham số mô hình Markov Điều này dẫn đến khối lượng tính toán tăng, thời gian xử lý tăng, và do đó thời gian nhận dạng tăng lên, trong nhiều trường hợp có thể phá vỡ tính thời gian thực của hệ thống tự động nhận dạng tiếng nói online
Vì vậy, vấn đề đặt ra đối với hệ thống tự động nhận dạng tiếng nói, đó là bài toán dung hòa giữa vấn đề nâng cao chất lượng nhận dạng tiếng nói và thời gian nhận dạng tiếng nói
1.2.2 Hướng giải quyết
Để giải quyết bài toán đặt ra của hệ thống nhận dạng tiếng nói trên, chúng ta tích hợp các phương pháp thích nghi với nhiễu vào trong hệ thống tự động nhận dạng tiếng nói, trong đó:
• Vẫn sử dụng mô hình Markov ẩn HMM trong hệ thống nhận dạng tiếng nói
• Khâu thích nghi với nhiễu sẽ được tích hợp vào trong quá trình giải mã
Trang 17Trần Thị Anh Xuân 8
1.3 Một số phương pháp nâng cao chất lượng nhận dạng tiếng nói
Các hệ thống nhận dạng tiếng nói thường được huấn luyện trong môi trường phòng thí nghiệm (được coi là môi trường sạch), do đó sẽ bỏ qua rất nhiều yếu tố môi trường thực có thể tác động đến tín hiệu tiếng nói Điều này làm cho chất lượng
hệ thống nhận dạng tiếng nói sẽ giảm trong môi trường thực và thay đổi ở các môi trường khác nhau
Một phương án giải quyết đó là, với mỗi một môi trường ứng dụng khác nhau, chúng ta sẽ xây dựng lại một hệ thống nhận dạng tương ứng, với tập dữ liệu luyện được thu âm tại chính môi trường đó Phương án này mặc dù có thể sẽ cải thiện chất lượng của hệ thống nhận dạng, nhưng mất nhiều thời gian và công sức Mặt khác phương pháp này chỉ áp dụng được với một môi trường cụ thể với điều kiện môi trường đó ít có những biến động đột biến, vì khi có những tác động đột biến vào tiếng nói cần nhận dạng, mà điều này không xuất hiện trong tập dữ liệu luyện thì sẽ làm tăng tỷ lệ lỗi của hệ thống nhận dạng tiếng nói
Phương án khả thi hơn, áp dụng các phương pháp nhận dạng bền vững với nhiễu vào hệ thống nhận dạng tiếng nói, nhờ đó cùng một hệ thống nhận dạng tiếng nói có thể ứng dụng vào các môi trường khác nhau mà chất lượng nhận dạng của hệ thống được cải thiện
Một số phương pháp nhận dạng tiếng nói bền vững với nhiễu:
1 Lọc nhiễu tín hiệu tiếng nói đầu vào
2 Biến đổi chuẩn hóa đặc trưng tín hiệu tiếng nói về dạng phù hợp với đặc trưng tín hiệu tiếng nói sạch hoặc về các dạng ít chịu ảnh hưởng của nhiễu hơn
3 Mô hình nhận dạng thích nghi với môi trường
…
1.3.1 Các phương pháp lọc nhiễu tín hiệu tiếng nói đầu vào
Một số phương pháp lọc nhiễu kinh điển tín hiệu tiếng nói đầu vào:
• Phương pháp trừ phổ
• Phương pháp ước lượng cực tiểu hóa trung bình bình phương sai lệch
Trang 181.3.1.1 Phương pháp trừ phổ
a Ý tưởng của phương pháp
Theo phương pháp trừ phổ [11][12] thì nếu gọi , , lần lượt là phổ biên độ của tín hiệu tiếng nói có nhiễu, tiếng nói gốc và nhiễu Giả thiết rằng pha của tiếng nói có nhiễu và pha của tiếng nói là giống nhau, tiếng nói và nhiễu là độc lập với nhau thì ta có Trong đó k là chỉ số trong miền tần số, l là chỉ số khung dữ liệu, h là cửa sổ phân tích Hamming có chiều dài L, L-M là lượng
dữ liệu ở hai khung kế tiếp chồng lên nhau Tín hiệu trước khi được biến đổi Fourier thì được phân vào các khung dữ liệu xếp chồng lên nhau và nhân thường
với hàm cửa sổ Hamming h
Giả sử như nhiễu đã biết thì có thể xác định được tín hiệu tiếng nói gốc đơn giản như sau:
(4)
Sử dụng phép biến đổi Fourier ngược cùng với hàm cửa sổ tổng hợp chúng
ta thu được ước lượng tín hiệu tiếng nói sạch có dạng:
Mô hình chung của phương pháp được khái quát hóa như sau:
Trang 19Trần Thị Anh Xuân 10
Hình 3: Sơ đồ khối của thuật toán nâng cao chất lượng tiếng nói sử dụng
phương pháp trừ phổ Trong phương pháp trừ phổ thì nhiễu giả thiết là đã biết hoặc là được ước lượng bằng phổ biên độ trung bình của L khung dữ liệu đầu Thường chọn L = 6 trong trường hợp tín hiệu tiếng nói được lấy mẫu với tần số là 8kHz Chiều dài khung dữ liệu được chọn là 20ms Hàm cửa sổ được chọn ở đây là hàm cửa sổ Hamming Tín hiệu sau khi được phân thành các khung dữ liệu nhỏ sẽ được nhân thường với hàm của sổ Hamming để tính biến đổi Furier Phổ biên độ của tín hiệu tiếng nói sạch sẽ được tính bằng hiệu của phổ biên độ tiếng nói có nhiễu trừ đi phổ biên độ của nhiễu Phổ pha của tín hiệu tiếng nói sạch được lựa chọn là phổ pha của tín hiệu tiếng nói có nhiễu do phổ pha coi như là không đổi [13] Tiếng nói được khôi phục từ phổ biên độ và phổ pha được tính như trên
b Ưu điểm và nhược điểm
Phổ pha
ˆ( )
x n
Tiếng nói
Trang 20Trần Thị Anh Xuân 11
Nhược điểm của phương pháp trừ phổ là do việc ước lượng nhiễu không được chính xác dẫn đến sự biến thiên đột ngột của phổ biên độ của tiếng nói sạch và gây
ra hiện tượng âm thanh khó chịu khi nghe hay còn gọi là hiện tượng “musical
noise” Ngoài ra trong phương pháp trừ phổ thì lượng nhiễu dư cũng còn nhiều
Phương pháp chỉ tốt trong trường hợp là nhiễu thấp và nhiễu là ổn định
1.3.1.2 Phương pháp ước lượng cực tiểu hóa bình phương sai lệch
Ý tưởng của phương pháp:
Quá trình ước lượng thực hiện trong khung dữ liệu của tín hiệu có kích thước T (đủ nhỏ để xem như tiếng nói là dừng) Ta sẽ dùng các hàm cửa sổ để tạo ra
các khung dữ liệu có độ dài thích hợp
Mô hình hóa tiếng nói vẫn được giữ như cũ: với , quá trình quan sát được thực hiện trong khung dữ liệu có kích thước T
Phân tích phổ Fourier của tín hiệu: , và
biểu diễn thành phần phổ thứ k của tín hiệu , và tín hiệu quan sát trong khoảng [0,T]
Mục đích của phương pháp: ước lượng các hệ số dựa vào chuỗi quan sát Với giả thuyết độc lập thống kê của các thành phần phổ, biểu thức ước lượng có thể được xác định như sau sao cho cực tiểu hóa kì vọng sai lệch giữa tín hiệu thực và tín hiệu được ước lượng [13]:
(6)Trong là giá trị biên độ của đại lượng cần ước lượng tại điểm tần số thứ k
Cần lưu ý là giá trị ước lượng của A được tính toán sau khi đã quan sát được
tín hiệu y(t) Do đó kì vọng sai lệch ở trên có thể được viết lại như sau:
(7)Kết quả của phép ước lượg ở trên cho kết quả:
(8)
Trang 21Trần Thị Anh Xuân 12
1.3.2 Các phương pháp biến đổi chuẩn hóa đặc trưng tín hiệu tiếng nói
Mục đích của biến đổi chuẩn hóa đặc trưng tín hiệu tiếng nói là loại bỏ tính biến thiên không liên quan đến cách phát âm, giảm sự không phù hợp giữa tập dữ liệu huấn luyện và tập dữ liệu kiểm tra.Thậm chí trong trường hợp không biết đặc trưng tín hiệu tiếng nói bị phá hỏng thế nào, việc áp dụng các phương pháp biến đổi chuẩn hóa đặc trưng tín hiệu tiếng nói vẫn có thể làm giảm tác dụng của sự phá hỏng đó
Chúng ta xét một số phương pháp biến đổi chuẩn hóa đặc trưng tín hiệu tiếng nói [4][1] như sau:
• Cepstral Mean Normalization (CMN)
• Cepstral Mean and Variance Normalization (CMVN)
1.3.2.1 Cepstral Mean Normalization (CMN) [4]
a Vấn đề
Mỗi microphone khác nhau có hàm truyền đạt khác nhau, và thậm chí với cùng một microphone thì hàm truyền đạt cũng có thế khác nhau, phụ thuộc vào khoảng cách của microphone tới nguồn phát ra tiếng nói Do đó tín hiệu tiếng nói nhận được sau microphone sẽ khác nhau [4]
h[m]
Trang 22Trần Thị Anh Xuân 13
b Thuật toán
Xét là đặc trưng tiếng nói sạch; h là hàm truyền của microphone tương ứng với bộ lọc tuyến tính; là tiếng nói sau khi qua microphone
Phương pháp CMN [4] sử dụng tín hiệu chuẩn hóa sai lệch giữa đặc trưng tiếng nói và giá trị trung bình đặc trưng tiếng nói Quá trình thực hiện biến đổi chuẩn hóa đặc trưng tiếng nói như sau:
(9)
(10)Nếu hàm truyền h[m] ngắn hơn cửa sổ phân tích dùng để tính toán cepstral thì coi như:
(11)Mặt khác, chúng ta thấy:
(12)
(13)Kết hợp công thức (2),(4) và (5), chúng ta được:
(14)Thay công thức (4), (7) vào (6), ta được đặc trưng chuẩn hóa của đặc trưng tín hiệu tiếng nói:
(15)Kết quả của công thức (8) được: Như vậy, sau khi chuẩn hóa đặc trưng tín hiệu tiếng nói theo phương pháp CMN, chúng ta thấy rằng đặc trưng của
Trang 23Trần Thị Anh Xuân 14
tiếng nói có nhiễu y (với bất kể microphone nào) đã được biến đổi về dạng giống như đặc trưng của tín hiệu tiếng nói sạch
c Phạm vi sử dụng
CMN là phương pháp thích nghi với các microphone khác nhau
1.3.2.2 Cepstral Mean and Variance Normalization (CMVN) [4][1]
Phương pháp CMVN là cải tiến của phương pháp CMN
CMVN sử dụng cả giá trị trung bình mẫu và độ lệch chuẩn để biến đổi chuẩn hóa các vector đặc trưng trong miền cepstral
Bằng thực nghiệm [4] cho thấy, CMVN nâng cao tính bền vững của hệ thống nhận dạng với các microphone khác nhau, với sự biến thiên của người nói và với môi trường nhiễu
CMVN chủ yếu được áp dụng trong các bài toán thích nghi với các microphone khác nhau
1.3.3 Mô hình nhận dạng thích nghi với môi trường
Bản chất của mô hình nhận dạng thích nghi với môi trường là làm cho mô hình âm học phù hợp với tiếng nói ở môi trường kiểm tra, thông qua việc dùng các thuật toán thích nghi để cập nhật lại bộ tham số của mô hình HMM sạch
Có một số phương pháp nhận dạng thích nghi mô hình như sau:
• Maximum Likelihood Linear Regression (MLLR)
• Parallel Model Combination (PMC)
• Vector Taylor Series
Trang 24Trần Thị Anh Xuân 15
Chuyển dịch các thành phần kỳ vọng và biến đổi phương sai trong hệ thống khởi tạo để cho mỗi trạng thái trong hệ thống HMM giống hơn với bộ dữ liệu thích nghi
2 Phương sai (variance) ∑
Thích nghi MLLR cho các Meanµ [1][4]
Trong các hàm mật độ Gauss, vecto kỳ vọng thứ k µik của mỗi trạng thái i được chuyển đổi như sau:
(17)Trong đó: Ac là ma trận hồi quy
Trang 25Trần Thị Anh Xuân 16
bc là vector thêm vào có liên quan với vài broad class c (có thể là broad class phone hoặc tập các trạng thái Markov)
Mục đích của chuyển đổi trong công thức (10) là đưa vector kỳ vọng µ vào
trong một không gian mới mà sự không phù hợp giữa bộ dữ liệu luyện và bộ dữ liệu kiểm tra có thể được loại bỏ
Phương trình (17) có thể được đơn giản hóa như sau:
(18)Với: µik được mở rộng thành vector µik = [1, µik t]t
Wc được mở rộng thành ma trận Wc = [b, A]
Để ước lượng các tham số của ma trận chuyển đổi W c, ta tiến hành tìm
max theo W c (hàm Q được xét theo thuật toán EM) Quá trình này
được thực hiện bằng cách đạo hàm một phần của hàm Q thep W c và cho đạo hàm đó bằng 0, rút gọn lại chúng ta được:
Trang 26Ký hiệu v qq là thành phần đường chéo thứ q của ma trận V ik Việc chuyển đổi
ma trận có thể được tính toán từng hàng Đối với hàng thứ q của ma trận chuyển đổi
W q có thể nhận được từ hàng thứ q của ma trận Z q:
(26)
Có thể chạy vài lần từ công thức (19) - (25) để cực đại likelihood cho dữ liệu thích nghi đưa ra Ở mỗi lần chạy, ma trận chuyển đổi có thể được khởi tạo với các chuyển đổi giống nhau Có thể lặp lại quá trình trên để cập nhật các kỳ vọng đến khi hội tụ Do đó chúng ta có thể từng bước điều chỉnh các vector kỳ vọng sau mỗi dãy quan sát
d Phạm vi sử dụng
MLLR được dùng để thu được mô hình thích nghi với cả người nói và cả môi trường có nhiễu
1.3.3.2 Parallel Model Combination
Parallel Model Combination (PMC) [1] là phương pháp thu được phân bố của đặc trưng tín hiệu tiếng nói có nhiễu y từ phân bố của đặc trưng tín hiệu tiếng nói sạch x và phân bố của nhiễu n
PMC giả thiết rằng: nếu đặc trưng tín hiệu tiếng nói sạch và nhiễu cùng có phân bố Gauss thì đặc trưng tín hiệu tiếng nói có nhiễu y cũng có phân bố Gauss PMC dùng phân bố log-nomal để xấp xỉ thông tin về nhiễu, sau đó cập nhật lại
bộ tham số của mô hình HMM
Trang 27(29)(30)Biến đổi tín hiệu tiếng nói sạch x như n, ta cũng được:
(31)(32)Trong miền spectral, ta có:
(33)Với giả thiết X, N là độc lập với nhau
Khi đó, vector mean và ma trận covariance của y trong miền spectral như sau:
(34)(35)Mặc dù tổng của hai hàm có phần bố log-normal có thể không có phân bố log-normal, nhưng để đơn giản trong phương pháp PMC vẫn giả thiết Y có phân bố log-normal Kết hợp các công thức (29) – (35), chúng ta thu được công thức tính , trong miền spectral như sau:
Trang 28Trần Thị Anh Xuân 19
(36)
(37)Cuối cùng, chúng ta có biến đổi (36) và (37) từ miền spectral về miền cepstral,
ta được:
(38)(39)
Trang 29Trần Thị Anh Xuân 20
Mô hình của phương pháp PMC được thể hiện dưới hình vẽ sau:
Hình 5: Mô hình của phương pháp PMC 1.3.3.3 Vector Taylor Series
Vector Taylor Series (VTS) tương tự như phương pháp PMC, chỉ thay xấp xỉ log-normal trong PMC bằng xấp xỉ chuỗi Taylor trong thuật toán VTS
Trang 30Trần Thị Anh Xuân 21
1.4 Lựa chọn phương pháp nhận dạng bền vững với nhiễu của môi trường
Các phương pháp nhận dạng bền vững tiếng nói đều cải thiện chất lượng của
hệ thống tự động nhận dạng tiếng nói, tuy nhiên các phương pháp khác nhau thì mức độ cải thiện chất lượng cũng khác nhau
Bằng thực nghiệm [4], người ta đã rút ra nhận xét, trong hệ thống nhận dạng tiếng nói thì các phương pháp biến đổi chuẩn hóa đặc trưng tiếng nói cải thiện được chất lượng nhận dạnh ít hơn các phương pháp thích nghi mô hình
Chúng ta sẽ đi so sánh kết quả nhận dạng của các phương pháp thích nghi mô hình được nêu ra ở mục 1.3:
88,1 87,6 88,3 30dB 57,4 86,6 88,0 20dB 15,3 84 84,9 10dB 8,0 70,8 73,1 AWG
30dB 86,6 87,2 88,5 20dB 76,9 87,0 88,5 10dB 56,1 82,1 85,5 CAR
0dB 15,7 69,8 78,2 Theo bài báo “Model compensation approach based on nouniform spectral compression features for Noise Speech Recognition” của Geng – Xin Ning, Gang
Trang 31Avg 68,67 74,03
Bảng 3: Tỷ lệ nhận dạng đúng của PMC và VTS trong môi trường có nhiễu pink
Nhiễu SNR PMC VTS
clean 97,72 97,72 30dB 97,19 96,41 10dB 92,16 92,31 5dB 86,83 88,95 0dB 75,70 82,44 -5dB 48,54 63,21 Pink
Avg 70,36 78,20
Trang 32Công
Nghiệp
Avg 70,91 74,37
Từ các kết quả thực nghiệm ở bảng1, bảng 2, bảng 3, bảng 4, chúng ta có thể đánh giá hệ thống nhận dạng thích nghi bằng phương pháp VTS cho kết quả nhận dạng tốt hơn bằng phương pháp PMC
b, So sánh phương pháp MLLR và PMC:
Theo bài báo “HMM Adaptation and microphone array processing for distant speech recognition” [14] của các tác giả Jim Kleban, Yifan Gong, cho kết quả như sau:
Trang 33Trần Thị Anh Xuân 24
Bảng 5: Tỷ lệ lỗi trung bình của phương pháp PMC và MLLR,1
Kết quả nhận dạng WER (%) Một Microphone Nhiều Microphone Clean 0,21% - Không thích nghi 15,14% 7,22%
PMC 10,81% 4,24%
MLLR 7,05% 2,98%
Bảng 6: Tỷ lệ lỗi trung bình của phương pháp PMC và MLLR, 2
PMC gain Gain,g WER %: Một Microphone WER %: Nhiều Microphone
Trang 34Trần Thị Anh Xuân 25
c, So sánh phương pháp VTS và MLLR:
Kết hợp hai bài báo:
• High-performance HMM adaptation with joint compensation of additive and convolutive distortions via vector taylor series” của Alex Acero & Yifan Gong [2]
• Noise Robust Speech Recognition Using Feature Compensation based on polynomial Regression of Utterance SNR” của Abeer Alwan – IEEE [6] Các thử nghiệm trong hai bài báo trên được chạy trên cùng một bộ dự liệu luyện , cùng bộ dữ liệu kiểm tra, và cùng bộ dữ liệu nhiễu Aurora 2, với hai nhóm nhiễu được ký hiệu như sau:
• Nhóm A: gồm các nhiễu ở tàu điện ngầm, ô tô, phòng triển lãm
• Nhóm B: gồm các nhiễu ở nhà hàng, sân bay, đường phố, nhà ga
Mô hình Markov HMM trong hai bài báo được xây dựng giống nhau
Kết quả nhận dạng như sau:
Bảng 7: Tỷ lệ nhận dạng đúng của VTS và MLLR trong môi trường có nhiễu thuộc
nhóm A: a, VTS; b, MLLR
A Subway Babble Car Exihibition Average 20dB 98,37 98,1 98,87 98,15 98,37
MLLR2 74,5 70,4 77,5 77,5 78,3 81,8 81,9 82,7 83,5 82,4MLLR1 58,1 67,0 68,9 73,0 75,5 74,1 76,6 76,0 76,5 78,3Babble
MLLR2 58,1 70,7 64,5 69,4 74,1 73,6 74,8 75,4 76,9 75,8Car MLLR1 70,0 70,9 70,0 73,5 75,9 77,8 78,9 80,4 79,8 80,5
Trang 35Trần Thị Anh Xuân 26
MLLR2 70,0 69,5 70,6 75,3 81,7 79,9 80,6 79,7 79,3 81,3MLLR1 71,0 73,3 73,9 72,2 72,9 76,9 78,5 79,3 79,5 81,0Exhibi-
tion MLLR2 71,0 69,5 75,2 74,7 79,7 76,5 77,1 76,0 74,8 75,4
b, MLLR Bảng 8: Tỷ lệ nhận dạng đúng của VTS và MLLR trong môi trường có nhiễu thuộc
nhóm B: a, VTS; b, MLLR
B Restaurant Street Airpot Station Average 20dB 97,94 98,07 98,6 98,8 98,35
ant MLLR2 60,3 66,3 78,2 75,2 78,7 80,1 80,6 79,9 77,3 79,6
MLLR1 67,8 68,7 77,1 74,4 78,8 78,3 80,1 80,2 80,7 82,3Street
MLLR2 67,8 70,4 69,2 75,7 81,3 82,7 83,4 83,8 78,6 84,2MLLR1 60,9 73,8 75,3 74,2 76,1 78,7 80,5 81,1 81,9 83,1Airpot
MLLR2 60,9 68,5 75,3 75,7 79,5 83,4 84,0 83,8 80,1 84,0MLLR1 62,9 68,3 67,5 71,6 74,6 76,9 77,3 77.3 77,5 79,1Station
MLLR2 62,9 71,7 75,2 74,7 69,4 80,4 81,1 80,9 75,3 80,7
b, MLLR
Từ kết quả bảng 7, bảng 8, ta thấy:
• Trung bình độ chính xác nhận dạng của phương pháp MLLR dưới 90%
• Trung bình độ chính xác nhận dạng của phương pháp VTS trên 90%
Như vậy, có thể đánh giá hệ thống nhận dạng bằng phương pháp VTS cho kết quả tốt hơn bằng phương pháp MLLR
Kết luận: Dựa vào các kết quả khảo sát trên mục a,b,c, tôi nhận thấy hệ thống
nhận dạng sử dụng phương pháp thích nghi VTS cải thiện được chất lượng tốt nhất
Do đó, tôi lựa chọn nghiên cứu phương pháp nhận dạng bền vững với nhiễu – VTS trong đề tài luận văn của mình
Trang 36Trần Thị Anh Xuân 27
CHƯƠNG 2: PHƯƠNG PHÁP THÍCH NGHI MÔ HÌNH CỦA HỆ THỐNG NHẬN DẠNG TIẾNG NÓI DÙNG CHUỖI TAYLOR (VECTOR TAYLOR SERIES - VTS)
2.1 Ý tưởng và sơ đồ khối của phương pháp VTS
Ý tưởng: Dùng chuỗi Taylor để ước lượng các thông tin về nhiễu và kênh truyền của môi trường mới và kết hợp với bộ tham số của mô hình sạch để cập nhật lại bộ tham số của mô hình nhận dạng Quá trình này gọi là thích nghi mô
hình
Mục đích: Làm cho bộ tham số của mô hình nhận dạng tiếng nói sau khi được thích nghi phù hợp với dữ liệu kiểm tra trong môi trường mới
Nội dung của phương pháp VTS gồm hai bước chính:
Bước 1: Ước lượng các thông số mang thông tin về nhiễu và kênh truyền Bước 2: Tính toán lại các thông số mean và variance của mô hình dựa trên các thông tin về nhiễu và kênh truyền đã được ước lượng ở bước 1 và mô hình tham số sạch
Sơ đồ khối của hệ thống nhận dạng tiếng nói thích nghi mô hình bằng phương pháp VTS: trình tự thực hiện được đánh theo số thứ tự: 1-2-3-3-4-5-6
Hình 6: Sơ đồ khối hệ thống nhận dạng có áp dụng phương pháp VTS
Trích chọn đặc trưng
Bộ giải mã
Mô hình âm học
HMM sạch VTS
có nhiễu
3
Trang 37Trần Thị Anh Xuân 28
2.2 Thuật toán cập nhật lại Mean và Variance mô hình của hệ thống nhận dạng tiếng nói
Xét mô hình của tiếng nói trong môi trường có nhiễu như Hình 7 [1]:
Tín hiệu tiếng nói thu được y[m] được phát ra từ tín hiệu tiếng nói sạch x[m] qua kênh truyền h[m] (microphone) và cộng thêm nhiễu của môi trường n[m], như hình vẽ dưới đây:
n[m]
Hình 7: Mô hình của tiếng nói trong môi trường có nhiễu Quan hệ giữa y[m], x[m], h[m] và n[m] được thể hiện trong công thức dưới đây:
(40)Quá trình cập nhật lại Mean và Variance mô hình của hệ thống nhận dạng tiếng nói bao gồm hai bước:
Bước 1: Trích chọn đặc trưng tiếng nói
Bước 2: Dùng chuỗi Taylor để xấp xỉ tham số mean và variance của HMM
Cách thực hiện bước 1
Biến đổi Fourier công thức (40) [1][2], ta được các module của các tín hiệu trong miền phổ theo công thức dưới đây:
(41)Năng lượng của câu tiếng nói trong miền phổ được biểu diễn như sau:
(42)h[m]
Trang 38Trần Thị Anh Xuân 29
Trong đó, là góc giữa hai biến và ( ) Nếu =0, [1], công thức (42) trở thành:
(43)Lần lượt cho hai vế của công thức (43) qua các bộ lọc Mel_scale (có L bộ lọc), khi đó chúng ta được L năng lượng của tiếng nói trong thang Mel, được thể hiện dưới công thức sau:
(49)
Ký hiệu:
(50)
Ký hiệu: y, x, n, h lần lượt là các đặc trưng của câu tiếng nói có nhiễu, tiếng
nói sạch, nhiễu, kênh truyền trong miền MFCC Và C, C-1 lần lượt là biến đổi DCT
và DCT ngược
Cách thực hiện bước 2