Nghiên cứu hệ thống nhận dạng bền vững tiếng nói ứng dụng trong nhận dạng từ khóa tiếng việt

Lựa chọn phương pháp nhận dạng bền vững với nhiễu của môi trường...21 CHƯƠNG 2: PHƯƠNG PHÁP THÍCH NGHI MÔ HÌNH CỦA HỆ THỐNG NHẬN DẠNG TIẾNG NÓI DÙNG CHUỖI TAYLOR VECTOR TAYLOR SERIES -

Trang 1

- NGUYỄN THỊ ANH XUÂN

Nghiên cứu hệ thống nhận dạng bền vững tiếng nói - Ứng dụng trong nhận dạng từ khóa tiếng Việt

Chuyên ngành : Đo lường và các hệ thống điều khiển

LUẬN VĂN THẠC SĨ KHOA HỌC :

ĐO LƯỜNG

NGƯỜI HƯỚNG DẪN KHOA HỌC :

Hà Nội, 2010

Trang 2

Trần Thị Anh Xuân i

MỤC LỤC……… i

LỜI CAM ĐOAN iv

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT vi

DANH MỤC CÁC BẢNG vii

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ viii

MỞ ĐẦU 1

CHƯƠNG 1: CƠ SỞ LÝ THUYẾT 3

1.1.Mô hình hệ thống tự động nhận dạng tiếng nói 3

1.2 Các vấn đề tồn tại trong hệ thống nhận dạng tiếng nói hiện nay 6

1.2.1 Các vấn đề tồn tại 6

1.2.2 Hướng giải quyết 7

1.3 Một số phương pháp nâng cao chất lượng nhận dạng tiếng nói 8

1.3.1 Các phương pháp lọc nhiễu tín hiệu tiếng nói đầu vào 8

1.3.2 Các phương pháp biến đổi chuẩn hóa đặc trưng tín hiệu tiếng nói 12

1.3.3 Mô hình nhận dạng thích nghi với môi trường 14

1.4 Lựa chọn phương pháp nhận dạng bền vững với nhiễu của môi trường 21

CHƯƠNG 2: PHƯƠNG PHÁP THÍCH NGHI MÔ HÌNH CỦA HỆ THỐNG NHẬN DẠNG TIẾNG NÓI DÙNG CHUỖI TAYLOR (VECTOR TAYLOR SERIES - VTS) 27

2.1 Ý tưởng và sơ đồ khối của phương pháp VTS 27

2.2 Thuật toán cập nhật lại Mean và Variance mô hình của hệ thống nhận dạng tiếng nói 28

2.3 Cập nhật lại Mean và Variance của nhiễu và kênh truyền 31

2.3.1 Cập nhật lại Mean của kênh truyền 32

Trang 3

Trần Thị Anh Xuân ii

2.3.2 Cập nhật lại Mean và Variance của nhiễu 32

2.4 Lưu đồ thuật toán 35

CHƯƠNG 3: TRIỂN KHAI THUẬT TOÁN VTS 37

3.1 Những khó khăn trong quá trình triển khai thuật toán 37

3.2 Tổng quan về Sphinx 38

3.3 Cách tích hợp thuật toán VTS vào hệ thống Sphinx 40

3.3.1 Cấu trúc chung của một module trong Sphinx 40

3.3.2 Xây dựng module về thuật toán VTS 42

3.4 Ứng dụng thuật toán VTS trong bài toán nhận dạng tiếng nói chữ số tiếng Việt 45

3.4.1 Cơ sở dữ liệu 45

3.4.2 Xây dựng mô hình nhận dạng 47

3.4.3 Chạy thử nghiệm và đánh giá kết quả của thuật toán ở thử nghiệm 1 50

3.5 Xây dựng chương trình mô phỏng thuật toán HMM + VTS 55

3.5.1 Giao diện của chương trình mô phỏng 56

3.5.2 Cách sử dụng chương trình mô phỏng 56

CHƯƠNG 4: ỨNG DỤNG TRONG NHẬN DẠNG TỪ KHÓA 58

4.1 Khái niệm về nhận dạng từ khóa 58

4.2 Mô hình của hệ thống nhận dạng từ khóa 58

4.3 Các phương pháp nhận dạng từ khóa 61

4.3.1 Xây dựng mô hình dựa trên kinh nghiệm và hiểu biết về mặt âm học tiếng nói 61

4.3.2 Xây dựng mô hình dựa trên hệ thống nhận dạng từ điển lớn 61

4.3.3 Xây dựng mô hình cho các nhóm từ bổ sung 62

Trang 4

Trần Thị Anh Xuân iii

4.4 Ứng dụng thuật toán VTS trong bài toán nhận dạng từ khóa tiếng Việt 62

4.4.1 Cơ sở dữ liệu 62

4.4.2 Xây dựng mô hình nhận dạng 63

4.4.3 Chạy thử nghiệm và đánh giá kết quả của thuật toán ở thử nghiệm 2 64

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 66

TÀI LIỆU THAM KHẢO 67

Trang 5

Trần Thị Anh Xuân iv

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi, dưới sự hướng dẫn trực tiếp của TS.Nguyễn Quốc Cường – Đại học Bách Khoa Hà Nội.Các số liệu, kết quả nghiên cứu trình bày trong luận văn là trung thực và chưa từng được ai công bố trong bất kỳ một công trình nghiên cứu nào khác

Học viên

Trần Thị Anh Xuân

Trang 6

Trần Thị Anh Xuân v

LỜI CẢM ƠN

Tác giả xin chân thành cảm ơn TS.Nguyễn Quốc Cường đã tận tình chỉ bảo, hướng dẫn, giúp đỡ và tạo mọi điều kiện trong suốt thời gian tác giả nghiên cứu để hoàn thành luận văn

Tác giả cũng xin chân thành cảm ơn ban lãnh đạo và các anh chị tại trung tâm MICA – Đại học Bách Khoa Hà Nội đã tạo mọi điều kiện cho tác giả trong suốt thời gian thực tập hoàn thành luận văn

Trang 7

Trần Thị Anh Xuân vi

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

Các ký hiệu, các chữ viết tắt được sử dụng trong luận văn: CMN : Cepstral Mean Normalization

CMVN : Cepstral Mean and Variance Normalization HMM : Hidden Markov Models

MFCC : Mel-Frequency Cepstrum Coefficients MLLR : Maximum Likelihood Linear Regression PMC : Parallel Model Combination

VTS : Vector Taylor Series

WAcc : Word Accuracy

WER : Word Error Rate

Trang 8

Trần Thị Anh Xuân vii

DANH MỤC CÁC BẢNG Bảng 1: Tỷ lệ nhận dạng đúng của PMC và VTS trong môi trường có nhiễu 21

Bảng 2: Tỷ lệ nhận dạng đúng của PMC và VTS trong môi trường có ồn trắng 22

Bảng 3: Tỷ lệ nhận dạng đúng của PMC và VTS trong môi trường có nhiễu pink 22

Bảng 4: Tỷ lệ nhận dạng đúng của PMC và VTS trong môi trường có nhiễu 23

công nghiệp 23

Bảng 5: Tỷ lệ lỗi trung bình của phương pháp PMC và MLLR,1 24

Bảng 6: Tỷ lệ lỗi trung bình của phương pháp PMC và MLLR, 2 24

Bảng 7: Tỷ lệ nhận dạng đúng của VTS và MLLR trong môi trường có nhiễu thuộc nhóm A: a, VTS; b, MLLR 25

Bảng 8: Tỷ lệ nhận dạng đúng của VTS và MLLR trong môi trường có nhiễu thuộc nhóm B: a, VTS; b, MLLR 26

Bảng 9: WER của hệ thống nhận dạng với HMM sạch ở thử nghiệm 1 51

Bảng 10: WER của hệ thống nhận dạng với HMM + VTS ở thử nghiệm 1 51

Bảng 11: WER của HMM sạch và HMM+VTS ở SNR =0dB, ở thử nghiệm 2 64

Trang 9

Trần Thị Anh Xuân viii

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1: Sơ đồ quá trình huấn luyện 3

Hình 2: Sơ đồ hệ thống tự động nhận dạng tiếng nói 3

Hình 3: Sơ đồ khối của thuật toán nâng cao chất lượng tiếng nói sử dụng 10

phương pháp trừ phổ 10

Hình 4: Mô hình tiếng nói trong môi trường có nhiễu 12

Hình 5: Mô hình của phương pháp PMC 20

Hình 6: Sơ đồ khối hệ thống nhận dạng có áp dụng phương pháp VTS i

Hình 7: Mô hình của tiếng nói trong môi trường có nhiễu 28

Hình 8: Sơ đồ lưu đồ thuật toán thích nghi mô hình HMM dùng xấp xỉ Taylor 37

Hình 9: Mô hình hệ thống nhận dạng từ khóa không áp dụng thuật toán VTS 48

Hình 10: Mô hình hệ thống nhận dạng từ khóa áp dụng thuật toán VTS 48

Hình 11: Sơ đồ khối phân tích đặc trưng MFCC của tín hiệu tiếng nói 49

Hình 12: Đồ thị kết quả nhận dạng của HMM sạch và HMM+VTS ở SNR = 0dB ở thử nghiệm 1 53

Hình 16: Giao diện chương trình mô phỏng thuật toán VTS 56

Hình 17: Sơ đồ nhận dạng tiếng nói chung 60

Hình 18: Mô hình ngôn ngữ sử dụng trong nhận dạng từ khóa 60

Trang 10

Trần Thị Anh Xuân 1

MỞ ĐẦU

Lý do chọn đề tài

• Cơ sở khoa học:

Nhận dạng tiếng nói là lĩnh vực nghiên cứu đuợc bắt đầu từ những năm 1960

và hiện nay vẫn đang được nghiên cứu tại các phòng thí nghiệm trên thế giới Nhận dạng tiếng nói bao gồm: xử lý tín hiệu tiếng nói và kỹ thuật nhận dạng

• Cơ sở thực tiễn:

Các hệ thống tự động nhận dạng tiếng nói có những ứng dụng rất tích cực vào đời sống của con người Các hệ thống này góp phần làm “thông minh hóa” cuộc sống của chúng ta, như điều khiển các thiết bị điện-điện tử bằng tiếng nói: ti vi, điều hòa nhiệt độ,…,nhập các thông tin bằng tiếng nói, và đặc biệt có vai trò quan trọng trong các trường hợp điều khiển khi mà hai tay của người vận hành đều bận

Do vậy, việc nâng cao chất lượng của hệ thống nhận dạng tiếng nói là rất cần

thiết Đó chính là lý do quan trọng để tôi chọn đề tài “Nghiên cứu hệ thống nhận

dạng bền vững tiếng nói – Ứng dụng trong nhận dạng từ khóa tiếng Việt” làm luận

văn thạc sỹ của mình

Lịch sử nghiên cứu

Các phương pháp bền vững tiếng nói được nghiên cứu từ khoảng cách đây 10 năm, nhưng các phương pháp này mới được nghiên cứu và phát triển vào trong các

hệ thống nhận dạng tiếng nói ở Việt Nam trong mấy năm gần đây

Mục đích nghiên cứu của luận văn

Nghiên cứu và lựa chọn ra phương pháp nhận dạng tiếng nói bền vững với

nhiễu để cải thiện chất lượng nhận dạng tiếng nói so với mô hình hệ thống nhận dạng được huấn luyện bởi bộ dữ liệu sạch

Trang 11

Các đóng góp mới

Ứng dụng phương pháp bền vững với nhiễu vào hệ thống nhận dạng tiếng Việt Đây là lĩnh vực chưa được nghiên cứu tại Việt Nam

Phương pháp nghiên cứu:

Đầu tiên nghiên cứu lý thuyết, và triển khai thuật toán trên Matlab Sau đó triển khai thuật toán bằng ngôn ngữ C và tích hợp vào hệ thống nhận dạng tiếng nói Sphinx3 để đánh giá chất lượng của thuật toán

Hệ thống nhận dạng được xây dựng bằng mô hình Markov ẩn HMM kết hợp với phương pháp thích nghi với nhiễu

Cấu trúc luận văn:

Tác giả chia luận văn gồm các phần sau:

Mở đầu

Chương 1: Cơ sở lý thuyết

Chương 2: Phương pháp thích nghi mô hình của hệ thống nhận dạng tiếng nói dùng chuỗi Taylor (Vector Taylor Series - VTS)

Chương 3: Triển khai thuật toán

Chương 4: Ứng dụng trong nhận dạng từ khóa

Và do thuật toán thích nghi với nhiễu chỉ tác động đến mô hình âm học của hệ

thống nhận dạng, nên trong mô hình nhận dạng của hai thử nghiệm trên tác giả chỉ

sử dụng mô hình âm học, không sử dụng mô hình ngôn ngữ.

Trang 12

CHƯƠNG 1: CƠ SỞ LÝ THUYẾT

1.1.Mô hình hệ thống tự động nhận dạng tiếng nói

Hình 1: Sơ đồ quá trình huấn luyện

huấn luyện càng lớn thì khả năng nhận dạng của mô hình sẽ càng cao

Giải mã (Decoding)

Mô hình ngôn ngữ

Trích chọn đặc trưng

Huấn luyện

Tín hiệu

tiếng nói

Mô hình

âm học

Từ điển

phiên âm

Trang 13

Quá trình trích chọn đặc trưng tiếng nói

Quá trình này nhằm giảm kích thước (dung lượng thông tin) của tiếng nói đầu vào và lấy ra các thông tin có ích về tín hiệu tiếng nói Tiếng nói được phân tích theo các khung thời gian được gọi là frame Kết quả của giai đoạn này là các vector đặc tính của mỗi khung tín hiệu tiếng nói

Có nhiều phương pháp trích chọn đặc trưng tiếng nói như MFCC, LPC, PLP,…Trong đó, phương pháp MFCC là được dùng phổ biến hiện nay

MFCC là phương pháp phân tích đặc trưng tín hiệu tiếng nói dựa trên sự cảm nhận của tai người đối với các dải tần số khác nhau Với tần số thấp (< 1000Hz), độ cảm nhận của tai người là tuyến tính với tần số Đối với các tần số cao, độ cảm nhận của tai người là biến thiên theo hàm logarit

Người ta chọn tần số 1kHz, 40dB trên ngưỡng nghe là 1000 Mel Công thức gần đúng biểu diễn quan hệ tần số ở thang Mel và thang Hz như sau:

(1)Một phương pháp để chuyển đổi sang thang Mel là sử dụng băng lọc, trong đó mỗi bộ lọc có đáp ứng tần số dạng tam giác Các băng lọc tuyến tính ở tần số thấp

và biến thiên theo hàm số logarit ở tần số cao

Phương pháp huấn luyện mô hình và giải mã (decoding) câu tiếng nói

Một phương pháp kinh điển được sử dụng trong hệ thống nhận dạng tiếng nói đó

là mô hình Markov ẩn HMM [1]

Mô hình Markov ẩn là phương pháp mô hình hóa cấu trúc động của tiếng nói Phương pháp này là hướng tiếp cận đối sánh mẫu xác suất, với giả định rằng ở đó các mẫu tiếng nói tuần tự theo thời gian là kết quả của quá trình thống kê, và các kết quả này có thể ước lượng

Các thành phần cơ bản của mô hình Markov ẩn:

Trang 14

1 Số lượng trạng thái của mô hình N: Ký hiệu trạng thái ở thời điểm t

là

2 Số lượng quan sát phân biệt M Ký hiệu tập quan sát là V =

3 Ma trận phân phối xác suất chuyển trạng thái A = , trong đó a ijlà xác suất chuyển từ trạng thái i ở thời điểm t sang trạng thái j ở thời điểm t+1

a ij = P ( ) với

Với điều kiện:

4 Ma trận phân phối xác suất phát ra một quan sát ở một trạng thái B = , trong đó là xác suất nhận được quan sát ở trạng thái j:

với

5 Ma trận phân phối trạng thái ban đầu: , trong đó là xác suất của mô hình ở trạng thái i tại thời điểm ban đầu t=1:

Mô hình Markov ẩn được ký hiệu như sau:

Ý tưởng của quá trình nhận dạng với mô hình Markov ẩn:

Cho chuỗi quan sát O = và mô hình , làm sao ta chọn được một chuỗi quan sát tương ứng phù hợp nhất

Ý tưởng của quá trình huấn luyện với mô hình Markov ẩn: Làm thế nào để điều

chỉnh tham số mô hình để mô tả tốt nhất sự xuất hiện của mỗi chuỗi quan sát, nghĩa là tìm max P(O|λ)

Trang 15

1 Ảnh hưởng của nhiễu làm sai lệch tín hiệu tiếng nói

2 Sự không phù hợp giữa tập dữ liệu luyện (môi trường luyện) và dữ liệu kiểm tra (môi trường kiểm tra)

3 Môi trường truyền khác nhau (microphone khác nhau)

…

c Các chỉ tiêu đánh giá chất lượng hệ thống nhận dạng

Khi thiết kế hệ thống tự động nhận dạng tiếng nói, các yếu tố có tính chất quyết định tính khả thi của hệ thống đó là:

1 Chất lượng nhận dạng tiếng nói

Chất lượng của hệ thống nhận dạng tiếng nói thường được đánh giá dựa trên tỷ lệ lỗi từ Hệ thống nhận dạng tiếng nói có tỷ lệ lỗi từ càng thấp là hệ thống nhận dạng tiếng nói càng chính xác

Công thức xác định tỷ lệ lỗi Word Error Rate (WER) như sau:

(2)Trong đó:

S là số lượng từ bị thay thế

I là số lượng từ bị them vào

Trang 16

2 Thời gian nhận dạng tiếng nói

d Bài toán đặt ra với hệ thống tự động nhận dạng tiếng nói

Bài toán: Xây dựng hệ thống nhận dạng tiếng nói có thể hoạt động được trong môi trường có nhiễu

Muốn tăng chất lượng của hệ thống tự động nhận dạng tiếng nói, chúng ta cần

áp dùng rất nhiều thuật toán phức tạp vào trong quá trình trích đặc trưng tiếng nói hoặc quá trình cập nhật lại bộ tham số mô hình Markov Điều này dẫn đến khối lượng tính toán tăng, thời gian xử lý tăng, và do đó thời gian nhận dạng tăng lên, trong nhiều trường hợp có thể phá vỡ tính thời gian thực của hệ thống tự động nhận dạng tiếng nói online

Vì vậy, vấn đề đặt ra đối với hệ thống tự động nhận dạng tiếng nói, đó là bài toán dung hòa giữa vấn đề nâng cao chất lượng nhận dạng tiếng nói và thời gian nhận dạng tiếng nói

1.2.2 Hướng giải quyết

Để giải quyết bài toán đặt ra của hệ thống nhận dạng tiếng nói trên, chúng ta tích hợp các phương pháp thích nghi với nhiễu vào trong hệ thống tự động nhận dạng tiếng nói, trong đó:

• Vẫn sử dụng mô hình Markov ẩn HMM trong hệ thống nhận dạng tiếng nói

• Khâu thích nghi với nhiễu sẽ được tích hợp vào trong quá trình giải mã

Trang 17

1.3 Một số phương pháp nâng cao chất lượng nhận dạng tiếng nói

Các hệ thống nhận dạng tiếng nói thường được huấn luyện trong môi trường phòng thí nghiệm (được coi là môi trường sạch), do đó sẽ bỏ qua rất nhiều yếu tố môi trường thực có thể tác động đến tín hiệu tiếng nói Điều này làm cho chất lượng

hệ thống nhận dạng tiếng nói sẽ giảm trong môi trường thực và thay đổi ở các môi trường khác nhau

Một phương án giải quyết đó là, với mỗi một môi trường ứng dụng khác nhau, chúng ta sẽ xây dựng lại một hệ thống nhận dạng tương ứng, với tập dữ liệu luyện được thu âm tại chính môi trường đó Phương án này mặc dù có thể sẽ cải thiện chất lượng của hệ thống nhận dạng, nhưng mất nhiều thời gian và công sức Mặt khác phương pháp này chỉ áp dụng được với một môi trường cụ thể với điều kiện môi trường đó ít có những biến động đột biến, vì khi có những tác động đột biến vào tiếng nói cần nhận dạng, mà điều này không xuất hiện trong tập dữ liệu luyện thì sẽ làm tăng tỷ lệ lỗi của hệ thống nhận dạng tiếng nói

Phương án khả thi hơn, áp dụng các phương pháp nhận dạng bền vững với nhiễu vào hệ thống nhận dạng tiếng nói, nhờ đó cùng một hệ thống nhận dạng tiếng nói có thể ứng dụng vào các môi trường khác nhau mà chất lượng nhận dạng của hệ thống được cải thiện

Một số phương pháp nhận dạng tiếng nói bền vững với nhiễu:

1 Lọc nhiễu tín hiệu tiếng nói đầu vào

2 Biến đổi chuẩn hóa đặc trưng tín hiệu tiếng nói về dạng phù hợp với đặc trưng tín hiệu tiếng nói sạch hoặc về các dạng ít chịu ảnh hưởng của nhiễu hơn

3 Mô hình nhận dạng thích nghi với môi trường

…

1.3.1 Các phương pháp lọc nhiễu tín hiệu tiếng nói đầu vào

Một số phương pháp lọc nhiễu kinh điển tín hiệu tiếng nói đầu vào:

• Phương pháp trừ phổ

• Phương pháp ước lượng cực tiểu hóa trung bình bình phương sai lệch

Trang 18

1.3.1.1 Phương pháp trừ phổ

a Ý tưởng của phương pháp

Theo phương pháp trừ phổ [11][12] thì nếu gọi , , lần lượt là phổ biên độ của tín hiệu tiếng nói có nhiễu, tiếng nói gốc và nhiễu Giả thiết rằng pha của tiếng nói có nhiễu và pha của tiếng nói là giống nhau, tiếng nói và nhiễu là độc lập với nhau thì ta có Trong đó k là chỉ số trong miền tần số, l là chỉ số khung dữ liệu, h là cửa sổ phân tích Hamming có chiều dài L, L-M là lượng

dữ liệu ở hai khung kế tiếp chồng lên nhau Tín hiệu trước khi được biến đổi Fourier thì được phân vào các khung dữ liệu xếp chồng lên nhau và nhân thường

với hàm cửa sổ Hamming h

Giả sử như nhiễu đã biết thì có thể xác định được tín hiệu tiếng nói gốc đơn giản như sau:

(4)

Sử dụng phép biến đổi Fourier ngược cùng với hàm cửa sổ tổng hợp chúng

ta thu được ước lượng tín hiệu tiếng nói sạch có dạng:

Mô hình chung của phương pháp được khái quát hóa như sau:

Trang 19

Hình 3: Sơ đồ khối của thuật toán nâng cao chất lượng tiếng nói sử dụng

phương pháp trừ phổ Trong phương pháp trừ phổ thì nhiễu giả thiết là đã biết hoặc là được ước lượng bằng phổ biên độ trung bình của L khung dữ liệu đầu Thường chọn L = 6 trong trường hợp tín hiệu tiếng nói được lấy mẫu với tần số là 8kHz Chiều dài khung dữ liệu được chọn là 20ms Hàm cửa sổ được chọn ở đây là hàm cửa sổ Hamming Tín hiệu sau khi được phân thành các khung dữ liệu nhỏ sẽ được nhân thường với hàm của sổ Hamming để tính biến đổi Furier Phổ biên độ của tín hiệu tiếng nói sạch sẽ được tính bằng hiệu của phổ biên độ tiếng nói có nhiễu trừ đi phổ biên độ của nhiễu Phổ pha của tín hiệu tiếng nói sạch được lựa chọn là phổ pha của tín hiệu tiếng nói có nhiễu do phổ pha coi như là không đổi [13] Tiếng nói được khôi phục từ phổ biên độ và phổ pha được tính như trên

b Ưu điểm và nhược điểm

Phổ pha

ˆ( )

x n

Tiếng nói

Trang 20

Nhược điểm của phương pháp trừ phổ là do việc ước lượng nhiễu không được chính xác dẫn đến sự biến thiên đột ngột của phổ biên độ của tiếng nói sạch và gây

ra hiện tượng âm thanh khó chịu khi nghe hay còn gọi là hiện tượng “musical

noise” Ngoài ra trong phương pháp trừ phổ thì lượng nhiễu dư cũng còn nhiều

Phương pháp chỉ tốt trong trường hợp là nhiễu thấp và nhiễu là ổn định

1.3.1.2 Phương pháp ước lượng cực tiểu hóa bình phương sai lệch

Ý tưởng của phương pháp:

Quá trình ước lượng thực hiện trong khung dữ liệu của tín hiệu có kích thước T (đủ nhỏ để xem như tiếng nói là dừng) Ta sẽ dùng các hàm cửa sổ để tạo ra

các khung dữ liệu có độ dài thích hợp

Mô hình hóa tiếng nói vẫn được giữ như cũ: với , quá trình quan sát được thực hiện trong khung dữ liệu có kích thước T

Phân tích phổ Fourier của tín hiệu: , và

biểu diễn thành phần phổ thứ k của tín hiệu , và tín hiệu quan sát trong khoảng [0,T]

Mục đích của phương pháp: ước lượng các hệ số dựa vào chuỗi quan sát Với giả thuyết độc lập thống kê của các thành phần phổ, biểu thức ước lượng có thể được xác định như sau sao cho cực tiểu hóa kì vọng sai lệch giữa tín hiệu thực và tín hiệu được ước lượng [13]:

(6)Trong là giá trị biên độ của đại lượng cần ước lượng tại điểm tần số thứ k

Cần lưu ý là giá trị ước lượng của A được tính toán sau khi đã quan sát được

tín hiệu y(t) Do đó kì vọng sai lệch ở trên có thể được viết lại như sau:

(7)Kết quả của phép ước lượg ở trên cho kết quả:

(8)

Trang 21

1.3.2 Các phương pháp biến đổi chuẩn hóa đặc trưng tín hiệu tiếng nói

Mục đích của biến đổi chuẩn hóa đặc trưng tín hiệu tiếng nói là loại bỏ tính biến thiên không liên quan đến cách phát âm, giảm sự không phù hợp giữa tập dữ liệu huấn luyện và tập dữ liệu kiểm tra.Thậm chí trong trường hợp không biết đặc trưng tín hiệu tiếng nói bị phá hỏng thế nào, việc áp dụng các phương pháp biến đổi chuẩn hóa đặc trưng tín hiệu tiếng nói vẫn có thể làm giảm tác dụng của sự phá hỏng đó

Chúng ta xét một số phương pháp biến đổi chuẩn hóa đặc trưng tín hiệu tiếng nói [4][1] như sau:

• Cepstral Mean Normalization (CMN)

• Cepstral Mean and Variance Normalization (CMVN)

1.3.2.1 Cepstral Mean Normalization (CMN) [4]

a Vấn đề

Mỗi microphone khác nhau có hàm truyền đạt khác nhau, và thậm chí với cùng một microphone thì hàm truyền đạt cũng có thế khác nhau, phụ thuộc vào khoảng cách của microphone tới nguồn phát ra tiếng nói Do đó tín hiệu tiếng nói nhận được sau microphone sẽ khác nhau [4]

h[m]

Trang 22

b Thuật toán

Xét là đặc trưng tiếng nói sạch; h là hàm truyền của microphone tương ứng với bộ lọc tuyến tính; là tiếng nói sau khi qua microphone

Phương pháp CMN [4] sử dụng tín hiệu chuẩn hóa sai lệch giữa đặc trưng tiếng nói và giá trị trung bình đặc trưng tiếng nói Quá trình thực hiện biến đổi chuẩn hóa đặc trưng tiếng nói như sau:

(9)

(10)Nếu hàm truyền h[m] ngắn hơn cửa sổ phân tích dùng để tính toán cepstral thì coi như:

(11)Mặt khác, chúng ta thấy:

(12)

(13)Kết hợp công thức (2),(4) và (5), chúng ta được:

(14)Thay công thức (4), (7) vào (6), ta được đặc trưng chuẩn hóa của đặc trưng tín hiệu tiếng nói:

(15)Kết quả của công thức (8) được: Như vậy, sau khi chuẩn hóa đặc trưng tín hiệu tiếng nói theo phương pháp CMN, chúng ta thấy rằng đặc trưng của

Trang 23

tiếng nói có nhiễu y (với bất kể microphone nào) đã được biến đổi về dạng giống như đặc trưng của tín hiệu tiếng nói sạch

c Phạm vi sử dụng

CMN là phương pháp thích nghi với các microphone khác nhau

1.3.2.2 Cepstral Mean and Variance Normalization (CMVN) [4][1]

Phương pháp CMVN là cải tiến của phương pháp CMN

CMVN sử dụng cả giá trị trung bình mẫu và độ lệch chuẩn để biến đổi chuẩn hóa các vector đặc trưng trong miền cepstral

Bằng thực nghiệm [4] cho thấy, CMVN nâng cao tính bền vững của hệ thống nhận dạng với các microphone khác nhau, với sự biến thiên của người nói và với môi trường nhiễu

CMVN chủ yếu được áp dụng trong các bài toán thích nghi với các microphone khác nhau

1.3.3 Mô hình nhận dạng thích nghi với môi trường

Bản chất của mô hình nhận dạng thích nghi với môi trường là làm cho mô hình âm học phù hợp với tiếng nói ở môi trường kiểm tra, thông qua việc dùng các thuật toán thích nghi để cập nhật lại bộ tham số của mô hình HMM sạch

Có một số phương pháp nhận dạng thích nghi mô hình như sau:

• Maximum Likelihood Linear Regression (MLLR)

• Parallel Model Combination (PMC)

• Vector Taylor Series

Trang 24

Chuyển dịch các thành phần kỳ vọng và biến đổi phương sai trong hệ thống khởi tạo để cho mỗi trạng thái trong hệ thống HMM giống hơn với bộ dữ liệu thích nghi

2 Phương sai (variance) ∑

Thích nghi MLLR cho các Meanµ [1][4]

Trong các hàm mật độ Gauss, vecto kỳ vọng thứ k µik của mỗi trạng thái i được chuyển đổi như sau:

(17)Trong đó: Ac là ma trận hồi quy

Trang 25

bc là vector thêm vào có liên quan với vài broad class c (có thể là broad class phone hoặc tập các trạng thái Markov)

Mục đích của chuyển đổi trong công thức (10) là đưa vector kỳ vọng µ vào

trong một không gian mới mà sự không phù hợp giữa bộ dữ liệu luyện và bộ dữ liệu kiểm tra có thể được loại bỏ

Phương trình (17) có thể được đơn giản hóa như sau:

(18)Với: µik được mở rộng thành vector µik = [1, µik t]t

Wc được mở rộng thành ma trận Wc = [b, A]

Để ước lượng các tham số của ma trận chuyển đổi W c, ta tiến hành tìm

max theo W c (hàm Q được xét theo thuật toán EM) Quá trình này

được thực hiện bằng cách đạo hàm một phần của hàm Q thep W c và cho đạo hàm đó bằng 0, rút gọn lại chúng ta được:

Trang 26

Ký hiệu v qq là thành phần đường chéo thứ q của ma trận V ik Việc chuyển đổi

ma trận có thể được tính toán từng hàng Đối với hàng thứ q của ma trận chuyển đổi

W q có thể nhận được từ hàng thứ q của ma trận Z q:

(26)

Có thể chạy vài lần từ công thức (19) - (25) để cực đại likelihood cho dữ liệu thích nghi đưa ra Ở mỗi lần chạy, ma trận chuyển đổi có thể được khởi tạo với các chuyển đổi giống nhau Có thể lặp lại quá trình trên để cập nhật các kỳ vọng đến khi hội tụ Do đó chúng ta có thể từng bước điều chỉnh các vector kỳ vọng sau mỗi dãy quan sát

d Phạm vi sử dụng

MLLR được dùng để thu được mô hình thích nghi với cả người nói và cả môi trường có nhiễu

1.3.3.2 Parallel Model Combination

Parallel Model Combination (PMC) [1] là phương pháp thu được phân bố của đặc trưng tín hiệu tiếng nói có nhiễu y từ phân bố của đặc trưng tín hiệu tiếng nói sạch x và phân bố của nhiễu n

PMC giả thiết rằng: nếu đặc trưng tín hiệu tiếng nói sạch và nhiễu cùng có phân bố Gauss thì đặc trưng tín hiệu tiếng nói có nhiễu y cũng có phân bố Gauss PMC dùng phân bố log-nomal để xấp xỉ thông tin về nhiễu, sau đó cập nhật lại

bộ tham số của mô hình HMM

Trang 27

(29)(30)Biến đổi tín hiệu tiếng nói sạch x như n, ta cũng được:

(31)(32)Trong miền spectral, ta có:

(33)Với giả thiết X, N là độc lập với nhau

Khi đó, vector mean và ma trận covariance của y trong miền spectral như sau:

(34)(35)Mặc dù tổng của hai hàm có phần bố log-normal có thể không có phân bố log-normal, nhưng để đơn giản trong phương pháp PMC vẫn giả thiết Y có phân bố log-normal Kết hợp các công thức (29) – (35), chúng ta thu được công thức tính , trong miền spectral như sau:

Trang 28

(36)

(37)Cuối cùng, chúng ta có biến đổi (36) và (37) từ miền spectral về miền cepstral,

ta được:

(38)(39)

Trang 29

Mô hình của phương pháp PMC được thể hiện dưới hình vẽ sau:

Hình 5: Mô hình của phương pháp PMC 1.3.3.3 Vector Taylor Series

Vector Taylor Series (VTS) tương tự như phương pháp PMC, chỉ thay xấp xỉ log-normal trong PMC bằng xấp xỉ chuỗi Taylor trong thuật toán VTS

Trang 30

1.4 Lựa chọn phương pháp nhận dạng bền vững với nhiễu của môi trường

Các phương pháp nhận dạng bền vững tiếng nói đều cải thiện chất lượng của

hệ thống tự động nhận dạng tiếng nói, tuy nhiên các phương pháp khác nhau thì mức độ cải thiện chất lượng cũng khác nhau

Bằng thực nghiệm [4], người ta đã rút ra nhận xét, trong hệ thống nhận dạng tiếng nói thì các phương pháp biến đổi chuẩn hóa đặc trưng tiếng nói cải thiện được chất lượng nhận dạnh ít hơn các phương pháp thích nghi mô hình

Chúng ta sẽ đi so sánh kết quả nhận dạng của các phương pháp thích nghi mô hình được nêu ra ở mục 1.3:

88,1 87,6 88,3 30dB 57,4 86,6 88,0 20dB 15,3 84 84,9 10dB 8,0 70,8 73,1 AWG

30dB 86,6 87,2 88,5 20dB 76,9 87,0 88,5 10dB 56,1 82,1 85,5 CAR

0dB 15,7 69,8 78,2 Theo bài báo “Model compensation approach based on nouniform spectral compression features for Noise Speech Recognition” của Geng – Xin Ning, Gang

Trang 31

Avg 68,67 74,03

Bảng 3: Tỷ lệ nhận dạng đúng của PMC và VTS trong môi trường có nhiễu pink

Nhiễu SNR PMC VTS

clean 97,72 97,72 30dB 97,19 96,41 10dB 92,16 92,31 5dB 86,83 88,95 0dB 75,70 82,44 -5dB 48,54 63,21 Pink

Avg 70,36 78,20

Trang 32

Công

Nghiệp

Avg 70,91 74,37

Từ các kết quả thực nghiệm ở bảng1, bảng 2, bảng 3, bảng 4, chúng ta có thể đánh giá hệ thống nhận dạng thích nghi bằng phương pháp VTS cho kết quả nhận dạng tốt hơn bằng phương pháp PMC

b, So sánh phương pháp MLLR và PMC:

Theo bài báo “HMM Adaptation and microphone array processing for distant speech recognition” [14] của các tác giả Jim Kleban, Yifan Gong, cho kết quả như sau:

Trang 33

Bảng 5: Tỷ lệ lỗi trung bình của phương pháp PMC và MLLR,1

Kết quả nhận dạng WER (%) Một Microphone Nhiều Microphone Clean 0,21% - Không thích nghi 15,14% 7,22%

PMC 10,81% 4,24%

MLLR 7,05% 2,98%

Bảng 6: Tỷ lệ lỗi trung bình của phương pháp PMC và MLLR, 2

PMC gain Gain,g WER %: Một Microphone WER %: Nhiều Microphone

Trang 34

c, So sánh phương pháp VTS và MLLR:

Kết hợp hai bài báo:

• High-performance HMM adaptation with joint compensation of additive and convolutive distortions via vector taylor series” của Alex Acero & Yifan Gong [2]

• Noise Robust Speech Recognition Using Feature Compensation based on polynomial Regression of Utterance SNR” của Abeer Alwan – IEEE [6] Các thử nghiệm trong hai bài báo trên được chạy trên cùng một bộ dự liệu luyện , cùng bộ dữ liệu kiểm tra, và cùng bộ dữ liệu nhiễu Aurora 2, với hai nhóm nhiễu được ký hiệu như sau:

• Nhóm A: gồm các nhiễu ở tàu điện ngầm, ô tô, phòng triển lãm

• Nhóm B: gồm các nhiễu ở nhà hàng, sân bay, đường phố, nhà ga

Mô hình Markov HMM trong hai bài báo được xây dựng giống nhau

Kết quả nhận dạng như sau:

Bảng 7: Tỷ lệ nhận dạng đúng của VTS và MLLR trong môi trường có nhiễu thuộc

nhóm A: a, VTS; b, MLLR

A Subway Babble Car Exihibition Average 20dB 98,37 98,1 98,87 98,15 98,37

MLLR2 74,5 70,4 77,5 77,5 78,3 81,8 81,9 82,7 83,5 82,4MLLR1 58,1 67,0 68,9 73,0 75,5 74,1 76,6 76,0 76,5 78,3Babble

MLLR2 58,1 70,7 64,5 69,4 74,1 73,6 74,8 75,4 76,9 75,8Car MLLR1 70,0 70,9 70,0 73,5 75,9 77,8 78,9 80,4 79,8 80,5

Trang 35

MLLR2 70,0 69,5 70,6 75,3 81,7 79,9 80,6 79,7 79,3 81,3MLLR1 71,0 73,3 73,9 72,2 72,9 76,9 78,5 79,3 79,5 81,0Exhibi-

tion MLLR2 71,0 69,5 75,2 74,7 79,7 76,5 77,1 76,0 74,8 75,4

b, MLLR Bảng 8: Tỷ lệ nhận dạng đúng của VTS và MLLR trong môi trường có nhiễu thuộc

nhóm B: a, VTS; b, MLLR

B Restaurant Street Airpot Station Average 20dB 97,94 98,07 98,6 98,8 98,35

ant MLLR2 60,3 66,3 78,2 75,2 78,7 80,1 80,6 79,9 77,3 79,6

MLLR1 67,8 68,7 77,1 74,4 78,8 78,3 80,1 80,2 80,7 82,3Street

MLLR2 67,8 70,4 69,2 75,7 81,3 82,7 83,4 83,8 78,6 84,2MLLR1 60,9 73,8 75,3 74,2 76,1 78,7 80,5 81,1 81,9 83,1Airpot

MLLR2 60,9 68,5 75,3 75,7 79,5 83,4 84,0 83,8 80,1 84,0MLLR1 62,9 68,3 67,5 71,6 74,6 76,9 77,3 77.3 77,5 79,1Station

MLLR2 62,9 71,7 75,2 74,7 69,4 80,4 81,1 80,9 75,3 80,7

b, MLLR

Từ kết quả bảng 7, bảng 8, ta thấy:

• Trung bình độ chính xác nhận dạng của phương pháp MLLR dưới 90%

• Trung bình độ chính xác nhận dạng của phương pháp VTS trên 90%

Như vậy, có thể đánh giá hệ thống nhận dạng bằng phương pháp VTS cho kết quả tốt hơn bằng phương pháp MLLR

Kết luận: Dựa vào các kết quả khảo sát trên mục a,b,c, tôi nhận thấy hệ thống

nhận dạng sử dụng phương pháp thích nghi VTS cải thiện được chất lượng tốt nhất

Do đó, tôi lựa chọn nghiên cứu phương pháp nhận dạng bền vững với nhiễu – VTS trong đề tài luận văn của mình

Trang 36

CHƯƠNG 2: PHƯƠNG PHÁP THÍCH NGHI MÔ HÌNH CỦA HỆ THỐNG NHẬN DẠNG TIẾNG NÓI DÙNG CHUỖI TAYLOR (VECTOR TAYLOR SERIES - VTS)

2.1 Ý tưởng và sơ đồ khối của phương pháp VTS

Ý tưởng: Dùng chuỗi Taylor để ước lượng các thông tin về nhiễu và kênh truyền của môi trường mới và kết hợp với bộ tham số của mô hình sạch để cập nhật lại bộ tham số của mô hình nhận dạng Quá trình này gọi là thích nghi mô

hình

Mục đích: Làm cho bộ tham số của mô hình nhận dạng tiếng nói sau khi được thích nghi phù hợp với dữ liệu kiểm tra trong môi trường mới

Nội dung của phương pháp VTS gồm hai bước chính:

Bước 1: Ước lượng các thông số mang thông tin về nhiễu và kênh truyền Bước 2: Tính toán lại các thông số mean và variance của mô hình dựa trên các thông tin về nhiễu và kênh truyền đã được ước lượng ở bước 1 và mô hình tham số sạch

Sơ đồ khối của hệ thống nhận dạng tiếng nói thích nghi mô hình bằng phương pháp VTS: trình tự thực hiện được đánh theo số thứ tự: 1-2-3-3-4-5-6

Hình 6: Sơ đồ khối hệ thống nhận dạng có áp dụng phương pháp VTS

Bộ giải mã

Mô hình âm học

HMM sạch VTS

có nhiễu

3

Trang 37

2.2 Thuật toán cập nhật lại Mean và Variance mô hình của hệ thống nhận dạng tiếng nói

Xét mô hình của tiếng nói trong môi trường có nhiễu như Hình 7 [1]:

Tín hiệu tiếng nói thu được y[m] được phát ra từ tín hiệu tiếng nói sạch x[m] qua kênh truyền h[m] (microphone) và cộng thêm nhiễu của môi trường n[m], như hình vẽ dưới đây:

n[m]

Hình 7: Mô hình của tiếng nói trong môi trường có nhiễu Quan hệ giữa y[m], x[m], h[m] và n[m] được thể hiện trong công thức dưới đây:

(40)Quá trình cập nhật lại Mean và Variance mô hình của hệ thống nhận dạng tiếng nói bao gồm hai bước:

Bước 1: Trích chọn đặc trưng tiếng nói

Bước 2: Dùng chuỗi Taylor để xấp xỉ tham số mean và variance của HMM

Cách thực hiện bước 1

Biến đổi Fourier công thức (40) [1][2], ta được các module của các tín hiệu trong miền phổ theo công thức dưới đây:

(41)Năng lượng của câu tiếng nói trong miền phổ được biểu diễn như sau:

(42)h[m]

Trang 38

Trong đó, là góc giữa hai biến và ( ) Nếu =0, [1], công thức (42) trở thành:

(43)Lần lượt cho hai vế của công thức (43) qua các bộ lọc Mel_scale (có L bộ lọc), khi đó chúng ta được L năng lượng của tiếng nói trong thang Mel, được thể hiện dưới công thức sau:

(49)

Ký hiệu:

(50)

Ký hiệu: y, x, n, h lần lượt là các đặc trưng của câu tiếng nói có nhiễu, tiếng

nói sạch, nhiễu, kênh truyền trong miền MFCC Và C, C-1 lần lượt là biến đổi DCT

và DCT ngược

Cách thực hiện bước 2

Định dạng
Số trang	76
Dung lượng	1,45 MB