Proceedings VCM 2012 75 thiết kế hệ thống nhận dạng khẩu lệnh tiếng việt

Ngoài ra hệ thống đã cải thiện được chất lượng nhận dạng với giọng nói chưa được huấn luyện khi kết hợp với phép chuẩn hóa đặc trưng MFCC theo độ dài bộ phận cấu âm VTLN, vocal tract len

Trang 1

Thiết kế hệ thống nhận dạng khẩu lệnh tiếng Việt điều khiển thiết bị tự hành trên nền các vi hệ thống

với phép chuẩn hóa VTLN – MFCC Design of a Vietnamese voice control system for navigating devices based on system-on-chip with VTLN-MFCC

Ngô Hoàng Huy1, Phạm Thượng Cát1, Nguyễn Trịnh Nguyên2,

Nguyễn Tu Trung1, Ngô Trần Anh1

(1)

Viện Công nghệ Thông tin,Viện Khoa học và Công nghệ Việt Nam,

(2)

Đại học Nông lâm Tp Hồ Chí Minh e-Mail: {nhhuy, ptcat, nttrung, trananh}@ioit.ac.vn, nguyentrinhnguyen.edu@gmail.com

Tóm tắt

Bài báo này trình bày thiết kế và thử nghiệm hệ thống nhận dạng khẩu lệnh tiếng Việt để điều khiển thiết bị

tự hành Hệ thống nhận dạng tích hợp hoàn toàn trong một chip vi hệ thống điện năng thấp như họ PSoC5 lõi ARM9 M3 Cortex chip, 64KB RAM, 256KB Flash hoặc họ OMAP3 lõi ARM7,128MB RAM, được phát triển dựa trên mô hình nhận dạng Markov ẩn kết hợp, mạng nơ ron dự báo Ngoài ra hệ thống đã cải thiện được chất lượng nhận dạng với giọng nói chưa được huấn luyện khi kết hợp với phép chuẩn hóa đặc trưng MFCC theo

độ dài bộ phận cấu âm (VTLN, vocal tract length normalisation), rất thích hợp với một ngôn ngữ có thanh điệu như tiếng Việt Các kết quả thử nghiệm trong bài báo đã được áp dụng cho thực tế điều khiển robot hút bụi và

xe lăn điện, chứng tỏ rằng hệ nhận dạng khẩu lệnh tiếng Việt đã đáp ứng được yêu cầu nhúng hoàn toàn trong một vi hệ thống với tài nguyên bộ nhớ và năng lực tính toán rất hạn chế cho xử lý tiếng nói, chuẩn hóa tốt biến thiên tần số của người nói mới và cho kết quả nhận dạng và thời gian đáp ứng so sánh được với cùng hệ thống chạy trên PC

Abstract

In this study, results of a Vietnamese continuous speech recognition system controlling navigating devices were exprimented and presented The speech recognition which is fully integrated in a mini system-on-chip such as PSoC5 with ARM9 M3 Cortex chip, 64KB RAM, 256KB Flash, OMAP3530 with ARM7 chip 128MB RAM, is developed based on Hidden Markov Model and Predictive Neural Network These results also show that the performance in recognizing new speakers in combinating with normalization VTLN is actually improved, which are quite compatible with tonal languages such as Vietnamese These results are also applied

in sucessfully controlling vacuum robots and electric wheel chairs It is this shows that the Vietnamese continuous speech recognition system actually supply the requirements of fully embedded in a mini system with very limited memory resources and calculating for speech processing, and well normalize frequency variation of new speakers, providing likely results and time comparable with the same running in personal computer

Chữ viết tắt

VTLN

PSoC

vocal tract length normal

Programmable System on Chip

MFCC Đặc trưng MFCC

1 Phần mở đầu

Nghiên cứu, thiết kế các hệ thống nhận dạng khẩu

lệnh để điều khiển thiết bị đã được phát triển và

ứng dụng rộng rãi Một số hệ thống nhận dạng

khẩu lệnh kết hợp với hiểu đối thoại hữu dụng như

Siri đã trở nên quen thuộc với người sử dụng Tuy

nhiên hầu hết các hệ thống này đều chạy trên môi

trường PC hoặc di động có lõi vi xử lý với tài nguyên bộ nhớ và năng lực tính toán mạnh Hệ thống nhận dạng khẩu lệnh trên chip tiêu thụ điện năng thấp và tài nguyên hạn chế, đặc biệt là trên các chip vi hệ thống vẫn là vấn đề phức tạp, cần đầu tư nghiên cứu PSoC một họ chip vi hệ thống nổi tiếng với tính năng tái cấu hình, được ứng dụng rộng rãi trong thiết kế các hệ thống đo và điều khiển, nhưng chưa có một giải pháp tích hợp

hệ thống nhận dạng khẩu lệnh trên nó được công

bố trên thế giới

Một số nghiên cứu gần đây đã khảo sát đường thanh điệu tiếng Việt trong ngữ cảnh để nhận dạng thanh điệu và cải tiến kết quả nhận dạng từ và câu

Trang 2

tiếng Việt [7,8,10,12] với tiếp cận ghép trực tiếp

đặc trưng thanh điệu vào các kiểu đặc trưng tiếng

nói như MFCC [10,12] hoặc sử dụng các đặc trưng

F0, các tần số formant và VTLN để hiệu chỉnh lại

các đặc trưng MFCC dẫn đến kiểu đặc trưng

không phụ thuộc người nói trong cả quá trình huấn

luyện và nhận dạng, qua đó kết quả nhận dạng của

các hệ thống không phụ thuộc người nói được cải

thiện đáng kế [5, 8, 9,10]

Các hệ thống nhận dạng tiếng nói hiện nay hầu hết

đều sử mô hình Markov ẩn HMM (Hidden Markov

Model), khi ứng dụng thuật toán nhận dạng HMM

trên cho việc nhận dạng tiếng nói liên tục không

phụ thuộc người nói, hệ thống thường suy giảm độ

chính xác với những người nói có có đặc trưng

giọng nói không phù hợp với những mẫu giọng

được sử dụng để huấn luyện mô hình HMM

Bài báo này trình bày phương pháp thiết kế hệ

nhận dạng khẩu lệnh tiếng Việt điều khiển thiết bị

di động như robot hút bui, xe lăn điện dựa trên

chip vi hệ thống họ PSoC5 và OMAP3, các đặc trưng MFCC đã được hiệu chỉnh theo VTLN và các tính toán đặc trưng và quá trình giải mã HMM được tăng tốc nhờ các phép tính toán chấm tĩnh độ chính xác cao cho hiệu năng và chất lượng nhận dạng so sánh được với cùng hệ thống trên PC

2 Quy trình nhận dạng tiếng nói

Để thiết kế một robot hút bụi có khả năng hội thoại bằng tiếng Việt (nhận biết khẩu lệnh và thực hiện cũng như hồi đáp bằng tiếng Việt) chúng ta cần nghiên cứu tích hợp các công nghệ điều khiển robot, nhận dạng và tổng hợp tiếng Việt trên một chip (system-on-chip), với tín hiệu thu nhận được

là có nhiễu của môi trường văn phòng, nhà ở và độ

ồn của chính robot hút bụi (âm lượng khoảng 80dB)

H 1 Sơ đồ tích hợp nhận dạng tiếng nói điều khiển thiết bị

Khó khăn cơ bản của nhận dạng tiếng nói đó là

tiếng nói luôn biến thiên theo thời gian và có sự

khác biệt lớn giữa tiếng nói của những người nói

khác nhau, tốc độ nói, ngữ cảnh và môi trường âm

học khác nhau Đây là một nhiệm vụ rất khó khăn

mà ngay cả với các kỹ thuật xác suất thống kê

mạnh nhất cũng bị hạn chế trong việc tổng quát

hoá từ các mẫu tiếng nói những biến thiên quan trọng cần thiết trong nhận dạng tiếng nói

Trong quy trình nhận dạng tiếng nói, Tiền xử lý

(thu nhận tiếng nói, khử nhiễu và tìm kiếm điểm đầu cuối tiếng nói), Trích chọn đặc trưng kết hợp với phép hiệu chỉnh biến thiên tần số của người nói mới là các khâu rất quan trọng để nâng cao độ

Trang 3

chính xác nhận dạng khẩu lệnh tiếng Việt trong

khi các thiết bị đang hoạt động

3 Thu nhận tiếng nói và lọc nhiễu trên họ

PSOC

Việc thu nhận mẫu tiếng nói thường được thực

hiện thông qua một bộ ADC (Analog-Digital

Converter) Các thông số quan trọng bao gồm số

bit cho một mẫu (thông thường là từ 8 đến 16 bit),

tần số lấy mẫu (thông thường từ 8Khz-16Khz) Những thông số này liên quan nhiều tới hiệu năng,

độ phức tạp thiết kế cũng như kết quả nhận dạng của hệ thống nhúng Với họ chip PSOC và OMAP3, vấn đề khó khăn chung khi thực hiện việc thu nhận tiếng nói vẫn là sự hạn chế về tài nguyên khi phải đảm bảo yêu câu về bộ nhớ và tốc

độ thu lớn

H 2 Mạch 2 mic thu nhận tiếng nói

H 3 Thu nhận tiếng nói dùng DMA trên PSoC5

Tiếng nói thu nhận trong môi trường tự nhiên

(ngoại cảnh, trong văn phòng v.v ) và công nghiệp

nơi thiết bị hoạt động thường chứa nhiều tạp âm

Không dễ gì có thể lọc được mọi thứ nhiễu do tính

ngẫu nhiên của nhiễu và môi trường và đường

truyền dẫn âm học như hiện tượng dội lại, mà ta

chỉ tìm cách tối thiểu hoá chúng để có thể nâng

cao chất lượng của hệ thống nhận dạng

Sử dụng tính năng mạnh hỗ trợ bộ lọc tương tự

của PSoC5, trong quá trình thu nhận tiếng nói, hệ

thống được xử lý nhiễu qua 2 pha: pha 1 là lọc tương tự, pha 2 là lọc số (như bộ lọc RASTA) Bảng 1: Bảng cấu hình GAIN kết hợp bộ lọc thông

thấp

PGA Gain

Tỉ lệ C1/C2

LPF Gain (dB)

Điện

áp LPF GAIN

Hệ số GAIN cuối

Trang 4

H 4 Tham số bộ lọc tín hiệu khi cấu hình cho PSoC

H 5 Phổ tín hiệu có nhiễu động cơ hút bụi và tín

hiệu sạch

4 Phép chuẩn hóa VTLN cho các hệ số

MFCC

Các hệ nhận dạng tiếng nói thường trích chọn đặc

trưng của mỗi khung tiếng nói (độ dài 10ms-25ms)

theo kiểu MFCC ở thang tần số mel dựa trên đặc điểm cảm thụ tần số âm của tai người, tuy vậy các

hệ số MFCC không thể hiện được các biến thể bên trong của mỗi người nói như VTL (vocal tract length, độ dài bộ cấu âm), dẫn đến việc suy giảm chất lượng nhận dạng trong các hệ thống nhận dạng độc lập người nói

VTLN là phép chuẩn hóa tín hiệu tiếng nói để VTL đạt được mức trung bình nhờ các tham số hiệu chỉnh tần số cho mỗi người nói hoặc một phát

âm Có hai tiếp cận chính cho VTLN, một là ước lượng hệ số hiệu chỉnh tần số dựa vào đặc điểm

âm học của người nói như các tần số formant, hai

là cách duyệt trên lưới của tham số hiệu chỉnh để tối ưu hóa hàm mục tiêu của mô hình nhận dạng

H 6 Hiệu chỉnh tần số VTL và trích chọn đặc trưng MFCC

Phép hiệu chỉnh VTL hoạt động như sau:

Trang 5

Biểu diễn tiếng nói đầu vào đã qua tiền xử lý x(t)

trong miền tần số bằng biến đổi FFT: X()=

H()S() + N(), ở đó H() là biến dạng kênh và

N() nhiễu cộng của tín hiệu Sử dụng M bộ lọc

tam giác với khoảng cách giữa các vị trí k trong

thang tần số mel:

1

1 1

1

1 1

( )

k

B













 



 





2

[ , ]

k k

k

  



MFCC(n) =

1

0

1 2

M

m

M









0nN-1

Khi đó với phép hiệu chỉnh tần số có dạng ’=

() thì công thức (*) trở thành:

1 1

2

k

 



Bảng dưới đây cho ta một số dạng biến đổi tuyến

tính và phi tuyến của hàm (), sử dụng hàm:

( ) 1127 ln 1

2 700

s

f



, [0,] và

fs là tần số lấy mẫu và

1

2 ,

1

2 2 ( ) , ,

1 1 2 ,

1

l

u















 



    

 



 







Để giải quyết vấn đề hạn chế về tài nguyên tính

toán và tài nguyên bộ nhớ, khi tích hợp hệ thống

nhận dạng tiếng nói trên các vi hệ thống, việc tính

toán các hệ số MFCC được xử lý hiệu quả với các

phép tính chẫm tĩnh (fixed point) [15]

Thuật toán nhận dạng tiếng nói dựa trên HMM với

đặc trưng MFCC gồm hai phần: Huấn luyện và

nhận dạng

4.1 Huấn luyện với HMM

Đầu vào gồm T frame các đặc trưng MFCC

Bước 1: Xác định dãy trạng thái tối ưu bằng thuật

toán Viterbi:

1

T T

t



Bước 2: Hiệu chỉnh lại tham số mô hình HMM:

*

1

T

t



Bước 3: Đặt =*, lặp lại tới khi mô hình hội tụ

4.2 Nhân dạng với HMM

Đầu vào gồm T frame các đặc trưng MFCC

Giải mã theo Viterbi để xác định tập nhãn, và dãy trạng thái tối ưu ứng với bộ tham số mô hình HMM đã cho:

1

( , { } ) arg max log ( , )

T T

t



Sử dụng chính hàm mục tiêu của các mô hình HMM (, ), tham số hiệu chỉnh tần số  [min,

max] có thể ước lượng trên từng phát âm tiếng nói đầu vào [2,3,10s] theo công thức sau:

min ax

1

( , { } ) argmax log ( , )

m

T T

t T

t

p O  s O  O



















Để chuẩn hóa biến thiên tần số của người nói mới phép chuẩn hóa VTLN để được tích hợp trong mô hình nhận dạng HMM như sau:

5.1 Huấn luyện với HMM:

Với mỗi phát âm tiếng nói đã gán nhãn W, gồm T frame

Bước 1: Khởi tạo =1.0 và xác định dãy trạng thái tối ưu bằng thuật toán Viterbi:

1

T T

t

S s  p O   W O  O  



Bước 2: Duyệt tìm giá trị tối ưu trên lưới giá trị của tham số :

min ax

*

[ , ]

1

arg max log ( , ), ( )

m T

t

p O  s O  O



Bước 3: Thực hiện phân đoạn cưỡng bức (forced alignment) dựa trên bộ nhãn W và tham số hiệu chỉnh * và hiệu chỉnh lại tham số mô hình HMM:

*

1

T

t

p O  s W O  O





Bước 4: Đặt =*, và =*, lặp lại tới khi mô hình hội tụ

5.2 Nhận dạng với HMM

Với một phát âm đầu vào gồm T frame

Bước 1: Giải mã theo Viterbi để xác định tập nhãn, và dãy trạng thái tối ưu ứng với bộ tham số

mô hình HMM đã cho:

Trang 6

1 ( , { } ) argmax log ( , )

T T

t



Bước 2: Duyệt tìm giá trị tối ưu trên lưới giá trị

của tham số :

min ax

*

[ , ]

1

argmax log ( , ), ( )

m T

t

p O  s O  O



Bước 3: Giải mã Viterbi lần nữa với tham số * để

xác định tập nhãn đầu ra:

*

1

arg max log ( , )

T

t



Độ phức tạp của thuật toán HMM có kết hợp với

VTLN là O(KVN2T), trong đó K là số giá trị rời

rạc hóa trên lưới giá trị của tham số  [min,

max] (ở đây min = 0.85, max = 1.15, mức rời rạc

hóa theo bước 0.0001), N là số trạng thái của mô

hình HMM (N = 5 trong thử nghiệm này), V số

phần tử từ vựng (V = 117 trong thử nghiệm này, là

số âm vị với các nguyên âm mang thanh điệu) ,T

là số frame đầu vào [8]

Ngoài ra, để tích hợp hệ thống nhận dạng tiếng nói

trên các vi hệ thống (SoC) với tài nguyên bộ nhớ

hạn chế như PSoC chúng tôi cài đặt thêm phương

pháp nhận dạng theo mô hình mạng Nơron dự báo

tựa HMM như sau:

 Ứng với tập mẫu huấn luyện của một lệnh, ta

xây dựng một mạng Nơron 3 tầng, một tầng ra,

một tầng vào và một tầng ẩn như sau:

 Giả sử ta xây dựng mạng nơron NRx ứng

với người nói x với tập M mẫu giọng T = (T1,

T2, …, TM)

 Với mỗi file dữ liệu Tj (j = 1, 2,…, M) ta

tiến hành trích chọn đặc trưng bằng MFCC

Chúng ta có một tập M vector 12 chiều đầu

vào

 Với mỗi đoạn, tại frame thứ i ta có vector đặc

trưng Pi(a0i,a1i, ,a11i ), frame thứ i + 1 ta có

vector đặc trưng Pi+1( , , , 1)

11 1 1 1 0



i

a a

Nơron sẽ có đầu vào và đầu ra như sau:

 Input: {(a0i,a1i, ,a11i ),(a0i1,a1i1, ,a11i1)}

 Output: {(b0i2,b1i2, ,b11i2)}

 Đầu ra của mạng Nơron dự báo sẽ là vector

P’i+2( , , , ' 2)

11 2 1

2

0



i

b b

b tương ứng với frame

thứ i + 2

 Vector đặc trưng của frame thứ i + 2:

Pi+2( , , , 2)

11 2 1

2

0



i

a a

a

 Trọng số mạng được hiệu chỉnh dựa trên sai số

||e|| , với ||e||2 = ½(e22 + e32 +…+e112) với ej =

||a i j2b i j2||; j = 2, 3, …,11, và thuật toán lan truyền ngược

 Sai số của mạng Nơron là: e 

2

1

2









P

e

P

j j

, ở

đây ej là sai số dự báo của frame j

 Lần lượt tính sai số của đoạn âm thanh kiểm tra trong mỗi mạng Nơron Sai số nhỏ nhất ứng với mạng Nơron phù hợp nhất

6 Điều khiển thiết bị tự hành bằng tiếng nói

Để điều khiển xe lăn điện di chuyển, người điều khiển ngồi trên xe lăn và đọc vào một trong 14 lệnh như ở bảng 2 dưới đây Để kiểm soát độ an toàn cho người điều khiển xe, hệ thống khẩu lệnh chỉ kích hoạt hành động khi người điều khiển đọc

đúng câu lệnh khởi động “Kích hoạt hệ thống”, ngược lại khi người dùng ra lệnh nhanh “Tắt”, hệ

thống sẽ không nhận dạng mệnh lệnh đưa vào tiếp sau đó Một khó khăn có thể gây ra nhận dạng

nhầm khẩu lệnh “Tắt”, là do các xe lăn khi kích

hoạt từ mệnh lệnh nhận dạng được có thể phát ra tiếng “cạch” có thể nhận dạng nhầm với khẩu lệnh

“Tắt” Chúng tôi đã tích hợp một thuật toán phân lớp hiệu quả đạt 100% độ chính xác dựa trên mạng nơron dự báo để phân biệt, và hệ thống đã phân biệt đúng các tín hiệu gây ồn của thiết bị với khẩu

lệnh “Tắt” Ngoài ra khẩu lệnh “Kích hoạt hệ thống” được chọn để đảm bảo hệ thống không

nhận dạng nhầm khẩu lệnh khởi động này

Bảng 2: Khẩu lệnh điều khiển xe lăn

“Kích hoạt hệ thống” Yêu cầu hệ thống

nhận dạng khẩu lệnh làm việc

nhận dạng khẩu lệnh

“Dừng” | “Dừng lại” Dừng xe

“Tiếp tục” Tiếp tục chạy theo

khẩu lệnh đã có

“Tăng tốc” | “Tăng tốc độ”

Tăng tốc độ

“Giảm tốc” | “Giảm tốc độ”

Giảm tốc độ

“Tiến” | “Đi” Đi về phía trước

“Lùi” | “Lùi lại” Lùi về sau

“Sang trái” | ”Đi sang trái”

Về phía trước theo hướng trái

“Sang phải” | “Đi sang phải”

Về phía trước theo hướng phải

Trang 7

“Lùi trái” |”Lùi sang

trái”

Về phía sau theo hướng trái

“Lùi phải”|”Lùi sang

phải”

Về phía sau theo hướng phải

“Quay trái” |”Xoay

trái”

Quay trái

“Quay phải” |”Xoay

phải”

Quay phải

H 5 Điều khiển xe lăn điện bằng tiếng nói của

nhóm tác giả [19]

Bảng 3: Khẩu lệnh điều khiển Robot hút bụi

lệnh

“Bật khẩu lệnh” Yêu cầu hệ thống

nhận dạng khẩu lệnh làm việc

“Tắt khẩu lệnh” Vô hiệu hóa hệ

thống nhận dạng khẩu lệnh

“Tiến” | “Đi thẳng” Đi về phía trước

“Lùi” | “Lùi lại” Lùi về sau

“Quay trái” |”Xoay

trái”

Quay trái

“Quay phải” |”Xoay

phải”

Quay phải

rắc

vật cản, quay một góc ngẫu nhiên và đi tiếp

Một thử nghiệm tương tự cũng đang được nhóm

tác giả tiến hành cho robot hút bụi hoạt động trong

môi trường trong nhà, văn phòng Hệ thống nhận

dạng tiếng nói được thiết kế cho họ PSoC5, luôn

kiểm tra trạng thái hiện thời của robot hút bụi và tính tương thích của khẩu lệnh đưa vào để điều khiển robot hoạt động thay cho việc sử dụng các bảng điều khiển từ xa Bảng 3 nêu trên là một số khẩu lệnh để điều khiển robot hút bụi di chuyển, phủ diện tích căn phòng và hút bụi Bước đầu robot hút bụi được lập trình di chuyển theo chế độ

đi ngẫu nhiên (đi thẳng, gặp vật cản thì xoay và bám tường v.v…)

H 7 Robot hút bụi được thiết kế bởi nhóm tác giả

7 Thử nghiệm

Dữ liệu huấn luyện nhanh các mô hình HMM của các âm vị tiếng Việt là các bài đọc truyện và tin tức của 2 phát thanh viên (một nam, một nữ giọng

Hà Nội) của đài tiếng nói Việt Nam, dung lượng

dữ liệu hơn 1GB, và chưa được gán nhãn ngữ âm

Dữ liệu huấn luyện thích ứng được ghi bởi giọng đọc của 12 nam, 10 nữ sinh viên, môi trường tín hiệu trong lớp học trên giảng đường, mỗi sinh viên đọc 30 lệnh đúng một lượt Tín hiệu thu có tần số lấy mẫu 16000Hz, đơn kênh 16 bit và có nhiễu

Dữ liệu kiểm tra hệ thống nhận dạng là giọng đọc của 3 nam, 6 nữ sinh viên và một giọng nữ tiếng miền Nam, được thu trong cùng môi trường tín hiệu như với dữ liệu huấn luyện thích ứng

Khi tiến hành thử nghiệm, chúng tôi sử dụng phiên bản HTK 3.4 để huấn luyện, kiểm thử và trích chọn đặc trưng MFCC thông thường Để tich hợp cho các vi hệ thống như OMAP3, nhân của HTK 3.4 đã được sửa đổi ở các thuật toán trích chọn đặc trưng MFCC có hỗ trợ các phép toán fixed point

và thuật toán dò tìm tiếng nói (End point detection) hiệu quả riêng của nhóm tác giả

Tập âm vị tiếng Việt gồm khoảng 52 âm vị bao gồm các phụ âm đầu, âm đệm, nguyên âm chính với thanh điệu và âm cuối tương ứng với 52 mô hình HMM cần được huấn luyện

Trang 8

Giá trị đường F0 và các vector đặc trưng MFCC

được trích chọn với các frame độ dài 25 mili giây,

phần trùng nhau giữa 2 frame liên tiếp là 15 mili

giây Các vector đặc trưng gồm 12 hệ số MFCC và

1 hệ số năng lượng và các sai phân bậc 1 và bậc 2

của 13 hệ số này Các HMM có hàm mật độ xác

suất liên tục Việc hiệu chỉnh các vector MFCC và

ghép giá trị F0 sử dụng phương pháp đã trình bày

ở trên

Bảng 4: Bảng kết quả thực nghiệm kiểm tra trên

tập 10 người nói

Người

đọc

Đặc trưng

chuẩn

MFCC

Đặc trưng

F0

mức

từ

mức câu

mức

từ

mức câu

mức

từ

mức câu Nu1 98,3 96,5 99,5 96,0 98,7 96,8

Nu2 99,0 97,0 99,0 96,4 99,0 96,7

Nu3 98,5 96,8 98,4 96,0 98,4 97,0

Nu4 99,4 98,4 98,8 96,5 98,9 98,2

Nu5 98,5 96,1 98,9 96,5 99,2 97,5

Nu7 98,7 96,6 98,6 97,5 99,1 97,5

Nam1 99,5 98,5 99,5 98,0 99,5 98,3

Nam2 98,3 96,0 98,5 96,4 98,7 97,7

Nam3 99,1 97,8 99,0 97,9 99,3 98,2

Trung

bình

98,5 96,8

4

98,7

3

96,8

1

98,9

6

97,5

1

Quan sát bảng thực nghiệm 2, kết quả nhận dạng

của “Nu6” thấp do đây là một giọng nói tiếng

miền Nam, thanh điệu và các tham số VTL hoàn

toàn khác so với các giọng đọc trong tập huấn

luyện (chỉ có giọng miền Bắc)

8 Kết luận và hướng phát triển

Theo nội dung đã trình bày ở trên, các giá trị của

đường F0 và độ dài bộ phận cấu âm của mỗi giọng

nói đã ảnh hưởng đến kết quả nhận dạng khẩu lệnh

tiếng Việt Để tích hợp các giá trị này vào hệ thống

nhận dạng, đầu tiên áp dụng phép chuẩn hóa kiểu

VTLN cho tiếng nói đầu vào để hiệu chỉnh lại tần

số trước khi tính các hệ số MFCC như thông

thường, và chuyển tới bộ huấn luyện hoặc giải mã

của các HMM Phép chuẩn hóa cho phép một giọng

nói mới được thích ứng nhanh với hệ thống nhận

dạng tiếng nói mà không cần phải huấn luyện lại,

thích hợp với thực tế sử dụng tiếng nói nhúng trong

các vi hệ thống để điều khiển thiết bị tự hành

Ngoài ra chúng tôi cũng đã sử dụng được các đặc

điểm mạnh về lọc nhiễu tín hiệu tương tự, tính năng DMA của họ PSoC để nâng cao chất lượng tín hiệu tiếng nói và tối ưu tốc độ xử lý Hệ điều khiển tiếng nói đã có một quy trình sử dụng hợp lý để đảm bảo

an toàn khi hoạt động, giảm thiểu ảnh hưởng của nhiễu môi trường dẫn đến nhận dạng nhầm, không cho phép điều thiết bị tự hành hoạt động nằm ngoài mong muốn Ngoài ra

Kết quả thực nghiệm được áp dụng vào vấn đề nhận dạng khẩu tiếng Việt đã chứng tỏ phương pháp đề xuất cải tiến được đáng kể kết quả nhận dạng của hệ thống nhận dạng khẩu lệnh tiếng Việt độc lập người nói

Tài liệu tham khảo

[1] V RODELLAR-BIARGE, C GONZALEZ-CONCEJERO, E: MARTINEZ DE ICAYA, A ALVAREZ-MARQUINA, and P GÓMEZ-VILDA, Hardware Reusable Design of Feature Extraction for Distributed Speech Recognition, Proceedings of the 6th WSEAS International Conference on Applications of Electrical Engineering, Istanbul, Turkey, May 27-29, 2007 [2] Ravi Coote, Development of a Voice Control Interface for Navigating Robots and Evaluation

in Outdoor Environments, Proceedings of the International Multiconference on Computer Science and Information Technology pp 381–

388, ISBN 978-83-60810-27-9, ISSN

1896-7094

[3] Daniel Elenius, Mats Blomberg, Dynamic vocal tract length normalization in speech recognition,

Proceedings from Fonetik 2010 Lund, 2010,

ISSN 0280-526X, 29-34

[4] Tadashi Emori, Koichi Shinoda, Rapid vocal tract length normalization using maximum likelihood estimation, EUROSPEECH 2001 – Scandinavia, Aalborg, Denmark, 2001

[5] Yuet-Ming Lam, Man-Wai Mak, Philip

RECOGNITION SYSTEMS

[6] Chin-Hui Lee, Haizhou Li, Lin-shan Lee,

Ren-Hua Wang, Qiang Huo, Advances In Chinese

Spoken Language Processing, World Scientific

Publishing Co.Pte.Ltd, 2007, ISBN-13 978-981-256-904-2, (25-31)

[7] Li Lee, Richard C Rose Speaker normalization using efficient frequency warping procedures

ICASSP 1996, Atlanta, Georgia, USA, 1996 [8] Ngô Hoàng Huy, Tổ hợp đường F0 và VTLN cho nhận dạng tên riêng tiếng Việt, Tạp chí Tin học và Điều khiển học, trang 273 – 282, Tập 27,

số 3, 2011

[9] Sankaran Panchapagesan *, Abeer Alwan, Frequency warping for VTLN and speaker

Trang 9

adaptation by linear transformation of standard

MFCC Computer Speech and Language 23

(2009) , 42–64

[10] William R Rodr´ıguez, Oscar Saz, Antonio

Miguel and Eduardo Lleida On line vocal tract

length estimation for speaker normalization in

speech recognition, VI Jornadas en Tecnología

del Habla and II Iberian SLTech Workshop,

FALA 2010, Vigo, Spain, 2010

[11]Juhani Saastamoinen, Evgeny Karpov, Ville

Hautamäki, Pasi Fränti, Automatic Speaker

Recognition for Series 60 Mobile Devices

SPECOM’2004: 9th Conference Speech and

Computer St Petersburg, Russia September

20-22, 2004

[12]Engling Yeo, Automated Low-Power ASIC

Design For Speech Processing

[13]Puming Zhan and Alex Waibel, “Vocal tract

length normalization for large vocabulary

continuous speech recognition”, Technical

report, CMU-LTI-97-150, 1997

[14]Puming Zhan, Martin Westphal, Speaker normalization based on frequency warping,

ICASSP 1997, Munich , Bavaria, Germany,

1997

[15] Jia-Ching Wang, Jhing-Fa Wang*, Yu-Sheng Weng, Chip design of MFCC extraction for speech recognition, INTEGRATION, the VLSI journal 32 (2002) 111–131

[16]Shizhen Wang, Yi-Hui Lee, Abeer Alwan, Bark-shift based nonlinear speaker normalization using the second subglottal resonance,

INTERSPEECH 2009, Brighton UK,2009,

(1619-1622)

[17]Tài liệu kỹ thuật : PSoC® 5: CY8C55 Family Datasheet Cypress

[18]Tài liệu kỹ thuật OMAP3530,

http://www.ti.com/product/omap3530 [19]Đề tài cấp Bộ Thông tin và truyền thông 2011, Nghiên cứu thiết kế và chế tạo hệ thống điều khiển bằng hội thoại tiếng nói tiếng Việt hai chiều tích hợp cho xe lăn điện thông minh

Định dạng
Số trang	9
Dung lượng	477,43 KB