Ngoài ra hệ thống đã cải thiện được chất lượng nhận dạng với giọng nói chưa được huấn luyện khi kết hợp với phép chuẩn hóa đặc trưng MFCC theo độ dài bộ phận cấu âm VTLN, vocal tract len
Trang 1Thiết kế hệ thống nhận dạng khẩu lệnh tiếng Việt điều khiển thiết bị tự hành trên nền các vi hệ thống
với phép chuẩn hóa VTLN – MFCC Design of a Vietnamese voice control system for navigating devices based on system-on-chip with VTLN-MFCC
Ngô Hoàng Huy1, Phạm Thượng Cát1, Nguyễn Trịnh Nguyên2,
Nguyễn Tu Trung1, Ngô Trần Anh1
(1)
Viện Công nghệ Thông tin,Viện Khoa học và Công nghệ Việt Nam,
(2)
Đại học Nông lâm Tp Hồ Chí Minh e-Mail: {nhhuy, ptcat, nttrung, trananh}@ioit.ac.vn, nguyentrinhnguyen.edu@gmail.com
Tóm tắt
Bài báo này trình bày thiết kế và thử nghiệm hệ thống nhận dạng khẩu lệnh tiếng Việt để điều khiển thiết bị
tự hành Hệ thống nhận dạng tích hợp hoàn toàn trong một chip vi hệ thống điện năng thấp như họ PSoC5 lõi ARM9 M3 Cortex chip, 64KB RAM, 256KB Flash hoặc họ OMAP3 lõi ARM7,128MB RAM, được phát triển dựa trên mô hình nhận dạng Markov ẩn kết hợp, mạng nơ ron dự báo Ngoài ra hệ thống đã cải thiện được chất lượng nhận dạng với giọng nói chưa được huấn luyện khi kết hợp với phép chuẩn hóa đặc trưng MFCC theo
độ dài bộ phận cấu âm (VTLN, vocal tract length normalisation), rất thích hợp với một ngôn ngữ có thanh điệu như tiếng Việt Các kết quả thử nghiệm trong bài báo đã được áp dụng cho thực tế điều khiển robot hút bụi và
xe lăn điện, chứng tỏ rằng hệ nhận dạng khẩu lệnh tiếng Việt đã đáp ứng được yêu cầu nhúng hoàn toàn trong một vi hệ thống với tài nguyên bộ nhớ và năng lực tính toán rất hạn chế cho xử lý tiếng nói, chuẩn hóa tốt biến thiên tần số của người nói mới và cho kết quả nhận dạng và thời gian đáp ứng so sánh được với cùng hệ thống chạy trên PC
Abstract
In this study, results of a Vietnamese continuous speech recognition system controlling navigating devices were exprimented and presented The speech recognition which is fully integrated in a mini system-on-chip such as PSoC5 with ARM9 M3 Cortex chip, 64KB RAM, 256KB Flash, OMAP3530 with ARM7 chip 128MB RAM, is developed based on Hidden Markov Model and Predictive Neural Network These results also show that the performance in recognizing new speakers in combinating with normalization VTLN is actually improved, which are quite compatible with tonal languages such as Vietnamese These results are also applied
in sucessfully controlling vacuum robots and electric wheel chairs It is this shows that the Vietnamese continuous speech recognition system actually supply the requirements of fully embedded in a mini system with very limited memory resources and calculating for speech processing, and well normalize frequency variation of new speakers, providing likely results and time comparable with the same running in personal computer
Chữ viết tắt
VTLN
PSoC
vocal tract length normal
Programmable System on Chip
MFCC Đặc trưng MFCC
1 Phần mở đầu
Nghiên cứu, thiết kế các hệ thống nhận dạng khẩu
lệnh để điều khiển thiết bị đã được phát triển và
ứng dụng rộng rãi Một số hệ thống nhận dạng
khẩu lệnh kết hợp với hiểu đối thoại hữu dụng như
Siri đã trở nên quen thuộc với người sử dụng Tuy
nhiên hầu hết các hệ thống này đều chạy trên môi
trường PC hoặc di động có lõi vi xử lý với tài nguyên bộ nhớ và năng lực tính toán mạnh Hệ thống nhận dạng khẩu lệnh trên chip tiêu thụ điện năng thấp và tài nguyên hạn chế, đặc biệt là trên các chip vi hệ thống vẫn là vấn đề phức tạp, cần đầu tư nghiên cứu PSoC một họ chip vi hệ thống nổi tiếng với tính năng tái cấu hình, được ứng dụng rộng rãi trong thiết kế các hệ thống đo và điều khiển, nhưng chưa có một giải pháp tích hợp
hệ thống nhận dạng khẩu lệnh trên nó được công
bố trên thế giới
Một số nghiên cứu gần đây đã khảo sát đường thanh điệu tiếng Việt trong ngữ cảnh để nhận dạng thanh điệu và cải tiến kết quả nhận dạng từ và câu
Trang 2tiếng Việt [7,8,10,12] với tiếp cận ghép trực tiếp
đặc trưng thanh điệu vào các kiểu đặc trưng tiếng
nói như MFCC [10,12] hoặc sử dụng các đặc trưng
F0, các tần số formant và VTLN để hiệu chỉnh lại
các đặc trưng MFCC dẫn đến kiểu đặc trưng
không phụ thuộc người nói trong cả quá trình huấn
luyện và nhận dạng, qua đó kết quả nhận dạng của
các hệ thống không phụ thuộc người nói được cải
thiện đáng kế [5, 8, 9,10]
Các hệ thống nhận dạng tiếng nói hiện nay hầu hết
đều sử mô hình Markov ẩn HMM (Hidden Markov
Model), khi ứng dụng thuật toán nhận dạng HMM
trên cho việc nhận dạng tiếng nói liên tục không
phụ thuộc người nói, hệ thống thường suy giảm độ
chính xác với những người nói có có đặc trưng
giọng nói không phù hợp với những mẫu giọng
được sử dụng để huấn luyện mô hình HMM
Bài báo này trình bày phương pháp thiết kế hệ
nhận dạng khẩu lệnh tiếng Việt điều khiển thiết bị
di động như robot hút bui, xe lăn điện dựa trên
chip vi hệ thống họ PSoC5 và OMAP3, các đặc trưng MFCC đã được hiệu chỉnh theo VTLN và các tính toán đặc trưng và quá trình giải mã HMM được tăng tốc nhờ các phép tính toán chấm tĩnh độ chính xác cao cho hiệu năng và chất lượng nhận dạng so sánh được với cùng hệ thống trên PC
2 Quy trình nhận dạng tiếng nói
Để thiết kế một robot hút bụi có khả năng hội thoại bằng tiếng Việt (nhận biết khẩu lệnh và thực hiện cũng như hồi đáp bằng tiếng Việt) chúng ta cần nghiên cứu tích hợp các công nghệ điều khiển robot, nhận dạng và tổng hợp tiếng Việt trên một chip (system-on-chip), với tín hiệu thu nhận được
là có nhiễu của môi trường văn phòng, nhà ở và độ
ồn của chính robot hút bụi (âm lượng khoảng 80dB)
H 1 Sơ đồ tích hợp nhận dạng tiếng nói điều khiển thiết bị
Khó khăn cơ bản của nhận dạng tiếng nói đó là
tiếng nói luôn biến thiên theo thời gian và có sự
khác biệt lớn giữa tiếng nói của những người nói
khác nhau, tốc độ nói, ngữ cảnh và môi trường âm
học khác nhau Đây là một nhiệm vụ rất khó khăn
mà ngay cả với các kỹ thuật xác suất thống kê
mạnh nhất cũng bị hạn chế trong việc tổng quát
hoá từ các mẫu tiếng nói những biến thiên quan trọng cần thiết trong nhận dạng tiếng nói
Trong quy trình nhận dạng tiếng nói, Tiền xử lý
(thu nhận tiếng nói, khử nhiễu và tìm kiếm điểm đầu cuối tiếng nói), Trích chọn đặc trưng kết hợp với phép hiệu chỉnh biến thiên tần số của người nói mới là các khâu rất quan trọng để nâng cao độ
Trang 3chính xác nhận dạng khẩu lệnh tiếng Việt trong
khi các thiết bị đang hoạt động
3 Thu nhận tiếng nói và lọc nhiễu trên họ
PSOC
Việc thu nhận mẫu tiếng nói thường được thực
hiện thông qua một bộ ADC (Analog-Digital
Converter) Các thông số quan trọng bao gồm số
bit cho một mẫu (thông thường là từ 8 đến 16 bit),
tần số lấy mẫu (thông thường từ 8Khz-16Khz) Những thông số này liên quan nhiều tới hiệu năng,
độ phức tạp thiết kế cũng như kết quả nhận dạng của hệ thống nhúng Với họ chip PSOC và OMAP3, vấn đề khó khăn chung khi thực hiện việc thu nhận tiếng nói vẫn là sự hạn chế về tài nguyên khi phải đảm bảo yêu câu về bộ nhớ và tốc
độ thu lớn
H 2 Mạch 2 mic thu nhận tiếng nói
H 3 Thu nhận tiếng nói dùng DMA trên PSoC5
Tiếng nói thu nhận trong môi trường tự nhiên
(ngoại cảnh, trong văn phòng v.v ) và công nghiệp
nơi thiết bị hoạt động thường chứa nhiều tạp âm
Không dễ gì có thể lọc được mọi thứ nhiễu do tính
ngẫu nhiên của nhiễu và môi trường và đường
truyền dẫn âm học như hiện tượng dội lại, mà ta
chỉ tìm cách tối thiểu hoá chúng để có thể nâng
cao chất lượng của hệ thống nhận dạng
Sử dụng tính năng mạnh hỗ trợ bộ lọc tương tự
của PSoC5, trong quá trình thu nhận tiếng nói, hệ
thống được xử lý nhiễu qua 2 pha: pha 1 là lọc tương tự, pha 2 là lọc số (như bộ lọc RASTA) Bảng 1: Bảng cấu hình GAIN kết hợp bộ lọc thông
thấp
PGA Gain
Tỉ lệ C1/C2
LPF Gain (dB)
Điện
áp LPF GAIN
Hệ số GAIN cuối
Trang 4H 4 Tham số bộ lọc tín hiệu khi cấu hình cho PSoC
H 5 Phổ tín hiệu có nhiễu động cơ hút bụi và tín
hiệu sạch
4 Phép chuẩn hóa VTLN cho các hệ số
MFCC
Các hệ nhận dạng tiếng nói thường trích chọn đặc
trưng của mỗi khung tiếng nói (độ dài 10ms-25ms)
theo kiểu MFCC ở thang tần số mel dựa trên đặc điểm cảm thụ tần số âm của tai người, tuy vậy các
hệ số MFCC không thể hiện được các biến thể bên trong của mỗi người nói như VTL (vocal tract length, độ dài bộ cấu âm), dẫn đến việc suy giảm chất lượng nhận dạng trong các hệ thống nhận dạng độc lập người nói
VTLN là phép chuẩn hóa tín hiệu tiếng nói để VTL đạt được mức trung bình nhờ các tham số hiệu chỉnh tần số cho mỗi người nói hoặc một phát
âm Có hai tiếp cận chính cho VTLN, một là ước lượng hệ số hiệu chỉnh tần số dựa vào đặc điểm
âm học của người nói như các tần số formant, hai
là cách duyệt trên lưới của tham số hiệu chỉnh để tối ưu hóa hàm mục tiêu của mô hình nhận dạng
H 6 Hiệu chỉnh tần số VTL và trích chọn đặc trưng MFCC
Phép hiệu chỉnh VTL hoạt động như sau:
Trang 5Biểu diễn tiếng nói đầu vào đã qua tiền xử lý x(t)
trong miền tần số bằng biến đổi FFT: X()=
H()S() + N(), ở đó H() là biến dạng kênh và
N() nhiễu cộng của tín hiệu Sử dụng M bộ lọc
tam giác với khoảng cách giữa các vị trí k trong
thang tần số mel:
1
1 1
1
1 1
( )
k
k
k
B
2
[ , ]
k k
k
MFCC(n) =
1
0
1 2
M
m
M
0nN-1
Khi đó với phép hiệu chỉnh tần số có dạng ’=
() thì công thức (*) trở thành:
1 1
2
k
Bảng dưới đây cho ta một số dạng biến đổi tuyến
tính và phi tuyến của hàm (), sử dụng hàm:
( ) 1127 ln 1
2 700
s
f
, [0,] và
fs là tần số lấy mẫu và
1
1
1
2 ,
1
2 2 ( ) , ,
1 1 2 ,
1
l
u
Để giải quyết vấn đề hạn chế về tài nguyên tính
toán và tài nguyên bộ nhớ, khi tích hợp hệ thống
nhận dạng tiếng nói trên các vi hệ thống, việc tính
toán các hệ số MFCC được xử lý hiệu quả với các
phép tính chẫm tĩnh (fixed point) [15]
Thuật toán nhận dạng tiếng nói dựa trên HMM với
đặc trưng MFCC gồm hai phần: Huấn luyện và
nhận dạng
4.1 Huấn luyện với HMM
Đầu vào gồm T frame các đặc trưng MFCC
Bước 1: Xác định dãy trạng thái tối ưu bằng thuật
toán Viterbi:
1
1
T T
t
Bước 2: Hiệu chỉnh lại tham số mô hình HMM:
*
1
T
t
Bước 3: Đặt =*, lặp lại tới khi mô hình hội tụ
4.2 Nhân dạng với HMM
Đầu vào gồm T frame các đặc trưng MFCC
Giải mã theo Viterbi để xác định tập nhãn, và dãy trạng thái tối ưu ứng với bộ tham số mô hình HMM đã cho:
1
1
( , { } ) arg max log ( , )
T T
t
Sử dụng chính hàm mục tiêu của các mô hình HMM (, ), tham số hiệu chỉnh tần số [min,
max] có thể ước lượng trên từng phát âm tiếng nói đầu vào [2,3,10s] theo công thức sau:
min ax
1
1
1
( , { } ) argmax log ( , )
m
T T
t T
t
p O s O O
Để chuẩn hóa biến thiên tần số của người nói mới phép chuẩn hóa VTLN để được tích hợp trong mô hình nhận dạng HMM như sau:
5.1 Huấn luyện với HMM:
Với mỗi phát âm tiếng nói đã gán nhãn W, gồm T frame
Bước 1: Khởi tạo =1.0 và xác định dãy trạng thái tối ưu bằng thuật toán Viterbi:
1
1
T T
t
S s p O W O O
Bước 2: Duyệt tìm giá trị tối ưu trên lưới giá trị của tham số :
min ax
*
[ , ]
1
arg max log ( , ), ( )
m T
t
p O s O O
Bước 3: Thực hiện phân đoạn cưỡng bức (forced alignment) dựa trên bộ nhãn W và tham số hiệu chỉnh * và hiệu chỉnh lại tham số mô hình HMM:
*
*
1
T
t
p O s W O O
Bước 4: Đặt =*, và =*, lặp lại tới khi mô hình hội tụ
5.2 Nhận dạng với HMM
Với một phát âm đầu vào gồm T frame
Bước 1: Giải mã theo Viterbi để xác định tập nhãn, và dãy trạng thái tối ưu ứng với bộ tham số
mô hình HMM đã cho:
Trang 61 ( , { } ) argmax log ( , )
T T
t
Bước 2: Duyệt tìm giá trị tối ưu trên lưới giá trị
của tham số :
min ax
*
[ , ]
1
argmax log ( , ), ( )
m T
t
p O s O O
Bước 3: Giải mã Viterbi lần nữa với tham số * để
xác định tập nhãn đầu ra:
*
*
1
arg max log ( , )
T
t
Độ phức tạp của thuật toán HMM có kết hợp với
VTLN là O(KVN2T), trong đó K là số giá trị rời
rạc hóa trên lưới giá trị của tham số [min,
max] (ở đây min = 0.85, max = 1.15, mức rời rạc
hóa theo bước 0.0001), N là số trạng thái của mô
hình HMM (N = 5 trong thử nghiệm này), V số
phần tử từ vựng (V = 117 trong thử nghiệm này, là
số âm vị với các nguyên âm mang thanh điệu) ,T
là số frame đầu vào [8]
Ngoài ra, để tích hợp hệ thống nhận dạng tiếng nói
trên các vi hệ thống (SoC) với tài nguyên bộ nhớ
hạn chế như PSoC chúng tôi cài đặt thêm phương
pháp nhận dạng theo mô hình mạng Nơron dự báo
tựa HMM như sau:
Ứng với tập mẫu huấn luyện của một lệnh, ta
xây dựng một mạng Nơron 3 tầng, một tầng ra,
một tầng vào và một tầng ẩn như sau:
Giả sử ta xây dựng mạng nơron NRx ứng
với người nói x với tập M mẫu giọng T = (T1,
T2, …, TM)
Với mỗi file dữ liệu Tj (j = 1, 2,…, M) ta
tiến hành trích chọn đặc trưng bằng MFCC
Chúng ta có một tập M vector 12 chiều đầu
vào
Với mỗi đoạn, tại frame thứ i ta có vector đặc
trưng Pi(a0i,a1i, ,a11i ), frame thứ i + 1 ta có
vector đặc trưng Pi+1( , , , 1)
11 1 1 1 0
i
a a
Nơron sẽ có đầu vào và đầu ra như sau:
Input: {(a0i,a1i, ,a11i ),(a0i1,a1i1, ,a11i1)}
Output: {(b0i2,b1i2, ,b11i2)}
Đầu ra của mạng Nơron dự báo sẽ là vector
P’i+2( , , , ' 2)
11 2 1
2
0
i
b b
b tương ứng với frame
thứ i + 2
Vector đặc trưng của frame thứ i + 2:
Pi+2( , , , 2)
11 2 1
2
0
i
a a
a
Trọng số mạng được hiệu chỉnh dựa trên sai số
||e|| , với ||e||2 = ½(e22 + e32 +…+e112) với ej =
||a i j2b i j2||; j = 2, 3, …,11, và thuật toán lan truyền ngược
Sai số của mạng Nơron là: e
2
1
2
P
e
P
j j
, ở
đây ej là sai số dự báo của frame j
Lần lượt tính sai số của đoạn âm thanh kiểm tra trong mỗi mạng Nơron Sai số nhỏ nhất ứng với mạng Nơron phù hợp nhất
6 Điều khiển thiết bị tự hành bằng tiếng nói
Để điều khiển xe lăn điện di chuyển, người điều khiển ngồi trên xe lăn và đọc vào một trong 14 lệnh như ở bảng 2 dưới đây Để kiểm soát độ an toàn cho người điều khiển xe, hệ thống khẩu lệnh chỉ kích hoạt hành động khi người điều khiển đọc
đúng câu lệnh khởi động “Kích hoạt hệ thống”, ngược lại khi người dùng ra lệnh nhanh “Tắt”, hệ
thống sẽ không nhận dạng mệnh lệnh đưa vào tiếp sau đó Một khó khăn có thể gây ra nhận dạng
nhầm khẩu lệnh “Tắt”, là do các xe lăn khi kích
hoạt từ mệnh lệnh nhận dạng được có thể phát ra tiếng “cạch” có thể nhận dạng nhầm với khẩu lệnh
“Tắt” Chúng tôi đã tích hợp một thuật toán phân lớp hiệu quả đạt 100% độ chính xác dựa trên mạng nơron dự báo để phân biệt, và hệ thống đã phân biệt đúng các tín hiệu gây ồn của thiết bị với khẩu
lệnh “Tắt” Ngoài ra khẩu lệnh “Kích hoạt hệ thống” được chọn để đảm bảo hệ thống không
nhận dạng nhầm khẩu lệnh khởi động này
Bảng 2: Khẩu lệnh điều khiển xe lăn
“Kích hoạt hệ thống” Yêu cầu hệ thống
nhận dạng khẩu lệnh làm việc
nhận dạng khẩu lệnh
“Dừng” | “Dừng lại” Dừng xe
“Tiếp tục” Tiếp tục chạy theo
khẩu lệnh đã có
“Tăng tốc” | “Tăng tốc độ”
Tăng tốc độ
“Giảm tốc” | “Giảm tốc độ”
Giảm tốc độ
“Tiến” | “Đi” Đi về phía trước
“Lùi” | “Lùi lại” Lùi về sau
“Sang trái” | ”Đi sang trái”
Về phía trước theo hướng trái
“Sang phải” | “Đi sang phải”
Về phía trước theo hướng phải
Trang 7“Lùi trái” |”Lùi sang
trái”
Về phía sau theo hướng trái
“Lùi phải”|”Lùi sang
phải”
Về phía sau theo hướng phải
“Quay trái” |”Xoay
trái”
Quay trái
“Quay phải” |”Xoay
phải”
Quay phải
H 5 Điều khiển xe lăn điện bằng tiếng nói của
nhóm tác giả [19]
Bảng 3: Khẩu lệnh điều khiển Robot hút bụi
lệnh
“Bật khẩu lệnh” Yêu cầu hệ thống
nhận dạng khẩu lệnh làm việc
“Tắt khẩu lệnh” Vô hiệu hóa hệ
thống nhận dạng khẩu lệnh
“Tiến” | “Đi thẳng” Đi về phía trước
“Lùi” | “Lùi lại” Lùi về sau
“Quay trái” |”Xoay
trái”
Quay trái
“Quay phải” |”Xoay
phải”
Quay phải
rắc
vật cản, quay một góc ngẫu nhiên và đi tiếp
Một thử nghiệm tương tự cũng đang được nhóm
tác giả tiến hành cho robot hút bụi hoạt động trong
môi trường trong nhà, văn phòng Hệ thống nhận
dạng tiếng nói được thiết kế cho họ PSoC5, luôn
kiểm tra trạng thái hiện thời của robot hút bụi và tính tương thích của khẩu lệnh đưa vào để điều khiển robot hoạt động thay cho việc sử dụng các bảng điều khiển từ xa Bảng 3 nêu trên là một số khẩu lệnh để điều khiển robot hút bụi di chuyển, phủ diện tích căn phòng và hút bụi Bước đầu robot hút bụi được lập trình di chuyển theo chế độ
đi ngẫu nhiên (đi thẳng, gặp vật cản thì xoay và bám tường v.v…)
H 7 Robot hút bụi được thiết kế bởi nhóm tác giả
7 Thử nghiệm
Dữ liệu huấn luyện nhanh các mô hình HMM của các âm vị tiếng Việt là các bài đọc truyện và tin tức của 2 phát thanh viên (một nam, một nữ giọng
Hà Nội) của đài tiếng nói Việt Nam, dung lượng
dữ liệu hơn 1GB, và chưa được gán nhãn ngữ âm
Dữ liệu huấn luyện thích ứng được ghi bởi giọng đọc của 12 nam, 10 nữ sinh viên, môi trường tín hiệu trong lớp học trên giảng đường, mỗi sinh viên đọc 30 lệnh đúng một lượt Tín hiệu thu có tần số lấy mẫu 16000Hz, đơn kênh 16 bit và có nhiễu
Dữ liệu kiểm tra hệ thống nhận dạng là giọng đọc của 3 nam, 6 nữ sinh viên và một giọng nữ tiếng miền Nam, được thu trong cùng môi trường tín hiệu như với dữ liệu huấn luyện thích ứng
Khi tiến hành thử nghiệm, chúng tôi sử dụng phiên bản HTK 3.4 để huấn luyện, kiểm thử và trích chọn đặc trưng MFCC thông thường Để tich hợp cho các vi hệ thống như OMAP3, nhân của HTK 3.4 đã được sửa đổi ở các thuật toán trích chọn đặc trưng MFCC có hỗ trợ các phép toán fixed point
và thuật toán dò tìm tiếng nói (End point detection) hiệu quả riêng của nhóm tác giả
Tập âm vị tiếng Việt gồm khoảng 52 âm vị bao gồm các phụ âm đầu, âm đệm, nguyên âm chính với thanh điệu và âm cuối tương ứng với 52 mô hình HMM cần được huấn luyện
Trang 8Giá trị đường F0 và các vector đặc trưng MFCC
được trích chọn với các frame độ dài 25 mili giây,
phần trùng nhau giữa 2 frame liên tiếp là 15 mili
giây Các vector đặc trưng gồm 12 hệ số MFCC và
1 hệ số năng lượng và các sai phân bậc 1 và bậc 2
của 13 hệ số này Các HMM có hàm mật độ xác
suất liên tục Việc hiệu chỉnh các vector MFCC và
ghép giá trị F0 sử dụng phương pháp đã trình bày
ở trên
Bảng 4: Bảng kết quả thực nghiệm kiểm tra trên
tập 10 người nói
Người
đọc
Đặc trưng
chuẩn
MFCC
Đặc trưng
F0
F0
mức
từ
mức câu
mức
từ
mức câu
mức
từ
mức câu Nu1 98,3 96,5 99,5 96,0 98,7 96,8
Nu2 99,0 97,0 99,0 96,4 99,0 96,7
Nu3 98,5 96,8 98,4 96,0 98,4 97,0
Nu4 99,4 98,4 98,8 96,5 98,9 98,2
Nu5 98,5 96,1 98,9 96,5 99,2 97,5
Nu7 98,7 96,6 98,6 97,5 99,1 97,5
Nam1 99,5 98,5 99,5 98,0 99,5 98,3
Nam2 98,3 96,0 98,5 96,4 98,7 97,7
Nam3 99,1 97,8 99,0 97,9 99,3 98,2
Trung
bình
98,5 96,8
4
98,7
3
96,8
1
98,9
6
97,5
1
Quan sát bảng thực nghiệm 2, kết quả nhận dạng
của “Nu6” thấp do đây là một giọng nói tiếng
miền Nam, thanh điệu và các tham số VTL hoàn
toàn khác so với các giọng đọc trong tập huấn
luyện (chỉ có giọng miền Bắc)
8 Kết luận và hướng phát triển
Theo nội dung đã trình bày ở trên, các giá trị của
đường F0 và độ dài bộ phận cấu âm của mỗi giọng
nói đã ảnh hưởng đến kết quả nhận dạng khẩu lệnh
tiếng Việt Để tích hợp các giá trị này vào hệ thống
nhận dạng, đầu tiên áp dụng phép chuẩn hóa kiểu
VTLN cho tiếng nói đầu vào để hiệu chỉnh lại tần
số trước khi tính các hệ số MFCC như thông
thường, và chuyển tới bộ huấn luyện hoặc giải mã
của các HMM Phép chuẩn hóa cho phép một giọng
nói mới được thích ứng nhanh với hệ thống nhận
dạng tiếng nói mà không cần phải huấn luyện lại,
thích hợp với thực tế sử dụng tiếng nói nhúng trong
các vi hệ thống để điều khiển thiết bị tự hành
Ngoài ra chúng tôi cũng đã sử dụng được các đặc
điểm mạnh về lọc nhiễu tín hiệu tương tự, tính năng DMA của họ PSoC để nâng cao chất lượng tín hiệu tiếng nói và tối ưu tốc độ xử lý Hệ điều khiển tiếng nói đã có một quy trình sử dụng hợp lý để đảm bảo
an toàn khi hoạt động, giảm thiểu ảnh hưởng của nhiễu môi trường dẫn đến nhận dạng nhầm, không cho phép điều thiết bị tự hành hoạt động nằm ngoài mong muốn Ngoài ra
Kết quả thực nghiệm được áp dụng vào vấn đề nhận dạng khẩu tiếng Việt đã chứng tỏ phương pháp đề xuất cải tiến được đáng kể kết quả nhận dạng của hệ thống nhận dạng khẩu lệnh tiếng Việt độc lập người nói
Tài liệu tham khảo
[1] V RODELLAR-BIARGE, C GONZALEZ-CONCEJERO, E: MARTINEZ DE ICAYA, A ALVAREZ-MARQUINA, and P GÓMEZ-VILDA, Hardware Reusable Design of Feature Extraction for Distributed Speech Recognition, Proceedings of the 6th WSEAS International Conference on Applications of Electrical Engineering, Istanbul, Turkey, May 27-29, 2007 [2] Ravi Coote, Development of a Voice Control Interface for Navigating Robots and Evaluation
in Outdoor Environments, Proceedings of the International Multiconference on Computer Science and Information Technology pp 381–
388, ISBN 978-83-60810-27-9, ISSN
1896-7094
[3] Daniel Elenius, Mats Blomberg, Dynamic vocal tract length normalization in speech recognition,
Proceedings from Fonetik 2010 Lund, 2010,
ISSN 0280-526X, 29-34
[4] Tadashi Emori, Koichi Shinoda, Rapid vocal tract length normalization using maximum likelihood estimation, EUROSPEECH 2001 – Scandinavia, Aalborg, Denmark, 2001
[5] Yuet-Ming Lam, Man-Wai Mak, Philip
RECOGNITION SYSTEMS
[6] Chin-Hui Lee, Haizhou Li, Lin-shan Lee,
Ren-Hua Wang, Qiang Huo, Advances In Chinese
Spoken Language Processing, World Scientific
Publishing Co.Pte.Ltd, 2007, ISBN-13 978-981-256-904-2, (25-31)
[7] Li Lee, Richard C Rose Speaker normalization using efficient frequency warping procedures
ICASSP 1996, Atlanta, Georgia, USA, 1996 [8] Ngô Hoàng Huy, Tổ hợp đường F0 và VTLN cho nhận dạng tên riêng tiếng Việt, Tạp chí Tin học và Điều khiển học, trang 273 – 282, Tập 27,
số 3, 2011
[9] Sankaran Panchapagesan *, Abeer Alwan, Frequency warping for VTLN and speaker
Trang 9adaptation by linear transformation of standard
MFCC Computer Speech and Language 23
(2009) , 42–64
[10] William R Rodr´ıguez, Oscar Saz, Antonio
Miguel and Eduardo Lleida On line vocal tract
length estimation for speaker normalization in
speech recognition, VI Jornadas en Tecnología
del Habla and II Iberian SLTech Workshop,
FALA 2010, Vigo, Spain, 2010
[11]Juhani Saastamoinen, Evgeny Karpov, Ville
Hautamäki, Pasi Fränti, Automatic Speaker
Recognition for Series 60 Mobile Devices
SPECOM’2004: 9th Conference Speech and
Computer St Petersburg, Russia September
20-22, 2004
[12]Engling Yeo, Automated Low-Power ASIC
Design For Speech Processing
[13]Puming Zhan and Alex Waibel, “Vocal tract
length normalization for large vocabulary
continuous speech recognition”, Technical
report, CMU-LTI-97-150, 1997
[14]Puming Zhan, Martin Westphal, Speaker normalization based on frequency warping,
ICASSP 1997, Munich , Bavaria, Germany,
1997
[15] Jia-Ching Wang, Jhing-Fa Wang*, Yu-Sheng Weng, Chip design of MFCC extraction for speech recognition, INTEGRATION, the VLSI journal 32 (2002) 111–131
[16]Shizhen Wang, Yi-Hui Lee, Abeer Alwan, Bark-shift based nonlinear speaker normalization using the second subglottal resonance,
INTERSPEECH 2009, Brighton UK,2009,
(1619-1622)
[17]Tài liệu kỹ thuật : PSoC® 5: CY8C55 Family Datasheet Cypress
[18]Tài liệu kỹ thuật OMAP3530,
http://www.ti.com/product/omap3530 [19]Đề tài cấp Bộ Thông tin và truyền thông 2011, Nghiên cứu thiết kế và chế tạo hệ thống điều khiển bằng hội thoại tiếng nói tiếng Việt hai chiều tích hợp cho xe lăn điện thông minh