DANH MUC BANG Bang 1 Tile lai Gr % ca hé théng nhan dạng giọng nói sứ dụng hai tính Bảng 2 Tỉ lệ lỗi từ %4 của hệ thống nhận đạng giọng nói sửa dụng các mô hình âm thanh GMM và DNN m
Trang 1LUẬN VĂN THẠC SĨ KHOA HỌC
TIN HỌC CÔNG NGHIỆP
TIà Nội 2018
Trang 2BO GIAO DUC VA DAO TAO TRUONG DAI HOC BACH KHOA HA NOL
DINiT MANIL CƯỜNG
NGHIEN CUU XAY DUNG HE THONG NHAN DANG TIENG NOI TIENG VIET UNG
DUNG FRONG TONG DAL CHAM SOC KHACH HANG TU DONG
Chuyên ngành : Đo lường và các hệ thẳng điều khiển
LUẬN VĂN THẠC SĨ KHOA HỌC
TIN HỌC CÔNG NGHIỆP
NGƯỜI HƯỚNG DẪN KHOA HỌC 'T8 Nguyễn Việt Sơn
Hã Nội 2018
Trang 3
LOLCAM ON
Đầu tiên, tôi xin được gửi lời cảm ơn chân thành tới Viện nghiên cứu quốc
tế MICA nơi đã tạo điều kiện cho tôi thực hiện luận văn nảy Tôi xin chân thành
cảm ơn T8 Nguyễn Việt Sơn - ngưới hướng dẫn tôi trong suốt thời gian qua để
tôi có thể hoàn thành luận văn
Ngoài ra, tôi xin gửi lời căm ơn đến Ban lãnh đạo Viện Điện, Phong Dao
tạo lrường Dại học Bách khoa Hà Nội cùng các thầy, cô giáo đã hướng dẫn và
giúp đỡ tôi trong quá trình học tập, nghiên cứu Tiến đến, tôi xin cắm ơn trung
tâm không gian mạng VIHI'1EL, nơi tôi làm việc, đã tạo điều kiên và giúp đỡ tôi trong việc hoàn thành hệ thống Tả tôi trinh bảy trong luận văn thạc sỹ này Tôi
cũng xm gửi lời cám ơn trân trọng đến anh Nguyễn Quốc Bão cùng Loàn thể đồng:
nghiệp của tôi tại nhóm voice trung tim không gian mạng VIETTEL, ban gián! đốc trung tâm cùng toàn thể anh chị em trong trung tâm đã giúp đỡ hỗ trợ tôi
trong quá trình hoàn thành luận văn thạc sỹ này
Và cuối củng, tôi xin gửi lời cẩm ơn chân thành tới gia đình, bạn bẻ những
người luôn ở bên cạnh động viên, truyền cảm hứng cho tôi, để tôi có thể đạt tới
giấc mơ của mình
Hà Nội, ngày 18 tháng 08 năm
2018
Dinh Manh Cuong
Trang 42.3 Mô hình âm họ:
2.4 Mô hình ngôn ngữ N-gram
2.4.2 Vấn dé pap phải khi đùng N-Gram a AB
2.4.3 Phương pháp chiết khẩu add-alpha
2.5 Mô hình DNN và ứng ¡ dụng trong nhận n dang tiéng nói
2.5.1 Cấu trúc mô hình "
2.5.2 Mô hình IIMM-DRA trong nhận dang t tiéng n
2.7 Tim hiéu framework KALDI
CHƯƠNG 3 ĐÁNH GIÁ THỨ NGHIÊM HE THONG NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT TRONG TONG ĐÀI CHĂM SÓC KHÁCH HANG TU BONG
3.1 Đánh giá một số yêu tổ ảnh hưởng tới chất lượng nhận dạng, Tông nói tiếng Việt và cách cải thiện chất lượng với từng yếu tô
3.1.1 Đánh giả sự ảnh hướng của kênh trưyền diện thoại đến chất lượng nhận
dạng S58 3.1.2 Đảnh giá sự ánh hưởng cách nói của người sử ữ dụng hệ thống nhận dang dén chất lượng nhận dang - a 60
3.1.3 Đánh piá su ảnh hưởng của mô hình ngôn ngữ xây dựng trên các nguồn
dữ liệu khác nhau đến chất lượng nhận dạng - 62 3.1.4 Đánh giá ảnh hướng của nhiễu tới chất lượng nhận dạng trong mỗ hình tổng dài chăm sóc khách hàng tự dộng —-
3.1.5 Kết hiận sự ảnh hưởng của các yếu tổ và để xuất giải pháp cải thiện
71 3.2 Giai phap tao tir dién phát âm tự động cho nhận dạng tiếng mái
tiếng
3.2.1 Đề xuất giải pháp tư dộng, cee TZ
3.2.2 Tao từ điễn cho từ vay mượn
Trang 52.3 Mô hình âm họ:
2.4 Mô hình ngôn ngữ N-gram
2.4.2 Vấn dé pap phải khi đùng N-Gram a AB
2.4.3 Phương pháp chiết khẩu add-alpha
2.5 Mô hình DNN và ứng ¡ dụng trong nhận n dang tiéng nói
2.5.1 Cấu trúc mô hình "
2.5.2 Mô hình IIMM-DRA trong nhận dang t tiéng n
2.7 Tim hiéu framework KALDI
CHƯƠNG 3 ĐÁNH GIÁ THỨ NGHIÊM HE THONG NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT TRONG TONG ĐÀI CHĂM SÓC KHÁCH HANG TU BONG
3.1 Đánh giá một số yêu tổ ảnh hưởng tới chất lượng nhận dạng, Tông nói tiếng Việt và cách cải thiện chất lượng với từng yếu tô
3.1.1 Đánh giả sự ảnh hướng của kênh trưyền diện thoại đến chất lượng nhận
dạng S58 3.1.2 Đảnh giá sự ánh hưởng cách nói của người sử ữ dụng hệ thống nhận dang dén chất lượng nhận dang - a 60
3.1.3 Đánh piá su ảnh hưởng của mô hình ngôn ngữ xây dựng trên các nguồn
dữ liệu khác nhau đến chất lượng nhận dạng - 62 3.1.4 Đánh giá ảnh hướng của nhiễu tới chất lượng nhận dạng trong mỗ hình tổng dài chăm sóc khách hàng tự dộng —-
3.1.5 Kết hiận sự ảnh hưởng của các yếu tổ và để xuất giải pháp cải thiện
71 3.2 Giai phap tao tir dién phát âm tự động cho nhận dạng tiếng mái
tiếng
3.2.1 Đề xuất giải pháp tư dộng, cee TZ
3.2.2 Tao từ điễn cho từ vay mượn
Trang 6DANH MUC BANG
Bang 1 Tile lai Gr (%) ca hé théng nhan dạng giọng nói sứ dụng hai tính
Bảng 2 Tỉ lệ lỗi từ (%4) của hệ thống nhận đạng giọng nói sửa dụng các mô
hình âm thanh GMM và DNN mà không có và có tăng cường dữ liệu
Bang 3 Két qua thử nghiệm sự ảnh hưởng của kênh truyền (wer %%) 59
Bang 4 Két qua thử nghiệm sự ảnh hưởng của cách nói (wer %%)
Bang 5 Perplexity cho bởi 2 mô hình ngôn ngữ với 3 tập dữ liệu text khác
Rang 6 WER(%) cho héi cac hé théng nhận dang với các mô hình ngôn
Bang 7 Các mẫu dữ liệu ử các môi trường khác nhau
Bang & Các mô hình nhận dang khac ohau
Bang 9 Kết quã thực nghiệm mô hình có thanh điệu trên tập dữ liệu VOV
Trang 7
3.2.3 Thử nghiệm mô hình có thanh điệu "——— T5
3.3 Cải tiến mô hình âm học sử đụng mô hình lai ghép IIMM/DNN76 3.3.1 Mô hình mạng lai ghép sử dụng mạng nơron học sâu DNN 6
3.3.2 Huấn luyện mạng trong thực nghiệm ce TT
3.3.3 Kết quả thử nghiệm
CHƯƠNG 4 KẾT LUẬN VA HUO
4.1 Công việc đã thực hiện
4.2 Các vẫn đề còn tồn tạ
4.3 Dễ cải thiện thêm định hướng trong thời gian tới
TÀI LIỆU THAM KHÁO
G PHÁT TRIEN
Trang 8
DANH MỤC HÌNH ÁNH
1Bnh 1 Miêu tả hệ thống nhận dang tiếng nói để phân loại cuộc g:
Hình 2 Hệ thống nhận dạng tiếng nói điến hình
Hình 3 Các khâu trong trích xuất đặc trưng
Hình 6 8o sánh bai loại cứa số Reclangular và Hamming
1Bnh 7 Tác động của DET tới cửa số
Hinh 12 Ham mật độ phân phối gồm 3 hàm gauss
Hinh 13 Mô hình MG HMM 5 trạng thái
1Bnh 18 Sai số nhận dạng với các điêu kiện thử nghiệm khác nhau
1nh 19 Dữ liệu học có nhiễu được tạo ra từ dữ liệu học clean cộng với tín
hiệu nhiễu thu âm được
Hinh 20 Sai số nhận dạng của các mô hình khác nhau
Trang 9MO DAU
Ly do chon dé tai
Việt Nam đang ở ngã rẽ trên quá trình phát triển Đề thúc đấy tăng trưởng trong điều kiện hạn chế về lao động và vốn, Việt Nam phải hướng tới tăng trưởng,
dựa trên tăng năng suất lao động Điều đó đòi hỏi phải nâng cao đáng kế năng lực
đổi mới sáng tạo trong nước, nhất lá ứng dụng những thành tựu khoa hoe công
nghệ vào trong quả trình kinh doanh, sản xuất, quản lý, Irong lĩnh vực viễn
thông thì công nghệ thông Ủin và ứng dụng trí tuệ nhân tạo lại cảng cần được
nghiên cứu và đầu tư, bởi vi đây là lĩnh vực ảnh hưởng sâu rồng và là nền tang
cơ sở hạ tầng để các ngành khác phát triển Từ nhu cầu đỏ đã thúc đây những
nghiên cứu trong dễ tài này
Lịch sử nghiên cứu
Trên thể giới, giao tiếp người máy là một lĩnh vực nghiên cứu rất khó
nhưng lại được ứng dụng thực tiễn rất nhiều Tiếng nói là một phương tiện giao
tiếp tự nhiên nhất của con người với con người nên quá trình nghiên cứu để máy tính hiểu được ngôn ngữ cũng đã bắt đầu cách đây 70 năm Những nỗ lực giai
đoạn ban dầu chỉ tập trung khai thác phổ của tín hiệu âm thanh vì thời đó máy
tính còn khá hạn chế về khả năng xứ lý
Trong những nắm đâu 1960, điểm đáng ghỉ nhận nhất là ý tưởng của tác
giả người Kga, Vintsvuk, khi ông đề xuất phương pháp nhận dạng tiếng nói đựa
trên thuật toán quy hoạch động theo thời gian Đảng tiếc là mãi đến năm 1980,
phương pháp này mới được thể giới biết dến Cuỗi những năm 1970, nghiên cứu
về nhận dạng tiếng nói đã bước đầu thu được kết quả khích lệ, làm nền tảng cho
những phát triển sau này Trước tiên là bài toán nhận dạng từ rời rạo được giải
quyết dựa trên ý tưởng của các nhà khoa hoc người Nga và Nhật lrải qua hơn
70 năm nghiên cứu thì các mô hình được đề xuất để nhận dang tiếng nói liên tục
được thử nghiệm và dánh giá thi mô hình HMNM là cho kết quả tích cực nhất,
nhưng để đưa vào ứng dụng trong thục tế trong các hệ thông lớn thì còn rất hạn chế vi ở ngoài thực tế thi có rất nhiều nhiễu và các ngữ điệu, giọng nỏi các ving
10
Trang 10DANH MỤC HÌNH ÁNH
1Bnh 1 Miêu tả hệ thống nhận dang tiếng nói để phân loại cuộc g:
Hình 2 Hệ thống nhận dạng tiếng nói điến hình
Hình 3 Các khâu trong trích xuất đặc trưng
Hình 6 8o sánh bai loại cứa số Reclangular và Hamming
1Bnh 7 Tác động của DET tới cửa số
Hinh 12 Ham mật độ phân phối gồm 3 hàm gauss
Hinh 13 Mô hình MG HMM 5 trạng thái
1Bnh 18 Sai số nhận dạng với các điêu kiện thử nghiệm khác nhau
1nh 19 Dữ liệu học có nhiễu được tạo ra từ dữ liệu học clean cộng với tín
hiệu nhiễu thu âm được
Hinh 20 Sai số nhận dạng của các mô hình khác nhau
Trang 112.3 Mô hình âm họ:
2.4 Mô hình ngôn ngữ N-gram
2.4.2 Vấn dé pap phải khi đùng N-Gram a AB
2.4.3 Phương pháp chiết khẩu add-alpha
2.5 Mô hình DNN và ứng ¡ dụng trong nhận n dang tiéng nói
2.5.1 Cấu trúc mô hình "
2.5.2 Mô hình IIMM-DRA trong nhận dang t tiéng n
2.7 Tim hiéu framework KALDI
CHƯƠNG 3 ĐÁNH GIÁ THỨ NGHIÊM HE THONG NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT TRONG TONG ĐÀI CHĂM SÓC KHÁCH HANG TU BONG
3.1 Đánh giá một số yêu tổ ảnh hưởng tới chất lượng nhận dạng, Tông nói tiếng Việt và cách cải thiện chất lượng với từng yếu tô
3.1.1 Đánh giả sự ảnh hướng của kênh trưyền diện thoại đến chất lượng nhận
dạng S58 3.1.2 Đảnh giá sự ánh hưởng cách nói của người sử ữ dụng hệ thống nhận dang dén chất lượng nhận dang - a 60
3.1.3 Đánh piá su ảnh hưởng của mô hình ngôn ngữ xây dựng trên các nguồn
dữ liệu khác nhau đến chất lượng nhận dạng - 62 3.1.4 Đánh giá ảnh hướng của nhiễu tới chất lượng nhận dạng trong mỗ hình tổng dài chăm sóc khách hàng tự dộng —-
3.1.5 Kết hiận sự ảnh hưởng của các yếu tổ và để xuất giải pháp cải thiện
71 3.2 Giai phap tao tir dién phát âm tự động cho nhận dạng tiếng mái
tiếng
3.2.1 Đề xuất giải pháp tư dộng, cee TZ
3.2.2 Tao từ điễn cho từ vay mượn
Trang 122.3 Mô hình âm họ:
2.4 Mô hình ngôn ngữ N-gram
2.4.2 Vấn dé pap phải khi đùng N-Gram a AB
2.4.3 Phương pháp chiết khẩu add-alpha
2.5 Mô hình DNN và ứng ¡ dụng trong nhận n dang tiéng nói
2.5.1 Cấu trúc mô hình "
2.5.2 Mô hình IIMM-DRA trong nhận dang t tiéng n
2.7 Tim hiéu framework KALDI
CHƯƠNG 3 ĐÁNH GIÁ THỨ NGHIÊM HE THONG NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT TRONG TONG ĐÀI CHĂM SÓC KHÁCH HANG TU BONG
3.1 Đánh giá một số yêu tổ ảnh hưởng tới chất lượng nhận dạng, Tông nói tiếng Việt và cách cải thiện chất lượng với từng yếu tô
3.1.1 Đánh giả sự ảnh hướng của kênh trưyền diện thoại đến chất lượng nhận
dạng S58 3.1.2 Đảnh giá sự ánh hưởng cách nói của người sử ữ dụng hệ thống nhận dang dén chất lượng nhận dang - a 60
3.1.3 Đánh piá su ảnh hưởng của mô hình ngôn ngữ xây dựng trên các nguồn
dữ liệu khác nhau đến chất lượng nhận dạng - 62 3.1.4 Đánh giá ảnh hướng của nhiễu tới chất lượng nhận dạng trong mỗ hình tổng dài chăm sóc khách hàng tự dộng —-
3.1.5 Kết hiận sự ảnh hưởng của các yếu tổ và để xuất giải pháp cải thiện
71 3.2 Giai phap tao tir dién phát âm tự động cho nhận dạng tiếng mái
tiếng
3.2.1 Đề xuất giải pháp tư dộng, cee TZ
3.2.2 Tao từ điễn cho từ vay mượn
Trang 13DANH MUC TU VIET TAT VA THUAT NCU’
DNN Deep Neural Network Mạng nơron học sâu
MGHMM | Mixture of Gaussian Hidden | Mô hình Markuv ấn hop Gauss
Markov Models MFCC Mel Frequency Cepstral Phuong phap trich chon dic tinh
CocliicienL
MSLA Mel Log Spectral Xấp xi phé Mel
Approximation
GMM Gaussian mixture model Mé hinh gauss hon hop
VLSP Vietnamese language and | Xir ly ngén ngit va iéng néi iéng
speech processing Việt
DIT Discrete Fourier Transform Bién déi Fourier
FO Fundamental frequency Tan số cơ bản
LVSCR | Viemamese large vocabulary | Nhận dạng hệ thống từ vựng lớn continuous speech recognition tiếng việt
Trang 14
DANH MUC BANG
Bang 1 Tile lai Gr (%) ca hé théng nhan dạng giọng nói sứ dụng hai tính
Bảng 2 Tỉ lệ lỗi từ (%4) của hệ thống nhận đạng giọng nói sửa dụng các mô
hình âm thanh GMM và DNN mà không có và có tăng cường dữ liệu
Bang 3 Két qua thử nghiệm sự ảnh hưởng của kênh truyền (wer %%) 59
Bang 4 Két qua thử nghiệm sự ảnh hưởng của cách nói (wer %%)
Bang 5 Perplexity cho bởi 2 mô hình ngôn ngữ với 3 tập dữ liệu text khác
Rang 6 WER(%) cho héi cac hé théng nhận dang với các mô hình ngôn
Bang 7 Các mẫu dữ liệu ử các môi trường khác nhau
Bang & Các mô hình nhận dang khac ohau
Bang 9 Kết quã thực nghiệm mô hình có thanh điệu trên tập dữ liệu VOV
Trang 151.2 Mật số dặc thủ của hài toán xây dựng hệ thắng nhị dạng tr trong hệ thống chăm sóc khách hàng và yêu cầu của hệ thông 24
1.2.1 Một số đặc thủ của bài toán xây dựng hệ thống nhận dạng trong chăm
sóc khách hàng, - - ec 24
1.2.2 Yêu cầu của hệ thống nhận dang tiếng nói 24
CHƯƠNG 2 TÌM HIỂU VỀ HỆ THÔNG NHẬN DẠNG TIẾNG NÓI 26
2.1.1 Tổng quan hệ thống nhận dạng tiếng nói
Trang 16DANH MUC BANG
Bang 1 Tile lai Gr (%) ca hé théng nhan dạng giọng nói sứ dụng hai tính
Bảng 2 Tỉ lệ lỗi từ (%4) của hệ thống nhận đạng giọng nói sửa dụng các mô
hình âm thanh GMM và DNN mà không có và có tăng cường dữ liệu
Bang 3 Két qua thử nghiệm sự ảnh hưởng của kênh truyền (wer %%) 59
Bang 4 Két qua thử nghiệm sự ảnh hưởng của cách nói (wer %%)
Bang 5 Perplexity cho bởi 2 mô hình ngôn ngữ với 3 tập dữ liệu text khác
Rang 6 WER(%) cho héi cac hé théng nhận dang với các mô hình ngôn
Bang 7 Các mẫu dữ liệu ử các môi trường khác nhau
Bang & Các mô hình nhận dang khac ohau
Bang 9 Kết quã thực nghiệm mô hình có thanh điệu trên tập dữ liệu VOV
Trang 17
3.2.3 Thử nghiệm mô hình có thanh điệu "——— T5
3.3 Cải tiến mô hình âm học sử đụng mô hình lai ghép IIMM/DNN76 3.3.1 Mô hình mạng lai ghép sử dụng mạng nơron học sâu DNN 6
3.3.2 Huấn luyện mạng trong thực nghiệm ce TT
3.3.3 Kết quả thử nghiệm
CHƯƠNG 4 KẾT LUẬN VA HUO
4.1 Công việc đã thực hiện
4.2 Các vẫn đề còn tồn tạ
4.3 Dễ cải thiện thêm định hướng trong thời gian tới
TÀI LIỆU THAM KHÁO
G PHÁT TRIEN
Trang 18
DANH MỤC HÌNH ÁNH
1Bnh 1 Miêu tả hệ thống nhận dang tiếng nói để phân loại cuộc g:
Hình 2 Hệ thống nhận dạng tiếng nói điến hình
Hình 3 Các khâu trong trích xuất đặc trưng
Hình 6 8o sánh bai loại cứa số Reclangular và Hamming
1Bnh 7 Tác động của DET tới cửa số
Hinh 12 Ham mật độ phân phối gồm 3 hàm gauss
Hinh 13 Mô hình MG HMM 5 trạng thái
1Bnh 18 Sai số nhận dạng với các điêu kiện thử nghiệm khác nhau
1nh 19 Dữ liệu học có nhiễu được tạo ra từ dữ liệu học clean cộng với tín
hiệu nhiễu thu âm được
Hinh 20 Sai số nhận dạng của các mô hình khác nhau
Trang 19DANH MỤC HÌNH ÁNH
1Bnh 1 Miêu tả hệ thống nhận dang tiếng nói để phân loại cuộc g:
Hình 2 Hệ thống nhận dạng tiếng nói điến hình
Hình 3 Các khâu trong trích xuất đặc trưng
Hình 6 8o sánh bai loại cứa số Reclangular và Hamming
1Bnh 7 Tác động của DET tới cửa số
Hinh 12 Ham mật độ phân phối gồm 3 hàm gauss
Hinh 13 Mô hình MG HMM 5 trạng thái
1Bnh 18 Sai số nhận dạng với các điêu kiện thử nghiệm khác nhau
1nh 19 Dữ liệu học có nhiễu được tạo ra từ dữ liệu học clean cộng với tín
hiệu nhiễu thu âm được
Hinh 20 Sai số nhận dạng của các mô hình khác nhau
Trang 20
3.2.3 Thử nghiệm mô hình có thanh điệu "——— T5
3.3 Cải tiến mô hình âm học sử đụng mô hình lai ghép IIMM/DNN76 3.3.1 Mô hình mạng lai ghép sử dụng mạng nơron học sâu DNN 6
3.3.2 Huấn luyện mạng trong thực nghiệm ce TT
3.3.3 Kết quả thử nghiệm
CHƯƠNG 4 KẾT LUẬN VA HUO
4.1 Công việc đã thực hiện
4.2 Các vẫn đề còn tồn tạ
4.3 Dễ cải thiện thêm định hướng trong thời gian tới
TÀI LIỆU THAM KHÁO
G PHÁT TRIEN
Trang 21
3.2.3 Thử nghiệm mô hình có thanh điệu "——— T5
3.3 Cải tiến mô hình âm học sử đụng mô hình lai ghép IIMM/DNN76 3.3.1 Mô hình mạng lai ghép sử dụng mạng nơron học sâu DNN 6
3.3.2 Huấn luyện mạng trong thực nghiệm ce TT
3.3.3 Kết quả thử nghiệm
CHƯƠNG 4 KẾT LUẬN VA HUO
4.1 Công việc đã thực hiện
4.2 Các vẫn đề còn tồn tạ
4.3 Dễ cải thiện thêm định hướng trong thời gian tới
TÀI LIỆU THAM KHÁO
G PHÁT TRIEN
Trang 22
1.2 Mật số dặc thủ của hài toán xây dựng hệ thắng nhị dạng tr trong hệ thống chăm sóc khách hàng và yêu cầu của hệ thông 24
1.2.1 Một số đặc thủ của bài toán xây dựng hệ thống nhận dạng trong chăm
sóc khách hàng, - - ec 24
1.2.2 Yêu cầu của hệ thống nhận dang tiếng nói 24
CHƯƠNG 2 TÌM HIỂU VỀ HỆ THÔNG NHẬN DẠNG TIẾNG NÓI 26
2.1.1 Tổng quan hệ thống nhận dạng tiếng nói
Trang 23DANH MUC TU VIET TAT VA THUAT NCU’
DNN Deep Neural Network Mạng nơron học sâu
MGHMM | Mixture of Gaussian Hidden | Mô hình Markuv ấn hop Gauss
Markov Models MFCC Mel Frequency Cepstral Phuong phap trich chon dic tinh
CocliicienL
MSLA Mel Log Spectral Xấp xi phé Mel
Approximation
GMM Gaussian mixture model Mé hinh gauss hon hop
VLSP Vietnamese language and | Xir ly ngén ngit va iéng néi iéng
speech processing Việt
DIT Discrete Fourier Transform Bién déi Fourier
FO Fundamental frequency Tan số cơ bản
LVSCR | Viemamese large vocabulary | Nhận dạng hệ thống từ vựng lớn continuous speech recognition tiếng việt
Trang 24
1.2 Mật số dặc thủ của hài toán xây dựng hệ thắng nhị dạng tr trong hệ thống chăm sóc khách hàng và yêu cầu của hệ thông 24
1.2.1 Một số đặc thủ của bài toán xây dựng hệ thống nhận dạng trong chăm
sóc khách hàng, - - ec 24
1.2.2 Yêu cầu của hệ thống nhận dang tiếng nói 24
CHƯƠNG 2 TÌM HIỂU VỀ HỆ THÔNG NHẬN DẠNG TIẾNG NÓI 26
2.1.1 Tổng quan hệ thống nhận dạng tiếng nói
Trang 25MO DAU
Ly do chon dé tai
Việt Nam đang ở ngã rẽ trên quá trình phát triển Đề thúc đấy tăng trưởng trong điều kiện hạn chế về lao động và vốn, Việt Nam phải hướng tới tăng trưởng,
dựa trên tăng năng suất lao động Điều đó đòi hỏi phải nâng cao đáng kế năng lực
đổi mới sáng tạo trong nước, nhất lá ứng dụng những thành tựu khoa hoe công
nghệ vào trong quả trình kinh doanh, sản xuất, quản lý, Irong lĩnh vực viễn
thông thì công nghệ thông Ủin và ứng dụng trí tuệ nhân tạo lại cảng cần được
nghiên cứu và đầu tư, bởi vi đây là lĩnh vực ảnh hưởng sâu rồng và là nền tang
cơ sở hạ tầng để các ngành khác phát triển Từ nhu cầu đỏ đã thúc đây những
nghiên cứu trong dễ tài này
Lịch sử nghiên cứu
Trên thể giới, giao tiếp người máy là một lĩnh vực nghiên cứu rất khó
nhưng lại được ứng dụng thực tiễn rất nhiều Tiếng nói là một phương tiện giao
tiếp tự nhiên nhất của con người với con người nên quá trình nghiên cứu để máy tính hiểu được ngôn ngữ cũng đã bắt đầu cách đây 70 năm Những nỗ lực giai
đoạn ban dầu chỉ tập trung khai thác phổ của tín hiệu âm thanh vì thời đó máy
tính còn khá hạn chế về khả năng xứ lý
Trong những nắm đâu 1960, điểm đáng ghỉ nhận nhất là ý tưởng của tác
giả người Kga, Vintsvuk, khi ông đề xuất phương pháp nhận dạng tiếng nói đựa
trên thuật toán quy hoạch động theo thời gian Đảng tiếc là mãi đến năm 1980,
phương pháp này mới được thể giới biết dến Cuỗi những năm 1970, nghiên cứu
về nhận dạng tiếng nói đã bước đầu thu được kết quả khích lệ, làm nền tảng cho
những phát triển sau này Trước tiên là bài toán nhận dạng từ rời rạo được giải
quyết dựa trên ý tưởng của các nhà khoa hoc người Nga và Nhật lrải qua hơn
70 năm nghiên cứu thì các mô hình được đề xuất để nhận dang tiếng nói liên tục
được thử nghiệm và dánh giá thi mô hình HMNM là cho kết quả tích cực nhất,
nhưng để đưa vào ứng dụng trong thục tế trong các hệ thông lớn thì còn rất hạn chế vi ở ngoài thực tế thi có rất nhiều nhiễu và các ngữ điệu, giọng nỏi các ving
10
Trang 26DANH MỤC HÌNH ÁNH
1Bnh 1 Miêu tả hệ thống nhận dang tiếng nói để phân loại cuộc g:
Hình 2 Hệ thống nhận dạng tiếng nói điến hình
Hình 3 Các khâu trong trích xuất đặc trưng
Hình 6 8o sánh bai loại cứa số Reclangular và Hamming
1Bnh 7 Tác động của DET tới cửa số
Hinh 12 Ham mật độ phân phối gồm 3 hàm gauss
Hinh 13 Mô hình MG HMM 5 trạng thái
1Bnh 18 Sai số nhận dạng với các điêu kiện thử nghiệm khác nhau
1nh 19 Dữ liệu học có nhiễu được tạo ra từ dữ liệu học clean cộng với tín
hiệu nhiễu thu âm được
Hinh 20 Sai số nhận dạng của các mô hình khác nhau
Trang 27DANH MỤC HÌNH ÁNH
1Bnh 1 Miêu tả hệ thống nhận dang tiếng nói để phân loại cuộc g:
Hình 2 Hệ thống nhận dạng tiếng nói điến hình
Hình 3 Các khâu trong trích xuất đặc trưng
Hình 6 8o sánh bai loại cứa số Reclangular và Hamming
1Bnh 7 Tác động của DET tới cửa số
Hinh 12 Ham mật độ phân phối gồm 3 hàm gauss
Hinh 13 Mô hình MG HMM 5 trạng thái
1Bnh 18 Sai số nhận dạng với các điêu kiện thử nghiệm khác nhau
1nh 19 Dữ liệu học có nhiễu được tạo ra từ dữ liệu học clean cộng với tín
hiệu nhiễu thu âm được
Hinh 20 Sai số nhận dạng của các mô hình khác nhau
Trang 281.2 Mật số dặc thủ của hài toán xây dựng hệ thắng nhị dạng tr trong hệ thống chăm sóc khách hàng và yêu cầu của hệ thông 24
1.2.1 Một số đặc thủ của bài toán xây dựng hệ thống nhận dạng trong chăm
sóc khách hàng, - - ec 24
1.2.2 Yêu cầu của hệ thống nhận dang tiếng nói 24
CHƯƠNG 2 TÌM HIỂU VỀ HỆ THÔNG NHẬN DẠNG TIẾNG NÓI 26
2.1.1 Tổng quan hệ thống nhận dạng tiếng nói
Trang 29DANH MUC BANG
Bang 1 Tile lai Gr (%) ca hé théng nhan dạng giọng nói sứ dụng hai tính
Bảng 2 Tỉ lệ lỗi từ (%4) của hệ thống nhận đạng giọng nói sửa dụng các mô
hình âm thanh GMM và DNN mà không có và có tăng cường dữ liệu
Bang 3 Két qua thử nghiệm sự ảnh hưởng của kênh truyền (wer %%) 59
Bang 4 Két qua thử nghiệm sự ảnh hưởng của cách nói (wer %%)
Bang 5 Perplexity cho bởi 2 mô hình ngôn ngữ với 3 tập dữ liệu text khác
Rang 6 WER(%) cho héi cac hé théng nhận dang với các mô hình ngôn
Bang 7 Các mẫu dữ liệu ử các môi trường khác nhau
Bang & Các mô hình nhận dang khac ohau
Bang 9 Kết quã thực nghiệm mô hình có thanh điệu trên tập dữ liệu VOV
Trang 30DANH MUC BANG
Bang 1 Tile lai Gr (%) ca hé théng nhan dạng giọng nói sứ dụng hai tính
Bảng 2 Tỉ lệ lỗi từ (%4) của hệ thống nhận đạng giọng nói sửa dụng các mô
hình âm thanh GMM và DNN mà không có và có tăng cường dữ liệu
Bang 3 Két qua thử nghiệm sự ảnh hưởng của kênh truyền (wer %%) 59
Bang 4 Két qua thử nghiệm sự ảnh hưởng của cách nói (wer %%)
Bang 5 Perplexity cho bởi 2 mô hình ngôn ngữ với 3 tập dữ liệu text khác
Rang 6 WER(%) cho héi cac hé théng nhận dang với các mô hình ngôn
Bang 7 Các mẫu dữ liệu ử các môi trường khác nhau
Bang & Các mô hình nhận dang khac ohau
Bang 9 Kết quã thực nghiệm mô hình có thanh điệu trên tập dữ liệu VOV
Trang 31DANH MUC BANG
Bang 1 Tile lai Gr (%) ca hé théng nhan dạng giọng nói sứ dụng hai tính
Bảng 2 Tỉ lệ lỗi từ (%4) của hệ thống nhận đạng giọng nói sửa dụng các mô
hình âm thanh GMM và DNN mà không có và có tăng cường dữ liệu
Bang 3 Két qua thử nghiệm sự ảnh hưởng của kênh truyền (wer %%) 59
Bang 4 Két qua thử nghiệm sự ảnh hưởng của cách nói (wer %%)
Bang 5 Perplexity cho bởi 2 mô hình ngôn ngữ với 3 tập dữ liệu text khác
Rang 6 WER(%) cho héi cac hé théng nhận dang với các mô hình ngôn
Bang 7 Các mẫu dữ liệu ử các môi trường khác nhau
Bang & Các mô hình nhận dang khac ohau
Bang 9 Kết quã thực nghiệm mô hình có thanh điệu trên tập dữ liệu VOV
Trang 32MO DAU
Ly do chon dé tai
Việt Nam đang ở ngã rẽ trên quá trình phát triển Đề thúc đấy tăng trưởng trong điều kiện hạn chế về lao động và vốn, Việt Nam phải hướng tới tăng trưởng,
dựa trên tăng năng suất lao động Điều đó đòi hỏi phải nâng cao đáng kế năng lực
đổi mới sáng tạo trong nước, nhất lá ứng dụng những thành tựu khoa hoe công
nghệ vào trong quả trình kinh doanh, sản xuất, quản lý, Irong lĩnh vực viễn
thông thì công nghệ thông Ủin và ứng dụng trí tuệ nhân tạo lại cảng cần được
nghiên cứu và đầu tư, bởi vi đây là lĩnh vực ảnh hưởng sâu rồng và là nền tang
cơ sở hạ tầng để các ngành khác phát triển Từ nhu cầu đỏ đã thúc đây những
nghiên cứu trong dễ tài này
Lịch sử nghiên cứu
Trên thể giới, giao tiếp người máy là một lĩnh vực nghiên cứu rất khó
nhưng lại được ứng dụng thực tiễn rất nhiều Tiếng nói là một phương tiện giao
tiếp tự nhiên nhất của con người với con người nên quá trình nghiên cứu để máy tính hiểu được ngôn ngữ cũng đã bắt đầu cách đây 70 năm Những nỗ lực giai
đoạn ban dầu chỉ tập trung khai thác phổ của tín hiệu âm thanh vì thời đó máy
tính còn khá hạn chế về khả năng xứ lý
Trong những nắm đâu 1960, điểm đáng ghỉ nhận nhất là ý tưởng của tác
giả người Kga, Vintsvuk, khi ông đề xuất phương pháp nhận dạng tiếng nói đựa
trên thuật toán quy hoạch động theo thời gian Đảng tiếc là mãi đến năm 1980,
phương pháp này mới được thể giới biết dến Cuỗi những năm 1970, nghiên cứu
về nhận dạng tiếng nói đã bước đầu thu được kết quả khích lệ, làm nền tảng cho
những phát triển sau này Trước tiên là bài toán nhận dạng từ rời rạo được giải
quyết dựa trên ý tưởng của các nhà khoa hoc người Nga và Nhật lrải qua hơn
70 năm nghiên cứu thì các mô hình được đề xuất để nhận dang tiếng nói liên tục
được thử nghiệm và dánh giá thi mô hình HMNM là cho kết quả tích cực nhất,
nhưng để đưa vào ứng dụng trong thục tế trong các hệ thông lớn thì còn rất hạn chế vi ở ngoài thực tế thi có rất nhiều nhiễu và các ngữ điệu, giọng nỏi các ving
10
Trang 33DANH MUC TU VIET TAT VA THUAT NCU’
DNN Deep Neural Network Mạng nơron học sâu
MGHMM | Mixture of Gaussian Hidden | Mô hình Markuv ấn hop Gauss
Markov Models MFCC Mel Frequency Cepstral Phuong phap trich chon dic tinh
CocliicienL
MSLA Mel Log Spectral Xấp xi phé Mel
Approximation
GMM Gaussian mixture model Mé hinh gauss hon hop
VLSP Vietnamese language and | Xir ly ngén ngit va iéng néi iéng
speech processing Việt
DIT Discrete Fourier Transform Bién déi Fourier
FO Fundamental frequency Tan số cơ bản
LVSCR | Viemamese large vocabulary | Nhận dạng hệ thống từ vựng lớn continuous speech recognition tiếng việt
Trang 34
3.2.3 Thử nghiệm mô hình có thanh điệu "——— T5
3.3 Cải tiến mô hình âm học sử đụng mô hình lai ghép IIMM/DNN76 3.3.1 Mô hình mạng lai ghép sử dụng mạng nơron học sâu DNN 6
3.3.2 Huấn luyện mạng trong thực nghiệm ce TT
3.3.3 Kết quả thử nghiệm
CHƯƠNG 4 KẾT LUẬN VA HUO
4.1 Công việc đã thực hiện
4.2 Các vẫn đề còn tồn tạ
4.3 Dễ cải thiện thêm định hướng trong thời gian tới
TÀI LIỆU THAM KHÁO
G PHÁT TRIEN
Trang 35
DANH MUC BANG
Bang 1 Tile lai Gr (%) ca hé théng nhan dạng giọng nói sứ dụng hai tính
Bảng 2 Tỉ lệ lỗi từ (%4) của hệ thống nhận đạng giọng nói sửa dụng các mô
hình âm thanh GMM và DNN mà không có và có tăng cường dữ liệu
Bang 3 Két qua thử nghiệm sự ảnh hưởng của kênh truyền (wer %%) 59
Bang 4 Két qua thử nghiệm sự ảnh hưởng của cách nói (wer %%)
Bang 5 Perplexity cho bởi 2 mô hình ngôn ngữ với 3 tập dữ liệu text khác
Rang 6 WER(%) cho héi cac hé théng nhận dang với các mô hình ngôn
Bang 7 Các mẫu dữ liệu ử các môi trường khác nhau
Bang & Các mô hình nhận dang khac ohau
Bang 9 Kết quã thực nghiệm mô hình có thanh điệu trên tập dữ liệu VOV
Trang 362.3 Mô hình âm họ:
2.4 Mô hình ngôn ngữ N-gram
2.4.2 Vấn dé pap phải khi đùng N-Gram a AB
2.4.3 Phương pháp chiết khẩu add-alpha
2.5 Mô hình DNN và ứng ¡ dụng trong nhận n dang tiéng nói
2.5.1 Cấu trúc mô hình "
2.5.2 Mô hình IIMM-DRA trong nhận dang t tiéng n
2.7 Tim hiéu framework KALDI
CHƯƠNG 3 ĐÁNH GIÁ THỨ NGHIÊM HE THONG NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT TRONG TONG ĐÀI CHĂM SÓC KHÁCH HANG TU BONG
3.1 Đánh giá một số yêu tổ ảnh hưởng tới chất lượng nhận dạng, Tông nói tiếng Việt và cách cải thiện chất lượng với từng yếu tô
3.1.1 Đánh giả sự ảnh hướng của kênh trưyền diện thoại đến chất lượng nhận
dạng S58 3.1.2 Đảnh giá sự ánh hưởng cách nói của người sử ữ dụng hệ thống nhận dang dén chất lượng nhận dang - a 60
3.1.3 Đánh piá su ảnh hưởng của mô hình ngôn ngữ xây dựng trên các nguồn
dữ liệu khác nhau đến chất lượng nhận dạng - 62 3.1.4 Đánh giá ảnh hướng của nhiễu tới chất lượng nhận dạng trong mỗ hình tổng dài chăm sóc khách hàng tự dộng —-
3.1.5 Kết hiận sự ảnh hưởng của các yếu tổ và để xuất giải pháp cải thiện
71 3.2 Giai phap tao tir dién phát âm tự động cho nhận dạng tiếng mái
tiếng
3.2.1 Đề xuất giải pháp tư dộng, cee TZ
3.2.2 Tao từ điễn cho từ vay mượn
Trang 37DANH MỤC HÌNH ÁNH
1Bnh 1 Miêu tả hệ thống nhận dang tiếng nói để phân loại cuộc g:
Hình 2 Hệ thống nhận dạng tiếng nói điến hình
Hình 3 Các khâu trong trích xuất đặc trưng
Hình 6 8o sánh bai loại cứa số Reclangular và Hamming
1Bnh 7 Tác động của DET tới cửa số
Hinh 12 Ham mật độ phân phối gồm 3 hàm gauss
Hinh 13 Mô hình MG HMM 5 trạng thái
1Bnh 18 Sai số nhận dạng với các điêu kiện thử nghiệm khác nhau
1nh 19 Dữ liệu học có nhiễu được tạo ra từ dữ liệu học clean cộng với tín
hiệu nhiễu thu âm được
Hinh 20 Sai số nhận dạng của các mô hình khác nhau