1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ nghiên cứu xây dựng hệ thống nhận dạng tiếng nói tiếng việt sử dụng trong tổng Đài chăm sóc khách hàng tự Động

75 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Luận văn thạc sĩ nghiên cứu xây dựng hệ thống nhận dạng tiếng nói tiếng việt sử dụng trong tổng đài chăm sóc khách hàng tự động
Tác giả Đinh Mạnh Cường
Người hướng dẫn TS. Nguyễn Việt Sơn
Trường học Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành Đo lường và các hệ thống điều khiển
Thể loại Luận văn thạc sĩ
Năm xuất bản 2018
Thành phố Hà Nội
Định dạng
Số trang 75
Dung lượng 179,77 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

DANH MUC BANG Bang 1 Tile lai Gr % ca hé théng nhan dạng giọng nói sứ dụng hai tính Bảng 2 Tỉ lệ lỗi từ %4 của hệ thống nhận đạng giọng nói sửa dụng các mô hình âm thanh GMM và DNN m

Trang 1

LUẬN VĂN THẠC SĨ KHOA HỌC

TIN HỌC CÔNG NGHIỆP

TIà Nội 2018

Trang 2

BO GIAO DUC VA DAO TAO TRUONG DAI HOC BACH KHOA HA NOL

DINiT MANIL CƯỜNG

NGHIEN CUU XAY DUNG HE THONG NHAN DANG TIENG NOI TIENG VIET UNG

DUNG FRONG TONG DAL CHAM SOC KHACH HANG TU DONG

Chuyên ngành : Đo lường và các hệ thẳng điều khiển

LUẬN VĂN THẠC SĨ KHOA HỌC

TIN HỌC CÔNG NGHIỆP

NGƯỜI HƯỚNG DẪN KHOA HỌC 'T8 Nguyễn Việt Sơn

Hã Nội 2018

Trang 3

LOLCAM ON

Đầu tiên, tôi xin được gửi lời cảm ơn chân thành tới Viện nghiên cứu quốc

tế MICA nơi đã tạo điều kiện cho tôi thực hiện luận văn nảy Tôi xin chân thành

cảm ơn T8 Nguyễn Việt Sơn - ngưới hướng dẫn tôi trong suốt thời gian qua để

tôi có thể hoàn thành luận văn

Ngoài ra, tôi xin gửi lời căm ơn đến Ban lãnh đạo Viện Điện, Phong Dao

tạo lrường Dại học Bách khoa Hà Nội cùng các thầy, cô giáo đã hướng dẫn và

giúp đỡ tôi trong quá trình học tập, nghiên cứu Tiến đến, tôi xin cắm ơn trung

tâm không gian mạng VIHI'1EL, nơi tôi làm việc, đã tạo điều kiên và giúp đỡ tôi trong việc hoàn thành hệ thống Tả tôi trinh bảy trong luận văn thạc sỹ này Tôi

cũng xm gửi lời cám ơn trân trọng đến anh Nguyễn Quốc Bão cùng Loàn thể đồng:

nghiệp của tôi tại nhóm voice trung tim không gian mạng VIETTEL, ban gián! đốc trung tâm cùng toàn thể anh chị em trong trung tâm đã giúp đỡ hỗ trợ tôi

trong quá trình hoàn thành luận văn thạc sỹ này

Và cuối củng, tôi xin gửi lời cẩm ơn chân thành tới gia đình, bạn bẻ những

người luôn ở bên cạnh động viên, truyền cảm hứng cho tôi, để tôi có thể đạt tới

giấc mơ của mình

Hà Nội, ngày 18 tháng 08 năm

2018

Dinh Manh Cuong

Trang 4

2.3 Mô hình âm họ:

2.4 Mô hình ngôn ngữ N-gram

2.4.2 Vấn dé pap phải khi đùng N-Gram a AB

2.4.3 Phương pháp chiết khẩu add-alpha

2.5 Mô hình DNN và ứng ¡ dụng trong nhận n dang tiéng nói

2.5.1 Cấu trúc mô hình "

2.5.2 Mô hình IIMM-DRA trong nhận dang t tiéng n

2.7 Tim hiéu framework KALDI

CHƯƠNG 3 ĐÁNH GIÁ THỨ NGHIÊM HE THONG NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT TRONG TONG ĐÀI CHĂM SÓC KHÁCH HANG TU BONG

3.1 Đánh giá một số yêu tổ ảnh hưởng tới chất lượng nhận dạng, Tông nói tiếng Việt và cách cải thiện chất lượng với từng yếu tô

3.1.1 Đánh giả sự ảnh hướng của kênh trưyền diện thoại đến chất lượng nhận

dạng S58 3.1.2 Đảnh giá sự ánh hưởng cách nói của người sử ữ dụng hệ thống nhận dang dén chất lượng nhận dang - a 60

3.1.3 Đánh piá su ảnh hưởng của mô hình ngôn ngữ xây dựng trên các nguồn

dữ liệu khác nhau đến chất lượng nhận dạng - 62 3.1.4 Đánh giá ảnh hướng của nhiễu tới chất lượng nhận dạng trong mỗ hình tổng dài chăm sóc khách hàng tự dộng —-

3.1.5 Kết hiận sự ảnh hưởng của các yếu tổ và để xuất giải pháp cải thiện

71 3.2 Giai phap tao tir dién phát âm tự động cho nhận dạng tiếng mái

tiếng

3.2.1 Đề xuất giải pháp tư dộng, cee TZ

3.2.2 Tao từ điễn cho từ vay mượn

Trang 5

2.3 Mô hình âm họ:

2.4 Mô hình ngôn ngữ N-gram

2.4.2 Vấn dé pap phải khi đùng N-Gram a AB

2.4.3 Phương pháp chiết khẩu add-alpha

2.5 Mô hình DNN và ứng ¡ dụng trong nhận n dang tiéng nói

2.5.1 Cấu trúc mô hình "

2.5.2 Mô hình IIMM-DRA trong nhận dang t tiéng n

2.7 Tim hiéu framework KALDI

CHƯƠNG 3 ĐÁNH GIÁ THỨ NGHIÊM HE THONG NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT TRONG TONG ĐÀI CHĂM SÓC KHÁCH HANG TU BONG

3.1 Đánh giá một số yêu tổ ảnh hưởng tới chất lượng nhận dạng, Tông nói tiếng Việt và cách cải thiện chất lượng với từng yếu tô

3.1.1 Đánh giả sự ảnh hướng của kênh trưyền diện thoại đến chất lượng nhận

dạng S58 3.1.2 Đảnh giá sự ánh hưởng cách nói của người sử ữ dụng hệ thống nhận dang dén chất lượng nhận dang - a 60

3.1.3 Đánh piá su ảnh hưởng của mô hình ngôn ngữ xây dựng trên các nguồn

dữ liệu khác nhau đến chất lượng nhận dạng - 62 3.1.4 Đánh giá ảnh hướng của nhiễu tới chất lượng nhận dạng trong mỗ hình tổng dài chăm sóc khách hàng tự dộng —-

3.1.5 Kết hiận sự ảnh hưởng của các yếu tổ và để xuất giải pháp cải thiện

71 3.2 Giai phap tao tir dién phát âm tự động cho nhận dạng tiếng mái

tiếng

3.2.1 Đề xuất giải pháp tư dộng, cee TZ

3.2.2 Tao từ điễn cho từ vay mượn

Trang 6

DANH MUC BANG

Bang 1 Tile lai Gr (%) ca hé théng nhan dạng giọng nói sứ dụng hai tính

Bảng 2 Tỉ lệ lỗi từ (%4) của hệ thống nhận đạng giọng nói sửa dụng các mô

hình âm thanh GMM và DNN mà không có và có tăng cường dữ liệu

Bang 3 Két qua thử nghiệm sự ảnh hưởng của kênh truyền (wer %%) 59

Bang 4 Két qua thử nghiệm sự ảnh hưởng của cách nói (wer %%)

Bang 5 Perplexity cho bởi 2 mô hình ngôn ngữ với 3 tập dữ liệu text khác

Rang 6 WER(%) cho héi cac hé théng nhận dang với các mô hình ngôn

Bang 7 Các mẫu dữ liệu ử các môi trường khác nhau

Bang & Các mô hình nhận dang khac ohau

Bang 9 Kết quã thực nghiệm mô hình có thanh điệu trên tập dữ liệu VOV

Trang 7

3.2.3 Thử nghiệm mô hình có thanh điệu "——— T5

3.3 Cải tiến mô hình âm học sử đụng mô hình lai ghép IIMM/DNN76 3.3.1 Mô hình mạng lai ghép sử dụng mạng nơron học sâu DNN 6

3.3.2 Huấn luyện mạng trong thực nghiệm ce TT

3.3.3 Kết quả thử nghiệm

CHƯƠNG 4 KẾT LUẬN VA HUO

4.1 Công việc đã thực hiện

4.2 Các vẫn đề còn tồn tạ

4.3 Dễ cải thiện thêm định hướng trong thời gian tới

TÀI LIỆU THAM KHÁO

G PHÁT TRIEN

Trang 8

DANH MỤC HÌNH ÁNH

1Bnh 1 Miêu tả hệ thống nhận dang tiếng nói để phân loại cuộc g:

Hình 2 Hệ thống nhận dạng tiếng nói điến hình

Hình 3 Các khâu trong trích xuất đặc trưng

Hình 6 8o sánh bai loại cứa số Reclangular và Hamming

1Bnh 7 Tác động của DET tới cửa số

Hinh 12 Ham mật độ phân phối gồm 3 hàm gauss

Hinh 13 Mô hình MG HMM 5 trạng thái

1Bnh 18 Sai số nhận dạng với các điêu kiện thử nghiệm khác nhau

1nh 19 Dữ liệu học có nhiễu được tạo ra từ dữ liệu học clean cộng với tín

hiệu nhiễu thu âm được

Hinh 20 Sai số nhận dạng của các mô hình khác nhau

Trang 9

MO DAU

Ly do chon dé tai

Việt Nam đang ở ngã rẽ trên quá trình phát triển Đề thúc đấy tăng trưởng trong điều kiện hạn chế về lao động và vốn, Việt Nam phải hướng tới tăng trưởng,

dựa trên tăng năng suất lao động Điều đó đòi hỏi phải nâng cao đáng kế năng lực

đổi mới sáng tạo trong nước, nhất lá ứng dụng những thành tựu khoa hoe công

nghệ vào trong quả trình kinh doanh, sản xuất, quản lý, Irong lĩnh vực viễn

thông thì công nghệ thông Ủin và ứng dụng trí tuệ nhân tạo lại cảng cần được

nghiên cứu và đầu tư, bởi vi đây là lĩnh vực ảnh hưởng sâu rồng và là nền tang

cơ sở hạ tầng để các ngành khác phát triển Từ nhu cầu đỏ đã thúc đây những

nghiên cứu trong dễ tài này

Lịch sử nghiên cứu

Trên thể giới, giao tiếp người máy là một lĩnh vực nghiên cứu rất khó

nhưng lại được ứng dụng thực tiễn rất nhiều Tiếng nói là một phương tiện giao

tiếp tự nhiên nhất của con người với con người nên quá trình nghiên cứu để máy tính hiểu được ngôn ngữ cũng đã bắt đầu cách đây 70 năm Những nỗ lực giai

đoạn ban dầu chỉ tập trung khai thác phổ của tín hiệu âm thanh vì thời đó máy

tính còn khá hạn chế về khả năng xứ lý

Trong những nắm đâu 1960, điểm đáng ghỉ nhận nhất là ý tưởng của tác

giả người Kga, Vintsvuk, khi ông đề xuất phương pháp nhận dạng tiếng nói đựa

trên thuật toán quy hoạch động theo thời gian Đảng tiếc là mãi đến năm 1980,

phương pháp này mới được thể giới biết dến Cuỗi những năm 1970, nghiên cứu

về nhận dạng tiếng nói đã bước đầu thu được kết quả khích lệ, làm nền tảng cho

những phát triển sau này Trước tiên là bài toán nhận dạng từ rời rạo được giải

quyết dựa trên ý tưởng của các nhà khoa hoc người Nga và Nhật lrải qua hơn

70 năm nghiên cứu thì các mô hình được đề xuất để nhận dang tiếng nói liên tục

được thử nghiệm và dánh giá thi mô hình HMNM là cho kết quả tích cực nhất,

nhưng để đưa vào ứng dụng trong thục tế trong các hệ thông lớn thì còn rất hạn chế vi ở ngoài thực tế thi có rất nhiều nhiễu và các ngữ điệu, giọng nỏi các ving

10

Trang 10

DANH MỤC HÌNH ÁNH

1Bnh 1 Miêu tả hệ thống nhận dang tiếng nói để phân loại cuộc g:

Hình 2 Hệ thống nhận dạng tiếng nói điến hình

Hình 3 Các khâu trong trích xuất đặc trưng

Hình 6 8o sánh bai loại cứa số Reclangular và Hamming

1Bnh 7 Tác động của DET tới cửa số

Hinh 12 Ham mật độ phân phối gồm 3 hàm gauss

Hinh 13 Mô hình MG HMM 5 trạng thái

1Bnh 18 Sai số nhận dạng với các điêu kiện thử nghiệm khác nhau

1nh 19 Dữ liệu học có nhiễu được tạo ra từ dữ liệu học clean cộng với tín

hiệu nhiễu thu âm được

Hinh 20 Sai số nhận dạng của các mô hình khác nhau

Trang 11

2.3 Mô hình âm họ:

2.4 Mô hình ngôn ngữ N-gram

2.4.2 Vấn dé pap phải khi đùng N-Gram a AB

2.4.3 Phương pháp chiết khẩu add-alpha

2.5 Mô hình DNN và ứng ¡ dụng trong nhận n dang tiéng nói

2.5.1 Cấu trúc mô hình "

2.5.2 Mô hình IIMM-DRA trong nhận dang t tiéng n

2.7 Tim hiéu framework KALDI

CHƯƠNG 3 ĐÁNH GIÁ THỨ NGHIÊM HE THONG NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT TRONG TONG ĐÀI CHĂM SÓC KHÁCH HANG TU BONG

3.1 Đánh giá một số yêu tổ ảnh hưởng tới chất lượng nhận dạng, Tông nói tiếng Việt và cách cải thiện chất lượng với từng yếu tô

3.1.1 Đánh giả sự ảnh hướng của kênh trưyền diện thoại đến chất lượng nhận

dạng S58 3.1.2 Đảnh giá sự ánh hưởng cách nói của người sử ữ dụng hệ thống nhận dang dén chất lượng nhận dang - a 60

3.1.3 Đánh piá su ảnh hưởng của mô hình ngôn ngữ xây dựng trên các nguồn

dữ liệu khác nhau đến chất lượng nhận dạng - 62 3.1.4 Đánh giá ảnh hướng của nhiễu tới chất lượng nhận dạng trong mỗ hình tổng dài chăm sóc khách hàng tự dộng —-

3.1.5 Kết hiận sự ảnh hưởng của các yếu tổ và để xuất giải pháp cải thiện

71 3.2 Giai phap tao tir dién phát âm tự động cho nhận dạng tiếng mái

tiếng

3.2.1 Đề xuất giải pháp tư dộng, cee TZ

3.2.2 Tao từ điễn cho từ vay mượn

Trang 12

2.3 Mô hình âm họ:

2.4 Mô hình ngôn ngữ N-gram

2.4.2 Vấn dé pap phải khi đùng N-Gram a AB

2.4.3 Phương pháp chiết khẩu add-alpha

2.5 Mô hình DNN và ứng ¡ dụng trong nhận n dang tiéng nói

2.5.1 Cấu trúc mô hình "

2.5.2 Mô hình IIMM-DRA trong nhận dang t tiéng n

2.7 Tim hiéu framework KALDI

CHƯƠNG 3 ĐÁNH GIÁ THỨ NGHIÊM HE THONG NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT TRONG TONG ĐÀI CHĂM SÓC KHÁCH HANG TU BONG

3.1 Đánh giá một số yêu tổ ảnh hưởng tới chất lượng nhận dạng, Tông nói tiếng Việt và cách cải thiện chất lượng với từng yếu tô

3.1.1 Đánh giả sự ảnh hướng của kênh trưyền diện thoại đến chất lượng nhận

dạng S58 3.1.2 Đảnh giá sự ánh hưởng cách nói của người sử ữ dụng hệ thống nhận dang dén chất lượng nhận dang - a 60

3.1.3 Đánh piá su ảnh hưởng của mô hình ngôn ngữ xây dựng trên các nguồn

dữ liệu khác nhau đến chất lượng nhận dạng - 62 3.1.4 Đánh giá ảnh hướng của nhiễu tới chất lượng nhận dạng trong mỗ hình tổng dài chăm sóc khách hàng tự dộng —-

3.1.5 Kết hiận sự ảnh hưởng của các yếu tổ và để xuất giải pháp cải thiện

71 3.2 Giai phap tao tir dién phát âm tự động cho nhận dạng tiếng mái

tiếng

3.2.1 Đề xuất giải pháp tư dộng, cee TZ

3.2.2 Tao từ điễn cho từ vay mượn

Trang 13

DANH MUC TU VIET TAT VA THUAT NCU’

DNN Deep Neural Network Mạng nơron học sâu

MGHMM | Mixture of Gaussian Hidden | Mô hình Markuv ấn hop Gauss

Markov Models MFCC Mel Frequency Cepstral Phuong phap trich chon dic tinh

CocliicienL

MSLA Mel Log Spectral Xấp xi phé Mel

Approximation

GMM Gaussian mixture model Mé hinh gauss hon hop

VLSP Vietnamese language and | Xir ly ngén ngit va iéng néi iéng

speech processing Việt

DIT Discrete Fourier Transform Bién déi Fourier

FO Fundamental frequency Tan số cơ bản

LVSCR | Viemamese large vocabulary | Nhận dạng hệ thống từ vựng lớn continuous speech recognition tiếng việt

Trang 14

DANH MUC BANG

Bang 1 Tile lai Gr (%) ca hé théng nhan dạng giọng nói sứ dụng hai tính

Bảng 2 Tỉ lệ lỗi từ (%4) của hệ thống nhận đạng giọng nói sửa dụng các mô

hình âm thanh GMM và DNN mà không có và có tăng cường dữ liệu

Bang 3 Két qua thử nghiệm sự ảnh hưởng của kênh truyền (wer %%) 59

Bang 4 Két qua thử nghiệm sự ảnh hưởng của cách nói (wer %%)

Bang 5 Perplexity cho bởi 2 mô hình ngôn ngữ với 3 tập dữ liệu text khác

Rang 6 WER(%) cho héi cac hé théng nhận dang với các mô hình ngôn

Bang 7 Các mẫu dữ liệu ử các môi trường khác nhau

Bang & Các mô hình nhận dang khac ohau

Bang 9 Kết quã thực nghiệm mô hình có thanh điệu trên tập dữ liệu VOV

Trang 15

1.2 Mật số dặc thủ của hài toán xây dựng hệ thắng nhị dạng tr trong hệ thống chăm sóc khách hàng và yêu cầu của hệ thông 24

1.2.1 Một số đặc thủ của bài toán xây dựng hệ thống nhận dạng trong chăm

sóc khách hàng, - - ec 24

1.2.2 Yêu cầu của hệ thống nhận dang tiếng nói 24

CHƯƠNG 2 TÌM HIỂU VỀ HỆ THÔNG NHẬN DẠNG TIẾNG NÓI 26

2.1.1 Tổng quan hệ thống nhận dạng tiếng nói

Trang 16

DANH MUC BANG

Bang 1 Tile lai Gr (%) ca hé théng nhan dạng giọng nói sứ dụng hai tính

Bảng 2 Tỉ lệ lỗi từ (%4) của hệ thống nhận đạng giọng nói sửa dụng các mô

hình âm thanh GMM và DNN mà không có và có tăng cường dữ liệu

Bang 3 Két qua thử nghiệm sự ảnh hưởng của kênh truyền (wer %%) 59

Bang 4 Két qua thử nghiệm sự ảnh hưởng của cách nói (wer %%)

Bang 5 Perplexity cho bởi 2 mô hình ngôn ngữ với 3 tập dữ liệu text khác

Rang 6 WER(%) cho héi cac hé théng nhận dang với các mô hình ngôn

Bang 7 Các mẫu dữ liệu ử các môi trường khác nhau

Bang & Các mô hình nhận dang khac ohau

Bang 9 Kết quã thực nghiệm mô hình có thanh điệu trên tập dữ liệu VOV

Trang 17

3.2.3 Thử nghiệm mô hình có thanh điệu "——— T5

3.3 Cải tiến mô hình âm học sử đụng mô hình lai ghép IIMM/DNN76 3.3.1 Mô hình mạng lai ghép sử dụng mạng nơron học sâu DNN 6

3.3.2 Huấn luyện mạng trong thực nghiệm ce TT

3.3.3 Kết quả thử nghiệm

CHƯƠNG 4 KẾT LUẬN VA HUO

4.1 Công việc đã thực hiện

4.2 Các vẫn đề còn tồn tạ

4.3 Dễ cải thiện thêm định hướng trong thời gian tới

TÀI LIỆU THAM KHÁO

G PHÁT TRIEN

Trang 18

DANH MỤC HÌNH ÁNH

1Bnh 1 Miêu tả hệ thống nhận dang tiếng nói để phân loại cuộc g:

Hình 2 Hệ thống nhận dạng tiếng nói điến hình

Hình 3 Các khâu trong trích xuất đặc trưng

Hình 6 8o sánh bai loại cứa số Reclangular và Hamming

1Bnh 7 Tác động của DET tới cửa số

Hinh 12 Ham mật độ phân phối gồm 3 hàm gauss

Hinh 13 Mô hình MG HMM 5 trạng thái

1Bnh 18 Sai số nhận dạng với các điêu kiện thử nghiệm khác nhau

1nh 19 Dữ liệu học có nhiễu được tạo ra từ dữ liệu học clean cộng với tín

hiệu nhiễu thu âm được

Hinh 20 Sai số nhận dạng của các mô hình khác nhau

Trang 19

DANH MỤC HÌNH ÁNH

1Bnh 1 Miêu tả hệ thống nhận dang tiếng nói để phân loại cuộc g:

Hình 2 Hệ thống nhận dạng tiếng nói điến hình

Hình 3 Các khâu trong trích xuất đặc trưng

Hình 6 8o sánh bai loại cứa số Reclangular và Hamming

1Bnh 7 Tác động của DET tới cửa số

Hinh 12 Ham mật độ phân phối gồm 3 hàm gauss

Hinh 13 Mô hình MG HMM 5 trạng thái

1Bnh 18 Sai số nhận dạng với các điêu kiện thử nghiệm khác nhau

1nh 19 Dữ liệu học có nhiễu được tạo ra từ dữ liệu học clean cộng với tín

hiệu nhiễu thu âm được

Hinh 20 Sai số nhận dạng của các mô hình khác nhau

Trang 20

3.2.3 Thử nghiệm mô hình có thanh điệu "——— T5

3.3 Cải tiến mô hình âm học sử đụng mô hình lai ghép IIMM/DNN76 3.3.1 Mô hình mạng lai ghép sử dụng mạng nơron học sâu DNN 6

3.3.2 Huấn luyện mạng trong thực nghiệm ce TT

3.3.3 Kết quả thử nghiệm

CHƯƠNG 4 KẾT LUẬN VA HUO

4.1 Công việc đã thực hiện

4.2 Các vẫn đề còn tồn tạ

4.3 Dễ cải thiện thêm định hướng trong thời gian tới

TÀI LIỆU THAM KHÁO

G PHÁT TRIEN

Trang 21

3.2.3 Thử nghiệm mô hình có thanh điệu "——— T5

3.3 Cải tiến mô hình âm học sử đụng mô hình lai ghép IIMM/DNN76 3.3.1 Mô hình mạng lai ghép sử dụng mạng nơron học sâu DNN 6

3.3.2 Huấn luyện mạng trong thực nghiệm ce TT

3.3.3 Kết quả thử nghiệm

CHƯƠNG 4 KẾT LUẬN VA HUO

4.1 Công việc đã thực hiện

4.2 Các vẫn đề còn tồn tạ

4.3 Dễ cải thiện thêm định hướng trong thời gian tới

TÀI LIỆU THAM KHÁO

G PHÁT TRIEN

Trang 22

1.2 Mật số dặc thủ của hài toán xây dựng hệ thắng nhị dạng tr trong hệ thống chăm sóc khách hàng và yêu cầu của hệ thông 24

1.2.1 Một số đặc thủ của bài toán xây dựng hệ thống nhận dạng trong chăm

sóc khách hàng, - - ec 24

1.2.2 Yêu cầu của hệ thống nhận dang tiếng nói 24

CHƯƠNG 2 TÌM HIỂU VỀ HỆ THÔNG NHẬN DẠNG TIẾNG NÓI 26

2.1.1 Tổng quan hệ thống nhận dạng tiếng nói

Trang 23

DANH MUC TU VIET TAT VA THUAT NCU’

DNN Deep Neural Network Mạng nơron học sâu

MGHMM | Mixture of Gaussian Hidden | Mô hình Markuv ấn hop Gauss

Markov Models MFCC Mel Frequency Cepstral Phuong phap trich chon dic tinh

CocliicienL

MSLA Mel Log Spectral Xấp xi phé Mel

Approximation

GMM Gaussian mixture model Mé hinh gauss hon hop

VLSP Vietnamese language and | Xir ly ngén ngit va iéng néi iéng

speech processing Việt

DIT Discrete Fourier Transform Bién déi Fourier

FO Fundamental frequency Tan số cơ bản

LVSCR | Viemamese large vocabulary | Nhận dạng hệ thống từ vựng lớn continuous speech recognition tiếng việt

Trang 24

1.2 Mật số dặc thủ của hài toán xây dựng hệ thắng nhị dạng tr trong hệ thống chăm sóc khách hàng và yêu cầu của hệ thông 24

1.2.1 Một số đặc thủ của bài toán xây dựng hệ thống nhận dạng trong chăm

sóc khách hàng, - - ec 24

1.2.2 Yêu cầu của hệ thống nhận dang tiếng nói 24

CHƯƠNG 2 TÌM HIỂU VỀ HỆ THÔNG NHẬN DẠNG TIẾNG NÓI 26

2.1.1 Tổng quan hệ thống nhận dạng tiếng nói

Trang 25

MO DAU

Ly do chon dé tai

Việt Nam đang ở ngã rẽ trên quá trình phát triển Đề thúc đấy tăng trưởng trong điều kiện hạn chế về lao động và vốn, Việt Nam phải hướng tới tăng trưởng,

dựa trên tăng năng suất lao động Điều đó đòi hỏi phải nâng cao đáng kế năng lực

đổi mới sáng tạo trong nước, nhất lá ứng dụng những thành tựu khoa hoe công

nghệ vào trong quả trình kinh doanh, sản xuất, quản lý, Irong lĩnh vực viễn

thông thì công nghệ thông Ủin và ứng dụng trí tuệ nhân tạo lại cảng cần được

nghiên cứu và đầu tư, bởi vi đây là lĩnh vực ảnh hưởng sâu rồng và là nền tang

cơ sở hạ tầng để các ngành khác phát triển Từ nhu cầu đỏ đã thúc đây những

nghiên cứu trong dễ tài này

Lịch sử nghiên cứu

Trên thể giới, giao tiếp người máy là một lĩnh vực nghiên cứu rất khó

nhưng lại được ứng dụng thực tiễn rất nhiều Tiếng nói là một phương tiện giao

tiếp tự nhiên nhất của con người với con người nên quá trình nghiên cứu để máy tính hiểu được ngôn ngữ cũng đã bắt đầu cách đây 70 năm Những nỗ lực giai

đoạn ban dầu chỉ tập trung khai thác phổ của tín hiệu âm thanh vì thời đó máy

tính còn khá hạn chế về khả năng xứ lý

Trong những nắm đâu 1960, điểm đáng ghỉ nhận nhất là ý tưởng của tác

giả người Kga, Vintsvuk, khi ông đề xuất phương pháp nhận dạng tiếng nói đựa

trên thuật toán quy hoạch động theo thời gian Đảng tiếc là mãi đến năm 1980,

phương pháp này mới được thể giới biết dến Cuỗi những năm 1970, nghiên cứu

về nhận dạng tiếng nói đã bước đầu thu được kết quả khích lệ, làm nền tảng cho

những phát triển sau này Trước tiên là bài toán nhận dạng từ rời rạo được giải

quyết dựa trên ý tưởng của các nhà khoa hoc người Nga và Nhật lrải qua hơn

70 năm nghiên cứu thì các mô hình được đề xuất để nhận dang tiếng nói liên tục

được thử nghiệm và dánh giá thi mô hình HMNM là cho kết quả tích cực nhất,

nhưng để đưa vào ứng dụng trong thục tế trong các hệ thông lớn thì còn rất hạn chế vi ở ngoài thực tế thi có rất nhiều nhiễu và các ngữ điệu, giọng nỏi các ving

10

Trang 26

DANH MỤC HÌNH ÁNH

1Bnh 1 Miêu tả hệ thống nhận dang tiếng nói để phân loại cuộc g:

Hình 2 Hệ thống nhận dạng tiếng nói điến hình

Hình 3 Các khâu trong trích xuất đặc trưng

Hình 6 8o sánh bai loại cứa số Reclangular và Hamming

1Bnh 7 Tác động của DET tới cửa số

Hinh 12 Ham mật độ phân phối gồm 3 hàm gauss

Hinh 13 Mô hình MG HMM 5 trạng thái

1Bnh 18 Sai số nhận dạng với các điêu kiện thử nghiệm khác nhau

1nh 19 Dữ liệu học có nhiễu được tạo ra từ dữ liệu học clean cộng với tín

hiệu nhiễu thu âm được

Hinh 20 Sai số nhận dạng của các mô hình khác nhau

Trang 27

DANH MỤC HÌNH ÁNH

1Bnh 1 Miêu tả hệ thống nhận dang tiếng nói để phân loại cuộc g:

Hình 2 Hệ thống nhận dạng tiếng nói điến hình

Hình 3 Các khâu trong trích xuất đặc trưng

Hình 6 8o sánh bai loại cứa số Reclangular và Hamming

1Bnh 7 Tác động của DET tới cửa số

Hinh 12 Ham mật độ phân phối gồm 3 hàm gauss

Hinh 13 Mô hình MG HMM 5 trạng thái

1Bnh 18 Sai số nhận dạng với các điêu kiện thử nghiệm khác nhau

1nh 19 Dữ liệu học có nhiễu được tạo ra từ dữ liệu học clean cộng với tín

hiệu nhiễu thu âm được

Hinh 20 Sai số nhận dạng của các mô hình khác nhau

Trang 28

1.2 Mật số dặc thủ của hài toán xây dựng hệ thắng nhị dạng tr trong hệ thống chăm sóc khách hàng và yêu cầu của hệ thông 24

1.2.1 Một số đặc thủ của bài toán xây dựng hệ thống nhận dạng trong chăm

sóc khách hàng, - - ec 24

1.2.2 Yêu cầu của hệ thống nhận dang tiếng nói 24

CHƯƠNG 2 TÌM HIỂU VỀ HỆ THÔNG NHẬN DẠNG TIẾNG NÓI 26

2.1.1 Tổng quan hệ thống nhận dạng tiếng nói

Trang 29

DANH MUC BANG

Bang 1 Tile lai Gr (%) ca hé théng nhan dạng giọng nói sứ dụng hai tính

Bảng 2 Tỉ lệ lỗi từ (%4) của hệ thống nhận đạng giọng nói sửa dụng các mô

hình âm thanh GMM và DNN mà không có và có tăng cường dữ liệu

Bang 3 Két qua thử nghiệm sự ảnh hưởng của kênh truyền (wer %%) 59

Bang 4 Két qua thử nghiệm sự ảnh hưởng của cách nói (wer %%)

Bang 5 Perplexity cho bởi 2 mô hình ngôn ngữ với 3 tập dữ liệu text khác

Rang 6 WER(%) cho héi cac hé théng nhận dang với các mô hình ngôn

Bang 7 Các mẫu dữ liệu ử các môi trường khác nhau

Bang & Các mô hình nhận dang khac ohau

Bang 9 Kết quã thực nghiệm mô hình có thanh điệu trên tập dữ liệu VOV

Trang 30

DANH MUC BANG

Bang 1 Tile lai Gr (%) ca hé théng nhan dạng giọng nói sứ dụng hai tính

Bảng 2 Tỉ lệ lỗi từ (%4) của hệ thống nhận đạng giọng nói sửa dụng các mô

hình âm thanh GMM và DNN mà không có và có tăng cường dữ liệu

Bang 3 Két qua thử nghiệm sự ảnh hưởng của kênh truyền (wer %%) 59

Bang 4 Két qua thử nghiệm sự ảnh hưởng của cách nói (wer %%)

Bang 5 Perplexity cho bởi 2 mô hình ngôn ngữ với 3 tập dữ liệu text khác

Rang 6 WER(%) cho héi cac hé théng nhận dang với các mô hình ngôn

Bang 7 Các mẫu dữ liệu ử các môi trường khác nhau

Bang & Các mô hình nhận dang khac ohau

Bang 9 Kết quã thực nghiệm mô hình có thanh điệu trên tập dữ liệu VOV

Trang 31

DANH MUC BANG

Bang 1 Tile lai Gr (%) ca hé théng nhan dạng giọng nói sứ dụng hai tính

Bảng 2 Tỉ lệ lỗi từ (%4) của hệ thống nhận đạng giọng nói sửa dụng các mô

hình âm thanh GMM và DNN mà không có và có tăng cường dữ liệu

Bang 3 Két qua thử nghiệm sự ảnh hưởng của kênh truyền (wer %%) 59

Bang 4 Két qua thử nghiệm sự ảnh hưởng của cách nói (wer %%)

Bang 5 Perplexity cho bởi 2 mô hình ngôn ngữ với 3 tập dữ liệu text khác

Rang 6 WER(%) cho héi cac hé théng nhận dang với các mô hình ngôn

Bang 7 Các mẫu dữ liệu ử các môi trường khác nhau

Bang & Các mô hình nhận dang khac ohau

Bang 9 Kết quã thực nghiệm mô hình có thanh điệu trên tập dữ liệu VOV

Trang 32

MO DAU

Ly do chon dé tai

Việt Nam đang ở ngã rẽ trên quá trình phát triển Đề thúc đấy tăng trưởng trong điều kiện hạn chế về lao động và vốn, Việt Nam phải hướng tới tăng trưởng,

dựa trên tăng năng suất lao động Điều đó đòi hỏi phải nâng cao đáng kế năng lực

đổi mới sáng tạo trong nước, nhất lá ứng dụng những thành tựu khoa hoe công

nghệ vào trong quả trình kinh doanh, sản xuất, quản lý, Irong lĩnh vực viễn

thông thì công nghệ thông Ủin và ứng dụng trí tuệ nhân tạo lại cảng cần được

nghiên cứu và đầu tư, bởi vi đây là lĩnh vực ảnh hưởng sâu rồng và là nền tang

cơ sở hạ tầng để các ngành khác phát triển Từ nhu cầu đỏ đã thúc đây những

nghiên cứu trong dễ tài này

Lịch sử nghiên cứu

Trên thể giới, giao tiếp người máy là một lĩnh vực nghiên cứu rất khó

nhưng lại được ứng dụng thực tiễn rất nhiều Tiếng nói là một phương tiện giao

tiếp tự nhiên nhất của con người với con người nên quá trình nghiên cứu để máy tính hiểu được ngôn ngữ cũng đã bắt đầu cách đây 70 năm Những nỗ lực giai

đoạn ban dầu chỉ tập trung khai thác phổ của tín hiệu âm thanh vì thời đó máy

tính còn khá hạn chế về khả năng xứ lý

Trong những nắm đâu 1960, điểm đáng ghỉ nhận nhất là ý tưởng của tác

giả người Kga, Vintsvuk, khi ông đề xuất phương pháp nhận dạng tiếng nói đựa

trên thuật toán quy hoạch động theo thời gian Đảng tiếc là mãi đến năm 1980,

phương pháp này mới được thể giới biết dến Cuỗi những năm 1970, nghiên cứu

về nhận dạng tiếng nói đã bước đầu thu được kết quả khích lệ, làm nền tảng cho

những phát triển sau này Trước tiên là bài toán nhận dạng từ rời rạo được giải

quyết dựa trên ý tưởng của các nhà khoa hoc người Nga và Nhật lrải qua hơn

70 năm nghiên cứu thì các mô hình được đề xuất để nhận dang tiếng nói liên tục

được thử nghiệm và dánh giá thi mô hình HMNM là cho kết quả tích cực nhất,

nhưng để đưa vào ứng dụng trong thục tế trong các hệ thông lớn thì còn rất hạn chế vi ở ngoài thực tế thi có rất nhiều nhiễu và các ngữ điệu, giọng nỏi các ving

10

Trang 33

DANH MUC TU VIET TAT VA THUAT NCU’

DNN Deep Neural Network Mạng nơron học sâu

MGHMM | Mixture of Gaussian Hidden | Mô hình Markuv ấn hop Gauss

Markov Models MFCC Mel Frequency Cepstral Phuong phap trich chon dic tinh

CocliicienL

MSLA Mel Log Spectral Xấp xi phé Mel

Approximation

GMM Gaussian mixture model Mé hinh gauss hon hop

VLSP Vietnamese language and | Xir ly ngén ngit va iéng néi iéng

speech processing Việt

DIT Discrete Fourier Transform Bién déi Fourier

FO Fundamental frequency Tan số cơ bản

LVSCR | Viemamese large vocabulary | Nhận dạng hệ thống từ vựng lớn continuous speech recognition tiếng việt

Trang 34

3.2.3 Thử nghiệm mô hình có thanh điệu "——— T5

3.3 Cải tiến mô hình âm học sử đụng mô hình lai ghép IIMM/DNN76 3.3.1 Mô hình mạng lai ghép sử dụng mạng nơron học sâu DNN 6

3.3.2 Huấn luyện mạng trong thực nghiệm ce TT

3.3.3 Kết quả thử nghiệm

CHƯƠNG 4 KẾT LUẬN VA HUO

4.1 Công việc đã thực hiện

4.2 Các vẫn đề còn tồn tạ

4.3 Dễ cải thiện thêm định hướng trong thời gian tới

TÀI LIỆU THAM KHÁO

G PHÁT TRIEN

Trang 35

DANH MUC BANG

Bang 1 Tile lai Gr (%) ca hé théng nhan dạng giọng nói sứ dụng hai tính

Bảng 2 Tỉ lệ lỗi từ (%4) của hệ thống nhận đạng giọng nói sửa dụng các mô

hình âm thanh GMM và DNN mà không có và có tăng cường dữ liệu

Bang 3 Két qua thử nghiệm sự ảnh hưởng của kênh truyền (wer %%) 59

Bang 4 Két qua thử nghiệm sự ảnh hưởng của cách nói (wer %%)

Bang 5 Perplexity cho bởi 2 mô hình ngôn ngữ với 3 tập dữ liệu text khác

Rang 6 WER(%) cho héi cac hé théng nhận dang với các mô hình ngôn

Bang 7 Các mẫu dữ liệu ử các môi trường khác nhau

Bang & Các mô hình nhận dang khac ohau

Bang 9 Kết quã thực nghiệm mô hình có thanh điệu trên tập dữ liệu VOV

Trang 36

2.3 Mô hình âm họ:

2.4 Mô hình ngôn ngữ N-gram

2.4.2 Vấn dé pap phải khi đùng N-Gram a AB

2.4.3 Phương pháp chiết khẩu add-alpha

2.5 Mô hình DNN và ứng ¡ dụng trong nhận n dang tiéng nói

2.5.1 Cấu trúc mô hình "

2.5.2 Mô hình IIMM-DRA trong nhận dang t tiéng n

2.7 Tim hiéu framework KALDI

CHƯƠNG 3 ĐÁNH GIÁ THỨ NGHIÊM HE THONG NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT TRONG TONG ĐÀI CHĂM SÓC KHÁCH HANG TU BONG

3.1 Đánh giá một số yêu tổ ảnh hưởng tới chất lượng nhận dạng, Tông nói tiếng Việt và cách cải thiện chất lượng với từng yếu tô

3.1.1 Đánh giả sự ảnh hướng của kênh trưyền diện thoại đến chất lượng nhận

dạng S58 3.1.2 Đảnh giá sự ánh hưởng cách nói của người sử ữ dụng hệ thống nhận dang dén chất lượng nhận dang - a 60

3.1.3 Đánh piá su ảnh hưởng của mô hình ngôn ngữ xây dựng trên các nguồn

dữ liệu khác nhau đến chất lượng nhận dạng - 62 3.1.4 Đánh giá ảnh hướng của nhiễu tới chất lượng nhận dạng trong mỗ hình tổng dài chăm sóc khách hàng tự dộng —-

3.1.5 Kết hiận sự ảnh hưởng của các yếu tổ và để xuất giải pháp cải thiện

71 3.2 Giai phap tao tir dién phát âm tự động cho nhận dạng tiếng mái

tiếng

3.2.1 Đề xuất giải pháp tư dộng, cee TZ

3.2.2 Tao từ điễn cho từ vay mượn

Trang 37

DANH MỤC HÌNH ÁNH

1Bnh 1 Miêu tả hệ thống nhận dang tiếng nói để phân loại cuộc g:

Hình 2 Hệ thống nhận dạng tiếng nói điến hình

Hình 3 Các khâu trong trích xuất đặc trưng

Hình 6 8o sánh bai loại cứa số Reclangular và Hamming

1Bnh 7 Tác động của DET tới cửa số

Hinh 12 Ham mật độ phân phối gồm 3 hàm gauss

Hinh 13 Mô hình MG HMM 5 trạng thái

1Bnh 18 Sai số nhận dạng với các điêu kiện thử nghiệm khác nhau

1nh 19 Dữ liệu học có nhiễu được tạo ra từ dữ liệu học clean cộng với tín

hiệu nhiễu thu âm được

Hinh 20 Sai số nhận dạng của các mô hình khác nhau

Ngày đăng: 19/06/2025, 16:10

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm