Đây lá tiền dé cho phép có thể triển khai, áp dụng hệ thống nhận dang tiếng nói tiếng 'Việt trong tổng đài chăm sóc khách hàng tự động, Mục đích của luận văn TNghiễn cứu thiết kế mô hì
Trang 1LUẬN VĂN THẠC SĨ KHOA HỌC
TIN HỌC CÔNG NGHIỆP
TIà Nội 2018
Trang 2
BO GIAO DUC VA DAO TAO TRUONG DAI HOC BACH KHOA HA NOL
DINiT MANIL CƯỜNG
NGHIEN CUU XAY DUNG HE THONG NHAN DANG TIENG NOI TIENG VIET UNG
DUNG FRONG TONG DAL CHAM SOC KHACH HANG TU DONG
Chuyên ngành : Đo lường và các hệ thẳng điều khiển
LUẬN VĂN THẠC SĨ KHOA HỌC
TIN HỌC CÔNG NGHIỆP
NGƯỜI HƯỚNG DẪN KHOA HỌC 'T8 Nguyễn Việt Sơn
Hã Nội 2018
Trang 3
LOLCAM ON
Đầu tiên, tôi xin được gửi lời cảm ơn chân thành tới Viện nghiên cứu quốc
tế MICA nơi đã tạo điều kiện cho tôi thực hiện luận văn nảy Tôi xin chân thành
cảm ơn T8 Nguyễn Việt Sơn - ngưới hướng dẫn tôi trong suốt thời gian qua để
tôi có thể hoàn thành luận văn
Ngoài ra, tôi xin gửi lời căm ơn đến Ban lãnh đạo Viện Điện, Phong Dao
tạo lrường Dại học Bách khoa Hà Nội cùng các thầy, cô giáo đã hướng dẫn và
giúp đỡ tôi trong quá trình học tập, nghiên cứu Tiến đến, tôi xin cắm ơn trung
tâm không gian mạng VIHI'1EL, nơi tôi làm việc, đã tạo điều kiên và giúp đỡ tôi trong việc hoàn thành hệ thống Tả tôi trinh bảy trong luận văn thạc sỹ này Tôi
cũng xm gửi lời cám ơn trân trọng đến anh Nguyễn Quốc Bão cùng Loàn thể đồng:
nghiệp của tôi tại nhóm voice trung tim không gian mạng VIETTEL, ban gián! đốc trung tâm cùng toàn thể anh chị em trong trung tâm đã giúp đỡ hỗ trợ tôi trong quá trình hoàn thành luận văn thạc sỹ này
Và cuối củng, tôi xin gửi lời cẩm ơn chân thành tới gia đình, bạn bẻ những
người luôn ở bên cạnh động viên, truyền cảm hứng cho tôi, để tôi có thể đạt tới
giấc mơ của mình
Hà Nội, ngày 18 tháng 08 năm
2018
Dinh Manh Cuong
Trang 4CHƯƠNG 2 TÌM HIỂU VỀ HỆ THÔNG NHẬN DẠNG TIẾNG NÓI 26
2.1.1 Tổng quan hệ thống nhận dạng tiếng nói
Trang 52.3 Mô hình âm họ:
2.3.3 M6 hinh Markov an hop Gauss HMM-GMM - 44
2.4 Mô hình ngôn ngữ N-gram
2.4.3 Phương pháp chiết khẩu add-alpha
2.5 Mô hình DNN và ứng ¡ dụng trong nhận n dang tiéng nói
2.5.1 Cấu trúc mô hình "
2.5.2 Mô hình IIMM-DRA trong nhận dang t tiéng n
2.7 Tim hiéu framework KALDI
3.1 Đánh giá một số yêu tổ ảnh hưởng tới chất lượng nhận dạng, Tông nói tiếng Việt và cách cải thiện chất lượng với từng yếu tô
3.1.1 Đánh giả sự ảnh hướng của kênh trưyền diện thoại đến chất lượng nhận
3.1.2 Đảnh giá sự ánh hưởng cách nói của người sử ữ dụng hệ thống nhận
3.1.3 Đánh piá su ảnh hưởng của mô hình ngôn ngữ xây dựng trên các nguồn
3.1.4 Đánh giá ảnh hướng của nhiễu tới chất lượng nhận dạng trong mỗ hình
3.1.5 Kết hiận sự ảnh hưởng của các yếu tổ và để xuất giải pháp cải thiện
71 3.2 Giai phap tao tir dién phát âm tự động cho nhận dạng tiếng mái
tiếng
3.2.2 Tao từ điễn cho từ vay mượn
Trang 6
3.2.3 Thử nghiệm mô hình có thanh điệu "——— T5
3.3 Cải tiến mô hình âm học sử đụng mô hình lai ghép IIMM/DNN76
3.3.3 Kết quả thử nghiệm
CHƯƠNG 4 KẾT LUẬN VA HUO
4.1 Công việc đã thực hiện
4.2 Các vẫn đề còn tồn tạ
4.3 Dễ cải thiện thêm định hướng trong thời gian tới
TÀI LIỆU THAM KHÁO
G PHÁT TRIEN
Trang 7
DANH MỤC HÌNH ÁNH
1Bnh 1 Miêu tả hệ thống nhận dang tiếng nói để phân loại cuộc g:
Hình 2 Hệ thống nhận dạng tiếng nói điến hình
Hình 3 Các khâu trong trích xuất đặc trưng
Hình 6 8o sánh bai loại cứa số Reclangular và Hamming
1Bnh 7 Tác động của DET tới cửa số
Hinh 12 Ham mật độ phân phối gồm 3 hàm gauss
Hinh 13 Mô hình MG HMM 5 trạng thái
1Bnh 18 Sai số nhận dạng với các điêu kiện thử nghiệm khác nhau
1nh 19 Dữ liệu học có nhiễu được tạo ra từ dữ liệu học clean cộng với tín
hiệu nhiễu thu âm được
Hinh 20 Sai số nhận dạng của các mô hình khác nhau
Trang 8DANH MUC BANG
Bang 1 Tile lai Gr (%) ca hé théng nhan dạng giọng nói sứ dụng hai tính năng đầu vào khác nhau với bai loại từ 21
Bảng 2 Tỉ lệ lỗi từ (%4) của hệ thống nhận đạng giọng nói sửa dụng các mô
hình âm thanh GMM và DNN mà không có và có tăng cường dữ liệu
Bang 3 Két qua thử nghiệm sự ảnh hưởng của kênh truyền (wer %%) 59
Bang 4 Két qua thử nghiệm sự ảnh hưởng của cách nói (wer %%)
Bang 5 Perplexity cho bởi 2 mô hình ngôn ngữ với 3 tập dữ liệu text khác
Rang 6 WER(%) cho héi cac hé théng nhận dang với các mô hình ngôn
Bang 7 Các mẫu dữ liệu ử các môi trường khác nhau
Bang & Các mô hình nhận dang khac ohau
Bang 9 Kết quã thực nghiệm mô hình có thanh điệu trên tập dữ liệu VOV
Trang 9DANH MUC TU VIET TAT VA THUAT NCU’
MGHMM | Mixture of Gaussian Hidden | Mô hình Markuv ấn hop Gauss
Markov Models MFCC Mel Frequency Cepstral Phuong phap trich chon dic tinh
CocliicienL
Approximation
GMM Gaussian mixture model Mé hinh gauss hon hop
VLSP Vietnamese language and | Xir ly ngén ngit va iéng néi iéng
DIT Discrete Fourier Transform Bién déi Fourier
LVSCR | Viemamese large vocabulary | Nhận dạng hệ thống từ vựng lớn continuous speech recognition tiếng việt
Trang 10
MO DAU
Ly do chon dé tai
Việt Nam đang ở ngã rẽ trên quá trình phát triển Đề thúc đấy tăng trưởng trong điều kiện hạn chế về lao động và vốn, Việt Nam phải hướng tới tăng trưởng,
dựa trên tăng năng suất lao động Điều đó đòi hỏi phải nâng cao đáng kế năng lực
đổi mới sáng tạo trong nước, nhất lá ứng dụng những thành tựu khoa hoe công
nghệ vào trong quả trình kinh doanh, sản xuất, quản lý, Irong lĩnh vực viễn
thông thì công nghệ thông Ủin và ứng dụng trí tuệ nhân tạo lại cảng cần được
nghiên cứu và đầu tư, bởi vi đây là lĩnh vực ảnh hưởng sâu rồng và là nền tang
cơ sở hạ tầng để các ngành khác phát triển Từ nhu cầu đỏ đã thúc đây những
nghiên cứu trong dễ tài này
Lịch sử nghiên cứu
Trên thể giới, giao tiếp người máy là một lĩnh vực nghiên cứu rất khó
nhưng lại được ứng dụng thực tiễn rất nhiều Tiếng nói là một phương tiện giao
tiếp tự nhiên nhất của con người với con người nên quá trình nghiên cứu để máy tính hiểu được ngôn ngữ cũng đã bắt đầu cách đây 70 năm Những nỗ lực giai
đoạn ban dầu chỉ tập trung khai thác phổ của tín hiệu âm thanh vì thời đó máy
tính còn khá hạn chế về khả năng xứ lý
Trong những nắm đâu 1960, điểm đáng ghỉ nhận nhất là ý tưởng của tác
giả người Kga, Vintsvuk, khi ông đề xuất phương pháp nhận dạng tiếng nói đựa
trên thuật toán quy hoạch động theo thời gian Đảng tiếc là mãi đến năm 1980,
phương pháp này mới được thể giới biết dến Cuỗi những năm 1970, nghiên cứu
về nhận dạng tiếng nói đã bước đầu thu được kết quả khích lệ, làm nền tảng cho
những phát triển sau này Trước tiên là bài toán nhận dạng từ rời rạo được giải
quyết dựa trên ý tưởng của các nhà khoa hoc người Nga và Nhật lrải qua hơn
70 năm nghiên cứu thì các mô hình được đề xuất để nhận dang tiếng nói liên tục
được thử nghiệm và dánh giá thi mô hình HMNM là cho kết quả tích cực nhất,
nhưng để đưa vào ứng dụng trong thục tế trong các hệ thông lớn thì còn rất hạn chế vi ở ngoài thực tế thi có rất nhiều nhiễu và các ngữ điệu, giọng nỏi các ving
10
Trang 11miền khác nhau Nhat 1a trong tiếng Việt thi càng khó 4p dung vi là ngôn ngữ có
âm sắc và nhiễu phương ngữ Nhưng thời gian gần đây nhờ sự tiền bộ của kỹ thuật học sâu nên giúp chúng ta tăng kết quả nhận dạng lên đáng kế Diễn hình là
trong luận văn nay chúng ta áp dụng mô hình lai TIMIM/DNN thị kết quả nhận được rất khả quan Đây lá tiền dé cho phép có thể triển khai, áp dụng hệ thống
nhận dang tiếng nói tiếng 'Việt trong tổng đài chăm sóc khách hàng tự động,
Mục đích của luận văn
TNghiễn cứu thiết kế mô hình nhận đang tiếng nói tiếng Việt trong lĩnh vực
hẹp là chăm sóc khách hàng, sao cho hệ thông nhận dạng làm việc ổn định và
chính xác với môi trưởng thực tế nhiều nhiễu và tiếng Šn, da dạng các giọng tử
độ tuổi đến vùng miễn khác nhau trên cả nước
Tóm tắt luận văn
Trong luận văn này sẽ piới thiêu tổng quan về nhận đạng tiếng nói và những,
thành phân cơ bản trong nhận dạng, tiếng nói phát âm liên tạc Và ứng dụng của
nhận đạng tiếng nói trong bước đầu đưa vào hệ thống chăm sóc khách hang trong ứng dụng phân loại cuộc gọi để đánh giá chất lượng dịch vụ Ngoài ra luận văn
cũng tập trung vào nghiên cửu các giải pháp để cải thiện chất lượng nhận dang
tiếng việt từ đỏ nêu ra các đề xuất và đông gúp của luận văn này
Dẫầu tiên, luân văn nảy nghiên cứu đề xuất bộ âm vị cơ bản tiếng Việt bao
gầm 47 âm vị và đưa ra giải pháp tạo từ điển tự động để tối ưu hóa quá trình đưa
thông lin thanh điệu vào âm vị Giải pháp này không làm bùng nỗ lượng âm vị và
đem lại hiệu quả đáng kể, thay vi chi bé sung thông tin thanh điệu ở âm chính
"Thứ hai, luận văn nghiên cứu những yêu tố ảnh hưởng đến chất lượng của
hệ thống nhận dạng như kênh truyền 3G, 4G sóng điện thoại, nhiễu, cách người
nói vả đưa 1a các giải pháp giúp hệ thống ổn định và tăng độ chỉnh xác của hệ
thống trong mỗi trường thực tế triển khai sản phẩm chăm sóc khách hàng
'Thứ ba, luận văn nghiên cứu tập trung nâng cao chất lượng mô hình âm
học dựa trên việc cải thiện mô hình âm học truyền thông TIMM/GMIMI bằng cách
sử dựng các mô hỉnh có khả năng phân lớp mạnh là mạng noron sâu Đó là mô
11
Trang 12hình mạng lại ghép HMM/DNN, nó sử dụng đầu ra của mạng nơron thay cho xác
suất phát xạ của mô hình HMfM.
Trang 13CHUONG 1 GIOI THIEU DE TAI 1.1 Nhu cau va tình hình thực tế
1.1.1 Tỉnh hình thực †Ế của tổng đài chăm sóc khách hàng Victtcl
Khảo sát thực tế
Tổng đãi Viettel là nơi chuyển cung cấp thông tịm, giải đáp các thắc mắc
và hỗ trợ khách hàng sử dụng dịch vụ của Viettel Khi khách hàng gọi đến tông đài Viettel dủ dùng nội mạng hay ngoại mạng cũng đều được miễn phí tất cả các
cuộc pọi nên chỉ phí duy trì là rất lớn
Các kênh hỗ trợ Viettel:
Kênh Tẳng đài
Viettel chia ra làm các nhóm ngành dịch vụ riêng biệt và có các tổng đài
tương img Ví dụ tổng đải 18008098 là tổng đài tư vân và giải đáp thông tin dịch
vụ không đây như di động, HomePhone, Dcom Tổng đải 18008119 là tổng đài
tư vấn, bảo hóng và hỗ trợ khách hàng sử dụng các dịch vụ cỗ định (diện thoại cố
định), truyền hình, intemet co day (ADSL, FTTH) Téng dai 18008000 la téng
đài Giải đáp các thắc mắc đành cho doanh nghiệp, trường hoe, hé tro thang tin
địch vụ kênh I.casedline, Office-wan, dịch vụ quán lý phần mềm, quản lý phương,
tiện vận tải, chữ ký số, Dịch vụ hỗ trợ Viettel Telecom chuyên nghiệp là 1800
8168 Tất cả đều là tống đài miễn phí
Với 5 tổng đài Chăm sóc khách hàng đặt tại các tỉnh/thành phố trên khắp
cả nước bao gồm Hà Nội, Hồ Chí Minh, Dà Nẵng, Hải Phòng, Thái Nguyên, đến nay Viettel cú mạng lưới chằm sỏu khách hàng lớn nhất trên oấ nước Củng với đôi ngũ nhân viên phải qua đào tạo để chuyên nghiệp, đảo tạo bai ban, tổng dai Viettel vẫn chỉ đủ khả năng tiếp nhận đến 5 triệu cuộc gọi/ngảy Nhưng với số
lượng các dịch vụ và sẵn phẩm, khách hàng cá các thị trường lrong và ngoài nước
thì chi phí để vận hành và duy trì cảng ngày cảng cao và khó kiểm soát chất lượng
13
Trang 14Kênh hỗ trợ khác ngoài kênh tổng đài
Để phục vụ khách hàng tết nhất, Viettel mở rộng gác kênh tương lắc ngoài
kênh tổng dài giúp khách hàng thuận tiện hơn khi dùng dịch vụ: Kênh ứng dựng
Mỹy Viettel, web portal Dây là các sản phẩm giúp người dùng có thể tra cứu các
thông lin về địch vụ như chỉ tiết các gói cước, chương trinh khuyến mại, các dịch
vụ giá trị gia tăng, mobile imternot, 3G, 4G của Victcl, hỗ trợ khách hàng tra
cứu mã PIN/PUK, thông tín thẻ cảo, thanh toán cước, mua đata, bảo lỗi dịch vụ,
cao và cấp bách Tử nhu cầu đó, Victol đã đầu Lư nghiên cứu các ứng dụng hệ
thống nhận dạng tiếng nỏi tiếng việt để có thé đưa các tiến bộ của công nghệ
thông tin vào nâng cao chất lượng địch vụ chăm sóc khách hàng, và đần dần từng
bước tự dộng hóa Vì tiếng nói là tin hiệu rất khó xử lý trực tiếp hay áp dụng khoa
học công nghệ vào xử lý nên việc chúng ta chuyển được tiếng nói thành câu là rất
hữu ích vì các hệ thông xử lý đữ liệu lớn, và trã lời tự động hiện tại mới chỉ làm
việc dược trên dữ liệu văn bản
1.1.2 Giới thiệu về hệ thông hỗ trợ chăm sóc khách hàng sơ khai ban đầu
xây dựng
1.1.2.1 Mục đích của việc xây dựng hệ thống
Khái niệm về hệ thống nhận đạng tiếng nói
hận dang tiếng nói miêu tá quá trình biển đổi tín hiệu 4m thanh thành doạn văn băn gồm chuỗi các từ có nội dung tương ứng Thông thưởng tin hiệu
âm thanh nảy được ghi âm bởi microphone và được chuyển đối thành tín hiện ở
dang file wav Tín hiện này sẽ là đầu vào của hệ thống nhận đạng và hệ thống này
cố gắng tìm ra đoạn văn bản đứng nhất có thể những gì người đọc nói ra.
Trang 15Tình hình ứng dụng của nhận dạng tiếng nói
Ngay nay nhận dạng tiếng nói được ứng dụng trong nhiều lĩnh vực chỉnh Trong nhà thông mình, kể từ khi trợ lý áo Siri xuất hiện lần dầu trên iphone 4s,
chức năng điều khiển bằng giọng nói đã được quan tâm hơn và nhiễu công cụ thực hiện chức năng nảy cũng liên tiếp ra đời, như Google assiztznL, Cortana của
Windows, Hiện nay đã có một số piải pháp nhà thông mình trên thể piới đã
được áp dụng thành công tính năng điều khiển bằng giọng nói như Ilome
Automation Inc, BK Smart Home, Control4
'trong giáo dục, nhận dạng tiếng nói cũng có một số ứng dựng hỗ trợ người
học khá tốt như học ngoai ngữ, giúp người khiếm thính và người không có khả
năng đánh máy tỉnh Đối tượng học ngoại ngữ, nhận dạng tiếng nói có thể giúp
người học luyện phát âm và phát triển kỹ năng nói của họ
Trong viễn thông, nhờ công nghệ nhận dạng tiếng nói hệ thống trả lời tự
động mà còn có thế nhận tín hiệu tổng nói để xác định yêu cầu của khách hàng,
Ngoài ra, việc tốc độ xử lý của các thiết bị di động thông minh được cải thiện Và
như trong luận van nay chúng ta sẽ giúp đưa ra những đoạn văn bản của người gọi lên tổng dài để đưa vào hệ thẳng phân tích và xử lý ra yêu cầu của khách hàng
rỗi đưa ra các kênh phản hồi khách hàng
Trong một số lịch vực khác, có một số ứng dụng khả hữu ích có thể được
kể dến như việc tao phụ dễ phim tự động, phiên dịch tự động Trong ứng dụng
tạo phụ đề tự động nó giúp nội dung tiếp cận đến nhiều người và cả những người
khiểm thính, và các đối tượng của các quốc gia khác nhau Hệ thống phiên dịch
tự động, nhận dạng tiếng nói giúp xóa bỏ rào cần ngôn ngữ
Đánh giá chất lượng hệ thống nhận dạng tiếng nói
Thông thường uác hệ thống nhận dạng tiếng nói được đánh giá độ hiệu quả thông qua tỉ lê lỗi từ (WER — Word Error Ratc) và độ chỉnh xác các câu (SER —
Sentence Error Rate) Mục đích là dé do độ khác biệt giữa chuỗi văn bản tạo ra bởi hệ thống nhận dạng và chuỗi văn bản tham chiếu tạo ra bởi con người, cô thể
15
Trang 16khác nhau về nội dưng lẫn độ đài Do đó tỉ lệ lỗi từ xác định thông qua các lỗi từ
bị thay th
lỗi chèn thêm từ, và lỗi Lừ bị xóa bố oúa đầu ra hệ thẳng nhận dạng so
với văn bản tham chiêu
Tưới đây là các vẫn để thực tế của triển khai bài toán nhận dạng tiếng nói cho ling dai chẩm sóc khách hàng Vicuel Trong giai đoạn đầu nghiên cửu để chứng minh tính khả thi của việc ứng dụng công nghệ nhận dạng tiếng nói vào hệ
thống chăm sóc khách hàng tự động ở Viettel, tôi có làm một hệ thống đơn giản
thể hiện tỉnh khả thi của mô hình nhận đạng tiếng nói trong chăm sóc khách hang,
đỏ là mô hình phân loại các cuộc goi đến tổng đài chăm sóc khách hàng Viettel,
giúp đưa ra đánh giá chất lượng dịch vụ
Qua những nỗ lực ban dầu nảy tôi dã có được một chút kinh nghiệm va
kiến thức để xây dựng hệ thống nhận đạng tiếng nói tiếng việt trong lĩnh vực hẹp
lả hệ thống tổng dài chăm sóc khách hang tự động
Tiếng việt là ngôn ngữ chính thức của người việt với hơn 90 triệu người
đang sử dụng như ngồn ngữ tự nhiên trong giao tiếp hàng ngày, vả tiếng việt cũng
lã ngôn ngữ thứ hai cho các dân tộc thiểu số nên cách sử dụng ở các nơi không
có tính thống nhất và thường có ảnh hướng bởi phong tục và văn hóa ở địa phương
'Irong lần dầu cố pắng xây dựng hệ thống nhận dạng tiếng nói tiếng việt
phát âm liên tục với bộ từ vựng lớn Ở Việt Nam chưa có bất kế một bộ dữ liệu
nao cho lĩnh vực nảy mả trong lĩnh vực khoa học đỡ liệu thì vẫn dễ dữ liệu lả yếu
tổ quyết định sự thành công riên tôi thu thập đữ liệu từ rất nhiều nguồn có nhiễu
thực tế, các cuộc điện thoại nhờ vào sự giúp đỡ của nhiều bên và cũng tự thu thập
các dữ liệu thô về xử lý Vì vậy việc xử lý dữ liệu và phân loại rất tốn kém về mặt
thời gian và tiền bạc
Mục tiêu của chúng ta là xây dựng hệ thống nhận dạng tiếng nói tiếng
việt có thể làm việc én định trong môi trường thực tế với độ chính xác trên 90%
để áp dụng vào tổng đài chăm sóc khách hàng tự động Đây là một nhiệm vụ rất
quan trọng với một doanh nghiệp có lượng người dùng lớn Ví dụ, chỉ ở thị trường:
l6
Trang 17Việt Nam, các tổng đải chăm sóc khách hàng đã nhận được 500,000 cuộc gọi mỗi ngày nên nhu cầu tự động hóa là rất cao Để xây dựng hệ thông nhận dạng chúng
ta cần thu thập rất nhiều dữ liệu Ở giai đoạn đầu, tôi thu được 85,8 giờ đữ liệu
âm thanh từ các tổng đài điện thoại chăm sóc khách hàng vả các tài liệu văn bản
của các dữ liệu âm thanh từ 400 nhân viên tổng đài và đại lý chăm sóc khách
hàng Tôi đã áp dụng rất nhiều kỹ thuật mới như là làm trễ thời gian bằng mạng
nơron (Time delay neural network) với dữ liệu liên tục (sequence training), tăng cường dữ liêu bằng cách thay đổi tốc độ (data augmentation), Cuối cùng tôi
nhận được 17,44% tỉ lệ từ lỗi (word error rate) cho hệ thống đầu tiên Với tỉ lê lỗi
này thì hệ thống chưa thể đưa vào đề xây dựng hệ thống chăm sóc khách hàng tự đông nên chúng ta sẽ phải nghiên cứu và tìm ra giải pháp cải tiến hệ thống nhận dạng để có thể áp dụng vào bài toán thực tiễn
1.1.3.1 Kiến trúc hệ thống
Tôi xây dựng một hệ thống nhận dạng tiếng nói tiếng việt để phân loại các
cuộc gọi đến tổng đài chăm sóc khách hàng là tiền đề để xây dung cho tổng đài
| ata Fromme |) DNNAased | jÌ mm L, hhươm
| "Paap ” tain aos”) BOỐN TT| ng yy|P cứdmrneae
Trang 18Các thành phần của hệ thống:
Xác định khoáng im lặng (Voice acbvity detection): Trong trung tam
cuộc gọi của V1ettel, kênh đại lý và kênh khách hàng được ghi lại riêng 2o đó,
có rất nhiều khoang im lặng trong mỗi kênh âm thanh và họ cần phải được chia
thánh các doạn ngắn giống như cầu Để phát hiển hoạt động thoại và phân doan
âm thanh, tôi sử dụng 10 giờ đữ liệu để dao tạo mô hình VAD Sau đó, mô hình
nảy được sử dụng để căn chỉnh ấm thanh Sau đó âm thanh được phân đoạn và được tạo ra bằng cách gắt âm vị không lời nói liền kể (tiếng ồn và im lặng) nhiều
hơn ngưỡng thời gian (1 giây) trong đầu ra căn chỉnh
Tăng cường dữ liệu bằng cách thay dỗi dộ tốc dộ của dữ liệu âm thanh
(Data Angmentation): ĐỂ xây dựng một mô hình âm thanh hợp lý, cần hang
trăm đến hàng nghìn giờ âm thanh Tuy nhiên, để đạt được đữ liệu âm thanh được
phiên âm rất tốn kém Để khắc phục diều nảy, nhiễu kỹ thuật đã dược để xuất như
học bán giám sát, lâp mô hình dụa trên mô hỉnh mẫu thu thập đữ liêu từ nguồn
khác Trong luận văn này, tôi sử dụng mộ phương pháp đơn giản gọi lá tăng
cường dữ liệu Đó là một chiến lược chung được áp dụng để tăng sẽ lượng dữ
liệu overfitting và cải thiện độ bền của mô hình so với các điều kiện thử nghiệm khác nhau Trong nghiên cứu nảy, tôi tăng kích thước đữ hệu đảo tạo bằng cách
sử dụng kỹ thuật tăng cường dữ liêu được goi là nhiễu loạn tốc đô âm thanh Lắc
độ nhiễu loạn tạo ra tín hiệu thời gian bị biến dạng, ví dụ, với tin higu dang sóng
phát âm x(19, thời gian cong vệnh bởi hệ số œ sẽ tạo ra tín hiệu x (at) Trong nghién cứu này, chúng ta sử dụng ba giá trị khác nhau của ơ: tức là 0.9,1.0,1 1.1
Chiết xuất đữ liệu: Chúng ta sử dụng phương nháp MECC lăng cường dữ
liêu với dặc trưng âm thanh pitch (F0: đặc trưng cho cao độ)
Mô hình âm thanh: Mô hình hỗn hợp Gauss với đảo tạo thích ứng (GMM-
SAT) va mang noron học sâu có độ trể theo thời gian (TDNN) với đảo Lạo chuỗi
liên tục
Tw dién phát âm: Tiếng Việt là một ngôn ngữ âm sắc đơn âm Mỗi âm tiết
tiếng Việt có thể được coi là một sự kết hợp của các thành phan ban dau, cudi
18
Trang 19cùng và giai điệu Do đó, từ điển phát âm (từ điển) cần phải được mô hình hỏa
bằng các âm Tôi sử dụng 47 âm vị cơ bản Các đấu âm được tích hợp vào âm vị
cuối cùng của âm tiết để xây dựng từ điển phát âm cho 6000 âm tiết tiếng Việt
phổ biến Để xây đựng từ điển cho các tử nước ngoài và kỹ thuật, tôi chọn 5000
từ nước ngoài phổ biển tử các trang web cing với 500 từ trong lĩnh vực địch vụ
chăm sóc khách hàng Những tử này sau đó được phiên âm một cách thủ công
trong cách phát âm tiếng Việt ĐỂ Lạo phiên âm các từ chưa biết trong đữ liệu huấn luyện, chứng ta sử đựng chuyển dỗi praphơmc-to-phoneme (G2P) bằng cách
sử dụng bộ công cụ mã nguồn mở Sequitur G2P để tạo phiên âm cho 5000 từ
nước ngoài Kết quả là, tổng số Lừ trong từ diễn của tôi là khoảng 12000 từ Từ diễn nảy dược sử dụng dễ huần luyện cũng như giải mã
Mồ hình ngôn ngữ: Mô hình ngôn ngữ 4-gram với tỉnh năng làm mịn Kneser-Ney được sử đụng sau khi khám phá các cấu hình khác nhau Tôi sững,
cố gắng mở rông phần văn bản bằng cách sứ dụng các nguồn văn bản khác nhau
như từ văn bản web hoặc chú thích trong phim, tuy nhiên độ chính xác khá thấp Một lý do có thể là các nguồn văn bản này quá khác với miễn dịch vụ khách hàng,
Thân loại văn bản: Sau khi giải mã, đầu ra nhận dang duoc str dung để
phân loại văn bán để phân loại cáo cuộ gọi điện thoại thành gáo nhóm khác nhau như báo cáo lỗi, dịch vụ tư vẫn 1rong nghiên cứu sơ bộ này, chủng ta chỉ đơn
giản là phân loại các cuộc gọi điện thoại dựa trên danh sách từ khóa Cụ thể, mỗi
nhỏm có một danh sách các từ khóa dược xác định bởi bộ phận dịch vụ chăm sóc
khách hảng Sau khi giải mã, trình tim kiếm từ khóa sẽ tim các từ khóa ở đầu ra
giải mã Mỗi từ khóa chỉ được gán một điểm số bằng nhau Cuộc gọi điện thoại
sẽ dược phần loại vào nhóm có số điểm cao nhất
1.1.3.2 Miêu tả tập dữ liệu
Trong thử nghiệm đầu tiên nảy, nguần thu thập đữ liệu là từ các cuộc điện
thoại của tổng dài chăm sóc khách hàng của Victtcl chiếm chủ yếu Tần số lấy
mẫu là 8kHz, với độ phân giải là 8 bits/sample Trong tập đữ liệu, chúng ta thu
19
Trang 20thập từ 50 đại lý với 23,932 cuộc gọi điện Dữ liệu của chúng ta thu thập từ hai
kênh là từ đại lý chăm sóc khách hàng vả kênh người dùng gọi lên tống đài tổng
cộng được 85,8 giờ Nhưng trong nguồn đữ liệu thi có rất nhiều tiếng ôn, các
giọng vùng miễn khác nhau như 60% là người miễn Bắc (vì các tổng dai chúng
ta thụ thập dữ liệu chiếm da số là Lổng dải miền Bắc), 30% miền Trung va 10%
miễn Nam, độ tuôi trung bình những khách hang gọi lên tống đải chăm sóc khách
hàng lá từ 16 tuổi đến 30 tuối và nhiễu mỗi trường phải gán nhãn nó nhu là tiếng
vỗ tay hoặc các khoăng im lặng trong các dữ liệu âm thanh
1.1.3.3 Thử nghiệm
Thiết lập thử nghiệm
Đầu tiền chúng ta xác định dữ liệu huấn luyện vả các bộ dữ liệu kiểm tra
tit kho vin ban Chung ta trích xuất 19.672 cuộc gọi từ 43 đại lý để thành lập bộ
huấn luyện Thời gian huấn luyện lả 70 giờ với 125,337 phân doạn Các thiết lập còn lại bao gồm 4.260 cuộc gọi diện thoại từ 7 dại lý được sử dúng cho các bộ thử nghiệm Thời gian thiết lập thử nghiệm là 15,8 giờ với 28.488 phân đoạn Với
thiết lập nảy, không có người nói chồng chéo giữa bộ đữ liệu huấn luyện và các
bộ dữ liệu thử nghiệm Hộ công cụ nhận dạng tiếng nói của Kaldi được sử dụng
để xây dựng nhận dạng tiếng nói Bộ công cụ SRILM được sử dụng để xây dựng
mỗ hình ngôn ngữ Hiệu suất của tắt cả các hệ thẳng dược đánh giá theo tỉ lệ lỗi tit (WEB)
Tôi đánh giá độ chính xác của hệ thông khi MECC được tăng cường với
đặc trưng cao độ Piích Không khí đi qua thanh quán làm thanh quản rung lên Sự
rung động này với một tỉ lệ nào đó cũng được gọi là tằn số cơ bản 0 Tan sé co
bản phụ thuộc vào kích cỡ và áp lực của thanh quán Tân số cơ bản liên quan đến
âm thanh về cao độ và nó có thể được ước lượng chính xác từ tin hiệu âm thanh
Độ cao hay độ trầm bỗng oủa âm thanh chính là tần số sóng sơ học của âm thanh
Âm thanh nào cũng phát ra ở một độ cao nhất định Độ cao cua 4m thanh phụ
thuộc vào tần số dao động Dối với tiếng nói, tần số đao động của đây thanh quản
20
Trang 21quy định độ cao giọng nói của con người Mỗi người có một cao độ giọng nói
khác nhau, độ cao của nữ giới thưởng cao hơn nam giới và đô cao của trẻ em
thường cao hơn của người lớn Cao độ Pitch do đó lả đại lượng tỉ lệ nghịch với
tần số cơ ban F0 Pilch là thuộc tính cơ bản của tiếng nói Tai người nhạy cảm
với sự thay đỗi tần số cơ bản
Thư được hiển thị trong Bảng 1 sử dụng hệ thông với dữ liệu tăng cường, đặc trưng cao độ Pitch giám tỉ lệ lỗi lừ đáng kể (WER) (từ 37,38% đến 31,159)
'ết luận 1: Vậy trong khi xây dựng hệ thống nhận dạng cho lĩnh vực hep
la tang đài chăm sóc khách hàng chủng ta sẽ sử dụng MECC tăng cường với đặc
trung pitch
Bảng 1 TY lệ lỗi từ (1) của hệ thẳng nhận dạng giang nói sử dụng hai tính
năng đầu vào khác nhau với bai loại từ điển phát âm khác nhan
âm là một chuỗi các âm vi không có thông tin thanh điệu Tiếng Việt là một ngôn
ngữ hữu âm có thanh điệu, do đó rõ ràng sử đụng tonal dictienary âm lả một lựa
chọn thích hợp Khi so sánh kết quả của Bảng Ì, chúng ta thấy rằng việc sử dụng
tonal dictionary có thể cải thiện đáng kế hiệu suât nhận dạng Khi thêm đặc trung
pitch, 16i chi nhận được cải thiện 0,65% bằng cách sử dung tonal dictionary
Ngược lại, khi MECC được tăng cường với đặc tính pitch, sự cải thiên bằng cách
sử dụng tonal đictionary là lớn hơn đáng kế (2, 16%) Nó cho thầy rang bing cach
sử dụng tonal dictionary dặc biệt oải thiện tí lễ lỗ khi tính năng đầu vào dược
tăng cường với dic trung pitch
21
Trang 22Kết luận 2: Trong hệ thống nhận dạng tiếng viét, tir dién phat âm là một
trong những thành phần quan trọng, ánh hưởng rất lớn đến chất lượng nhận dang,
lả ngôn ngữ có 6 thanh điệu việc tích hợp thông tin thanh điệu vào từ điển phát
âm không phải là việc dễ dàng, nều không nghiên cứu kỹ lưỡng về ngữ âm tiếng
Việt thì hệ thống sẽ cho chất lượng nhận dạng không như mong muốn Trong
phan 3 của luận văn chúng ta sẽ đi sau vào giải pháp xây đựng từ điển phát âm
có tích hợp thông tin thanh điện (tonal dicionary) cho nhận dạng uễng Việt Ngoài ra trong lĩnh vực hẹp là chăm sóc khách hàng thỉ có rất nhiều từ vay mượn
Mô hình âm học: Trong các thí nghiệm trước đây, mô hình âm học GMIML
với cách huấn luyện thích nghĩ (SAT) đã dược sử dụng Ưu điểm của DJNN đối với GŒMM dỗi với mê hình hóa âm thanh dã được nhiều nhà nghiên cứu chứng,
minh Trong giai đoạn đầu này, tôi sử dụng một biến thể của DI gọi là mạng
nơron tể thời gian (TDNN) dược để xuất gần dây Đầu tiên tôi sử dụng TDN
với tiêu chuẩn huấn luyện cross-entropy dua trén frame-based (LNNI) Có thể
thấy rằng WTIR giảm đáng kế (từ 28,99% xuống còn 20,20%) bằng cách sử dụng
"TDNN cho mô hình hóa âm thanh Sau đó TUINN với đảo tạo chuỗi (TDNN2)
được áp đụng đựa trên một state-level thay đổi của Minimum phone error (MIPE),
được gọi là sMBR Bằng cách sử dựng đảo tạo chuỗi, chúng ta đạt được cái thiện
thêm khoảng 2% Với nhiều sMIBR lặp đi lặp lại đạt được tỉ lê lỗi thấp hon WER
đường như bão hỏa sau 4 lần lặp đây là hiện tượng nút thắt cỗ chai trong phương
pháp nay, do thời gian của luận văn không dủ nên ở giai đoạn tiếp theo tôi sẽ
nghiên cứu cải thiện bằng một mô hinh học sâu có số lượng lớp ấn phù hợp còn
ở luận văn này tôi tập trung vào mô hình lai HMM/DNN
Bảng 2 TẾ lệ lỗi từ (%6) của hệ thẳng nhận dạng giọng nói sửa dụng các mô
hình âm thanh GIẤM và DNN mà không có và có tăng cudng dit liệu
augmentation
22
Trang 23'ết luận 3: Việc sử dụng phương pháp học sâu giúp tăng dang kể kết quả
nhận dạng Chủng ta cần tim ra một mô hình học sâu tốt hơn để nâng cao chất lượng nhận dang, trong phần 3 của luận văn chúng ta sẽ phân tích mê hình lai ghép HMMAINN Giải pháp này sử dụng dầu ra của mạng noron thay cho xác
suất phát xạ của mô hình IIVIM
- Tăng cường dữ liệu: Đề tăng kích thước đữ liệu đảo Lạo, tôi áp dụng kỹ
thuật tăng cường dữ liêu được goi là nhiễu loạn tốc đồ âm thanh Irong nghiên
cứu này, ba nhiên bản của tín hiệu tiếng nói gốc, x(1) được tạo ra tức là, x (0 90,
x(0, x (1.10 Sau dó, tính năng trích xuất được áp dụng trên tín hiệu lời nói mới
để đào tạo mô hình âm thanh theo cách thông thường
Cột cuối cùng của Báng 2 cho thấy WER®% uủa các mô hình âm thanh khác nhau
sau khi áp dung tăng thêm dữ liêu
Kết luận 4: Rõ ràng là sử đụng tăng cường dữ liệu luôn làm giảm WER từ
1,75% xuống 1,07% cho các mô hình âm học khác nhau
2
Trang 241.2 Một số đặc thù của bài toán xây dựng hệ thông nhận dạng trong hệ
thống chăm súc khách hàng và yêu cầu của hệ thống
1.2.1 Một số đặc thủ của bài toán xây dựng hệ thắng nhận dang trong
chăm sóc khach hang
I¡ Tiếng nói cần nhận đạng là tiếng hội thoại Lự nhiên, với đa dạng cáo nhịp
điêu các giong nói khác nhau, các vùng miền khác nhau như nhận định ở trên,
khách hàng gọi điện lên tổng đài chăm sóc khách hàng thường ở nhiều vùng miễn,
địa phương, và hệ thống nhận dạng xây dựng lần đầu nhận dạng với ti lệ lỗi
26,14%
! Giọng nói khách hàng đôi khi không chuẩn, nhập nhằng, nhiều từ vựng, phát âm sai
+ Phải nhận dạng được nhiều từ đặc thủ trong lĩnh vực tống đài bao gdm
nhiều từ khó phát âm và Lử nước ngoài
+ Các cuộc gọi thưởng được thực hiện ở môi trường nhiễu nhiễu vả tiếng,
or 5
1.2.2 Yêu câu của hệ thông nhận dạng tiếng nói
+ Nhận dạng tốt các từ, câu trong bài toán hẹp chăm sóc khách hàng, nhất
là trong điêu kiện thực tế thì khách hàng gọi lên tổng đài chăm sóc da phần làở ngoài môi trường có tiếng ồn cao như ngoài đường, trong văn phòng, trong các
nhà máy, và di kẻm rất nhiều giọng phương ngữ ở các vùng miễn khác nhau,
cùng từ ngữ chuyên môn trong lĩnh vực viễn thông, thì mục tiêu độ chính xác
cao là rất khó khăn
+ Dam bao yếu tố về đáp ứng thời gian nhận dạng trong hệ thông: Yêu tổ này gắn liễn với hệ thống cơ sở hạ Lằng, dù hệ thống nhận dạng có tốt đến may
mà cơ sở hạ ting dap ứng chậm thì chất lượng chăm sóc khách hàng cũng vẫn
rất thấp, đây là thách thức cho triển khai hệ thống ở ngoài thục tế
24
Trang 25+ Dễ dàng kết hợp với các module khdc nhu module TTS, NLP dé thiét
kế được một dich vu internet dé dang cung cấp và tích hợp cũng lả bải toán khá
1ä cần thiết nếu chúng ta muốn đưa ứng dụng nhận dang tiếng việt vào thực tế
một cách rộng rãi không chỉ giới hạn ở phạm vị để tài này
25
Trang 26CHUONG 2 TIM HIEU VE HE THONG NHAN DANG TIENG NOI
2.1 Hệ thống nhận dạng
2.1.1 Tổng quan hệ thống nhận dạng tiếng nói
Hệ thống nhân dạng tiếng nói điển hình bao gồm các thành phần như được
Giải thích ý nghĩa khái quát các module:
Trích xuất đặc trưng: Phân tích tín hiệu tiếng nói thành các vector để
máy xử lý được Trong quá trình trích chọn đặc trưng, tín hiệu âm thanh được cắt thành các khung theo thời gian để xử lý và trích chọn ra đặc trưng quan
trọng dưới dạng chuỗi vector X Mục đích của hê thống nhận dạng sau đó sẽ xác
định chuỗi văn bản W đúng nhất với vector đặc trưng X
Mô hình âm học: mô hình hóa các âm vị bằng các chuỗi trạng thái để ước
lượng xác suất P(XIW) của vector đầu vào X khi biết văn bản đầu ra W'
Từ điển: tập hợp các cách phát âm của các từ cần nhận dạng Cung cấp cách phát âm cho các từ tìm thay trong mô hình ngôn ngữ
Mô hình ngôn ngữ: mô hình hóa khả năng xuất hiện của các từ, quyết
định chuỗi từ đầu ra Cụ thể mô hình ngôn ngữ cho biết xác suất của một câu
hoặc một cụm từ thuộc một ngôn ngữ
26
Trang 272.1.2 Phương diện toán học gắn với từng phần trong mê hình nhận dạng
tiếng nói
Sau khi được phân tách đặc tính tín hiệu tiếng nói ban dầu dược biến dải
thành một chuỗi các vector quan sát, ký hiệu là (C¡ O;, O:, , Oa) Bộ từ vựng V
chứa cách phát âm của tắt cá các tử trong tập huấn luyện Vấn đề cơ bán của nhận
dang tiếng nói theo toán học là tìm ra chuỗi ký tự W có khả năng đã phát sinh ra
chuỗi vector quan sát là cao nhất Biểu diễn của phát biểu được trình bảy đưới dạng toán học như sau
"thể nhưng số lượng các vector quan sát trong tập huần luyện là võ cùng lớn nên
việc tính trực tiếp theo công thức trên là không thể, trừ khi có sự giới hạn về số
người nỏi hoặc độ dai cia 4m thanh đầu vào
Vi vay dé đơn giản cho tính toán ta có công thức Dayes:
P(O}: Coi như là một hằng số và không đối với mọi người nói nên có thế
bé qua vị không ảnh hưởng đến kết quả Tìo vậy, công thức mới để tìm ra chuỗi
từ tốt nhất
W —atgmax p(O |) p(W)
2.2 Phương pháp trích xuất đặc trưng MECC
"Tín hiệu âm thanh ngoài đời thực là tín hiệu hến tue, hay tín hiệu Lương lự trước khi thực hiện bắt cứ bước xử lý nảo, tín hiệu âm thanh cân được số hóa
Việc nảy được thực hiện tự động bởi các thiết bị thu âm, bằng cách lấy mẫu lin
27
Trang 28hiệu đầu vào Như vậy, một tín hiệu âm thanh bắt kỳ khi đã được đưa vảo máy
của tín hiệu Lại
tỉnh, lả một Lập cáo mẫu liên tiếp nhau, mỗi mẫu lá giá trị biên độ
một thời điểm nhất định Một tham số quan trong trong việc lẫy mẫu tín hiệu âm
thanh là tần số lẫy mẫu, Ts, tức là số mẫu được lẫy trong mội giây Đề có thể đo lường chỉnh xác, cần phải lấy ¡L nhất 2 mẫu trong một chu kỳ của tín hiệu tương
tự đầu vào Như vậy, tần số lây mẫu phải lớn hơn 2 lần tằn số cao nhật của tín
hiệu âm thanh đầu váo
Trích chọn dặc trưng đối với nhận dạng tiỂng nói là việc tham số hóa chuối
tín hiệu âm thanh đạng sống đầu vào, biển đổi tín hiệu âm thanh thành một chuỗi
các vector đặc trưng n chiều, mỗi chiều là một giá trị thực Hiện nay, có rất nhiều phương, pháp trích chọn dac trumg nhur: 1 PC (Linear predictive coding — Dir dean
tuyển tỉnh), AMDF (Average magnitude đifferent function — hảm biền độ trung
bình), MFCC (Mel-trequency cepstral coefficients)
'Irong bải toán nhận dạng tiếng nói đang xét, với tần số lây mẫu mặc định
16.00011z, một đoạn mẫu với một số lượng nhật định tạo thành một frame, nhu vậy tín hiệu tiếng nói là tập các frame liên tiếp nhau, trích chọn đặc trưng MFCC
cho ta tập đặc trưng cho mỗi fame tiếng nói nảy Tại sao phải chia thành các
frame va ede frame cu thể chúng có đặc trưng thể náo, ta số đề cập tới ở ngay
Hình 3 Các khâu rong trích xuất đặc rung
-_ Các khâu chính trong trích xuất đặc trưng
+ Tiền xử lý
+ Cửa số hóa
| Bién d3i DFT
28
Trang 29+ Sử dụng bé loc mel bank + Lay log cdc hé sé
+ Biển đổi IDFT ngược
| Tinh cdc hé sé Delta
2.2.1 Tiền xứ lý
‘Tin hiệu âm thanh thường được thu ở môi trường đời thường, tiếng nói bình thường của một người cũng không được to, trừ khi nói to có chủ đích, đo đó
nhiễu của môi trường (tần số thấp) nhiều khi có cường độ lớn bằng một phần đáng
kế (nghe có thể dễ dáng nhận ra) của tiếng nói khi thu âm, bước đầu tiền của quả trình trích chọn đặc trưng MTCC sẽ xử lý vấn đề này, bằng việc thực hiện tăng
cường độ của những tân số cao lên nhằm lảm tăng năng lượng ở vừng có tần số cao _ vùng tần số của tiếng nói, một cách đễ hiểu là làm tiếng nói lớn hơn lên để ảnh hương của các âm thanh môi trường và nhiều trở thành không đáng kể Việc tăng cường độ của vùng tần số cao lên déng thoi lam cho thông tin rõ rằng hơn
đổi với mẫu tiếng nói Ilinh 4 mồ tả trước vả sau quá trình Pre-emphasis của một
đoạn tín hiệu âm thanh
Trong hệ thống nhận dạng Liếng nói được trình bảy ở đồ án này, với mục
đích nâng cao độ chính xác của việc nhận dạng tiếng, thay vì nhận dạng từng từ
riêng biệt, mỗi một từ trong đoạn thoại sẽ được phân tích thành các âm vị
29
Trang 30(subunit) va hệ thống sẽ nhận dạng từng âm vị Âm vị ở đây là đơn vị phát âm
của một từ, các âm vị cầu thành tiếng nói, trong tiếng Pháp, nó là đơn vị cầu thành
phiên âm của từ (chẳng hạn NIDS: n-i, âm vị ở day 1a /n/ va /i/)
Vì lý do đó, các đặc trưng cần phải được trích chọn trên từng âm vị, thay
vì cả từ hay cả đoạn tiếng nói dải Cửa số hóa là việc cắt đoạn tín hiệu âm thanh
đầu vào ra thành các mẫu tín hiệu có thời lượng nhỏ, gọi là các frame Mỗi frame
này sau đó sẽ được nhận dạng nó thuộc âm vị nảo Một lý do khác cho thấy sự cần thiết của việc cửa sổ hóa là vì tín hiệu âm thanh thay đổi rất nhanh, do đó các
thuộc tính như biên độ, chu kỳ sẽ không ồn định Khi tín hiệu âm thanh được cắt
ra thành những đoạn nhỏ thì ở mỗi đoạn, có thể coi tín hiệu đó là ổn định, các đặc trưng của tín hiệu là không đổi theo thời gian
Hình 5 Mô tả quá trình cửa số hỏa
Để thực hiện việc này, chúng ta sử dụng một cửa số (window) chạy dọc tín
hiệu âm thanh và cắt ra các đoạn tín hiệu nằm trong cửa số đó Một cửa số được định nghĩa bằng các thông số:
+ Frame size: độ rộng của cửa số, cũng là đô lớn của frame tín hiệu sẽ được
cắt ra
30
Trang 31+ Frame shift: bước nhảy của cửa số, là độ dài đoạn mà cửa số sẽ trượt để
cắt ra frame tiếp theo
Mỗi frame sau đó sẽ được nhân với một hệ số, giá trị của hệ số này tùy thuộc vào từng loại cửa số
#[n]= w{n]xx[n] [24]
Trong đó:
+ x[n] là giá trị của mẫu thứ n
+ y[m] là giá trị của mẫu thứ n sau khi nhân với hệ số
+ w{[m] là hệ số cho mẫu thứ n trong frame đó
Loại cửa số đơn giản nhất là cửa số Rectangular, giá trị của các hệ số w[m] được cho bởi công thức sau
1|\O0snsN-1
ufn] =
ÁN là số mẫu trong một frame
Nói cách khác, cửa số Rectangular với bước nhảy là frame shift, ta lấy
frame size giá trị liên tiếp của tín hiệu làm một frame
Một loại cửa số khác thông dung hơn trong trích chọn đặc trưng MECC là cửa số Hamming Trong loại cửa sổ này, giá trị của tín hiệu sẽ giảm dần về 0 khi tiền dần ra hai biên của frame Nói cách khác, nếu sử dụng cửa số Hamming để lay ra cdc frame, ning lương của mỗi fame sẽ tập trung ở giữa frame, một ưu điểm nữa là các giá trị biên của cửa số Hamming tiến dần về 0 sẽ làm bước biến
đổi Fourier ngay sau trở nên đễ dàng hơn (với cửa số Rectangular các giá trị giữ
nguyên so với mẫu tiếng nói, bên ngoài cửa số nhận giá trị 0, các giá trị sẽ bị tăng
đột ngột ở hai biên) Hệ thống nhận dạng trong đỗ án này trình bày sẽ sử dụng
cửa số Hamming Biểu thức hệ số của cửa sổ này là
Trang 32Đước biến đổi tiếp theo là thực hiện biến đổi Fourier rời rạc đối với từng
mẫu tín hiệu đã được cắt ra Qua phép biến đổi này, tín hiệu sẽ được đưa về không gian tần số Công thức của biến đổi Fourier
transform) thay vi DFT Biển đổi FFT nhanh hơn nhiều so với biến đổi DFT, tuy
nhiên thuật toán này đòi hỏi giá trị N phải là một lãy thừa của 2
Hình? mô tả trước và sau khi biến đổi DFT của một cửa số:
Trang 332.2.4 Bộ lọc Mel
Kết quả của quá trình biến đổi Trourier thể hiện năng lượng của tín hiệu ở
những dải tần số khác nhau Tuy nhiên, tai của người lại không có sự nhạy cảm
như nhau đối với mọi đải tần số Do đó việc mô hình hóa tính chất này của tại người trong quá trình trích chọn đặc trưng làm tăng khá năng nhận dang cúa hệ thống 'Irong mô hình trích chọn đặc trưng MIKCC, tần số sẽ được chuyển sang
thang đo tần số mel theo công thức
Line — 2595 x In (1 + mm [2.8]
Trong dé fla lần số ở thang do thường, /aa là tần số ở thang do mel Người
ta sử dụng các băng lọc để tỉnh các hệ số mel Sở đụng bao nhiêu băng lọc thì sẽ cho ra bay nhiều hệ số mel, và các hệ số mel này sẽ la đầu vảo cho quá trình tiếp
theo của trích chọn đặc trưng MIFCC
Hình 8 Biểu diễn mồ hinh các băng lọc trong thang đo tần số bình thường,
Trang 342.2.5 Bién doi DFT ngược
Bước tiếp theo của việc trích chọn đặc trưng MECC là biến đổi fourier
ngược với dầu vào là các hệ số phổ mel của bước trước, dầu ra sẽ là các hệ số
cepstrum (MI'CC Mel Frequency Cepstrum Coefficients)
Sau khi thực hiện biến đổi Fouricr thì đãy tín hiệu thco thời gian đã được
chuyển thành phố tần số, và việc áp dung các băng lọc tần số mel giúp cô đọng
phổ tần số về một số hệ số nhất định (bằng với số băng lọc) Các hệ số này thé hiện các đặc trưng của nguồn âm thanh như tần số cơ bản, xung âm thanh Tuy nhiên, các đặc trưng này không quan trọng đối với việc phân biệt các âm khác nhau Thay vào đó, các đặc trưng về bộ máy phát âm (khoang miệng, khoang mũi,
thanh quản, hầu) rất cần thiết cho việc nhận dạng các âm Việc thực hiện biển đối
fourier ngược sẽ giúp tách biệt các đặc trưng về nguồn âm và bộ máy phát âm từ
các hệ số (các dặc trưng về bộ máy phát âm là các hệ số dầu tiên)
2.2.6 Trích xuất dặc tính
Từ các hệ số mel thu được từ quả trình trước, thông thường chúng ta chỉ
lấy ra 12 hệ số đầu tiền để chọn làm đặc trưng 12 hệ số này chỉ đặc trưng chủ các
bộ phận của bộ máy phát âm Như vậy chúng ta đã có 12 đặc trưng đầu tiên
Dặc trung thứ 13 là năng lượng của âm Năng lượng của mỗi khung tỉn
Trong đó đ() là đặc trưng đelta của khung t, cít- 1) và c(t-1) là các đặc trưng phổ
cua khung ngay sau vả trước khung (, và 13 đặc ung double delta thé hign gia
tốc thay đổi của âm giữa các khung tín hiệu Công thức tính các đặc trung double
34
Trang 35delta giống với công thức tính các đặc trưng delta, khi coi c(t) 14 gid tri cla cdc
đặc trưng dclta
2.2.7 Tổng kết
“Trích chợn đặc trưng XIFCC sẽ thu được các đặc trưng sau đây:
12 giá trị đặc rưng phê Mel được biển đối Fourier ngược
+ 12 giá tri delta phd
+ 12 giả trị double delta phd
+ ] giá trị mức năng lượng
+ 1 giá trị delta mức năng lượng,
| ] gid tri double delta mic nang long
Téng céng: 39 dặc trưng cho mỗi frame tiếng noi
2.35 Mô hình âm học
2.3.1 M6 hinh Markov an
‘Trong mé hinh Markov, mdi trang thái tương ứng với một sự kiện quan sát
được Với cầu trúc này, mô hình Markov còn gặp nhiều hạn chế trong việc giải
quyết những vấn để phức lạp Mô hình Markov Ân được phát triển từ mô hình
Markov, mỗi trạng thái có thể tương ứng với nhiều sự kiên khác nhau và việc
phát sinh ra sự kiện phục thuộc vào hàm mật độ xác suất phát sinh ra sự kiện của
trang thai
35
Trang 36
Hình 9 Mô hình Markov ẩn ba trạng thái
Mô hình 9 có: {Vị, Vạ, Vạ, , Vạ} là các sự kiện quan sát được trong mỗi
trạng thái Tất cả các trạng thái đều có thể phát sinh ra các sự kiện đó Khả năng
phát sinh sự kiện Vụ trong trang thái S¡ phụ thuộc vào xác suất bj(k) Ham b goi
là hàm mật độ xác suất của các sự kiện quan sat Co nhiều hàm b được sử dụng
như hàm mật độ Gauss hoặc dùng mạng neuron (hai hàm này được sử dụng nhiều
trong nhận dạng tiếng nói),
Tổng quát hóa mô hình Markov ẩn ta có các thông số được định nghĩa như
sau:
- Na sé lwong trang thái Ta ký hiệu các trạng thái là § = {S¡, S2, S3, , Sa} và trạng thái đạt được tại thời điểm t là Q,
~ Mlà số lượng sự kiên có thể quan sát được trong mỗi trạng thái Ta ký hiệu
sự kiện quan sát này là V = {O1, Oo, Os, ., On} va tin hiéu quan sát tại thời
điểm t là O,
~_ Xác suất chuyển giữa các trang thái A = {aj} trong đó:
Ag=P [qua = 8j| q= 8], 1<iJ<N
Thỏa mãn ràng buộc }}=¡ đi = 1
36
Trang 37~_ Xác suất phát sinh các sự kiện B = {by(k}} trong do
Để thuận tiện hơn trong việc trình bày, ta sẽ quy ước mô hình Miarlov ấn được
đại diện bằng bộ tham số 3 — (A, Ð, z)
Các bài toán trong mé hinh Markey Ấn:
a Bài toán tính xác suất phat sinh ra chuỗi sự kiện quan sát:
Giả thiết: Cho chuỗi sự kiện quan sát la O = {01, 2, Os, ,Oa}va bd théng
số của mô hình là 2 — (A.B,7) Lam thé nao dé tinh toán hiệu quả D(O|Ä) - xác suất phát sinh chuỗi O của mồ hình Ä
Phương pháp giải: Giải thuật “forward-backward”:
Dây là một giải thuật được phát triển trên máy tính Nó tiết kiệm tỉnh toản
đựa vào việc tiết kiệm những phần có tỉnh toán giống nhau — tiết kiệm dựa vào
kết quả được tính toán trước đó Giả đụ, chuỗi trạng thái qị là 1231, q; là 1232 và
qa là 1233, có chuỗi con là 123 giếng nhau nên khí tính toán ta chỉ cần thực hiện
một lần tính toán chuỗi con 123 sau đó thực hiện thêm doạn chuỗi khác biệt Ví
dụ ta chỉ cần tính chuỗi 123 trên qụ chuỗi 1231 được tính tiếp từ 123 nảy, q; và
qs cing dựa vào chuỗi 123 đó để tính Thủ tục Eorward thực hiện tính toán đi từ trang thai đầu tới cuối, còn Backward thì ngược lại đi từ cuối tới đầu, nhưng cả 2
có cơ chế hoàn toàn giống nhau
37
Trang 38Thuat gidi forward:
Đầu tiên định nghĩa biến @j(i) la xdc suất qị đạt được trạng thái 3; tại thời điểm t,
sau khi dã quan sát dược một phần chuỗi {O›, , Ot}
Thuat gidi Backward:
Trước hết định nghĩa các biến backward 8@) là xác suất quan sát được đoạn
Oụi, Ocs On cho trước trạng thái S¡ thời điểm t và mô hình Ä
Trang 39b Bài toán 2 : Tìm kiếm chuỗi trạng thái tối ưu phát sinh ra chuỗi các sự
quan sắt
Cho chudi vector quan sat O1, Os Or, tim ra chudi trạng thái tối ưu Q —
1, 42-.-4¢ 44 phat sinh ra chudi trang thai O
Trong rat nhiều trường hợp, yêu cầu của bài toán cần tìm ra nguồn gốc phát sinh
ra sự kiên chuỗi trang thai ph hợp nhất Ví dụ như trong nhân dạng giọng nói, việc nhận dạng cần tim ra xem chuỗi mẫu nào phát ra những âm thanh Một điểu
đáng lưu ý là có nhiều tiêu chí khác nhau cho việc xác định Q, nên lời giải cho
bài toán cỏn tùy thuộc vào tiêu chí được lựa chọn
Thuật toán Viterbi
"Thuật toán Viterbi định nghĩa biến ổ,(Ì) :
ð,()= max Pl ¢.gy nd, =5,,0,0,.0,\A] aes
lä xác suất cao nhất của chuỗi q;q› q khi q; đạt trạng thái 8, tại thời điểm t và
đã quan sát được chuối 0102 0;
đG) tiếp theo có thể được tính theo quy nap:
Trang 40c Bài toán huấn luyện
Giá thiết: Từ mô hình ban dầu và chuỗi voclor quan sát O, tìm cách cập nhật lại các thông số của mô hình  — (A,B.z) sao cho cực đại hóa xác suất P(O|Ä}
"Thuật toán Baum-welch:
hiệu quan sát O và mô hình 3, lấy tông E6, j) trên j ta được tương quan giữa
Gj) va yi) nhu sau
r\0~Š 6,0)
Néu lấy tổng w) the t c [1, T-1], kết quả nhận được là số lần kỳ vọng
chuyển từ trạng thái S¡ Tương lự lấy tổng š (1, 1) thoo te |1, T-1|, kết quá nhận
được là số lần kỳ vong chuyển từ trang thai Si sang 8¡
40