1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ nghiên cứu xây dựng hệ thống nhận dạng tiếng nói tiếng việt sử dụng trong tổng Đài chăm sóc khách hàng tự Động

82 2 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Luận văn thạc sĩ nghiên cứu xây dựng hệ thống nhận dạng tiếng nói tiếng việt sử dụng trong tổng đài chăm sóc khách hàng tự động
Tác giả Đinh Mạnh Cường
Người hướng dẫn TS. Nguyễn Việt Sơn
Trường học Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành Đo lường và các hệ thống điều khiển
Thể loại Luận văn thạc sĩ
Năm xuất bản 2018
Thành phố Hà Nội
Định dạng
Số trang 82
Dung lượng 1,32 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Đây lá tiền dé cho phép có thể triển khai, áp dụng hệ thống nhận dang tiếng nói tiếng 'Việt trong tổng đài chăm sóc khách hàng tự động, Mục đích của luận văn TNghiễn cứu thiết kế mô hì

Trang 1

LUẬN VĂN THẠC SĨ KHOA HỌC

TIN HỌC CÔNG NGHIỆP

TIà Nội 2018

Trang 2

BO GIAO DUC VA DAO TAO TRUONG DAI HOC BACH KHOA HA NOL

DINiT MANIL CƯỜNG

NGHIEN CUU XAY DUNG HE THONG NHAN DANG TIENG NOI TIENG VIET UNG

DUNG FRONG TONG DAL CHAM SOC KHACH HANG TU DONG

Chuyên ngành : Đo lường và các hệ thẳng điều khiển

LUẬN VĂN THẠC SĨ KHOA HỌC

TIN HỌC CÔNG NGHIỆP

NGƯỜI HƯỚNG DẪN KHOA HỌC 'T8 Nguyễn Việt Sơn

Hã Nội 2018

Trang 3

LOLCAM ON

Đầu tiên, tôi xin được gửi lời cảm ơn chân thành tới Viện nghiên cứu quốc

tế MICA nơi đã tạo điều kiện cho tôi thực hiện luận văn nảy Tôi xin chân thành

cảm ơn T8 Nguyễn Việt Sơn - ngưới hướng dẫn tôi trong suốt thời gian qua để

tôi có thể hoàn thành luận văn

Ngoài ra, tôi xin gửi lời căm ơn đến Ban lãnh đạo Viện Điện, Phong Dao

tạo lrường Dại học Bách khoa Hà Nội cùng các thầy, cô giáo đã hướng dẫn và

giúp đỡ tôi trong quá trình học tập, nghiên cứu Tiến đến, tôi xin cắm ơn trung

tâm không gian mạng VIHI'1EL, nơi tôi làm việc, đã tạo điều kiên và giúp đỡ tôi trong việc hoàn thành hệ thống Tả tôi trinh bảy trong luận văn thạc sỹ này Tôi

cũng xm gửi lời cám ơn trân trọng đến anh Nguyễn Quốc Bão cùng Loàn thể đồng:

nghiệp của tôi tại nhóm voice trung tim không gian mạng VIETTEL, ban gián! đốc trung tâm cùng toàn thể anh chị em trong trung tâm đã giúp đỡ hỗ trợ tôi trong quá trình hoàn thành luận văn thạc sỹ này

Và cuối củng, tôi xin gửi lời cẩm ơn chân thành tới gia đình, bạn bẻ những

người luôn ở bên cạnh động viên, truyền cảm hứng cho tôi, để tôi có thể đạt tới

giấc mơ của mình

Hà Nội, ngày 18 tháng 08 năm

2018

Dinh Manh Cuong

Trang 4

CHƯƠNG 2 TÌM HIỂU VỀ HỆ THÔNG NHẬN DẠNG TIẾNG NÓI 26

2.1.1 Tổng quan hệ thống nhận dạng tiếng nói

Trang 5

2.3 Mô hình âm họ:

2.3.3 M6 hinh Markov an hop Gauss HMM-GMM - 44

2.4 Mô hình ngôn ngữ N-gram

2.4.3 Phương pháp chiết khẩu add-alpha

2.5 Mô hình DNN và ứng ¡ dụng trong nhận n dang tiéng nói

2.5.1 Cấu trúc mô hình "

2.5.2 Mô hình IIMM-DRA trong nhận dang t tiéng n

2.7 Tim hiéu framework KALDI

3.1 Đánh giá một số yêu tổ ảnh hưởng tới chất lượng nhận dạng, Tông nói tiếng Việt và cách cải thiện chất lượng với từng yếu tô

3.1.1 Đánh giả sự ảnh hướng của kênh trưyền diện thoại đến chất lượng nhận

3.1.2 Đảnh giá sự ánh hưởng cách nói của người sử ữ dụng hệ thống nhận

3.1.3 Đánh piá su ảnh hưởng của mô hình ngôn ngữ xây dựng trên các nguồn

3.1.4 Đánh giá ảnh hướng của nhiễu tới chất lượng nhận dạng trong mỗ hình

3.1.5 Kết hiận sự ảnh hưởng của các yếu tổ và để xuất giải pháp cải thiện

71 3.2 Giai phap tao tir dién phát âm tự động cho nhận dạng tiếng mái

tiếng

3.2.2 Tao từ điễn cho từ vay mượn

Trang 6

3.2.3 Thử nghiệm mô hình có thanh điệu "——— T5

3.3 Cải tiến mô hình âm học sử đụng mô hình lai ghép IIMM/DNN76

3.3.3 Kết quả thử nghiệm

CHƯƠNG 4 KẾT LUẬN VA HUO

4.1 Công việc đã thực hiện

4.2 Các vẫn đề còn tồn tạ

4.3 Dễ cải thiện thêm định hướng trong thời gian tới

TÀI LIỆU THAM KHÁO

G PHÁT TRIEN

Trang 7

DANH MỤC HÌNH ÁNH

1Bnh 1 Miêu tả hệ thống nhận dang tiếng nói để phân loại cuộc g:

Hình 2 Hệ thống nhận dạng tiếng nói điến hình

Hình 3 Các khâu trong trích xuất đặc trưng

Hình 6 8o sánh bai loại cứa số Reclangular và Hamming

1Bnh 7 Tác động của DET tới cửa số

Hinh 12 Ham mật độ phân phối gồm 3 hàm gauss

Hinh 13 Mô hình MG HMM 5 trạng thái

1Bnh 18 Sai số nhận dạng với các điêu kiện thử nghiệm khác nhau

1nh 19 Dữ liệu học có nhiễu được tạo ra từ dữ liệu học clean cộng với tín

hiệu nhiễu thu âm được

Hinh 20 Sai số nhận dạng của các mô hình khác nhau

Trang 8

DANH MUC BANG

Bang 1 Tile lai Gr (%) ca hé théng nhan dạng giọng nói sứ dụng hai tính năng đầu vào khác nhau với bai loại từ 21

Bảng 2 Tỉ lệ lỗi từ (%4) của hệ thống nhận đạng giọng nói sửa dụng các mô

hình âm thanh GMM và DNN mà không có và có tăng cường dữ liệu

Bang 3 Két qua thử nghiệm sự ảnh hưởng của kênh truyền (wer %%) 59

Bang 4 Két qua thử nghiệm sự ảnh hưởng của cách nói (wer %%)

Bang 5 Perplexity cho bởi 2 mô hình ngôn ngữ với 3 tập dữ liệu text khác

Rang 6 WER(%) cho héi cac hé théng nhận dang với các mô hình ngôn

Bang 7 Các mẫu dữ liệu ử các môi trường khác nhau

Bang & Các mô hình nhận dang khac ohau

Bang 9 Kết quã thực nghiệm mô hình có thanh điệu trên tập dữ liệu VOV

Trang 9

DANH MUC TU VIET TAT VA THUAT NCU’

MGHMM | Mixture of Gaussian Hidden | Mô hình Markuv ấn hop Gauss

Markov Models MFCC Mel Frequency Cepstral Phuong phap trich chon dic tinh

CocliicienL

Approximation

GMM Gaussian mixture model Mé hinh gauss hon hop

VLSP Vietnamese language and | Xir ly ngén ngit va iéng néi iéng

DIT Discrete Fourier Transform Bién déi Fourier

LVSCR | Viemamese large vocabulary | Nhận dạng hệ thống từ vựng lớn continuous speech recognition tiếng việt

Trang 10

MO DAU

Ly do chon dé tai

Việt Nam đang ở ngã rẽ trên quá trình phát triển Đề thúc đấy tăng trưởng trong điều kiện hạn chế về lao động và vốn, Việt Nam phải hướng tới tăng trưởng,

dựa trên tăng năng suất lao động Điều đó đòi hỏi phải nâng cao đáng kế năng lực

đổi mới sáng tạo trong nước, nhất lá ứng dụng những thành tựu khoa hoe công

nghệ vào trong quả trình kinh doanh, sản xuất, quản lý, Irong lĩnh vực viễn

thông thì công nghệ thông Ủin và ứng dụng trí tuệ nhân tạo lại cảng cần được

nghiên cứu và đầu tư, bởi vi đây là lĩnh vực ảnh hưởng sâu rồng và là nền tang

cơ sở hạ tầng để các ngành khác phát triển Từ nhu cầu đỏ đã thúc đây những

nghiên cứu trong dễ tài này

Lịch sử nghiên cứu

Trên thể giới, giao tiếp người máy là một lĩnh vực nghiên cứu rất khó

nhưng lại được ứng dụng thực tiễn rất nhiều Tiếng nói là một phương tiện giao

tiếp tự nhiên nhất của con người với con người nên quá trình nghiên cứu để máy tính hiểu được ngôn ngữ cũng đã bắt đầu cách đây 70 năm Những nỗ lực giai

đoạn ban dầu chỉ tập trung khai thác phổ của tín hiệu âm thanh vì thời đó máy

tính còn khá hạn chế về khả năng xứ lý

Trong những nắm đâu 1960, điểm đáng ghỉ nhận nhất là ý tưởng của tác

giả người Kga, Vintsvuk, khi ông đề xuất phương pháp nhận dạng tiếng nói đựa

trên thuật toán quy hoạch động theo thời gian Đảng tiếc là mãi đến năm 1980,

phương pháp này mới được thể giới biết dến Cuỗi những năm 1970, nghiên cứu

về nhận dạng tiếng nói đã bước đầu thu được kết quả khích lệ, làm nền tảng cho

những phát triển sau này Trước tiên là bài toán nhận dạng từ rời rạo được giải

quyết dựa trên ý tưởng của các nhà khoa hoc người Nga và Nhật lrải qua hơn

70 năm nghiên cứu thì các mô hình được đề xuất để nhận dang tiếng nói liên tục

được thử nghiệm và dánh giá thi mô hình HMNM là cho kết quả tích cực nhất,

nhưng để đưa vào ứng dụng trong thục tế trong các hệ thông lớn thì còn rất hạn chế vi ở ngoài thực tế thi có rất nhiều nhiễu và các ngữ điệu, giọng nỏi các ving

10

Trang 11

miền khác nhau Nhat 1a trong tiếng Việt thi càng khó 4p dung vi là ngôn ngữ có

âm sắc và nhiễu phương ngữ Nhưng thời gian gần đây nhờ sự tiền bộ của kỹ thuật học sâu nên giúp chúng ta tăng kết quả nhận dạng lên đáng kế Diễn hình là

trong luận văn nay chúng ta áp dụng mô hình lai TIMIM/DNN thị kết quả nhận được rất khả quan Đây lá tiền dé cho phép có thể triển khai, áp dụng hệ thống

nhận dang tiếng nói tiếng 'Việt trong tổng đài chăm sóc khách hàng tự động,

Mục đích của luận văn

TNghiễn cứu thiết kế mô hình nhận đang tiếng nói tiếng Việt trong lĩnh vực

hẹp là chăm sóc khách hàng, sao cho hệ thông nhận dạng làm việc ổn định và

chính xác với môi trưởng thực tế nhiều nhiễu và tiếng Šn, da dạng các giọng tử

độ tuổi đến vùng miễn khác nhau trên cả nước

Tóm tắt luận văn

Trong luận văn này sẽ piới thiêu tổng quan về nhận đạng tiếng nói và những,

thành phân cơ bản trong nhận dạng, tiếng nói phát âm liên tạc Và ứng dụng của

nhận đạng tiếng nói trong bước đầu đưa vào hệ thống chăm sóc khách hang trong ứng dụng phân loại cuộc gọi để đánh giá chất lượng dịch vụ Ngoài ra luận văn

cũng tập trung vào nghiên cửu các giải pháp để cải thiện chất lượng nhận dang

tiếng việt từ đỏ nêu ra các đề xuất và đông gúp của luận văn này

Dẫầu tiên, luân văn nảy nghiên cứu đề xuất bộ âm vị cơ bản tiếng Việt bao

gầm 47 âm vị và đưa ra giải pháp tạo từ điển tự động để tối ưu hóa quá trình đưa

thông lin thanh điệu vào âm vị Giải pháp này không làm bùng nỗ lượng âm vị và

đem lại hiệu quả đáng kể, thay vi chi bé sung thông tin thanh điệu ở âm chính

"Thứ hai, luận văn nghiên cứu những yêu tố ảnh hưởng đến chất lượng của

hệ thống nhận dạng như kênh truyền 3G, 4G sóng điện thoại, nhiễu, cách người

nói vả đưa 1a các giải pháp giúp hệ thống ổn định và tăng độ chỉnh xác của hệ

thống trong mỗi trường thực tế triển khai sản phẩm chăm sóc khách hàng

'Thứ ba, luận văn nghiên cứu tập trung nâng cao chất lượng mô hình âm

học dựa trên việc cải thiện mô hình âm học truyền thông TIMM/GMIMI bằng cách

sử dựng các mô hỉnh có khả năng phân lớp mạnh là mạng noron sâu Đó là mô

11

Trang 12

hình mạng lại ghép HMM/DNN, nó sử dụng đầu ra của mạng nơron thay cho xác

suất phát xạ của mô hình HMfM.

Trang 13

CHUONG 1 GIOI THIEU DE TAI 1.1 Nhu cau va tình hình thực tế

1.1.1 Tỉnh hình thực †Ế của tổng đài chăm sóc khách hàng Victtcl

Khảo sát thực tế

Tổng đãi Viettel là nơi chuyển cung cấp thông tịm, giải đáp các thắc mắc

và hỗ trợ khách hàng sử dụng dịch vụ của Viettel Khi khách hàng gọi đến tông đài Viettel dủ dùng nội mạng hay ngoại mạng cũng đều được miễn phí tất cả các

cuộc pọi nên chỉ phí duy trì là rất lớn

Các kênh hỗ trợ Viettel:

Kênh Tẳng đài

Viettel chia ra làm các nhóm ngành dịch vụ riêng biệt và có các tổng đài

tương img Ví dụ tổng đải 18008098 là tổng đài tư vân và giải đáp thông tin dịch

vụ không đây như di động, HomePhone, Dcom Tổng đải 18008119 là tổng đài

tư vấn, bảo hóng và hỗ trợ khách hàng sử dụng các dịch vụ cỗ định (diện thoại cố

định), truyền hình, intemet co day (ADSL, FTTH) Téng dai 18008000 la téng

đài Giải đáp các thắc mắc đành cho doanh nghiệp, trường hoe, hé tro thang tin

địch vụ kênh I.casedline, Office-wan, dịch vụ quán lý phần mềm, quản lý phương,

tiện vận tải, chữ ký số, Dịch vụ hỗ trợ Viettel Telecom chuyên nghiệp là 1800

8168 Tất cả đều là tống đài miễn phí

Với 5 tổng đài Chăm sóc khách hàng đặt tại các tỉnh/thành phố trên khắp

cả nước bao gồm Hà Nội, Hồ Chí Minh, Dà Nẵng, Hải Phòng, Thái Nguyên, đến nay Viettel cú mạng lưới chằm sỏu khách hàng lớn nhất trên oấ nước Củng với đôi ngũ nhân viên phải qua đào tạo để chuyên nghiệp, đảo tạo bai ban, tổng dai Viettel vẫn chỉ đủ khả năng tiếp nhận đến 5 triệu cuộc gọi/ngảy Nhưng với số

lượng các dịch vụ và sẵn phẩm, khách hàng cá các thị trường lrong và ngoài nước

thì chi phí để vận hành và duy trì cảng ngày cảng cao và khó kiểm soát chất lượng

13

Trang 14

Kênh hỗ trợ khác ngoài kênh tổng đài

Để phục vụ khách hàng tết nhất, Viettel mở rộng gác kênh tương lắc ngoài

kênh tổng dài giúp khách hàng thuận tiện hơn khi dùng dịch vụ: Kênh ứng dựng

Mỹy Viettel, web portal Dây là các sản phẩm giúp người dùng có thể tra cứu các

thông lin về địch vụ như chỉ tiết các gói cước, chương trinh khuyến mại, các dịch

vụ giá trị gia tăng, mobile imternot, 3G, 4G của Victcl, hỗ trợ khách hàng tra

cứu mã PIN/PUK, thông tín thẻ cảo, thanh toán cước, mua đata, bảo lỗi dịch vụ,

cao và cấp bách Tử nhu cầu đó, Victol đã đầu Lư nghiên cứu các ứng dụng hệ

thống nhận dạng tiếng nỏi tiếng việt để có thé đưa các tiến bộ của công nghệ

thông tin vào nâng cao chất lượng địch vụ chăm sóc khách hàng, và đần dần từng

bước tự dộng hóa Vì tiếng nói là tin hiệu rất khó xử lý trực tiếp hay áp dụng khoa

học công nghệ vào xử lý nên việc chúng ta chuyển được tiếng nói thành câu là rất

hữu ích vì các hệ thông xử lý đữ liệu lớn, và trã lời tự động hiện tại mới chỉ làm

việc dược trên dữ liệu văn bản

1.1.2 Giới thiệu về hệ thông hỗ trợ chăm sóc khách hàng sơ khai ban đầu

xây dựng

1.1.2.1 Mục đích của việc xây dựng hệ thống

Khái niệm về hệ thống nhận đạng tiếng nói

hận dang tiếng nói miêu tá quá trình biển đổi tín hiệu 4m thanh thành doạn văn băn gồm chuỗi các từ có nội dung tương ứng Thông thưởng tin hiệu

âm thanh nảy được ghi âm bởi microphone và được chuyển đối thành tín hiện ở

dang file wav Tín hiện này sẽ là đầu vào của hệ thống nhận đạng và hệ thống này

cố gắng tìm ra đoạn văn bản đứng nhất có thể những gì người đọc nói ra.

Trang 15

Tình hình ứng dụng của nhận dạng tiếng nói

Ngay nay nhận dạng tiếng nói được ứng dụng trong nhiều lĩnh vực chỉnh Trong nhà thông mình, kể từ khi trợ lý áo Siri xuất hiện lần dầu trên iphone 4s,

chức năng điều khiển bằng giọng nói đã được quan tâm hơn và nhiễu công cụ thực hiện chức năng nảy cũng liên tiếp ra đời, như Google assiztznL, Cortana của

Windows, Hiện nay đã có một số piải pháp nhà thông mình trên thể piới đã

được áp dụng thành công tính năng điều khiển bằng giọng nói như Ilome

Automation Inc, BK Smart Home, Control4

'trong giáo dục, nhận dạng tiếng nói cũng có một số ứng dựng hỗ trợ người

học khá tốt như học ngoai ngữ, giúp người khiếm thính và người không có khả

năng đánh máy tỉnh Đối tượng học ngoại ngữ, nhận dạng tiếng nói có thể giúp

người học luyện phát âm và phát triển kỹ năng nói của họ

Trong viễn thông, nhờ công nghệ nhận dạng tiếng nói hệ thống trả lời tự

động mà còn có thế nhận tín hiệu tổng nói để xác định yêu cầu của khách hàng,

Ngoài ra, việc tốc độ xử lý của các thiết bị di động thông minh được cải thiện Và

như trong luận van nay chúng ta sẽ giúp đưa ra những đoạn văn bản của người gọi lên tổng dài để đưa vào hệ thẳng phân tích và xử lý ra yêu cầu của khách hàng

rỗi đưa ra các kênh phản hồi khách hàng

Trong một số lịch vực khác, có một số ứng dụng khả hữu ích có thể được

kể dến như việc tao phụ dễ phim tự động, phiên dịch tự động Trong ứng dụng

tạo phụ đề tự động nó giúp nội dung tiếp cận đến nhiều người và cả những người

khiểm thính, và các đối tượng của các quốc gia khác nhau Hệ thống phiên dịch

tự động, nhận dạng tiếng nói giúp xóa bỏ rào cần ngôn ngữ

Đánh giá chất lượng hệ thống nhận dạng tiếng nói

Thông thường uác hệ thống nhận dạng tiếng nói được đánh giá độ hiệu quả thông qua tỉ lê lỗi từ (WER — Word Error Ratc) và độ chỉnh xác các câu (SER —

Sentence Error Rate) Mục đích là dé do độ khác biệt giữa chuỗi văn bản tạo ra bởi hệ thống nhận dạng và chuỗi văn bản tham chiếu tạo ra bởi con người, cô thể

15

Trang 16

khác nhau về nội dưng lẫn độ đài Do đó tỉ lệ lỗi từ xác định thông qua các lỗi từ

bị thay th

lỗi chèn thêm từ, và lỗi Lừ bị xóa bố oúa đầu ra hệ thẳng nhận dạng so

với văn bản tham chiêu

Tưới đây là các vẫn để thực tế của triển khai bài toán nhận dạng tiếng nói cho ling dai chẩm sóc khách hàng Vicuel Trong giai đoạn đầu nghiên cửu để chứng minh tính khả thi của việc ứng dụng công nghệ nhận dạng tiếng nói vào hệ

thống chăm sóc khách hàng tự động ở Viettel, tôi có làm một hệ thống đơn giản

thể hiện tỉnh khả thi của mô hình nhận đạng tiếng nói trong chăm sóc khách hang,

đỏ là mô hình phân loại các cuộc goi đến tổng đài chăm sóc khách hàng Viettel,

giúp đưa ra đánh giá chất lượng dịch vụ

Qua những nỗ lực ban dầu nảy tôi dã có được một chút kinh nghiệm va

kiến thức để xây dựng hệ thống nhận đạng tiếng nói tiếng việt trong lĩnh vực hẹp

lả hệ thống tổng dài chăm sóc khách hang tự động

Tiếng việt là ngôn ngữ chính thức của người việt với hơn 90 triệu người

đang sử dụng như ngồn ngữ tự nhiên trong giao tiếp hàng ngày, vả tiếng việt cũng

lã ngôn ngữ thứ hai cho các dân tộc thiểu số nên cách sử dụng ở các nơi không

có tính thống nhất và thường có ảnh hướng bởi phong tục và văn hóa ở địa phương

'Irong lần dầu cố pắng xây dựng hệ thống nhận dạng tiếng nói tiếng việt

phát âm liên tục với bộ từ vựng lớn Ở Việt Nam chưa có bất kế một bộ dữ liệu

nao cho lĩnh vực nảy mả trong lĩnh vực khoa học đỡ liệu thì vẫn dễ dữ liệu lả yếu

tổ quyết định sự thành công riên tôi thu thập đữ liệu từ rất nhiều nguồn có nhiễu

thực tế, các cuộc điện thoại nhờ vào sự giúp đỡ của nhiều bên và cũng tự thu thập

các dữ liệu thô về xử lý Vì vậy việc xử lý dữ liệu và phân loại rất tốn kém về mặt

thời gian và tiền bạc

Mục tiêu của chúng ta là xây dựng hệ thống nhận dạng tiếng nói tiếng

việt có thể làm việc én định trong môi trường thực tế với độ chính xác trên 90%

để áp dụng vào tổng đài chăm sóc khách hàng tự động Đây là một nhiệm vụ rất

quan trọng với một doanh nghiệp có lượng người dùng lớn Ví dụ, chỉ ở thị trường:

l6

Trang 17

Việt Nam, các tổng đải chăm sóc khách hàng đã nhận được 500,000 cuộc gọi mỗi ngày nên nhu cầu tự động hóa là rất cao Để xây dựng hệ thông nhận dạng chúng

ta cần thu thập rất nhiều dữ liệu Ở giai đoạn đầu, tôi thu được 85,8 giờ đữ liệu

âm thanh từ các tổng đài điện thoại chăm sóc khách hàng vả các tài liệu văn bản

của các dữ liệu âm thanh từ 400 nhân viên tổng đài và đại lý chăm sóc khách

hàng Tôi đã áp dụng rất nhiều kỹ thuật mới như là làm trễ thời gian bằng mạng

nơron (Time delay neural network) với dữ liệu liên tục (sequence training), tăng cường dữ liêu bằng cách thay đổi tốc độ (data augmentation), Cuối cùng tôi

nhận được 17,44% tỉ lệ từ lỗi (word error rate) cho hệ thống đầu tiên Với tỉ lê lỗi

này thì hệ thống chưa thể đưa vào đề xây dựng hệ thống chăm sóc khách hàng tự đông nên chúng ta sẽ phải nghiên cứu và tìm ra giải pháp cải tiến hệ thống nhận dạng để có thể áp dụng vào bài toán thực tiễn

1.1.3.1 Kiến trúc hệ thống

Tôi xây dựng một hệ thống nhận dạng tiếng nói tiếng việt để phân loại các

cuộc gọi đến tổng đài chăm sóc khách hàng là tiền đề để xây dung cho tổng đài

| ata Fromme |) DNNAased | jÌ mm L, hhươm

| "Paap ” tain aos”) BOỐN TT| ng yy|P cứdmrneae

Trang 18

Các thành phần của hệ thống:

Xác định khoáng im lặng (Voice acbvity detection): Trong trung tam

cuộc gọi của V1ettel, kênh đại lý và kênh khách hàng được ghi lại riêng 2o đó,

có rất nhiều khoang im lặng trong mỗi kênh âm thanh và họ cần phải được chia

thánh các doạn ngắn giống như cầu Để phát hiển hoạt động thoại và phân doan

âm thanh, tôi sử dụng 10 giờ đữ liệu để dao tạo mô hình VAD Sau đó, mô hình

nảy được sử dụng để căn chỉnh ấm thanh Sau đó âm thanh được phân đoạn và được tạo ra bằng cách gắt âm vị không lời nói liền kể (tiếng ồn và im lặng) nhiều

hơn ngưỡng thời gian (1 giây) trong đầu ra căn chỉnh

Tăng cường dữ liệu bằng cách thay dỗi dộ tốc dộ của dữ liệu âm thanh

(Data Angmentation): ĐỂ xây dựng một mô hình âm thanh hợp lý, cần hang

trăm đến hàng nghìn giờ âm thanh Tuy nhiên, để đạt được đữ liệu âm thanh được

phiên âm rất tốn kém Để khắc phục diều nảy, nhiễu kỹ thuật đã dược để xuất như

học bán giám sát, lâp mô hình dụa trên mô hỉnh mẫu thu thập đữ liêu từ nguồn

khác Trong luận văn này, tôi sử dụng mộ phương pháp đơn giản gọi lá tăng

cường dữ liệu Đó là một chiến lược chung được áp dụng để tăng sẽ lượng dữ

liệu overfitting và cải thiện độ bền của mô hình so với các điều kiện thử nghiệm khác nhau Trong nghiên cứu nảy, tôi tăng kích thước đữ hệu đảo tạo bằng cách

sử dụng kỹ thuật tăng cường dữ liêu được goi là nhiễu loạn tốc đô âm thanh Lắc

độ nhiễu loạn tạo ra tín hiệu thời gian bị biến dạng, ví dụ, với tin higu dang sóng

phát âm x(19, thời gian cong vệnh bởi hệ số œ sẽ tạo ra tín hiệu x (at) Trong nghién cứu này, chúng ta sử dụng ba giá trị khác nhau của ơ: tức là 0.9,1.0,1 1.1

Chiết xuất đữ liệu: Chúng ta sử dụng phương nháp MECC lăng cường dữ

liêu với dặc trưng âm thanh pitch (F0: đặc trưng cho cao độ)

Mô hình âm thanh: Mô hình hỗn hợp Gauss với đảo tạo thích ứng (GMM-

SAT) va mang noron học sâu có độ trể theo thời gian (TDNN) với đảo Lạo chuỗi

liên tục

Tw dién phát âm: Tiếng Việt là một ngôn ngữ âm sắc đơn âm Mỗi âm tiết

tiếng Việt có thể được coi là một sự kết hợp của các thành phan ban dau, cudi

18

Trang 19

cùng và giai điệu Do đó, từ điển phát âm (từ điển) cần phải được mô hình hỏa

bằng các âm Tôi sử dụng 47 âm vị cơ bản Các đấu âm được tích hợp vào âm vị

cuối cùng của âm tiết để xây dựng từ điển phát âm cho 6000 âm tiết tiếng Việt

phổ biến Để xây đựng từ điển cho các tử nước ngoài và kỹ thuật, tôi chọn 5000

từ nước ngoài phổ biển tử các trang web cing với 500 từ trong lĩnh vực địch vụ

chăm sóc khách hàng Những tử này sau đó được phiên âm một cách thủ công

trong cách phát âm tiếng Việt ĐỂ Lạo phiên âm các từ chưa biết trong đữ liệu huấn luyện, chứng ta sử đựng chuyển dỗi praphơmc-to-phoneme (G2P) bằng cách

sử dụng bộ công cụ mã nguồn mở Sequitur G2P để tạo phiên âm cho 5000 từ

nước ngoài Kết quả là, tổng số Lừ trong từ diễn của tôi là khoảng 12000 từ Từ diễn nảy dược sử dụng dễ huần luyện cũng như giải mã

Mồ hình ngôn ngữ: Mô hình ngôn ngữ 4-gram với tỉnh năng làm mịn Kneser-Ney được sử đụng sau khi khám phá các cấu hình khác nhau Tôi sững,

cố gắng mở rông phần văn bản bằng cách sứ dụng các nguồn văn bản khác nhau

như từ văn bản web hoặc chú thích trong phim, tuy nhiên độ chính xác khá thấp Một lý do có thể là các nguồn văn bản này quá khác với miễn dịch vụ khách hàng,

Thân loại văn bản: Sau khi giải mã, đầu ra nhận dang duoc str dung để

phân loại văn bán để phân loại cáo cuộ gọi điện thoại thành gáo nhóm khác nhau như báo cáo lỗi, dịch vụ tư vẫn 1rong nghiên cứu sơ bộ này, chủng ta chỉ đơn

giản là phân loại các cuộc gọi điện thoại dựa trên danh sách từ khóa Cụ thể, mỗi

nhỏm có một danh sách các từ khóa dược xác định bởi bộ phận dịch vụ chăm sóc

khách hảng Sau khi giải mã, trình tim kiếm từ khóa sẽ tim các từ khóa ở đầu ra

giải mã Mỗi từ khóa chỉ được gán một điểm số bằng nhau Cuộc gọi điện thoại

sẽ dược phần loại vào nhóm có số điểm cao nhất

1.1.3.2 Miêu tả tập dữ liệu

Trong thử nghiệm đầu tiên nảy, nguần thu thập đữ liệu là từ các cuộc điện

thoại của tổng dài chăm sóc khách hàng của Victtcl chiếm chủ yếu Tần số lấy

mẫu là 8kHz, với độ phân giải là 8 bits/sample Trong tập đữ liệu, chúng ta thu

19

Trang 20

thập từ 50 đại lý với 23,932 cuộc gọi điện Dữ liệu của chúng ta thu thập từ hai

kênh là từ đại lý chăm sóc khách hàng vả kênh người dùng gọi lên tống đài tổng

cộng được 85,8 giờ Nhưng trong nguồn đữ liệu thi có rất nhiều tiếng ôn, các

giọng vùng miễn khác nhau như 60% là người miễn Bắc (vì các tổng dai chúng

ta thụ thập dữ liệu chiếm da số là Lổng dải miền Bắc), 30% miền Trung va 10%

miễn Nam, độ tuôi trung bình những khách hang gọi lên tống đải chăm sóc khách

hàng lá từ 16 tuổi đến 30 tuối và nhiễu mỗi trường phải gán nhãn nó nhu là tiếng

vỗ tay hoặc các khoăng im lặng trong các dữ liệu âm thanh

1.1.3.3 Thử nghiệm

Thiết lập thử nghiệm

Đầu tiền chúng ta xác định dữ liệu huấn luyện vả các bộ dữ liệu kiểm tra

tit kho vin ban Chung ta trích xuất 19.672 cuộc gọi từ 43 đại lý để thành lập bộ

huấn luyện Thời gian huấn luyện lả 70 giờ với 125,337 phân doạn Các thiết lập còn lại bao gồm 4.260 cuộc gọi diện thoại từ 7 dại lý được sử dúng cho các bộ thử nghiệm Thời gian thiết lập thử nghiệm là 15,8 giờ với 28.488 phân đoạn Với

thiết lập nảy, không có người nói chồng chéo giữa bộ đữ liệu huấn luyện và các

bộ dữ liệu thử nghiệm Hộ công cụ nhận dạng tiếng nói của Kaldi được sử dụng

để xây dựng nhận dạng tiếng nói Bộ công cụ SRILM được sử dụng để xây dựng

mỗ hình ngôn ngữ Hiệu suất của tắt cả các hệ thẳng dược đánh giá theo tỉ lệ lỗi tit (WEB)

Tôi đánh giá độ chính xác của hệ thông khi MECC được tăng cường với

đặc trưng cao độ Piích Không khí đi qua thanh quán làm thanh quản rung lên Sự

rung động này với một tỉ lệ nào đó cũng được gọi là tằn số cơ bản 0 Tan sé co

bản phụ thuộc vào kích cỡ và áp lực của thanh quán Tân số cơ bản liên quan đến

âm thanh về cao độ và nó có thể được ước lượng chính xác từ tin hiệu âm thanh

Độ cao hay độ trầm bỗng oủa âm thanh chính là tần số sóng sơ học của âm thanh

Âm thanh nào cũng phát ra ở một độ cao nhất định Độ cao cua 4m thanh phụ

thuộc vào tần số dao động Dối với tiếng nói, tần số đao động của đây thanh quản

20

Trang 21

quy định độ cao giọng nói của con người Mỗi người có một cao độ giọng nói

khác nhau, độ cao của nữ giới thưởng cao hơn nam giới và đô cao của trẻ em

thường cao hơn của người lớn Cao độ Pitch do đó lả đại lượng tỉ lệ nghịch với

tần số cơ ban F0 Pilch là thuộc tính cơ bản của tiếng nói Tai người nhạy cảm

với sự thay đỗi tần số cơ bản

Thư được hiển thị trong Bảng 1 sử dụng hệ thông với dữ liệu tăng cường, đặc trưng cao độ Pitch giám tỉ lệ lỗi lừ đáng kể (WER) (từ 37,38% đến 31,159)

'ết luận 1: Vậy trong khi xây dựng hệ thống nhận dạng cho lĩnh vực hep

la tang đài chăm sóc khách hàng chủng ta sẽ sử dụng MECC tăng cường với đặc

trung pitch

Bảng 1 TY lệ lỗi từ (1) của hệ thẳng nhận dạng giang nói sử dụng hai tính

năng đầu vào khác nhau với bai loại từ điển phát âm khác nhan

âm là một chuỗi các âm vi không có thông tin thanh điệu Tiếng Việt là một ngôn

ngữ hữu âm có thanh điệu, do đó rõ ràng sử đụng tonal dictienary âm lả một lựa

chọn thích hợp Khi so sánh kết quả của Bảng Ì, chúng ta thấy rằng việc sử dụng

tonal dictionary có thể cải thiện đáng kế hiệu suât nhận dạng Khi thêm đặc trung

pitch, 16i chi nhận được cải thiện 0,65% bằng cách sử dung tonal dictionary

Ngược lại, khi MECC được tăng cường với đặc tính pitch, sự cải thiên bằng cách

sử dụng tonal đictionary là lớn hơn đáng kế (2, 16%) Nó cho thầy rang bing cach

sử dụng tonal dictionary dặc biệt oải thiện tí lễ lỗ khi tính năng đầu vào dược

tăng cường với dic trung pitch

21

Trang 22

Kết luận 2: Trong hệ thống nhận dạng tiếng viét, tir dién phat âm là một

trong những thành phần quan trọng, ánh hưởng rất lớn đến chất lượng nhận dang,

lả ngôn ngữ có 6 thanh điệu việc tích hợp thông tin thanh điệu vào từ điển phát

âm không phải là việc dễ dàng, nều không nghiên cứu kỹ lưỡng về ngữ âm tiếng

Việt thì hệ thống sẽ cho chất lượng nhận dạng không như mong muốn Trong

phan 3 của luận văn chúng ta sẽ đi sau vào giải pháp xây đựng từ điển phát âm

có tích hợp thông tin thanh điện (tonal dicionary) cho nhận dạng uễng Việt Ngoài ra trong lĩnh vực hẹp là chăm sóc khách hàng thỉ có rất nhiều từ vay mượn

Mô hình âm học: Trong các thí nghiệm trước đây, mô hình âm học GMIML

với cách huấn luyện thích nghĩ (SAT) đã dược sử dụng Ưu điểm của DJNN đối với GŒMM dỗi với mê hình hóa âm thanh dã được nhiều nhà nghiên cứu chứng,

minh Trong giai đoạn đầu này, tôi sử dụng một biến thể của DI gọi là mạng

nơron tể thời gian (TDNN) dược để xuất gần dây Đầu tiên tôi sử dụng TDN

với tiêu chuẩn huấn luyện cross-entropy dua trén frame-based (LNNI) Có thể

thấy rằng WTIR giảm đáng kế (từ 28,99% xuống còn 20,20%) bằng cách sử dụng

"TDNN cho mô hình hóa âm thanh Sau đó TUINN với đảo tạo chuỗi (TDNN2)

được áp đụng đựa trên một state-level thay đổi của Minimum phone error (MIPE),

được gọi là sMBR Bằng cách sử dựng đảo tạo chuỗi, chúng ta đạt được cái thiện

thêm khoảng 2% Với nhiều sMIBR lặp đi lặp lại đạt được tỉ lê lỗi thấp hon WER

đường như bão hỏa sau 4 lần lặp đây là hiện tượng nút thắt cỗ chai trong phương

pháp nay, do thời gian của luận văn không dủ nên ở giai đoạn tiếp theo tôi sẽ

nghiên cứu cải thiện bằng một mô hinh học sâu có số lượng lớp ấn phù hợp còn

ở luận văn này tôi tập trung vào mô hình lai HMM/DNN

Bảng 2 TẾ lệ lỗi từ (%6) của hệ thẳng nhận dạng giọng nói sửa dụng các mô

hình âm thanh GIẤM và DNN mà không có và có tăng cudng dit liệu

augmentation

22

Trang 23

'ết luận 3: Việc sử dụng phương pháp học sâu giúp tăng dang kể kết quả

nhận dạng Chủng ta cần tim ra một mô hình học sâu tốt hơn để nâng cao chất lượng nhận dang, trong phần 3 của luận văn chúng ta sẽ phân tích mê hình lai ghép HMMAINN Giải pháp này sử dụng dầu ra của mạng noron thay cho xác

suất phát xạ của mô hình IIVIM

- Tăng cường dữ liệu: Đề tăng kích thước đữ liệu đảo Lạo, tôi áp dụng kỹ

thuật tăng cường dữ liêu được goi là nhiễu loạn tốc đồ âm thanh Irong nghiên

cứu này, ba nhiên bản của tín hiệu tiếng nói gốc, x(1) được tạo ra tức là, x (0 90,

x(0, x (1.10 Sau dó, tính năng trích xuất được áp dụng trên tín hiệu lời nói mới

để đào tạo mô hình âm thanh theo cách thông thường

Cột cuối cùng của Báng 2 cho thấy WER®% uủa các mô hình âm thanh khác nhau

sau khi áp dung tăng thêm dữ liêu

Kết luận 4: Rõ ràng là sử đụng tăng cường dữ liệu luôn làm giảm WER từ

1,75% xuống 1,07% cho các mô hình âm học khác nhau

2

Trang 24

1.2 Một số đặc thù của bài toán xây dựng hệ thông nhận dạng trong hệ

thống chăm súc khách hàng và yêu cầu của hệ thống

1.2.1 Một số đặc thủ của bài toán xây dựng hệ thắng nhận dang trong

chăm sóc khach hang

I¡ Tiếng nói cần nhận đạng là tiếng hội thoại Lự nhiên, với đa dạng cáo nhịp

điêu các giong nói khác nhau, các vùng miền khác nhau như nhận định ở trên,

khách hàng gọi điện lên tổng đài chăm sóc khách hàng thường ở nhiều vùng miễn,

địa phương, và hệ thống nhận dạng xây dựng lần đầu nhận dạng với ti lệ lỗi

26,14%

! Giọng nói khách hàng đôi khi không chuẩn, nhập nhằng, nhiều từ vựng, phát âm sai

+ Phải nhận dạng được nhiều từ đặc thủ trong lĩnh vực tống đài bao gdm

nhiều từ khó phát âm và Lử nước ngoài

+ Các cuộc gọi thưởng được thực hiện ở môi trường nhiễu nhiễu vả tiếng,

or 5

1.2.2 Yêu câu của hệ thông nhận dạng tiếng nói

+ Nhận dạng tốt các từ, câu trong bài toán hẹp chăm sóc khách hàng, nhất

là trong điêu kiện thực tế thì khách hàng gọi lên tổng đài chăm sóc da phần làở ngoài môi trường có tiếng ồn cao như ngoài đường, trong văn phòng, trong các

nhà máy, và di kẻm rất nhiều giọng phương ngữ ở các vùng miễn khác nhau,

cùng từ ngữ chuyên môn trong lĩnh vực viễn thông, thì mục tiêu độ chính xác

cao là rất khó khăn

+ Dam bao yếu tố về đáp ứng thời gian nhận dạng trong hệ thông: Yêu tổ này gắn liễn với hệ thống cơ sở hạ Lằng, dù hệ thống nhận dạng có tốt đến may

mà cơ sở hạ ting dap ứng chậm thì chất lượng chăm sóc khách hàng cũng vẫn

rất thấp, đây là thách thức cho triển khai hệ thống ở ngoài thục tế

24

Trang 25

+ Dễ dàng kết hợp với các module khdc nhu module TTS, NLP dé thiét

kế được một dich vu internet dé dang cung cấp và tích hợp cũng lả bải toán khá

1ä cần thiết nếu chúng ta muốn đưa ứng dụng nhận dang tiếng việt vào thực tế

một cách rộng rãi không chỉ giới hạn ở phạm vị để tài này

25

Trang 26

CHUONG 2 TIM HIEU VE HE THONG NHAN DANG TIENG NOI

2.1 Hệ thống nhận dạng

2.1.1 Tổng quan hệ thống nhận dạng tiếng nói

Hệ thống nhân dạng tiếng nói điển hình bao gồm các thành phần như được

Giải thích ý nghĩa khái quát các module:

Trích xuất đặc trưng: Phân tích tín hiệu tiếng nói thành các vector để

máy xử lý được Trong quá trình trích chọn đặc trưng, tín hiệu âm thanh được cắt thành các khung theo thời gian để xử lý và trích chọn ra đặc trưng quan

trọng dưới dạng chuỗi vector X Mục đích của hê thống nhận dạng sau đó sẽ xác

định chuỗi văn bản W đúng nhất với vector đặc trưng X

Mô hình âm học: mô hình hóa các âm vị bằng các chuỗi trạng thái để ước

lượng xác suất P(XIW) của vector đầu vào X khi biết văn bản đầu ra W'

Từ điển: tập hợp các cách phát âm của các từ cần nhận dạng Cung cấp cách phát âm cho các từ tìm thay trong mô hình ngôn ngữ

Mô hình ngôn ngữ: mô hình hóa khả năng xuất hiện của các từ, quyết

định chuỗi từ đầu ra Cụ thể mô hình ngôn ngữ cho biết xác suất của một câu

hoặc một cụm từ thuộc một ngôn ngữ

26

Trang 27

2.1.2 Phương diện toán học gắn với từng phần trong mê hình nhận dạng

tiếng nói

Sau khi được phân tách đặc tính tín hiệu tiếng nói ban dầu dược biến dải

thành một chuỗi các vector quan sát, ký hiệu là (C¡ O;, O:, , Oa) Bộ từ vựng V

chứa cách phát âm của tắt cá các tử trong tập huấn luyện Vấn đề cơ bán của nhận

dang tiếng nói theo toán học là tìm ra chuỗi ký tự W có khả năng đã phát sinh ra

chuỗi vector quan sát là cao nhất Biểu diễn của phát biểu được trình bảy đưới dạng toán học như sau

"thể nhưng số lượng các vector quan sát trong tập huần luyện là võ cùng lớn nên

việc tính trực tiếp theo công thức trên là không thể, trừ khi có sự giới hạn về số

người nỏi hoặc độ dai cia 4m thanh đầu vào

Vi vay dé đơn giản cho tính toán ta có công thức Dayes:

P(O}: Coi như là một hằng số và không đối với mọi người nói nên có thế

bé qua vị không ảnh hưởng đến kết quả Tìo vậy, công thức mới để tìm ra chuỗi

từ tốt nhất

W —atgmax p(O |) p(W)

2.2 Phương pháp trích xuất đặc trưng MECC

"Tín hiệu âm thanh ngoài đời thực là tín hiệu hến tue, hay tín hiệu Lương lự trước khi thực hiện bắt cứ bước xử lý nảo, tín hiệu âm thanh cân được số hóa

Việc nảy được thực hiện tự động bởi các thiết bị thu âm, bằng cách lấy mẫu lin

27

Trang 28

hiệu đầu vào Như vậy, một tín hiệu âm thanh bắt kỳ khi đã được đưa vảo máy

của tín hiệu Lại

tỉnh, lả một Lập cáo mẫu liên tiếp nhau, mỗi mẫu lá giá trị biên độ

một thời điểm nhất định Một tham số quan trong trong việc lẫy mẫu tín hiệu âm

thanh là tần số lẫy mẫu, Ts, tức là số mẫu được lẫy trong mội giây Đề có thể đo lường chỉnh xác, cần phải lấy ¡L nhất 2 mẫu trong một chu kỳ của tín hiệu tương

tự đầu vào Như vậy, tần số lây mẫu phải lớn hơn 2 lần tằn số cao nhật của tín

hiệu âm thanh đầu váo

Trích chọn dặc trưng đối với nhận dạng tiỂng nói là việc tham số hóa chuối

tín hiệu âm thanh đạng sống đầu vào, biển đổi tín hiệu âm thanh thành một chuỗi

các vector đặc trưng n chiều, mỗi chiều là một giá trị thực Hiện nay, có rất nhiều phương, pháp trích chọn dac trumg nhur: 1 PC (Linear predictive coding — Dir dean

tuyển tỉnh), AMDF (Average magnitude đifferent function — hảm biền độ trung

bình), MFCC (Mel-trequency cepstral coefficients)

'Irong bải toán nhận dạng tiếng nói đang xét, với tần số lây mẫu mặc định

16.00011z, một đoạn mẫu với một số lượng nhật định tạo thành một frame, nhu vậy tín hiệu tiếng nói là tập các frame liên tiếp nhau, trích chọn đặc trưng MFCC

cho ta tập đặc trưng cho mỗi fame tiếng nói nảy Tại sao phải chia thành các

frame va ede frame cu thể chúng có đặc trưng thể náo, ta số đề cập tới ở ngay

Hình 3 Các khâu rong trích xuất đặc rung

-_ Các khâu chính trong trích xuất đặc trưng

+ Tiền xử lý

+ Cửa số hóa

| Bién d3i DFT

28

Trang 29

+ Sử dụng bé loc mel bank + Lay log cdc hé sé

+ Biển đổi IDFT ngược

| Tinh cdc hé sé Delta

2.2.1 Tiền xứ lý

‘Tin hiệu âm thanh thường được thu ở môi trường đời thường, tiếng nói bình thường của một người cũng không được to, trừ khi nói to có chủ đích, đo đó

nhiễu của môi trường (tần số thấp) nhiều khi có cường độ lớn bằng một phần đáng

kế (nghe có thể dễ dáng nhận ra) của tiếng nói khi thu âm, bước đầu tiền của quả trình trích chọn đặc trưng MTCC sẽ xử lý vấn đề này, bằng việc thực hiện tăng

cường độ của những tân số cao lên nhằm lảm tăng năng lượng ở vừng có tần số cao _ vùng tần số của tiếng nói, một cách đễ hiểu là làm tiếng nói lớn hơn lên để ảnh hương của các âm thanh môi trường và nhiều trở thành không đáng kể Việc tăng cường độ của vùng tần số cao lên déng thoi lam cho thông tin rõ rằng hơn

đổi với mẫu tiếng nói Ilinh 4 mồ tả trước vả sau quá trình Pre-emphasis của một

đoạn tín hiệu âm thanh

Trong hệ thống nhận dạng Liếng nói được trình bảy ở đồ án này, với mục

đích nâng cao độ chính xác của việc nhận dạng tiếng, thay vì nhận dạng từng từ

riêng biệt, mỗi một từ trong đoạn thoại sẽ được phân tích thành các âm vị

29

Trang 30

(subunit) va hệ thống sẽ nhận dạng từng âm vị Âm vị ở đây là đơn vị phát âm

của một từ, các âm vị cầu thành tiếng nói, trong tiếng Pháp, nó là đơn vị cầu thành

phiên âm của từ (chẳng hạn NIDS: n-i, âm vị ở day 1a /n/ va /i/)

Vì lý do đó, các đặc trưng cần phải được trích chọn trên từng âm vị, thay

vì cả từ hay cả đoạn tiếng nói dải Cửa số hóa là việc cắt đoạn tín hiệu âm thanh

đầu vào ra thành các mẫu tín hiệu có thời lượng nhỏ, gọi là các frame Mỗi frame

này sau đó sẽ được nhận dạng nó thuộc âm vị nảo Một lý do khác cho thấy sự cần thiết của việc cửa sổ hóa là vì tín hiệu âm thanh thay đổi rất nhanh, do đó các

thuộc tính như biên độ, chu kỳ sẽ không ồn định Khi tín hiệu âm thanh được cắt

ra thành những đoạn nhỏ thì ở mỗi đoạn, có thể coi tín hiệu đó là ổn định, các đặc trưng của tín hiệu là không đổi theo thời gian

Hình 5 Mô tả quá trình cửa số hỏa

Để thực hiện việc này, chúng ta sử dụng một cửa số (window) chạy dọc tín

hiệu âm thanh và cắt ra các đoạn tín hiệu nằm trong cửa số đó Một cửa số được định nghĩa bằng các thông số:

+ Frame size: độ rộng của cửa số, cũng là đô lớn của frame tín hiệu sẽ được

cắt ra

30

Trang 31

+ Frame shift: bước nhảy của cửa số, là độ dài đoạn mà cửa số sẽ trượt để

cắt ra frame tiếp theo

Mỗi frame sau đó sẽ được nhân với một hệ số, giá trị của hệ số này tùy thuộc vào từng loại cửa số

#[n]= w{n]xx[n] [24]

Trong đó:

+ x[n] là giá trị của mẫu thứ n

+ y[m] là giá trị của mẫu thứ n sau khi nhân với hệ số

+ w{[m] là hệ số cho mẫu thứ n trong frame đó

Loại cửa số đơn giản nhất là cửa số Rectangular, giá trị của các hệ số w[m] được cho bởi công thức sau

1|\O0snsN-1

ufn] =

ÁN là số mẫu trong một frame

Nói cách khác, cửa số Rectangular với bước nhảy là frame shift, ta lấy

frame size giá trị liên tiếp của tín hiệu làm một frame

Một loại cửa số khác thông dung hơn trong trích chọn đặc trưng MECC là cửa số Hamming Trong loại cửa sổ này, giá trị của tín hiệu sẽ giảm dần về 0 khi tiền dần ra hai biên của frame Nói cách khác, nếu sử dụng cửa số Hamming để lay ra cdc frame, ning lương của mỗi fame sẽ tập trung ở giữa frame, một ưu điểm nữa là các giá trị biên của cửa số Hamming tiến dần về 0 sẽ làm bước biến

đổi Fourier ngay sau trở nên đễ dàng hơn (với cửa số Rectangular các giá trị giữ

nguyên so với mẫu tiếng nói, bên ngoài cửa số nhận giá trị 0, các giá trị sẽ bị tăng

đột ngột ở hai biên) Hệ thống nhận dạng trong đỗ án này trình bày sẽ sử dụng

cửa số Hamming Biểu thức hệ số của cửa sổ này là

Trang 32

Đước biến đổi tiếp theo là thực hiện biến đổi Fourier rời rạc đối với từng

mẫu tín hiệu đã được cắt ra Qua phép biến đổi này, tín hiệu sẽ được đưa về không gian tần số Công thức của biến đổi Fourier

transform) thay vi DFT Biển đổi FFT nhanh hơn nhiều so với biến đổi DFT, tuy

nhiên thuật toán này đòi hỏi giá trị N phải là một lãy thừa của 2

Hình? mô tả trước và sau khi biến đổi DFT của một cửa số:

Trang 33

2.2.4 Bộ lọc Mel

Kết quả của quá trình biến đổi Trourier thể hiện năng lượng của tín hiệu ở

những dải tần số khác nhau Tuy nhiên, tai của người lại không có sự nhạy cảm

như nhau đối với mọi đải tần số Do đó việc mô hình hóa tính chất này của tại người trong quá trình trích chọn đặc trưng làm tăng khá năng nhận dang cúa hệ thống 'Irong mô hình trích chọn đặc trưng MIKCC, tần số sẽ được chuyển sang

thang đo tần số mel theo công thức

Line — 2595 x In (1 + mm [2.8]

Trong dé fla lần số ở thang do thường, /aa là tần số ở thang do mel Người

ta sử dụng các băng lọc để tỉnh các hệ số mel Sở đụng bao nhiêu băng lọc thì sẽ cho ra bay nhiều hệ số mel, và các hệ số mel này sẽ la đầu vảo cho quá trình tiếp

theo của trích chọn đặc trưng MIFCC

Hình 8 Biểu diễn mồ hinh các băng lọc trong thang đo tần số bình thường,

Trang 34

2.2.5 Bién doi DFT ngược

Bước tiếp theo của việc trích chọn đặc trưng MECC là biến đổi fourier

ngược với dầu vào là các hệ số phổ mel của bước trước, dầu ra sẽ là các hệ số

cepstrum (MI'CC Mel Frequency Cepstrum Coefficients)

Sau khi thực hiện biến đổi Fouricr thì đãy tín hiệu thco thời gian đã được

chuyển thành phố tần số, và việc áp dung các băng lọc tần số mel giúp cô đọng

phổ tần số về một số hệ số nhất định (bằng với số băng lọc) Các hệ số này thé hiện các đặc trưng của nguồn âm thanh như tần số cơ bản, xung âm thanh Tuy nhiên, các đặc trưng này không quan trọng đối với việc phân biệt các âm khác nhau Thay vào đó, các đặc trưng về bộ máy phát âm (khoang miệng, khoang mũi,

thanh quản, hầu) rất cần thiết cho việc nhận dạng các âm Việc thực hiện biển đối

fourier ngược sẽ giúp tách biệt các đặc trưng về nguồn âm và bộ máy phát âm từ

các hệ số (các dặc trưng về bộ máy phát âm là các hệ số dầu tiên)

2.2.6 Trích xuất dặc tính

Từ các hệ số mel thu được từ quả trình trước, thông thường chúng ta chỉ

lấy ra 12 hệ số đầu tiền để chọn làm đặc trưng 12 hệ số này chỉ đặc trưng chủ các

bộ phận của bộ máy phát âm Như vậy chúng ta đã có 12 đặc trưng đầu tiên

Dặc trung thứ 13 là năng lượng của âm Năng lượng của mỗi khung tỉn

Trong đó đ() là đặc trưng đelta của khung t, cít- 1) và c(t-1) là các đặc trưng phổ

cua khung ngay sau vả trước khung (, và 13 đặc ung double delta thé hign gia

tốc thay đổi của âm giữa các khung tín hiệu Công thức tính các đặc trung double

34

Trang 35

delta giống với công thức tính các đặc trưng delta, khi coi c(t) 14 gid tri cla cdc

đặc trưng dclta

2.2.7 Tổng kết

“Trích chợn đặc trưng XIFCC sẽ thu được các đặc trưng sau đây:

12 giá trị đặc rưng phê Mel được biển đối Fourier ngược

+ 12 giá tri delta phd

+ 12 giả trị double delta phd

+ ] giá trị mức năng lượng

+ 1 giá trị delta mức năng lượng,

| ] gid tri double delta mic nang long

Téng céng: 39 dặc trưng cho mỗi frame tiếng noi

2.35 Mô hình âm học

2.3.1 M6 hinh Markov an

‘Trong mé hinh Markov, mdi trang thái tương ứng với một sự kiện quan sát

được Với cầu trúc này, mô hình Markov còn gặp nhiều hạn chế trong việc giải

quyết những vấn để phức lạp Mô hình Markov Ân được phát triển từ mô hình

Markov, mỗi trạng thái có thể tương ứng với nhiều sự kiên khác nhau và việc

phát sinh ra sự kiện phục thuộc vào hàm mật độ xác suất phát sinh ra sự kiện của

trang thai

35

Trang 36

Hình 9 Mô hình Markov ẩn ba trạng thái

Mô hình 9 có: {Vị, Vạ, Vạ, , Vạ} là các sự kiện quan sát được trong mỗi

trạng thái Tất cả các trạng thái đều có thể phát sinh ra các sự kiện đó Khả năng

phát sinh sự kiện Vụ trong trang thái S¡ phụ thuộc vào xác suất bj(k) Ham b goi

là hàm mật độ xác suất của các sự kiện quan sat Co nhiều hàm b được sử dụng

như hàm mật độ Gauss hoặc dùng mạng neuron (hai hàm này được sử dụng nhiều

trong nhận dạng tiếng nói),

Tổng quát hóa mô hình Markov ẩn ta có các thông số được định nghĩa như

sau:

- Na sé lwong trang thái Ta ký hiệu các trạng thái là § = {S¡, S2, S3, , Sa} và trạng thái đạt được tại thời điểm t là Q,

~ Mlà số lượng sự kiên có thể quan sát được trong mỗi trạng thái Ta ký hiệu

sự kiện quan sát này là V = {O1, Oo, Os, ., On} va tin hiéu quan sát tại thời

điểm t là O,

~_ Xác suất chuyển giữa các trang thái A = {aj} trong đó:

Ag=P [qua = 8j| q= 8], 1<iJ<N

Thỏa mãn ràng buộc }}=¡ đi = 1

36

Trang 37

~_ Xác suất phát sinh các sự kiện B = {by(k}} trong do

Để thuận tiện hơn trong việc trình bày, ta sẽ quy ước mô hình Miarlov ấn được

đại diện bằng bộ tham số 3 — (A, Ð, z)

Các bài toán trong mé hinh Markey Ấn:

a Bài toán tính xác suất phat sinh ra chuỗi sự kiện quan sát:

Giả thiết: Cho chuỗi sự kiện quan sát la O = {01, 2, Os, ,Oa}va bd théng

số của mô hình là 2 — (A.B,7) Lam thé nao dé tinh toán hiệu quả D(O|Ä) - xác suất phát sinh chuỗi O của mồ hình Ä

Phương pháp giải: Giải thuật “forward-backward”:

Dây là một giải thuật được phát triển trên máy tính Nó tiết kiệm tỉnh toản

đựa vào việc tiết kiệm những phần có tỉnh toán giống nhau — tiết kiệm dựa vào

kết quả được tính toán trước đó Giả đụ, chuỗi trạng thái qị là 1231, q; là 1232 và

qa là 1233, có chuỗi con là 123 giếng nhau nên khí tính toán ta chỉ cần thực hiện

một lần tính toán chuỗi con 123 sau đó thực hiện thêm doạn chuỗi khác biệt Ví

dụ ta chỉ cần tính chuỗi 123 trên qụ chuỗi 1231 được tính tiếp từ 123 nảy, q; và

qs cing dựa vào chuỗi 123 đó để tính Thủ tục Eorward thực hiện tính toán đi từ trang thai đầu tới cuối, còn Backward thì ngược lại đi từ cuối tới đầu, nhưng cả 2

có cơ chế hoàn toàn giống nhau

37

Trang 38

Thuat gidi forward:

Đầu tiên định nghĩa biến @j(i) la xdc suất qị đạt được trạng thái 3; tại thời điểm t,

sau khi dã quan sát dược một phần chuỗi {O›, , Ot}

Thuat gidi Backward:

Trước hết định nghĩa các biến backward 8@) là xác suất quan sát được đoạn

Oụi, Ocs On cho trước trạng thái S¡ thời điểm t và mô hình Ä

Trang 39

b Bài toán 2 : Tìm kiếm chuỗi trạng thái tối ưu phát sinh ra chuỗi các sự

quan sắt

Cho chudi vector quan sat O1, Os Or, tim ra chudi trạng thái tối ưu Q —

1, 42-.-4¢ 44 phat sinh ra chudi trang thai O

Trong rat nhiều trường hợp, yêu cầu của bài toán cần tìm ra nguồn gốc phát sinh

ra sự kiên chuỗi trang thai ph hợp nhất Ví dụ như trong nhân dạng giọng nói, việc nhận dạng cần tim ra xem chuỗi mẫu nào phát ra những âm thanh Một điểu

đáng lưu ý là có nhiều tiêu chí khác nhau cho việc xác định Q, nên lời giải cho

bài toán cỏn tùy thuộc vào tiêu chí được lựa chọn

Thuật toán Viterbi

"Thuật toán Viterbi định nghĩa biến ổ,(Ì) :

ð,()= max Pl ¢.gy nd, =5,,0,0,.0,\A] aes

lä xác suất cao nhất của chuỗi q;q› q khi q; đạt trạng thái 8, tại thời điểm t và

đã quan sát được chuối 0102 0;

đG) tiếp theo có thể được tính theo quy nap:

Trang 40

c Bài toán huấn luyện

Giá thiết: Từ mô hình ban dầu và chuỗi voclor quan sát O, tìm cách cập nhật lại các thông số của mô hình  — (A,B.z) sao cho cực đại hóa xác suất P(O|Ä}

"Thuật toán Baum-welch:

hiệu quan sát O và mô hình 3, lấy tông E6, j) trên j ta được tương quan giữa

Gj) va yi) nhu sau

r\0~Š 6,0)

Néu lấy tổng w) the t c [1, T-1], kết quả nhận được là số lần kỳ vọng

chuyển từ trạng thái S¡ Tương lự lấy tổng š (1, 1) thoo te |1, T-1|, kết quá nhận

được là số lần kỳ vong chuyển từ trang thai Si sang 8¡

40

Ngày đăng: 11/06/2025, 21:31

HÌNH ẢNH LIÊN QUAN

Hình  1  Miêu  tả  hệ  thông  nhận  dạng  tiếng  nói  để phân  loại  cuộc  gọi - Luận văn thạc sĩ nghiên cứu xây dựng hệ thống nhận dạng tiếng nói tiếng việt sử dụng trong tổng Đài chăm sóc khách hàng tự Động
nh 1 Miêu tả hệ thông nhận dạng tiếng nói để phân loại cuộc gọi (Trang 17)
Hình  2  Hệ  thẳng  nhận  dạng  tiếng  nói  điển  hình - Luận văn thạc sĩ nghiên cứu xây dựng hệ thống nhận dạng tiếng nói tiếng việt sử dụng trong tổng Đài chăm sóc khách hàng tự Động
nh 2 Hệ thẳng nhận dạng tiếng nói điển hình (Trang 26)
Hình  5  Mô  tả  quá  trình  cửa  số  hỏa - Luận văn thạc sĩ nghiên cứu xây dựng hệ thống nhận dạng tiếng nói tiếng việt sử dụng trong tổng Đài chăm sóc khách hàng tự Động
nh 5 Mô tả quá trình cửa số hỏa (Trang 30)
Hình  6  So  sánh  hai  loại  cửa  sé  Rectangular  va  Hamming - Luận văn thạc sĩ nghiên cứu xây dựng hệ thống nhận dạng tiếng nói tiếng việt sử dụng trong tổng Đài chăm sóc khách hàng tự Động
nh 6 So sánh hai loại cửa sé Rectangular va Hamming (Trang 32)
Hình  7  Tác  động  của  DFT  tới  cửa  sỗ - Luận văn thạc sĩ nghiên cứu xây dựng hệ thống nhận dạng tiếng nói tiếng việt sử dụng trong tổng Đài chăm sóc khách hàng tự Động
nh 7 Tác động của DFT tới cửa sỗ (Trang 32)
Hình  8  Biểu  diễn  mồ  hinh  các  băng  lọc  trong  thang  đo  tần  số  bình  thường, - Luận văn thạc sĩ nghiên cứu xây dựng hệ thống nhận dạng tiếng nói tiếng việt sử dụng trong tổng Đài chăm sóc khách hàng tự Động
nh 8 Biểu diễn mồ hinh các băng lọc trong thang đo tần số bình thường, (Trang 33)
Hình  9  Mô  hình  Markov  ẩn  ba  trạng  thái - Luận văn thạc sĩ nghiên cứu xây dựng hệ thống nhận dạng tiếng nói tiếng việt sử dụng trong tổng Đài chăm sóc khách hàng tự Động
nh 9 Mô hình Markov ẩn ba trạng thái (Trang 36)
Hình  13  Mô  hình  MGHMM  3  trạng  thái - Luận văn thạc sĩ nghiên cứu xây dựng hệ thống nhận dạng tiếng nói tiếng việt sử dụng trong tổng Đài chăm sóc khách hàng tự Động
nh 13 Mô hình MGHMM 3 trạng thái (Trang 44)
Hình  14  Mô  hình  DNN  trong  hệ  thông  nhận  dạng  tiếng  nói - Luận văn thạc sĩ nghiên cứu xây dựng hệ thống nhận dạng tiếng nói tiếng việt sử dụng trong tổng Đài chăm sóc khách hàng tự Động
nh 14 Mô hình DNN trong hệ thông nhận dạng tiếng nói (Trang 53)
Hình  15  Cấu trúc  mô  hình  HMM-DNN - Luận văn thạc sĩ nghiên cứu xây dựng hệ thống nhận dạng tiếng nói tiếng việt sử dụng trong tổng Đài chăm sóc khách hàng tự Động
nh 15 Cấu trúc mô hình HMM-DNN (Trang 54)
Bảng  5  Perplexiiy  cho  bởi  2  mô  hình  ngôn  ngữ:  với  3  tập  dữ  liệu  text  khác - Luận văn thạc sĩ nghiên cứu xây dựng hệ thống nhận dạng tiếng nói tiếng việt sử dụng trong tổng Đài chăm sóc khách hàng tự Động
ng 5 Perplexiiy cho bởi 2 mô hình ngôn ngữ: với 3 tập dữ liệu text khác (Trang 62)
Bảng  6  WER(4)  cho  bôi  cúc  hệ  thông  nhận  dang  với  các  mô  hình  ngôn  ngữ. - Luận văn thạc sĩ nghiên cứu xây dựng hệ thống nhận dạng tiếng nói tiếng việt sử dụng trong tổng Đài chăm sóc khách hàng tự Động
ng 6 WER(4) cho bôi cúc hệ thông nhận dang với các mô hình ngôn ngữ (Trang 64)
Hình  18  Sai  số  nhận  dạng  với  các  điêu  kiện  thử  nghiệm  khác  nhau - Luận văn thạc sĩ nghiên cứu xây dựng hệ thống nhận dạng tiếng nói tiếng việt sử dụng trong tổng Đài chăm sóc khách hàng tự Động
nh 18 Sai số nhận dạng với các điêu kiện thử nghiệm khác nhau (Trang 65)
Hình  20  Sai  số  nhận  dạng  của  các  mô  hình  khác  nhau - Luận văn thạc sĩ nghiên cứu xây dựng hệ thống nhận dạng tiếng nói tiếng việt sử dụng trong tổng Đài chăm sóc khách hàng tự Động
nh 20 Sai số nhận dạng của các mô hình khác nhau (Trang 69)
Bảng  8  Các  mô  hình  nhận  dạng  khác  nhau - Luận văn thạc sĩ nghiên cứu xây dựng hệ thống nhận dạng tiếng nói tiếng việt sử dụng trong tổng Đài chăm sóc khách hàng tự Động
ng 8 Các mô hình nhận dạng khác nhau (Trang 69)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w