MỞ ĐẦU 1. Tính cấp thiết của đề tài Ngày nay, với sự bùng nổ của xã hội thông tin, con người không còn chỉ có nhu cầu giao tiếp với nhau nữa mà còn cần giao tiếp với những thiết bị điện tử. Hình thức giao tiếp người – máy thông qua ngôn ngữ tự nhiên sẽ đem lại nhiều ứng dụng, góp phần giải phóng sức lao động của con người. Chính vì vậy, vai trò của nhận dạng, tổng hợp tiếng nói có tầm quan trọng đặc biệt liên quan đến quá trình phát triển của văn minh nhân loại. Các ứng dụng nhận dạng và tổng hợp tiếng nói như Dragon của LH, Viavoice, Google voice search, Siri của Apple v.v…ngày càng trở nên thông dụng và hữu ích trong cuộc sống. Về các hệ thống tổng hợp tiếng nói, hiện nay đã có nhiều phương pháp tổng hợp được nghiên cứu và ứng dụng trong thực tế như: tổng hợp theo cấu âm, tổng hợp bằng ghép nối, cách điệu hóa đường F0 và hiện tượng ngôn điệu [23][25][27], tổng hợp theo phương pháp thống kê dựa trên HMM [18][71][72] … Tuy nhiên, vấn đề tổng hợp giọng tự nhiên cho tới nay vẫn là một vấn đề mở, ngay cả trong các ngôn ngữ châu Âu thông dụng như tiếng Anh. Bởi vì để tổng hợp được giọng tự nhiên đòi hỏi rất nhiều yếu tố từ việc xử lý các đặc trưng tín hiệu, hiện tượng ngôn điệu và ngữ cảnh ứng dụng (như trạng thái cảm xúc…) v.v… Các hệ thống nhận dạng tiếng nói thường sử dụng các kỹ thuật học máy truyền thống như mạng nơ ron, mô hình Markov ẩn (HMM), chiến thuật tìm kiếm dựa trên quy hoạch động, các mô hình này có tính khái quát cao được ứng dụng ở nhiều lĩnh vực ngoài nhận dạng và tổng hợp tiếng nói. Để tăng được chất lượng nhận dạng tiếng nói các hệ thống nhận dạng cần phải bổ sung các phép tiền xử lý tín hiệu tiếng nói, các phép trích chọn đặc trưng tiếng nói như xử lý giảm thiểu sự sai lệch về phổ giữa đặc trưng tiếng nói của tập giọng nói người được huấn luyện và giọng nói của người sử dụng hệ thống [26][50] (ứng dụng trong các hệ thống nhận dạng độc lập người nói). Lọc nhiễu tiếng nói [28][58], trích chọn đặc trưng [35][36][46], tích hợp đặc trưng ngôn điệu [16]… Hai môi trường nền phổ biến cho các hệ thống nhận dạng và tổng hợp tiếng nói là server hoặc nhúng (các ứng dụng tiếng nói cho điều khiển thiết bị, nhúng v.v…), các môi trường này có tài nguyên lưu trữ và tính toán khác nhau, điều đó dẫn đến các tiếp cận khác nhau trong việc cân bằng giữa chất lượng nhận dạng tổng hợp tiếng nói và sử dụng tài nguyên (lưu trữ, tính toán và điện năng tiêu thụ), thời gian thu thập mẫu huấn luyện v.v…Môi trường nhúng có tầm quan trọng đặc biệt, được tập trung nghiên cứu phát triển nhiều trong thời gian gần đây do các thiết bị nhúng hầu hết không trang bị thiết bị nhập liệu như bàn phím và màn hình cảm ứng, giao tiếp bằng tiếng nói thể hiện hình thức tương tác tự nhiên, tuy vậy các hệ thống này đòi hỏi phải tối ưu rất nhiều so với quy trình nhận dạng tổng hợp tiếng nói nói chung [13][47][52] Nhận dạng và xử lý tiếng Việt (ngôn ngữ và tiếng nói) là một trong những mục tiêu cơ bản của phát triển và ứng dụng công nghệ thông tin ở Việt Nam do sự khác biệt về bản chất của hệ thống âm tiết, ngữ pháp và hiện tượng thanh điệu nên không thể sử dụng nguyên các hệ thống ứng dụng cho tiếng nước ngoài. Hiện nay những nghiên cứu về đặc trưng tín hiệu, hiện tượng ngôn điệu tiếng Việt mới chỉ đề cập ở mức độ ban đầu. Trong nước đã hình thành nhiều trung tâm nghiên cứu của các Viện nghiên cứu và các khoa Công nghệ Thông tin của các trường Đại học về xử lý tiếng nói (tiếng Việt) và ngôn ngữ tự nhiên như : Viện Công nghệ Thông tin, Trung tâm Pháp –Việt MICA của Đại học Gronobe và Đại học Bách khoa Hà Nội, Trung tâm SLP của Đại học khoa học tự nhiên Đại học Quốc Gia TP. HCM, Viện Công nghệ Bộ Khoa học và Công nghệ v.v... Các kết quả nghiên cứu tập trung vào việc sử dụng, cải tiến các công nghệ nguồn về Nhận dạng và Tổng hợp tiếng nói của tiếng Anh. 3 Phòng thí nghiệm Trí tuệ nhân tạo AILab (Đại học Khoa học tự nhiên TP HCM) đã thiết kế và xây dựng các hệ thống Nhận dạng và tổng hợp tiếng Việt với nhiều cách tiếp cận khác nhau như tổng hợp ghép nối, tổng hợp dựa trên mô hình HMM. Về ứng dụng cho điều khiển, Viện Hàn lâm Khoa học và Công nghệ Việt Nam, với đề tài “Nghiên cứu thiết kế và chế tạo hệ thống điều khiển bằng tiếng nói tích hợp vào robot hút bụi tự động thông minh”, thực hiện năm 2011-2013[77] đã nghiên cứu phát triển mẫu robot dịch vụ - robot hút bụi điều khiển bằng khẩu lệnh tiếng Việt. Viện nghiên cứu Quốc tế MICA (Đại học Bách khoa Hà Nội) đã nghiên cứu một robot hướng dẫn bảo tàng từ giữa năm 2009 và thử nghiệm tại Bảo tàng Dân tộc học Việt Nam. Robot có khả năng hiểu một số câu hỏi của khách thăm quan, đồng thời sẽ giới thiệu cho khách thăm quan bằng tiếng nói nhiều thông tin liên quan đến các hiện vật trưng bày v.v… Chính vì vậy việc đi sâu nghiên cứu các đặc trưng của ngôn ngữ tiếng Việt, khai thác, áp dụng các đặc trưng đó vào các hệ thống nhận dạng, tổng hợp tiếng nói để nâng cao chất lượng tổng hợp và nhận dạng tiếng Việt đang là vấn đề cần thiết nhằm tiến tới xây dựng các ứng dụng phù hợp với đặc thù của ngôn ngữ tiếng Việt, đáp ứng các nhu cầu ứng dụng ngày càng cao của xã hội. Xuất phát từ thực tế và những lý do trên, việc lựa chọn đề tài “Nghiên cứu các đặc trưng tín hiệu và ràng buộc ngôn điệu để nâng cao chất lượng Tổng hợp và Nhận dạng tiếng Việt”, nghiên cứu các đặc trưng tiếng nói phù hợp với đặc thù ngôn ngữ tiếng Việt, các đặc trưng ngữ âm như thanh điệu, trường độ và formant để nâng cao chất lượng Tổng hợp và nhận dạng tiếng Việt trong các ứng dụng giao tiếp người máy. Đề tài này cũng nghiên cứu hướng tới các ứng dụng tương tác điều khiển thiết bị, robot dịch vụ, ứng dụng hỗ trợ người khuyết tật, những ứng dụng mà công nghệ nhận dạng và tổng hợp tiếng Việt có vai trò quan trọng. 2. Mục tiêu, phạm vi nghiên cứu của luận án. Mục tiêu chính của đề tài là tập trung chủ yếu ở vấn đề về xử lý ngôn điệu và đặc trưng tín hiệu để nâng cao chất lượng tổng hợp và nhận dạng tiếng Việt. Các hiện tượng ngôn điệu có thể là đường F0, trường độ và âm lượng của âm tiết hoặc từ đa âm tiết trong ngữ cảnh câu. Nghiên cứu về các ràng buộc ngôn điệu cho tổng hợp tiếng Việt còn ít được đề cập tới, trong khi để đạt được độ tự nhiên cao của tiếng nói tổng hợp cũng như để tăng độ chính xác của các hệ thống nhận dạng tiếng nói (nhận dạng khẩu lệnh, nhận dạng tên, nhận dạng đối thoại v.v…) đều đòi hỏi phải tích hợp các đặc trưng ngôn điệu của tiếng nói trong ngữ lưu và trong môi trường sử dụng thực tế của tiếng nói. Ngoài phương pháp học ngôn điệu dựa trên các mô hình thống kê, các tác giả của Viện Ứng dụng Công nghệ, Đại học Quốc gia TP HCM cũng đã giới thiệu một hệ thống tổng hợp tiếng Việt VOS với giọng đọc gần tiếng nói tự nhiên dựa trên tiếp cận kiểu kho ngữ liệu (corpus-based), mô hình này đòi hỏi rất nhiều dữ liệu được gán nhãn (dựa trên công nghệ phân đoạn tự động câu tiếng nói thành các đơn vị tiếng nói kết hợp với điều chỉnh tay) và chỉ phù hợp với ứng dụng cho môi trường server, bên cạnh đó tiếp cận này cũng có điểm hạn chế là đọc không chuẩn các ngữ đoạn ít thông dụng. Nghiên cứu các ảnh hưởng của hiện tượng ngôn điệu tiếng Việt như thanh điệu, các tần số formant và trường độ âm tiết trong các hệ thống nhận dạng tiếng Việt là một vấn đề quan trọng nhưng hiện tại ít được đề cập tới trong các công trình nghiên cứu về xử lý âm thanh tiếng Việt. Các hệ thống nhận dạng tiếng Việt dựa trên HMM thường dựa trên đặc trưng chuẩn MFCC. Khi ứng dụng thuật toán nhận dạng HMM với các đặc trưng MFCC cơ sở cho việc nhận dạng tiếng nói liên tục không phụ thuộc người nói, hệ thống thường suy giảm độ chính xác với những người nói có có đặc trưng giọng nói không phù hợp với những mẫu giọng được sử dụng để huấn luyện mô hình HMM. Xuất phát từ mục tiêu trên, phạm vi nghiên cứu của đề tài tập trung vào các vấn đề sau: Nghiên cứu các mô hình dự báo các hiện tượng ngôn điệu như trường độ, âm lượng, thanh điệu của các âm tiết tiếng Việt trong ngữ lưu, tích hợp trong các hệ thống tổng hợp tiếng Việt, tối ưu hiệu quả sử dụng tài nguyên lưu trữ và tính toán ứng dụng cho hệ thống nhúng. Nghiên cứu các phương pháp giảm thiểu sự sai lệch về cấu âm, phổ của tập giọng nói huấn luyện và giọng của người sử dụng dựa trên đặc trưng ngữ âm tiếng Việt để tăng độ chính xác nhận dạng tiếng nói cho các hệ thống nhận dạng tiếng Việt độc lập người nói. Đối tượng nghiên cứu của đề tài là: Các mô hình học máy như HMM, CART. Các đặc trưng tiếng nói (MFCC, F0, formant, VTL v.v …) Mô hình biểu diễn, cách điệu đường F0, mô hình xử lý nhiễu, cân bằng tần số v.v… Phương pháp tổng hợp ghép nối. Phép chuẩn hóa VTLN cho các hệ thống nhận dạng tiếng nói độc lập người nói.
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
NGÔ HOÀNG HUY
NGHIÊN CỨU CÁC ĐẶC TRƯNG TÍN HIỆU VÀ RÀNG BUỘC NGÔN ĐIỆU ĐỂ NÂNG CAO CHẤT LƯỢNG TỔNG HỢP VÀ NHẬN DẠNG TIẾNG VIỆT
LUẬN ÁN TIẾN SĨ TOÁN HỌC
Hà Nội – 2016
Trang 2BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
NGÔ HOÀNG HUY
NGHIÊN CỨU CÁC ĐẶC TRƯNG TÍN HIỆU VÀ RÀNG BUỘC NGÔN ĐIỆU ĐỂ NÂNG CAO CHẤT LƯỢNG TỔNG HỢP VÀ NHẬN DẠNG TIẾNG VIỆT Chuyên ngành: Cơ sở Toán học cho Tin học
Mã số: 62 46 01 10
LUẬN ÁN TIẾN SĨ TOÁN HỌC
NGƯỜI HƯỚNG DẪN KHOA HỌC:
1 PGS.TS LƯƠNG CHI MAI
2 PGS.TS NGÔ QUỐC TẠO
Hà Nội – 2016
Trang 3LỜI CAM ĐOAN
Tác giả xin cam đoan đây là công trình nghiên cứu của bản thân tác giả Các kết quả nghiên cứu và các kết luận trong luận án này là trung thực, không sao chép từ bất kỳ một nguồn nào và dưới bất kỳ hình thức nào Việc tham khảo các nguồn tài liệu đã được thực hiện trích dẫn và ghi nguồn tài liệu tham khảo đúng quy định
Tác giả luận án
Ngô Hoàng Huy
Trang 4LỜI CẢM ƠN
Luận án này báo cáo một phần các kết quả nghiên cứu và làm việc của tôi trong hơn hai chục năm qua Trong suốt thời gian này ngoài nỗ lực làm việc của bản thân tôi, phòng Nhận dạng và Công nghệ Tri thức, Viện Công nghệ Thông tin đã tạo cho tôi một môi trường làm việc, điều kiện để thực hiện các nghiên cứu về chuyên nghành rộng là nhận dạng và chuyên nghành hẹp nhận dạng và tổng hợp tiếng Việt
Tôi xin chân thành cảm ơn PGS.TS Lương Chi Mai và PGS.TS Ngô Quốc Tạo đã chỉ dẫn tôi làm việc trong bước đường khoa học của tôi, tận tình chỉ dẫn tôi để hoàn thành được luận án này
Xin cảm ơn các đồng nghiệp tại Phòng Nhận dạng và Công nghệ tri thức, Viện Công nghệ Thông tin đã đóng góp những ý kiến thiết thực để tôi hiệu chỉnh lại các tiếp cận nghiên cứu của mình, cảm ơn các kỹ sư tại công ty Cổ phần Phần mềm và Công nghệ ứng dụng đã hỗ trợ tôi thử nghiệm các kết quả về tổng hợp và nhận dạng khẩu lệnh tiếng Việt trên nền tảng chip PSoC
Đặc biệt tôi xin bày tỏ lòng biết ơn sâu sắc tới vợ tôi Mai Thị Bạch Tuyết mà thiếu điều này chắc chắn tôi đã không đủ nghị lực để hoàn thành bản luận án này
Trang 5MỤC LỤC
Danh mục các thuật ngữ và từ viết tắt i
Danh sách bảng ii
Danh sách hình vẽ iii
MỞ ĐẦU 1
1 Tính cấp thiết của đề tài 1
2 Mục tiêu, phạm vi nghiên cứu của luận án 4
3 Phương pháp và nội dung nghiên cứu 5
4 Kết quả đạt được của luận án 6
CHƯƠNG 1 TỔNG QUAN VỀ TỔNG HỢP VÀ NHẬN DẠNG TIẾNG NÓI 10
1.1 Tổng hợp tiếng nói 10
1.1.1 Chuẩn hóa văn bản và phân tích câu – xử lý ngôn ngữ tự nhiên 11
1.1.2 Chuyển văn bản sang đơn vị tiếng nói 11
1.1.3 Dự báo ngôn điệu 11
1.1.4 Các phương pháp tổng hợp tiếng nói 12
1.1.5 Các hệ thống tổng hợp tiếng nói tiếng Việt 21
1.1.6 Các tham số ngôn điệu 23
1.1.7 Tổng quan về âm học và các hiện tượng ngôn điệu tiếng Việt trong ngữ lưu 25
1.1.8 Hiệu chỉnh đường tần số cơ bản 33
1.2 Nhận dạng tiếng nói 38
1.2.1 Liệt kê các lớp bài toán nhận dạng tiếng nói 38
1.2.2 Môi trường thu nhận tín hiệu 39
1.2.3 Biểu diễn tiếng nói - đặc trưng tiếng nói 40
Trang 61.2.4 Phương pháp nhận dạng tiếng nói 42
1.2.5 Các hệ thống nhận dạng tiếng nói tiếng Việt 43
1.3 Kết luận chương 1 44
CHƯƠNG 2 XỬ LÝ TIẾNG NÓI VÀ CÁC MÔ HÌNH HỌC MÁY 46
2.1 Xử lý tiếng nói 46
2.1.1 Xử lý nhiễu 46
2.1.2 Một số loại nhiễu trong môi trường thực 47
2.1.3 Trích chọn đặc trưng tiếng nói 50
2.1.4 Thuật toán PSOLA 56
2.2 Mô hình dự báo CART 59
2.3 Mô hình Markov ẩn (HMM, Hidden Markov Model) 63
2.3.1 Tham số của mô hình HMM 64
2.3.2 Nhận dạng tiếng nói với mô hình Markov ẩn 66
2.4 Kết luận chương 2 67
CHƯƠNG 3 DỰ BÁO TRƯỜNG ĐỘ, ÂM LƯỢNG VÀ TỔNG HỢP THANH ĐIỆU TIẾNG VIỆT 68
3.1 Khảo sát một số đặc tính âm học tiếng Việt 69
3.1.1 Đặc tính trường độ của âm tiết do ảnh hưởng của phụ âm và nguyên âm trong ngữ cảnh 70
3.1.2 Quy luật biến đổi thanh điệu trong ngữ cảnh 71
3.1.3 Quy luật biến đổi formant của nguyên âm trong ngữ cảnh 73
3.1.4 Cách điệu hóa đường F0 của âm tiết tiếng Việt 78
3.2 Dự báo thông tin trường độ, âm lượng của âm tiết tiếng Việt trong ngữ cảnh câu 86
3.2.1 Cơ sở dữ liệu tiếng nói huấn luyện mô hình dự báo 87
3.2.2 Dự báo ngôn điệu 92
Trang 73.2.3 Thiết kế bộ phân tích ngôn điệu và xác định tham số huấn luyện dự
báo trường độ và âm lượng 93
3.2.4 Tổng hợp tiếng Việt trên hệ thống tài nguyên hạn chế 101
3.3 Kết luận chương 3 103
CHƯƠNG 4 KẾT HỢP THAM SỐ CẤU ÂM, FORMANT VÀ THANH ĐIỆU ĐỂ NÂNG CAO CHẤT LƯỢNG NHẬN DẠNG TIẾNG VIỆT 105
4.1 Nhận dạng thanh điệu tiếng Việt 105
4.2 Đặc trưng MFCC với phép chuẩn hóa độ dài cấu âm VTLN kết hợp với F0108 4.2.1 Phép chuẩn hóa VTLN 110
4.2.2 Tổ hợp giá trị F0 và chuẩn hóa VTLN 112
4.2.3 Ước lượng tham số chuẩn hóa VTLN bằng phương pháp formant 117
4.3 Hệ thống nhận dạng tiếng Việt nhúng 124
4.3.1 Điều khiển thiết bị tự hành bằng tiếng nói 126
4.3.2 Biểu diễn HMM trong bộ nhớ SRAM của chip với tính toán chấm tĩnh (fixed point) 130
4.4 Kết luận chương 4 131
KẾT LUẬN 133
1 Kết quả về tổng hợp tiếng Việt 133
1.1 Kết quả chính 133
1.2.Kết quả khác 134
1.3.Một kết quả ứng dụng 134
2 Kết quả về nhận dạng tiếng Việt 134
2.1 Kết quả chính 134
2.2.Kết quả khác 135
2.3.Một kết quả ứng dụng 136
3 Hướng phát triển 136
Trang 8DANH MỤC CÔNG TRÌNH ĐÃ CÔNG BỐ 138
TÀI LIỆU THAM KHẢO 140
PHỤ LỤC 149
1 Cách tổ chức cây dự báo CART của Wagon/Festival 153
1.1 Sự hỗn tạp trong dữ liệu (tạp âm) 153
1.2 Định dạng dữ liệu 156
1.3 Xây dựng cây 161
2 Phân loại âm vị tiếng Việt 163
3 Cơ sở dữ liệu ngữ âm 171
4 Các câu trích từ tập truyện “Dế mèn phiêu lưu ký” 213
Trang 9Danh mục các thuật ngữ và từ viết tắt
ADC Analog-Digital-Converter
ADPCM Adaptive differential pulse-code modulation ANN Artificial neural network
CART Class And Regression Tree
CD-HMM Continuous-Density Hidden Markov Model CMS Cepstral-mean-subtraction
GMM Gaussian Mixture Models
GPIO General-purpose Input/Output
HMM Hidden Markov Model
HTK Hidden Markov Model Toolkit
IDFT Inverse Discrete Fourier Transform
IFFT Inverse Fast Fourier Transform
LPC Linear Predictive Coding
LPCC Linear Predictive Cepstral Coefficient
LPF Low Pass filter
LSF Line Spectral Frequency
LSP Line Spectrum Pair
Trang 10MAP Maximum A posteriori
MFCC Mel Frequency Cepstral Coefficient
Trang 11Danh sách bảng
1 1 Bảng so sánh một số sản phẩm tổng hợp tiếng Việt đã công bố 21
1 2 Các tham số đặc trưng của ngôn điệu 24
1 3 Phân loại âm tiết tiếng Việt 27
1 4 Các loại nhận dạng tiếng nói 39
1 5 Liệt kê các môi trường theo mức nhiễu 39
2 1 Thuật toán nhận dạng tiếng nói dựa trên HMM với đặc trưng MFCC 66
3 1 Trường độ nguyên âm trong kết hợp với thanh điệu 72
3 2 Trường độ nguyên âm trong kết hợp với thanh điệu 73
3 3 Vùng tần số của các nguyên âm 76
3 4 Vùng tần số formant trung bình của các nguyên âm kết hợp với thanh điệu 76
3 5 Vùng tần số formant trung bình của các nguyên âm kết hợp với thanh điệu 77
3 6 Biểu diễn các 6 thanh điệu tiếng Việt bằng các lệnh thanh điệu 83
3 7 Giá trị trung bình và độ lệch chuẩn của các tham số Fujisaki cho các thanh điệu 84 3 8 Bảng độ dài âm vị không tính ngữ cảnh 87
3 9 Độ dài nguyên âm a ràng buộc bởi phụ âm đầu, âm cuối 88
3 10 Bảng độ dài âm cuối ràng buộc bởi nguyên âm 88
3 11 Bảng độ dài phụ âm đầu ràng buộc bởi nguyên âm 89
3 12 Bảng độ dài thanh điệu theo âm tiết ràng buộc bởi âm kết thúc 90
3 13 Bảng tham số đầu vào cho mô hình CART 95
4 1 Thuật toán nhận dạng tiếng nói dựa trên HMM với đặc trưng MFCC 109
4 2 Một số dạng của phép hiệu chỉnh tần số 111
4 3 Bảng kết quả thực nghiệm kiểm tra 116
4 4 Bảng kết quả giải mã tên trường của người đọc 117
4 5 Bảng kết quả thực nghiệm kiểm tra 123
4 6 Bảng cấu hình GAIN kết hợp bộ lọc thông thấp 126
4 7 Khẩu lệnh điều khiển xe lăn 128
Trang 124 8 Khẩu lệnh điều khiển robot hút bụi 129
4 9 Các bước của chương trình thử nghiệm trên máy tính 130
5 1 Phân chia nguyên âm tiếng Việt theo độ nâng của lưỡi 165
5 2 Bảng phiên âm tiếng Việt 167
Trang 13Danh sách hình vẽ
1 1 Hệ thống TTS tổng quát 10
1 2 Xử lý ngôn điệu tiếng Việt 12
1 3 Sơ đồ hệ thống tổng hợp ghép nối 17
1 4 Tổng hợp tiếng nói theo HMM [71] 20
1 5 Mô hình VnSpeech tổng hợp tiếng Việt dựa vào formant 21
1.6 Mô hình VoS tổng hợp ghép nối âm tiết và cụm từ 22
1.7 Mô hình hệ thống TTS dựa trên mô hình Markov ẩn 23
1.8 Cụm từ ”âm tiết tiếng Việt ” thể hiện trên sóng âm 26
1.9 Biểu đồ thanh điệu điển hình 28
1.10 Đường F0 của thanh ngang 29
1.11 Đường F0 của thanh ngã 29
1.12 Sơ đồ mô hình Fujisaki 33
1.13 Đường nét của thành phần trọng âm Gp(t) 34
1.14 Đường nét của thành phần trọng âm Ga(t) 35
1.15 Trình bày biểu diễn sơ đồ F0, mối liên hệ sự kiện ngữ điệu đoạn trong mô hình Tilt 36
1.16 Cách phân tích các tham số trong mô hình Tilt 37
1.17 Liệt kê các kiểu hệ thống nhận dạng tiếng nói 39
1.18 Các bước rút trích đặc trưng MFCC từ tín hiệu âm thanh 41
1 19 Chi tiết bước trích chọn MFCC 41
1 20 MFCC chuẩn 42
1 21 MFCC đã biến đổi 42
1 22 Mô hình mạng lai ghép HMM/ANN 43
2 1 “Men tường” thu âm khi bật động cơ hút bụi 46
2 2 Tiếng nói được lọc 46
2 3 Quá trình hình thành tiếng nói nhiễu 47
Trang 142 4 Nhiễu hình thành do hướng và âm thanh phản hồi 47
2 5 Nhiễu khuyếch tán 48
2 6 Đi xoắn ốc” thu âm khi robot hút bụi đang di chuyển 49
2 7 Tiếng nói được lọc 49
2 8 Sơ đồ khối cho hai thuật toán SS và WF 50
2 9 Các băng lọc dạng tam giác 51
2 10 Trích chọn đặc trưng MFCC 51
2 11 Cộng xếp chồng các đoạn tín hiệu 56
2 12 Ghép nối 2 diphone 58
2 13 Một mô hình Markov ẩn với sáu trạng thái 66
3 1 Sơ đồ khối chung của quá trình huấn luyện và phân lớp các đường thanh điệu 69 3 2 Thanh không dấu (âm a) 79
3 3 Thanh huyền được cách điệu từ từ một dãy các giá trị F0 đo được 79
3 4 Thanh sắc được cách điệu từ một dãy các giá trị F0 đo được 80
3 5 Thanh nặng được cách điệu từ các giá trị F0 đo được 80
3 6 Thanh hỏi được cách điệu từ một dãy giá trị F0 đo được 80
3 7 Biên tập đường F0 của dấu ngã và tổng hợp dấu ngã 82
4 1 Cách tuyến tính hóa đường F0 từng phân đoạn 106
4 2 Sơ đồ nhận dạng thanh điệu tiếng Việt trên tiếng nói rời rạc 107
4 3 Hiệu chỉnh tần số và trích chọn đặc trưng MFCC 110
Trang 15MỞ ĐẦU
1 Tính cấp thiết của đề tài
Ngày nay, với sự bùng nổ của xã hội thông tin, con người không còn chỉ có nhu cầu giao tiếp với nhau nữa mà còn cần giao tiếp với những thiết bị điện tử Hình thức giao tiếp người – máy thông qua ngôn ngữ tự nhiên sẽ đem lại nhiều ứng dụng, góp phần giải phóng sức lao động của con người Chính vì vậy, vai trò của nhận dạng, tổng hợp tiếng nói có tầm quan trọng đặc biệt liên quan đến quá trình phát triển của văn minh nhân loại Các ứng dụng nhận dạng và tổng hợp tiếng nói như Dragon của LH, Viavoice, Google voice search, Siri của Apple v.v…ngày càng trở nên thông dụng và hữu ích trong cuộc sống
Về các hệ thống tổng hợp tiếng nói, hiện nay đã có nhiều phương pháp tổng hợp được nghiên cứu và ứng dụng trong thực tế như: tổng hợp theo cấu âm, tổng hợp bằng ghép nối, cách điệu hóa đường F0 và hiện tượng ngôn điệu [23][25][27], tổng hợp theo phương pháp thống kê dựa trên HMM [18][71][72] … Tuy nhiên, vấn đề tổng hợp giọng tự nhiên cho tới nay vẫn là một vấn đề mở, ngay cả trong các ngôn ngữ châu Âu thông dụng như tiếng Anh Bởi vì để tổng hợp được giọng tự nhiên đòi hỏi rất nhiều yếu tố từ việc xử lý các đặc trưng tín hiệu, hiện tượng ngôn điệu và ngữ cảnh ứng dụng (như trạng thái cảm xúc…) v.v…
Các hệ thống nhận dạng tiếng nói thường sử dụng các kỹ thuật học máy truyền thống như mạng nơ ron, mô hình Markov ẩn (HMM), chiến thuật tìm kiếm dựa trên quy hoạch động, các mô hình này có tính khái quát cao được ứng dụng ở nhiều lĩnh vực ngoài nhận dạng và tổng hợp tiếng nói Để tăng được chất lượng nhận dạng tiếng nói các hệ thống nhận dạng cần phải bổ sung các phép tiền xử lý tín hiệu tiếng nói, các phép trích chọn đặc trưng tiếng nói như xử lý giảm thiểu sự sai lệch về phổ giữa đặc trưng tiếng nói của tập giọng nói người được huấn luyện và giọng nói của người sử dụng hệ thống [26][50] (ứng dụng trong các hệ thống nhận dạng độc lập người nói)
Trang 16Lọc nhiễu tiếng nói [28][58], trích chọn đặc trưng [35][36][46], tích hợp đặc trưng ngôn điệu [16]…
Hai môi trường nền phổ biến cho các hệ thống nhận dạng và tổng hợp tiếng nói là server hoặc nhúng (các ứng dụng tiếng nói cho điều khiển thiết bị, nhúng v.v…), các môi trường này có tài nguyên lưu trữ và tính toán khác nhau, điều đó dẫn đến các tiếp cận khác nhau trong việc cân bằng giữa chất lượng nhận dạng tổng hợp tiếng nói và sử dụng tài nguyên (lưu trữ, tính toán và điện năng tiêu thụ), thời gian thu thập mẫu huấn luyện v.v…Môi trường nhúng có tầm quan trọng đặc biệt, được tập trung nghiên cứu phát triển nhiều trong thời gian gần đây do các thiết bị nhúng hầu hết không trang bị thiết bị nhập liệu như bàn phím và màn hình cảm ứng, giao tiếp bằng tiếng nói thể hiện hình thức tương tác tự nhiên, tuy vậy các hệ thống này đòi hỏi phải tối ưu rất nhiều so với quy trình nhận dạng tổng hợp tiếng nói nói chung [13][47][52]
Nhận dạng và xử lý tiếng Việt (ngôn ngữ và tiếng nói) là một trong những mục tiêu cơ bản của phát triển và ứng dụng công nghệ thông tin ở Việt Nam do sự khác biệt
về bản chất của hệ thống âm tiết, ngữ pháp và hiện tượng thanh điệu nên không thể sử dụng nguyên các hệ thống ứng dụng cho tiếng nước ngoài Hiện nay những nghiên cứu
về đặc trưng tín hiệu, hiện tượng ngôn điệu tiếng Việt mới chỉ đề cập ở mức độ ban đầu
Trong nước đã hình thành nhiều trung tâm nghiên cứu của các Viện nghiên cứu
và các khoa Công nghệ Thông tin của các trường Đại học về xử lý tiếng nói (tiếng Việt) và ngôn ngữ tự nhiên như : Viện Công nghệ Thông tin, Trung tâm Pháp –Việt MICA của Đại học Gronobe và Đại học Bách khoa Hà Nội, Trung tâm SLP của Đại học khoa học tự nhiên Đại học Quốc Gia TP HCM, Viện Công nghệ Bộ Khoa học và Công nghệ v.v
Các kết quả nghiên cứu tập trung vào việc sử dụng, cải tiến các công nghệ nguồn
về Nhận dạng và Tổng hợp tiếng nói của tiếng Anh
Trang 17Phòng thí nghiệm Trí tuệ nhân tạo AILab (Đại học Khoa học tự nhiên TP HCM)
đã thiết kế và xây dựng các hệ thống Nhận dạng và tổng hợp tiếng Việt với nhiều cách tiếp cận khác nhau như tổng hợp ghép nối, tổng hợp dựa trên mô hình HMM
Về ứng dụng cho điều khiển, Viện Hàn lâm Khoa học và Công nghệ Việt Nam, với đề tài “Nghiên cứu thiết kế và chế tạo hệ thống điều khiển bằng tiếng nói tích hợp vào robot hút bụi tự động thông minh”, thực hiện năm 2011-2013[77] đã nghiên cứu phát triển mẫu robot dịch vụ - robot hút bụi điều khiển bằng khẩu lệnh tiếng Việt Viện nghiên cứu Quốc tế MICA (Đại học Bách khoa Hà Nội) đã nghiên cứu một robot hướng dẫn bảo tàng từ giữa năm 2009 và thử nghiệm tại Bảo tàng Dân tộc học Việt Nam Robot có khả năng hiểu một số câu hỏi của khách thăm quan, đồng thời sẽ giới thiệu cho khách thăm quan bằng tiếng nói nhiều thông tin liên quan đến các hiện vật trưng bày v.v…
Chính vì vậy việc đi sâu nghiên cứu các đặc trưng của ngôn ngữ tiếng Việt, khai thác, áp dụng các đặc trưng đó vào các hệ thống nhận dạng, tổng hợp tiếng nói để nâng cao chất lượng tổng hợp và nhận dạng tiếng Việt đang là vấn đề cần thiết nhằm tiến tới xây dựng các ứng dụng phù hợp với đặc thù của ngôn ngữ tiếng Việt, đáp ứng các nhu cầu ứng dụng ngày càng cao của xã hội
Xuất phát từ thực tế và những lý do trên, việc lựa chọn đề tài “Nghiên cứu các đặc trưng tín hiệu và ràng buộc ngôn điệu để nâng cao chất lượng Tổng hợp và Nhận dạng tiếng Việt”, nghiên cứu các đặc trưng tiếng nói phù hợp với đặc thù ngôn ngữ tiếng Việt, các đặc trưng ngữ âm như thanh điệu, trường độ và formant để nâng cao chất lượng Tổng hợp và nhận dạng tiếng Việt trong các ứng dụng giao tiếp người máy
Đề tài này cũng nghiên cứu hướng tới các ứng dụng tương tác điều khiển thiết bị, robot dịch vụ, ứng dụng hỗ trợ người khuyết tật, những ứng dụng mà công nghệ nhận dạng
và tổng hợp tiếng Việt có vai trò quan trọng
Trang 182 Mục tiêu, phạm vi nghiên cứu của luận án
Mục tiêu chính của đề tài là tập trung chủ yếu ở vấn đề về xử lý ngôn điệu và đặc trưng tín hiệu để nâng cao chất lượng tổng hợp và nhận dạng tiếng Việt
Các hiện tượng ngôn điệu có thể là đường F0, trường độ và âm lượng của âm tiết hoặc từ đa âm tiết trong ngữ cảnh câu Nghiên cứu về các ràng buộc ngôn điệu cho tổng hợp tiếng Việt còn ít được đề cập tới, trong khi để đạt được độ tự nhiên cao của tiếng nói tổng hợp cũng như để tăng độ chính xác của các hệ thống nhận dạng tiếng nói
(nhận dạng khẩu lệnh, nhận dạng tên, nhận dạng đối thoại v.v…) đều đòi hỏi phải tích
hợp các đặc trưng ngôn điệu của tiếng nói trong ngữ lưu và trong môi trường sử dụng thực tế của tiếng nói Ngoài phương pháp học ngôn điệu dựa trên các mô hình thống
kê, các tác giả của Viện Ứng dụng Công nghệ, Đại học Quốc gia TP HCM cũng đã giới thiệu một hệ thống tổng hợp tiếng Việt VOS với giọng đọc gần tiếng nói tự nhiên dựa trên tiếp cận kiểu kho ngữ liệu (corpus-based), mô hình này đòi hỏi rất nhiều dữ liệu được gán nhãn (dựa trên công nghệ phân đoạn tự động câu tiếng nói thành các đơn vị tiếng nói kết hợp với điều chỉnh tay) và chỉ phù hợp với ứng dụng cho môi trường server, bên cạnh đó tiếp cận này cũng có điểm hạn chế là đọc không chuẩn các ngữ đoạn ít thông dụng
Nghiên cứu các ảnh hưởng của hiện tượng ngôn điệu tiếng Việt như thanh điệu, các tần số formant và trường độ âm tiết trong các hệ thống nhận dạng tiếng Việt là một vấn đề quan trọng nhưng hiện tại ít được đề cập tới trong các công trình nghiên cứu về
xử lý âm thanh tiếng Việt Các hệ thống nhận dạng tiếng Việt dựa trên HMM thường dựa trên đặc trưng chuẩn MFCC Khi ứng dụng thuật toán nhận dạng HMM với các đặc trưng MFCC cơ sở cho việc nhận dạng tiếng nói liên tục không phụ thuộc người nói, hệ thống thường suy giảm độ chính xác với những người nói có có đặc trưng giọng nói không phù hợp với những mẫu giọng được sử dụng để huấn luyện mô hình HMM Xuất phát từ mục tiêu trên, phạm vi nghiên cứu của đề tài tập trung vào các vấn
đề sau:
Trang 19 Nghiên cứu các mô hình dự báo các hiện tượng ngôn điệu như trường độ, âm lượng, thanh điệu của các âm tiết tiếng Việt trong ngữ lưu, tích hợp trong các hệ thống tổng hợp tiếng Việt, tối ưu hiệu quả sử dụng tài nguyên lưu trữ và tính toán ứng dụng cho
hệ thống nhúng
Nghiên cứu các phương pháp giảm thiểu sự sai lệch về cấu âm, phổ của tập giọng nói huấn luyện và giọng của người sử dụng dựa trên đặc trưng ngữ âm tiếng Việt để tăng độ chính xác nhận dạng tiếng nói cho các hệ thống nhận dạng tiếng Việt độc lập người nói
Đối tượng nghiên cứu của đề tài là:
Các mô hình học máy như HMM, CART
Các đặc trưng tiếng nói (MFCC, F0, formant, VTL v.v …)
Mô hình biểu diễn, cách điệu đường F0, mô hình xử lý nhiễu, cân bằng tần số v.v…
Phương pháp tổng hợp ghép nối
Phép chuẩn hóa VTLN cho các hệ thống nhận dạng tiếng nói độc lập người nói
3 Phương pháp và nội dung nghiên cứu
Phương pháp luận trong nghiên cứu của luận án là kết hợp giữa nghiên cứu lý thuyết và thực nghiệm Các tư liệu và thông tin liên quan chủ yếu được thu thập, tổng hợp từ các nguồn tạp chí khoa học chuyên ngành trong và ngoài nước, qua các buổi seminar hoặc tham gia báo cáo tại các hội thảo khoa học, qua trao đổi với thầy hướng dẫn và các đồng nghiệp cùng lĩnh vực nghiên cứu v.v…Tổng hợp các thông tin liên quan, lựa chọn các cách tiếp cận đã được áp dụng thành công, tiến hành thử nghiệm với tiếng Việt, đánh giá kết quả, từ đó sẽ tiến hành nghiên cứu sâu hơn về giải pháp cải tiến có thể để phát hiện các quy luật, ràng buộc cơ bản của đặc trưng ngôn điệu tiếng Việt cho tổng hợp và nhận dạng tiếng Việt
Cấu trúc luận án gồm: phần mở đầu, 4 chương nội dung, kết luận, danh mục tài liệu tham khảo và phụ lục
Chương 1: Tổng quan về tổng hợp và nhận dạng tiếng nói
Trang 20Chương này trình bày khái quát về tổng hợp và nhận dạng tiếng nói dựa trên phương pháp Corpus-based theo cả hai phương pháp là chọn đơn vị để ghép nối và mô hình tổng hợp dựa trên HMM cho vấn đề tổng hợp tiếng nói và mô hình HMM cho vấn
đề nhận dạng tiếng nói Chương này còn phân tích một số hệ thống tổng hợp và nhận dạng tiếng nói cũng như mô hình Fujisaki để tổng hợp đường F0
Chương 2: Xử lý tiếng nói và các mô hình học máy
Chương này trình bày các công cụ cơ bản trong tiền xử lý tiếng nói, trích chọn đặc trưng tiếng nói, đặc trưng ngôn điệu và các mô hình học máy cho vấn đề dự báo, học và nhận dạng tiếng nói
Chương 3 Dự báo trường độ, âm lượng và tổng hợp thanh điệu tiếng Việt
Chương này trình bày một số kết quả của luận án về tổng hợp tiếng Việt:
Nghiên cứu về các mô hình ngôn điệu, phân tích đặc trưng tiếng Việt
Thanh điệu
Dự báo trường độ và âm lượng của âm tiết trong ngữ lưu
Tổng hợp tiếng Việt trên các hệ thống tài nguyên hạn chế
Chương 4 Kết hợp tham số cấu âm, formant và thanh điệu để nâng cao chất lượng nhận dạng tiếng Việt
Nghiên cứu về nhận dạng thanh điệu tiếng Việt
Nghiên cứu đưa đặc trưng thanh điệu, tham số formant và tham số cấu âm của người nói để nâng cao chất lượng nhận dạng tiếng Việt
Nhận dạng tiếng Việt trên các hệ thống tài nguyên hạn chế
4 Kết quả đạt được của luận án
Các kết quả đạt được của luận án đã được công bố trong 2 bài báo tại chí chuyên ngành năm 2011, 3 bài báo cáo đăng tại kỷ yếu hội nghị trong nước năm 2012, 2014 Ngoài ra nghiên cứu sinh cũng là đồng tác giả của một số báo cáo tại hội nghị trong
Trang 21nước, nước ngoài thời gian trước khi là nghiên cứu sinh Những kết quả đạt được của luận án có thể tóm tắt như sau:
Bài tạp chí
“Tổ hợp đường F0 và VTLN cho nhận dạng tên riêng tiếng Việt“, Tạp chí Tin học
và Điều khiển học”, trang 273 – 282, Tập 27, số 3, 2011 Bài báo trình bày nghiên
cứu và thử nghiệm hiệu ứng của tổ hợp đặc trưng F0 và chuẩn hóa độ dài bộ phận cấu âm (VTLN, vocal tract length normalisation) để nâng cao chất lượng nhận dạng tiếng tên tiếng Việt trong mô hình nhận dạng tiếng nói phát âm liên tục dựa trên HMM Các kết quả của bài báo chứng tỏ rằng hệ nhận dạng tiếng nói độc lập người nói với đặc trưng tiếng nói dựa trên đường F0 và đặc trưng MFCC biến đổi theo VTLN đã chuẩn hóa tốt biến thiên tần số của người nói mới và cải tiến được kết quả nhận dạng
“Dự báo các giá trị ngôn điệu tiếng Việt cho tiếng nói tổng hợp”, Tạp chí Công nghệ Thông tin và Truyền thông, Tập V-1 số 6(26), 09-2011, trang 236-241 Bài
báo trình bày các kết quả nghiên cứu và thử nghiệm tích hợp các giá trị ngôn điệu tiếng Việt được dự báo như trường độ và âm lượng cho câu tiếng nói tổng hợp sử
dụng mô hình học thống kê CART
Các kết quả trình bày trong bài báo chứng tỏ việc đưa giá trị ngôn điệu được dự báo từ văn bản vào trong bộ tổng hợp tiếng Việt được thống kê chi tiết cho cơ sở dữ liệu âm huấn luyện mô hình kết hợp các ngữ cảnh mức âm vị khác nhau đã cải tiến được chất lượng dự báo các tham số ngôn điệu như trường độ và âm lượng, dẫn đến thay đổi đáng kể chất lượng câu tiếng nói được tổng hợp
Kỷ yếu hội thảo
“Trích chọn đặc trưng âm học tiếng Việt dựa trên F0 và biến thể của MFCC với ước lượng VTLN từ các giá trị formant” Hội nghị quốc gia lần thứ VII "Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin", FAIR 2014 Bài báo cáo trình bày
Trang 22ứng dụng phương pháp ước lượng tham số VTLN dựa trên bộ phát hiện tiếng nói
và các giá trị formant thay thế cho phương pháp ML (Maximum likelihood) để tối
ưu hóa về tính toán khi xây dựng một hệ thống nhận dạng tên tiếng Việt
“Tối ưu lưu trữ và tính toán tín hiệu tiếng nói cho hệ tổng hợp Tiếng Việt dựa trên ghép nối”, Hội nghị quốc gia lần thứ VII "Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin", FAIR 2014 Bài báo cáo trình bày kết quả xây dựng hệ tổng hợp
tiếng Việt theo phương pháp ghép nối âm cơ bản trên môi trường chip với tài nguyên hạn chế
“Thiết kế hệ thống nhận dạng khẩu lệnh tiếng Việt điều khiển thiết bị tự hành trên nền các vi hệ thống điện năng thấp với phép chuẩn hóa VTLN – MFCC”, hội nghị VCM-2012 Bài báo cáo trình bày thiết kế và thử nghiệm hệ thống nhận dạng khẩu lệnh tiếng Việt để điều khiển thiết bị tự hành, tích hợp hoàn toàn trong một chip vi
hệ thống điện năng thấp như họ PSoC5 lõi (ARMCortex M3 chip, 64KB RAM, 256KB Flash) hoặc họ OMAP3 (lõi ARM7,128MB RAM), được phát triển dựa trên mô hình nhận dạng Markov ẩn kết hợp mạng nơ ron dự báo
Các công bố trước thời gian làm nghiên cứu sinh
Phân lớp các đường thanh điệu trong ngữ cảnh câu, kỷ yếu Hội thảo Quốc gia, NXB KHKT, 2006, tr 279-284
Nhận dạng thanh điệu tiếng Việt trên tiếng nói rời rạc phụ thuộc người nói, kỷ yếu Hội thảo Quốc gia, NXB KH&KT, tr 443-449, 2006
Sử dụng mô hình Fujisaki và mạng nơ ron trong nhận dạng và tổng hợp thanh điệu
tiếng Việt" (2006), kỷ yếu hội thảo: “Nghiên cứu cơ bản và ứng dụng công nghệ
thông tin FAIR2005”, Thành phố Hồ Chí Minh tháng 9 năm 2005, NXB KHKT,
Hà Nội
Toward integrating the Fujisaki model into Vietnamese TTS, proceeding of the
International Conference on Spoken Language Processing, Korea 2004
Trang 23 Quantitative Analysis and Synthesis of Syllabic Tones in Vietnamese,” Proc in
EUROSPEECH, Geneva, pages 177-180, 2004
Thiết kế các hệ thống nhận dạng tiếng Việt trong thời gian thực, kỷ yếu báo cáo hội nghị FAIR nghiên cứu cơ bản và ứng dụng công nghệ thông tin, trang 349 –
357, 2003
Development of Automatic Data Entry Systems with Pattern Recognition Techniques, International Symposium on Knowledge Creation in Economics,Enviromental and Societal Systems, JAIST, Kanazawa, pp 72-78
Vietnamese text normalize and processing, Proceedings of National IT Conference
Trang 24CHƯƠNG 1 TỔNG QUAN VỀ TỔNG HỢP VÀ
NHẬN DẠNG TIẾNG NÓI 1.1 Tổng hợp tiếng nói
Tổng hợp tiếng nói là một bộ môn khoa học nhằm nghiên cứu và xây dựng các công nghệ để tạo ra âm thanh tiếng nói từ máy giống như tiếng nói của con người Trong những năm gần đây tiếng nói tổng hợp đã trải qua chặng đường khá dài, việc ứng dụng tổng hợp tiếng nói vào thực tiễn đã trở nên phổ biến Tuy nhiên, chất lượng âm thanh và độ tự nhiên của tiếng nói tổng hợp cho đến nay vẫn còn là những vấn đề mở
Hình 1 1 Hệ thống TTS tổng quát
Nói chung quá trình Tổng hợp tiếng nói bao gồm các giai đoạn chính:
i)Chuẩn hóa văn bản và phân tích câu - xử lý ngôn ngữ tự nhiên
ii) Chuyển văn bản sang đơn vị tiếng nói
iii) Dự báo ngôn điệu
iv) Sinh tiếng nói
Trang 251.1.1 Chuẩn hóa văn bản và phân tích câu – xử lý ngôn ngữ tự nhiên
Chuẩn hoá văn bản là quá trình tiền xử lý văn bản trong thiết lập đầu vào của hệ thống TTS, mục đích của bước này là phân tích văn bản và diễn giải được văn bản đầu vào thành một chuỗi văn bản để máy có thể hiểu và đọc đúng
Quá trình chuẩn hóa văn bản thường không đơn giản Lý do là các văn bản thường chứa nhiều từ đồng tự, số và từ viết tắt, đòi hỏi phải hiểu ngữ cảnh để diễn đạt lại trong văn bản đầy đủ Do trong văn bản có khá nhiều từ phi chữ số như đại lượng, ngày tháng, chữ viết tắt, có các từ tiếng Anh xuất hiện xen kẽ trong văn bản tiếng Việt v.v…
Quá trình này bao gồm ba bước chính:
- Tiền xử lý: mô đun tiền xử lý tổ chức các câu đầu vào thành dãy các từ Nó xác định các số, các từ viết tắt, tên riêng, thành ngữ và biến đổi chúng thành dạng văn bản đầy đủ khi cần đến
- Phân tích hình thái: nhiệm vụ cung cấp mọi khả năng loại từ của một từ riêng lẻ
- Phân tích ngữ cảnh: xét các từ trong ngữ cảnh và từ loại đi với chúng trong từng ngữ cảnh đó Quá trình này phải xem xét các từ trong ngữ cảnh để phiên âm phù hợp nhất với ngữ cảnh trong câu Xử lý các khả năng xuất hiện sự nhập nhằng về mặt ngữ nghĩa của từ hiện tại và các từ lân cận với nó
1.1.2 Chuyển văn bản sang đơn vị tiếng nói
Bước này thực hiện dựa trên từ điển phát âm hay theo quy luật ngôn ngữ Quá trình chuyển đổi “phiên âm” này rất quan trọng, chiếm tới hơn 30% khối lượng công việc cho phần lớn các ngôn ngữ và chữ viết không phải là loại chữ viết ghi âm - loại chữ viết nhằm tái hiện lại chuỗi âm thanh nối tiếp nhau trong từ (chữ viết của tiếng Việt là loại chữ viết ghi âm, đọc và viết là như nhau) [9]
1.1.3 Dự báo ngôn điệu
Trong tổng hợp tiếng nói, việc xử lý ngữ điệu được thực hiện trên các yếu tố vật
lý của tiếng nói bao gồm: tần số cơ bản F0, cường độ và trường độ Các hệ thống tổng
Trang 26hợp tiếng nói hầu hết tập trung vào mục đích là tạo ra giọng nói với ngữ điệu bình thường, có sự nhấn giọng hợp lý, nhịp điệu nhịp nhàng tự nhiên và bỏ qua các hình thái cảm xúc của người nói Dựa vào một CSDL ngữ âm đã được gán nhãn (từng câu văn bản đã được phân tích thành các âm vị, đặc trưng ngôn ngữ và tham số tín hiệu tương
ứng trong phát ngôn tiếng nói) như: âm vị hiện tại, âm vị bên trái, bên phải, vị trí của
âm vị trong âm tiết, thanh điệu, số âm tiết của ngữ đoạn v.v ta có thể dự đoán được các
tham số ngôn điệu
Hình 1 2 Xử lý ngôn điệu tiếng Việt
1.1.4 Các phương pháp tổng hợp tiếng nói
Hai tính chất quan trọng của chất lượng hệ thống tổng hợp giọng nói là mức độ tự nhiên và mức độ dễ nghe Có ba công nghệ chính được dùng là tổng hợp ghép nối,
tổng hợp cộng hưởng tần số (Tổng hợp theo cấu âm, tổng hợp formant theo quy luật),
và tổng hợp theo HMM
Trang 27Trong phần này, luận án sẽ trình bày khái quát một số phương pháp tổng hợp tiếng nói hiện nay và những đánh giá sơ bộ về từng phương pháp (xem [11])
1.1.4.1 Tổng hợp theo cấu âm
Tổng hợp theo cấu âm sử dụng mô hình phỏng sinh học Trong mô hình này, tiếng nói được đặc trưng không chỉ bằng tín hiệu âm thanh mà cả bằng vị trí của các cơ quan cấu âm, sự tham gia của khoang mũi, áp suất không khí trong phổi, lực căng của dây thanh Nó bao gồm hoạt động tương tác phi tuyến giữa nguồn kích (chấn động dây thanh hoặc hỗn loạn không khí) và trở kháng đầu vào thay đổi theo thời gian của ống thanh Phương pháp này còn được gọi là tổng hợp theo mô hình hệ thống
Để xây dựng đặc trưng âm thanh của cơ quan phát âm, hệ thống phải tham số hoá được hình khối ống thanh và ống mũi, phải lựa chọn được một mô hình để mô tả sự lan truyền của sóng trong ống thanh và mô hình hoá nguồn âm (chấn động dây thanh, dòng không khí hỗn loạn) và sự tương tác của nó với ống thanh Phương pháp này hiện nay chỉ hình thành trên lý thuyết, thực tế ngành khoa học phỏng sinh chưa có đủ thông tin đầy đủ để mô phỏng theo cấu âm
Mô hình ống thanh:
Cho các âm không phải là âm mũi ta chỉ cần xem xét ống thanh có thiết diện biến thiên từ thanh môn cho tới môi Ống thanh thay đổi liên tục, hình dáng của chúng phải được xác định trong khoảng thời gian vài mini giây một lần Hình không gian của ống thanh được mô tả theo vị trí của các cơ quan phát âm, lưỡi, môi, hàm v.v…
Mô hình được ứng dụng nhiều nhất là mô hình của Mermelstein với các tham số
mô tả vị trí cơ quan cấu âm.Từ mô tả cấu âm, có thể tính được các số liệu cho hàm mặt cắt ngang ống thanh A(x) là hàm số phụ thuộc khoảng cách đọc theo ống thanh từ thanh môn cho tới môi
Lan truyền sóng trong ống thanh:
Trong nhiều cách tính đặc trưng truyền sóng trong ống thanh thì phương pháp ma trận chuỗi được áp dụng nhiều nhất Ma trận chuỗi (còn gọi là ma trận ABCD) thể hiện
Trang 28ống thanh ở miền tần số Với bất kỳ phần nào của ống thanh hay của ống mũi ta có:
in out
out
U
P K U
P D C
B A U
P
Ma trận chuỗi K có thể thể hiện bất kỳ phần nào của bất kỳ độ dài hay mặt phẳng cắt ngang nào của ống thanh Tính các phần tử của K rất đơn giản nên ống có mặt cắt không đổi
Mô hình nguồn kích thanh
Nguồn kích thanh cho tổng hợp cấu âm sử dụng mô hình hai khối lượng của Ishizaka và Flanagan
Nguyên lý của tổng hợp cấu âm:
Thuật toán tổng hợp theo mô hình cấu âm gồm các bước như nhau Từ đặc tả về các tham số cấu âm, ta tính được ma trận chuỗi từ thanh môn đến môi Sau đó tính hàm truyền và trở kháng đầu vào từ các phần tử A,B,C,D của ma trận Biến đổi Fourier ngược hàm truyền H và tỉ số trở kháng ta nhận được các giá trị tương ứng ở miền thời gian Sau đó tính áp suất p = P5-P1 Giá trị áp suất này tác động vào bộ cộng hưởng điều khiển chuyển động dây thanh của mô hình hai khối lượng tạo ra âm thanh tiếng nói
Như vậy, ngoài việc mô hình hoá các cơ quan phát âm, tổng hợp theo cấu âm cần phải xây dựng hai loại quy luật ngôn ngữ và luật vật lý Luật vật lý mô tả như ở trên xác định ánh xạ cấu hình ống thanh cụ thể cho tín hiệu âm thanh, xác định mối quan hệ giữa hoạt động cấu âm và tín hiệu âm thanh tiếng nói Còn luật ngôn ngữ xác định mối quan hệ giữa mô tả ngữ âm và các hoạt động cấu âm Thông thường, luật ngôn ngữ được thực hiện cho từng âm vị Khi cấu âm cho một đơn vị, luật này xác định thời điểm các cơ quan chuyển động, tốc độ chuyển động và mối quan hệ giữa cơ quan này
và cơ quan khác Vì phát ra một âm vị không nhất thiết phải có sự chuyển ðộng của tất
cả các cõ quan nên trong cùng một thời điểm cõ quan phát âm có thể được xác định
(1.1)
Trang 29cho âm vị khác Theo cách này thì tổng hợp theo cấu âm có thể tạo ra các giải pháp hoàn hảo cho các trường hợp ngữ âm khó như cụm phụ âm, nguyên âm ba
Mô hình cấu âm và hai luật ngôn ngữ, vật lý này quyết định chất lượng tiếng nói tổng hợp Hiện nay, chúng ta chưa có kiến thức đầy đủ về từng chi tiết của các loại luật, mô hình cấu âm cũng còn đơn giản vì vậy chất lượng tiếng nói tổng hợp theo cấu
âm còn rất thấp Phương pháp tổng hợp cấu âm hiện nay chỉ dừng ở trong pḥng thí nghiệm hay sản phẩm mẫu mà chưa được ứng dụng thực tế Các bộ tổng hợp theo cấu
âm là công cụ lý tưởng để nghiên cứu về cấu âm của tiếng nói và hứa hẹn về lâu dài là giải pháp hoàn thiện nhất để tổng hợp ra âm thanh tiếng nói giống như tiếng nói tự nhiên của con người
1.1.4.2 Tổng hợp formant theo quy luật
Quy trình để xây dựng bộ tổng hợp formant theo luật gồm hai quá trình riêng biệt
là quá trình phân tích âm thanh tiếng nói để tìm ra các quy luật và tổng hợp lại tiếng nói dựa vào các quy luật này
Phân tích tìm quy luật:
Quá trình phân tích được tiến hành trên cơ sở dữ liệu tiếng nói tự nhiên chủ yếu bao gồm các âm tiết có dạng C-V (phụ âm – nguyên âm) hay C-V-C (phụ âm – nguyên
âm – phụ âm) của nhiều giọng nói Cơ sở dữ liệu này tốt nhất phải bao phủ được tất cả các hình thái ngữ âm của một ngôn ngữ
Thuật toán dự đoán tuyến tính LPC, được sử dụng trong quá tŕnh phân tích phổ để xác định mẫu của tần số formant, băng thông formant, tần số âm cơ bản F0 của tín hiệu tiếng nói Tần số từ F1 đến F5 và băng thông W1 đến W5 ở phần ổn định của các âm tố được lưu giữ dưới dạng bảng Đó là các giá trị “đích” để tạo ra một âm vị
Trong tiếng nói, phần mang thông tin được quan tâm nghiên cứu nhiều hơn là các phần chuyển tiếp giữa các âm vị từ nguyên âm sang phụ âm và ngược lại (C-V và V-C) Tần số formant chuyển tiếp từ âm vị nọ sang âm vị kia được mô hình hoá và tạo thành các quy luật tổng hợp cho kĩ thuật tổng hợp formant Như vậy về cơ bản các quá
Trang 30trình phân tích tìm luật để mô tả sự thay đổi liên tục phổ của một ngữ lưu bằng các formant và sự chuyển tiếp của các formant từ âm vị này sang âm vị khác Hệ thống quy luật bao gồm:
- Luật để xác định vị trí đích các formant của mỗi âm vị trong một ngữ lưu cũng như thời gian tồn tại của các vị trí đó
- Luật nhằm làm trơn các formant đích
- Luật để chuyển đổi các hàm thời giam thành dạng sóng thanh
Hệ thống tổng hợp formant sẽ căn cứ vào các tham số điều khiển từ bảng tra cứu và cùng với thuật toán được xây dựng cho sự chuyển tiếp là các tín hiệu điều khiển bộ tổng hợp để tạo các âm đoạn tính.Thiết kế của bộ tổng hợp formant được dựa trên mô hình tương tự đầu cuối tạo tiếng nói do Frant đề xuất.Tổng hợp formant được phân loại theo cấu hình mắc các bộ cộng hưởng song song hay nối tiếp Hàm truyền của bộ tổng hợp khi mắc nối tiếp bộ cộng hưởng tương tự như hàm truyền ống thanh vì vậy bộ tổng hợp nối tiếp mô hình hoá rất tốt cho các âm hữu thanh Còn bộ tổng hợp với các bộ cộng hưởng mắc song song sẽ tạo ra cho các âm tắc, âm xát và âm mũi một chất lượng
âm thanh tốt hơn
Hiện nay, với những công cụ thích hợp chúng ta hoàn toàn có thể xác định tần số formant cho các âm vị của tiếng Việt Đi theo hướng này có ưu điểm là tiết kiệm được
bộ nhớ, song chất lượng tiếng nói không tự nhiên và phụ thuộc nhiều vào chất lượng của quá trình phân tích tiếng nói của từng ngôn ngữ Phần mềm tổng hợp tiếng Việt [79] đã sử dụng cách tiếp cận này
1.1.4.3 Tổng hợp ghép nối
Tổng hợp ghép nối dựa trên việc ghép nối các đoạn tiếng nói đã ghi âm sẵn Nói chung, tổng hợp ghép nối cho tiếng nói tổng hợp nghe tự nhiên nhất Tuy nhiên, độ tự nhiên của tiếng nói và các kỹ thuật tự động phân đoạn sóng âm thanh đôi khi dẫn đến nghe rõ sự không đều của thiết bị ở đầu ra làm giảm độ tự nhiên Có ba loại tổng hợp
Trang 31ghép nối: tổng hợp chọn đơn vị, tổng hợp diphone (hai nửa của hai âm vị liền nhau) và tổng hợp theo miền [11]
Tổng hợp chọn đơn vị sử dụng CSDL tiếng nói các đơn vị âm cơ bản được ghi sẵn Trong quá trình tạo CSDL, mỗi phát âm được thu âm sẽ được phân thành các âm
vị, âm tiết, hình vị, từ, cụm và các câu riêng Việc phân chia thành các đoạn có thể dùng một số các kỹ thuật như kỹ thuật phân cụm, chương trình nhận dạng, phân đoạn bằng tay sử dụng công cụ xử lý và gán nhãn tiếng nói trực quan Phương pháp này đòi hỏi cơ sơ dữ liệu tiếng thu âm lớn và việc xử lý cơ sở dữ liệu này cũng khá công phu Tổng hợp diphone dùng CSDL tiếng nói nhỏ nhất chứa toàn bộ các diphone xuất hiện trong ngôn ngữ Số lượng diphone phụ thuộc vào cách phiên âm của từng loại ngôn ngữ Chẳng hạn tiếng Tây Ban nha là 800 diphone, tiếng Đức khoảng 2500 diphone, mỗi diphone là duy nhất trong cơ sở dữ liệu Chất lượng tiếng nói tổng hợp thường không tốt bằng tổng hợp chọn đơn vị Ưu điểm của tổng hợp diphone là cơ sở
dữ liệu nhỏ hơn phương pháp tổng hợp ghép nối chọn đơn vị [11]
CSDL tiếng nói mã hóa
Mã hóa tiếng
nói
Mô hình tiếng nói
Tạo dãy đơn
vị
Chọn đơn vị
Giải mã tiếng nói
Ghép nối và hậu
xử lý
Trang 32Tổng hợp theo miền cụ thể là việc ghép các từ và các cụm được ghi sẵn lưu trong CSDL để tạo thành lời nói hoàn chỉnh Ưu điểm tiếng nói tự nhiên, tuy nhiên lại hạn chế về số lượng từ và câu có thể tổng hợp được
Trong ba phương pháp nêu trên, tổng hợp theo cấu âm, tổng hợp formant theo quy luật và tổng hợp ghép nối thì tổng hợp ghép nối mang nhiều tính công nghệ, được quyết định bởi sự phát triển của máy tính So sánh về chất lượng trong ba phương pháp, thì tổng hợp ghép nối hiện nay đã thành công nhất trong việc tạo ra tiếng nói không chỉ nghe hiểu rõ mà đạt được độ tự nhiên gần với tiếng nói của con người hơn
cả Phần lớn các hệ thống tổng hợp chất lượng cao cho các ngôn ngữ có trên thị trường hiện nay đều sử dụng phương pháp tổng hợp ghép nối này
Khi xây dựng một hệ thống tổng hợp ghép nối, tiếng nói chứa tập hợp các đơn vị
âm thanh cơ bản của một ngôn ngữ, thông thường tương ứng với một chuỗi ngắn các
âm vị có lựa chọn được đọc, ghi âm và lưu giữ trong CSDL Các đơn vị âm được lựa chọn, phân tích các tham số đặc trưng và sau đó có thể được mã hoá bằng một phương pháp mã hoá tiếng nói nào đó tạo thành các mẫu cho một đơn vị âm thanh Các mẫu hoặc các tham số phân tích của chúng được lưu giữ lại trong kho dữ liệu đơn vị tổng hợp
Khi tổng hợp một phát ngôn mới, cho trước mô tả ngữ âm của phát ngôn đó, hệ thống sử dụng các quy luật để định vị đơn vị thích hợp, truy xuất chúng ra khỏi kho dữ liệu và ghép nối chúng lại với nhau
Thông thường, một hệ thống tổng hợp ghép nối có ít nhất là một hoặc hai mẫu cho mỗi một đơn vị cơ bản Do các tham số về cao độ tần số cơ bản, độ dài và cường
độ của các đơn vị này rất khác nhau (chúng được trích ra từ tín hiệu tiếng nói trong ngữ cảnh khác nhau) nên khi tổng hợp, hệ thống theo phương pháp tổng hợp ghép nối phải thực hiện hai công việc chính
Một là phải thay đổi các tham số siêu đoạn tính của các đơn vị để tiếng nói tổng hợp thể hiện được ngữ điệu thích hợp như mong muốn
Trang 33 Hai là phải thực hiện việc lựa chọn hay thay đổi các đặc tính của âm đoạn đơn vị tại các biên ghép nối của chúng sao cho việc ghép nối là mịn nhất để đảm bảo chất lượng âm thanh tổng hợp tạo ra gần với tiếng nói tự nhiên
Như vậy chất lượng của một hệ tổng hợp ghép nối được quyết định bởi các yếu tố sau:
Sự lựa chọn tập âm đơn vị cơ bản Trong đó ngữ âm của ngôn ngữ tổng hợp là yếu
tố chính quyết định loại đơn vị cơ bản
Chất lượng âm thanh và mức độ bao phủ các tổ hợp âm đoạn cần thiết cho một ngôn ngữ của CSDL âm
Khả năng cung cấp các tham số về ngữ điệu như đường nét tần số cơ bản cường độ
âm thanh và độ dài các âm cho bộ tổng hợp Các tham số này được tiên đoán trong phần xử lý ngôn ngữ của bộ tổng hợp từ văn bản
Khả năng thay đổi tần số cơ bản F0 và độ dài các đơn vị âm cơ bản phù hợp với ngữ điệu được miêu tả ở đầu vào của bộ tổng hợp mà không ảnh hưởng tới chất lượng cảm thụ của âm đó
Thuật toán ghép nối và mô hình tín hiệu cho phép dễ dàng làm trơn hai điểm ghép nối của các âm đoạn được ghép nối
1.1.4.4 Tổng hợp theo HMM
Hiện nay trên thế giới, thư viện HTS [82] tổng hợp tiếng nói dựa trên HMM đã được nghiên cứu mạnh mẽ và áp dụng tốt cho bài toán tổng hợp tiếng nói chuyên ngành và tổng hợp tiếng nói không hạn chế chủ đề [71][72] với các đặc tính lưu trữ rất nhỏ và dễ thiết lập giọng nói tổng hợp mới
Tổng hợp dựa trên HMM là một phương pháp sử dụng HMM để sinh lại các vector đặc trưng phổ Trong hệ thống này, phổ tần số của giọng nói, tần số cơ bản, và thời gian đều được mô phỏng cùng lúc bởi HMM Dạng sóng của giọng nói được tạo từ
mô hình HMM dựa trên tiêu chí khả thực cực đại [72][82]
Trong tổng hợp tiếng nói dựa trên HMM thì đường F0, dãy mel-cepstrum bao gồm đường năng lượng, trường độ âm vị sinh ra trực tiếp từ các HMM đã huấn luyện
Trang 34từ cây quyết định dựa trên kỹ thuật phân cụm có ngữ cảnh F0 được mô hình hóa bởi các HMM phân bố xác suất trong không gian đa chiều, trường độ được mô hình hóa bằng cách phân bố Gauss nhiều chiều, mỗi chiều là trường độ của một trạng thái của HMM Mel-cepstrum được mô hình hóa bởi HMM Gauss nhiều chiều hoặc HMM phân bố Gauss hỗn hợp nhiều chiều Cây quyết định cho đường F0 và mel-cepstrum được tạo trong mỗi trạng thái của HMM, một cây quyết định được tạo để dự đoán trường độ âm vị Mọi thủ tục huấn luyện được thực hiện một cách tự động
Hình 1 4 Tổng hợp tiếng nói theo HMM [72]
Trang 351.1.5 Các hệ thống tổng hợp tiếng nói tiếng Việt
Bảng 1 1 Bảng so sánh một số sản phẩm tổng hợp tiếng Việt đã công bố
+Giữ được giọng đọc +Đọc câu ngắn rõ ràng
+ Tạo giọng đọc mới nhanh chóng
+Phù hợp ứng dụng nhúng
+Tiếng nói chưa trơn về phổ
+Tốc độ đọc chưa đảm bảo trường độ âm tiết trong câu
Sản phẩm của đề tài KC.01.0
3, KC.01/06-10
+Bộ đọc màn hình Jaws +Cổng thoại học đường +Đọc trang Web có nội dung đa ngữ Việt - Anh VietTalk Bộ mã
nguồn
mở HTS
+Tiếng nói trơn về phổ +Dự báo tốt được F0 và trường độ âm tiết
+ Tạo giọng đọc mới nhanh
+Phù hợp ứng dụng server
+Không bảo toàn giọng đọc
+Giọng đọc đôi khi bị rè +Đọc câu ngắn chất lượng bị suy giảm
Đề tài cấp Bộ
TT và
TT
+Bộ đọc màn hình Jaws +Hệ báo nói +Đề tài KC.01.DA01/11-15
vị
+ Tiếng nói khá tự nhiên
+ Bảo toàn giọng đọc + Phù hợp ứg dụng server
+Dung lượg lớn
+Tạo giọng đọc mới lâu +Có thể có những câu chưa được phủ bởi kho ngữ liệu
Hình 1 5 Mô hình VnSpeech tổng hợp tiếng Việt dựa vào formant
Trang 36Tại Việt Nam, phương pháp tổng hợp formant cũng đã có vài công trình nghiên cứu và đã có các kết quả dựa vào ứng dụng thực tế Chẳng hạn, phần mềm “đọc văn bản tiếng Việt” Phần mềm tổng hợp tiếng nói tiếng Việt VnSpeech (xem hình 1.5), tổng hợp tiếng nói theo huớng tiếp cận này Hệ thống tổng hợp formant có thể đọc được hầu hết các âm tiết tiếng Việt ở mức nghe rõ, tuy vậynó có nhược diểm là mức độ
tự nhiên không cao
Do hạn chế về chất lượng của tiếng nói tổng hợp dựa vào formant, nên phương pháp tổng hợp ghép nối được tập trung đầu tư, nghiên cứu Truớc đây, đã có phần mềm V-Talk của Viện Khoa học kỹ thuật Bưu diện, phát triển dựa trên tổng hợp ghép nối diphone (phụ âm dầu và phần vần) Hiện nay, có các phần mềm VnVoice (Viện Công nghệ thông tin, Viện Hàn lâm Khoa học và Công nghệ Việt Nam) theo hướng ghép nối bán âm tiết; Phần mềm nhu liệu đọc tiếng Việt VietVoice và một số sản phẩm tổng hợp tiếng Việt bằng cách ghép âm tiết như phần mềm đọc tiếng Việt Sao Mai; Phần mềm VietSound do Ðại học Bách Khoa TP Hồ Chí Minh phát triển, phần mềm này kết hợp
sử dụng phương pháp ghép nối diphone và phương pháp tổng hợp formant Nghiên cứu của MICA (Ðại học Bách khoa Hà Nội) về tổng hợp tiếng nói dựa trên ghép nối các đơn vị âm thanh không đồng nhất Hệ thống tổng hợp tiếng nói “Tiếng nói phương Nam” (VoS) được phát triển theo hướng kết hợp ghép nối âm tiết và cụm từ [78]
Hình 1.6 Mô hình VoS tổng hợp ghép nối âm tiết và cụm từ
Ở Việt Nam hiện nay, tổng hợp tiếng nói dựa trên HMM (xem hình 1.5) là hướng nghiên cứu mới đang được triển khai ứng dụng cho hệ thống tổng hợp tiếng Việt
Trang 37Truớc đây, năm 2009 đã có đề tài nghiên cứu “Phát triển Engine tổng hợp tiếng Việt (VieTalk) cho nguời khiếm thị”, sử dụng phương pháp này [48][63]
Hình 1.7 Mô hình hệ thống TTS dựa trên mô hình Markov ẩn
Từ nửa cuối năm 2013, Viện nghiên cứu Quốc tế MICA (Ðại học Bách khoa Hà Nội) và Phòng thí nghiệm Trí tuệ nhân tạo AILab (Ðại học Khoa học tự nhiên TP HCM) cũng đang bắt đầu có những nghiên cứu, phát triển hệ thống tổng hợp tiếng Việt tham số thống kê dựa trên HMM [41][66] [67]
Dựa trên các phân tích ở mục 1.3.3 và 1.1.4 và những đặc điểm của các hệ thống TTS tiếng Việt sử dụng các phương pháp khác nhau, luận án đề xuất sử dụng phương pháp tiếp cận tổng hợp tiếng nói tiếng Việt theo phương pháp tổng hợp ghép nối
1.1.6 Các tham số ngôn điệu
Giai điệu lời nói liên kết chặt chẽ với khái niệm “ngôn điệu” Có thể nói ngữ điệu
là sự nâng cao hạ thấp của giọng nói trong câu Tần số cơ bản (F0) là đặc trưng chính của ngữ điệu Khái niệm ngữ điệu (intonation) khác với ngôn điệu (prosody) Ngôn điệu bao gồm cả ngữ điệu Các đặc trưng quan trọng nhất của ngôn điệu và độ đo được trình bày trong bảng dưới đây
Trang 38Bảng 1 2 Các tham số đặc trưng của ngôn điệu
Tần số cơ bản (F0) Cao độ Thanh điệu, ngữ
điệu, độ nhấn Biên độ, Năng
lượng, Cường độ Độ to nhỏ Độ nhấn Trường độ Độ dài Độ nhấn Biên độ động Độ mạnh Độ nhấn
Ngôn điệu là đặc trưng siêu đoạn của lời nói, nó không mang tính chất đoạn như các âm tố, âm tiết Đường nét F0 và cường độ âm thanh có thể được tính toán trực tiếp
từ tín hiệu lời nói Độ dài được phỏng đoán bằng cách chia tín hiệu thành các đoạn nhỏ theo định nghĩa về ngữ âm hoặc âm vị
Các thông tin ngôn ngữ được mã hóa trong các đặc trưng của ngôn điệu bao gồm:
Từ trọng âm/thanh điệu của âm tiết (trong các ngôn ngữ có thanh điệu)
Sự phân đoạn (sự phân nhịp, sự ngắt giọng, …)
Loại câu (câu trần thuật, câu hỏi, …)
Trong các hệ thống tổng hợp, vấn đề sinh ngôn điệu có thể xem như là phân loại mẫu và xấp xỉ hàm ánh xạ thông tin ngữ điệu trên các tham số ngữ điệu Chẳng hạn, dự báo biên cụm, mỗi biên của từ cũng là vấn đề nhập nhằng hoặc mức cao hơn nhập nhằng biên cụm Vấn đề sau đó là phân biệt được giữa các khả năng có thể, đánh dấu dùng ngữ cảnh Dự đoán kiểu trọng âm pitch cũng là một bài toán phân loại mẫu khác xác định giá trị trong tập trọng âm
Kỹ thuật tổng hợp hiện có ích trong một vài ứng dụng vì chất lượng tổng hợp chưa được tốt như con người mong muốn Ngôn điệu bao gồm cấu trúc cụm và trọng
âm của tiếng nói là một trong những thành phần cở bản trong hệ tổng hợp Trong lĩnh vực xử lư tín hiệu tiếng nói, pitch là sự diễn cảm huyền bí nhất của hiện tượng ngôn
Trang 39điệu và biến thiên đường pitch trong tiếng nói có thể dùng để nhấn mạnh mục đích của người nói [11]
Ngôn điệu trong các hệ tổng hợp gồm ba mức Thứ nhất, thành phần phân tích văn bản tính vị trí biên cụm từ và các chỗ nhấn trong câu Thứ hai, các thành phần ngôn điệu âm học tính trường độ âm vị, đường tần số cơ bản, và các đường tham số âm học thêm vào như biên độ và độ nghiêng phổ Cuối cùng, thành phần xử lý tín hiệu tính toán sóng tiếng nói số biểu diễn dãy âm vị có đường thời gian và pitch mong muốn [66]
1.1.7 Tổng quan về âm học và các hiện tượng ngôn điệu tiếng Việt trong ngữ lưu
Khi giao tiếp con người phát ra những chuỗi âm thanh nhất định, ta gọi là dòng ngữ lưu (utterance) Trong từng dòng ngữ lưu, nếu đem chia cắt chúng ra, ta sẽ thu được những đơn vị cấu thành nhỏ hơn, đó là âm tiết, âm tố và âm vị
Âm vị là đơn vị tối thiểu của hệ thống ngữ âm của một ngôn ngữ dùng để cấu tạo
và phân biệt vỏ âm thanh của các đơn vị có nghĩa của ngôn ngữ Âm vị còn có thể được coi là một chùm hoặc một tổng thể đặc trưng các nét khu biệt được thể hiện đồng thời
Âm tiết là đơn vị phân chia tự nhiên nhất trong lời nói, là đơn vị phát âm nhỏ
nhất Mỗi âm tiết là một tiếng Về mặt sinh lý – vật lý, âm tiết được định nghĩa là một
đơn vị mà khi phát âm được đặc trưng bởi sự căng lên rồi chùng xuống của cơ thịt trong bộ máy phát âm [9]
Trong mỗi âm tiết, chỉ có một âm tố có khả năng tạo thành âm tiết (gọi là âm tố
âm tiết tính), còn lại là các yếu tố đi kèm, không tự mình tạo thành âm tiết được Âm tố
âm tiết tính thường được phân bố ở trung tâm, làm hạt nhân âm tiết Đó thường là các nguyên âm Điều này dẫn đến hệ quả là một âm tiết khi được phát ra thì phần năng lượng tập trung nhiều nhất ở phần giữa âm (có biên độ cao), đi về đầu và cuối âm tiết thì năng lượng giảm dần
Trang 40Hình 1.8 Cụm từ ”âm tiết tiếng Việt ” thể hiện trên sóng âm
Tiếng Việt là tiếng đơn âm có thanh điệu Nó là ngôn ngữ có kết cấu âm tiết tính Một đặc điểm của tiếng Việt là âm tiết trùng hình vị (đơn vị nhỏ nhất có nghĩa) Nói cách khác, một âm tiết là một hình thức biểu đạt của một hình vị
Do mỗi âm tiết là vỏ ngữ âm của hình vị nên khác với các ngôn ngữ Âu-Ấn, tiếng Việt có số âm tiết hữu hạn với 17000 vỏ ngữ âm có khả năng và 6900 âm tiết tồn tại thực
Âm tiết, h́nh vị tiếng Việt cố định, không thay đổi theo ngữ pháp về thời, giống
và số như các ngôn ngữ khác Âm tiết tiếng Việt có cấu trúc chặt chẽ với các loại âm ở các vị trí cố định trong thành phần âm tiết
1.1.7.1 Thanh điệu
Một đặc điểm nổi bật khác của tiếng Việt là thanh điệu Mỗi âm tiết đều mang một thanh điệu nhất định Thanh điệu là một tập hợp những đặc trưng có liên quan đến
độ cao (phụ thuộc tần số rung động của dây thanh âm) của thanh cơ bản trong âm tiết
Nó được thể hiện trên tất cả những bộ phận hữu thanh trong âm tiết, nhất là các âm đoạn nguyên âm tính (nguyên âm và bán nguyên âm) và các đoạn phụ âm mũi
Thanh điệu có thể phân tích thành hai thành phần thường xuyên kết hợp với nhau:
âm vực (độ cao của thanh cơ bản) và âm điệu (hướng chuyển biến cao độ-độ tăng giảm của tần số) trong quá trình thể hiện Vì vậy, mỗi thanh điệu có thể được miêu tả như một sự kết hợp của hai thông số nói trên
Hệ thống thanh điệu tiếng Việt gồm sáu thanh là ngang (không dấu), huyền, ngã, hỏi, sắc, và nặng [9] Thanh điệu trong tiếng Việt kết hợp với các thành phần của âm tiết tạo thành các từ khác nhau, ví dụ như: thanh/ thành/ thánh/ thạnh…Trong tiếng