CHƯƠNG 2: TỔNG QUAN VỀ TIẾNG NÓI VÀ XỬ LÝ TIẾNG NÓI
6. TỔNG QUAN VỀ TỔNG HỢP TIẾNG NÓI
Tổng hợp tiếng nói là quá trình tạo tiếng nói xuất phát từ biểu diễn ngữ âm của lời nói và cơ chế sản sinh ra tiếng nói. Trong đó các kỹ thuật tổng hợp tiếng nói được chia thành 2 loại chính :
- Tổng hợp tiếng nói trực tiếp: là phương pháp tổng hợp dựa trên sự ghép nối các âm đã được ghi từ trước.
Đặc điểm của phương pháp này là có sự tham gia của con người. Đây là cách dễ nhất để tạo tiếng nói tuy nhiên nó yêu cầu số lượng lời nói ghi âm phải lớn do đó phải cần nhiều bộ nhớ để lưu trữ các lời nói này. Đơn vị ghi âm tối thiểu là các âm vị (hệ thống các nguyên âm và phụ âm), từ các âm vị có thể tổng hợp thành các âm tiết ( tổ hợp các âm vị) và cao hơn là có thể tổng hợp
thành các từ, câu. Để giảm khối lượng từ cần lưu trữ, người ta thường dùng các âm vị kép (diphone : gồm hai âm vị đi với nhau để tổng hợp tiếng nói
- Tổng hợp dựa trên mô hình: là các phương pháp tổng hợp dựa trên các mô hình toán học và không có sự tham gia của con người. Các phương pháp hay dùng bao gồm:
+ Tổng hợp formant: phương pháp này dựa trên các luật xác định tần số cơ bản để tính ra 3 formant đầu tiên ft, fz, f, để tổng hợp tiếng nói.
+ Tổng hợp LPC: đây là phương pháp dựa trên mô hình tiên đoán tuyến tính, tức là tín hiệu tiếng nói tại thời điểm n có thể xác định dựa trên tổ hợp tuyến tính của p tín hiệu trước đó.
+ Tổng hợp dùng mô phỏng bộ máy phát âm: phương pháp này thực hiện bằng cách mô phỏng bộ máy phát âm của con người, do đó nó có thể có chất lượng tốt nhất nhưng nhược điểm là độ phức tạp rất cao và khó thực hiện.
6.2 Các mô hình tổng hợp tiếng nói 6.2.1 Tổng hợp formant
Hình 1.14 Mô hình tổng hợp tiếng nói bằng phương pháp formant Chức năng của từng khối:
- Khối tạo xung: khối này dùng để tạo tín hiệu tuần hoàn
- Khối tạo tạp âm: khối này dùng để tạo tín hiệu không tuần hoàn (các nhiễu ngẫu nhiên) - Các khối A1, A2, A3, A4: là các khối thay đổi biên độ dùng để tăng giảm biên độ tới âm lượng mong muốn.
- Khoang miệng đặc trưng bởi các mạch cộng hưởng có tần số F1, F2, F3 - Kênh mũi: tương ứng với các phản formant
- B1, B2, B3: là các dải tần khác nhau
Chất lượng của phương pháp này phụ thuộc vào sự điều chỉnh các tham số điều khiển và nghe tín hiệu tạo ra do đó không được tự động hoá 100%
6.2.2 Tổng hợp LPC
Hình 1.15 Mô hình tổng hợp tiếng nói bằng phương pháp LPC Chức năng từng khối:
- Khối tạo xung: khối này dùng để tạo các tín hiệu tuần hoàn
- Khối tạo tạp âm: khối này dùng để tạo các tín hiệu không tuần hoàn - Khối A: là khối thay đổi biên độ
Bộ lọc bậc p xác định các tham số a + a, theo tiêu chí tối thiểu hoá bình phượng toàn phần của lỗi tiên đoán tuyến tính.
Phương pháp này được thực hiện tự động 100% do có tiêu chí xác định các hệ số a,. Tuy nhiên nhược điểm của phương pháp này là chất lượng tổng hợp âm mũi kém do LPC chỉ dựa trên mô hình toàn điểm cực, không có điểm không (tức là chỉ có khoang miệng mà không có khoang mũi), do đó chỉ áp dụng với khoang miệng.
6.2.3. Tổng hợp dùng mô phỏng bộ máy phát âm
Hình 1.16 Mô hình tổng hợp tiếng nói bằng phương pháp mô phỏng nguồn âm Phương pháp này thực chất là mô phỏng nguồn âm, tuyến âm và nguồn tạp âm đơn giản.
Mô phỏng nguồn âm (nguồn tuần hoàn): là quá trình mô phỏng hoạt động của dây thanh.
Các phương pháp mô phỏng dây thanh thường dùng là mô hình một khối, mô hình hai khối, mô hình nhiều khối, mô hình dầm,...
Mô phỏng tuyến âm: thực chất là mô phỏng bộ máy phát âm từ thanh môn trở lên. Tuyến âm được mô phỏng bằng cách rời rạc hoá, thay thế từng đoạn tuyến âm bởi các ống cơ bản có chiều dài ngắn (các ống hình trụ) và sau đó thực hiện tính toán trên các ống này.