I.Tạo cơ sở dữ liệu tiếng nói:• Tiến hành ghi âm các âm vị kép đảm bảo các yêu cầu về chiều dài, biên độ, tần số cơ bản để phục vụ cho ghép nối.. • Tần số cơ bản chênh lệch tại điểm ghép
Trang 1XÂY DỰNG BỘ TỔNG HỢP
TIẾNG VIỆT
Tạo cơ sở dữ liệu tiếng nói
Ghép nối âm vị kép
Tổng hợp thanh điệu
Trang 2I.Tạo cơ sở dữ liệu tiếng nói:
• Tiến hành ghi âm các âm vị kép đảm bảo các yêu cầu về chiều dài, biên độ, tần số cơ bản để phục vụ cho ghép nối
• Tần số cơ bản chênh lệch tại điểm ghép nối của 2 âm vị kép nhỏ
• Biên độ tại điểm ghép nối phải đảm bảo chuyển tiếp trơn giữa hai âm vị kép được ghép nối
• Chiều dài của các âm vị kép phải đảm bảo thích hợp để tiếng nói tổng hợp được tự nhiên nhất
Trang 3PP Hạn chế chênh lệch tần số tại điểm ghép nối của hai âm
vị kép
• Đường biểu diễn tần số cơ bản của từng âm vị kép càng bằng phẳng càng tốt
• tần số cơ bản của các âm vị kép được chọn là 165Hz, dải tần số của các âm vị kép trong khoảng 160-170 Hz là phù hợp cho bộ tổng hợp
Trang 4PP Hạn chế sự chênh lệch năng lượng (biên độ)
• Các âm vị kép được ghi âm sau đó sẽ được chuẩn hóa biên độ cực đại về một giá trị nhất định
• Không ghép nối trực tiếp điểm với điểm bằng cách cộng chồng khung cuối của
âm vị kép thứ nhất với khung đầu đầu của âm vị kép thứ hai => làm giảm tối
thiểu sự chênh lệch tại điểm ghép nối
Trang 5Chiều dài của các âm vị kép
• Chiều dài của âm vị kép phải được ghi âm với chiều dài phù hợp
• Chiều dài trung bình trong mọi ngữ cảnh không quá dài cũng không quá ngắn
Trang 6II.Ghép nối các âm vị kép
Thực hiện thuật toán TD-PSOLA cần xác định:
• Sự chênh lệch về năng lượng tại điểm ghép nối
• Sự chênh lệch tần số cơ bản tại điểm ghép nối
• Sự lệch pha giữa 2 chu kỳ tại điểm ghép nối
• Sự chênh lệch trên miền tần số
Trang 7Sự chênh lệch về năng lượng tại điểm ghép nối.
• Chuẩn hóa các âm vị kép trong cơ sở dữ liệu được tiến hành cho năng lượng cực đại của toàn bộ âm vị kép, chứ không phải cho điểm ghép nối các
Trang 8Sự chênh lệch tần số cơ bản tại điểm ghép nối.
• Nếu ghép ngay âm vị kép sau khi lấy từ cơ sở dữ liệu sẽ dẫn đến sự chênh lệch
về tần số cơ bản tại điểm ghép nối =>dẫn đến sự không tự nhiên của tiếng nói tổng hợp vì tai người rất nhạy cảm đối với sự không trơn của tần số cơ bản
Trang 9Sự lệch pha giữa 2 chu kỳ tại điểm ghép nối
• Do vị trí các điểm đánh dấu pitch của hai chu kỳ này không được xác định tại các
vị trí tương ứng với nhau nhau (tức là giá trị tương quan chéo của hai chu kỳ này với gốc tại các điểm đánh dấu pitch tương ứng chưa phải là giá trị cực đại)
Trang 10III.Tổng hợp âm thanh điệu có dấu
• Việc tổng hợp âm thanh điệu có dấu thường được tiến hành bằng cách biến đổi tần số cơ bản của âm thanh điệu không dấu theo đường biểu diễn tần số cơ bản của các thanh đã được mô hình hóa
• Tất cả các âm có cùng một thanh đều được biến đổi tần số cơ bản theo mô hình tần số cơ bản chung của thanh đó
Trang 11Khó khăn khi thực hiện trong thực tế
• Xác định đường biểu diễn tần số cơ bản chung cho tất cả các âm của cùng một thanh điệu là rất khó và chưa có một chuẩn đường biểu diễn tần số cơ bản nào được công bố cho việc sử dụng rộng rãi
• Ngoài tần số cơ bản ra, còn có các yếu tố khác như chiều dài phát âm, sự phân
bố năng lượng theo chiều dài âm (đường bao biên độ),… cũng ảnh hưởng đến thanh điệu