báo cáo tìm hiểu về môn xử lý tiếng nói

I.Tạo cơ sở dữ liệu tiếng nói:• Tiến hành ghi âm các âm vị kép đảm bảo các yêu cầu về chiều dài, biên độ, tần số cơ bản để phục vụ cho ghép nối.. • Tần số cơ bản chênh lệch tại điểm ghép

Trang 1

XÂY DỰNG BỘ TỔNG HỢP

TIẾNG VIỆT

Tạo cơ sở dữ liệu tiếng nói

Ghép nối âm vị kép

Tổng hợp thanh điệu

Trang 2

I.Tạo cơ sở dữ liệu tiếng nói:

• Tiến hành ghi âm các âm vị kép đảm bảo các yêu cầu về chiều dài, biên độ, tần số cơ bản để phục vụ cho ghép nối

• Tần số cơ bản chênh lệch tại điểm ghép nối của 2 âm vị kép nhỏ

• Biên độ tại điểm ghép nối phải đảm bảo chuyển tiếp trơn giữa hai âm vị kép được ghép nối

• Chiều dài của các âm vị kép phải đảm bảo thích hợp để tiếng nói tổng hợp được tự nhiên nhất

Trang 3

PP Hạn chế chênh lệch tần số tại điểm ghép nối của hai âm

vị kép

• Đường biểu diễn tần số cơ bản của từng âm vị kép càng bằng phẳng càng tốt

• tần số cơ bản của các âm vị kép được chọn là 165Hz, dải tần số của các âm vị kép trong khoảng 160-170 Hz là phù hợp cho bộ tổng hợp

Trang 4

PP Hạn chế sự chênh lệch năng lượng (biên độ)

• Các âm vị kép được ghi âm sau đó sẽ được chuẩn hóa biên độ cực đại về một giá trị nhất định

• Không ghép nối trực tiếp điểm với điểm bằng cách cộng chồng khung cuối của

âm vị kép thứ nhất với khung đầu đầu của âm vị kép thứ hai => làm giảm tối

thiểu sự chênh lệch tại điểm ghép nối

Trang 5

Chiều dài của các âm vị kép

• Chiều dài của âm vị kép phải được ghi âm với chiều dài phù hợp

• Chiều dài trung bình trong mọi ngữ cảnh không quá dài cũng không quá ngắn

Trang 6

II.Ghép nối các âm vị kép

Thực hiện thuật toán TD-PSOLA cần xác định:

• Sự chênh lệch về năng lượng tại điểm ghép nối

• Sự chênh lệch tần số cơ bản tại điểm ghép nối

• Sự lệch pha giữa 2 chu kỳ tại điểm ghép nối

• Sự chênh lệch trên miền tần số

Trang 7

Sự chênh lệch về năng lượng tại điểm ghép nối.

• Chuẩn hóa các âm vị kép trong cơ sở dữ liệu được tiến hành cho năng lượng cực đại của toàn bộ âm vị kép, chứ không phải cho điểm ghép nối các

Trang 8

Sự chênh lệch tần số cơ bản tại điểm ghép nối.

• Nếu ghép ngay âm vị kép sau khi lấy từ cơ sở dữ liệu sẽ dẫn đến sự chênh lệch

về tần số cơ bản tại điểm ghép nối =>dẫn đến sự không tự nhiên của tiếng nói tổng hợp vì tai người rất nhạy cảm đối với sự không trơn của tần số cơ bản

Trang 9

Sự lệch pha giữa 2 chu kỳ tại điểm ghép nối

• Do vị trí các điểm đánh dấu pitch của hai chu kỳ này không được xác định tại các

vị trí tương ứng với nhau nhau (tức là giá trị tương quan chéo của hai chu kỳ này với gốc tại các điểm đánh dấu pitch tương ứng chưa phải là giá trị cực đại)

Trang 10

III.Tổng hợp âm thanh điệu có dấu

• Việc tổng hợp âm thanh điệu có dấu thường được tiến hành bằng cách biến đổi tần số cơ bản của âm thanh điệu không dấu theo đường biểu diễn tần số cơ bản của các thanh đã được mô hình hóa

• Tất cả các âm có cùng một thanh đều được biến đổi tần số cơ bản theo mô hình tần số cơ bản chung của thanh đó

Trang 11

Khó khăn khi thực hiện trong thực tế

• Xác định đường biểu diễn tần số cơ bản chung cho tất cả các âm của cùng một thanh điệu là rất khó và chưa có một chuẩn đường biểu diễn tần số cơ bản nào được công bố cho việc sử dụng rộng rãi

• Ngoài tần số cơ bản ra, còn có các yếu tố khác như chiều dài phát âm, sự phân

bố năng lượng theo chiều dài âm (đường bao biên độ),… cũng ảnh hưởng đến thanh điệu

Định dạng
Số trang	11
Dung lượng	81,35 KB