Bai 5: Tổng hợp tiếng nói ee m Thành phần tổng hợp tiếng nói của một hệ thong TTS co chuc nang tạo ra dạng sóng tiếng nói tương ứng voi van ban m Dữ liệu vào thường là âm vi đã được c
Trang 1Bai 5:
Tổng hợp tiếng nói
ee
m Thành phần tổng hợp tiếng nói của một hệ
thong TTS co chuc nang tạo ra dạng sóng
tiếng nói tương ứng voi van ban
m Dữ liệu vào thường là âm vi đã được chuyển
đổi và ngữ âm tương ứng của câu nói
Ngoài ra, dữ liệu vào có thể gồm van ban thô cùng với các thẻ đánh dấu để có chất
lượng tiếng nói tốt hơn
Trang 2Phân loại các hệ thống tổng hợp
tiếng nói
m Các hệ thống tổng hợp tiếng nói gồm 3 loại:
- Tổng hợp tiếng nói dựa vào đặc điểm âm hoc
- Tổng hợp tiếng nói dựa vào Formant
- Tổng hợp tiếng nói dựa vào sự ghép nối
Trang 3Tổng hợp tiếng nói dựa vào đặc
điểm âm học
(Orie
=m Sử dụng các tham số để mô hình chuyển
dong cua bo phan trong bo may am học va
su thay doi ap suat khong khi
Trang 4Tổng hợp tiếng nói dựa vào Formant
ee
m Ta có thể tổng hợp một nguyên âm có âm ổn
định bằng cách cho một sóng tuần hoàn đi
qua mot bo loc voi tan so formant cua Ong
am hoc
a DOI voi Cac pnu am, am vo thanh, ta co thé
dung nhiều ngầu nhiên đi qua bộ lọc để tạo
ra âm
m Trong thực tế, âm tiếng nói là thay đổi liên tục, vì thế, ta phải thay đổi nguồn kích thích
va tan so formant theo thoi gian
Trang 5m Phương pháp này còn được gọi là tổng hợp
dua vao cac luat de thay doi nguon kich thich, tan so formant, va cac tham so dé
chuyển từ âm này sang âm khác
Pitch
tracks
Figure 16.2 Block diagram of a synthesis-by-rule system Pitch and formants are listed as the only parameters of the synthesizer for convenience In practice, such system has about 40 pa- rameters
Trang 6Tổng hợp tiếng nói dựa vào sự ghép nối
ee
m Tiếng nói được tổng hợp bằng sự ghép nối cac am đã được lưu trữ từ trước tương ứng
VỚI các âm vi
m Môi âm đã được lưu từ trước giống với âm
trong tự nhiên, vì thế, tiếng nói được tổng hợp có chất lượng cao
m Tuy nhiên, nếu hai đoạn âm khác nhau
được ghép nối lại có thể dân đến sự không
liên tục trong ngữ điệu và phổ tần số
Trang 7Các vấn đề khi tổng hợp tiếng nói
dua vao su ghep noi
am Sử dụng đơn vị tiếng nói loại nào: âm vị, âm
tiết, từ, cụm từ,
m Xây dựng cơ sở dữ liệu đơn vị tiếng noi tu các âm thu được bằng ghi âm: độ dài ngắn của từng đơn vị tiếng nói, số lượng đơn vị,
m Lựa chọn cách phát âm tốt nhất tử dữ liệu đã
‘ee
m Biến đổi ngữ điệu các âm đã có để thu được ngữ điệu mong muốn
Trang 8Don vi am
m Don vị âm là đại diện cho một khoảng tiếng
nói nhỏ nhất được sử dụng trong sự ghép
noi
m Thể hiện là một khoảng tiếng nói đã được
tạo ra tương ứng voi don vi am cua no He
thống TTS có thể có nhiều thể hiện cho một
đơn vị âm để sử dụng ghép nối
Trang 9So sanh cac loai don vi am
Table 16.4 Unit types in English assuming a phone set of 42 phonemes Longer units produce higher quality at the expense of more storage [he number of units 1s generally below the abso- lute maximum in theory: i.e., out of the 42° = 74,088 possible triphones, only about 30.000 occur in practice
Short Phoneme 42 Low
Phrase
Lone
Trang 10
Các khó khăn khi lựa chọn đơn vi âm
m Táng sự chính xác ghép nổi:
— Giảm sỐ lượng ghép nỗi, vi the, can cac don vi
am dài như tử hoặc cụm tư
— Tuy nhiên, cách này đòi hỏi số lượng nhiều đơn
vi am va the hién cua no, khong phai luc nao
cùng thực hiện được
m Táng sự chính xác của ngữ điệu:
— Bằng cách thay đổi tần số cơ bản và khoảng thời
gian của các đơn vị am đã có
Trang 11m Đơn vi âm đã có có thể tạo ra được đơn vi
am khác
— Nếu sử dụng đơn vị âm như từ hoặc cụm tử sẽ
khó tổng hợp các nội dung bất kỳ
m Đơn vi âm có thể được huấn luyện
- Các đơn vị âm đã có được dùng để huấn luyện
có thể đánh giá chính xác các đơn vị âm nhận được sau này
Trang 12—— word
—#— syllables
—k&— triphones
—@— diphones
=
c
_
S
hee q)
2
E
¬
<
c¬
Top N surnames in English
igure 16.5 Coverage with different number of units displays the number of units of different types required to generate the top 'V surnames in the United States [34]
Trang 13Thay đổi ngữ điệu đơn vị âm khi ghép nối
m Ngữ điệu của các đơn vị am đã có thường
không đáp ứng được yêu cầu
m Mục đích: thay đổi cường độ âm, thời gian phat am, tan so co ban cua don vi am
Trang 14Phuong phap OLA- Overlap and Add
© wn
— | `
N” “MA lì |
0
-
|
|
|
|
;
|
|
|
ed (n
© on
Figure 16.8 Overlap-and-add (OLA) method for time compression Hanning windows, V =
330, are used to multiply the analysis signal, and resulting windowed signals are added [he analysis Windows, spaced 2.V samples, and the analysis signal x[m] are shown on the top [he synthesis windows, spaced V samples apart, and the synthesis signal y[m] are shown below
Time compression 1s uniform with a factor of 2 Pitch periodicity 1s somewhat lost, particularly around the fourth window