Xử lý tiếng nói - Speech Synthesis

Bai 5: Tổng hợp tiếng nói ee m Thành phần tổng hợp tiếng nói của một hệ thong TTS co chuc nang tạo ra dạng sóng tiếng nói tương ứng voi van ban m Dữ liệu vào thường là âm vi đã được c

Trang 1

Bai 5:

Tổng hợp tiếng nói

ee

m Thành phần tổng hợp tiếng nói của một hệ

thong TTS co chuc nang tạo ra dạng sóng

tiếng nói tương ứng voi van ban

m Dữ liệu vào thường là âm vi đã được chuyển

đổi và ngữ âm tương ứng của câu nói

Ngoài ra, dữ liệu vào có thể gồm van ban thô cùng với các thẻ đánh dấu để có chất

lượng tiếng nói tốt hơn

Trang 2

Phân loại các hệ thống tổng hợp

tiếng nói

m Các hệ thống tổng hợp tiếng nói gồm 3 loại:

- Tổng hợp tiếng nói dựa vào đặc điểm âm hoc

- Tổng hợp tiếng nói dựa vào Formant

- Tổng hợp tiếng nói dựa vào sự ghép nối

Trang 3

Tổng hợp tiếng nói dựa vào đặc

điểm âm học

(Orie

=m Sử dụng các tham số để mô hình chuyển

dong cua bo phan trong bo may am học va

su thay doi ap suat khong khi

Trang 4

Tổng hợp tiếng nói dựa vào Formant

ee

m Ta có thể tổng hợp một nguyên âm có âm ổn

định bằng cách cho một sóng tuần hoàn đi

qua mot bo loc voi tan so formant cua Ong

am hoc

a DOI voi Cac pnu am, am vo thanh, ta co thé

dung nhiều ngầu nhiên đi qua bộ lọc để tạo

ra âm

m Trong thực tế, âm tiếng nói là thay đổi liên tục, vì thế, ta phải thay đổi nguồn kích thích

va tan so formant theo thoi gian

Trang 5

m Phương pháp này còn được gọi là tổng hợp

dua vao cac luat de thay doi nguon kich thich, tan so formant, va cac tham so dé

chuyển từ âm này sang âm khác

Pitch

tracks

Figure 16.2 Block diagram of a synthesis-by-rule system Pitch and formants are listed as the only parameters of the synthesizer for convenience In practice, such system has about 40 parameters

Trang 6

Tổng hợp tiếng nói dựa vào sự ghép nối

ee

m Tiếng nói được tổng hợp bằng sự ghép nối cac am đã được lưu trữ từ trước tương ứng

VỚI các âm vi

m Môi âm đã được lưu từ trước giống với âm

trong tự nhiên, vì thế, tiếng nói được tổng hợp có chất lượng cao

m Tuy nhiên, nếu hai đoạn âm khác nhau

được ghép nối lại có thể dân đến sự không

liên tục trong ngữ điệu và phổ tần số

Trang 7

Các vấn đề khi tổng hợp tiếng nói

dua vao su ghep noi

am Sử dụng đơn vị tiếng nói loại nào: âm vị, âm

tiết, từ, cụm từ,

m Xây dựng cơ sở dữ liệu đơn vị tiếng noi tu các âm thu được bằng ghi âm: độ dài ngắn của từng đơn vị tiếng nói, số lượng đơn vị,

m Lựa chọn cách phát âm tốt nhất tử dữ liệu đã

‘ee

m Biến đổi ngữ điệu các âm đã có để thu được ngữ điệu mong muốn

Trang 8

Don vi am

m Don vị âm là đại diện cho một khoảng tiếng

nói nhỏ nhất được sử dụng trong sự ghép

noi

m Thể hiện là một khoảng tiếng nói đã được

tạo ra tương ứng voi don vi am cua no He

thống TTS có thể có nhiều thể hiện cho một

đơn vị âm để sử dụng ghép nối

Trang 9

So sanh cac loai don vi am

Table 16.4 Unit types in English assuming a phone set of 42 phonemes Longer units produce higher quality at the expense of more storage [he number of units 1s generally below the abso- lute maximum in theory: i.e., out of the 42° = 74,088 possible triphones, only about 30.000 occur in practice

Short Phoneme 42 Low

Phrase

Lone

Trang 10

Các khó khăn khi lựa chọn đơn vi âm

m Táng sự chính xác ghép nổi:

— Giảm sỐ lượng ghép nỗi, vi the, can cac don vi

am dài như tử hoặc cụm tư

— Tuy nhiên, cách này đòi hỏi số lượng nhiều đơn

vi am va the hién cua no, khong phai luc nao

cùng thực hiện được

m Táng sự chính xác của ngữ điệu:

— Bằng cách thay đổi tần số cơ bản và khoảng thời

gian của các đơn vị am đã có

Trang 11

m Đơn vi âm đã có có thể tạo ra được đơn vi

am khác

— Nếu sử dụng đơn vị âm như từ hoặc cụm tử sẽ

khó tổng hợp các nội dung bất kỳ

m Đơn vi âm có thể được huấn luyện

- Các đơn vị âm đã có được dùng để huấn luyện

có thể đánh giá chính xác các đơn vị âm nhận được sau này

Trang 12

—— word

—#— syllables

—k&— triphones

—@— diphones

=

c

_

S

hee q)

2

E

¬

<

c¬

Top N surnames in English

igure 16.5 Coverage with different number of units displays the number of units of different types required to generate the top 'V surnames in the United States [34]

Trang 13

Thay đổi ngữ điệu đơn vị âm khi ghép nối

m Ngữ điệu của các đơn vị am đã có thường

không đáp ứng được yêu cầu

m Mục đích: thay đổi cường độ âm, thời gian phat am, tan so co ban cua don vi am

Trang 14

Phuong phap OLA- Overlap and Add

— | `

N” “MA lì |

0

-

|

;

|

ed (n

Figure 16.8 Overlap-and-add (OLA) method for time compression Hanning windows, V =

330, are used to multiply the analysis signal, and resulting windowed signals are added [he analysis Windows, spaced 2.V samples, and the analysis signal x[m] are shown on the top [he synthesis windows, spaced V samples apart, and the synthesis signal y[m] are shown below

Time compression 1s uniform with a factor of 2 Pitch periodicity 1s somewhat lost, particularly around the fourth window

Tiêu đề	Tổng hợp tiếng nói
Thể loại	Bài giảng

Định dạng
Số trang	14
Dung lượng	277,15 KB