Thường hệ thống tổng hợp giọng nĩi cĩ thể đốn văn cảnh bằng việc quan sát các từ kế cận, các số hay dấu câu bên cạnh, hoặc dùng trường hợp mặc định khi khơng thể phân định.. Chuyển Văn b
Trang 1Chương 9: Kỹ thuật ngoại diện
1 Chuẩn hĩa văn bản
Quá trình chuẩn hĩa văn bản thường khơng đơn giản Lý do là cácc văn bản thường chứa nhiều từ cùng chữ, số và viết tắt địi hỏi hiểu để diễn đạt lại trong văn bản đầy đủ
Trong một số ngơn ngữ, các từ cĩ thể được phát âm khác nhau từy theo ngữ cảnh ða số hệ thống tổng hợp giọng nĩi khơng tạo ra thể hiện văn phạm cho văn bản, vì quá trình này hiện chưa cĩ cơng nghệ đáng tin cậy Thay vào đĩ, nhiều cách lần mị được dùng để phân biệt các cách phát âm, như tìm các từ kế cận hay dùng thống
kê về tần số xuất hiện
Việc chọn cách phát âm số cũng là một vấn đề Lý do là cũng
cĩ nhiều cách phất âm số từy theo văn cảnh Như 1325 cĩ thể đọc
"một nghìn ba trăm hai mươi nhăm" nếu nĩ là một số tự nhiên, nhưng cũng cĩ thể là "một ba hai năm" nếu nĩ là bốn số mật mã ngân khoản Thường hệ thống tổng hợp giọng nĩi cĩ thể đốn văn cảnh bằng việc quan sát các từ kế cận, các số hay dấu câu bên cạnh, hoặc dùng trường hợp mặc định khi khơng thể phân định
Tương tự, các cách viết tắt cũng cĩ thể mang nhiều nghĩa, từy thuộc quy
ước của người viết
Trang 22 Chuyển Văn bản sang âm vị.
Các hệ thống tổng hợp giọng nĩi dùng hai cách cơ bản để xác định cách phát âm cho một từ, một quá trình cịn được gọi là chuyển đổi văn bản-sang- âm vị hay tự vị-sang-âm vị, vì âm vị là thuật ngữ dùng bởi các nhà ngơn ngữ học để mơ tả các âm khác nhau trong ngơn ngữ
Cách thứ nhất, và đơn giản nhất, là dựa vào từ điển, sử dụng một từ điển lớn chứa tất cả các từ của một ngơn ngữ và chứa cách phát âm đúng tương ứng cho từng từ, lưu trong máy tính Việc xác định cách phát âm đúng cho một từ chỉ đơn giản là tra trong từ điển
và thay đoạn văn bản bằng mã phát âm đã ghi trong từ điển
Cách thứ hai là dựa trên quy tắc, sử dụng các quy tắc phát âm
để tìm ra cách phát âm tương ứng cho mỗi từ phù hợp với quy tắc Mỗi cách đều cĩ ưu điểm và nhược điểm cách dựa trên từ điển nhanh và chính xác, nhưng sẽ khơng hoạt động nếu từ cần phát
âm khơng cĩ trong từ điển và lượng từ vựng cần lưu là lớn Cách dùng quy tắc hoạt động với mọi văn bản (miễn là phù hợp với quy tắc) nhưng độ phức tạp của các quy tắc cĩ thể tăng cao nếu ngơn ngữ cĩ nhiều trường hợp bất quy tắc trong phát âm Hầu hết các
hệ thống tổng hợp giọng nĩi đều dùng kết hợp cả hai cách
Một số ngơn ngữ, như tiếng Tây Ban Nha hay tiếng Việt cĩ
hệ thống viết dựa trên cách phát âm một cách rất cĩ quy tắc, và việc tiên đốn cách phát âm từ cách viết thường cĩ tỷ lệ thành cơng cao Các hệ thống tổng hợp giọng nĩi cho các ngơn ngữ này thường
Trang 3dùng chủ yếu cách dựa trên quy tắc, chỉ tra từ ñiển một vài từ ñặc biệt như tên vay mượn từ nước ngoài
Một số ngôn ngữ khác, như tiếng Anh, có hệ thống phát âm rất bất quy tắc, thường cần hệ thống tổng hợp giọng nói dựa chủ yếu trên từ ñiển và dùng các quy tắc cho những từ không có trong từ ñiển
Trang 42 2 6 Giải thuật
TD-PSOLA.
Như ñã ñề cập trong phần trước, người ta có thể tổng hợp tiếng nói theo nhiều phương pháp như mô phỏng hệ thống phát âm của con người, tổng hợp formant và tổng hợp ghép nối Mỗi phương pháp ñều có những ưu, nhược ñiểm riêng Phương pháp mô phỏng
hệ thống phát âm của con người cho chất lượng tốt, song rất khó
mô phỏng một cách hoàn hảo bộ máy phát âm Phương pháp tổng hợp bằng formant lại không cho chất lượng cao Trong ba phương pháp này thì tổng hợp tiếng nói bằng ghép nối ñược sử dụng rộng rãi hơn cả PSOLA là giải thuật dùng cho phương pháp ghép nối Trước hết tiếng nói ñược phân tích thành các tín hiệu thành phần, sau ñó, khi cộng xếp chồng các thành phần này ta sẽ ñược tín hiệu tiếng nói tổng hợp Phương pháp này thao tác trực tiếp với tín hiệu trên miền thời gian nên có chi phí tính toán thấp Người ta kéo dãn thời gian trong tín hiệu tổng hợp bằng cách lặp lại các ñoạn tín hiệu thành phần
PSOLA có thể hiểu như
sau:
• Tổng hợp tín hiệu từ các thành phần, trong ñó mỗi thành
phần có một tần số cơ bản
• Tổng hợp dựa trên mô hình nguồn-lọc (source-filter) Với phương pháp này tín hiệu phải ñiều hoà (harmonic) và phải thích hợp cho việc phân tích thành các tín hiệu thành phần khi sử dụng cửa sổ, ñiều này có nghĩa là năng lượng của tín hiệu phải tập trung
Trang 5xung quanh một khoảng thời gian nào ñó trong mỗi chu kỳ.
a Phân tích PSOLA
Phân tích PSOLA bao gồm việc phân tích một tín hiệu s(t) thành các tín hiệu thành phần si(t) bằng cách sử dụng cửa sổ h(t) :
si(t) =h( t − mi)s(t)
Trang 6trong ñó miñược gọi là các ñiểm mốc (markers) phải thoả mãn các ñiều
kiện
sau:
mi− mi-1 phải gần với chu kỳ cơ bản.
Phải gần với ñiểm có biên ñộ cực ñại (maxima energy) ðiều kiện này ñược ñưa ra ñể tránh làm hỏng tín hiệu khi lấy cửa sổ Sau
khi tìm ñược chu kỳ cơ bản T 0(t) và hàm năng lượng e(t).
b Tổng hợp PSOLA
Tổng hợp PSOLA ñược thực hiện bằng cách cộng xếp chồng các tín hiệu thành phần si(t) ñược sắp xếp theo các thời ñiểm m i
ở ñây mi là các ñiểm mốc gần nhất với tín hiệu vào Chu kỳ
cơ bản ñược ñiều chỉnh từ T 0(t ) tới T (t) bằng cách thay ñổi khoảng cách giữa các ñoạn tín hiệu liên tiếp m j − m j−1=T (t) Với PSOLA việc co dãn trên miền thời gian ñược thực hiện bằng cách lặp lại các ñoạn tín hiệu
Trang 7Hình 2 6 Cộng xếp chồng các ñoạn tín hiệu
Tuy nhiên, khi thời gian ñược kéo giãn nhiều bằng cách lặp lại các tín hiệu thành phần có thể làm cho tín hiệu tổng hợp không liên tục Giải thuật
TD – PSOLA (Time Domain PSOLA)ñược trình bày ở phần tiếp theo sẽ khắc phục nhược ñiểm này Hiện nay TD-PSOLA còn ñược
mở rộng ñể sử dụng cho các phương pháp tổng hợp ghép nối khác, bởi vì nó là phương pháp tổng hợp chất lượng cao và chạy tốt ở cả những máy tính tốc ñộ thấp (tổng hợp
thời gian thực có thể ñược thực hiện với bộ vi xử lý Intel 386)
c Giải Thuật TD-PSOLA.
Giả sử rằng s(n) là tín hiệu tuần hoàn, S(n ) là tín hiệu s(n) sau khi ñã thay ñổi tần số bằng cách lấy tổng của các khung OLA của si(n) w(n) là cửa sổ, sự thay ñổi chu kỳ tần số gốc T0 tới chu kỳ
tần số T tạo ra sự thay ñổi của si(
Trang 8n), s~(n) :
Trang 9Nếu T≠T0 thì ta phải làm hài hoà lại si(n) với tần số cơ
bản là T
Công thức trên rất hiệu quả khi muốn thay ñổi tần số của tín hiệu tuần hoàn
Hình 2 7 Quá trình làm thay ñổi tần số của
tín hiệu
Nếu T=T0 và cửa sổ phân tích ñủ hẹp, tín hiệu tổng hợp gần như
trùng với tín hiệu gốc
Trong trường hợp ñặc biệt với cửa sổ tam giác thì kích thước của cửa sổ ñược chọn bằng 2 lần chu kỳ cơ bản, khi ñó dấu gần
ñúng của biểu thức trên sẽ tịnh tiến tới dấu bằng với K=1 Rõ ràng,
Trang 10với giải thuật này, cơ sở dữ liệu phải ñược lưu trữ dưới dạng danh sách tham số (một danh sách cho mỗi ñoạn) Trên thực tế, ñối với TD-PSOLA, thì các danh sách này chứa chuỗi các ñiểm mốc (markers) là tâm các cửa sổ xếp chồng ηi Vị trí các ñiểm mốc này
Trang 11ñược sắp xếp ñồng bộ với tần số cơ bản của phần hữu thanh trong
ño ạn
tín hiệu, nhờ vào một thuật toán xác ñịnh tần số cơ bản nào ñó ðối với phần vô thanh thì khoảng