thiết kế hệ thống trả lời tự động, chương 9 pps

Thường hệ thống tổng hợp giọng nĩi cĩ thể đốn văn cảnh bằng việc quan sát các từ kế cận, các số hay dấu câu bên cạnh, hoặc dùng trường hợp mặc định khi khơng thể phân định.. Chuyển Văn b

Trang 1

Chương 9: Kỹ thuật ngoại diện

1 Chuẩn hĩa văn bản

Quá trình chuẩn hĩa văn bản thường khơng đơn giản Lý do là cácc văn bản thường chứa nhiều từ cùng chữ, số và viết tắt địi hỏi hiểu để diễn đạt lại trong văn bản đầy đủ

Trong một số ngơn ngữ, các từ cĩ thể được phát âm khác nhau từy theo ngữ cảnh ða số hệ thống tổng hợp giọng nĩi khơng tạo ra thể hiện văn phạm cho văn bản, vì quá trình này hiện chưa cĩ cơng nghệ đáng tin cậy Thay vào đĩ, nhiều cách lần mị được dùng để phân biệt các cách phát âm, như tìm các từ kế cận hay dùng thống

kê về tần số xuất hiện

Việc chọn cách phát âm số cũng là một vấn đề Lý do là cũng

cĩ nhiều cách phất âm số từy theo văn cảnh Như 1325 cĩ thể đọc

"một nghìn ba trăm hai mươi nhăm" nếu nĩ là một số tự nhiên, nhưng cũng cĩ thể là "một ba hai năm" nếu nĩ là bốn số mật mã ngân khoản Thường hệ thống tổng hợp giọng nĩi cĩ thể đốn văn cảnh bằng việc quan sát các từ kế cận, các số hay dấu câu bên cạnh, hoặc dùng trường hợp mặc định khi khơng thể phân định

Tương tự, các cách viết tắt cũng cĩ thể mang nhiều nghĩa, từy thuộc quy

ước của người viết

Trang 2

2 Chuyển Văn bản sang âm vị.

Các hệ thống tổng hợp giọng nĩi dùng hai cách cơ bản để xác định cách phát âm cho một từ, một quá trình cịn được gọi là chuyển đổi văn bản-sang- âm vị hay tự vị-sang-âm vị, vì âm vị là thuật ngữ dùng bởi các nhà ngơn ngữ học để mơ tả các âm khác nhau trong ngơn ngữ

Cách thứ nhất, và đơn giản nhất, là dựa vào từ điển, sử dụng một từ điển lớn chứa tất cả các từ của một ngơn ngữ và chứa cách phát âm đúng tương ứng cho từng từ, lưu trong máy tính Việc xác định cách phát âm đúng cho một từ chỉ đơn giản là tra trong từ điển

và thay đoạn văn bản bằng mã phát âm đã ghi trong từ điển

Cách thứ hai là dựa trên quy tắc, sử dụng các quy tắc phát âm

để tìm ra cách phát âm tương ứng cho mỗi từ phù hợp với quy tắc Mỗi cách đều cĩ ưu điểm và nhược điểm cách dựa trên từ điển nhanh và chính xác, nhưng sẽ khơng hoạt động nếu từ cần phát

âm khơng cĩ trong từ điển và lượng từ vựng cần lưu là lớn Cách dùng quy tắc hoạt động với mọi văn bản (miễn là phù hợp với quy tắc) nhưng độ phức tạp của các quy tắc cĩ thể tăng cao nếu ngơn ngữ cĩ nhiều trường hợp bất quy tắc trong phát âm Hầu hết các

hệ thống tổng hợp giọng nĩi đều dùng kết hợp cả hai cách

Một số ngơn ngữ, như tiếng Tây Ban Nha hay tiếng Việt cĩ

hệ thống viết dựa trên cách phát âm một cách rất cĩ quy tắc, và việc tiên đốn cách phát âm từ cách viết thường cĩ tỷ lệ thành cơng cao Các hệ thống tổng hợp giọng nĩi cho các ngơn ngữ này thường

Trang 3

dùng chủ yếu cách dựa trên quy tắc, chỉ tra từ ñiển một vài từ ñặc biệt như tên vay mượn từ nước ngoài

Một số ngôn ngữ khác, như tiếng Anh, có hệ thống phát âm rất bất quy tắc, thường cần hệ thống tổng hợp giọng nói dựa chủ yếu trên từ ñiển và dùng các quy tắc cho những từ không có trong từ ñiển

Trang 4

2 2 6 Giải thuật

TD-PSOLA.

Như ñã ñề cập trong phần trước, người ta có thể tổng hợp tiếng nói theo nhiều phương pháp như mô phỏng hệ thống phát âm của con người, tổng hợp formant và tổng hợp ghép nối Mỗi phương pháp ñều có những ưu, nhược ñiểm riêng Phương pháp mô phỏng

hệ thống phát âm của con người cho chất lượng tốt, song rất khó

mô phỏng một cách hoàn hảo bộ máy phát âm Phương pháp tổng hợp bằng formant lại không cho chất lượng cao Trong ba phương pháp này thì tổng hợp tiếng nói bằng ghép nối ñược sử dụng rộng rãi hơn cả PSOLA là giải thuật dùng cho phương pháp ghép nối Trước hết tiếng nói ñược phân tích thành các tín hiệu thành phần, sau ñó, khi cộng xếp chồng các thành phần này ta sẽ ñược tín hiệu tiếng nói tổng hợp Phương pháp này thao tác trực tiếp với tín hiệu trên miền thời gian nên có chi phí tính toán thấp Người ta kéo dãn thời gian trong tín hiệu tổng hợp bằng cách lặp lại các ñoạn tín hiệu thành phần

PSOLA có thể hiểu như

sau:

• Tổng hợp tín hiệu từ các thành phần, trong ñó mỗi thành

phần có một tần số cơ bản

• Tổng hợp dựa trên mô hình nguồn-lọc (source-filter) Với phương pháp này tín hiệu phải ñiều hoà (harmonic) và phải thích hợp cho việc phân tích thành các tín hiệu thành phần khi sử dụng cửa sổ, ñiều này có nghĩa là năng lượng của tín hiệu phải tập trung

Trang 5

xung quanh một khoảng thời gian nào ñó trong mỗi chu kỳ.

a Phân tích PSOLA

Phân tích PSOLA bao gồm việc phân tích một tín hiệu s(t) thành các tín hiệu thành phần si(t) bằng cách sử dụng cửa sổ h(t) :

si(t) =h( t − mi)s(t)

Trang 6

trong ñó miñược gọi là các ñiểm mốc (markers) phải thoả mãn các ñiều

kiện

sau:

mi− mi-1 phải gần với chu kỳ cơ bản.

Phải gần với ñiểm có biên ñộ cực ñại (maxima energy) ðiều kiện này ñược ñưa ra ñể tránh làm hỏng tín hiệu khi lấy cửa sổ Sau

khi tìm ñược chu kỳ cơ bản T 0(t) và hàm năng lượng e(t).

b Tổng hợp PSOLA

Tổng hợp PSOLA ñược thực hiện bằng cách cộng xếp chồng các tín hiệu thành phần si(t) ñược sắp xếp theo các thời ñiểm m i

ở ñây mi là các ñiểm mốc gần nhất với tín hiệu vào Chu kỳ

cơ bản ñược ñiều chỉnh từ T 0(t ) tới T (t) bằng cách thay ñổi khoảng cách giữa các ñoạn tín hiệu liên tiếp m j − m j−1=T (t) Với PSOLA việc co dãn trên miền thời gian ñược thực hiện bằng cách lặp lại các ñoạn tín hiệu

Trang 7

Hình 2 6 Cộng xếp chồng các ñoạn tín hiệu

Tuy nhiên, khi thời gian ñược kéo giãn nhiều bằng cách lặp lại các tín hiệu thành phần có thể làm cho tín hiệu tổng hợp không liên tục Giải thuật

TD – PSOLA (Time Domain PSOLA)ñược trình bày ở phần tiếp theo sẽ khắc phục nhược ñiểm này Hiện nay TD-PSOLA còn ñược

mở rộng ñể sử dụng cho các phương pháp tổng hợp ghép nối khác, bởi vì nó là phương pháp tổng hợp chất lượng cao và chạy tốt ở cả những máy tính tốc ñộ thấp (tổng hợp

thời gian thực có thể ñược thực hiện với bộ vi xử lý Intel 386)

c Giải Thuật TD-PSOLA.

Giả sử rằng s(n) là tín hiệu tuần hoàn, S(n ) là tín hiệu s(n) sau khi ñã thay ñổi tần số bằng cách lấy tổng của các khung OLA của si(n) w(n) là cửa sổ, sự thay ñổi chu kỳ tần số gốc T0 tới chu kỳ

tần số T tạo ra sự thay ñổi của si(

Trang 8

n), s~(n) :

Trang 9

Nếu T≠T0 thì ta phải làm hài hoà lại si(n) với tần số cơ

bản là T

Công thức trên rất hiệu quả khi muốn thay ñổi tần số của tín hiệu tuần hoàn

Hình 2 7 Quá trình làm thay ñổi tần số của

tín hiệu

Nếu T=T0 và cửa sổ phân tích ñủ hẹp, tín hiệu tổng hợp gần như

trùng với tín hiệu gốc

Trong trường hợp ñặc biệt với cửa sổ tam giác thì kích thước của cửa sổ ñược chọn bằng 2 lần chu kỳ cơ bản, khi ñó dấu gần

ñúng của biểu thức trên sẽ tịnh tiến tới dấu bằng với K=1 Rõ ràng,

Trang 10

với giải thuật này, cơ sở dữ liệu phải ñược lưu trữ dưới dạng danh sách tham số (một danh sách cho mỗi ñoạn) Trên thực tế, ñối với TD-PSOLA, thì các danh sách này chứa chuỗi các ñiểm mốc (markers) là tâm các cửa sổ xếp chồng ηi Vị trí các ñiểm mốc này

Trang 11

ñược sắp xếp ñồng bộ với tần số cơ bản của phần hữu thanh trong

ño ạn

tín hiệu, nhờ vào một thuật toán xác ñịnh tần số cơ bản nào ñó ðối với phần vô thanh thì khoảng

Định dạng
Số trang	11
Dung lượng	252,65 KB