Khác với các sân phẩm khác của công nghệ thông ti, sản phẩm vẻ tiếng nói, ngôn ngữ Việt không thể mua được từ nước ngoài, chí có thẻ do người Việt làm ra trên cơ sở tiếp thu được các thà
Trang 1TRUONG DAI HOC CONG NGHE
NguyỄn Thị Thanh Mai
NGHIÊN CỨU MỘT SÓ PHƯƠNG PHÁP NÂNG CAO
CHAT LUONG TONG HOP TIENG VIET VA
THU NGHIEM CHO PHAN MEM VNVOICE
LUAN VAN THAC St
Hã nội-2007
Trang 2
DAIIIOC QUOC GIA IIA NOT TRƯỜNG ĐẠI HỌC CONG NGIIE
Nguyễn Thị Thanh Mai
NGHIÊN CỨU MỘT SÓ PHƯƠNG PHÁP NÂNG CAO
CHAT LUONG TONG HOP TIENG VIET VA
THU NGHIEM CHO PHAN MEM VNVOICE
Ngành: Công nghệ thông tin Chuyên ngảnh: Công nghệ thông tin
Mã sẽ: 1.01 10
LUẬN VĂN THIẠC SĨ
NGƯỜI HƯỚNG DẤN KHOA HỌC
PGS.TS.Luong Chi Mai
Hà nội-2007
Trang 3
1,4, Một số đặc trưng của âm vị về mặt ảm học
1.5 Các phương pháp tổng hợp tiếng nói
1.5.1 Tổng hợp theo câu äm
15.2 Tong hợp formar theo quy luật
1.5.3 Tổng hợp ghép nội
1 ông hợp xích chuỗi
1.5.5 Đánh giá các phurơng pháp tổng hơn tiếng nói
CHIƯƠNG 2: CAC TITANIT PILAN CO BAN CUA II 4
TONG IIGP THING NOI 412
2.1 Giới thiệu hệ tông hợp tiẳng nói
2.2 Thành phân xử lý ngôn ngữ tự nhiễn
2.2.1 Phân tích văn bin
2.2.2 Chuyển ký tự thành âm thanh
3.2.3 Sinh ngôn điệu
2.3 Thành phân xử tín hiệu số
CHƯƠNG 3: MỘT SỐ PHƯƠNG PHÁP CẢI TIẾN 50
CHẤT TƯƠNG GIỌNG TONG HOP s0
3.1 Các phương pháp cải tiên chất lượng giọng tổng hợp
3.1.1 Mã hình trường đô
3.1.2 Thay đi biên đi
3.1.3 Tiêu chỉnh đường tân số cơ bản
3.1.3.1 Sứ đụng mỗ hình Fuiisaki hiệu chỉnh đường F0
3.1.3.2 Mô hình Ti:
3 1.3.3 Phân lớp đường tbanh điện trong ngữ cảnh cầu
GUƯƠNG 4: LIỦ NGHIỆM CẢI TIỀN GIỌNG DỌC TONG 71
TRONG PHAN MEM VNVOICE1.0 71
jú VnVoicc và một số giọng tổng hợp tiếng Việt hiện nay
Trang 45
MO DAU
Thận đạng và xử lý tiếng Việt (ngôn ngữ và tiếng nói) là nến tâng thiết yêu của phát triển và ứng dụng công nghệ thông Gin ở Việt ramu, Giới nghiên cứu và công nghiệp trên thể giới do theo đuổi các nghiên cứu cơ bản và công nghệ này tử
tráng chục rằm qua, gần đây đã cảng thu được nhiền thành tựu quan trọng Khác với các sân phẩm khác của công nghệ thông ti, sản phẩm vẻ tiếng nói, ngôn ngữ Việt không thể mua được từ nước ngoài, chí có thẻ do người Việt làm ra trên cơ sở tiếp thu được các thành tựu khoa học công nghệ trên thế giới và theo đuổi lâu đài
Thận dạng tiếng nói nhằm chưyển thông tin từ tiếng nói con người vào máy
tính, và tổng hợp tiếng nói nhằm tu động tao ra tiếng người nói bằng mấy tinh
Củng với sự phốt triển nhanh chóng của công nghệ thông từ nói chưng và mang
Internet nói riêng, nhận dang va tổng hợp tiếng nói cảng ngày cảng tró nên là một
xu hướng tất yêu cho những máy tính thế kỉ 21 Trong vòng SỐ nằm qua, rất nhiều thuật toán được dẻ xuất và triển khai trên các hệ tự dộng nhận dang và tổng hợp tiếng nói Trên thế giới đã có nhiều bộ phẩn mêm thương mại đảnh cho tiếng Anh
ubu IBM ViaVoive (hip./www4.ibm.com/sofiware/speecly), Dragon Naturally
Speaking, L&H Voice Xpress Những phan mềm này cung cấp các chức năng chủ
yêu như: nhập văn bản vào máy, đọc văn bản thành lời, đuyệt Web bằng giọng nói
Công nghệ tổng hợp và nhận dạng tiếng nói có ý nghĩa rất lớn trong giao tiệp người-máy: thay vỉ giao tiếp với máy tỉnh qua những biểu tượng và cửa số, các máy tinh trong Lương lai chỉ giao tiếp với con người bằng những mệnh lệnh đơn giản
Hiện nay đã có nhiều phương pháp tổng hợp tiếng nỏi được nghiên cửu và
ông hợp bằng ghép nối, cách
ứng đựng trong thực lễ như: tổng hợp theo cầu âm, ,
diệu hóa đường F0 và hiện tượng, ngôn diệu, tâm lý, Tuy nhiên, vấn dễ tổng hợp giọng tụ nhiên cho tới nay vẫn là một vấn để mở, ngay cá trong các ngôn ngữ châu
Âu thông đụng như tiếng Anh Đó là đo chất lượng tiếng nói tổng hợp còn phụ thuộc vào rất nhiều các yếu tổ khác như
Bỏ đơn vị ngữ cảnh (bộ thươn số cấu âm hoặc đoạn sóng âm ngắn),
ø _ Bệ chuẩn hóa văn bản,
Trang 5
© _ Tối ưu hỏa chọn dơn vị ngữ cảnh,
© Các hiện tượng ngỏn ngữ Hếng Việt: định ảm, biến thanh, năng lượng,
trưởng độ thanh,
© _ Các hiện tượng ngôn diệu: thanh điệu trong câu, trường dộ
Tổng hợp tiếng Việt hiện nay mới dạt ở mức dộ dọc rõ ràng trong khi các
từng dụng thực tế đôi hỏi giọng tổng hợp phải tự nhiên như người nói
Tiên cơ sở dó, xuục dịch của luận văn nhằm nghiên cứu và thử nghiệm ruột
số kỳ thuật và mô hình xử lý ngôn điệu để nàng cao chất lượng giọng tông hợp trong phần mềm tổng hợp tiếng Việt VnVơice 1.0
Tayận văn sẽ được chía thành +1 chương bao gồm:
Chương 1: Tổng quan về tổng hợp liếng nói Chương này trình bày khái
quất về tổng hợp tiếng nói và lịch sử phát triển cũng như img dụng của nó Lon nữa, chương 1 còn giới thiệu một sé kỹ thuật tổng hợp tiếng nói đã được sử dụng trên thể giới
Chương 2: Các thành phẫn cơ bản của hệ thêng tổng hợp Chương này
giúp người dọc hiểu rõ hơn về một hệ thông tổng hợp bao gồm những thành phần
co ban nao
Chương 3: Một số phương pháp cải tiễn chất lượng giọng tổng hợp Chương nảy trình bảy việc phân tích và đánh giá chất lượng giọng tổng hợp theo các cách liệp cận khác rửuau
Thử nghiệm cải tiến giọng đọc tổng hợp tiếng Việt trong
Chương
nhân mềm VnVoice Chương này là chương trọng tâm cửa luận văn Chương tãy
ap dụng một số phương pháp cải tiến chất lượng vá kết quá
Trong luận văn, các trích đẫn của các tác giả khác liên quan đến lĩnh vực nghiên cửu đặt trong đâu ngoặc vuông []
Trang 67
BANG CAC TU VIET TAT
CART Classification and regression trees
(Cây phân lớp hội quy) CSDT ơ sở dữ liệu
FO Formant 0 (Tan s6 formant co ba
HS Harmonic/Stochastic
LPC Linear Prediction Coding
MOS Mean Opinion Score
NLP Natural Language Processing
MLPS Multivariate Adaptive Regression Splines
PSOLA Pitch-Synchronous Overlap and Add
TD-PSOLA ‘Time-Domain Pitch-Synehronous Overlap and Add
Trang 7BANG CAC THUẬT NGỮ ANH-VIỆT
Corpus Cơ số dữ liệu tiếng nói
iphone Hai nữa của hai âm vị liên nhau
Trang 81.2 Lịch sử phát triển và ứng dụng tũng hợp tiếng nói
Tạo ra tiếng nói bằng máy là một ước mơ của loài người và là mục tiêu thách thức các nhà khoa học trên thể giới nhiều thẻ kỉ qua Máy nói đầu tiên do Wolfpang Vơn Kempelen chế tạo năm 1791 mỏ phỏng bộ máy phát âm của người đã có thể
phát ra được một vài âm tá Ở đầu thế kỉ này vào năm 1939, máy VODER của nhà
Khoa hoc Dudley, phòng thí nghiệm AT&T BELIL I.ABS đã thành công trong việc
mồ hình hoa cộng hướng của ông thanh bằng linh kiện điện tứ liệ thông điều khiển
nhân sông 10 bộ cộng hưởng bằng các nhóm và chiết áp đã có thế tạo ra một số câu
néi có thể nghe được Từ giữa những năm 1950 trở lại đây, sự ra đời của máy tinh:
diện tử đã cho phép tao ra một cách có hệ thống các tham só để diễu khiển bộ tông,
hợp tiếng nói Cũng với sự phát triển như vũ bão của khoa học vả công nghệ thập kỉ
80, 90, kỹ thuật tổng hợp tiếng nói đã có những bước phát triển rất quan trọng cb su đông góp rất lớn của máy tính và xử lý tín hiệu số Sự tiền bộ này được thúc đây do:
* Khé ning tinh toan của rnáy tính nhanh lên gấp nhiều lần, số lượng dữ liệu
được lưu trít ngày càng lớn, trong khi giá thành tgày cảng rề
cũ sở đữ liệu âm thanh và văn ban
© Kh nững xây đựng và truy cập lới œ
ngày cảng để dàng
* Công nghệ nhận dang tự động âm thanh tiếng nói được hoản thiện với độ
chính xác ngày cảng cao, trợ giúp việc tự động phân đoạn âm thanh tiếng nói
Trang 9cho phép lạo ra kho âm thanh rỗi lớn phục vụ cho việo phân tích và
tổng hợp tiếng nói
+ _ Nếu tiếng nói cũng như chữ viết lá chuỗi liên tiếp các đâu cơ bản được định nghfa rõ rằng và mang Linh hiển thị, thì các vận để nhận đạng cũng như tổng hợp tiếng nói đã dược giải quyết cách dây 20 năm Tuy nhiên bản chất của tiếng nói rất phức tạp, la biệu ứng liên cầu âm quyện các âm tổ thành dòng
thanh liên tục và mang ngôn điệu đưới đang sóng truyền vật H, nên nhận
dang và tổng hợp tiếng nói trở nên hết sức khó khăn, Mặc dủ các nhà khoa
học trên thể giỏi của nhiêu mước khác nhau với nhiều trường phái khác nhau
đã nghiên cứu và đưa ra nhiêu công trình thục lế, nhưng việc tổng hợp tiếng,
nói từ văn bản đã chưa bao giờ là hoàn háo, khi động chạm tới những ngôn
ngữ có số lượng từ không hạn chê với đòi hỏi đạt tới mức tự nhiên trồi chảy
như tiếng nỏi con người
Mặc đù vậy, những kết quả đạt được còn hạn chế, nhưng cũng đã phản nào dược ứng dung có thẻ nói là thành công trong nhiều lĩnh vực cụ thẻ, dem lại những, kết quả nhất định
Các ứng dụng nảy tập trung ở các lĩnh vực sau
" Hạc ngoại ngữ
"Tổng hợp từ văn bản có thể hỗ trợ cho người nước ngoài học ngoại
ngĩ Ứng đựng này đỏi hỏi tiếng nói tống hợp phải có chất lượng tát IIẫu
hết các phần mềm loại này chưa thực sự dáp ứng dược yêu cầu của người sử
dung
* Trợ giúp người tùn tật
Hê thẳng tổng hợp tiếng nói cùng với hệ thông quang học nhận dang chữ viết có thể đọc các văn ban in cho người mù: Giúp người mất khả nắng nói có thể nói qua hệ théng TTS, bằng cách soạn thảo vẫn bản bằng ban phim va phan mém thiết kê cho phép ghép nhanh các câu Giáo sự val ly thiên văn hơc người Anh Stcphan Hawking, người đưa ra lý thuyết vụ nỗ
BIG BANG giảng bài cho sinh viên thông qua các hệ thẳng này
» Truyén thông tin bằng âm thanh
Trang 101
Mội hệ thống lồng hợp Hồng nói rất hữu ích cho v
kiểm tra
chính tả các văn bản trên may tinh vi khi nghe dé dang phát hiện lỗi hơn so
với kiểm tra bằng rất
Trong các hệ thống đo đạc điều khiển, khi mắt phải thục hiện các quan sát thì các thông tỉn bằng âm thanh rất cân thiết Ngoài ra bản tin và mệnh lệnh phát ra bằng ầm cũng dễ tiếp thu hơn thông bảo viết
* Trong lưu trữ và khai thúc đữ liệu
Giỏ đây có thê tích kiệm không gian lưu trữ âm bằng cách thay thể bằng các văn bân tương ứng, tắt nhiên là trong trường hợp giọng người nói là khéng quan trong Hon thé cac vin bản bảng chữ bao giờ cũng dễ sắp xép va tim kiểm hơn đt liệu âm thanh
» Trong viễn thông
Tiếng nói tổng hẹp đã được sử đụng nhiều trong các ứng dung trả lời trục tuyến TVR, trên thiểu mạng viễn thông hiện đại như Mỹ, châu Âu và Thật mà tiêu biển là dự án MIVA với các địch vụ điện thoại kích hoạt bằng thanh da ngữ trực tuyển
Các hệ thông thông tbrn tích hợp thông điệp hợp nhất (Unified
Meessaping) có khả năng đọc tự động nội đung các bức thư điện tử và các
bức FAX và cáo thông tin trên Net qua máy diện thoại có dịnh hoặc các máy
đi động
Truy cập thông tin qua diện thoại và tự dộng tra cứu danh bạ diện thoại hai chiên bằng máy điện thoại
* Thông tin da phương tiên
Trong kỹ nguyên thông tin, hệ thống tống hẹp tiếng nói là một nửa
bắt buộc cũa thông tin hai chiêu giữa người vả mày
Hệ thống địch tự động được coi là một thành tựu khoa học lớn của
nhản loại vảo những năm dâu thế kỹ 21 phải sử dụng hệ thống tổng hợp tiếng,
nói ở đâu ra
+ Các ứng đụng khác
Trang 11Tổng hợp tiếng mỏi được ứng dụng trong các trò chơi, trong các thiết bị bảo động, báo chát, hệ thông chống trộm, các thiết bị gia định và cảo thiết bị giải trí khác
đề Tổng hợp tiếng Việt
Tổng hợp tiếng nói từ văn bản là một ngành khoa học nhận dạng liên quan
đến nhiều ngành khoa hoc khác như: ngồn ngữ, xứ lý tin higu va khoa hoc may tinh
Hiện nay với nỗ lực nghiên cứu của cáo nhà khoa học công nghệ trên thể giới, chật
lượng âm thanh tổng hợp hiện tại đã vượt qua ngưỡng nghe hiểu đơn giản và dang tiến dân tới múc độ nói tự nhiền của con người Trong một số ứng dựng ngôn ngữ tiẹp, chất lượng âm thanh đã gần như không thể phản biệt với ngôn ngĩữ tự nhiên
Trong xu thể hội nhập thế giới, cùng với sụ hắp dẫn của khoa học nhận dạng,
ở Việt Nam trong những năm vừa qua đã có những đẻ tài nghiên cứu về tống hợp tiếng nỏi và bước dau da dạt dược những thành tựu nhất dịnh Công nghệ cho việc tổng hợp tiếng nói từ văn bản có số từ vựng không hạn chế chất lượng cao có những phức tạp chung là một lê, song một vẫn đề nữa là nó còn phụ thuộc từng ngôn ngữ riêng biệt Không thể lấy các phản mềm tổng hop tiếng nói Anh, Pháp, Đức, Nhật,
để đọc văn bản chíữ Việt IIơn nữa tiếng Việt là một ngôn ngữ đơn âm đa thanh: điệu Vì vậy không ai khác mà chính là các nhà khoa học Việt Nam phải tự tiến
hành xâu đựng công nghệ tổng hợp tiếng nói cho mỉnh
Việt Nam dang bước vào thời kỉ phát triển nhanh chóng về CNTT, nò cho phép chủng ta có những nên tảng khoa học, cơ sở vật chất 48 co thé nghiên cứu
cũng như triển khai các ứmg dung vẻ khoa học công nghệ trong cuộc sông
1.3 Đặc điểm ngữ âm tiếng Việt
Khi giao
con người phát ra những chuối âm thanh nhất định, la gọi là
dòng ngữ lưu (uHeranee) Trong từng dòng ngữ lưu, nẻu đem chia cắt chúng ra, la
sẽ thu được những đơn vị cấu thành nhỏ hơn, đó là âm tiết, âm tổ và âm vị Trong,
do, am tiết là don vị phân chía tự nhiên nhất trong lời nói, là dơn vị phát âm nhỏ nhất Mỗi âm tiết là một tiếng
Vị dụ lời nói: "Hà Nội lá thủ đô của nước Việt Nam” có 9 âm tiết.
Trang 1213
Về mặt sinh lý — vật lý, âm điết được định nghĩa là một đơn vị mà khi
phát âm được đặc trưng bởi sự căng lên rồi chủng xuống của cơ thịt trong bộ máy phát âm
Trong mỗi âm tiết, chỉ cỏ một âm tổ có khả năng tạo thành âm tiết (gọi là âm
tổ âm tiết tỉnh), còn lại là các yếu tô đi kèm, không tự mình tạo thành âm tiết được
Âm tổ âm tiết tính thường được phân bổ ở trung tâm, làm hạt nhân am tiết Đó thường là các nguyên âm Điều này din đến hệ quả là một âm tiết khi được phát ra thì phần năng lượng tập trung nhiều nhất ở phân giữa âm (cỏ biên độ cao), đi vẻ đầu
và cuối âm tiết thì năng lượng giảm dẫn (xem hình 1.1)
Hình 1.1: Cụm từ "âm tiết tiếng Việt ” thể hiện trên sóng âm Mỗi âm tiết có
biên độ lớn ở giữa âm và nhỏ dan ở đầu và cuối âm
Tiếng Việt là tiếng đơn âm có thanh điệu Nó là ngôn ngữ có kết câu âm tiết tính Một đặc điểm của tiếng Việt là âm tiết trùng hình vị (đơn vị nhỏ nhất có
nghĩa) Nói cách khác, một âm tiết là một hình thức biểu đạt của một hình vị Ví dụ,
từ học sinh có hai hình vị, mỗi hình vị có vỏ ngữ âm là một âm tiết là học và sinh
không bị nối thánh "các anh”, "cảm ơn” không bị đọc thành “cd mon”,
Do mỗi âm tiết là vỏ ngữ âm của hình vị nên khác với các ngôn ngữ Âu-Ân,
tiếng Việt có số âm tiết hữu hạn với 17000 vỏ ngữ âm cỏ khả năng và 6900 âm tiết tồn tại thực
Trang 13Am tiổi, hình vị tiếng Việt cố định, không thay dồi theo ngữ pháp về thờ, giống và số như các ngôn ngữ khác Âm tiết tiếng Việt có cầu trúc chặt chế với
các loại âm ở các vị trí cỗ định trong thành phần âm tiết
Một đặc điểm nổi bật khác của tiếng Việt là thanh điệu Mỗi âm tiết đều
mang một thanh điệu nhật định Thanh điệu là một tập hợp những đặc trưng có liên
quan đến dé cao (phụ thuộc tần số rung động của dây Hưnh âm) của thưnh cơ bản trong, âm tiết Nó được thể hiện trên tất cả những bộ phận hữu thanh trong âm tiết,
tăng giảm của tần sổ) trong quá trình thể hiện Vì vậy, mỗi thanh điệu cẻ thẻ được
miêu tä ru một sự kết hợp của hai thông số nói trên
TIệ thông thanh điệu tiếng Việt gồm sáu thanh là ngang (không đâu), huyền, ngã, hỏi, sắc, và năng Thanh điệu trong tiếng Việt kết hợp với các thành phân của
âm tiết tạo thành các từ khác nhau, ví dụ như: thanh/ thánh/ thànb/ thạnh Trong
tiếng Việt không phải vẫn nào củng phát âm đủ sáu thanh Dỗi với âm tiết đóng chỉ
có hai thanh sắc và nặng, ví dụ: tắc, tặc
Ngoài các tính chất ngữ điệu như các ngôn ngữ Âu-Ấn, tân số cơ ban FO 14 thành phan chính của hệ thẳng thanh điệu tiêng Việt tạo nghĩa khác nhau cho âm tiết Hệ thống thanh điệu tiếng, Việt tạo nghĩa khác nhau cho ầm tiết Hệ thông than:
điệu tiếng Việt là loại phức tạp nhất trong các ngôn ngữ đơn lập âm tiết tỉnh (tiêng,
Thái cỏ 5 thanh, tiếng Trang Quốc có 4 thanh)
Trong Hếng Việt, âm tiết có câu trúc chặt chẽ và ổn định, mỗi âm vị l4 một vị trí nhất định trơng âm tiết, tạo thành câu trúc âm tiết tiếng Việt
*Cấu trúc âm tiết tiếng Việt
Aum tiết tiếng Việt được tạo thành bởi ba thánh phần có mức độ độc lập khác
nhau là phụ âm đầu, phần văn và thanh điệu Về cấu trúc, âm tiếng Việt có cầu trúc
hai bậc Bậc một gồm ba thành phân là thanh điệu, phí âm dầu và vàn Đậc hai là các thanh to của phần vẫn gồm âm đệm lả bản nguyên âm, nguyên âm chính và phụ
Trang 1415
âm hay bản nguyên âm cuối Các thành phan âm tél duge trink bay nhu hinh 1.2
Đặc điễm âm đầu
«_ Khi phát âm, luồng hơi bị căn tré do sự xuất hiện chướng ngại vật trên lỗi ra của đường không khí Điểm có chướng ngại goi là vị trí cầu âm
* 136 may phat âm không căng thẳng toàn bộ mả chỉ cảng thẳng phản cơ thịt ở
vị trí cầu ômL
e_ Luống hơi ra mạnh
Phân loại
+ Phân chia theo mối quan hệ giữa tiếng thanh: và tiếng Ân trong cấu tạo
của âm đâu
Giác phụ âm đầu được chứa thành các phụ âm vang (Hếng thanh nhiều hơn tiếng Ôn) và phụ âm ồn Trong các phụ âm ẻn lại chia thành các phụ âm hữu thanh (phát âm có sự tham gia của tiếng thanh do đây thanh rung động) và
phụ âm võ thanh (phái âm không có sự tham gia của tiếng hanh)
Nhém phụ âm vang só thể coi là nhóm trưng gian giữa các nguyên âm và
phụ âm nu Khi phát âu các phụ âm vang, chuống ngại được tạo Hánh
nhưng có thể là chỗ tắc yêu hoặc không khi không những trực tiếp vượt qua
chỗ cỏ chướng ngại mà còn đi ra tự đo qua mũi (như các phụ âm [m], [n]
trong tiếng ViệU,
Trang 15— Phụ âm tắc: tạo thành khi hai khí quản tiếp xúc nhau, tạo thành ché tae, can
trở hoàn loàn lỗi ra của luỗng không khí Ví dụ như các phụ âm [p], [b], [đ]
[tl
— Phụ âm tạo thành khi hai khí quản nhích lại gần nhau, làm cho lỗi ra của luỗng không khí bị thu hẹp: luẳng không khí đi qua khe hẹp này cọ xát
vào thành của bộ máy phát âm Ví dụ, các phụ âm [v], [s] [h]
Phụ âm rung; tạo thành khi các khi quân để rung động (như đầu lưỡi, lưỡi
con hay môi) nhích lại gần nhan tạo thành một khe hé rit hep hay một chỗ
êu, luỏng không khí đi ra mạnh làm cho các khí quân ấy rung lên Vi du
phụ âm [r]
Trong các câu âm gũa phụ âm, người la thường phân biết ba giai
lắc y
đoạn:
—_ Giai đoạp tiển: khí quản phát âm chuyển đến vị trí cầu âm
—_ Giai đoạn giữ: khí quản phát âm ở vị trí cầu âm
—_ Giai đoạn lùi: khí quân phát âm rời khôi vị trí cấu âm lai giai đoạn đầu gidéng nhau ở bất kỳ âm tắc nào Về giai đoạn thứ
ba, cân phân biệt cáo tiểu loại âm tắc: âm mổ, âm mũi, âm tắc-xát và âm khép
+ Phau chia theo vj tri tao ra tiễng an
‘Theo vj tri cdu tac tiéng ổn, các phụ ãm được chia ra thành các loại chính: phụ âm môi, rằng, ngạc mạc, lưỡi con, vất hẳu, thanh bằu
Theo khí quản chủ động, các phụ âm được chia thành các loại: phụ âm môi,
lưỡi trước, lưỡi giữa, lưỡi sau, lưỡi con, vế! hậu, thanh hầu
Trong các nhóm này, có một số cần chia nhỏ nữa Ví đụ trong các âm môi,
¡ môi-môi ([b], [p], [ra] Với các âm một môi, thường gọi là âm môi-răng ([v]); các âm lưỡi trước thường chia thành nhiều nhóm nhà nhưng đáng chú ý là âm đâu lưỡi và âm
quất lưỡi,
Trang 167
Theo như lược đỏ âm tiếng Việt ở trên thì phần vẫn day 48 gém ba thánh
phan la âm đệm, âm chính, và âm cuêi Ví dụ như âm tiết /teán/ có phần vân là
/oan, trong đỏ âm vị /o/ là âm đệm, âm vị /a/ là âm chính vá 4w là âm cuồi
1.3.2.1 Âm đệm
Đông vai trò là âm lướt trong kết cầu ãm tiết Âm dệm ảnh huông dến cách
mỡ đâu của âm tiết (bên cạnh phụ âm đầu) Ví dụ: chữ “toàn” khi phat 4m có hiện
tượng trêu môi đo tác động của âm độm/-u-/, con chit "an? thì không có hiện Lượng: tròn mỏi do không có âm đệm
1.3.2.2 Âm chính
Tả nguyễn âm âm tiết Linh trong âm liết Âm tiết chính có thể là một nguyễn
âm đơn hay nguyên âm đồi
«Khi phát âm, luồng hơi không bị cân trổ bởi lưỡi, răng hay môi
«© Bộ máy phải âm căng thẳng taàn bộ
© Ludng hoi ra yéu hon phu am
tự do Nguyên âm không có vị trí cầu âm vì các khí quản không tạo thành khe, cũng
không tạo thành chỗ tắc Các nguyên 4m cũng không thể phản loại theo tiếng thanh,
vì bình thường, bắt kỳ nguyên âm nảo cũng có tiếng thanh
Các nguyễn âm chí khác nhau ở các hoạt động cũa khi quản phát âm, trong,
đỏ quan trọng nhất là lười Vì sự thay đổi vị trí cửa lưỡi gây ra sự khác nhau rất lớn
giữa cáo nguyên âm Lưới chuyển đông lới-lui vả lồn xuống trong khoang miệng và
tạo nên những tương quan phức tạp giữa các khoang cộng mình (khoang miệng và
mũi), làm thay đối hình đáng vã thẻ tích của chímg Mỗi tròn lại và đưa về trước,
Trang 17lâm kéo đài lỗi thoát của luông không khi, hoặc môi chanh ra, lam céng minh
trường phía trước ngắn lại
Người ta thường phân loại nguyên âm: theo vị trí của lưỡi, độ năng của lưỡi
và hình đáng mỗi
«Theo vị trí của lưới
Gồm các nguyễn âm đông trước (khi lưỡi dồn về trước), nguyên âm dòng sau (khi luỡi dồn về sau) và nguyên âm dòng giữa (khi lưỡi ở giữa miệng
nâng lên) Ví dụ, trong tiếng Việt, các nguyên âm đòng trước là ]ïJ, [s], [ế] nguyên âm đỏng sau là [ư], [o], [6], nguyén am dòng giữa là [ư], Jol, [al
© Theo dé nang cia Indi
Các nguyễn âm được chúa tủy theo từng ngôn ngữ Độ nâng của lười tương ứng với độ mớ của miệng nên các nguyễn êm có độ nâng cao côn gọi là
nguyên âm hẹp, nguyên âm có độ nâng thấp còn gọi là nguyên âm mở Trong
ngữ âm học dại cương không có một cách phân loại tuyệt dối theo độ nâng,
lưỡi vi mỗi ngôn ngũ có một hệ thếng nguyên âm khác nhau Ví dụ, các nguyên âm đòng trước trong tiếng Pháp có 4 độ nâng, các nguyên âm trong tiếng Đúc có 5 độ năng, tiếng Nga có 3 độ nâng, liéng Anh cé 6 độ nâng, Trong tiếng Việt, các nguyên 4m đơn có thể chia thành 4 nâng:
Bang 1.1; Phân chia nguyên âm theo độ nâng của lưỡi
Độ nâng | Gồm các nguyên âm
Tgp Gi), fu), Tloihep |[#],[u],
© Theo hink ding môi
Các nguyên âm được chia thành nguyên âm tròn môi ([u], [ôi], [o]), nguyên
âm không tròn môi ([ï], [8] [e] [w] [e], [a]) Sự trên môi rõ nhất ó nguyên
am khep và yếu nhất ở nguyễn âm mở
Trang 1819
1.3.2.3 Am cudi
La 4m két thúc âm tiết Các âm tiết tiếng Việt thường đối lập bằng những
cách kết thúc khác nhau Một số âm tiết kết thúc bằng sự kỏo dài và giữ nguyễn, ví dụ: ma, di, cho, Số âm tiết khác kết thúc bằng cách biến đổi âm sắc của âm tiết ở
phân cuối do sự đóng lại của các âm cuôi tham gia, ví đụ như một, mai, văng
'Trøng trường hợp dẫu, ta có các âm cuối lả âm vị /zero/, trong trưởng hợp sau ta có
các âm cuối là những âm vị bán nguyên âm hoặc phụ âm
Hệ thống âm cuối tiếng Việt bao gồm hai bán nguyên âm là /j, ø/ và sáu phụ
âm ¿m, n, ng (nh), p, †, œ/
1.3.3 Thanh điệu
Thanh điệu là loại âm vị giêu đoạn tính, nó được biểu lộ trong toàn bộ phần hữu thanh của âm tiết Ở mức vật lý, phần thanh của thanh diệu chính là dường rét của tần số âm cơ bán HO Về cám thụ, thanh điệu là sự căm nhận về thay đổi của cao
độ lân số cơ bân EO của âm tiết
Sau thanh điệu tiếng Việt được chia thành hai nhóm lớn bằng và trắc Thanh
không dâu và thanh huyền thuộc loại thanh bằng só đường rét tương đối đơn giản Thanh ngã, thanh hỏi, thanh sắc và thanh nặng là những thanh trắc có đường nét thanh điệu phúc tạp Các thanh ngang, sắc, ngã thuộc âm vực cao, còn các âm tuyển, hồi và nặng thuộc âm vực thấp
Trong các cổng trình nghiên cứu đã được công bỏ, đường nét thanh điệu
tiếng Việt cho những âm tiết rời rạc (phương ngữ Bắc Bộ) được đánh giá tương đối thống nhất Ngoài tính chất thanh tính, các thanh điệu còn gó một số đặc trưng phi điệu tính như hiện tượng yết hầu hoá, thanh hậu hoá tạo thành hệ thống các đặc
trưng phụ để phân biệt các tưmh điệu đặc biệt của thanh ngõ và sắc, [hanh hỏi, thanh nặng
*Phân loại âm tiết tiếng Việt
Phụ thuộc vào cách thức kết thúc, âm tiết tiếng Việt được chia thành 4 loại
như lrong bâng 1.2:
Bảng 1.2: Phân loại ầm tiết tiếng Việt.
Trang 19
Tả các loại âm liệt không có âm cuối, kết
1 |Âmmớ Ma, me,
thúc âm tiết bằng nguyên âm chính:
âm cuối kết thúc âm tiết lá một ban
2 | Âm nữa mở Mai, sau,
nguyên âm
3 |Âm đóng Thi âm cối là một phụ âm tắc vô thank Tap, hoc,
4 | Âm nữa đóng | Khi âm cuếi là một phụ âm mữi Lam, nganb,
1.4 Một số đặc trưng của âm vị về mặt âm học
Sự phân loại các âm vị về mặt âm học dã dược xây dựng, đựa trên âm phê Các máy phân tích âm phố cho chúng ta các ảnh phd (spectrogram), qua đó các âm
vị thể hiện rõ các đặc trưng ăm học: cao độ, cường độ, trường dé,
ở biều diễn phổ tiếng nói tại một thời điểm t, người ta đừng một biểu đỗ với trục ngang biểu diễn các tần số (Hz) tham gia câu âm thành âm thanh tại thời điểm t
vả trục dựng với cường, dộ tương, ửng (d}
úE
Hình 1.3: Phổ (spectrum) của một nguân âm thanh tại thời điểm t
Để biểu diễn phỏ tiếng nói theo sự biển thiển thời gian, người ta dùng ánh phổ với trục ngang hiểu diễn thời gian, trục đứng biểu điễn tần số, cường độ của
Trang 2021
môi sống có tần số f tại thời điểm t; được biểu diễn bằng 1 cham Nếu cường
độ cảng mạnh thì chấm biểu điện càng đậm
Ngoài ra còn có thẻ biêu điển ảnh phỏ của tiếng nói theo sự biển thiên thời
gian trong không gian 3 chiều Khi đó, phô thu được có dạng như thác nước và
người ta gọi đỏ là ảnh phỏ thác nước (Waterfall Spectrogram)
đỏ là những vệt formant, được đánh số từ dưới lên F1, F2, F3,
Dựa trên đặc điểm của ảnh phổ, am vị được chia thành 12 đặc trưng sau:
©_ Nguyên âm-không nguyên âm
Đặc trưng của nguyên âm: được thẻ hiện bằng các cau trie formant Co đặc
trưng nguyên âm là nguyên âm vả các âm vang Không cỏ đặc trưng nguyên âm
lả các âm ôn
© Phụ âm-không phụ âm
Đặc trưng âm học của phụ âm là có mức năng lượng thấp, riêu cỏ mức năng
lượng cao là nguyên âm
Có đặc trưng phụ ầm là các phụ âm vang vả ôn
° Béng-Tram
Những âm bỏng có tần số lớn, cỏn những âm trảm có tân số nhỏ Những âm
tram thường được đặc trưng bằng sự phần bỗ năng lượng tập trung ở phần dưới
của phổ
Trang 21Âm bổng gồm các nguyên âm hing trước, phụ âm răng, các phụ âm lưỡi
trước, lưỡi giữa Âm trầm là các nguyên âm hảng sau, các phụ âm môi va pla
am Ludi sau
+ Loãng-đặc
Dac trmg âm học của tiêu chí đặc lä có vùng formant 6 trung tâm của phố, đối
lập với loãng là trên phổ hình có một hay mot sé formant phan bó xa Irung tâm
Âm đặc bao gồm các nguyên âm không thuộc độ nâng cao, các phụ âm lưỡi, lưới giữa và lưỡi sau Các âm loãng bao gầm những âm có độ nâng của luỡi cao (nguyên âm khép), những phụ âm răng, phụ âm môi [ï], [u], [u] trong tiếng Việt + Ngắkhông ngắt
#6 là sự dôi lập giữa có và không có sự chuyên tiếp dột ngột giữa sự có mặt và
vắng mặt của âm thanh "Các phụ âm xát thường có khởi âm từ từ Ngược lại,
các phụ âm tắc thường có sự ngắt đột ngột sóng âm đi trước bằng một khoảng,
Những âm cũng là những âm có độ đi lớn, năng lượng lớn và có thanh công
tưởng thẻ hiện rõ trên phố hình
Âm cũng bao gồm các phụ âm mạnh và nguyễn ôm đặc Ấm lợi bao gồm những Thụ âm yến và các nguyên âm loãng,
+ 1iỡn thanh-vô thanh
#e là sự đổi lập giữa có bay không những dao động điều hỏa ở vùng tân số thấp
Âm hữu thanh bao gồm các nguyên âm, phụ âm vøng và phụ ôm hữu thanh,
Trang 22ˆ
* Mui-miéng (hay Miiknong mũi)
Phể hình của các âm mũi cĩ mật độ fornant đảy hơn so với các âm miệng tương,
ứng Ở các nguyên âm mũi giữa I1 và L2 xuất hiện thêm một formant phu, va
đồng thời cĩ sự giảm cường độ cũa F1 và F2
Trong tiếng Việt cĩ các âm mũi được thê hiện bằng các chữ cái; m, n, nh, nợ
« Giáng-khơng giảng
Các âm giảng là những âm trêm hỏa cĩ một hoặc một số các formamt của nĩ bị
hạ thấp so với các âm khẳng giáng Các nguyên âm trên mơi như [u], [ê], [e] trong tiếng Việt và những phụ âm đứng trước [u], [ð], [o] bị mdi hoa đều là
+ Thanh hẳu hỏu-khơng thanh hầu hảu
Các âm thanh hằu hĩa đặc trưng bởi tốc đồ biến đổi nắng lượng lớn treng một khoảng thời gian ngắn,
Trong tiếng Việt, âm thanh hầu hĩa đặc trưng bởi tốc độ biến đổi năng lượng
lớn ương một khoảng thời gian ngắn
Trong tiếng Việt, âm thanh hầu hĩa cĩ thể xuất hiện trong các âm tiết vắng phụ
âm đâu như ăn, uống, uễ, ội, hoặc trước các phụ âm hữu thanh, đặc biệt là trước [b], [đ], va [I]
1.5 Các phương nháp tổng hợp tiếng nĩi
Trong phân nảy, luận văn sẽ trình bảy khái quảt một số phương pháp tổng, hợp tiếng nĩi hiện nay và những đánh giá sơ bộ về từng phương pháp
1.5.1 Téng hợp theo cầu âm
Tổng hợp theo cầu âm sử dụng mơ hình phéng sinh học Trong rơ hình này, tiếng nỏi dược đặc trung khơng chỉ bằng tin hiệu âm thanh mả cả bằng vị trí của cảo
Trang 23cơ quan cầu âm, sự tham gia của khoang mdi, ap sual khéng khi trong phdi, hye
căng của dây thanh, Nó bao gồm hoạt động tương tác phi tuyển giữa nguồn kích (chân động dây thanh hoặc hỗn loạn không khÔ và ở kháng đâu vào thay đổi theo thời gian của ảng thanh Phương pháp nảy con dược gọi là tổng hợp theo mô hình
sóng trong ống thanh và mô hình hoá nguồn âm (chấn động đây
thanh, đỏng không khí hôn loạn) và sự tương tác của nó với ổng thanh Phương,
pháp này hiện nay chí hình thành trên lý thuyết, thục tế ngành khoa học phỏng sinh chua có đũ thêng tin dau da dé md phong theo cấu âm
Mô hình ỗng thanh
Cho các âm không phải lá âm mf ta chi can xem xét ông thanh cỏ thiết diện biến thiên từ thanh môn cho tới môi Ông thanh thay đổi liên tục, hình đáng của
chúng phải được xác định trong khoảng thời gian vải mini giây một lân Hình không
gian của ống thanh được mô tả theo vị trí của các cơ quan phát âm, lưỡi, môi,
ham
M6 hinh dược ứng dụng nhiều nhất là mô hình của Mermelstein với các tham sé mé ta vi tri co quan cầu âm.Từ mô tả cầu âm, có thể tính được các số liệu cho hàm mặt cắt ngang ống thanh ACx) 14 hàm số phụ thuộc khoảng cách đọc theo ống thanh từ thanh môn cho tới môi
Lan truyền sông trong dng thanh
Trong nhiều cách tính đặc trưng truyền sóng trong ổng thanh thì phương
phap ma tran chuối được áp dụng nhiều nhát Ma trận chuỗi (còn gọi lả ma trận ABCD) thé hiện ông thanh ở miễn tan số Với bát kỹ phần nào của ông thanh hay cia dng mili ta cé
Uma) eC BF 2 Nhằm he, lu mà
Trang 2425
Ma trận chuỗi E có thể thể hiện bal ky phan nào của bát kỳ độ đài hay phẳng cắt ngang nào của ống thanh Tỉnh cá phân tử của K rất đơn giản nên
ống có mặt cải không đi
Mô hình nguằn kích thanh Nguồn kích thanh cho tong hợp cầu âm sử dụng mô bình bai khối lượng của
Ishizaka va Ilanagan
Nguyên lý của tổng hợp cấu âm
Thuật toán tống hop theo mô hình cầu âm gồm các bước như nhau Từ đặc tả
về gác tham số cầu âm, ta tính được ma lrận chuối tù Hưmh miên đến môi Sau đó
tính hàm truyền và trở kháng đầu vào từ các phần tử A,I3,C,D của ma trận Chuyển
đối Fonrier ngược hàm truyền H và tỉ số trở kháng ta nhận được các giả trị Hrơng ứng ở miễn thời gian Sau đó tính áp suất Ap = Ps-P, Giá trị áp suất này tác động vào hộ công hưởng điều khiển chuyên động đây thanh của mô hình hai khối lượng tạo ra âm thanh tiếng nói
hư vậy, ngoài việc mê hình hoá các cơ quan phát âm, tổng hợp theo cầu âm
cần phải xây dựng lại loại quy luật ngôn ngữ và luật vật lý Luật vật lý mô tả như ở
trên xảo dịnh ánh xạ cấu hình ống thanh cụ thể cho tin hiệu ãm thanh, xác định mỗi quan hệ giữa hoạt đông cân âm và tín hiệu âm thanh tiếng nói Còn luật ngôn ngữ xác dịnh mối quan hệ giữa mô (â ngữ âm và các hoạt dộng cầu âm Thông thường, luật ngôn ngữ được thực hiện cho từng âm vị Khi cầu âm cho một đơn vị, luật này xác
định thời điểm các cơ quan chuyên động, tốc độ chuyển động và mối quan hệ giữa cơ
quan nay và cơ quan khác Vì phát ra một âm vị không nhất thiết phải cỏ sự chuyển động của tốt cá cáo cơ quan nên trong củng một thởi điểm cơ quan phát âm có thế được xác định cho âm vị khác Theo cách này thì tổng hợp theo cầu âm có thế tạo ra
các giải pháp hoàn hảo cho các trường hợp ngữ âm khó như cụm phụ âm, nguyên ân:
Trang 25phòng thí nghiệm bay sân phẩm mẫu mà chưa duợc ứng đụng thực lế Các bộ tổng hợp theo cấu âm lả công cụ lý tưởng để nghiên cửu vẻ cấu äm của tiếng nói vả
lứa hẹn về lâu dãi là giải pháp hoàn thiên nhất để tổng hợp ra âm thanh liếng nói
giống như tiếng nói tự nhiên của con người
1.5.2 Tổng hợp formant theo quy luật
Quy trình để xây dựng bộ tổng hợp formant theo luật gồm hai quá trình riêng, tiệt là quá trình phân tích âm thanh tiếng nói để lìm ra các quy luật và tổng hợp lại tiếng nói dựa vào cáo quy luật nay
Phân tích tìm quy luật
Quả trình phân tích được tiên hành trên cơ sở đữ liệu tiếng nói tự nhiên chủ
yếu bao gồm các âm tiết có dạng C-V (phụ âm — nguyên âm) hay C-V-C (phụ âm —
nguyên âm phụ âm) của nhiễu giọng nói Cơ sở đữ liệu này tốt nhất phải bao phủ được tất cả các hình thái ngữ ấm của một ngôn ngữ:
Thuật toán dự doán tuyến tỉnh LPC, được sử đụng trong quá trình phân tích
phổ để xác dinh miu ciia tin sé formant, bing théng formant, tin sé 4m cc ban 1'0 của tín hiệu tiếng nói Tần số từ FL dén F5 va bang théng W, dén W, 6 phan én dịnh của các âm tổ dược lưu giữ dưới dạng băng, Đỏ là các giá trị “dich” dé tao ra
một âm vị
Trong tiếng nói, phần mang thông tin dược quan tâm nghiên cứu nhiều hơn
là các phân chuyển tiếp giữa các âm vị tử nguyên âm sang phụ âm vả ngược lại (C-
V va V-C) Tan
O formant chuyen titp i âm vị nọ sang am vi kia được mô hình
hoà và tạo thành các quy luật tổng hợp cho kĩ thuật tổng hợp formant Nhu vậy về
cơ bản các quá trình nhân tích tim luật để mỏ tả sự thay đổi liên tục phổ của một ngữ lim bằng các formant và sự chuyển tiếp của các formant từ âm vi nay sang âm
vị khác Hệ thông quy luật bao gồm:
- Luật để xác dịnh vị trí đích các fomanant của mỗi âm vị trong ruột ngữ lưu
cũng như thời gian tồn tại của các vị trí đó
- Luật nhằm làm trơn các fozmant đích
- Luật để chuyển đổi các hàm thời giam thành đang sóng thanh
Tổng hợp tiếng nói dựa trên tập luật phân tích (hay tổng hợp formant)
Trang 26
Hệ thông long hop formant s@ cắn cứ vào các tha số điều khiển từ bằng tra cứu vả củng với thuật toán được xảy dựng cho sự chuyên tiếp là các tin hiệu điều khiển bộ tổng lợp để tạo các âm đoạn Lính
Thiết kế của bộ tổng hop formant duge dua trên mô hình tương tự đầu cuỗi
tạo tiếng nói do ‡rant đề xuất,
Tổng hợp fermani được phân loại theo cầu hình mắc các bộ cộng hưởng
song song hay nổi tiếp Hảm truyền của bộ tổng hợp khi mắc nói tiếp bộ cộng, hưởng tương tự như hàm truyền ống thanh vì vậy bộ tổng hợp nổi tiếp mô hình hoá, rất tốt cho các âm hữu thanh Cỏn bộ tống hợp với các bộ cộng hướng mắc song song sẽ tạo ra cho các âm tắc, âm xát và âm mũi một chất lượng, âm thanh tốt hơn
Sơ để khối bộ tổng hop Klatt
Tiệ tống hợp âm đoạn tính sử dung phân mềm của Klatt bằng cả cách nổi
song sơng và nói tiếp các bộ cộng hướng Đây là hệ thống tổng hop formant khá
hoàn thiện cho đến nay
Mô hinh tống hợp tiếng nói của Klatt [13], [14], [19] mô phỏng quá trinh tao
tiếng nói của con người dựa trên nguyên lý nguồn âm-bộ lọc của quá trình tạo tiếng,
nói, day 1A mé hinh téng hop formant han hợp bao gồm cả tưyển âm nổi tiên và
song sơng với nguồn ầm phúc hợp Sơ đồ khối bộ tổng hợp được trình bày trong hình 1.5 càng với các tham số cản thiết nhất dễ điều khiển nguồn âm và tuyến âm Một số tham số điều khiến khác thường được gán giá trị ngầm định, không trình bảy
ở đây
Trang 27
TNguẫn hữu thanh Him truyền đại của
tuyến âm chongnồn
AV 0Q TL nổi tiếp }
sn † ma
† FL lr2 m3
Nguồn âm xát tuyến am cho nguồn
Nguồn kich thích gồm 2 kiểu là: nguồn hữu thanh được tạo bởi các tín hiệu
tuần hoàn và nguằn vô thanh được sinh ra từ các tin hiêu ngẫu nhiên Nguồn hữu
thanh của bộ tổng hợp Klatt duge trình bảy trong hình 1.6,
Tĩnh 1.6: Nguồn hữu thanh
Nguồn kích hữu Hưnh được điều khiển bởi 4 tham sé 1a OQ TL, AV va TO, trong
đỏ:
© OQ: hé sé mé (Open Quotion)
© TL: dé nghiéng phd
Trang 28ˆ 5® _ AV: biên độ hữu thanh *
© TO: chu ly dao déng co ban của dôi đây thanh (=1/0)
Ham song hitu thanh co sé cé dang: aT*-bT*
Trong đó
T: biến thời gian
Các hệ số a, b là hàm của AV vA OQFTO
Ưu điểm của nguồn hữu thanh nảy là nó mô phỏng gan giống với nguồn âm
tự nhiễn, cường độ của tín hiệu cửa hâu được mô tả tốt tại cá thời điểm đóng vả mở
với hình đáng không đều, tốc độ nhanh hem tốc độ mở Cường độ của séng hừu
thanh tuân theo ham trên trong, suốt pha mở cũa chu kỳ bằng Ö trong thời gian cỏn lại Có thể điều chỉnh đẻ phố nghiêng hơn bằng cách sử dụng OQ hoặc TL đề phỏng
theo hiệu ứng đóng cửa hấu không hoàn toàn và sự làm tròn góc của sóng âm vào
lúc két thúc
Khuyét điểm cửa nguồn kích thích nảy là độ lớn phổ một số chỗ không đều
Do vay độ rộng đải thông của f[rrmmamt sẽ hơi mỏng khỉ nó gần lần số 600Hz (vị ti diễm 0 thực sự vụ thuộc vào OQ) Điện dé formant này thay đổi giống như xuất
hiện trong tiếng nói tự nhiên
Nghồn vô thanh để mô tả kích thích khi tạo các âm vô thanh là bộ sinh số
Mô hình tuyến âm
Tuyến âm gồm hai nhánh : nhánh nối tiếp và nhánh sơng song Mỗi nhánh sôm các bộ lọc bậc 2 diễn tá tần số cộng hướng vả phản cộng hưởng của tín hiệu tiếng nói (bình 1.7)
Trang 29Tĩnh 1.7(a) biểu diễn bộ lọc thông đài — bandpass (còn gọi là hệ truy hỏi bậc hai) mô tả tấn số cộng hưởng (điểm cực) Bộ lọc được điều khiên bằng các thông số
là tấn số lẫy mẫu, Lần số cộng hưởng và độ đãi thông của nó Các hệ số a, b, c được
thiết lập theo các hệ thức sau
r—oxp(—PI * BA )/ Fs)
e=-*?)
b=2*r*cos(2* Đi * BW * f / Fs) a-l-b-e
Trong đó :
Es : tân số lây mẫu (=1/Ts :Chu kỳ lây mẫn)
# : tân số công hưởng
BW : độ rộng đãi thông
PL: hệ số pi(Œ3.1415927)
'Tin hiệu ra yín) được lọc từ tin higu vao x(n) theo phương trình :
yf)=a*x(m)+b* yữn—1)+ e* yÚn—2)
Trang 3031
Hinh 1.7 (b) biéu điển bộ lọc chin dai-bandslap (con goi 14 hé khong
truy hỏi bập hai) mỏ tá tần số cộng hướng (điểm không) Bộ lọc cũng được điều
số phân công hưởng và bằng thông
khiển bằng các thông số là tân số lấy mẫu, tằn
của nó Các hệ số a”, b', ø` được thiết lập theo các hệ số a, b,c của bộ lọc thông dãi
với sự thay đối như sau :
‘Tin higu ra y(n) được lọc từ tin higu vao x(n) theo quan hé :
yn) — a? x(n) + b¥ x(n—1) + oF x(n— 2)
Chủ ý : các giá trị x(0), x(-1), v(), v(-1) được khởi tạo bằng 0 Biên độ cộng hưởng
A dược mô tả bằng cách nhân với hệ số ø (A*a)
Nhánh nẻi tiếp của tuyến âm gém 8 bộ cộng hướng mô tả 8 tần số formant, 1
bộ mô tả điểm cực cho âm mũi và 1 bộ phản cộng hưởng mỏ tả điểm 0 âm mũi
Nhành song song gôm bộ cộng hướng cho 6 tân số formant vả 1 bộ cho điểm cực
âm mũi Ngoài ra còn 1 bộ lọc xung cửa hậu, 1 bộ lọc thỏng thấp cho nguồn tiếng
n ngẫu nhiên, 1 bộ lọc thể hiện sự tám xạ âm qua muộng và mũi
Dic tinh tan x9
Đặc tính tán xạ dược mô tả bằng bộ lọc thông cao, diễn lâ sự tán xạ của âm
ra ngoài mũi hoặc miệng Trong tính toán thực tế, đặc tinh tân xạ được tích hợp vào
nguồn kích bằng cách công thêm đạo hàm bậc nhất của tín hiệu trước đó
Các tham số điều khiển
Mô hình tổng hợp formanL hoạt động đề tạo các tín hiệu Hếng mỏi khác nhau bang các tham số diều khiển, Các tham số điều khiển dược chia thành hai loại: các
Tham số toàn cục, thiết lập giá trị cho toàn phiên làm việc và các tham số thay đối
theo lừng khoảng thời gian ngắn, nhận các giá tị thay đổi theo mỗi khoảng cập
nhật, Mỗi tham số đều dược định nghĩa một khoảng giả trị (cực tiểu, cực đại) và mệt giá trị ngầm định khi khởi tạo
©_ Các tham số toÀn cục
Trang 31trủm phế với tân số cắt khoảng 4500-4800 Hz cho giá trị 10000 Hz Do vậy,
nêu sr thay dối, cân sử dụng bộ lọc với tần số cắt thích hợp
b) Khoảng cách cập nhật (ký hiệu là tị) : số ms của sóng âm được tạo giữa các lằn cập nhật các biển tham số thay đổi theo thời gian (đoạn đủ ngắn để các thuộc tỉnh của tiếng nói được coi là tuyển tính, bất biến) Giả trị 5 ms có
thé phan ánh hau hết các thay đối nhanh chóng của các tham số tiếng nó, tuy
nhiên thực tế chỉ cần sử đụng giá trị 1Õ ms đã là đô
c) Sé lugng formant trong tuyến âm nỗi tiếp (ký hiệu là nŸ) : là số lượng,
formant tính từ F1 đên tôi đa F5 thực sự có trong âm nỗi tiép
Giá trị ngầm định là 5, ứng với tân số lấy mâu 10000 mau/giay và người nói
có chiều dài tuyến âm lá 17 em (nghĩa là khoảng cách trung bình giữa các
formant là 1000 Hz) Muôn mô hình tuyên âm có chiêu đài khác 17 cm hoặc
tần số lấy mẫu thay đối thì cần phải thay đổi “mí”
© Céde tham sé thay đẫi theo thời gian
Giải thuật tổng hợp của KlaU sử dụng một bộ gồm 40 then sé dé điều khiển tạo ra tiếng nói tổng hợp Mỗi bộ giá trị của các tham số được gọi là một frame, mdi bộ này sẽ điêu khiến để tạo ra một đoạn tín hiệu tiếng nói có độ dài theo sự thiết lập của tham số toàn cục “u' Trong bảng 1.3 là ký hiểu và ý
nghĩa của một số tham số
3: Minh họa một vài tham số trong hệ tỏng hop Klatt
SIT Tên - | Ýnghĩa ae Nn Lin al
1 AV | Bién 49 am héu thanh 0 0 80 đD
Trang 32
8 FB 2450| 1300 3500 Hz 9.14 3300 | 2500 4500 Hz
10 F5 Tần số Fornant thứ năm 3850| 3500 4900 Hz
11 T6 Tân sô Formard thứ sáu 4900| 4000 4999 Hz
12 FNZ | Tầnsế của đểmkhông âm mũi 250| 200 700 Hz
13° AN | Biên độ Formamlämmũi 0 0 80 cB
15 A2 Biên độ Forrnant thứ hai 0 0 80 B
16 Bl Bang thông Formant thứ nhật su] 40 500 Hz
17 B2 Băng thông Formant thứ bai 70| 40 500 Hz
18 B3 Băng thông Formant thử ba 1I0Ị 40 500 iz l9 B4 Bang thong Formant thử tư 250) 100 500 Hz
30 B5 Băng thông Formant thử năm 200 | 150 700 He
21 B6 Băng thông Formant thứ sảu 1000| 200 2000 Hz
23 GAIN | Khuéch dai chung 48 0 80 a
24 BNP | Băng thông của điểm cực âm mối loo] 50 500 Hz
25 BNZ | Băng thông của điểm không âm mũi 100| 50 500 Hz
26 AB Biên độ phân chuyển ling cho drm xát 0 0 80 dB
Trang 33|30J Có bạ loại tổng hợp ghép nổi: tổng _ hợp chọn đơn vị, tổng hợp diphone (hai
nửa của hai âm vị liên nhau) và tổng hop theo miễn
Tổng hợp chon đơn vị sử dung CSDI tiếng nói lớn Trong quá Irình tạo cơ
cỡ đữ liệu, mỗi phát âm được thu âm sẽ được phân thánh các âm vị, âm tiết, hình vị,
từ, cụm và các câu riêng, Việc phân chia thành các đoạn có thế đùng một số các kỹ thuật như kỹ thuật phân cụm, chương trình nhận đạng, phân doan bing lay sử dụng,
công cụ xứ lý và gán nhần tổng nói trực quan Phương pháp nảy đòi hỏi cơ sơ dữ
liệu tiếng thu âm lớn và việc xử lý cơ sở đữ liệu này cũng khá công phụ
Tổng hợp điphone dùng CSDL Hếng nói nhỏ nhất chúa toàn bộ các điphone xuất hiện trong ngôn ngĩt Số lượng diphone phụ thuộc vào cách phiên âm của từng loại ngôn ngữ Chẳng bạn tiếng Tây Ban ra là 800 diphone, tiếng Đức khoảng
2500 diphane, méi diphane là duy nhất trong cơ sở đữ liệu Chất hượng tiếng nói
Trang 34thực hiện điền này, cách hiệu quả nhất là hm trữ trục tiếp trong kho dữ liệu từng,
đoạn âm thanh tiếng nổi, không phải hệ thông quy luật mô tả các đơm vị âm hay quy
luật của các tham số để tạo ra đơn vị âm
Trong ba phương pháp niêu trên, tổng hợp theo cau âm, tông hợp formanl theo quy luật và tổng hợp xích chuỗi thi tổng hợp xich chuối mang nhiều tỉnh công
nghệ, được quyết định bởi sự phát triển của máy tính Sa sánh về chất lượng trong,
ta phương pháp, thì tổng hợp xích chuối hiện nay đã thành công nhất trong việc tạo
ra tiếng nói không chỉ nghe hiểu rõ mà đạt được độ tự nhiên gần với tiếng nói của cơn người hơn cã Thân lớn các hệ thống tang hợp chat hrong cao cho các ngôn ngữ
cỏ trên thị trưởng hiện nay đều sử dụng phương pháp tổng hợp xich chuối nảy
Khi xây đựng một hệ thống tổng hợp xích chuỗi, tiếng nói chứa tập hợp các
đơn vị âm thanh cơ bản của mội ngôn ngữ, thông thường tương ứng với một chuối
Trang 35ngần các âm vị có lựa chọn được dọc, ghỉ âm và lưu giữ trong CSDI Các dơn
vị âm được lựa chọn, phân tích các tham số đặc trưng và sau đó cò thể được mã hoá bằng một phương pháp tuã hoá tiếng nói nảo đô tạo thành các mẫu cho một đơn vị
âm thanh Các mẫu hoặc các tham sỏ phản tích của chúng được lưu giữ lại trong,
kho đữ liện đơm vị tổng hợp
Khi tổng hợp một phát ngôn mới, cho trước mô tã ngũ âm của phái ngồn đó,
hệ thông sử dụng các quy luật để định vị đơn vị thích hợp, truy xuất chúng ra khỏi
kho dữ liệu và xích chuỗi chúng lại với nhau
Thông thường, một hệ thông tổng hợp xích chuỗi có ít nhất là một hoặc hai mẫu cho mỗi một đơn vị cơ bản Do các tham số về cao dé tan số cơ bân, độ đài và cường độ của các đơn vị này rất khác nhau (chúng được trích ra từ tín hiệu tiếng niôi
trong ngĩt cảnh khác nhau) nên khi tống hợp, hệ thông theo phương pháp tổng hop xich chuỗi phải thục hiện hai công việc chính
- Một là phải thay đổi các tham số siêu đoạn tính của các đơn vị để tiếng nói tổng hợp thể hiện được ngữ điệu thích hợp như mong miền
- Hai là phải thực hiện việc lựa chọn hay thay đổi các đặc tính của âm đoạn đơn vị tại các biên ghép nối của chúng sao cho việc ghớp núi là mịn nhất để đâm bảo chất lượng âm thanh tổng hợp tạo ra gẫn với tiếng nỏi tự nhiên
Giả sử có bai âm đoạn được xích chuỗi là I.(eR) và R(righU Chúng ta xem
xét tập hợp P của cáo than số {P,,P› , Pq}, các giá trị ”/ là ở điểm cuối cùng của
doạn L và PỆ lá ở điểm dầu tiên của doạn R Lâm tron được thực hiện tuyển tỉnh là phân bé đều khoảng cách (P-P) cho số Mụ vector {PLỚU, Pr! PuhY của đoạn L
va My vector (Pr", Pạ', DĐ Với P' là tham số sau khi làm trơn thi nội suy dược bằng công thức tính như sau
Trang 36Như vậy chất lượng của mội he Tổng hợp xích chuối dược quyết định bồi
các yêu tổ sau:
* Sự lựa chọn tập âm đơn vị cơ bản Trong đỏ ngữ am cúa ngôn ngữ tổng hợp
là yếu tố chính quyết định loại đơn vị cơ bản
œ Chảt lượng âm thanh và mức độ bao phú các tổ hợp âm doạn cần thiết cho
một ngôn ngữ của CSDL âm
+ Khả năng cưng cấp các tham số về ngữ điệu như đường nét tần sé co bin cường độ âm thanh và độ đải các âm cho bộ tổng hợp Các fham số nảy được
tiên đoán trong phản xứ lý ngôn ngữ của bộ tông hợp từ văn bán
+ Khả năng thay đôi tần số cơ bán FÓ và độ đài các đơn vị âm cơ bán phủ hợp
với ngĩ điệu được miêu tả ở đầu vào của bộ tổng hợp mả không ảnh hưởng
tới chất lượng cầm thụ của âm đó
® Thuật toán xích chuối và mô hình tín hiệu cho phép dễ dàng làm trơn hai
điểm ghép nồi của các âm đoạn được xích chuỗi
Chính vi hai yếu tó sau nên một số hệ thống tổng hợp xích chuỗi thực hiện
mã hoá tham số tiếng nói Với cách thể hiện bằng các tham số, đặc trưng phô và
ngữ điệu của tiếng nói được thay đối dễ dàng hơn mà không thay đối đặc tính nhận
dạng âm don vi co ban Phương pháp mã hoà tham số đặc trưng nhất là mã hoả tiên đoán tuyến tính LPC cũng như các biến thể của chúng
1.5.5 Đánh giá các phương pháp tổng hợp tiếng nói
Trong phương pháp tổng hợp cấu âm thi việc thu thập dữ liệu và cải đặt tập luật theo dữ liệu chuẩn rất phức tạp Nó hấu như không thể mỗ hình hỏa được đa số
sụ cử động của hrời hoặc đặc trưng khác của hệ thông phát âm một cách đây đủ Do
vậy, phương pháp nảy cực kỷ phúc tạp
Trong phương pháp tổng hợp Formamt, tập luật điều khiển các tần số
formant, biên độ và các đặc trưng nguân kích thích là lớn Hạn chế của phương pháp nảy là giọng nói nghe không rõ, máy móc, không tự nhiên đặc biệt với các âm
mũi ITem nữa, vì là tổng hợp theo luật nên không thế có được tập hật đây đủ bao
là khả
tiết được mọi giọng nói Ưu điểm nỗi bột của phương pháp way năng thay đối
Trang 37giọng người nói chỉ bằng việc điều khiển các tham số Một số hệ thong tang hop
sử đụng phương pháp tổng hp farmant như hệ tổng hop Klatt, Mutivex, DECtalk
Trong luận văn chủ yếu quan tâm vào cải tiến cho tổng hợp ghép nồi nên đặc tiệt chủ ý những nhược điểm của phương pháp này Tổng hợp ghép nổi được sử dụng phố biến nhật do tiếng nỏi tư nhiên hơn Tuy nhiên, nó cũng có raột số nhược
in CSDL tiếng mỏi lớn (chủ phí về thu âm và phân tích cơ sở
n âm thanh đã phân doan
thì kết quả thường không thôa mãn vì sụ gián đoạn ở biên cũ
điểm chỉnh sau dây:
dữ liệu tiếng nói rất tốn kém), khi ghép nối các thành pÌ
Sự không liên tục của năng lượng sinh ra âm lượng khác nhau của tiểng nói
Sự thay dỗi lớn thường tổn tại theo thời gian Hình 1.10 và hình 1.11 biểu
diễn sự gián đoạn của năng hượng trong miễn thời gian.
Trang 3839
Hình 1.11; Giản doạn năng lượng,
Khã năng của tống hợp ghép nói sinh tiêng nói chất lượng cao còn phụ thuộc vào chất lượng doạn tiếng nói long co sở dữ liệu Cáo đoạn tiếng nói thể hiện một
số tính chất cơ bán:
5 _ Cho phép tính toán những ánh hướng của các phát âm khác,
» Dé kétndi, han chế việc làm trơn trong ghép nói,
œ Không mắt thông tin, CSDI, không lớn,
© Pon vi tiéng noi dai giãm mật độ kết nối, khi đó chất lượng tiếng nói tốt
hơn.
Trang 39Việc đúng đơn vị dài bơn làm giảm lỗi ghép nổi dẫn đến CSDL lớn
hom trong khi ứng dựng yêu cầu giảm bộ nhé Vì vậy cân phải cân bằng giữa hai
yêu tổ Bảng 1.4 dưới đây đônh giá việc chọn lựa các đơn vị âm cơ bản cho Hỗng Anh Dây cũng là một cơ sở trong việc lựa chọn phương pháp tổng hợp
Bảng 1.4: Đảnh giá sự lựa chon đơn vị cơ bản trong hệ tông hợp tiếng Anh
lượng
Tử 3000008 La don vi co ban cau | Va diem: _
(60000) tạo nên câu «_ Tiểng nói chất lượng cao
» Thuật oán tổng hợp ghép nổi dơn
(4400 âm+âmcuỗi « - Khó xác dịnh biên âm tiết
Bán ảm|4500 Các âm tiết chia thành | Ưu điểm: —_
tiết (2000) hai phân phần « - Đảm báo sự chuyển tiếp giữa các âm
vi
= Lugt Hire Iron don gin
® _ Sĩnh Hễng nói tự hiên
Diphone |1500 Hai nửa của hai âm vị | Ưu điểm: SỐ
(1200) liễnnhau * _ Dám báo sự chuyển tiếp giữa cáo âm
vi
« Luậtlâm trơn đơn giản
«_ §inh trồng nói tự nhiễn
Ảmv |37 Dơn vị cơ bản của hệ | Ưu điểm:
thông âm vị học « Cần bô nhỏ nhỏ
Trang 40Trong chương 4 sẽ tập trung giải quyết các nhược điểm của tổng hợp ghép nổi, cụ thể trang phan mém VnVoice 1.0