Hiện nay đã có nhiều phương pháp tổng hợp tiếng nói được nghiên cứu và ứng dụng trong thực tế như: tổng hợp theo cấu âm, tổng hợp bằng ghép nối, cách điệu hóa đường F0 và hiện tượng ngôn
Trang 11
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Thị Thanh Mai
NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG TỔNG HỢP TIẾNG VIỆT VÀ
THỬ NGHIỆM CHO PHẦN MỀM VNVOICE
LUẬN VĂN THẠC SĨ
Hà nội-2007
Trang 22
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Thị Thanh Mai
NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP NÂNG CAO
CHẤT LƯỢNG TỔNG HỢP TIẾNG VIỆT VÀ
THỬ NGHIỆM CHO PHẦN MỀM VNVOICE
Ngành: Công nghệ thông tin
Chuyên ngành: Công nghệ thông tin
Mã số: 1.01.10
LUẬN VĂN THẠC SĨ
NGƯỜI HƯỚNG DẪN KHOA HỌC
PGS.TS.Lương Chi Mai
Hà nội-2007
Trang 33
MỤC LỤC
MỞ ĐẦU 5CHƯƠNG 1: TỔNG QUAN VỀ TỔNG HỢP TIẾNG NÓI 9
1.2 Lịch sử phát triển và ứng dụng tổng hợp tiếng nói 9
1.5.5 Đánh giá các phương pháp tổng hợp tiếng nói 37
TỔNG HỢP TIẾNG NÓI 42
3.1.3.3 Phân lớp đường thanh điệu trong ngữ cảnh câu 66
4.1 Đánh giá VnVoice và một số giọng tổng hợp tiếng Việt hiện nay 71
Trang 45
MỞ ĐẦU
Nhận dạng và xử lý tiếng Việt (ngôn ngữ và tiếng nói) là nền tảng thiết yếu của phát triển và ứng dụng công nghệ thông tin ở Việt nam Giới nghiên cứu và công nghiệp trên thế giới do theo đuổi các nghiên cứu cơ bản và công nghệ này từ hàng chục năm qua, gần đây đã càng thu được nhiều thành tựu quan trọng Khác với các sản phẩm khác của công nghệ thông tin, sản phẩm về tiếng nói, ngôn ngữ Việt không thể mua được từ nước ngoài, chỉ có thể do người Việt làm ra trên cơ sở tiếp thu được các thành tựu khoa học công nghệ trên thế giới và theo đuổi lâu dài
Nhận dạng tiếng nói nhằm chuyển thông tin từ tiếng nói con người vào máy tính, và tổng hợp tiếng nói nhằm tự động tạo ra tiếng người nói bằng máy tính Cùng với sự phát triển nhanh chóng của công nghệ thông tin nói chung và mạng Internet nói riêng, nhận dạng và tổng hợp tiếng nói càng ngày càng trở nên là một
xu hướng tất yếu cho những máy tính thế kỉ 21 Trong vòng 50 năm qua, rất nhiều thuật toán được đề xuất và triển khai trên các hệ tự động nhận dạng và tổng hợp tiếng nói Trên thế giới đã có nhiều bộ phần mềm thương mại dành cho tiếng Anh như IBM ViaVoice (http://www4.ibm.com/software/speech/), Dragon Naturally Speaking, L&H Voice Xpress Những phần mềm này cung cấp các chức năng chủ yếu như: nhập văn bản vào máy, đọc văn bản thành lời, duyệt Web bằng giọng nói Công nghệ tổng hợp và nhận dạng tiếng nói có ý nghĩa rất lớn trong giao tiếp người-máy: thay vì giao tiếp với máy tính qua những biểu tượng và cửa sổ, các máy tính trong tương lai chỉ giao tiếp với con người bằng những mệnh lệnh đơn giản
Hiện nay đã có nhiều phương pháp tổng hợp tiếng nói được nghiên cứu và ứng dụng trong thực tế như: tổng hợp theo cấu âm, tổng hợp bằng ghép nối, cách điệu hóa đường F0 và hiện tượng ngôn điệu, tâm lý, … Tuy nhiên, vấn đề tổng hợp giọng tự nhiên cho tới nay vẫn là một vấn đề mở, ngay cả trong các ngôn ngữ châu
Âu thông dụng như tiếng Anh Đó là do chất lượng tiếng nói tổng hợp còn phụ thuộc vào rất nhiều các yếu tố khác như:
Bộ đơn vị ngữ cảnh (bộ tham số cấu âm hoặc đoạn sóng âm ngắn),
Bộ chuẩn hóa văn bản,
Trang 56
Bộ xử lý ngôn ngữ: từ, câu,…
Tối ưu hóa chọn đơn vị ngữ cảnh,
Các hiện tượng ngôn ngữ tiếng Việt: dính âm, biến thanh, năng lượng, trường độ thanh,
Các hiện tượng ngôn điệu: thanh điệu trong câu, trường độ
Tổng hợp tiếng Việt hiện nay mới đạt ở mức độ đọc rõ ràng trong khi các ứng dụng thực tế đòi hỏi giọng tổng hợp phải tự nhiên như người nói
Trên cơ sở đó, mục đích của luận văn nhằm nghiên cứu và thử nghiệm một
số kỹ thuật và mô hình xử lý ngôn điệu để nâng cao chất lượng giọng tổng hợp trong phần mềm tổng hợp tiếng Việt VnVoice 1.0
Luận văn sẽ được chia thành 4 chương bao gồm:
Chương 1: Tổng quan về tổng hợp tiếng nói Chương này trình bày khái
quát về tổng hợp tiếng nói và lịch sử phát triển cũng như ứng dụng của nó Hơn nữa, chương 1 còn giới thiệu một số kỹ thuật tổng hợp tiếng nói đã được sử dụng trên thế giới
Chương 2: Các thành phần cơ bản của hệ thống tổng hợp Chương này
giúp người đọc hiểu rõ hơn về một hệ thống tổng hợp bao gồm những thành phần
cơ bản nào
Chương 3: Một số phương pháp cải tiến chất lượng giọng tổng hợp
Chương này trình bày việc phân tích và đánh giá chất lượng giọng tổng hợp theo các cách tiếp cận khác nhau
Chương 4: Thử nghiệm cải tiến giọng đọc tổng hợp tiếng Việt trong phần mềm VnVoice Chương này là chương trọng tâm của luận văn Chương này
áp dụng một số phương pháp cải tiến chất lượng và kết quả
Trong luận văn, các trích dẫn của các tác giả khác liên quan đến lĩnh vực nghiên cứu đặt trong dấu ngoặc vuông []
Trang 67
BẢNG CÁC TỪ VIẾT TẮT
CART Classification and regression trees
(Cây phân lớp hồi quy)
MLPS Multivariate Adaptive Regression Splines
TD-PSOLA Time-Domain Pitch-Synchronous Overlap and Add
Trang 7Diphone Hai nửa của hai âm vị liền nhau
Trang 81.2 Lịch sử phát triển và ứng dụng tổng hợp tiếng nói
Tạo ra tiếng nói bằng máy là một ước mơ của loài người và là mục tiêu thách thức các nhà khoa học trên thế giới nhiều thế kỉ qua Máy nói đầu tiên do Wolfgang Von Kempelen chế tạo năm 1791 mô phỏng bộ máy phát âm của người đã có thể phát ra được một vài âm tố Ở đầu thế kỉ này vào năm 1939, máy VODER của nhà khoa học Dudley, phòng thí nghiệm AT&T BELL LABS đã thành công trong việc
mô hình hoá cộng hưởng của ống thanh bằng linh kiện điện tử Hệ thống điều khiển nhân công 10 bộ cộng hưởng bằng các nhóm và chiết áp đã có thể tạo ra một số câu nói có thể nghe được Từ giữa những năm 1950 trở lại đây, sự ra đời của máy tính điện tử đã cho phép tạo ra một cách có hệ thống các tham số để điều khiển bộ tổng hợp tiếng nói Cùng với sự phát triển như vũ bão của khoa học và công nghệ thập kỉ
80, 90, kỹ thuật tổng hợp tiếng nói đã có những bước phát triển rất quan trọng có sự đóng góp rất lớn của máy tính và xử lý tín hiệu số Sự tiến bộ này được thúc đẩy do:
Khả năng tính toán của máy tính nhanh lên gấp nhiều lần, số lượng dữ liệu được lưu trữ ngày càng lớn, trong khi giá thành ngày càng rẻ
Khả năng xây dựng và truy cập tới các cơ sở dữ liệu âm thanh và văn bản ngày càng dễ dàng
Công nghệ nhận dạng tự động âm thanh tiếng nói được hoàn thiện với độ chính xác ngày càng cao, trợ giúp việc tự động phân đoạn âm thanh tiếng nói
Trang 9đã nghiên cứu và đưa ra nhiều công trình thực tế, nhưng việc tổng hợp tiếng nói từ văn bản đã chưa bao giờ là hoàn hảo, khi động chạm tới những ngôn ngữ có số lượng từ không hạn chế với đòi hỏi đạt tới mức tự nhiên trôi chảy như tiếng nói con người
Mặc dù vậy, những kết quả đạt được còn hạn chế, nhưng cũng đã phần nào được ứng dụng có thể nói là thành công trong nhiều lĩnh vực cụ thể, đem lại những kết quả nhất định
Các ứng dụng này tập trung ở các lĩnh vực sau:
• Học ngoại ngữ
Tổng hợp từ văn bản có thể hỗ trợ cho người nước ngoài học ngoại ngữ Ứng dụng này đòi hỏi tiếng nói tổng hợp phải có chất lượng tốt Hầu hết các phần mềm loại này chưa thực sự đáp ứng được yêu cầu của người sử dụng
• Trợ giúp người tàn tật
Hệ thống tổng hợp tiếng nói cùng với hệ thống quang học nhận dạng chữ viết có thể đọc các văn bản in cho người mù Giúp người mất khả năng nói có thể nói qua hệ thống TTS, bằng cách soạn thảo văn bản bằng bàn phím và phần mềm thiết kế cho phép ghép nhanh các câu Giáo sư vật lý thiên văn học người Anh Stephan Hawking, người đưa ra lý thuyết vụ nổ BIG BANG giảng bài cho sinh viên thông qua các hệ thống này
• Truyền thông tin bằng âm thanh
Trang 1011
Một hệ thống tổng hợp tiếng nói rất hữu ích cho việc kiểm tra chính tả các văn bản trên máy tính vì khi nghe dễ dàng phát hiện lỗi hơn so với kiểm tra bằng mắt
Trong các hệ thống đo đạc điều khiển, khi mắt phải thực hiện các quan sát thì các thông tin bằng âm thanh rất cần thiết Ngoài ra bản tin và mệnh lệnh phát ra bằng âm cũng dễ tiếp thu hơn thông báo viết
• Trong lưu trữ và khai thác dữ liệu
Giờ đây có thể tích kiệm không gian lưu trữ âm bằng cách thay thế bằng các văn bản tương ứng, tất nhiên là trong trường hợp giọng người nói là không quan trọng Hơn thế các văn bản bàng chữ bao giờ cũng dễ sắp xếp và tìm kiếm hơn dữ liệu âm thanh
• Trong viễn thông
Tiếng nói tổng hợp đã được sử dụng nhiều trong các ứng dụng trả lời trực tuyến IVR, trên nhiều mạng viễn thông hiện đại như Mỹ, châu Âu và Nhật mà tiêu biểu là dự án MIVA với các dịch vụ điện thoại kích hoạt bằng thanh đa ngữ trực tuyến
Các hệ thống thông tin tích hợp thông điệp hợp nhất (Unified Meessaging) có khả năng đọc tự động nội dung các bức thư điện tử và các bức FAX và các thông tin trên Net qua máy điện thoại cố định hoặc các máy
di động
Truy cập thông tin qua điện thoại và tự động tra cứu danh bạ điện thoại hai chiều bằng máy điện thoại…
• Thông tin đa phương tiện
Trong kỷ nguyên thông tin, hệ thống tổng hợp tiếng nói là một nửa bắt buộc của thông tin hai chiều giữa người và máy
Hệ thống dịch tự động được coi là một thành tựu khoa học lớn của nhân loại vào những năm đầu thế kỷ 21 phải sử dụng hệ thống tổng hợp tiếng nói ở đầu ra
• Các ứng dụng khác
Trang 1112
Tổng hợp tiếng nói được ứng dụng trong các trò chơi, trong các thiết bị báo động, báo chát, hệ thống chống trộm, các thiết bị gia đình và các thiết bị giải trí khác
Vấn đề Tổng hợp tiếng Việt
Tổng hợp tiếng nói từ văn bản là một ngành khoa học nhận dạng liên quan đến nhiều ngành khoa hoc khác như: ngôn ngữ, xử lý tín hiệu và khoa học máy tính Hiện nay với nỗ lực nghiên cứu của các nhà khoa học công nghệ trên thế giới, chất lượng âm thanh tổng hợp hiện tại đã vượt qua ngưỡng nghe hiểu đơn giản và đang tiến dần tới mức độ nói tự nhiên của con người Trong một số ứng dụng ngôn ngữ hẹp, chất lượng âm thanh đã gần như không thể phân biệt với ngôn ngữ tự nhiên
Trong xu thế hội nhập thế giới, cùng với sự hấp dẫn của khoa học nhận dạng,
ở Việt Nam trong những năm vừa qua đã có những đề tài nghiên cứu về tổng hợp tiếng nói và bước đầu đã đạt được những thành tựu nhất định Công nghệ cho việc tổng hợp tiếng nói từ văn bản có số từ vựng không hạn chế chất lượng cao có những phức tạp chung là một lẽ, song một vấn đề nữa là nó còn phụ thuộc từng ngôn ngữ riêng biệt Không thể lấy các phần mềm tổng hợp tiếng nói Anh, Pháp, Đức, Nhật, để đọc văn bản chữ Việt Hơn nữa tiếng Việt là một ngôn ngữ đơn âm đa thanh điệu Vì vậy không ai khác mà chính là các nhà khoa học Việt Nam phải tự tiến hành xâu dựng công nghệ tổng hợp tiếng nói cho mình
Việt Nam đang bước vào thời kì phát triển nhanh chóng về CNTT, nó cho phép chúng ta có những nền tảng khoa học, cơ sở vật chất để có thể nghiên cứu cũng như triển khai các ứng dụng về khoa học công nghệ trong cuộc sống
1.3 Đặc điểm ngữ âm tiếng Việt
Khi giao tiếp con người phát ra những chuỗi âm thanh nhất định, ta gọi là dòng ngữ lưu (utterance) Trong từng dòng ngữ lưu, nếu đem chia cắt chúng ra, ta
sẽ thu được những đơn vị cấu thành nhỏ hơn, đó là âm tiết, âm tố và âm vị Trong
đó, âm tiết là đơn vị phân chia tự nhiên nhất trong lời nói, là đơn vị phát âm nhỏ nhất Mỗi âm tiết là một tiếng
Ví dụ lời nói: ”Hà Nội là thủ đô của nước Việt Nam” có 9 âm tiết
Trang 1213
Về mặt sinh lý – vật lý, âm tiết được định nghĩa là một đơn vị mà khi
phát âm được đặc trưng bởi sự căng lên rồi chùng xuống của cơ thịt trong bộ máy phát âm
Trong mỗi âm tiết, chỉ có một âm tố có khả năng tạo thành âm tiết (gọi là âm
tố âm tiết tính), còn lại là các yếu tố đi kèm, không tự mình tạo thành âm tiết được
Âm tố âm tiết tính thường được phân bố ở trung tâm, làm hạt nhân âm tiết Đó thường là các nguyên âm Điều này dẫn đến hệ quả là một âm tiết khi được phát ra thì phần năng lượng tập trung nhiều nhất ở phần giữa âm (có biên độ cao), đi về đầu
và cuối âm tiết thì năng lượng giảm dần (xem hình 1.1)
Hình 1.1: Cụm từ ”âm tiết tiếng Việt ” thể hiện trên sóng âm Mỗi âm tiết có
biên độ lớn ở giữa âm và nhỏ dần ở đầu và cuối âm
Tiếng Việt là tiếng đơn âm có thanh điệu Nó là ngôn ngữ có kết cấu âm tiết tính Một đặc điểm của tiếng Việt là âm tiết trùng hình vị (đơn vị nhỏ nhất có nghĩa) Nói cách khác, một âm tiết là một hình thức biểu đạt của một hình vị Ví dụ,
từ học sinh có hai hình vị, mỗi hình vị có vỏ ngữ âm là một âm tiết là học và sinh
Là vỏ ngữ âm của một hình vị hay một từ đơn nên mỗi âm tiết tiếng Việt bao giờ cũng tương ứng với một ý nghĩa nhất định Chính vì vậy, việc phá vỡ hay xê dịch vị trí của các âm vị trong một đơn vị âm tiết là điều khó có thể xảy ra Nói cách khác, cấu trúc của âm tiết tiếng Việt là một cấu trúc chặt chẽ Vì thế, từ ”cá canh” sẽ không bị nối thành ”các anh”, ”cảm ơn” không bị đọc thành ”cả mơn”,
Do mỗi âm tiết là vỏ ngữ âm của hình vị nên khác với các ngôn ngữ Âu-Ấn, tiếng Việt có số âm tiết hữu hạn với 17000 vỏ ngữ âm có khả năng và 6900 âm tiết tồn tại thực
Trang 1314
Âm tiết, hình vị tiếng Việt cố định, không thay đổi theo ngữ pháp về thời, giống và số như các ngôn ngữ khác Âm tiết tiếng Việt có cấu trúc chặt chẽ với các loại âm ở các vị trí cố định trong thành phần âm tiết
Một đặc điểm nổi bật khác của tiếng Việt là thanh điệu Mỗi âm tiết đều mang một thanh điệu nhất định Thanh điệu là một tập hợp những đặc trưng có liên quan đến độ cao (phụ thuộc tần số rung động của dây thanh âm) của thanh cơ bản trong âm tiết Nó được thể hiện trên tất cả những bộ phận hữu thanh trong âm tiết, nhất là các âm đoạn nguyên âm tính (nguyên âm và bán nguyên âm) và các đoạn phụ âm mũi
Thanh điệu có thể phân tích thành hai thành phần thường xuyên kết hợp với nhau: âm vực (độ cao của thanh cơ bản) và âm điệu (hướng chuyển biến cao độ-độ tăng giảm của tần số) trong quá trình thể hiện Vì vậy, mỗi thanh điệu có thể được miêu tả như một sự kết hợp của hai thông số nói trên
Hệ thống thanh điệu tiếng Việt gồm sáu thanh là ngang (không dấu), huyền, ngã, hỏi, sắc, và nặng Thanh điệu trong tiếng Việt kết hợp với các thành phần của
âm tiết tạo thành các từ khác nhau, ví dụ như: thanh/ thành/ thánh/ thạnh…Trong tiếng Việt không phải vần nào cũng phát âm đủ sáu thanh Đối với âm tiết đóng chỉ
có hai thanh sắc và nặng, ví dụ: tắc, tặc…
Ngoài các tính chất ngữ điệu như các ngôn ngữ Âu-Ấn, tần số cơ bản F0 là thành phần chính của hệ thống thanh điệu tiếng Việt tạo nghĩa khác nhau cho âm tiết Hệ thống thanh điệu tiếng Việt tạo nghĩa khác nhau cho âm tiết Hệ thống thanh điệu tiếng Việt là loại phức tạp nhất trong các ngôn ngữ đơn lập âm tiết tính (tiếng Thái có 5 thanh, tiếng Trung Quốc có 4 thanh)
Trong tiếng Việt, âm tiết có cấu trúc chặt chẽ và ổn định, mỗi âm vị là một vị trí nhất định trong âm tiết, tạo thành cấu trúc âm tiết tiếng Việt
*Cấu trúc âm tiết tiếng Việt
Âm tiết tiếng Việt được tạo thành bởi ba thành phần có mức độ độc lập khác nhau là phụ âm đầu, phần vần và thanh điệu Về cấu trúc, âm tiếng Việt có cấu trúc hai bậc Bậc một gồm ba thành phần là thanh điệu, phị âm đầu và vần Bậc hai là các thanh to của phần vần gồm âm đệm là bán nguyên âm, nguyên âm chính và phụ
Trang 14Âm đệm Âm chính Âm cuối
Hình 1.2: Cấu trúc âm tiếng Việt
1.3.1 Âm đầu
Là yếu tố mở đầu âm tiết Trong tiếng Việt có 21 phụ âm Phụ âm mang tính độc lập do không tham gia vào việc thay đổi về trường độ giữa các yếu tố bên trong
âm tiết
Đặc điểm âm đầu
Khi phát âm, luồng hơi bị cản trở do sự xuất hiện chướng ngại vật trên lối ra của đường không khí Điểm có chướng ngại gọi là vị trí cấu âm
Bộ máy phát âm không căng thẳng toàn bộ mà chỉ căng thẳng phần cơ thịt ở
vị trí cấu âm
Luồng hơi ra mạnh
Phân loại
Phân chia theo mối quan hệ giữa tiếng thanh và tiếng ồn trong cấu tạo
của âm đầu
Các phụ âm đầu được chia thành các phụ âm vang (tiếng thanh nhiều hơn tiếng ồn) và phụ âm ồn Trong các phụ âm ồn lại chia thành các phụ âm hữu thanh (phát âm có sự tham gia của tiếng thanh do dây thanh rung động) và phụ âm vô thanh (phát âm không có sự tham gia của tiếng thanh)
Nhóm phụ âm vang có thể coi là nhóm trung gian giữa các nguyên âm và phụ âm ồn Khi phát âm các phụ âm vang, chướng ngại được tạo thành nhưng có thể là chỗ tắc yếu hoặc không khí không những trực tiếp vượt qua chỗ có chướng ngại mà còn đi ra tự do qua mũi (như các phụ âm [m], [n] trong tiếng Việt)
Trang 1516
Phân chia theo phương thức cấu tạo tiếng ồn
Phụ âm tắc: tạo thành khi hai khí quản tiếp xúc nhau, tạo thành chỗ tắc, cản
trở hoàn toàn lối ra của luồng không khí Ví dụ như các phụ âm [p], [b], [d], [t]
Phụ âm xát: tạo thành khi hai khí quản nhích lại gần nhau, làm cho lối ra
của luồng không khí bị thu hẹp; luồng không khí đi qua khe hẹp này cọ xát vào thành của bộ máy phát âm Ví dụ, các phụ âm [v], [s], [h]
Phụ âm rung: tạo thành khi các khí quản dễ rung động (như đầu lưỡi, lưỡi
con hay môi) nhích lại gần nhau tạo thành một khe hở rất hẹp hay một chỗ tắc yếu, luồng không khí đi ra mạnh làm cho các khí quản ấy rung lên Ví dụ phụ âm [r]
Trong các cấu âm của phụ âm, người ta thường phân biệt ba giai đoạn:
Giai đoạn tiến: khí quản phát âm chuyển đến vị trí cấu âm
Giai đoạn giữ: khí quản phát âm ở vị trí cấu âm
Giai đoạn lùi: khí quản phát âm rời khỏi vị trí cấu âm
Hai giai đoạn đầu giống nhau ở bất kỳ âm tắc nào Về giai đoạn thứ
ba, cần phân biệt các tiểu loại âm tắc: âm nổ, âm mũi, âm tắc-xát và âm khép
Phân chia theo vị trí tạo ra tiếng ồn
Theo vị trí cấu tạo tiếng ồn, các phụ âm được chia ra thành các loại chính:
phụ âm môi, răng, ngạc mạc, lưỡi con, yết hầu, thanh hầu
Theo khí quản chủ động, các phụ âm được chia thành các loại: phụ âm môi,
lưỡi trước, lưỡi giữa, lưỡi sau, lưỡi con, yết hầu, thanh hầu
Trong các nhóm này, có một số cần chia nhỏ nữa Ví dụ trong các âm môi, người ta phân biệt các âm hai môi, thường gọi là âm môi-môi ([b], [p], [m]) Với các âm một môi, thường gọi là âm môi-răng ([v]); các âm lưỡi trước thường chia thành nhiều nhóm nhỏ nhưng đáng chú ý là âm đầu lưỡi và âm quặt lưỡi,
Trang 1617
1.3.2 Phần vần
Theo như lược đồ âm tiếng Việt ở trên thì phần vần đầy đủ gồm ba thành phần là âm đệm, âm chính, và âm cuối Ví dụ như âm tiết /toán/ có phần vần là /oan/, trong đó âm vị /o/ là âm đệm, âm vị /a/ là âm chính và /n/ là âm cuối
1.3.2.1 Âm đệm
Đóng vai trò là âm lướt trong kết cấu âm tiết Âm đệm ảnh hưởng đến cách
mở đầu của âm tiết (bên cạnh phụ âm đầu) Ví dụ: chữ ”toàn” khi phát âm có hiện tượng tròn môi do tác động của âm đệm/-u-/, còn chữ ”tàn” thì không có hiện tượng tròn môi do không có âm đệm
1.3.2.2 Âm chính
Là nguyên âm âm tiết tính trong âm tiết Âm tiết chính có thể là một nguyên
âm đơn hay nguyên âm đôi
Âm chính gồm một hệ thống nguyên âm gồm 11 nguyên âm đơn /a, ă, â, e, ê,
o, ô, ơ, u, ư, i/ và ba nguyên âm đôi /iê, ươ, ưa/ Âm chính là yếu tố tạo nên đỉnh âm thanh, có biên độ và cường độ lớn nhất trong các thành phần âm tiết
Đặc điểm
Khi phát âm, luồng hơi không bị cản trở bởi lưỡi, răng hay môi
Bộ máy phát âm căng thẳng toàn bộ
Luồng hơi ra yếu hơn phụ âm
vì bình thường, bất kỳ nguyên âm nào cũng có tiếng thanh
Các nguyên âm chỉ khác nhau ở các hoạt động của khí quản phát âm, trong
đó quan trọng nhất là lưỡi Vì sự thay đổi vị trí của lưỡi gây ra sự khác nhau rất lớn giữa các nguyên âm Lưỡi chuyển động tới-lui và lên xuống trong khoang miệng và tạo nên những tương quan phức tạp giữa các khoang cộng minh (khoang miệng và mũi), làm thay đổi hình dáng và thể tích của chúng Môi tròn lại và đưa về trước,
Trang 17 Theo vị trí của lưỡi
Gồm các nguyên âm dòng trước (khi lưỡi dồn về trước), nguyên âm dòng
sau (khi lưỡi dồn về sau) và nguyên âm dòng giữa (khi lưỡi ở giữa miệng
nâng lên) Ví dụ, trong tiếng Việt, các nguyên âm dòng trước là [i], [e], [ê], nguyên âm dòng sau là [u], [o], [ô], nguyên âm dòng giữa là [ư], [ơ], [a]
Theo độ nâng của lưỡi
Các nguyên âm được chia tùy theo từng ngôn ngữ Độ nâng của lưỡi tương ứng với độ mở của miệng nên các nguyên âm có độ nâng cao còn gọi là nguyên âm hẹp, nguyên âm có độ nâng thấp còn gọi là nguyên âm mở Trong ngữ âm học đại cương không có một cách phân loại tuyệt đối theo độ nâng lưỡi vì mỗi ngôn ngữ có một hệ thống nguyên âm khác nhau Ví dụ, các nguyên âm dòng trước trong tiếng Pháp có 4 độ nâng, các nguyên âm trong tiếng Ðức có 5 độ nâng, tiếng Nga có 3 độ nâng, tiếng Anh có 6 độ nâng Trong tiếng Việt, các nguyên âm đơn có thể chia thành 4 nâng:
Bảng 1.1: Phân chia nguyên âm theo độ nâng của lưỡi
Ðộ nâng Gồm các nguyên âm
Hẹp [i], [u], … Hơi hẹp [ê], [u], … Hơi rộng [o], [e], … Rộng [a], [a], …
Theo hình dáng môi
Các nguyên âm được chia thành nguyên âm tròn môi ([u], [ô], [o]), nguyên
âm không tròn môi ([i], [ê], [e], [ư], [ơ], [a]) Sự tròn môi rõ nhất ở nguyên
âm khép và yếu nhất ở nguyên âm mở
Trang 1819
1.3.2.3 Âm cuối
Là âm kết thúc âm tiết Các âm tiết tiếng Việt thường đối lập bằng những cách kết thúc khác nhau Một số âm tiết kết thúc bằng sự kéo dài và giữ nguyên, ví dụ: má, đi, cho, Số âm tiết khác kết thúc bằng cách biến đổi âm sắc của âm tiết ở phần cuối do sự đóng lại của các âm cuối tham gia, ví dụ như một, mai, vàng, Trong trường hợp đầu, ta có các âm cuối là âm vị /zero/, trong trường hợp sau ta có các âm cuối là những âm vị bán nguyên âm hoặc phụ âm
Hệ thống âm cuối tiếng Việt bao gồm hai bán nguyên âm là /i, o/ và sáu phụ
âm /m, n, ng (nh), p, t, c/
1.3.3 Thanh điệu
Thanh điệu là loại âm vị siêu đoạn tính, nó được biểu lộ trong toàn bộ phần hữu thanh của âm tiết Ở mức vật lý, phần thanh của thanh điệu chính là đường nét của tần số âm cơ bản F0 Về cảm thụ, thanh điệu là sự cảm nhận về thay đổi của cao
đọ tần số cơ bản F0 của âm tiết
Sáu thanh điệu tiếng Việt được chia thành hai nhóm lớn bằng và trắc Thanh không dấu và thanh huyền thuộc loại thanh bằng có đường nét tương đối đơn giản Thanh ngã, thanh hỏi, thanh sắc và thanh nặng là những thanh trắc có đường nét thanh điệu phức tạp Các thanh ngang, sắc, ngã thuộc âm vực cao, còn các âm huyền, hỏi và nặng thuộc âm vực thấp
Trong các công trình nghiên cứu đã được công bố, đường nét thanh điệu tiếng Việt cho những âm tiết rời rạc (phương ngữ Bắc Bộ) được đánh giá tương đối thống nhất Ngoài tính chất thanh tính, các thanh điệu còn có một số đặc trưng phi điệu tính như hiện tượng yết hầu hoá, thanh hầu hoá,… tạo thành hệ thống các đặc trưng phụ để phân biệt các thanh điệu đặc biệt của thanh ngã và sắc, thanh hỏi, thanh nặng
*Phân loại âm tiết tiếng Việt
Phụ thuộc vào cách thức kết thúc, âm tiết tiếng Việt được chia thành 4 loại như trong bảng 1.2:
Bảng 1.2: Phân loại âm tiết tiếng Việt
Trang 1920
1 Âm mở Là các loại âm tiết không có âm cuối, kết
thúc âm tiết bằng nguyên âm chính Ma, mẹ, …
2 Âm nửa mở âm cuối kết thúc âm tiết là một bán
3 Âm đóng Khi âm cuối là một phụ âm tắc vô thanh Tập, học,
4 Âm nửa đóng Khi âm cuối là một phụ âm mũi Làm, ngành,
1.4 Một số đặc trƣng của âm vị về mặt âm học
Sự phân loại các âm vị về mặt âm học đã được xây dựng dựa trên âm phổ Các máy phân tích âm phổ cho chúng ta các ảnh phổ (spectrogram), qua đó các âm
vị thể hiện rõ các đặc trưng âm học: cao độ, cường độ, trường độ,
Để biểu diễn phổ tiếng nói tại một thời điểm t, người ta dùng một biểu đồ với trục ngang biểu diễn các tần số (Hz) tham gia cấu âm thành âm thanh tại thời điểm t
và trục đứng với cường độ tương ứng (dB)
Hình 1.3: Phổ (spectrum) của một nguồn âm thanh tại thời điểm t
Để biểu diễn phổ tiếng nói theo sự biến thiên thời gian, người ta dùng ảnh phổ với trục ngang biểu diễn thời gian, trục đứng biểu diễn tần số, cường độ của
Trang 20Hình 1.4: Ảnh phổ của tiếng ”hai” và sóng âm tương ứng Những vùng có
cường độ cao (vùng đen) tạo thành những dải bắt ngang qua ảnh phổ,
đó là những vệt formant, được đánh số từ dưới lên F1, F2, F3,
Dựa trên đặc điểm của ảnh phổ, âm vị được chia thành 12 đặc trưng sau:
Nguyên âm-không nguyên âm
Đặc trưng của nguyên âm: được thể hiện bằng các cấu trúc formant Có đặc trưng nguyên âm là nguyên âm và các âm vang Không có đặc trưng nguyên âm
Trang 21 Ngắt-không ngắt
Đó là sự đối lập giữa có và không có sự chuyển tiếp đột ngột giữa sự có mặt và vắng mặt của âm thanh ”Các phụ âm xát thường có khởi âm từ từ Ngược lại, các phụ âm tắc thường có sự ngắt đột ngột sóng âm đi trước bằng một khoảng
Hữu thanh-vô thanh
Đó là sự đối lập giữa có hay không những dao động điều hòa ở vùng tần số thấp
Âm hữu thanh bao gồm các nguyên âm, phụ âm vang và phụ âm hữu thanh
Trang 2223
Mũi-miệng (hay Mũi-không mũi)
Phổ hình của các âm mũi có mật độ formant dày hơn so với các âm miệng tương ứng Ở các nguyên âm mũi giữa F1 và F2 xuất hiện thêm một formant phụ, và đồng thời có sự giảm cường độ của F1 và F2
Trong tiếng Việt có các âm mũi được thể hiện bằng các chữ cái; m, n, nh, ng
Giáng-không giáng
Các âm giáng là những âm trầm hóa – có một hoặc một số các formant của nó bị
hạ thấp so với các âm không giáng Các nguyên âm tròn môi như [u], [ô], [o] trong tiếng Việt và những phụ âm đứng trước [u], [ô], [o] bị môi hóa đều là những âm giáng
Thăng-không thăng
Ngược lại so với âm giáng, chúng là những âm bổng hóa-các nguyên âm hàng trước thường là các âm có một trong số các formant cao hơn các âm không thăng tương ứng
Thanh hầu hóa-không thanh hầu hóa
Các âm thanh hầu hóa đặc trưng bởi tốc độ biến đổi năng lượng lớn trong một khoảng thời gian ngắn
Trong tiếng Việt, âm thanh hầu hóa đặc trưng bởi tốc độ biến đổi năng lượng lớn trong một khoảng thời gian ngắn
Trong tiếng Việt, âm thanh hầu hóa có thể xuất hiện trong các âm tiết vắng phụ
âm đầu như ăn, uống, uể, oải, hoặc trước các phụ âm hữu thanh, đặc biệt là trước [b], [đ], và [l]
1.5 Các phương pháp tổng hợp tiếng nói
Trong phần này, luận văn sẽ trình bày khái quát một số phương pháp tổng hợp tiếng nói hiện nay và những đánh giá sơ bộ về từng phương pháp
1.5.1 Tổng hợp theo cấu âm
Tổng hợp theo cấu âm sử dụng mô hình phỏng sinh học Trong mô hình này, tiếng nói được đặc trưng không chỉ bằng tín hiệu âm thanh mà cả bằng vị trí của các
Trang 2324
cơ quan cấu âm, sự tham gia của khoang mũi, áp suất không khí trong phổi, lực căng của dây thanh Nó bao gồm hoạt động tương tác phi tuyến giữa nguồn kích (chấn động dây thanh hoặc hỗn loạn không khí) và trở kháng đầu vào thay đổi theo thời gian của ống thanh Phương pháp này còn được gọi là tổng hợp theo mô hình
Mô hình ống thanh
Cho các âm không phải là âm mũi ta chỉ cần xem xét ống thanh có thiết diện biến thiên từ thanh môn cho tới môi Ống thanh thay đổi liên tục, hình dáng của chúng phải được xác định trong khoảng thời gian vài mini giây một lần Hình không gian của ống thanh được mô tả theo vị trí của các cơ quan phát âm, lưỡi, môi, hàm…
Mô hình được ứng dụng nhiều nhất là mô hình của Mermelstein với các tham số mô tả vị trí cơ quan cấu âm.Từ mô tả cấu âm, có thể tính được các số liệu cho hàm mặt cắt ngang ống thanh A(x) là hàm số phụ thuộc khoảng cách dọc theo ống thanh từ thanh môn cho tới môi
Lan truyền sóng trong ống thanh
Trong nhiều cách tính đặc trưng truyền sóng trong ống thanh thì phương pháp ma trận chuỗi được áp dụng nhiều nhất Ma trận chuỗi (còn gọi là ma trận ABCD) thể hiện ống thanh ở miền tần số Với bất kỳ phần nào của ống thanh hay của ống mũi ta có:
in out
out
U
P K U
P D C
B A U
P
Trang 2425
Ma trận chuỗi K có thể thể hiện bất kỳ phần nào của bất kỳ độ dài hay mặt phẳng cắt ngang nào của ống thanh Tính các phần tử của K rất đơn giản nên ống có mặt cắt không đổi
Mô hình nguồn kích thanh
Nguồn kích thanh cho tổng hợp cấu âm sử dụng mô hình hai khối lượng của Ishizaka và Flanagan
Nguyên lý của tổng hợp cấu âm
Thuật toán tổng hợp theo mô hình cấu âm gồm các bước như nhau Từ đặc tả
về các tham số cấu âm, ta tính được ma trận chuỗi từ thanh môn đến môi Sau đó tính hàm truyền và trở kháng đầu vào từ các phần tử A,B,C,D của ma trận Chuyển đổi Fourier ngược hàm truyền H và tỉ số trở kháng ta nhận được các giá trị tương ứng ở miền thời gian Sau đó tính áp suất p = P5-P1 Giá trị áp suất này tác động vào bộ cộng hưởng điều khiển chuyển động dây thanh của mô hình hai khối lượng tạo ra âm thanh tiếng nói
Như vậy, ngoài việc mô hình hoá các cơ quan phát âm, tổng hợp theo cấu âm cần phải xây dựng hai loại quy luật ngôn ngữ và luật vật lý Luật vật lý mô tả như ở trên xác định ánh xạ cấu hình ống thanh cụ thể cho tín hiệu âm thanh, xác định mối quan hệ giữa hoạt động cấu âm và tín hiệu âm thanh tiếng nói Còn luật ngôn ngữ xác định mối quan hệ giữa mô tả ngữ âm và các hoạt động cấu âm Thông thường, luật ngôn ngữ được thực hiện cho từng âm vị Khi cấu âm cho một đơn vị, luật này xác định thời điểm các cơ quan chuyển động, tốc độ chuyển động và mối quan hệ giữa cơ quan này và cơ quan khác Vì phát ra một âm vị không nhất thiết phải có sự chuyển động của tất cả các cơ quan nên trong cùng một thời điểm cơ quan phát âm có thể được xác định cho âm vị khác Theo cách này thì tổng hợp theo cấu âm có thể tạo ra các giải pháp hoàn hảo cho các trường hợp ngữ âm khó như cụm phụ âm, nguyên âm
ba
Mô hình cấu âm và hai luật ngôn ngữ, vật lý này quyết định chất lượng tiếng nói tổng hợp Hiện nay, chúng ta chưa có kiến thức đầy đủ về từng chi tiết của các loại luật, mô hình cấu âm cũng còn đơn giản vì vậy chất lượng tiếng nói tổng hợp theo cấu âm còn rất thấp Phương pháp tổng hợp cấu âm hiện nay chỉ dừng ở trong
Trang 2526
phòng thí nghiệm hay sản phẩm mẫu mà chưa được ứng dụng thực tế Các bộ tổng hợp theo cấu âm là công cụ lý tưởng để nghiên cứu về cấu âm của tiếng nói và hứa hẹn về lâu dài là giải pháp hoàn thiện nhất để tổng hợp ra âm thanh tiếng nói giống như tiếng nói tự nhiên của con người
1.5.2 Tổng hợp formant theo quy luật
Quy trình để xây dựng bộ tổng hợp formant theo luật gồm hai quá trình riêng biệt là quá trình phân tích âm thanh tiếng nói để tìm ra các quy luật và tổng hợp lại tiếng nói dựa vào các quy luật này
Phân tích tìm quy luật
Quá trình phân tích được tiến hành trên cơ sở dữ liệu tiếng nói tự nhiên chủ yếu bao gồm các âm tiết có dạng C-V (phụ âm – nguyên âm) hay C-V-C (phụ âm – nguyên âm – phụ âm) của nhiều giọng nói Cơ sở dữ liệu này tốt nhất phải bao phủ được tất cả các hình thái ngữ âm của một ngôn ngữ
Thuật toán dự đoán tuyến tính LPC, được sử dụng trong quá trình phân tích phổ để xác định mẫu của tần số formant, băng thông formant, tần số âm cơ bản F0 của tín hiệu tiếng nói Tần số từ F1 đến F5 và băng thông W1 đến W5 ở phần ổn định của các âm tố được lưu giữ dưới dạng bảng Đó là các giá trị “đích” để tạo ra một âm vị
Trong tiếng nói, phần mang thông tin được quan tâm nghiên cứu nhiều hơn
là các phần chuyển tiếp giữa các âm vị từ nguyên âm sang phụ âm và ngược lại
(C-V và (C-V-C) Tần số formant chuyển tiếp từ âm vị nọ sang âm vị kia được mô hình hoá và tạo thành các quy luật tổng hợp cho kĩ thuật tổng hợp formant Như vậy về
cơ bản các quá trình phân tích tìm luật để mô tả sự thay đổi liên tục phổ của một ngữ lưu bằng các formant và sự chuyển tiếp của các formant từ âm vị này sang âm
vị khác Hệ thống quy luật bao gồm:
- Luật để xác định vị trí đích các formant của mỗi âm vị trong một ngữ lưu cũng như thời gian tồn tại của các vị trí đó
- Luật nhằm làm trơn các formant đích
- Luật để chuyển đổi các hàm thời giam thành dạng sóng thanh
Tổng hợp tiếng nói dựa trên tập luật phân tích (hay tổng hợp formant)
Trang 2627
Hệ thống tổng hợp formant sẽ căn cứ vào các tham số điều khiển từ bảng tra cứu và cùng với thuật toán được xây dựng cho sự chuyển tiếp là các tín hiệu điều khiển bộ tổng hợp để tạo các âm đoạn tính
Thiết kế của bộ tổng hợp formant được dựa trên mô hình tương tự đầu cuối tạo tiếng nói do Frant đề xuất
Tổng hợp formant được phân loại theo cấu hình mắc các bộ cộng hưởng song song hay nối tiếp Hàm truyền của bộ tổng hợp khi mắc nối tiếp bộ cộng hưởng tương tự như hàm truyền ống thanh vì vậy bộ tổng hợp nối tiếp mô hình hoá rất tốt cho các âm hữu thanh Còn bộ tổng hợp với các bộ cộng hưởng mắc song song sẽ tạo ra cho các âm tắc, âm xát và âm mũi một chất lượng âm thanh tốt hơn
Sơ đồ khối bộ tổng hợp Klatt
Bộ tổng hợp âm đoạn tính sử dụng phần mềm của Klatt bằng cả cách nối song song và nối tiếp các bộ cộng hưởng Đây là hệ thống tổng hợp formant khá hoàn thiện cho đến nay
Mô hình tổng hợp tiếng nói của Klatt [13], [14], [19] mô phỏng quá trình tạo tiếng nói của con người dựa trên nguyên lý nguồn âm-bộ lọc của quá trình tạo tiếng nói, đây là mô hình tổng hợp formant hỗn hợp bao gồm cả tuyến âm nối tiếp và song song với nguồn âm phức hợp Sơ đồ khối bộ tổng hợp được trình bày trong hình 1.5 cùng với các tham số cần thiết nhất để điều khiển nguồn âm và tuyến âm Một số tham số điều khiển khác thường được gán giá trị ngầm định, không trình bày
ở đây
Trang 27Hình 1.6: Nguồn hữu thanh
Nguồn kích hữu thanh được điều khiển bởi 4 tham số là: OQ, TL, AV và T0, trong đó:
OQ: hệ số mở (Open Quotion)
TL: độ nghiêng phổ
T
a,b=f(AV,OQ*T0)
aT2-bT3MAX
0
OQ*T0
T0
Bộ lọc thông thấp, F,BW=f(TL)
Nguồn tạp âm, AMP=f(OQ)
Hàm truyền đạt của tuyến âm cho nguồn
âm thanh quản (các bộ cộng hưởng formant nối tiếp )
Hàm truyền đạt của tuyến âm cho nguồn
âm xát (các bộ cộng hưởng formant song song)
Nguồn hữu thanh
Tiếng nói
A1 A2 A3 A4 A5 A6 AB
Trang 2829
AV: biên độ hữu thanh
T0: chu kỳ dao động cơ bản của đôi dây thanh (=1/F0)
Hàm sóng hữu thanh cơ sở có dạng: aT2
-bT3Trong đó:
T: biến thời gian
Các hệ số a, b là hàm của AV và OQ*T0
Ưu điểm của nguồn hữu thanh này là nó mô phỏng gần giống với nguồn âm
tự nhiên, cường độ của tín hiệu cửa hầu được mô tả tốt tại cả thời điểm đóng và mở với hình dáng không đều, tốc độ nhanh hơn tốc độ mở Cường độ của sóng hữu thanh tuân theo hàm trên trong suốt pha mở của chu kỳ bằng 0 trong thời gian còn lại Có thể điều chỉnh để phổ nghiêng hơn bằng cách sử dụng OQ hoặc TL để phỏng theo hiệu ứng đóng cửa hầu không hoàn toàn và sự làm tròn góc của sóng âm vào lúc kết thúc
Khuyết điểm của nguồn kích thích này là độ lớn phổ một số chỗ không đều
Do vậy độ rộng dải thông của formant sẽ hơi mỏng khi nó gần tần số 600Hz (vị trí điểm 0 thực sự vụ thuộc vào OQ) Biên độ formant này thay đổi giống như xuất hiện trong tiếng nói tự nhiên
Nguồn vô thanh để mô tả kích thích khi tạo các âm vô thanh là bộ sinh số ngẫu nhiên
Trong pha mở của đôi dây thanh, kích thích từ nguồn hữu thanh được kết hợp với tín hiệu từ nguồn tiếng ồn ngẫu nhiên để mô tả kích thích cho các âm bật hơi
Sự tán xạ được thể hiện trong nguồn kích hữu thanh bằng cách cộng với đạo hàm bậc nhất của giá trị quá khứ
Mô hình tuyến âm
Tuyến âm gồm hai nhánh : nhánh nối tiếp và nhánh song song Mỗi nhánh gồm các bộ lọc bậc 2 diễn tả tần số cộng hưởng và phản cộng hưởng của tín hiệu tiếng nói (hình 1.7)
Trang 2930
(a) Hệ truy hồi bậc hai
(b) Hệ không truy hồi bậc hai
Fs f BW PI r
b
r r c
Fs BW PI r
*
*
*2cos(
)/)
*exp((
*)1(
*)(
*)
Trang 3031
Hình 1.7 (b) biểu diễn bộ lọc chắn dải-bandstop (còn gọi là hệ không truy hồi bậc hai) mô tả tần số cộng hưởng (điểm không) Bộ lọc cũng được điều khiển bằng các thông số là tần số lấy mẫu, tần số phản cộng hưởng và băng thông của nó Các hệ số a‟, b‟, c‟ được thiết lập theo các hệ số a, b,c của bộ lọc thông dải với sự thay đổi như sau :
a c
c
a b
b
a a
/'
/'
*)1(
*)(
*)
(n a x n b x n c x n
y
Chú ý : các giá trị x(0), x(-1), y(0), y(-1) được khởi tạo bằng 0 Biên độ cộng hưởng
A được mô tả bằng cách nhân với hệ số a (A*a)
Nhánh nối tiếp của tuyến âm gồm 8 bộ cộng hưởng mô tả 8 tần số formant, 1
bộ mô tả điểm cực cho âm mũi và 1 bộ phản cộng hưởng mô tả điểm 0 âm mũi Nhánh song song gồm bộ cộng hưởng cho 6 tần số formant và 1 bộ cho điểm cực
âm mũi Ngoài ra còn 1 bộ lọc xung cửa hầu, 1 bộ lọc thông thấp cho nguồn tiếng
ồn ngẫu nhiên, 1 bộ lọc thể hiện sự tán xạ âm qua miệng và mũi
Đặc tính tán xạ
Đặc tính tán xạ được mô tả bằng bộ lọc thông cao, diễn tả sự tán xạ của âm
ra ngoài mũi hoặc miệng Trong tính toán thực tế, đặc tính tán xạ được tích hợp vào nguồn kích bằng cách cộng thêm đạo hàm bậc nhất của tín hiệu trước đó
Các tham số điều khiển
Mô hình tổng hợp formant hoạt động để tạo các tín hiệu tiếng nói khác nhau bằng các tham số điều khiển Các tham số điều khiển được chia thành hai loại: các tham số toàn cục, thiết lập giá trị cho toàn phiên làm việc và các tham số thay đổi theo từng khoảng thời gian ngắn, nhận các giá trị thay đổi theo mỗi khoảng cập nhật Mỗi tham số đều được định nghĩa một khoảng giá trị (cực tiểu, cực đại) và một giá trị ngầm định khi khởi tạo
Các tham số toàn cục
Trang 3132
Giá trị gán cho các tham số toàn cục được sử dụng cho toàn phiên làm việc Có 3 tham số toàn cục là:
a) Tần số lấy mẫu (ký hiệu là sr): là số mẫu cần phải tạo ra ứng với 1 giây
tiếng nói tổng hợp Giá trị ngầm định là 10000 mẫu/giây (Hz) Nếu sr tăng, phổ của tiếng nói tổng hợp sẽ nghiêng hơn, sử dụng bộ lọc thông thấp chống trùm phổ với tần số cắt khoảng 4500-4800 Hz cho giá trị 10000 Hz Do vậy, nếu sr thay đổi, cần sử dụng bộ lọc với tần số cắt thích hợp
b) Khoảng cách cập nhật (ký hiệu là ui) : số ms của sóng âm được tạo giữa
các lần cập nhật các biến tham số thay đổi theo thời gian (đoạn đủ ngắn để các thuộc tính của tiếng nói được coi là tuyến tính, bất biến) Giá trị 5 ms có thể phản ánh hầu hết các thay đổi nhanh chóng của các tham số tiếng nó, tuy nhiên thực tế chỉ cần sử dụng giá trị 10 ms đã là đủ
c) Số lƣợng formant trong tuyến âm nối tiếp (ký hiệu là nf) : là số lượng
formant tính từ F1 đến tối đa F8 thực sự có trong âm nối tiếp
Giá trị ngầm định là 5, ứng với tần số lấy mẫu 10000 mẫu/giây và người nói
có chiều dài tuyến âm là 17 cm (nghĩa là khoảng cách trung bình giữa các formant là 1000 Hz) Muốn mô hình tuyến âm có chiều dài khác 17 cm hoặc tần số lấy mẫu thay đổi thì cần phải thay đổi „nf‟
Các tham số thay đổi theo thời gian
Giải thuật tổng hợp của Klatt sử dụng một bộ gồm 40 tham số để điều khiển tạo ra tiếng nói tổng hợp Mỗi bộ giá trị của các tham số được gọi là một frame, mỗi bộ này sẽ điều khiển để tạo ra một đoạn tín hiệu tiếng nói có độ dài theo sự thiết lập của tham số toàn cục „ui‟ Trong bảng 1.3 là ký hiệu và ý nghĩa của một số tham số
Bảng 1.3: Minh họa một vài tham số trong hệ tổng hợp Klatt
STT Tên Ý nghĩa Mặc định Nhỏ nhất Lớn nhất Đơn vị
6 F1 Tần số Formant thứ nhất 450 150 900 Hz
Trang 3212 FNZ Tần số của điểm không âm mũi 250 200 700 Hz
14 A1 Biên độ Formant thứ nhất 0 0 80 dB
16 B1 Băng thông Formant thứ nhất 50 40 500 Hz
17 B2 Băng thông Formant thứ hai 70 40 500 Hz
18 B3 Băng thông Formant thứ ba 110 40 500 Hz
19 B4 Băng thông Formant thứ tư 250 100 500 Hz
20 B5 Băng thông Formant thứ năm 200 150 700 Hz
21 B6 Băng thông Formant thứ sáu 1000 200 2000 Hz
22 FNP Tần số điểm cực âm mũi 250 200 500 Hz
24 BNP Băng thông của điểm cực âm mũi 100 50 500 Hz
25 BNZ Băng thông của điểm không âm mũi 100 50 500 Hz
26 AB Biên độ phần chuyển thẳng cho âm xát 0 0 80 dB
Hiện nay, với những công cụ thích hợp chúng ta hoàn toàn có thể xác định tần số formant cho các âm vị của tiếng Việt Đi theo hướng này có ưu điểm là tiết kiệm được bộ nhớ, song chất lượng tiếng nói không tự nhiên và phụ thuộc nhiều vào chất lượng của quá trình phân tích tiếng nói của từng ngôn ngữ Phần mềm tổng hợp tiếng Việt VnSpeech [33] đã sử dụng cách tiếp cận này Tuy nhiên, chất lượng vẫn còn rất hạn chế
1.5.3 Tổng hợp ghép nối
Tổng hợp ghép nối dựa trên việc ghép nối các đoạn tiếng nói đã ghi âm sẵn Nói chung, tổng hợp ghép nối cho tiếng nói tổng hợp nghe tự nhiên nhất Tuy nhiên, độ tự nhiên của tiếng nói và các kỹ thuật tự động phân đoạn sóng âm thanh đôi khi dẫn đến nghe rõ sự không đều của thiết bị ở đầu ra làm giảm độ tự nhiên
Trang 3334
[30] Có ba loại tổng hợp ghép nối: tổng hợp chọn đơn vị, tổng hợp diphone (hai nửa của hai âm vị liền nhau) và tổng hợp theo miền
Tổng hợp chọn đơn vị sử dụng CSDL tiếng nói lớn Trong quá trình tạo cơ
cở dữ liệu, mỗi phát âm được thu âm sẽ được phân thành các âm vị, âm tiết, hình vị,
từ, cụm và các câu riêng Việc phân chia thành các đoạn có thể dùng một số các kỹ thuật như kỹ thuật phân cụm, chương trình nhận dạng, phân đoạn bằng tay sử dụng công cụ xử lý và gán nhãn tiếng nói trực quan Phương pháp này đòi hỏi cơ sơ dữ liệu tiếng thu âm lớn và việc xử lý cơ sở dữ liệu này cũng khá công phu
Tổng hợp diphone dùng CSDL tiếng nói nhỏ nhất chứa toàn bộ các diphone xuất hiện trong ngôn ngữ Số lượng diphone phụ thuộc vào cách phiên âm của từng loại ngôn ngữ Chẳng hạn tiếng Tây Ban nha là 800 diphone, tiếng Đức khoảng
2500 diphone, mỗi diphone là duy nhất trong cơ sở dữ liệu Chất lượng tiếng nói tổng hợp thường không tốt bằng tổng hợp chọn đơn vị Ưu điểm của tổng hợp diphone là cơ sở dữ liệu nhỏ hơn phương pháp tổng hợp ghép nối chọn đơn vị
Tổng hợp theo miền cụ thể là việc ghép các từ và các cụm được ghi sẵn lưu trong CSDL để tạo thành lời nói hoàn chỉnh Ưu điểm tiếng nói tự nhiên, tuy nhiên lại hạn chế về số lượng từ và câu có thể tổng hợp được
Trang 34Trong ba phương pháp nêu trên, tổng hợp theo cấu âm, tổng hợp formant theo quy luật và tổng hợp xích chuỗi thì tổng hợp xích chuỗi mang nhiều tính công nghệ, được quyết định bởi sự phát triển của máy tính So sánh về chất lượng trong
ba phương pháp, thì tổng hợp xích chuỗi hiện nay đã thành công nhất trong việc tạo
ra tiếng nói không chỉ nghe hiểu rõ mà đạt được độ tự nhiên gần với tiếng nói của con người hơn cả Phần lớn các hệ thống tổng hợp chất lượng cao cho các ngôn ngữ
có trên thị trường hiện nay đều sử dụng phương pháp tổng hợp xích chuỗi này
Khi xây dựng một hệ thống tổng hợp xích chuỗi, tiếng nói chứa tập hợp các đơn vị âm thanh cơ bản của một ngôn ngữ, thông thường tương ứng với một chuỗi
Tiếng nói tổng hợp
Âm vị +ngôn điệu
CSDL tiếng nói
CSDL tiếng
nói tham số
Thông tin về đơn vị
CSDL tiếng nói mã hóa
Mã hóa tiếng nói
Mô hình tiếng nói
Tạo dãy đơn vị
Chọn đơn
vị
Giải mã tiếng nói Ghép nối và hậu xử lý
Trang 3536
ngắn các âm vị có lựa chọn được đọc, ghi âm và lưu giữ trong CSDL Các đơn
vị âm được lựa chọn, phân tích các tham số đặc trưng và sau đó có thể được mã hoá bằng một phương pháp mã hoá tiếng nói nào đó tạo thành các mẫu cho một đơn vị
âm thanh Các mẫu hoặc các tham số phân tích của chúng được lưu giữ lại trong kho dữ liệu đơn vị tổng hợp
Khi tổng hợp một phát ngôn mới, cho trước mô tả ngữ âm của phát ngôn đó,
hệ thống sử dụng các quy luật để định vị đơn vị thích hợp, truy xuất chúng ra khỏi kho dữ liệu và xích chuỗi chúng lại với nhau
Thông thường, một hệ thống tổng hợp xích chuỗi có ít nhất là một hoặc hai mẫu cho mỗi một đơn vị cơ bản Do các tham số về cao độ tần số cơ bản, độ dài và cường độ của các đơn vị này rất khác nhau (chúng được trích ra từ tín hiệu tiếng nói trong ngữ cảnh khác nhau) nên khi tổng hợp, hệ thống theo phương pháp tổng hợp xích chuỗi phải thực hiện hai công việc chính
- Một là phải thay đổi các tham số siêu đoạn tính của các đơn vị để tiếng nói tổng hợp thể hiện được ngữ điệu thích hợp như mong muốn
- Hai là phải thực hiện việc lựa chọn hay thay đổi các đặc tính của âm đoạn đơn vị tại các biên ghép nối của chúng sao cho việc ghép nối là mịn nhất để đảm bảo chất lượng âm thanh tổng hợp tạo ra gần với tiếng nói tự nhiên
Giả sử có hai âm đoạn được xích chuỗi là L(left) và R(right) Chúng ta xem xét tập hợp P của các tham số {p1,p2,…, pN}, các giá trị 0
M
i M P P P P
2'1 1 0 0
R
R R L J L R
M
j M P P P P
2'1 0 0
với i = 0 … ML-1 và j = 0 … MR-1;
Trang 3637
Như vậy chất lượng của một hệ tổng hợp xích chuỗi được quyết định bởi các yếu tố sau:
Sự lựa chọn tập âm đơn vị cơ bản Trong đó ngữ âm của ngôn ngữ tổng hợp
là yếu tố chính quyết định loại đơn vị cơ bản
Chất lượng âm thanh và mức độ bao phủ các tổ hợp âm đoạn cần thiết cho một ngôn ngữ của CSDL âm
Khả năng cung cấp các tham số về ngữ điệu như đường nét tần số cơ bản cường độ âm thanh và độ dài các âm cho bộ tổng hợp Các tham số này được tiên đoán trong phần xử lý ngôn ngữ của bộ tổng hợp từ văn bản
Khả năng thay đổi tần số cơ bản F0 và độ dài các đơn vị âm cơ bản phù hợp với ngữ điệu được miêu tả ở đầu vào của bộ tổng hợp mà không ảnh hưởng tới chất lượng cảm thụ của âm đó
Thuật toán xích chuỗi và mô hình tín hiệu cho phép dễ dàng làm trơn hai điểm ghép nối của các âm đoạn được xích chuỗi
Chính vì hai yếu tố sau nên một số hệ thống tổng hợp xích chuỗi thực hiện
mã hoá tham số tiếng nói Với cách thể hiện bằng các tham số, đặc trưng phổ và ngữ điệu của tiếng nói được thay đổi dễ dàng hơn mà không thay đổi đặc tính nhận dạng âm đơn vị cơ bản Phương pháp mã hoá tham số đặc trưng nhất là mã hoá tiên đoán tuyến tính LPC cũng như các biến thể của chúng
1.5.5 Đánh giá các phương pháp tổng hợp tiếng nói
Trong phương pháp tổng hợp cấu âm thì việc thu thập dữ liệu và cài đặt tập luật theo dữ liệu chuẩn rất phức tạp Nó hầu như không thể mô hình hóa được đa số
sự cử động của lưỡi hoặc đặc trưng khác của hệ thống phát âm một cách đầy đủ.Do vậy, phương pháp này cực kỳ phức tạp
Trong phương pháp tổng hợp Formant, tập luật điều khiển các tần số formant, biên độ và các đặc trưng nguồn kích thích là lớn Hạn chế của phương pháp này là giọng nói nghe không rõ, máy móc, không tự nhiên đặc biệt với các âm mũi Hơn nữa, vì là tổng hợp theo luật nên không thể có được tập luật đầy đủ bao hết được mọi giọng nói Ưu điểm nổi bật của phương pháp này là khả năng thay đổi
Trang 3738
giọng người nói chỉ bằng việc điều khiển các tham số Một số hệ thống tổng hợp
sử dụng phương pháp tổng hợp formant như hệ tổng hợp Klatt, Mutivox, DECtalk
Trong luận văn chủ yếu quan tâm vào cải tiến cho tổng hợp ghép nối nên đặc biệt chú ý những nhược điểm của phương pháp này Tổng hợp ghép nối được sử dụng phổ biến nhất do tiếng nói tự nhiên hơn Tuy nhiên, nó cũng có một số nhược điểm chính sau đây: cần CSDL tiếng nói lớn (chi phí về thu âm và phân tích cơ sở
dữ liệu tiếng nói rất tốn kém), khi ghép nối các thành phần âm thanh đã phân đoạn thì kết quả thường không thỏa mãn vì sự gián đoạn ở biên của âm thanh làm nhiễu
Sự gián đoạn có thể xảy ra theo một số yếu tố sau đây:
Biên độ:
Sự gián đoạn biên độ có thể nhìn thấy trên miền thời gian Chúng có thể rất dài, nếu biên độ ở cuối phát âm và ở đầu âm tiết thì các âm tiếp theo mạnh rõ rệt Có thể nghe rõ như là bị vỡ Hình 1.9 biểu diễn gián đoạn biên độ trong miền thời gian
Hình 1.9: Gián đoạn biên độ
Năng lượng
Sự không liên tục của năng lượng sinh ra âm lượng khác nhau của tiếng nói
Sự thay đổi lớn thường tồn tại theo thời gian Hình 1.10 và hình 1.11 biểu diễn sự gián đoạn của năng lượng trong miền thời gian
Trang 3839
Hình 1.10: Gián đoạn năng lượng (miền thời gian)
Hình 1.11: Gián đoạn năng lượng
Khả năng của tổng hợp ghép nối sinh tiếng nói chất lượng cao còn phụ thuộc vào chất lượng đoạn tiếng nói trong cơ sở dữ liệu Các đoạn tiếng nói thể hiện một
số tính chất cơ bản:
Cho phép tính toán những ảnh hưởng của các phát âm khác,
Dễ kết nối, hạn chế việc làm trơn trong ghép nối,
Không mất thông tin, CSDL không lớn,
Đơn vị tiếng nói dài giảm mật độ kết nối, khi đó chất lượng tiếng nói tốt hơn
Trang 3940
Việc dùng đơn vị dài hơn làm giảm lỗi ghép nối dẫn đến CSDL lớn hơn trong khi ứng dụng yêu cầu giảm bộ nhớ Vì vậy cần phải cân bằng giữa hai yếu tố Bảng 1.4 dưới đây đánh giá việc chọn lựa các đơn vị âm cơ bản cho tiếng Anh Đây cũng là một cơ sở trong việc lựa chọn phương pháp tổng hợp
Bảng 1.4: Đánh giá sự lựa chọn đơn vị cơ bản trong hệ tổng hợp tiếng Anh
Tiếng nói chất lượng cao
Thuật toán tổng hợp ghép nối đơn giản
Nhƣợc điểm:
Yêu cầu bộ nhớ lớn
Ghép nối từ rời rạc làm giảm tính dễ hiểu và độ tự nhiên của tiếng nói tổng hợp
Âm tiết 20000
(4400)
Gồm âm đầu + nguyên
âm + âm cuối
Luật làm trơn đơn giản
Sinh tiếng nói tự nhiên Diphone 1500
Luật làm trơn đơn giản
Sinh tiếng nói tự nhiên
Âm vị 37 Đơn vị cơ bản của hệ
thống âm vị học
Ƣu điểm:
Cần bộ nhớ nhỏ Nhược điểm:
Các luật làm trơn phức tạp Cần thiết việc hiệu chỉnh ngữ điệu theo ngữ cảnh
Để hiểu được cấu trúc đơn vị âm cơ bản trong tổng hợp xem bảng 1.5 dưới đây
Bảng 1.5: Cấu trúc đơn vị âm cơ bản trong hệ tổng hợp
Trang 4041
Trong chương 4 sẽ tập trung giải quyết các nhược điểm của tổng hợp ghép nối, cụ thể trong phần mềm VnVoice 1.0