Nghiên cứu một số phương pháp nâng cao chất lượng tổng hợp tiếng Việt và thử nghiệm cho phần mềm VnVoice

Hiện nay đã có nhiều phương pháp tổng hợp tiếng nói được nghiên cứu và ứng dụng trong thực tế như: tổng hợp theo cấu âm, tổng hợp bằng ghép nối, cách điệu hóa đường F0 và hiện tượng ngôn

Trang 1

1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Nguyễn Thị Thanh Mai

NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG TỔNG HỢP TIẾNG VIỆT VÀ

THỬ NGHIỆM CHO PHẦN MỀM VNVOICE

LUẬN VĂN THẠC SĨ

Hà nội-2007

Trang 2

2

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Nguyễn Thị Thanh Mai

NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP NÂNG CAO

CHẤT LƯỢNG TỔNG HỢP TIẾNG VIỆT VÀ

THỬ NGHIỆM CHO PHẦN MỀM VNVOICE

Ngành: Công nghệ thông tin

Chuyên ngành: Công nghệ thông tin

Mã số: 1.01.10

LUẬN VĂN THẠC SĨ

NGƯỜI HƯỚNG DẪN KHOA HỌC

PGS.TS.Lương Chi Mai

Hà nội-2007

Trang 3

3

MỤC LỤC

MỞ ĐẦU 5CHƯƠNG 1: TỔNG QUAN VỀ TỔNG HỢP TIẾNG NÓI 9

1.2 Lịch sử phát triển và ứng dụng tổng hợp tiếng nói 9

1.5.5 Đánh giá các phương pháp tổng hợp tiếng nói 37

TỔNG HỢP TIẾNG NÓI 42

3.1.3.3 Phân lớp đường thanh điệu trong ngữ cảnh câu 66

4.1 Đánh giá VnVoice và một số giọng tổng hợp tiếng Việt hiện nay 71

Trang 4

5

MỞ ĐẦU

Nhận dạng và xử lý tiếng Việt (ngôn ngữ và tiếng nói) là nền tảng thiết yếu của phát triển và ứng dụng công nghệ thông tin ở Việt nam Giới nghiên cứu và công nghiệp trên thế giới do theo đuổi các nghiên cứu cơ bản và công nghệ này từ hàng chục năm qua, gần đây đã càng thu được nhiều thành tựu quan trọng Khác với các sản phẩm khác của công nghệ thông tin, sản phẩm về tiếng nói, ngôn ngữ Việt không thể mua được từ nước ngoài, chỉ có thể do người Việt làm ra trên cơ sở tiếp thu được các thành tựu khoa học công nghệ trên thế giới và theo đuổi lâu dài

Nhận dạng tiếng nói nhằm chuyển thông tin từ tiếng nói con người vào máy tính, và tổng hợp tiếng nói nhằm tự động tạo ra tiếng người nói bằng máy tính Cùng với sự phát triển nhanh chóng của công nghệ thông tin nói chung và mạng Internet nói riêng, nhận dạng và tổng hợp tiếng nói càng ngày càng trở nên là một

xu hướng tất yếu cho những máy tính thế kỉ 21 Trong vòng 50 năm qua, rất nhiều thuật toán được đề xuất và triển khai trên các hệ tự động nhận dạng và tổng hợp tiếng nói Trên thế giới đã có nhiều bộ phần mềm thương mại dành cho tiếng Anh như IBM ViaVoice (http://www4.ibm.com/software/speech/), Dragon Naturally Speaking, L&H Voice Xpress Những phần mềm này cung cấp các chức năng chủ yếu như: nhập văn bản vào máy, đọc văn bản thành lời, duyệt Web bằng giọng nói Công nghệ tổng hợp và nhận dạng tiếng nói có ý nghĩa rất lớn trong giao tiếp người-máy: thay vì giao tiếp với máy tính qua những biểu tượng và cửa sổ, các máy tính trong tương lai chỉ giao tiếp với con người bằng những mệnh lệnh đơn giản

Hiện nay đã có nhiều phương pháp tổng hợp tiếng nói được nghiên cứu và ứng dụng trong thực tế như: tổng hợp theo cấu âm, tổng hợp bằng ghép nối, cách điệu hóa đường F0 và hiện tượng ngôn điệu, tâm lý, … Tuy nhiên, vấn đề tổng hợp giọng tự nhiên cho tới nay vẫn là một vấn đề mở, ngay cả trong các ngôn ngữ châu

Âu thông dụng như tiếng Anh Đó là do chất lượng tiếng nói tổng hợp còn phụ thuộc vào rất nhiều các yếu tố khác như:

 Bộ đơn vị ngữ cảnh (bộ tham số cấu âm hoặc đoạn sóng âm ngắn),

 Bộ chuẩn hóa văn bản,

Trang 5

6

 Bộ xử lý ngôn ngữ: từ, câu,…

 Tối ưu hóa chọn đơn vị ngữ cảnh,

 Các hiện tượng ngôn ngữ tiếng Việt: dính âm, biến thanh, năng lượng, trường độ thanh,

 Các hiện tượng ngôn điệu: thanh điệu trong câu, trường độ

Tổng hợp tiếng Việt hiện nay mới đạt ở mức độ đọc rõ ràng trong khi các ứng dụng thực tế đòi hỏi giọng tổng hợp phải tự nhiên như người nói

Trên cơ sở đó, mục đích của luận văn nhằm nghiên cứu và thử nghiệm một

số kỹ thuật và mô hình xử lý ngôn điệu để nâng cao chất lượng giọng tổng hợp trong phần mềm tổng hợp tiếng Việt VnVoice 1.0

Luận văn sẽ được chia thành 4 chương bao gồm:

Chương 1: Tổng quan về tổng hợp tiếng nói Chương này trình bày khái

quát về tổng hợp tiếng nói và lịch sử phát triển cũng như ứng dụng của nó Hơn nữa, chương 1 còn giới thiệu một số kỹ thuật tổng hợp tiếng nói đã được sử dụng trên thế giới

Chương 2: Các thành phần cơ bản của hệ thống tổng hợp Chương này

giúp người đọc hiểu rõ hơn về một hệ thống tổng hợp bao gồm những thành phần

cơ bản nào

Chương 3: Một số phương pháp cải tiến chất lượng giọng tổng hợp

Chương này trình bày việc phân tích và đánh giá chất lượng giọng tổng hợp theo các cách tiếp cận khác nhau

Chương 4: Thử nghiệm cải tiến giọng đọc tổng hợp tiếng Việt trong phần mềm VnVoice Chương này là chương trọng tâm của luận văn Chương này

áp dụng một số phương pháp cải tiến chất lượng và kết quả

Trong luận văn, các trích dẫn của các tác giả khác liên quan đến lĩnh vực nghiên cứu đặt trong dấu ngoặc vuông []

Trang 6

7

BẢNG CÁC TỪ VIẾT TẮT

CART Classification and regression trees

(Cây phân lớp hồi quy)

MLPS Multivariate Adaptive Regression Splines

TD-PSOLA Time-Domain Pitch-Synchronous Overlap and Add

Trang 7

Diphone Hai nửa của hai âm vị liền nhau

Trang 8

1.2 Lịch sử phát triển và ứng dụng tổng hợp tiếng nói

Tạo ra tiếng nói bằng máy là một ước mơ của loài người và là mục tiêu thách thức các nhà khoa học trên thế giới nhiều thế kỉ qua Máy nói đầu tiên do Wolfgang Von Kempelen chế tạo năm 1791 mô phỏng bộ máy phát âm của người đã có thể phát ra được một vài âm tố Ở đầu thế kỉ này vào năm 1939, máy VODER của nhà khoa học Dudley, phòng thí nghiệm AT&T BELL LABS đã thành công trong việc

mô hình hoá cộng hưởng của ống thanh bằng linh kiện điện tử Hệ thống điều khiển nhân công 10 bộ cộng hưởng bằng các nhóm và chiết áp đã có thể tạo ra một số câu nói có thể nghe được Từ giữa những năm 1950 trở lại đây, sự ra đời của máy tính điện tử đã cho phép tạo ra một cách có hệ thống các tham số để điều khiển bộ tổng hợp tiếng nói Cùng với sự phát triển như vũ bão của khoa học và công nghệ thập kỉ

80, 90, kỹ thuật tổng hợp tiếng nói đã có những bước phát triển rất quan trọng có sự đóng góp rất lớn của máy tính và xử lý tín hiệu số Sự tiến bộ này được thúc đẩy do:

 Khả năng tính toán của máy tính nhanh lên gấp nhiều lần, số lượng dữ liệu được lưu trữ ngày càng lớn, trong khi giá thành ngày càng rẻ

 Khả năng xây dựng và truy cập tới các cơ sở dữ liệu âm thanh và văn bản ngày càng dễ dàng

 Công nghệ nhận dạng tự động âm thanh tiếng nói được hoàn thiện với độ chính xác ngày càng cao, trợ giúp việc tự động phân đoạn âm thanh tiếng nói

Trang 9

đã nghiên cứu và đưa ra nhiều công trình thực tế, nhưng việc tổng hợp tiếng nói từ văn bản đã chưa bao giờ là hoàn hảo, khi động chạm tới những ngôn ngữ có số lượng từ không hạn chế với đòi hỏi đạt tới mức tự nhiên trôi chảy như tiếng nói con người

Mặc dù vậy, những kết quả đạt được còn hạn chế, nhưng cũng đã phần nào được ứng dụng có thể nói là thành công trong nhiều lĩnh vực cụ thể, đem lại những kết quả nhất định

Các ứng dụng này tập trung ở các lĩnh vực sau:

• Học ngoại ngữ

Tổng hợp từ văn bản có thể hỗ trợ cho người nước ngoài học ngoại ngữ Ứng dụng này đòi hỏi tiếng nói tổng hợp phải có chất lượng tốt Hầu hết các phần mềm loại này chưa thực sự đáp ứng được yêu cầu của người sử dụng

• Trợ giúp người tàn tật

Hệ thống tổng hợp tiếng nói cùng với hệ thống quang học nhận dạng chữ viết có thể đọc các văn bản in cho người mù Giúp người mất khả năng nói có thể nói qua hệ thống TTS, bằng cách soạn thảo văn bản bằng bàn phím và phần mềm thiết kế cho phép ghép nhanh các câu Giáo sư vật lý thiên văn học người Anh Stephan Hawking, người đưa ra lý thuyết vụ nổ BIG BANG giảng bài cho sinh viên thông qua các hệ thống này

• Truyền thông tin bằng âm thanh

Trang 10

11

Một hệ thống tổng hợp tiếng nói rất hữu ích cho việc kiểm tra chính tả các văn bản trên máy tính vì khi nghe dễ dàng phát hiện lỗi hơn so với kiểm tra bằng mắt

Trong các hệ thống đo đạc điều khiển, khi mắt phải thực hiện các quan sát thì các thông tin bằng âm thanh rất cần thiết Ngoài ra bản tin và mệnh lệnh phát ra bằng âm cũng dễ tiếp thu hơn thông báo viết

• Trong lưu trữ và khai thác dữ liệu

Giờ đây có thể tích kiệm không gian lưu trữ âm bằng cách thay thế bằng các văn bản tương ứng, tất nhiên là trong trường hợp giọng người nói là không quan trọng Hơn thế các văn bản bàng chữ bao giờ cũng dễ sắp xếp và tìm kiếm hơn dữ liệu âm thanh

• Trong viễn thông

Tiếng nói tổng hợp đã được sử dụng nhiều trong các ứng dụng trả lời trực tuyến IVR, trên nhiều mạng viễn thông hiện đại như Mỹ, châu Âu và Nhật mà tiêu biểu là dự án MIVA với các dịch vụ điện thoại kích hoạt bằng thanh đa ngữ trực tuyến

Các hệ thống thông tin tích hợp thông điệp hợp nhất (Unified Meessaging) có khả năng đọc tự động nội dung các bức thư điện tử và các bức FAX và các thông tin trên Net qua máy điện thoại cố định hoặc các máy

di động

Truy cập thông tin qua điện thoại và tự động tra cứu danh bạ điện thoại hai chiều bằng máy điện thoại…

• Thông tin đa phương tiện

Trong kỷ nguyên thông tin, hệ thống tổng hợp tiếng nói là một nửa bắt buộc của thông tin hai chiều giữa người và máy

Hệ thống dịch tự động được coi là một thành tựu khoa học lớn của nhân loại vào những năm đầu thế kỷ 21 phải sử dụng hệ thống tổng hợp tiếng nói ở đầu ra

• Các ứng dụng khác

Trang 11

12

Tổng hợp tiếng nói được ứng dụng trong các trò chơi, trong các thiết bị báo động, báo chát, hệ thống chống trộm, các thiết bị gia đình và các thiết bị giải trí khác

Vấn đề Tổng hợp tiếng Việt

Tổng hợp tiếng nói từ văn bản là một ngành khoa học nhận dạng liên quan đến nhiều ngành khoa hoc khác như: ngôn ngữ, xử lý tín hiệu và khoa học máy tính Hiện nay với nỗ lực nghiên cứu của các nhà khoa học công nghệ trên thế giới, chất lượng âm thanh tổng hợp hiện tại đã vượt qua ngưỡng nghe hiểu đơn giản và đang tiến dần tới mức độ nói tự nhiên của con người Trong một số ứng dụng ngôn ngữ hẹp, chất lượng âm thanh đã gần như không thể phân biệt với ngôn ngữ tự nhiên

Trong xu thế hội nhập thế giới, cùng với sự hấp dẫn của khoa học nhận dạng,

ở Việt Nam trong những năm vừa qua đã có những đề tài nghiên cứu về tổng hợp tiếng nói và bước đầu đã đạt được những thành tựu nhất định Công nghệ cho việc tổng hợp tiếng nói từ văn bản có số từ vựng không hạn chế chất lượng cao có những phức tạp chung là một lẽ, song một vấn đề nữa là nó còn phụ thuộc từng ngôn ngữ riêng biệt Không thể lấy các phần mềm tổng hợp tiếng nói Anh, Pháp, Đức, Nhật, để đọc văn bản chữ Việt Hơn nữa tiếng Việt là một ngôn ngữ đơn âm đa thanh điệu Vì vậy không ai khác mà chính là các nhà khoa học Việt Nam phải tự tiến hành xâu dựng công nghệ tổng hợp tiếng nói cho mình

Việt Nam đang bước vào thời kì phát triển nhanh chóng về CNTT, nó cho phép chúng ta có những nền tảng khoa học, cơ sở vật chất để có thể nghiên cứu cũng như triển khai các ứng dụng về khoa học công nghệ trong cuộc sống

1.3 Đặc điểm ngữ âm tiếng Việt

Khi giao tiếp con người phát ra những chuỗi âm thanh nhất định, ta gọi là dòng ngữ lưu (utterance) Trong từng dòng ngữ lưu, nếu đem chia cắt chúng ra, ta

sẽ thu được những đơn vị cấu thành nhỏ hơn, đó là âm tiết, âm tố và âm vị Trong

đó, âm tiết là đơn vị phân chia tự nhiên nhất trong lời nói, là đơn vị phát âm nhỏ nhất Mỗi âm tiết là một tiếng

Ví dụ lời nói: ”Hà Nội là thủ đô của nước Việt Nam” có 9 âm tiết

Trang 12

13

Về mặt sinh lý – vật lý, âm tiết được định nghĩa là một đơn vị mà khi

phát âm được đặc trưng bởi sự căng lên rồi chùng xuống của cơ thịt trong bộ máy phát âm

Trong mỗi âm tiết, chỉ có một âm tố có khả năng tạo thành âm tiết (gọi là âm

tố âm tiết tính), còn lại là các yếu tố đi kèm, không tự mình tạo thành âm tiết được

Âm tố âm tiết tính thường được phân bố ở trung tâm, làm hạt nhân âm tiết Đó thường là các nguyên âm Điều này dẫn đến hệ quả là một âm tiết khi được phát ra thì phần năng lượng tập trung nhiều nhất ở phần giữa âm (có biên độ cao), đi về đầu

và cuối âm tiết thì năng lượng giảm dần (xem hình 1.1)

Hình 1.1: Cụm từ ”âm tiết tiếng Việt ” thể hiện trên sóng âm Mỗi âm tiết có

biên độ lớn ở giữa âm và nhỏ dần ở đầu và cuối âm

Tiếng Việt là tiếng đơn âm có thanh điệu Nó là ngôn ngữ có kết cấu âm tiết tính Một đặc điểm của tiếng Việt là âm tiết trùng hình vị (đơn vị nhỏ nhất có nghĩa) Nói cách khác, một âm tiết là một hình thức biểu đạt của một hình vị Ví dụ,

từ học sinh có hai hình vị, mỗi hình vị có vỏ ngữ âm là một âm tiết là học và sinh

Là vỏ ngữ âm của một hình vị hay một từ đơn nên mỗi âm tiết tiếng Việt bao giờ cũng tương ứng với một ý nghĩa nhất định Chính vì vậy, việc phá vỡ hay xê dịch vị trí của các âm vị trong một đơn vị âm tiết là điều khó có thể xảy ra Nói cách khác, cấu trúc của âm tiết tiếng Việt là một cấu trúc chặt chẽ Vì thế, từ ”cá canh” sẽ không bị nối thành ”các anh”, ”cảm ơn” không bị đọc thành ”cả mơn”,

Do mỗi âm tiết là vỏ ngữ âm của hình vị nên khác với các ngôn ngữ Âu-Ấn, tiếng Việt có số âm tiết hữu hạn với 17000 vỏ ngữ âm có khả năng và 6900 âm tiết tồn tại thực

Trang 13

14

Âm tiết, hình vị tiếng Việt cố định, không thay đổi theo ngữ pháp về thời, giống và số như các ngôn ngữ khác Âm tiết tiếng Việt có cấu trúc chặt chẽ với các loại âm ở các vị trí cố định trong thành phần âm tiết

Một đặc điểm nổi bật khác của tiếng Việt là thanh điệu Mỗi âm tiết đều mang một thanh điệu nhất định Thanh điệu là một tập hợp những đặc trưng có liên quan đến độ cao (phụ thuộc tần số rung động của dây thanh âm) của thanh cơ bản trong âm tiết Nó được thể hiện trên tất cả những bộ phận hữu thanh trong âm tiết, nhất là các âm đoạn nguyên âm tính (nguyên âm và bán nguyên âm) và các đoạn phụ âm mũi

Thanh điệu có thể phân tích thành hai thành phần thường xuyên kết hợp với nhau: âm vực (độ cao của thanh cơ bản) và âm điệu (hướng chuyển biến cao độ-độ tăng giảm của tần số) trong quá trình thể hiện Vì vậy, mỗi thanh điệu có thể được miêu tả như một sự kết hợp của hai thông số nói trên

Hệ thống thanh điệu tiếng Việt gồm sáu thanh là ngang (không dấu), huyền, ngã, hỏi, sắc, và nặng Thanh điệu trong tiếng Việt kết hợp với các thành phần của

âm tiết tạo thành các từ khác nhau, ví dụ như: thanh/ thành/ thánh/ thạnh…Trong tiếng Việt không phải vần nào cũng phát âm đủ sáu thanh Đối với âm tiết đóng chỉ

có hai thanh sắc và nặng, ví dụ: tắc, tặc…

Ngoài các tính chất ngữ điệu như các ngôn ngữ Âu-Ấn, tần số cơ bản F0 là thành phần chính của hệ thống thanh điệu tiếng Việt tạo nghĩa khác nhau cho âm tiết Hệ thống thanh điệu tiếng Việt tạo nghĩa khác nhau cho âm tiết Hệ thống thanh điệu tiếng Việt là loại phức tạp nhất trong các ngôn ngữ đơn lập âm tiết tính (tiếng Thái có 5 thanh, tiếng Trung Quốc có 4 thanh)

Trong tiếng Việt, âm tiết có cấu trúc chặt chẽ và ổn định, mỗi âm vị là một vị trí nhất định trong âm tiết, tạo thành cấu trúc âm tiết tiếng Việt

*Cấu trúc âm tiết tiếng Việt

Âm tiết tiếng Việt được tạo thành bởi ba thành phần có mức độ độc lập khác nhau là phụ âm đầu, phần vần và thanh điệu Về cấu trúc, âm tiếng Việt có cấu trúc hai bậc Bậc một gồm ba thành phần là thanh điệu, phị âm đầu và vần Bậc hai là các thanh to của phần vần gồm âm đệm là bán nguyên âm, nguyên âm chính và phụ

Trang 14

Âm đệm Âm chính Âm cuối

Hình 1.2: Cấu trúc âm tiếng Việt

1.3.1 Âm đầu

Là yếu tố mở đầu âm tiết Trong tiếng Việt có 21 phụ âm Phụ âm mang tính độc lập do không tham gia vào việc thay đổi về trường độ giữa các yếu tố bên trong

âm tiết

Đặc điểm âm đầu

 Khi phát âm, luồng hơi bị cản trở do sự xuất hiện chướng ngại vật trên lối ra của đường không khí Điểm có chướng ngại gọi là vị trí cấu âm

 Bộ máy phát âm không căng thẳng toàn bộ mà chỉ căng thẳng phần cơ thịt ở

vị trí cấu âm

 Luồng hơi ra mạnh

Phân loại

 Phân chia theo mối quan hệ giữa tiếng thanh và tiếng ồn trong cấu tạo

của âm đầu

Các phụ âm đầu được chia thành các phụ âm vang (tiếng thanh nhiều hơn tiếng ồn) và phụ âm ồn Trong các phụ âm ồn lại chia thành các phụ âm hữu thanh (phát âm có sự tham gia của tiếng thanh do dây thanh rung động) và phụ âm vô thanh (phát âm không có sự tham gia của tiếng thanh)

Nhóm phụ âm vang có thể coi là nhóm trung gian giữa các nguyên âm và phụ âm ồn Khi phát âm các phụ âm vang, chướng ngại được tạo thành nhưng có thể là chỗ tắc yếu hoặc không khí không những trực tiếp vượt qua chỗ có chướng ngại mà còn đi ra tự do qua mũi (như các phụ âm [m], [n] trong tiếng Việt)

Trang 15

16

 Phân chia theo phương thức cấu tạo tiếng ồn

 Phụ âm tắc: tạo thành khi hai khí quản tiếp xúc nhau, tạo thành chỗ tắc, cản

trở hoàn toàn lối ra của luồng không khí Ví dụ như các phụ âm [p], [b], [d], [t]

 Phụ âm xát: tạo thành khi hai khí quản nhích lại gần nhau, làm cho lối ra

của luồng không khí bị thu hẹp; luồng không khí đi qua khe hẹp này cọ xát vào thành của bộ máy phát âm Ví dụ, các phụ âm [v], [s], [h]

 Phụ âm rung: tạo thành khi các khí quản dễ rung động (như đầu lưỡi, lưỡi

con hay môi) nhích lại gần nhau tạo thành một khe hở rất hẹp hay một chỗ tắc yếu, luồng không khí đi ra mạnh làm cho các khí quản ấy rung lên Ví dụ phụ âm [r]

Trong các cấu âm của phụ âm, người ta thường phân biệt ba giai đoạn:

 Giai đoạn tiến: khí quản phát âm chuyển đến vị trí cấu âm

 Giai đoạn giữ: khí quản phát âm ở vị trí cấu âm

 Giai đoạn lùi: khí quản phát âm rời khỏi vị trí cấu âm

Hai giai đoạn đầu giống nhau ở bất kỳ âm tắc nào Về giai đoạn thứ

ba, cần phân biệt các tiểu loại âm tắc: âm nổ, âm mũi, âm tắc-xát và âm khép

 Phân chia theo vị trí tạo ra tiếng ồn

Theo vị trí cấu tạo tiếng ồn, các phụ âm được chia ra thành các loại chính:

phụ âm môi, răng, ngạc mạc, lưỡi con, yết hầu, thanh hầu

Theo khí quản chủ động, các phụ âm được chia thành các loại: phụ âm môi,

lưỡi trước, lưỡi giữa, lưỡi sau, lưỡi con, yết hầu, thanh hầu

Trong các nhóm này, có một số cần chia nhỏ nữa Ví dụ trong các âm môi, người ta phân biệt các âm hai môi, thường gọi là âm môi-môi ([b], [p], [m]) Với các âm một môi, thường gọi là âm môi-răng ([v]); các âm lưỡi trước thường chia thành nhiều nhóm nhỏ nhưng đáng chú ý là âm đầu lưỡi và âm quặt lưỡi,

Trang 16

17

1.3.2 Phần vần

Theo như lược đồ âm tiếng Việt ở trên thì phần vần đầy đủ gồm ba thành phần là âm đệm, âm chính, và âm cuối Ví dụ như âm tiết /toán/ có phần vần là /oan/, trong đó âm vị /o/ là âm đệm, âm vị /a/ là âm chính và /n/ là âm cuối

1.3.2.1 Âm đệm

Đóng vai trò là âm lướt trong kết cấu âm tiết Âm đệm ảnh hưởng đến cách

mở đầu của âm tiết (bên cạnh phụ âm đầu) Ví dụ: chữ ”toàn” khi phát âm có hiện tượng tròn môi do tác động của âm đệm/-u-/, còn chữ ”tàn” thì không có hiện tượng tròn môi do không có âm đệm

1.3.2.2 Âm chính

Là nguyên âm âm tiết tính trong âm tiết Âm tiết chính có thể là một nguyên

âm đơn hay nguyên âm đôi

Âm chính gồm một hệ thống nguyên âm gồm 11 nguyên âm đơn /a, ă, â, e, ê,

o, ô, ơ, u, ư, i/ và ba nguyên âm đôi /iê, ươ, ưa/ Âm chính là yếu tố tạo nên đỉnh âm thanh, có biên độ và cường độ lớn nhất trong các thành phần âm tiết

Đặc điểm

 Khi phát âm, luồng hơi không bị cản trở bởi lưỡi, răng hay môi

 Bộ máy phát âm căng thẳng toàn bộ

 Luồng hơi ra yếu hơn phụ âm

vì bình thường, bất kỳ nguyên âm nào cũng có tiếng thanh

Các nguyên âm chỉ khác nhau ở các hoạt động của khí quản phát âm, trong

đó quan trọng nhất là lưỡi Vì sự thay đổi vị trí của lưỡi gây ra sự khác nhau rất lớn giữa các nguyên âm Lưỡi chuyển động tới-lui và lên xuống trong khoang miệng và tạo nên những tương quan phức tạp giữa các khoang cộng minh (khoang miệng và mũi), làm thay đổi hình dáng và thể tích của chúng Môi tròn lại và đưa về trước,

Trang 17

 Theo vị trí của lưỡi

Gồm các nguyên âm dòng trước (khi lưỡi dồn về trước), nguyên âm dòng

sau (khi lưỡi dồn về sau) và nguyên âm dòng giữa (khi lưỡi ở giữa miệng

nâng lên) Ví dụ, trong tiếng Việt, các nguyên âm dòng trước là [i], [e], [ê], nguyên âm dòng sau là [u], [o], [ô], nguyên âm dòng giữa là [ư], [ơ], [a]

 Theo độ nâng của lưỡi

Các nguyên âm được chia tùy theo từng ngôn ngữ Độ nâng của lưỡi tương ứng với độ mở của miệng nên các nguyên âm có độ nâng cao còn gọi là nguyên âm hẹp, nguyên âm có độ nâng thấp còn gọi là nguyên âm mở Trong ngữ âm học đại cương không có một cách phân loại tuyệt đối theo độ nâng lưỡi vì mỗi ngôn ngữ có một hệ thống nguyên âm khác nhau Ví dụ, các nguyên âm dòng trước trong tiếng Pháp có 4 độ nâng, các nguyên âm trong tiếng Ðức có 5 độ nâng, tiếng Nga có 3 độ nâng, tiếng Anh có 6 độ nâng Trong tiếng Việt, các nguyên âm đơn có thể chia thành 4 nâng:

Bảng 1.1: Phân chia nguyên âm theo độ nâng của lưỡi

Ðộ nâng Gồm các nguyên âm

Hẹp [i], [u], … Hơi hẹp [ê], [u], … Hơi rộng [o], [e], … Rộng [a], [a], …

 Theo hình dáng môi

Các nguyên âm được chia thành nguyên âm tròn môi ([u], [ô], [o]), nguyên

âm không tròn môi ([i], [ê], [e], [ư], [ơ], [a]) Sự tròn môi rõ nhất ở nguyên

âm khép và yếu nhất ở nguyên âm mở

Trang 18

19

1.3.2.3 Âm cuối

Là âm kết thúc âm tiết Các âm tiết tiếng Việt thường đối lập bằng những cách kết thúc khác nhau Một số âm tiết kết thúc bằng sự kéo dài và giữ nguyên, ví dụ: má, đi, cho, Số âm tiết khác kết thúc bằng cách biến đổi âm sắc của âm tiết ở phần cuối do sự đóng lại của các âm cuối tham gia, ví dụ như một, mai, vàng, Trong trường hợp đầu, ta có các âm cuối là âm vị /zero/, trong trường hợp sau ta có các âm cuối là những âm vị bán nguyên âm hoặc phụ âm

Hệ thống âm cuối tiếng Việt bao gồm hai bán nguyên âm là /i, o/ và sáu phụ

âm /m, n, ng (nh), p, t, c/

1.3.3 Thanh điệu

Thanh điệu là loại âm vị siêu đoạn tính, nó được biểu lộ trong toàn bộ phần hữu thanh của âm tiết Ở mức vật lý, phần thanh của thanh điệu chính là đường nét của tần số âm cơ bản F0 Về cảm thụ, thanh điệu là sự cảm nhận về thay đổi của cao

đọ tần số cơ bản F0 của âm tiết

Sáu thanh điệu tiếng Việt được chia thành hai nhóm lớn bằng và trắc Thanh không dấu và thanh huyền thuộc loại thanh bằng có đường nét tương đối đơn giản Thanh ngã, thanh hỏi, thanh sắc và thanh nặng là những thanh trắc có đường nét thanh điệu phức tạp Các thanh ngang, sắc, ngã thuộc âm vực cao, còn các âm huyền, hỏi và nặng thuộc âm vực thấp

Trong các công trình nghiên cứu đã được công bố, đường nét thanh điệu tiếng Việt cho những âm tiết rời rạc (phương ngữ Bắc Bộ) được đánh giá tương đối thống nhất Ngoài tính chất thanh tính, các thanh điệu còn có một số đặc trưng phi điệu tính như hiện tượng yết hầu hoá, thanh hầu hoá,… tạo thành hệ thống các đặc trưng phụ để phân biệt các thanh điệu đặc biệt của thanh ngã và sắc, thanh hỏi, thanh nặng

*Phân loại âm tiết tiếng Việt

Phụ thuộc vào cách thức kết thúc, âm tiết tiếng Việt được chia thành 4 loại như trong bảng 1.2:

Bảng 1.2: Phân loại âm tiết tiếng Việt

Trang 19

20

1 Âm mở Là các loại âm tiết không có âm cuối, kết

thúc âm tiết bằng nguyên âm chính Ma, mẹ, …

2 Âm nửa mở âm cuối kết thúc âm tiết là một bán

3 Âm đóng Khi âm cuối là một phụ âm tắc vô thanh Tập, học,

4 Âm nửa đóng Khi âm cuối là một phụ âm mũi Làm, ngành,

1.4 Một số đặc trƣng của âm vị về mặt âm học

Sự phân loại các âm vị về mặt âm học đã được xây dựng dựa trên âm phổ Các máy phân tích âm phổ cho chúng ta các ảnh phổ (spectrogram), qua đó các âm

vị thể hiện rõ các đặc trưng âm học: cao độ, cường độ, trường độ,

Để biểu diễn phổ tiếng nói tại một thời điểm t, người ta dùng một biểu đồ với trục ngang biểu diễn các tần số (Hz) tham gia cấu âm thành âm thanh tại thời điểm t

và trục đứng với cường độ tương ứng (dB)

Hình 1.3: Phổ (spectrum) của một nguồn âm thanh tại thời điểm t

Để biểu diễn phổ tiếng nói theo sự biến thiên thời gian, người ta dùng ảnh phổ với trục ngang biểu diễn thời gian, trục đứng biểu diễn tần số, cường độ của

Trang 20

Hình 1.4: Ảnh phổ của tiếng ”hai” và sóng âm tương ứng Những vùng có

cường độ cao (vùng đen) tạo thành những dải bắt ngang qua ảnh phổ,

đó là những vệt formant, được đánh số từ dưới lên F1, F2, F3,

Dựa trên đặc điểm của ảnh phổ, âm vị được chia thành 12 đặc trưng sau:

 Nguyên âm-không nguyên âm

Đặc trưng của nguyên âm: được thể hiện bằng các cấu trúc formant Có đặc trưng nguyên âm là nguyên âm và các âm vang Không có đặc trưng nguyên âm

Trang 21

 Ngắt-không ngắt

Đó là sự đối lập giữa có và không có sự chuyển tiếp đột ngột giữa sự có mặt và vắng mặt của âm thanh ”Các phụ âm xát thường có khởi âm từ từ Ngược lại, các phụ âm tắc thường có sự ngắt đột ngột sóng âm đi trước bằng một khoảng

 Hữu thanh-vô thanh

Đó là sự đối lập giữa có hay không những dao động điều hòa ở vùng tần số thấp

Âm hữu thanh bao gồm các nguyên âm, phụ âm vang và phụ âm hữu thanh

Trang 22

23

 Mũi-miệng (hay Mũi-không mũi)

Phổ hình của các âm mũi có mật độ formant dày hơn so với các âm miệng tương ứng Ở các nguyên âm mũi giữa F1 và F2 xuất hiện thêm một formant phụ, và đồng thời có sự giảm cường độ của F1 và F2

Trong tiếng Việt có các âm mũi được thể hiện bằng các chữ cái; m, n, nh, ng

 Giáng-không giáng

Các âm giáng là những âm trầm hóa – có một hoặc một số các formant của nó bị

hạ thấp so với các âm không giáng Các nguyên âm tròn môi như [u], [ô], [o] trong tiếng Việt và những phụ âm đứng trước [u], [ô], [o] bị môi hóa đều là những âm giáng

 Thăng-không thăng

Ngược lại so với âm giáng, chúng là những âm bổng hóa-các nguyên âm hàng trước thường là các âm có một trong số các formant cao hơn các âm không thăng tương ứng

 Thanh hầu hóa-không thanh hầu hóa

Các âm thanh hầu hóa đặc trưng bởi tốc độ biến đổi năng lượng lớn trong một khoảng thời gian ngắn

Trong tiếng Việt, âm thanh hầu hóa đặc trưng bởi tốc độ biến đổi năng lượng lớn trong một khoảng thời gian ngắn

Trong tiếng Việt, âm thanh hầu hóa có thể xuất hiện trong các âm tiết vắng phụ

âm đầu như ăn, uống, uể, oải, hoặc trước các phụ âm hữu thanh, đặc biệt là trước [b], [đ], và [l]

1.5 Các phương pháp tổng hợp tiếng nói

Trong phần này, luận văn sẽ trình bày khái quát một số phương pháp tổng hợp tiếng nói hiện nay và những đánh giá sơ bộ về từng phương pháp

1.5.1 Tổng hợp theo cấu âm

Tổng hợp theo cấu âm sử dụng mô hình phỏng sinh học Trong mô hình này, tiếng nói được đặc trưng không chỉ bằng tín hiệu âm thanh mà cả bằng vị trí của các

Trang 23

24

cơ quan cấu âm, sự tham gia của khoang mũi, áp suất không khí trong phổi, lực căng của dây thanh Nó bao gồm hoạt động tương tác phi tuyến giữa nguồn kích (chấn động dây thanh hoặc hỗn loạn không khí) và trở kháng đầu vào thay đổi theo thời gian của ống thanh Phương pháp này còn được gọi là tổng hợp theo mô hình

Mô hình ống thanh

Cho các âm không phải là âm mũi ta chỉ cần xem xét ống thanh có thiết diện biến thiên từ thanh môn cho tới môi Ống thanh thay đổi liên tục, hình dáng của chúng phải được xác định trong khoảng thời gian vài mini giây một lần Hình không gian của ống thanh được mô tả theo vị trí của các cơ quan phát âm, lưỡi, môi, hàm…

Mô hình được ứng dụng nhiều nhất là mô hình của Mermelstein với các tham số mô tả vị trí cơ quan cấu âm.Từ mô tả cấu âm, có thể tính được các số liệu cho hàm mặt cắt ngang ống thanh A(x) là hàm số phụ thuộc khoảng cách dọc theo ống thanh từ thanh môn cho tới môi

Lan truyền sóng trong ống thanh

Trong nhiều cách tính đặc trưng truyền sóng trong ống thanh thì phương pháp ma trận chuỗi được áp dụng nhiều nhất Ma trận chuỗi (còn gọi là ma trận ABCD) thể hiện ống thanh ở miền tần số Với bất kỳ phần nào của ống thanh hay của ống mũi ta có:

in out

out

U

P K U

P D C

B A U

P

Trang 24

25

Ma trận chuỗi K có thể thể hiện bất kỳ phần nào của bất kỳ độ dài hay mặt phẳng cắt ngang nào của ống thanh Tính các phần tử của K rất đơn giản nên ống có mặt cắt không đổi

Mô hình nguồn kích thanh

Nguồn kích thanh cho tổng hợp cấu âm sử dụng mô hình hai khối lượng của Ishizaka và Flanagan

Nguyên lý của tổng hợp cấu âm

Thuật toán tổng hợp theo mô hình cấu âm gồm các bước như nhau Từ đặc tả

về các tham số cấu âm, ta tính được ma trận chuỗi từ thanh môn đến môi Sau đó tính hàm truyền và trở kháng đầu vào từ các phần tử A,B,C,D của ma trận Chuyển đổi Fourier ngược hàm truyền H và tỉ số trở kháng ta nhận được các giá trị tương ứng ở miền thời gian Sau đó tính áp suất p = P5-P1 Giá trị áp suất này tác động vào bộ cộng hưởng điều khiển chuyển động dây thanh của mô hình hai khối lượng tạo ra âm thanh tiếng nói

Như vậy, ngoài việc mô hình hoá các cơ quan phát âm, tổng hợp theo cấu âm cần phải xây dựng hai loại quy luật ngôn ngữ và luật vật lý Luật vật lý mô tả như ở trên xác định ánh xạ cấu hình ống thanh cụ thể cho tín hiệu âm thanh, xác định mối quan hệ giữa hoạt động cấu âm và tín hiệu âm thanh tiếng nói Còn luật ngôn ngữ xác định mối quan hệ giữa mô tả ngữ âm và các hoạt động cấu âm Thông thường, luật ngôn ngữ được thực hiện cho từng âm vị Khi cấu âm cho một đơn vị, luật này xác định thời điểm các cơ quan chuyển động, tốc độ chuyển động và mối quan hệ giữa cơ quan này và cơ quan khác Vì phát ra một âm vị không nhất thiết phải có sự chuyển động của tất cả các cơ quan nên trong cùng một thời điểm cơ quan phát âm có thể được xác định cho âm vị khác Theo cách này thì tổng hợp theo cấu âm có thể tạo ra các giải pháp hoàn hảo cho các trường hợp ngữ âm khó như cụm phụ âm, nguyên âm

ba

Mô hình cấu âm và hai luật ngôn ngữ, vật lý này quyết định chất lượng tiếng nói tổng hợp Hiện nay, chúng ta chưa có kiến thức đầy đủ về từng chi tiết của các loại luật, mô hình cấu âm cũng còn đơn giản vì vậy chất lượng tiếng nói tổng hợp theo cấu âm còn rất thấp Phương pháp tổng hợp cấu âm hiện nay chỉ dừng ở trong

Trang 25

26

phòng thí nghiệm hay sản phẩm mẫu mà chưa được ứng dụng thực tế Các bộ tổng hợp theo cấu âm là công cụ lý tưởng để nghiên cứu về cấu âm của tiếng nói và hứa hẹn về lâu dài là giải pháp hoàn thiện nhất để tổng hợp ra âm thanh tiếng nói giống như tiếng nói tự nhiên của con người

1.5.2 Tổng hợp formant theo quy luật

Quy trình để xây dựng bộ tổng hợp formant theo luật gồm hai quá trình riêng biệt là quá trình phân tích âm thanh tiếng nói để tìm ra các quy luật và tổng hợp lại tiếng nói dựa vào các quy luật này

Phân tích tìm quy luật

Quá trình phân tích được tiến hành trên cơ sở dữ liệu tiếng nói tự nhiên chủ yếu bao gồm các âm tiết có dạng C-V (phụ âm – nguyên âm) hay C-V-C (phụ âm – nguyên âm – phụ âm) của nhiều giọng nói Cơ sở dữ liệu này tốt nhất phải bao phủ được tất cả các hình thái ngữ âm của một ngôn ngữ

Thuật toán dự đoán tuyến tính LPC, được sử dụng trong quá trình phân tích phổ để xác định mẫu của tần số formant, băng thông formant, tần số âm cơ bản F0 của tín hiệu tiếng nói Tần số từ F1 đến F5 và băng thông W1 đến W5 ở phần ổn định của các âm tố được lưu giữ dưới dạng bảng Đó là các giá trị “đích” để tạo ra một âm vị

Trong tiếng nói, phần mang thông tin được quan tâm nghiên cứu nhiều hơn

là các phần chuyển tiếp giữa các âm vị từ nguyên âm sang phụ âm và ngược lại

(C-V và (C-V-C) Tần số formant chuyển tiếp từ âm vị nọ sang âm vị kia được mô hình hoá và tạo thành các quy luật tổng hợp cho kĩ thuật tổng hợp formant Như vậy về

cơ bản các quá trình phân tích tìm luật để mô tả sự thay đổi liên tục phổ của một ngữ lưu bằng các formant và sự chuyển tiếp của các formant từ âm vị này sang âm

vị khác Hệ thống quy luật bao gồm:

- Luật để xác định vị trí đích các formant của mỗi âm vị trong một ngữ lưu cũng như thời gian tồn tại của các vị trí đó

- Luật nhằm làm trơn các formant đích

- Luật để chuyển đổi các hàm thời giam thành dạng sóng thanh

Tổng hợp tiếng nói dựa trên tập luật phân tích (hay tổng hợp formant)

Trang 26

27

Hệ thống tổng hợp formant sẽ căn cứ vào các tham số điều khiển từ bảng tra cứu và cùng với thuật toán được xây dựng cho sự chuyển tiếp là các tín hiệu điều khiển bộ tổng hợp để tạo các âm đoạn tính

Thiết kế của bộ tổng hợp formant được dựa trên mô hình tương tự đầu cuối tạo tiếng nói do Frant đề xuất

Tổng hợp formant được phân loại theo cấu hình mắc các bộ cộng hưởng song song hay nối tiếp Hàm truyền của bộ tổng hợp khi mắc nối tiếp bộ cộng hưởng tương tự như hàm truyền ống thanh vì vậy bộ tổng hợp nối tiếp mô hình hoá rất tốt cho các âm hữu thanh Còn bộ tổng hợp với các bộ cộng hưởng mắc song song sẽ tạo ra cho các âm tắc, âm xát và âm mũi một chất lượng âm thanh tốt hơn

Sơ đồ khối bộ tổng hợp Klatt

Bộ tổng hợp âm đoạn tính sử dụng phần mềm của Klatt bằng cả cách nối song song và nối tiếp các bộ cộng hưởng Đây là hệ thống tổng hợp formant khá hoàn thiện cho đến nay

Mô hình tổng hợp tiếng nói của Klatt [13], [14], [19] mô phỏng quá trình tạo tiếng nói của con người dựa trên nguyên lý nguồn âm-bộ lọc của quá trình tạo tiếng nói, đây là mô hình tổng hợp formant hỗn hợp bao gồm cả tuyến âm nối tiếp và song song với nguồn âm phức hợp Sơ đồ khối bộ tổng hợp được trình bày trong hình 1.5 cùng với các tham số cần thiết nhất để điều khiển nguồn âm và tuyến âm Một số tham số điều khiển khác thường được gán giá trị ngầm định, không trình bày

ở đây

Trang 27

Hình 1.6: Nguồn hữu thanh

Nguồn kích hữu thanh được điều khiển bởi 4 tham số là: OQ, TL, AV và T0, trong đó:

 OQ: hệ số mở (Open Quotion)

 TL: độ nghiêng phổ

T

a,b=f(AV,OQ*T0)

aT2-bT3MAX

0

OQ*T0

T0

Bộ lọc thông thấp, F,BW=f(TL)

Nguồn tạp âm, AMP=f(OQ)

Hàm truyền đạt của tuyến âm cho nguồn

âm thanh quản (các bộ cộng hưởng formant nối tiếp )

Hàm truyền đạt của tuyến âm cho nguồn

âm xát (các bộ cộng hưởng formant song song)

Nguồn hữu thanh

Tiếng nói

A1 A2 A3 A4 A5 A6 AB

Trang 28

29

 AV: biên độ hữu thanh

 T0: chu kỳ dao động cơ bản của đôi dây thanh (=1/F0)

Hàm sóng hữu thanh cơ sở có dạng: aT2

-bT3Trong đó:

T: biến thời gian

Các hệ số a, b là hàm của AV và OQ*T0

Ưu điểm của nguồn hữu thanh này là nó mô phỏng gần giống với nguồn âm

tự nhiên, cường độ của tín hiệu cửa hầu được mô tả tốt tại cả thời điểm đóng và mở với hình dáng không đều, tốc độ nhanh hơn tốc độ mở Cường độ của sóng hữu thanh tuân theo hàm trên trong suốt pha mở của chu kỳ bằng 0 trong thời gian còn lại Có thể điều chỉnh để phổ nghiêng hơn bằng cách sử dụng OQ hoặc TL để phỏng theo hiệu ứng đóng cửa hầu không hoàn toàn và sự làm tròn góc của sóng âm vào lúc kết thúc

Khuyết điểm của nguồn kích thích này là độ lớn phổ một số chỗ không đều

Do vậy độ rộng dải thông của formant sẽ hơi mỏng khi nó gần tần số 600Hz (vị trí điểm 0 thực sự vụ thuộc vào OQ) Biên độ formant này thay đổi giống như xuất hiện trong tiếng nói tự nhiên

Nguồn vô thanh để mô tả kích thích khi tạo các âm vô thanh là bộ sinh số ngẫu nhiên

Trong pha mở của đôi dây thanh, kích thích từ nguồn hữu thanh được kết hợp với tín hiệu từ nguồn tiếng ồn ngẫu nhiên để mô tả kích thích cho các âm bật hơi

Sự tán xạ được thể hiện trong nguồn kích hữu thanh bằng cách cộng với đạo hàm bậc nhất của giá trị quá khứ

Mô hình tuyến âm

Tuyến âm gồm hai nhánh : nhánh nối tiếp và nhánh song song Mỗi nhánh gồm các bộ lọc bậc 2 diễn tả tần số cộng hưởng và phản cộng hưởng của tín hiệu tiếng nói (hình 1.7)

Trang 29

30

(a) Hệ truy hồi bậc hai

(b) Hệ không truy hồi bậc hai

Fs f BW PI r

b

r r c

Fs BW PI r

*

*2cos(

)/)

*exp((

*)1(

*)(

*)

Trang 30

31

Hình 1.7 (b) biểu diễn bộ lọc chắn dải-bandstop (còn gọi là hệ không truy hồi bậc hai) mô tả tần số cộng hưởng (điểm không) Bộ lọc cũng được điều khiển bằng các thông số là tần số lấy mẫu, tần số phản cộng hưởng và băng thông của nó Các hệ số a‟, b‟, c‟ được thiết lập theo các hệ số a, b,c của bộ lọc thông dải với sự thay đổi như sau :

a c

c

a b

b

a a

/'

*)1(

*)(

*)

(n a x n b x n c x n

y

Chú ý : các giá trị x(0), x(-1), y(0), y(-1) được khởi tạo bằng 0 Biên độ cộng hưởng

A được mô tả bằng cách nhân với hệ số a (A*a)

Nhánh nối tiếp của tuyến âm gồm 8 bộ cộng hưởng mô tả 8 tần số formant, 1

bộ mô tả điểm cực cho âm mũi và 1 bộ phản cộng hưởng mô tả điểm 0 âm mũi Nhánh song song gồm bộ cộng hưởng cho 6 tần số formant và 1 bộ cho điểm cực

âm mũi Ngoài ra còn 1 bộ lọc xung cửa hầu, 1 bộ lọc thông thấp cho nguồn tiếng

ồn ngẫu nhiên, 1 bộ lọc thể hiện sự tán xạ âm qua miệng và mũi

Đặc tính tán xạ

Đặc tính tán xạ được mô tả bằng bộ lọc thông cao, diễn tả sự tán xạ của âm

ra ngoài mũi hoặc miệng Trong tính toán thực tế, đặc tính tán xạ được tích hợp vào nguồn kích bằng cách cộng thêm đạo hàm bậc nhất của tín hiệu trước đó

Các tham số điều khiển

Mô hình tổng hợp formant hoạt động để tạo các tín hiệu tiếng nói khác nhau bằng các tham số điều khiển Các tham số điều khiển được chia thành hai loại: các tham số toàn cục, thiết lập giá trị cho toàn phiên làm việc và các tham số thay đổi theo từng khoảng thời gian ngắn, nhận các giá trị thay đổi theo mỗi khoảng cập nhật Mỗi tham số đều được định nghĩa một khoảng giá trị (cực tiểu, cực đại) và một giá trị ngầm định khi khởi tạo

 Các tham số toàn cục

Trang 31

32

Giá trị gán cho các tham số toàn cục được sử dụng cho toàn phiên làm việc Có 3 tham số toàn cục là:

a) Tần số lấy mẫu (ký hiệu là sr): là số mẫu cần phải tạo ra ứng với 1 giây

tiếng nói tổng hợp Giá trị ngầm định là 10000 mẫu/giây (Hz) Nếu sr tăng, phổ của tiếng nói tổng hợp sẽ nghiêng hơn, sử dụng bộ lọc thông thấp chống trùm phổ với tần số cắt khoảng 4500-4800 Hz cho giá trị 10000 Hz Do vậy, nếu sr thay đổi, cần sử dụng bộ lọc với tần số cắt thích hợp

b) Khoảng cách cập nhật (ký hiệu là ui) : số ms của sóng âm được tạo giữa

các lần cập nhật các biến tham số thay đổi theo thời gian (đoạn đủ ngắn để các thuộc tính của tiếng nói được coi là tuyến tính, bất biến) Giá trị 5 ms có thể phản ánh hầu hết các thay đổi nhanh chóng của các tham số tiếng nó, tuy nhiên thực tế chỉ cần sử dụng giá trị 10 ms đã là đủ

c) Số lƣợng formant trong tuyến âm nối tiếp (ký hiệu là nf) : là số lượng

formant tính từ F1 đến tối đa F8 thực sự có trong âm nối tiếp

Giá trị ngầm định là 5, ứng với tần số lấy mẫu 10000 mẫu/giây và người nói

có chiều dài tuyến âm là 17 cm (nghĩa là khoảng cách trung bình giữa các formant là 1000 Hz) Muốn mô hình tuyến âm có chiều dài khác 17 cm hoặc tần số lấy mẫu thay đổi thì cần phải thay đổi „nf‟

 Các tham số thay đổi theo thời gian

Giải thuật tổng hợp của Klatt sử dụng một bộ gồm 40 tham số để điều khiển tạo ra tiếng nói tổng hợp Mỗi bộ giá trị của các tham số được gọi là một frame, mỗi bộ này sẽ điều khiển để tạo ra một đoạn tín hiệu tiếng nói có độ dài theo sự thiết lập của tham số toàn cục „ui‟ Trong bảng 1.3 là ký hiệu và ý nghĩa của một số tham số

Bảng 1.3: Minh họa một vài tham số trong hệ tổng hợp Klatt

STT Tên Ý nghĩa Mặc định Nhỏ nhất Lớn nhất Đơn vị

6 F1 Tần số Formant thứ nhất 450 150 900 Hz

Trang 32

12 FNZ Tần số của điểm không âm mũi 250 200 700 Hz

14 A1 Biên độ Formant thứ nhất 0 0 80 dB

16 B1 Băng thông Formant thứ nhất 50 40 500 Hz

17 B2 Băng thông Formant thứ hai 70 40 500 Hz

18 B3 Băng thông Formant thứ ba 110 40 500 Hz

19 B4 Băng thông Formant thứ tư 250 100 500 Hz

20 B5 Băng thông Formant thứ năm 200 150 700 Hz

21 B6 Băng thông Formant thứ sáu 1000 200 2000 Hz

22 FNP Tần số điểm cực âm mũi 250 200 500 Hz

24 BNP Băng thông của điểm cực âm mũi 100 50 500 Hz

25 BNZ Băng thông của điểm không âm mũi 100 50 500 Hz

26 AB Biên độ phần chuyển thẳng cho âm xát 0 0 80 dB

Hiện nay, với những công cụ thích hợp chúng ta hoàn toàn có thể xác định tần số formant cho các âm vị của tiếng Việt Đi theo hướng này có ưu điểm là tiết kiệm được bộ nhớ, song chất lượng tiếng nói không tự nhiên và phụ thuộc nhiều vào chất lượng của quá trình phân tích tiếng nói của từng ngôn ngữ Phần mềm tổng hợp tiếng Việt VnSpeech [33] đã sử dụng cách tiếp cận này Tuy nhiên, chất lượng vẫn còn rất hạn chế

1.5.3 Tổng hợp ghép nối

Tổng hợp ghép nối dựa trên việc ghép nối các đoạn tiếng nói đã ghi âm sẵn Nói chung, tổng hợp ghép nối cho tiếng nói tổng hợp nghe tự nhiên nhất Tuy nhiên, độ tự nhiên của tiếng nói và các kỹ thuật tự động phân đoạn sóng âm thanh đôi khi dẫn đến nghe rõ sự không đều của thiết bị ở đầu ra làm giảm độ tự nhiên

Trang 33

34

[30] Có ba loại tổng hợp ghép nối: tổng hợp chọn đơn vị, tổng hợp diphone (hai nửa của hai âm vị liền nhau) và tổng hợp theo miền

Tổng hợp chọn đơn vị sử dụng CSDL tiếng nói lớn Trong quá trình tạo cơ

cở dữ liệu, mỗi phát âm được thu âm sẽ được phân thành các âm vị, âm tiết, hình vị,

từ, cụm và các câu riêng Việc phân chia thành các đoạn có thể dùng một số các kỹ thuật như kỹ thuật phân cụm, chương trình nhận dạng, phân đoạn bằng tay sử dụng công cụ xử lý và gán nhãn tiếng nói trực quan Phương pháp này đòi hỏi cơ sơ dữ liệu tiếng thu âm lớn và việc xử lý cơ sở dữ liệu này cũng khá công phu

Tổng hợp diphone dùng CSDL tiếng nói nhỏ nhất chứa toàn bộ các diphone xuất hiện trong ngôn ngữ Số lượng diphone phụ thuộc vào cách phiên âm của từng loại ngôn ngữ Chẳng hạn tiếng Tây Ban nha là 800 diphone, tiếng Đức khoảng

2500 diphone, mỗi diphone là duy nhất trong cơ sở dữ liệu Chất lượng tiếng nói tổng hợp thường không tốt bằng tổng hợp chọn đơn vị Ưu điểm của tổng hợp diphone là cơ sở dữ liệu nhỏ hơn phương pháp tổng hợp ghép nối chọn đơn vị

Tổng hợp theo miền cụ thể là việc ghép các từ và các cụm được ghi sẵn lưu trong CSDL để tạo thành lời nói hoàn chỉnh Ưu điểm tiếng nói tự nhiên, tuy nhiên lại hạn chế về số lượng từ và câu có thể tổng hợp được

Trang 34

Trong ba phương pháp nêu trên, tổng hợp theo cấu âm, tổng hợp formant theo quy luật và tổng hợp xích chuỗi thì tổng hợp xích chuỗi mang nhiều tính công nghệ, được quyết định bởi sự phát triển của máy tính So sánh về chất lượng trong

ba phương pháp, thì tổng hợp xích chuỗi hiện nay đã thành công nhất trong việc tạo

ra tiếng nói không chỉ nghe hiểu rõ mà đạt được độ tự nhiên gần với tiếng nói của con người hơn cả Phần lớn các hệ thống tổng hợp chất lượng cao cho các ngôn ngữ

có trên thị trường hiện nay đều sử dụng phương pháp tổng hợp xích chuỗi này

Khi xây dựng một hệ thống tổng hợp xích chuỗi, tiếng nói chứa tập hợp các đơn vị âm thanh cơ bản của một ngôn ngữ, thông thường tương ứng với một chuỗi

Tiếng nói tổng hợp

Âm vị +ngôn điệu

CSDL tiếng nói

CSDL tiếng

nói tham số

Thông tin về đơn vị

CSDL tiếng nói mã hóa

Mã hóa tiếng nói

Mô hình tiếng nói

Tạo dãy đơn vị

Chọn đơn

vị

Giải mã tiếng nói Ghép nối và hậu xử lý

Trang 35

36

ngắn các âm vị có lựa chọn được đọc, ghi âm và lưu giữ trong CSDL Các đơn

vị âm được lựa chọn, phân tích các tham số đặc trưng và sau đó có thể được mã hoá bằng một phương pháp mã hoá tiếng nói nào đó tạo thành các mẫu cho một đơn vị

âm thanh Các mẫu hoặc các tham số phân tích của chúng được lưu giữ lại trong kho dữ liệu đơn vị tổng hợp

Khi tổng hợp một phát ngôn mới, cho trước mô tả ngữ âm của phát ngôn đó,

hệ thống sử dụng các quy luật để định vị đơn vị thích hợp, truy xuất chúng ra khỏi kho dữ liệu và xích chuỗi chúng lại với nhau

Thông thường, một hệ thống tổng hợp xích chuỗi có ít nhất là một hoặc hai mẫu cho mỗi một đơn vị cơ bản Do các tham số về cao độ tần số cơ bản, độ dài và cường độ của các đơn vị này rất khác nhau (chúng được trích ra từ tín hiệu tiếng nói trong ngữ cảnh khác nhau) nên khi tổng hợp, hệ thống theo phương pháp tổng hợp xích chuỗi phải thực hiện hai công việc chính

- Một là phải thay đổi các tham số siêu đoạn tính của các đơn vị để tiếng nói tổng hợp thể hiện được ngữ điệu thích hợp như mong muốn

- Hai là phải thực hiện việc lựa chọn hay thay đổi các đặc tính của âm đoạn đơn vị tại các biên ghép nối của chúng sao cho việc ghép nối là mịn nhất để đảm bảo chất lượng âm thanh tổng hợp tạo ra gần với tiếng nói tự nhiên

Giả sử có hai âm đoạn được xích chuỗi là L(left) và R(right) Chúng ta xem xét tập hợp P của các tham số {p1,p2,…, pN}, các giá trị 0

M

i M P P P P

2'1 1 0 0 

R

R R L J L R

M

j M P P P P

2'1  0  0 

với i = 0 … ML-1 và j = 0 … MR-1;

Trang 36

37

Như vậy chất lượng của một hệ tổng hợp xích chuỗi được quyết định bởi các yếu tố sau:

 Sự lựa chọn tập âm đơn vị cơ bản Trong đó ngữ âm của ngôn ngữ tổng hợp

là yếu tố chính quyết định loại đơn vị cơ bản

 Chất lượng âm thanh và mức độ bao phủ các tổ hợp âm đoạn cần thiết cho một ngôn ngữ của CSDL âm

 Khả năng cung cấp các tham số về ngữ điệu như đường nét tần số cơ bản cường độ âm thanh và độ dài các âm cho bộ tổng hợp Các tham số này được tiên đoán trong phần xử lý ngôn ngữ của bộ tổng hợp từ văn bản

 Khả năng thay đổi tần số cơ bản F0 và độ dài các đơn vị âm cơ bản phù hợp với ngữ điệu được miêu tả ở đầu vào của bộ tổng hợp mà không ảnh hưởng tới chất lượng cảm thụ của âm đó

 Thuật toán xích chuỗi và mô hình tín hiệu cho phép dễ dàng làm trơn hai điểm ghép nối của các âm đoạn được xích chuỗi

Chính vì hai yếu tố sau nên một số hệ thống tổng hợp xích chuỗi thực hiện

mã hoá tham số tiếng nói Với cách thể hiện bằng các tham số, đặc trưng phổ và ngữ điệu của tiếng nói được thay đổi dễ dàng hơn mà không thay đổi đặc tính nhận dạng âm đơn vị cơ bản Phương pháp mã hoá tham số đặc trưng nhất là mã hoá tiên đoán tuyến tính LPC cũng như các biến thể của chúng

1.5.5 Đánh giá các phương pháp tổng hợp tiếng nói

Trong phương pháp tổng hợp cấu âm thì việc thu thập dữ liệu và cài đặt tập luật theo dữ liệu chuẩn rất phức tạp Nó hầu như không thể mô hình hóa được đa số

sự cử động của lưỡi hoặc đặc trưng khác của hệ thống phát âm một cách đầy đủ.Do vậy, phương pháp này cực kỳ phức tạp

Trong phương pháp tổng hợp Formant, tập luật điều khiển các tần số formant, biên độ và các đặc trưng nguồn kích thích là lớn Hạn chế của phương pháp này là giọng nói nghe không rõ, máy móc, không tự nhiên đặc biệt với các âm mũi Hơn nữa, vì là tổng hợp theo luật nên không thể có được tập luật đầy đủ bao hết được mọi giọng nói Ưu điểm nổi bật của phương pháp này là khả năng thay đổi

Trang 37

38

giọng người nói chỉ bằng việc điều khiển các tham số Một số hệ thống tổng hợp

sử dụng phương pháp tổng hợp formant như hệ tổng hợp Klatt, Mutivox, DECtalk

Trong luận văn chủ yếu quan tâm vào cải tiến cho tổng hợp ghép nối nên đặc biệt chú ý những nhược điểm của phương pháp này Tổng hợp ghép nối được sử dụng phổ biến nhất do tiếng nói tự nhiên hơn Tuy nhiên, nó cũng có một số nhược điểm chính sau đây: cần CSDL tiếng nói lớn (chi phí về thu âm và phân tích cơ sở

dữ liệu tiếng nói rất tốn kém), khi ghép nối các thành phần âm thanh đã phân đoạn thì kết quả thường không thỏa mãn vì sự gián đoạn ở biên của âm thanh làm nhiễu

Sự gián đoạn có thể xảy ra theo một số yếu tố sau đây:

 Biên độ:

Sự gián đoạn biên độ có thể nhìn thấy trên miền thời gian Chúng có thể rất dài, nếu biên độ ở cuối phát âm và ở đầu âm tiết thì các âm tiếp theo mạnh rõ rệt Có thể nghe rõ như là bị vỡ Hình 1.9 biểu diễn gián đoạn biên độ trong miền thời gian

Hình 1.9: Gián đoạn biên độ

 Năng lượng

Sự không liên tục của năng lượng sinh ra âm lượng khác nhau của tiếng nói

Sự thay đổi lớn thường tồn tại theo thời gian Hình 1.10 và hình 1.11 biểu diễn sự gián đoạn của năng lượng trong miền thời gian

Trang 38

39

Hình 1.10: Gián đoạn năng lượng (miền thời gian)

Hình 1.11: Gián đoạn năng lượng

Khả năng của tổng hợp ghép nối sinh tiếng nói chất lượng cao còn phụ thuộc vào chất lượng đoạn tiếng nói trong cơ sở dữ liệu Các đoạn tiếng nói thể hiện một

số tính chất cơ bản:

 Cho phép tính toán những ảnh hưởng của các phát âm khác,

 Dễ kết nối, hạn chế việc làm trơn trong ghép nối,

 Không mất thông tin, CSDL không lớn,

 Đơn vị tiếng nói dài giảm mật độ kết nối, khi đó chất lượng tiếng nói tốt hơn

Trang 39

40

Việc dùng đơn vị dài hơn làm giảm lỗi ghép nối dẫn đến CSDL lớn hơn trong khi ứng dụng yêu cầu giảm bộ nhớ Vì vậy cần phải cân bằng giữa hai yếu tố Bảng 1.4 dưới đây đánh giá việc chọn lựa các đơn vị âm cơ bản cho tiếng Anh Đây cũng là một cơ sở trong việc lựa chọn phương pháp tổng hợp

Bảng 1.4: Đánh giá sự lựa chọn đơn vị cơ bản trong hệ tổng hợp tiếng Anh

 Tiếng nói chất lượng cao

 Thuật toán tổng hợp ghép nối đơn giản

Nhƣợc điểm:

 Yêu cầu bộ nhớ lớn

 Ghép nối từ rời rạc làm giảm tính dễ hiểu và độ tự nhiên của tiếng nói tổng hợp

Âm tiết 20000

(4400)

Gồm âm đầu + nguyên

âm + âm cuối

 Luật làm trơn đơn giản

 Sinh tiếng nói tự nhiên Diphone 1500

 Luật làm trơn đơn giản

 Sinh tiếng nói tự nhiên

Âm vị 37 Đơn vị cơ bản của hệ

thống âm vị học

Ƣu điểm:

 Cần bộ nhớ nhỏ Nhược điểm:

Các luật làm trơn phức tạp Cần thiết việc hiệu chỉnh ngữ điệu theo ngữ cảnh

Để hiểu được cấu trúc đơn vị âm cơ bản trong tổng hợp xem bảng 1.5 dưới đây

Bảng 1.5: Cấu trúc đơn vị âm cơ bản trong hệ tổng hợp

Trang 40

41

Trong chương 4 sẽ tập trung giải quyết các nhược điểm của tổng hợp ghép nối, cụ thể trong phần mềm VnVoice 1.0

Định dạng
Số trang	82
Dung lượng	1,25 MB

Nghiên cứu một số phương pháp nâng cao chất lượng tổng hợp tiếng Việt và thử nghiệm cho phần mềm VnVoice

Thành phần xử tín hiệu số