1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn nghiên cứu một số phương pháp nâng cao chất lượng tổng hợp tiếng việt và thử nghiệm cho phần mềm vnvoice

82 2 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Luận văn nghiên cứu một số phương pháp nâng cao chất lượng tổng hợp tiếng Việt và thử nghiệm cho phần mềm vnVoice
Tác giả Nguyễn Thị Thanh Mai
Người hướng dẫn PGS.TS. Lương Chí Mai
Trường học Học viện Công nghệ Bách Khoa Hà Nội
Chuyên ngành Công nghệ Thông tin
Thể loại Luận văn thạc sĩ
Năm xuất bản 2007
Thành phố Hà Nội
Định dạng
Số trang 82
Dung lượng 1,35 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Khác với các sân phẩm khác của công nghệ thông ti, sản phẩm vẻ tiếng nói, ngôn ngữ Việt không thể mua được từ nước ngoài, chí có thẻ do người Việt làm ra trên cơ sở tiếp thu được các thà

Trang 1

TRUONG DAI HOC CONG NGHE

NguyỄn Thị Thanh Mai

NGHIÊN CỨU MỘT SÓ PHƯƠNG PHÁP NÂNG CAO

CHAT LUONG TONG HOP TIENG VIET VA

THU NGHIEM CHO PHAN MEM VNVOICE

LUAN VAN THAC St

Hã nội-2007

Trang 2

DAIIIOC QUOC GIA IIA NOT TRƯỜNG ĐẠI HỌC CONG NGIIE

Nguyễn Thị Thanh Mai

NGHIÊN CỨU MỘT SÓ PHƯƠNG PHÁP NÂNG CAO

CHAT LUONG TONG HOP TIENG VIET VA

THU NGHIEM CHO PHAN MEM VNVOICE

Ngành: Công nghệ thông tin Chuyên ngảnh: Công nghệ thông tin

Mã sẽ: 1.01 10

LUẬN VĂN THIẠC SĨ

NGƯỜI HƯỚNG DẤN KHOA HỌC

PGS.TS.Luong Chi Mai

Hà nội-2007

Trang 3

1,4, Một số đặc trưng của âm vị về mặt ảm học

1.5 Các phương pháp tổng hợp tiếng nói

1.5.1 Tổng hợp theo câu äm

15.2 Tong hợp formar theo quy luật

1.5.3 Tổng hợp ghép nội

1 ông hợp xích chuỗi

1.5.5 Đánh giá các phurơng pháp tổng hơn tiếng nói

CHIƯƠNG 2: CAC TITANIT PILAN CO BAN CUA II 4

TONG IIGP THING NOI 412

2.1 Giới thiệu hệ tông hợp tiẳng nói

2.2 Thành phân xử lý ngôn ngữ tự nhiễn

2.2.1 Phân tích văn bin

2.2.2 Chuyển ký tự thành âm thanh

3.2.3 Sinh ngôn điệu

2.3 Thành phân xử tín hiệu số

CHƯƠNG 3: MỘT SỐ PHƯƠNG PHÁP CẢI TIẾN 50

CHẤT TƯƠNG GIỌNG TONG HOP s0

3.1 Các phương pháp cải tiên chất lượng giọng tổng hợp

3.1.1 Mã hình trường đô

3.1.2 Thay đi biên đi

3.1.3 Tiêu chỉnh đường tân số cơ bản

3.1.3.1 Sứ đụng mỗ hình Fuiisaki hiệu chỉnh đường F0

3.1.3.2 Mô hình Ti:

3 1.3.3 Phân lớp đường tbanh điện trong ngữ cảnh cầu

GUƯƠNG 4: LIỦ NGHIỆM CẢI TIỀN GIỌNG DỌC TONG 71

TRONG PHAN MEM VNVOICE1.0 71

jú VnVoicc và một số giọng tổng hợp tiếng Việt hiện nay

Trang 4

5

MO DAU

Thận đạng và xử lý tiếng Việt (ngôn ngữ và tiếng nói) là nến tâng thiết yêu của phát triển và ứng dụng công nghệ thông Gin ở Việt ramu, Giới nghiên cứu và công nghiệp trên thể giới do theo đuổi các nghiên cứu cơ bản và công nghệ này tử

tráng chục rằm qua, gần đây đã cảng thu được nhiền thành tựu quan trọng Khác với các sân phẩm khác của công nghệ thông ti, sản phẩm vẻ tiếng nói, ngôn ngữ Việt không thể mua được từ nước ngoài, chí có thẻ do người Việt làm ra trên cơ sở tiếp thu được các thành tựu khoa học công nghệ trên thế giới và theo đuổi lâu đài

Thận dạng tiếng nói nhằm chưyển thông tin từ tiếng nói con người vào máy

tính, và tổng hợp tiếng nói nhằm tu động tao ra tiếng người nói bằng mấy tinh

Củng với sự phốt triển nhanh chóng của công nghệ thông từ nói chưng và mang

Internet nói riêng, nhận dang va tổng hợp tiếng nói cảng ngày cảng tró nên là một

xu hướng tất yêu cho những máy tính thế kỉ 21 Trong vòng SỐ nằm qua, rất nhiều thuật toán được dẻ xuất và triển khai trên các hệ tự dộng nhận dang và tổng hợp tiếng nói Trên thế giới đã có nhiều bộ phẩn mêm thương mại đảnh cho tiếng Anh

ubu IBM ViaVoive (hip./www4.ibm.com/sofiware/speecly), Dragon Naturally

Speaking, L&H Voice Xpress Những phan mềm này cung cấp các chức năng chủ

yêu như: nhập văn bản vào máy, đọc văn bản thành lời, đuyệt Web bằng giọng nói

Công nghệ tổng hợp và nhận dạng tiếng nói có ý nghĩa rất lớn trong giao tiệp người-máy: thay vỉ giao tiếp với máy tỉnh qua những biểu tượng và cửa số, các máy tinh trong Lương lai chỉ giao tiếp với con người bằng những mệnh lệnh đơn giản

Hiện nay đã có nhiều phương pháp tổng hợp tiếng nỏi được nghiên cửu và

ông hợp bằng ghép nối, cách

ứng đựng trong thực lễ như: tổng hợp theo cầu âm, ,

diệu hóa đường F0 và hiện tượng, ngôn diệu, tâm lý, Tuy nhiên, vấn dễ tổng hợp giọng tụ nhiên cho tới nay vẫn là một vấn để mở, ngay cá trong các ngôn ngữ châu

Âu thông đụng như tiếng Anh Đó là đo chất lượng tiếng nói tổng hợp còn phụ thuộc vào rất nhiều các yếu tổ khác như

Bỏ đơn vị ngữ cảnh (bộ thươn số cấu âm hoặc đoạn sóng âm ngắn),

ø _ Bệ chuẩn hóa văn bản,

Trang 5

© _ Tối ưu hỏa chọn dơn vị ngữ cảnh,

© Các hiện tượng ngỏn ngữ Hếng Việt: định ảm, biến thanh, năng lượng,

trưởng độ thanh,

© _ Các hiện tượng ngôn diệu: thanh điệu trong câu, trường dộ

Tổng hợp tiếng Việt hiện nay mới dạt ở mức dộ dọc rõ ràng trong khi các

từng dụng thực tế đôi hỏi giọng tổng hợp phải tự nhiên như người nói

Tiên cơ sở dó, xuục dịch của luận văn nhằm nghiên cứu và thử nghiệm ruột

số kỳ thuật và mô hình xử lý ngôn điệu để nàng cao chất lượng giọng tông hợp trong phần mềm tổng hợp tiếng Việt VnVơice 1.0

Tayận văn sẽ được chía thành +1 chương bao gồm:

Chương 1: Tổng quan về tổng hợp liếng nói Chương này trình bày khái

quất về tổng hợp tiếng nói và lịch sử phát triển cũng như img dụng của nó Lon nữa, chương 1 còn giới thiệu một sé kỹ thuật tổng hợp tiếng nói đã được sử dụng trên thể giới

Chương 2: Các thành phẫn cơ bản của hệ thêng tổng hợp Chương này

giúp người dọc hiểu rõ hơn về một hệ thông tổng hợp bao gồm những thành phần

co ban nao

Chương 3: Một số phương pháp cải tiễn chất lượng giọng tổng hợp Chương nảy trình bảy việc phân tích và đánh giá chất lượng giọng tổng hợp theo các cách liệp cận khác rửuau

Thử nghiệm cải tiến giọng đọc tổng hợp tiếng Việt trong

Chương

nhân mềm VnVoice Chương này là chương trọng tâm cửa luận văn Chương tãy

ap dụng một số phương pháp cải tiến chất lượng vá kết quá

Trong luận văn, các trích đẫn của các tác giả khác liên quan đến lĩnh vực nghiên cửu đặt trong đâu ngoặc vuông []

Trang 6

7

BANG CAC TU VIET TAT

CART Classification and regression trees

(Cây phân lớp hội quy) CSDT ơ sở dữ liệu

FO Formant 0 (Tan s6 formant co ba

HS Harmonic/Stochastic

LPC Linear Prediction Coding

MOS Mean Opinion Score

NLP Natural Language Processing

MLPS Multivariate Adaptive Regression Splines

PSOLA Pitch-Synchronous Overlap and Add

TD-PSOLA ‘Time-Domain Pitch-Synehronous Overlap and Add

Trang 7

BANG CAC THUẬT NGỮ ANH-VIỆT

Corpus Cơ số dữ liệu tiếng nói

iphone Hai nữa của hai âm vị liên nhau

Trang 8

1.2 Lịch sử phát triển và ứng dụng tũng hợp tiếng nói

Tạo ra tiếng nói bằng máy là một ước mơ của loài người và là mục tiêu thách thức các nhà khoa học trên thể giới nhiều thẻ kỉ qua Máy nói đầu tiên do Wolfpang Vơn Kempelen chế tạo năm 1791 mỏ phỏng bộ máy phát âm của người đã có thể

phát ra được một vài âm tá Ở đầu thế kỉ này vào năm 1939, máy VODER của nhà

Khoa hoc Dudley, phòng thí nghiệm AT&T BELIL I.ABS đã thành công trong việc

mồ hình hoa cộng hướng của ông thanh bằng linh kiện điện tứ liệ thông điều khiển

nhân sông 10 bộ cộng hưởng bằng các nhóm và chiết áp đã có thế tạo ra một số câu

néi có thể nghe được Từ giữa những năm 1950 trở lại đây, sự ra đời của máy tinh:

diện tử đã cho phép tao ra một cách có hệ thống các tham só để diễu khiển bộ tông,

hợp tiếng nói Cũng với sự phát triển như vũ bão của khoa học vả công nghệ thập kỉ

80, 90, kỹ thuật tổng hợp tiếng nói đã có những bước phát triển rất quan trọng cb su đông góp rất lớn của máy tính và xử lý tín hiệu số Sự tiền bộ này được thúc đây do:

* Khé ning tinh toan của rnáy tính nhanh lên gấp nhiều lần, số lượng dữ liệu

được lưu trít ngày càng lớn, trong khi giá thành tgày cảng rề

cũ sở đữ liệu âm thanh và văn ban

© Kh nững xây đựng và truy cập lới œ

ngày cảng để dàng

* Công nghệ nhận dang tự động âm thanh tiếng nói được hoản thiện với độ

chính xác ngày cảng cao, trợ giúp việc tự động phân đoạn âm thanh tiếng nói

Trang 9

cho phép lạo ra kho âm thanh rỗi lớn phục vụ cho việo phân tích và

tổng hợp tiếng nói

+ _ Nếu tiếng nói cũng như chữ viết lá chuỗi liên tiếp các đâu cơ bản được định nghfa rõ rằng và mang Linh hiển thị, thì các vận để nhận đạng cũng như tổng hợp tiếng nói đã dược giải quyết cách dây 20 năm Tuy nhiên bản chất của tiếng nói rất phức tạp, la biệu ứng liên cầu âm quyện các âm tổ thành dòng

thanh liên tục và mang ngôn điệu đưới đang sóng truyền vật H, nên nhận

dang và tổng hợp tiếng nói trở nên hết sức khó khăn, Mặc dủ các nhà khoa

học trên thể giỏi của nhiêu mước khác nhau với nhiều trường phái khác nhau

đã nghiên cứu và đưa ra nhiêu công trình thục lế, nhưng việc tổng hợp tiếng,

nói từ văn bản đã chưa bao giờ là hoàn háo, khi động chạm tới những ngôn

ngữ có số lượng từ không hạn chê với đòi hỏi đạt tới mức tự nhiên trồi chảy

như tiếng nỏi con người

Mặc đù vậy, những kết quả đạt được còn hạn chế, nhưng cũng đã phản nào dược ứng dung có thẻ nói là thành công trong nhiều lĩnh vực cụ thẻ, dem lại những, kết quả nhất định

Các ứng dụng nảy tập trung ở các lĩnh vực sau

" Hạc ngoại ngữ

"Tổng hợp từ văn bản có thể hỗ trợ cho người nước ngoài học ngoại

ngĩ Ứng đựng này đỏi hỏi tiếng nói tống hợp phải có chất lượng tát IIẫu

hết các phần mềm loại này chưa thực sự dáp ứng dược yêu cầu của người sử

dung

* Trợ giúp người tùn tật

Hê thẳng tổng hợp tiếng nói cùng với hệ thông quang học nhận dang chữ viết có thể đọc các văn ban in cho người mù: Giúp người mất khả nắng nói có thể nói qua hệ théng TTS, bằng cách soạn thảo vẫn bản bằng ban phim va phan mém thiết kê cho phép ghép nhanh các câu Giáo sự val ly thiên văn hơc người Anh Stcphan Hawking, người đưa ra lý thuyết vụ nỗ

BIG BANG giảng bài cho sinh viên thông qua các hệ thẳng này

» Truyén thông tin bằng âm thanh

Trang 10

1

Mội hệ thống lồng hợp Hồng nói rất hữu ích cho v

kiểm tra

chính tả các văn bản trên may tinh vi khi nghe dé dang phát hiện lỗi hơn so

với kiểm tra bằng rất

Trong các hệ thống đo đạc điều khiển, khi mắt phải thục hiện các quan sát thì các thông tỉn bằng âm thanh rất cân thiết Ngoài ra bản tin và mệnh lệnh phát ra bằng ầm cũng dễ tiếp thu hơn thông bảo viết

* Trong lưu trữ và khai thúc đữ liệu

Giỏ đây có thê tích kiệm không gian lưu trữ âm bằng cách thay thể bằng các văn bân tương ứng, tắt nhiên là trong trường hợp giọng người nói là khéng quan trong Hon thé cac vin bản bảng chữ bao giờ cũng dễ sắp xép va tim kiểm hơn đt liệu âm thanh

» Trong viễn thông

Tiếng nói tổng hẹp đã được sử đụng nhiều trong các ứng dung trả lời trục tuyến TVR, trên thiểu mạng viễn thông hiện đại như Mỹ, châu Âu và Thật mà tiêu biển là dự án MIVA với các địch vụ điện thoại kích hoạt bằng thanh da ngữ trực tuyển

Các hệ thông thông tbrn tích hợp thông điệp hợp nhất (Unified

Meessaping) có khả năng đọc tự động nội đung các bức thư điện tử và các

bức FAX và cáo thông tin trên Net qua máy diện thoại có dịnh hoặc các máy

đi động

Truy cập thông tin qua diện thoại và tự dộng tra cứu danh bạ diện thoại hai chiên bằng máy điện thoại

* Thông tin da phương tiên

Trong kỹ nguyên thông tin, hệ thống tống hẹp tiếng nói là một nửa

bắt buộc cũa thông tin hai chiêu giữa người vả mày

Hệ thống địch tự động được coi là một thành tựu khoa học lớn của

nhản loại vảo những năm dâu thế kỹ 21 phải sử dụng hệ thống tổng hợp tiếng,

nói ở đâu ra

+ Các ứng đụng khác

Trang 11

Tổng hợp tiếng mỏi được ứng dụng trong các trò chơi, trong các thiết bị bảo động, báo chát, hệ thông chống trộm, các thiết bị gia định và cảo thiết bị giải trí khác

đề Tổng hợp tiếng Việt

Tổng hợp tiếng nói từ văn bản là một ngành khoa học nhận dạng liên quan

đến nhiều ngành khoa hoc khác như: ngồn ngữ, xứ lý tin higu va khoa hoc may tinh

Hiện nay với nỗ lực nghiên cứu của cáo nhà khoa học công nghệ trên thể giới, chật

lượng âm thanh tổng hợp hiện tại đã vượt qua ngưỡng nghe hiểu đơn giản và dang tiến dân tới múc độ nói tự nhiền của con người Trong một số ứng dựng ngôn ngữ tiẹp, chất lượng âm thanh đã gần như không thể phản biệt với ngôn ngĩữ tự nhiên

Trong xu thể hội nhập thế giới, cùng với sụ hắp dẫn của khoa học nhận dạng,

ở Việt Nam trong những năm vừa qua đã có những đẻ tài nghiên cứu về tống hợp tiếng nỏi và bước dau da dạt dược những thành tựu nhất dịnh Công nghệ cho việc tổng hợp tiếng nói từ văn bản có số từ vựng không hạn chế chất lượng cao có những phức tạp chung là một lê, song một vẫn đề nữa là nó còn phụ thuộc từng ngôn ngữ riêng biệt Không thể lấy các phản mềm tổng hop tiếng nói Anh, Pháp, Đức, Nhật,

để đọc văn bản chíữ Việt IIơn nữa tiếng Việt là một ngôn ngữ đơn âm đa thanh: điệu Vì vậy không ai khác mà chính là các nhà khoa học Việt Nam phải tự tiến

hành xâu đựng công nghệ tổng hợp tiếng nói cho mỉnh

Việt Nam dang bước vào thời kỉ phát triển nhanh chóng về CNTT, nò cho phép chủng ta có những nên tảng khoa học, cơ sở vật chất 48 co thé nghiên cứu

cũng như triển khai các ứmg dung vẻ khoa học công nghệ trong cuộc sông

1.3 Đặc điểm ngữ âm tiếng Việt

Khi giao

con người phát ra những chuối âm thanh nhất định, la gọi là

dòng ngữ lưu (uHeranee) Trong từng dòng ngữ lưu, nẻu đem chia cắt chúng ra, la

sẽ thu được những đơn vị cấu thành nhỏ hơn, đó là âm tiết, âm tổ và âm vị Trong,

do, am tiết là don vị phân chía tự nhiên nhất trong lời nói, là dơn vị phát âm nhỏ nhất Mỗi âm tiết là một tiếng

Vị dụ lời nói: "Hà Nội lá thủ đô của nước Việt Nam” có 9 âm tiết.

Trang 12

13

Về mặt sinh lý — vật lý, âm điết được định nghĩa là một đơn vị mà khi

phát âm được đặc trưng bởi sự căng lên rồi chủng xuống của cơ thịt trong bộ máy phát âm

Trong mỗi âm tiết, chỉ cỏ một âm tổ có khả năng tạo thành âm tiết (gọi là âm

tổ âm tiết tỉnh), còn lại là các yếu tô đi kèm, không tự mình tạo thành âm tiết được

Âm tổ âm tiết tính thường được phân bổ ở trung tâm, làm hạt nhân am tiết Đó thường là các nguyên âm Điều này din đến hệ quả là một âm tiết khi được phát ra thì phần năng lượng tập trung nhiều nhất ở phân giữa âm (cỏ biên độ cao), đi vẻ đầu

và cuối âm tiết thì năng lượng giảm dẫn (xem hình 1.1)

Hình 1.1: Cụm từ "âm tiết tiếng Việt ” thể hiện trên sóng âm Mỗi âm tiết có

biên độ lớn ở giữa âm và nhỏ dan ở đầu và cuối âm

Tiếng Việt là tiếng đơn âm có thanh điệu Nó là ngôn ngữ có kết câu âm tiết tính Một đặc điểm của tiếng Việt là âm tiết trùng hình vị (đơn vị nhỏ nhất có

nghĩa) Nói cách khác, một âm tiết là một hình thức biểu đạt của một hình vị Ví dụ,

từ học sinh có hai hình vị, mỗi hình vị có vỏ ngữ âm là một âm tiết là học và sinh

không bị nối thánh "các anh”, "cảm ơn” không bị đọc thành “cd mon”,

Do mỗi âm tiết là vỏ ngữ âm của hình vị nên khác với các ngôn ngữ Âu-Ân,

tiếng Việt có số âm tiết hữu hạn với 17000 vỏ ngữ âm cỏ khả năng và 6900 âm tiết tồn tại thực

Trang 13

Am tiổi, hình vị tiếng Việt cố định, không thay dồi theo ngữ pháp về thờ, giống và số như các ngôn ngữ khác Âm tiết tiếng Việt có cầu trúc chặt chế với

các loại âm ở các vị trí cỗ định trong thành phần âm tiết

Một đặc điểm nổi bật khác của tiếng Việt là thanh điệu Mỗi âm tiết đều

mang một thanh điệu nhật định Thanh điệu là một tập hợp những đặc trưng có liên

quan đến dé cao (phụ thuộc tần số rung động của dây Hưnh âm) của thưnh cơ bản trong, âm tiết Nó được thể hiện trên tất cả những bộ phận hữu thanh trong âm tiết,

tăng giảm của tần sổ) trong quá trình thể hiện Vì vậy, mỗi thanh điệu cẻ thẻ được

miêu tä ru một sự kết hợp của hai thông số nói trên

TIệ thông thanh điệu tiếng Việt gồm sáu thanh là ngang (không đâu), huyền, ngã, hỏi, sắc, và năng Thanh điệu trong tiếng Việt kết hợp với các thành phân của

âm tiết tạo thành các từ khác nhau, ví dụ như: thanh/ thánh/ thànb/ thạnh Trong

tiếng Việt không phải vẫn nào củng phát âm đủ sáu thanh Dỗi với âm tiết đóng chỉ

có hai thanh sắc và nặng, ví dụ: tắc, tặc

Ngoài các tính chất ngữ điệu như các ngôn ngữ Âu-Ấn, tân số cơ ban FO 14 thành phan chính của hệ thẳng thanh điệu tiêng Việt tạo nghĩa khác nhau cho âm tiết Hệ thống thanh điệu tiếng, Việt tạo nghĩa khác nhau cho ầm tiết Hệ thông than:

điệu tiếng Việt là loại phức tạp nhất trong các ngôn ngữ đơn lập âm tiết tỉnh (tiêng,

Thái cỏ 5 thanh, tiếng Trang Quốc có 4 thanh)

Trong Hếng Việt, âm tiết có câu trúc chặt chẽ và ổn định, mỗi âm vị l4 một vị trí nhất định trơng âm tiết, tạo thành câu trúc âm tiết tiếng Việt

*Cấu trúc âm tiết tiếng Việt

Aum tiết tiếng Việt được tạo thành bởi ba thánh phần có mức độ độc lập khác

nhau là phụ âm đầu, phần văn và thanh điệu Về cấu trúc, âm tiếng Việt có cầu trúc

hai bậc Bậc một gồm ba thành phân là thanh điệu, phí âm dầu và vàn Đậc hai là các thanh to của phần vẫn gồm âm đệm lả bản nguyên âm, nguyên âm chính và phụ

Trang 14

15

âm hay bản nguyên âm cuối Các thành phan âm tél duge trink bay nhu hinh 1.2

Đặc điễm âm đầu

«_ Khi phát âm, luồng hơi bị căn tré do sự xuất hiện chướng ngại vật trên lỗi ra của đường không khí Điểm có chướng ngại goi là vị trí cầu âm

* 136 may phat âm không căng thẳng toàn bộ mả chỉ cảng thẳng phản cơ thịt ở

vị trí cầu ômL

e_ Luống hơi ra mạnh

Phân loại

+ Phân chia theo mối quan hệ giữa tiếng thanh: và tiếng Ân trong cấu tạo

của âm đâu

Giác phụ âm đầu được chứa thành các phụ âm vang (Hếng thanh nhiều hơn tiếng Ôn) và phụ âm ồn Trong các phụ âm ẻn lại chia thành các phụ âm hữu thanh (phát âm có sự tham gia của tiếng thanh do đây thanh rung động) và

phụ âm võ thanh (phái âm không có sự tham gia của tiếng hanh)

Nhém phụ âm vang só thể coi là nhóm trưng gian giữa các nguyên âm và

phụ âm nu Khi phát âu các phụ âm vang, chuống ngại được tạo Hánh

nhưng có thể là chỗ tắc yêu hoặc không khi không những trực tiếp vượt qua

chỗ cỏ chướng ngại mà còn đi ra tự đo qua mũi (như các phụ âm [m], [n]

trong tiếng ViệU,

Trang 15

— Phụ âm tắc: tạo thành khi hai khí quản tiếp xúc nhau, tạo thành ché tae, can

trở hoàn loàn lỗi ra của luỗng không khí Ví dụ như các phụ âm [p], [b], [đ]

[tl

— Phụ âm tạo thành khi hai khí quản nhích lại gần nhau, làm cho lỗi ra của luỗng không khí bị thu hẹp: luẳng không khí đi qua khe hẹp này cọ xát

vào thành của bộ máy phát âm Ví dụ, các phụ âm [v], [s] [h]

Phụ âm rung; tạo thành khi các khi quân để rung động (như đầu lưỡi, lưỡi

con hay môi) nhích lại gần nhan tạo thành một khe hé rit hep hay một chỗ

êu, luỏng không khí đi ra mạnh làm cho các khí quân ấy rung lên Vi du

phụ âm [r]

Trong các câu âm gũa phụ âm, người la thường phân biết ba giai

lắc y

đoạn:

—_ Giai đoạp tiển: khí quản phát âm chuyển đến vị trí cầu âm

—_ Giai đoạn giữ: khí quản phát âm ở vị trí cầu âm

—_ Giai đoạn lùi: khí quân phát âm rời khôi vị trí cấu âm lai giai đoạn đầu gidéng nhau ở bất kỳ âm tắc nào Về giai đoạn thứ

ba, cân phân biệt cáo tiểu loại âm tắc: âm mổ, âm mũi, âm tắc-xát và âm khép

+ Phau chia theo vj tri tao ra tiễng an

‘Theo vj tri cdu tac tiéng ổn, các phụ ãm được chia ra thành các loại chính: phụ âm môi, rằng, ngạc mạc, lưỡi con, vất hẳu, thanh bằu

Theo khí quản chủ động, các phụ âm được chia thành các loại: phụ âm môi,

lưỡi trước, lưỡi giữa, lưỡi sau, lưỡi con, vế! hậu, thanh hầu

Trong các nhóm này, có một số cần chia nhỏ nữa Ví đụ trong các âm môi,

¡ môi-môi ([b], [p], [ra] Với các âm một môi, thường gọi là âm môi-răng ([v]); các âm lưỡi trước thường chia thành nhiều nhóm nhà nhưng đáng chú ý là âm đâu lưỡi và âm

quất lưỡi,

Trang 16

7

Theo như lược đỏ âm tiếng Việt ở trên thì phần vẫn day 48 gém ba thánh

phan la âm đệm, âm chính, và âm cuêi Ví dụ như âm tiết /teán/ có phần vân là

/oan, trong đỏ âm vị /o/ là âm đệm, âm vị /a/ là âm chính vá 4w là âm cuồi

1.3.2.1 Âm đệm

Đông vai trò là âm lướt trong kết cầu ãm tiết Âm dệm ảnh huông dến cách

mỡ đâu của âm tiết (bên cạnh phụ âm đầu) Ví dụ: chữ “toàn” khi phat 4m có hiện

tượng trêu môi đo tác động của âm độm/-u-/, con chit "an? thì không có hiện Lượng: tròn mỏi do không có âm đệm

1.3.2.2 Âm chính

Tả nguyễn âm âm tiết Linh trong âm liết Âm tiết chính có thể là một nguyễn

âm đơn hay nguyên âm đồi

«Khi phát âm, luồng hơi không bị cân trổ bởi lưỡi, răng hay môi

«© Bộ máy phải âm căng thẳng taàn bộ

© Ludng hoi ra yéu hon phu am

tự do Nguyên âm không có vị trí cầu âm vì các khí quản không tạo thành khe, cũng

không tạo thành chỗ tắc Các nguyên 4m cũng không thể phản loại theo tiếng thanh,

vì bình thường, bắt kỳ nguyên âm nảo cũng có tiếng thanh

Các nguyễn âm chí khác nhau ở các hoạt động cũa khi quản phát âm, trong,

đỏ quan trọng nhất là lười Vì sự thay đổi vị trí cửa lưỡi gây ra sự khác nhau rất lớn

giữa cáo nguyên âm Lưới chuyển đông lới-lui vả lồn xuống trong khoang miệng và

tạo nên những tương quan phức tạp giữa các khoang cộng mình (khoang miệng và

mũi), làm thay đối hình đáng vã thẻ tích của chímg Mỗi tròn lại và đưa về trước,

Trang 17

lâm kéo đài lỗi thoát của luông không khi, hoặc môi chanh ra, lam céng minh

trường phía trước ngắn lại

Người ta thường phân loại nguyên âm: theo vị trí của lưỡi, độ năng của lưỡi

và hình đáng mỗi

«Theo vị trí của lưới

Gồm các nguyễn âm đông trước (khi lưỡi dồn về trước), nguyên âm dòng sau (khi luỡi dồn về sau) và nguyên âm dòng giữa (khi lưỡi ở giữa miệng

nâng lên) Ví dụ, trong tiếng Việt, các nguyên âm đòng trước là ]ïJ, [s], [ế] nguyên âm đỏng sau là [ư], [o], [6], nguyén am dòng giữa là [ư], Jol, [al

© Theo dé nang cia Indi

Các nguyễn âm được chúa tủy theo từng ngôn ngữ Độ nâng của lười tương ứng với độ mớ của miệng nên các nguyễn êm có độ nâng cao côn gọi là

nguyên âm hẹp, nguyên âm có độ nâng thấp còn gọi là nguyên âm mở Trong

ngữ âm học dại cương không có một cách phân loại tuyệt dối theo độ nâng,

lưỡi vi mỗi ngôn ngũ có một hệ thếng nguyên âm khác nhau Ví dụ, các nguyên âm đòng trước trong tiếng Pháp có 4 độ nâng, các nguyên âm trong tiếng Đúc có 5 độ năng, tiếng Nga có 3 độ nâng, liéng Anh cé 6 độ nâng, Trong tiếng Việt, các nguyên 4m đơn có thể chia thành 4 nâng:

Bang 1.1; Phân chia nguyên âm theo độ nâng của lưỡi

Độ nâng | Gồm các nguyên âm

Tgp Gi), fu), Tloihep |[#],[u],

© Theo hink ding môi

Các nguyên âm được chia thành nguyên âm tròn môi ([u], [ôi], [o]), nguyên

âm không tròn môi ([ï], [8] [e] [w] [e], [a]) Sự trên môi rõ nhất ó nguyên

am khep và yếu nhất ở nguyễn âm mở

Trang 18

19

1.3.2.3 Am cudi

La 4m két thúc âm tiết Các âm tiết tiếng Việt thường đối lập bằng những

cách kết thúc khác nhau Một số âm tiết kết thúc bằng sự kỏo dài và giữ nguyễn, ví dụ: ma, di, cho, Số âm tiết khác kết thúc bằng cách biến đổi âm sắc của âm tiết ở

phân cuối do sự đóng lại của các âm cuôi tham gia, ví đụ như một, mai, văng

'Trøng trường hợp dẫu, ta có các âm cuối lả âm vị /zero/, trong trưởng hợp sau ta có

các âm cuối là những âm vị bán nguyên âm hoặc phụ âm

Hệ thống âm cuối tiếng Việt bao gồm hai bán nguyên âm là /j, ø/ và sáu phụ

âm ¿m, n, ng (nh), p, †, œ/

1.3.3 Thanh điệu

Thanh điệu là loại âm vị giêu đoạn tính, nó được biểu lộ trong toàn bộ phần hữu thanh của âm tiết Ở mức vật lý, phần thanh của thanh diệu chính là dường rét của tần số âm cơ bán HO Về cám thụ, thanh điệu là sự căm nhận về thay đổi của cao

độ lân số cơ bân EO của âm tiết

Sau thanh điệu tiếng Việt được chia thành hai nhóm lớn bằng và trắc Thanh

không dâu và thanh huyền thuộc loại thanh bằng só đường rét tương đối đơn giản Thanh ngã, thanh hỏi, thanh sắc và thanh nặng là những thanh trắc có đường nét thanh điệu phúc tạp Các thanh ngang, sắc, ngã thuộc âm vực cao, còn các âm tuyển, hồi và nặng thuộc âm vực thấp

Trong các cổng trình nghiên cứu đã được công bỏ, đường nét thanh điệu

tiếng Việt cho những âm tiết rời rạc (phương ngữ Bắc Bộ) được đánh giá tương đối thống nhất Ngoài tính chất thanh tính, các thanh điệu còn gó một số đặc trưng phi điệu tính như hiện tượng yết hầu hoá, thanh hậu hoá tạo thành hệ thống các đặc

trưng phụ để phân biệt các tưmh điệu đặc biệt của thanh ngõ và sắc, [hanh hỏi, thanh nặng

*Phân loại âm tiết tiếng Việt

Phụ thuộc vào cách thức kết thúc, âm tiết tiếng Việt được chia thành 4 loại

như lrong bâng 1.2:

Bảng 1.2: Phân loại ầm tiết tiếng Việt.

Trang 19

Tả các loại âm liệt không có âm cuối, kết

1 |Âmmớ Ma, me,

thúc âm tiết bằng nguyên âm chính:

âm cuối kết thúc âm tiết lá một ban

2 | Âm nữa mở Mai, sau,

nguyên âm

3 |Âm đóng Thi âm cối là một phụ âm tắc vô thank Tap, hoc,

4 | Âm nữa đóng | Khi âm cuếi là một phụ âm mữi Lam, nganb,

1.4 Một số đặc trưng của âm vị về mặt âm học

Sự phân loại các âm vị về mặt âm học dã dược xây dựng, đựa trên âm phê Các máy phân tích âm phố cho chúng ta các ảnh phd (spectrogram), qua đó các âm

vị thể hiện rõ các đặc trưng ăm học: cao độ, cường độ, trường dé,

ở biều diễn phổ tiếng nói tại một thời điểm t, người ta đừng một biểu đỗ với trục ngang biểu diễn các tần số (Hz) tham gia câu âm thành âm thanh tại thời điểm t

vả trục dựng với cường, dộ tương, ửng (d}

úE

Hình 1.3: Phổ (spectrum) của một nguân âm thanh tại thời điểm t

Để biểu diễn phỏ tiếng nói theo sự biển thiển thời gian, người ta dùng ánh phổ với trục ngang hiểu diễn thời gian, trục đứng biểu điễn tần số, cường độ của

Trang 20

21

môi sống có tần số f tại thời điểm t; được biểu diễn bằng 1 cham Nếu cường

độ cảng mạnh thì chấm biểu điện càng đậm

Ngoài ra còn có thẻ biêu điển ảnh phỏ của tiếng nói theo sự biển thiên thời

gian trong không gian 3 chiều Khi đó, phô thu được có dạng như thác nước và

người ta gọi đỏ là ảnh phỏ thác nước (Waterfall Spectrogram)

đỏ là những vệt formant, được đánh số từ dưới lên F1, F2, F3,

Dựa trên đặc điểm của ảnh phổ, am vị được chia thành 12 đặc trưng sau:

©_ Nguyên âm-không nguyên âm

Đặc trưng của nguyên âm: được thẻ hiện bằng các cau trie formant Co đặc

trưng nguyên âm là nguyên âm vả các âm vang Không cỏ đặc trưng nguyên âm

lả các âm ôn

© Phụ âm-không phụ âm

Đặc trưng âm học của phụ âm là có mức năng lượng thấp, riêu cỏ mức năng

lượng cao là nguyên âm

Có đặc trưng phụ ầm là các phụ âm vang vả ôn

° Béng-Tram

Những âm bỏng có tần số lớn, cỏn những âm trảm có tân số nhỏ Những âm

tram thường được đặc trưng bằng sự phần bỗ năng lượng tập trung ở phần dưới

của phổ

Trang 21

Âm bổng gồm các nguyên âm hing trước, phụ âm răng, các phụ âm lưỡi

trước, lưỡi giữa Âm trầm là các nguyên âm hảng sau, các phụ âm môi va pla

am Ludi sau

+ Loãng-đặc

Dac trmg âm học của tiêu chí đặc lä có vùng formant 6 trung tâm của phố, đối

lập với loãng là trên phổ hình có một hay mot sé formant phan bó xa Irung tâm

Âm đặc bao gồm các nguyên âm không thuộc độ nâng cao, các phụ âm lưỡi, lưới giữa và lưỡi sau Các âm loãng bao gầm những âm có độ nâng của luỡi cao (nguyên âm khép), những phụ âm răng, phụ âm môi [ï], [u], [u] trong tiếng Việt + Ngắkhông ngắt

#6 là sự dôi lập giữa có và không có sự chuyên tiếp dột ngột giữa sự có mặt và

vắng mặt của âm thanh "Các phụ âm xát thường có khởi âm từ từ Ngược lại,

các phụ âm tắc thường có sự ngắt đột ngột sóng âm đi trước bằng một khoảng,

Những âm cũng là những âm có độ đi lớn, năng lượng lớn và có thanh công

tưởng thẻ hiện rõ trên phố hình

Âm cũng bao gồm các phụ âm mạnh và nguyễn ôm đặc Ấm lợi bao gồm những Thụ âm yến và các nguyên âm loãng,

+ 1iỡn thanh-vô thanh

#e là sự đổi lập giữa có bay không những dao động điều hỏa ở vùng tân số thấp

Âm hữu thanh bao gồm các nguyên âm, phụ âm vøng và phụ ôm hữu thanh,

Trang 22

ˆ

* Mui-miéng (hay Miiknong mũi)

Phể hình của các âm mũi cĩ mật độ fornant đảy hơn so với các âm miệng tương,

ứng Ở các nguyên âm mũi giữa I1 và L2 xuất hiện thêm một formant phu, va

đồng thời cĩ sự giảm cường độ cũa F1 và F2

Trong tiếng Việt cĩ các âm mũi được thê hiện bằng các chữ cái; m, n, nh, nợ

« Giáng-khơng giảng

Các âm giảng là những âm trêm hỏa cĩ một hoặc một số các formamt của nĩ bị

hạ thấp so với các âm khẳng giáng Các nguyên âm trên mơi như [u], [ê], [e] trong tiếng Việt và những phụ âm đứng trước [u], [ð], [o] bị mdi hoa đều là

+ Thanh hẳu hỏu-khơng thanh hầu hảu

Các âm thanh hằu hĩa đặc trưng bởi tốc đồ biến đổi nắng lượng lớn treng một khoảng thời gian ngắn,

Trong tiếng Việt, âm thanh hầu hĩa đặc trưng bởi tốc độ biến đổi năng lượng

lớn ương một khoảng thời gian ngắn

Trong tiếng Việt, âm thanh hầu hĩa cĩ thể xuất hiện trong các âm tiết vắng phụ

âm đâu như ăn, uống, uễ, ội, hoặc trước các phụ âm hữu thanh, đặc biệt là trước [b], [đ], va [I]

1.5 Các phương nháp tổng hợp tiếng nĩi

Trong phân nảy, luận văn sẽ trình bảy khái quảt một số phương pháp tổng, hợp tiếng nĩi hiện nay và những đánh giá sơ bộ về từng phương pháp

1.5.1 Téng hợp theo cầu âm

Tổng hợp theo cầu âm sử dụng mơ hình phéng sinh học Trong rơ hình này, tiếng nỏi dược đặc trung khơng chỉ bằng tin hiệu âm thanh mả cả bằng vị trí của cảo

Trang 23

cơ quan cầu âm, sự tham gia của khoang mdi, ap sual khéng khi trong phdi, hye

căng của dây thanh, Nó bao gồm hoạt động tương tác phi tuyển giữa nguồn kích (chân động dây thanh hoặc hỗn loạn không khÔ và ở kháng đâu vào thay đổi theo thời gian của ảng thanh Phương pháp nảy con dược gọi là tổng hợp theo mô hình

sóng trong ống thanh và mô hình hoá nguồn âm (chấn động đây

thanh, đỏng không khí hôn loạn) và sự tương tác của nó với ổng thanh Phương,

pháp này hiện nay chí hình thành trên lý thuyết, thục tế ngành khoa học phỏng sinh chua có đũ thêng tin dau da dé md phong theo cấu âm

Mô hình ỗng thanh

Cho các âm không phải lá âm mf ta chi can xem xét ông thanh cỏ thiết diện biến thiên từ thanh môn cho tới môi Ông thanh thay đổi liên tục, hình đáng của

chúng phải được xác định trong khoảng thời gian vải mini giây một lân Hình không

gian của ống thanh được mô tả theo vị trí của các cơ quan phát âm, lưỡi, môi,

ham

M6 hinh dược ứng dụng nhiều nhất là mô hình của Mermelstein với các tham sé mé ta vi tri co quan cầu âm.Từ mô tả cầu âm, có thể tính được các số liệu cho hàm mặt cắt ngang ống thanh ACx) 14 hàm số phụ thuộc khoảng cách đọc theo ống thanh từ thanh môn cho tới môi

Lan truyền sông trong dng thanh

Trong nhiều cách tính đặc trưng truyền sóng trong ổng thanh thì phương

phap ma tran chuối được áp dụng nhiều nhát Ma trận chuỗi (còn gọi lả ma trận ABCD) thé hiện ông thanh ở miễn tan số Với bát kỹ phần nào của ông thanh hay cia dng mili ta cé

Uma) eC BF 2 Nhằm he, lu mà

Trang 24

25

Ma trận chuỗi E có thể thể hiện bal ky phan nào của bát kỳ độ đài hay phẳng cắt ngang nào của ống thanh Tỉnh cá phân tử của K rất đơn giản nên

ống có mặt cải không đi

Mô hình nguằn kích thanh Nguồn kích thanh cho tong hợp cầu âm sử dụng mô bình bai khối lượng của

Ishizaka va Ilanagan

Nguyên lý của tổng hợp cấu âm

Thuật toán tống hop theo mô hình cầu âm gồm các bước như nhau Từ đặc tả

về gác tham số cầu âm, ta tính được ma lrận chuối tù Hưmh miên đến môi Sau đó

tính hàm truyền và trở kháng đầu vào từ các phần tử A,I3,C,D của ma trận Chuyển

đối Fonrier ngược hàm truyền H và tỉ số trở kháng ta nhận được các giả trị Hrơng ứng ở miễn thời gian Sau đó tính áp suất Ap = Ps-P, Giá trị áp suất này tác động vào hộ công hưởng điều khiển chuyên động đây thanh của mô hình hai khối lượng tạo ra âm thanh tiếng nói

hư vậy, ngoài việc mê hình hoá các cơ quan phát âm, tổng hợp theo cầu âm

cần phải xây dựng lại loại quy luật ngôn ngữ và luật vật lý Luật vật lý mô tả như ở

trên xảo dịnh ánh xạ cấu hình ống thanh cụ thể cho tin hiệu ãm thanh, xác định mỗi quan hệ giữa hoạt đông cân âm và tín hiệu âm thanh tiếng nói Còn luật ngôn ngữ xác dịnh mối quan hệ giữa mô (â ngữ âm và các hoạt dộng cầu âm Thông thường, luật ngôn ngữ được thực hiện cho từng âm vị Khi cầu âm cho một đơn vị, luật này xác

định thời điểm các cơ quan chuyên động, tốc độ chuyển động và mối quan hệ giữa cơ

quan nay và cơ quan khác Vì phát ra một âm vị không nhất thiết phải cỏ sự chuyển động của tốt cá cáo cơ quan nên trong củng một thởi điểm cơ quan phát âm có thế được xác định cho âm vị khác Theo cách này thì tổng hợp theo cầu âm có thế tạo ra

các giải pháp hoàn hảo cho các trường hợp ngữ âm khó như cụm phụ âm, nguyên ân:

Trang 25

phòng thí nghiệm bay sân phẩm mẫu mà chưa duợc ứng đụng thực lế Các bộ tổng hợp theo cấu âm lả công cụ lý tưởng để nghiên cửu vẻ cấu äm của tiếng nói vả

lứa hẹn về lâu dãi là giải pháp hoàn thiên nhất để tổng hợp ra âm thanh liếng nói

giống như tiếng nói tự nhiên của con người

1.5.2 Tổng hợp formant theo quy luật

Quy trình để xây dựng bộ tổng hợp formant theo luật gồm hai quá trình riêng, tiệt là quá trình phân tích âm thanh tiếng nói để lìm ra các quy luật và tổng hợp lại tiếng nói dựa vào cáo quy luật nay

Phân tích tìm quy luật

Quả trình phân tích được tiên hành trên cơ sở đữ liệu tiếng nói tự nhiên chủ

yếu bao gồm các âm tiết có dạng C-V (phụ âm — nguyên âm) hay C-V-C (phụ âm —

nguyên âm phụ âm) của nhiễu giọng nói Cơ sở đữ liệu này tốt nhất phải bao phủ được tất cả các hình thái ngữ ấm của một ngôn ngữ:

Thuật toán dự doán tuyến tỉnh LPC, được sử đụng trong quá trình phân tích

phổ để xác dinh miu ciia tin sé formant, bing théng formant, tin sé 4m cc ban 1'0 của tín hiệu tiếng nói Tần số từ FL dén F5 va bang théng W, dén W, 6 phan én dịnh của các âm tổ dược lưu giữ dưới dạng băng, Đỏ là các giá trị “dich” dé tao ra

một âm vị

Trong tiếng nói, phần mang thông tin dược quan tâm nghiên cứu nhiều hơn

là các phân chuyển tiếp giữa các âm vị tử nguyên âm sang phụ âm vả ngược lại (C-

V va V-C) Tan

O formant chuyen titp i âm vị nọ sang am vi kia được mô hình

hoà và tạo thành các quy luật tổng hợp cho kĩ thuật tổng hợp formant Nhu vậy về

cơ bản các quá trình nhân tích tim luật để mỏ tả sự thay đổi liên tục phổ của một ngữ lim bằng các formant và sự chuyển tiếp của các formant từ âm vi nay sang âm

vị khác Hệ thông quy luật bao gồm:

- Luật để xác dịnh vị trí đích các fomanant của mỗi âm vị trong ruột ngữ lưu

cũng như thời gian tồn tại của các vị trí đó

- Luật nhằm làm trơn các fozmant đích

- Luật để chuyển đổi các hàm thời giam thành đang sóng thanh

Tổng hợp tiếng nói dựa trên tập luật phân tích (hay tổng hợp formant)

Trang 26

Hệ thông long hop formant s@ cắn cứ vào các tha số điều khiển từ bằng tra cứu vả củng với thuật toán được xảy dựng cho sự chuyên tiếp là các tin hiệu điều khiển bộ tổng lợp để tạo các âm đoạn Lính

Thiết kế của bộ tổng hop formant duge dua trên mô hình tương tự đầu cuỗi

tạo tiếng nói do ‡rant đề xuất,

Tổng hợp fermani được phân loại theo cầu hình mắc các bộ cộng hưởng

song song hay nổi tiếp Hảm truyền của bộ tổng hợp khi mắc nói tiếp bộ cộng, hưởng tương tự như hàm truyền ống thanh vì vậy bộ tổng hợp nổi tiếp mô hình hoá, rất tốt cho các âm hữu thanh Cỏn bộ tống hợp với các bộ cộng hướng mắc song song sẽ tạo ra cho các âm tắc, âm xát và âm mũi một chất lượng, âm thanh tốt hơn

Sơ để khối bộ tổng hop Klatt

Tiệ tống hợp âm đoạn tính sử dung phân mềm của Klatt bằng cả cách nổi

song sơng và nói tiếp các bộ cộng hướng Đây là hệ thống tổng hop formant khá

hoàn thiện cho đến nay

Mô hinh tống hợp tiếng nói của Klatt [13], [14], [19] mô phỏng quá trinh tao

tiếng nói của con người dựa trên nguyên lý nguồn âm-bộ lọc của quá trình tạo tiếng,

nói, day 1A mé hinh téng hop formant han hợp bao gồm cả tưyển âm nổi tiên và

song sơng với nguồn ầm phúc hợp Sơ đồ khối bộ tổng hợp được trình bày trong hình 1.5 càng với các tham số cản thiết nhất dễ điều khiển nguồn âm và tuyến âm Một số tham số điều khiến khác thường được gán giá trị ngầm định, không trình bảy

ở đây

Trang 27

TNguẫn hữu thanh Him truyền đại của

tuyến âm chongnồn

AV 0Q TL nổi tiếp }

sn † ma

† FL lr2 m3

Nguồn âm xát tuyến am cho nguồn

Nguồn kich thích gồm 2 kiểu là: nguồn hữu thanh được tạo bởi các tín hiệu

tuần hoàn và nguằn vô thanh được sinh ra từ các tin hiêu ngẫu nhiên Nguồn hữu

thanh của bộ tổng hợp Klatt duge trình bảy trong hình 1.6,

Tĩnh 1.6: Nguồn hữu thanh

Nguồn kích hữu Hưnh được điều khiển bởi 4 tham sé 1a OQ TL, AV va TO, trong

đỏ:

© OQ: hé sé mé (Open Quotion)

© TL: dé nghiéng phd

Trang 28

ˆ 5® _ AV: biên độ hữu thanh *

© TO: chu ly dao déng co ban của dôi đây thanh (=1/0)

Ham song hitu thanh co sé cé dang: aT*-bT*

Trong đó

T: biến thời gian

Các hệ số a, b là hàm của AV vA OQFTO

Ưu điểm của nguồn hữu thanh nảy là nó mô phỏng gan giống với nguồn âm

tự nhiễn, cường độ của tín hiệu cửa hâu được mô tả tốt tại cá thời điểm đóng vả mở

với hình đáng không đều, tốc độ nhanh hem tốc độ mở Cường độ của séng hừu

thanh tuân theo ham trên trong, suốt pha mở cũa chu kỳ bằng Ö trong thời gian cỏn lại Có thể điều chỉnh đẻ phố nghiêng hơn bằng cách sử dụng OQ hoặc TL đề phỏng

theo hiệu ứng đóng cửa hấu không hoàn toàn và sự làm tròn góc của sóng âm vào

lúc két thúc

Khuyét điểm cửa nguồn kích thích nảy là độ lớn phổ một số chỗ không đều

Do vay độ rộng đải thông của f[rrmmamt sẽ hơi mỏng khỉ nó gần lần số 600Hz (vị ti diễm 0 thực sự vụ thuộc vào OQ) Điện dé formant này thay đổi giống như xuất

hiện trong tiếng nói tự nhiên

Nghồn vô thanh để mô tả kích thích khi tạo các âm vô thanh là bộ sinh số

Mô hình tuyến âm

Tuyến âm gồm hai nhánh : nhánh nối tiếp và nhánh sơng song Mỗi nhánh sôm các bộ lọc bậc 2 diễn tá tần số cộng hướng vả phản cộng hưởng của tín hiệu tiếng nói (bình 1.7)

Trang 29

Tĩnh 1.7(a) biểu diễn bộ lọc thông đài — bandpass (còn gọi là hệ truy hỏi bậc hai) mô tả tấn số cộng hưởng (điểm cực) Bộ lọc được điều khiên bằng các thông số

là tấn số lẫy mẫu, Lần số cộng hưởng và độ đãi thông của nó Các hệ số a, b, c được

thiết lập theo các hệ thức sau

r—oxp(—PI * BA )/ Fs)

e=-*?)

b=2*r*cos(2* Đi * BW * f / Fs) a-l-b-e

Trong đó :

Es : tân số lây mẫu (=1/Ts :Chu kỳ lây mẫn)

# : tân số công hưởng

BW : độ rộng đãi thông

PL: hệ số pi(Œ3.1415927)

'Tin hiệu ra yín) được lọc từ tin higu vao x(n) theo phương trình :

yf)=a*x(m)+b* yữn—1)+ e* yÚn—2)

Trang 30

31

Hinh 1.7 (b) biéu điển bộ lọc chin dai-bandslap (con goi 14 hé khong

truy hỏi bập hai) mỏ tá tần số cộng hướng (điểm không) Bộ lọc cũng được điều

số phân công hưởng và bằng thông

khiển bằng các thông số là tân số lấy mẫu, tằn

của nó Các hệ số a”, b', ø` được thiết lập theo các hệ số a, b,c của bộ lọc thông dãi

với sự thay đối như sau :

‘Tin higu ra y(n) được lọc từ tin higu vao x(n) theo quan hé :

yn) — a? x(n) + b¥ x(n—1) + oF x(n— 2)

Chủ ý : các giá trị x(0), x(-1), v(), v(-1) được khởi tạo bằng 0 Biên độ cộng hưởng

A dược mô tả bằng cách nhân với hệ số ø (A*a)

Nhánh nẻi tiếp của tuyến âm gém 8 bộ cộng hướng mô tả 8 tần số formant, 1

bộ mô tả điểm cực cho âm mũi và 1 bộ phản cộng hưởng mỏ tả điểm 0 âm mũi

Nhành song song gôm bộ cộng hướng cho 6 tân số formant vả 1 bộ cho điểm cực

âm mũi Ngoài ra còn 1 bộ lọc xung cửa hậu, 1 bộ lọc thỏng thấp cho nguồn tiếng

n ngẫu nhiên, 1 bộ lọc thể hiện sự tám xạ âm qua muộng và mũi

Dic tinh tan x9

Đặc tính tán xạ dược mô tả bằng bộ lọc thông cao, diễn lâ sự tán xạ của âm

ra ngoài mũi hoặc miệng Trong tính toán thực tế, đặc tinh tân xạ được tích hợp vào

nguồn kích bằng cách công thêm đạo hàm bậc nhất của tín hiệu trước đó

Các tham số điều khiển

Mô hình tổng hợp formanL hoạt động đề tạo các tín hiệu Hếng mỏi khác nhau bang các tham số diều khiển, Các tham số điều khiển dược chia thành hai loại: các

Tham số toàn cục, thiết lập giá trị cho toàn phiên làm việc và các tham số thay đối

theo lừng khoảng thời gian ngắn, nhận các giá tị thay đổi theo mỗi khoảng cập

nhật, Mỗi tham số đều dược định nghĩa một khoảng giả trị (cực tiểu, cực đại) và mệt giá trị ngầm định khi khởi tạo

©_ Các tham số toÀn cục

Trang 31

trủm phế với tân số cắt khoảng 4500-4800 Hz cho giá trị 10000 Hz Do vậy,

nêu sr thay dối, cân sử dụng bộ lọc với tần số cắt thích hợp

b) Khoảng cách cập nhật (ký hiệu là tị) : số ms của sóng âm được tạo giữa các lằn cập nhật các biển tham số thay đổi theo thời gian (đoạn đủ ngắn để các thuộc tỉnh của tiếng nói được coi là tuyển tính, bất biến) Giả trị 5 ms có

thé phan ánh hau hết các thay đối nhanh chóng của các tham số tiếng nó, tuy

nhiên thực tế chỉ cần sử đụng giá trị 1Õ ms đã là đô

c) Sé lugng formant trong tuyến âm nỗi tiếp (ký hiệu là nŸ) : là số lượng,

formant tính từ F1 đên tôi đa F5 thực sự có trong âm nỗi tiép

Giá trị ngầm định là 5, ứng với tân số lấy mâu 10000 mau/giay và người nói

có chiều dài tuyến âm lá 17 em (nghĩa là khoảng cách trung bình giữa các

formant là 1000 Hz) Muôn mô hình tuyên âm có chiêu đài khác 17 cm hoặc

tần số lấy mẫu thay đối thì cần phải thay đổi “mí”

© Céde tham sé thay đẫi theo thời gian

Giải thuật tổng hợp của KlaU sử dụng một bộ gồm 40 then sé dé điều khiển tạo ra tiếng nói tổng hợp Mỗi bộ giá trị của các tham số được gọi là một frame, mdi bộ này sẽ điêu khiến để tạo ra một đoạn tín hiệu tiếng nói có độ dài theo sự thiết lập của tham số toàn cục “u' Trong bảng 1.3 là ký hiểu và ý

nghĩa của một số tham số

3: Minh họa một vài tham số trong hệ tỏng hop Klatt

SIT Tên - | Ýnghĩa ae Nn Lin al

1 AV | Bién 49 am héu thanh 0 0 80 đD

Trang 32

8 FB 2450| 1300 3500 Hz 9.14 3300 | 2500 4500 Hz

10 F5 Tần số Fornant thứ năm 3850| 3500 4900 Hz

11 T6 Tân sô Formard thứ sáu 4900| 4000 4999 Hz

12 FNZ | Tầnsế của đểmkhông âm mũi 250| 200 700 Hz

13° AN | Biên độ Formamlämmũi 0 0 80 cB

15 A2 Biên độ Forrnant thứ hai 0 0 80 B

16 Bl Bang thông Formant thứ nhật su] 40 500 Hz

17 B2 Băng thông Formant thứ bai 70| 40 500 Hz

18 B3 Băng thông Formant thử ba 1I0Ị 40 500 iz l9 B4 Bang thong Formant thử tư 250) 100 500 Hz

30 B5 Băng thông Formant thử năm 200 | 150 700 He

21 B6 Băng thông Formant thứ sảu 1000| 200 2000 Hz

23 GAIN | Khuéch dai chung 48 0 80 a

24 BNP | Băng thông của điểm cực âm mối loo] 50 500 Hz

25 BNZ | Băng thông của điểm không âm mũi 100| 50 500 Hz

26 AB Biên độ phân chuyển ling cho drm xát 0 0 80 dB

Trang 33

|30J Có bạ loại tổng hợp ghép nổi: tổng _ hợp chọn đơn vị, tổng hợp diphone (hai

nửa của hai âm vị liên nhau) và tổng hop theo miễn

Tổng hợp chon đơn vị sử dung CSDI tiếng nói lớn Trong quá Irình tạo cơ

cỡ đữ liệu, mỗi phát âm được thu âm sẽ được phân thánh các âm vị, âm tiết, hình vị,

từ, cụm và các câu riêng, Việc phân chia thành các đoạn có thế đùng một số các kỹ thuật như kỹ thuật phân cụm, chương trình nhận đạng, phân doan bing lay sử dụng,

công cụ xứ lý và gán nhần tổng nói trực quan Phương pháp nảy đòi hỏi cơ sơ dữ

liệu tiếng thu âm lớn và việc xử lý cơ sở đữ liệu này cũng khá công phụ

Tổng hợp điphone dùng CSDL Hếng nói nhỏ nhất chúa toàn bộ các điphone xuất hiện trong ngôn ngĩt Số lượng diphone phụ thuộc vào cách phiên âm của từng loại ngôn ngữ Chẳng bạn tiếng Tây Ban ra là 800 diphone, tiếng Đức khoảng

2500 diphane, méi diphane là duy nhất trong cơ sở đữ liệu Chất hượng tiếng nói

Trang 34

thực hiện điền này, cách hiệu quả nhất là hm trữ trục tiếp trong kho dữ liệu từng,

đoạn âm thanh tiếng nổi, không phải hệ thông quy luật mô tả các đơm vị âm hay quy

luật của các tham số để tạo ra đơn vị âm

Trong ba phương pháp niêu trên, tổng hợp theo cau âm, tông hợp formanl theo quy luật và tổng hợp xích chuỗi thi tổng hợp xich chuối mang nhiều tỉnh công

nghệ, được quyết định bởi sự phát triển của máy tính Sa sánh về chất lượng trong,

ta phương pháp, thì tổng hợp xích chuối hiện nay đã thành công nhất trong việc tạo

ra tiếng nói không chỉ nghe hiểu rõ mà đạt được độ tự nhiên gần với tiếng nói của cơn người hơn cã Thân lớn các hệ thống tang hợp chat hrong cao cho các ngôn ngữ

cỏ trên thị trưởng hiện nay đều sử dụng phương pháp tổng hợp xich chuối nảy

Khi xây đựng một hệ thống tổng hợp xích chuỗi, tiếng nói chứa tập hợp các

đơn vị âm thanh cơ bản của mội ngôn ngữ, thông thường tương ứng với một chuối

Trang 35

ngần các âm vị có lựa chọn được dọc, ghỉ âm và lưu giữ trong CSDI Các dơn

vị âm được lựa chọn, phân tích các tham số đặc trưng và sau đó cò thể được mã hoá bằng một phương pháp tuã hoá tiếng nói nảo đô tạo thành các mẫu cho một đơn vị

âm thanh Các mẫu hoặc các tham sỏ phản tích của chúng được lưu giữ lại trong,

kho đữ liện đơm vị tổng hợp

Khi tổng hợp một phát ngôn mới, cho trước mô tã ngũ âm của phái ngồn đó,

hệ thông sử dụng các quy luật để định vị đơn vị thích hợp, truy xuất chúng ra khỏi

kho dữ liệu và xích chuỗi chúng lại với nhau

Thông thường, một hệ thông tổng hợp xích chuỗi có ít nhất là một hoặc hai mẫu cho mỗi một đơn vị cơ bản Do các tham số về cao dé tan số cơ bân, độ đài và cường độ của các đơn vị này rất khác nhau (chúng được trích ra từ tín hiệu tiếng niôi

trong ngĩt cảnh khác nhau) nên khi tống hợp, hệ thông theo phương pháp tổng hop xich chuỗi phải thục hiện hai công việc chính

- Một là phải thay đổi các tham số siêu đoạn tính của các đơn vị để tiếng nói tổng hợp thể hiện được ngữ điệu thích hợp như mong miền

- Hai là phải thực hiện việc lựa chọn hay thay đổi các đặc tính của âm đoạn đơn vị tại các biên ghép nối của chúng sao cho việc ghớp núi là mịn nhất để đâm bảo chất lượng âm thanh tổng hợp tạo ra gẫn với tiếng nỏi tự nhiên

Giả sử có bai âm đoạn được xích chuỗi là I.(eR) và R(righU Chúng ta xem

xét tập hợp P của cáo than số {P,,P› , Pq}, các giá trị ”/ là ở điểm cuối cùng của

doạn L và PỆ lá ở điểm dầu tiên của doạn R Lâm tron được thực hiện tuyển tỉnh là phân bé đều khoảng cách (P-P) cho số Mụ vector {PLỚU, Pr! PuhY của đoạn L

va My vector (Pr", Pạ', DĐ Với P' là tham số sau khi làm trơn thi nội suy dược bằng công thức tính như sau

Trang 36

Như vậy chất lượng của mội he Tổng hợp xích chuối dược quyết định bồi

các yêu tổ sau:

* Sự lựa chọn tập âm đơn vị cơ bản Trong đỏ ngữ am cúa ngôn ngữ tổng hợp

là yếu tố chính quyết định loại đơn vị cơ bản

œ Chảt lượng âm thanh và mức độ bao phú các tổ hợp âm doạn cần thiết cho

một ngôn ngữ của CSDL âm

+ Khả năng cưng cấp các tham số về ngữ điệu như đường nét tần sé co bin cường độ âm thanh và độ đải các âm cho bộ tổng hợp Các fham số nảy được

tiên đoán trong phản xứ lý ngôn ngữ của bộ tông hợp từ văn bán

+ Khả năng thay đôi tần số cơ bán FÓ và độ đài các đơn vị âm cơ bán phủ hợp

với ngĩ điệu được miêu tả ở đầu vào của bộ tổng hợp mả không ảnh hưởng

tới chất lượng cầm thụ của âm đó

® Thuật toán xích chuối và mô hình tín hiệu cho phép dễ dàng làm trơn hai

điểm ghép nồi của các âm đoạn được xích chuỗi

Chính vi hai yếu tó sau nên một số hệ thống tổng hợp xích chuỗi thực hiện

mã hoá tham số tiếng nói Với cách thể hiện bằng các tham số, đặc trưng phô và

ngữ điệu của tiếng nói được thay đối dễ dàng hơn mà không thay đối đặc tính nhận

dạng âm don vi co ban Phương pháp mã hoà tham số đặc trưng nhất là mã hoả tiên đoán tuyến tính LPC cũng như các biến thể của chúng

1.5.5 Đánh giá các phương pháp tổng hợp tiếng nói

Trong phương pháp tổng hợp cấu âm thi việc thu thập dữ liệu và cải đặt tập luật theo dữ liệu chuẩn rất phức tạp Nó hấu như không thể mỗ hình hỏa được đa số

sụ cử động của hrời hoặc đặc trưng khác của hệ thông phát âm một cách đây đủ Do

vậy, phương pháp nảy cực kỷ phúc tạp

Trong phương pháp tổng hợp Formamt, tập luật điều khiển các tần số

formant, biên độ và các đặc trưng nguân kích thích là lớn Hạn chế của phương pháp nảy là giọng nói nghe không rõ, máy móc, không tự nhiên đặc biệt với các âm

mũi ITem nữa, vì là tổng hợp theo luật nên không thế có được tập hật đây đủ bao

là khả

tiết được mọi giọng nói Ưu điểm nỗi bột của phương pháp way năng thay đối

Trang 37

giọng người nói chỉ bằng việc điều khiển các tham số Một số hệ thong tang hop

sử đụng phương pháp tổng hp farmant như hệ tổng hop Klatt, Mutivex, DECtalk

Trong luận văn chủ yếu quan tâm vào cải tiến cho tổng hợp ghép nồi nên đặc tiệt chủ ý những nhược điểm của phương pháp này Tổng hợp ghép nổi được sử dụng phố biến nhật do tiếng nỏi tư nhiên hơn Tuy nhiên, nó cũng có raột số nhược

in CSDL tiếng mỏi lớn (chủ phí về thu âm và phân tích cơ sở

n âm thanh đã phân doan

thì kết quả thường không thôa mãn vì sụ gián đoạn ở biên cũ

điểm chỉnh sau dây:

dữ liệu tiếng nói rất tốn kém), khi ghép nối các thành pÌ

Sự không liên tục của năng lượng sinh ra âm lượng khác nhau của tiểng nói

Sự thay dỗi lớn thường tổn tại theo thời gian Hình 1.10 và hình 1.11 biểu

diễn sự gián đoạn của năng hượng trong miễn thời gian.

Trang 38

39

Hình 1.11; Giản doạn năng lượng,

Khã năng của tống hợp ghép nói sinh tiêng nói chất lượng cao còn phụ thuộc vào chất lượng doạn tiếng nói long co sở dữ liệu Cáo đoạn tiếng nói thể hiện một

số tính chất cơ bán:

5 _ Cho phép tính toán những ánh hướng của các phát âm khác,

» Dé kétndi, han chế việc làm trơn trong ghép nói,

œ Không mắt thông tin, CSDI, không lớn,

© Pon vi tiéng noi dai giãm mật độ kết nối, khi đó chất lượng tiếng nói tốt

hơn.

Trang 39

Việc đúng đơn vị dài bơn làm giảm lỗi ghép nổi dẫn đến CSDL lớn

hom trong khi ứng dựng yêu cầu giảm bộ nhé Vì vậy cân phải cân bằng giữa hai

yêu tổ Bảng 1.4 dưới đây đônh giá việc chọn lựa các đơn vị âm cơ bản cho Hỗng Anh Dây cũng là một cơ sở trong việc lựa chọn phương pháp tổng hợp

Bảng 1.4: Đảnh giá sự lựa chon đơn vị cơ bản trong hệ tông hợp tiếng Anh

lượng

Tử 3000008 La don vi co ban cau | Va diem: _

(60000) tạo nên câu «_ Tiểng nói chất lượng cao

» Thuật oán tổng hợp ghép nổi dơn

(4400 âm+âmcuỗi « - Khó xác dịnh biên âm tiết

Bán ảm|4500 Các âm tiết chia thành | Ưu điểm: —_

tiết (2000) hai phân phần « - Đảm báo sự chuyển tiếp giữa các âm

vi

= Lugt Hire Iron don gin

® _ Sĩnh Hễng nói tự hiên

Diphone |1500 Hai nửa của hai âm vị | Ưu điểm: SỐ

(1200) liễnnhau * _ Dám báo sự chuyển tiếp giữa cáo âm

vi

« Luậtlâm trơn đơn giản

«_ §inh trồng nói tự nhiễn

Ảmv |37 Dơn vị cơ bản của hệ | Ưu điểm:

thông âm vị học « Cần bô nhỏ nhỏ

Trang 40

Trong chương 4 sẽ tập trung giải quyết các nhược điểm của tổng hợp ghép nổi, cụ thể trang phan mém VnVoice 1.0

Ngày đăng: 21/05/2025, 19:21

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
1. Vũ Kim Bảng, Triệu Thị Thu Huong, Bai Dang Binh (2001), ln ing Viet kha năng hình thành và thực tẾ ứng đụng, Toàn văn Bảo cáo Khoa hạc, Hội nghị kỳ niệm 25 năm thành lập Viện Công nghệ 'T hông tín, tr 525-533 Sách, tạp chí
Tiêu đề: ln ing Viet kha năng hình thành và thực tẾ ứng đụng
Tác giả: Vũ Kim Bảng, Triệu Thị Thu Huong, Bai Dang Binh
Năm: 2001
2. Ngõ Hoàng Huy, Nguyễn Thị Thanh Mai, Bửi Quang Trung (2002), “Chuẩn hóa và phân tích tiếng Việt cho tổng hợp tẳng Viet", KS you Hoi thảo quốc gia về công nghệthông tin, Nha Trang Sách, tạp chí
Tiêu đề: Chuẩn hóa và phân tích tiếng Việt cho tổng hợp tẳng Viet
Tác giả: Ngõ Hoàng Huy, Nguyễn Thị Thanh Mai, Bửi Quang Trung
Năm: 2002
3. Ngõ Hoàng Huy, Nguyễn Thị Thanh Mai, Quản Thái Hà, Nguyễn Huy Hoàng, Vũ Kim Tiâng, Vũ Thị Hài Hà (2005), “Sử đụng mô hình Fujisaki và mang Neuron trong nhândạng và tổng hợp thanh điệu tiễng Liệt”, Kỷ yêu hội thảo khoa học quốc gia lần thứ 2 vàTNghiễn cứu cơ bản và ứng đụng Công nghệ thông tin, Hỗ Chí Minh, Xhả xuất bản Khoa học và Kỹ thuật, trang 228-238 Sách, tạp chí
Tiêu đề: Kỷ yêu hội thảo khoa học quốc gia lần thứ 2 và Nghiên cứu cơ bản và ứng đụng Công nghệ thông tin
Tác giả: Ngõ Hoàng Huy, Nguyễn Thị Thanh Mai, Quản Thái Hà, Nguyễn Huy Hoàng, Vũ Kim Tiâng, Vũ Thị Hài Hà
Nhà XB: Học viện Khoa học và Kỹ thuật
Năm: 2005
4. Nguyễn Thị Thanh Mai, Ngõ Hoàng Huy (2006), “Phẩn lớp các đường thanh điện trong ngĩt cảnh câu ", Kỷ yêu Tiệi thảo quốc gia về công nghệ thing lin, Ba Tat Sách, tạp chí
Tiêu đề: Kỷ yêu Tiệi thảo quốc gia về công nghệ thing lin
Tác giả: Nguyễn Thị Thanh Mai, Ngõ Hoàng Huy
Năm: 2006
7. Doàn Thiên Thuật (1999), Ngữ âm nắng liệt, Nhà xuất bản đại học Quốc Gia Hà NộiTiếng Anh Sách, tạp chí
Tiêu đề: Ngữ âm nắng liệt
Tác giả: Doàn Thiên Thuật
Nhà XB: Nhà xuất bản đại học Quốc Gia Hà Nội
Năm: 1999
8. Breiman, L., Friedman, LH, Olshen, R.A., Stone, C.J. (1984), “Classification and "Warkworth Stalistics/Probability Series, Belmont, CA Sách, tạp chí
Tiêu đề: Classification and Warkworth Stalistics/Probability Series
Tác giả: Breiman, L., Friedman, LH, Olshen, R.A., Stone, C.J
Nhà XB: Warkworth Stalistics/Probability Series, Belmont, CA
Năm: 1984
9. ©. Wang, H. Fujisaki, 8. Ohmo, T. Kodama (1999), “vinalysis and synthesis of the four Jones in connected speech of the standard Chinese based on @ command-response model”, Enrospeech’99, pp 1655-1658. Budapest, Sep Sách, tạp chí
Tiêu đề: Enrospeech’99
Tác giả: Wang, H., Fujisaki, H., Ohmo, T., Kodama
Năm: 1999

HÌNH ẢNH LIÊN QUAN

Hình  1.1:  Cụm  từ  "âm  tiết  tiếng  Việt  ”  thể  hiện  trên  sóng  âm.  Mỗi  âm  tiết  có - Luận văn nghiên cứu một số phương pháp nâng cao chất lượng tổng hợp tiếng việt và thử nghiệm cho phần mềm vnvoice
nh 1.1: Cụm từ "âm tiết tiếng Việt ” thể hiện trên sóng âm. Mỗi âm tiết có (Trang 12)
Hình  L8:  Sơ  dễ  khối  bộ  tổng  hợp  eda  Klatt - Luận văn nghiên cứu một số phương pháp nâng cao chất lượng tổng hợp tiếng việt và thử nghiệm cho phần mềm vnvoice
nh L8: Sơ dễ khối bộ tổng hợp eda Klatt (Trang 27)
Hình  1.11;  Giản  doạn  năng  lượng, - Luận văn nghiên cứu một số phương pháp nâng cao chất lượng tổng hợp tiếng việt và thử nghiệm cho phần mềm vnvoice
nh 1.11; Giản doạn năng lượng, (Trang 38)
Hỡnh  vi  ô  ẽ - Luận văn nghiên cứu một số phương pháp nâng cao chất lượng tổng hợp tiếng việt và thử nghiệm cho phần mềm vnvoice
nh vi ô ẽ (Trang 44)
Hình  3.3:  Đường  nét  của  thánh  phần  trọng  âm  Gp(f)  với  các  cường  dộ  Ap  =  0.6,  0.45,  0.3 - Luận văn nghiên cứu một số phương pháp nâng cao chất lượng tổng hợp tiếng việt và thử nghiệm cho phần mềm vnvoice
nh 3.3: Đường nét của thánh phần trọng âm Gp(f) với các cường dộ Ap = 0.6, 0.45, 0.3 (Trang 61)
Hình  3.4:  Đường  nét  của  thành  phần  trọng  âm  Ga()  trong  cáo  khoảng  thời  sian  100,  200,  250ms  va  Aa  =  1.0  va  /ỉ=20/ - Luận văn nghiên cứu một số phương pháp nâng cao chất lượng tổng hợp tiếng việt và thử nghiệm cho phần mềm vnvoice
nh 3.4: Đường nét của thành phần trọng âm Ga() trong cáo khoảng thời sian 100, 200, 250ms va Aa = 1.0 va /ỉ=20/ (Trang 62)
Hình  3.6:  Cách  phân  tích  cac  tham  sé  trong  mé  hinh  Tilt - Luận văn nghiên cứu một số phương pháp nâng cao chất lượng tổng hợp tiếng việt và thử nghiệm cho phần mềm vnvoice
nh 3.6: Cách phân tích cac tham sé trong mé hinh Tilt (Trang 64)
Hình  3.7:  Ví  dụ  về  lượng tử  hóa  véc  tơ  hai  chiều.  Dâu  *  gọi  lả  các - Luận văn nghiên cứu một số phương pháp nâng cao chất lượng tổng hợp tiếng việt và thử nghiệm cho phần mềm vnvoice
nh 3.7: Ví dụ về lượng tử hóa véc tơ hai chiều. Dâu * gọi lả các (Trang 66)
Hình  3.8:  Đường  nét  tần  số  cơ  bản  các  thanh  điệu  tiếng,  Việt  dạng  cô  lập - Luận văn nghiên cứu một số phương pháp nâng cao chất lượng tổng hợp tiếng việt và thử nghiệm cho phần mềm vnvoice
nh 3.8: Đường nét tần số cơ bản các thanh điệu tiếng, Việt dạng cô lập (Trang 68)
Hình  3.9:  Sơ  đồ  khối  chung  của  quá  trình  huân  luyện  và  phân  lớp  các  đường - Luận văn nghiên cứu một số phương pháp nâng cao chất lượng tổng hợp tiếng việt và thử nghiệm cho phần mềm vnvoice
nh 3.9: Sơ đồ khối chung của quá trình huân luyện và phân lớp các đường (Trang 69)
Hình  4.1:  Câu  “Tôi  đang  học  nói  tiếng  Việt”  trong  phần  mém  VnSpeech  1.0. - Luận văn nghiên cứu một số phương pháp nâng cao chất lượng tổng hợp tiếng việt và thử nghiệm cho phần mềm vnvoice
nh 4.1: Câu “Tôi đang học nói tiếng Việt” trong phần mém VnSpeech 1.0 (Trang 72)
Hình  4.3:  Minh  họa  lỗi  ghép  nỏi  phụ  âm  “e”  và  phan  van  “ut”  trong  am  tiét - Luận văn nghiên cứu một số phương pháp nâng cao chất lượng tổng hợp tiếng việt và thử nghiệm cho phần mềm vnvoice
nh 4.3: Minh họa lỗi ghép nỏi phụ âm “e” và phan van “ut” trong am tiét (Trang 73)
Hình  4.5;  Biéu  d6  song  và  phỏ  của  từ  "Nhanh  nhâu”  sau  khi  tổng  hợp. - Luận văn nghiên cứu một số phương pháp nâng cao chất lượng tổng hợp tiếng việt và thử nghiệm cho phần mềm vnvoice
nh 4.5; Biéu d6 song và phỏ của từ "Nhanh nhâu” sau khi tổng hợp (Trang 74)
Hình  4.6:  Đường  FO  trong  câu  tổng  hợp  ”chỉ  biết  mình  là  con  riêng” - Luận văn nghiên cứu một số phương pháp nâng cao chất lượng tổng hợp tiếng việt và thử nghiệm cho phần mềm vnvoice
nh 4.6: Đường FO trong câu tổng hợp ”chỉ biết mình là con riêng” (Trang 75)
Hình  4.7:  Biểu  đồ  sóng  vả  phổ  của  cụm  từ  “kỷ  ức  tuổi”  sau  khi  hiệu  chỉnh - Luận văn nghiên cứu một số phương pháp nâng cao chất lượng tổng hợp tiếng việt và thử nghiệm cho phần mềm vnvoice
nh 4.7: Biểu đồ sóng vả phổ của cụm từ “kỷ ức tuổi” sau khi hiệu chỉnh (Trang 78)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w