1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận án Nghiên cứu đặc trung tín hiệu và ràng buộc ngôn điệu để nâng cao chất lượng tổng hợp và nhận dạng tiếng Việt

39 606 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 39
Dung lượng 1,33 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ Ngô Hoàng Huy NGHIÊN CỨU CÁC ĐẶC TRƯNG TÍN HIỆU VÀ RÀNG BUỘC NGÔN ĐIỆU ĐỂ NÂNG CAO CHẤT LƯỢNG TỔNG HỢP VÀ NHẬN DẠNG TIẾNG VIỆT Ch

Trang 1

VÀ CÔNG NGHỆ VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ

Ngô Hoàng Huy

NGHIÊN CỨU CÁC ĐẶC TRƯNG TÍN HIỆU VÀ RÀNG BUỘC NGÔN ĐIỆU ĐỂ NÂNG CAO CHẤT LƯỢNG TỔNG HỢP

VÀ NHẬN DẠNG TIẾNG VIỆT Chuyên ngành: Cơ sở Toán học cho Tin học

Mã số: 62 46 01 10

LUẬN ÁN TIẾN SĨ TOÁN HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC:

1 PGS.TS Lương Chi Mai

2 PGS.TS Ngô Quốc Tạo

Hà Nội – 2016

Trang 2

Công trình được hoàn thành tại:

Viện Hàn lâm Khoa Học và Công Nghệ Việt Nam

Học viện Khoa học và Công nghệ

Người hướng dẫn khoa học: PGS.TS Lương Chi Mai

PGS.TS Ngô Quốc Tạo

Có thể tìm hiểu luận án tại:

- Thư viện Quốc gia Việt Nam

- Thư viện Học viện Khoa học và Công nghệ, Viện Hàn lâm Khoa học và Công nghệ Việt Nam.

Trang 3

Phạm vi, nội dung, phương pháp nghiên cứu và kết cấu luận án

Cấu trúc tổng thể của luận án được chỉ ra trong Hình 1.2 và các chương còn lại của luận án được

tổ chức như sau:

Chương 1 Tổng quan về tổng hợp và nhận dạng tiếng nói

Chương 2 Xử lý tiếng nói và các mô hình học máy

Chương 3 Dự báo trường độ, âm lượng và tổng hợp thanh điệu tiếng việt

Chương 4 Kết hợp tham số cấu âm, formant và thanh điệu để nâng cao chất lượng nhận dạng tiếng Việt

Phụ lục

Trang 4

cấu âm, formant và thanh

điệu để nâng cao chất

lượng nhận dạng tiếng

Việt

Tổng hợp tiếng nói Nhận dạng tiếng nói Các công trình đã xuất bản

liên quan

Xử lý tiếng nói

Mô hình dự báo CART

Mô hình Markov ẩn (HMM, Hidden Markov

Model)

Khảo sát một số đặc tính

âm học tiếng Việt

Dự báo thông tin trường

độ, âm lượng của âm tiết tiếng Việt trong ngữ cảnh câu, thử nghiệm đánh giá trong hệ thống tổng hợp tiếng Việt theo phương pháp ghép nối

Nhận dạng thanh điệu tiếng Việt

Đặc trưng MFCC với phép chuẩn hóa độ dài cấu âm VTLN kết hợp với F0

Hệ thống nhận dạng tiếng

Việt nhúng

Trang 5

CHƯƠNG 1 TỔNG QUAN VỀ TỔNG HỢP VÀ NHẬN DẠNG TIẾNG NÓI

Chương này trình bày khái niệm tổng hợp và nhận dạng tiếng nói, khái quát về phạm vi ứng dụng của nhận dạng, tổng hợp tiếng nói trong cuộc sống Trong chương này, các phương pháp tiếp cận nhận dạng, tổng hợp tiếng nói hiện đại, so sánh những ưu, nhược điểm của từng phương pháp cũng được giới thiệu, từ đó đề xuất sử dụng các đặc trưng ngôn điệu để nâng cao chất lượng nhận dạng và tổng hợp tiếng Việt Phần tiếp theo của chương này, luận án đề cập đến những kiến thức cơ bản,liên quan đến xử lý tiếng nói, trích chọn đặc trưng và các mô hình học máy được sử dụng trong luận án gồm HMM và CART

1.1 Tổng hợp tiếng nói

Hình 1 1 Hệ thống TTS tổng quát

Nói chung quá trình Tổng hợp tiếng nói bao gồm các giai đoạn chính:

i) Chuẩn hóa văn bản và phân tích câu - xử lý ngôn ngữ tự nhiên

ii) Chuyển văn bản sang đơn vị tiếng nói

iii) Dự báo ngôn điệu

iv) Sinh tiếng nói

Câu tổng hợp chưa thay đổi trường độ/âm

lượng

“Tôi đang học nói tiếng Việt”

Thay đổi trường độ/âm lượng của câu

tổng hợp Hình 1 2 Xử lý ngôn điệu tiếng Việt

Trang 6

1.2 Nhận dạng tiếng nói

Độ phức tạp của hệ thống nhận dạng tiếng nói thường phụ thuộc vào các yếu tố cơ bản sau :

- Môi trường thu nhận tín

Hình 1.3 Liệt kê các kiểu hệ thống nhận dạng tiếng nói

Bảng 1 1 Các loại nhận dạng tiếng nói Chế độ nói : liên tục Từ vựng : vừa và nhỏ

Người nói : phụ thuộc và độc lập người nói Kiểu nói : tự nhiên và mệnh lệnh

Môi trường thu nhận tín hiệu

Độ chính xác nhận dạng trong các môi trương như : nhà ở-văn phòng; trong ô tô; trong môi trường công nghiệp; nguồn âm có khoảng cách với mic là rất khác nhau, nguyên nhân do tín hiệu nhiễu, tiếng vang gây ra

Bảng 1 2 Phân loại môi trường theo mức nhiễu

Sự phụ thuộc người nói

Trong hệ thống nhận dạng phụ thuộc người nói, chủ thể tương tác với hệ thống phải là người có dữ liệu tiếng nói trong tập dữ liệu huấn luyện ban đầu của hệ thống

Đối với hệ thống nhận dạng độc lập người nói, người tương tác với hệ thống có thể là bất

kỳ Hệ thống này đòi hỏi phải có một nguồn dữ liệu tiếng nói kích thước lớn của nhiều người nói Khả năng nhận dạng chính xác của hệ thống độc lập người nói thấp hơn hệ thống phụ thuộc người nói

Tài nguyên hệ thống

Tài nguyên hệ thống chủ yếu gồm năng lực tính toán và dung lượng bộ nhớ Các chip thường chỉ đủ đáp ứng yêu cầu tính toán chấm tĩnh, như vậy hệ thống nhận dạng nếu không được thiết kế tốt thì độ chính xác sẽ bị suy giảm hoặc không đáp ứng được yếu tố thời gian thực

CHƯƠNG 2 XỬ LÝ TIẾNG NÓI VÀ CÁC MÔ HÌNH HỌC MÁY

Trang 7

Chương này trình bày tổng quan về các thuật toán khử nhiễu, mô hình học máy HMM và

CART

2.1 Xử lý tiếng nói

Một số loại nhiễu trong môi trường thực :

- Nhiễu hướng (Directional noise) : nhiễu từ hướng như âm TV, giọng nói v.v…

- Nhiễu khuếch tán (Diffuse noise): nhiễu môi trường, nền v.v

- Vang (Reverberation) : nhiễu do trễ khi phản xạ tường, trần nhà v.v…

- Nhiễu thiết bị : quạt tản nhiệt, cơ cấu chấp hành, mang cả tính hướng và khuếch tán

Hình 2 1 Quá trình hình thành tiếng nói nhiễu

Huấn luyện HMM :

Đầu vào gồm T frame các đặc trưng MFCC

Bước 1: Xác định đãy trạng thái tối ưu bằng

thuật toán Viterbi:

1

1 ({ } ) arg max log ( , )

T T

1

1

( , { } ) arg max log ( , )

T T

Các hệ nhận dạng tiếng nói thường tách đặc trưng từ tín hiệu bằng cách:chia tín hiệu thành

các đoạn độ dài 5-15 ms, mỗi đoạn gọi là một khung (frame) Mỗi frame sẽ cho đặc trưng là một

vector và đặc trưng của toàn bộ tín hiệu sẽ là một dãy vector MFCC là phương pháp trích đặc

trưng (theo thang tần số mel, không phải theo Hz) dựa trên đặc điểm cảm thụ tần số âm của tai

người: tuyến tính đối với tần số nhỏ hơn 1kHz và phi tuyến đối với tần số trên 1kHz Việc tính

đặc trưng MFCC có sơ đồ như sau

Trang 8

Hình 2 2 Các băng lọc dạng tam giác

Kỹ thuật cộng chồng đồng bộ cao độ tần số cơ bản – PSOLA

PSOLA (Pitch Synchronous Overlap Add) là phương pháp tổng hợp dựa trên sự phân tích một tín hiệu thành một chuỗi các tín hiệu thành phần, được sử dụng để thay đổi giá trị đường F0

và trường độ trực tiếp trên dạng sóng tiếng nói

2.2 Mô hình dự báo CART

Các cây CART tự nó đã bao gồm các câu hỏi yes/no về các điểm đặc trưng và cuối cùng đưa ra một mật độ xác suât, khi dự đoán các giá trị xác thực (cây phân loại), hoặc một độ lệch tiêu chuẩn khi dự báo các giá trị liên tục (cây hồi quy) Các kỹ thuật tốt có thể được sử dụng để xây dựng một cây tối ưu từ tập dữ liệu huấn luyện Chương trình được phát triển liên kết với Festival, gọi là Wagon, cung cấp một phương thức cơ bản nhưng đủ mạnh cho việc xây dựng cây

2.3 Mô hình Markov ẩn (HMM, Hidden Markov Model)

Mô hình Markov ẩn được mở rộng khái niệm từ mô hình Markov bằng cách mỗi trạng thái được gắn với một hàm phát xạ quan sát (observation distribution) Ngoài quá trình ngẫu nhiên chuyển giữa các trạng thái, tại mỗi trạng thái còn có một quá trình ngẫu nhiên sinh ra một quan sát Như vậy trong Mô hình Markov ẩn có một quá trình ngẫu nhiên kép, trong đó có một quá

trình ngẫu nhiên không quan sát được Tập các quan sát O được sinh ra bởi dãy các trạng thái S 1 ,

S 2 , , S N của mô hình, mà dãy các trạng thái này là không thấy được, đó chính là lý do mô hình được gọi là mô hình Markov ẩn (hidden)

Mô hình HMM là một máy trạng thái sinh ra dãy quan sát thời gian rời rạc Tại mỗi đơn vị thời gian (frame), sự thay đổi trạng thái HMM theo xác suất chuyển trạng thái, sau đó sinh ra dãy quan sát Ot tại thời điểm t theo phân bố xác suất đầu ra của trạng thái hiện tại

Một HMM N trạng thái định nghĩa bởi phân bố xác suất chuyển trạng tháiA{a ij}N,j1, phân bố xác suất output B{b j(o)}N j1, phân bố xác suất trạng thái khởi

Nhận dạng tiếng nói với mô hình Markov ẩn

Các hệ thống nhận dạng dựa trên HMM thường sử dụng đặc trưng chuẩn MFCC và quy

trình huấn luyện và nhận dạng theo thuật toán sau:

Trang 9

Bảng 2 1 Thuật toán nhận dạng tiếng nói dựa trên HMM với đặc trưng MFCC

Huấn luyện HMM :

Đầu vào gồm T frame các đặc trưng MFCC

Bước 1: Xác định dãy trạng thái tối ưu bằng

thuật toán Viterbi:

1

1 ({ } ) arg max log ( , )

T T

1

1

( , { } ) arg max log ( , )

T T

CHƯƠNG 3 DỰ BÁO TRƯỜNG ĐỘ, ÂM LƯỢNG VÀ TỔNG HỢP

THANH ĐIỆU TIẾNG VIỆT

Trang 10

Vấn đề tổng hợp tiếng Việt giọng tự nhiên hiện nay vẫn là một vấn đề phức tạp do tiếng nói tự nhiên hàm chứa rất nhiều hiện tượng ngôn điệu như trường độ, âm lượng và thanh điệu Chuyên đề này trình bày các đặc trưng tiếng nói phù hợp với đặc thù ngôn ngữ tiếng Việt, các đặc trưng ngữ âm như thanh điệu, trường độ và formant để đạt được hiệu quả nâng cao chất lượng Tổng hợp và nhận dạng tiếng Việt như:

 Nghiên cứu về các phương pháp tổng hợp và nhận dạng tiếng nói và cách trích chọn các đặc trưng của đối tượng cần nhận dạng

 Nghiên cứu về các mô hình ngôn điệu, phân tích đặc trưng tiếng Việt

 Nghiên cứu các luật ngôn điệu, đặc trưng tín hiệu để nâng cao chất lượng tổng hợp và nhận dạng tiếng Việt

Hình 3 1 Sơ đồ của một hệ thống tổng hợp tiếng nói ghép nối

Quy luật biến đổi thanh điệu trong ngữ cảnh

Bảng 3 1 Trường độ nguyên âm trong kết hợp với thanh điệu CTV nam

Trang 11

Biểu đồ 3.2: Trường độ nguyên âm kết hợp với thanh điệu CTV nữ

Trường độ nguyên âm kết hợp với thanh điệu

0 50 100 150 200 250 300 350 400

Bảng 3 2 Trường độ nguyên âm trong kết hợp với thanh điệu CTV nữ

Trang 12

[u] 380 371 289 280 274 187

Quy luật biến đổi formant của nguyên âm trong ngữ cảnh

Bảng 3 3 Vùng tần số formant trung bình của các nguyên âm kết hợp với thanh điệu

Cách điệu hóa đường F0 của âm tiết tiếng Việt

Trong [10][11] các tác giả đã sử dụng phương pháp bình phương tối thiểu để cách điệu hóa tuyến tính đường F0 của các thanh điệu tiếng Việt trong ngữ lưu Các tác giả đã đi đến kết luận

là rất khó để cách điệu hóa tuyến tính đường F0 của một số thanh điệu tiếng Việt như thanh nặng

và thanh ngã

Tuy nhiên chúng tôi vẫn tổng hợp được các thanh nặng (cho âm tiết không tận cùng bằng c/ch) và thanh ngã từ các âm tiết mang thanh điệu – thanh ngang (thanh không dấu) Với các âm

Trang 13

p-t-tiết tiếng Việt tận cùng bằng p-t-c/ch thì thanh sắc được tổng hợp từ cùng âm p-t-tiết gốc nhưng có thanh điệu nặng

Hình 3 2 Thanh không dấu (âm a)

Hình 3 3 Thanh huyền được cách điệu từ từ một dãy các giá trị F0 đo được

204,208,201,200,196,196,192,192,189,185,182,179,179,170,170.

Hình 3 4 Thanh sắc được cách điệu từ một dãy các giá trị F0 đo được

222,222,209,209,209,209,209,213,213,218,218,228,238,238,256,270,295,346.

Trang 14

Hình 3 5 Thanh nặng được cách điệu từ các giá trị F0 đo được

Mô hình Xu để mô hình hóa đường tần số cơ bản F0 của các thanh điệu trong ngữ cảnh (dùng cho các ngôn ngữ có thanh), mô hình này đã áp dụng được cho tiếng Mandarin

Trang 15

Việc tính các hệ số của mô hình Xu khi cho trước giá trị đường F0 cũng sử dụng phương pháp bình phương tối thiểu, thay vì tìm các hệ số a,b,, ta xác định các hệ số a,b, k (k=e-) bằng

F  là giá trị đường F0 của đoạn tiếng nói

Phương pháp cách điệu hóa sử dụng mô hình của Xu được xây dựng như sau :

Bước 1 : Chọn âm tiết gốc có thanh điệu – thanh ngang, thanh nặng cho các âm tiết tận cùng

p-t-c/ch, xác định giá trị đường F0 của âm tiết

Bước 2 : Biên tập giá trị đường F0 của thanh điệu cần tổng hợp Sử dụng mô hình Xu để khớp

các tham số a,b,k (các thanh không dấu, huyền, sắc, nặng có một bộ tham số a,b,k, các thanh hỏi

và ngã có 2 bộ tham số a,b, k Thanh sắc của âm tận cùng p-t-c/ch cũng có một tham số a,b,k)

Bước 3 : Sử dụng thuật toán PSOLA tổng hợp âm tiết với thanh điệu xác định từ âm tiết gốc

(nếu âm tiết gốc không tận cùng là p-t-c/ch thì âm tiết gốc mang thanh điệu –thanh ngang, trường hợp ngược lại thì âm tiết gốc mang thanh điệu là thanh nặng.)

Hình 3 7 Biên tập đường F0 của dấu ngã và tổng hợp dấu ngã

Các kết quả tổng hợp thanh điệu cho tất cả các loại âm tiết tiếng Việt như

 Chỉ có nguyên âm

 Không có phụ âm đầu

 Kết thúc là bán nguyên âm

 Kết thúc là p-t-c/ch

Trang 16

đã được thực hiện và kiểm tra với sự cộng tác của các nhà nghiên cứu ngữ âm học như Vũ Kim Bảng, Vũ Thị Hải Hà Viện ngôn ngữ, Viện Hàn lâm KHXH Việt Nam đều đưa đến kết luận là âm nghe rõ, không bị hiện tượng rè, thanh điệu tổng hợp nghe rõ ràng, giữ được đường nét đặc trưng thanh điệu tương ứng

Tổng hợp thanh điệu tiếng Việt trong ngữ lưu

Trong [42] chúng tôi đã trình bày kết quả tổng hợp ðýờng thanh ðiệu trong ngữ lýu bằng mô hình Fujisaki theo hướng tiếp cận phân tích – tổng hợp

Để phân tích đường nét F0, một công cụ phân tích các tham số của mô hình Fujisaki được

sử dụng Fb được đặt bằng 96 Hz cho giọng nam và 210 Hz cho giọng nữ α và β cho cả giọng nam và nữ được lần lượt đặt bằng 2 Hz và 25 Hz

Các bước tiến hành phân tích bao gồm:

 Tính đường nét F0

 Lựa các chọn lệnh ngữ câu nói

 Dựa vào thanh điệu của các âm tiết để lựa chọn các lệnh thanh điệu phù hợp

 Điều chỉnh các tham số sao cho đường nét F0 sinh ra xấp xỉ tốt đường nét F0 thực

 Tổng hợp lại câu nói với đường nét thanh điệu mới sử dụng phương pháp PSOLA

 Cảm nhận bằng tai câu nói tổng hợp, so sánh với câu nói gốc và điều chỉnh lại Các kết quả phân tích cơ sở dữ liệu cho thấy, các thanh ngang, sắc, ngã được biểu diễn bằng một lệnh thanh điệu dương, thanh huyền và hỏi được biểu diễn bằng một lệnh thanh điệu

âm, thanh nặng không cần lệnh thanh điệu

Bảng 3 5 Biểu diễn các 6 thanh điệu tiếng Việt bằng các lệnh thanh điệu

Thanh điệu Biểu diễn bằng lệnh thanh điệu

Ngang Một lệnh thanh điệu dương ở trước âm tiết

Các câu được phân tích chỉ sử dụng một lệnh ngữ cho cả câu, phù hợp với hiện tượng trong câu nói, người nói th ường lên giọng ở đầu câu và hạ giọng ở cuối câu Tuy nhiên trong tiếng Việt hiện tượng này không rõ rệt như ở các ngôn ngữ khác nên cường độ của lệnh ngữ này không lớn

Trang 17

Hình 3 8 Kết quả phân tích thanh điệu tiếng Việt bằng mô hình Fujisaki

Thanh ngã và thanh sắc được biểu diễn bằng môt lệnh ngữ điệu dương phù hợp với nhận xét về sự giống nhau giữa 2 thanh này trong phần trước

Thanh hỏi có đường nét F0 đi xuống, đến giữ a thanh, đường nét F0 lại đi lên, thanh này giống thanh T3 (low tone) của tiếng Trung và được biểu diễn bằng một lệnh thanh điệu âm giống như trường hợp của tiếng Trung

Bảng 3 6 Giá trị trung bình và độ lệch chuẩn của các tham số Fujisaki cho các thanh điệu

Phân lớp thanh điệu trong ngữ cảnh câu

Trong [4] chúng tôi đã trình bày cách phân lớp thanh điệu trong ngữ lưu Cách tiếp cận này dùng phương pháp lượng tử hóa các dạng đường thanh điệu để quy về một số lớp thanh điệu có đường nét đặc trưng cho mỗi lớp Sau khi lượng tử hóa dùng cây quyết định khảo sát sự chuyển lớp của các thanh điệu dựa trên thông tin văn bản Từ đó đưa ra những khảo sát hiện tượng biến thanh trong tiếng Việt nhằm cải tiến ngôn điệu trong hệ tổng hợp tiếng Việt

Số lượng các dạng đường thanh điệu trong câu liên tục tăng lên rất nhiều lần so với âm tiết rời rạc, để phân cụm các đường thanh điệu về một số lớp, dùng phương pháp lượng tử hóa tập các đường thanh điệu mẫu quy về một số lớp hữu hạn Số lớp này lớn hơn số các đường thanh

Trang 18

điệu tiếng Việt 6 thanh Trong luận án chỉ xét sự biến thiên đường thanh điệu trong 3 âm tiết liên tục

Hình 3 9 Sơ đồ khối chung của quá trình huấn luyện và phân lớp các đường thanh điệu sử dụng

Cơ sở dữ liệu tiếng nói huấn luyện mô hình dự báo

Cơ sở dữ liệu gồm hơn 1250 câu tiếng nói đọc bởi phát thanh viên chuyên nghiệp, giọng

Hà Nội, đã được sử dụng trong phần thực nghiệm này Tập câu được ghi âm với tần số lấy mẫu

là Fs=22050Hz, đơn kênh, độ phân giải một mẫu là 16bit

Để tăng độ chính xác của giá trị ngôn điệu được dự báo như trường độ và âm lượng của âm tiết trong câu tổng hợp, chúng tôi đã tiến hành phân tích các tham số thống kê chi tiết của các giá trị này trong các ngữ cảnh âm vị khác nhau của cơ sở dữ liệu câu huấn luyện như được tóm tắt ở các bảng dưới đây:

Bảng 3 7 Bảng độ dài âm vị không tính ngữ cảnh Tên âm vị Tần suất Độ dài min

(s)

Độ dài max (s)

Phân cụm LBG

Codeboo

k

Bộ lượng

tử hóa (lớp thanh điệu) Véc tơ F0 âm tiết vào codebook Chỉ số

Trang 19

am

Bảng 3 9 Bảng độ dài âm cuối ràng buộc bởi nguyên âm

Âm cuối Nguyên âm Tần suất Độ dài min Độ dài max Trung bình Độ lệch

Bảng 3 10 Bảng độ dài phụ âm đầu ràng buộc bởi nguyên âm

Phụ âm đầu Nguyên âm Tần suất Độ dài min Độ dài max Trung bình Độ lệch

Dự báo ngôn điệu

Trong kỹ thuật tổng hợp tiếng Việt, chất lượng tổng hợp tập trung chính vào trường độ và cao độ của âm vị, đó là hai tham số chính truyền đạt thông tin ngữ âm

Ngày đăng: 22/02/2016, 10:36

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
1. Đặng Ngọc Đức, Lương Chi Mai “Tăng cường độ chính xác của hệ thống mạng nơ ron nhận dạng tiếng Việt”, Tạp chí Bưu chính Viễn thông - Chuyên san các công trình nghiên cứu và triển khai Công nghệ thông tin và Viễn thông, 11, 75-81 Sách, tạp chí
Tiêu đề: Tăng cường độ chính xác của hệ thống mạng nơ ron nhận dạng tiếng Việt
18. Chistikov, P. G.; Korolkov, E. A. và Talanov “Combining HMM and unit selection technologies to increase naturalness of synthesized speech,” Proc. in 19th International Computational Linguistics Conference, Naro-Fominsk, Russia Sách, tạp chí
Tiêu đề: Combining HMM and unit selection technologies to increase naturalness of synthesized speech
22. Dung, T.N., Mixdorff, H. et al, “Fujisaki Model based F0 contours in Vietnamese TTS”, In Proceedings of ICSLP2004, Jeju, South Korea Sách, tạp chí
Tiêu đề: Fujisaki Model based F0 contours in Vietnamese TTS
23. Demiroglu, “A Small Footprint Hybrid Statistical and Unit Selection Text-to-Speech Synthesis System for Turkish,” Proc. in ICASSP,Kyoto, Japan, tr. 4537-4540 Sách, tạp chí
Tiêu đề: A Small Footprint Hybrid Statistical and Unit Selection Text-to-Speech Synthesis System for Turkish
24. Dusterhoff, K. and Black, “Generating F0 contours for speech synthesis using the Tilt intonation theory”, Proceedings of ESCA Workshop of Intonation, pp 107-110, September, Athens, Greece Sách, tạp chí
Tiêu đề: Generating F0 contours for speech synthesis using the Tilt intonation theory
27. Guner, E. và Demiroglu, C. (2012), “A Small Footprint Hybrid Statistical and Unit Selection Text-to-Speech Synthesis System for Turkish,” Proc. in ICASSP, Kyoto, Japan, tr. 4537-4540 Sách, tạp chí
Tiêu đề: A Small Footprint Hybrid Statistical and Unit Selection Text-to-Speech Synthesis System for Turkish
Tác giả: Guner, E. và Demiroglu, C
Năm: 2012
28. C. Hanilỗi and T. Kinnunen, “Source Cell-Phone Recognition from Recorded Speech Using Non-Speech Segments”, Digital Signal Processing (to appear) Source Cell-Phone Recognition from Recorded Speech Using Non-Speech Segments Sách, tạp chí
Tiêu đề: Source Cell-Phone Recognition from Recorded Speech Using Non-Speech Segments
30. Ngo Hoang Huy, Nguyen Thi Thanh Mai, Bui Quang Trung, "Vietnamese text normalize and processing". Proceedings of National IT Conference. Nha Trang June. , 2002 Sách, tạp chí
Tiêu đề: Vietnamese text normalize and processing
32. Ngo Hoang Huy, Nguyen Thi Thanh Mai, Bui Quang Trung, "Vietnamese text normalize and processing". Proceedings of National IT Conference. Nha Trang June. , 2002 Sách, tạp chí
Tiêu đề: Vietnamese text normalize and processing
34. Hunt, A.; Black,A. và Alan, “Unit selection in a concatenative speech synthesis system using a large speech database,” Proc. in ICASSP Vol.1, tr. 373-376. LNAI 4274, pp. 87 – 94, Springer-Verlag, Berlin Heidelberg 2006 Sách, tạp chí
Tiêu đề: Unit selection in a concatenative speech synthesis system using a large speech database
43. Hansjoerg Mixdorf, Nguyen Tien Dung, Lưong Chi Mai, Ngo Hoang Huy “Quantitative Analysis and Synthesis of Syllabic Tones in Vietnamese,” Proc. in EUROSPEECH, Geneva, tr 177-180 Sách, tạp chí
Tiêu đề: Quantitative Analysis and Synthesis of Syllabic Tones in Vietnamese
44. Hansiorg Mixdorff, Nguyen Tien Dung, Vu Trung Nghia, “Duration Modeling in a Vietnamese Text To Speech System”, Speech Communication, 2005 Sách, tạp chí
Tiêu đề: Duration Modeling in a Vietnamese Text To Speech System
47. Trung-Nghia PHUNG, Thanh-Son PHAN, Thang Tat VU, Mai Chi LUONG and Masato AKAGI (2013), “Improving the naturalness of HMM-based TTStrained with limited data data by Temporal decomposition,” IEICE TRANS. INF. & SYST., Japan, Vol.E96(11), tr. 2417-2426 Sách, tạp chí
Tiêu đề: Improving the naturalness of HMM-based TTStrained with limited data data by Temporal decomposition
Tác giả: Trung-Nghia PHUNG, Thanh-Son PHAN, Thang Tat VU, Mai Chi LUONG and Masato AKAGI
Năm: 2013
tract length estimation for speaker normalization in speech recognition, VI Jornadas en Tecnología del Habla and II Iberian SLTech Workshop, FALA 2010, Vigo, Spain, 2010 Sách, tạp chí
Tiêu đề: VI Jornadas en Tecnología del Habla and II Iberian SLTech Workshop
Năm: 2010
56. Silverman, K., Beckman, M., Pierrehumbert, J., Ostendorf, M., Wightman, C., Price, P. and Hirschberg, J., “ToBI: A Standard Scheme for Labeling Prosody”, in Proc. ICSLP 1992, 867-869 Sách, tạp chí
Tiêu đề: ToBI: A Standard Scheme for Labeling Prosody
59. Taylor, P., “Analysis and synthesis of intonation using the Tilt model”, J. Acoust. Soc. Am., 107: 1697-1714, 2000 Sách, tạp chí
Tiêu đề: Analysis and synthesis of intonation using the Tilt model
62. Vu Thang Tat; Luong, Mai Chi và Satoshi, Nakamura (2009), “An HMMbased Vietnamese Speech Synthesis System,” Proc. in Oriental COCOSDA, Urumqi, China, tr.116-121 Sách, tạp chí
Tiêu đề: An HMMbased Vietnamese Speech Synthesis System
Tác giả: Vu Thang Tat; Luong, Mai Chi và Satoshi, Nakamura
Năm: 2009
63. DO Van Thao, TRAN Do Dat, NGUYEN Thi Thu Trang “Nonuniformunit selection in Vietnamese Speech Synthesis,” Proceedings of the 2nd SoICT 2011, tr. 165-171 Sách, tạp chí
Tiêu đề: Nonuniformunit selection in Vietnamese Speech Synthesis
65. Nguyen Thi Thu Trang et al., “INTONATION ISSUES IN HMM-BASED SPEECH SYNTHESIS FOR VIETNAMESE,” SLTU-2014, St. Petersburg, Russia, 14-16 May 2014 Sách, tạp chí
Tiêu đề: INTONATION ISSUES IN HMM-BASED SPEECH SYNTHESIS FOR VIETNAMESE
71. Heiga Zen, Takashi Nose, Junichi Yamagishi, Shinji Sako, Takashi Masuko, AlanW. Black, Keiichi Tokuda. The HMM-basedSpeech Synthesis System (HTS) Version 2.0, 72. Puming Zhan and Alex Waibel, “Vocal tract length normalization for large vocabularycontinuous speech recognition”, Technical report, CMU-LTI-97-150, 1997 Sách, tạp chí
Tiêu đề: Vocal tract length normalization for large vocabulary continuous speech recognition”", Technical report

HÌNH ẢNH LIÊN QUAN

Hình 2. 1.  Quá trình hình thành tiếng nói nhiễu - Luận án Nghiên cứu đặc trung tín hiệu và ràng buộc ngôn điệu để nâng cao chất lượng tổng hợp và nhận dạng tiếng Việt
Hình 2. 1. Quá trình hình thành tiếng nói nhiễu (Trang 7)
Bảng 2. 1. Thuật toán nhận dạng tiếng nói dựa trên HMM với đặc trưng MFCC. - Luận án Nghiên cứu đặc trung tín hiệu và ràng buộc ngôn điệu để nâng cao chất lượng tổng hợp và nhận dạng tiếng Việt
Bảng 2. 1. Thuật toán nhận dạng tiếng nói dựa trên HMM với đặc trưng MFCC (Trang 9)
Hình 3. 1. Sơ đồ của một hệ thống tổng hợp tiếng nói ghép nối. - Luận án Nghiên cứu đặc trung tín hiệu và ràng buộc ngôn điệu để nâng cao chất lượng tổng hợp và nhận dạng tiếng Việt
Hình 3. 1. Sơ đồ của một hệ thống tổng hợp tiếng nói ghép nối (Trang 10)
Bảng 3. 2.  Trường độ nguyên âm trong kết hợp với thanh điệu CTV nữ - Luận án Nghiên cứu đặc trung tín hiệu và ràng buộc ngôn điệu để nâng cao chất lượng tổng hợp và nhận dạng tiếng Việt
Bảng 3. 2. Trường độ nguyên âm trong kết hợp với thanh điệu CTV nữ (Trang 11)
Hình 3. 4. Thanh sắc được cách điệu từ một dãy các giá trị F0 đo được - Luận án Nghiên cứu đặc trung tín hiệu và ràng buộc ngôn điệu để nâng cao chất lượng tổng hợp và nhận dạng tiếng Việt
Hình 3. 4. Thanh sắc được cách điệu từ một dãy các giá trị F0 đo được (Trang 13)
Hình 3. 3. Thanh huyền được cách điệu từ từ một dãy các giá trị F0 đo được - Luận án Nghiên cứu đặc trung tín hiệu và ràng buộc ngôn điệu để nâng cao chất lượng tổng hợp và nhận dạng tiếng Việt
Hình 3. 3. Thanh huyền được cách điệu từ từ một dãy các giá trị F0 đo được (Trang 13)
Hình 3. 7. Biên tập đường F0 của dấu ngã và tổng hợp dấu ngã. - Luận án Nghiên cứu đặc trung tín hiệu và ràng buộc ngôn điệu để nâng cao chất lượng tổng hợp và nhận dạng tiếng Việt
Hình 3. 7. Biên tập đường F0 của dấu ngã và tổng hợp dấu ngã (Trang 15)
Hình 3. 9. Sơ đồ khối chung của quá trình huấn luyện và phân lớp các đường thanh điệu sử dụng - Luận án Nghiên cứu đặc trung tín hiệu và ràng buộc ngôn điệu để nâng cao chất lượng tổng hợp và nhận dạng tiếng Việt
Hình 3. 9. Sơ đồ khối chung của quá trình huấn luyện và phân lớp các đường thanh điệu sử dụng (Trang 18)
Bảng 3. 7. Bảng độ dài âm vị không tính ngữ cảnh - Luận án Nghiên cứu đặc trung tín hiệu và ràng buộc ngôn điệu để nâng cao chất lượng tổng hợp và nhận dạng tiếng Việt
Bảng 3. 7. Bảng độ dài âm vị không tính ngữ cảnh (Trang 18)
Bảng 3. 8. Độ dài nguyên âm a ràng buộc bởi phụ âm đầu, âm cuối - Luận án Nghiên cứu đặc trung tín hiệu và ràng buộc ngôn điệu để nâng cao chất lượng tổng hợp và nhận dạng tiếng Việt
Bảng 3. 8. Độ dài nguyên âm a ràng buộc bởi phụ âm đầu, âm cuối (Trang 18)
Bảng 3. 9. Bảng độ dài âm cuối ràng buộc bởi nguyên âm - Luận án Nghiên cứu đặc trung tín hiệu và ràng buộc ngôn điệu để nâng cao chất lượng tổng hợp và nhận dạng tiếng Việt
Bảng 3. 9. Bảng độ dài âm cuối ràng buộc bởi nguyên âm (Trang 19)
Bảng 3. 10.  Bảng độ dài phụ âm đầu ràng buộc bởi nguyên âm - Luận án Nghiên cứu đặc trung tín hiệu và ràng buộc ngôn điệu để nâng cao chất lượng tổng hợp và nhận dạng tiếng Việt
Bảng 3. 10. Bảng độ dài phụ âm đầu ràng buộc bởi nguyên âm (Trang 19)
Hình 3.11. Câu “Lũ trẻ bắt được cà ra đem bán lấy tiền mua sách.” trong CSDL ngữ - Luận án Nghiên cứu đặc trung tín hiệu và ràng buộc ngôn điệu để nâng cao chất lượng tổng hợp và nhận dạng tiếng Việt
Hình 3.11. Câu “Lũ trẻ bắt được cà ra đem bán lấy tiền mua sách.” trong CSDL ngữ (Trang 21)
Hình 3.12 : Hệ phát âm tài liệu Microsoft Word sử dụng nhân của Vnvoice. - Luận án Nghiên cứu đặc trung tín hiệu và ràng buộc ngôn điệu để nâng cao chất lượng tổng hợp và nhận dạng tiếng Việt
Hình 3.12 Hệ phát âm tài liệu Microsoft Word sử dụng nhân của Vnvoice (Trang 21)
Hình 4. 3.  Sơ đồ tích hợp nhận dạng tiếng nói điều khiển thiết bị - Luận án Nghiên cứu đặc trung tín hiệu và ràng buộc ngôn điệu để nâng cao chất lượng tổng hợp và nhận dạng tiếng Việt
Hình 4. 3. Sơ đồ tích hợp nhận dạng tiếng nói điều khiển thiết bị (Trang 32)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w