Ứng dụng mô hình markov ẩn xây dựng hệ thống tổng hợp tiếng nói tiếng việt

Mô hình Markov ẩn Hidden Markov model là một mô hình toán thống kê có thể ứng dụng trong xử lý tiếng nói Tổng hợp tiếng nói dựa trên mô hình Markov ẩn được nghiên cứu và ứng dụng mạnh mẽ trên thế giới Ở Việt Nam tổng hợp tiếng nói tiếng Việt dựa trên HMM đã và đang được nghiên cứu và triển khai những năm gần đây và đã đạt được các kết quả tương đối khả quan Luận văn này nghiên cứu về lý thuyết mô hình Markov ẩn HMM và ứng dụng của HMM trong tổng hợp tiếng nói nghiên cứu các đặc trưng về ngữ âm và âm vị của tiếng Việt các đặc trưng cơ bản của tín hiệu tiếng nói phổ tần số cơ bản … tổng quan về công nghệ tổng hợp tiếng nói các module frontend và backend kỹ thuật tạo nhãn âm vị theo ngữ cảnh để từ đó tổng hợp ra tiếng nói Kết quả là xây dựng được module tạo nhãn âm vị theo ngữ cảnh cho tiếng Việt dùng ngôn ngữ Python và framework Kivy xây dựng chương trình chuyển văn bản thành tiếng nói cho tiếng Việt với chất lượng khá tốt

Trang 1

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA -

LÊ VĂN THỨC

ỨNG DỤNG MÔ HÌNH MARKOV ẨN XÂY DỰNG

HỆ THỐNG TỔNG HỢP TIẾNG NÓI TIẾNG VIỆT

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Đà Nẵng – 2018

Trang 2

TRƯỜNG ĐẠI HỌC BÁCH KHOA -

LÊ VĂN THỨC

ỨNG DỤNG MÔ HÌNH MARKOV ẨN XÂY DỰNG

HỆ THỐNG TỔNG HỢP TIẾNG NÓI TIẾNG VIỆT

Chuyên ngành: Khoa học máy tính

Mã số: 60.48.01.01

LUẬN VĂN THẠC SĨ

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Ninh Khánh Duy

Đà Nẵng – 2018

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan đây là luận văn do tôi nghiên cứu dưới sự hướng dẫn khoa học của thầy TS Ninh Khánh Duy Các số liệu và tài liệu trong luận án là trung thực

và chưa được công bố trong bất kỳ công trình nghiên cứu nào Tất cả những tham khảo

và kế thừa đều được trích dẫn và tham chiếu đầy đủ

Đà Nẵng, năm 2018

Người thực hiện

Lê Văn Thức

Trang 4

LỜI CẢM ƠN

Để hoàn thành luận văn tốt nghiệp của mình, em xin gửi lời cam ơn chân thành

và sự tri ân sâu sắc đối với các thầy cô của trương Đại học Bách Khoa Đà Nẵng, đặc biệt khoa Công Nghệ Thông Tin của trường đã hết lòng tận tình chỉ dạy, truyền đạt kiến thức cho chúng em trong suốt quá trình học tập và nghiên cứu

Đặc biệt, em xin bày tỏ lòng biết ơn sâu sắc đến thầy TS Ninh Khánh Duy– người đã trực tiếp hướng dẫn, tận tình giúp đỡ và động viên em trong suốt quá trình thực hiện luận văn tốt nghiệp này

Thật lòng vô cùng cảm ơn sự hỗ trợ, giúp đỡ, động viên của toàn thể gia đình, bạn bè trong suốt quá trình hoàn thành khóa luận tốt nghiệp, cũng như trong suốt quá trình học tập vừa qua

Mặc dù đã hết sức cố gắng song luận văn tốt nghiệp không tránh khỏi những thiếu sót Kính mong quý thầy giáo, cô giáo cũng toàn thể bạn bè góp ý để kiến thức của em trong lĩnh vực này được hoàn thiện hơn

Xin kính chúc quý Thầy, Cô sức khỏe và thành công trong sự nghiệp đào tạo những thế hệ tri thức tiếp theo trong tương lai

Một lần nữa xin chân thành cảm ơn!

Đà Nẵng, năm 2018

Người thực hiện

Lê Văn Thức

Trang 5

TÓM TẮT

Tóm tắt - Mô hình Markov ẩn (Hidden Markov model) là một mô hình toán thống kê có

thể ứng dụng trong xử lý tiếng nói Tổng hợp tiếng nói dựa trên mô hình Markov ẩn được nghiên cứu và ứng dụng mạnh mẽ trên thế giới Ở Việt Nam, tổng hợp tiếng nói tiếng Việt dựa trên HMM đã và đang được nghiên cứu và triển khai những năm gần đây, và đã đạt được các kết quả tương đối khả quan Luận văn này nghiên cứu về lý thuyết mô hình Markov ẩn (HMM) và ứng dụng của HMM trong tổng hợp tiếng nói, nghiên cứu các đặc trưng về ngữ âm

và âm vị của tiếng Việt, các đặc trưng cơ bản của tín hiệu tiếng nói (phổ, tần số cơ bản, …), tổng quan về công nghệ tổng hợp tiếng nói (các module frontend và backend), kỹ thuật tạo nhãn âm vị theo ngữ cảnh để từ đó tổng hợp ra tiếng nói Kết quả là xây dựng được module tạo nhãn âm vị theo ngữ cảnh cho tiếng Việt, dùng ngôn ngữ Python và framework Kivy xây dựng chương trình chuyển văn bản thành tiếng nói cho tiếng Việt với chất lượng khá tốt

Từ khóa - xử lý tiếng nói; tổng hợp tiếng nói; mô hình morkov ẩn; ngữ âm tiếng Việt;

âm vị tiếng Việt

Abstract - The Hidden Markov model (HMM) is a widely used probability model for

speech processing HMM-based speech synthesis has been studied and applied in many languages around the world for a long time, but has been under development for about 10 years now in Vietnamese This thesis presents the theory of HMM modeling and the application of HMM in speech synthesis In addition, the thesis also examines the phonetic and phoneme characteristics of the Vietnamese language, the basic features of the speech signal (such as spectrum, fundamental frequency, etc.), Modules of a text-to-speech system The main result of the thesis is to build the speech synthesis software for Vietnamese language with good quality using Python programming language and Kivy framework

Keywords - speech processing; speech synthesis; hidden Markov model; Vietnamese

phonetics

Trang 6

MỤC LỤC

LỜI CAM ĐOAN i

LỜI CẢM ƠN ii

TÓM TẮT iii

MỤC LỤC iv

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT vi

DANH MỤC BẢNG vii

DANH MỤC CÁC HÌNH VẼ viii

MỞ ĐẦU 1

1 Lý do chọn đề tài 1

2 Mục đích và ý nghĩa đề tài 1

3 Mục tiêu và nhiệm vụ 1

4 Đối tượng và phạm vi nghiên cứu 2

5 Phương pháp nghiên cứu 2

6 Kết luận 3

7 Cấu trúc luận văn 3

Chương 1 - TỔNG QUAN VỀ XỬ LÝ TIẾNG NÓI 4

1.1 Giới thiệu 4

1.2 Ngữ âm Tiếng Việt 4

1.3 Phân loại âm vị theo đặc trưng âm học 7

1.4 Các thành phần cơ bản của ngữ điệu trong tiếng nói 9

1.4.1 Cao độ (pitch hoặc f0) 9

1.4.2 Trường độ 9

1.4.3 Cường độ 10

1.5 Phân tích tiếng nói 10

1.5.1 Mô hình phân tích tiếng nói 10

1.5.2 Phân tích tiếng nói ngắn hạn 11

1.6 Các tham số cơ bản của tiếng hiệu tiếng nói 12

1.6.1 Tần số formant 12

1.6.2 Tần số cơ bản (F0) 13

Chương 2 - TỔNG HỢP TIẾNG NÓI TỪ VĂN BẢN DỰA TRÊN MÔ HÌNH MARKOV ẨN 15

2.1 Giới thiệu 15

2.2 Framework phân tích/tổng hợp tiếng nói 15

Trang 7

2.3 Giai đoạn huấn luyện mô hình 16

2.3.1 Mô hình hoá phổ bằng HMM có phân bố xác suất liên tục 17

2.3.2 Mô hình hoá F0 bằng HMM có phân bố xác suất đa không gian 19

2.3.3 Tính toán đặc trưng động 21

2.3.4 Mô hình hoá trường độ 22

2.3.5 Mô hình hoá sự phụ thuộc ngữ cảnh và gom cụm ngữ cảnh 22

2.4 Giai đoạn tổng hợp tiếng nói 25

2.4.1 Phân tích văn bản 25

2.4.2 Xác định trường độ trạng thái 25

2.4.3 Ảnh hưởng của đặc trưng động trong sinh tham số tiếng nói 26

Chương 3 – XÂY DỰNG HỆ THỐNG TỔNG HỢP TIẾNG NÓI TIẾNG VIỆT 29 3.1 Phân tích hệ thống 29

3.1.1 Mô-đun xử lý ngôn ngữ tự nhiên (front-end) 29

3.1.2 Mô-đun tổng hợp tiếng nói (back-end) 29

3.1.3 Nhãn âm vị phụ thuộc ngữ cảnh 30

3.1.4 Quy tắc chuyển chữ cái có dấu mũ và dấu thanh sang nhãn âm vị 33

3.1.5 Xử lý Unicode cho tiếng Việt 33

3.1.6 Thuật toán chuyển âm tiết thành chuỗi âm vị 34

3.2 Thiết kế hệ thống 35

3.2.1 Mô-đun chính app.py 35

3.2.2 Mô-đun xử lý các ký tự Unicode trong tiếng Việt uniproc.py 35

3.2.3 Mô-đun xử lý âm tiết let2snd.py 36

3.2.4 Mô-đun tạo nhãn âm vị phụ thuộc ngữ cảnh generate_label.py 36

3.2.5 Mô-đun định nghĩa cấu trúc của một văn bản, định dạng của nhãn âm vị và tạo nhãn âm vị phụ thuộc ngữ cảnh label_format.py 36

3.3 Môi trường phát triển 38

Chương 4 – KẾT QUẢ THỰC NGHIỆM 39

4.1 Điều kiện thử nghiệm 39

4.2 Kết quả và đánh giá 39

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 45

1 Kết quả đạt được 45

2 Hướng phát triển 45

TÀI LIỆU THAM KHẢO 46

Trang 8

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

ADC : Analog to Digital Converter

STFT : Short-time Fourier transform

LPC : Linear Prediction Coded

THTN : Tổng hợp tiếng nói

HMM : Hidden Markov Model

MLSA : Mel Log Spectrum Approximation

LSP : Line spectral pair

EM : Expectation-Maximization

MSD : Multi-space Probability Distribution

MDL : minimum description length

HTS : HMM-based Speech Synthesis System

API : Application Programming Interface

Trang 10

DANH MỤC CÁC HÌNH VẼ

Số hiệu

1.1 (a) Tần số, đường năng lượng âm vô thanh; (b) tần số, đường

năng lượng âm hữu thanh

trái sang phải) sinh ra một chuỗi quan sát (chỉnh sửa từ [3])

18

2.4 Mô hình hóa đường F0 trên hai không gian [3] 20

2.7 Một ví dụ về phân cụm ngữ cảnh dựa trên cây quyết định [3] 24

2.10 Quỹ đạo tham số tiếng nói sinh ra [3] (chỉ hiển thị một chiều của

vector đặc trưng) Các tham số delta được hiển thị như là đại diện

4.2 Giao diện chính của chương trình và nhãn ngữ cảnh được tạo 41

Trang 11

MỞ ĐẦU

1 Lý do chọn đề tài

Tổng hợp tiếng nói (Speech synthesis/Text-To-Speech) là một trong những lĩnh vực được nghiên cứu từ hàng chục năm nay, với mục đích giúp giao tiếp giữa người và máy (Human-Machine Interface) trở nên tự nhiên và dễ dàng hơn Tuy đã trải qua một chặng đường rất dài nhưng đến nay chất lượng âm thanh và độ tự nhiên của tiếng nói tổng hợp vẫn còn là chủ đề đáng quan tâm Vì được ứng dụng rộng rải, đặc biệt cho IoT nên bài toán tổng hợp tiếng nói đang được các hãng công nghệ lớn tham gia nghiên cứu và đầu tư

Tổng hợp tiếng nói có thể thực hiện theo nhiều phương pháp như: tổng hợp mô phỏng hệ thống phát âm, tổng hợp tần số formant, tổng hợp dựa trên ghép nối, tổng hợp theo mô hình Markov ẩn (Hidden Markov Model – HMM) Mỗi phương pháp đều

có những ưu nhược điểm riêng tuỳ vào mục đích sử dụng, nhưng chung quy lại thì bất

kỳ phương pháp tổng hợp tiếng nói nào cũng có mục đích căn bản là tạo ra tiếng nói chất lượng dễ hiểu và tự nhiên

Từ năm 2000, tổng hợp tiếng nói dựa trên HMM được nghiên cứu và ứng dụng mạnh mẽ trên thế giới Ở Việt Nam, tổng hợp tiếng nói tiếng Việt dựa trên HMM đã

và đang được nghiên cứu và triển khai những năm gần đây, với sự tham gia của FPT, trung tâm nghiên cứu của các trường Đại học, Viện Công nghệ thông tin, Viện Hàn lâm khoa học và Công nghệ Việt Nam và đến nay đã đạt được các kết quả tương đối khả quan

Nhằm tìm hiểu công nghệ tổng hợp tiếng nói dựa trên HMM và áp dụng cho

tiếng Việt, tôi chọn đề tài nghiên cứu là: “Ứng dụng mô hình Markov ẩn xây dựng

hệ thống tổng hợp tiếng nói tiếng Việt”

2 Mục đích và ý nghĩa đề tài

a Mục đích

- Nghiên cứu lý thuyết HMM và ứng dụng của nó trong tổng hợp tiếng nói

- Xây dựng và cài đặt hệ thống tổng hợp tiếng nói tiếng Việt dựa trên HMM

b Ý nghĩa khoa học và thực tiễn của đề tài

- Đóng góp vào lĩnh vực nghiên cứu ứng dụng tổng hợp tiếng nói cho tiếng Việt

- Dựa vào kết quả nghiên cứu có thể xây dựng các chương trình tổng hợp tiếng nói tiếng việt ứng dụng cho người tàn tật, trong truyền thông,

3 Mục tiêu và nhiệm vụ

a Mục tiêu

Mục tiêu của đề tài là nghiên cứu mô hình Markov ẩn và ứng dụng vào tổng

Trang 12

hợp tiếng nói tiếng Việt, cụ thể:

- Nghiên cứu mô hình Markov ẩn

- Xây dựng chương trình tổng hợp tiếng nói tiếng việt

b Nhiệm vụ

Để đạt được mục tiêu đề ra thì nhiệm vụ cần thiết phải làm là:

- Nghiên cứu lý thuyết mô hình Markov ẩn (HMM) và ứng dụng của HMM trong tổng hợp tiếng nói

- Tìm hiểu các đặc trưng về ngữ âm và âm vị của tiếng Việt

- Tìm hiểu HTS (HMM-based speech synthesis system) toolkit cho tổng hợp tiếng nói

- Cài đặt chương trình huấn luyện HMM từ dữ liệu tiếng nói

- Cài đặt chương trình chuyển văn bản thành tiếng nói gồm 2 mô-đun: phân tích văn bản (chuyển văn bản thành biểu diễn ngôn ngữ) và tổng hợp tiếng nói dùng HMM (chuyển biểu diễn ngôn ngữ thành tín hiệu tiếng nói)

- Đánh giá độ tự nhiên và dễ hiểu của tiếng nói tổng hợp được

4 Đối tượng và phạm vi nghiên cứu

a Đối tượng

- Các đặc trưng ngữ âm học và âm vị học của tiếng Việt

- Các đặc trưng của tín hiệu tiếng nói (phổ, tần số cơ bản,…)

- Các thuật toán học máy dùng HMM và sinh tín hiệu tiếng nói từ HMM

b Phạm vị

Tiếng Việt

5 Phương pháp nghiên cứu

Phương pháp nghiên cứu chính là kết hợp giữa nghiên cứu lý thuyết và thực nghiệm

a Phương pháp lý thuyết

- Thu thập và tổng hợp tài liệu thông qua các bài báo, tạp chí khoa học, qua trao đổi với thầy hướng dẫn

- Tìm hiểu các công nghệ liên quan

- Tìm hiểu và đánh giá các phương pháp đã áp dụng

b Phương pháp thực nghiệm

- Khảo sát và phân tích các phương pháp, mô hình tổng hợp tiếng nói

- Lựa chọn cách tiếp cận đã được áp dụng thành công, tiến hành thử nghiệm với tiếng Việt

- Nhận xét, đánh giá kết quả thử nghiệm

Trang 13

6 Kết luận

a Kết quả của đề tài

- Nắm vững cơ sở lý thuyết tổng hợp tiếng nói nói chung và tổng hợp tiếng nói tiếng Việt nói riêng

- Nắm vững cơ sở lý thuyết HMM

- Đề xuất phương pháp tổng hợp tiếng nói tiếng Việt dựa trên HMM

- Xây dựng hệ thống tổng hợp tiếng nói tiếng Việt

b Hướng phát triển của đề tài

- Nghiên cứu các phương pháp cải tiến chất lượng tiếng nói: thuật toán trích đặc trưng tín hiệu, thuật toán huấn luyện HMM

- Xây dựng các ứng dụng của tổng hợp tiếng nói: đọc báo cho người khiếm thị, chuyển e-book thành sách nói (audiobook)

7 Cấu trúc luận văn

Chương 1: Tổng quan về xử lý tiếng nói

Chương 2: Tổng hợp tiếng nói từ văn bản dựa trên mô hình Markov ẩn

Chương 3: Xây dựng hệ thống tổng hợp tiếng nói tiếng Việt

Chương 4: Kết quả thực nghiệm

Trang 14

Chương 1 - TỔNG QUAN VỀ XỬ LÝ TIẾNG NÓI 1.1 Giới thiệu

Tiếng nói là phương tiện giao tiếp cơ bản giữa người với người, kể từ khi công nghệ xử lý tiếng nói phát triển thì con người còn có thế giao tiếp được với máy thay thế cho những phương pháp giao tiếp thông qua các thiết bị giao tiếp như bàn phím, chuột, màn hình, … Vì vậy vấn đề xử lý tiếng nói đóng vai trò quan trọng trong vấn đề giao tiếp này Trên thế giới, lĩnh vực xử lý tiếng nói đã được nghiên cứu và phát triển

từ những năm 1971 và đã đạt nhiều thành tựa nhất định, tuy nhiên, đối với tiếng Việt thì mới chỉ được nghiên cứu phát triển trong khoảng 10 năm trở lại đây Những nghiên cứu này liên quan trực tiếp tới các kết quả của chuyên ngành xử lý tiếng nói, trong đó

có tổng hợp tiếng nói Xử lý tiếng nói là sự nghiên cứu về tín hiệu tiếng nói của con người và các phương pháp xử lý tín hiệu tiếng nói Tín hiệu tiếng nói thường được biểu diễn dưới dạng số do việc xử lý tiếng nói bao gồm xử lý tín hiệu số và xử lý ngôn ngữ tự nhiên

1.2 Ngữ âm Tiếng Việt

1.2.1 Âm vị

Về mặt ngôn ngữ học [9], có thể xem tiếng nói là một chuỗi các âm cơ bản được gọi là âm vị Âm vị là đơn vị ngôn ngữ trừu tượng và không thể quan sát trực tiếp trong tín hiệu tiếng nói Nhiều âm vị khác nhau kết hợp với nhau một cách nào đó

để tạo ra những âm thanh khác nhau

1.2.2 Nguyên âm

Nguyên âm được xác định bởi hốc cộng hưởng khoang miệng và hốc yết nguồn gốc của các Formant Khoang miệng và khoang yết hầu được tách biệt ra bởi lưỡi Do đó, sự thay đổi của khoang này đồng nghĩa với sự thay đổi của khoang kia Việc xác định thể tích, hình dáng, lối thoát không khí của những hốc cộng hưởng này, tức xác định khả năng cộng hưởng của chúng, chính là mô tả độ mở của miệng, vị trí

hầu-của lưỡi và hình dáng hầu-của môi

1.2.3 Phụ âm

Đặc điểm cơ bản của phụ âm là sự cấu tạo bằng luồng không khí bị cản trở, sự cản trở này diễn ra với những mức độ khác nhau, cách thức khác nhau và ở những bộ phận khác nhau của cơ quan phát âm Phụ âm đuợc chia ra phụ âm tắc (như ‘p’, ‘t’,

‘đ’, ‘b’) và phụ âm xát (như ‘v’, ‘s’, ‘x’)

a) Phụ âm tắc

Đặc trưng là một tiếng nổ, do luồng không khí bị cản trở hoàn toàn, phải phá vỡ

sự cản trở để thoát ra ngoài Phụ âm tắc được chia làm phụ âm bật hơi (như ‘th’) và

phụ âm mũi (như ‘m’, ‘n’, ‘ng’, ‘nh’)

Trang 15

b) Phụ âm xát

Đặc trưng là tiếng cọ xát, phát sinh do luồng không khi đi ra bị cản trở không hoàn toàn (chỉ bị khó khăn) phải lách qua một khe hở nhỏ và trong khi thoát ra ngoài

cọ xát vào thành của bộ phận phát âm

1.2.4 Cấu trúc âm tiết

Mỗi âm tiết trong tiếng Việt là một khối hoàn chỉnh trong phát âm Âm tiết tuy phát âm liền một hơi nhưng có cấu tạo ghép chứa ba bộ phận: thanh điệu, phần đầu và phần sau Phần đầu của âm tiết được xác định là âm đầu, ở vị trí này chỉ có một âm vị tham gia cấu tạo Phần sau của âm tiết được gọi là phần vần

Các âm đầu vần, giữa vần và cuối vần được gọi là âm đệm, âm chính và âm cuối Bảng sau đây sẽ cho chúng ta hình dung rõ về cấu tạo âm tiết tiếng Việt:

Bảng 1.1 Cấu trúc của một âm tiết trong tiếng Việt [1]

Thanh điệu (Tone)

Âm đệm (Onset) Âm chính (Nucleus) Âm cuối (Coda)

Theo thống kê thì tiếng Việt có 6 thanh điệu (ngang, huyền, hỏi, ngã, sắc, nặng), 22 âm đầu, 1 âm đệm, 16 âm chính và 8 âm cuối

1.2.5 Ánh xạ chữ cái sang âm vị

Trong tiếng Việt, mỗi chữ cái không phải là một âm vị và ngược lại Vì vậy, để phân tích một âm tiết (dạng text) thành chuỗi âm vị, ta phải xây dựng bảng ánh xạ chữ cái sang âm vị dựa trên tài liệu chuẩn về ngữ âm tiếng Việt [1]

Bảng 1.2 Bảng ánh xạ chữ cái sang âm vị của tiếng Việt

Âm vị (tự mã hoá) Âm tiết ví dụ

Trang 16

Trang 17

Bảng trên là cơ sở để đưa ra thuật toán chuyển âm tiết thành chuỗi âm vị ở phần 3.1.6

1.3 Phân loại âm vị theo đặc trưng âm học

Tiếng nói là âm thanh mang mục đích diễn đạt thông tin, khi giao tiếp chuỗi lời nói mà con người phát ra gồm nhiều khúc đoạn dài ngắn khác nhau Đơn vị phát âm ngắn nhất là âm tiết (syllable) Trong tiếng Việt, có khoảng 6700 âm tiết được sử

Trang 18

dụng Khi chúng ta phát ra một tiếng thì có rất nhiều bộ phận như lưỡi, thanh môn, môi, họng, thanh quản, kết hợp với nhau để tạo thành âm thanh Âm thanh phát ra được lan truyền trong không khí để đến tai người nhận Vì âm thanh phát ra từ sự kết hợp của rất nhiều bộ phận, do đó âm thanh ở mỗi lần nói khác nhau hầu như khác nhau dẫn đến khá khó khăn khi ta muốn phân chia tiếng nói theo những đặc tính riêng Người ta chỉ chia tiếng nói thành 2 loại cơ bản như sau:

1.3.1 Âm hữu thanh

Là âm khi phát ra thì có thanh, ví dụ như chúng ta nói “i”, “a”, hay “o” chẳng hạn Thực ra âm hữu thanh được tạo ra là do việc không khí qua thanh môn (thanh môn tạo ra sự khép mở của dây thanh dưới sự điều khiển của hai sụn chóp) với một độ căng của dây thanh sao cho chúng tạo nên dao động

Được tạo ra khi dây thanh âm căng lên và rung khi áp suất không khí tăng lên, làm cho thanh môn mở ra rồi đóng lại khi luồng không khí đi qua Bộ phận phát âm hoạt động giống như hộp cộng hưởng, khuếch đại những thành phần hài này và làm suy giảm những thành phần hài khác để tạo ra âm hữu thanh Mức độ rung của dây thanh âm tùy thuộc vào áp suất không khí ở phổi và sức căng của dây thanh âm Người nói có thể điều khiển 2 yếu tố trên để thày đổi chu kì cơ bản (được gọi là pitch) của âm thanh Ở người đàn ông, tần số cơ bản khoảng từ 50÷250 Hz, trong khi ở phụ nữ là thường rơi vào khoảng 120÷500 Hz Trong ngôn ngữ, các nguyên âm về bản chất âm học là những âm hữu thanh

1.3.2 Âm vô thanh

Được tạo ra khi dây thanh âm không rung Có hai loại âm vô thanh cơ bản: âm xát và âm bật hơi [1]

Đối với âm xát, ví dụ khi nói “s”, “x”, một số điểm trên bộ phận phát âm bị co

lại khi luồng không khí đi ngang qua nó, hỗn loạn xảy ra tạo nên nhiễu ngẫu nhiên Bởi vì những điểm co thường ở phía trước miệng, cộng hưởng của bộ phận phát âm có ảnh hưởng nhỏ đến đặc tính của âm xát

Đối với âm bật hơi, như khi ta nói ‘h’ trong hung?, hỗn loạn xảy ra ở gần thanh

môn khi dây thanh âm bị giữ nhẹ một phần Trường hợp này, cộng hưởng của bộ phận phát âm sẽ biến điệu phổ của nhiễu ngẫu nhiên Hiệu ứng này có thể nghe rõ khi nói thì thầm Cấu tạo cơ bản của phụ âm trong mọi ngôn ngữ là âm vô thanh Ngoài hai loại âm cơ bản ở trên, còn có một loại âm trung gian vừa mang tính chất nguyên âm, vừa mang tính chất phụ âm, được gọi là bán nguyên âm hay bán phụ âm Ví dụ như

âm ‘i’ và ‘u’ trong những từ ‘ai’, ‘âu’

Khi phát các âm này, bộ máy phát âm sẽ được đóng lại hoàn toàn tại một điểm nào đó trong bộ máy phát âm Áp suất không khí trong bộ máy phát âm sẽ tăng lên tức

Trang 19

thời và được giải phóng một cách đột ngột Sự giải thoát nhanh chóng của áp suất này

sẽ tạo nên một sự kích thích tạm thời của bộ máy phát âm

(a)

(b)

Hình 1.1 (a) Tần số, đường năng lượng âm vô thanh; (b) tần số, đường năng lượng

âm hữu thanh

1.4 Các thành phần cơ bản của ngữ điệu trong tiếng nói

Ngữ điệu là một thành phần tổng quát và quan trọng của tiếng nói, bởi vì tất cả các ngôn ngữ đều có ngữ điệu Trong ngành ngôn ngữ học, ngữ điệu là một thành của ngữ âm, và được biểu diễn bởi các yếu tố vật lý như thời gian, cao độ, cường độ, phổ

Và một hệ thống ngữ điệu (intonation system) là một sự thay đổi về cao độ, cường độ, thời gian ngắt nghỉ, phổ của một câu nhằm thể hiện một ý nghĩa, sắc thái tình cảm khi giao tiếp bằng tiếng nói Ngữ điệu bao gồm một số thành phần như sau:

1.4.1 Cao độ (pitch hoặc f0)

Trong số các yếu tố ngôn điệu, sự thay đổi cao độ là rõ ràng, dễ thấy nhất Các thay đổi này hợp thành đường cao độ của lời nói (hay đường F0 của tín hiệu tiếng nói) Một vài nghiên cứu về các đường cao độ ở mức độ câu cho thấy đường cao độ của những câu dài hơn có thể phân tách thành một chuỗi những đường cơ bản, những đường này lại có thể được phân nhỏ hơn thành những đường cao độ của âm tiết

1.4.2 Trường độ

Trường độ trong ngôn điệu quan tâm đến độ dài của câu, của từ, của âm tiết, và của từng âm vị của âm tiết Độ dài của âm tiết và lời nói phụ thuộc (phụ thuộc hoặc phụ thuộc lẫn nhau) vào một số yếu tố như tốc độ nói, nhịp điệu, bản chất ngữ âm, Trong phần lớn trường hợp, trường độ tuyệt đối của một yếu tố được ước lượng một

Trang 20

cách dễ dàng Thỉnh thoảng, việc xác định được biên của một yếu tố là không dễ dàng

1.4.3 Cường độ

Là một thuộc tính ngôn điệu đã được mô tả từ những nghiên cứu đầu tiên về ngôn điệu trong ngữ âm học Người ta cho rằng nó liên quan đến âm lượng (loudness) cũng như các lực âm vị (phonology force) Cả hai tính chất này đều ám chỉ đến dạng cảm nhận của ngôn điệu: âm tiết mang trọng âm nổi bật hơn so với các âm tiết xung quanh, do âm lượng lớn hoặc các thuộc tính động của chúng

1.5 Phân tích tiếng nói

1.5.1 Mô hình phân tích tiếng nói

Tín hiệu tiếng nói được tiền xử lý bằng cách cho qua một bộ lọc thông thấp với tần số cắt khoảng 8kHz Tín hiệu thu được sau đó được thực hiện quá trình biến đổi sang dạng tín hiệu số nhờ bộ biến đổi ADC Thông thường, tần số lấy mẫu bằng 16kHz với tốc độ bít lượng từ hóa là 16bit Tín hiệu tiếng nói dạng số được phân khung với chiều dài khung thường khoảng 30ms và khoảng lệch các khung thường bằng 10ms Khung phân tích tín hiệu sau đó được chỉnh biên bằng cách lấy cửa sổ với các hàm cửa sổ phổ biến như Hamming, Hanning Tín hiệu thu được sau khi lấy cửa

sổ được đưa vào phân tích với các phương pháp phân tích phổ (chẳng hạn như STFT, LPC, ) Hoặc sau khi phân tích phổ cơ bản, tiếp tục được đưa đến các khối để trích chọn các đặc trưng

Hình 1.2 Mô hình tổng quát của việc xử lý tín hiệu tiếng nói [9]

Trang 21

1.5.2 Phân tích tiếng nói ngắn hạn

Trong lý thuyết phân tích, chúng ta thường không để ý đến một điểm quan trọng là các phân tích phải được tiến hành trong một khoảng thời gian giới hạn Chẳng hạn, chúng ta biết rằng biến đổi Fourier theo thời gian liên tục là một công cụ vô cùng hữu ích cho việc phân tích tín hiệu Tuy nhiên, nó yêu cầu phải biết được tín hiệu trong mọi khoảng thời gian Hơn nữa, các tính chất hay đặc trưng của tín hiệu mà chúng ta cần tìm hiểu phải là các đại lượng không đổi theo thời gian điều này trong thực tế phân tích tín hiệu khó mà đạt được vì việc phân tích tín hiệu đáp ứng các ứng dụng thực tế có thời gian hữu hạn Hầu hết các tín hiệu, đặc biệt là tín hiệu tiếng nói, không phải là tín hiệu không đổi theo thời gian

Về mặt nguyên lý, chúng ta có thể áp dụng các kỹ thuật phân tích đã biết vào phân tích tín hiệu trong ngắn hạn Tuy nhiên vì tín hiệu tiếng nói là một quá trình mang thông tin động nên chúng ta không thể chỉ đơn thuần xem xét phân tích ngắn hạn trong chỉ một khung thời gian đơn lẻ

Tín hiệu tiếng nói như đã đề cập là tín hiệu thay đổi theo thời gian Nó có các đặc trưng cơ bản như nguồn kích thích (excitation), cường độ (pitch), biên độ (amplitude), Các tham số thay đổi theo thời gian của tín hiệu tiếng nói có thể kể đến

là tần số cơ bản (fundamental frequency - pitch), loại âm (âm hữu thanh - voiced, vô thanh - unvoiced, tắc - fricative hay khoảng lặng - silence), các tần số cộng hưởng chính (formant), hàm diện tích của tuyến âm (vocal tract area),

Việc thực hiện phân tích ngắn hạn tức là xem xét tín hiệu trong một khoảng nhỏ thời gian xung quanh thời điểm đang xét n nào đó Các khoảng này thường khoảng từ 10-30ms Điều này cho phép chúng ta giả thiết rằng trong khoảng thời gian đó các tính chất của dạng sóng tín hiệu tiếng nói là tương đối ổn định Khoảng nhỏ tín hiệu dùng để phân tích thường được gọi là một khung (frame), hay một đoạn (segment) Một khung tín hiệu được xác định là tích của một hàm cửa sổ dịch w(m)

và dãy tín hiệu s(n):

𝑠𝑛(𝑚) = 𝑠(𝑚)𝑤(𝑛 − 𝑚) (1.1) Một khung tín hiệu có thể được hiểu như một đoạn tín hiệu được cắt gọt bởi một hàm cửa sổ để tạo thành một dãy mới mà các giá trị của nó bằng không bên ngoài khoảng n∈[mN+1,m] Từ công thức (1.1) chúng ta thấy rằng khung tín hiệu này phụ thuộc vào khoảng thời gian kết thúc m Trong khung tín hiệu nhỏ vừa được định nghĩa,

dễ dàng thấy rằng các phép xử lý ngắn hạn cũng có ý nghĩa tương đương các phép xử

lý dài hạn Như đã đề cập, việc phân tích tín hiệu tiếng nói không thể đơn giản chỉ bằng phân tích một khung tín hiệu đơn lẻ mà phải bằng các phân tích của các khung tín hiệu liên tiếp Thực tế, để tránh mất thông tin, các khung tín hiệu thường được lấy

Trang 22

bao trùm nhau Nói một các khác, hai khung cạnh nhau có chung ít nhất M>0 mẫu Một phép phân tích ngắn hạn tổng quát có thể biểu diễn là:

𝑋𝑛(𝑚) = ∑∞ 𝑇

trong đó: Xn biểu diễn tham số phân tích (hoặc véc-tơ các tham số phân tích) tại thời

điểm phân tích n Toán tử T{} định nghĩa một hàm phân tích ngắn hạn Tổng (1.2) được tính với giới hạn vô cùng được hiểu là phép lấy tổng được thực hiện với tất cả các thành phần khác không của khung tín hiệu là kết quả của phép lấy cửa sổ Nói cách khác, tổng được thực hiện với mọi giá trị của m trong tập xác định (support) của hàm cửa sổ

Một số hàm cửa sổ phổ biến thường hay được sử dụng là: hàm cửa sổ chữ nhật (rectangular window), hàm cửa sổ Hanning, và hàm cửa sổ Hamming

1.6 Các tham số cơ bản của tiếng hiệu tiếng nói

1.6.1 Tần số formant

Formant của tín hiệu tiếng nói là một trong các tham số quan trọng và hữu ích

có ứng dụng rộng rãi trong nhiều lĩnh vực chẳng hạn như trong việc xử lý, tổng hợp và nhận dạng tiếng nói Các formant là các tần số cộng hưởng của tuyến âm (vocal tract),

nó thường được thể hiện trong các biểu diễn phổ chẳng hạn như trong biểu diễn spectrogram như là một vùng có năng lượng cao, và chúng biến đổi chậm theo thời gian theo hoạt động của bộ máy phát âm Sở dĩ formant có vai trò quan trọng và là một tham số hữu ích trong các nghiên cứu xử lý tiếng nói là vì các formant có thể miêu tả được các khía cạnh quan trọng nhất của tiếng nói bằng việc sử dụng một tập rất hạn chế các đặc trưng Chẳng hạn trong mã hóa tiếng nói, nếu sử dụng các tham số formant

để biểu diễn cấu hình của bộ máy phát âm và một vài tham số phụ trợ biểu diễn nguồn kích thích, chúng ta có thể đạt được tốc độ mã hóa thấp đến 2,4kbps

Nhiều nghiên cứu về xử lý và nhận dạng tiếng nói đã chỉ ra rằng các tham số formant là ứng cử viên tốt nhất cho việc biểu diễn phổ của bộ máy phát âm một cách hiệu quả Tuy nhiên việc xác định các formant không đơn giản chỉ là việc xác định các đỉnh trong phổ biên độ bởi vì các đỉnh phổ của tín hiệu ra của bộ máy phát âm phụ thuộc một cách phức tạp vào nhiều yếu chẳng hạn như cấu hình bộ máy phát âm, các nguồn kích thích,

Các phương pháp xác định formant liên quan đến việc tìm kiếm các đỉnh trong các biểu diễn phổ, thường là từ kết quả phân tích phổ theo phương pháp STFT hoặc

mã hóa dự đoán tuyến tính (LPC)

a) Xác định formant từ phân tích STFT

Các phân tích STFT tương tự và rời rạc đã trở thành một công cụ cơ bản cho nhiều phát triển trong phân tích và tổng hợp tín hiệu tiếng nói Dễ dàng thấy STFT

Trang 23

trực tiếp chứa các thông tin về formant ngay trong biên độ phổ Do đó, nó trở thành một cơ sở cho việc phân tích các tần số formant của tín hiệu tiếng nói

Một lợi điểm khi sử dụng phương pháp phân tích LPC để phân tích formant là tần số trung tâm của các formant và băng tần của chúng có thể xác định được một cách chính xác thông qua việc phân tích nhân tử đa thức dự đoán Một phép phân tích LPC bậc p được chọn trước, thì số khả năng lớn nhất có thể có các điểm cực liên hợp phức

là p/2 Do đó, việc gán nhãn trong quá trình xác định xem điểm cực nào tương ứng với các formant đơn giản hơn các phương pháp khác Ngoài ra, với các điểm cực bên ngoài thường có thể dễ dàng phân tách trong phân tích LPC vì băng tần của chúng thường rất lớn so với băng tần thông thường của các formant tín hiệu tiếng nói

Hình 1.3 Âm thanh có thể được xác định tốt hơn bởi các formant và sự chuyển tiếp

giữa các âm vị của chúng [8]

1.6.2 Tần số cơ bản (F0)

Chu kỳ cơ bản T0: khi dây thanh rung với chu kỳ T0 thì thông lượng cũng biến đổi tuần hoàn theo chu kỳ này và ta gọi T0 là chu kỳ cơ bản

Trang 24

Giá trị nghịch đảo của T0 là F0=1/T0 được gọi là tần số cơ bản của tiếng nói F0 phụ thuộc vào giới tính và lứa tuổi của người phát âm; F0 của nữ thường cao hơn của nam, F0 của người trẻ thường cao hơn của người già Thường với giọng của nam, F0 nằm trong khoảng từ 80-250Hz, với giọng của nữ, F0 trong khoảng 150-500Hz Sự biến đổi của F0 có tính quyết định đến thanh điệu của từ cũng như ngữ điệu của câu

Hình 1.4 Dạng sóng âm (đồ thị trên) so với đường F0 (đồ thị dưới)

Trang 25

Chương 2 - TỔNG HỢP TIẾNG NÓI TỪ VĂN BẢN DỰA TRÊN MÔ HÌNH

MARKOV ẨN 2.1 Giới thiệu

Phần này trình bày tổng quan về tổng hợp tiếng nói (THTN) dựa trên mô hình Markov ẩn (Hidden Markov model – HMM) Một hệ thống THTN dựa trên mô hình HMM điển hình bao gồm hai phần: huấn luyện mô hình (training) và tổng hợp tiếng nói (synthesis), được thể hiện như trong hình 2.1 Trong phần huấn luyện, trước tiên các tham số phổ (ví dụ như các hệ số mel-cepstral) và tham số kích thích (ví dụ như tần số cơ bản F0) được trích xuất từ dữ liệu tiếng nói mẫu Sau đó các tham số đã được trích xuất được mô hình hóa bằng các mô hình HMM phụ thuộc ngữ cảnh Mô hình trường độ phụ thuộc ngữ cảnh cũng được tính toán trong giai đoạn này Trong phần tổng hợp, văn bản đầu vào được cắt thành từng câu và mỗi câu được chuyển thành một chuỗi các nhãn âm vị phụ thuộc ngữ cảnh nhờ mô-đun phân tích văn bản Sau đó, một HMM mức câu được tạo ra bằng cách ghép nối các HMM mức âm vị phụ thuộc ngữ cảnh lại với nhau Các tham số tiếng nói (phổ, nguồn kích thích, trường độ) được sinh

ra từ HMM mức câu bằng thuật toán tạo tham số dựa trên tiêu chuẩn xác suất cực đại Cuối cùng, tín hiệu tiếng nói được tổng hợp trực tiếp từ các tham số phổ và nguồn kích thích sử dụng bộ lọc tổng hợp tiếng nói [7]

Hình 2.1 Tổng hợp tiếng nói dựa trên mô hình Markov ẩn

2.2 Framework phân tích/tổng hợp tiếng nói

Các nghiên cứu về phân tích/tổng hợp tiếng nói đều dựa trên mô hình nguồn-bộ lọc mô phỏng cách phát âm của con người [3] (Hình 2.2) Trong mô hình này, tín hiệu tiếng nói được giả định là đầu ra của một hệ thống (còn gọi là bộ lọc) tuyến tính bất biến theo thời gian, hệ thống này bị kích thích bởi tín hiệu kích thích (còn gọi là

Trang 26

nguồn) bằng cách luân phiên thay đổi giữa một trong hai nguồn: xung tuần hoàn cho

âm hữu thanh (voiced speech) và nhiễu trắng cho âm vô thanh (unvoiced speech) Tín hiệu kích thích e n( ) mô phỏng cho luồng không khí ở dây thanh âm (bộ phận phát ra tiếng nói của thanh quản), trong khi đó bộ lọc h n( ) sẽ mô phỏng hiệu ứng cộng hưởng của tuyến âm (vocal tract) trong quá trình phát âm của con người Để tạo ra một tín hiệu tiếng nói giống với tiếng nói tự nhiên, nguồn kích thích và các thuộc tính của bộ lọc tuyến âm phải thay đổi theo thời gian

Hình 2.2 Mô hình nguồn-bộ lọc mô phỏng cách con người phát âm

Quá trình phân tích tiếng nói phải xem xét đến yếu tố: các tính chất của tín hiệu tiếng nói biến đổi chậm theo thời gian Do đó, người ta thường giả định rằng các đặc tính chung của các tham số kích thích và tuyến âm không thay đổi trong khoảng thời gian rất ngắn từ 10 đến 40 ms Trong thực tế, các khung tín hiệu dài 25 ms với độ dịch giữa 2 khung liên tiếp là 5 ms thường được sử dụng để trích xuất các tham số của tín hiệu tiếng nói, bao gồm tham số kích thích và tham số phổ Các tham số kích thích là bao gồm: tiếng nói là hữu thanh hay vô thanh (voiced/unvoiced), và tần số cơ bản (F0) đối với tiếng nói hữu thanh Các tham số phổ mô tả đáp ứng tần số của bộ lọc mô phỏng tuyến âm, thường là các hệ số mel-cepstral hoặc LSP (line spectral pair) Trong luận văn này, các hệ số mel-cepstral được trích xuất bằng kỹ thuật phân tích mel-cepstral

Để tổng hợp tiếng nói từ các tham số nguồn kích thích và tham số phổ, một bộ lọc tổng hợp phải được xây dựng dựa trên các hệ số phổ mel-cepstral Ở đây, bộ lọc MLSA (Mel Log Spectrum Approximation) [3] được sử dụng để tổng hợp tín hiệu tiếng nói từ các hệ số mel-cepstra đã thu được

2.3 Giai đoạn huấn luyện mô hình

Phần này mô tả cách các tham số phổ, F0 và trường độ được mô hình hoá đồng thời trên một nền tảng hợp nhất của mô hình HMM theo tiêu chuẩn cực đại hoá xác suất (Maximum Likelihood)

Trang 27

2.3.1 Mô hình hoá phổ bằng HMM có phân bố xác suất liên tục

a) HMM có phân bố xác suất liên tục

Trong tổng hợp tiếng nói dựa trên mô hình HMM, các tham số phổ được biểu diễn bằng cách sử dụng các HMM giống như trong nhận dạng tiếng nói [3] HMM là một máy trạng thái hữu hạn tạo ra một chuỗi các quan sát, tuy nhiên, các trạng thái của

nó bị ẩn (tức là không thể quan sát được) Hiểu theo toán học, HMM là một quá trình ngẫu nhiên kép, trong đó trạng thái của HMM tại mỗi đơn vị thời gian thay đổi theo các xác suất chuyển đổi trạng thái, sau đó các quan sát được tạo ra thông qua hàm phân bố xác suất sinh quan sát ứng với mỗi trạng thái

• Một HMM  có N trạng thái được định nghĩa bởi một tập các tham số mô

1 1, 1

N ij

là xác suất sinh ra quan sát ot khi ở trạng thái j vào thời điểm t Hàm phân bố xác suất

sinh quan sát b o j( )t có thể là rời rạc hoặc liên tục tùy thuộc vào các quan sát nhận giá trị rời rạc hay liên tục

Để đơn giản về ký hiệu, các tham số của mô hình HMM  được biểu thị như sau:

( , , )

Trang 28

Hình 2.3 Một HMM có 3 trạng thái (không bỏ qua trạng thái nào khi đi từ trái

sang phải) sinh ra một chuỗi quan sát (chỉnh sửa từ [3])

Hình 2.3 cho thấy một HMM với 3 trạng thái có tô-pô không bỏ qua trạng thái nào khi đi từ trái sang phải Đây là cấu hình HMM thường được sử dụng để mô hình hóa các chuỗi tham số tiếng nói của một đơn vị lời nói (ví dụ như âm vị) vì trong thực

tế các tín hiệu tiếng nói có các thuộc tính biến đổi liên tiếp theo thời gian Trong cấu trúc HMM này, chỉ số trạng thái hoặc tăng hoặc không đổi khi chỉ số thời gian tăng lên Trong hình 2.3, HMM được giả định tạo ra chuỗi quan sát O= ( ,o o1 2, ,o T) , trong

đó có bốn quan sát đầu tiên được sinh ra từ trạng thái đầu tiên Quan sát ο t là một vector tham số tiếng nói D-chiều thu được sau khi tham số hóa khung phân tích tại chỉ

số thời gian t (ví dụ như vector tham số phổ gồm các hệ số mel-cepstral)

Đối với việc mô hình hóa dữ liệu quan sát liên tục theo nhiều chiều, chúng ta sử dụng mô hình HMM với phân bố xác suất liên tục, trong đó hàm phân bố xác suất sinh quan sát của một trạng thái thường được biểu diễn bằng hỗn hợp các phân bố Gaussian

đa biến như sau

trong đó M là số các thành phần Gaussian trong hỗn hợp; w jm, μ jm, và Σ jm là trọng

số, vector trung bình D-chiều, và ma trận hiệp phương sai của thành phần Gaussian m của trạng thái j, tương ứng Chức năng phân bố xác suất Gaussian (PDF)

22

Trang 29

Đối với việc sử dụng HMM trong mô hình hóa các hiện tượng thực tế, cần giải quyết một cách hiệu quả ba vấn đề sau đây, có các giải pháp toán học được trình bày chi tiết trong [3]:

• Vấn đề 1 (tính xác suất): cho một mô hình HMM , làm thế nào để tính

xác suấtP( | )O  của chuỗi quan sát

( , , , T)

=

• Vấn đề 2 (xác định chuỗi trạng thái tối ưu): cho một mô hình HMM , làm

thế nào để xác định chuỗi trạng thái tối ưu nhất q= ( ,q q1 2 , ,q T) đã sinh ra chuỗi quan sát O= ( ,o o1 2 , ,o T)?

• Vấn đề 3 (tính các tham số mô hình): cho chuỗi quan sát = O ( ,o o1 2 , ,o T), làm thế nào để xác định các tham số mô hình = A B π sao cho cực đại ( , , )

hóa xác xuất P( | )O  ?

b) Huấn luyện HMM theo tiêu chuẩn xác suất cực đại (maximum likelihood)

Không có lời giải cho vấn đề 3 (còn gọi là bài toán huấn luyện mô hình) để tìm

ra tập hợp tham số mô hình= A B π sao cho cực đại hoá xác suất toàn cục của một ( , , )

chuỗi quan sát cho trước O= ( ,o o1 2 , ,o T):

ˆ arg max ( | ) arg max ( , | )

2.3.2 Mô hình hoá F0 bằng HMM có phân bố xác suất đa không gian

Chúng ta mô hình hoá chuỗi tham số phổ có số chiều cố định dùng hàm phân bố xác suất Gauss liên tục Tuy nhiên, rất khó để sử dụng phân bố xác suất rời rạc hoặc liên tục để mô hình hoá một tham số có số chiều biến đổi như tần số cơ bản (F0) Đường F0

Trang 30

được trích xuất từ tín hiệu tiếng nói bao gồm các quan sát có giá trị thực đối với các đoạn tiếng nói hữu thanh hoặc có giá trị không xác định đối với các đoạn tiếng nói vô thanh Nói cách khác, chuỗi quan sát F0 bao gồm cả các giá trị liên tục (một chiều) thể hiện tiếng nói hữu thanh và các ký hiệu rời rạc (không chiều) biểu trưng cho tiếng nói vô thanh Để mô hình hóa chuỗi quan sát có số chiều thay đổi, HMM dùng phân bố xác suất đa không gian (Multi-space Probability Distribution - MSD) đã được đề xuất và áp dụng cho mô hình hóa đường F0 trong tổng hợp tiếng nói dựa trên HMM [3]

Hình 2.4 Mô hình hóa đường F0 trên hai không gian [3]

Hình 2.4 minh hoạ việc mô hình hoá đường F0 sử dụng phân bố xác suất đa không gian, trong đó quan sát F0 được giả định là sinh ra từ không gian một chiều 1

cho các đoạn tiếng nói hữu thanh hoặc không gian không chiều2 cho các đoạn tiếng nói vô thanh Mỗi không gian g có trọng số riêng của nów g và đáp ứng được sự ràng buộc xác suất:

(X, ),

=

trong đó X = 1 cho vùng hữu thanh và X = 0 cho vùng vô thanh Xác suất quan sát

o được xác định như sau:

với V( )o =x and S( )o =X Chú ý rằng N 2 ( ) 1x  để đơn giản ký hiệu

Bằng cách sử dụng mô hình HMM trong đó phân bố xác suất sinh quan sát của trạng thái là một MSD đã được xác định trong phương trình (2.13) (từ đây được gọi là

Trang 31

MSD-HMM), các quan sát F0 đối với các miền hữu thanh và vô thanh có thể được mô hình hoá trong một mô hình thống nhất mà không có giả thuyết heuristic [7] Hình 2.5 thể hiện cấu trúc của MSD-HMM cho việc mô hình hóa đường F0 Mỗi trạng thái có trọng số MSD (tức là trọng số hữu thanh/vô thanh) biểu diễn xác suất của âm hữu thanh và âm vô thanh, và một hàm phân bố xác suất liên tục cho các quan sát hữu thanh Việc huấn luyện MSD-HMM theo tiêu chuẩn cực đại hoá xác suất sử dụng thuật toán EM tương tự như của HMM với hàm mật độ xác suất liên tục

Hình 2.5 MSD-HMM cho mô hình hóa đường F0 [3]

Tuy nhiên, nếu phổ và F0 được mô hình hóa riêng biệt thì các đoạn tiếng nói có thể sẽ không thống nhất giữa chúng Để tránh vấn đề này, chúng được mô hình hóa một cách kết hợp bởi MSD-HMM đa luồng (multi-stream), trong đó phần phổ được

mô hình hoá bởi phân bố xác suất liên tục và phần F0 được mô hình hoá bởi MSD (Hình 2.6) Trong hình, c t, p

2.3.3 Tính toán đặc trưng động

Trong THTN dựa trên mô hình HMM, không chỉ tham số phổ và F0 (được gọi

là các đặc trưng tĩnh) mà còn các thành phần delta và delta-delta tương ứng của chúng (được gọi là các đặc trưng động) được mô hình hoá theo HMM Những đặc trưng này nắm bắt các thuộc tính động của quỹ đạo tham số âm thanh Do đó, việc tích hợp các đặc trưng động vào vector đặc trưng của khung tín hiệu tiếng nói là rất cần thiết cho việc mô hình hóa và sinh ra các quỹ đạo tham số Trong luận văn này đặc trưng động của tham số phổ được xác định như sau:

Trang 32

Tương tự, đặc trưng động của tham số F0 được xác định như sau:

Hình 2.6 Vector đặc trưng của khung tín hiệu [3]

2.3.4 Mô hình hoá trường độ

Trong THTN dựa trên mô hình HMM, nhịp điệu nhanh/chậm của tiếng nói tổng hợp được điều khiển bởi trường độ (hay độ dài) của các trạng thái HMM Trường độ của một trạng thái HMM là số lượng khung tín hiệu tiếng nói liên tiếp thuộc về (hay sinh ra bởi) trạng thái đó Vì chúng ta sử dụng một HMM có cấu trúc đi từ trái sang phải không bỏ qua trạng thái nào để mô hình hoá một âm vị, một trạng thái của HMM

có thể được coi là mô hình của một phần của âm vị (sub-phoneme) Để điều khiển linh hoạt trường độ của âm vị được tổng hợp, độ dài của mỗi trạng thái của HMM cũng được mô hình hóa bởi phân bố Gauss [3]

2.3.5 Mô hình hoá sự phụ thuộc ngữ cảnh và gom cụm ngữ cảnh

Sự thể hiện của các tham số âm thanh như phổ, nguồn kích thích, và trường độ trong tiếng nói tự nhiên bị ảnh hưởng bởi các yếu tố ngữ âm, ngữ điệu và ngôn ngữ học Các yếu tố làm ảnh hưởng đến các đặc trưng âm học của một âm vị được gọi là ngữ cảnh của âm vị đó Để có được tiếng nói tổng hợp chất lượng cao thì cần biểu diễn được tập hợp rất lớn các ngữ cảnh khác nhau Các ngữ cảnh được sử dụng rộng rãi cho tổng hợp tiếng nói bao gồm [3]:

Định dạng
Số trang	65
Dung lượng	2,64 MB