ỨNG DỤNG MƠ HÌNH MARKOV ẨN XÂY DỰNG HỆ THỐNG TỔNG HỢP TIẾNG NÓI TIẾNG VIỆT TÓM TẮT LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Ở Việt Nam, tổng hợp tiếng nói tiếng Việt dựa trên HMM đã và đang được nghiên cứu và triển khai những năm gần đây, với sự tham gia của FPT, trung tâm nghiên cứu của các trường Đại học, V

Trang 1

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA

LÊ VĂN THỨC

ỨNG DỤNG MÔ HÌNH MARKOV ẨN XÂY DỰNG

HỆ THỐNG TỔNG HỢP TIẾNG NÓI TIẾNG VIỆT

TÓM TẮT LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Đà Nẵng - 2018

Trang 2

Công trình được hoàn thành tại TRƯỜNG ĐẠI HỌC BÁCH KHOA

Người hướng dẫn khoa học: TS Ninh Khánh Duy

Phản biện 1: TS Nguyễn Văn Hiệu

Phản biện 2: TS Lê Xuân Vinh

Luận văn được bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc

sĩ ngành Khoa học máy tính họp tại Trường Đại học Bách khoa vào

ngày 16 tháng 6 năm 2018

Có thể tìm hiểu luận văn tại:

- Trung tâm Học liệu, Đại học Đà Nẵng tại Trường Đại học Bách khoa

- Thư viện Khoa Công nghệ thông tin, Trường Đại học Bách khoa

Trang 3

MỞ ĐẦU

1 Lý do chọn đề tài

Tổng hợp tiếng nói (Speech synthesis/Text-To-Speech) là một trong những lĩnh vực được nghiên cứu từ hàng chục năm nay, với mục đích giúp giao tiếp giữa người và máy (Human-Machine Interface) trở nên tự nhiên và dễ dàng hơn Tuy đã trải qua một chặng đường rất dài nhưng đến nay chất lượng âm thanh và độ tự nhiên của tiếng nói tổng hợp vẫn còn là chủ đề đáng quan tâm Vì được ứng dụng rộng rải, đặc biệt cho IoT nên bài toán tổng hợp tiếng nói đang được các hãng công nghệ lớn tham gia nghiên cứu và đầu tư

Tổng hợp tiếng nói có thể thực hiện theo nhiều phương pháp như: tổng hợp mô phỏng hệ thống phát âm, tổng hợp tần số formant, tổng hợp dựa trên ghép nối, tổng hợp theo mô hình Markov ẩn (Hidden Markov Model – HMM) Mỗi phương pháp đều có những

ưu nhược điểm riêng tuỳ vào mục đích sử dụng, nhưng chung quy lại thì bất kỳ phương pháp tổng hợp tiếng nói nào cũng có mục đích căn bản là tạo ra tiếng nói chất lượng dễ hiểu và tự nhiên

Từ năm 2000, tổng hợp tiếng nói dựa trên HMM được nghiên cứu và ứng dụng mạnh mẽ trên thế giới Ở Việt Nam, tổng hợp tiếng nói tiếng Việt dựa trên HMM đã và đang được nghiên cứu và triển khai những năm gần đây, với sự tham gia của FPT, trung tâm nghiên cứu của các trường Đại học, Viện Công nghệ thông tin, Viện Hàn lâm khoa học và Công nghệ Việt Nam và đến nay đã đạt được các kết quả tương đối khả quan

Nhằm tìm hiểu công nghệ tổng hợp tiếng nói dựa trên HMM và

áp dụng cho tiếng Việt, tôi chọn đề tài nghiên cứu là: “Ứng dụng mô hình Markov ẩn xây dựng hệ thống tổng hợp tiếng nói tiếng Việt”

2 Mục đích và ý nghĩa đề tài

a Mục đích

- Nghiên cứu lý thuyết HMM và ứng dụng của nó trong tổng hợp tiếng nói

Trang 4

- Xây dựng và cài đặt hệ thống tổng hợp tiếng nói tiếng Việt dựa trên HMM

b Ý nghĩa khoa học và thực tiễn của đề tài

- Đóng góp vào lĩnh vực nghiên cứu ứng dụng tổng hợp tiếng nói cho tiếng Việt

- Dựa vào kết quả nghiên cứu có thể xây dựng các chương trình tổng hợp tiếng nói tiếng việt ứng dụng cho người tàn tật, trong truyền thông,

3 Mục tiêu và nhiệm vụ

a Mục tiêu

Mục tiêu của đề tài là nghiên cứu mô hình Markov ẩn và ứng dụng vào tổng hợp tiếng nói tiếng Việt, cụ thể:

- Nghiên cứu mô hình Markov ẩn

- Xây dựng chương trình tổng hợp tiếng nói tiếng việt

b Nhiệm vụ

Để đạt được mục tiêu đề ra thì nhiệm vụ cần thiết phải làm là:

- Nghiên cứu lý thuyết mô hình Markov ẩn (HMM) và ứng dụng của HMM trong tổng hợp tiếng nói

- Tìm hiểu các đặc trưng về ngữ âm và âm vị của tiếng Việt

- Tìm hiểu HTS (HMM-based speech synthesis system) toolkit cho tổng hợp tiếng nói

- Cài đặt chương trình huấn luyện HMM từ dữ liệu tiếng nói

- Cài đặt chương trình chuyển văn bản thành tiếng nói gồm 2 mô-đun: phân tích văn bản (chuyển văn bản thành biểu diễn ngôn ngữ) và tổng hợp tiếng nói dùng HMM (chuyển biểu diễn ngôn ngữ thành tín hiệu tiếng nói)

- Đánh giá độ tự nhiên và dễ hiểu của tiếng nói tổng hợp được

4 Đối tượng và phạm vi nghiên cứu

a Đối tượng

- Các đặc trưng ngữ âm học và âm vị học của tiếng Việt

Trang 5

- Các đặc trưng của tín hiệu tiếng nói (phổ, tần số cơ bản,…)

- Các thuật toán học máy dùng HMM và sinh tín hiệu tiếng nói từ HMM

b Phạm vị

Tiếng Việt

5 Phương pháp nghiên cứu

Phương pháp nghiên cứu chính là kết hợp giữa nghiên cứu lý thuyết và thực nghiệm

a Phương pháp lý thuyết

- Thu thập và tổng hợp tài liệu thông qua các bài báo, tạp chí khoa học, qua trao đổi với thầy hướng dẫn

- Tìm hiểu các công nghệ liên quan

- Tìm hiểu và đánh giá các phương pháp đã áp dụng

a Kết quả của đề tài

- Nắm vững cơ sở lý thuyết tổng hợp tiếng nói nói chung và tổng hợp tiếng nói tiếng Việt nói riêng

- Nắm vững cơ sở lý thuyết HMM

- Đề xuất phương pháp tổng hợp tiếng nói tiếng Việt dựa trên HMM

- Xây dựng hệ thống tổng hợp tiếng nói tiếng Việt

b Hướng phát triển của đề tài

- Nghiên cứu các phương pháp cải tiến chất lượng tiếng nói: thuật toán trích đặc trưng tín hiệu, thuật toán huấn luyện HMM

- Xây dựng các ứng dụng của tổng hợp tiếng nói: đọc báo

Trang 6

cho người khiếm thị, chuyển e-book thành sách nói (audiobook)

7 Cấu trúc luận văn

Chương 1: Tổng quan về xử lý tiếng nói

Chương 2: Tổng hợp tiếng nói từ văn bản dựa trên mô hình Markov ẩn

Chương 3: Xây dựng hệ thống tổng hợp tiếng nói tiếng Việt Chương 4: Kết quả thực nghiệm

Chương 1 - TỔNG QUAN VỀ XỬ LÝ TIẾNG NÓI 1.1 Giới thiệu

Tiếng nói là phương tiện giao tiếp cơ bản giữa người với người, kể từ khi công nghệ xử lý tiếng nói phát triển thì con người còn có thế giao tiếp được với máy thay thế cho những phương pháp giao tiếp thông qua các thiết bị giao tiếp như bàn phím, chuột, màn hình, … Vì vậy vấn đề xử lý tiếng nói đóng vai trò quan trọng trong vấn đề giao tiếp này Trên thế giới, lĩnh vực xử lý tiếng nói đã được nghiên cứu và phát triển từ những năm 1971 và đã đạt nhiều thành tựa nhất định, tuy nhiên, đối với tiếng Việt thì mới chỉ được nghiên cứu phát triển trong khoảng 10 năm trở lại đây Những nghiên cứu này liên quan trực tiếp tới các kết quả của chuyên ngành xử lý tiếng nói, trong đó có tổng hợp tiếng nói Xử lý tiếng nói là sự nghiên cứu

về tín hiệu tiếng nói của con người và các phương pháp xử lý tín hiệu tiếng nói Tín hiệu tiếng nói thường được biểu diễn dưới dạng số do việc xử lý tiếng nói bao gồm xử lý tín hiệu số và xử lý ngôn ngữ tự nhiên

1.2 Ngữ âm Tiếng Việt

1.2.1 Âm vị

Về mặt ngôn ngữ học, có thể xem tiếng nói là một chuỗi các

âm cơ bản được gọi là âm vị Âm vị là đơn vị ngôn ngữ trừu tượng và không thể quan sát trực tiếp trong tín hiệu tiếng nói Nhiều âm vị khác nhau kết hợp với nhau một cách nào đó để tạo ra những âm

Trang 7

thanh khác nhau

1.2.2 Nguyên âm

Nguyên âm được xác định bởi hốc cộng hưởng khoang miệng

và hốc yết hầu-nguồn gốc của các Formant Việc xác định thể tích, hình dáng, lối thoát không khí của những hốc cộng hưởng này, tức xác định khả năng cộng hưởng của chúng, chính là mô tả độ mở của

miệng, vị trí của lưỡi và hình dáng của môi

1.2.3 Phụ âm

Đặc điểm cơ bản của phụ âm là sự cấu tạo bằng luồng không khí bị cản trở, sự cản trở này diễn ra với những mức độ khác nhau, cách thức khác nhau và ở những bộ phận khác nhau của cơ quan phát

âm Phụ âm đuợc chia ra phụ âm tắc (như „p‟, „t‟, „đ‟, „b‟) và phụ âm xát (như „v‟, „s‟, „x‟)

1.2.4 Cấu trúc âm tiết

Mỗi âm tiết trong tiếng Việt là một khối hoàn chỉnh trong phát

âm Âm tiết tuy phát âm liền một hơi nhưng có cấu tạo ghép chứa ba

bộ phận: thanh điệu, phần đầu(âm đầu) và phần sau(Vần)

Bảng sau đây sẽ cho chúng ta hình dung rõ về cấu tạo âm tiết tiếng Việt:

Bảng 1.1 Cấu trúc của một âm tiết trong tiếng Việt

Thanh điệu (Tone)

(Initial)

Vần (Final)

Âm đệm (Onset)

Âm chính (Nucleus)

Âm cuối (Coda)

1.2.5 Ánh xạ chữ cái sang âm vị

Trong tiếng Việt, để phân tích một âm tiết (dạng text) thành chuỗi âm vị, ta phải xây dựng bảng ánh xạ chữ cái sang âm vị dựa trên tài liệu chuẩn về ngữ âm tiếng Việt

Bảng 1.2 Bảng ánh xạ chữ cái sang âm vị của tiếng Việt

Trang 8

tế IPA)

Âm vị (tự mã hoá)

Trang 9

tế IPA)

Âm vị (tự mã hoá)

ươ ɯ ɤ WoU lươn

ưa ɯ ɤ WoU lựa

o ɔ, ɔ O, Os to, vòng

a ɛ , a, ă Es, a, as xanh, ba, hay

Bảng trên là cơ sở để đưa ra thuật toán chuyển âm tiết thành chuỗi âm vị ở phần 3.1.6

1.3 Phân loại âm vị theo đặc trưng âm học

Vì âm thanh phát ra từ sự kết hợp của rất nhiều bộ phận, do đó

âm thanh ở mỗi lần nói khác nhau hầu như khác nhau dẫn đến khá khó khăn khi ta muốn phân chia tiếng nói theo những đặc tính riêng Người ta chỉ chia tiếng nói thành 2 loại cơ bản như sau:

Trang 10

1.3.1 Âm hữu thanh

Là âm khi phát ra thì có thanh, ví dụ như chúng ta nói “i”, “a”, hay “o” chẳng hạn Trong ngôn ngữ, các nguyên âm về bản chất âm học là những âm hữu thanh

1.3.2 Âm vô thanh

Được tạo ra khi dây thanh âm không rung Có hai loại âm vô thanh cơ bản: âm xát và âm bật hơi

Đối với âm xát, ví dụ khi nói “s”, “x”, một số điểm trên bộ

phận phát âm bị co lại khi luồng không khí đi ngang qua nó, hỗn loạn xảy ra tạo nên nhiễu ngẫu nhiên

Đối với âm bật hơi, như khi ta nói „h‟ trong hung?, hỗn loạn

xảy ra ở gần thanh môn khi dây thanh âm bị giữ nhẹ một phần Trường hợp này, cộng hưởng của bộ phận phát âm sẽ biến điệu phổ của nhiễu ngẫu nhiên Hiệu ứng này có thể nghe rõ khi nói thì thầm Cấu tạo cơ bản của phụ âm trong mọi ngôn ngữ là âm vô thanh

1.4 Các thành phần cơ bản của ngữ điệu trong tiếng nói

1.4.1 Cao độ (pitch hoặc f0)

Trong số các yếu tố ngôn điệu, sự thay đổi cao độ là rõ ràng,

dễ thấy nhất Các thay đổi này hợp thành đường cao độ của lời nói (hay đường F0 của tín hiệu tiếng nói)

1.4.2 Trường độ

Trường độ trong ngôn điệu quan tâm đến độ dài của câu, của

từ, của âm tiết, và của từng âm vị của âm tiết Độ dài của âm tiết và lời nói phụ thuộc (phụ thuộc hoặc phụ thuộc lẫn nhau) vào một số yếu tố như tốc độ nói, nhịp điệu, bản chất ngữ âm,

1.4.3 Cường độ

Là một thuộc tính ngôn điệu đã được mô tả từ những nghiên cứu đầu tiên về ngôn điệu trong ngữ âm học Người ta cho rằng nó liên quan đến âm lượng (loudness) cũng như các lực âm vị (phonology force)

1.5 Phân tích tiếng nói

Trang 11

1.5.1 Mô hình phân tích tiếng nói

Tín hiệu tiếng nói được tiền xử lý bằng cách cho qua một bộ lọc thông thấp với tần số cắt khoảng 8kHz Tín hiệu thu được sau đó được thực hiện quá trình biến đổi sang dạng tín hiệu số nhờ bộ biến đổi ADC Thông thường, tần số lấy mẫu bằng 16kHz với tốc độ bít lượng từ hóa là 16bit Tín hiệu tiếng nói dạng số được phân khung với chiều dài khung thường khoảng 30ms và khoảng lệch các khung thường bằng 10ms Khung phân tích tín hiệu sau đó được chỉnh biên bằng cách lấy cửa sổ với các hàm cửa sổ phổ biến như Hamming, Hanning Tín hiệu thu được sau khi lấy cửa sổ được đưa vào phân tích với các phương pháp phân tích phổ (chẳng hạn như STFT, LPC, ) Hoặc sau khi phân tích phổ cơ bản, tiếp tục được đưa đến các khối để trích chọn các đặc trưng

Hình 1.1 Mô hình tổng quát của việc xử lý tín hiệu tiếng nói

1.5.2 Phân tích tiếng nói ngắn hạn

Việc thực hiện phân tích ngắn hạn tức là xem xét tín hiệu trong một khoảng nhỏ thời gian xung quanh thời điểm đang xét n nào đó Các khoảng này thường khoảng từ 10-30ms Điều này cho phép

Trang 12

chúng ta giả thiết rằng trong khoảng thời gian đó các tính chất của dạng sóng tín hiệu tiếng nói là tương đối ổn định Khoảng nhỏ tín hiệu dùng để phân tích thường được gọi là một khung (frame), hay một đoạn (segment)

1.6 Các tham số cơ bản của tiếng hiệu tiếng nói

1.6.1 Tần số formant

Các formant là các tần số cộng hưởng của tuyến âm (vocal tract), nó thường được thể hiện trong các biểu diễn phổ chẳng hạn như trong biểu diễn spectrogram như là một vùng có năng lượng cao,

và chúng biến đổi chậm theo thời gian theo hoạt động của bộ máy phát âm

a) Xác định formant từ phân tích STFT

Các phân tích STFT tương tự và rời rạc đã trở thành một công

cụ cơ bản cho nhiều phát triển trong phân tích và tổng hợp tín hiệu tiếng nói Dễ dàng thấy STFT trực tiếp chứa các thông tin về formant ngay trong biên độ phổ

b) Xác định formant từ phân tích LPC

Một lợi điểm khi sử dụng phương pháp phân tích LPC để phân tích formant là tần số trung tâm của các formant và băng tần của chúng có thể xác định được một cách chính xác thông qua việc phân tích nhân tử đa thức dự đoán

Trang 13

Chương 2 - TỔNG HỢP TIẾNG NÓI TỪ VĂN BẢN DỰA

TRÊN MÔ HÌNH MARKOV ẨN 2.1 Giới thiệu

Một hệ thống THTN dựa trên mô hình HMM điển hình bao gồm hai phần: huấn luyện mô hình (training) và tổng hợp tiếng nói (synthesis), được thể hiện như trong hình 2.1 Trong phần huấn luyện, trước tiên các tham số phổ (ví dụ như các hệ số mel-cepstral)

và tham số kích thích (ví dụ như tần số cơ bản F0) được trích xuất từ

dữ liệu tiếng nói mẫu Sau đó các tham số đã được trích xuất được

mô hình hóa bằng các mô hình HMM phụ thuộc ngữ cảnh Mô hình trường độ phụ thuộc ngữ cảnh cũng được tính toán trong giai đoạn này Trong phần tổng hợp, văn bản đầu vào được cắt thành từng câu

và mỗi câu được chuyển thành một chuỗi các nhãn âm vị phụ thuộc ngữ cảnh nhờ mô-đun phân tích văn bản Sau đó, một HMM mức câu được tạo ra bằng cách ghép nối các HMM mức âm vị phụ thuộc ngữ cảnh lại với nhau Các tham số tiếng nói (phổ, nguồn kích thích, trường độ) được sinh ra từ HMM mức câu bằng thuật toán tạo tham

số dựa trên tiêu chuẩn xác suất cực đại Cuối cùng, tín hiệu tiếng nói được tổng hợp trực tiếp từ các tham số phổ và nguồn kích thích sử dụng bộ lọc tổng hợp tiếng nói

Hình 2.1 Tổng hợp tiếng nói dựa trên mô hình Markov ẩn

Trang 14

2.2 Framework phân tích/tổng hợp tiếng nói

Trong mô hình này, tín hiệu tiếng nói được giả định là đầu ra của một hệ thống (còn gọi là bộ lọc) tuyến tính bất biến theo thời gian, hệ thống này bị kích thích bởi tín hiệu kích thích (còn gọi là nguồn) bằng cách luân phiên thay đổi giữa một trong hai nguồn: xung tuần hoàn cho âm hữu thanh (voiced speech) và nhiễu trắng cho

âm vô thanh (unvoiced speech) Tín hiệu kích thích e n ( ) mô phỏng cho luồng không khí ở dây thanh âm (bộ phận phát ra tiếng nói của thanh quản), trong khi đó bộ lọc h n ( ) sẽ mô phỏng hiệu ứng cộng hưởng của tuyến âm (vocal tract) trong quá trình phát âm của con người Để tạo ra một tín hiệu tiếng nói giống với tiếng nói tự nhiên, nguồn kích thích và các thuộc tính của bộ lọc tuyến âm phải thay đổi theo thời gian

Hình 2.2 Mô hình nguồn-bộ lọc mô phỏng cách con

Hình 2.3 người phát âm

Để tổng hợp tiếng nói từ các tham số nguồn kích thích và tham

số phổ, một bộ lọc tổng hợp phải được xây dựng dựa trên các hệ số phổ mel-cepstral Ở đây, bộ lọc MLSA (Mel Log Spectrum Approximation) được sử dụng để tổng hợp tín hiệu tiếng nói từ các

hệ số mel-cepstra đã thu được

2.3 Giai đoạn huấn luyện mô hình

Phần này mô tả cách các tham số phổ, F0 và trường độ được

mô hình hoá đồng thời trên một nền tảng hợp nhất của mô hình HMM theo tiêu chuẩn cực đại hoá xác suất (Maximum Likelihood)

Định dạng
Số trang	26
Dung lượng	1,04 MB