Ở Việt Nam, tổng hợp tiếng nói tiếng Việt dựa trên HMM đã và đang được nghiên cứu và triển khai những năm gần đây, với sự tham gia của FPT, trung tâm nghiên cứu của các trường Đại học, V
Trang 1ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA
LÊ VĂN THỨC
ỨNG DỤNG MÔ HÌNH MARKOV ẨN XÂY DỰNG
HỆ THỐNG TỔNG HỢP TIẾNG NÓI TIẾNG VIỆT
TÓM TẮT LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Đà Nẵng - 2018
Trang 2Công trình được hoàn thành tại TRƯỜNG ĐẠI HỌC BÁCH KHOA
Người hướng dẫn khoa học: TS Ninh Khánh Duy
Phản biện 1: TS Nguyễn Văn Hiệu
Phản biện 2: TS Lê Xuân Vinh
Luận văn được bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc
sĩ ngành Khoa học máy tính họp tại Trường Đại học Bách khoa vào
ngày 16 tháng 6 năm 2018
Có thể tìm hiểu luận văn tại:
- Trung tâm Học liệu, Đại học Đà Nẵng tại Trường Đại học Bách khoa
- Thư viện Khoa Công nghệ thông tin, Trường Đại học Bách khoa
Trang 3MỞ ĐẦU
1 Lý do chọn đề tài
Tổng hợp tiếng nói (Speech synthesis/Text-To-Speech) là một trong những lĩnh vực được nghiên cứu từ hàng chục năm nay, với mục đích giúp giao tiếp giữa người và máy (Human-Machine Interface) trở nên tự nhiên và dễ dàng hơn Tuy đã trải qua một chặng đường rất dài nhưng đến nay chất lượng âm thanh và độ tự nhiên của tiếng nói tổng hợp vẫn còn là chủ đề đáng quan tâm Vì được ứng dụng rộng rải, đặc biệt cho IoT nên bài toán tổng hợp tiếng nói đang được các hãng công nghệ lớn tham gia nghiên cứu và đầu tư
Tổng hợp tiếng nói có thể thực hiện theo nhiều phương pháp như: tổng hợp mô phỏng hệ thống phát âm, tổng hợp tần số formant, tổng hợp dựa trên ghép nối, tổng hợp theo mô hình Markov ẩn (Hidden Markov Model – HMM) Mỗi phương pháp đều có những
ưu nhược điểm riêng tuỳ vào mục đích sử dụng, nhưng chung quy lại thì bất kỳ phương pháp tổng hợp tiếng nói nào cũng có mục đích căn bản là tạo ra tiếng nói chất lượng dễ hiểu và tự nhiên
Từ năm 2000, tổng hợp tiếng nói dựa trên HMM được nghiên cứu và ứng dụng mạnh mẽ trên thế giới Ở Việt Nam, tổng hợp tiếng nói tiếng Việt dựa trên HMM đã và đang được nghiên cứu và triển khai những năm gần đây, với sự tham gia của FPT, trung tâm nghiên cứu của các trường Đại học, Viện Công nghệ thông tin, Viện Hàn lâm khoa học và Công nghệ Việt Nam và đến nay đã đạt được các kết quả tương đối khả quan
Nhằm tìm hiểu công nghệ tổng hợp tiếng nói dựa trên HMM và
áp dụng cho tiếng Việt, tôi chọn đề tài nghiên cứu là: “Ứng dụng mô hình Markov ẩn xây dựng hệ thống tổng hợp tiếng nói tiếng Việt”
2 Mục đích và ý nghĩa đề tài
a Mục đích
- Nghiên cứu lý thuyết HMM và ứng dụng của nó trong tổng hợp tiếng nói
Trang 4- Xây dựng và cài đặt hệ thống tổng hợp tiếng nói tiếng Việt dựa trên HMM
b Ý nghĩa khoa học và thực tiễn của đề tài
- Đóng góp vào lĩnh vực nghiên cứu ứng dụng tổng hợp tiếng nói cho tiếng Việt
- Dựa vào kết quả nghiên cứu có thể xây dựng các chương trình tổng hợp tiếng nói tiếng việt ứng dụng cho người tàn tật, trong truyền thông,
3 Mục tiêu và nhiệm vụ
a Mục tiêu
Mục tiêu của đề tài là nghiên cứu mô hình Markov ẩn và ứng dụng vào tổng hợp tiếng nói tiếng Việt, cụ thể:
- Nghiên cứu mô hình Markov ẩn
- Xây dựng chương trình tổng hợp tiếng nói tiếng việt
b Nhiệm vụ
Để đạt được mục tiêu đề ra thì nhiệm vụ cần thiết phải làm là:
- Nghiên cứu lý thuyết mô hình Markov ẩn (HMM) và ứng dụng của HMM trong tổng hợp tiếng nói
- Tìm hiểu các đặc trưng về ngữ âm và âm vị của tiếng Việt
- Tìm hiểu HTS (HMM-based speech synthesis system) toolkit cho tổng hợp tiếng nói
- Cài đặt chương trình huấn luyện HMM từ dữ liệu tiếng nói
- Cài đặt chương trình chuyển văn bản thành tiếng nói gồm 2 mô-đun: phân tích văn bản (chuyển văn bản thành biểu diễn ngôn ngữ) và tổng hợp tiếng nói dùng HMM (chuyển biểu diễn ngôn ngữ thành tín hiệu tiếng nói)
- Đánh giá độ tự nhiên và dễ hiểu của tiếng nói tổng hợp được
4 Đối tượng và phạm vi nghiên cứu
a Đối tượng
- Các đặc trưng ngữ âm học và âm vị học của tiếng Việt
Trang 5- Các đặc trưng của tín hiệu tiếng nói (phổ, tần số cơ bản,…)
- Các thuật toán học máy dùng HMM và sinh tín hiệu tiếng nói từ HMM
b Phạm vị
Tiếng Việt
5 Phương pháp nghiên cứu
Phương pháp nghiên cứu chính là kết hợp giữa nghiên cứu lý thuyết và thực nghiệm
a Phương pháp lý thuyết
- Thu thập và tổng hợp tài liệu thông qua các bài báo, tạp chí khoa học, qua trao đổi với thầy hướng dẫn
- Tìm hiểu các công nghệ liên quan
- Tìm hiểu và đánh giá các phương pháp đã áp dụng
a Kết quả của đề tài
- Nắm vững cơ sở lý thuyết tổng hợp tiếng nói nói chung và tổng hợp tiếng nói tiếng Việt nói riêng
- Nắm vững cơ sở lý thuyết HMM
- Đề xuất phương pháp tổng hợp tiếng nói tiếng Việt dựa trên HMM
- Xây dựng hệ thống tổng hợp tiếng nói tiếng Việt
b Hướng phát triển của đề tài
- Nghiên cứu các phương pháp cải tiến chất lượng tiếng nói: thuật toán trích đặc trưng tín hiệu, thuật toán huấn luyện HMM
- Xây dựng các ứng dụng của tổng hợp tiếng nói: đọc báo
Trang 6cho người khiếm thị, chuyển e-book thành sách nói (audiobook)
7 Cấu trúc luận văn
Chương 1: Tổng quan về xử lý tiếng nói
Chương 2: Tổng hợp tiếng nói từ văn bản dựa trên mô hình Markov ẩn
Chương 3: Xây dựng hệ thống tổng hợp tiếng nói tiếng Việt Chương 4: Kết quả thực nghiệm
Chương 1 - TỔNG QUAN VỀ XỬ LÝ TIẾNG NÓI 1.1 Giới thiệu
Tiếng nói là phương tiện giao tiếp cơ bản giữa người với người, kể từ khi công nghệ xử lý tiếng nói phát triển thì con người còn có thế giao tiếp được với máy thay thế cho những phương pháp giao tiếp thông qua các thiết bị giao tiếp như bàn phím, chuột, màn hình, … Vì vậy vấn đề xử lý tiếng nói đóng vai trò quan trọng trong vấn đề giao tiếp này Trên thế giới, lĩnh vực xử lý tiếng nói đã được nghiên cứu và phát triển từ những năm 1971 và đã đạt nhiều thành tựa nhất định, tuy nhiên, đối với tiếng Việt thì mới chỉ được nghiên cứu phát triển trong khoảng 10 năm trở lại đây Những nghiên cứu này liên quan trực tiếp tới các kết quả của chuyên ngành xử lý tiếng nói, trong đó có tổng hợp tiếng nói Xử lý tiếng nói là sự nghiên cứu
về tín hiệu tiếng nói của con người và các phương pháp xử lý tín hiệu tiếng nói Tín hiệu tiếng nói thường được biểu diễn dưới dạng số do việc xử lý tiếng nói bao gồm xử lý tín hiệu số và xử lý ngôn ngữ tự nhiên
1.2 Ngữ âm Tiếng Việt
1.2.1 Âm vị
Về mặt ngôn ngữ học, có thể xem tiếng nói là một chuỗi các
âm cơ bản được gọi là âm vị Âm vị là đơn vị ngôn ngữ trừu tượng và không thể quan sát trực tiếp trong tín hiệu tiếng nói Nhiều âm vị khác nhau kết hợp với nhau một cách nào đó để tạo ra những âm
Trang 7thanh khác nhau
1.2.2 Nguyên âm
Nguyên âm được xác định bởi hốc cộng hưởng khoang miệng
và hốc yết hầu-nguồn gốc của các Formant Việc xác định thể tích, hình dáng, lối thoát không khí của những hốc cộng hưởng này, tức xác định khả năng cộng hưởng của chúng, chính là mô tả độ mở của
miệng, vị trí của lưỡi và hình dáng của môi
1.2.3 Phụ âm
Đặc điểm cơ bản của phụ âm là sự cấu tạo bằng luồng không khí bị cản trở, sự cản trở này diễn ra với những mức độ khác nhau, cách thức khác nhau và ở những bộ phận khác nhau của cơ quan phát
âm Phụ âm đuợc chia ra phụ âm tắc (như „p‟, „t‟, „đ‟, „b‟) và phụ âm xát (như „v‟, „s‟, „x‟)
1.2.4 Cấu trúc âm tiết
Mỗi âm tiết trong tiếng Việt là một khối hoàn chỉnh trong phát
âm Âm tiết tuy phát âm liền một hơi nhưng có cấu tạo ghép chứa ba
bộ phận: thanh điệu, phần đầu(âm đầu) và phần sau(Vần)
Bảng sau đây sẽ cho chúng ta hình dung rõ về cấu tạo âm tiết tiếng Việt:
Bảng 1.1 Cấu trúc của một âm tiết trong tiếng Việt
Thanh điệu (Tone)
(Initial)
Vần (Final)
Âm đệm (Onset)
Âm chính (Nucleus)
Âm cuối (Coda)
1.2.5 Ánh xạ chữ cái sang âm vị
Trong tiếng Việt, để phân tích một âm tiết (dạng text) thành chuỗi âm vị, ta phải xây dựng bảng ánh xạ chữ cái sang âm vị dựa trên tài liệu chuẩn về ngữ âm tiếng Việt
Bảng 1.2 Bảng ánh xạ chữ cái sang âm vị của tiếng Việt
Trang 8tế IPA)
Âm vị (tự mã hoá)
Trang 9tế IPA)
Âm vị (tự mã hoá)
ươ ɯ ɤ WoU lươn
ưa ɯ ɤ WoU lựa
o ɔ, ɔ O, Os to, vòng
a ɛ , a, ă Es, a, as xanh, ba, hay
Bảng trên là cơ sở để đưa ra thuật toán chuyển âm tiết thành chuỗi âm vị ở phần 3.1.6
1.3 Phân loại âm vị theo đặc trưng âm học
Vì âm thanh phát ra từ sự kết hợp của rất nhiều bộ phận, do đó
âm thanh ở mỗi lần nói khác nhau hầu như khác nhau dẫn đến khá khó khăn khi ta muốn phân chia tiếng nói theo những đặc tính riêng Người ta chỉ chia tiếng nói thành 2 loại cơ bản như sau:
Trang 101.3.1 Âm hữu thanh
Là âm khi phát ra thì có thanh, ví dụ như chúng ta nói “i”, “a”, hay “o” chẳng hạn Trong ngôn ngữ, các nguyên âm về bản chất âm học là những âm hữu thanh
1.3.2 Âm vô thanh
Được tạo ra khi dây thanh âm không rung Có hai loại âm vô thanh cơ bản: âm xát và âm bật hơi
Đối với âm xát, ví dụ khi nói “s”, “x”, một số điểm trên bộ
phận phát âm bị co lại khi luồng không khí đi ngang qua nó, hỗn loạn xảy ra tạo nên nhiễu ngẫu nhiên
Đối với âm bật hơi, như khi ta nói „h‟ trong hung?, hỗn loạn
xảy ra ở gần thanh môn khi dây thanh âm bị giữ nhẹ một phần Trường hợp này, cộng hưởng của bộ phận phát âm sẽ biến điệu phổ của nhiễu ngẫu nhiên Hiệu ứng này có thể nghe rõ khi nói thì thầm Cấu tạo cơ bản của phụ âm trong mọi ngôn ngữ là âm vô thanh
1.4 Các thành phần cơ bản của ngữ điệu trong tiếng nói
1.4.1 Cao độ (pitch hoặc f0)
Trong số các yếu tố ngôn điệu, sự thay đổi cao độ là rõ ràng,
dễ thấy nhất Các thay đổi này hợp thành đường cao độ của lời nói (hay đường F0 của tín hiệu tiếng nói)
1.4.2 Trường độ
Trường độ trong ngôn điệu quan tâm đến độ dài của câu, của
từ, của âm tiết, và của từng âm vị của âm tiết Độ dài của âm tiết và lời nói phụ thuộc (phụ thuộc hoặc phụ thuộc lẫn nhau) vào một số yếu tố như tốc độ nói, nhịp điệu, bản chất ngữ âm,
1.4.3 Cường độ
Là một thuộc tính ngôn điệu đã được mô tả từ những nghiên cứu đầu tiên về ngôn điệu trong ngữ âm học Người ta cho rằng nó liên quan đến âm lượng (loudness) cũng như các lực âm vị (phonology force)
1.5 Phân tích tiếng nói
Trang 111.5.1 Mô hình phân tích tiếng nói
Tín hiệu tiếng nói được tiền xử lý bằng cách cho qua một bộ lọc thông thấp với tần số cắt khoảng 8kHz Tín hiệu thu được sau đó được thực hiện quá trình biến đổi sang dạng tín hiệu số nhờ bộ biến đổi ADC Thông thường, tần số lấy mẫu bằng 16kHz với tốc độ bít lượng từ hóa là 16bit Tín hiệu tiếng nói dạng số được phân khung với chiều dài khung thường khoảng 30ms và khoảng lệch các khung thường bằng 10ms Khung phân tích tín hiệu sau đó được chỉnh biên bằng cách lấy cửa sổ với các hàm cửa sổ phổ biến như Hamming, Hanning Tín hiệu thu được sau khi lấy cửa sổ được đưa vào phân tích với các phương pháp phân tích phổ (chẳng hạn như STFT, LPC, ) Hoặc sau khi phân tích phổ cơ bản, tiếp tục được đưa đến các khối để trích chọn các đặc trưng
Hình 1.1 Mô hình tổng quát của việc xử lý tín hiệu tiếng nói
1.5.2 Phân tích tiếng nói ngắn hạn
Việc thực hiện phân tích ngắn hạn tức là xem xét tín hiệu trong một khoảng nhỏ thời gian xung quanh thời điểm đang xét n nào đó Các khoảng này thường khoảng từ 10-30ms Điều này cho phép
Trang 12chúng ta giả thiết rằng trong khoảng thời gian đó các tính chất của dạng sóng tín hiệu tiếng nói là tương đối ổn định Khoảng nhỏ tín hiệu dùng để phân tích thường được gọi là một khung (frame), hay một đoạn (segment)
1.6 Các tham số cơ bản của tiếng hiệu tiếng nói
1.6.1 Tần số formant
Các formant là các tần số cộng hưởng của tuyến âm (vocal tract), nó thường được thể hiện trong các biểu diễn phổ chẳng hạn như trong biểu diễn spectrogram như là một vùng có năng lượng cao,
và chúng biến đổi chậm theo thời gian theo hoạt động của bộ máy phát âm
a) Xác định formant từ phân tích STFT
Các phân tích STFT tương tự và rời rạc đã trở thành một công
cụ cơ bản cho nhiều phát triển trong phân tích và tổng hợp tín hiệu tiếng nói Dễ dàng thấy STFT trực tiếp chứa các thông tin về formant ngay trong biên độ phổ
b) Xác định formant từ phân tích LPC
Một lợi điểm khi sử dụng phương pháp phân tích LPC để phân tích formant là tần số trung tâm của các formant và băng tần của chúng có thể xác định được một cách chính xác thông qua việc phân tích nhân tử đa thức dự đoán
Trang 13Chương 2 - TỔNG HỢP TIẾNG NÓI TỪ VĂN BẢN DỰA
TRÊN MÔ HÌNH MARKOV ẨN 2.1 Giới thiệu
Một hệ thống THTN dựa trên mô hình HMM điển hình bao gồm hai phần: huấn luyện mô hình (training) và tổng hợp tiếng nói (synthesis), được thể hiện như trong hình 2.1 Trong phần huấn luyện, trước tiên các tham số phổ (ví dụ như các hệ số mel-cepstral)
và tham số kích thích (ví dụ như tần số cơ bản F0) được trích xuất từ
dữ liệu tiếng nói mẫu Sau đó các tham số đã được trích xuất được
mô hình hóa bằng các mô hình HMM phụ thuộc ngữ cảnh Mô hình trường độ phụ thuộc ngữ cảnh cũng được tính toán trong giai đoạn này Trong phần tổng hợp, văn bản đầu vào được cắt thành từng câu
và mỗi câu được chuyển thành một chuỗi các nhãn âm vị phụ thuộc ngữ cảnh nhờ mô-đun phân tích văn bản Sau đó, một HMM mức câu được tạo ra bằng cách ghép nối các HMM mức âm vị phụ thuộc ngữ cảnh lại với nhau Các tham số tiếng nói (phổ, nguồn kích thích, trường độ) được sinh ra từ HMM mức câu bằng thuật toán tạo tham
số dựa trên tiêu chuẩn xác suất cực đại Cuối cùng, tín hiệu tiếng nói được tổng hợp trực tiếp từ các tham số phổ và nguồn kích thích sử dụng bộ lọc tổng hợp tiếng nói
Hình 2.1 Tổng hợp tiếng nói dựa trên mô hình Markov ẩn
Trang 142.2 Framework phân tích/tổng hợp tiếng nói
Trong mô hình này, tín hiệu tiếng nói được giả định là đầu ra của một hệ thống (còn gọi là bộ lọc) tuyến tính bất biến theo thời gian, hệ thống này bị kích thích bởi tín hiệu kích thích (còn gọi là nguồn) bằng cách luân phiên thay đổi giữa một trong hai nguồn: xung tuần hoàn cho âm hữu thanh (voiced speech) và nhiễu trắng cho
âm vô thanh (unvoiced speech) Tín hiệu kích thích e n ( ) mô phỏng cho luồng không khí ở dây thanh âm (bộ phận phát ra tiếng nói của thanh quản), trong khi đó bộ lọc h n ( ) sẽ mô phỏng hiệu ứng cộng hưởng của tuyến âm (vocal tract) trong quá trình phát âm của con người Để tạo ra một tín hiệu tiếng nói giống với tiếng nói tự nhiên, nguồn kích thích và các thuộc tính của bộ lọc tuyến âm phải thay đổi theo thời gian
Hình 2.2 Mô hình nguồn-bộ lọc mô phỏng cách con
Hình 2.3 người phát âm
Để tổng hợp tiếng nói từ các tham số nguồn kích thích và tham
số phổ, một bộ lọc tổng hợp phải được xây dựng dựa trên các hệ số phổ mel-cepstral Ở đây, bộ lọc MLSA (Mel Log Spectrum Approximation) được sử dụng để tổng hợp tín hiệu tiếng nói từ các
hệ số mel-cepstra đã thu được
2.3 Giai đoạn huấn luyện mô hình
Phần này mô tả cách các tham số phổ, F0 và trường độ được
mô hình hoá đồng thời trên một nền tảng hợp nhất của mô hình HMM theo tiêu chuẩn cực đại hoá xác suất (Maximum Likelihood)