VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ Ngô Hoàng Huy NGHIÊN CỨU CÁC ĐẶC TRƯNG TÍN HIỆU VÀ RÀNG BUỘC NGÔN ĐIỆU ĐỂ NÂNG CAO CHẤT LƯỢNG TỔNG HỢP VÀ NHẬN DẠNG TIẾNG VIỆT Ch
Trang 1
VÀ CÔNG NGHỆ VIỆT NAM
HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
Ngô Hoàng Huy
NGHIÊN CỨU CÁC ĐẶC TRƯNG TÍN HIỆU VÀ RÀNG BUỘC NGÔN ĐIỆU ĐỂ NÂNG CAO CHẤT LƯỢNG TỔNG HỢP
VÀ NHẬN DẠNG TIẾNG VIỆT Chuyên ngành: Cơ sở Toán học cho Tin học
Mã số: 62 46 01 10
LUẬN ÁN TIẾN SĨ TOÁN HỌC
NGƯỜI HƯỚNG DẪN KHOA HỌC:
1 PGS.TS Lương Chi Mai
2 PGS.TS Ngô Quốc Tạo
Hà Nội – 2016
Trang 2Công trình được hoàn thành tại:
Viện Hàn lâm Khoa Học và Công Nghệ Việt Nam
Học viện Khoa học và Công nghệ
Người hướng dẫn khoa học: PGS.TS Lương Chi Mai
PGS.TS Ngô Quốc Tạo
Có thể tìm hiểu luận án tại:
- Thư viện Quốc gia Việt Nam
- Thư viện Học viện Khoa học và Công nghệ, Viện Hàn lâm Khoa học và Công nghệ Việt Nam.
Trang 3Phạm vi, nội dung, phương pháp nghiên cứu và kết cấu luận án
Cấu trúc tổng thể của luận án được chỉ ra trong Hình 1.2 và các chương còn lại của luận án được
tổ chức như sau:
Chương 1 Tổng quan về tổng hợp và nhận dạng tiếng nói
Chương 2 Xử lý tiếng nói và các mô hình học máy
Chương 3 Dự báo trường độ, âm lượng và tổng hợp thanh điệu tiếng việt
Chương 4 Kết hợp tham số cấu âm, formant và thanh điệu để nâng cao chất lượng nhận dạng tiếng Việt
Phụ lục
Trang 4cấu âm, formant và thanh
điệu để nâng cao chất
lượng nhận dạng tiếng
Việt
Tổng hợp tiếng nói Nhận dạng tiếng nói Các công trình đã xuất bản
liên quan
Xử lý tiếng nói
Mô hình dự báo CART
Mô hình Markov ẩn (HMM, Hidden Markov
Model)
Khảo sát một số đặc tính
âm học tiếng Việt
Dự báo thông tin trường
độ, âm lượng của âm tiết tiếng Việt trong ngữ cảnh câu, thử nghiệm đánh giá trong hệ thống tổng hợp tiếng Việt theo phương pháp ghép nối
Nhận dạng thanh điệu tiếng Việt
Đặc trưng MFCC với phép chuẩn hóa độ dài cấu âm VTLN kết hợp với F0
Hệ thống nhận dạng tiếng
Việt nhúng
Trang 5CHƯƠNG 1 TỔNG QUAN VỀ TỔNG HỢP VÀ NHẬN DẠNG TIẾNG NÓI
Chương này trình bày khái niệm tổng hợp và nhận dạng tiếng nói, khái quát về phạm vi ứng dụng của nhận dạng, tổng hợp tiếng nói trong cuộc sống Trong chương này, các phương pháp tiếp cận nhận dạng, tổng hợp tiếng nói hiện đại, so sánh những ưu, nhược điểm của từng phương pháp cũng được giới thiệu, từ đó đề xuất sử dụng các đặc trưng ngôn điệu để nâng cao chất lượng nhận dạng và tổng hợp tiếng Việt Phần tiếp theo của chương này, luận án đề cập đến những kiến thức cơ bản,liên quan đến xử lý tiếng nói, trích chọn đặc trưng và các mô hình học máy được sử dụng trong luận án gồm HMM và CART
1.1 Tổng hợp tiếng nói
Hình 1 1 Hệ thống TTS tổng quát
Nói chung quá trình Tổng hợp tiếng nói bao gồm các giai đoạn chính:
i) Chuẩn hóa văn bản và phân tích câu - xử lý ngôn ngữ tự nhiên
ii) Chuyển văn bản sang đơn vị tiếng nói
iii) Dự báo ngôn điệu
iv) Sinh tiếng nói
Câu tổng hợp chưa thay đổi trường độ/âm
lượng
“Tôi đang học nói tiếng Việt”
Thay đổi trường độ/âm lượng của câu
tổng hợp Hình 1 2 Xử lý ngôn điệu tiếng Việt
Trang 61.2 Nhận dạng tiếng nói
Độ phức tạp của hệ thống nhận dạng tiếng nói thường phụ thuộc vào các yếu tố cơ bản sau :
- Môi trường thu nhận tín
Hình 1.3 Liệt kê các kiểu hệ thống nhận dạng tiếng nói
Bảng 1 1 Các loại nhận dạng tiếng nói Chế độ nói : liên tục Từ vựng : vừa và nhỏ
Người nói : phụ thuộc và độc lập người nói Kiểu nói : tự nhiên và mệnh lệnh
Môi trường thu nhận tín hiệu
Độ chính xác nhận dạng trong các môi trương như : nhà ở-văn phòng; trong ô tô; trong môi trường công nghiệp; nguồn âm có khoảng cách với mic là rất khác nhau, nguyên nhân do tín hiệu nhiễu, tiếng vang gây ra
Bảng 1 2 Phân loại môi trường theo mức nhiễu
Sự phụ thuộc người nói
Trong hệ thống nhận dạng phụ thuộc người nói, chủ thể tương tác với hệ thống phải là người có dữ liệu tiếng nói trong tập dữ liệu huấn luyện ban đầu của hệ thống
Đối với hệ thống nhận dạng độc lập người nói, người tương tác với hệ thống có thể là bất
kỳ Hệ thống này đòi hỏi phải có một nguồn dữ liệu tiếng nói kích thước lớn của nhiều người nói Khả năng nhận dạng chính xác của hệ thống độc lập người nói thấp hơn hệ thống phụ thuộc người nói
Tài nguyên hệ thống
Tài nguyên hệ thống chủ yếu gồm năng lực tính toán và dung lượng bộ nhớ Các chip thường chỉ đủ đáp ứng yêu cầu tính toán chấm tĩnh, như vậy hệ thống nhận dạng nếu không được thiết kế tốt thì độ chính xác sẽ bị suy giảm hoặc không đáp ứng được yếu tố thời gian thực
CHƯƠNG 2 XỬ LÝ TIẾNG NÓI VÀ CÁC MÔ HÌNH HỌC MÁY
Trang 7Chương này trình bày tổng quan về các thuật toán khử nhiễu, mô hình học máy HMM và
CART
2.1 Xử lý tiếng nói
Một số loại nhiễu trong môi trường thực :
- Nhiễu hướng (Directional noise) : nhiễu từ hướng như âm TV, giọng nói v.v…
- Nhiễu khuếch tán (Diffuse noise): nhiễu môi trường, nền v.v
- Vang (Reverberation) : nhiễu do trễ khi phản xạ tường, trần nhà v.v…
- Nhiễu thiết bị : quạt tản nhiệt, cơ cấu chấp hành, mang cả tính hướng và khuếch tán
Hình 2 1 Quá trình hình thành tiếng nói nhiễu
Huấn luyện HMM :
Đầu vào gồm T frame các đặc trưng MFCC
Bước 1: Xác định đãy trạng thái tối ưu bằng
thuật toán Viterbi:
1
1 ({ } ) arg max log ( , )
T T
1
1
( , { } ) arg max log ( , )
T T
Các hệ nhận dạng tiếng nói thường tách đặc trưng từ tín hiệu bằng cách:chia tín hiệu thành
các đoạn độ dài 5-15 ms, mỗi đoạn gọi là một khung (frame) Mỗi frame sẽ cho đặc trưng là một
vector và đặc trưng của toàn bộ tín hiệu sẽ là một dãy vector MFCC là phương pháp trích đặc
trưng (theo thang tần số mel, không phải theo Hz) dựa trên đặc điểm cảm thụ tần số âm của tai
người: tuyến tính đối với tần số nhỏ hơn 1kHz và phi tuyến đối với tần số trên 1kHz Việc tính
đặc trưng MFCC có sơ đồ như sau
Trang 8Hình 2 2 Các băng lọc dạng tam giác
Kỹ thuật cộng chồng đồng bộ cao độ tần số cơ bản – PSOLA
PSOLA (Pitch Synchronous Overlap Add) là phương pháp tổng hợp dựa trên sự phân tích một tín hiệu thành một chuỗi các tín hiệu thành phần, được sử dụng để thay đổi giá trị đường F0
và trường độ trực tiếp trên dạng sóng tiếng nói
2.2 Mô hình dự báo CART
Các cây CART tự nó đã bao gồm các câu hỏi yes/no về các điểm đặc trưng và cuối cùng đưa ra một mật độ xác suât, khi dự đoán các giá trị xác thực (cây phân loại), hoặc một độ lệch tiêu chuẩn khi dự báo các giá trị liên tục (cây hồi quy) Các kỹ thuật tốt có thể được sử dụng để xây dựng một cây tối ưu từ tập dữ liệu huấn luyện Chương trình được phát triển liên kết với Festival, gọi là Wagon, cung cấp một phương thức cơ bản nhưng đủ mạnh cho việc xây dựng cây
2.3 Mô hình Markov ẩn (HMM, Hidden Markov Model)
Mô hình Markov ẩn được mở rộng khái niệm từ mô hình Markov bằng cách mỗi trạng thái được gắn với một hàm phát xạ quan sát (observation distribution) Ngoài quá trình ngẫu nhiên chuyển giữa các trạng thái, tại mỗi trạng thái còn có một quá trình ngẫu nhiên sinh ra một quan sát Như vậy trong Mô hình Markov ẩn có một quá trình ngẫu nhiên kép, trong đó có một quá
trình ngẫu nhiên không quan sát được Tập các quan sát O được sinh ra bởi dãy các trạng thái S 1 ,
S 2 , , S N của mô hình, mà dãy các trạng thái này là không thấy được, đó chính là lý do mô hình được gọi là mô hình Markov ẩn (hidden)
Mô hình HMM là một máy trạng thái sinh ra dãy quan sát thời gian rời rạc Tại mỗi đơn vị thời gian (frame), sự thay đổi trạng thái HMM theo xác suất chuyển trạng thái, sau đó sinh ra dãy quan sát Ot tại thời điểm t theo phân bố xác suất đầu ra của trạng thái hiện tại
Một HMM N trạng thái định nghĩa bởi phân bố xác suất chuyển trạng tháiA{a ij}N,j1, phân bố xác suất output B{b j(o)}N j1, phân bố xác suất trạng thái khởi
Nhận dạng tiếng nói với mô hình Markov ẩn
Các hệ thống nhận dạng dựa trên HMM thường sử dụng đặc trưng chuẩn MFCC và quy
trình huấn luyện và nhận dạng theo thuật toán sau:
Trang 9Bảng 2 1 Thuật toán nhận dạng tiếng nói dựa trên HMM với đặc trưng MFCC
Huấn luyện HMM :
Đầu vào gồm T frame các đặc trưng MFCC
Bước 1: Xác định dãy trạng thái tối ưu bằng
thuật toán Viterbi:
1
1 ({ } ) arg max log ( , )
T T
1
1
( , { } ) arg max log ( , )
T T
CHƯƠNG 3 DỰ BÁO TRƯỜNG ĐỘ, ÂM LƯỢNG VÀ TỔNG HỢP
THANH ĐIỆU TIẾNG VIỆT
Trang 10Vấn đề tổng hợp tiếng Việt giọng tự nhiên hiện nay vẫn là một vấn đề phức tạp do tiếng nói tự nhiên hàm chứa rất nhiều hiện tượng ngôn điệu như trường độ, âm lượng và thanh điệu Chuyên đề này trình bày các đặc trưng tiếng nói phù hợp với đặc thù ngôn ngữ tiếng Việt, các đặc trưng ngữ âm như thanh điệu, trường độ và formant để đạt được hiệu quả nâng cao chất lượng Tổng hợp và nhận dạng tiếng Việt như:
Nghiên cứu về các phương pháp tổng hợp và nhận dạng tiếng nói và cách trích chọn các đặc trưng của đối tượng cần nhận dạng
Nghiên cứu về các mô hình ngôn điệu, phân tích đặc trưng tiếng Việt
Nghiên cứu các luật ngôn điệu, đặc trưng tín hiệu để nâng cao chất lượng tổng hợp và nhận dạng tiếng Việt
Hình 3 1 Sơ đồ của một hệ thống tổng hợp tiếng nói ghép nối
Quy luật biến đổi thanh điệu trong ngữ cảnh
Bảng 3 1 Trường độ nguyên âm trong kết hợp với thanh điệu CTV nam
Trang 11Biểu đồ 3.2: Trường độ nguyên âm kết hợp với thanh điệu CTV nữ
Trường độ nguyên âm kết hợp với thanh điệu
0 50 100 150 200 250 300 350 400
Bảng 3 2 Trường độ nguyên âm trong kết hợp với thanh điệu CTV nữ
Trang 12[u] 380 371 289 280 274 187
Quy luật biến đổi formant của nguyên âm trong ngữ cảnh
Bảng 3 3 Vùng tần số formant trung bình của các nguyên âm kết hợp với thanh điệu
Cách điệu hóa đường F0 của âm tiết tiếng Việt
Trong [10][11] các tác giả đã sử dụng phương pháp bình phương tối thiểu để cách điệu hóa tuyến tính đường F0 của các thanh điệu tiếng Việt trong ngữ lưu Các tác giả đã đi đến kết luận
là rất khó để cách điệu hóa tuyến tính đường F0 của một số thanh điệu tiếng Việt như thanh nặng
và thanh ngã
Tuy nhiên chúng tôi vẫn tổng hợp được các thanh nặng (cho âm tiết không tận cùng bằng c/ch) và thanh ngã từ các âm tiết mang thanh điệu – thanh ngang (thanh không dấu) Với các âm
Trang 13p-t-tiết tiếng Việt tận cùng bằng p-t-c/ch thì thanh sắc được tổng hợp từ cùng âm p-t-tiết gốc nhưng có thanh điệu nặng
Hình 3 2 Thanh không dấu (âm a)
Hình 3 3 Thanh huyền được cách điệu từ từ một dãy các giá trị F0 đo được
204,208,201,200,196,196,192,192,189,185,182,179,179,170,170.
Hình 3 4 Thanh sắc được cách điệu từ một dãy các giá trị F0 đo được
222,222,209,209,209,209,209,213,213,218,218,228,238,238,256,270,295,346.
Trang 14Hình 3 5 Thanh nặng được cách điệu từ các giá trị F0 đo được
Mô hình Xu để mô hình hóa đường tần số cơ bản F0 của các thanh điệu trong ngữ cảnh (dùng cho các ngôn ngữ có thanh), mô hình này đã áp dụng được cho tiếng Mandarin
Trang 15Việc tính các hệ số của mô hình Xu khi cho trước giá trị đường F0 cũng sử dụng phương pháp bình phương tối thiểu, thay vì tìm các hệ số a,b,, ta xác định các hệ số a,b, k (k=e-) bằng
F là giá trị đường F0 của đoạn tiếng nói
Phương pháp cách điệu hóa sử dụng mô hình của Xu được xây dựng như sau :
Bước 1 : Chọn âm tiết gốc có thanh điệu – thanh ngang, thanh nặng cho các âm tiết tận cùng
p-t-c/ch, xác định giá trị đường F0 của âm tiết
Bước 2 : Biên tập giá trị đường F0 của thanh điệu cần tổng hợp Sử dụng mô hình Xu để khớp
các tham số a,b,k (các thanh không dấu, huyền, sắc, nặng có một bộ tham số a,b,k, các thanh hỏi
và ngã có 2 bộ tham số a,b, k Thanh sắc của âm tận cùng p-t-c/ch cũng có một tham số a,b,k)
Bước 3 : Sử dụng thuật toán PSOLA tổng hợp âm tiết với thanh điệu xác định từ âm tiết gốc
(nếu âm tiết gốc không tận cùng là p-t-c/ch thì âm tiết gốc mang thanh điệu –thanh ngang, trường hợp ngược lại thì âm tiết gốc mang thanh điệu là thanh nặng.)
Hình 3 7 Biên tập đường F0 của dấu ngã và tổng hợp dấu ngã
Các kết quả tổng hợp thanh điệu cho tất cả các loại âm tiết tiếng Việt như
Chỉ có nguyên âm
Không có phụ âm đầu
Kết thúc là bán nguyên âm
Kết thúc là p-t-c/ch
Trang 16đã được thực hiện và kiểm tra với sự cộng tác của các nhà nghiên cứu ngữ âm học như Vũ Kim Bảng, Vũ Thị Hải Hà Viện ngôn ngữ, Viện Hàn lâm KHXH Việt Nam đều đưa đến kết luận là âm nghe rõ, không bị hiện tượng rè, thanh điệu tổng hợp nghe rõ ràng, giữ được đường nét đặc trưng thanh điệu tương ứng
Tổng hợp thanh điệu tiếng Việt trong ngữ lưu
Trong [42] chúng tôi đã trình bày kết quả tổng hợp ðýờng thanh ðiệu trong ngữ lýu bằng mô hình Fujisaki theo hướng tiếp cận phân tích – tổng hợp
Để phân tích đường nét F0, một công cụ phân tích các tham số của mô hình Fujisaki được
sử dụng Fb được đặt bằng 96 Hz cho giọng nam và 210 Hz cho giọng nữ α và β cho cả giọng nam và nữ được lần lượt đặt bằng 2 Hz và 25 Hz
Các bước tiến hành phân tích bao gồm:
Tính đường nét F0
Lựa các chọn lệnh ngữ câu nói
Dựa vào thanh điệu của các âm tiết để lựa chọn các lệnh thanh điệu phù hợp
Điều chỉnh các tham số sao cho đường nét F0 sinh ra xấp xỉ tốt đường nét F0 thực
Tổng hợp lại câu nói với đường nét thanh điệu mới sử dụng phương pháp PSOLA
Cảm nhận bằng tai câu nói tổng hợp, so sánh với câu nói gốc và điều chỉnh lại Các kết quả phân tích cơ sở dữ liệu cho thấy, các thanh ngang, sắc, ngã được biểu diễn bằng một lệnh thanh điệu dương, thanh huyền và hỏi được biểu diễn bằng một lệnh thanh điệu
âm, thanh nặng không cần lệnh thanh điệu
Bảng 3 5 Biểu diễn các 6 thanh điệu tiếng Việt bằng các lệnh thanh điệu
Thanh điệu Biểu diễn bằng lệnh thanh điệu
Ngang Một lệnh thanh điệu dương ở trước âm tiết
Các câu được phân tích chỉ sử dụng một lệnh ngữ cho cả câu, phù hợp với hiện tượng trong câu nói, người nói th ường lên giọng ở đầu câu và hạ giọng ở cuối câu Tuy nhiên trong tiếng Việt hiện tượng này không rõ rệt như ở các ngôn ngữ khác nên cường độ của lệnh ngữ này không lớn
Trang 17Hình 3 8 Kết quả phân tích thanh điệu tiếng Việt bằng mô hình Fujisaki
Thanh ngã và thanh sắc được biểu diễn bằng môt lệnh ngữ điệu dương phù hợp với nhận xét về sự giống nhau giữa 2 thanh này trong phần trước
Thanh hỏi có đường nét F0 đi xuống, đến giữ a thanh, đường nét F0 lại đi lên, thanh này giống thanh T3 (low tone) của tiếng Trung và được biểu diễn bằng một lệnh thanh điệu âm giống như trường hợp của tiếng Trung
Bảng 3 6 Giá trị trung bình và độ lệch chuẩn của các tham số Fujisaki cho các thanh điệu
Phân lớp thanh điệu trong ngữ cảnh câu
Trong [4] chúng tôi đã trình bày cách phân lớp thanh điệu trong ngữ lưu Cách tiếp cận này dùng phương pháp lượng tử hóa các dạng đường thanh điệu để quy về một số lớp thanh điệu có đường nét đặc trưng cho mỗi lớp Sau khi lượng tử hóa dùng cây quyết định khảo sát sự chuyển lớp của các thanh điệu dựa trên thông tin văn bản Từ đó đưa ra những khảo sát hiện tượng biến thanh trong tiếng Việt nhằm cải tiến ngôn điệu trong hệ tổng hợp tiếng Việt
Số lượng các dạng đường thanh điệu trong câu liên tục tăng lên rất nhiều lần so với âm tiết rời rạc, để phân cụm các đường thanh điệu về một số lớp, dùng phương pháp lượng tử hóa tập các đường thanh điệu mẫu quy về một số lớp hữu hạn Số lớp này lớn hơn số các đường thanh
Trang 18điệu tiếng Việt 6 thanh Trong luận án chỉ xét sự biến thiên đường thanh điệu trong 3 âm tiết liên tục
Hình 3 9 Sơ đồ khối chung của quá trình huấn luyện và phân lớp các đường thanh điệu sử dụng
Cơ sở dữ liệu tiếng nói huấn luyện mô hình dự báo
Cơ sở dữ liệu gồm hơn 1250 câu tiếng nói đọc bởi phát thanh viên chuyên nghiệp, giọng
Hà Nội, đã được sử dụng trong phần thực nghiệm này Tập câu được ghi âm với tần số lấy mẫu
là Fs=22050Hz, đơn kênh, độ phân giải một mẫu là 16bit
Để tăng độ chính xác của giá trị ngôn điệu được dự báo như trường độ và âm lượng của âm tiết trong câu tổng hợp, chúng tôi đã tiến hành phân tích các tham số thống kê chi tiết của các giá trị này trong các ngữ cảnh âm vị khác nhau của cơ sở dữ liệu câu huấn luyện như được tóm tắt ở các bảng dưới đây:
Bảng 3 7 Bảng độ dài âm vị không tính ngữ cảnh Tên âm vị Tần suất Độ dài min
(s)
Độ dài max (s)
Phân cụm LBG
Codeboo
k
Bộ lượng
tử hóa (lớp thanh điệu) Véc tơ F0 âm tiết vào codebook Chỉ số
Trang 19am
Bảng 3 9 Bảng độ dài âm cuối ràng buộc bởi nguyên âm
Âm cuối Nguyên âm Tần suất Độ dài min Độ dài max Trung bình Độ lệch
Bảng 3 10 Bảng độ dài phụ âm đầu ràng buộc bởi nguyên âm
Phụ âm đầu Nguyên âm Tần suất Độ dài min Độ dài max Trung bình Độ lệch
Dự báo ngôn điệu
Trong kỹ thuật tổng hợp tiếng Việt, chất lượng tổng hợp tập trung chính vào trường độ và cao độ của âm vị, đó là hai tham số chính truyền đạt thông tin ngữ âm