Đối tượng và Phương pháp nghiên cứu Đối tượng nghiên cứu chính trình bẩy trong luận văn là phương pháp và các thuật toán cần thiết để xây đựng một hệ thống tổng hợp tiếng Việt từ văn bản
Trang 1NGIHEN CUU CAC BAC TRUNG
ĐỀ PHÂN TÍCH VÀ TỔNG HỢP TÍN HIỆU ÂM TẤN
Chuyên ngành: Thêng tín vô tuyến phát thanh
và vô tuyến truyền hình
'TÓM TẤT LUẬN ÁN TIẾN SỈ KỸ THUẬT
Hà nội - 2000
Trang 2Công trình này được hoàn thành tại:
HỌC VIÊN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Người hướng dân khoa học:
1 GS TSKH Dé Trung Té
2 Gã TSKH Nguyễn Anh Tuấn
Phản hán: S-ASKVI Cao “Vấm Huynh
Vào hồi: Giờ ngày tháng năm 2000
C6 thể tìm hiểu luận ấn tại:
- Thư viện Quốc gia Việt nam
- Thư viện Học viện công nghệ BCVT
Trang 3NGHIÊN CỨU CÁC ĐẶC TRƯNG
DE PHAN TICH VA TONG HOP TIN HIEU AM TAN
Chuyén nganh: Thong tin vo tuyén phat thanh
và vỏ tuyến truyền hình
Mã số: 2.07.02
TOM TAT LUẬN ÁN TIẾN SĨ KÝ THUẬT
Hà nội - 2000
Trang 4MỞ ĐẦU
Tổng hợp tiếng nói là một bộ môn khoa học nhằm nghiên cứu và xây dựng các công nghệ để tạo ra âm thanh tiếng nói từ máy giống như tiếng nói của con người Các nhà khoa học đã cống hiến nhiều công trình nghiên cứu, nhưng việc
tổng hợp tiếng nói từ bất kỳ văn bản nào, tổng hợp với số lượng từ không hạn
chế của một ngôn ngữ thành tiếng nói trôi chấy, có độ tự nhiên như con người vẫn là van dé chưa được giải quyết Chất lượng âm thanh của các hệ thống tổng hợp tiếng nói từ văn bản đến nay còn thấp, còn rất nhiều hạn chế so với tiếng nói tự nhiên của con người Mặc dầu mới chỉ đạt mức độ nghe biểu rõ nhưng tổng hợp tiếng nói cũng đã tìm thấy ứng dụng trong nhiều lĩnh vực khác nhau Các ứng dụng này nhằm trợ giúp cho người tần lật, để học ngoại ngữ, truyễn thong lin bằng âm thanh, ứng dụng trong viễn thông, thông tin đa phương tiện
và nhiều ứng dụng trong các dụng cụ trò chơi, trong các thiết bị báo động, báo chấy, hệ thống chống trệm, thiết bị gia đình và các hệ thống giải trí khác vv Tổng hợp tiếng nói từ văn bản là một ngành khoa học liên quan đến nhiều chuyên ngành như ngôn ngữ, ngữ âm, xử lý tín hiệu số và khoa học máy tính Công nghệ để phát triển các hệ thống tổng hợp tiếng nói từ văn bản có số từ vựng không hạn chế không những rất phức tạp, mà còn phụ thuộc rất nhiều vào đặc trưng của ngôn ngữ tổng hợp Nói cách khác, mặc dầu về nguyên tắc các phương pháp cơ bản để tổng hợp tiếng nói là tương tự như nhau phưng mỗi loại ngôn ngữ đều có những đặc trưng ngữ âm riêng biệt, các qui luật cấu âm tạo thành từng âm tố của mỗi ngôn ngữ là không giống nhau Như vậy, các ngôn ngữ khác nhau sẽ phải có các công nghệ tổng hợp khác nhau, theo các luậi tổng hợp khác nhau Vì vậy bất buộc các nhà khoa học Việt Nam phải tiến hành xây đựng công nghệ tổng hợp tiếng nói cho ngôn ngữ của mình Việt nam đang bước vào giai đoạn phát triển nhanh về công nghệ thông tin, đặc biệt trong Viễn thông Nền tầng khoa học và công nghệ trong nước cũng đã phẩn nào được nâng
Trang 5cấp để đáp ứng các nhu cầu nghiên cứu khoa học công nghệ và dưa các kết quả của khoa học công nghệ vào thực tế cuộc sống Các công trình nghiên cứu về tổng hợp tiếng Việt là rất cấp thiết, đã và đang được sự quan tâm của đông đảo các nhà khoa học trong cả nước
Mục tiên của luận án
Luận án báo cáo các kết quả nghiên cứu của tác giả về tổng hợp tiếng Việt
từ văn bản tiến tới mục tiêu chế tạo một hệ thống TT§ với số lượng từ không hạn chế Để tiến tới mục tiêu này để tài đã thực hiện các nội dung:
© — Nghiên cứu các phương pháp tiếp cận, các kỹ thuật tổng hợp âm thanh tiếng nói và xu hướng tổng hợp đã thương mại hoá với chất lượng âm thanh tiếng nói "chấp nhận được” công bố trong các tài liệu quốc tế
© — Lựa chọn phương nhấp tổng hợp thích hợp cho tiếng Việt kết hợp với
trình độ công nghệ máy tính cập nhật
» Nghiên cứu, phân tích các đặc trưng ngôn ngữ tiếng Việt phục vụ cho tổng hợp tiếng nói, đặc biệt là các vấn để liên quan đến thanh điệu và độ đài các phụ âm đầu và vần của tiếng Việt
« — Thiết kế hệ thống, xây dựng cơ sở dữ liệu âm, các thuật toán cần thiết
và phát triển chương trình để hoàn thiện công nghệ xây dựng bộ tổng hợp tiếng
nói từ văn bản
Đối tượng và Phương pháp nghiên cứu
Đối tượng nghiên cứu chính trình bẩy trong luận văn là phương pháp và các thuật toán cần thiết để xây đựng một hệ thống tổng hợp tiếng Việt từ văn bản với số lượng từ không bạn chế Khi tiến hành phát triển hệ thống TT§ tiếng Việt, để tài tiến hành thực nghiệm để phân tích tiếng Việt với các công cụ và cơ
sở lý thuyết về xử lý số tiếng nói hoàn thiện ở mức độ tương đối cao
Cấu trúc luận án
Luận ấn gồm phần mở đầu, 4 chương nội dung, kết luận, đanh mục lãi liệu
tham khảo và 2 phụ lục
Trang 6CHƯƠNG 1: TỔNG QUAN VỀ TỔNG HỢP TIẾNG NÓI TỪ VĂN BẢN -
TTS
Chương này giới thiệu tổng quan về mô hình tổng quát của một hệ thống chuyển đổi văn bản thành tiếng nói được tổ chức thành các mục sau:
1.1 - Tiếng nói của con người
- Quá trình tạo ra âm thanh tiếng nói: Tiếng nói được hình thành thông qua một loạt các hoạt động sinh học được điều phối của các cơ trong co quan phat
âm
- Các loại 8m: tiếng nói thường được phân chỉa theo vị trí cấu âm và phương thức cấu âm tạo nên chúng Phân chía theo phương thức cấu âm, tiếng nói được phân lầm nguyên âm, phụ âm tắc, phụ âm xát, phụ âm tấc xát và phụ
âm mũi
- Chuyên ngành xử lý tiếng nói quan tâm nhiều đến mô hình Am thanh của tiếng nói, Các bộ phân tích tín hiệu xử lý âm thanh tiếng nói lấy ra các đặc trưng của tín hiệu như tần số âm cơ bản Fạ, tấn số format, cường đệ âm hay các tham số từ phân tích phổ như LPC, Cepstrum vv
Một số khái niệm ngữ âm: âm vị âm tố, âm tiết, biến thé am vị, liên cấu
Am, ngữ điệu, thanh điệu, vần
1.2 - Tổng hợp tiếng nói từ văn bản - TTS
Sơ đồ tổng quát hệ thống TT§
TT§ bao gồm việc chuyển đổi các mô tẢ về ngữ âm và ngữ điệu một văn
bản ở đầu vào thành đang sóng tiếng nói, xử dụng các thuật toán xử lý tín hiệu
số Một hệ thống TT§ bao gồm hai qúa trình tương đối độc lập có liên quan đến nhau là phần xử lý văn bản va phan xử lý tín hiệu số
Quá trình chuyển đổi được thực hiện theo bốn bước là chuẩn hoá văn bản (Text normalization), chuyển đổi từ chữ sang âm vị (Grapheme to Phoneme)
Trang 7liên đoán ngữ điệu từ văn bản và cuối cùng là tổng hợp tiếng nói Tổng hợp là giai đoạn cuối cùng thực hiện việc giải mã các thông tín từ chuỗi mô tả ngữ âm nhận được từ khối xử lý văn bản tạo ra tín hiệu tiếng nói đạng sóng
Tổng hợp tiếng nói có thể đạt được cơ bản theo hai phương pháp: phương pháp thứ nhất được thực hiện dưới dạng một loạt các quy tắc mô tả một cách chính thức các âm vị, ảnh hưởng lẫn nhau giữa các am vị khí phát ra một âm Phương
pháp thứ hai là lưu giữ những mẫu âm vị, biến đổi âm vị và đồng phát Am vào
cơ sở đữ liệu tiếng nói và sử dụng chúng như chúng vốn có là các đơn vị âm học
cơ bản (ở vị trí của âm vị) Hai phương pháp này trở thành hai triết lý tổng hợp
là tổng hợp bằng quy luật và tổng hợp xích chuỗi
1.3 - Các phương pháp tổng hợp tiếng nói
Tổng hợp theo cấu âm
Tổng hợp theo cấu âm sử dụng mô hình phỏng sinh học Trong mô hình này tiếng nói bằng vị trí của các cơ quan cấu âm, sự tham gia của khoang mũi,
ấp xuất không khí trong phổi, lực căng của dây thanh Nó bao gồm hoại động tương tác phi tuyến giữa nguồn kích và trở kháng đầu vào thay đổi theo thời
gian của ống thanh, Hệ thống tổng hợp phải tham số hóa được hình khối ống thanh và ống mũi, phải lựa chọn được một mô hình để mô tả sự lan truyền của sóng trong ống thanh và mô hình hoá nguồn âm và sự tương tác của nó với ống thanh.Ngoài việc mô hình hoá các cơ quan phẩt âm, tổng hợp theo cấu âm cẩn phải xây đựng hai loại qui luật là luật ngôn ngữ và luật vật lý Luật vật lý mô tả như ở trên xác định ánh xạ cấu hình ống thanh cụ thể cho tín hiệu âm thanh, xác định mối quan hệ giữa hoạt động cấu âm và tín hiệu âm thanh tiếng nói Còn luật ngôn ngữ xác định mỗi quan hệ giữa mô tả ngữ âm và các hoạt động cấu
âm Thông thường, luật ngôn ngữ được thực hiện cho từng âm vị Khi cấu âm cho một âm vị, luật này xác định thời điểm các cơ quan chuyển động, tốc độ
chuyển động và mối quan hệ giữa cơ quan này và cơ quan khác
Mô hình cấu âm và hai loại luật ngôn ngữ , vật lý này quyết định chất
6
Trang 8lượng tiếng nói tổng hợp Hiện nay, chúng ta chưa có kiến thức đầy đủ về từng chỉ tiết của các loại luật, mô hình cấu Am cũng còn đơn giản vì vậy chất lượng tiếng nói tổng hợp theo cấu âm cồn rất thấp Phương pháp tổng hợp cấu âm hiện nay chỉ đừng ở trong phòng thí nghiệm hay sản phẩm mẫu mà chưa được Ứng dựng thực tế,
Tổng hợp formant theo Qui luật
Hệ thống qui luật bao gồm:
« — Luật để xác định vị trí đích các formant của mỗi âm vị trong một ngữ
lưu cũng như thời gian tổn tại của các vị trí đó
« Luật nhằm làm trơn các formant đích
s Luật để chuyển đổi các hầm thời gian thành dạng sóng thanh
Thiết kế của bộ tổng hợp formant được dựa trên mô hình tương tự đầu cuối tạo tiếng nói do Fant để xuất Tổng hợp formaut được phân loại theo cấu hình mắc các bộ cộng hưởng song song hay nối tiếp Phương pháp của Kia sử dụng các giá nị đích của tham số điểu khiển và thuật toán để tính toán sự chuyển tiếp Các giá trị đích cho mỗi âm vị không chỉ nhận được từ bảng tra mà cồn
đựoc tính theo luật về vị trí, cách cấu âm và ngữ cảnh của các âm vị đó Cũng
như vậy, các hằng số thời gian cho sự chuyển tiếp được tính từ các luật về thông tin ngữ cảnh Ba fonnant và băng thông của nguyên âm, bán nguyên âm và nguyên Am đôi được chuyển cho phần tổng hợp nối tiếp Hệ thống còn xác dịnh
thêm sấu tham số phụ khác để điều khiển phần cộng hưởng mắc song song khi
tổng hợp âm tắc, âm xất và âm tắc xát
"Tổng hợp xích chuỗi
Phương pháp xích chuỗi nhằm vượt qua sự không thoả đáng của các hệ thống sử dụng qui luật bằng cách loại bớt sự cẩn thiết của một số qui luật thậm chí tất cả các qui luật Để thực hiện điều này, cách hiệu quả nhất Tà lưu trữ trong
kho đữ liệu không phải hệ thống qui luật mô tả các đơn vị âm hay qui luật của các tham sổ để tạo ra đơn vị âm mà trực tiếp từng âm đoạn của âm thanh tiếng
7
Trang 9nói Tổng hợp xích chuỗi hiện nay đã thành công nhất trong việc lạo ra Đếng nói không chỉ nghe hiểu rõ mà đạt được độ tự nhiên gần với tiếng nói của con người hơn cả Khi xây dựng một hệ thống tổng hợp xích chuỗi, tiếng nói chứa tập hợp các đơn vị âm thanh cơ bản của một ngôn ngữ, thông thường tương ứng
với một chuỗi ngắn các âm vị có lựa chọn được đọc, ghỉ âm và lưu giữ trong
CSDL Các đơn vị âm được lựa chọn, phân tích các tham số đặc trưng và sau đó
có thể được mã hoá bằng một phương pháp mã hoá tiếng nói nào đó tạo thành các mẫu cho một đơn vị âm thanh Các mẫu hoặc các tham số phân tích của chúng được lưu giữ lại trong kho đữ liệu đơn vị tổng hợp
Khi tổng hợp một phát ngôn mới, cho trước mô 1á ngữ Am của phát ngôn
đó, hệ thống sử dụng các qui luật để định vị đơn vị thích hợp, truy xuất chúng ra khỏi kho dữ liệu và xích chuỗi chúng lại với nhau
Hệ thống theo phương pháp tổng hợp xích chuỗi phải thực hiện hai công
việc chính
» — Một là phải thay đổi các tham số siêu đoạn tính của các đơn vị để tiếng
nói tổng hợp thể hiện được ngữ điệu thich hop nhu mong muén
Hai là phải thực hiện việc lựa chọn hay thay đổi các đặc tính của âm đoạn đơn vị tại các biên ghép nối của chúng sao cho việc ghép nối là mịn nhất để đảm bảo chất lượng âm thanh tổng hợp tạo ra gần với tiếng nói tự nhiên
Như vậy chất lượng của một hệ thống TT§ sử dụng phương phấp tổng hợp xích chuỗi được quyết định bởi các yếu tố sau: sự lựa chọn tập âm đơn vị cơ bản., mức độ bao phủ các tổ hợp âm đoạn, khả năng cung cấp các tham số về ngữ điệu như đường nét lần số cơ hẳn cường độ âm thanh và độ dài các âm cho
hộ tổng hợp Các tham số nầy được tiên đoán trong phần xử lý ngôn ngữ của bộ tổng hợp từ văn bản., khả năng thay đổi tần số cơ bản Fạvà độ đài các đơn vị âm
cơ bản phù hợp với ngữ điệu được miêu tả ở đầu vào của bộ tổng hợn mà không
ảnh hướng tới chất lượng cảm thụ của âm đó, thuật toán xích chuỗi và mô hình
Trang 10tín hiệu chơ phép để đàng làm trơn hai điểm phép nối của các Am đoạn được
xích chuỗi
Tổng hợp Xích chuỗi xữ đụng mã tiên đoán tuyến tính LPC
Mô hình tổng hợp tiếng nói dựa trên LPC được thể hiện như sau.Nguồn kích là bộ tạo tần số cơ bản cha các âm hữu thanh bay tạo nhiễu ngẫu nhiên cho
am vô thanh
Tham số ống thanh F0
Bộ lọc số
Hữu than - >
whan thay đổi theo
VA thanh thời gian
tế là để tính các hệ số của mô hình này
1.5 - Phân tích lựa chọn phương pháp tổng hợp tiếng Việt
Trong điều kiện nghiên cứu hiện tại, phương pháp xích chuỗi vừa có tính khả thí cao vừa đâm bảo bám theo được xư bướng xây dựng các bộ tổng hợp hiện tại trên thế giới Với phương pháp xích chuỗi xuất hiện hàng loạt các câu hỏi sau đây:
- Khi không sử dụng mô hình, hay mê hình "NULL” bộ tổng hợp sẽ cho chất lượng âm thanh tốt nhất? Vậy tại sao lại phải mã hoá các âm đơn vị trong tổng hợp xích chuỗi? Tại sao chúng ta không sử dụng tiếng nói tự nhiên nh
Trang 11nguyên thể của nó để tiếng nói tổng hợn có độ tự nhiên hơn? Tự nhiên là cái mà
con người không thể lạo ra được †
Thực hiện kỹ thuật xích chuỗi miễn thời gian hiện tại hoàn toần có tính hiện
thực vì:
® - Thứ nhất là lưu trữ âm đơn vị dưới đạng sóng cho phép tổng hợp thời gian thực trên với máy tính PC thông thường không cần các mạch xử lý tín hiệu chuyên dựng
® - Thứ hai là chất lượng âm thanh của tiếng nói là trung thực nhất hứa hen tao ra chất lượng âm thanh tổng hợp cao nhất
® - Thứ ba là với xu thế phần cứng PC ngày càng phát triển như hiện nay thì không gian nhớ các đơn vị âm để tổng hợp không phải là vấn để đáng to ugai
© Thit tr JA phuong phap nay giữ được nguyên giọng của chính người
cùng cấp các đơn vị âm,
Vấn để chính cần bàn ở đây là phương pháp tổng hợp xích chuỗi nói chưng
và xích chuỗi miễn thời gian nói riêng phải giải quyết lầm sao tạo ra được tập các đơn vị âm đoạn tốÏ ưu và xây dựng được quy luật về ngữ điệu phù hợp với các ngữ cảnh khác nhau của một ngôn ngữ
1.6 - Kết luận
Để xác định khả năng phát triển một hệ thống chuyển đổi văn bản thành
tiếng Việt, để tài đã tiến hành nghiên cứu tổng quan lý thuyết và các phương pháp tổng hợp tiếng nói đã thành công cho nhiều ngôn ngữ trên thế giới
Trong điều kiện hiện nay, để tài để xuất tiến hành xây đựng bộ TTS tiếng
Việt với các đơn vị âm ở miễn thời gian, tức là trực tiếp sử dụng dạng sóng của
tín hiệu.
Trang 12CHƯƠNG 2: MỘT SỐ KẾT QUÁ PHẦN TICH NGU AM CHO TONG
HỢP VIẾNG VIỆT
2.1 - Mở đầu
Luận án tiến hành nghiên cứu về thanh điện và độ dài của tiếng Việt trong ngữ lưu liên tục nhằm mô hình hoá hai thành phần ngữ điệu quan trọng nhất dé đảm bảo độ tự nhiên của tiếng nói khi tổng hợp
2.2 - Đặc điểm của ngữ âm tiếng việt
Tiếng Việt là tiếng đơn âm có thanh điệu Một đặc điểm cơ bản của tiếng Việt là âm tiết trùng với hình vị, đơn vị nhỏ nhất có tổ chức rang ý nghìa ngữ pháp Âm tiết, hình vị tiếng Việt cố định, không thay đổi theo ngữ pháp về thời, piống và số như các ngôn ngữ khác Âm tiết tiếng Việt có cấu trúc chặt chẽ với các loại âm ở các vị trí cố định trong thành phần âm tiết Mỗi âm tiết đều mang một thanh điệu nhất định, Hệ thống thanh điệu tiếng Việt gồm sáu thanh Tà ngàng (không, đấu), huyền, ngã, hỏi, sắc và nặng, Thanh điệu trong tiếng Việt kết hợp với thành phần của âm tiết tạo thành các từ khác nhau
2.3 - Xây dựng cơ sở dữ liện âm thanh
Lua chọn văn bản và ghỉ âm
Để tạo số liệu phục vụ phân tích và tổng hợp tiếng Việt cần phải xây dựng một cơ sơ đữ liệu âm Văn bản tạo ra CSDL gồm khoảng 800 câu ngắn có độ dài từ 5 đến 10 âm tiết được thiết kế để bao phủ số vần có khả năng trong tiếng Việt Toàn bộ văn ban nay đơ tác giá đọc có hỗ trợ của máy đo thanh hầu
Phân đoạn va gan nhãn
Là quá trình phân tích âm vị Một số nguyên tắc được thống nhất nhằm dam bao độ chính xác và tính nhất quán khi phân âm đoạn như sau:
» — Sau đoạn nghỉ: Tại điểm bất đầu của biên độ đầu tiên lớn hơn nhiễu nền nhìn thấy trên tín hiệu