Nghiên cứu các đặc trưng để phân tích và tổng hợp tín hiệu âm tần

Đối tượng và Phương pháp nghiên cứu Đối tượng nghiên cứu chính trình bẩy trong luận văn là phương pháp và các thuật toán cần thiết để xây đựng một hệ thống tổng hợp tiếng Việt từ văn bản

Trang 1

NGIHEN CUU CAC BAC TRUNG

ĐỀ PHÂN TÍCH VÀ TỔNG HỢP TÍN HIỆU ÂM TẤN

Chuyên ngành: Thêng tín vô tuyến phát thanh

và vô tuyến truyền hình

'TÓM TẤT LUẬN ÁN TIẾN SỈ KỸ THUẬT

Hà nội - 2000

Trang 2

Công trình này được hoàn thành tại:

HỌC VIÊN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

Người hướng dân khoa học:

1 GS TSKH Dé Trung Té

2 Gã TSKH Nguyễn Anh Tuấn

Phản hán: S-ASKVI Cao “Vấm Huynh

Vào hồi: Giờ ngày tháng năm 2000

C6 thể tìm hiểu luận ấn tại:

- Thư viện Quốc gia Việt nam

- Thư viện Học viện công nghệ BCVT

Trang 3

NGHIÊN CỨU CÁC ĐẶC TRƯNG

DE PHAN TICH VA TONG HOP TIN HIEU AM TAN

Chuyén nganh: Thong tin vo tuyén phat thanh

và vỏ tuyến truyền hình

Mã số: 2.07.02

TOM TAT LUẬN ÁN TIẾN SĨ KÝ THUẬT

Hà nội - 2000

Trang 4

MỞ ĐẦU

Tổng hợp tiếng nói là một bộ môn khoa học nhằm nghiên cứu và xây dựng các công nghệ để tạo ra âm thanh tiếng nói từ máy giống như tiếng nói của con người Các nhà khoa học đã cống hiến nhiều công trình nghiên cứu, nhưng việc

tổng hợp tiếng nói từ bất kỳ văn bản nào, tổng hợp với số lượng từ không hạn

chế của một ngôn ngữ thành tiếng nói trôi chấy, có độ tự nhiên như con người vẫn là van dé chưa được giải quyết Chất lượng âm thanh của các hệ thống tổng hợp tiếng nói từ văn bản đến nay còn thấp, còn rất nhiều hạn chế so với tiếng nói tự nhiên của con người Mặc dầu mới chỉ đạt mức độ nghe biểu rõ nhưng tổng hợp tiếng nói cũng đã tìm thấy ứng dụng trong nhiều lĩnh vực khác nhau Các ứng dụng này nhằm trợ giúp cho người tần lật, để học ngoại ngữ, truyễn thong lin bằng âm thanh, ứng dụng trong viễn thông, thông tin đa phương tiện

và nhiều ứng dụng trong các dụng cụ trò chơi, trong các thiết bị báo động, báo chấy, hệ thống chống trệm, thiết bị gia đình và các hệ thống giải trí khác vv Tổng hợp tiếng nói từ văn bản là một ngành khoa học liên quan đến nhiều chuyên ngành như ngôn ngữ, ngữ âm, xử lý tín hiệu số và khoa học máy tính Công nghệ để phát triển các hệ thống tổng hợp tiếng nói từ văn bản có số từ vựng không hạn chế không những rất phức tạp, mà còn phụ thuộc rất nhiều vào đặc trưng của ngôn ngữ tổng hợp Nói cách khác, mặc dầu về nguyên tắc các phương pháp cơ bản để tổng hợp tiếng nói là tương tự như nhau phưng mỗi loại ngôn ngữ đều có những đặc trưng ngữ âm riêng biệt, các qui luật cấu âm tạo thành từng âm tố của mỗi ngôn ngữ là không giống nhau Như vậy, các ngôn ngữ khác nhau sẽ phải có các công nghệ tổng hợp khác nhau, theo các luậi tổng hợp khác nhau Vì vậy bất buộc các nhà khoa học Việt Nam phải tiến hành xây đựng công nghệ tổng hợp tiếng nói cho ngôn ngữ của mình Việt nam đang bước vào giai đoạn phát triển nhanh về công nghệ thông tin, đặc biệt trong Viễn thông Nền tầng khoa học và công nghệ trong nước cũng đã phẩn nào được nâng

Trang 5

cấp để đáp ứng các nhu cầu nghiên cứu khoa học công nghệ và dưa các kết quả của khoa học công nghệ vào thực tế cuộc sống Các công trình nghiên cứu về tổng hợp tiếng Việt là rất cấp thiết, đã và đang được sự quan tâm của đông đảo các nhà khoa học trong cả nước

Mục tiên của luận án

Luận án báo cáo các kết quả nghiên cứu của tác giả về tổng hợp tiếng Việt

từ văn bản tiến tới mục tiêu chế tạo một hệ thống TT§ với số lượng từ không hạn chế Để tiến tới mục tiêu này để tài đã thực hiện các nội dung:

© — Nghiên cứu các phương pháp tiếp cận, các kỹ thuật tổng hợp âm thanh tiếng nói và xu hướng tổng hợp đã thương mại hoá với chất lượng âm thanh tiếng nói "chấp nhận được” công bố trong các tài liệu quốc tế

trình độ công nghệ máy tính cập nhật

» Nghiên cứu, phân tích các đặc trưng ngôn ngữ tiếng Việt phục vụ cho tổng hợp tiếng nói, đặc biệt là các vấn để liên quan đến thanh điệu và độ đài các phụ âm đầu và vần của tiếng Việt

« — Thiết kế hệ thống, xây dựng cơ sở dữ liệu âm, các thuật toán cần thiết

và phát triển chương trình để hoàn thiện công nghệ xây dựng bộ tổng hợp tiếng

nói từ văn bản

Đối tượng và Phương pháp nghiên cứu

Đối tượng nghiên cứu chính trình bẩy trong luận văn là phương pháp và các thuật toán cần thiết để xây đựng một hệ thống tổng hợp tiếng Việt từ văn bản với số lượng từ không bạn chế Khi tiến hành phát triển hệ thống TT§ tiếng Việt, để tài tiến hành thực nghiệm để phân tích tiếng Việt với các công cụ và cơ

sở lý thuyết về xử lý số tiếng nói hoàn thiện ở mức độ tương đối cao

Cấu trúc luận án

Luận ấn gồm phần mở đầu, 4 chương nội dung, kết luận, đanh mục lãi liệu

tham khảo và 2 phụ lục

Trang 6

CHƯƠNG 1: TỔNG QUAN VỀ TỔNG HỢP TIẾNG NÓI TỪ VĂN BẢN -

TTS

Chương này giới thiệu tổng quan về mô hình tổng quát của một hệ thống chuyển đổi văn bản thành tiếng nói được tổ chức thành các mục sau:

1.1 - Tiếng nói của con người

- Quá trình tạo ra âm thanh tiếng nói: Tiếng nói được hình thành thông qua một loạt các hoạt động sinh học được điều phối của các cơ trong co quan phat

âm

- Các loại 8m: tiếng nói thường được phân chỉa theo vị trí cấu âm và phương thức cấu âm tạo nên chúng Phân chía theo phương thức cấu âm, tiếng nói được phân lầm nguyên âm, phụ âm tắc, phụ âm xát, phụ âm tấc xát và phụ

âm mũi

- Chuyên ngành xử lý tiếng nói quan tâm nhiều đến mô hình Am thanh của tiếng nói, Các bộ phân tích tín hiệu xử lý âm thanh tiếng nói lấy ra các đặc trưng của tín hiệu như tần số âm cơ bản Fạ, tấn số format, cường đệ âm hay các tham số từ phân tích phổ như LPC, Cepstrum vv

Một số khái niệm ngữ âm: âm vị âm tố, âm tiết, biến thé am vị, liên cấu

Am, ngữ điệu, thanh điệu, vần

1.2 - Tổng hợp tiếng nói từ văn bản - TTS

Sơ đồ tổng quát hệ thống TT§

TT§ bao gồm việc chuyển đổi các mô tẢ về ngữ âm và ngữ điệu một văn

bản ở đầu vào thành đang sóng tiếng nói, xử dụng các thuật toán xử lý tín hiệu

số Một hệ thống TT§ bao gồm hai qúa trình tương đối độc lập có liên quan đến nhau là phần xử lý văn bản va phan xử lý tín hiệu số

Quá trình chuyển đổi được thực hiện theo bốn bước là chuẩn hoá văn bản (Text normalization), chuyển đổi từ chữ sang âm vị (Grapheme to Phoneme)

Trang 7

liên đoán ngữ điệu từ văn bản và cuối cùng là tổng hợp tiếng nói Tổng hợp là giai đoạn cuối cùng thực hiện việc giải mã các thông tín từ chuỗi mô tả ngữ âm nhận được từ khối xử lý văn bản tạo ra tín hiệu tiếng nói đạng sóng

Tổng hợp tiếng nói có thể đạt được cơ bản theo hai phương pháp: phương pháp thứ nhất được thực hiện dưới dạng một loạt các quy tắc mô tả một cách chính thức các âm vị, ảnh hưởng lẫn nhau giữa các am vị khí phát ra một âm Phương

pháp thứ hai là lưu giữ những mẫu âm vị, biến đổi âm vị và đồng phát Am vào

cơ sở đữ liệu tiếng nói và sử dụng chúng như chúng vốn có là các đơn vị âm học

cơ bản (ở vị trí của âm vị) Hai phương pháp này trở thành hai triết lý tổng hợp

là tổng hợp bằng quy luật và tổng hợp xích chuỗi

1.3 - Các phương pháp tổng hợp tiếng nói

Tổng hợp theo cấu âm

Tổng hợp theo cấu âm sử dụng mô hình phỏng sinh học Trong mô hình này tiếng nói bằng vị trí của các cơ quan cấu âm, sự tham gia của khoang mũi,

ấp xuất không khí trong phổi, lực căng của dây thanh Nó bao gồm hoại động tương tác phi tuyến giữa nguồn kích và trở kháng đầu vào thay đổi theo thời

gian của ống thanh, Hệ thống tổng hợp phải tham số hóa được hình khối ống thanh và ống mũi, phải lựa chọn được một mô hình để mô tả sự lan truyền của sóng trong ống thanh và mô hình hoá nguồn âm và sự tương tác của nó với ống thanh.Ngoài việc mô hình hoá các cơ quan phẩt âm, tổng hợp theo cấu âm cẩn phải xây đựng hai loại qui luật là luật ngôn ngữ và luật vật lý Luật vật lý mô tả như ở trên xác định ánh xạ cấu hình ống thanh cụ thể cho tín hiệu âm thanh, xác định mối quan hệ giữa hoạt động cấu âm và tín hiệu âm thanh tiếng nói Còn luật ngôn ngữ xác định mỗi quan hệ giữa mô tả ngữ âm và các hoạt động cấu

âm Thông thường, luật ngôn ngữ được thực hiện cho từng âm vị Khi cấu âm cho một âm vị, luật này xác định thời điểm các cơ quan chuyển động, tốc độ

chuyển động và mối quan hệ giữa cơ quan này và cơ quan khác

Mô hình cấu âm và hai loại luật ngôn ngữ , vật lý này quyết định chất

6

Trang 8

lượng tiếng nói tổng hợp Hiện nay, chúng ta chưa có kiến thức đầy đủ về từng chỉ tiết của các loại luật, mô hình cấu Am cũng còn đơn giản vì vậy chất lượng tiếng nói tổng hợp theo cấu âm cồn rất thấp Phương pháp tổng hợp cấu âm hiện nay chỉ đừng ở trong phòng thí nghiệm hay sản phẩm mẫu mà chưa được Ứng dựng thực tế,

Tổng hợp formant theo Qui luật

Hệ thống qui luật bao gồm:

« — Luật để xác định vị trí đích các formant của mỗi âm vị trong một ngữ

lưu cũng như thời gian tổn tại của các vị trí đó

« Luật nhằm làm trơn các formant đích

s Luật để chuyển đổi các hầm thời gian thành dạng sóng thanh

Thiết kế của bộ tổng hợp formant được dựa trên mô hình tương tự đầu cuối tạo tiếng nói do Fant để xuất Tổng hợp formaut được phân loại theo cấu hình mắc các bộ cộng hưởng song song hay nối tiếp Phương pháp của Kia sử dụng các giá nị đích của tham số điểu khiển và thuật toán để tính toán sự chuyển tiếp Các giá trị đích cho mỗi âm vị không chỉ nhận được từ bảng tra mà cồn

đựoc tính theo luật về vị trí, cách cấu âm và ngữ cảnh của các âm vị đó Cũng

như vậy, các hằng số thời gian cho sự chuyển tiếp được tính từ các luật về thông tin ngữ cảnh Ba fonnant và băng thông của nguyên âm, bán nguyên âm và nguyên Am đôi được chuyển cho phần tổng hợp nối tiếp Hệ thống còn xác dịnh

thêm sấu tham số phụ khác để điều khiển phần cộng hưởng mắc song song khi

tổng hợp âm tắc, âm xất và âm tắc xát

"Tổng hợp xích chuỗi

Phương pháp xích chuỗi nhằm vượt qua sự không thoả đáng của các hệ thống sử dụng qui luật bằng cách loại bớt sự cẩn thiết của một số qui luật thậm chí tất cả các qui luật Để thực hiện điều này, cách hiệu quả nhất Tà lưu trữ trong

kho đữ liệu không phải hệ thống qui luật mô tả các đơn vị âm hay qui luật của các tham sổ để tạo ra đơn vị âm mà trực tiếp từng âm đoạn của âm thanh tiếng

7

Trang 9

nói Tổng hợp xích chuỗi hiện nay đã thành công nhất trong việc lạo ra Đếng nói không chỉ nghe hiểu rõ mà đạt được độ tự nhiên gần với tiếng nói của con người hơn cả Khi xây dựng một hệ thống tổng hợp xích chuỗi, tiếng nói chứa tập hợp các đơn vị âm thanh cơ bản của một ngôn ngữ, thông thường tương ứng

với một chuỗi ngắn các âm vị có lựa chọn được đọc, ghỉ âm và lưu giữ trong

CSDL Các đơn vị âm được lựa chọn, phân tích các tham số đặc trưng và sau đó

có thể được mã hoá bằng một phương pháp mã hoá tiếng nói nào đó tạo thành các mẫu cho một đơn vị âm thanh Các mẫu hoặc các tham số phân tích của chúng được lưu giữ lại trong kho đữ liệu đơn vị tổng hợp

Khi tổng hợp một phát ngôn mới, cho trước mô 1á ngữ Am của phát ngôn

đó, hệ thống sử dụng các qui luật để định vị đơn vị thích hợp, truy xuất chúng ra khỏi kho dữ liệu và xích chuỗi chúng lại với nhau

Hệ thống theo phương pháp tổng hợp xích chuỗi phải thực hiện hai công

việc chính

» — Một là phải thay đổi các tham số siêu đoạn tính của các đơn vị để tiếng

nói tổng hợp thể hiện được ngữ điệu thich hop nhu mong muén

Hai là phải thực hiện việc lựa chọn hay thay đổi các đặc tính của âm đoạn đơn vị tại các biên ghép nối của chúng sao cho việc ghép nối là mịn nhất để đảm bảo chất lượng âm thanh tổng hợp tạo ra gần với tiếng nói tự nhiên

Như vậy chất lượng của một hệ thống TT§ sử dụng phương phấp tổng hợp xích chuỗi được quyết định bởi các yếu tố sau: sự lựa chọn tập âm đơn vị cơ bản., mức độ bao phủ các tổ hợp âm đoạn, khả năng cung cấp các tham số về ngữ điệu như đường nét lần số cơ hẳn cường độ âm thanh và độ dài các âm cho

hộ tổng hợp Các tham số nầy được tiên đoán trong phần xử lý ngôn ngữ của bộ tổng hợp từ văn bản., khả năng thay đổi tần số cơ bản Fạvà độ đài các đơn vị âm

cơ bản phù hợp với ngữ điệu được miêu tả ở đầu vào của bộ tổng hợn mà không

ảnh hướng tới chất lượng cảm thụ của âm đó, thuật toán xích chuỗi và mô hình

Trang 10

tín hiệu chơ phép để đàng làm trơn hai điểm phép nối của các Am đoạn được

xích chuỗi

Tổng hợp Xích chuỗi xữ đụng mã tiên đoán tuyến tính LPC

Mô hình tổng hợp tiếng nói dựa trên LPC được thể hiện như sau.Nguồn kích là bộ tạo tần số cơ bản cha các âm hữu thanh bay tạo nhiễu ngẫu nhiên cho

am vô thanh

Tham số ống thanh F0

Bộ lọc số

Hữu than - >

whan thay đổi theo

VA thanh thời gian

tế là để tính các hệ số của mô hình này

1.5 - Phân tích lựa chọn phương pháp tổng hợp tiếng Việt

Trong điều kiện nghiên cứu hiện tại, phương pháp xích chuỗi vừa có tính khả thí cao vừa đâm bảo bám theo được xư bướng xây dựng các bộ tổng hợp hiện tại trên thế giới Với phương pháp xích chuỗi xuất hiện hàng loạt các câu hỏi sau đây:

- Khi không sử dụng mô hình, hay mê hình "NULL” bộ tổng hợp sẽ cho chất lượng âm thanh tốt nhất? Vậy tại sao lại phải mã hoá các âm đơn vị trong tổng hợp xích chuỗi? Tại sao chúng ta không sử dụng tiếng nói tự nhiên nh

Trang 11

nguyên thể của nó để tiếng nói tổng hợn có độ tự nhiên hơn? Tự nhiên là cái mà

con người không thể lạo ra được †

Thực hiện kỹ thuật xích chuỗi miễn thời gian hiện tại hoàn toần có tính hiện

thực vì:

® - Thứ nhất là lưu trữ âm đơn vị dưới đạng sóng cho phép tổng hợp thời gian thực trên với máy tính PC thông thường không cần các mạch xử lý tín hiệu chuyên dựng

® - Thứ hai là chất lượng âm thanh của tiếng nói là trung thực nhất hứa hen tao ra chất lượng âm thanh tổng hợp cao nhất

® - Thứ ba là với xu thế phần cứng PC ngày càng phát triển như hiện nay thì không gian nhớ các đơn vị âm để tổng hợp không phải là vấn để đáng to ugai

cùng cấp các đơn vị âm,

Vấn để chính cần bàn ở đây là phương pháp tổng hợp xích chuỗi nói chưng

và xích chuỗi miễn thời gian nói riêng phải giải quyết lầm sao tạo ra được tập các đơn vị âm đoạn tốÏ ưu và xây dựng được quy luật về ngữ điệu phù hợp với các ngữ cảnh khác nhau của một ngôn ngữ

1.6 - Kết luận

Để xác định khả năng phát triển một hệ thống chuyển đổi văn bản thành

tiếng Việt, để tài đã tiến hành nghiên cứu tổng quan lý thuyết và các phương pháp tổng hợp tiếng nói đã thành công cho nhiều ngôn ngữ trên thế giới

Trong điều kiện hiện nay, để tài để xuất tiến hành xây đựng bộ TTS tiếng

Việt với các đơn vị âm ở miễn thời gian, tức là trực tiếp sử dụng dạng sóng của

tín hiệu.

Trang 12

CHƯƠNG 2: MỘT SỐ KẾT QUÁ PHẦN TICH NGU AM CHO TONG

HỢP VIẾNG VIỆT

2.1 - Mở đầu

Luận án tiến hành nghiên cứu về thanh điện và độ dài của tiếng Việt trong ngữ lưu liên tục nhằm mô hình hoá hai thành phần ngữ điệu quan trọng nhất dé đảm bảo độ tự nhiên của tiếng nói khi tổng hợp

2.2 - Đặc điểm của ngữ âm tiếng việt

Tiếng Việt là tiếng đơn âm có thanh điệu Một đặc điểm cơ bản của tiếng Việt là âm tiết trùng với hình vị, đơn vị nhỏ nhất có tổ chức rang ý nghìa ngữ pháp Âm tiết, hình vị tiếng Việt cố định, không thay đổi theo ngữ pháp về thời, piống và số như các ngôn ngữ khác Âm tiết tiếng Việt có cấu trúc chặt chẽ với các loại âm ở các vị trí cố định trong thành phần âm tiết Mỗi âm tiết đều mang một thanh điệu nhất định, Hệ thống thanh điệu tiếng Việt gồm sáu thanh Tà ngàng (không, đấu), huyền, ngã, hỏi, sắc và nặng, Thanh điệu trong tiếng Việt kết hợp với thành phần của âm tiết tạo thành các từ khác nhau

2.3 - Xây dựng cơ sở dữ liện âm thanh

Lua chọn văn bản và ghỉ âm

Để tạo số liệu phục vụ phân tích và tổng hợp tiếng Việt cần phải xây dựng một cơ sơ đữ liệu âm Văn bản tạo ra CSDL gồm khoảng 800 câu ngắn có độ dài từ 5 đến 10 âm tiết được thiết kế để bao phủ số vần có khả năng trong tiếng Việt Toàn bộ văn ban nay đơ tác giá đọc có hỗ trợ của máy đo thanh hầu

Phân đoạn va gan nhãn

Là quá trình phân tích âm vị Một số nguyên tắc được thống nhất nhằm dam bao độ chính xác và tính nhất quán khi phân âm đoạn như sau:

» — Sau đoạn nghỉ: Tại điểm bất đầu của biên độ đầu tiên lớn hơn nhiễu nền nhìn thấy trên tín hiệu

Định dạng
Số trang	25
Dung lượng	555,07 KB