TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG──────── * ──────── ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC NGÀNH CÔNG NGHỆ THÔNG TIN MÔ HÌNH HÓA TRƯỜNG ĐỘ ÂM TIẾT TIẾNG VIỆT NÂ
Trang 1TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
──────── * ────────
ĐỒ ÁN
TỐT NGHIỆP ĐẠI HỌC
NGÀNH CÔNG NGHỆ THÔNG TIN
MÔ HÌNH HÓA TRƯỜNG ĐỘ ÂM TIẾT TIẾNG VIỆT NÂNG CAO CHẤT LƯỢNG
TỔNG HỢP TIẾNG NÓI
Sinh viên thực hiện : NGUYỄN TRỌNG HIẾU
Lớp: Công nghệ phần mềm A – K51
Giáo viên hướng dẫn: TS Trần Thị Thanh Hải
ThS Nguyễn Thị Thu Trang
HÀ NỘI 05-2011
Trang 2PHIẾU GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP
1 Thông tin về sinh viên
Họ và tên sinh viên: Nguyễn Trọng Hiếu
Điện thoại liên lạc: 01677 225 100 Email: TrongHieuBK@gmail.comLớp: Công nghệ phần mềm A – K51 Hệ đào tạo: Đại học chính quy
Đồ án tốt nghiệp được thực hiện tại: Trung tâm nghiên cứu MICA: Từ ngày 21/02/2010đến 28/05/2010
2 Mục đích nội dung của ĐATN
Mục đích của đồ án tốt nghiệp là giải quyết bài toán “Mô hình hóa trường độ âm tiếttiếng Việt, nâng cao chất lượng tổng hợp tiếng nói ”
3 Các nhiệm vụ cụ thể của ĐATN
− Tìm hiểu bài toán mô hình hóa trường độ và tổng hợp tiếng nói
− Xây dựng mô hình lý thuyết cho bài toán chuẩn hóa văn bản tiếng Việt
− Thực thi mô hình lý thuyết
− Đánh giá kết quả của mô hình
4 Lời cam đoan của sinh viên:
Tôi – Nguyễn Trọng Hiếu - cam kết ĐATN là công trình nghiên cứu của bản thân tôi dưới
sự hướng dẫn của TS Trần Thị Thanh Hải và ThS Nguyễn Thị Thu Trang
Các kết quả nêu trong ĐATN là trung thực, không phải là sao chép toàn văn của bất kỳcông trình nào khác
Hà Nội, ngày 25 tháng 05 năm 2011
Tác giả ĐATN
Nguyễn Trọng Hiếu
5 Xác nhận của giáo viên hướng dẫn về mức độ hoàn thành của ĐATN và cho phép bảovệ:
Hà Nội, ngày tháng năm 2011
Giáo viên hướng dẫn
TÓM TẮT NỘI DUNG ĐỒ ÁN TỐT
Trang 3Tổng hợp tiếng nói đóng vai trò quan trọng trong đời sống, chính vì vậy một bộ tổng hợptiếng nói “hoàn hảo”, có thể đọc được văn bản như con người là niềm khao khát của cácnhà phát triển Nhiều bộ tổng hợp tiếng đã được phát triển, nhưng muốn có bộ tổng hợptiếng nói có thể tổng hợp được những âm thanh có độ tự nhiên cao, bộ tổng hợp tiếng nóicần phải “hiểu” được ngữ điệu của âm thanh từ văn bản đầu vào Đây là một vấn đề khôngđơn giản, và để xử lý được vấn đề này cần xây dựng những mô hình ngữ điệu cho tiếngViệt
Đồ án tập trung vào nghiên cứu bài toán xây dựng mô hình trường độ cho tiếng việt Tácgiả tìm hiểu các mô hình được sử dụng rộng rãi trên thế giới và các mô hình hiện được sửdụng đối với tiếng Việt, dựa vào đó đưa ra nhận xét đánh giá về các mô hình và xây dựng
mô hình
Để có thể đánh giá được sự thành công của mô hình, mô hình được cài đặt và triển khai thửnghiệm Kết quả của mô hình được đánh giá qua hai tiêu chí, thông số về độ chính xác củatrường độ qua mô hình và đánh giá theo cảm nhận của người nghe về độ tự nhiên của âmthanh
Trang 4LỜI CẢM ƠN
Trước hết, em xin được chân thành gửi lời cảm ơn sâu sắc tới các thầy cô giáo trong trường Đại học Bách Khoa Hà Nội nói chung và các thầy cô trong Viện Công nghệ thông tin và truyền thông, bộ môn Công nghệ phần mềm nói riêng đã tận tình giảng dạy, truyền đạt cho em những kiến thức và những kinh nghiệm quý báu trong suốt 5 năm học tập và rèn luyện tại trường Đại học Bách Khoa Hà Nội.
Em xin được gửi lời cảm ơn đến Ts Trần Thị Thanh Hải, ThS Nguyễn Thị Thu Trang - Giảng viên bộ môn Công nghệ phần mềm, Viện Công nghệ thông tin và truyền thông, trường Đại học Bách Khoa Hà Nội
đã hết lòng giúp đỡ, hướng dẫn và chỉ dạy tận tình trong quá trình em làm đồ án tốt nghiệp.
Em cũng xin gửi lời cảm ơn đến thầy Trần Đỗ Đạt trung tâm MICA
đã giúp đỡ em rất nhiều về mặt chuyên môn và dữ liệu để em có thể hoàn thành đồ án này.
Cuối cùng, em xin được gửi lời cảm ơn chân thành tới gia đình, bạn
bè đã quan tâm, động viên, đóng góp ý kiến và giúp đỡ trong quá trình học tập, nghiên cứu và hoàn thành đồ án tốt nghiệp.
Hà Nội, ngày 25 tháng 05 năm 2011
Nguyễn Trọng HiếuLớp CNPM A – K51
Viện CNTT & TT – ĐH Bách Khoa HN
Trang 5MỤC LỤC
Trang 6DANH MỤC BẢNG
Trang 7DANH MỤC HÌNH
Trang 8ĐẶT VẤN ĐỀ
Tổng hợp tiếng nói nhân tạo là một nhu cầu rất cần thiết trong nhiều lĩnh vực ứngdụng như: các hệ thống giao tiếp người-máy (máy đáp ứng bằng tiếng nói), các hệthống hỗ trợ tra cứu thông tin qua điện thoại, các hệ thống ứng dụng cho ngườikhiếm thị, các hệ thống thông báo tự động, phần mềm dạy ngoại ngữ… Hiện nay,điểm hạn chế chủ yếu trong lĩnh vực tổng hợp tiếng nói nhân tạo là vấn đề xử lýngữ điệu Ngữ điệu trong tiếng nói tự nhiên có sự biến đổi lên xuống của giọng nói,các khoảng ngừng nghỉ giữa các ý, các từ có ý nghĩa quan trọng trong câu đượcnhấn mạnh hơn giúp cho người nghe dễ dàng hiểu được thông điệp Ngữ điệu trongtổng hợp tiếng nói nhân tạo thường có chất lượng không cao, tiếng nói phá rakhông được rõ ràng, đơn điệu nên thường gây nhàm chán và khó khăn cho ngườinghe trong việc lĩnh hội Vì vậy, ngữ điệu là yếu tố đặc biệt quan trọng quyết địnhchất lượng của tiếng nói tổng hợp
Hiện nay trên thế giới việc tổng hợp tiếng nói đã đạt được những tiến bộ đáng
kể ở một số thứ tiếng như Anh, Pháp, Tây Ban Nha, Quan Thoại (Trung Quốc),Nhật… với chất lượng khá cao và được ứng dụng rộng rãi Đối với tiếng Việt, chấtlượng ngữ điệu của tiếng nói tổng hợp vẫn còn nhiều hạn chế nên việc ứng dụngcòn rất giới hạn
Khi xử lý ngữ điệu, khó khăn lớn nhất là trong văn bản viết hầu như không chứacác thông tin ngữ điệu một cách chặt chẽ rõ ràng, người đọc phải dựa vào các kiếnthức ngữ pháp, ngữ nghĩa và kinh nghiệm trong thế giới thực để hiểu văn bản rồi từ
đó xây dựng các thông tin ngữ điệu để đọc văn bản Đối với máy tính, để “hiểu”được văn bản ở mức độ này vẫn còn là một thách thức và trở ngại rất lớn Do đóchúng ta chỉ có thể tạm thời bằng lòng với các giải pháp cho kết quả tương đối gầnđúng có thể chấp nhận được
Với mục đích xây dựng một bộ phát âm tiếng Việt có chất lượng ngữ điệu tựnhiên hơn, đề tài nghiên cứu áp dụng mô hình xác định các thông số ngữ điệu theohướng tiếp cận học từ ngữ liệu tiếng nói tự nhiên bằng các mạng Neuron
Trang 9Đồ án tập trung vào xây dựng mô hình trường độ với mạng Neuron, dựa trên cácnghiên cứu trên thế giới về mạng neuron, tổng hợp tiếng nói cũng như các kết quảgần đây về ngữ âm, ngữ điệu tiếng Việt.
Bố cục của đồ án được trình bày như sau:
CHƯƠNG 1: TỔNG QUAN BÀI TOÁN
CHƯƠNG 2: ĐỀ XUẤT MÔ HÌNH TRƯỜNG ĐỘ ÂM TIẾT
CHƯƠNG 3: XÂY DỰNG VÀ THỬ NGHIỆM MÔ HÌNH
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Trang 10CHƯƠNG 1 TỔNG QUAN BÀI TOÁN
1.1 Tổng hợp tiếng nói nhân tạo
Tổng hợp tiếng nói là quá trình tạo ra lời nói một cách tự động từ văn bản Một
hệ thống tổng hợp tiếng nói (speech synthesis) hay còn gọi là bộ phát âm là một hệthống cho phép chuyển đổi một cách tự động văn bản có nội dung bất kỳ thành lờinói (Text-To-Speech, viết tắt là TTS)
Đây là một khâu quan trọng trong lĩnh vực giao tiếp người máy, bao gồm nhậndạng tiếng nói và tổng hợp tiếng nói Sự kết hợp giữa nhận dạng và tổng hợp sẽgiúp cho máy tính có thể giao tiếp với con người theo cách tự nhiên mà con ngườivẫn sử dụng trong giao tiếp hàng ngày Đó là sử dụng tiếng nói
Chất lượng của một bộ tổng hợp tiếng nói được đánh giá bằng mức độ giốngnhau của nó với giọng nói con người Một hệ thống text-to-speech thông minh chophép người khiếm thị hoặc rối loạn khả năng đọc có thể nghe được các văn bản ởtrên máy tính Nhiều hệ điều hành đã bao gồm cả bộ tổng hợp tiếng nói từ đầu thậpniên 1980[2]
1.1.1 Kiến trúc của một hệ thống tổng hợp tiếng
Một hệ thống tổng hợp tiếng nói hoàn chỉnh gồm nhiều module thực hiện cácnhiệm vụ khác nhau Nhưng tổng quan có thể chia thành hai phần chính, tổng hợpmức cao và tổng hợp mức thấp
Tổng hợp mức cao là giai đoạn đầu của quá trình tổng hợp, giai đoạn chuyển đổicác văn bản text thành các đơn vị tiếng nói (gồm thông tin về ngữ âm và ngôn điệudưới dạng các thông số) sau đó qua tổng hợp mức thấp sẽ thành tiếng nói
Để có thể tổng hợp được ra âm thanh, văn bản đầu vào cần phải trải qua một sốbước xử lý:
Trang 11Hình 1-1 Hệ thống tổng hợp tiếng nói[2].
1.1.1.1 Chuẩn hóa văn bản
Trong hệ thống tổng hợp tiếng nói, việc chuẩn hóa văn bản là công đoạn đầu tiên
có ảnh hưởng quan trọng trong việc đảm bảo văn bản được đọc một cách đúng đắn Văn bản đầu vào là văn bản lấy trong thực tế, ban đầu rất hỗn độn vì nó chứanhiều dạng từ chưa chuẩn hóa khác nhau Vấn đề là nhận ra và phân loại đúngnhững từ này Vì mỗi loại có cách đọc khác nhau nên khi phân loại sai có thể sẽkhiến cách đọc sai và người nghe hiểu sai nội dung văn bản Ví dụ “phần XI” đọclên là “phần mười một”, nếu không nhận đúng số la mã “XI” sẽ đọc là “phần xi”!Chữ số được sử dụng trong với nhiều vai trò như là số, là này tháng, giá trị đođạc,và trong những biểu thức toán học Những số nằm giữa 1100 và 2002 thôngthường được chuyển đổi thành năm 1/1/1111 chữ số trong mẫu trên thường đượcchuyển đổi thành ngày/tháng/năm Nhưng 2/5 thì thật khó bởi vì nó có thể vừa làngày/tháng vừa có thể là một phân số
Hiện tượng nhập nhằng là một thách thức trong chuẩn hóa văn bản, đòi hỏi phải
có một giải pháp hợp lí
Trang 121.1.1.2 Phân tích cú pháp
Trong tổng hợp tiếng nói, phân tích cú pháp đóng một vai trò quan trọng trongcông đoạn xử lí văn bản của hệ thống Phân tích cú pháp chuẩn xác sẽ đưa ra cho hệthống một cái nhìn toàn cảnh về cấu trúc của văn bản, các cụm từ trong văn bản từphức tạp cho đến đơn giản nhất, cũng như vị trí âm tiết trong cụm từ
1.1.1.3 Phân tích ngữ điệu
Bộ phân phân tích ngữ điệu có nhiệm vụ mô hình hóa được ngữ điệu của tiếngnói và đưa ra các thông tin về ngữ điệu dưới dạng số liệu và làm đầu vào cho bộtổng hợp mức thấp Bộ phân tích ngữ điệu có ảnh hưởng lớn đến mức độ tự nhiêncủa tiếng nói tổng hợp Ảnh hưởng của ngữ điệu sẽ được phân tích rõ ở các phầnsau
1.1.1.4 Tổng hợp mức thấp
Tổng hợp mức thấp là quá trình kết hợp các đoạn tín hiệu (ví dụ như diphone).Các đoạn tín hiệu này đã được phân tích, xử lý qua mức cao (phân tích ngữ âm,phân tích ngôn điệu)
Hiện nay có ba phương pháp tổng hợp tiếng nói Phương pháp đơn giản nhất đểphát sinh tiếng nói tổng hợp là phát các mẫu tiếng nói đã thu từ tiếng nói tự nhiên(như các từ hoặc câu) Phương pháp này cho chất lượng tương đối tốt nhưng gặpphải hạn chế là số lượng từ vựng trong cơ sở dữ liệu rất lớn Bên cạnh đó tiếng nóicũng có thể tạo ra bằng cách mô phỏng hệ thống phát âm Phương pháp này chochất lượng rất tốt nhưng thực hiện khá phức tạp Một phương pháp nữa cũng đượcdùng để tổng hợp tiếng nói là tổng hợp formant Các phương pháp tổng hợp tiếngnói cùng với những đặc điểm cơ bản nhất sẽ được giới thiệu trong phần tiếp theo
1.1.2 Một số phương pháp tổng hợp tiếng
Các tiêu chí chất lượng quan trọng nhất của một bộ tổng hợp tiếng nói là tính tựnhiên và dễ hiểu Các hệ thống tổng hợp tiếng nói đều cố gắng cực đại hóa cả haitiêu chí này
Hai phương pháp chính trong tổng hợp tiếng nói là tổng hợp ghép nối và tổnghợp formant Mỗi phương pháp đều có điểm mạnh và điểm yếu, và mục đích sử
Trang 13Format 1 Format 2 Format 3 Kích thích Tiếng nói
F1 F2 F3
Hệ Số
a Tổng hợp ghép nối: Tổng hợp bằng cách ghép nối các âm được tổng hợp từ
các lời nói tự nhiên đã được thu từ trước có lẽ là cách dễ nhất để sản sinh lờinói Phương pháp tổng hợp ghép nối cho chất lượng cao và tương đối tựnhiên Phương pháp này rất phù hợp với các hệ thống phát thanh và các hệthống thông tin [2]
b Các diphone được cắt ra từ tín hiệu rồi sau đó được tổng hợp lại theo yêucầu dựa trên một thuật toán ghép nối
Hiện nay phương pháp này đang được sử dụng rộng rãi trên thế giới và ngàycàng cho chất lượng tốt hơn nhờ sự trợ giúp của máy tính
c Tổng hợp formant: hệ thống này không dùng bất cứ mẫu giọng nào khi
tổng hợp Thay vào đó, giọng nói tổng hợp được tạo ra dựa theo một môhình âm nào đó [2] Các thông số như tần số cơ bản, sự phát âm và mức độtiếng ồn được thay đổi theo thời gian để tạo ra một dạng sóng cho giọng nóinhân tạo Phương pháp này đôi lúc còn được gọi là phương pháp tổng hợptheo luật, mặc dù rất nhiều hệ thống tổng hợp ghép nối cũng có các thànhphần dựa theo luật [9]
Hình 1-2 Tổng hợp Formant nối tiếp
d Tổng hợp mô phỏng phát âm: Phương pháp mô phỏng hệ thống phát âm
(articulatory synthesis) cố gắng mô phỏng hệ thống phát âm của con ngườimột cách hoàn hảo nhất, do đó có thể đạt tới chất lượng cao trong tổng hợptiếng nói Nhưng cũng chính vì vậy mà phương pháp này khó có thể thựchiện được, vì việc mô phỏng hệ thống phát âm của con người rất khó thựchiện Nhưng từ khi có sự xuất hiện của máy tính thì nó lại được phát triển.Cho tới gần đây, các hệ thống tổng hợp mô phỏng phát âm mới bắt đầu đượcđưa vào trong các ứng dụng thương mại
Trang 14e Tổng hợp lai: kết hợp giữa tổng hợp ghép nối và tổng hợp formant nhằm
giảm thiểu sự co xát hay thấy ở các hệ tổng hợp ghép nối, đồng thời có tính
tự nhiên cao hơn tổng hợp formant
1.2 Đặc điểm ngữ điệu, ngữ âm tiếng Việt.
1.2.1 Một vài đặc điểm của tiếng Việt
Tiếng Việt là ngôn ngữ được xếp vào loại hình đơn lập (isolate) hay còn đượcgọi là loại hình phi hình thái, không biến hình, đơn tiết Tiếng Việt có một vài đặcđiểm chính như sau [7].:
- Trong hoạt động ngôn ngữ, từ không biến đổi hình thái Ý nghĩa ngữ phápnằm ở ngoài từ
- Phương thức ngữ pháp chủ yếu là trật tự từ và hư từ
- Tồn tại một loại đơn vị đặc biệt là “hình tiết” mà vỏ ngữ âm của chúng trùngkhít với âm tiết, và đơn vị đó cũng chính là “hình vị tiếng Việt” hay còn gọi là
“tiếng” (tiếng Việt sử dụng khoảng 10.000 tiếng)
- Ranh giới từ không được xác định mặc nhiên bằng khoảng trắng như các thứtiếng biến hình khác Ví dụ: “học sinh học sinh học” Điều này khiến cho việc phântích hình thái (tách từ) tiếng Việt trở nên khó khăn Việc nhận diện ranh giới từ làquan trọng làm tiền đề cho các bài toán xử lý ngôn ngữ tiếp theo sau đó như kiểmlỗi chính tả, gán nhãn từ loại, …
- Tồn tại loại từ đặc biệt “từ chỉ loại” (classifier) hay còn gọi là phó danh từ chỉloại đi kèm với danh từ, như: cái bàn, cuốn sách, bức thư, …
- Về mặt ngữ âm học, các âm tiết tiếng Việt đều mang một trong 6 thanh điệu(ngang, sắc, huyền, hỏi, ngã, nặng) Đây là âm vị siêu đoạn tính
- Có hiện tượng láy trong từ tiếng Việt, như: lấp lánh, lung linh,… Ngoài ra còn
có hiện tượng nói lái (do mối liên kết giữa phụ âm đầu và phần vần trong âm tiết làlỏng lẻo), như: “biệt thự” láy thành “bự thiệt”, “cá đối” láy thành “cối đá”,
Trang 151.3 Cấu trúc âm tiết tiếng Việt
Hình 1-3 Cấu trúc âm tiết tiếng Việt
Một âm tiết tiếng Việt gồm 3 thành phần chính: phụ âm chính (initial), vần(final) và thanh điệu (tone) Trong đó phần vần lại được chia làm 3 phần nhỏ hơn lànguyên âm chính (nucleus), nguyên âm đệm (median), và phần cuối cùng (final)[7]
Ví dụ: âm tiết “TOÁN” có phiên âm /twan-5/ trong đó phần trước là /t/, bán
nguyên âm /w/, nguyên âm chính /a/, phần cuối /n/ và thanh 5 (thanh sắc)
Âm cuối của âm tiết chỉ có thể là:
- 6 phụ âm, còn được gọi là các phụ âm cuối: / p /, / t /, / m /, / n /, / k /, / ŋ /
- 2 bán nguyên âm: / i /, / w /
Dựa theo âm cuối người ta có thể chia âm tiết thành bốn loại như sau:
- Âm tiết mở: những âm tiết mà không có âm cuối Ví dụ: ta /ta-1/, bố 5/
/bo Âm tiết bán mở: những âm tiết có phần cuối là một bán nguyên âm Vídụ: tai /taj-1/, vài /vaj-2/
- Âm tiết đóng: những âm tiết có phần cuối là một phụ âm câm (voicelessconsonant) Ví dụ: át /at-5/, áp /ap-5/, ác /ak-5/
- Âm tiết bán đóng: những âm tiết có phần cuối là một phụ âm mũi (nasalconsonant) Ví dụ: am /am-1/, êm /em-1/
1.3.1 Thanh điệu
Trong hệ thống tiếng Việt có tất cả 6 thanh[7].:
Trang 16Bảng 1-1 Các thanh điệu của tiếng Việt
Hệ thống thanh của tiếng Việt tương đối phức tạp Nó thay đổi theo từng vùngmiền Số lượng các thanh có thể thay đổi từ 6 (giọng Hà Nội) đến 5 (giọng thànhphố Hồ Chí Mình) hoặc đến 4 (giọng miền Trung) Bởi vì giọng Hà Nội được coi làgiọng chuẩn, nên phần sau sẽ chỉ quan tâm đến các thuộc tính của giọng Hà Nội
1.3.2 Ngữ điệu tiếng Việt
Ngữ điệu trong tiếng nói được thể hiện ở: cao độ, cường độ và trường độ:
- Cao độ, độ trầm bổng của âm thanh, chính là tần số sóng cơ học của âmthanh Đối với tiếng nói, tần số dao động của dây thanh âm quy định độcao giọng nói của con người Mỗi người có một độ cao giọng nói khácnhau, độ cao của nữ giới thường cao hơn nam giới và độ cao của trẻ emthường cao hơn của người lớn Cao độ giọng nói cũng thay đổi vớinhững trạng thái biểu lộ xúc cảm khác nhau Cao độ là yếu tố cơ bản tạonên những hiện tượng ngữ điệu như: thanh điệu, sắc thái biểu cảm, và cảtrọng âm
- Cường độ là độ to nhỏ của âm thanh Cường độ càng lớn thì âm thanh cóthể truyền đi được càng xa Xét trên phương diện sóng cơ học thì cường
độ chính là biên độ của dao động sóng âm, nó quyết định năng lượng củasóng âm Cường độ âm thanh được đo bằng đơn vị decibel (dB) Cường
độ là yếu tố chính tạo nên hiện tượng trọng âm
- Trường độ là độ dài của âm thanh thể hiện qua tốc độ phát âm Nó tạonên sự tương phản giữa các bộ phận của lời nói Tốc độ phát âm đượcquy định bởi đặc điểm cá nhân của người nói, phong cách và hoàn cảnhphát âm Tốc độ lời nói còn phụ thuộc vào nội dung câu nói
1.3.3 Ngữ điệu trong tổng hợp tiếng nói
Như đã phân tích ở trên, ba yếu tố cấu thành nên ngữ điệu gồm cao độ, cường độ
Trang 17độ cao, độ mạnh, và độ dài Tần số cơ bản F0 được đo bằng đơn vị Hz, đặc trưngcho sự cảm nhận về giai điệu Cường độ của âm thanh được đo bằng Decibels (dB).Trường độ được đo bằng đơn vị centi giây (cs) hay milli giây (ms), dựa vào đóchúng ta có thể xác định được giai điệu (số lượng âm tiết trong một giây).
Nhiệm vụ chính của việc sinh ngữ điệu trong tổng hợp là đưa ra được biểu diễn
về mặt ngữ âm của ngữ điệu dựa trên các thông tin ngôn ngữ học Bộ phân tích vănbản có thể cung cấp những thông tin hữu ích như cấu trúc của câu, quan hệ ngữnghĩa, sự đồng âm, trọng âm… các yếu tố có thể ảnh hưởng đến đến sự biểu diễncủa ngữ điệu Tuy nhiên, việc không có một phương thức chuyển đổi rõ ràng cácthông tin ngữ điệu và sự liên quan của ngữ điệu đến nhiều mức khác nhau của ngônngữ khiến cho việc phân tích ngữ điệu trở thành một công việc khó khăn
1.4 Bài toán mô hình hóa trường độ
1.4.1 Bài toán
Trong các yếu tố cấu thành nên ngữ điệu, trường độ là một trong những yếu tốquan trọng quyết định đến chất lượng của tiếng nói Phạm vi của đồ án sẽ tập trungvào bài toán phân tích trường độ của âm tiết
Bài toán mô hình hóa trường độ trong tổng hợp tiếng nói hướng đến việc phântích âm tiết dựa trên ngữ cảnh để có thể đưa ra được thông tin về trường độ của âmtiết Trường độ được đưa ra càng gần với trường độ thực tế của âm tiế càng tốt, đảmbảo được độ tự nhiên của tiếng nói tổng hợp
Có nhiều hướng tiếp cận khác nhau đối với bài toán mô hình hóa trường độ sửdụng các công cụ và phương pháp khác nhau, trong phần sau sẽ đề cập đến một sốhướng tiếp cận phân tích các hướng tiếp cận đó, để chọn ra được hướng tiếp cận chobài toán trong phạm vi đề tài
Trang 18chuyển được văn bản thành các âm tiết tiếng nói phù hợp đòi hỏi nhiều
xử lý phân tích văn bản phức tạp và khó có được độ chính xác cao
- Ngữ điệu của tiếng nói tự nhiên phụ thuộc nhiều vào ngữ cảnh khi nói,trong nội dung văn bản thường không chứa đựng đầy đủ những thông tinngữ cảnh khi nói Ví dụ cùng một câu: “Đây là con đường đến trường”nếu như đang ở trong bối cảnh hội thoại thì trường độ của các âm tiết sẽkhác so với trong đoạn văn Nhưng với cùng một câu như vậy không thểxác định được khi nào là hội thoại và khi nào là một câu văn bình thường
- Ngữ điệu mang tính tương đối rất cao, với những người khác nhau thìngữ điệu khác nhau rất nhiều Thậm chí với cùng một người, nói cùngmột câu nhưng sẽ không có hai lần người đó
- Bởi vì không có một cách mô tả chính xác khi nào thì trường độ âm tiếtnhư thế nào Các nghiên cứu tập trung vào việc tìm ra các yếu tố có độảnh hưởng cao hoặc tìm ra các luật đặc trưng đến trường độ
- Ngữ điệu nói chung và trường độ nói riêng còn phụ thuộc rất nhiều vàotrạng thái tâm lý cảm xúc của người nói
Do đó việc mô hình trường độ và dự đoán trường độ của âm tiết chủ yếu mangtính chất tương đối Và tạo ra cảm giác thật nhất có thể cho âm tiết tổng hợp
1.5 Các hướng tiếp cận mô hình hóa trường độ
Trường độ là độ dài của âm thanh thể hiện qua tốc độ phát âm Nó tạo nên sựtương phản giữa các bộ phận của lời nói Tốc độ phát âm được quy định bởi đặcđiểm cá nhân của người nói, phong cách và hoàn cảnh phát âm Tốc độ lời nói cònphụ thuộc vào nội dung câu nói
Trong tổng hợp tiếng nói việc có được thời gian phát âm và khoảng ngừng nghỉgiữa các âm là một vấn đề thiết yếu nếu muốn có được âm thanh giống với âmthanh tự nhiên Mục đích của các mô hình trường độ là đưa ra được các tham số cho
mô hình qua đó có được các giá trị về thời gian tương ứng
Trang 19Trên thế giới có nhiều hướng tiếp cận khác nhau để xử lý bài toán mô hình hóatrường độ Các phương pháp này có ưu nhược điểm và môi trường áp dụng khácnhau
1.5.1 Mô hình luật Klatt
Dennis Klatt đã đưa ra một mô hình dựa trên luật được sử dụng trong hệ thốngMITalk Mô hình Klatt là một trong những mô hình chuẩn của tổng hợp tiếng nói.Dựa trên một lượng lớn các phép thí nghiệm và thay đổi từ một trường độ cơ bảnđối với tất cả các âm tiết miêu tả bởi một tập luật.[11]
Mô hình Klatt giả sử rằng:
• Mỗi loại âm tiết có một trường độ cố hữu của bản thân nó và đượcxem như là một thuộc tính riêng biệt của âm tiết đó
• Mỗi luật sẽ ảnh hưởng bằng việc tăng hoặc giảm một lượng phần trămnhất định đối với trường độ của âm tiết
• Âm tiết không thế có trường độ ngắn hơn một mức tối thiểu
Mô hình này được dùng để xác định trường độ các âm vị bằng công thức dựatrên các thông tin ngữ âm có ảnh hưởng liên quan Theo đó, trường độ của âm vịkhi tổng hợp được xác định theo công thức như sau:
Trong đó:
DUR: trường độ cần xác định của âm vị
INHDUR: trường độ của âm vị mẫu
MINDUR: trường độ âm vị ngắn nhất
PRCNT: Tỉ lệ biến đổi trường độ được xác định dựa vào các luật
Để xác định tham số PRCNT, Dennis Klatt sử dụng 10 luật kết hợp với nhaudựa trên các yếu tố ngữ cảnh của âm vị như sự nhấn giọng, mức độ nhấn giọng,v.v… Cũng như các mô hình dựa trên luật khác, các luật Klatt và các thông số được
Trang 20xác định một cách thủ công qua một quá trình thử sai Phần mềm đọc tiếng ViệtVnSpeech của tác giả Lê Hồng Minh xác định trường độ dựa trên mô hình này.Đây là một mô hình đơn giản và có nhiều ứng dụng trong thực tế, tuy nhiên conđường để có thể có được tập luật dùng trong mô hình rất vất vả, với nhiều thửnghiệm, và khi áp dụng sang ngôn ngữ khác phải thực hiện lại từ đầu.
1.5.2 Mô hình Sum-of-products
Jan van Santen đã đưa ra mô hình sums-of-products với các công thức có dạngtổng của các tích để tính trường độ của một âm vị được biểu diễn bởi vector đặctrưng d như sau[11].:
Trong đó:
dj: thành phần thứ j của vector đặc trưng d
Si,j: là một hệ số tương ứng với đặc trưng j, và mối liên hệ giữa hai đặc trưng i,j K: tập các chỉ số tương ứng với các chuỗi tích
Ii: tập các hệ số tương ứng với chuỗi tích i
Mô hình này về cơ bản là một sự tổng quát hóa của một số mô hình đã có như
mô hình luật Klatt Nó được ứng dụng bằng cách xây dựng một cây với các nút látách không gian đặc trưng thành các lớp con thuần nhất mà có thể được biểu diễnbởi một công thức sums-of-products riêng biệt Công việc này được thực hiện mộtcách thủ công dựa trên các kiến thức ngôn ngữ học và phân tích ngữ liệu
1.5.3 Mô hình cây phân lớp hồi quy CART
Mô hình cây phân lớp và hồi quy (Classification and Regression Trees) là môhình tiêu biểu được dùng khá phổ biến để xác định yếu tố ngữ điệu trong các hệtổng hợp tiếng nói như Festival Mô hình CART đã được sử dụng cho tiếng Anh từnăm 1990[10]
Mô hình này về cơ bản là một cây phân lớp nhị phân với đầu vào là các âm vị vàvector các thuộc tính đặc trưng của nó được đưa vào từ nút gốc, sau đó âm vị được
Trang 21chuyển đi theo các nhánh thỏa mãn các luật tương ứng tại mỗi nút con cho đến khigặp nút lá Trị số ở các nút lá sẽ cho phép xác định thông số ngữ điệu của âm vịtương ứng [2].
Việc huấn luyện cây được thực hiện với một tập ngữ liệu mẫu với input và outputđược xác định sẳn Trong quá trình huấn luyện các luật phân lớp ở các nút sẽ đượcxây dựng tự động Sau khi huấn luyện, cây hầu như sẽ cho kết quả chính xác đối vớinhững mẫu đã huấn luyện, tuy nhiên với những mẫu mới không có trong ngữ liệuhuấn luyện thì kết quả thường không chính xác Để khắc phục tình trạng quá luyện,việc “tỉa nhánh” được thực hiện bằng cách chọn cắt bớt những nhánh gây nên tìnhtrạng quá luyện bằng cách thử với tập mẫu dữ liệu chưa được huấn luyện Mô hìnhnày được áp dụng trong phần mềm đọc tiếng Việt VnVoice
Hình 1-4 Cây phân lớp hồi quy
Các thành phần của vector thuộc tính được lựa chọn sao cho có thể đặc trưngđược cho các tính chất về trường độ
Bảng 1-2 Các tham số của CART
Đặc trưng của âm tiết (đầu, giữa, nhân, cuối) và thanh điệu 5
Số lượng âm vị trong âm tiết 1
Trang 22Thanh điệu của âm tiết đứng trước 1
Thanh điệu của âm tiết đứng sau 1
Âm vị cuối của âm tiết đứng trước 1
Âm vị đầu của âm tiết đứng sau 1
Vị trí của âm tiết trong câu 1
Vị trí tương đối của âm tiết trong từ 1
Thông tin về trọng âm của âm tiết 1
1.5.4 Mô hình mạng Neuron
Ý tưởng đầu tiên xây dựng mạng Neuron nhân tạo giống mạng Neuron của conngười là của MC.Culloch và Pitts vào năm 1943 với nguyên lý là các Neuron có thểđược mô hình hóa như thiết bị ngưỡng giới hạn logic Đến nay đã có nhiều nghiêncứu phát triển mô hình mạng Neuron và các ứng dụng của nó Về cơ bản mạngNeuron bao gồm một hệ thống các phần tử đơn vị là các Neuron còn được gọi là nútđược kết nối với nhau Khả năng xử lý của mạng Neuron nằm ở các kết nối giữa cácNeuron và trọng số của các kết nối đó Các kết nối và trọng số tương ứng được xâydựng qua một quá trình huấn luyện với một tập dữ liệu mẫu cho trước
Mạng Neuron hoạt động theo cơ chế như là một hộp đen, ứng với dữ liệu đầuvào sẽ đưa ra giá trị đầu ra mà không rõ ràng cơ chế xử lý bên trong như thế nào
Do trong quá trình huấn luyện mạng sẽ tự tìm cách tối ưu hóa các thông số
Mạng Neuron là một công cụ được nhiều hệ thống tổng hợp tiếng hiện đại sửdụng [4] Trong bài toán này mạng Neuron đã tỏ ra ưu thế hơn hẳn đối với cácphương pháp tiếp cận khác về độ tự nhiên của trường độ Chi tiết về mạng Neuron
sẽ được trình bày trong những phần tiếp theo
1.5.5 Nhận xét
Đối với các phương pháp mô hình hóa trường độ ở trên, phương pháp đơn giảnnhất là phương pháp sử dụng luật Klatt, phương pháp này đơn giản, dễ cài đặt Tuynhiên vấn đề khó khăn lớn nhất đối với Klatt là rất khó có thể xây dựng được tậpluật đầy đủ, để xác định chính xác các trường hợp trong thực tế Công việc này đòihỏi rất nhiều nghiên cứu, thử nghiệm tuy nhiên độ chính xác thu được lại không thật
Trang 23sự cao Đây là phương pháp được sử dụng nhiều trong thời gian trước đây, nhưnggiờ ít được sử dụng vì sự ra đời của các phương pháp có độ tin cậy cao hơn.
Phương pháp Sum-Of-Products là sự cải tiến của phương pháp Klatt nhằm thuđược sự chính xác cao hơn, nhưng thay vào đó là sự cồng kềnh và phức tạp trongtính toán, cài đặt và đòi hỏi nhiều kiến thức chuyên môn
Phương pháp sử dụng Cây phân lớp hồi quy CART (Classiffication andRegression Tree) cài đặt đơn giản, cho kết quả tương đối tốt nhưng đối với các dữliệu chưa được huấn luyện thì độ chính xác không cao Và các trường độ dự đoánđược phân theo một số mức nhất định
Trong khi đó sử dụng mạng Neuron lại chứng tỏ sự ưu việt của mình với khảnăng tự phát hiện được các mốt liên hệ giữa các đặc trưng âm tiết ở đầu vào và cácthông số ngữ điệu ở đầu ra Mô hình này còn có khả năng dự đoán khá chính xáccho các mẩu chưa được huấn luyện và việc cài đặt cũng không phức tạp Do đó,mạng Neuron được lựa chọn để giải quyết bài toán mô hình hóa trường độ âm tiếttiếng Việt Chi tiết hơn sẽ được trình bày trong chương sau
1.6 Kết luận chương
Chương này đã điểm qua tổng quan về một hệ tổng hợp tiếng nói và đặc điểmngữ âm ngữ điệu của tiếng Việt Việc mô hình hóa được trường độ âm tiết trongtiếng Việt nói riêng và ngữ điệu nói chung là một bài toán không đơn giản Nó phụthuộc vào nhiều yếu tố khác nhau trong khi các yếu tố đó rất khó để có thể xác địnhđược từ văn bản
Các mô hình, hướng tiếp cận khác nhau đã được xem xét và đánh giá và chọn rahướng đi cho đề tài
Chương tiếp sẽ đi vào phân tích các yếu tố ảnh hưởng đến trường độ, đề xuất môhình trường độ cho âm tiết tiếng Việt
Trang 24CHƯƠNG 2 ĐỀ XUẤT MÔ HÌNH TRƯỜNG
2.1 Trường độ âm tiết và các yếu tố ảnh hưởng đến trường độ
2.1.1 Trường độ
Trường độ của âm tiết do nhiều yếu tố khác nhau quyết định, nó thay đổi giữadân cư từng vùng miền, giữa từng người và phụ thuộc vào cả trạng thái cảm xúc củangười đó Rất khó để một người có thể hai lần nói cùng một câu với cùng một ngữđiệu Do đó việc phân tích trường độ được thực hiện với dữ liệu từ cùng một người,thu âm chuẩn
Để có thể mô hình hóa được trường độ một cách chuẩn xác nhất, trước tiênchúng ta cần tìm ra một số yếu tố có độ ảnh hưởng lớn đớn trường độ và xây dựngvector đặc trưng
Việc phân tích được tiến hành dựa trên thống kê đối với các âm tiết có trong cơ
sở dữ liệu âm tiết là các đoạn văn, đoạn hội thoại được thu âm và gán nhãn trường
độ đối với từng âm tiết
Dữ liệu cho việc phân tích và huấn luyện được cung cấp bởi TS Trần Đỗ Đạt,Trung tâm nghiên cứu MICA
Trang 252.1.2 Các yếu tố ảnh hưởng đến trường độ âm tiết
2.1.2.1 Thanh điệu
Trước tiên ta sẽ phân tích sự ảnh hưởng của thanh điệu âm tiết đến trường độ của
âm tiết đó Trong 6 thanh của tiếng Việt thì có 2 thanh sắc và nặng có đặc tính khácvới các thanh còn lại Mỗi thanh lại được chia làm 2 (5a,5b) và (6a,6b) [2]
Tính độ dài tương đối của một thanh i:
Trong đó Y là độ dài trung bình của thanh i, N là độ dài trung bình của cả 6thanh
Để đạt được độ tin cậy cao thử nghiệm được tiến hành với 7 người khác nhau[2]
Đây là biểu đồ độ dài tương đối của 6 thanh sau khi tính ra:
Hình 2-5 Độ dài tương đối của thanh [8].
Những thanh có độ dài tương đối lớn hơn 1 thì là thanh dài, những thanh còn lại
là thanh ngắn Từ đó ta có:
- Thanh 1, thanh 2, thanh 3, và thanh 5a là những thanh dài
- Thanh 5b, thanh 6a và thanh 6b là những thanh ngắn
- Thanh 4 có độ dài tương đối lớn hơn 1 với hầu hết những người nói, nên
có thể xem như là thanh dài
Thanh điệu là các yếu tố thuộc về trạng thái tĩnh của âm tiết, các thông tin vềthanh điệu là cố định đối với các âm tiết Việc phân chia thanh số 5 và số 6 (thanh
Trang 26sắc và nặng) thành hai loại nhỏ giúp cho các thông tin về trường độ thể hiện rõ rànghơn đối với các thanh điệu đặc biệt là so với việc giữ nguyên thanh số 5.
2.1.2.2 Trường độ âm tiết trong trạng thái động
Thông tin về âm tiết có ảnh hưởng lớn đến trường độ của nó, tuy nhiên các yếu
tố đó chưa đầy đủ, ngữ cảnh xung quanh âm tiết cũng có nhiều ảnh hưởng đếntrường độ của âm tiết đó[2]
Để khảo sát thuộc tính động của thanh, ta dùng một tập huấn luyện với các thông
số như sau:
Loại dữ liệu Số lượng Số lượng
câu
Số lượng âm tiết
Số lượng âm tiết khác nhau
Hội thoại 33 212 1483 457
Đoạn văn 114 418 7806 1513
Hình 2-6 Hai loại dữ liệu và các thuộc tính của chúng
Tone 1 Tone 2 Tone 3 Tone 4 Tone5a Tone5b Tone6a Tone6b
Trang 27Hình 2-8 Trường độ trung bình của các âm tiết ở từng vị trí khác nhau
Để làm chi tiết hơn kết quả này, chúng ta xét các âm tiết xuất hiện ở mỗi vị trí ítnhất 3 lần và phân tích trường độ trung bình của chúng Kết quả nhận được là tương
tự, tất cả các âm tiết cuối có trường độ trung bình dài nhất và phần lớn (80%) các
âm tiết ở vị trí đầu có trường độ ngắn hơn âm tiết ở vị trí giữa câu
Hình 2-9 Trường độ trung bình của các âm tiết[2].
Qua đây ta có thể thấy được vị trí của âm tiết ảnh hưởng thế nào đến trường độcủa âm tiết đó Khi mà âm tiết đứng ở vị trí cuối cùng của câu hoặc một đoạn nào
đó thì trong khi nói, âm tiết đó thường được ngân dài để ngắt trước khi kết thúc câuđó
2.1.2.4 Ảnh hưởng của thanh
Trong các phần trước, sự ảnh hưởng của thanh điệu cũng như vị trí đã được phântích đối với trường độ của âm tiết Để có thể làm rõ hơn được mối quan hệ này, ảnh
Trang 28hưởng của thanh điệu được xét với các vị trí khác nhau của âm tiết trong câu (đầucâu, giữa câu, cuối câu).
Trường độ trung bình của âm tiết dựa theo thanh được biểu diễn ở hình dưới:
Hình 2-10 Trường độ trung bình của các âm tiết dựa theo thanh[2].
Công thức tính trường độ trung bình :
XiR = Xi/N
Trong đó N là trường độ trung bình của cả 6 thanh
Xi là trường độ trung bình của thanh i
Và XiR là trường độ tương đối của thanh i
Ta thu được bảng sau:
Bảng 2-3 Trường độ tương đối và độ lệch chuẩn của 6 thanh[2].
Tone
Trường độ tương đối X
σ [%]
Trường độ tương đối X
σ [%]
Trường độ tương đối X
Trang 29Trường độ tương đối X
σ [%]
Trường độ tương đối X
σ [%]
Trường độ tương đối X
2.1.2.5 Số lượng thành phần của âm tiết
Một âm tiết có thể có tối đa 4 thành phần, số lượng các thành phần của âm tiết cóảnh hưởng nhất định đến trường độ của âm tiết đó Đối với các âm tiết có số lượngthành phần càng lớn thì trường độ trung bình của âm tiết đó càng lớn
Như ta có thể thấy ở phân tích dưới đây
Hình 2-11 Ảnh hưởng của số lượng âm tiết đến trường độ trung bình
Đối với các âm tiết chỉ có 1 thành phần như “a”, hay “ở” thì trường độ của các
âm tiết này nhìn chung ngắn hơn nhiều so với các âm tiết có nhiều thành phần hơn.Các âm tiết có đầy đủ 4 thành phần (âm đầu, âm đệm, âm chính, âm cuối) thường lànhững âm tiết có trường độ dài
Trong tiếng Việt, các âm tiết thường có 3 thành phần (âm đầu – âm chính – âmcuối; âm đầu – âm đệm – âm chính; âm đệm – âm chính – âm cuối) , hoặc hai thànhphần (âm đầu – âm chính; âm chính – âm cuối; âm đệm – âm chính) Số lượng âm
Trang 30tiết có 2 hoặc 3 thành phần trong dữ liệu chiếm số lượng áp đảo so với các âm tiết
có 1 hoặc 4 thành phần
Hình 2-12 Số lượng các âm tiết ứng với số lượng các thành phần
Số lượng âm tiết có 2 thành phần đạt số lượng lớn nhất Số các âm tiết có 1 thànhphần chiếm số lượng nhỏ và hầu hết có trường độ ngắn Trong tiếng Việt thì sốlượng các âm tiết có ba thành phần chiếm áp đảo, điều này có ảnh hưởng khá lớnđến trường độ âm
2.1.2.6 Ảnh hưởng của vị trí trong từ
Đối với âm tiết tiếng việt, số lượng âm tiết trong 1 từ biến động từ 1-4 Trong đó
số lượng từ với 2 âm tiết là phổ biến nhất Số lượng từ với 3 hoặc 4 âm tiết chiếm sốlượng rất nhỏ Vị trí của âm tiết trong 1 từ có ảnh hưởng tới trường độ của âm tiết
đó Nhưng không thật sự rõ rệt
Để xác định được sự ảnh hưởng của vị trí trong từ đối với trường độ của âm tiết,
ta tiến hành thống kê đối về trường độ của âm tiết đối với các vị trí khác nhau của
âm tiết trong từ
Các âm tiết đứng đầu từ thường có trường độ ngắn hơn so với các âm tiết đứng ở
vị trí sau và cuối từ Nên đây cũng là một thông tin quan trọng đối với trường độ vàcần được sử dụng
Hình 2-13 Ảnh hưởng của vị trí trong từ đến trường độ âm tiết
2.2 Mô hình hóa trường độ sử dụng mạng Neuron
2.2.1 Sơ lược về mạng Neuron
Trang 31Hình 2-14 Mô hình của một Neuron sinh học.
Hoạt động của một neuron như sau: neuron lấy tổng tất cả các điện thế vào mà
nó nhận được, và phát ra một xung điện thế nếu tổng ấy lớn hơn một ngưỡng nào
đó Các neuron nối với nhau ở các synapses Synapse được gọi là mạnh khi nó chophép truyền dẫn dễ dàng tín hiệu qua các neuron khác Ngược lại, một synapse yếu
sẽ truyền dẫn tín hiệu rất khó khăn
Các synapses đóng vai trò rất quan trọng trong sự học tập Khi chúng ta học tậpthì hoạt động của các synapses được tăng cường, tạo nên nhiều liên kết mạnh giữacác neuron Có thể nói rằng người nào học càng giỏi thì càng có nhiều synapses vàcác synapses ấy càng mạnh mẽ, hay nói cách khác, thì liên kết giữa các neuron càngnhiều, càng nhạy bén
2.2.1.2 Mạng Neuron nhân tạo
Mạng neuron nhân tạo là một mô hình toán học được xây dựng dựa trênmạng neuron sinh học Nó cũng gồm một nhóm các neuron nhân tạo và các kết nốisynapse Ba thành phần cơ bản của một mô hình neuron là:
- Một tập hợp các synapse hay kết nối mà mỗi một trong chúng được đặctrưng bởi trọng số của riêng nó Mỗi tín hiện khi đi qua một synapse đềuđược nhân với trọng số này Các trọng số liên kết chính là các tham số tự do
cơ bản của mạng neuron, có thể thay đổi được nhằm thích nghi với môitrường xung quanh
- Một bộ cộng dùng để tính tổng các tín hiệu đầu vào của neuron, đã đượcnhân với các trọng số liên kết tương ứng Phép toán được mô tả ở đây tạonên một bộ tổ hợp tuyến tính
Trang 32- Một hàm kích hoạt phi tuyến, chuyển đổi một tổ hợp tuyến tính của tất cảcác tín hiệu đầu vào thành tín hiệu đầu ra Hàm kích hoạt này đảm bảo tínhchất phi tuyến cho tính toán mạng neuron Đồng thời nó cũng là một hàmgiới hạn, nhằm giới hạn phạm vi biên độ cho phép của tín hiệu đầu ra trongmột khoảng giá trị hữu hạn
-Hình 2-15 Mô hình một neuron nhân tạo
Bảng 2-4 Một số hàm kích hoạt cơ bản trong mạng neuron:
Tên hàm Công thức
Hardlim a = 0 với n < 0
a = 1 với n ≥ 0 Satlin a = 0 với n < 0
a = n với 0 ≤ n ≤ 1
a = 1 với n > 1 Satlins a = -1 với n < 0
a = n với 0 ≤ n ≤ 1
a = 1 với n > 1 Tansig
n
e
e e
Trang 33Tên hàm Công thức
Compet a = 1 với neuron có n lớn nhất
a = 0 với các neuron còn lại
Với bài toán tổng hợp tiếng nói, hàm kích hoạt được lựa chọn và sử dụng là hàmSigmoid
2.2.2 Kiến trúc mạng Neuron
2.2.2.1 Mạng dẫn tiến
Có thể nói mạng neural dẫn tiến là một kiểu mạng đơn giản trong việc sắpđặt mạng Trong mạng này thông tin chỉ truyền trên một hướng duy nhất từ lớp đầuvào xuyên qua lớp ẩn (nếu có) và kết thúc tại lớp đầu ra Không có chu trình hoặcvòng trong mạng
a) Các mạng dẫn tiến đơn mức.
Trong một mạng neural phân mức, các neural được tổ chức dưới dạng cácmức Với dạng đơn giản nhất của mạng phân mức, chúng ta có một mức đầu vàogồm các nút nguồn chiếu trực tiếp tới mức đầu ra gồm các neural
Hình 2-16 Mạng tiến với một mức neural
b) Các mạng dẫn tiến đa mức.
Lớp thứ hai của một mạng neural dẫn tiến được phân biệt bởi sự có mặt củamột hay nhiều mức ẩn, mà các nút tính toán của chúng được gọi là các neural ẩnhay các đơn vị ẩn (thuật ngữ “ẩn” ở đây mang ý nghĩa là không tiếp xúc với môi
Trang 34trường) Bằng việc thêm một vài mức ẩn, mạng có khả năng rút ra được các thống
kê bậc cao của tín hiệu đầu vào
Hình 2-17 Mạng tiến kết nối đầy đủ với một mức ẩn và một mức đầu ra
2.2.2.2 Mạng quy hồi
Trái với mạng neural dẫn tiến , mạng Neuron quy hồi là những mô hình vớihai luồng dữ liệu có hướng Trong khi mạng dẫn tiến truyền dữ liệu theo mộtđường thẳng thì những mạng Neuron quy hồi có ít nhất một phản hồi từ nhữngNeuron xử lý sau quay trở lại các neuron xử lý trước đó
Hình 2-18 Mạng hồi quy không có neural ẩn và không có vòng lặp tự phản hồi