Nghiên cứu và ứng dụng mạng neuron trong nhận dạng tiếng việt

Các hệ thống nhận dạng tiếng nói có nhiều ứng dụng quan trọng như trong điều khiển tự động, bảo mật… Việc ứng dụng mạng neuron để nhận dạng tiếng là một kỹ thuật hiện đang được sử dụn

Trang 1

-oOo -

LÊ THỊ KIM ANH

NGHIÊN CỨU VÀ ỨNG DỤNG MẠNG NEURON

TRONG NHẬN DẠNG TIẾNG VIỆT

Chuyên ngành: KT VÔ TUYẾN – ĐIỆN TỬ

Mã số ngành: 2.07.01

LUẬN VĂN THẠC SĨ

Tp HỒ CHÍ MINH, tháng 10 năm 2003

Trang 2

TRƯỜNG ĐẠI HỌC BÁCH KHOA

NHIỆM VỤ LUẬN VĂN CAO HỌC

Họ và tên học viên: LÊ THỊ KIM ANH Phái: Nữ

Chuyên ngành: KỸ THUẬT VÔ TUYẾN ĐIỆN TỬ

Khóa: 12 (2001-2003)

I TÊN ĐỀ TÀI: “ Nghiên cứu và ứng dụng mạng neuron trong nhận dạng

tiếng Việt”

II NHIỆM VỤ VÀ NỘI DUNG:

1 Nghiên cứu tổng quan về hệ thống nhận dạng tiếng nói

2 Tìm hiểu về mạng neuron và ứng dụng của mạng neuron trong nhận dạng

tiếng nói

3 Xử lý tiếng nói và chọn phương pháp trích đặc trưng

4 Xây dựng mạng neuron để nhận dạng tiếng nói

5 Mô phỏng kết quả bằng ngôn ngữ Matlab

III NGÀY GIAO NHIỆM VỤ: 15.05.2003

IV NGÀY HOÀN THÀNH NHIỆM VỤ:08.11.2003

V HỌ VÀ TÊN GIÁO VIÊN HƯỚNG DẪN:

1 Cô TS Nguyễn Như Anh

2 Thầy GVC_ThS Tống Văn On

VI HỌ VÀ TÊN GIÁO VIÊN PHẢN BIỆN:

1 Thầy PGS.TS Vũ Đình Thành

2 Thầy TS Trần Xuân Phước

Nội dung và đề cương Luận văn Cao học đã được thông qua hội đồng chuyên

ngành

Ngày…… tháng…… năm

Trang 3

Em xin bày tỏ lòng biết ơn chân thành đến Cô Nguyễn Như Anh, và đặc biệt là Thầy Tống Văn On đã tận tình gíup đỡ động viên em về

mặt tinh thần cũng như các phương tiện để hòan thành luận văn này

Xin chân thành cảm ơn quí Thầy Cô trong bộ môn Điện tử đã giúp đỡ

em nhiều mặt trong quá trình thực hiện luận án

Con xin biết ơn Ba Má đã nuôi dạy con khôn lớn và tạo điều kiện để con học tập được cho đến ngày hôm nay

Xin cảm ơn các anh chị em, bạn bè, các đồng nghiệp đã giúp đỡ và động viên Kim Anh trong suốt quá trình làm luận án này

Bách Khoa, ngày 25 tháng 10 năm 2003

Lê Thị Kim Anh

Trang 4

Tóm tắt

Với mục tiêu để thực hiện được đề tài này, người viết đã từng bước nghiên cứu các vấn đề như sau:

1 Nghiên cứu tổng quan về hệ thống nhận dạng tiếng nói

2 Tìm hiểu về mạng neuron và ứng dụng của mạng neuron trong nhận dạng tiếng nói

3 Xử lý tiếng nói và chọn phương pháp trích đặc trưng

4 Xây dựng mạng neuron để nhận dạng tiếng nói

5 Mô phỏng kết quả bằng ngôn ngữ Matlab

Kết quả cuối cùng đạt được tương đối khả quan là đã mô phỏng được một hệ thống nhận dạng tiếng nói trên ngôn ngữ Matlab với mức độ chính xác khá cao

(khoảng 97%), là cơ sở để xây dựng một mạng Neuron để nhận dạng tiếng nói thực

hiện bằng phần cứng trên kit FPGA

Trang 5

Abstract

In order to do this thesis, the author researched the following problems:

1 Generally researching the speech recognization system

2 Learning about neural network and its applications to speech recognization

3 Processing speech and chosing the specific characterics method

4 Setting up a neural network to recognize Vietnamese speech

5 Simulating the results by using Matlab

The final results are very relatively favorable The author simulated successfully

a speech recognization system using Matlab with accuration up to 97%, which is the

base to set up a speech recognization system done by EPGA kit

Trang 6

PHẦN 1

MỞ ĐẦU

Trang 8

GIỚI THIỆU VỀ MẠNG

NEURON

Trang 9

PHẦN 4

XỬ LÝ TIẾNG

NÓI VÀ TRÍCH ĐẶC

TRƯNG

Trang 10

PHẦN 5

XÂY DỰNG MẠNG NEURON

Trang 12

Trang

Lời cảm ơn ……….i

Mục lục ……….ii

Phần 1: MỞ ĐẦU ……….1

Phần 2: TỔNG QUAN VỀ HỆ THỐNG NHẬN DẠNG ………2

2.1 Giới thiệu ………2

2.2 Những yếu tố ảnh hưởng đến hệ thống nhận dạng ……… 4

2.3 Các vấn đề của một hệ thống nhận dạng tiếng nói ………9

2.4 Các hướng nghiên cứu nhận dạng tiếng nói ………10

Phần 3: GIỚI THIỆU VỀ MẠNG NEURON ………12

3.1 Giới thiệu tổng quát về mạng neuron nhân tạo (ANN) ………12

3.1.2 Các mô hình cơ bản và các qui tắc học của mạng neuron nhân tạo …22 3.1.3 Phân loại mạng neuron ………31

3.1.4 Khái quát về lý thuyết của các mạng neuron ………32

3.2 Các đặc điểm của ANN và thuật toán truyền ngược ………35

3.2.1 Dẫn nhập ………35

3.2.2 Mô hình hóa thống kê ………35

3.2.3 Lan truyền ngược ………38

3.2.4 Aùnh xạ NN ………44

3.2.5 Khái niệm cơ bản về tiến trình học ………52

3.2.6 Đạo hàm hàm lỗi ………55

3.2.7 Qui tắc học ………62

3.2.8 Khảo sát các hệ số học tập của lan truyền ngược nhằm cải tiến tốc độ hội tụ……….………

3.3 Kết luận ………71

Phần 4: XỬ LÝ TIẾNG NÓI VÀ TRÍCH ĐẶC TRƯNG ………72

4.1 Tiền xử lý tiếng nói ……….………72

4.2 Tách tiếng nói……… ……… 72

4.2.1 Phép biến đổi Wavelets……… 73

4.2.2 Trích chu kỳ cao độ dùng CWT……… 78

4.3 Trích đặc trưng tiếng nói ………87

4.3.1 Windowing(cửa sổ hóa) ……… 88

4.3.2 Tính DFT……… 89

4.2.3 Dãy bộ lọc Mel ………89

4.2.4 Tính Log năng lượng phổ ………91

4.2.5 Tính các hệ số MFCC ………91

Phần 5: XÂY DỰNG MẠNG NEURON ………93

5.1 Huấn luyện mạng ………93

5.1.1 Chọn hàm truyền ………96

Trang 13

5.1.5 Tập dữ liệu mẫu huấn luyện ………97

5.1.7 Huấn luyện ………97

5.2 Nhận dạng ………98

Phần 6: KẾT QUẢ MÔ PHỎNG VÀ NHẬN XÉT ………100

HƯỚNG PHÁT TRIỂN ĐỀ TÀI………105

TÀI LIỆU THAM KHẢO ………106

LÝ LỊCH TRÍCH NGANG ………107

Trang 14

trong nhận dạng tiếng Việt Thầy GVC_ThS Tống Văn On

Lời mở đầu

Trong những năm gần đây, những kết quả quan trọng đã đạt được trên cơ sở các phương pháp nhận dạng và mạng neuron.Nhận dạng tiếng nói là một lĩnh vực nghiên cứu quan trọng đã phát triển trong những thập niên qua Các hệ thống nhận dạng tiếng nói có nhiều ứng dụng quan trọng như trong điều khiển tự động, bảo mật…

Việc ứng dụng mạng neuron để nhận dạng tiếng là một kỹ thuật hiện đang được sử dụng rất rộng rãi vì các ưu điểm vượt trội của nó, đó là khả năng học tập, dự đoán và phân loại từ các đặc trưng tiếng nói rất lớn, độ chính xác khá cao Mối quan hệ giữa ma trận đầu vào và ma trận kết quả đầu ra không phải là các hằng số và các hệ phương trình cố định mà là những mối liên kết có cấu trúc và phi tuyến Đối với mạng neuron các mối liên hệ vào ra được xác định và điều chỉnh liên tục qua quá trình học của mạng Nhờ ưu điểm này, có thể xây dựng một cấu trúc mạng cho hệ thống nhận dạng tiếng nói là một lọai dữ liệu đầy biến động phức tạp Đây chính là phương pháp được chọn để nghiên cứu và sử dụng trong luận án

Với thời gian ngắn, mục tiêu của luận án này là cố gắng xây dựng được một cấu trúc mạng neuron và lựa chọn thuật tóan thích hợp để có thể nhận dạng được tiếng nói với mức độ sai nhầm nhỏ nhất

Trang 15

2.1 GIỚI THIỆU

Tiếng nói là phương tiện trao đổi thông tin tự nhiên và hiệu quả nhất của người, do đó thu hút rất nhiều sự quan tâm của các nhà khoa học Để có thể nghiên cứu được cấu trúc tiếng nói, đòi hỏi phải có sự kết hợp của các nhà ngôn ngữ học, tâm lý học và các nhà sinh lý học Mục tiêu của kỹ thuật nhận dạng tiếng nói là tạo ra những máy có thể nhận thông tin đọc vào và thao tác hợp lý trên thông tin đó Kế đó, việc trao đổi thông tin từ máy đến người phải yêu cầu sử dụng bộ tổng hợp tiếng nói Như vậy công việc nghiên cứu nhận dạng tiếng nói là một phần của yêu cầu đối với máy thông minh nhân tạo (artificially intelligent) có thể “nghe”, “hiểu”, “xử lý” trên thông tin đọc vào, và “đọc” lại đúng thông tin cần trao đổi

Nhu cầu tìm hiểu về nhận dạng tiếng nói đang gia tăng với tốc độ cao, nhưng kiến thức hiện nay chỉ phục vụ cho những nhiệm vụ tương đối đơn giản và những phạm vi ứng dụng bị hạn chế Các hệ thống nhận dạng tiếng nói đương thời với hiệu suất có thể chấp nhận được chia thành 3 loại sau:

1 Hệ thống với bộ từ vựng nhỏ (~10÷100 từ)

2 Hệ thống mà các từ được đọc rời rạc từ này với từ khác (bộ từ vựng có thể vượt 1000 từ)

3 Hệ thống chấp nhận tiếng nói liên tục nhưng chỉ liên quan tới phạm vi ứng dụng tương đối bị giới hạn (bộ từ vựng ~1000÷5000 từ)

Hầu hết hệ thống được áp dụng trong thực tế thuộc loại bộ từ vựng nhỏ hay loại từ cô lập (isolated-word) Những hệ thống để giao tiếp giữa người và máy tự nhiên hơn vẫn chủ yếu ở trong giai đoạn thử nghiệm Tất cả hoạt động tốt hơn nếu yêu cầu nhận dạng chỉ một người nói huấn luyện hệ thống Cho dù hệ thống được dùng để nhận dạng nhiều người, hiệu suất được cải thiện nếu

Trang 16

trong nhận dạng tiếng Việt ThầyGVC_ThS Tống Văn On

người sử dụng hệ thống cũng là người huấn luyện Dù hệ thống là đơn hay nhiều người nhận dạng, việc phát âm rõ và không dùng từ ngoài bộ từ vựng sẽ dễ nhận dạng hơn Một số hệ thống tồn tại có ưu điểm về cấu trúc ngữ pháp của ngôn ngữ, nhưng chỉ hệ thống thí nghiệm mới có khả năng nhận thức trừu tượng hơn như hiểu ý nghĩa từ sai sót Tương phản với điều này, hầu hết phạm vi ứng dụng có lợi từ việc nhận dạng tiếng nói không sử dụng phát âm rõ, rời rạc bởi một người trong môi trường yên tĩnh, và cũng không thể huấn luyện hệ thống bởi số đông người sử dụng Thực ra, hệ thống nhận dạng tiếng nói phải có khả năng nhận dạng tiếng nói liên tục, nhiều người nói với trọng âm, bộ từ vựng và văn phạm khác nhau (thậm chí đa ngôn ngữ) phát âm không rõ tiếng nói trong môi trường nhiễu Hơn nữa, tất cả khả năng này phải xuất hiện trong hệ thống nhỏ, đủ khả năng và hoạt động thời gian thực (real time) Một cách lý tưởng, hệ thống nên bắt chước và học các thông tin mới về thực tế, ngữ pháp, ngữ nghĩa, từ vựng như con người

Vấn đề nhận dạng tiếng nói là một vấn đề lớn Nhiều nghiên cứu đã được thực hiện trong vài thập niên gần đây Các hệ thống với bộ từ vựng nhỏ, nhập từ rời rạc có thể áp dụng trong những ứng dụng tương đối đơn giản để cải thiện hiệu quả nhập thông tin vào máy (nhập tiếng nói nhanh gấp hai lần nhập thông tin bằng gõ chữ) trong môi trường sản xuất (công việc phân loại), trong những ứng dụng mà đôi tay không còn giá trị (chẳng hạn như trong phẩu thuật để trợ giúp người không có khả năng vận động, trong phòng tối, trong buồng lái…), hoặc trong ứng dụng điều khiển từ xa với thiết bị (qua điện thoại trong môi trường nguy hiểm) Tiềm năng là vô hạn, người ta có thể tưởng tượng ra những ứng dụng như trong thư viện hoặc chức năng truy cập thông tin khác, ở trạm điều khiển không lưu, trong môi trường y khoa hoặc trong các nhiệm vụ đặc biệt có khuynh hướng giới hạn bộ từ vựng và nội dung thông

Trang 17

điệp Trong khi vẫn tiếp tục ứng dụng các kỹ thuật hiện đại, một số kỹ thuật hứa hẹn khác đang đóng góp cho các phòng thí nghiệm và hệ thống thương mại để giải quyết một hay nhiều vấn đề thử thách trên

Kể từ khi có máy tính, nhiều hệ thống nhận dạng rất thực tế được phát triển: Đầu những năm 1970, hệ thống nhận dạng tiếng nói được thiết kế để nhận dạng phát âm rời rạc trong môi trường không nhiễu (noise-free) Các hệ thống dùng bộ từ vựng nhỏ (10-100 từ) và trong trường hợp người nói cũng là người huấn luyện

Cuối những năm 1970, các nhà nghiên cứu tại IBM đã phát triển một hệ thống thực nghiệm có khả năng nhận dạng 20000 từ khi phát âm rời rạc hoặc phát âm được đọc một cách tự nhiên từ bộ từ vựng 5000 từ

2.2 NHỮNG YẾU TỐ ẢNH HƯỞNG ĐẾN HIỆU QUẢ CỦA MỘT HỆ THỐNG NHẬN DẠNG TIẾNG NÓI

Phần trên đã trình bày mục tiêu chung của nhiệm vụ nhận dạng tiếng nói và một số vấn đề chính có liên quan Phần này bàn về các yếu tố ảnh hưởng đến sự thành công hay thất bại của một hệ thống nhận dạng tiếng nói và chỉ ra mức độ phức tạp khi thiết kế hệ thống nhận dạng Những yếu tố này được liệt kê dưới dạng các câu hỏi sau:

1 Hệ thống được thiết kế để nhận dạng một cá nhân hay nhiều người?

2 Kích thước của bộ từ vựng như thế nào ?

3 Tiếng nói được nhập vào bằng các từ rời rạc với khoảng dừng đủ lớn hoặc phát âm liên tục ?

4 Sự không rõ ràng và nhầm lẫn ngữ âm trong một bộ từ vựng là gì ?

5 Hệ thống hoạt động trong môi trường yên tĩnh hay nhiễu ?

6 Kiến thức ngữ âm học nào được vận dụng vào bộ nhận dạng ?

Trang 18

Các vấn đề trên lần lượt được nêu ra như sau:

2.2.1 Nhận dạng độc lập hay phụ thuộc người nói

Về nguyên tắc, hầu hết giải thuật nhận dạng tiếng nói có thể được sử dụng ở chế độ độc lập người nói hay phụ thuộc người nói và việc thiết kế một hệ thống nào đó phụ thuộc vào chế độ huấn luyện Một bộ nhận dạng phụ thuộc người nói sử dụng phát âm của một người nói để học các tham số mà đặc tả mô hình xử lý bên trong của hệ thống Tiếp theo, hệ thống được dùng riêng để nhận dạng tiếng nói của người huấn luyện đó Bộ nhận dạng này cho hiệu quả cao so với bộ nhận dạng độc lập người nói được sử dụng để huấn luyện và nhận dạng bởi nhiều người Mặc dù chính xác hơn, bất lợi rõ ràng của hệ thống phụ thuộc người nói là yêu cầu huấn luyện lại mỗi khi dùng cho người mới Sự đánh đổi giữa thuận tiện và độ chính xác là phát sinh cần thiết Một hệ thống điện thoại phải phục vụ cho công chúng nhất thiết là độc lập người nói trong khi một hệ thống được dùng để nhận dạng tiếng nói của người có khuyết tật, tiếng nói phải được huấn luyện bởi người nói đó Ngoài ra, có một hệ thống khác gọi là hệ thống thích nghi người nói Hệ thống này tự cập nhật thông tin về từng người sử dụng riêng biệt trong thời gian hệ thống được sử dụng

2.2.2 Kích thước bộ từ vựng

Một số nhà nghiên cứu đã chứng minh được rằng độ phức tạp của bài toán nhận dạng tiếng nói tăng theo hàm logarith đối với kích thước bộ từ vựng Yêu cầu bộ nhớ cũng tăng khi bộ từ vựng tăng Hệ thống nhận dạng tiếng nói nói chung chia thành hệ thống với bộ từ vựng nhỏ, trung bình, lớn Hệ thống với bộ từ vựng nhỏ có kích thước trong khoảng 1-99 từ, trung bình 100-999 từ và lớn trên 1000 từ

Hệ thống với bộ từ vựng nhỏ được dùng trong các nhiệm vụ như nhận dạng

Trang 19

thẻ tín dụng hay số điện thoại, và trong hệ thống phân loại (nhận dạng nơi đến) cho công tác tàu biển

Hệ thống với bộ từ vựng trung bình là những hệ thống thử nghiệm để nghiên cứu nhận dạng tiếng nói liên tục

Hệ thống với bộ từ vựng lớn hiện nay dùng trong thương mại nhằm vào những ứng dụng như giao tiếp văn phòng và truy cập tài liệu

Những hệ thống này thuộc loại từ cô lập mà người nói phải đọc từng từ một Nhận dạng tiếng nói liên tục khó hơn nhiều so với nhận dạng tiếng nói rời rạc Vì thế, kích thước bộ từ vựng chỉ là một thước đo độ khó khăn

Đối với bộ từ vựng nhỏ, công việc tương đối hạn chế, nhận dạng từ đơn hoặc từ nối thường được áp dụng Trong trường hợp này, mô hình cho mỗi từ trong bộ từ vựng được xác định trong hệ thống và danh sách được dò cho từng từ để nhận dạng Khi bộ từ vựng lớn và nhiệm vụ phức tạp, mô hình huấn luyện và lưu trữ cho mỗi từ là không thể và mô hình cho đơn vị dưới từ (như âm vị) được áp dụng Việc tìm tất cả thông điệp có thể trở nên khó quản lý và nhiều giải thuật phức tạp hơn phải được thiết kế để giảm bớt số đối tượng cần tìm Điều cần thiết đối với giải thuật này là ràng buộc ngôn ngữ học (linguitic constraint) trên việc truy tìm loại bỏ cấu trúc câu không đúng ngữ pháp và ngữ nghĩa Khi bộ từ vựng tăng cũng tăng sự nhầm lẫn

2.2.3 Nhận dạng từ cô lập và nhận dạng tiếng nói liên tục

2.2.3.1Nhận dạng từ cô lập

Trong nhận dạng từ cô lập, người nói phát âm một câu với khoảng dừng đủ dài giữa các từ (điển hình, tối thiểu 200 ms) để khoảng im lặng không nhầm với phụ âm xát yếu và khoảng bật hơi Ranh giới các từ được định vị bằng nhiều kỹ thuật khác nhau có liên quan đến giải thuật phát hiện đầu cuối Khi kích thước bộ từ vựng lớn, hệ thống nhận dạng từ cô lập cần được xây dựng

Trang 20

và huấn luyện đặc biệt dùng mô hình dưới từ Hơn nữa, nếu cần nhận dạng câu thì hiệu suất có thể được nâng cao bằng cách khai thác kiến thức về cú pháp trong câu

2.2.3.2Nhận dạng tiếng nói liên tục

Các hệ thống nhận dạng từ cô lập (không liên tục) gây cho ta một cảm giác không được tự nhiên trong quá trình nhận dạng vì khi nhận dạng ta phải đọc các từ vào hệ thống một cách ngắt quãng Do đó yêu cầu chúng ta phải cải thiện chúng để quá trình đọc các từ vào để nhận dạng có thể diễn ra liên tục nhằm đáp ứng được các yêu cầu trong thực tế như đọc số điện thoại, các mã số ở nhà băng… Hệ thống như thế gọi là hệ thống nhận dạng tiếng nói liên tục (CSR: continuous-speech recognition), ở đó người sử dụng phát âm thông điệp theo kiểu hoàn toàn không bị ràng buộc Đây là bộ nhận dạng phức tạp nhất Các vấn đề phải giải quyết khi thiết kế hệ thống này là: trước hết bộ nhận dạng phải có khả năng giải quyết các ranh giới thời gian không biết trong tín hiệu âm học, thứ hai, bộ nhận dạng phải có khả năng thực hiện tốt khi có mặt sự ảnh hưởng của âm lân cận và phát âm tùy tiện (bỏ sót một số âm hoặc thay thế một âm bằng một âm khác) Phương pháp rõ ràng nhất để nhận dạng tiếng nói thuộc loại này là ta phải thực hiện phân đoạn chuỗi từ liên tục thành các từ riêng biệt, sau đó mới tiến hành nhận dạng các từ này và kết hợp chúng lại thành câu cần nhận dạng Một phương pháp khác được đề nghị để thay thế là ta thực hiện tất cả các tổ hợp có thể có trong bộ từ vựng và sau đó lấy đoạn tiếng nói vừa được đọc vào để so sánh với tất cả các tổ hợp này Tuy nhiên phương pháp này gặp phải một trở ngại rất lớn là khi số tổ hợp tăng lên thì quá trình nhận dạng khó có thể thực hiện được Chẳng hạn như trong một hệ thống quay số điện thoại bằng tiếng nói chúng ta có tất cả mười chữ số từ 0 đến 9, giả sử mỗi số điện thoại chúng ta có tối đa 4 chữ số, khi đó số tổ hợp

Trang 21

mà ta có sẽ là 104 tổ hợp 4 số, 103 tổ hợp 3 số,102 tổ hợp 2 chữ số và 10 tổ hợp có 1 chữ số Số tổ hợp này đòi hỏi một dung lượng bộ nhớ rất lớn và mỗi khi thực hiện nhận dạng, ta phải thực hiện một khối lượng tính toán rất nặng

nề Do đó phương pháp này không có tính thực tế

2.2.3.3Nhận dạng từ nối

Trong các ứng dụng tiếng nói liên tục với bộ từ vựng nhỏ, người ta dùng một kỹ thuật nhận dạng gọi là nhận dạng từ nối (connected-word) Tiếng nói được phát âm theo kiểu liên tục Trong kỹ thuật này, một câu được giải mã bằng cách ghép các mô hình được hình thành từ các từ rời rạc và kết hợp cách nói đầy đủ thành mô hình ràng buộc

2.2.4 Sự ràng buộc ngôn ngữ học

Sự ràng buộc ngôn ngữ học nói chung có liên quan đến việc các đơn vị cơ bản

bị ràng buộc như thế nào, theo thứ tự nào, trong phạm vi nào, với ý nghĩa nào Vấn đề này liên quan nhiều đến việc lập trình các quy tắc ngữ pháp đúng cho ngôn ngữ Rõ ràng, các quy tắc ngôn ngữ càng chặt chẽ thì người sử dụng càng ít tự do trong việc xây dựng thông điệp muốn nói

2.2.5 Sự không rõ ràng và nhầm lẫn về âm học

Khái niệm “không rõ ràng về âm học” có nghĩa là những từ không thể phân biệt bằng biểu hiện phát âm của chúng

Trái lại, “nhầm lẫn” có liên quan đến phạm vi mà các từ có thể dễ bị nhầm lẫn vì sự giống nhau cục bộ về âm thanh

2.2.6 Nhiễu môi trường

Một trong những thử thách chính của vấn đề nhận dạng tiếng nói là làm cho hệ thống tương thích với nhiễu môi trường Nhiễu này có thể từ người nói khác, thiết bị âm thanh, máy điều hòa nhiệt độ, ánh sáng đèn trong văn phòng, nhiễu thiết bị nặng trong môi trường sản xuất hoặc nhiễu trong buồng

Trang 22

lái máy bay Nhiễu cũng có thể được tạo ra bởi chính người sử dụng như nhiễu hơi thở, ho hoặc hắt hơi…

2.3 CÁC VẤN ĐỀ CỦA MỘT HỆ THỐNG NHẬN DẠNG TIẾNG NÓI

Tiếng nói là một chuỗi âm thanh được trích ra từ tập hợp các âm thanh cơ bản còn gọi là âm vị Các âm thanh khác nhau được tạo ra bằng cách thay đổi hình dạng của bộ máy phát âm do sự điều khiển cơ bắp của các cơ quan phát âm

như môi, lưỡi, hàm… Tuy nhiên cùng một âm vị được phát ra nhưng dạng sóng

âm học có thể sẽ thay đổi rất nhiều với nhiều người phát âm khác nhau Điều này bởi vì bộ máy phát âm của chúng ta không giống nhau, chẳng hạn như sự khác nhau về chiều dài dây thanh đới trong bộ máy phát âm của phụ nữ và nam giới dẫn đến giọng nói của nam giới thì trầm khi đó giọng nói của phụ nữ lại rất cao Thậm chí tiếng nói của cùng một người khi phát âm cùng một từ cũng khác nhau do ảnh hưởng của các âm lân cận

Sự không rõ ràng về ranh giới giữa các âm hoặc các từ Ngay cả việc khá đơn giản là tìm điểm bắt đầu và kết thúc của một âm cũng khó khăn và dễ xảy ra lỗi, đặc biệt là trong môi trường nhiễu

Sự thay đổi của tiếng nói do tiếng địa phương, trong đó thường bỏ sót một số âm hoặc thay thế một âm bằng các âm khác Ví dụ như thuộc miền Bắc của

chúng ta thường thay thế âm ‘l’ bằng âm ‘n’ (‘đi làm’ phát âm thành ’đi nàm’…) Các đặc tính ngôn điệu như âm điệu, nhịp điệu và trọng âm cũng có

thể gây thay đổi tín hiệu tiếng nói Thêm vào đó, khi phát âm chúng ta

thường tạo ra nhiễu tương tự tiếng nói chẳng hạn như tiếng chắp môi (lip smacks), tiếng tặt lưỡi (tongue clicks), hơi thở…

Bản thân tiếng nói không thể luôn luôn mang tất cả các thông tin âm học-ngữ âm cần thiết để nhận dạng

Trang 23

2 4 CÁC HƯỚNG NGHIÊN CỨU NHẬN DẠNG TIẾNG NÓI

2 4.1 Hướng âm học-ngữ âm

Các hướng nghiên cứu ban đầu dựa vào việc tìm âm tiếng nói và gán nhãn cho các âm này Đây là cơ sở của hướng âm học-ngữ âm với giả thiết tồn tại một số hữu hạn các đơn vị ngữ âm khác nhau có thể phân biệt được trong ngôn ngữ nói với các đặc điểm được mô tả bằng các đặc tính âm học hiện diện rõ ràng trong tín hiệu tiếng nói Mặc dù các đặc tính âm học của các đơn

vị ngữ âm có thể thay đổi theo người nói hoặc theo các âm lân cận, hướng nghiên cứu âm học-ngữ âm giả sử các qui luật chi phối sự thay đổi là không phức tạp và có thể cho máy học dễ dàng Bước đầu tiên trong hướng âm học-ngữ âm là phân đoạn và gán nhãn trong tín hiệu tiếng nói được phân ra thành các vùng âm học ổn định, mỗi vùng được gán bởi một hay nhiều ký hiệu ngữ âm tạo thành một chuỗi âm vị mô tả tiếng nói Bước thứ hai là cố gắng xác định một từ có nghĩa (hoặc một chuỗi các từ) từ chuỗi ký hiệu âm vị được tạo

ra trong bước đầu tiên Trong quá trình này, các giới hạn ngôn ngữ học (ví dụ như từ vựng, ngữ cảnh và các qui luật ngữ nghĩa) được áp dụng để truy xuất bộ từ vựng dựa trên chuỗi âm vị Hướng âm học-ngữ âm không được sử dụng rộng rãi trong các ứng dụng thương mại

2 4.2 Hướng kết hợp mẫu

Hướng kết hợp mẫu gồm hai bước chủ yếu là huấn luyện mẫu (pattern training) và so sánh mẫu (pattern comparision) Đặc tính chủ yếu của hướng này là sử dụng các cơ cấu toán học rõ ràng và thiết lập sự biểu diễn thích hợp các mẫu tiếng nói cho việc so sánh chính xác các mẫu từ tập hợp mẫu huấn

Trang 24

luyện đã gán nhãn thông qua giải thuật huấn luyện nghiêm chỉnh Tiếng nói có thể được biểu diễn ở dạng mẫu tiếng nói hoặc một mô hình thống kê, và có thể áp dụng cho một âm, một từ hoặc một nhóm từ Trong giai đoạn so sánh mẫu, có một sự so sánh trực tiếp giữa tiếng nói chưa biết (cần nhận dạng) với mỗi mẫu được học trong giai đoạn huấn luyện để xác định đặc tính của mẫu chưa biết dựa theo chất lượng của việc kết hợp mẫu Hướng kết hợp mẫu đã trở thành phương pháp nhận dạng rất phổ biến trong những năm 90

2 4.3 Hướng thông minh nhân tạo

Hướng thông minh nhân tạo cố gắng máy móc hóa hoạt động nhận dạng theo cách con người áp dụng trí khôn trong việc hình dung, phân tích và đánh giá tiếng nói dựa trên một tập hợp các tính chất âm học đo được Trong số các kỹ thuật được sử dụng trong hướng này có việc sử dụng một hệ chuyên gia trong đó tích hợp âm vị, từ vựng, cú pháp, ngữ nghĩa và ngay cả kiến thức thực tế cho việc phân đoạn và gán nhãn, và sử dụng các công cụ như mạng trí tuệ nhân tạo cho việc học các quan hệ giữa các sự kiện âm vị Trọng tâm trong hướng này chủ yếu là sự biểu diễn kiến thức và tích hợp các nguồn kiến thức Kỹ thuật thứ hai là dùng mạng neuron để huấn luyện từ các đặc trưng của tiếng nói Đây chính là phương pháp được chọn nghiên cứu và sử dụng trong luận văn

Trang 25

3.2 CÁC ĐẶC ĐIỂM CỦA ANN VÀ THUẬT TOÁN TRUYỀN NGƯỢC 3.2.1 Dẫn nhập

Mô hình hóa thống kê truyền thống và mạng neuron là các lĩnh vực có liên quan mật thiết với nhau Khác biệt chính giữa hai lĩnh vực này là thống kê truyền thống, tập trung vào các bài toán tuyến tính, trong khi mạng neuron lại tập trung vào các bài toán phi tuyến

Phần giao dễ nhận thấy nhất giữa hai lĩnh vực này là kỹ thuật lan truyền ngược Lan truyền ngược là một kỹ thuật trọng tâm của mạng neuron, nhưng thực chất nó lại là một công cụ mô hình hóa thống kê

Trước tiên sẽ giới thiệu ngắn gọn về phương pháp mô hình hóa thống kê và thảo luận về lan truyền ngược

3.2.2 Mô hình hóa thống kê

Các phương pháp thống kê thường được sử dụng để tìm được phương trình nhằm mô hình hóa các dữ liệu thu nhập được Ta gọi tập dữ liệu này là tập mẫu

Từ tập mẫu, để có được phương trình, ta cần biết giá trị của biến độc lập và biến phụ thuộc

Hồi qui tuyến tính là phương pháp cơ bản nhất của mô hình hóa thống kê Trong hồi qui tuyến tính, phương trình có dạng:

y = a0 + ∑

i= 1

I

ai.xi (3.12)

Trong đó, y là biến phụ thuộc mà ta muốn đánh giá, I là tổng số các biến độc lập

xi, còn hằng số a0 và các hệ số ai là các tham số được xác định bằng phương pháp hồi quy

Trang 26

Phương trình được xây dựng theo phương pháp mô hình hóa có thể được xem là một ánh xạ, vì nó cho phép ánh xạ một điểm từ miền xác định của các biến độc lập vào một điểm trong miền xác định của các biến phụ thuộc Ví dụ khi thực hiện một ánh xạ tuyến tính, từ không gian một chiều vào không gian một chiều khác thì hàm ánh xạ có dạng là một đường thẳng

Nếu có hai biến độc lập, phương trình hồi qui xác định một mặt phẳng trong không gian ba chiều (hai biến độc lập và một biến phụ thuộc) Việc đánh giá biến phụ thuộc trong một mẫu cho trước là tọa độ y của điểm trên mặt phẳng tương ứng với các tọa độ x1 và x2 của mẫu

Khi số biến độc lập lớn hơn 2, ta không thể vẽ hình của ánh xạ Tuy nhiên, ta có thể định nghĩa nó bằng thuật ngữ hình học Nếu một phương trình hồi qui có I biến độc lập, hàm ánh xạ định nghĩa một siêu phẳng I chiều Các giá trị cụ thể của I biến độc lập sẽ xác định một điểm trên siêu phẳng đó Giá trị của biến phụ thuộc là “chiều cao” của điểm đó trong không gian các biến độc lập, chiếu lên trục tương ứng với biến phụ thuộc

Biến phụ thuộc của ánh xạ không chắc chính xác là giá trị thực trong một số mẫu, điều đó có nghĩa là ánh xạ phát sinh sai số Cách tính đơn giản nhất là lấy trung bình của độ lệch giữa giá trị tính được – gọi là giá trị thực – và kết quả thực sự của mẫu – gọi là giá trị đích hay giá trị mong muốn Tuy nhiên,

do thói quen, cách tính sai số thường dùng hơi phức tạp hơn: sai số không phải là trung bình các độ lệch nhưng là trung bình bình phương của những độ lệch này Vì trong thực tế, cách tính lỗi này tốt hơn trong những trường hợp có sai số lớn

Biểu thức tính sai số là:

Trang 27

( )

N

t y 2

1 E

2 N

1 n

n n

1 E

2 N

1 n

n n

Mỗi mẫu trong N mẫu là một điểm được xác định từ các giá trị của các biến độc lập và biến phụ thuộc trong mẫu đó: với mỗi điểm, sai số là bình phương khoảng cách từ điểm đó đến mặt được định nghĩa bởi hàm ánh xạ: đường thẳng, mặt phẳng hay siêu phẳng I chiều Khoảng cách này được tính theo đường song song với trục của biến phụ thuộc, chứ không theo một trong các trục của các biến độc lập, vì ta muốn biết sai số trong việc lượng giá trị biến phụ thuộc, chứ không phải muốn biết cần thay đổi một trong các biến độc lập bao nhiêu, để sai số không còn nữa

Có hai nguyên nhân gây ra sai số:

Nguyên nhân thứ nhất là nhiễu Nhiễu là một thuật ngữ có nghĩa rộng Nó bao hàm cả tính thiếu chính xác của dữ liệu (có thể do dụng cụ lấy mẫu), lẫn tính thiếu thông tin (do các biến độc lập không chứa đủ các thông tin cần thiết để xác định biến phụ thuộc) Nói đơn giản hơn, nhiễu là do dữ liệu thu thập không chính xác hoặc do dữ liệu không đầy đủ

Nguyên nhân thứ hai là do ánh xạ không đồng dạng với hàm đích Thuật ngữ

“hàm đích” dùng ở đây muốn nói đến một hàm lý tưởng diễn tả “chính xác” mối quan hệ giữa biến độc lập và phụ thuộc

Trang 28

Hồi qui tuyến tính áp đặt một dạng tuyến tính trên ánh xạ có thể giới hạn một cách thật sự chính xác Vì vậy để có được một mô hình hồi qui tuyến tính tốt, thường phải thực hiện một số biến đổi trên các biến (độc lập cũng như phụ thuộc) trước khi xây dựng mô hình Quá trình này gọi là tuyến tính hóa dữ liệu Hiện vẫn chưa có cách chung giúp ta thực hiện tuyến tính hóa, vì thế, việc tuyến tính hoá biến nào và như thế nào tùy thuộc rất nhiều vào người phân tích (và cả một chút may mắn nữa!)

Khó khăn trong xây dựng mô hình hồi qui tuyến tính không phải là xác định các hêï số của ánh xạ tuyến tính mà là tuyến tính hóa dữ liệu Đáng tiếc là không có phương pháp tổng quát nào giúp tuyến tính hóa dữ liệu cả

Vấn đề đặt ra là liệu có cách nào cho phép xây dựng một mô hình phi tuyến trực tiếp ngay trên tập dữ liệu không? Mạng neuron với thuật giải lan truyền ngược -ta gọi tắt là mạng lan truyền –là một giải pháp cho vấn đề này

3.2.3 Lan truyền ngược

Mạng lan truyền là một hàm phi tuyến có thể xấp xỉ gần đúng nhất một hàm đích được cho qua một số mẫu trong tập mẫu Hình 3.20 minh họa một mạng lan truyền:

Lớp Input Lớp Ẩn Output Lớp

Hình3.20: Mạng lan truyền 2 lớp

Trong hình mạng gồm ba lớp: lớp nhập (input), lớp ẩn, và lớp xuất (output) Mỗi nút trong lớp nhập nhận giá trị của một biến độc lập và chuyển vào mạng

Trang 29

Dữ liệu từ tất cả các nút trong lớp nhập được tích hợp – ta gọi là tổng trọng hóa

- và chuyển các kết quả cho các nút trong lớp ẩn Gọi là “ẩn”, vì các nút trong lớp này chỉ liên lạc với các nút trong lớp nhập và xuất, và chỉ người thiết kế mạng biết lớp này (người sử dụng mạng không biết lớp này) Tương tự các nút trong lớp xuất cũng nhận các tín hiệu tổng trọng hóa từ các nút ẩn Mỗi nút trong lớp xuất tương ứng một biến phụ thuộc

Vì mạng có thể xử lý đồng thời cả các biến định lượng lẫn các biến lớp, nên mạng có những điểm tương đồng với hồi quy, xử lý biến định lượng; lẫn giải tích rời rạc, xử lý các lớp

Một mạng lan truyền tổng quát là một mạng có n (n>2) lớp: lớp thứ nhất gọi là lớp nhập, lớp thứ n gọi là lớp xuất, và (n-2) lớp ẩn.Trong phần này ta chỉ xét mạng 3 lớp, nghĩa là chỉ có một lớp ẩn mà thôi Số nút của lớp nhập và của lớp xuất do bài toán qui định; còn số nút của lớp ẩn do người thiết kế mạng qui định Trong mạng lan truyền, mỗi nút của lớp thứ i (0<i<n) liên kết với mọi nút ở lớp thứ (I+1), và các nút trong cùng một lớp không liên kết với nhau Ngoài ra, còn có một số cung liên kết trực tiếp từ các nút lớp nhập đến các nút trong lớp xuất, ta gọi mạng này là mạng lan truyền có nối trực tiếp Mỗi cung trong mạng có gắn một trọng số w∈R

Mạng lan truyền chỉ có thể ở một trong hai trạng thái: trạng thái ánh xạ hoặc trạng thái học

Trong trạng thái ánh xạ, thông tin lan truyền từ lớp nhập đến lớp xuất và mạng thực hiện ánh xạ để tính giá trị các biến phụ thuộc dựa vào các giá trị biến độc lập được cho: Y=NN(X) Trong trạng thái học, thông tin lan truyền theo hai chiều nhiều lần để học các trọng số

Trong trạng thái ánh xạ, mạng xử lý mỗi lần một mẫu để tính Y=NN(X) Chi tiết thực hiện sẽ được trình bày trong phần ánh xạ

Trang 30

Trước tiên giá trị của các biến độc lập được chuyển cho lớp nhập của mạng Các nút nhập không tính toán gì cả Mỗi nút nhập chuyển giá trị cho tất cả các nút ẩn Mỗi nút ẩn tính tổng trọng hóa của tất cả các dữ liệu nhập bằng cách cộng dồn tất cả các tích giữa giá trị nút nhập với trọng số của cung liên kết giữa nút nhập và nút ẩn

Kế tiếp một hàm truyền được áp dụng trên tổng trọng hóa này cùng với một ngưỡng của nút ẩn đó để cho ra giá trị thực của nút ẩn Hàm truyền chỉ đơn giản nén giá trị vào một miền giới hạn nào đó, như minh họa trong hình 3.21

-5 -4 -3 -2 -1 0 1 2 3 4 5 0

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Sau khi nén tổng trọng hóa của nó, đến lượt mình, mỗi nút ẩn sẽ gởi kết quả đến tất cả các nút xuất

Mỗi nút xuất thực hiện các thao tác tương tự như đã thực hiện trong nút ẩn để cho ra giá trị kết xuất của nút xuất Giá trị của các nút xuất chính là giá trị thực, nghĩa là giá trị của các biến phụ thuộc cần xác định

Bản chất ánh xạ do mạng thực hiện tùy thuộc vào giá trị các trọng số trong mạng Lan truyền ngược là một phương pháp cho phép xác định tập trọng tốt nhất của mạng giải một bài toán được cho Việc áp dụng phương pháp lan truyền ngược là một quá trình lặp đi lặp lại nhiều lần hai tiến trình chính: ánh xạ và lan truyền ngược sai số Hai tiến trình này được áp dụng trên một tập mẫu xác định Ta gọi chung tiến trình này là luyện mạng hay còn gọi là học

Hình3.21: Đồ thị hàm truy àn

Trang 31

Quá trình luyện mạng được bắt đầu với một trọng số tùy ý – có thể là các số ngẫu nhiên- và tiến hành lặp đi lặp lại Mỗi lần lặp được gọi là một thế hệ Trong mỗi thế hệ, mạng hiệu chỉnh các trọng số sao cho sai số giảm dần (sai số là độ lệch giữa các kết xuất thực và các kết xuất đích) Tiến trình điều chỉnh nhiều lần giúp cho trọng số dần dần đạt được các giá trị tối ưu Thường mạng cần thực hiện nhiều thế hệ trước khi việc luyện mạng hoàn tất

Để cập nhật trọng trong mỗi thế hệ, mạng phải xử lý tất cả mẫu trong tập mẫu Đối với từng mẫu, mạng phải thực hiện phép toán sau đây

Trước tiên mạng thực hiện quá trình lan truyền tiến, nghĩa là mạng ánh xạ các biến nhập của mẫu hiện hành thành các giá trị xuất, như đã trình bày ở trên, sử dụng các giá trị của các trọng hiện hành.Ở những thế hệ đầu, các kết xuất thường chưa chính xác vì các trọng ban đầu cũng chưa có gì là đúng

Kế tiếp, sai số được tính dựa trên các giá trị của kết xuất và giá trị đích Trên

cơ sở sai số tính toán được , mạng sẽ cập nhật các sai số theo nguyên tắc lan truyền ngược sai số – gọi là giai đoạn lan truyền ngược

Như vậy, để học mỗi mẫu, mạng thi hành hai bước: lan truyền tiến –thực hiện ánh xạ, và lan truyền ngược sai số –cập nhật các trọng Vì thế phương pháp này được gọi tắt là lan truyền ngược

Kỹ thuật cơ bản trong lan truyền ngược là là cập nhật trọng số theo hướng giảm gradient –một hình thức leo đồi với thông tin hướng dẫn là đạo hàm bậc nhất

Giảm Gradient cũng là một kỹ thuật phổ biến trong thống kê học, và lan truyền ngược có thể xem như là một phương pháp mô hình hóa thống kê Ánh xạ được thực hiện trong giai đoạn lan truyền tiến Trong giai đoạn này, mạng tính giá trị các biến phụ thuộc – là các nút xuất của mạng- dựa trên giá trị các biến độc lập là các nút nhập của mạng Các trọng của mạng là các hệ số của

Trang 32

mô hình Phương pháp gradient được dùng để cập nhật những hệ số này sao cho giảm thiểu sai số của mô hình Sai số được đo bằng phương pháp sai số trung bình bình phương –là phương pháp được sử dụng để xây dựng các mô hình.Ta có thể diễn tả quá trình trên qua lưu đồ bên dưới:

Duyệt qua toàn bộ tập mẫu

Lan truyền tiến

Tính sai số và lan truyền ngược sai số Mẫu = 1

Tăng mẫu = mẫu+1

Cập nhật trọng số

Cuối cùng, có một số vấn đề liên quan đến lan truyền ngược như sau:

Trang 33

Thứ nhất, thay vì cập nhật trọng số sau khi đã xử lý tất cả các mẫu, ta có thể cập nhật các trọng khi xử lý từng mẫu

Thứ hai, đối với mạng ta có thể thêm vào các cung liên kết trực tiếp từ các nút nhập đến các nút xuất Nếu chọn cách nào, các nút xuất sẽ có trọng số riêng cho từng nút nhập, cũng như cho từng nút ẩn Chúng tính kết xuất trên tổng trọng hóa của tất cả các dữ liệu nhập, kể cả các giá trị từ lớp nhập cũng như các giá trị từ lớp ẩn

Thứ ba, mạng có thể có nhiều lớp ẩn, thay vì chỉ 1 Có nhiều nghiên cứu công phu nhằm tìm hiểu xem việc thêm các lớp ẩn có làm tăng năng lực học hoặc tốc độ học của mạng như việc thêm số nút trong lớp ẩn không Tuy nhiên, chưa có lập luận lý thuyết nào ủng hộ cho việc thêm các lớp ẩn có tính thuyết phục và cũng chưa có ví dụ nào về bài toán ánh xạ được giải bằng nhiều lớp ẩn khác nhau được đưa ra Ngược lại, mạng một lớp ẩn có thể xấp xỉ bất kỳ ánh xạ nào (trình bày trong phần ánh xạ) Các lớp ẩn gây ra nhiều bất lợi, vì làm cho các công thức toán học của mạng phức tạp hơn, và các chương trình máy tính cài đặt các ông thức đó cũng trở nên phức tạp và chậm hơn Vì thế, việc sử dụng nhiều hơn một lớp ẩn không được khuyến khích Vì vậy các phương trình và chương trình máy tính trong luận văn này chỉ cần khảo sát và phát triển cải tiến cho mạng một lớp ẩn

Cuối cùng là vấn đề số nút ẩn Số nút nhập và nút xuất được xác định bởi số biến độc lập và phụ thuộc, nhưng số nút ẩn phải do người thiết kế mạng xác định Điều này quyết định tính phức tạp của hàm ánh xạ do mạng thực hiện Mạng có thể xấp xỉ bất kỳ hàm đích phức tạp nào nếu nó có đủ số nút ẩn Nhưng khả năng này cũng phải trả giá Mạng có kích thước mẫu giới hạn mà nhiễu trong dữ liệu đã quá đủ, phải mang thêm quá nhiều nút ẩn nữa sẽ là quá tải – nghĩa là, nó có thể mô hình hóa cả nhiễu trong mẫu cũng như cấu trúc có

Trang 34

sẵn của hàm đích Ta cần tránh việc quá tải này nếu muốn mô hình tổng quát hóa thành công.Về lý thuyết, người ta giới hạn số lượng nút ẩn hoặc ngăn việc phát triển quá lớn các trọng số

3.2.4 Ánh xạ NN:

Phần này trình bày tiến trình lan truyền tiến trong mạng Quá trình này tính giá trị các nút xuất từ mẫu nhập vào mạng Tiến trình này được sử dụng trong hai tình huống: khi luyện mạng và khi sử dụng mạng Khi luyện mạng, lan truyền tiến được sử dụng lặp đi lặp lại từ mẫu này đến mẫu khác và từ thế hệ này sang thế hệ khác cho đến khi trọng số đạt đến giá trị thích hợp Trái lại, khi sử dụng mạng, lan truyền tiến chỉ được thực thi một lần cho từng mẫu nhập Tuy nhiên, dù trong trạng thái luyện mạng hay sử dụng mạng, các thao tác trong thủ tục lan truyền tiến là như nhau

Lan truyền tiến qua mạng đánh giá biểu thức tính các kết xuất như là hàm theo các mẫu nhập Nói cách khác , biểu thức này thực hiện ánh xạ từ các dữ liệu nhập vào miền giá trị của các kết xuất ta gọi là hàm ánh xạ, ký hiệu là

NN

Hàøm ánh xạ NN rất linh hoạt Nó có thể xấp xỉ một hàm đích bất kỳ nếu các trọng số (hệ số) của mạng được xác định thích hợp Nghĩa là, NN có thể được thiết kế gần đúng với bất kỳ hàm nào mà ta muốn Ta gọi hàm này là hàm đích

3.2.4.1 Hàm truyền

Trong phần dẫn nhập, ta đã biết là giá trị các nút trong lớp ẩn và trong lớp xuất là giá trị của hàm truyền với tham số là tổng trọng hóa Về mặt hình học, đồ thị của hàm truyền có dạng chữ S nên ta gọi là hàm dạng S như hình vẽ ở trên

Trang 35

Một hàm s(u) là một hàm truyền dạng S nếu nó thỏa:

¾ s(u) là hàm bị chặn Nghĩa là các giá trị của s(u) không bao giờ được vượt quá chặn trên cũng như thấp hơn chặn dưới, bất chấp giá trị của u

¾ s(u) là hàm đơn điệu tăng Giá trị của s(u) luôn tăng khi giá trị của u tăng; nghĩa là nó phải tăng đều đặn Do tính chất thứ nhất –s(u) bị chặn, s(u) cũng lớn dần nhưng không bao giờ vượt quá cận trên; vì thế nó tiệm cận giới hạn là chặn trên Và khi u nhỏ dần, s(u) tiệm cận giới hạn là chặn dưới của hàm

¾ s(u) là hàm liên tục và trơn Vì hàm s(u) liên tục nên nó không có khe và góc cạnh Do tính liên tục trơn, hàm có đạo hàm và độ dốc của nó rõ ràng và phân biệt tại từng điểm

Mọi hàm thỏa 3 tính chất trên đều có thể sử dụng làm hàm truyền trong mạng Tuy nhiên trong thực tế hàm logistic (hay hàm sigmoid) g(u) thường được sử dụng rộng rãi Hình 3.22 minh họa đồ thị hàm g(u):

Hình 3.22: Hàm Sigmoid (Logistic)

Khi u=0, g(u)=0,5 Khi u tăng, g(u) tăng – nhanh lúc đầu nhưng rồi chậm hơn khi tiếp cận 1, đó là chặn trên của nó Chặn dưới là 0

Về mặt toán học, hàm logistic (sigmoid) được định nghĨa như sau:

Trang 36

Tuy nhiên hằng số e trong mẫu số không phải bắt buộc, bất cứ hằng nào lớn hơn 1 đều có thể được Hằng càng lớn, hàm số g(u) càng mau tiếp cận các cận của nó; ngược lạ, hằng số càng nhỏ, hàm số càng chậm tiếp cận các cận Như vậy hàm logistic (sigmoid) cũng có thể viết theo cách thường sử dụng phổ biến hơn là:

g(u) = 1 + e1 -u (3.15)

3.2.4.2 Khảo sát mạng hai nút nhập

Một mạng có hai nút nhập có thể xấp xỉ một hàm hai biến bất kỳ Nghiên cứu mạng có hai nút nhập để tìm ra các nguyên tắc khái quát cho các mạng có nhiều nút nhập Trước tiên ta sẽ xem xét trường hợp mạng có một nút ẩn, rồi sẽ khảo sát chung toàn mạng

Nút này nhận hai giá trị x1 và x2 Nó nhân các giá trị này với các trọng a1, a2

rồi cộng kết quả với trọng ngưỡng a0 Gọi u là kết quả, ta có:

u = a0 + a1x1 +a2x2 (3.16) Đồ thị của phương trình này là một mặt phẳng trong không gian 3 chiều Trong không gian này, có hai chiều tương ứng với x1 và x2 còn chiều kia của

u Không gian 3 chiều được biểu diễn là một hình khối:

Trang 37

Hình 3.24: u là hàm theo x 1 và x 2

Các giá trị a0, a1, và a2 xác định vị trí và góc của mặt phẳng Trọng ngưỡng a0

kiểm soát giao điểm của mặt phẳng với trục u Trọng a1 kiểm soát độ nghiêng, hay độ dốc của mặt phẳng theo trục x1 Giá trị của nó là tỉ lệ với những thay đổi trên u tương ứng với thay đổi trên x1, với x2 là hằng số Trọng

a2 cũng thế, là độ dốc theo trục x2

Kết xuất của nút ẩn y=g(u), là hàm logistic (sigmoid) của u

Thay u = a0 + a1x1 +a2x2, ta có:

Y=g(a0 + a1x1 +a2x2.) (3.17) Tác động của hàm g(u) làm mặt phẳng uốn cong thành hình chữ S Hình 3.25 minh họa mặt S biểu diễn kết xuất của nút ẩn

Hình 3.25: y là hàm theo x 1 và x 2

Các giá trị a1 và a2 kiểm soát hướng và độ nghiêng của đoạn dốc trên mặt Hướng và độ nghiêng có thể theo hai trục biến nhập khác nhau, mỗi trọng kiểm soát dạng của đường cong theo một chiều Nếu một trong hai trọng này âm, kết xuất của nút sẽ giảm khi biến nhập tương ứng tăng Nếu một trọng là

Trang 38

0, kết xuất của nút sẽ không nhạy cảm với các giá trị nhập đó Hai trọng này có thể xoay bề mặt S quanh trục y để đoạn dốc có thể theo bất cứ hướng nào; và chúng có thể điều chỉnh để đoạn dốc có độ nghiêng bất kỳ

Nếu trường hợp nút ẩn chỉ có một đầu vào Không gian của biến nhập chỉ có một điểm biên, tại đó kết xuất của nút nằm tại trung điểm của chặn trên và chặn dưới hàm truyền Còn trường hợp nút ẩn có hai biến nhập, biên sẽ không còn là một điểm mà là một đường thẳng:

Hình 3.26: Biên dạng S theo hai biến vào

Đường biên này có thể định nghĩa bằng hình học theo nhiều cách Xét một mặt phẳng song song với mặt phẳng (P) tạo bởi x1 và x2, và chuyển động trên (P ) ngang với trung điểm của các cận của hàm truyền Mặt phẳng này sẽ cắt mặt S, và các giao điểm tạo thành đường thẳng Chiếu đường thẳng này xuống (P) (là hình chiếu thẳng góc trên nền của hình khối) là biên phân chia không gian hai chiều của các biến nhập thành hai vùng: một vùng nút ẩn cho

ra giá trị cao, vùng kia là giá trị thấp Biên là tập các điểm (x1,x2) mà kết xuất của nút ẩn là trung điểm của hai biên trên và dưới của hàm truyền

b Mạng

Sau khi đã định dạng mặt S của các nút ẩn, tiếp đến là kết hợp chúng vào mạng để được hàm ánh xạ ta cần Trong trường hợp này, ánh xạ NN có hai biến nhập và một nút xuất

Trang 39

Nút xuất cũng giống như trong mạng 2 nút nhập Kết xuất z=g(v), với:

Mỗi điểm trong hình biểu diễn một mẫu kết xuất muốn có Các tọa độ x1và x2

ở tâm mỗi đĩa là các biến nhập của mẫu đó Các chấm đen biểu diễn các mẫu có kết xuất thấp, còn các chấm trắng biểu diễn các mẫu có kết xuất cao

Hình 3.27: Ba mạng có hai nút nhập

Những đường thẳng trong hình minh họa của từng mạng biểu diễn các biên của các nút ẩn của mạng Hình này giúp ta hình dung dạng 3 chiều của mặt S cho từng nút ẩn, cũng như hình dung được cách những mặt này kết hợp để tạo các kết xuất của mạng: cao ở gần các điểm trắng và thấp ở gần các điểm đen Mạng 1 xấp xỉ một hàm tuyến tính đơn giản nên mạng chỉ cần một nút ẩn Mạng 2 giải bài toán phức tạp hơn, hàm phi tuyến cần đến 3 nút ẩn Mạng 3 phải xấp xỉ một mẫu tâm điểm, nó cũng cần đến 3 nút ẩn

Tóm lại, khi có đủ các nút ẩn, mạng có thể xấp xỉ bất cứ hàm hai biến thực nào, dù phức tạp đến đâu

Trang 40

3.2.4.3 Khảo sát mạng nhiều nút nhập:

Trong thực tế, hầu hết các bài toán gặp có nhiều biến độc lập, và thường có nhiều

biến phụ thuộc Vì thế ta cần một mạng tổng quát có nhiều nút nhập và nhiều nút

xuất

Tác dụng của mạng nhiều nút nhập không thể biểu diễn trực quan hình học

được, nhưng ta có thể mô tả bằng thuật ngữ hình học Cũng theo qui trình

phân tích như trên, trước tiên ta sẽ xét các nút ẩn, sau đó xét tiếp toàn bộ

Trong đó I là số nút nhập xI, aij là các trọng từ input i đến nút ẩn j và a0j là

trọng ngưỡng của nút ẩn j

Trong không gian (I+1) chiều, kết xuất của nút ẩn j là siêu phẳng S I chiều

Mặt này biểu diễn tập các điểm thỏa phương trình của yI, khi biết trị đặt biệt

các trọng aij và a0j. Các trọng aij điều khiển hướng và độ dốc của mặt nghiêng

trong siêu phẳng S theo từng chiều tương ứng với các biến nhập Trọng

ngưỡng a0j điều khiển khoảng cách từ gốc đến mặt nghiêng

Một nút ẩn với các trọng cụ thể chia không gian nhập I chiều thành 2 vùng, một

vùng có kết xuất cao còn vùng kia có kết xuất thấp Biên chia các vùng này có

một siêu phẳng (I-1) chiều trong không gian nhập của mặt cắt của siêu phẳng S

Định dạng
Số trang	98
Dung lượng	1,28 MB