Mạng nơron nhân tạo và mạng RBF

Trang 1

LỜI MỞ ĐẦU

Các mô hình tính toán mô phỏng bộ não người đã được nghiên cứu trong nửa đầu thế kỷ 20 Mặc dù có nhiều mô hình khác nhau được đề xuất, song tất cả đều dùng một cấu trúc mạng gọi là các nơron Các nơron này xử lý các tín hiệu số gửi tới từ môi trường bên ngoài hoặc từ các nơron khác trong mạng thông qua các kết nối và sau đó gửi tín hiệu đến các nơron khác hoặc ra môi trường Mạng nơron nhân tạo, gọi tắt là mạng nơron là một lớp các mô hình tính toán như vậy

Cách tiếp cận mạng nơron nhân tạo có ý nghĩa thực tiễn rất lớn cho phép tạo

ra các thiết bị có thể kết hợp khả năng song song cao của bộ não với tốc độ tính toán cao của máy tính Trong những năm gần đây mạng nơron nhân tạo đã được nghiên cứu và ứng dụng trong lĩnh vực như y học, điều khiển,… và đặc biệt được ứng dụng nhiều trong lĩnh vực công nghệ thông tin.

Hàm cơ bản xuyên tâm nổi lên như một dạng của mạng nơron nhân tạo vào

cuối những năm 80.Tuy nhiên, nguồn gốc của chúng bắt nguồn từ những kỹ thuật

nhận dạng mẫu lâu đời hơn nhiều như hàm tiềm năng, chuỗi, ước lượng hàm, trục liên cực và các mô hình hỗn hợp Mạng nơron sử dụng hàm cơ sở xuyên tâm (Radial Basic Function Neural Network – RBFNN) đã được nghiên cứu rất nhiều trong những năm gần đây Các nhà nghiên cứu đã thu được những kết quả lý thuyết nhất định, cùng với nhiều ứng dụng và nhiều cải thiện cho RBFNN RBFNN được

sử dụng nhiều để giải bài toán nội suy do loại mạng này có khả năng xáp xỉ toàn cục rất tốt.

Nhận thức được vấn đề trên, tôi đã mạnh dạn chọn đề tài :” Mạng nơron nhân tạo và Mạng RBF ”

Nội dung đề tài gồm 2 chương:

Chương 1: NƠRON SINH HỌC VÀ MẠNG NƠRON NHÂN TẠO

Chương 2: MÔ HÌNH MẠNG RBF VÀ THUẬT TOÁN LAI CHO MẠNG BRF

Em xin chân thành cảm ơn PGS.TS Nguyễn Thanh Thuỷ đã tận tình giúp đỡ cho em và tạo điều kiện tốt nhất cho em học tập và hoàn thiện tiểu luận này.

Trang 2

Chương 1NƠRON SINH HỌC VÀ MẠNG NƠRON NHÂN TẠO

1.1 Nơron sinh hoc và bộ não người.

1.1.1 Cấu tạo và hạt động của một Nơron

Các nhà nghiên cứu sinh học về bộ não cho ta thấy rằng các tế bào thầnkinh (nơron) là cơ sở đảm nhiệm những chức năng xử lý nhất định trong hệthần kinh, bao gồm não, tuỷ sống và các dây thần kinh Mỗi nơron có phầnthân và nhân bên trong (gọi là soma), một đầu thần kinh ra (gọi là sợi trụcaxon) và một hệ thống dạng cây các dây thần kinh vào (gọi là dendrite) Cácdây thần kinh vào tạo thành một lưới dày đặc xung quanh thân tế bào, chiếmdiện tích khoảng 0,25mm2, còn dây thần kinh ra tạo thành trục dài có thể từ1cm cho đến hàng mét.Đường kính của nhân tế bào thường chỉ là 10-4m Trụcdây thần kinh ra cũng có thể phân nhánh theo dạng cây để nối với các dâythần kinh vào hoặc trực tiếp với nhân tế bào của các nơron khác thông quacác khớp nối (gọi là synapse) Thông thường , mỗi nơron có thể gồm vài chụccho tới hàng trăm ngàn khớp nối để nối với các nởon khác Người ta ướclượng rằng các dây thần kinh ra cùng với các khớp nối bao phủ diện tíchkhoảng 90% bề mặt nơron

Hình 1.1 Hình ảnh tế bào nơron trong não người

Trang 3

Một số cấu trúc nơron thần kinh được hình thành từ lúc bẩm sinh, một

số khác được phát triển thông qua quá trình học Đây là sự liên kết, tạo ra vàmất đi Quá trình phát triển này là điều đáng chú ý nhất trong thời kỳ đầu tiêncủa cuộc sống Cấu trúc nơron được liên tục thay đổi hoàn thiện theo xuhướng thích nghi với điều kiện sống

Các tín hiệu truyền trong các dây thần kinh vào và dây thần kinh ra củacác nơron là tín hiệu điện và được thực hiện thông qua các quá trình phản ứng

và giải phóng các chất hữu cơ Các chất này được phát ra từ các khớp nối dẫntới các dây thần kinh vào sẽ làm tăng hay giảm điện thế của nhân tế bào Khiđiện thế này đạt tới một ngưỡng nào đó, sẽ tạo ra một xung điện dẫn tới trụcdây thần kinh ra Xung này được truyền theo trục, tới các nhánh rẽ khi chạmtới các khớp nối với các nơron khác sẽ giải phóng các chất truyền điện.Người ta chia làm hai loại khớp nối: khớp nối kích thích (excitatory) hoặckhớp nối ức chế (inhibitory)

1.1.2 Cấu tạo và một số khả năng của não

Não là tổ chức vật lý cao cấp, có cấu tạo vô cùng phức tạp, dày đặc cácmối liên kết giữa các nơron nhưng xử lý thông tin rất linh hoạt trong một môitrường bất định

Trong bộ não có khoảng 1011 – 1012 nơron và mỗi nơron có thể liên kếtvới 104 nơron khác qua các khớp nối Những kích hoạt hoặc ức chế này đượctruyền qua trục nơron (axon) đến các nơron khác

Hình 1.2: Hình ảnh của tế bào nơron trong não người.

Trang 4

Phát hiện quan trọng nhất trong ngành nghiên cứu về bộ não là các liênkết khớp thần kinh khá mềm dẻo, có thể biến động và chỉnh đổi theo thời giantuỳ thuộc vào các dạng kích thích Hơn nữa, các nơron có thể sản sinh cácliên kết mới với các nơron khác và đôi khi lưới các nơron có thể chuyển từvùng này sang vùng khác trong bộ não Các nhà khoa học cho rằng đây chính

là cơ sở quan trọng để giải thích cơ chế học của bộ não

Phần lớn các quá trình xử lý thông tin đều xảy ra trên vỏ não Toàn bộ

vỏ não được bao phủ bởi mạng các tổ chức cơ sở có dạng hình trụ tròn vớiđường kính khoảng 0,5 mm, độ cao 4 mm Mỗi đơn vị cơ sở này chứa khoảng

2000 nơron Các nơron trong não rất đơn giản trong cơ chế làm việc, chúng

có thể liên kết với nhau, có khả năng tính toán, suy nghĩ, ghi nhớ và điềukhiển Có thể điểm qua những chức năng cơ bản của bộ não như sau:

-Bộ nhớ được tổ chức theo các bó thông tin và truy nhập theo nội dung(Có thể truy xuất thông tin dựa theo giá trị các thuộc tính của đối tượng)

- Bộ não có khả năng tổng quát hoá, có thể truy xuất các tri thức haycác mối liên kết chung của các đối tượng tương ứng với một khái niệm chungnào đó

- Bộ não có khả năng phán đoán theo nghĩa có thể điều chỉnh hoặc tiếptục thực hiện ngay khi có những sai lệch do thông tin bị thiếu hay khôngchính xác Ngoài ra, bộ não còn có thể phát hiện và phục hồi các thông tin bịmất dựa trên sự tương tự giữa các đối tượng

- Bộ não có thể bị xuống cấp nhưng lại có khả năng thay thế dần dần.Khi có những trục trặc tại các vùng não (do bệnh, chấn thương) hoặc bắt gặpnhững thông tin hoàn toàn mới lạ, bộ não vẫn có thể tiếp tục làm việc

- Bộ não có khả năng học

1.1.3 Mô hình Nơron sinh học

Các nơron sinh học có nhiều dạng khác nhau như dạng hình tháp ở đạinão, dạng tổ ong ở tiểu não, dạng rễ cây ở cột sống Tuy nhiên, chúng có cấu

Trang 5

trúc và nguyên lý hoạt động chung Từ mô hình chung nhất, người ta có thể

mô tả chúng như một nơron chuẩn gồm 4 phần cơ bản:

Hình 1.3: Mô hình nơron sinh học

+ Các nhánh và rễ: là các bộ phận nhận thông tin Các đầu nhạy hay cácđầu ra của các nơron khác bám vào rễ hoặc nhánh của một nơron

+ Thân thần kinh (Soma) chứa các nhân và cơ quan tổng hợp prôtêin.Các iôn vào được tổng hợp và biến đổi Khi nồng độ các iôn đạt đến một giátrị nhất định, xẩy ra quá trình phát xung (hay kích thích) Xung đó được phát

ở các đầu ra của nơron Dây dẫn đầu ra xung được gọi là thần kinh (axon).+ Dây thần kinh (axon): là đầu ra Đó là phương tiện truyền dẫn tín hiệu.Dây thần kinh được cấu tạo gồm các đốt và có thể dài từ vài micro mét đếnvài mét tùy từng kết cấu cụ thể Đầu ra này có thể truyền tín hiệu đến cácnơron khác

+ Khớp thần kinh (synape): là bộ phận tiếp xúc của các đầu ra nơron với

rễ, nhánh của các nơron khác Chúng có cấu trúc màng đặc biệt để tiếp nhậncác tín hiệu

Trang 6

1.1.4 So sánh khả năng làm việc của bộ não và máy tính.

Người ta thấy rằng bộ não con người có thể lưu giữ nhiều thông tin hơncác máy tính hiện đại Tuy nhiên điều này không thể đúng mãi mãi, bởi lẽ sựtiến hoá của bộ não chậm, trong khi đó nhờ những tiến bộ trong công nghệ viđiện tử, bộ nhớ máy tính được nâng cấp rất nhanh Hơn nữa sự hơn kém về bộnhớ là không quan trọng so với sự khác biệt về tốc độ tính toán và khả năng

xử lý song song Các bộ vi xử lý có thể tính 108 lệnh/s, trong khi đó mạngnơron xử lý chậm hơn, cần khoảng vài miligiây để kích hoạt Tuy nhiên, bộnão có thể kích hoạt hầu như cùng một lúc tại rất nhiều nơron và khớp nối,trong khi đó ngay cả máy tính hiện đại cũng chỉ có một số lượng hạn chế các

bộ vi xử lý song song Nếu chạy một mạng nơron nhân tạo trên máy tính phảitốn hàng trăm lệnh để máy kiểm tra một nơron có được kích hoạt hay không(tiêu phí khoảng 10-8 × 102 giây/nơron) Do đó, dù bộ vi xử lý có thể tính toánnhanh hơn hàng triệu lần so với các nơron bộ não, nhưng xét tổng thể bộ nãolại tính toán nhanh hơn hàng tỷ lần

Khi người ta nhìn não từ góc độ tính toán, chúng ta dễ dàng phát hiệncách thức tính toán của não khác xa với tính toán trong thuật toán và chươngtrình chúng ta thường làm với sự trợ giúp của máy tính

Sự khác biệt cơ bản trước tiên là ở hai điểm rất quan trọng sau:

- Quá trình tính toán được tiến hành song song và gần hư đồng thờiđược phân tán trên nhiều nơron

- Tính toán thực chất là quá trình học chứ không phải theo sơ đồ địnhsẵn từ trước

Cách tiếp cận mạng nơron nhân tạo có ý nghĩa thực tiễn rất lớn chophép tạo ra các thiết bị có thể kết hợp khả năng song song cao của bộ não vớitốc độ tính toán cao của máy tính Tuy vậy, cần phải có một khoảng thời giandài nữa để các mạng nơron nhân tạo có thể mô phỏng được các hành vi sángtạo của bộ não con người Chẳng hạn, bộ não có thể thực hiện một nhiệm vụkhá phức tạp như nhận ra khuôn mặt người quen sau không quá một giây,

Trang 7

trong khi đó một máy tính tuần tự phải thực hiện hàng tỷ phép tính (khoảng

10 giây) để thực hiện cùng thao tác đó nhưng với chất lượng kém hơn nhiều,đặc biệt trong trường hợp thông tin không chính xác, không đầy đủ

1.2 Mạng Nơron nhân tạo

1.2.1 Mạng Nơron nhân tạo và một số khái niệm

Mạng nơron nhân tạo là mô phỏng xử lý thông tin, được nghiên cứu ra từ

hệ thống thần kinh của sinh vật, giống như bộ não để xử lý thông tin Nó baogồm số lượng lớn các mối gắn kết cấp cao để xử lý các yếu tố làm việc trongmối liên hệ giải quyết vấn đề rõ ràng Mạng nơron nhân tạo giống như conngười, được học bởi kinh nghiệm, lưu những kinh nghiệm hiểu biết và sửdụng trong những tình huống phù hợp Để có cái nhìn tổng quát về mạngnơron nhân tạo, trước hết chúng ta tìm hiểu qua về mạng nơron sinh học

1.2.1.1 Mô hình mạng Nơron nhân tạo

Từ những cơ sở nghiên cứu về nơron sinh học, chúng ta có thể xây dựng

mô hình nơron nhân tạo theo ngôn ngữ và ký hiệu chung nhất như (hình 1.4)

Mô hình một nơron nhân tạo được xây dựng từ ba thành phần chính: tổng cácliên kết đầu vào, động học tuyến tính, phi tuyến không động học

Hình 1.4: Mô hình mạng Noron nhân tạo

Trang 8

+ Bộ tổng liên kết: Bộ tổng liên kết đầu vào phần tử nơron có thể mô tả

WY t

V

1

) ( )

( )

I là ngưỡng, xác định ngưỡng kích thích hay ức chế (hằng số)

+ Phần động học tuyến tính: Đầu vào của phần động học tuyến tính là

đầu ra của bộ tổng liên kết v(t) Đầu ra của nó u(t) là tìn hiệu dạng tương tự

Có nhiều hàm để mô tả phần động học tuyến tính Dùng toán tử Laplace mô

tả hàm truyền của phần động học tuyến tính ta được dạng:

)()

()

+ Phần phi tuyến: Phần phi tuyền là phần sử dụng hàm g(.) cho đầu ra y

với đầu vào x(t):

y = g ( x ( t )) (1.4)

Trang 9

1.2.1.2 Mạng Nơron nhân tạo

Cũng như nơron sinh học, các nơron nhân tạo có thể liên kết với nhau đểtạo thành mạng Có nhiều cách để kết hợp nơron thành mạng, mỗi cách kếthợp sẽ tạo thành một lớp mạng khác nhau Với mạng nơron nhân tạo, chúng

ta có ba lớp kiến trúc cơ bản sau:

a Các mạng tiến (feedforward) đơn mức

Trong một mạng nơron phân mức, các nơron được tổ chức dưới dạng cácmức Với dạng đơn giản nhất của mạng phân mức, chúng ta có một mức đầuvào gồm các nút nguồn chiếu trực tiếp tới mức đầu ra gồm các nơron Nhưvậy, mạng thực sự không có chu trình Được minh họa như (hình 1.9) trongtrường hợp ba nút với cả mức đầu ra và đâu vào Một mạng như vậy được gọi

là một mạng đơn mức

Hình 1.5: Mạng tiến với một mức Nơron

b Các mạng tiến (feedforward) đa mức

Lớp thứ hai của một mạng nơron tiến được phân biệt bởi sự có mặt củamột hay nhiều mức ẩn, mà các nút tính toán của chúng được gọi là các nơron

ẩn hay đơn vị ẩn (thuật ngữ ẩn ở đây mang ý nghĩa không tiếp xúc với môitrường) Chức năng của các nơron ẩn là can thiệp vào giữa đầu vào và đầu racủa mạng một cách hữu hiệu Bằng việc thêm một vài mức ẩn, mạng có khảnăng rút ra được các thống kê bậc cao của tín hiệu đầu vào Khả năng các

Mức đầu vào gồm các nút nguồn

Mức đầu ra gồm các nơron

Trang 10

nơron ẩn rút ra được các thống kê bậc cao đặc biệt có giá trị khi mức đầu vào

có kích thước lớn

Các nút nguồn trong mức đầu vào của mạng cung cấp các phần tử củacác vectơ đầu vào, chúng tạo nên những tín hiệu đầu vào cho các nơron (cácnút tính toán ) trong mức thứ hai (mức ẩn thứ nhất) Các tín hiệu đầu ra củamức thứ hai được sử dụng như các đầu vào cho mức thứ ba, và cứ như vậyphần còn lại của mạng Về cơ bản, các nơron trong mỗi mức của mạng có cácđầu vào của chúng là các tín hiệu đầu ra của chỉ mức đứng liền trước nó (điềunày có thể khác trong thực tế cài đặt) Tập hợp các tín hiệu đầu ra của cácnơron trong mức đầu ra của mạng tạo nên đáp ứng toàn cục của mạng đối vớicác vectơ đầu vào được cung cấp bởi các nút nguồn của mức đầu vào Đồ thịtrong (hình 1.6) minh họa cấu trúc của một mạng nơron tiến đa mức chotrường hợp một mức ẩn

Mạng nơron trong (hình 1.6) được gọi là kết nối đầy đủ với ý nghĩa làtất cả các nút trong mỗi mức của mạng được nối với tất cả các nút trong mứctiếp sau Nếu một số kết nối synapse không tồn tại trong mạng, chúng ta nóirằng mạng là kết nối không đầy đủ

Hình 1.6: Mạng tiến kết nối đầy đủ với một mức ẩn và một mức đầu ra

Mức ẩn gồm các nơron ẩn

Mức đầu vào gồm các nút nguồn Mức đầu ra gồm các nơron đầu ra

Trang 11

c Các mạng hồi quy (recurrent network)

Một mạng nơron hồi quy được phân biệt với các mạng nơron không hồiquy ở chỗ là nó có ít nhất một vòng lặp phản hồi Ví dụ, một mạng nơron hồiquy có thể bao gồm một mức đơn các nơron với mỗi nơron đưa tín hiệu đầu

ra của nó quay trở lại các đầu vào của tất cả các nơron khác, như được minhhọa trong (hình 1.7) Trong cấu trúc được mô tả trong hình này, không có mộtvòng lặp tự phản hồi nào trong mạng; tự phản hồi là trường hợp đầu ra củamột nơron được phản hồi lại chính đầu vào của nơron đó Mạng hồi quy trong(hình 1.6) cũng không có các nơron ẩn Trong (hình 1.7), chúng ta minh họamột lớp mạng hồi quy nữa với các nơron ẩn Các kết nối phản hồi được vẽtrong (hình 1.7) được bắt nguồn từ các nơron ẩn cũng như từ các nơron đầura

Hình 1.7: Mạng hồi quy không có nơron ẩn và không có vòng lặp tự phản hồi

Sự có mặt của vòng lặp phản hồi, trong cả cấu trúc hồi quy của (hình1.6)

và (hình 1.7), có một ảnh hưởng sâu sắc tới khả năng học của mạng và đếntính năng của nó Hơn nữa, các vòng lặp phản hồi bao hàm việc sử dụng các

z -1 z -1 z -1 Các

toán tử đơn vị trễ

Trang 12

nhánh đặc biệt gồm các phần tử đơn vị trễ (ký hiệu là z-1), thể hiện một hành

vi phi tuyến động theo thời gian (cùng với giả sử rằng mạng nơron bao gồmcác đơn vị phi tuyến)

Hình 1.8: Mạng hồi quy có các nơron ẩn

1.2.2 Phương pháp học của mạng nơron nhân tạo

1.2.2.1 Định nghĩa học

Học là một quá trình mà nhờ nó các tham số tự do của một mạng nơronđược điều chỉnh lại cho phù hợp thông qua một quá trình kích thích bởi môitrường

Định nghĩa này bao hàm những ý nghĩa quan trọng sau:

• Mạng nơron được kích thích bởi một môi trường

• Mạng nơron trải qua những sự thay đổi về các tham số tự do của

nó như là kết quả của sự kích thích này

• Mạng nơron đáp ứng lại theo một cách hoàn toàn với môi trường

do sự thay đổi về cấu trúc bên trong của nó

Một tập hợp các quy tắc được xác định cho lời giải của bài toán học đượcgọi là thuật toán học Không có một thuật toán học duy nhất cho việc thiết kếcác mạng nơron, mà chúng ta có một “bộ công cụ” bao gồm nhiều thuật toánhọc rất đa dạng, mỗi thuật toán đều có những ưu điểm riêng Nói chung, các

z -1

Đầu vào

Các toán tử

đơn vị trễ

Đầu ra

Trang 13

thuật toán học khác nhau chủ yếu trong cách thức điều chỉnh trọng số synapsecủa một nơron.

1.2.2.2 Tiến trình học

Tiến trình học là tiến trình quan trọng của con người, nhờ học mà bộ nãongày càng tích lũy những kinh nghiệm để thích nghi với môi trường và xử lýtình huống tốt hơn Mạng nơron xây dựng lại cấu trúc của bộ não thì cần phải

có khả năng nhận biết dữ liệu thông qua tiến trình học, với các thông số tự docủa mạng có thể thay đổi liên tục bởi những thay đổi của môi trường và mạngnơron ghi nhớ giá trị đó

Trong quá trình học, giá trị đầu vào được đưa vào mạng theo dòng chảytrong mạng tạo thành giá trị ở đầu ra

Tiếp đến là quá trình so sánh giá trị tạo ra bởi mạng nơron với giá trị ramong muốn Nếu hai giá trị này giống nhau thì không thay đổi gì cả Tuynhiên, nếu có một sai lệch giữa hai giá trị này vượt quá giá trị sai số mongmuốn thì đi ngược mạng từ đầu ra về đầu vào để thay đổi một số kết nối

Hình 1.9: Tiến trình học

Đây là một quá trình lặp liên tục và có thể không dừng khi không tìm cácgiá trị w sao cho đầu ra tạo bởi mạng nơron bằng đúng đầu ra mong muốn

Do đó trong thực tế người ta phải thiết lập tiêu chuẩn dựa trên một giá trị sai

số nào đó của hai giá trị này, hay dựa trên một số lần lặp xác định

Trang 14

Vậy học là quá trình xác định cấu trúc hoặc tham số của mạng nơron,như vậy ta có:

- Học tham số: Các thủ tục học này nhằm tìm kiếm ma trận trọng số

sao cho mạng có khả khăng đưa ra dự báo sát với thực tế Dạng chung củaluật học tham số có thể được mô tả như sau:

M j N i rx

xj là tín hiệu vào của nơ-ron thứ j

EMBED Equation.3 η là tốc độ học , nằm trong khoảng (0,1).

+ Học có tín hiệu chỉ đạo: là quá trình mạng học dựa vào sai số giữa

đầu ra thực và đầu ra mong muốn để làm cơ sở cho việc hiệu chỉnh trọng số.Sai số này chính là trọng số r Luật học điển hình của nhóm này chính là luậthọc Delta của Widrow (1962) nêu ra đầu tiên dùng để xấp xỉ trọng củaAdaline dựa trên nguyên tắc giảm gradient

Trang 15

Trong nhóm luật học này cũng cần phải kể đến luật học Perceptron củaRosenblatt (1958) Về cơ bản luật học này thay đổi các giá trị trọng trong thờigian học còn luật Perceptron thì thêm hoặc bỏ trọng tùy theo giá trị số làdương hay âm.

Một loạt các luật học khác cũng được dựa trên tư tưởng này Luật oja

là cải tiến và nâng cấp của luật Delta Luật truyền ngược là mỏ rộng của luậtDelta cho mạng nhiều lớp Đối với mạng truyền thẳng thường sử dụng luậttruyền ngược để chỉnh trọng với tín hiệu chỉ đạo từ bên ngoài và người ta gọimạng này là mạng truyền ngược

+ Học không có tín hiệu chỉ đạo: Luật học này sử dụng đầu ra của

mạng làm cơ sở để hiệu chỉnh các trọng số liên kết Hay trong luật này chính

là tín hiệu ra của mạng Điển hình là mạng Hebb (1949) thường dùng cho cácmạng tự liên kết, Luật LVQ (Learning Vector Quantization) dùng cho mạng

tự tổ chức một lớp thuộc lớp mạng ánh xạ đặc trưng của Kohonen

Luật học Hebb là luật sinh học xuất phát từ tiêu đề Hebb cho rằng:Giữa hai nơ-ron có quan hệ và có thay đổi thế năng màng thì giữa chúng có

sự thay đổi trọng số liên kết Nói cách khác, trọng số được điều chỉnh theomỗi tương quan trước và sau nghĩa là:

EMBED Equation.3 ∆W ij = ηy i x j,i= 1 ,N , j= 1 ,M , (1.6)trong đó

EMBED Equation.3 ∆W ij: Là sự thay đổi trọng số liên kết từ

nơ-ron j đến nơ-ron i

EMBED Equation.3 x: là tín hiệu vào nơ-ron j

EMBED Equation.3 y i là tín hiệu ra của nơ-ron i

EMBED Equation.3 η là tốc độ học nằm trong khoảng (0,1).

Luật Hebb giải thích việc chỉnh trọng trong phạm vi cục bộ của mạng

mà không cần tín hiệu chỉ đạo từ bên ngoài Hopfield cũng cải tiễn luật Hebb

Trang 16

cho các mạng tự liên kết thành 16 dạng khác nhau theo kiểu luật Hebb, luậtHopfield

Như vậy, ứng với mỗi nhóm mạng thường áp dụng một luật học nhấtđịnh Nếu tồn tại hàng chục loại khác nhau thì các luật học dùng trong mạngnơ-ron có thể tăng lên rất nhiều lần

Đối với mạng phản hồi thường sử dụng luật Hebb vào các luật cải tiếncủa nó để chỉnh trọng mà không cần tín hiệu chỉ đạo từ bên ngoài

+ Học tăng cường: Trong một số trường hợp, thông tin phản hồi chỉ là

tín hiệu bao gồm hai trạng thái cho biết tín hiệu đầu ra của mạng là đúng haysai Quá trình học dựa trên thông tin hướng dẫn như vậy được gọi là học cócủng cố (học tăng cường) và tín hiệu mang thông tin phản hồi được gọi là tínhiệu củng cố cho quá trình học Ta có thể thấy rằng quá trình học này là mộtdạng của quá trình học có tín hiệu chỉ đạo bởi vì mạng nhận được một sốthông tin phản hồi từ bên ngoài

- Học cấu trúc: tìm kiếm các tham số của cấu trúc mạng để tìm ra một

cấu trúc mạng hoạt động tốt nhất Trong thực tế, việc học cấu trúc là tìm ra sốlớp ẩn và tìm ra số nơ-ron trên mỗi lớp đó Giải thuật di truyền thường được

sử dụng trong cấu trúc nhưng thường chạy rất lâu, thậm chí ngay cả đói vớimạng có kích thước trung bình Ngoài ra kỹ thuật gọt tỉa mạng hay mạng tăngdần cũng được áp dụng trong việc học cấu trúc của mạng có kích thước tươngđối nhỏ

1.2.3 Đặc trưng của mô hình mạng nơron

Những mô hình mạng nơron có tiềm năng tạo nên một cuộc cách mạngtrong công nghệ máy tính và các quá trình xử lý thông tin Những mong muốn

và hy vọng đó chủ yếu bắt nguồn từ các đặc trưng sau:

- Khả năng của các quá trình xử lý song song và phân tán: Có thể đưa

vào mạng một lượng lớn các nơron liên kết với nhau theo những lược đồ vớinhững kiến trúc khác nhau

Trang 17

- Khả năng thích nghi và tự tổ chức : Về đặc trưng này người ta đề cập

đến khả năng xử lý thích nghi và điều chỉnh bền vững dựa vào các thuật toánhọc thích nghhi và các quy tắc tự tổ chức

- Khả năng dung thứ lỗi: Cố gắng bắt chước khả năng dung thứ lỗi của

não theo nghĩa hệ thông có thể tiếp tục làm việc và điều chỉnh khi nhận tínhiệu vào một phần thông tin bị sai lệch hoặc bị thiếu

- Xử lý các quá trình phi tuyến : Đặc trưng này rất quan trọng, ví dụ

trong xấp xỉ mạng , miễn nhiễu (chấp nhận nhiễu) và có khả năng phân lớp

1.3 Kết luận

Như vậy trong chương I này chúng ta đã trình bày một số kiến thức cơbản về lý thuyết về mạng nơron nhân tạo – lĩnh vực này đã và đang đượcnghiên cứu và ứng dụng rộng rãi trong thực tế

Ngày nay, chính mạng nơron đã tạo nên một cuộc cách mạng về côngnghệ máy tính và xử lý thông tin nhờ vào khả năng tính toán song song vàphân tán, khả năng thích nghi và tự tổ chức, khả năng dung thứ lỗi…, khôngđòi hỏi các dặc trưng mở rộng của bài toán

Mặc dù có nhiều ưu điểm và được áp dụng nhiều trong thực tế songmạng nơron cũng có những hạn chế nhất định Chính vì vậy mà một cách tiếpcận mới hứa hẹn đem lại nhiều kết quả đó là việc tích hợp giữa hệ mờ vàmạng nơron này với nhau (trình bày ở chương II) Bởi cách tích hợp này sẽkhắc phục được những nhược điểm vốn có của hệ mờ cũng như mạng nơronđồng thời nó cũng phát huy được hết những ưu điểm của chúng Cụ thể nhữngnhược điểm của mạng nơron đó là:

- Không có các quy tắc và các hướng dẫn thiết kế một cách rõ ràng đốivới một ứng dụng nhất định

- Không có cách tổng quát để đánh giá hoạt động bên trong của mạng

- Việc tập hấn đối với mạng có thể khó thực hiện

Trang 18

- Khó có thể dự đoán trước được hiệu quả của mạng trong tương lai.

Chương 2

MÔ HÌNH MẠNG RBF VÀ THUẬT TOÁN LAI

CHO MẠNG BRF

2.1 Hàm cơ sở xuyên tâm

Trong không gian Euclidean Rn, RBF là một hàm có dạng:

x và xj, c1, c2, …, cN là các hằng số, và Ф là hàm một biến Trong thực tế:

[ 0 , ∞ ) → R

:

φ

Ф được gọi là hàm tiêu chuẩn (cơ sở)

Ví dụ: Ta có φ ( t ) = exp( − t2), từ đó ta có ∑cj exp( x − xj 2) và được gọi

là hàm RBF Gaussian

2.2 Mô hình mạng RBF

Mạng sử dụng hàm cơ sở xuyên tâm (Radial Basic Function Networrk RBFN) hay còn gọi là mạng sử dụng hàm điều hòa, có thể được sử dụng đểthay thế cho các mạng truyền thẳng đa lớp (Multilayered Feedforward Neural

Trang 19

-Networks - MFNNs) đã được nghiên cứu rất nhiều Một hàm cơ sở xuyên tâm(Radial Basic Function - RBF) là một ánh xạ hàm phi tuyến đa chiều, nó phụthuộc vào khoảng cách giữa véc tơ vào và véc tơ tâm Một mạng RBF vớimột véc tơ đầu vào n chiều x∈ Rn và một đầu ra y ∈R có thể biểu diễn bởitổng có trọng số của một số hữu hạn các hàm cơ sở xuyên tâm như sau:

Hình 2.1: Sơ đồ biểu diễn mạng RBF với véc tơ đầu vào x є R n và

f

y

) ( (2.2) Trong đó Φi( x−c i )là hàm cơ sở xuyên tâm của x, thu được bởi dịch

chuyển Φi ( x ) một khoảng c

i Để đơn giản, có thể chọn hàm cơ sở xuyêntâm cùng kiểu Φ cho tất cả các tổng trọng số ở trên, khi đó phương trình(2.2) có thể được viết lại:

w2w

Trang 20

=

− Φ

x f y

1

) (

)

Trong phương trình này Φ(.) là một hàm phi tuyến tùy ý, biểu thị

cho một chuẩn thường là chuẩn Euclidean, các véc tơ ci∈ Rn biết trước đượcgọi là các tâm của các hàm cơ sở xuyên tâm, và ωi là tham số trọng số Thuậtngữ hàm cơ sở xuyên tâm được gọi như vậy vì các hàm này đối xứng quatâm, có nghĩa là mỗi nút sinh ra đầu ra giống hệt nhau với các đầu vào nằm ởcác vị trí có khoảng cách bán kính cố định bằng nhau tính từ tâm Nói cách

khác, một hàm cơ sở xuyên tâm Φ( x−c i ) có cùng giá trị cho tất cả các nơ

rron đầu vào x nằm trên một siêu cầu với tâm ci

Nếu như các thành phần đơn lẻ của các véc tơ vào x thuộc về nhữnglớp khác nhau, thì việc sử dụng một chuẩn trọng số (weighted norm) (Poggio

và Girosi 1900) ở trong hàm cơ sở xuyên tâm sẽ phù hợp hơn, khi đó RBFN

có thể được biểu diễn:

) (

2

i i

T i

T i K

Trong trường hợp đơn giản thì Ki là một ma trận chéo, Ki = diag[ki1, ki2,

…, kin] và các thành phần chéo kij được gán cho những trọng số cụ thể tươngứng với mỗi tọa độ vào, và chuẩn Eucliean mẫu thu được khi mà Ki được đưa

về ma trận đơn vị Tuy nhiên thuộc tính đối xứng xuyên tâm không còn khi

sử dụng các dạng chuẩn có trọng số (weighed norms) RBF cho ra cùng giá trịvới tất các véc tơ đầu vào x nằm trên một siêu ellipsoid với tâm ci và trụcđược xác định bởi ma trận trọng số Ki Việc đưa vào khái niệm chuẩn trọng sốđóng vai trò hết sức quan trọng bất kì khi nào sử dụng các đầu vào có các kiểukhác nhau

Trang 21

Với trường hợp nhiều đàu ra, RBFN được cho bởi (2.2) cú thể được mởrộng như sau:

n

W

ω ω

ω

ω ω

ω

ω ω

21 22

21

1 22

c x

φ

φ φ



2 1

* So sánh mạng RBF và perceptrons nhiều tầng

Mạng (RBF) và perceptron nhiều tầng là ví dụ về phi tuyến tính sắpthành từng lớp những mạng truyền thẳng Cả hai đều gần nh nhau Tuy nhiênhai mạng khác nhau ở vài điểm quan trọng nh là vài nét ở dới đây:

1 Một mạng RBF ( trong nó có hình thức cơ bản nhất ) có một tầng ẩnkhi đó một MLP có một hoặc nhiều tầng ẩn

2 Điển hình, sự tính toán những nút của một MLP, chúng xác định mộttầng ẩn hoặc tầng ra chia sẻ một nơron mẫu chung Mặt khác, sự tính toánnhững nút trong tầng ẩn của một mạng RBF là khác nhau và phục vụ cho mục

đích từ tầng ra của mạng

3 Tầng ẩn của một mạng RBF là phi tuyến tính, ở đó tầng ra là tuyếntính Theo cách khác, tầng ẩn và ra của một MLP đợc sử dụng nh là phân loạithông thờng tất cả là phi tuyến Tuy nhiên khi MLP đợc dùng để giải thích vấn

đề về hồi quy phi tuyến tính, một tầng tuyến tính cho đầu ra thờng là đợc lựachọn

4 Đối số của hàm kích hoạt của mỗi đơn vị ẩn của một mạng RBF tínhtoán theo tiên đề Euclide giữa vectơ vào và tâm của đơn vị đó Mặt khác,

hàm kích hoạt của mỗi đơn vị ẩn trong mạng MLP tính toán tích vô hớng củavectơ vào và vectơ trọng số Synaptic của đơn vị đó.

5 Những MLP đợc xây dựng toàn bộ xấp xỉ ánh xạ vào ra phi tuyếntính Vậy thì, chúng có khả năng khái quát trong vùng của không gian vào nơi

Trang 22

ít hoặc không dữ liệu huấn luyện là sẵn có Mặt khác, mạng RBF dùng lũythừa địa phơng hoá phi tuyến (hàm Gausss) xây dựng toàn bộ xấp xỉ ánh xạvào ra phi tuyến tính với kết quả là những mạng có khả năng tự học nhanh vàgiảm bớt tính nhạy cảm tới sự biểu diễn của việc huấn luyện dữ liệu Trongnhững trờng hợp, tuy nhiên, chúng ta tim cái đó để đại diện một ánh xạ đạt tới

độ mong muốn nào đó của sự nhịp nhàng Số lợng của RBF yêu cầu mở rộngkhông gian đầu vào đầy đủ có thể phải rất lớn

Đặc điểm tuyến tính của tầng ra của mạng RBF nghĩa là một mạng là

có mối quan hệ gần gũi với perceptron(bộ nhận thức ) của Rosenblatt hơnperceptron nhiều tầng Tuy nhiên mạng RBF khác với pereptron là nó có khảnăng tự thực hiện sự biến đổi phi tuyến tính của không gian đầu vào Đây làminh hoạ tốt nhất của vấn đề XOR, chúng không thể đợc giải thích bằngperceptron tuyến tính nhng có thể giải thích bởi một mạng RBF

* Khi sử dụng hàm cơ sở trong mạng nơron, cần tạo ra cỏc sự thay đổi sau:

- Số cỏc hàm cơ sở khụng cần thiết phải bằng với số vộc tơ huấn luyện,thường là ớt hơn nhiều

- Cỏc hàm cơ sở khụng cần phải được đặt xung quanh cỏc vectơ huấnluyện

- Cỏc hàm cơ sở cú thể cú cỏc tham số hiệu chỉnh được trong quỏ trỡnhhuấn luyện

- Cú thể cú cỏc tham số bias

Quan hệ giữa mạng cơ sở xuyờn tõm và cỏc phương phỏp thống kờkhỏc cho thấy rằng cỏc hàm cơ sở nờn biểu diễn phõn phối xỏc suất của cỏcvec tơ vào Sau đú sử dụng một phương phỏp học khụng giỏm sỏt để tỡm cỏctham số của cỏc hàm cơ sở

Cú nhiều lớp hàm cơ sở xuyờn tõm khỏc nhau được sử dụng cho nhữngbài toỏn khỏc nhau Một số loại hàm cơ sở xuyờn tõm thường gặp:

RBF Gaussian: Ф(r) = e-(r/e)2 (2.6)

RBF đa toàn phương (multiquadratic RBF):

β

φ(r) = (c2 +r2) 0 < β <0 (2.7)

Định dạng
Số trang	45
Dung lượng	581,5 KB

Mạng nơron nhân tạo và mạng RBF

Thuật toỏn lai cho mạng RBF