Mạng nơron nhân tạo và mạng RBF
Trang 1LỜI MỞ ĐẦU
Các mô hình tính toán mô phỏng bộ não người đã được nghiên cứu trong nửa đầu thế kỷ 20 Mặc dù có nhiều mô hình khác nhau được đề xuất, song tất cả đều dùng một cấu trúc mạng gọi là các nơron Các nơron này xử lý các tín hiệu số gửi tới từ môi trường bên ngoài hoặc từ các nơron khác trong mạng thông qua các kết nối và sau đó gửi tín hiệu đến các nơron khác hoặc ra môi trường Mạng nơron nhân tạo, gọi tắt là mạng nơron là một lớp các mô hình tính toán như vậy
Cách tiếp cận mạng nơron nhân tạo có ý nghĩa thực tiễn rất lớn cho phép tạo
ra các thiết bị có thể kết hợp khả năng song song cao của bộ não với tốc độ tính toán cao của máy tính Trong những năm gần đây mạng nơron nhân tạo đã được nghiên cứu và ứng dụng trong lĩnh vực như y học, điều khiển,… và đặc biệt được ứng dụng nhiều trong lĩnh vực công nghệ thông tin.
Hàm cơ bản xuyên tâm nổi lên như một dạng của mạng nơron nhân tạo vào
cuối những năm 80.Tuy nhiên, nguồn gốc của chúng bắt nguồn từ những kỹ thuật
nhận dạng mẫu lâu đời hơn nhiều như hàm tiềm năng, chuỗi, ước lượng hàm, trục liên cực và các mô hình hỗn hợp Mạng nơron sử dụng hàm cơ sở xuyên tâm (Radial Basic Function Neural Network – RBFNN) đã được nghiên cứu rất nhiều trong những năm gần đây Các nhà nghiên cứu đã thu được những kết quả lý thuyết nhất định, cùng với nhiều ứng dụng và nhiều cải thiện cho RBFNN RBFNN được
sử dụng nhiều để giải bài toán nội suy do loại mạng này có khả năng xáp xỉ toàn cục rất tốt.
Nhận thức được vấn đề trên, tôi đã mạnh dạn chọn đề tài :” Mạng nơron nhân tạo và Mạng RBF ”
Nội dung đề tài gồm 2 chương:
Chương 1: NƠRON SINH HỌC VÀ MẠNG NƠRON NHÂN TẠO
Chương 2: MÔ HÌNH MẠNG RBF VÀ THUẬT TOÁN LAI CHO MẠNG BRF
Em xin chân thành cảm ơn PGS.TS Nguyễn Thanh Thuỷ đã tận tình giúp đỡ cho em và tạo điều kiện tốt nhất cho em học tập và hoàn thiện tiểu luận này.
Trang 2Chương 1NƠRON SINH HỌC VÀ MẠNG NƠRON NHÂN TẠO
1.1 Nơron sinh hoc và bộ não người.
1.1.1 Cấu tạo và hạt động của một Nơron
Các nhà nghiên cứu sinh học về bộ não cho ta thấy rằng các tế bào thầnkinh (nơron) là cơ sở đảm nhiệm những chức năng xử lý nhất định trong hệthần kinh, bao gồm não, tuỷ sống và các dây thần kinh Mỗi nơron có phầnthân và nhân bên trong (gọi là soma), một đầu thần kinh ra (gọi là sợi trụcaxon) và một hệ thống dạng cây các dây thần kinh vào (gọi là dendrite) Cácdây thần kinh vào tạo thành một lưới dày đặc xung quanh thân tế bào, chiếmdiện tích khoảng 0,25mm2, còn dây thần kinh ra tạo thành trục dài có thể từ1cm cho đến hàng mét.Đường kính của nhân tế bào thường chỉ là 10-4m Trụcdây thần kinh ra cũng có thể phân nhánh theo dạng cây để nối với các dâythần kinh vào hoặc trực tiếp với nhân tế bào của các nơron khác thông quacác khớp nối (gọi là synapse) Thông thường , mỗi nơron có thể gồm vài chụccho tới hàng trăm ngàn khớp nối để nối với các nởon khác Người ta ướclượng rằng các dây thần kinh ra cùng với các khớp nối bao phủ diện tíchkhoảng 90% bề mặt nơron
Hình 1.1 Hình ảnh tế bào nơron trong não người
Trang 3Một số cấu trúc nơron thần kinh được hình thành từ lúc bẩm sinh, một
số khác được phát triển thông qua quá trình học Đây là sự liên kết, tạo ra vàmất đi Quá trình phát triển này là điều đáng chú ý nhất trong thời kỳ đầu tiêncủa cuộc sống Cấu trúc nơron được liên tục thay đổi hoàn thiện theo xuhướng thích nghi với điều kiện sống
Các tín hiệu truyền trong các dây thần kinh vào và dây thần kinh ra củacác nơron là tín hiệu điện và được thực hiện thông qua các quá trình phản ứng
và giải phóng các chất hữu cơ Các chất này được phát ra từ các khớp nối dẫntới các dây thần kinh vào sẽ làm tăng hay giảm điện thế của nhân tế bào Khiđiện thế này đạt tới một ngưỡng nào đó, sẽ tạo ra một xung điện dẫn tới trụcdây thần kinh ra Xung này được truyền theo trục, tới các nhánh rẽ khi chạmtới các khớp nối với các nơron khác sẽ giải phóng các chất truyền điện.Người ta chia làm hai loại khớp nối: khớp nối kích thích (excitatory) hoặckhớp nối ức chế (inhibitory)
1.1.2 Cấu tạo và một số khả năng của não
Não là tổ chức vật lý cao cấp, có cấu tạo vô cùng phức tạp, dày đặc cácmối liên kết giữa các nơron nhưng xử lý thông tin rất linh hoạt trong một môitrường bất định
Trong bộ não có khoảng 1011 – 1012 nơron và mỗi nơron có thể liên kếtvới 104 nơron khác qua các khớp nối Những kích hoạt hoặc ức chế này đượctruyền qua trục nơron (axon) đến các nơron khác
Hình 1.2: Hình ảnh của tế bào nơron trong não người.
Trang 4Phát hiện quan trọng nhất trong ngành nghiên cứu về bộ não là các liênkết khớp thần kinh khá mềm dẻo, có thể biến động và chỉnh đổi theo thời giantuỳ thuộc vào các dạng kích thích Hơn nữa, các nơron có thể sản sinh cácliên kết mới với các nơron khác và đôi khi lưới các nơron có thể chuyển từvùng này sang vùng khác trong bộ não Các nhà khoa học cho rằng đây chính
là cơ sở quan trọng để giải thích cơ chế học của bộ não
Phần lớn các quá trình xử lý thông tin đều xảy ra trên vỏ não Toàn bộ
vỏ não được bao phủ bởi mạng các tổ chức cơ sở có dạng hình trụ tròn vớiđường kính khoảng 0,5 mm, độ cao 4 mm Mỗi đơn vị cơ sở này chứa khoảng
2000 nơron Các nơron trong não rất đơn giản trong cơ chế làm việc, chúng
có thể liên kết với nhau, có khả năng tính toán, suy nghĩ, ghi nhớ và điềukhiển Có thể điểm qua những chức năng cơ bản của bộ não như sau:
-Bộ nhớ được tổ chức theo các bó thông tin và truy nhập theo nội dung(Có thể truy xuất thông tin dựa theo giá trị các thuộc tính của đối tượng)
- Bộ não có khả năng tổng quát hoá, có thể truy xuất các tri thức haycác mối liên kết chung của các đối tượng tương ứng với một khái niệm chungnào đó
- Bộ não có khả năng phán đoán theo nghĩa có thể điều chỉnh hoặc tiếptục thực hiện ngay khi có những sai lệch do thông tin bị thiếu hay khôngchính xác Ngoài ra, bộ não còn có thể phát hiện và phục hồi các thông tin bịmất dựa trên sự tương tự giữa các đối tượng
- Bộ não có thể bị xuống cấp nhưng lại có khả năng thay thế dần dần.Khi có những trục trặc tại các vùng não (do bệnh, chấn thương) hoặc bắt gặpnhững thông tin hoàn toàn mới lạ, bộ não vẫn có thể tiếp tục làm việc
- Bộ não có khả năng học
1.1.3 Mô hình Nơron sinh học
Các nơron sinh học có nhiều dạng khác nhau như dạng hình tháp ở đạinão, dạng tổ ong ở tiểu não, dạng rễ cây ở cột sống Tuy nhiên, chúng có cấu
Trang 5trúc và nguyên lý hoạt động chung Từ mô hình chung nhất, người ta có thể
mô tả chúng như một nơron chuẩn gồm 4 phần cơ bản:
Hình 1.3: Mô hình nơron sinh học
+ Các nhánh và rễ: là các bộ phận nhận thông tin Các đầu nhạy hay cácđầu ra của các nơron khác bám vào rễ hoặc nhánh của một nơron
+ Thân thần kinh (Soma) chứa các nhân và cơ quan tổng hợp prôtêin.Các iôn vào được tổng hợp và biến đổi Khi nồng độ các iôn đạt đến một giátrị nhất định, xẩy ra quá trình phát xung (hay kích thích) Xung đó được phát
ở các đầu ra của nơron Dây dẫn đầu ra xung được gọi là thần kinh (axon).+ Dây thần kinh (axon): là đầu ra Đó là phương tiện truyền dẫn tín hiệu.Dây thần kinh được cấu tạo gồm các đốt và có thể dài từ vài micro mét đếnvài mét tùy từng kết cấu cụ thể Đầu ra này có thể truyền tín hiệu đến cácnơron khác
+ Khớp thần kinh (synape): là bộ phận tiếp xúc của các đầu ra nơron với
rễ, nhánh của các nơron khác Chúng có cấu trúc màng đặc biệt để tiếp nhậncác tín hiệu
Trang 61.1.4 So sánh khả năng làm việc của bộ não và máy tính.
Người ta thấy rằng bộ não con người có thể lưu giữ nhiều thông tin hơncác máy tính hiện đại Tuy nhiên điều này không thể đúng mãi mãi, bởi lẽ sựtiến hoá của bộ não chậm, trong khi đó nhờ những tiến bộ trong công nghệ viđiện tử, bộ nhớ máy tính được nâng cấp rất nhanh Hơn nữa sự hơn kém về bộnhớ là không quan trọng so với sự khác biệt về tốc độ tính toán và khả năng
xử lý song song Các bộ vi xử lý có thể tính 108 lệnh/s, trong khi đó mạngnơron xử lý chậm hơn, cần khoảng vài miligiây để kích hoạt Tuy nhiên, bộnão có thể kích hoạt hầu như cùng một lúc tại rất nhiều nơron và khớp nối,trong khi đó ngay cả máy tính hiện đại cũng chỉ có một số lượng hạn chế các
bộ vi xử lý song song Nếu chạy một mạng nơron nhân tạo trên máy tính phảitốn hàng trăm lệnh để máy kiểm tra một nơron có được kích hoạt hay không(tiêu phí khoảng 10-8 × 102 giây/nơron) Do đó, dù bộ vi xử lý có thể tính toánnhanh hơn hàng triệu lần so với các nơron bộ não, nhưng xét tổng thể bộ nãolại tính toán nhanh hơn hàng tỷ lần
Khi người ta nhìn não từ góc độ tính toán, chúng ta dễ dàng phát hiệncách thức tính toán của não khác xa với tính toán trong thuật toán và chươngtrình chúng ta thường làm với sự trợ giúp của máy tính
Sự khác biệt cơ bản trước tiên là ở hai điểm rất quan trọng sau:
- Quá trình tính toán được tiến hành song song và gần hư đồng thờiđược phân tán trên nhiều nơron
- Tính toán thực chất là quá trình học chứ không phải theo sơ đồ địnhsẵn từ trước
Cách tiếp cận mạng nơron nhân tạo có ý nghĩa thực tiễn rất lớn chophép tạo ra các thiết bị có thể kết hợp khả năng song song cao của bộ não vớitốc độ tính toán cao của máy tính Tuy vậy, cần phải có một khoảng thời giandài nữa để các mạng nơron nhân tạo có thể mô phỏng được các hành vi sángtạo của bộ não con người Chẳng hạn, bộ não có thể thực hiện một nhiệm vụkhá phức tạp như nhận ra khuôn mặt người quen sau không quá một giây,
Trang 7trong khi đó một máy tính tuần tự phải thực hiện hàng tỷ phép tính (khoảng
10 giây) để thực hiện cùng thao tác đó nhưng với chất lượng kém hơn nhiều,đặc biệt trong trường hợp thông tin không chính xác, không đầy đủ
1.2 Mạng Nơron nhân tạo
1.2.1 Mạng Nơron nhân tạo và một số khái niệm
Mạng nơron nhân tạo là mô phỏng xử lý thông tin, được nghiên cứu ra từ
hệ thống thần kinh của sinh vật, giống như bộ não để xử lý thông tin Nó baogồm số lượng lớn các mối gắn kết cấp cao để xử lý các yếu tố làm việc trongmối liên hệ giải quyết vấn đề rõ ràng Mạng nơron nhân tạo giống như conngười, được học bởi kinh nghiệm, lưu những kinh nghiệm hiểu biết và sửdụng trong những tình huống phù hợp Để có cái nhìn tổng quát về mạngnơron nhân tạo, trước hết chúng ta tìm hiểu qua về mạng nơron sinh học
1.2.1.1 Mô hình mạng Nơron nhân tạo
Từ những cơ sở nghiên cứu về nơron sinh học, chúng ta có thể xây dựng
mô hình nơron nhân tạo theo ngôn ngữ và ký hiệu chung nhất như (hình 1.4)
Mô hình một nơron nhân tạo được xây dựng từ ba thành phần chính: tổng cácliên kết đầu vào, động học tuyến tính, phi tuyến không động học
Hình 1.4: Mô hình mạng Noron nhân tạo
Trang 8+ Bộ tổng liên kết: Bộ tổng liên kết đầu vào phần tử nơron có thể mô tả
WY t
V
1
) ( )
( )
I là ngưỡng, xác định ngưỡng kích thích hay ức chế (hằng số)
+ Phần động học tuyến tính: Đầu vào của phần động học tuyến tính là
đầu ra của bộ tổng liên kết v(t) Đầu ra của nó u(t) là tìn hiệu dạng tương tự
Có nhiều hàm để mô tả phần động học tuyến tính Dùng toán tử Laplace mô
tả hàm truyền của phần động học tuyến tính ta được dạng:
)()
()
+ Phần phi tuyến: Phần phi tuyền là phần sử dụng hàm g(.) cho đầu ra y
với đầu vào x(t):
y = g ( x ( t )) (1.4)
Trang 91.2.1.2 Mạng Nơron nhân tạo
Cũng như nơron sinh học, các nơron nhân tạo có thể liên kết với nhau đểtạo thành mạng Có nhiều cách để kết hợp nơron thành mạng, mỗi cách kếthợp sẽ tạo thành một lớp mạng khác nhau Với mạng nơron nhân tạo, chúng
ta có ba lớp kiến trúc cơ bản sau:
a Các mạng tiến (feedforward) đơn mức
Trong một mạng nơron phân mức, các nơron được tổ chức dưới dạng cácmức Với dạng đơn giản nhất của mạng phân mức, chúng ta có một mức đầuvào gồm các nút nguồn chiếu trực tiếp tới mức đầu ra gồm các nơron Nhưvậy, mạng thực sự không có chu trình Được minh họa như (hình 1.9) trongtrường hợp ba nút với cả mức đầu ra và đâu vào Một mạng như vậy được gọi
là một mạng đơn mức
Hình 1.5: Mạng tiến với một mức Nơron
b Các mạng tiến (feedforward) đa mức
Lớp thứ hai của một mạng nơron tiến được phân biệt bởi sự có mặt củamột hay nhiều mức ẩn, mà các nút tính toán của chúng được gọi là các nơron
ẩn hay đơn vị ẩn (thuật ngữ ẩn ở đây mang ý nghĩa không tiếp xúc với môitrường) Chức năng của các nơron ẩn là can thiệp vào giữa đầu vào và đầu racủa mạng một cách hữu hiệu Bằng việc thêm một vài mức ẩn, mạng có khảnăng rút ra được các thống kê bậc cao của tín hiệu đầu vào Khả năng các
Mức đầu vào gồm các nút nguồn
Mức đầu ra gồm các nơron
Trang 10nơron ẩn rút ra được các thống kê bậc cao đặc biệt có giá trị khi mức đầu vào
có kích thước lớn
Các nút nguồn trong mức đầu vào của mạng cung cấp các phần tử củacác vectơ đầu vào, chúng tạo nên những tín hiệu đầu vào cho các nơron (cácnút tính toán ) trong mức thứ hai (mức ẩn thứ nhất) Các tín hiệu đầu ra củamức thứ hai được sử dụng như các đầu vào cho mức thứ ba, và cứ như vậyphần còn lại của mạng Về cơ bản, các nơron trong mỗi mức của mạng có cácđầu vào của chúng là các tín hiệu đầu ra của chỉ mức đứng liền trước nó (điềunày có thể khác trong thực tế cài đặt) Tập hợp các tín hiệu đầu ra của cácnơron trong mức đầu ra của mạng tạo nên đáp ứng toàn cục của mạng đối vớicác vectơ đầu vào được cung cấp bởi các nút nguồn của mức đầu vào Đồ thịtrong (hình 1.6) minh họa cấu trúc của một mạng nơron tiến đa mức chotrường hợp một mức ẩn
Mạng nơron trong (hình 1.6) được gọi là kết nối đầy đủ với ý nghĩa làtất cả các nút trong mỗi mức của mạng được nối với tất cả các nút trong mứctiếp sau Nếu một số kết nối synapse không tồn tại trong mạng, chúng ta nóirằng mạng là kết nối không đầy đủ
Hình 1.6: Mạng tiến kết nối đầy đủ với một mức ẩn và một mức đầu ra
Mức ẩn gồm các nơron ẩn
Mức đầu vào gồm các nút nguồn Mức đầu ra gồm các nơron đầu ra
Trang 11c Các mạng hồi quy (recurrent network)
Một mạng nơron hồi quy được phân biệt với các mạng nơron không hồiquy ở chỗ là nó có ít nhất một vòng lặp phản hồi Ví dụ, một mạng nơron hồiquy có thể bao gồm một mức đơn các nơron với mỗi nơron đưa tín hiệu đầu
ra của nó quay trở lại các đầu vào của tất cả các nơron khác, như được minhhọa trong (hình 1.7) Trong cấu trúc được mô tả trong hình này, không có mộtvòng lặp tự phản hồi nào trong mạng; tự phản hồi là trường hợp đầu ra củamột nơron được phản hồi lại chính đầu vào của nơron đó Mạng hồi quy trong(hình 1.6) cũng không có các nơron ẩn Trong (hình 1.7), chúng ta minh họamột lớp mạng hồi quy nữa với các nơron ẩn Các kết nối phản hồi được vẽtrong (hình 1.7) được bắt nguồn từ các nơron ẩn cũng như từ các nơron đầura
Hình 1.7: Mạng hồi quy không có nơron ẩn và không có vòng lặp tự phản hồi
Sự có mặt của vòng lặp phản hồi, trong cả cấu trúc hồi quy của (hình1.6)
và (hình 1.7), có một ảnh hưởng sâu sắc tới khả năng học của mạng và đếntính năng của nó Hơn nữa, các vòng lặp phản hồi bao hàm việc sử dụng các
z -1 z -1 z -1 Các
toán tử đơn vị trễ
Trang 12nhánh đặc biệt gồm các phần tử đơn vị trễ (ký hiệu là z-1), thể hiện một hành
vi phi tuyến động theo thời gian (cùng với giả sử rằng mạng nơron bao gồmcác đơn vị phi tuyến)
Hình 1.8: Mạng hồi quy có các nơron ẩn
1.2.2 Phương pháp học của mạng nơron nhân tạo
1.2.2.1 Định nghĩa học
Học là một quá trình mà nhờ nó các tham số tự do của một mạng nơronđược điều chỉnh lại cho phù hợp thông qua một quá trình kích thích bởi môitrường
Định nghĩa này bao hàm những ý nghĩa quan trọng sau:
• Mạng nơron được kích thích bởi một môi trường
• Mạng nơron trải qua những sự thay đổi về các tham số tự do của
nó như là kết quả của sự kích thích này
• Mạng nơron đáp ứng lại theo một cách hoàn toàn với môi trường
do sự thay đổi về cấu trúc bên trong của nó
Một tập hợp các quy tắc được xác định cho lời giải của bài toán học đượcgọi là thuật toán học Không có một thuật toán học duy nhất cho việc thiết kếcác mạng nơron, mà chúng ta có một “bộ công cụ” bao gồm nhiều thuật toánhọc rất đa dạng, mỗi thuật toán đều có những ưu điểm riêng Nói chung, các
z -1
z -1
z -1
Đầu vào
Các toán tử
đơn vị trễ
Đầu ra
Trang 13thuật toán học khác nhau chủ yếu trong cách thức điều chỉnh trọng số synapsecủa một nơron.
1.2.2.2 Tiến trình học
Tiến trình học là tiến trình quan trọng của con người, nhờ học mà bộ nãongày càng tích lũy những kinh nghiệm để thích nghi với môi trường và xử lýtình huống tốt hơn Mạng nơron xây dựng lại cấu trúc của bộ não thì cần phải
có khả năng nhận biết dữ liệu thông qua tiến trình học, với các thông số tự docủa mạng có thể thay đổi liên tục bởi những thay đổi của môi trường và mạngnơron ghi nhớ giá trị đó
Trong quá trình học, giá trị đầu vào được đưa vào mạng theo dòng chảytrong mạng tạo thành giá trị ở đầu ra
Tiếp đến là quá trình so sánh giá trị tạo ra bởi mạng nơron với giá trị ramong muốn Nếu hai giá trị này giống nhau thì không thay đổi gì cả Tuynhiên, nếu có một sai lệch giữa hai giá trị này vượt quá giá trị sai số mongmuốn thì đi ngược mạng từ đầu ra về đầu vào để thay đổi một số kết nối
Hình 1.9: Tiến trình học
Đây là một quá trình lặp liên tục và có thể không dừng khi không tìm cácgiá trị w sao cho đầu ra tạo bởi mạng nơron bằng đúng đầu ra mong muốn
Do đó trong thực tế người ta phải thiết lập tiêu chuẩn dựa trên một giá trị sai
số nào đó của hai giá trị này, hay dựa trên một số lần lặp xác định
Trang 14Vậy học là quá trình xác định cấu trúc hoặc tham số của mạng nơron,như vậy ta có:
- Học tham số: Các thủ tục học này nhằm tìm kiếm ma trận trọng số
sao cho mạng có khả khăng đưa ra dự báo sát với thực tế Dạng chung củaluật học tham số có thể được mô tả như sau:
M j N i rx
xj là tín hiệu vào của nơ-ron thứ j
EMBED Equation.3 η là tốc độ học , nằm trong khoảng (0,1).
+ Học có tín hiệu chỉ đạo: là quá trình mạng học dựa vào sai số giữa
đầu ra thực và đầu ra mong muốn để làm cơ sở cho việc hiệu chỉnh trọng số.Sai số này chính là trọng số r Luật học điển hình của nhóm này chính là luậthọc Delta của Widrow (1962) nêu ra đầu tiên dùng để xấp xỉ trọng củaAdaline dựa trên nguyên tắc giảm gradient
Trang 15Trong nhóm luật học này cũng cần phải kể đến luật học Perceptron củaRosenblatt (1958) Về cơ bản luật học này thay đổi các giá trị trọng trong thờigian học còn luật Perceptron thì thêm hoặc bỏ trọng tùy theo giá trị số làdương hay âm.
Một loạt các luật học khác cũng được dựa trên tư tưởng này Luật oja
là cải tiến và nâng cấp của luật Delta Luật truyền ngược là mỏ rộng của luậtDelta cho mạng nhiều lớp Đối với mạng truyền thẳng thường sử dụng luậttruyền ngược để chỉnh trọng với tín hiệu chỉ đạo từ bên ngoài và người ta gọimạng này là mạng truyền ngược
+ Học không có tín hiệu chỉ đạo: Luật học này sử dụng đầu ra của
mạng làm cơ sở để hiệu chỉnh các trọng số liên kết Hay trong luật này chính
là tín hiệu ra của mạng Điển hình là mạng Hebb (1949) thường dùng cho cácmạng tự liên kết, Luật LVQ (Learning Vector Quantization) dùng cho mạng
tự tổ chức một lớp thuộc lớp mạng ánh xạ đặc trưng của Kohonen
Luật học Hebb là luật sinh học xuất phát từ tiêu đề Hebb cho rằng:Giữa hai nơ-ron có quan hệ và có thay đổi thế năng màng thì giữa chúng có
sự thay đổi trọng số liên kết Nói cách khác, trọng số được điều chỉnh theomỗi tương quan trước và sau nghĩa là:
EMBED Equation.3 ∆W ij = ηy i x j,i= 1 ,N , j= 1 ,M , (1.6)trong đó
EMBED Equation.3 ∆W ij: Là sự thay đổi trọng số liên kết từ
nơ-ron j đến nơ-ron i
EMBED Equation.3 x: là tín hiệu vào nơ-ron j
EMBED Equation.3 y i là tín hiệu ra của nơ-ron i
EMBED Equation.3 η là tốc độ học nằm trong khoảng (0,1).
Luật Hebb giải thích việc chỉnh trọng trong phạm vi cục bộ của mạng
mà không cần tín hiệu chỉ đạo từ bên ngoài Hopfield cũng cải tiễn luật Hebb
Trang 16cho các mạng tự liên kết thành 16 dạng khác nhau theo kiểu luật Hebb, luậtHopfield
Như vậy, ứng với mỗi nhóm mạng thường áp dụng một luật học nhấtđịnh Nếu tồn tại hàng chục loại khác nhau thì các luật học dùng trong mạngnơ-ron có thể tăng lên rất nhiều lần
Đối với mạng phản hồi thường sử dụng luật Hebb vào các luật cải tiếncủa nó để chỉnh trọng mà không cần tín hiệu chỉ đạo từ bên ngoài
+ Học tăng cường: Trong một số trường hợp, thông tin phản hồi chỉ là
tín hiệu bao gồm hai trạng thái cho biết tín hiệu đầu ra của mạng là đúng haysai Quá trình học dựa trên thông tin hướng dẫn như vậy được gọi là học cócủng cố (học tăng cường) và tín hiệu mang thông tin phản hồi được gọi là tínhiệu củng cố cho quá trình học Ta có thể thấy rằng quá trình học này là mộtdạng của quá trình học có tín hiệu chỉ đạo bởi vì mạng nhận được một sốthông tin phản hồi từ bên ngoài
- Học cấu trúc: tìm kiếm các tham số của cấu trúc mạng để tìm ra một
cấu trúc mạng hoạt động tốt nhất Trong thực tế, việc học cấu trúc là tìm ra sốlớp ẩn và tìm ra số nơ-ron trên mỗi lớp đó Giải thuật di truyền thường được
sử dụng trong cấu trúc nhưng thường chạy rất lâu, thậm chí ngay cả đói vớimạng có kích thước trung bình Ngoài ra kỹ thuật gọt tỉa mạng hay mạng tăngdần cũng được áp dụng trong việc học cấu trúc của mạng có kích thước tươngđối nhỏ
1.2.3 Đặc trưng của mô hình mạng nơron
Những mô hình mạng nơron có tiềm năng tạo nên một cuộc cách mạngtrong công nghệ máy tính và các quá trình xử lý thông tin Những mong muốn
và hy vọng đó chủ yếu bắt nguồn từ các đặc trưng sau:
- Khả năng của các quá trình xử lý song song và phân tán: Có thể đưa
vào mạng một lượng lớn các nơron liên kết với nhau theo những lược đồ vớinhững kiến trúc khác nhau
Trang 17- Khả năng thích nghi và tự tổ chức : Về đặc trưng này người ta đề cập
đến khả năng xử lý thích nghi và điều chỉnh bền vững dựa vào các thuật toánhọc thích nghhi và các quy tắc tự tổ chức
- Khả năng dung thứ lỗi: Cố gắng bắt chước khả năng dung thứ lỗi của
não theo nghĩa hệ thông có thể tiếp tục làm việc và điều chỉnh khi nhận tínhiệu vào một phần thông tin bị sai lệch hoặc bị thiếu
- Xử lý các quá trình phi tuyến : Đặc trưng này rất quan trọng, ví dụ
trong xấp xỉ mạng , miễn nhiễu (chấp nhận nhiễu) và có khả năng phân lớp
1.3 Kết luận
Như vậy trong chương I này chúng ta đã trình bày một số kiến thức cơbản về lý thuyết về mạng nơron nhân tạo – lĩnh vực này đã và đang đượcnghiên cứu và ứng dụng rộng rãi trong thực tế
Ngày nay, chính mạng nơron đã tạo nên một cuộc cách mạng về côngnghệ máy tính và xử lý thông tin nhờ vào khả năng tính toán song song vàphân tán, khả năng thích nghi và tự tổ chức, khả năng dung thứ lỗi…, khôngđòi hỏi các dặc trưng mở rộng của bài toán
Mặc dù có nhiều ưu điểm và được áp dụng nhiều trong thực tế songmạng nơron cũng có những hạn chế nhất định Chính vì vậy mà một cách tiếpcận mới hứa hẹn đem lại nhiều kết quả đó là việc tích hợp giữa hệ mờ vàmạng nơron này với nhau (trình bày ở chương II) Bởi cách tích hợp này sẽkhắc phục được những nhược điểm vốn có của hệ mờ cũng như mạng nơronđồng thời nó cũng phát huy được hết những ưu điểm của chúng Cụ thể nhữngnhược điểm của mạng nơron đó là:
- Không có các quy tắc và các hướng dẫn thiết kế một cách rõ ràng đốivới một ứng dụng nhất định
- Không có cách tổng quát để đánh giá hoạt động bên trong của mạng
- Việc tập hấn đối với mạng có thể khó thực hiện
Trang 18- Khó có thể dự đoán trước được hiệu quả của mạng trong tương lai.
Chương 2
MÔ HÌNH MẠNG RBF VÀ THUẬT TOÁN LAI
CHO MẠNG BRF
2.1 Hàm cơ sở xuyên tâm
Trong không gian Euclidean Rn, RBF là một hàm có dạng:
x và xj, c1, c2, …, cN là các hằng số, và Ф là hàm một biến Trong thực tế:
[ 0 , ∞ ) → R
:
φ
Ф được gọi là hàm tiêu chuẩn (cơ sở)
Ví dụ: Ta có φ ( t ) = exp( − t2), từ đó ta có ∑cj exp( x − xj 2) và được gọi
là hàm RBF Gaussian
2.2 Mô hình mạng RBF
Mạng sử dụng hàm cơ sở xuyên tâm (Radial Basic Function Networrk RBFN) hay còn gọi là mạng sử dụng hàm điều hòa, có thể được sử dụng đểthay thế cho các mạng truyền thẳng đa lớp (Multilayered Feedforward Neural
Trang 19-Networks - MFNNs) đã được nghiên cứu rất nhiều Một hàm cơ sở xuyên tâm(Radial Basic Function - RBF) là một ánh xạ hàm phi tuyến đa chiều, nó phụthuộc vào khoảng cách giữa véc tơ vào và véc tơ tâm Một mạng RBF vớimột véc tơ đầu vào n chiều x∈ Rn và một đầu ra y ∈R có thể biểu diễn bởitổng có trọng số của một số hữu hạn các hàm cơ sở xuyên tâm như sau:
Hình 2.1: Sơ đồ biểu diễn mạng RBF với véc tơ đầu vào x є R n và
f
y
) ( (2.2) Trong đó Φi( x−c i )là hàm cơ sở xuyên tâm của x, thu được bởi dịch
chuyển Φi ( x ) một khoảng c
i Để đơn giản, có thể chọn hàm cơ sở xuyêntâm cùng kiểu Φ cho tất cả các tổng trọng số ở trên, khi đó phương trình(2.2) có thể được viết lại:
w2w
Trang 20=
− Φ
x f y
1
) (
)
Trong phương trình này Φ(.) là một hàm phi tuyến tùy ý, biểu thị
cho một chuẩn thường là chuẩn Euclidean, các véc tơ ci∈ Rn biết trước đượcgọi là các tâm của các hàm cơ sở xuyên tâm, và ωi là tham số trọng số Thuậtngữ hàm cơ sở xuyên tâm được gọi như vậy vì các hàm này đối xứng quatâm, có nghĩa là mỗi nút sinh ra đầu ra giống hệt nhau với các đầu vào nằm ởcác vị trí có khoảng cách bán kính cố định bằng nhau tính từ tâm Nói cách
khác, một hàm cơ sở xuyên tâm Φ( x−c i ) có cùng giá trị cho tất cả các nơ
rron đầu vào x nằm trên một siêu cầu với tâm ci
Nếu như các thành phần đơn lẻ của các véc tơ vào x thuộc về nhữnglớp khác nhau, thì việc sử dụng một chuẩn trọng số (weighted norm) (Poggio
và Girosi 1900) ở trong hàm cơ sở xuyên tâm sẽ phù hợp hơn, khi đó RBFN
có thể được biểu diễn:
) (
2
i i
T i
T i K
Trong trường hợp đơn giản thì Ki là một ma trận chéo, Ki = diag[ki1, ki2,
…, kin] và các thành phần chéo kij được gán cho những trọng số cụ thể tươngứng với mỗi tọa độ vào, và chuẩn Eucliean mẫu thu được khi mà Ki được đưa
về ma trận đơn vị Tuy nhiên thuộc tính đối xứng xuyên tâm không còn khi
sử dụng các dạng chuẩn có trọng số (weighed norms) RBF cho ra cùng giá trịvới tất các véc tơ đầu vào x nằm trên một siêu ellipsoid với tâm ci và trụcđược xác định bởi ma trận trọng số Ki Việc đưa vào khái niệm chuẩn trọng sốđóng vai trò hết sức quan trọng bất kì khi nào sử dụng các đầu vào có các kiểukhác nhau
Trang 21Với trường hợp nhiều đàu ra, RBFN được cho bởi (2.2) cú thể được mởrộng như sau:
n
n
W
ω ω
ω
ω ω
ω
ω ω
21 22
21
1 22
c x
c x
φ
φ
φ φ
2 1
* So sánh mạng RBF và perceptrons nhiều tầng
Mạng (RBF) và perceptron nhiều tầng là ví dụ về phi tuyến tính sắpthành từng lớp những mạng truyền thẳng Cả hai đều gần nh nhau Tuy nhiênhai mạng khác nhau ở vài điểm quan trọng nh là vài nét ở dới đây:
1 Một mạng RBF ( trong nó có hình thức cơ bản nhất ) có một tầng ẩnkhi đó một MLP có một hoặc nhiều tầng ẩn
2 Điển hình, sự tính toán những nút của một MLP, chúng xác định mộttầng ẩn hoặc tầng ra chia sẻ một nơron mẫu chung Mặt khác, sự tính toánnhững nút trong tầng ẩn của một mạng RBF là khác nhau và phục vụ cho mục
đích từ tầng ra của mạng
3 Tầng ẩn của một mạng RBF là phi tuyến tính, ở đó tầng ra là tuyếntính Theo cách khác, tầng ẩn và ra của một MLP đợc sử dụng nh là phân loạithông thờng tất cả là phi tuyến Tuy nhiên khi MLP đợc dùng để giải thích vấn
đề về hồi quy phi tuyến tính, một tầng tuyến tính cho đầu ra thờng là đợc lựachọn
4 Đối số của hàm kích hoạt của mỗi đơn vị ẩn của một mạng RBF tínhtoán theo tiên đề Euclide giữa vectơ vào và tâm của đơn vị đó Mặt khác,
hàm kích hoạt của mỗi đơn vị ẩn trong mạng MLP tính toán tích vô hớng củavectơ vào và vectơ trọng số Synaptic của đơn vị đó.
5 Những MLP đợc xây dựng toàn bộ xấp xỉ ánh xạ vào ra phi tuyếntính Vậy thì, chúng có khả năng khái quát trong vùng của không gian vào nơi
Trang 22ít hoặc không dữ liệu huấn luyện là sẵn có Mặt khác, mạng RBF dùng lũythừa địa phơng hoá phi tuyến (hàm Gausss) xây dựng toàn bộ xấp xỉ ánh xạvào ra phi tuyến tính với kết quả là những mạng có khả năng tự học nhanh vàgiảm bớt tính nhạy cảm tới sự biểu diễn của việc huấn luyện dữ liệu Trongnhững trờng hợp, tuy nhiên, chúng ta tim cái đó để đại diện một ánh xạ đạt tới
độ mong muốn nào đó của sự nhịp nhàng Số lợng của RBF yêu cầu mở rộngkhông gian đầu vào đầy đủ có thể phải rất lớn
Đặc điểm tuyến tính của tầng ra của mạng RBF nghĩa là một mạng là
có mối quan hệ gần gũi với perceptron(bộ nhận thức ) của Rosenblatt hơnperceptron nhiều tầng Tuy nhiên mạng RBF khác với pereptron là nó có khảnăng tự thực hiện sự biến đổi phi tuyến tính của không gian đầu vào Đây làminh hoạ tốt nhất của vấn đề XOR, chúng không thể đợc giải thích bằngperceptron tuyến tính nhng có thể giải thích bởi một mạng RBF
* Khi sử dụng hàm cơ sở trong mạng nơron, cần tạo ra cỏc sự thay đổi sau:
- Số cỏc hàm cơ sở khụng cần thiết phải bằng với số vộc tơ huấn luyện,thường là ớt hơn nhiều
- Cỏc hàm cơ sở khụng cần phải được đặt xung quanh cỏc vectơ huấnluyện
- Cỏc hàm cơ sở cú thể cú cỏc tham số hiệu chỉnh được trong quỏ trỡnhhuấn luyện
- Cú thể cú cỏc tham số bias
Quan hệ giữa mạng cơ sở xuyờn tõm và cỏc phương phỏp thống kờkhỏc cho thấy rằng cỏc hàm cơ sở nờn biểu diễn phõn phối xỏc suất của cỏcvec tơ vào Sau đú sử dụng một phương phỏp học khụng giỏm sỏt để tỡm cỏctham số của cỏc hàm cơ sở
Cú nhiều lớp hàm cơ sở xuyờn tõm khỏc nhau được sử dụng cho nhữngbài toỏn khỏc nhau Một số loại hàm cơ sở xuyờn tõm thường gặp:
RBF Gaussian: Ф(r) = e-(r/e)2 (2.6)
RBF đa toàn phương (multiquadratic RBF):
β
φ(r) = (c2 +r2) 0 < β <0 (2.7)