Nghiên cứu về mạng nơron và ứng dụng trong bài toán phân lớp dữ liệu

Các trọng số là những hệ số thích nghi bên trong một mạng, chúng xác địnhcường độ sức mạnh hay là sức ảnh hưởng của tín hiệu vào lên nơron nhân tạo... Nhưng giá trịtruyền ngược này có

Trang 1

MỤC LỤC

MỤC LỤC 1

MỞ ĐẦU 3

Chương 1: 5

TỔNG QUAN VỀ MẠNG NƠRON NHÂN TẠO 5

1.1 Giới thiệu mạng Nơron 5

1.1.1 Lịch sử phát triển của mạng nơron 5

1.1.2 Nơron sinh học 6

1.1.3 Nơron nhân tạo 7

1.1.4 Các thành phần của một nơron nhân tạo 8

1.2 Đơn vị xử lý 11

1.3 Hàm xử lý 12

1.3.1 Hàm kết hợp 12

1.3.2 Hàm kích hoạt (hàm chuyển) 13

1.4 Các kiến trúc mạng 15

1.4.1 Mạng một tầng 15

1.4.2 Mạng đa tầng 17

1.5 Các hình trạng của mạng 20

1.5.1 Mạng truyền thẳng 20

1.5.2 Mạng hồi quy 22

1.6 Tiếp cận Nơron cho tính toán 23

1.6.1 Luật học 23

1.6.2 Tốc độ học 26

1.6.3 Các luật học 27

1.7 Phạm vi ứng dụng của mạng nơron 29

1.7.1 Những bài toán thích hợp 29

1.7.2 Phân loại 29

1.7.3 Mô hình hoá 30

1.7.4 Liên kết 31

1.8 Các lĩnh vực ứng dụng của mạng nơron 31

1.9 Ưu nhược điểm của mạng nơron 32

1.10 Nhận xét 33

Trang 2

Chương 2: 34

MẠNG TRUYỀN THẲNG NHIỀU LỚP 34

2.1 Khái niệm 34

2.2 Khả năng thể hiện 36

2.3 Vấn đề thiết kế cấu trúc mạng 36

2.3.1 Số lớp ẩn 37

2.3.2 Số đơn vị trong lớp ẩn 37

2.4 Thuật toán lan truyền ngược (Back-Propagation) 38

2.4.1 Mô tả thuật toán 39

2.4.2 Sự hội tụ 43

2.4.3 Sự tổng quát hóa 44

Chương 3: 47

PHÂN LỚP DỮ LIỆU BẰNG MẠNG NƠRON 47

3.1 Giới Thiệu 47

3.2 Chuẩn bị dữ liệu 49

3.3 Phân lớp dữ liệu bằng Spice-MLP 52

3.4 Đào tạo mạng 54

3.4.1 Chia dữ liệu 54

3.4.2 Chọn dữ liệu học và các tham số 54

3.4.3 Đào tạo mạng (training) 55

3.4.4 Kiểm tra đồ thị lỗi 57

3.4.5 Kiểm tra đồ thị trọng số và đầu vào trung bình của một nơron 59

3.4.6 Xem đồ thị dữ liệu và đồ thị đầu ra của mạng 60

3.5 Kết luận 63

3.6 Một số nhận xét 63

KẾT LUẬN 65

TÀI LIỆU THAM KHẢO 66

Trang 3

MỞ ĐẦU

Chúng ta đều biết rằng, bộ não con người là một sản phẩm hoàn hảo của tạohóa, nó có khả năng tư duy và sáng tạo Hiện nay, con người đang nghiên cứuphương thức hoạt động của bộ não, sau đó áp dụng cho những công nghệ hiện đại

Để tiếp cận khả năng học, người ta đưa ra mô hình mạng nơron gồm các nơron liênkết với nhau thành mạng phỏng theo cấu trúc mạng thần kinh của con người

Mỗi nơron riêng lẻ có khả năng xử lý thông tin yếu, nhưng khi chúng đượcghép với nhau thành mạng, thì khả năng xử lý thông tin sẽ mạnh hơn rất nhiều Mỗicấu trúc mạng đều có một ưu điểm đặc thù, chúng cho ta một công cụ mạnh trongcác lĩnh vực kỹ thuật điều khiển và kỹ thuật thông tin

Một mạng nơron nhân tạo là tập hợp một số lớn các phần tử xử lý (các núthay các khối), thường được tổ chức song song và được cấu hình theo kiến trúc đệquy Cách ứng sử trên mạng nơron nhân tạo giống như bộ não con người, nó chứng

tỏ khả năng học, nhớ lại, và tổng quát quát hóa từ dữ liệu huấn luyện

Mạng nơron nhân tạo là công cụ tốt trong việc giải quyết các bài toán như:hợp và phân lớp đối tượng, xấp xỉ hàm, tối ưu hóa, định lượng vector, phân cụm dữliệu, Nó thay thế hiệu quả các công cụ tính toán truyền thống để giải quyết các bàitoán này

Phân lớp dữ liệu là một lĩnh vực đóng vai trò quan trọng trong khoa học kỹthuật Trong hầu hết các vấn đề kỹ thuật ngày nay, ta đều phải xác định, phân lớpđược các mô hình và đối tượng liên quan, để từ đó tìm ra giải pháp Phân lớp môhình là bài toán rất quan trong trong lý thuyết hệ thống Trong quá trình Xây dựng

mô hình hệ thống trên phương diện lý thuyết, người ta thường không khảo sát đượcmọi ảnh hưởng của môi trường đến tính động học của hệ thống, cũng như những tácđộng qua lại bên trong hệ thống một cách chính xác tuyệt đối Rất nhiều yếu tố đã bị

bỏ qua, hoặc chỉ được xem xét đến như là một tác động ngẫu nhiên Bởi vậy, nếunói một cách chặt chẽ thì những hiểu biết lý thuyết ban đầu về hệ thống, mới chỉ cóthể giúp ta khoanh được lớp các mô hình thích hợp Để có thể có được một mô hình

Trang 4

cụ thể có chất lượng phù hợp với bài cụ thể toán đặt ra trong lớp các mô hình thíchhợp đó, thì phải sử dụng phương pháp phân lớp

Để giải quyết các bài toán phân lớp, người ta đã đưa vào các cách tiếp cậnkhác nhau, mỗi phương pháp tiếp cận trong những bài toán cụ thể đều có những ưu,nhược điểm riêng Phương pháp ứng dụng mạng nơron trong phân lớp dữ liệu làmột cách tiếp cận mới và hiện đại Nó có thể là công cụ rất mạnh để giải quyết cácbài toán trong lĩnh vực này

Từ việc xác định những nội dung như trên nên em chọn đồ án “Nghiên cứu

về mạng nơron và ứng dụng trong bài toán phân lớp dữ liệu ” Đồ án bao gồm

những nội dung chính sau:

 Chương 1 : Tồng quan về mạng nơron nhân tạo

 Chương 2 : Mạng truyền thẳng nhiều lớp

 Chương 3 : Phân lớp dữ liệu bằng mạng nơron

 Kết luận

Mặc dù đã hết sức nỗ lực, song do kinh nghiệm và khả năng nghiên cứukhoa học còn hạn chế nên không thể tránh khỏi những thiếu sót Em rất mong nhậnđược sự góp ý của các thầy cô và bạn bè để hiểu biết của mình ngày một hoànthiện hơn

Em xin cám ơn các thầy cô trong Trường Đại Học Công Nghệ Thông Tin và Truyền Thông đã truyền đạt những kiến thức quý báu cho chúng em trong suốt

quá trình học tập Đặc biệt, em xin bày tỏ lòng cảm ơn chân thành và sâu sắc đến cô

giáo ThS Nguyễn Thị Tuyển, người đã tận tình hướng dẫn và giúp đỡ em trong

quá trình làm đồ án tốt nghiệp Xin cảm ơn tất cả bạn bè đã và đang động viên, giúp

đỡ tôi trong quá trình học tập và hoàn thành tốt đồ án này

Thái Nguyên, tháng 6 năm 2011

Trang 5

Chương 1:

TỔNG QUAN VỀ MẠNG NƠRON NHÂN TẠO

1.1 Giới thiệu mạng Nơron.

1.1.1 Lịch sử phát triển của mạng nơron.

Mạng nơron nhân tạo được xây dựng từ những năm 1940 nhằm môphỏng một số chức năng của bộ não người Dựa trên quan điểm cho rằng bộ nãongười là bộ điều khiển Mạng nơron nhân tạo được thiết kế tương tự như nơronsinh học sẽ có khả năng giải quyết hàng loạt các bài toán như tính toán tối ưu, điềukhiển, công nghệ robot…

Quá trình nghiên cứu và phát triển nơron nhân tạo có thể chia thành 4 giaiđoạn như sau:

 Giai đoạn 1: Có thể tính từ nghiên cứu của William (1890) về tâm lý họcvới sự liên kết các nơron thần kinh Năm 1940 Mc Culloch và Pitts đã cho biếtnơron có thể mô hình hoá như thiết bị ngưỡng (Giới hạn) để thực hiện các phép tínhlogic và mô hình mạng nơron của Mc Culloch – Pitts cùng với giải thuật huấnluyện mạng của Hebb ra đời năm 1943

 Giai đoạn 2: Vào khoảng gần những năm 1960, một số mô hình nơron hoànthiện hơn đã được đưa ra như: Mô hình Perceptron của Rosenblatt (1958),Adalile của Widrow (1962) Trong đó mô hình Perceptron rất được quan tâm vìnguyên lý đơn giản, nhưng nó cũng có hạn chế vì như Marvin Minsky vàSeymour papert của MIT ( Massachurehs Insritute of Technology) đã chứng minh

nó không dùng được cho các hàm logic phức (1969) Còn Adaline là mô hìnhtuyến tính, tự chỉnh, được dùng rộng rãi trong điều khiển thích nghi, tách nhiễu vàphát triển cho đến nay

 Giai đoạn 3: Vào khoảng đầu thập niên 80 Những đóng góp lớn cho mạngnơron trong giai đoạn này phải kể đến Grossberg, Kohonen, Rumelhart vàHopfield Trong đó đóng góp lớn của Hopfield gồm hai mạng phản hồi: Mạng rời

Trang 6

rạc năm 1982 và mạng liên tục năm 1984 Đặc biệt, ông đã dự kiến nhiều khảnăng tính toán lớn của mạng mà một nơron không có khả năng đó Cảm nhận củaHopfield đã được Rumelhart, Hinton và Williams đề xuất thuật toán sai số truyềnngược nổi tiếng để huấn luyện mạng nơron nhiều lớp nhằm giải bài toán màmạng khác không thực hiện được Nhiều ứng dụng mạnh mẽ của mạngnơron ra đời cùng với các mạng theo kiểu máy Boltzmann và mạngNeocognition của Fukushima.

 Giai đoạn 4: Tính từ năm 1987 đến nay, hàng năm thế giới đều mở hộinghị toàn cầu chuyên ngành nơron IJCNN (International Joit Conference onNeural Networks) Rất nhiều công trình được nghiên cứu để ứng dụng mạngnơron vào các lĩnh vực như: Kỹ thuật tính, điều khiển, bài toán tối ưu, y học, sinhhọc, thống kê, giao thông, hoá học, Cho đến nay mạng nơron đã tìm và khẳngđịnh được vị trí của mình trong rất nhiều ứng dụng khác nhau

1.1.2 Nơron sinh học.

Hệ thần kinh gồm hai lớp tế bào: Nơron (tế bào thần kinh) và glia (tế bàoglia) Nơron là thành phần cơ bản của hệ thần kinh, chúng có chức năng xử lýthông tin Glia thực hiện chức năng hỗ trợ Vì vậy trước khi nghiên cứu về nơronnhân tạo chúng ta sẽ trình bày khái quát về cấu tạo và hoạt động của nơron sinhhọc

Nơron sinh học có nhiều loại, chúng khác nhau về kích thước và khảnăng thu phát tín hiệu Tuy nhiên chúng có cấu trúc và nguyên lý hoạt độngchung như sau:

Mỗi nơron sinh học gồm có 3 thành phần: Thân nơron với nhân ở bên trong(soma), một đầu dây thần kinh ra (axon) và một hệ thống phân nhánh hình cây(Dendrite) để nhận các thông tin vào Trong thực tế có rất nhiều dây thần kinh vào

và chúng bao phủ một diện tích rất lớn (0,25mm2) Đầu dây thần kinh ra

Trang 7

của đầu dây thần kinh được nối với các khớp thần kinh (synapse) Các khớpthần kinh này được nối với thần kinh vào của các nơron khác Các nơron có thểsửa đổi tín hiệu tại các khớp

Hình ảnh đơn giản của một nơron thể hiện trong hình 1.1.

Hình 1.1 Mô hình nơron sinh học.

Hoạt động của nơron sinh học có thể được mô tả như sau:

Mỗi nơron nhận tín hiệu vào từ các tế bào thần kinh khác Chúng tích hợpcác tín hiệu vào, khi tổng tín hiệu vượt quá một ngưỡng nào đó chúng tạo tín hiệu

ra và gửi tín hiệu này tới các nơron khác thông qua dây thần kinh

Các nơron liên kết với nhau thành mạng Mức độ bền vững của các liênkết này xác định một hệ số gọi là trọng số liên kết

1.1.3 Nơron nhân tạo.

Mô phỏng nơron sinh học, ta có nơron nhân tạo Mỗi nơron có rất nhiều dâythần kinh vào, nghĩa là mỗi nơron có thể tiếp nhận đồng thời nhiều dữ liệu

Mạng nơron nhân tạo (Artificial Neural Network) là một cấu trúc mạngđược hình thành nên bởi một số lượng lớn các nơron nhân tạo liên kết vớinhau Mỗi nơron có các đặc tính đầu vào, đầu ra và thực hiện một chức năng tínhtoán cục bộ

Trang 8

Với việc giả lập các hệ thống sinh học, các cấu trúc tính toán mạngnơron có thể giải quyết được lớp các bài toán nhất định như: bài toán lập lịch, bàitoán tìm kiếm, bài toán nhận dạng mẫu, bài toán xếp loại, Mạng nơron còn giảiquyết được lớp các bài toán sử dụng dữ liệu không đầy đủ, xung đột mờ hoặc xácsuất Những bài toán này được đặc trưng bởi một số hoặc tất cả các tính chất sau:

Sử dụng không gian nhiều chiều, các tương tác phức tạp, chưa biết hoặckhông thể theo dõi về mặt toán học giữa các biến; không gian nghiệm có thểrỗng, có nghiệm duy nhất hoặc có một số nghiệm bình đẳng như nhau Ngoài ra,mạng nơron nhân tạo còn thích hợp để tìm nghiệm của những bài toán đòi hỏiđầu vào là những cảm nhận bởi con người như: Tiếng nói, nhìn và nhận dạng, Tuy nhiên việc ánh xạ từ một bài toán bất kỳ sang một giải pháp mạng nơron lại

là một việc không đơn giản

1.1.4 Các thành phần của một nơron nhân tạo.

Phần này mô tả một số thành phần cơ bản của một nơron nhân tạo Nhữngthành phần này là giống nhau cho dù nơron đó dùng trong tầng vào, tầng ra hay là ởtrong tầng ẩn

Thành phần 1 Các nhân tố trọng số: Một nơron thường nhận nhiều đầu

vào cùng lúc Mỗi đầu vào có trọng số liên quan của riêng nó, trọng số này giúp chođầu vào có ảnh hưởng cần thiết lên hàm tổng của đơn vị xử lý (thành phần xử lý).Những trọng số này có chức năng giống như sức mạnh của các synapes khác nhautrong nơron sinh học Trong cả hai trường hợp (nhân tạo và sinh học), một số đầuvào quan trọng hơn những đầu vào khác do vậy chúng có ảnh hưởng lớn hơn tớithành phần xử lý để rồi chúng kết hợp lại để tạo ra sự phản ứng của nơron (neuralresponse)

Các trọng số là những hệ số thích nghi bên trong một mạng, chúng xác địnhcường độ (sức mạnh hay là sức ảnh hưởng ) của tín hiệu vào lên nơron nhân tạo

Trang 9

Những sức mạnh này có thể được điều chỉnh theo những tập đào tạo đa dạng khácnhau và theo một kiến trúc mạng cụ thể hay là qua các luật học của nó

Thành phần 2 Hàm tổng: Bước đầu tiên trong hoạt động của một thành

phần xử lý là tính toán tổng có trọng số của tất cả các đầu vào Về mặt toán học,những đầu vào và các trọng số tương ứng là những véc tơ có thể được biểu diễn :

I = (ii,i2, , in) và W = (w1, w2, …, wn) Tín hiệu vào tổng là tích vô hướng của mỗithành phần trong véc tơ I với thành phần tương ứng trong véc tơ W và cộng lại tất

cả các tích Input1 = i1.w1, input2 = i2.w2… Kết quả cuối cùng được cộng lại:

input1 + input2 + … + inputn Kết quả là một số duy nhất, không phải là một véc tơ

Hàm tổng có thể phức tạp hơn nhiều so với mô tả ở trên Đầu vào và các hệ

số trọng số có thể được kết hợp theo nhiều cách khác nhau trước khi được đưa vàohàm chuyển đổi Bên cạnh việc tính tổng các tích đơn giản, hàm tổng có thể chọnmax, min, tích … nhờ một số thuật toán chuẩn tắc Thuật toán cụ thể để kết hợp cácđầu vào của nơron được xác định bởi vệc chọn kiến trúc mạng và mô hình mạng

Thành phần 3 Hàm chuyển đổi: Kết quả của hàm tổng, hầu như luôn là

tổng có trọng số, được chuyển đổi thành một đầu ra có ý nghĩa nhờ một quá trình xử

lý có thuật toán gọi là hàm chuyển đổi Trong hàm chuyển đổi tổng có thể được sosánh với một ngưỡng nào đó để quyết định đầu ra của mạng Nếu như tổng lớn hơngiá trị ngưỡng thì thành phần xử lý đưa ra đầu ra một tín hiệu Nếu như tổng củađầu vào và các tích có trọng số nhỏ hơn ngưỡng thì không có tín hiệu ở đầu ra Cảhai kiểu phản ứng đều quan trọng

Giá trị ngưỡng, còn gọi hàm chuyển đổi, thường là phi tuyến Các hàm tuyếntính bị giới hạn vì đầu ra chỉ đơn giản là tỷ lệ của đầu vào

Hàm chuyển đổi có thể chỉ đơn giản là cho biết hàm tổng là dương hay âm Mạng

có thể cho ra đầu ra 0 và 1, 1 và -1, hay con số kết hợp nào đó

Thành phần 4 Hàm ra: Mỗi thành phần xử lý cho phép một tín hiệu đầu ra

mà đầu ra này có thể đi tới hàng trăm nơ ron khác Điều này giống với nơron sinhhọc trong đó có rất nhiều đầu vào và chỉ có một hành động ra Thường thì đầu ra

Trang 10

tương đương với kết quả của hàm chuyển đổi Tuy nhiên, một số kiến trúc mạngchỉnh sửa kết quả của hàm chuyển đổi để kết hợp với những thành phần xử lý lâncận Các nơron cho phép cạnh tranh với những nơron khác, khi này chúng hạn chếcác thành phần xử lý khác trừ các thành phần xử lý có sức mạnh rất lớn Sự cạnhtranh có thể xẩy ra ở một hay là cả hai mức Đầu tiên sự cạnh tranh quyết định xemnơron nhân tạo nào sẽ là tích cực, hay là cung cấp một đầu ra Tiếp theo các đầu racạnh tranh giúp xác định thành phần xử lý nào sẽ tham gia và quá trình học hay làquá trình thích nghi.

Thành phần 5 Giá trị truyền ngược và hàm lỗi: Trong hầu hết các mạng

học sự khác biệt giữa đầu ra hiện tại và đầu ra mong muốn được tính toán, sự khácbiệt có thể được gọi là lỗi thô Sau khi được tính toán, lỗi thô đó được chuyển đổibởi hàm lỗi để làm cho phù hợp với một kiến trúc mạng cụ thể nào đó Các kiến trúcmạng cơ sở nhất sử dụng lỗi này một cách trực tiếp nhưng một số khác bình phươnglỗi đó trong khi vẫn giữ lại dấu của nó, một số tính bậc ba của lỗi, một số khác lạihiệu chỉnh lỗi thô đó để đạt được mục đích cụ thể nào đó Lỗi của nơron nhân tạothường được truyền vào hàm học của một thành phần xử lý khác Số hạng lỗi nàyđôi khi còn được gọi là lỗi hiện thời

Lỗi hiện thời thường được truyền ngược về một tầng trước đó Nhưng giá trịtruyền ngược này có thể là lỗi hiện thời hay là lỗi hiện thời đã được điều chỉnh theomột cách nào đó (thường sử dụng đạo hàm của hàm chuyển đổi), hay là một đầu ramong muốn nào đó, điều này phụ thuộc vào kiểu mạng nơron được sử dụng.Thường thì giá trị truyền ngược này sau khi được điều chỉnh bởi hàm học đượcnhân với mỗi trọng số kết nối vào để thay đổi chúng trước khi bước vào chu kỳ họcmới

Thành phần 6 Hàm học: Mục đích của hàm học là để thay đổi giá trị của

biến trọng số kết nối ở các đầu vào của mỗi thành phần xử lý theo một thuật toánnào đó Quá trình thay đổi các trọng số của các kết nối đầu nào nhằm thu được một

số kết quả mong muốn cũng có thể được gọi là hàm thích nghi, hay còn gọi là chế

Trang 11

độ học Có hai kiểu học chính là học có giám sát và học không có giám sát Học cógiám sát đòi hỏi có một “giáo viên” Người “giáo viên” này có thể là một tập dữ liệuđào tạo hay là một “người quan sát,” “người quan sát” này đánh giá kết quả hoạtđộng của mạng Trong khi không có “giáo viên” bên ngoài nào, hệ thống sẽ phải tựsắp xếp nhờ một tiêu chuẩn bên trọng được thiết kế sẵn trong mạng

1.2 Đơn vị xử lý.

Một đơn vị xử lý (Hình 1.2), cũng được gọi là một nơron hay một nút

(node), thực hiện một công việc rất đơn giản: nó nhận tín hiệu vào từ các đơn vịphía trước hay một nguồn bên ngoài và sử dụng chúng để tính tín hiệu ra sẽ đượclan truyền sang các đơn vị khác

Hình 1.2 Đơn vị xử lý (Processing unit).

Trong đó:

X j: các đầu vào

w ji: các trọng số tương ứng với các đầu vào

θj: độ lệch (bias)

aj : đầu vào mạng (net-input)

z j : đầu ra của nơron

g(x): hàm chuyển (hàm kích hoạt).

Trang 12

Trong một mạng nơron có ba kiểu đơn vị:

1) Các đơn vị đầu vào (Input units), nhận tín hiệu từ bên ngoài

2) Các đơn vị đầu ra (Output units), gửi dữ liệu ra bên ngoài

3) Các đơn vị ẩn (Hidden units), tín hiệu vào (input) và ra (output) của nó nằmtrong mạng

Mỗi đơn vị j có thể có một hoặc nhiều đầu vào: x0, x1 , x2 , … xn, nhưng chỉ cómột đầu ra zj Một đầu vào tới một đơn vị có thể là dữ liệu từ bên ngoài mạng, hoặcđầu ra của một đơn vị khác, hoặc là đầu ra của chính nó

1.3 Hàm xử lý.

1.3.1 Hàm kết hợp.

Mỗi một đơn vị trong một mạng kết hợp các giá trị đưa vào nó thông qua các

liên kết với các đơn vị khác, sinh ra một giá trị gọi là net input Hàm thực hiện

nhiệm vụ này gọi là hàm kết hợp, được định nghĩa bởi một luật lan truyền cụ thể.Trong phần lớn các mạng nơron, giả sử mỗi một đơn vị cung cấp một bộ cộng như

là đầu vào cho đơn vị mà nó có liên kết Tổng đầu vào đơn vị j đơn giản chỉ là

tổng trọng số của các đầu ra riêng lẻ từ các đơn vị kết nối cộng thêm ngưỡng hay

độ lệch (bias) j :

Trường hợp w ji > 0, nơron được coi là đang ở trong trạng thái kích thích

Tương tự, nếu như w ji < 0, nơron ở trạng thái kiềm chế Chúng ta gọi các đơn vịvới luật lan truyền như trên là các sigma units Trong một vài trường hợp người tacũng có thể sử dụng các luật lan truyền phức tạp hơn Một trong số đó là luậtsigma-pi, có dạng như sau:

Trang 13

Rất nhiều hàm kết hợp sử dụng một "độ lệch" hay "ngưỡng" để tính net inputtới đơn vị Đối với một đơn vị đầu ra tuyến tính, thông thường, j được chọn là hằng số và trong bài toán xấp xỉ đa thức j = 1.

1.3.2 Hàm kích hoạt (hàm chuyển).

Phần lớn các đơn vị trong mạng nơron chuyển net input bằng cách sửdụng một hàm vô hướng gọi là hàm kích hoạt, kết quả của hàm này là một giátrị gọi là mức độ kích hoạt của đơn vị Loại trừ khả năng đơn vị đó thuộc lớp ra,giá trị kích hoạt được đưa vào một hay nhiều đơn vị khác Các hàm kích hoạtthường bị ép vào một khoảng giá trị xác định, do đó thường được gọi là các hàmbẹp (squashing) Các hàm kích hoạt hay được sử dụng là:

1) Hàm đồng nhất (Linear function, Identity function )

g(x) = x

Nếu coi các đầu vào là một đơn vị thì chúng sẽ sử dụng hàm này Đôi khi mộthằng số được nhân với net-input để tạo ra một hàm đồng nhất

Hình 1.3.1 Hàm đồng nhất (Identity function).

2) Hàm bước nhị phân (Binary step function, Hard limit function)

Hàm này cũng được biết đến với tên "Hàm ngưỡng" Đầu ra của hàmnày được giới hạn vào một trong hai giá trị:

Trang 14

Dạng hàm này được sử dụng trong các mạng chỉ có một lớp Trong hình

vẽ sau, được chọn bằng 1

Hình 1.3.2 Hàm bước nhị phân (Binary step function).

3) Hàm sigmoid (Sigmoid function (logsig))

Hàm này đặc biệt thuận lợi khi sử dụng cho các mạng được huấn luyện

(trained) bởi thuật toán Lan truyền ngược (back-propagation), bởi vì nó dễ lấy

đạo hàm, do đó có thể giảm đáng kể tính toán trong quá trình huấn luyện Hàmnày được ứng dụng cho các chương trình ứng dụng mà các đầu ra mong muốn rơivào khoảng [0,1]

Hình 1.3.3 Hàm Sigmoid

4) Hàm sigmoid lưỡng cực (Bipolar sigmoid function (tansig))

Hàm này có các thuộc tính tương tự hàm sigmoid Nó làm việc tốt đối với các ứngdụng có đầu ra yêu cầu trong khoảng [-1,1]

Trang 15

Hình 1.3.4 Hàm sigmoid lưỡng cực.

Các hàm chuyển của các đơn vị ẩn (hidden units) là cần thiết để biểu diễn

sự phi tuyến vào trong mạng Lý do là hợp thành của các hàm đồng nhất là mộthàm đồng nhất Mặc dù vậy nhưng nó mang tính chất phi tuyến (nghĩa là, khả năngbiểu diễn các hàm phi tuyến) làm cho các mạng nhiều tầng có khả năng rất tốt trongbiểu diễn các ánh xạ phi tuyến Tuy nhiên, đối với luật học lan truyền ngược, hàmphải khả vi và sẽ có ích nếu như hàm được gắn trong một khoảng nào đó Do vậy,hàm sigmoid là lựa chọn thông dụng nhất

Đối với các đơn vị đầu ra (output units), các hàm chuyển cần được chọnsao cho phù hợp với sự phân phối của các giá trị đích mong muốn Chúng ta đãthấy rằng đối với các giá trị ra trong khoảng [0,1], hàm sigmoid là có ích; đối vớicác giá trị đích mong muốn là liên tục trong khoảng đó thì hàm này cũng vẫn cóích, nó có thể cho ta các giá trị ra hay giá trị đích được căn trong một khoảng củahàm kích hoạt đầu ra Nhưng nếu các giá trị đích không được biết trướckhoảng xác định thì hàm hay được sử dụng nhất là hàm đồng nhất Nếu giá trịmong muốn là dương nhưng không biết cận trên thì nên sử dụng một hàm kíchhoạt dạng mũ

1.4 Các kiến trúc mạng.

1.4.1 Mạng một tầng.

Mạng một tầng với S nơron được minh họa trong hình 1.4 Chú ý rằng với

mỗi một đầu vào trọng số R đầu vào sẽ được nối với từng nơron và ma trận trọng sốbây giờ sẽ có S hàng

Trang 16

Hình 1.4 Cấu trúc mạng nơron 1 tầng.

Một tầng bao gồm ma trận trọng số, các bộ cộng, vector ngưỡng b, hàm

chuyển và vector đầu ra a.

Mỗi phần tử của vector đầu vào p được nối với từng nơron thông qua ma trận trọng số W Mỗi nơron có một ngưỡng bi, một bộ cộng, một hàm chuyển f và

một đầu ra ai Cùng với nhau, các đầu ra tạo thành một vector đầu ra a.

Thông thường thì số lượng đầu vào của tầng khác với số lượng nơron.(R#S)

Tất cả các nơron trong cùng một tầng không có hàm chuyển giống nhau Cóthể định nghĩa các nơron trong một tầng có hàm chuyển khác nhau bằng cách kếthợp song song hai mạng nơron giống ở trên Cả hai sẽ có đầu vào giống nhau, vàmỗi mạng sản xuất ra vài đầu ra

Ma trận trọng số cho các phần tử trong vector đầu vào W:

S

R R w w

w

w w

w

w w

w

, 2

, 1

,

, 2 2

, 2 1

, 2

, 1 2

, 1 1

, 1

Các chỉ số hàng của các phần tử trong ma trận W chỉ ra nơron đích đã kết

hợp với trọng số đó, trong khi chỉ số cột cho biết đầu vào cho trọng số đó Vì vậy,các chỉ số trong w32 nói rằng đây là trọng số của đầu vào thứ 2 nối với nơ-ron thứ 3

Trang 17

Trong hình trên, những kí hiệu ở dưới các biến cho biết các thông số về tầng

này, p là một vector có độ dài R, W là ma trận SR, a và b là những vector có độ

dài S Như đã định nghĩa trước rồi, một tầng bao gồm ma trận trọng số, bộ cộng và

các phép toán nhân, vector ngưỡng b, hàm chuyển và vector đầu ra.

1.4.2 Mạng đa tầng

Mỗi tầng có ma trận trọng số W của riêng nó, vector b, vector đầu vào n, và

một vector đầu ra Khi đó cần phải khai báo thêm vài kí hiệu để phân biệt giữa cáctầng này Ta sẽ sử dụng cách viết lên trên đầu để nhận biết kí hiệu đó thuộc tầngnào Chính xác là chúng ta gắn thêm chỉ số của tầng trên đầu mỗi biến Như vậy, ma

trận trọng số của tầng thứ 2 được viết như này W2 Cách kí hiệu này được dùng trong mạng nơ-ron 3 tầng như hình 1.6:

W

b

f +

Trang 18

Hình 1.6 Cấu trúc mạng nơron 3 lớp.

Như đã thấy, có R đầu vào, S1 nơron ở tầng thứ nhất, S2 nơron ở tầng thứhai, S3 nơron ở tầng thứ ba, v.v Như đã chú ý, những tầng khác nhau có thể có sốlượng nơron khác nhau

Đầu ra của các tầng 1 và 2 là đầu vào của tầng 2 và tầng 3 Vì vậy tầng 2 cóthể được xem như mạng nơron một tầng với đầu vào R= S1, nơron S= S2, và ma

trận trọng số W = S1  S2 Đầu vào của tầng 2 là a1, và đầu ra là a2

Đầu ra của một tầng chính là đầu ra của mạng thì ta gọi đó là tầng ra Các tầng còn lại gọi là tầng ẩn Mạng nơron như ở trên có một tầng ra (tầng 3) và hai

tầng ẩn (tầng 1 và tầng 2)

Một mạng có ba tầng giống hệt nhau như trên cũng có thể được vẽ gọn lại

như hình 1.7 :

Trang 19

Hình 1.7 Mạng nơ ron 3 tầng, vẽ rút gọn.

Mạng đa tầng có ứng dụng mạnh hơn mạng một tầng Ví dụ, một mạng haitầng có tầng thứ nhất là tầng xichma và tầng thứ hai là tầng tuyến tính có thể đượchuấn luyện để xấp xỉ mọi hàm toán học tùy ý khá chuẩn Mạng một tầng không làmđược điều này

Nếu có bốn yếu tố bên ngoài được dùng như các kích thích đầu vào, thì mạngcủa ta sẽ có bốn đầu vào Tương tự như vậy nếu mạng có bảy đầu ra thì phải có bảynơron ở tầng ra Cuối cùng, các đặc điểm mong muốn có được ở tín hiệu đầu racũng giúp ta chọn lựa hàm chuyển hợp lý hơn cho tầng ra Giả sử một đầu ra là mộttrong hai giá trị -1 hoặc 1, thì khi đó hàm chuyển giới hạn ngặt đối xứng sẽ được lựachọn Như vậy, kiến trúc mạng một tầng hầu như được xác định hoàn toàn bởi cácyếu tố kỹ thuật, bao gồm số đầu vào, đầu ra, và các thuộc tính của tín hiệu ra

Khi mạng có nhiều hơn hai tầng Các yếu tố bên ngoài không cho biết sốlượng các nơron yêu cầu bao nhiêu ở các tầng ẩn Thực tế, có một vài vấn đề choviệc dự đoán số lượng nơron tối ưu ở tầng ẩn Vấn đề này là một lĩnh vực nghiêncứu

Về số lượng tầng trong mạng thì hầu hết những mạng nơron thực tế chỉ cóhai hay ba tầng Bốn tầng hoặc nhiều hơn rất ít khi được sử dụng

Một mạng có thể chọn lựa việc các nơron có hay không có các giá trịngưỡng Giá trị ngưỡng là một biến phụ cho mạng

Trang 20

Lưu ý, có một nơron không có giá trị ngưỡng khi đó đầu vào của hàm

chuyển(net input) sẽ luôn luôn là 0 khi đầu vào của mạng p là 0

Đây là điều không mong muốn và chúng ta có thể loại bỏ vấn đề này bằngviệc sử dụng giá trị ngưỡng Ảnh hưởng của giá trị ngưỡng đến kết quả như thế nàochúng ta sẽ phải nghiên cứu sâu hơn Giá trị ngưỡng có thể bỏ đi, trong một sốtrường hợp điều này được làm đơn giản là để giảm số lượng tham số của mạng Chỉvới hai biến, chúng ta có thể vẽ được đồ thị cho hệ mặt phẳng hai chiều Ba haynhiều biến hơn sẽ khó hiển thị

 Các đặc trưng của mạng nơron.

Mạng nơron là một cấu trúc xử lý song song, thông tin phân tán và có cácđặc trưng nổi bật sau:

 Là mô hình toán học dựa trên bản chất của nơron sinh học

 Bao gồm một số lượng lớn các nơron liên kết với nhau

 Mạng nơron có khả năng học, khái quát hoá tập dữ liệu học thông quaviệc gán và hiệu chỉnh các trọng số liên kết

 Tổ chức theo kiểu tập hợp mang lại cho mạng nơron khả năng tính toán rấtlớn, trong đó không có nơron nào mang thông tin riêng biệt

1.5 Các hình trạng của mạng.

Hình trạng của mạng được định nghĩa bởi: số lớp, số đơn vị trên mỗi lớp, và

sự liên kết giữa các lớp như thế nào Các mạng về tổng thể được chia thành hai loạidựa trên cách thức liên kết các đơn vị

Mạng nơron nhân tạo có một số mô hình thông dụng sau:

1.5.1 Mạng truyền thẳng.

 Mạng truyền thẳng một lớp: Là mô hình liên kết cơ bản và đơn giảnnhất.Các nơron tổ chức lại với nhau tạo thành một lớp, tín hiệu được truyền theomột hướng nhất định nào đó Các đầu vào được nối với các nơron theo trọng số

Trang 21

khác nhau, sau quá trình xử lý cho ra một chuỗi các tín hiệu ra Nếu mạng là môhình LTU thì nó được gọi là mạng perception, còn mạng nơron theo mô hình LGUthì được gọi là Adaline.

Hình 1.8 Mô hình mạng truyền thẳng một lớp.

Với mỗi giá trị đầu vào x =[x1, x2, , xm]T qua quá trình xử lí của mạng sẽthu được một bộ đầu ra tương ứng y =[y1, y2, , yn]T

 Mạng truyền thẳng nhiều lớp: Với cấu trúc đơn giản như trên, khi giải quyếtcác bài toán phức tạp mạng truyền thẳng một lớp sẽ gặp rất nhiều khó khăn Đểkhắc phục nhược điểm này, người ta đưa ra mạng truyền thẳng nhiều lớp.Đây là mạng truyền thẳng gồm nhiều lớp kết hợp với nhau Lớp nhận tín hiệugọi là lớp đầu vào (input layer), lớp đưa các tín hiệu ra gọi là lớp đầu ra (outputlayer), các lớp ở giữa lớp vào và lớp ra gọi là lớp ẩn (hidden layers) Cấu trúc

của mạng nơron truyền thẳng nhiều lớp được mô tả trong hình 1.9.

Hình 1.9 Mạng nơron truyền thẳng nhiều lớp.

Trang 22

1.5.2 Mạng hồi quy

Bên cạnh mạng truyền thẳng còn có những dạng mạng khác như các mạnghồi quy Các mạng hồi quy thường có các liên kết ngược từ các lớp phía sau đến cáclớp phía trước hay giữa các nơron trong bản thân một lớp

 Mạng hồi quy một lớp có nối ngược

Hình 1.10 Mạng hồi quy một lớp có nối ngược.

 Mạng hồi quy nhiều lớp có nối ngược

Hình 1.11 Mạng hồi quy nhiều lớp có nối ngược.

Trang 23

1.6 Tiếp cận Nơron cho tính toán.

1.6.1 Luật học.

Các luật học đóng vai trò quan trọng trong việc xác định một mạngnơron nhân tạo Một cách đơn giản về khái niệm học của mạng nơron là cập nhậtcác trọng số trên cơ sở các mẫu

Chức năng của một mạng nơron được quyết định bởi các nhân tố như: hìnhtrạng mạng (số lớp, số đơn vị trên mỗi tầng, và cách mà các lớp được liên kết vớinhau) và các trọng số của các liên kết bên trong mạng Hình trạng của mạng thường

là cố định, và các trọng số được quyết định bởi một thuật toán huấn luyện (trainingalgorithm) Tiến trình điều chỉnh các trọng số để mạng “nhận biết” được quan hệgiữa đầu vào và đích mong muốn được gọi là học (learning) hay huấn luyện(training) Rất nhiều thuật toán học đã được phát minh để tìm ra tập trọng số tối ưulàm giải pháp cho các bài toán Các thuật toán đó có thể chia làm hai nhóm chính:Học có giám sát (Supervised learning) và Học không có giám sát (UnsupervisedLearning)

a Học có giám sát.

Đây là phương pháp phổ biến nhất để đào tạo một mạng nơron nhân tạonhằm tìm ra lời giải phù hợp cho bài toán Theo cơ chế này, đầu ra thực sự củamạng được so sánh với đầu ra mong muốn Các trọng số thường được gán ngẫunhiên trước khi bắt đầu đào tạo sau đó được hiệu chỉnh bởi mạng đó để trong lần lặptiếp theo, hay chu kỳ tiếp theo, sẽ tạo ra một kết quả gần với kết quả mong muốnhơn Các phương pháp học nhìn chung đều cố gắng giảm thiểu các lỗi hiện thời củacác thành phần xử lý Để từ đó giảm lỗi toàn cục cho mạng, việc giảm lỗi toàn cụcnày diễn ra liên tục nhằm thay đổi các trọng số vào cho tới khi đạt được độ chínhxác chấp nhận được

Với học có giám sát, mạng nơron nhân tạo phải được đào tạo trước khi có thể

sử dụng Việc đào tạo bao gồm đưa dữ liệu đầu vào và đầu ra vào mạng Dữ liệunày thường được gọi là tập đào tạo Có nghĩa là với mỗi tập đào vào được cung cấp

Trang 24

cho hệ thống có một tập đầu ra mong muốn tương ứng Trong hầu hết các ứng dụng,

dữ liệu thực sự thu thập từ thế giới thực được sử dụng Giai đoạn đào tạo nàythường tốn khá nhiều thời gian

Trong các hệ thống bản mẫu, với sức mạnh xử lý không đáp ứng yêu cầu,việc học có thể diễn ra trong nhiều tuần Việc đào tạo được coi là hoàn thành khi màmạng nơ ron đạt đến mức độ chính xác do người sử dụng đề ra Mức độ này có ýnghĩa là mạng đã đạt được độ chính xác thống kê mong muốn, nó sinh ra kết quảđầu ra do người sử dụng đặt ra với một tập đầu vào cho trước Khi không cần họcthêm nữa, các trọng số thường được duy trì cố định cho ứng dụng đó Một số kiểumạng cho phép tiếp tục học, sau khi đã được đưa vào hoạt động, nhưng ở tốc độthấp hơn nhiều Điều này giúp cho mạng thích nghi dần dần với những điều kiệnthay đổi trong thế giới thực sau khi đã được đưa vào sử dụng

Tập đào tạo thường phải khá lớn để đạt được tất cả các thông tin cần thiết, đểmạng có thể học được các đặc tính và những mối quan hệ quan trọng từ tập đó.Không chỉ tập đào tạo phải lớn mà các phiên đào tạo phải thực hiện với những dữliệu đa dạng khác nhau Nếu như mạng được đào tạo chỉ một ví dụ một lần thì cóthể tất cả các trọng số được điều chỉnh cố định một cách tỉ mỉ tương ứng với mộtnhân tố điển hình trong ví dụ đó, nhưng nhân tố này có thể bị thay đổi rất nhiềutrong lần học tiếp theo (khi mạng học về một nhân tố khác, sử dụng một ví dụkhác) Các nhân tố trước có thể bị quên đi khi mà học về một nhân tố mới Do vậy

mà hệ thống phải học mọi thứ cùng lúc, tìm ra sự sắp đặt trọng số tốt nhất với tất cảcác nhân tố của dữ liệu

Dữ liệu vào ra được đưa vào mạng như thế nào (hay được mã hóa như thếnào) là một yếu tố rất quan trọng để giúp cho mạng làm việc thành công Mạngnơron nhân tạo chỉ giải quyết được dữ liệu vào dạng số Vậy nên, dữ liệu thô từ môitrường bên ngoài phải được chuyển đổi Cần phải phân phạm vi cho dữ liệu, hay làchuẩn hóa nó cho phù hợp với kiểu mạng Quá trình tiền xử lý này đã khá phổ biến

Trang 25

với máy tính truyền thống như thông qua camera, cảm biến (sensors), hay là máy cóthể đọc (readable machines)…

Hình 1.12 Học có giám sát.

Sau khi đã đào tạo có giám sát xong cần phải kiểm tra xem mạng có thể làm

gì với dữ liệu mà nó chưa hề gặp trước đó Nếu như hệ thống cho một đầu ra không

đủ tốt với tập dữ liệu kiểm tra, thì quá trình đào tạo chưa thể kết thúc được Thực sựviệc kiểm tra này là rất quan trọng nhằm đảm bảo là mạng không chỉ đơn giản nhớmột tập dữ liệu cho trước mà đã học được những mẫu chung, phát hiện các đặc tínhxuất hiện bên trong ứng dụng

b Học không có giám sát.

Với cách học không có giám sát, không có phản hồi từ môi trường để chỉ rarằng đầu ra của mạng là đúng Mạng sẽ phải khám phá các đặc trưng, các điềuchỉnh, các mối tương quan, hay các lớp trong dữ liệu vào một cách tự động Trongthực tế, đối với phần lớn các biến thể của học không có giám sát, các đích trùng vớiđầu vào Nói một cách khác, học không có giám sát luôn thực hiện một công việctương tự như một mạng tự liên hợp, cô đọng thông tin từ dữ liệu vào

Mạng nơron

Tính sai số

Y Đầu ra thực tế

Đầu ra mong muốn

X

Đầu vào

Trang 26

Hình 1.13 Học không có giám sát.

Đầu ra mong muốn của mạng không được cho trước và mạng được trang bịkhả năng tự tổ chức Mạng không sử dụng mối quan hệ của các mẫu học mà dùngthông tin kết hợp với nhóm các nơron để thay đổi các tham số cục bộ sao cho hợpnhất Thông thường học không giám sát dùng nhiều tham số hơn học có giám sát.Học không có giám sát là một hứa hẹn lớn trong tương lai Máy tính nên tựhọc như một robot thực sự Hiện nay phương pháp này vẫn còn nhiều hạn chế vớicấu trúc mạng nơ ron đã biết đến gọi là các ánh xạ tự sắp xếp Loại mạng nơ ronnày vẫn chưa được sử dụng rộng rãi Tuy nhiên người ta đã chứng minh được rằngchúng cung cấp một giải pháp cho một số dạng bài toán nhất định.

X

Đầu vào

Trang 27

chính xác mong muốn của mạng cần phải được xem xét Những nhân tố này đóngvai trò hết sức quan trọng trong việc mất bao lâu để đào tạo mạng Việc thay đổimột trong những nhân tố này có thể kéo dài thời gian đào tạo tới một độ đài quá lớnhay thậm chí thu được kết quả có độ chính xác không thể chấp nhận được.

Hầu hết các hàm học đều có tốc độ học hay gọi là hằng học Thường thì sốhạng này là dương và nằm trong khoảng (0, 1) Nếu như tốc độ lớn hơn 1 thì thuậttoán học điều chỉnh các trọng số của mạng quá dễ dàng và khi đó mạng làm việckhông ổn định Các giá trị tốc độ học nhỏ sẽ không điều chỉnh lỗi hiện thời nhanh,nhưng nếu chỉ cần thực hiện một số bước nhỏ để điều chỉnh lỗi thì không khó khănlắm để đạt được độ hội tụ tốt nhất

1.6.3 Các luật học.

Có rất nhiều luật học khác nhau được sử dụng Hầu hết những luật này là dạngbiến đổi của luật học cổ điển nổi tiếng Hebb

Luật học của Hebb: Luật học đầu tiên và cũng là luật học được biết đến nhiều

nhất là luật học được giới thiệu bởi Donald Hebb Ý tưởng chính của nó là: nếu nhưmột nơron nhận một đầu vào từ một nơron khác và nếu như cả hai đều hoạt động ởmức độ tích cực cao (về toán học có nghĩa là có cùng dấu) thì trọng số giữa hainơron nên được làm mạnh lên

Luật học của Hopfield : Nó giống như luật của Hebb với điều khác biệt là nó

chỉ rõ độ lớn của việc làm mạnh hay làm yếu Nó được phát biểu: “Nếu như đầu ramong muốn và đầu vào đều tích cực (active) hay là đều không tích cực (inactive),thì tăng trọng số kết nối một lượng bằng tốc độ học, ngược lại giảm trọng số đó mộtlượng bằng tốc độ học.”

Luật học Delta: Luật này biến đổi luật học Hebb nhiều hơn nữa Nó là một

trong những luật được sử dụng nhiều nhất Luật này được dựa trên ý tưởng đơn giản

là tiếp tục hiệu chỉnh các sức mạnh của các kết nối vào để giảm sự khác biệt (giá trịdelta) giữa giá trị đầu ra mong muốn và đầu ra thực sự của thành phần xử lý Luật

Trang 28

này thay đổi trọng số sao cho nó giảm thiểu lỗi bình phương trung bình của mạng.Luật này cũng còn được gọi là luật học Widrow-Hoff hay là luật học bình phươngtrung bình tối thiểu.

Cách mà luật Delta hoạt động là lỗi delta trong tầng ra được biến đổi bởi đạohàm của hàm chuyển đổi và sau đó được sử dụng trong tầng nơron trước đó để điềuchỉnh các trọng số kết nối Nói cách khác lỗi này được truyền ngược về tầng trước

nó một tầng Quá trình truyền ngược lỗi của mạng tiếp tục cho tới khi tới truyền tớitầng đầu tiên Khi sử dụng luật delta cần phải đảm bảo rằng tập dữ liệu vào đượcchọn với tính ngẫu nhiên cao Nếu như tập đào tạo được biểu diễn (đưa vào mạng)

có thứ tự hay cấu trúc rõ ràng thì có thể dẫn tới một mạng nơron không thể hội tụtới độ chính xác mong muốn Nếu như điều này xẩy ra thì mạng không còn khảnăng học nữa

Luật học giảm gradient: Luật này giống với luật delta là đạo hàm của hàm

chuyển đổi vẫn được dùng để hiệu chỉnh giá trị lỗi delta trước khi nó được dùng đểtính toán các trọng số kết nối Tuy nhiên luật này sử dụng thêm một hằng tỷ lệ, hằngnày được kết hợp với (gắn vào) tốc độ học, sau đó được thêm vào nhân tố hiệuchỉnh cuối cùng ảnh hưởng tới trọng số Luật này cũng được dùng phổ biến, mặc dùtốc độ hội tụ của nó về một điểm ổn định là khá chậm

Khi sử dụng những tốc độ học khác nhau cho những tầng khác nhau của mạnggiúp cho quá trình học của mạng hội tụ nhanh hơn Trong thực tế các tốc độ học chonhững tầng gần đầu vào là chậm hơn so với tốc độ học của những tầng gần đầu ra.Điều này là rất quan trọng với những ứng dụng mà dữ liệu vào không thu được từnhững mô hình không được mô hình hóa tốt

Luật học của Kohonen: Thủ tục này, được phát triển bởi Teuvo Kohonen,

xuất phát từ việc học của các hệ thống sinh học Trong thủ tục này, các thành phần

xử lý cạnh tranh để có cơ hội được học, hay là cập nhật các trọng số của chúng.Thành phần xử lý với đầu ra lớn nhất được gọi là “người chiến thắng” và khi đó cókhả năng cản trở các đối thủ của nó và kích hoạt các nơron lân cận nó Chỉ có

Trang 29

“người chiến thắng” được phép đưa ra đầu ra, và chỉ có nó và những nơron lân cậnđược phép điều chỉnh các trọng số kết nối của chúng.

Kích thước của khu vực lân cận chỉ có thể được thay đổi trong thời gian đàotạo Mô hình thường gặp là bắt đầu với một khu vực lân cận khá lớn, và thu hẹp dầntrong quá trình đạo tạo mạng Bởi vì thành phần chiến thắng được xác định là nơron có kết quả gần với mẫu vào nhất Phương pháp này phù hợp với mô hình hóa dữliệu thống kê và thường được gọi là các ánh xạ tự sắp xếp hay là kiến trúc tự sắpxếp

1.7 Phạm vi ứng dụng của mạng nơron.

1.7.1 Những bài toán thích hợp.

Mạng nơron được coi như một hộp đen để biến đổi véc tơ đầu vào m biếnthành vectơ đầu ra n biến Tín hiệu ra có thể là các tham số thực (tốt nhất nằmtrong khoảng [0,1], hoặc [-1,1], số nhị phân 0,1, hay số lưỡng cực -1, +1) Sốbiến của vectơ ra không hạn chế song sẽ ảnh hưởng tới thời gian tính và tảinguyên liệu của máy tính

Các lớp bài toán áp dụng cho nơron có thể phân chia làm 4 loại:

Trang 30

Khi phải phân loại một quyết định phức tạp, chúng ta phải bắt đầu với việcnghiên cứu, thống kê các mối liên quan giữa nhiều đối tượng Việc xây dựng mộtcây phân lớp và các quyết định phải được thực hiện trước khi thủ tục học đượctiến hành Nếu kết quả cuối cùng không thoả mãn, chúng ta cần phải xem xét lạicách biểu diễn các đối tượng hoặc cây phân lớp hoặc thay đổi cả hai.

1.7.3 Mô hình hoá.

Các hệ thống phân loại đưa ra các câu trả lời rời rạc như có, khônghoặc một số nguyên định danh các đối tượng đầu vào thuộc lớp nào Mô hình hoáyêu cầu hệ thống phải sản sinh ra các câu trả lời mang tính liên tục Trong quá trình

mô hình hoá cần một số lượng nhỏ các số liệu để xây dựng mô hình Việc tìm rađường cong phù hợp với các số liệu thực nghiệm là một trong những ứng dụngthuộc dạng này Trong bất kỳ loại mô hình nào cũng phải tuân theo một giả địnhlà: Các thay đổi nhỏ của tín hiệu vào chỉ gây ra những biến đổi nhỏ của tín hiệura

Trong các vấn đề đa biến mạng nơron có nhiều ưu thế hơn so với các môhình hoá cổ điển sử dụng các hàm giải tích Bởi vì trong phương pháp mô hình hoá

cổ điển, đối với mỗi đầu ra ta phải xác định một hàm cụ thể cùng một bộ cáctham số Trong khi đó đối với mạng nơron thì không phải quan tâm tới nhữnghàm đó Tuy nhiên, trong các phương pháp mô hình hoá cổ điển, các hệ số cóthể có một số ý nghĩa nào đó đối với vấn đề cần giải quyết, trái lại các trọng số củamạng không mang một ý nghĩa nào cả

Trong nhiều ứng dụng khá đặc biệt, khi sai số thực hiện khá lớn chúng ta cóthể mô hình hoá bằng cách cân xứng hoá giữa tín hiệu vào và tín hiệu ra Trong cáctrường hợp này, sử dụng mạng như một bảng tra là đủ, mặc dù các bảng này sẽcho lời giải gống nhau trong một khoảng nào đó của tín hiệu vào

Đối với việc chọn chiến lược học, chúng ta cần quan tâm tới sự phân bố củacác đối tượng dùng để học Nếu số lượng đối tượng dùng cho việc học là ít và

Trang 31

được phân bố đều trong toàn không gian, khi đó số liệu có thể được dùng ngay choviệc mô hình hoá Nhứng nếu các đối tượng là nhiều, sẵn có nhưng phân bố ngẫunhiên trong không gian biến, đầu tiên ta phải giảm thiểu chúng sao cho vẫn baotrùm toàn không gian, sau đó mới dùng làm số liệu cho việcmô hình hoá.

1.7.4 Liên kết.

Liên kết là tìm ra đối tuợng đích có mối quan hệ với một đối tượng vào,thậm chí cả khi đối tượng vào bị hỏng hoặc hoàn toàn không biết Theo mộtnghĩa nào đó, liên kết có thể được coi là phân loại Thủ tục học cho vấn đề này

là học có tín hiệu chỉ đạo

Lĩnh vực nghiên cứu các quá trình phụ thuộc thời gian là một trongnhững lĩnh vực chính trong nghiên cứu quá trình điều khiển Người sử dụng dựbáo được hành vi của hệ thống đa biến dựa trên một chỗi số liệu được ghinhận theo thời gian Trong mô hình hoá phụ thuộc thời gian, các biến của cáctín hiệu vào bao gồm các giá trị hiện tại và quá khứ của các biến quá trình, trong

đó tín hiệu ra dự đoán giá trị trong tương lai của những biến quá trình đó Cáchiểu biết này có thể có độ dài tuỳ ý, nhưng trong quá trình kiểm soát, hiểu biếttương lai chỉ bao gồm một bước thời gian Việc học dịch chuyển tới bước tiếptheo tạo ra các cửa sổ bao gồm số bước thời gian của vectơ ra Để tạo ra mô hìnhhoàn chỉnh của một quá trình, tất cả các biến quá trình phải được huấn luyện tạiđầu ra của mạng, nhưng không phải tất cả các biến trong quá trình đều ảnhhưởng như nhau đối với kết quả cuối cùng, chỉ có một số biến là đáng quan tâm

Do đó chúng ta chỉ phải chọn các biến đó cho quá trình học

Kỹ thuật dịch chuyển cửa sổ có thể được sử dụng để giải quyết các vấn đềchuỗi các sự kiện và đối tượng như trong các lĩnh vực về môi trường theo thờigian, kiểm soát hỏng hóc

Trang 32

1.8 Các lĩnh vực ứng dụng của mạng nơron.

Kể từ khi ra đời và phát triển mạng nơron đã được ứng dụng trong rấtnhiều lĩnh vực Do vậy, liệt kê được tất cả các ứng dụng của mạng nơron làkhông thực tế Tuy nhiên, ta có thể đưa ra một số ứng dụng điển hình củamạng nơron như sau:

 Xử lý ảnh, nhìn máy: Gồm trùng khớp ảnh, tiền xử lý ảnh, phân

đoạn và phân tích ảnh, nén ảnh,

 Xử lý tín hiệu: Phân tích tín hiệu địa chấn và hình thái học

 Nhận dạng mẫu: Gồm việc tách các nét đặc biệt của mẫu, phân loại vàphân tích tín hiệu của rada, nhận dạng và hiểu tiếng nói, nhận dạng vântay, ký tự, chữ viết,

 Y học: Phân tích và hiểu tín hiệu điện tâm đồ, chuẩn đoán bệnh, xử lý ảnh

 Trí tuệ nhân tạo: Gồm các hệ chuyên gia,

 Dự đoán: Dự đoán các trạng thái của hệ thống,

 Quy hoạch, kiểm tra và tìm kiếm: Gồm cài đặt song song các bài toán thoảmãn ràng buộc, tìm nghiệm bài toán người du lịch, điều khiển và robot

1.9 Ưu nhược điểm của mạng nơron.

Trang 33

 Không có cách tổng quát để đánh giá hoạt động bên trong mạng.

 Việc học đối với mạng có thể khó (hoặc không thể) thực hiện

 Khó có thể đoán trước được hiệu quả của mạng trong tương lai (khả năngtổng quát hoá)

1.10 Nhận xét.

Mạng truyền thẳng và mạng hồi quy là hai mô hình tiêu biểu của mạngnơron nhân tạo, Mỗi loại mạng sẽ có những ưu nhược điểm riêng Nắm vữngnhững ưu nhược điểm của chúng sẽ gúp ta lựa chọn mô hình mạng thích hợp chotừng ứng dụng sẽ thiết kế Những ưu nhược điểm của từng mô hình mạng sẽ đượcthể hiện qua những nhận xét sau:

 Mạng truyền thẳng một lớp dễ phân tích nhưng không mô tả đượcmọi hàm Mạng nhiều lớp khắc phục được nhược điểm trên nhưng lại rất khóphân tích và gặp khó khăn trong quá trình xây dựng mạng Mặt khác mạngtruyền thẳng nhiều lớp có thể gây sai số tích luỹ qua các lớp

 Mạng phản hồi một lớp (tiêu biểu là mạng Hopfield) có cấu trúc đơn giản vìthế dễ phân tích, không chứa sai số tích luỹ

 Mạng nơron truyền thẳng chỉ đơn thuần tính toán các tín hiệu ra dựa trên cáctín hiệu vào và trọng số liên kết giữa các nơron đã xác định sẵn ở trongmạng Do đó chúng không có trạng thái bên trong nào khác ngoài trọng số W.Đối với mạng hồi quy, trạng thái bên trong của mạng được lưu trữ tại cácngưỡng của nơron Nói chung các mạng hồi quy không ổn định, mạng cầnphải tính toán rất lâu, thậm chí có thể lặp vô hạn trước khi đưa ra kết quả

Định dạng
Số trang	67
Dung lượng	2,34 MB