nhận dạng ảnh mặt người sử dụng mạng nơron nhân tạo và giải thuật di truyền

Phương pháp nhận dạng mặt người dùng mạng nơron là một phương pháp không mới, có thể coi là phương pháp phổ biến nhất trong các phương pháp dựa trên học máy.. Một trong những nghiên cứu

Trang 1

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐH CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG

PHẠM THỊ MAI HƯƠNG

NHẬN DẠNG ẢNH MẶT NGƯỜI DÙNG MẠNG NƠRON NHÂN TẠO VÀ GIẢI THUẬT DI TRUYỀN

LUẬN VĂN THẠC SĨ: KHOA HỌC MÁY TÍNH

Thái Nguyên, 2011

Trang 2

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐH CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG

PHẠM THỊ MAI HƯƠNG

NHẬN DẠNG ẢNH MẶT NGƯỜI DÙNG MẠNG NƠRON NHÂN TẠO VÀ GIẢI THUẬT DI TRUYỀN

Chuyên ngành: Khoa học máy tính

Mã số: 60.48.01

LUẬN VĂN THẠC SĨ: KHOA HỌC MÁY TÍNH

NGƯỜI HƯỚNG DẪN KH: PGS.TS LÊ BÁ DŨNG

Trang 3

MỞ ĐẦU

Khuôn mặt đóng vai trò quan trọng trong quá trình giao tiếp giữa người với người, và cũng mang một lượng thông tin phong phú, chẳng hạn có thể xác định giới tính, tuổi tác, trạng thái cảm xúc của người đó, hơn nữa khảo sát chuyển động của các đường nét trên khuôn mặt có thể biết được người đó muốn nói gì Do

đó, nhận dạng mặt người là một lĩnh vực nghiên cứu hấp dẫn được nhiều người quan tâm trong vài năm gần đây

Nhận dạng mặt người là một lĩnh vực nghiên cứu hấp dẫn được nhiều người quan tâm trong vài năm gần đây Có rất nhiều hướng tiếp cận trước đây đã thực hiện liên quan đến vấn đề nhận dạng mặt người Theo Ming-Hsuan Yang [22], có thể phân loại thành bốn hướng tiếp cận chính: dựa trên tri thức (knowledge-based), đặc trưng bất biến (feature invariant), đối sánh mẫu (template matching), và dựa vào diện mạo (appearance-based) phương pháp này thường dùng một mô hình học máy nên còn được gọi là phương pháp dựa trên học máy (machine learning-based)

Các kết quả nghiên cứu về nhận dạng mặt người cho đến nay đã cho thấy phương pháp dựa trên học máy là cách tiếp cận tối ưu và hiệu quả nhất Về cơ bản, phương pháp dựa trên học máy sử dụng những mẫu được rút trích qua một quá trình học Nói cách khác, các thuật toán dựa trên học máy dùng các kỹ thuật phân tích thống kê và học máy để xấp xĩ một hàm phân lớp tuyến tính Có nhiều mô hình học máy được áp dụng trong hướng tiếp cận này: Eigenface (M Turk và A Pentland

1991 [23]), Mạng Nơ-ron (H Rowley 1998 [28]), Support Vector Machine (E Osuna et al 1997 [24]), Phân lớp Bayes (H Schneiderman và T Kanade 1998 [22]),

Mô hình Markov ẩn (A Rajagopalan et al 1998 [23]), và các mô hình tăng cường (AdaBoost của P Viola và M Jones 2001 [25][26]; FloatBoost do Stan Z Li và Zhen Qiu Zhang 2004 [23][24])

Phương pháp nhận dạng mặt người dùng mạng nơron là một phương pháp không mới, có thể coi là phương pháp phổ biến nhất trong các phương pháp dựa trên học máy Các kết quả nghiên cứu đã có cho thấy phương pháp này vẫn là phương

Trang 4

pháp hiệu quả, ổn định và có nhiều khả năng ứng dụng Một trong những nghiên cứu đầu tiên dùng NN trong nhận dạng ảnh mặt người trong [72] đã sử dụng mạng Kohonen nhận dạng ảnh trong một tập mẫu nhỏ các ảnh mặt người và cho kết quả tốt ngay cả khi ảnh bị nhiễu hay mất một phần ảnh Tỷ lệ nhận dạng đúng được công bố

là 92.5% với ảnh test đã được huấn luyện và 87.5% với ảnh test chưa được huấn luyện Trong nhiều nghiên cứu nhận dạng ảnh mặt người dùng mạng NN sau đó, loại mạng NN được cho là hiệu quả nhất là mạng NN perception đa lớp lan truyền ngược (backpropagation MLP) Trong [N Jamil and Iqbal [34] ] hệ thống nhận dạng ảnh mặt người dùng mạng MLP lan truyền ngược sử dụng cơ sở dữ liệu gồm 100 ảnh của

10 người khác nhau tự thu thập, tỷ lệ nhận dạng đúng được công bố là 95.6%

Các nghiên cứu nhận dạng ảnh mặt người dùng mạng NN cho tới hiện nay chỉ

ra rằng việc dùng mạng MLP đã cho các kết quả rất tốt cả về độ chính xác Tuy nhiên vấn đề chi phí tính toán trong thao tác huấn luyện và nhận dạng dẫn tới chi phí huấn luyện và nhận dạng khá lớn là vấn đề then chốt cần xử lý của các hệ thống dùng mạng NN Do đó, các nghiên cứu nhận dạng mặt người dùng mạng NN vẫn cần được cải tiến phát triển để giảm khối lượng tính toán, giảm thời gian, chi phí huấn luyện

Một giải pháp đã được đề xuất là áp dụng phương pháp trích đặc trưng vector thành phần PCA để giảm số chiều vector đặc trưng, do đó giảm chi phí tính toán cho mạng NN [19, 20] Một giải pháp khác gần đây được một số nhà nghiên cứu gần đây quan tâm là áp dụng giải thuật di truyền GA tính toán trọng số tối ưu đầu vào cho mạng NN để có để tối ưu hệ thống Luận văn này đi theo cách kết hợp hai hướng tiếp cận này, đó là phát triển một hệ thống nhận dạng mặt người sử dụng kết hợp các phương pháp MLP-PCA-GA Các kết quả đánh giá về hiệu quả nhận dạng bao gồm

tỷ lệ nhận dạng đúng, chi phí huấn luyện, thời gian nhận dạng đều cho thấy phương pháp sử dụng trong đề tài cho các kết quả tương đương và tốt hơn trong một số điều kiện so với các phương pháp truyền thống khác Các kết quả thực nghiệm cho thấy phương pháp sử dụng là một phương pháp tốt cần đầu tư nghiên cứu, phát triển thêm

Để minh họa cho tính ứng dụng của luận văn, tôi cũng trình bày một hệ thống ứng dụng minh họa việc tìm kiếm thông tin hành khách tại sân bay bằng nhận dạng

Trang 5

mặt người Chương trình cho tính năng minh họa cho một hệ thống thực và có thể phát triển thành một ứng dụng thực tế nếu được tích hợp với hệ thống camera bắt hình trực tiếp và cơ sở dữ liệu hành khách thực

Nội dung đề tài gồm những vấn đề sau:

Chương 3 : Phương pháp nhận dạng mặt người MLP-PCA-GA

Chương 4 : Hệ thống ứng dụng minh họa

KẾT LUẬN VÀ KIẾN NGHỊ

Do hạn chế về khả năng, thời gian cũng như tài liệu, đề tài không tránh khỏi những sai sót nhất định Rất mong được sự chỉ bảo của các thầy cô và các ý kiến góp ý quan tâm của các đồng nghiệp

Trang 6

Chương 1 TỔNG QUAN 1.1 BÀI TOÁN NHẬN DẠNG MẶT NGƯỜI VÀ NHỮNG KHÓ KHĂN

1.1.1 Bài toán nhận dạng mặt người

Hệ thống nhận dạng mặt người là một hệ thống nhận vào là một ảnh hoặc một đoạn video (một chuỗi các ảnh) Qua xử lý tính toán hệ thống xác định được vị trí mặt người trong ảnh (nếu có) và xác định là người nào trong số những người hệ thống đã được biết (qua quá trình học) hoặc là người lạ

Hình 1.1 Ví dụ về hệ thống nhận dạng mặt người 1.1.2 Những khó khăn của nhận dạng khuôn mặt

Bài toán nhận dạng mặt người là bài toán đã được nghiên cứu từ những năm

70 Tuy nhiên, đây là một bài toán khó nên những nghiên cứu hiện tại vẫn chưa đạt được kết quả mong muốn Chính vì thế vấn đề này vẫn đang được nhiều nhóm trên thế giới quan tâm nghiên cứu Khó khăn của bài toán nhận dạng mặt người có thể kể như sau:

a Tư thế, góc chụp: Ảnh chụp khuôn mặt có thể thay đổi rất nhiều bởi vì góc

chụp giữa camera và khuôn mặt Chẳng hạn như: chụp thẳng, chụp xéo bên trái 450

Trang 7

hay xéo bên phải 450, chụp từ trên xuống, chụp từ dưới lên, v.v ) Với các tư thế khác nhau, các thành phần trên khuôn mặt như mắt, mũi, miệng có thể bị khuất một phần hoặc thậm chí khuất hết

b Sự xuất hiện hoặc thiếu một số thành phần của khuôn mặt: Các đặc

trưng như: râu mép, râu hàm, mắt kính, v.v có thể xuất hiện hoặc không Vấn đề này làm cho bài toán càng trở nên khó hơn rất nhiều

c Sự biểu cảm của khuôn mặt: Biểu cảm của khuôn mặt người có thể làm

ảnh hưởng đáng kể lên các thông số của khuôn mặt Chẳng hạn, cùng một khuôn mặt một người, nhưng có thể sẽ rất khác khi họ cười hoặc sợ hãi,v.v

d Sự che khuất: Khuôn mặt có thể bị che khuất bởi các đối tượng khác hoặc

các khuôn mặt khác

e Hướng của ảnh: Các ảnh của khuôn mặt có thể biến đổi rất nhiều với các

góc quay khác nhau của trục camera Chẳng hạn chụp với trục máy ảnh nghiêng làm cho khuôn mặt bị nghiêng so với trục của ảnh

f Điều kiện của ảnh: Ảnh được chụp trong các điều kiện khác nhau về: chiếu

sáng, về tính chất camera (máy kỹ thuật số, máy hồng ngoại,v.v ) ảnh hưởng rất nhiều đến chất lượng ảnh khuôn mặt

1.2 CÁC ỨNG DỤNG LIÊN QUAN ĐẾN NHẬN DẠNG MẶT NGƯỜI

Bài toán nhận dạng mặt người có thể áp dụng rộng rãi trong nhiều ứng dụng thực tế khác nhau Đó chính là lý do mà bài toán này hấp dẫn rất nhiều nhóm nghiên cứu trong thời gian dài Các ứng dụng liên quan đến nhận dạng mặt người có thể kể như:

- Hệ thống phát hiện tội phạm: camera được đặt tại một số điểm công cộng như: siêu thị, nhà sách, trạm xe buýt, sân bay,v.v Khi phát hiện được sự xuất hiện của các đối tượng là tội phạm, hệ thống sẽ gởi thông điệp về cho trung tâm xử lý

- Hệ thống theo dõi nhân sự trong một đơn vị: giám sát giờ ra vào của từng nhân viên và chấm công

- Hệ thống giao tiếp người máy: thay thế việc tương tác giữa người và máy theo những cách truyền thống như: bàn phím, chuột,v.v Thay vào đó là sử dung các giao

Trang 8

tiếp trực quan: biểu cảm khuôn mặt, dấu hiệu, cử chỉ bằng tay (visual input, visual interaction)

- Hệ thống tìm kiếm thông tin trên ảnh, video dựa trên nội dung (chỉ mục theo người) Chẳng hạn như: đài truyền hình Việt Nam (VTV) có một kho dữ liệu video tin tức khá lớn cần tìm kiếm nhanh những đoạn video nào có G Bush hoặc Bin Laden

- Các thệ thống bảo mật dựa trên thông tin trắc sinh học: mặt người, vân tay,v.v thay vì xác nhận mật khẩu, khóa,v.v

1.3 TỔNG QUAN KIẾN TRÚC CỦA MỘT HỆ THỐNG NHẬN DẠNG

MẶT NGƯỜI

Một hệ thống nhận dạng mặt người thông thường bao gồm bốn bước xử lý

sau: phát hiện khuôn mặt (face detection), phân đoạn khuôn mặt (face alignment hay segmentation), rút trích đặc trưng (feature extraction), và phân lớp khuôn mặt (face

classification)

Hình 1.2 Các bước chính trong một hệ thống nhận dạng mặt người

Phát hiện khuôn mặt dò tìm và định vị những vị trí khuông mặt xuất hiện

trong ảnh hoặc trên các frame video Phân đoạn khuôn mặt sẽ xác định vị trí mắt mũi, miệng, và các thành phần khác của khuôn mặt và chuyển kết quả này cho bước rút

trích đặc trưng Từ những thông tin về các thành phần trên khuôn mặt, chúng ta có

thể dễ dàng tính được véc-tơ đặc trưng trong bước rút trích đặc trưng Những véc-tơ đặc trưng này sẽ là dữ liệu đầu vào cho một mô hình đã được huấn luyện trước để

phân loại khuôn mặt Bên cạnh những bước chính nêu trên, chúng ta còn có thể áp

dụng thêm một số bước khác như tiền xử lý, hậu xử lý nhằm làm tăng độ chính xác

Trang 9

cho hệ thống Trong luận văn này, tôi tập trung chủ yếu vào bước phân loại khuôn

mặt

1.4 GIỚI HẠN PHẠM VI ĐỀ TÀI

Trong đề tài này, tôi tập trung vào một thuật toán hiệu quả cho việc nhận dạng (phân loại) ảnh mặt người Do các điều kiện khó khăn của bài toán và để tập trung sâu vào một phần của hệ thống nhận dạng là khối phân lớp, nhận dạng, tôi đưa ra những giả định và ràng buộc sau nhằm giảm độ phức tạp của bài toán nhận dạng mặt người:

- Thuật toán giải quyết cho ảnh đơn; ảnh khuôn mặt được chụp thẳng hay góc nghiêng không đáng kể; ảnh được chụp trong điều kiện ánh sáng bình thường; ảnh được tiền xử lý trước để cắy lại chỉ còn phần khuôn mặt trong ảnh, do vậy có thể bỏ qua bước phát hiện khuôn mặt (face detection) Với cơ sở dữ liệu thử nghiệm được lọc một phần từ CSDL của Yale dùng trong luận văn này thì các điều kiện trên được thỏa mãn

- Luận văn thừa kế các kết quả nghiên cứu nhận dạng mặt người dùng mạng NN perception đa lớp MLP với thủ tục huấn luyện lan truyền ngược, sử dụng vector đặc trưng PCA đầu vào, thực nghiệm một thuật toán kết hợp mạng NN và giải thuật di truyền GA để tối ưu trọng số mạng NN trong bài toán nhận dạng ảnh mặt người Việc kết hợp GA và NN nhằm mục đích giảm chi phí huấn luyện và tối ưu hệ thống

- Luận văn xây dựng một ứng dụng demo cho việc phát hiện thông tin hành khách tại sân bay bằng nhận dạng ảnh tự động Hệ thống chỉ có tính chất demo, minh họa chứ chưa có khả năng áp dụng ngay trong thực tiễn

1.5 CÁC HƯỚNG TIẾP CẬN LIÊN QUAN ĐẾN PHÁT HIỆN VÀ NHẬN

DẠNG KHUÂN MẶT

Có rất nhiều hướng tiếp cận trước đây đã thực hiện liên quan đến vấn đề phát hiện mặt người Theo Ming-Hsuan Yang [22], có thể phân loại thành bốn hướng tiếp cận chính: dựa trên tri thức (knowledge-based), đặc trưng bất biến (feature invariant), đối sánh mẫu (template matching), và dựa vào diện mạo (appearance-based) phương pháp này thường dùng một mô hình máy học nên còn được gọi là phương pháp dựa

Trang 10

trên máy học (machine learning-based)

Các phương pháp dựa trên tri thức: Hướng tiếp cân này chủ yếu dựa trên

những luật được định nghĩa trước về khuôn mặt người Những luật này thường là các mối quan hệ giữa các thành phần trên khuôn mặt Có một số nghiên cứu từ rất sớm đã

áp dụng phương pháp này như của Kanade 1973 [23], và Kotropoulos 1997 [24]

Hướng tiếp cận dựa trên các đặc trưng bất biến: Hướng tiếp cận này cố

gắng tìm kiếm những đặc trưng độc lập – những đặc trưng không phụ thuộc vào tư thế khuôn mặt, điều kiện chiếu sáng, và các khó khăn khác Các đặc trưng như thế được gọi là bất biến và được sử dụng để phát hiện khuôn mặt Những công trình sử dụng hướng tiếp cận này có thể kể như: K C Yow và R Cipolla 1997 [25], T K Leung 1995 [26]

Phương pháp đối sánh mẫu: Trong hướng tiếp cận này, một mẫu khuôn mặt

chuẩn được định nghĩa bằng tay trước hoặc được tham số hóa bằng một hàm số Mẫu này được sử dụng để phát hiện khuôn mặt bằng cách quét nó qua ảnh và tính toán giá trị tương đồng cho mỗi vị trí Việc xuất hiện một khuôn mặt tại một vị trí nào đó trong ảnh phụ thuộc vào giá trị tương đồng của điểm đó so với mẫu chuẩn I Craw

1992 [27] đã áp dụng một mẫu cứng trong khi A Lanitis 1995 [28] sử dụng một mẫu

có thể biến dạng trong bước phát hiện khuôn mặt

Phương pháp dựa trên máy học: Ngược với phương pháp đối sánh mẫu sử

dụng các mẫu được các chuyên gia định nghĩa trước, phương pháp này sử dụng những mẫu được rút trích qua một quá trình học Nói cách khác, các thuật toán dựa trên máy học dùng các kỹ thuật phân tích thống kê và máy học để xấp xĩ một hàm phân lớp tuyến tính Có nhiều mô hình máy học được áp dụng trong hướng tiếp cận này: Eigenface (M Turk và A Pentland 1991 [22]), Mô hình dựa trên phân phối (K

K Sung and T Poggio 1998 [23]), Mạng Nơ-ron (H Rowley 1998 [24]), Support Vector Machine (E Osuna et al 1997 [25]), Phân lớp Bayes (H Schneiderman và T Kanade 1998 [26]), Mô hình Markov ẩn (A Rajagopalan et al 1998 [27]), và các mô hình tăng cường (AdaBoost của P Viola và M Jones 2001 [28]; FloatBoost do Stan

Z Li và Zhen Qiu Zhang 2004 [22])

Trang 11

1.6 CÁC TIẾP CẬN DÙNG MẠNG NƠRON

Mạng nơ ron (NN) đã và đang được sử dụng trong nhận dạng ảnh mặt người Một trong những nghiên cứu đầu tiên dùng NN trong nhận dạng ảnh mặt người trong [25] đã sử dụng mạng Kohonen nhận dạng ảnh trong một tập mẫu nhỏ các ảnh mặt người và cho kết quả tốt ngay cả khi ảnh bị nhiễu hay mất một phần ảnh Mạng NN cũng được hiện thực dùng phần cứng để nhận dạng ảnh mặt người trong [23] Trong [24], mạng NN được sử dụng để phân loại giới tính dùng vector có 16 thuộc tính như

độ dày của lông mày, độ rộng của mũi và miệng, … Đầu ra của 2 mạng NN được so sánh, giới tính của người trong ảnh nhận dạng thử được xác định bởi mạng có đầu ra lớn hơn Tỷ lệ nhận dạng đúng được công bố là 92.5% với ảnh test đã được huấn luyện và 87.5% với ảnh test chưa được huấn luyện

Trong nhiều nghiên cứu nhận dạng ảnh mặt người dùng mạng NN, loại mạng

NN được cho là hiệu quả nhất là mạng NN perception đa lớp lan truyền ngược (backpropagation MLP) (hình 1.3) Trong [26] hệ thống nhận dạng ảnh mặt người dùng mạng MLP lan truyền ngược sử dụng cơ sở dữ liệu gồm 100 ảnh của 10 người khác nhau tự thu thập, tỷ lệ nhận dạng đúng được công bố là 95.6%

Để giảm số chiều của vector ảnh đầu vào làm giảm khối lượng tính toán của mạng NN Nhiều nghiên cứu gần đây đề xuất dùng đầu vào của mạng NN là vector PCA (vector phân tích các thành phân cơ bản – Principal Component Analysis) Trong [27] hệ thống nhận dạng ảnh mặt người được xây dựng dùng vector PCA và mạng NN lan truyền ngược Cơ sở dữ liệu gồm 200 ảnh được trích từ cơ sở dữ liệu ảnh công cộng của Yale, hệ thống không chỉ cho kết quả nhận dạng tốt hơn mà còn giảm thời gian huấn luyện, nhận dạng so với các nghiên cứu trước đó

Mặc dù các nghiên cứu nhận dạng ảnh mặt người dùng mạng NN cho tới hiện nay về cơ bản đã cho các kết quả rất tốt cả về độ chính xác và thời gian, chi phí huấn luyện, các nghiên cứu này vẫn cần được cải tiến phát triển để tăng tỷ lệ nhận dạng, đặc biệt là giảm khối lượng tính toán và giảm thời gian, chi phí huấn luyện Ngoài giải pháp kết hợp dùng PCA và NN, một giải pháp khác được một số nhà nghiên cứu gần đây quan tâm là áp dụng giải thuật di truyền GA kết hợp với hệ thống nhận dạng

Trang 12

dùng mạng NN đã có để tối ưu hệ thống Luận văn này đi theo hướng tiếp cận này Thuật toán và phương pháp kết hợp MLP-PCA-GA trong hệ thống nhận dạng sẽ được trình bày chi tiết trong các chương tiếp theo.

Hình 1.3 Sơ đồ khối mạng MLP lan truyền ngược

Trang 13

Chương 2

CƠ SỞ LÝ THUYẾT 2.1 CƠ SỞ LÝ THUYẾT MẠNG NƠRON NHÂN TẠO

2.1.1 Khái niệm mạng nơron nhân tạo

2.1.1.1.Nơron nhân tạo

Nơron nhân tạo (Artificial Neural ) là sự rút gọn hết sức đơn giản của nơron

sinh học Nó có thể thực hiện nhờ chương trình máy tính hoặc bằng mạch phần cứng.Mỗi nơron thực hiện hai chức năng là chức năng đầu vào và chức năng kích

hoạt đầu ra Do đó ta có thể coi mỗi nơron như là một đơn vị xử lý (PE: processing

element) Nó được xây dựng mô phỏng theo cấu trúc của các nơron sinh học Mỗi

nơron có một số đầu vào giống như các dây thần kinh tiếp nhận Các đầu vào này làm nhiệm vụ tiếp nhận thông tin từ các nơron khác hoặc từ tập số liệu gốc vào Tương tự như nơron sinh học, mỗi đầu vào của nơron nhân tạo có ảnh hưởng khác nhau đối với tín hiệu ra của nơron (còn gọi là kết xuất của nơron ) Điều này được thực hiện nhờ các hệ số được gán cho từng đầu vào-wi: trọng số của đầu vào thứ i Giá trị của wi có thể dương hay âm tương tự như việc có hai loại khớp nối trong mạng nơron sinh học Nếu wi có giá trị dương thì tương đương với khớp nối kích thích còn nếu wi âm thì tương đương với khớp nối ức chế Thân nơron sẽ làm nhiệm

vụ tổng hợp các tín hiệu đầu vào xử lý để đưa một tín hiệu ra đầu ra của nơron Quá trình xử lý, tính toán này sẽ được đề cập cụ thể ở phần sau Đầu ra của nơron nhân tạo tương tự như sợi trục axon của nơron sinh học Tín hiệu ra cũng có thể tách ra thành nhiều nhánh theo cấu trúc hình cây để đưa đến đầu vào của các nơron khác

Trang 14

2.1.1.2 Mạng nơron nhân tạo

Các nơron nhân tạo được tổ chức thành mạng nơron nhân tạo (Artificial

Neural Network) Các nơron thường được sắp xếp trong mạng thành từng lớp Đầu

ra của mỗi nơron sẽ được nối đến đầu vào của một số nơron khác theo một cấu trúc phù hợp Tuy nhiên cấu trúc mạng nơron nhân tạo chưa thể đạt được độ phức tạp như mạng nơron sinh học Mạng nơron nhân tạo hiện chỉ mới là sự mô phỏng hết sức đơn giản cấu trúc của mạng nơron sinh học

Giữa mạng nơron nhân tạo và mạng nơron sinh học có 3 điểm chung là

- Mạng được xây dựng bằng các phần tử tính toán đơn giản liên kết lại với nhau một cách phức tạp và hoạt động theo nguyên tắc song song

- Chức năng của mạng được xác định qua cấu trúc mạng, quá trình xử lý bên trong các phần tử và mức độ liên kết giữa các phần tử

- Mức độ liên kết giữa các phần tử được xác định thông qua quá trình học

của mạng ( hay còn gọi là quá trình huấn luyện mạng: training)

Điểm khác nhau về căn bản giữa Mạng nơron nhân tạo và mạng nơron sinh học là ở tốc độ tính toán, độ phức tạp và tính song song.Tuy xét về tốc độ xử lý của các máy tính hiện đại là cao hơn rất nhiều so với tốc độ xử lý của não bộ con người nhưng bộ não lại có thể đồng thời kích hoạt toàn bộ các nơron để làm nhiều công việc khác nhau Điều này mạng nơron nhân tạo không thể thực hiện được Với sự phát triển nhanh chóng của khoa học như hiện nay thì ta có thể hi vọng sẽ có những bước đột phá mới trong lĩnh vực mô phỏng mạng nơron sinh học

2.1.1.3.Các ứng dụng của mạng nơron

Mạng nơron thích hợp với các ứng dụng so sánh và phân loại mẫu (patern

matching and classification), dự báo (prediction) và điều khiển (control)

2.1.2.Mô hình toán học và kiến trúc mạng nơron nhân tạo

2.1.2.1.Mô hình toán học của mạng nơron

a Mô hình toán học của một nơron nhân tạo

Dựa trên những kiến thức cơ bản về nơron nhân tạo như đã trình bày ở phần trên, ta có thể xây dựng một mô hình toán học của nơron nhân tạo như hình vẽ 2.2 dưới đây

Trang 15

Các tín hiệu vào (còn gọi là mẫu vào) p i (i=1 R) được đưa tới đầu vào của

nơron S tạo thành ma trận tín hiệu vào P Mỗi đầu vào của nơron S sẽ có một trọng

số kí hiệu là w s,i (i=1 R) và các trọng số này tạo thành một ma trận trọng số đầu vào

W của nơron Mức ngưỡng  của nơron có thể được biễu diễn trong mô hình toán

học bằng hệ số bias b ( gọi là thế hiệu dịch) Ta có b=- Hàm PSP (Post Synaptic Potential function ) khi các đại lượng là vô hướng là tổng của các tín hiệu vào có

trọng số và hệ số bias (khi ở dạng vectơ thì là hàm radial) Như vậy tín hiệu vào là

nnet sẽ được tính theo công thức sau:

b p w p

w p w

n net  s,1 1  s,2 2   s,R R (2.1) Viết dưới dạng ma trận sẽ là:

b WP

n net   (2.2) Xem các biểu thức trên thì ta có thể coi hệ số bias như trọng số của một đầu vào với tín hiệu bằng 1 Có một số loại nơron có thể bỏ qua hệ số bias này

Hàm hoạt hoá activation function (hay còn gọi là hàm truyền đạt transfer

function) được kí hiệu là f sẽ biến đổi tín hiệu đầu vào net thành tín hiệu đầu ra

nơron a.Ta có biểu thức:

Trang 16

quan hệ giữa đầu ra và các đầu vào của nơron sẽ tuỳ thuộc vào việc nơron đó được dùng cho các mụch đích cụ thể nàọ

b Cấu trúc mạng nhân tạo

Mạng nơron thường được cấu tạo thành các lớp gồm lớp vào (input layer) ,lớp

ra (output layer) và các lớp ẩn (hiđen layer) Các nơron trong một lớp chỉ nối với

các nơron lớp tiếp theo, không cho phép có các liên kết giữa các nơron trong cùng một lớp

Lớp vào là lớp nhận thông tin từ số liệu gốc Thông tin này được đưa đến đầu vào của một số hay toàn bộ các nơron của lớp tiếp theo (lớp ẩn) Như vậy mỗi nút của lớp ẩn sẽ nhận được tín hiệu của một số các nút lớp vàọ Các giá trị này sẽ được nhân với hệ số nhân (trọng số) của các nút ẩn và đưa vào hàm thế sau khớp nối-PSP

(Post Synaptic Potential function) thực hiện chức năng đầu vào để tạo tín hiệu duy

nhất net Chức năng kích hoạt đầu ra được thực hiện bằng hàm hoạt hoá ặ)

(activation function) hay còn gọi là hàm truyền f(.) (transfer function) Hàm này sẽ

nhận tín hiệu đầu vào net để tạo ra tín hiệu đầu ra của nơron (kết xuất của nơron lớp ẩn) Tín hiệu ra của các nút ẩn lại được đưa đến các nút của lớp tiếp theọ Quá trình

xử lý tương tự cho đến khi tín hiệu được đưa ra tại các nút lớp rạ Đây chính là tín hiệu đầu ra của mạng Nó chính là giá trị của các biến cần tìm

Mạng nơron có thể tổ chức theo kiểu liên kết đầy đủ (fully connected) tức là

đầu ra của các nơron lớp trước sẽ có liên kết với tất cả các nơron ở lớp tiếp theo hoặc ngược lại theo kiểu không đầy đủ-mỗi đầu ra chỉ liên kết với một số nơron của lớp tiếp theo tuỳ theo chức năng của mạng

c Hàm truyền (Hàm hoạt hoá)

Hàm hoạt hoá (activation function) có thể là một hầm tuyến tính hoặc phi

tuyến của tín hiệu đầu vào net-nnet ,nó được chọn để thoả mãn một số đặc điểm kỹ

thuật của bài toán mà mạng nơron cần giải quyết

2.1.2.2 Kiến trúc mạng

Mạng nơron nhân tạo như đã giới thiệu ở trên là sự liên kết của các nơron nhân tạọ Sự xắp xếp bố trí các nơron và cách thức liên hệ giữa chúng tạo nên kiến trúc

Trang 17

mạng nơron Theo cách sắp xếp nơron thì có kiểu kiến trúc một lớp (single layer) và kiến trúc đa lớp (Multiple layer), còn theo cách liên hệ giữa các nơron thì ta có kiến trúc mạng truyền thẳng (feedforward) và kiến trúc mạng hồi qui (recurrent) Ngoài ra

còn một loại liên kết theo sự phân bố của các nơron trong không gian hai chiều trong

một lớp, gọi là liên kết bên (lateral connection) Với loại liên kết bên này, Kohonel đã tạo ra loại mạng tự tổ chức (Self-Organizing Neural Network)

- Theo số lớp: Nếu xét về số lớp thì mạng có cấu trúc là mạng nơron một lớp

và mạng nơron nhiều lớp

- Mạng nơron một lớp là mạng chỉ có các lớp vào và lớp ra Đầu vào được đưa trực tiếp đến lớp ra Mạng này có cấu trúc tương đối đơn giản, nó chủ yếu dùng cho các mạng làm chức năng phân loại và thực hiện các hàm đơn giản

- Mạng nơron nhiều lớp là các mạng nơron có thêm một hoặc vài lớp ẩn Do

đó cấu trúc mạng vì vậy mà phức tạp hơn rất nhiều Tuy nhiên các mạng nơron này lại có khả năng thực hiện các công việc phức tạp hơn Nó có thể thực hiện được các hàm phân bố ngẫu nhiên với điều kiện thu thập được một tập mẫu tin cậy và đủ lớn

- Theo kiểu liên kết của các nơron: Xét theo kiểu liên kết của các nơron thì

có cấu trúc mạng nơron truyền thẳng và mạng nơron quy hồi

- Mạng nơron truyền thẳng (feedforward Neural Network) là mạng có cấu

trúc mà ở đó các liên kết nơron đi theo một hướng nhất định, không tạo thành đồ thị

có chu trình (Directed Acrylic Graph) với các đỉnh là các nơron và các cung là các

liên kết giữa chúng

- Mạng quy hồi (Recurent Neural Network) cho phép các liên kết nơron tạo

thành chu trình tức là tồn tại những liên kết từ các nơron lớp sau quay trở lai các nơron lớp trước Trong chu trình này, các tín hiệu ra của nơron lại được truyền ngược lại cho các nơron đã kích hoạt chúng do đó mà mạng hồ quy có khả năng lưu giữ trạng thái trong dưới dạng các ngưỡng kích hoạt ngoài các trọng số liên kết nơron Mạng hồi quy có thể là hồi quy một lớp hoặc hồi quy nhiều lớp

- Kiến trúc mạng tự tổ chức: Loại liên kết bên (lateral connection) thực hiện trên một lớp được gọi là lớp cạnh tranh (competitive layer) Lớp cạnh tranh thường

Trang 18

được tổ chức như một lưới nơron hai chiều, và một tập tín hiệu vào sẽ đồng thời được đưa đến tất cả các nơron của lớp Mỗi nơron của lớp cạnh tranh có một liên

kết kích thích (excitatory và có trọng số là dương) với chính nó và có các liên kết ức chế (inhibitory và có trọng số là âm) với các nơron lân cận cùng lớp

Chúng ta có thể tưởng tượng kiểu liên kết này như một cụm các nơron “cạnh

tranh nhau” (competition), mỗi nơron sẽ kích hoạt chính nó đồng thời lại ức chế các

nơron khác kế cận Sau một chu kỳ số trao đổi tín hiệu trong mạng sẽ có các nơron với giá trị đầu vào net lớn hơn so với các nơron khác Chúng sẽ được coi là các

“nơron chiến thắng” (winning neural) và được kích hoạt lên giá trị đầu ra lớn nhất,

trong khi những nơron khác bị ức chế (giá trị đầu ra giảm xuống 0) Chính vì vậy

đôi khi mạng này còn được gọi là “winner-takes-all” Quá trình kích hoạt cạnh tranh này gọi là sự tiến hoá (evolution)

Thuật toán sắp xếp tự tổ chức (Self Organizing Map Algorthm) còn gọi là sự sắp xếp đặc trưng tôpô tự tổ chức (Self Organizing Topographic Feature Map) do

Kohonel phát triển vào những năm 80, nó được thực hiện trên mạng nơron với một lớp vào là một mảng một chiều và một lớp cạnh tranh( mảng hai chiều) Kohonel đã tạo ra một kiến trúc mạng khá nổi tiếng trong số các mạng nơron cạnh tranh, đó là

mạng SOM (Self Organizing Neural Network) hay còn được gọi theo tên tác giả là

mạng Kohonel Mạng SOM được tạo ra xuất phát từ cách thức mà theo đó cảm giác của các giác quan khác nhau của con người được sắp xếp theo tổ chức lôgic của các nơron trong bộ não

Hình 2.3: Kiến trúc mạng Kohonen

Trang 19

2.1.3 Huấn luyện mạng

2.1.3.1.Hoạt động của mạng

Hoạt động của mạng nơron có thể được xem như hoạt động của một hệ thống

xử lý thông tin được cấu thành từ nhiều phần tử hoạt động song song Như đã giới thiệu ở mục trước, chức năng của mạng được xác định bởi cấu trúc ,các liên kết có trọng số và hàm hoạt hoá của các nơron trong mạng

Khi mạng nơron hoạt động, các thành phần của vec tơ tín hiệu vào P=(p 1 ,

lớp ra sẽ được kích hoạt dẫn dần Sau một quá trình tính toán tại các nơron( tổng trọng số đàu vào kết hợp hệ số bias, hàm hoạt hoá), mạng sẽ được kích hoạt hoàn toàn và cho ra vectơ tín hiệu đầu ra A=(a1,a2, ,aS) tại S nơron ở lớp ra Với cách mô

tả hoạt động như vậy, ta có thể coi như mạng nơron như là một bảng tra cứu giữa P

và A, mà không cần biết hàm quan hệ tường minh của A theo P

Nhưng sự khác biệt với các hệ thống xử lý thông thường là khả năng thích nghi với dữ liệu vào Điều này là do việc các trọng số và các hệ số bias của mạng có thể hiệu chỉnh được để thích nghi với bài toán đặt ra Quá trình hiệu chỉnh các trọng

số và hệ số bias của mạng được gọi là quá trình huấn luyện mạng (training), và

mạng sẽ được huấn luyện theo các thuật toán học (learning algorithm) thích hợp

2.1.3.2 Huấn luyện mạng

a Học có giám sát

Với học có giám sát, mạng được cung cấp một tập K mẫu học { (P K ,T K )} với

P K là vectơ tín hiệu vào sẽ được đưa vào mạng và theo yêu cầu thì vectơ tín hiệu ra

tương ứng sẽ phải là T K (P-Patern input và T-Target output) Thực tế thì vectơ đầu

ra lại là Z K và sẽ có một sai số (error) so với T K Sai số này được giám sát và truyền

trở lại hệ thống để hiệu chỉnh các trọng số liên kết và các hệ số bias của mạng Quá trình đưa các mẫu học vào mạng được lặp đi lặp lại và mỗi lần như vậy các trọng số

và hệ số bias luôn được hiệu chỉnh , cho đến khi mạng đạt một tiêu chuẩn nào đó thì dừng lại

Trang 20

b Học không có giám sát:

Khác với kiểu huấn luyện có giám sát, ở đây tập huấn luyện chỉ bao gồm các

vectơ tín hiệu đầu vào { P K } Huấn luyện là quá trình hệ thống tự tìm ra các nhóm

họp ( cluster) của số liệu vào Điều này thường được gọi là sự tự tổ chức

(self-organizing) hay sự thích ứng (adaption)

Huấn luyện không được giám sát khá phức tạp Việc huấn luyện cho mạng Kohonel là một ví dụ Các tín hiệu đầu ra không được biết chính xác và việc hiệu chỉnh trọng số ứng với một mẫu tín hiệu vào để đầu ra của nơron “chiến thắng” lớn hơn hoặc gần giá trị mong muốn, còn tín hiệu đầu ra của các nơron lân cận sẽ được giảm đi

c Học tăng cường

Hình 2.4 : Học có giám sát

mong muốn

Đầu ra thựctế

Mạng ANN

Tạo tín hiệu lỗi

Hình 2.6: Học tăng cường

tín hiệuphê bình

tín hiệu tăngcường

Đầu ra thựctế

Mạng ANN

Tạo tín hiệuphê bình

Hình 2.5: Học không có giám sát

đầu vào

Đầu ra thựctế Mạng ANN

Trang 21

Học tăng cường là một biến thể của học có giám sát nó là quá trình học dựa trên việc cập nhật trọng số dựa vào một tín hiệu phê bình nào đó gọi là tín hiệu tăng

cường (reinforcement signal) Tín hiệu này được đưa đến từ môi trường bên ngoài

và được sử dụng như là một đại lượng ước lượng từ đó đưa đến cho mạng những chỉ dẫn yêu cầu để mạng cập nhật điều chỉnh tập trọng số cho thích hợp nhất

2.1.3.3 Một số luật học

Luật học (Learing rules) là thủ tục dùng để hiệu chỉnh các trọng số và hệ số bias

của mạng( cũng có thể gọi luật học là thuật toán huấn luyện mạng) Với mỗi một loại mạng lại có một luật học riêng Dưới đây liệt kê một số luật học phổ biến nhất

- Luật học Hebbian

+ Xuất xứ: Đây là một trong những luật học đầu tiên do Fonald Hebb đưa ra (1949) ông là người đã đưa ra cách giải thích cơ chế học của bộ não ở mức tế bào Các phương pháp hiệu chỉnh trọng số thường dựa trên luật Hebb

+ Đặc điểm: Dựa trên nguyên lý “trọng số liên kết giữa hai nơron sẽ thay đổi khi cả 2 nơron đều đồng thời bị kích hoạt” Là luật học được giám sát, dùng được trong nhiều mạng khác nhau Hạn chế là việc có thể tạo ra trọng số rất lớn

+ Ứng dụng: Dùng cho nhận dạng mẫu (bộ nhớ tự động kết hợp) Có một số luật học được xuất phát từ luật học này như luật giả nghịch đảo, luật delta, luật Hopfield

+ Ứng dụng: Dùng cho mạng phân loại các mẫu có khả tách tuyến tính

(pattern classification) , mạng của các hàm lôgic cơ bản

- Luật học lan truyền ngược

Trang 22

+ Xuất xứ: Luật học lan truyền ngược được thực sự đánh giá có hiệu quả là do Rumehart và McClelland đưa ra năm 1986, giải quyêt được vấn đề trọng số lớp ẩn

+ Đặc điểm: Là luật học được giám sát Huấn luyện cho mạng Perceptron đa

lớp MLP (Multilayer Perceptron) hay còn gọi là mạng BackProp

(Backpropagation) Nguyên lý của luật học này là việc lan truyền ngược sai số( còn

gọi là lan truyền ngược độ nhạy-Backpropagating the sensitivities) từ lớp ra trở lại

các lớp ẩn và đến đầu vào của mạng, từ đó tìm được cách hiệu chỉnh ma trận trọng

số và hệ số bias để tối thiểu hoá lỗi trung bình bình phương (mean squared error)

Tính toán lan truyền ngược sai số ở đây phải tính đạo hàm hàm hoạt hoá, sử dụng

luật dây chuyền (chain rule) để tính

+ Ứng dụng: Dùng cho mạng phân loại mẫu, mạng dùng để xấp xỉ các hàm

liên tục (function approximation)

- Luật học cạnh tranh (Competitive rule)

+ Xuất xứ: Luật học này lần đầu tiên được giới thiệu bởi Stephen Grossberg

từ những năm 60 và sau đó được phát triển bởi Teuvo Kohonel trong mạng tự tổ

chức (SOFM-Self Organizing Feature Map) của ông

+ Đặc điểm: Là luật học không giám sát Huấn luyện cho các lưới mạng như

Kohonel, mạng lan truyền đối chiếu (counter-propagation) Nguyên lý dựa trên sự

kích hoạt cạnh tranh của các nơron cùng lớp Sự hiệu chỉnh trọng số nhằm định hướng vectơ trọng số của các nơron phân bố theo dạng tôpô của không gian mẫu vào, vấn đề chính ở luật học này là tìm ra nơron chiến thắng và mối quan hệ lân cận giữa các nơron Luật học thường đòi hỏi nhiều mẫu học và số lần lặp lớn

+ Ứng dụng : Mạng trích chọn đặc trưng, mạng phân loại mẫu Điển hình phải

kể đến mạng Kohonel, mạng lan truyền đối chiếu, mạng lượng tử hoá vectơ

(LVQ-Learning Vecto Quantization)

2.1.4 Mạng Perceptron

2.1.4.1.Kiến trúc mạng

Cuối những năm 1950, Frank Rosenblatt và một số nhà nghiên cứu đã phát triển một mạng nơron có tên là mạng Perceptron Đây là một mạng nơron với kiến

Trang 23

trúc truyền thẳng một lớp, với lớp ra là các nơron có hàm hoạt hoá là hàm limit

hard-Khi cho một vectơ mẫu vào P, tín hiệu đầu ra của nơron thứ i của lớp ra sẽ là:

a i =hardlimit(W i T +b i )=hardlimit(n net )=

0nkhi1

net net

Trong đó b i là hệ số bias của nơron thứ i và Wi T là ma trận chuyển vị của W i là

ma trận trọng số riêng của nơron thứ i Với vectơ mẫu vào có R thành phần ta có thể biểu diễn W i nhƣ sau:

i i

i

w

w w W

,

2 ,

1 ,

 (2.5)

Mạng đƣợc cấu trúc với S nơron lớp ra, do đó ma trận trọng số của toàn mạng

W sẽ đƣợc biểu diễn nhƣ công thức sau:

R R

i

w w w w

w w w w W

, 3 , 2 , 1 ,

, 2 3 , 2 2 , 2 1 , 2

, 1 3 , 1 2 , 1 1 , 1

T T

W

W W

W



2 1

(2.7)

Đóng góp của Rosenblatt đối với loại mạng này chính là luật học Perceptron

để huấn luyện mạng sử dụng trong bài toán nhận dạng mẫu Việc huấn luyện mạng khá đơn giản

- Biên quyết định (decision Boundary):

Theo thiết kế mạng Perceptron nhƣ trên, từ công thức… ta nhận thấy một đầu

ra ai sẽ phân chia không gian mẫu đầu vào ra thành 2 vùng Ranh giới giữa hai vùng

Trang 24

này được xác định bởi một biên quyết định Đó là một biên tuyến tính hay siêu

phẳng (hyperplane) Hình 2.12 dưới đây thể hiện một ví dụ về mạng Perceptron một nơron lớp ra với hai đầu vào p 1 ,p 2 (tương đương với hai nơron lớp vào) Với những giá trị trọng số và hệ số bias đã cho ta có thể thấy trên đồ thị biên quyết định phân chia 2 miền không gian mẫu vào

Biên quyết định được xác định bởi các vectơ đầu vào ứng với n net=0 do đó biên quyết định được xác định bằng phương trình sau:

n net =W i T P +b i =w i,1 p 1 + w i,2 p 2 +… w i,R p R +b i =0 (2.8)

Vectơ trọng số sẽ luôn trực giao với đường biên quyết định

- Luật học Perceptron

Vai trò của luật học Perceptron là để thiết lập các trọng số và các hệ số bias của mạng sao cho mạng xác lập biên quyết định phân loại tập mẫu vào Tập mẫu

vào huấn luyện mạng gồm có các mẫu p i đã được xác định trước tín hiệu ra yêu cầu

ti (kết quả đích) Như vậy luật học này thuộc loại được giám sát

Luật học Perceptron được mô tả như sau:

+ Bước 1: Cung cấp tập huấn luyện gồm K cặp mẫu vào và kết quả ra đích

Trang 25

+ Bước 3: Lần lượt cho các mẫu P K lan truyền qua mạng ta được vectơ tín

hiệu A K

+ Bước 4: Tính các sai số ei tại các đầu ra của mạng theo công thức sau: e i =t i -a i

với t i là kết quả ra đích tại nơron i của lớp ra còn ai là tín hiệu ra thực tế của nó

+ Bước 5: Hiệu chỉnh các ma trận trọng số W i và hệ số bias b i của S nơron

có được ma trận trọng số và các hệ số bias thích ứng với k mẫu học

{ (P K ,T K )} Cách hiệu chỉnh tham số dựa trên sai số e như trên được gọi là

phương pháp tối thiểu hoá lỗi dự đoán (prediction error)

- Sự hội tụ:

Rosenblatt đã chứng minh được phép lặp của quá trình huấn luyện luôn luôn hội tụ về ma trận trọng số và các hệ số bias mà với chúng mạng hoàn toàn đạt được một sự phân lớp các mẫu như mong muốn Tất nhiên điều kiện ở đây là không gian mẫu phải tồn tại biên quyết định hay còn gọi là không gian mẫu khả tách tuyến tính

(linearly separable) Trong phạm vi luận văn này không trình bày về vấn đề chứng

minh này mà chỉ đưa ra một ví dụ về không gian mẫu khả tách tuyến tính

Hình2.8: Không gian mẫu khả tách tuyến tính

p1

p2

Trang 26

Mạng Perceptron một lớp chỉ thực hiện được các bài toán đơn giản Mạng chỉ

có thể tính toán xấp xỉ một hàm liên tục bất kỳ đối với các biến tương ứng là các tín hiệu đầu vào vào nó chỉ có thể giải quyết được các bài toán phân lớp với các không gian mẫu có tính khả tách tuyến tính Một ví dụ kinh điển do Minsky và Papert đưa

ra để chứng minh hạn chế của mạng Perceptron đó là tập hợp mẫu học với quan hệ đầu vào và đầu ra theo hàm XOR

cơ bản trong luật học cua rmạng Perceptron nhiều lớp nhưng mãi đến những năm 80 thì mạng Perceptron đa lớp mới thực sự được chú ý nghiên cứu và phát triển

P3

P1

t=0 t=1

Hình 2.9: Không gian mẫu không khả tách tuyến tính

Trang 27

2.1.5.1.Kiến trúc mạng

Mạng Perceptron một lớp chỉ có thể giải quyết được những bài toán khả tách tuyến tính Trong thực tế, không gian mẫu lại thường không thoả mãn điều kiện

này Nhưng với mạng Perceptron đa lớp (MLP) thì vấn đề này có thể được giải

quyết Kiến trúc mạng MLP là kiến trúc mạng truyền thẳng đa lớp (có từ một đến 3

lớp ẩn), hàm hoạt hoá có thể nhiều dạng không phải chỉ là hàm hardlimit như ở

mạng Perceptron kinh điển Nhưng các nơron trong cùng một lớp thì cùng một hàm hoạt hoá Kiến trúc mạng MLP ba lớp ẩn được cho bởi hình vẽ 2.16

Để chỉ ra khả năng của mạng MLP giải quyết bài toán phân lớp không gian mẫu không khả tách tuyến tính, ta xét một cấu hình mạng nơron một lớp ẩn có thể giải quyết bài toán quan hệ hàm XOR do Minsky và Papert đưa ra

Mạng MLP được chỉ ra trong hình vẽ với hai nơron lớp ẩn và một nơron lớp

ra Hàm hoạt hoá đều là hàm Hardlimit Vai trò của các nơron lớp ẩn là độc lập

phân tách không gian mẫu thành hai vùng riêng biệt, còn nơron lớp ra thực hiện việc kết hợp các vùng đã được phân chia để tạo thành các phân lớp mong muốn

Hình2.14: Mạng Perceptron đa lớp (MLP)

Trang 28

Các mạng MLP ngoài khả năng phân lớp không gian mẫu bất kỳ, nó còn có

thể được dùng để thực hiện việc xấp xỉ hàm liên tục ( function approximation)

Rosenblatt đã không giải quyết được vấn đề hiệu chỉnh ma trận trọng số của các lớp ẩn trong mạng Perceptron đa lớp MLP Cho đến năm 1986, một thuật toán khá hiệu quả để huấn luyện cho mạng MLP mới được đưa ra bởi Rumehart và McCelland Đó chính là luật học lan truyền ngược dùng cho mạng MLP

Nguyên lý của luật học này là việc lan truyền ngược sai số (còn gọi là lan

truyền ngược độ nhạy-Backpropagating the sensitivitives) từ lớp ra trở lại các lớp

ẩn và đến đầu vào mạng và từ đó tìm ra cách hiệu chỉnh ma trận trọng số và các hệ

số bias để tối thiểu hoá sai số trung bình bình phương Để tính toán cho việc lan truyền ngược sai số ở đây phải sử dụng đạo hàm hàm hoạt hoá, và việc tính toán phải thực hiện lần lượt qua từng lớp từ đầu ra trở lại đầu vào Trước hết ta có các khái niệm

- Sai số trung bình bình phương (mean squared error)

Cho tập mẫu vào huấn luyện mạng { (PK,TK)} gồm có các mẫu p i đã được xác

định trước tín hiệu ra yêu cầu t i Khi mẫu t i được lan truyền qua mạng và cho tín

hiệu đầu ra là a i ta có thể định nghĩa sai số trung bình bình phương là như sau:

t E e E x F

1

2 2

2

)(2

1])[(

][[

)( (2.11) Trong đó x là vectơ trọng số và hệ số bias của mạng được viết như sau:

Hình 2.10: Mạng MLP giải quyết bài toán XOR

Trang 29

(2.12)

Mục tiêu của huấn luyện mạng là nhằm điều chỉnh W i và b sao cho F(x) đạt

giá trị nhỏ nhất Đây chính là nguyên tắc huấn luyện mạng MLP Nguyên tắc này

được thực hiện bằng cách lấy đạo hàm riêng của F(x) theo các trọng số w và hệ số

bias và hiệu chỉnh trọng số và hệ số bias tại bước lặp thứ k+1 theo công thức sau:

m j

m j m

j

w

F k

w k

w

, ,

i

b

F k

b k

chính là nguyên tắc hiệu chỉnh trọng số gần giống luật delta, tức là trị số hiệu chỉnh

tỷ lệ thuận với vi phân từng phàn của hàm sai số trung bình bình phương theo các trọng số để tối thiểu hoá hàm này

- Luật dây chuyền (chain rule):

Vấn đề chính trong công thức trên là tính đạo hàm riêng của hàm F như thế nào Trong các lớp ẩn, F không phải là một hàm hiện mà là hàm gián tiếp của các

trọng số, chính vì vậy mà ta phải sử dụng đến luật dây chuyền để tính các đạo hàm

riêng Với luật dây chuyền,ta giả thiết hàm F là hàm hiện duy nhất của một biến n,

khi đó có thể tính đạo hàm của hàm F theo một biến thứ 3 là w như sau:

dw

w dn dn

n df dw

w n

df( ( )) ( ) ( ) (2.15)

Sử dụng công thức 2.15 ta có thể tính đạo hàm riêng của F trong các công thức

2.13 và 2.14 Ta có tín hiệu n net của nơron thứ i của lớp m được tính như sau:

m

i S

j

m j m j m

m i

a w

m i

b n

(2.17)

Trang 30

Sử dụng luật dây chuyền 2.15 ta có:

1 ,

m i m i m

j

a n

F w

n n

F w

F

m i m i

m i m i m

F b

n n

F b

- Luật học lan truyền ngược (Back-propagation)

Thuật học lan truyền ngược với mạng MLP được mô tả như sau:

+ Bước 1: Cung cấp tập mẫu huấn luyện gồm K cặp mẫu vào và kết quả ra đích + Bước 2: Khởi tạo giá trị ban đầu cho các trọng số và thiết lập các tham số của mạng

+ Bước 3: Lần lượt cho K mẫu lan truyền qua mạng từ lớp vào tới lớp ra Ta

có thể diễn tả việc tính toán tín hiệu ra ở từng lớp như sau:

a 0 =P K (mẫu vào)

+ Bước 4: Tính sai số trung bình bình phương và lan truyền ngược sai số này

về các lớp trước

+ Bước 5: Cập nhật các trọng số liên kết theo hướng giảm dốc nhất Gradient Quá trình lặp lại từ bước 3 cho đến khi giá trị sai số trung bình bình phương là nhỏ ở mức chấp nhận được

- Sự hội tụ:

Thuật toán lan truyền ngược hội tụ đến một giải pháp mà nó tối thiểu hoá được sai số trung bình bình phương vì cách thức hiệu chỉnh trọng số và hệ số bias của thuật toán là ngược hướng với vectơ Gradient của hàm sai số trung bình bình phương đối với trọng số Tuy nhiên, đối với mạng MLP thì hàm sai số trung bình bình phương thường phức tạp và có nhiều cực trị cục bộ, vì thế các phép lặp huấn luyện mạng có thể chỉ đạt được đến cực trị cục bộ của hàm sai số trung bình bình phương mà không đạt đến được cực trị tổng thể

Vấn đề quá trình huấn luyện sẽ hội tụ như thế nào sẽ phụ thuộc vào các điều kiện ban đầu của quá trình huấn luyện Đặc biệt là việc chọn hệ số học  như thế

Trang 31

nào để tăng khả năng hội tụ của mạng Với mỗi bài toán ta lại có phương án chọn hệ

số học khác nhau

Như vậy khi một quá trình huấn luyện theo thuật toán lan truyền ngược hội tụ,

ta chưa thể khẳng định được nó đã hội tụ đến phương án tối ưu Ta cần phải thử với một số điều kiện ban đầu để đảm bảo thu được phương án tối ưu

2.2 CƠ SỞ LÝ THUYẾT GIẢI THUẬT DI TRUYỀN

2.2.1 Khái niệm

Giải thuật di truyền cung cấp một cách tiếp cận cho việc học dựa vào mô phỏng sự tiến hóa Các giả thuyết thường được mô tả bằng các chuỗi bit, việc hiểu các chuỗi bit này tùy thuộc vào ứng dụng, ý tưởng các giả thuyết cũng có thể được

mô tả bằng các biểu thức kí hiệu hoặc ngay cả các chương trình máy tính Tìm kiếm giả thuyết thích hợp bắt đầu với một quần thể, hay một tập hợp có chọn lọc ban đầu của các giả thuyết Các cá thể của quần thể hiện tại khởi nguồn cho quần thể thế hệ

kế tiếp bằng các hoạt động lai ghép và đột biến ngẫu nhiên – được lấy mẫu sau các quá trình tiến hóa sinh học Ở mỗi bước, các giả thuyết trong quần thể hiện tại được ước lượng liên hệ với đại lượng thích nghi được cho, với các giả thuyết phù hợp nhất được chọn theo xác suất là các hạt giống cho việc sản sinh thế hệ kế tiếp Giải thuật di truyền đã được ứng dụng một cách thành công cho những tác vụ học khác nhau và cho các vấn đề tối ưu hóa khác Ví dụ, chúng đã được dùng để học tập luật điều khiển robot

và để tối ưu hóa các thông số học và tôpô cho mạng nơron nhân tạo

ở thời điểm hiện tại Sự phổ biến của GAs được thúc đẩy bởi các yếu tố sau:

 Tiến hóa là một phương pháp mạnh, thành công cho sự thích nghi bên trong các hệ thống sinh học

Trang 32

 GA có thể tìm kiếm trên các không gian giả thuyết có các phần tương tác phức tạp, ở đó ảnh hưởng của mỗi phần lên toàn thể độ thích nghi giả thuyết khó có thể mô hình

 Thuật giải GA có thể được thực hiện song song và có thể tận dụng thành tựu của phần cứng máy tính mạnh

2.2.3 Giải thuật di truyền

Bài toán dành cho GAs là tìm kiếm trên không gian các giả thuyết ứng cử để xác định giả thuyết tốt nhất Trong GAs “giả thuyết tốt nhất” được định nghĩa như

là một giả thuyết tối ưu hóa một đại lượng số được định nghĩa trước cho bài toán

sắp tới, được gọi là độ thích nghi của giả thuyết Ví dụ, nếu tác vụ học hỏi là bài

toán xấp xỉ một hàm chưa biết cho tập mẫu huấn luyện gồm dữ liệu đầu vào và dữ liệu đầu ra, thì độ thích nghi có thể được định nghĩa như là độ chính xác của giả thuyết trên dữ liệu huấn luyện này Nếu tác vụ là học chiến lược chơi cờ, độ thích nghi có thể là số ván thắng của chiến lược này khi đấu với các chiến lược khác trong quần thể hiện tại

Mặc dù các giải thuật di truyền được thực hiện thay đổi theo bài toán cụ thể, nhưng chúng chia sẻ chung cấu trúc tiêu biểu sau: Thuật giải hoạt động bằng cách cập nhật liên tục tập giả thuyết – được gọi là quần thể Ở mỗi lần lặp, tất cả các cá thể trong quần thể được ước lượng tương ứng với hàm thích nghi Rồi quần thể mới được tạo ra bằng cách lựa chọn có xác suất các cá thể thích nghi tốt nhất từ quần thể hiện tại Một số trong những cá thể được chọn được đưa nguyên vẹn vào quần thể

kế tiếp Những cá thể khác được dùng làm cơ sở để tạo ra các cá thể con bằng cách

áp dụng các tác động di truyền: lai ghép và đột biến

Thuật toán di truyền gồm có bốn quy luật cơ bản là lai ghép, đột biến, sinh sản

và chọn lọc tự nhiên như sau:

a Quá trình lai ghép (phép lai)

Quá trình này diễn ra bằng cách ghép một hay nhiều đoạn gen từ hai nhiễm sắc thể cha-mẹ để hình thành nhiễm sắc thể mới mang đặc tính của cả cha lẫn mẹ Phép lai này có thể mô tả như sau:

Trang 33

Chọn ngẫu nhiên hai hay nhiều cá thể trong quần thể Giả sử chuỗi nhiễm sắc thể của cha và mẹ đều có chiều dài là m

Tìm điểm lai bằng cách tạo ngẫu nhiên một con số từ 1 đến m-1 Như vậy, điểm lai này sẽ chia hai chuỗi nhiễm sắc thể cha-mẹ thành hai nhóm nhiễm sắc thể con là m1 và m2 Hai chuỗi nhiễm sắc thể con lúc này sẽ là m11+m22 và m21+m12 Đưa hai chuỗi nhiễm sắc thể con vào quần thể để tiếp tục tham gia quá trình tiến hóa

b Quá trình đột biến (phép đột biến)

Quá trình tiến hóa được gọi là quá trình đột biến khi một hoặc một số tính trạng của con không được thừa hưởng từ hai chuỗi nhiễm sắc thể cha-mẹ Phép đột biến xảy ra với xác suất thấp hơn rất nhiều lần so với xác suất xảy ra phép lai Phép đột biến có thể mô tả như sau:

Chọn ngẫu nhiên một số k từ khoảng 1 ≥ k ≥ m

Thay đổi giá trị của gen thứ k

Đưa nhiễm sắc thể con vào quần thể để tham gia quá trình tiến hóa tiếp theo

c Quá trình sinh sản và chọn lọc (phép tái sinh và phép chọn)

Phép tái sinh: là quá trình các cá thể được sao chép dựa trên độ thích nghi của

nó Độ thích nghi là một hàm được gán các giá trị thực cho các cá thể trong quần thể của nó Phép tái sinh có thể mô phỏng như sau:

Tính độ thích nghi của từng cá thể trong quần thể, lập bảng cộng dồn các giá trị thích nghi đó (theo thứ tự gán cho từng cá thể) ta được tổng độ thích nghi Giả sử quần thể có n cá thể Gọi độ thích nghi của cá thể thứ i là Fi, tổng dồn thứ i là Ft.Tổng độ thích nghi là Fm

Tạo số ngẫu nhiên F có giá trị trong đoạn từ 0 đến Fm

Chọn cá thể k đầu tiên thỏa mãn F ≥ Ft đưa vào quần thể của thế hệ mới Phép chọn: là quá trình loại bỏ các cá thể xấu và để lại những cá thể tốt Phép chọn được mô tả như sau:

Sắp xếp quần thể theo thứ tự độ thích nghi giảm dần

Loại bỏ các cá thể cuối dãy, chỉ để lại n cá thể tốt nhất

Trang 34

Giải thuật di truyền mẫu

GA( Fitness, Fitness_threshold, p, r, m)

{

// Fitness: hàm gán thang điểm ước lượng cho một giả thuyết

// Fitness_threshold: Ngưỡng xác định tiêu chuẩn dừng giài thuật tìm kiếm // p: Số cá thể trong quần thể giả thuyết

// r: Phân số cá thể trong quần thể được áp dụng toán tử lai ghép ở mỗi bước

// m: Tỉ lệ cá thể bị đột biến

 Khởi tạo quần thể: P  Tạo ngẫu nhiên p cá thể giả thuyết

 Ước lượng: Ứng với mỗi h trong P, tính Fitness(h)

 while [max Fitness(h)] < Fitness_threshold do

Tạo thế hệ mới, PS

vào P S Xác suất Pr(h i ) của giả thuyết h i thuộc P được tính bởi công thức:

1

( )Pr( )

( )

i

j j

Fitness h h

áp dụng toán tử lai ghép Thêm tất các các con vào P S

nhau Ứng với mỗi cá thể biến đổi một bit được chọn ngẫu nhiên trong cách thể hiện của nó

 Trả về giả thuyết trong P có độ thích nghi cao nhất

}

Trang 35

Quần thể gồm p cá thể Ở mỗi lần lặp, quần thể kế tiếp P S được hình thành từ việc lựa chọn theo xác suất các giả thuyết hiện tại theo độ thích nghi của chúng và bằng cách thêm vào các giả thuyết mới Các giả thuyết mới được tạo ra bằng cách

áp dụng toán tử lai ghép cho cặp giả thuyết thích nghi nhất và bằng cách tạo ra các đột biến điểm đơn trong thế hệ giả thuyết kết quả Quá trình này được lặp cho đến khi các giả thuyết thích hợp được phát hiện Các toán tử lai ghép và đột biến tiêu biểu được định nghĩa trong bảng kế tiếp

Một giải thuật di truyền mẫu được mô tả trong bảng 2.1 Các đầu vào cho thuật giải này bao gồm hàm tính độ thích nghi để tính hạng cho các giả thuyết ứng

cử, một giá trị ngưỡng được định nghĩa cấp độ thích nghi có thể chấp nhận để kết thúc thuật giải, kích thước quần thể, và các tham số quyết định các quần thể kế tiếp được tạo ra như thế nào: phần quần thể bị thay thế ở mỗi thế hệ và tỉ lệ đột biến Lưu ý trong thuật giải này, ở mỗi bước lặp qua vòng lặp chính tạo ra một thế

hệ mới các giả thuyết dựa vào quần thế hệ hiện tại Trước tiên, một số giả thuyết được chọn từ quần thể hiện tại để đưa vào thế hệ kế tiếp Những giả thuyết này được chọn theo xác suất, ở đây xác suất của giả thuyết được tính bởi:

1

( )Pr( )

( )

i

j j

Fitness h h

một phân số m nào đó các cá thể này được chọn một cách ngẫu nhiên, và tất cả các

đột biến ngẫu nhiên được thực hiện để thay đổi các cá thể này

Trang 36

2.2.4 Thể hiện các giả thuyết

Các giả thuyết trong GAs thường được thể hiện dưới dạng chuỗi các bit, để chúng có thể dễ dàng được thực hiện bởi các toán tử di truyền: đột biến và lai ghép Các giả thuyết được thể hiện bởi chuỗi bit này có thể khá phức tạp Ví dụ, tập các

luật if-then có thể dễ dàng được thể hiện theo cách này, bằng cách chọn một cách

thức mã hóa các luật để phân bố các chuỗi con riêng cho mỗi điều kiện trước và điều kiện sau của luật Các ví dụ về sự thể hiện các luật này trong các hệ thống GAs được mô tả bởi Hooland (1986); Grefenstette (1988); và DeJong et al (1993)

Để thấy các luật if-then có thể được mã hóa bằng các chuỗi bit như thế nào,

trước tiên hãy xem chúng ta có thể sử dụng chuỗi bit như thế nào để mô tả ràng buộc trên giá trị của thuộc tính đơn Để lấy một ví dụ, hãy xem xét thuộc tính

Outlook, thuộc tính này có thể lấy bất kì giá trị nào trong ba giá trị: Sunny, Overcast

hoặc Rain Một cách rõ ràng để thể hiện ràng buộc cho Outlook là dùng một chuỗi

bit có chiều dài 3, mỗi vị trí bit tương ứng với một trong ba giá trị có thể của nó Đặt giá trị 1 ở một vài vị trí để chỉ ra rằng thuộc tính được phép lấy giá trị tương

ứng Ví dụ, chuỗi 010 thể hiện ràng buộc Outlook phải lấy giá trị thứ hai trong các giá trị này, hay là Outlook = Overcast Một cách tương tự, chuỗi 011 thể hiện ràng buộc tổng quát hơn là cho phép hai giá trị có thể, hay là Outlook = Overcast  Rain

Chú ý 111 thể hiện ràng buộc có thể tổng quát nhất, chỉ ra rằng chúng ta không quan tâm giá trị nào trong các giá trị có thể của nó mà thuộc tính giữ

Đưa ra phương pháp này để thể hiện các ràng buộc trên thuộc tính đơn, các liên kết của các ràng buộc trên nhiều thuộc tính có thể dễ dàng được thể hiện bằng

cách nối các chuỗi bit tương ứng Ví dụ, xem xét thuộc tính thứ hai, Wind, có thể lấy giá trị Strong hoặc Weak Điều kiện trước của luật chẳng hạn như,

(Outlook = Overcast  Rain)  (Wind = Strong)

có thể được thể hiện bởi chuỗi bit có chiều dàl là 5 sau:

Định dạng
Số trang	72
Dung lượng	1,1 MB