Nhận dạng chữ viết tiếng việt dùng mô hình mờ hai chiều

Chương 1 : GIỚI THIỆU 1.1 Đặt vấn đề Phân tích tài liệu và nhận dạng các địa chỉ một cách tự động trong việc diễn dịch các ảnh của các tài liệu viết tay cũng như bản in, bao gồm văn bản

Trang 1

NGÔ QUANG TÂN

NHẬN DẠNG CHỮ VIẾT TIẾNG VIỆT

DÙNG MÔ HÌNH MỜ HAI CHIỀU

Chuyên Ngành: KỸ THUẬT VÔ TUYẾN - ĐIỆN TỬ Mã Số Ngành: 2.07.01

LUẬN VĂN THẠC SĨ

Trang 2

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH

Cán bộ hướng dẫn khoa học: PGS-TS Lê Tiến Thường

Trang 3

Tp HCM, ngày 14 tháng 7 năm 2006

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ tên học viên: NGÔ QUANG TÂN Phái: Nam

Ngày, tháng, năm sinh: 22.09.1979 Nơi sinh: TP HCM

Chuyên ngành: Kỹ thuật vô tuyến – điện tử MSHV: 01404347

I- TÊN ĐỀ TÀI: NHẬN DẠNG CHỮ VIẾT TIẾNG VIỆT DÙNG MÔ HÌNH

MỜ HAI CHIỀU

II-NHIỆM VỤ VÀ NỘI DUNG:

- Tìm hiểu tổng quan về hệ thống nhận dạng chữ viết tay

- Tìm hiểu các phương pháp trích đặc trưng chữ viết tay và các phương pháp

phân loại cho hệ thống nhận dạng

- Chọn một phương pháp trích đặc trưng chữ viết tay, dùng giải thuật mờ K

lân cận gần nhất và mạng Neural để phân loại ký tự viết tay đầu vào

- Đề nghị các công việc tiếp theo để hoàn thiện hệ thống nhận dạng chữ viết

tay

III- NGÀY GIAO NHIỆM VỤ : 06.02.2006

IV- NGÀY HOÀN THÀNH NHIỆM VỤ : 30.06.2006

V- CÁN BỘ HƯỚNG DẪN : PGS-TS LÊ TIẾN THƯỜNG

Trang 4

Tôi chân thành gởi lời biết ơn sâu sắc Thầy Giáo Hướng dẫn PGS-TS Lê Tiến Thường

và TS Hoàng Đình Chiến hiện đang công tác tại Khoa Điện – Điện tử, trường ĐH Bách khoa, ĐH Quốc Gia Tp Hồ Chí Minh đã tận tình hướng dẫn, định hướng, tạo nhiều điều kiện thuận lợi, giúp đỡ tôi hoàn thành luận văn thạc sĩ này thông qua những buổi báo cáo định kỳ

Chân thành cám ơn Quý Thầy Cô đã tận tình giảng dạy, trang bị những kiến thức cần thiết nhất trong suốt thời gian 2 năm học tập và nghiên cứu tại trường

Chân thành cám ơn Phòng Đào Tạo Sau Đại Học, trường Đại học Bách Khoa Tp Hồ Chí Minh đã tạo điều kiện tốt cho tôi trong suốt khóa học

Chân thành cám ơn các đồng nghiệp tại 2 tổ Kỹ thuật truyền dẫn – Trung tâm chuyển mạch truyền dẫn và Ứng cứu thông tin – Công ty Điện thoại Tây – Bưu điện TP HCM

đã tạo mọi điều kiện thuận lợi cho tôi trong suốt quá trình học tập

Và cuối cùng, cám ơn các bạn học viên cao học ngành Kỹ thuật Vô tuyến – Điện tử khóa 15, gia đình và bạn bè đã ủng hộ, giúp đỡ tôi trong học tập và thực hiện luận văn tốt nghiệp này

Ngô Quang Tân

Trang 5

ABSTRACT

The research work described in this dissertation is aimed at developing improved handwritten character classifiers for use in off-line handwritten word recognition The bar-features are calculated on binary images of isolated characters that need not be size normalized Initially, eight features images are generated Each features image corresponds to one of the directions: east, northeast, north, and northwest, in either the foreground or the background Each feature image has an integer value at each location that represents the length of the longest bar that fits at that point in that direction A fuzzy K-nearst neighbor algorithm is used for classification the ambiguous handwritten characters Besides, a multi-layer feedforward neural network is also designed for recognition These new mothodologies have resulted in significant improvements in handwritten word recognition performance Recognition rates of over 90% were achieved using a single word recognition and an average lexicon size of 100

TÓM TẮT

Thời gian gần đây có rất nhiều phương pháp nhận dạng chữ viết tay gồm có: sử dụng suy luận Bayes, mạng Neural, logic mờ, biến đổi Wavelet…Trong luận văn này, công việc nghiên cứu hướng đến việc phát triển và cải tiến các bộ phân loại trong nhận dạng chữ viết tay off-line Các đặc điểm thanh được tính trên các ảnh nhị phân của các ký tự viết tay mà không cần chuẩn hóa kích thước ảnh Ban đầu, tám ảnh đặc điểm sẽ được tạo ra, mỗi ảnh đặc điểm tương đương với một hướng: đông, bắc, đông-bắc và tây-bắc cho ảnh foreground và background Mỗi ảnh đặc điểm có một giá trị nguyên tại mỗi vị trí biểu diễn cho chiều dài của đoạn dài nhất tương ứng với điểm của hướng đó Giải thuật mờ K-lân cận gần nhất được dùng để phân loại các chữ viết tay không rõ ràng này Ngoài ra, một mạng neuron truyền thẳng nhiều lớp cũng được thiết kế cho sự nhận dạng các chữ viết tay Các phương pháp mới này cho kết quả với sự cải tiến nhiều trong hiệu quả nhận dạng chữ viết tay Tỷ lệ nhận dạng đạt được là trên 90% trong việc nhận dạng một từ với nguồn từ vựng huấn luyện là khoảng 100 từ

Trang 6

MỤC LỤC

DANH SÁCH CÁC HÌNH 5

Chương 1 : GIỚI THIỆU 7

1.1 Đặt vấn đề 7

1.2 Tổng quan tình hình nghiên cứu 8

1.3 Mục tiêu đề tài 11

1.4 Nội dung nghiên cứu 11

1.5 Bố cục luận văn 12

Chương 2 : CÁC VẤN ĐỀ TRONG NHẬN DẠNG CHỮ VIẾT 13

2.1 Sự phát sinh ra chữ viết tay 13

2.2 Các khó khăn trong nhận dạng ký tự viết tay 13

2.3 Các loại nhận dạng ký tự viết tay 15

Chương 3 : GIẢI THUẬT MỜ K-LÂN CẬN GẦN NHẤT 17

3.1 Giới thiệu 17

3.2 Các tập hợp mờ 18

3.3 Các giải thuật K lân cận gần nhất 19

3.3.1 Giải thuật rõ K-NN 19

3.3.2 Phân nhóm mờ K-NN 20

Chương 4 : MẠNG NEURON NHÂN TẠO 23

4.1 Giới thiệu mạng Neural nhân tạo 23

4.2 Mô hình neuron nhân tạo 25

4.3 Phân loại các mạng nơron 26

4.3.1 Theo kiểu liên kết nơron 26

4.3.2 Theo số lớp 27

4.4 Các cách tiếp cận mạng nơron 28

4.5 Khả năng tính toán và biểu diễn phụ thuộc dữ liệu của mạng nơron 29

4.6 Xác định cấu trúc mạng tối ưu 30

Trang 7

4.7 Tổng quát hóa mạng neuron 31

4.7.1 Nhiễu 31

4.7.2 Vấn đề quá khớp 31

4.7.3 Kích thước mẫu 31

4.8 Ánh xạ mạng neuron 32

4.9 Mạng Perceptron 33

4.9.1 Kiến trúc mạng 33

4.9.2 Huấn luyện mạng 35

4.9.3 Khả năng ứng dụng cho nhận dạng ảnh 37

4.10 Mạng Perceptron đa lớp 38

4.11 Mạng kết hợp tuyến tính 47

4.12 Mạng Kohonen 49

Chương 5 : NHẬN DẠNG ẢNH 54

5.1 Nguyên lý nhận dạng ảnh 54

5.1.1 Giới thiệu chung 54

5.1.2 Các khái niệm cơ bản 54

5.2 Tiến trình nhận dạng ảnh 56

5.2.1 Thu thập dữ liệu (Data Collection) 57

5.2.2 Tiền xử lý (Preprocessing) 57

5.2.3 Phân đoạn (Segmentation) 57

Trang 8

5.2.4 Tiêu chuẩn hóa (Normalization) 57

5.2.5 Trích chọn những đặc trưng (Feature Extraction) 58

5.2.6 Phân lớp (Classification) 58

5.2.7 Hậu xử lý (Postprocessing) 58

5.3 Các phương pháp số nhận dạng ảnh 59

5.3.1 Trích chọn đặc trưng 59

5.3.2 Kỹ thuật phân lớp mẫu 63

5.4 Phương pháp nhận dạng cấu trúc 70

5.4.1 Biểu diễn các đặc trưng mẫu bằng phương pháp cấu trúc 70

5.4.2 Kỹ thuật phân lớp mẫu 72

Chương 6 : DÙNG MATLAB NHẬN DẠNG CHỮ VIẾT TAY 76

6.1 Mô tả chương trình mô phỏng 76

6.2 Quá trình thực hiện 77

6.2.1 Lọc nhiễu: 77

6.2.2 Chuẩn lại kích thước ảnh ngõ vào 78

6.2.3 Trích các đặc điểm định hướng của ký tự viết tay 78

6.2.4 Phân loại các mẫu cần nhận dạng 82

6.2.5 Phân loại dùng giải thuật mờ K lân cận gần nhất: 82

6.2.6 Phân loại dùng mạng neural 86

6.3 Kết quả thực hiện 90

Chương 7 : KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ĐỀ TÀI 91

7.1 Kết luận 91

7.2 Hướng phát triển đề tài 91

TÀI LIỆU THAM KHẢO 92

LÝ LỊCH TRÍCH NGANG 94

Trang 9

DANH SÁCH CÁC HÌNH

Hình 2.1: Các quá trình lý-sinh và tâm-vật lý trong việc tạo ra chữ viết tay 13

Hình 2.2: Ba loại từ viết tay: chữ viết thường, chữ in hoa và chữ kết hợp 14

Hình 2.3: Quá trình nhận dạng từ viết tay 16

Hình 4.1: Dạng neuron McCulloch và Pitts 23

Hình 4.2: Mô hình nơron nhân tạo 25

Hình 4.3: Khả năng tính toán các mạch cơ sở của nơron 26

Hình 4.4: Mạng nơron truyền thẳng và nhiều lớp 27

Hình 4.5: Mạng nơron hồi qui 27

Hình 4.6: Học tham số có giám sát 29

Hình 4.7: Mô hình mạng Perceptron 1 lớp 34

Hình 4.8: Biên quyết định trong không gian mẫu 35

Hình 4.9: Không gian mẫu khả tách tuyến tính 37

Hình 4.10: Không gian mẫu không khả tách tuyến tính 37

Hình 4.11: Phân lớp không gian mẫu với mạng Perceptron 2 nơron lớp ra .38

Hình 4.12: Mạng Perceptron đa lớp (MLP) 39

Hình 4.13: Mạng MLP giải quyết bài toán XOR 40

Hình 4.14: Phân lớp mẫu với mạng MLP 3 lớp 47

Hình 4.15: Kiến trúc mạng tuyến tính 48

Hình 4.16 Quan hệ lân cận trong lớp Kohonen 50

Hình 4.17: Kiến trúc mạng Kohonen 51

Hình 4.18: Mã hóa vector đầu vào với mạng SOFM 52

Hình 5.1: Tiến trình xử lý ảnh 56

Hình 5.2: Phương pháp lưới 61

Hình 5.3: Phương pháp cung 61

Hình 5.4: Phương pháp tìm kiếm khối không gian mẫu 64

Hình 5.5 : Phương pháp phân lớp bằng khoảng cách tối thiểu 65

Trang 10

Hình 5.7: Phân lớp bằng bộ phân tích cú pháp 74

Hình 5.8: Phân lớp bằng các nguyên mẫu tượng trưng 75

Hình 6.1: Sơ đồ khối của hệ thống nhận dạng từ dựa trên sự phân đoạn 76

Hình 6.2: Quá trình nhận dạng chữ viết trong chương trình mô phỏng 77

Hình 6.3: Ký tự có nhiễu muối tiêu (a), ký tự sau khi đã được lọc nhiễu (b) 77

Hình 6.4: Quá trình tạo vector đặc trưng của chữ ngõ vào 78

Hình 6.5: Cách phân chia 15 vùng chồng lấp của ảnh ngõ vào 79

Hình 6.6: Ảnh vector đặc điểm e(i,j) của một ký tự A 80

Hình 6.7: Một số ký tự viết tay mẫu 81

Hình 6.8: Vector đặc trưng của ký tự viết tay A 81

Hình 6.9: Vector đặc trưng của ký tự viết tay K 82

Hình 6.10: Lưu đồ giải thuật phân nhóm mờ K-lân cận gần nhất 84

Hình 6.11: Các ký tự in hoa viết tay được xác định bởi giải thuật mờ K lân cận gần nhất Các ký tự đúng là “A”, “M”, “W” và “I” 85

Hình 6.12: Sai số huấn luyện với chữ viết hoa (UPPERCASE) 89

Hình 6.13: Sai số huấn luyện với chữ viết thường (lowercase) 89

Trang 11

Chương 1 : GIỚI THIỆU

1.1 Đặt vấn đề

Phân tích tài liệu và nhận dạng các địa chỉ một cách tự động trong việc diễn dịch các ảnh của các tài liệu viết tay cũng như bản in, bao gồm văn bản, hình ảnh, các bản vẽ kỹ thuật, các bản đồ, các bản nhạc v.v… Đây là một lĩnh vực với sự ứng dụng rất rộng trong việc hiểu được một cách trọn vẹn các ảnh tài liệu Nhận dạng các địa chỉ viết tay trong các bức thư là một ví dụ cụ thể Các ứng dụng khác bao gồm đọc các séc ngân hàng, trích các dữ liệu điều tra trong các dạng riêng biệt, định tuyến các bản FAX, và phân tích các tài liệu bao gồm các văn bản cũng như các hình ảnh, bản vẽ

Nhận dạng chữ viết tay đã được nghiên cứu trong nhiều thập kỷ gần đây nhưng vẫn còn nhiều giới hạn và thách thức cho đến ngày nay Một vài ứng dụng cụ thể trong việc nhận dạng chữ viết tay là đọc địa chỉ thư tự động, xác minh séc ngân hàng, các thiết bị thông minh, lưu trữ tài liệu văn phòng tự động cũng như các tài liệu viết tay cũ…

Sự nhận dạng chữ viết tay có hai loại chính: nhận dạng trực tuyến (on-line recognition)

và nhận dạng ngoại tuyến (off-line recognition) Trong sự nhận dạng chữ viết trực tuyến, dữ liệu ngõ vào được lấy từ một bảng cảm nhận sức ép; do đó ngõ vào gồm một tập hợp chuỗi các vectơ ghi nhận vị trí và sức ép như một hàm theo thời gian Ngược lại, nhận dạng chữ viết ngoại tuyến được xem như một việc gồm hai phần là xử lý ảnh

và hiểu ảnh Xử lý ảnh bao gồm tất cả các dạng tiền xử lý để khử các lỗi có thể có và cách ly các vùng liên quan trong ảnh Hiểu ảnh: ngõ ra là một sự phiên dịch (giải thích) ảnh viết tay ngõ vào

Tổng quát, có hai phương pháp nhận dạng ngoại tuyến:

• Phương pháp 1: phân đoạn từ thành các ký tự thành phần (thậm chí là các phần của

ký tự), phân loại từng ký tự rồi xây dựng lại từ Sự nhận dạng là một quá trình xử lý cho phù hợp, thường được làm với sự hỗ trợ của một từ điển

• Phương pháp 2: dựa trên cấu trúc của từ, kỹ thuật này xem từ như một đơn vị riêng

lẻ trong quá trình rút ra những đặc điểm và cố gắng nhận dạng từ trong trạng thái nguyên vẹn của nó Do toàn bộ từ được xem như một đơn vị đơn nên sự phức tạp bên trong cấu trúc của từ hơn nhiều lần so với một ký tự đơn

Trang 12

1.2 Tổng quan tình hình nghiên cứu

Sau hơn một phần tư thế kỷ nghiên cứu, nhận dạng chữ viết đã được nghiên cứu về các dạng mô tả với các đoạn mẫu hình học như các nét thẳng, các nét cong, và các góc là không phù hợp với chữ viết tay, tuy nhiên một vài đặc điểm cấu trúc như độ lồi và độ lõm là rất biến dạng và nhiều, các hướng lõm về phía trên, phía dưới, bên trái và bên phải là các đặc điểm quan trọng, các nét đơn như là các điểm nhánh và nét ngang là các đặc điểm thuộc về trực giác Tuy nhiên, nhiều kết quả thực nghiệm tâm-vật lý đã nghiên cứu với chi tiết quan trọng trong chữ viết là các góc khi mắt nhìn vào các chữ viết tay phác thảo Sự khó khăn trong việc nhận thức được một chữ phác thảo phụ thuộc vào số lượng và quá trình nhận rõ các nét góc và các nét cong tuyến tính tạo nên chữ viết tay phác thảo

Mô tả cách viết tự nhiên của chữ viết tay, Nishida và Mori đã đưa ra một phương pháp

rõ ràng, nghiêm ngặt và hiệu quả trong việc mô tả cấu trúc của các dạng ký tự trong các đặc điểm cấu trúc như là độ lồi và độ lõm, các đặc điểm hướng và các điểm đơn như các điểm nhánh và các nét ngang [6] Nishida đưa ra một dạng mô tả cấu trúc của các đặc điểm hướng của các đường cong, độ lồi và độ lõm [7] Khi đường cong có các điểm đơn nó được biến đổi thành các thành phần có cấu trúc tương đương với các đoạn nét chữ và các cung tròn bằng cách phân ly các điểm đơn Chabra đã trích bốn loại đặc điểm thô là nét in, đường cong lồi cao, đường bao lồi và các lỗ tròn [8] Pettier và Camillerapp [9] mô tả một phương pháp phân ly mới, ở đó một nét thông thường được đặc điểm hoá bởi một nét cố định rõ ràng và các phần còn lại bao gồm các phần giao nhau, các phần chồng lấp và các phần không liên tục Dạng này của họ phù hợp với các dạng trích các nét thông thường và suy ra các nét đơn như được mô tả trong [10], [11], [12]

Nhận dạng chữ viết tay là một sự yêu thích trong thực tế trong việc trích để phân biệt các thông tin không thay đổi từ một mẫu viết tay Để nhận ra một mẫu viết tay tĩnh, ta cần xác định các đặc điểm phân biệt, các đặc điểm thô và các đặc điểm nổi bật của chữ viết tay mà chúng phản ánh các yếu tố cơ bản của các dạng và các đường cong tạo nên chữ viết tay Mặc dù đạt được nhiều thành tựu trong OCR trong khoảng hơn 3 thập kỷ gần đây, nhận dạng chữ viết tay off-line bao gồm các ký tự và chữ ký vẫn còn là một vấn đề nhiều khó khăn, những khó khăn chính là sự phân đoạn các chữ viết tay thành các ký tự riêng biệt [13], [14], [15] Bozinovic và Srihari đã mô tả một dạng đa mức cho các từ viết tay, ở đó mỗi ảnh từ được xử lý thành 3 phần cụ thể Phần thứ nhất bao gồm tìm đường cơ sở mà chia ảnh từ thành 3 vùng phần đầu, phần thân và phần đuôi Phần thứ hai gọi là tiền phân đoạn, thiết lập các giới hạn thăm dò giữa hai ký tự liên tiếp trong ảnh từ Phần thứ ba là phân tích các đường viền của ảnh từ để xác định số đường viền và các vị trí tương ứng của chúng Các thông tin được tạo bởi tất cả 3 phần

sẽ kết hợp lại ở phần kế tiếp và trải qua phần tổng hợp ký tự để xác định các giới hạn

ký tự cuối cùng Dạng phân đoạn từ viết tay được đề xuất bởi Simon [10] dựa trên các

Trang 13

đặc trưng lặp đi lặp lại sử dụng khái niệm các đặc điểm thông thường và đơn được ứng dụng ở nhiều mức trong quá trình nhận dạng Theo Simon, các đặc điểm thông thường

là các đặc điểm mà xuất hiện định kỳ trong ảnh Các đặc điểm này có độ phức tạp thấp

và dễ dàng tách ra Các đặc điểm đơn là các thành phần của các đặc điểm thông thường Chúng xuất hiện ít thường xuyên và phức tạp hơn trong tự nhiên Các dạng phân đoạn theo Lecolinet và Moreau gồm 3 bước chính Ban đầu, một quá trình phân tích độ lõm của từ viết tay được thực hiện để phát hiện các vòng mở và đóng trong từ

để chắc chắn rằng các vòng không hở trong suốt quá trình phân đoạn Sau đó sự phát hiện các điểm gốc có thể được thực hiện bởi việc xác định các điểm có nghĩa trong kết cấu phía trên của từ Cuối cùng, các điểm phân đoạn từ thực tế được xác định trên các thông tin được tạo ở các bước thứ nhất và thứ hai

Vì sự phân đoạn chữ viết tay là rất khó trong môi trường off-line, việc sử dụng nhận dạng ở mức độ từ thay thế cho việc nhận dạng ở cấp độ ký tự được đề nghị bởi nhiều nhà nghiên cứu [16], [17], [18] Trong [16] và [17], các đặc điểm toàn cục như nét lên cao, nét xuống và số các vòng trong các nét ngang và dọc của một từ giống như toàn

bộ được xác định để phân biệt giữa hai từ khác nhau Lam và các đồng sự đã tạo và xếp hạng nhiều bộ tổng hợp trên cơ sở nhiều quy tắc bắt buộc như là độ tin cậy cho bộ phân loại, các yêu cầu cho cấu trúc và hình học và các thông tin theo ngữ cảnh tại mỗi bước trung gian bằng cách hình thành một hệ thống loop đóng giữa hai đoạn và các bộ phân loại được cách ly cho các hồi tiếp có ích lẫn nhau [18] Phương pháp này sử dụng một cửa sổ trượt có độ rộng thay đổi chạy xuyên suốt từ và kết quả ở dạng cấu trúc cây với các node trung gian biểu diễn các ký tự có nghĩa Zhao và Srihari [19] trình bày một giải thuật để cải tiến giải thuật nhận dạng từ bằng cách sử dụng các thông tin được cung cấp bởi các ký tự đầu tiên và cuối cùng của một từ để giảm đi kích thước nguồn

từ vựng cho trước và phân cấp cuối cùng được làm sử dụng một giải thuật phân tích dạng từ Hong và các đồng sự [20] đã đưa ra một dạng hợp nhất để sử dụng các thông tin theo ngữ cảnh có thể thấy được cho việc nhận dạng văn bản Một giải thuật hợp nhất dựa trên lưới mắt cáo được dùng để phân tích các thông tin trong mắt cáo trong hai hoặc nhiều ảnh từ có liên quan với nhau mà có thể thấy được và do đó sẽ nhận dạng được chúng Madhvanath và Govindaraju [21] đưa ra hai phương pháp làm giảm lượng

từ vựng trong thực tế cho các dạng viết thảo, viết rời và viết hỗn hợp Ở dạng đầu sử dụng các đặc điểm của giác quan như nét trên cao, nét kéo xuống dưới và chiều dài của

từ Một giải thuật để tổng hợp các đặc điểm đã khám phá được dùng để dự đoán các đặc điểm chính thể luận của các từ vựng ở ngõ vào, được làm phù hợp với các đặc điểm ảnh sử dụng một dạng phù hợp với sơ đồ chia làm hai Bộ phân loại thứ hai mô

tả, hoạt động trên cơ sở chữ viết tay thuần túy và đạt được sự giảm hiệu quả của các từ vựng lớn với hơn 20000 từ ngõ vào Ở đây, các nét xuống được trích từ các đường biên biểu diễn các từ phác thảo bằng cách nhóm các đầu tận cùng cục bộ sử dụng một tập hợp nhỏ các luật đã biết trước Các chiều cao liên quan các nét xuống được giữ lại trong một bộ mô tả chuỗi được làm phù hợp với cú pháp với các nguồn từ vựng ngõ

Trang 14

trình bày ảnh hiệu quả cho nhận dạng tài liệu viết tay bằng cách cung cấp các thủ tục tính toán ảnh cho trước cho nhận dạng từ viết tay một cách nhanh chóng, bao gồm tiền

xử lý, phân đoạn và trích các đặc điểm Yoshikawa và Okamoto đưa ra một phương pháp hậu xử lý cho các ký tự tiếng Nhật sử dụng các đặc điểm mẫu và thông tin biến ngôn ngữ Hayes đã phát triển một hệ thống off-line sử dụng một sự biểu diễn từ bao gồm 5 mức đã xác định trước trong quá trình làm hợp các mẫu cú pháp và sự hồi phục phân cấp xác suất trên hai mức đỉnh sử dụng việc đánh nhãn [23] Pacquet và Lecourtier đã đưa ra một hệ thống nhận dạng chữ viết tay off-line ở cấp độ từ dựa trên phân tích từ viết tay hai mức Mức đầu tiên là một sự biểu diễn toàn cục dựa trên một vài đặc điểm hình thái học đủ để dự đoán từ Mức thứ hai dựa trên các dạng xác định của từ viết tay, bao gồm sự biểu diễn đồ thị của từ mà phù hợp với các sự phân đoạn không bắt buộc Favata và Srihari [24] đã mô tả một hệ thống nhận dạng từ viết tay cho việc đọc địa chỉ trên các bức thư, ở đó quá trình phân tích từ sử dụng 3 bước cơ bản là cách ly các thành phần và nhận dạng, nhận dạng ký tự và từ viết tay, các thông tin cấu trúc từ và làm phù hợp với từ vựng có sẵn Đối với một ảnh từ cho trước, hệ thống đưa

ra một thứ tự các từ trong một nguồn từ vựng, đối với các mức phù hợp ảnh từ Ramanaprasad và các đồng sự đã tìm ra các hệ thống phụ khác nhau bao gồm nhận dạng chữ viết in tay bao gồm phân đoạn từ, nhận dạng từ, phân đoạn số và nhận dạng

số trong các biểu thuế [25] Họ cũng trình bày các kế hoạch được dùng để làm tăng hiệu quả việc sử dụng các hệ thống phụ này để tối ưu độ chính xác cho sự nhận dạng

Một trong những khó khăn chính trong việc nhận dạng từ off-line là bắt đầu từ nhiều

sự thay đổi được lấy từ các mẫu khác nhau của các đoạn văn bản từ cùng một người viết ở từng thời điểm hoặc từ các bộ tạo văn bản riêng Thật khó khăn trong việc tìm thấy một sự mô tả đáng tin cậy của một từ mà có thể biểu diễn tất cả các sự thay đổi khác nhau của các mẫu ngõ vào Do đó, nhiều công việc đã được đưa ra cho đến bây giờ cho các kỹ thuật nhận dạng từ mà không có bất kỳ sự phân đoạn tường minh của từ dựa trên bộ mô tả từ Trong luận văn này, phần thông thường được gỡ bỏ từ phần đơn của từ và sau đó một mã chuỗi được trích từ các đường viền của toàn bộ từ và được dùng như các đặc điểm đơn mong muốn Ở đây, một ảnh từ ngõ vào trước hết là quá trình chuẩn hóa giống như nhiều người viết khác nhau phụ thuộc vào các đặc điểm có thể Ảnh từ sau đó đi qua một bộ phân tích đặc điểm toàn cục, trong đó các mẫu vào từ một nguồn từ vựng tương tự như từ ngõ vào được định vị Các đặc điểm như là số ký

tự được ước lượng trong ảnh ngõ vào được dùng trong bước này Nguồn từ vựng được giảm xuống và ảnh từ nguyên thủy sau đó được đi qua 3 kỹ thuật nhận dạng dựa vào sự phân tích các kiểu viết và mỗi kỹ thuật này cho ra một cấp của từ vựng này Cuối cùng,

ba cấp này độc lập với nhau kết hợp lại tạo thành một sự thống nhất về cấp cho từ

Camillerapp và các đồng sự [26] đề xuất một hệ thống nhận dạng chữ viết tay dựa trên cấu trúc Trong hệ thống đó, mỗi từ được biểu diễn bởi một sơ đồ tạo ra trực tiếp từ ảnh mức xám bằng cách tách ra các đoạn mẫu xác định dựa theo đường cơ sở của từ Một đường quét ngang của từ tách ra các mức xám đều và tạo ra một sơ đồ các mức

Trang 15

xám Trong cấu trúc của ảnh từ ngõ vào, việc đánh nhãn các đoạn mẫu diễn ra ở các đỉnh đơn như các điểm kết thúc, nét ngang và các nét cong cục bộ Bằng cách này, một cây các đoạn mẫu được trích từ các ảnh ngõ vào và cấu trúc của nó phản ánh lại sự tạo nên từ ngõ vào Hệ thống thực hiện sự nhận dạng ở mức từ Mỗi dạng trong từ vựng được so sánh với từng thực thể được nhận dạng, và tương tự như việc đánh giá sự khác nhau giữa hai tỷ lệ tương đồng và không tương đồng Kết quả cuối cùng là một danh sách được sắp xếp của các dạng còn lại mà ở phía trên là tỷ lệ tương tự tối thiểu cuối cùng Taconet và các đồng sự đưa ra một sự mô tả tin cậy của một từ chỉ sử dụng thông tin cần thiết và một phương pháp toàn cục cho sự phân loại từ sử dụng một từ điển có giới hạn [27] Trong công việc này, các điểm đặc điểm của ảnh từ mảnh được tách và được dùng để đo lường sự phức tạp về cấu trúc của từ Han và Sethi đã nghiên cứu các yếu tố bản chất của chữ viết tay và chọn một tập hợp các đặc điểm hình học và kết cấu

để biểu diễn một đoạn viết tay

1.3 Mục tiêu đề tài

Công việc nghiên cứu được trình bày trong luận văn này nhắm đến mục đích sau:

• Phương pháp trích vector đặc điểm ký tự viết tay từ ảnh xám

• Phát triển các bộ phân loại ký tự viết tay để phục vụ cho sự nhận dạng từ viết tay Đặc biệt, phát triển giải thuật phân loại mờ K-lân cận gần nhất để có thể phân loại một cách chính xác các ký tự viết tay không rõ ràng

• Thực hiện mô phỏng trên Matlab sự nhận dạng ký tự viết tay và một ứng dụng nhận dạng ở cấp độ từ rất phù hợp với giải thuật phân loại mờ K-lân cận gần nhất này

1.4 Nội dung nghiên cứu

• Trình bày phương pháp trích các đặc điểm đặc trưng của các ký tự viết features)

tay(bar-• Nhận dạng ký tự viết tay sử dụng sự phân loại dựa trên giải thuật mờ K-lân cận gần nhất

• Nhận dạng ký tự viết tay dùng mạng Neuron

• Nghiên cứu dùng Matlab để mô phỏng sự nhận dạng chữ viết tay theo các giải thuật trên

Trang 16

1.5 Bố cục luận văn

Nội dung luận văn được chia thành 7 chương như sau:

Chương 1: Giới thiệu

Chương này trình bày lí do thực hiện đề tài, mục tiêu nghiên cứu, giới thiệu tổng quan tình hình nghiên cứu liên quan đến đề tài, nội dung nghiên cứu đề tài

Chương 2: Các vấn đề trong nhận dạng chữ viết

Chương 2 trình bày quá trình xuất hiện chữ viết, các khó khăn trong nhận dạng chữ viết và phân biệt các loại nhận dạng chữ viết

Chương 3: Giải thuật mờ K-lân cận gần nhất

Chương này trình bày giải thuật mờ K-lân cận gần nhất cũng như giải thuật rõ K-lân cận gần nhất để hiểu rõ hơn về các giải thuật này

Chương 4: Mạng neuron nhân tạo

Trình bày chi tiết về mạng neuron nhân tạo, các mạng Perceptron 1 lớp, mạng Perceptron đa lớp, giải thuật huấn luyện mạng neuron

Chương 5: Nhận dạng ảnh

Chương này trình bày nguyên lý nhận dạng ảnh, các quá trình nhận dạng cũng như các phương pháp nhận dạng ảnh chữ viết tay ngõ vào

Chương 6: Dùng Matlab nhận dạng chữ viết tay

Trình bày chương trình mô phỏng nhận dạng chữ viết tay bằng giải thuật mờ K-lân cận gần nhất và bằng mạng neuron truyền thẳng lan truyền ngược Ngoài ra, trong chương này cũng trình bày một chương trình ứng dụng dùng giải thuật mờ K-lân cận gần nhất

Chương 7: Kết luận và hướng phát triển đề tài

Đánh giá, kết luận các kết quả thu được từ chương trình mô phỏng, từ đó đề ra hướng phát triển đề tài cho các công việc tiếp theo

Trang 17

Chương 2 : CÁC VẤN ĐỀ TRONG NHẬN DẠNG CHỮ VIẾT

2.1 Sự phát sinh ra chữ viết tay

Các cải tiến trong lĩnh vực nhận dạng chữ viết tay và kết quả nhận dạng từ một quá trình hiểu tốt hơn của các quá trình lý-sinh và tâm-vật lý chứa đựng trong sự phát sinh

ra chữ viết tay; ứng dụng các kiến thức này trong các hệ thống nhận dạng khác nhau

Từ khía cạnh của lý-sinh và tâm-vật lý, chữ viết tay có thể được biểu diễn như các ngõ

ra của hệ thống biến đổi theo không gian và thời gian giống như người viết, trong đó các ngõ vào là một chương trình động được học và được mô tả bởi sự thay thế đường cong tuyến tính, sự thay thế góc và sự xoắn của quỹ đạo cong đối với các đặc điểm bên trong của các đường cong Các quá trình lý-sinh và tâm-vật lý chứa trong sự tạo ra chữ viết tay được trình bày trong hình 2.1

Hình 2.1: Các quá trình lý-sinh và tâm-vật lý trong việc tạo ra chữ viết tay

Đối với dạng này, các nơron trong não người được kích thích với một quá trình và cường độ xác định trước, và hệ thần kinh này kích thích các cơ phù hợp theo một thứ

tự được xác định trước Sự chuyển động của viết trên giấy, kết quả từ việc co bóp các

cơ và duỗi ra một khoảng theo không gian và tạo ra các đường cong tại đầu của viết Làm thế nào có thể xây dựng chương trình động, sử dụng và ảnh hưởng bởi cơ cấu lý-sinh và tâm-vật lý khác vẫn còn là một câu hỏi còn bỏ ngỏ, tuy nhiên việc thiết kế hệ thống nhận dạng chữ viết tay hoặc các hệ thống nhận dạng dựa vào một sự thật là con người không viết theo một lối viết chuẩn nào, và sự biến đổi khác với thông thường là phụ thuộc vào từng cá nhân

2.2 Các khó khăn trong nhận dạng ký tự viết tay

Các hệ thống nhận dạng văn bản chữ viết tay tổng quát đối mặt với nhiều thách thức Bản chất nhiều biến đổi khác nhau trong các kiểu viết đòi hỏi sự phát triển của nhiều phương pháp để có thể tương thích với nhiều sự thay đổi nhỏ Sự khó khăn trong nhận dạng ký tự viết tay là sự hiện diện của một lượng rất lớn các cách viết khác nhau của

Trích chương

trình động

Truyền thông tin Phát động

các cơ Ghi nhớ các đường cong

Trang 18

2.2 Các từ viết tay được phân loại thành ba loại: chữ viết thường, chữ in hoa và chữ kết hợp

Hình 2.2: Ba loại từ viết tay: chữ viết thường, chữ in hoa và chữ kết hợp

Hơn thế nữa, các chương trình máy tính phải đối diện với sự suy giảm chất lượng ảnh

bị gây nên bởi các qua trình truyền, sự số hóa không chính xác và thiếu thông tin trong miền thời gian Không có các dạng toán học hoàn thiện có thể mô tả nhiều sự thay đổi như vậy, do đó cũng không thể tìm thấy các đặc điểm đặc trưng cho tất cả các kiểu viết khác nhau tạo ra bởi các cá nhân có nhiều cách viết khác nhau trong khi vẫn phải duy trì khả năng phân biệt các ký tự khác nhau Mặc dù con người có nhiều cách viết khác nhau, về cơ bản sự di chuyển của tay là giống nhau

Trong nhận dạng ký tự viết tay, có hai dạng tổng quát:

• Phân đoạn một từ thành các ký tự thành phần và nhận dạng từng ký tự riêng biệt

• Nhận dạng một từ ở dạng nguyên vẹn của nó sử dụng các đặc điểm toàn cục của từ

Cả hai phương pháp này có những ưu điểm cũng như khuyết điểm của nó Ở dạng đầu tiên, ưu điểm là tổng quát hóa cho một số lượng từ vựng lớn cùng với sự huấn luyện có giới hạn, nhưng nó phù hợp với những chữ viết tay có ảnh đẹp bởi vì sự phân đoạn là

sự diễn dịch không rõ ràng và khác nhau và chỉ ở cấp độ ký tự, điều này khiến cho quá trình nhận dạng của toàn bộ từ là không rõ ràng và không đúng Ở phương pháp thứ hai gần giống với cách đọc của người và dường như phù hợp hơn với chữ viết tay xấu, nhưng có giới hạn là khả năng nhận thức đúng của nó, và chỉ phù hợp cho các ứng dụng có số lượng mẫu giới hạn

Bởi vì từ là một chuỗi của các ký tự, một cách tự nhiên để nhận dạng từ là phân đoạn

từ thành các ký tự và nhận dạng các ký tự riêng biệt sử dụng OCR Trong hầu hết các ứng dụng, đây có thể là nguyên nhân để giả sử rằng một từ điển được cung cấp Từ điển có thể là tĩnh hoặc động Nhiệm vụ của sự diễn dịch các địa chỉ trên một bức mail

là một ví dụ của một ứng dụng mà trong đó từ điển được tạo động Mã zip code trên địa chỉ cung cấp tất cả tên các thành phố hoặc tên đường có thể giống như một từ điển

Trang 19

Các mã zip code khác nhau cung cấp các từ điển khác nhau Một ví dụ của một ứng dụng với từ điển tĩnh là đọc số tài khoản trong các séc ngân hàng

2.3 Các loại nhận dạng ký tự viết tay

Nhận dạng ký tự viết tay có thể được phân loại thành các dạng on-line và off-line Nhận dạng ký tự on-line sử dụng các nét, các thứ tự, sự kết hợp các điểm và tốc độ viết Nó mã hóa thứ tự các nét tạo thành từ, và rất hữu ích trong việc phân đoạn một từ thành các ký tự Trong hệ thống nhận dạng off-line, chỉ những thông tin tĩnh mới có thể lấy được trong khi hệ thống nhận dạng on-line các thông tin động cũng được xét đến Do đó trong thứ tự nhận dạng các chữ viết thảo, các hệ thống off-line sử dụng các điểm tới hạn như các điểm kết thúc, các điểm gạch ngang, các điểm nhánh, các điểm tận cùng trong ký tự ‘x’ và ‘y’ v.v… Trong các hệ thống on-line, nhiều tác giả đề nghị xét đến khoảng thời gian khi viết đặt xuống và khi kéo lên thành một nét Một trong những ưu điểm lớn nhất của các thiết bị trong hệ thống on-line là nhận được sự uốn cong một đoạn một cách tự nhiên của các chữ viết thảo tạo thành nét Nhưng các hệ thống on-line đòi hỏi việc sử dụng các thiết bị đặc biệt cho người viết như các viết điện

từ hoặc các viết điện tĩnh và bảng cảm nhận sức ép lên bề mặt Cũng vậy, một bản sao giống như vậy phải được giữ lại trên bề mặt vật lý để chỉnh sửa Điều này dẫn đến việc nhận dạng chữ viết tay off-line và nhận dạng khó khăn hơn, không chỉ vì việc mất các thông tin động mà còn bởi vì việc đọc các ảnh vào sẽ có các nhiễu thêm vào trong các thông tin còn lại Thực tế là không thể khôi phục lại các đường cong của nét viết Các

hệ thống nhận dạng off-line sử dụng một ảnh của văn bản viết tay phải trải qua quá trình tiền xử lý, nhận dạng từ và hậu xử lý (hình 2.3)

Trong phân tích tài liệu off-line, khó khăn đầu tiên là phân đoạn các câu, các từ và các

ký tự trong từ rồi sau đó là nhận dạng chúng Các quá trình tiền xử lý là bỏ các nét gạch dưới, nhận dạng các chữ số, bảng chữ cái và các ký hiệu đặc biệt Nhận dạng từ bao gồm nhận dạng các giải thuật nhận dạng từ viết tay kết hợp hoặc không kết hợp với một từ điển Quá trình hậu xử lý đề cập đến việc sử dụng các ngôn ngữ bắt buộc cho việc phân tích và nhận dạng văn bản Quá trình nhận dạng và kết hợp với ngôn ngữ

sẽ cho ra những sự bắt buộc việc sử dụng ngôn ngữ tối ưu Nhận dạng chữ viết tay bao gồm các chữ số, các ký tự và chữ ký đã và đang là một đề tài nghiên cứu quan trọng trong việc diễn dịch các tài liệu viết tay Văn bản phải phân biệt với phần nền, và các nét gạch không phù hợp như là các nét gạch dưới phải được gỡ bỏ mà không làm ảnh hưởng đến các nét của từ Thông thường, văn bản và các nét gạch gắn liền với nhau trong quá trình lấy ngưỡng và kết quả là ảnh không dẫn được đến sự phân tích các thành phần

Trang 20

Hình 2.3: Quá trình nhận dạng từ viết tay

Nhiệm vụ của việc phân nhóm các ký tự và từ thành các hàng của văn bản có liên quan đến một hướng thẳng của các tài liệu được in bằng máy Trong văn bản chữ viết tay, các hàng có thể bị thay đổi lên hoặc xuống và các nét lên cao hoặc xuống thấp thường phân cắt các ký tự khỏi các đường lân cận làm cho công việc nhận dạng khó khăn hơn Sau khi trích và cách ly các hàng, khó khăn tiếp theo là vị trí các giới hạn của từ Bởi

vì các từ có xu hướng kết hợp với nhau, điều này rất cần để phát triển một giải thuật cho việc nghiên cứu các đường giới hạn của từ Các kỹ thuật này đã được liên kết với các giải thuật nhận dạng và có một số đã được xem xét

Sự phân đoạn ký tự là một vấn đề quan trọng trong nhận dạng ký tự Giống chư một quá trình của OCR, các kỹ thuật phân đoạn ký tự được ứng dụng vào ảnh từ trước khi các ký tự phân biệt được nhận dạng Cách đơn giản nhất để thực hiện việc phân đoạn

ký tự là sử dụng một không gian nhỏ giữa hai ký tự như các điểm phân đoạn Kế hoạch này không thể làm được khi các nét của ký tự không liên tục, điều này thường xảy ra khi sự suy giảm chất lượng ảnh do các máy photocopy hoặc máy fax Trong trường hợp này, hai hoặc nhiều ký tự có thể được phân đoạn như một ảnh ký tự hoặc một ký

tự có thể được chia thành hai phần Để quá trình phân đoạn ký tự chính xác hơn, nhiều phương pháp đã được phát triển Nhiều kỹ thuật dựa trên việc phân tích các thành phần được kết nối, chẳng hạn là ước lượng các tỷ số hoặc phân tích sự biến thể của chữ viết Cũng có nhiều phương pháp là sự kết hợp giữa sự phân đoạn ký tự với nhận dạng ký tự với việc quả quyết trong ra quyết định phân đoạn là sự thăm dò cho đến khi nhận dạng thành công của các phần ảnh được phân đoạn

từ

Hậu xử lý

Trang 21

Chương 3 : GIẢI THUẬT MỜ K-LÂN CẬN GẦN NHẤT

3.1 Giới thiệu

Phân loại đối tượng là một lĩnh vực nghiên cứu trong nhiều ứng dụng thực tế ở nhiều lĩnh vực khác nhau, bao gồm nhận dạng mẫu, mạng thông minh nhân tạo, thống kê, nhận thức tâm lý, phân tích ảnh, và các ứng dụng trong y khoa Đề cập đến vấn đề nhận dạng mẫu, có rất nhiều kỹ thuật nghiên cứu cho sự phân loại Các thông tin biết trước càng nhiều trong vùng không gian đang xét thì giải thuật phân loại thực hiện được tốt hơn trong tình huống thực tế Ví dụ, nếu các xác suất biết trước và tỷ lệ điều kiện trạng thái của các loại được biết thì lý thuyết quyết định Bayes tạo ra các kết quả tối ưu trong sự tối thiểu hóa tỷ lệ phân loại sai Tuy nhiên, trong nhiều bài toán nhận dạng mẫu, sự phân loại một mẫu ngõ vào dựa trên kích thước dữ liệu tương ứng của mỗi loại có thể nhỏ và không thể đặc trưng cho các phân phối xác suất trong thực tế, ngay cả khi chúng đã được biết Trong nhiều trường hợp, nhiều kỹ thuật dựa vào khái niệm đồng dạng hoặc khoảng cách trong không gian đặc điểm, đồng thời phân nhóm

và phân tích biệt số Ở nhiều trường hợp, giải thuật K lân cận gần nhất (K-NN) được dùng để thực hiện sự phân loại Luật quyết định này cung cấp một thủ tục phi tham số đơn giản cho việc gán một lớp nhãn cho mẫu ngõ vào dựa trên các nhãn biểu diễn bởi

K lân cận gần nhất của vector (nói theo khoảng cách Euclide)

Luật K-NN là một thủ tục gần điểm cực thuận Tuy nhiên, khi các mẫu là vô hạn, tỷ lệ lỗi đối với luật 1-NN được giới hạn trên là không hơn hai lần tỷ lệ lỗi Bayes tối ưu tiệm cận Luật K-NN đã được nghiên cứu và cải tiến bởi rất nhiều nhà nghiên cứu Theo các tác giả này, các kết quả tính toán đơn giản và cho ra các kết quả tốt trong nhiều ứng dụng đối với kích thước mẫu nhỏ Một trong những vấn đề khuyến khích sử dụng sự phân loại K-NN là mỗi vector mẫu được xem như có ý nghĩa như nhau trong việc gán nhãn cho từng phân nhóm cho các vector ngõ vào Điều này thường xuyên tạo nên những khó khăn trong các trường hợp các tập hợp mẫu chồng lấp lên nhau Các vector được cho với nhiều trọng số đặc trưng cho các phân nhóm đúng Một khó khăn khác là một khi một vector ngõ vào được gán vào một phân nhóm, không có chỉ số để nói lên sự phụ thuộc mạnh của vector đó trong phân nhóm Đây là hai vấn đề trong giải thuật K-NN muốn đề cập để kết hợp lý thuyết tập mờ vào luật K-NN

Các tập hợp mờ được giới thiệu bởi Zadeh vào năm 1965 [27] Từ đó đến nay, nhiều nhà nghiên cứu đã tìm ra nhiều cách để áp dụng lý thuyết này để tạo ra các kỹ thuật đang tồn tại và phát triển các giải thuật mới trong nhận dạng mẫu và phân tích sự quyết định Bezdek [28] đã đề nghị các giải thuật hữu ích có thể cho các kết quả từ sự phân phối các sự phụ thuộc mờ cho vector ngõ vào, do đó có đủ khả năng làm các quyết

Trang 22

hợp mờ vào luật quyết định phân nhóm K-NN Cụ thể, một giải thuật mờ K-NN được

phát triển sử dụng các sự phụ thuộc các phân nhóm mờ của các tập hợp mẫu và do đó

tạo ra luật phân nhóm mờ Ba phương pháp trong việc gán sự phụ thuộc mờ cho các

tập hợp huấn luyện được đề nghị, các ưu điểm và khuyết điểm của chúng đều được

xem xét Cả hai kết quả trong luật K-NN rõ và mờ được so sánh trong hai tập hợp dữ

liệu và giải thuật mờ được trình bày để chiếm ưu thế hơn so với bản sao rõ của nó bởi

vì có tỷ lệ lỗi thấp hơn và tạo ra các giá trị phụ thuộc có giá trị tin cậy hơn trong sự

A x x

u A

,0

,1)

Các tập hợp mờ được sinh ra dựa trên cơ sở khái niệm hàm thuộc tính như là một hàm

phụ thuộc u:U →[0,1] Một ví dụ cho một tập hợp mờ là tập hợp các số thực lớn hơn

rất nhiều so với 0, ta có thể định nghĩa một hàm thuộc như sau:

=

0,0

0,1)

( 2

2

x

x x

Các số nhỏ hơn 0 sẽ không thuộc tập hợp (u = 0), trong khi các số lớn hơn hoặc bằng 0

có giá trị phụ thuộc khác nhau tùy thuộc giá trị của chúng

Hầu hết các phép toán trên tập hợp rõ đều có thể sử dụng đối với tập hợp mờ Ưu điểm

của các tập hợp mờ là mức độ phụ thuộc trong tập hợp có thể được xác định, không cụ

thể là 1 hoặc 0 như tập hợp rõ Đặc điểm rất có ưu điểm cho việc nhận dạng mẫu, ở đó

các đối tượng thường xuyên thay đổi và không rõ ràng trong sự phụ thuộc nhóm này

hoặc là thuộc một nhóm khác Nếu sử dụng tập hợp rõ cho một đối tượng không rõ thì

sẽ chỉ gán được vào một nhóm Mặt khác, các kỹ thuật mờ sẽ chỉ ra mức độ đối tượng

đó thuộc về từng nhóm, các thông tin này thường rất hữu ích

Cho một tập hợp các vector mẫu {x1,…,xn}, một phân nhóm mờ c các vector xác định

mức độ phụ thuộc của mỗi vector trong mỗi nhóm Ta có thể đặc trưng bằng một ma

trận U gồm c hàng và n cột, trong đó uik = ui(xk) với i = 1,…,c và k = 1,…,n chỉ mức độ

phụ thuộc của xk trong phân nhóm mờ c

Trang 23

u

(3.3)

Sự phụ thuộc của vector trong phân nhóm c phải có tổng là 1 cho dễ xử lý trong các

phép toán Trong trường hợp 2 phân nhóm là một ví dụ, các sự phụ thuộc gần 0.5 nói

lên rằng vector có mức độ phụ thuộc cao ở cả 2 phân nhóm

3.3 Các giải thuật K lân cận gần nhất

Các kỹ thuật phân loại lân cận gần nhất sẽ phân loại một mẫu chưa biết bằng cách so

sánh mẫu đó với các lân cận gần nhất của nó trong một tập hợp các mẫu đã biết

Khoảng cách metric được sử dụng là không quy tắc cũng như nó đáp ứng sự phù hợp

với tất cả các mẫu trong tập hợp

Các bộ phân loại lân cận gần nhất không đòi hỏi phải trải qua tiền xử lý của tập hợp

mẫu được gán nhãn trước khi sử dụng Theo lý thuyết cho bộ phân loại rõ lân cận gần

nhất sẽ gán một vector mẫu ngõ vào y vào phân nhóm lân cận gần nhất của nó Ý

tưởng này có thể mở rộng K lân cận gần nhất với vector y được gán vào phân nhóm

được biểu diễn bởi một lượng lớn trong số các lân cận gần nhất Điều tất yếu là khi có

nhiều hơn một lân cận được xét, khả năng sẽ có một nút trong số các phân nhóm có

một lượng lân cận lớn nhất trong nhóm các K lân cận gần nhất tồn tại Một cách đơn

giản của vấn đề này là giới hạn các giá trị có thể có của K Ví dụ cho một bài toán có 2

phân nhóm, nếu chúng ta giới hạn K chỉ là các giá trị lẻ thì không nút nào là có thể

Khi có hơn 2 phân nhóm có thể thì kỹ thuật này không hữu ích Vector mẫu được gán

vào một phân nhóm, các phân nhóm khác đã được ràng buộc, tổng các khoảng cách từ

mẫu tới các lân cận trong phân nhóm là nhỏ nhất Điều này vẫn có thể dẫn đến một nút

nào đó, trong trường hợp này thì việc gán vào phân nhóm cuối cùng mà nó gặp phải

trong số các phân nhóm được ràng buộc, một việc gán bất kỳ Ta có thể thấy, sẽ có các

trường hợp mà sự phân loại vector trở thành một sự gán bất kỳ

3.3.1 Giải thuật rõ K-NN

Cho W = {x1, x2,…, xn} là một tập hợp n mẫu có nhãn Giải thuật là như sau:

BEGIN

Trang 24

Xóa khoảng cách xa nhất trong tập hợp K các lân cận gần nhất Tính hết các xi trong tập hợp K các lân cận gần nhất

END IF Tăng i;

IF (không có nút nào tồn tại) THEN

Phân loại y vào phân nhóm có tổng khoảng cách nhỏ nhất ELSE

Phân loại y vào phân nhóm có tổng nhỏ nhất vừa tìm thấy END IF

đó Ưu điểm là không có sự gán bất kỳ bởi giải thuật này Ngoài ra, các giá trị phụ thuộc của các vector có thể cung cấp mức độ chắc chắn để cho ra sự phân loại cuối cùng Ví dụ, nếu một vector được gán giá trị phụ thuộc là 0.9 trong một phân nhóm và giá trị 0.05 trong hai phân nhóm còn lại thì chúng ta có thể chắc chắn rằng vector này thuộc về phân nhóm có giá trị phụ thuộc là 0.9 Mặt khác, nếu một vector được gán giá trị 0.55 trong một phân nhóm, 0.44 trong phân nhóm thứ hai và 0.01 trong phân nhóm thứ ba thì chúng ta có thể lưỡng lự để gán vector thuộc về nhóm nào trong trường hợp này Tuy nhiên, chúng ta có thể cảm thấy tin tưởng rằng nó không thuộc phân nhóm

Trang 25

thứ ba Trong trường hợp như vậy, vector có thể được kiểm tra lại để xác định phân nhóm cho nó bởi vì vector đưa ra mức độ phụ thuộc cao trong cả hai phân nhóm một

và hai Ta thấy rõ ràng rằng các giá trị gán sự phụ thuộc được tạo bởi giải thuật có thể rất hữu ích trong quá trình phân loại

Cơ sở của giải thuật là gán sự phụ thuộc như là một hàm theo khoảng cách vector từ K lân cận gần nhất của nó và các sự phụ thuộc của các lân cận trong các phân nhóm có thể Giải thuật mờ tương tự với giải thuật rõ ở khía cạnh là nó cũng phải được tìm hiểu tập hợp mẫu được gán nhãn cho K các lân cận gần nhất.Tới khi đạt được K các mẫu này, các thủ tục khác hơn sẽ được xem xét

Cho W = {x1, x2,…, xn} là tập hợp gồm n mẫu được gán nhãn Cho ui(x) là giá trị phụ thuộc được gán vào vector x (được tính toán), và uij là sự phụ thuộc trong phân nhóm i của vector thứ j trong tập hợp các mẫu đã được gán nhãn cho K các lân cận gần nhất

Giải thuật như sau:

Xóa giá trị xa nhất của K các lân cận gần nhất Cho xi vào tập hợp K các lân cận gần nhất END IF

END DO UNTIL

Khởi tạo i = 1

DO UNTIL (x được gán sự phụ thuộc vào tất cả các phân nhóm)

Tính ui(x) sử dụng biểu thức (3.4) Tăng i

END DO UNTIL

END

Trang 26

K j

j ij

i

m m

x x

u x

Như ta đã thấy trong (3.4), sự phụ thuộc được gán vào x bị ảnh hưởng bởi nghịch đảo

các khoảng cách từ các lân cận gần nhất và các sự phụ thuộc trong phân nhóm của

chúng Nghịch đảo khoảng cách cho ta các trọng số của sự phụ thuộc các vector nhiều

hơn nếu nó gần hơn và ít hơn nếu nó cách xa vector đang xét Các mẫu được gán nhãn

có thể được gán sự phụ thuộc phân nhóm trong nhiều cách Trước hết, chúng có thể

cho sự phụ thuộc hoàn toàn trong phân nhóm mà chúng chưa biết và không có sự phụ

thuộc nào trong tất cả các phân nhóm Bước kế tiếp là gán các sự phụ thuộc của các

mẫu dựa vào khoảng cách từ trung tâm phân nhóm hoặc dựa vào khoảng cách từ các

mẫu được gán nhãn của các phân nhóm của chúng và của cả các phân nhóm khác, sau

đó sử dụng các sự phụ thuộc cuối cùng trong bộ phân loại Cả hai kỹ thuật này được sử

dụng trong nghiên cứu và các kết quả được báo cáo Trong [29] là một dạng khác cho

việc gán sự phụ thuộc ban đầu dựa vào một nghiên cứu đã được xét

Biến m xác định làm thế nào khoảng cách có ý nghĩa khi tính toán các phân phối lân

cận vào giá trị phụ thuộc Nếu m là 2 thì sự phân phối của mỗi điểm lân cận có giá trị

bởi sự nghịch đảo khoảng cách của nó từ điểm được phân loại Khi m tăng lên, các lân

cận càng có ý nghĩa hơn và các khoảng cách liên quan từ một điểm được phân loại có ít

ý nghĩa hơn

Trang 27

Chương 4 : MẠNG NEURON NHÂN TẠO

4.1 Giới thiệu mạng Neural nhân tạo

Các mạng neuron nhân tạo (ANN) là các hệ thống xử lý thông tin song song rất cao

tương tự như bộ não người theo những cấu trúc tương tự Các hành vi thu thập minh

họa khả năng học, nhắc lại và tạo từ các dữ liệu huấn luyện Các ANN rất hữu ích

trong sự phân loại, xấp xỉ các hàm, tối ưu hóa, lượng tử vector và phân nhóm dữ liệu

mà các phép tính thông thường sẽ gặp thất bại Các ANN đưa ra các dạng mạng giống

như các neuron sinh học trong bộ não người Các dạng này có các kiến trúc phân lớp

liên kết nối rất cao với các phần tử xử lý phi tuyến đơn giản đồng bộ gọi là các

“neuron” Hình 4.1 minh họa một dạng phi tuyến của một neuron được giới thiệu bởi

McCulloch và Pitts

Hình 4.1: Dạng neuron McCulloch và Pitts

Trong dạng neuron này, phần tử xử lý thứ i tính toán một tổng các trọng số các ngõ vào

của nó và các ngõ ra yi = ‘1’ nếu đạt hoặc ‘0’ nếu không đạt của tổng các trọng số ngõ

vào ở trên hoặc ở dưới một ngưỡng ηi nào đó

i j ij

y

1

) ( )

Trang 28

Trong đó hàm kích hoạt a(f) là hàm nấc đơn vị

0,1)

(

f

f f

Trọng số ‘wij’ đặc trưng cho độ lớn của khớp nối hay còn gọi là kết nối, sự kết nối từ

neuron thứ j đến neuron thứ i Một trọng số dương tương đương với một kết nối kích

thích và một trọng số âm tương đương với một kết nối hạn chế Nếu wij = 0 thì có

nghĩa là không có sự kết nối giữa hai neuron Thật sự các trọng số chính là phần nắm

giữ kiến thức Phần tử xử lý có thể phản ứng một cách linh động khi có các ngõ vào

đến phần tử xử lý thông qua các trọng số và có khả năng học, nhắc lại và tạo ra từ các

dữ liệu huấn luyện bằng cách điều chỉnh các trọng số kết nối Hành vi thu thập của

chúng minh họa cho khả năng tính toán và các thuộc tính biểu diễn đã phân phối

Một mạng neuron mong muốn sức mạnh tính toán của chúng thông qua cấu trúc phân

phối song song rất nhiều và khả năng học cũng như tạo ra của chúng Sự tạo thành liên

quan đến mạng neuron là tạo các ngõ ra vì các ngõ vào không va chạm trong suốt quá

trình huấn luyện và học Hai khả năng xử lý thông tin này khiến cho nó có thể giải

quyết các bài toán phức tạp khó ở hiện tại Về cơ bản, một neuron là một thiết bị phi

tuyến Tính phi tuyến là một đặc tính quan trọng, đặc biệt sự đáp ứng kết cấu về mặt cơ

khí cho việc sinh ra một tín hiệu ngõ vào là phi tuyến kết hợp như tín hiệu thoại, các

chữ viết tay…

Các mạng neuron có khả năng xây dựng tương thích với các trọng số kết hợp cho các

thay đổi với môi trường xung quanh Cũng vậy, một mạng neuron được huấn luyện để

thực hiện ở một môi trường cụ thể có thể dễ dàng được huấn luyện lại để thích ứng với

các thay đổi nhỏ trong các điều kiện môi trường hoạt động Hơn thế nữa, khi nó hoạt

động trong môi trường không ổn định, một mạng neuron có thể được thiết kế lại để

thay đổi với các trọng số kết hợp của chúng trong thời gian thực

Xét các kiến trúc tự nhiên của mạng neuron cho sự phân loại mẫu, xử lý tín hiệu, và

các ứng dụng điều khiển kết hợp với khả năng tương thích của mạng, là một công cụ lý

tưởng cho sự phân loại mẫu tương thích, xử lý tín hiệu tương thích, điều khiển tương

thích… Trong sự phân loại mẫu, một mạng neuron có thể được thiết kế để cung cấp

thông tin không chỉ cho mẫu cụ thể được chọn lọc mà còn độ tin cậy trong việc ra

quyết định Thông tin phía sau có thể được sử dụng để loại bỏ các mẫu không rõ nếu

nó xuất hiện, do đó cải thiện hoạt động phân loại của mạng

Mạng neuron được trình bày rất có cấu trúc và thúc đẩy Mỗi neuron trong mạng có

khuynh hướng ảnh hưởng đến toàn bộ các neuron khác trong mạng Do đó, các thông

tin theo ngữ cảnh là rất tự nhiên, được cho ra bởi mạng neural

Trang 29

Trong các máy phân loại AI, sự chú trọng là xây dựng sự biểu diễn tượng trưng để thay thế cho một cái gì đó Từ một điểm nhận thức, AI giả sử sự biểu diễn của trí óc và nó tạo ra các dạng nhận thức như quá trình xử lý tuần tự hoặc các sự biểu diễn tượng trưng Sự chú trọng trong các mạng neural là sự phát triển các dạng xử lý được phân phối song song Các dạng này giả sử rằng quá trình xử lý thông tin diễn ra trong quá trình tương tác của một số lượng lớn các neuron và gởi các tín hiệu kích thích và ức chế cho các neuron khác trong mạng Hơn thế nữa, các mạng neuron rất chú trọng vào

sự giải thích neuron sinh học các hiện tượng ý thức Trong hệ thống AI, quá trình xử lý tuần tự ngược lại với quá trình xử lý song song là một đặc điểm của các mạng neuron Hơn thế nữa, cơ cấu song song là rất lớn (hàng trăm hàng ngàn neuron) cho các mạng neuron một chú ý thiết thực Với sự tính toán qua nhiều neuron, nó thường không chỉ làm những gì về các trạng thái của một vài neuron là ồn ào hoặc chưa hoàn tất, các ngõ vào vẫn còn được nhận dạng, một mạng hỏng vẫn có thể là một hàm học nhưng không được hoàn hảo Hiệu quả của mạng được nâng cấp lên trong một phạm vi cố định Mạng được làm tinh vi hơn bởi sự “mã hóa thô”, ở đó mỗi đặc điểm được trải qua nhiều neuron Do đó các quá trình phân phối song song đạt được sự mềm dẻo của một

hệ thống liên tục, tương phản với tính cứng rắn và dễ vỡ của hệ thống AI rời rạc

Mạng nơron nhân tạo (Artificial Neural Network) gọi tắt là MNR bao gồm các nút (đơn vị xử lý, nơron) được nối với nhau bởi các nơron Mỗi liên kết kèm theo một trọng số nào đó, đặc trưng cho đặc tính kích hoạt ức chế giữa các nơron Có thể xem các trọng số là phương tiện để lưu giữ thông tin dài hạn trong mạng nơron và nhiệm vụ của quá trình học mạng là cập nhật các thông tin trọng số khi có thêm các thông tin về các mẫu học, hay nói một cách khác, các trọng số được hiệu chỉnh sao cho dáng điệu vào ra của nó mô phỏng hoàn toàn phù hợp với môi trường đang xem xét

4.2 Mô hình neuron nhân tạo

Hình 4.2: Mô hình nơron nhân tạo

Mạng nơron là một hệ thống bao gồm nhiều phần tử xử lý đơn giản (nơron) hoạt động Tính năng của hệ thống này tùy thuộc vào cấu trúc của hệ, các trọng số liên kết nơron

và quá trình tính toán các nơron riêng lẻ Mạng nơron có thể học từ dữ liệu mẫu và

S

Trang 30

tổng quát hóa trên các dữ liệu mẫu học Trong mạng nơron, các nơron đón nhận tín hiệu vào gọi là nơron vào, các nơron đưa thông tin gọi là nơron ra

Khả năng biểu diễn của nơron: Bộ vi xử lý máy tính dựa trên khả năng tích hợp các

mạch logic cơ sở Có thể thấy rằng các mạch nơron hoàn toàn mô phỏng khả năng tính toán của các mạch cơ sở AND, OR, NOT…(hình 4.3)

Hình 4.3: Khả năng tính toán các mạch cơ sở của nơron

4.3 Phân loại các mạng nơron

4.3.1 Theo kiểu liên kết nơron

Ta có mạng nơron truyền thẳng (feed-forward Neural Network) và mạng nơron hồi qui (recurrent NN) Trong mạng nơron truyền thẳng, các liên kết nơron đi theo một hướng nhất định, không tạo thành đồ thị có chu trình (Directed Acyclic Graph) với các đỉnh là các nơron, các cung lá liên kết giữa chúng Ngược lại, các mạng hồi qui cho phép các liên kết nơron tạo thành chu trình Vì các thông tin ra của các nơron được truyền lại cho các nơron đã góp phần kích hoạt chúng, nên mạng hồi qui còn có khả năng lưu giữ trạng thái trong của nó dưới dạng các ngưỡng kích hoạt ngoài các trọng số liên kết nơron

Trang 31

4.3.2 Theo số lớp

Các nơron có thể tổ chức lại thành các lớp sao cho mỗi nơron của lớp này chỉ được nối với các nơron ở lớp tiếp theo, không cho phép các liên kết giữa các nơron trong cùng một lớp, hoặc từ nơron lớp dưới lên lớp trên Ở đây cũng không cho phép các nơron nhảy qua một lớp

Hình 4.4: Mạng nơron truyền thẳng và nhiều lớp

Hình 4.5: Mạng nơron hồi qui

Dễ dàng nhận thấy rằng các nơron trong cùng một lớp nhận được tín hiệu từ lớp dưới cùng một lúc, do vậy về nguyên tắc chúng có xử lý song song Thông thường, lớp nơron vào chịu trách nhiệm truyền dựa theo tín hiệu vào, không thực hiện một tính toán nào nên khi tính số lớp của mạng, người ta không tính lớp vào Ví dụ, mạng nơron ở hình trên có 2 lớp; một lớp ẩn và một lớp ra

Trang 32

4.4 Các cách tiếp cận mạng nơron

Mạng nơron như một công cụ tính toán

Giả sử mạng nơron NN có m nơron vào và n nơron ra, khi đó với mỗi vector các tín hiệu vào X = (x1,…,xm), sau quá trình tính toán tại các nơron ẩn, ta nhận được kết quả

ra Y = (y1,…,yn) Theo nghĩa nào đó mạng nơron làm việc với tư cách một bảng tra,

mà không cần biết dạng phụ thuộc hàm tường minh giữa Y và X Khi đó, ta viết:

• Số nơron trên mỗi lớp ẩn

• Số lượng liến kết của mỗi nơron (liên kết đầy đủ, liên kết bộ phận và liên kết ngẫu nhiên)

• Các trọng số liên kết nơron

Mạng nơron như một hệ thống thích nghi có khả năng học ( huấn luyện )

Để tinh chỉnh các trọng số liên kết cũng như cấu trúc của mình sao cho phù hợp với các mẫu học (samples) Người ta phân biệt ra ba loại kỹ thuật học: (i) học có giám sát (supervisel learning) hay còn gọi là học có thầy; (ii) học không có giám sát (unsupervised learning) hay còn gọi là học không có thầy và (iii) học tăng cường Trong học có giám sát, mạng được cung cấp mẫu học {(Xs,Ys)} theo nghĩa Xs là các tín hiệu vào, thì kết quả ra phải là Ys Ở mỗi lần học, vector tín hiệu vào Xs được đưa vào mạng, sau đó so sánh sự khác biệt giữa kết quả ra đúng Ys với kết quả tính toán outs Sai số này sẽ được dùng để hiệu chỉnh lại các trọng số liên kết trong mạng Quá trình

cứ tiếp tục cho đến khi thỏa mãn một tiêu chuẩn nào đó mà cụ thể là ở một sai số chấp nhận được Có hai cách sử dụng tập mẫu học: hoặc dùng lần lượt, hết mẫu này đến mẫu khác, hoặc sử dụng đồng thời tất cả các mẫu cùng một lúc Các mạng học với cơ chế học không giám sát được gọi là mạng học tự tổ chứ Các kỹ thuật học trong mạng nơron có thể nhằm vào hiệu chỉnh các trọng số liên kết (gọi là học tham số) hoặc hiệu chỉnh, sửa đổi cấu trúc của mạng bao gồm số lớp, số nơron, kiểu và trọng số các liên kết (gọi là học có cấu trúc) Cả hai mục đích học này có thể thực hiện đồng thời hoặc tách biệt

Trang 33

• Học tham số: Giả sử có k nơron trong mạng và mỗi nơron có đúng 1 liên kết

vào các nơron khác Khi đó, ma trận trọng số liên kết W sẽ có kích thước kx1 Các thủ tục học tham số nhằm mục đích tìm kiếm ma trận W sao cho

Ys=MyNet(X,W) đối với mọi mẫu học S=(Xs, Ys) (3.5)

Hình 4.6: Học tham số có giám sát

• Học cấu trúc: Với học tham số ta giả định rằng mạng có một cấu trúc cố định

Việc học cấu trúc của mạng truyền thẳng gán với yêu cầu tìm ra số lớp của mạng L và số nơron trên mỗi lớp nl Tuy nhiên, với các mạng hồi qui còn phải xác định thêm các tham số ngưỡng θ của các nơron trong mạng Một cách tổng quát phải xác định bộ tham số P=(L, n1,…nl, θ1,…,θk)

Ở đây k = ∑ ni

Ys=MyNet(Xs,P) đối với mọi mẫu học s=(Xs, Ys)

Về thực chất, việc điều chỉnh các vector tham số W trong công thức trên hay P trong công thức trên đều qui về bài toán tìm kiếm tối ưu trong không gian tham

số Do vậy, có thể áp dụng các cơ chế tìm kiếm kinh điển theo gradient hay các giải thuật di truyền, lập trình tiến hóa

4.5 Khả năng tính toán và biểu diễn phụ thuộc dữ liệu của mạng nơron

Mạng nơron truyền thẳng chỉ thuần túy tính toán các tín hiệu ra dựa trên các tín hiệu vào và các trọng số liên kết nơron đã xác định sẵn ở trong mạng Do đó, chúng không

có trạng thái bên trong nào khác ngoài vector trọng số W Đối với mạng hồi qui, trạng thái trong của mạng được lưu giữ tại các ngưỡng của các nơron Điều này có nghĩa là quá trình tính toán trên mạng truyền thẳng có lớp lang hơn trong mạng hồi qui Nói chung, các mạng hồi qui có thể không ổn định, thậm chí còn rối loạn theo nghĩa, khi

Trang 34

lặp vô hạn trước khi đưa ra được kết quả mong muốn Quá trình học của mạng hồi qui cũng phức tạp hơn rất nhiều Tuy vậy, các mạng hồi qui có thể cho phép mô phỏng các

hệ thống tương đối phức tạp trong thực tế

4.6 Xác định cấu trúc mạng tối ưu

Như đã nói ở trên, lựa chọn sai cấu hình mạng có thể dẫn tới hoạt động mạng trở nên kém hiệu quả Nếu ta chọn mạng quá nhỏ có thể chúng không thể biểu diễn được tốt sự phụ thuộc dữ liệu mong muốn Nếu chọn mạng quá lớn để có thể nhớ được tất cả các mẫu học dưới dạng bảng tra, nhưng hoàn toàn không thể tổng quát hóa được cho những tín hiệu đầu vào chưa biết được Nói cách khác, cũng giống như trong các mô hình thống kê, các mạng nơron có thể đưa tới tình trạng quá thừa tham số

Bài toán xác định cấu trúc mạng tối ưu có thể xem như bài toán tìm kiếm trong không gian tham số Một cách làm là sử dụng giải thuật di truyền Tuy vậy, không gian tham

số có thể rất lớn và để xác định một trạng thái W (hoặc P) trong không gian đòi hỏi phải huấn luyện mạng, do vậy rất tốn thời gian Có thể áp dụng tư tưởng tìm kiếm leo đồi (hill-climbing) nhằm sửa đổi một cách có lựa chọn, mang tính địa phương cấu trúc mạng hiện có Có hai cách làm:

• Hoặc bắt đầu với một mạng lớn, sau đó giảm nhỏ xuống

• Hoặc bắt đầu với một mạng nhỏ, sau đó tăng dần

Một kỹ thuật khác có thể áp dụng gọi là “ tổn thương tối ưu“ nhằm loại bỏ một số liên kết trọng số trong mạng dựa trên cách tiếp cận lý thuyết thông tin Đơn giản nhất là các liên kết có trọng số bằng 0 Quá trình cứ tiếp tục như vậy Thực nghiệm chỉ ra rằng, kỹ thuật này loại bỏ tới ¾ liên kết điều này thì nâng cao đáng kể hiệu quả của mạng

Ngoài việc loại trừ các liên kết nơron thừa, người ta có thể vứt bỏ những nơron không đóng góp nhiều quá trình thực hiện của mạng

Một giải thuật “lớp ngói” là một biến thể của kỹ thuật tăng trưởng xuất phát từ cấu hình ban đầu tương đối nhỏ Ý tưởng ở đây là xác định một cấu hình mạng cho phép tính đúng các mẫu học đã biết Sau đó, mỗi khi thêm dần mẫu học mới, mạng được phép thêm một số nơron cho phép đoán đúng kết quả học hiện tại và quá trình cứ tiếp tục như vậy

Trang 35

4.7 Tổng quát hóa mạng neuron

4.7.2 Vấn đề quá khớp

Khi mạng đã huấn luyện quá khớp với dữ liệu học (bao gồm cả nhiễu) Mạng thường chỉ trả lời chính xác những gì nó đã học còn những gì nó không được học thì không quan tâm Nghĩa là mạng không có khả năng tổng quát hóa, điều mà ta cần khi sử dụng

Vấn đề này gọi là quá khớp Kết xuất của mạng quá khớp với dữ liệu học; nhưng dữ liệu này bao hàm cả nhiễu Nghĩa là mạng đã mô hình hóa không chỉ dữ liệu mà cả nhiễu trong dữ liệu

Một số kỹ thuật tạo mô hình như hồi quy tuyến tính cũng có khả năng quá khớp Nhưng vì hồi quy tuyến tính chỉ có thể khớp giữa đường thẳng với dữ liệu và không có thể tự biến dạng thành các dạng phức tạp như mạng nơron có khả năng làm nên vấn đề quá khớp không trở nên trầm trọng

Nhưng vì đối với một số mạng lan truyền đặc biệt là mạng lan truyền ngược vì nó là một kỹ thuật mô hình hóa rất mạnh Tính linh động của lan truyền ngược là lý do khiến nó có thể tạo ra công việc tạo mô hình tốt hơn rất nhiều so với hồi quy tuyến tính nhưng sức mạnh đó cũng chính là điểm yếu của mạng: năng lực lan truyền ngược cũng

có thể dẫn đến vấn đề quá khớp dữ liệu

4.7.3 Kích thước mẫu

Làm sao ta bảo đảm rằng mô hình xây dựng được là thực thi khi nó được dùng với dữ liệu mới? Nghĩa là làm sao đánh giá được tính tổng quát hóa của mạng? Cách tiếp cận thứ nhất là tăng kích thước mẫu cần luyện

Trang 36

Cho hai trường hợp kết xuất “đúng” khác nhau của cùng một gía trị nhập, mạng đã học

cách tạo ra kết xuất là trung bình cả hai, điều này tốt: trong môi trường nhiễu, trung

bình của cả hai mẫu giúp lượng giá tốt hơn chỉ một mẫu

Như vậy, về lý thuyết, cách giải quyết bài toán nhiễu là phải tăng kích thước mẫu Bất

chấp hàm phức tạp đến cỡ nào, mạng cũng có khả năng tổng quát hóa Có thể ngăn nó

không bị quá khớp bằng cách tạo mẫu luyện đủ lớn để bù cho mức nhiễu trong dữ liệu

Nhưng trong thực tế, quả thật có nhiều hạn chế khi phải tăng kích thước mẫu Vì số

mẫu có được luôn luôn ít hơn số mẫu thống kê cần, và kích thước mẫu có thể có những

giới hạn của nó, do các thiết bị cần có để tập hợp dữ liệu Nhưng chú ý là tăng kích

thước mẫu không tăng thời gian luyện, nếu kích thước luyện được tăng gấp đôi, số thế

hệ luyện sẽ giảm chừng một nửa

Đề cải thiện khả năng tổng quát hóa, ta nên dùng một tập mẫu càng lớn càng tốt khi

mà máy tính còn có khả năng quản lý được Nhưng mà trong thực tế, mẫu hiếm khi đủ

lớn để có thể hạn chế được nhiễu, nên ta cần những kỹ thuật bổ sung

4.8 Ánh xạ mạng neuron

Giá trị các nút trong lớp ẩn và trong lớp xuất là giá trị của hàm truyền với tham số là

tổng trọng hóa Về mặt hình học đồ thị của hàm truyền có dạng chữ S nên ta còn gọi là

hàm chữ S

Một hàm s(u) là một hàm truyền dạng S nếu nó thỏa:

• s(u) là hàm bị chặn Nghĩa là các giá trị của s(u) không bao giờ được vượt quá

chặn trên cũng như thấp hơn chặn dưới bất chấp giá trị của u

• s(u) là hàm đơn điệu tăng Giá trị của s(u) luôn tăng khi giá trị của u tăng

• s(u) là hàm liên tục và trơn Vì hàm s(u) liên tục nên nó không có khe và góc

cạnh Do tính liên tục trơn, hàm có đạo hàm và độ dốc của nó rõ ràng và phân

biệt tại từng điểm

Mọi hàm thỏa ba tính trên đều có thể sử dụng làm hàm truyền trong mạng.Tuy nhiên

trong thực tế hàm logistic g(u) thường được sử dụng rộng rãi

Hàm logistic được định nghĩa như sau:

u e

u

g

11

1)

(

+

Trang 37

Đồ thị hàm logistic được vẽ như sau:

Hình 3.8 Hàm logistic g(u) Khi muốn kết xuất có giá trị khoảng [-1,1] ta có thể sử dụng một trong hai hàm sau:

Hàm hyperpol : u u

e

e u

1)

Hàm hyperpol có quan hệ với hàm logistic: h(u) = 2g(u)-1

Hàm tang-hyperpol: u u u u

e e

Hàm tang-hyperpol tiến đến tiệm cận nhanh hơn hàm h(u)

4.9 Mạng Perceptron

4.9.1 Kiến trúc mạng

Cuối những năm 1950, Frank Rosenblatt và một số nhà nghiên cứu đã phát triển một

mạng neural có tên là mạng Perceptron Đây là mạng nơron với kiến trúc truyền thẳng

một lớp, với lớp ra là các neural có hàm hoạt hóa là hàm hardlimit

Trang 38

Hình 4.7: Mô hình mạng Perceptron 1 lớp Khi cho một vector mẫu vào P, tín hiệu đầu ra của neural thứ i của lớp ra sẽ là:

=

) 0 (

0

) 0 (

1 )

( lim )

( lim

net i

T i i

n a

n a n

it hard b

P W it hard

Trong đó bi là hệ số bias của neural thứ i và T

i

W là ma trận chuyển vị của Wi là ma trận trọng số riêng của neural thứ i Với vector mẫu vào có R thành phần ta có thể biểu diễn

i i i

W

W W

,

2 ,

1 ,

Mạng được cấu trúc với S neuron lớp ra do vậy ta có thể viết gọn theo các ma trận

trọng số riêng như sau:

T T

W

W W

Trang 39

4.9.2 Huấn luyện mạng

Đóng góp của Rosenblatt đối với loại mạng này chính là luật học Perceptron để huấn

luyện mạng sử dụng trong bài toán nhận dạng mẫu Việc huấn luyện mạng khá đơn

giản

• Biên quyết định

Theo thiết kế mạng Perceptron như trên, từ công thức trên ta thấy đầu ra của a sẽ phân

chia không gian mẫu đầu vào thành hai vùng Ranh giới giữa hai vùng này được xác

định bởi một biên quyết định Đó là biên tuyến tính hay siêu phẳng (hyperplane) Hình

4.11 dưới là một ví dụ về mạng Perceptron 1 neural lớp ra với 2 đầu vào p1 và p2 tương

đương với 2 neural lớp vào) Với những giá trị trọng số và hệ số bias đã cho ta có thể

thấy trên đồ thị biên quyết định phân chia 2 miền không gian mẫu vào

Biên quyết định được xác định bởi các vector đầu vào tương ứng với nnet bằng không

Do đó, biên quyết định được xác định bằng phương trình sau:

0 ,

2 2 , 1 1 , + + + + =

= +

= T i i i i R R i i

Vector trọng số sẽ luôn trực giao với đường biên quyết định

Hình 4.8: Biên quyết định trong không gian mẫu

Trang 40

• Luật học Perceptron

Vai trò của luật học Perceptron là để thiết lập các trọng số và các hệ số bias cho mạng

sao cho mạng xác lập biên quyết định phân loại tập mẫu vào Tập mẫu vào huấn luyện

mạng bao gồm các mẫu pi đã xác định tín hiệu ra yêu cầu ti (kết quả đích) Như vậy

luật học này thuộc loại giám sát

Luật học Perceptron được mô tả như sau:

Bước 1: Cung cấp tập huấn luyện gồm K cặp mẫu vào và kết quả ra đích {(PK,TK)}

Bước 2: Đặt các giá trị ban đầu bất kỳ cho các trọng số và hệ số bias

Bước 3: Lần lượt cho các mẫu PK lan truyền qua mạng được vector tín hiệu AK

Bước 4: Tính các sai số e i tại các đầu ra của mạng theo công thức sau: ei = ti-ai với ti

là kết quả đích tại neural i của lớp ra còn ai là tín hiệu ra thực tế của nó

Bước 5: Hiệu chỉnh các ma trận trọng số W i và các hệ số bias bi của S neural lớp ra:

T k i i

cu i

T k i

cu i

new

với i =1…S Bước 6: Mỗi lần hiệu chỉnh xong các ma trận Wi và các bi thì lặp lại bước 3

Quá trình lặp cho đến khi sai số ei đều bằng 0, tức là khi đó ta sẽ có được ma trận trọng

số và các hệ số bias thích ứng với K mẫu học {(PK, TK)} Cách hiệu chỉnh tham số của

mạng dựa vào sai số e như trên được gọi là phương pháp tối thiểu hóa lỗi dự đoán

(prediction error)

• Sự hội tụ

Rosenblatt đã chứng minh được phép lặp của quá trình huấn luyện luôn hội tụ về ma

trận trọng số và các hệ số bias mà với chúng mạng hoàn toàn đạt được một sự phân lớp

các mẫu như mong muốn Tất nhiên điều kiện ở đây là không gian mẫu phải tồn tại

biên quyết định, hay còn gọi là không gian mẫu là phải khả tách tuyến tính (linearly

inseparable) Trong phạm vi luận văn không trình bày về chứng minh này, ở đây chỉ

xin đưa ra khái niệm về không gian mẫu được gọi là khả tách tuyến tính

Định dạng
Số trang	98
Dung lượng	1,19 MB