TRƯỜNG ĐẠI HỌC TÀI NGUYÊN VÀ MÔI TRƯỜNG HÀ NỘI KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO MÔN HỌC TÍNH TOÁN MỀM Tên đề tài Nghiên cứu mạng nơ ron và ứng dụng nhận dạng chữ số viết tay Sinh viên thực hiện Nguyễn Minh Chiến Lớp ĐH7C5 Hà Nội, tháng 062021 MỤC LỤC MỞ ĐẦU 5 1 Lý do chọn đề tài 5 2 Mục tiêu nghiên cứu 5 2 1Mục tiêu tổng quát 5 2 2 Mục tiêu cụ thể 5 3 Đối tượng và phạm vi nghiên cứu 6 3 1 Đối tượng nghiên cứu 6 3 2 Phạm vi nghiên cứu 6 4 Nội dung nghiên cứu 6 5 Cấu trúc của luận văn 7 CHƯƠNG 1.
Trang 1TRƯỜNG ĐẠI HỌC TÀI NGUYÊN VÀ MÔI TRƯỜNG HÀ NỘI
KHOA CÔNG NGHỆ THÔNG TIN
BÁO CÁO MÔN HỌC TÍNH TOÁN MỀM Tên đề tài: Nghiên cứu mạng nơ-ron và ứng dụng nhận
Trang 2MỤC LỤC
MỞ ĐẦU 5
1 Lý do chọn đề tài 5
2 Mục tiêu nghiên cứu 5
2.1Mục tiêu tổng quát 5
2.2 Mục tiêu cụ thể 5
3 Đối tượng và phạm vi nghiên cứu 6
3.1 Đối tượng nghiên cứu 6
3.2 Phạm vi nghiên cứu 6
4.Nội dung nghiên cứu 6
5.Cấu trúc của luận văn 7
CHƯƠNG 1 TỔNG QUAN 8
1.1 Đặt vấn đề 8
1.2 Tổng quan về hệ thống nhận dạng mẫu 9
1.2.1 Phân lớp bài toán nhận dạng 9
1.2.2 Chu trình thiết kế hệ thống nhận dạng mẫu 11
1.2.3 Thiết kế hệ thống nhận dạng chữ số viết tay 12
1.3 Tổng quan về tình hình nghiên cứu 21
1.3.1 Tình hình nghiên cứu trong nước 21
1.3.2 Tình hình nghiên cứu ngoài nước 22
CHƯƠNG 2 MẠNG NƠ-RON NHÂN TẠO 23
2.1 Giới thiệu về mạng nơ-ron 23
2.1.1 Mạng nơ-ron sinh học 23
2.1.2 Mạng nơ-ron nhân tạo 25
2.1.3 Các ứng dụng của mạng nơ-ron 26
2.2 Kiến trúc mạng nơ-ron 27
2.2.1.Mô hình nơ-ron nhân tạo 27
2.2.1.1 Mô hình nơ-ron một đầu vào (Single - input neuron) 27
2.2.2 Mạng nơ-ron một tầng 31
2.3 Mạng Perceptron một tầng 36
2.4 Mạng Perceptron nhiều tầng và thuật toán lan truyền ngược 40
Trang 32.5 Mạng LVQ (Learning Vector Quantization) 46
CHƯƠNG 3 THIẾT KẾ HỆ THỐNG NHẬN DẠNG 49
CHỮ SỐ VIẾT TAY 49
3.1 Cơ cở dữ liệu 49
3.2 Tiền xử lý 51
3.3 Trích chọn đặc trưng của chữ số viết tay 51
3.4 Phân lớp dùng mạng Perceptron đa tầng 52
3.5 Một số nhận xét 60
KẾT LUẬN 61
TÀI LIỆU THAM KHẢO 62
Trang 4DANH MỤC CÁC BẢNG
Bảng 2.1 Một số hàm truyền của mạng nơ-ron 30
Bảng 3.1 Số lượng các chữ số viết tay được phân bố trong các tập huấn
luyện 50
Bảng 3.2 Phương pháp chọn đặc trưng bằng chia ô theo cạnh với 2000
mẫu huấn luyện 54
Bảng 3.3 Phương pháp chọn đặc trưng bằng chia ô theo cạnh với 10000mẫu huấn luyện 57
Bảng 3.4 Phương pháp chọn đặc trưng bằng chia ô từ góc với 2000 mẫuhuấn luyện 57
Bảng 3.5 Phương pháp chọn đặc trưng bằng chia ô từ góc với 10000 mẫuhuấn luyện 58
Bảng 3.6 Chọn đặc trưng bằng phương pháp phân tích thành phần chínhvới K=20 và số mẫu huấn luyện 2000 60
Bảng 3.7 Chọn đặc trưng bằng phương pháp phân tích thành phần chínhvới K=50 và số mẫu huấn luyện 2000 60
Bảng 3.8 Chọn đặc trưng bằng phương pháp phân tích thành phần chínhvới K=100 và số mẫu huấn luyện 2000 61
Bảng 3.9 Chọn đặc trưng bằng phương pháp phân tích thành phần chínhvới K=20 và số mẫu huấn luyện 5000 61
Trang 5DANH MỤC CÁC HÌNH
Hình 1.1 Chu trình hệ thống nhận dạng mẫu……… 12
Hình1.2 Mô tả một số hình ảnh mẫu trong cơ sở dữ liệu MNIST………… 14
Hình 1.3 Sơ đồ tổng quát của hệ thống nhận dạng chữ viết số tay………….14
Hình 2.1 Các thành phần của nơ-ron……… 25
Hình 2.2 Mô hình nơ-ron một đầu vào……… 29
Hình 2.3 Mô hình nơ-ron nhiều đầu vào 31
Hình 2.4 Ký hiệu tắt mô hình nơ-ron nhiều đầu vào……… 32
Hình 2.5 Kiến trúc mạng nơ-ron một tầng……….32
Hình 2.6 Mạng nơ-ron một tầng S nơ-ron, R đầu vào 33
Hình 2.7 Mạng 3 tầng 33
Hình 2.8 Ký hiệu tắt của mạng nơ-ron 3 tầng 33
Hình 2.9 Khối trễ 34
Hình 2.10 Khối tích phân 34
Hình 2.11 Mạng hồi quy 35
Hình 2.12.Mạng Perceptron 36
Hình 2.13 Mạng Perceptron một nơ-ron hai đầu vào 37
Hình 2.14 Mạng Perceptron 38
Hình 2.15 Mạng Perceptron nhiều tầng 41
Hình 2.16 Mạng LVQ 45
Hình 3.1 Tập 100 ký tự đầu tiên trong tập dữ liệu huấn luyện 49
Hình 3.2 Tập 100 ký tự đầu tiên trong tập dữ liệu huấn luyện 49
Hình 3.3 Phương pháp chia ô từ góc 51
Hình 3.4 Quá trình thực hiện của mạng nơ-ron 2 tầng 52
Hình 3.5 Ảnh nhận dạng đúng 53
Hình 3.6 Ảnh nhận dạng sai 53
Hình 3.7 Quá trình thực hiện của mạng nơ-ron 3 tầng 56
Trang 6MỞ ĐẦU
1 Lý do chọn đề tài
Nhận dạng chữ số viết tay hiện đang được ứng dụng rộng rãi trong nhiềulĩnh vực như nhận dạng các chữ số trên chi phiếu ngân hàng, mã số trên bì thưcủa dịch vụ bưu chính, hay các chữ số trên các biểu mẫu nói chung Vấn đề nhậndạng chữ viết tay nói chung và nhận dạng chữ số viết tay nói riêng là một tháchthức lớn đối với các nhà nghiên cứu Việc nhận dạng chữ viết tay là một bài toánkhá phức tạp vì nó phụ thuộc nhiều yếu tố như phong cách viết và cách thể hiệnngôn ngữ của người viết Thực tế, chúng ta không thể luôn luôn viết một ký tựchính xác theo cùng một cách giống hệt nhau Do vậy, xây dựng hệ thống nhậndạng chữ viết có thể nhận dạng bất cứ ký tự nào một cách đáng tin cậy trong cácứng dụng khác nhau là một bài toán còn nhiều thách thức
Xuất phát từ yêu cầu của thực tế, nhằm mục đích hướng tới một phần
nhiệm vụ nhận dạng chữ viết tay, luận văn “NGHIÊN CỨU MẠNG RON VÀ ỨNG DỤNG NHẬN DẠNG CHỮ SỐ VIẾT TAY” nhằm nghiên
NƠ-cứu, và xây dựng thử nghiệm hệ thống nhận dạng chữ số viết tay
2 Mục tiêu nghiên cứu
2.1Mục tiêu tổng quát
Nghiên cứu và cài đặt thử nghiệm hệ thống nhận dạng chữ số viết tay sử dụng mạng nơ-ron
2.2 Mục tiêu cụ thể
Đề tài tập trung vào 3 mục tiêu chính sau:
(i) Nghiên cứu tổng quan về bài toán nhận dạng chữ số viết tay.
(ii) Nghiên cứu trích chọn đặc trưng của chữ số viết tay.
(iii) Nghiên cứu và cài đặt một số thuật toán nhận dạng chữ số viết tay
bằng mạng nơ-ron; so sánh và đánh giá hiệu quả của các thuật toán tỷ lệ nhận
Trang 73 Đối tượng và phạm vi nghiên cứu
3.1 Đối tượng nghiên cứu
(a) Nghiên cứu lý thuyết
- Nghiên cứu các tài liệu về bài toán nhận dạng chữ số viết tay đã công
bố ở trong và ngoài nước
- Nghiên cứu tài liệu về trích chọn đặc trưng chữ số viết tay cho hệ thốngnhận dạng
- Nghiên cứu mạng nơ-ron để xây dựng hệ thống nhận dạng
(b) Nghiên cứu thực nghiệm
- Nghiên cứu cơ sở dữ liệu chữ số viết tay
- Nghiên cứu ngôn ngữ lập trình Python và cài đặt một số mạng nơ-ron cho bài toán nhận dạng chữ số viết tay
- So sánh, đánh giá hiệu quả của các thuật toán
3.2 Phạm vi nghiên cứu
Bài toán nhận dạng chữ số viết tay có thể được thực hiện bằng các thuậttoán nhận dạng khác nhau như thuật toán K - láng giềng gần nhất, thuật toánSVM (Support Vector Machine), … và có thể được giải quyết theo 2 phươngpháp là: gián tiếp (offline) và trực tiếp (online)
Trong phạm vi luận văn này, chúng tôi tập trung giải quyết bài toán sửdụng mạng nơ-ron để nhận dạng và bằng phương pháp gián tiếp (offline)
4.Nội dung nghiên cứu
- Nghiên cứu tổng quan về các hệ thống nhận dạng chữ số viết tay đã được công bố
- Nghiên cứu cơ sở dữ liệu chữ số viết tay
- Nghiên cứu các phương pháp để trích chọn đặc trưng của chữ số viết tay
- Nghiên cứu mạng nơ-ron cho bộ phân lớp
- Nghiên cứu ngôn ngữ lập trình Pyton để cài hệ thống nhận dạng
Trang 8- Lập trình các thuật toán trên máy tính và đánh giá hiệu quả của các thuật toán.
5.Cấu trúc của luận văn
Bố cục của luận văn gồm 3 chương với các nội dung như sau:
Chương 1 trình bày tổng quan lý thuyết bài toán nhận dạng mẫu: phân
lớp bài toán nhận dạng, chu trình thiết kế hệ thống nhận dạng mẫu và thiết kế
hệ thống nhận dạng chữ số viết tay
Chương 2 giới thiệu về mạng nơ-ron nhân tạo Chương này sẽ mô tả
tóm tắt mạng nơ-ron sinh học, mô hình và kiến trúc mạng nơ-ron nhân tạo,các luật huấn luyện mạng nơ-ron nhân tạo, và một số mạng nơ-ron nhân tạo sẽđược dùng trong nhận dạng chữ số viết tay là mạng Perceptron đa tầng vớithuật toán lan truyền ngược và mạng LVQ
Chương 3 mô tả hệ thống nhận dạng chữ số viết tay Chương này chúng
tôi nghiên cứu cơ sở dữ liệu MNIST cho thực nghiệm và thực nghiệm nhậndạng chữ số viết tay với mạng nơ-ron
Trang 9CHƯƠNG 1 TỔNG QUAN
1.1 Đặt vấn đề
Nhận dạng mẫu (pattern recognition) là một ngành thuộc lĩnh vực họcmáy (machine learning) [13] Nhận dạng mẫu nhằm mục đích phân loại dữliệu ( hoặc các mẫu) dựa trên: hoặc là kiến thức đã có (a priori) hoặc dựa vàothông tin thống kê được trích rút từ các mẫu có sẵn Các mẫu cần phân loạithường được biểu diễn thành các nhóm của các dữ liệu đo đạc hay quan sátđược, mỗi nhóm là một điểm ở trong một không gian đa chiều phù hợp Đó làkhông gian của các đặc tính để dựa vào đó ta có thể phân loại
Một hệ thống nhận dạng mẫu bao gồm một thiết bị cảm nhận (sensor) đểthu thập các quan sát về đối tượng nhằm thu nhận dữ liệu cho hệ thống; mộtphương pháp trích rút đặc trưng (feature extraction) để tính toán các thông tindưới dạng số hay dạng tượng trưng (symbolic) từ các dữ liệu quan sát được;một bộ phân loại nhằm thực hiện công việc phân loại dựa vào các đặc tính đãđược trích rút
Việc phân loại thường dựa vào sự có sẵn của một tập các mẫu mà đãđược phân loại sẵn Tập các mẫu này được gọi là tập huấn luyện và chiến lượchọc nhằm phân loại mẫu vào một trong các lớp có sẵn được gọi là học cógiám sát Việc học cũng có thể là không có giám sát Theo nghĩa hệ thốngkhông được cung cấp các mẫu được đánh nhãn (phân loại), mà nó phải tự đưa
ra các lớp để phân loại dựa vào tính ổn định trong thống kê của các mẫu.Việc phân loại thường dùng một trong các hướng tiếp cận sau: thống kê
(hay lí thuyết quyết định), cú pháp (hay cấu trúc) Nhận dạng mẫu dùng thống
kê là dựa vào các đặc tính thống kê của các mẫu, chẳng hạn rằng các mẫuđược tạo bởi một hệ thống xác suất Nhận dạng dùng cấu trúc là dựa vàotương quan cấu trúc giữa các mẫu
Trang 10Các ứng dụng phổ biến là nhận dạng tiếng nói tự động, phân loại văn bảnthành nhiều loại khác nhau (ví dụ: những thư điện tử nào là spam/non-spam),
nhận dạng tự động các mã bưu điện viết tay trên các bao thư, hay hệ thốngnhận dạng danh tính dựa vào mặt người Ba ví dụ cuối tạo thành lãnh vực con
phân tích ảnh của nhận dạng mẫu với đầu vào là các ảnh số
1.2 Tổng quan về hệ thống nhận dạng mẫu
1.2.1 Phân lớp bài toán nhận dạng
Nhận dạng mẫu thường được phân thành 3 lớp bài toán [10]:
máy để xây dựng một hàm (function) từ dữ liệu huấn luyện Dữ liệu huấnluyện bao gồm các cặp gồm đối tượng đầu vào (thường dạng vec-tơ), đầu ramong muốn Đầu ra của một hàm có thể là một giá trị liên tục (gọi là hồi quy),hay có thể là dự đoán một nhãn phân loại cho một đối tượng đầu vào (gọi là
phân loại)
Nhiệm vụ của chương trình học có giám sát là dự đoán giá trị của hàmcho một đối tượng bất kì là đầu vào hợp lệ, sau khi đã xem xét một số ví dụhuấn luyện (nghĩa là, các cặp đầu vào và đầu ra tương ứng) Để đạt được điềunày, chương trình học phải tổng quát hóa từ các dữ liệu sẵn có để dự đoánđược những tình huống chưa gặp phải theo một cách "hợp lí"
Học có giám sát có thể tạo ra 2 loại mô hình Phổ biến nhất, học có giám
sát tạo ra một mô hình toàn cục (global model) để ánh xạ đối tượng đầu vào
đến đầu ra mong muốn Tuy nhiên, trong một số trường hợp, việc ánh xạ đượcthực hiện dưới dạng một tập các mô hình cục bộ (như trong phương pháp lậpluận theo tình huống (case-based reasoning) hay giải thuật K láng giềng gầnnhất)
b Học không có giám sát (unsupervised learning) là một phương pháp
Trang 11Khác với học có giám sát, trong học không có giám sát, đầu ra đúng tươngứng cho mỗi đầu vào là không biết trước Học không có giám sát thường đối
xử với các đối tượng đầu vào như là một tập các biến ngẫu nhiên Sau đó, một
mô hình mật độ kết hợp sẽ được xây dựng cho tập dữ liệu đó
Học không có giám sát có thể được dùng kết hợp với suy diễn Bayes
(Bayesian inference) để cho ra xác suất có điều kiện (nghĩa là học có giámsát) cho bất kì biến ngẫu nhiên nào khi biết trước các biến khác
máy, nghiên cứu cách thức một tác nhân trong một môi trường nên chọn thựchiện các hành động nào để cực đại hóa một điểm thưởng về lâu dài Các thuậttoán học tăng cường cố gắng tìm một chiến lược ánh xạ các trạng thái của thếgiới tới các hành động mà tác nhân nên chọn trong các trạng thái đó
Môi trường thường được biểu diễn dưới dạng một quá trình quyết địnhMarkov trạng thái hữu hạn (Markov decision process - MDP), và các thuậttoán học tăng cường cho ngữ cảnh này có liên quan nhiều đến các kỹ thuật
quy hoạch động Các xác suất chuyển trạng thái và các xác suất thu lợi trongMDP thường là ngẫu nhiên nhưng lại tĩnh trong quá trình của bài toán
Khác với học có giám sát, trong học tăng cường không có các cặp dữ liệuvào/kết quả đúng, các hành động gần tối ưu cũng không được đánh giá đúngsai một cách tường minh Hơn nữa, ở đây hoạt động trực tuyến (on-lineperformance) được quan tâm, trong đó có việc tìm kiếm một sự cân bằng giữakhám phá (lãnh thổ chưa lập bản đồ) và khai thác (tri thức hiện có) Trong họctăng cường, sự được và mất giữa khám phá và khai thác đã được nghiên cứuchủ yếu qua bài toán multi-armed bandit
Do đó, học tăng cường đặc biệt thích hợp cho các bài toán có sự đượcmất giữa các khoản thưởng ngắn hạn và dài hạn Học tăng cường đã được áp
Trang 12dụng thành công cho nhiều bài toán, trong đó có điều khiển robot, điều vậnthang máy, viễn thông, các trò chơi backgammon và cờ vua.
1.2.2 Chu trình thiết kế hệ thống nhận dạng mẫu
Dữ liệu (Data): Dữ liệu đưa vào thường có kích thước lớn và gồm nhiều
dạng dữ liệu khác nhau, việc xử lý chúng rất khó khăn Do vậy trước hếtchúng ta phải có các thao tác làm sạch và tiền xử lý dữ liệu:
- Làm sạch: là làm giảm nhiễu và loại bỏ các dư thừa dữ liệu
- Tiền xử lý: sử dụng các phương pháp đổi tên, chuẩn hoá, rời rạc hoá và trừu tượng hoá
Trích chọn đặc trưng (Feature selection): Kích thước của các mẫu đưa
vào thường rất lớn Mục đích làm giảm kích thước của mẫu thì phải trích chọncác đặc trưng của mẫu
Trang 13Lựa chọn mô hình (Model selection): Sử dụng các kiến thức về các
mẫu, phân tích sự tương quan để đoán mô hình
Học (Learning): Sử dụng các phương pháp đạo hàm, ma trận để giải các
bài toán tối ưu, tìm tập tham số của mô hình để tối ưu hoá hàm lỗi
Đánh giá (Evaluation): Sử dụng các phương pháp đánh giá đơn giản
như: chia tập dữ liệu thành tập huấn luyện và tập kiểm tra
1.2.3 Thiết kế hệ thống nhận dạng chữ số viết tay
Nhận dạng chữ số viết tay đã được thực hiện từ những năm 1980 Nhiệm
vụ của nhận dạng chữ số viết tay phân loại các chữ số và được sử dụng trongviệc nhận dạng chữ viết tay trực tuyến trên máy tính, nhận dạng các mã ZIPtrên các thư, sắp xếp các thư từ trong bưu điện, xử lý các tài khoản ngân hàng,điền các biểu mẫu bằng tay (ví dụ: biểu mẫu thuế)… Có rất nhiều thách thứckhác nhau khi giải quyết bài toán này Chữ số viết tay không bằng nhau vềkích thước, nét chữ, độ nghiêng, khoảng cách giữa các số Mục tiêu của chúngtôi đó là xây dựng phương pháp phân loại các mẫu đó để có thể nhận dạngchữ số viết tay được cung cấp trong cơ sở dữ liệu về hình ảnh Các chữ số viếttay từ 0-9 của MNIST Cơ sở dữ liệu chứa 60000 hình ảnh huấn luyện và
10000 hình ảnh kiểm tra, mỗi hình ảnh có kích thước 28x28 hình đa mức xám(0-255) mô tả của các số riêng biệt
Các vấn đề khó khăn được dự đoán là chúng tôi sẽ đối mặt với các vấn
đề phân loại số các số gần giống nhau như 1 và 7, 5 và 6, 3 và 8, 9 và 8….và
một số người cũng đã viết các ký tự theo các các khác nhau ví dụ: ‘1’,’1’ hoặc‘1’ tương tự như vậy ‘7’,’7’ hoặc’7’ Cuối cùng sự đồng nhất cũng như
sự thay đổi trong các cá nhân khác nhau thì cũng chịu ảnh hưởng tạo ra và sựxuất hiện của các chữ số Hình1.2 Mô tả một số hình ảnh mẫu trong cơ sở dữliệu MNIST [8]
Trang 14Hình1.2 Mô tả một số hình ảnh mẫu trong cơ sở dữ liệu MNIST
Sơ đồ tổng quát của hệ thống nhận dạng chữ số viết tay được thể hiện ở Hình 1.3
Hình 1.3 Sơ đồ tổng quát của hệ thống nhận dạng chữ viết số tay
Trang 15a Tiền xử lý
Giai đoạn này góp phần làm tăng độ chính xác phân lớp của hệ thốngnhận dạng, tuy nhiên nó cũng làm cho tốc độ nhận dạng của hệ thống chậmlại Vì vậy, tùy thuộc vào chất lượng ảnh quét vào của từng văn bản cụ thể đểchọn một hoặc một vài chức năng trong khối này Nếu cần ưu tiên tốc độ xử
lý và chất lượng của máy quét tốt thì có thể bỏ qua giai đoạn này Khối tiền xử
lý bao gồm một số chức năng: Nhị phân hóa ảnh, lọc nhiễu, chuẩn hóa kíchthước ảnh, làm trơn biên chữ, làm đầy chữ, làm mảnh chữ và xoay văn bản
+ Nhị phân hóa ảnh
Nhị phân hóa ảnh là một kỹ thuật chuyển ảnh đa mức xám sang ảnh nhịphân Trong bất kỳ bài toán phân tích hoặc nâng cao chất lượng ảnh nào, nócũng cần thiết để xác định các đối tượng quan trọng Nhị phân hóa ảnh phânchia ảnh thành 2 phần: phần nền và phần chữ Hầu hết các phương pháp nhịphân hóa ảnh hiện nay đều lựa chọn một ngưỡng thích hợp theo cường độsáng của ảnh và sau đó chuyển tất cả các giá trị độ sáng lớn hơn ngưỡng đóthành một giá trị độ sáng (ví dụ “trắng”) và tất cả các giá trị bé hơn ngưỡngthành một giá trị độ sáng khác (“đen”)
+ Lọc nhiễu
Nhiễu là một tập các điểm sáng thừa trên ảnh Khử nhiễu là một vấn đềthường gặp trong nhận dạng, nhiễu có nhiều loại (nhiễu đốm, nhiễu vệt, nhiễuđứt nét ) Để khử các nhiễu đốm (các nhiễu với kích thước nhỏ), có thể sửdụng các phương pháp lọc (lọc trung bình, lọc trung vị ) Tuy nhiên, với cácnhiễu vệt (hoặc các nhiễu có kích thước lớn) thì các phương pháp lọc tỏ rakém hiệu quả, trong trường hợp này sử dụng phương pháp khử các vùng liênthông nhỏ tỏ ra có hiệu quả hơn
Trang 16+ Chuẩn hóa kích thước ảnh
Việc chuẩn hóa kích thước ảnh dựa trên việc xác định trọng tâm ảnh, sau
đó xác định khoảng cách lớn nhất từ tâm ảnh đến các cạnh trên, dưới, trái,phải của hình chữ nhật bao quanh ảnh Thông qua khoảng cách lớn nhất đó,
có thể xác định được một tỷ lệ co, giãn của ảnh gốc so với kích thước đã xácđịnh, từ đó hiệu chỉnh kích thước ảnh theo tỷ lệ co, giãn này Như vậy, thuậttoán chuẩn hóa kích thước ảnh luôn luôn đảm bảo được tính cân bằng khi cogiãn ảnh, ảnh sẽ không bị biến dạng hoặc bị lệch
+ Làm trơn biên chữ
Đôi khi do chất lượng quét ảnh quá xấu, các đường biên của chữ khôngcòn giữ được dáng điệu trơn tru ban đầu mà hình thành các đường răng cưagiả tạo Trong các trường hợp này, phải dùng các thuật toán làm trơn biên đểkhắc phục
+ Làm đầy chữ
Chức năng này được áp dụng với các ký tự bị đứt nét một cách ngẫunhiên Ảnh đứt nét gây khó khăn cho việc tách chữ, dễ bị nhầm hai phần liênthông của ký tự thành hai ký tự riêng biệt, tạo nên sai lầm trong quá trìnhnhận dạng
+ Làm mảnh chữ
Đây là một bước quan trọng nhằm phát hiện khung xương của ký tự bằngcách loại bỏ dần các điểm biên ngoài của các nét Tuy nhiên, quá trình làmmảnh chữ rất nhạy cảm với việc khử nhiễu
+ Điều chỉnh độ nghiêng của văn bản
Do trang tài liệu quét vào không cẩn thận hoặc do sự cố in ấn, các hàngchữ bị lệch so với lề chuẩn một góc α, điều này gây khó khăn cho công đoạntách chữ, đôi khi không thể tách được Trong những trường hợp như vậy, phảitính lại tọa độ điểm ảnh của các chữ bị sai lệch
Trang 17Có nhiều kỹ thuật để điều chỉnh độ nghiêng, kỹ thuật phổ biến nhất dựatrên cơ sở biểu đồ chiếu (projection profile) của ảnh tài liệu; một số kỹ thuậtdựa trên cơ sở các phép biến đổi Hough và Fourier.
b Khối tách chữ
Khối này có nhiệm vụ tách từng ký tự ra khỏi văn bản Chỉ khi nào vănbản được tách và cô lập đúng từng ký tự đơn ra khỏi tổng thể văn bản thì hệthống mới có thể nhận dạng đúng ký tự đó Một số phương pháp tách chữthông dụng:
+ Tách chữ theo chiều nằm ngang và thẳng đứng
Phương pháp này thường áp dụng cho chữ in Khác với chữ viết tay, kíchthước và kiểu chữ cố định, phải tuân theo một số quy định in ấn, các chữ phảinằm gọn trong một khung nên việc cô lập một ký tự đơn có thể đồng nhất vớiviệc tìm ra khung bao của chữ đó tại vị trí của nó trong văn bản Tách chữtheo chiều nằm ngang và thẳng đứng là tìm một hình chữ nhật có cạnh thẳngđứng và nằm ngang chứa trọn một ký tự ở bên trong
+ Tách chữ dùng lược đồ sáng
Đối với chữ viết tay thì việc tìm đường phân cách giữa các dòng và các
ký tự trong văn bản thường rất khó khăn Trong trường hợp này, không thểtìm đường phân cách theo nghĩa thông thường mà phải hiểu là đường phâncách với số điểm cắt hai dòng là ít nhất Khi đó phải xây dựng lược đồ sángcủa các dòng chữ, từ đó các đoạn thấp nhất trên lược đồ chính là đường phâncách cần tìm
c Trích chọn đặc trưng
Trích chọn đặc trưng đóng vai trò cực kỳ quan trọng trong một hệ thốngnhận dạng Trong trường hợp đơn giản nhất, ảnh đa mức xám hoặc ảnh nhịphân được sử dụng cho việc nhận dạng Tuy nhiên, trong hầu hết các hệ nhậndạng, để giảm độ phức tạp và tăng độ chính xác của các thuật toán phân lớp
Trang 18thì đòi hỏi các đặc trưng được trích chọn phải rút gọn lại càng nhỏ càng tốtnhưng vẫn phải đảm bảo được thông tin của ký tự Với mục tiêu này, một tậpcác đặc trưng được trích chọn cho mỗi lớp sao cho có thể phân biệt được vớicác lớp khác Một số phương pháp trích chọn đặc trưng tương đối tốt đối vớinhận dạng chữ viết tay Có hàng trăm phương pháp trích chọn đặc trưng choảnh văn bản, nhưng chung quy lại, các phương pháp này được chia thành banhóm chính sau:
+ Biến đổi toàn cục và khai triển chuỗi
Một tín hiệu liên tục thường chứa nhiều thông tin và chúng có thể sửdụng làm các đặc trưng cho mục đích phân lớp Các đặc trưng được trích chọncũng có thể đúng đối với việc xấp xỉ các tín hiệu liên tục thành các tín hiệu rờirạc Một cách để biểu diễn một tín hiệu là sử dụng một tổ hợp tuyến tính củamột dãy các hàm đơn giản hơn Các hệ số của tổ hợp tuyến tính cung cấp mộttri thức giải mã vừa đủ, chẳng hạn như các phép biến đổi hoặc khai triểnchuỗi Một số biến dạng khác như các phép dịch chuyển và phép quay là bấtbiến dưới các phép biến đổi toàn cục và khai triển chuỗi Một số phương phápthường được áp dụng trong lĩnh vực nhận dạng chữ
Biến đổi Fourier: Một trong những tính chất nổi bật nhất của phép biến
đổi Fourier là khả năng nhận dạng các ký tự có sự thay đổi về các tư thế khácnhau, các phép biến đổi này đã được áp dụng để nhận dạng ký tự theo nhiềucách khác nhau
Biến đổi Wavelet: Phép biến đổi này là một dãy các kỹ thuật khai triển
cho phép mô tả đặc trưng của ảnh ở các mức độ khác nhau Các công đoạntách chữ thành các ký tự hoặc từ được mô tả bằng các hệ số wavelet theo cácmức độ khác nhau đối với từng giải pháp Sau đó các hệ số wavelet đượcchuyển qua một máy phân lớp để phục vụ cho việc nhận dạng
Trang 19Phương pháp mô men: Theo phương pháp này, ảnh gốc sẽ được thay
thế bằng một tập các đặc trưng vừa đủ của để nhận dạng các đối tượng bấtbiến đối với các phép thay đổi tỷ lệ, tịnh tiến hoặc quay Các mô men đượcxét như các dãy khai triển đặc trưng vì ảnh gốc có thể xây dựng lại một cáchđầy đủ từ các hệ số mô men
Khai triển Karhunent-Loeve: Việc khai triển này nhằm phân tích các
véc tơ riêng để rút gọn số chiều của tập đặc trưng bằng cách tạo ra các đặctrưng mới là tổ hợp tuyến tính của các đặc trưng gốc Đây chỉ là một phépbiến đổi tối ưu trong một số giới hạn nào đó của việc nén thông tin Khai triểnKarhunent-Loeve được dùng trong một số bài toán nhận dạng mẫu như nhậndạng mặt người, nó cũng được sử dụng trong hệ thống OCR của Viện Côngnghệ và Tiêu chuẩn Quốc gia Hoa Kỳ (NIST – National Institute of Standardsand Technology of the United States) Vì việc khai triển này đòi hỏi phải sửdụng các thuật toán có khối lượng tính toán rất lớn nên việc sử dụng các đặctrưng Karhunent-Loeve trong các bài toán nhận dạng chữ không được phổbiến rộng rãi Tuy nhiên, để tăng tốc độ tính toán cho các máy phân lớp, cácđặc trưng này trở nên thiết thực hơn cho các hệ nhận dạng chữ trong nhữngnăm gần đây
+ Đặc trưng thống kê
Các đặc trưng thống kê của ảnh văn bản bảo toàn các kiểu biến đổi đadạng về hình dáng của chữ Mặc dù các kiểu đặc trưng này không thể xâydựng lại ảnh gốc, nhưng nó được sử dụng để thu nhỏ số chiều của tập đặctrưng nhằm tăng tốc độ và giảm thiểu độ phức tạp tính toán Một số đặc trưngthống kê thường dùng để biểu diễn ảnh ký tự:
Phân vùng (zoning): Khung chứa ký tự được chia thành một vài vùng
chồng nhau hoặc không chồng nhau Mật độ của các điểm ảnh trong các vùngkhác nhau được phân tích và tạo thành các đặc trưng
Trang 20Các giao điểm và khoảng cách: Một đặc trưng thống kê phổ biến là số
giao điểm giữa chu tuyến của chữ với một đường thẳng theo một hướng đặcbiệt nào đó Trong khung chứa ký tự được phân chia thành một tập các vùngtheo các hướng khác nhau và sau đó các dãy đen trong mỗi vùng được mã hóabởi các số lũy thừa của 2 Tương tự như vậy, khoảng cách từ biên của khungchứa ảnh tới điểm đen đầu tiên của chu tuyến chữ trên cùng một dòng quétcũng được sử dụng như những đặc trưng thống kê
Các phép chiếu: Các ký tự có thể được biểu diễn bằng cách chiếu các
giá trị mức xám của từng điểm lên trên các dòng theo các hướng khác nhau.Các đặc trưng này tạo ra dãy tín hiệu một chiều từ ảnh hai chiều
Đặc trưng hướng: Các ký tự bao gồm các nét chữ, các nét này là các
đoạn thẳng có hướng, các cung hoặc các đường cong Hướng của các nét đóngvai trò quan trọng trong việc so sánh sự khác nhau giữa các ký tự Các ký tựđược mô tả như các véc tơ mà các phần tử của nó là các giá trị thống kê vềhướng Để trích chọn các đặc trưng này, góc định hướng của nét chữ phảiđược phân chia thành một số vùng cố định và số các đoạn của nét chữ trongmỗi vùng góc được chọn như một giá trị đặc trưng Vì vậy, tập các số lượngcủa các đoạn định hướng sẽ tạo thành một biểu đồ được gọi là biểu đồ hướng
và các đặc trưng về biểu đồ hướng có thể gọi chung là đặc trưng hướng Cácảnh ký tự được phân rã thành các mặt phẳng định hướng và một độ đo khoảngcách được tính giữa các mặt phẳng đó với mẫu của mỗi lớp Hướng nét chữcục bộ của một ký tự có thể được xác định bằng nhiều cách khác nhau: hướngcủa xương, phân đoạn nét chữ, mã hóa chu tuyến, hướng đạo hàm Hiện nay,các đặc trưng mã hóa chu tuyến và hướng đạo hàm được áp dụng rộng rãi vìchúng dễ cài đặt và xấp xỉ bất biến với sự biến đổi đa dạng của các nét chữ
Trang 21+ Đặc trưng hình học và hình thái
Các tính chất cục bộ và toàn cục khác nhau của các ký tự có thể đượcbiểu diễn bằng các đặc trưng hình học và hình thái Các kiểu đặc trưng nàycũng có thể giải mã một số tri thức về cấu trúc của đối tượng ảnh hoặc có thểcung cấp một số tri thức như sắp xếp các thành phần để tạo ra đối tượng Cácloại đặc trưng này có thể phân thành các nhóm sau:
Trích chọn và đếm các cấu trúc hình thái: Trong nhóm đặc trưng này,
một cấu trúc đã xác định được tìm kiếm trong một ký tự hoặc một từ Sốlượng vị trí hoặc quan hệ vị trí của các cấu trúc trong ký tự này tạo thành cácđặc trưng biểu diễn ký tự Thông thường, các cấu trúc nguyên thủy (các đoạnthẳng, các cung) là các nét tạo ra ký tự Các ký tự và các từ có thể được mô tảbằng cách trích chọn và đếm nhiều loại đặc trưng về hình thái như các điểmcực đại và cực tiểu, các điểm chóp trên và chóp dưới của một ngưỡng nào đó,
mở rộng cho các điểm trái, phải, trên, dưới và các giao điểm, các điểm nhánh,điểm cuối đoạn thẳng, hướng của một nét từ một điểm đặc biệt, các điểm côlập đã tạo nên các ký tự
Đo và xấp xỉ các tính chất hình học: Trong nhiều công trình nghiên cứu,
các ký tự được biểu diễn bằng độ đo của các đại lượng hình học như tỷ sốgiữa chiều rộng và chiều cao của hộp chứa ký tự, quan hệ khoảng cách giữahai điểm, so sánh độ dài giữa hai nét, độ rộng của một nét, khối lượng chữ hoa
và chữ thường của các từ, độ dài từ Một độ đo tiêu biểu rất quan trọng nữa là
độ cong hoặc thay đổi độ cong Các đại lượng hình học đo được có thể xấp xỉbởi một tập các đặc trưng hình học vừa đủ và thuận tiện hơn
Đồ thị và cây: Đầu tiên, các từ hoặc các ký tự được phân chia thành một
tập các đối tượng nguyên thủy như các nét, các điểm chạc Sau đó, các thànhphần nguyên thủy được thay thế bằng các thuộc tính hoặc các đồ thị liên quan
Có hai loại đặc trưng ảnh được mô tả bằng đồ thị Loại thứ nhất sử
Trang 22dụng các tọa độ của hình dáng ký tự Loại thứ hai là một đặc trưng trừu tượng,các nút của đồ thị tương ứng với các nét chữ và các cạnh của đồ thị tương ứngvới các mối quan hệ giữa các nét chữ Cây cũng có thể dùng để biểu diễn các từ
và các ký tự với một tập các đặc trưng theo một quan hệ phân cấp
Trích chọn đặc trưng hầu hết được thực hiện trên ảnh nhị phân Tuynhiên, việc nhị phân hóa ảnh đa mức xám có thể xóa đi một số thông tin quantrọng của các ký tự Trong trường hợp này, cũng có một số công trình nghiêncứu để trích chọn các đặc trưng trực tiếp từ các ảnh đa mức xám Cuối cùng,mục đích chính của việc trích chọn đặc trưng là lựa chọn một tập đặc trưngphục vụ cho việc phân lớp sao cho hệ thống nhận dạng đạt độ chính xác caonhất với số lượng phần tử được trích chọn ít nhất Luận văn chỉ tập trungnghiên cứu một số đặc trưng thống kê và đặc trưng wavelet cho bài toán nhậndạng chữ số viết tay rời rạc
1.3 Tổng quan về tình hình nghiên cứu
1.3.1 Tình hình nghiên cứu trong nước
Nhận dạng chữ số viết tay được chia thành hai lớp bài toán lớn là nhậndạng chữ số viết tay trực tuyến (online) và nhận dạng chữ số viết tay ngoạituyến (offline) Trong nhận dạng chữ số viết tay ngoại tuyến dữ liệu đầu vàođược cho dưới dạng các ảnh được quét từ các giấy tờ, văn bản Ngược lạinhận dạng chữ số viết tay trực tuyến là nhận dạng các chữ trên màn hình ngaykhi nó được viết Trong hệ nhận dạng này máy tính sẽ lưu lại các thông tin vềnét chữ như thứ tự nét viết hướng và tốc độ của nét
Tại Việt Nam năm 2010, nhóm nghiên cứu Huỳnh Hữu Lộc, Lưu QuốcHải, Đinh Đức Anh Vũ (khoa Khoa học và Kỹ thuật máy tính, trường Đại họcBách khoa, TP Hồ Chí Minh) đã đạt được những bước tiến đáng kể trongnhận dạng ký tự viết tay Hướng tiếp cận của nhóm nghiên cứu là nhận dạngdựa trên thông tin tĩnh Dựa trên nền tảng giải thuật trích rút thông tin theo
Trang 23chiều, nhóm tác giả đã cải tiến đa số các bước để đạt được độ chính xác caohơn trong việc nhận dạng ký tự (khoảng 95%) và có những bước tiến đáng kểtrong việc nhận dạng cả từ Tuy nhiên sản phẩm vẫn chưa nhận dạng đượcchữ viết tay tiếng Việt Như vậy có thể thấy nhận dạng chữ viết tay, đặc biệtchữ viết tay tiếng Việt đang là một hướng nghiên cứu rất được quan tâm hiệnnay và đang còn nhiều vấn đề cần phải hoàn thiện.
1.3.2 Tình hình nghiên cứu ngoài nước
Nhận dạng chữ viết tay nói chung và chữ số viết tay nói riêng đã đượcnghiên cứu hơn 40 năm qua Ngày này nhận dạng chữ viết đã nhận được sựquan tâm đáng kể do sự phát triển của các máy tính cầm tay và điện thoại cầmtay dựa trên các bàn phím, chuột và nhiều các thiết bị định vị khác Cácphương pháp này tỏ ra không hữu hiệu hoặc xử lý chậm do đó người ta cầnnghiên cứu phương pháp nhận dạng chữ trên các máy Palm pilot hay các máytính bảng
Trang 24CHƯƠNG 2 MẠNG NƠ-RON NHÂN TẠO
Mạng nơ-ron (neural) nhân tạo được coi là một công cụ mạnh để giảiquyết các bài toán có tính phi tuyến, phức tạp và đặc biệt trong các trườnghợp mà mối quan hệ giữa các quá trình không dễ thiết lập một cách tườngminh Có nhiều loại mạng nơ-ron khác nhau trong đó mạng nơ-ron truyềnthẳng nhiều lớp là một trong những mạng nơ-ron thông dụng nhất Đã cónhiều nghiên cứu sử dụng mạng nơ-ron truyền thẳng nhiều lớp trong bài toánnhận dạng và đã chứng tỏ đây là hướng tiếp cận rất hiệu quả Trong chươngnày chúng ta sẽ tìm hiểu những kiến thức về mạng nơ-ron nhân tạo, mạng nơ-ron truyền thẳng nhiều lớp và khả năng ứng dụng của chúng trong bài toánnhận dạng Nội dung của chương được tham khảo từ các tài liệu [3, 7, 12]
2.1 Giới thiệu về mạng nơ-ron
2.1.1 Mạng nơ-ron sinh học
Ramonny cajal (1934) và Sherrington (1933) đã chỉ ra rằng bộ óc con người
Cơ quan cảm nhận như mắt, mũi, tai, da,…, cảm nhận các tác nhân kíchthích của môi trường hoặc cơ thể con người sau đó chuyển thành xung điện.Các thông tin cảm nhận ngay sau đó được chuyển vào bộ óc là nơi trung tâmcủa hệ thần kinh Bộ óc liên tục nhận thông tin để xử lý, so sánh và lưu trữ cácthông tin và tạo nên các quyết định phù hợp Các mệnh lệnh cần thiết sau đóđược sinh ra và truyền tới các bộ phận phản ứng (Cơ quan vận động giốngnhư lưỡi, giây âm thanh,… đối với tiếng nói) Các bộ phận phản ứng chuyểncác xung điện thành các đáp ứng như các đầu ra của hệ thống Cùng lúc đó, cơquan vận động được giám sát của trung tâm hệ thần kinh bằng liên kết phảnhồi bên trong và liên kết phản hồi bên ngoài đối với hành động giống
Trang 25như sự phối hợp của tay- mắt Như vậy, toàn bộ hệ thống giống như một hệthống điều khiển đóng.
Hình 2.1 chỉ ra sơ đồ khối của nơ-ron với các thành phần chính được gánnhãn là: sợi trục thần kinh (axon), thân tế bào (cell body), xúc tua (dendrites)
và khớp thần kinh (synapse) [12]
Hình 2.1 Các thành phần của nơ-ron
Xúc tua (với nhiều nhánh nhỏ tương tự như một cây) là các bộ cảm nhậncủa các tín hiệu điện từ các tế bào khác Sợi trục thần kinh là đường truyềnmang tín hiệu ra khỏi nơ-ron Chúng có bề mặt nhẵn, ít nhánh và dài như xúctua Thân tế bào chứa các nhân tế bào và trách nhiệm cung cấp các chức năng
hỗ trợ cần thiết tới toàn bộ nơ-ron Các chức năng hỗ trợ gồm tạo ra nănglượng, tổng hợp protein,… thân tế bào làm việc như một bộ xử lý thông tinbằng cách tổng hợp từ các xúc tua
Sự tác động giữa các nơ-ron được thực hiện thông qua các lớp thần kinh Bộnhớ lâu dài được định nghĩa trong hệ thần kinh theo dạng biến đổi cường độliên kết Sự thay đổi ảnh hưởng liên kết được thực hiện thông qua sự thay đổi
sinh hóa kết hợp với việc học và nhớ Kinh nghiệm chứng minhtính chất này như sau:
Trang 261 Sự thay đổi cường độ của các khớp thần kinh đặc trưng trong các ron phụ thuộc vào sự kích hoạt kết hợp của các đầu vào.
nơ-2 Sự thay đổi trong hình thái của xúc tua góp phần quan trọng tới việc học và nhớ trong các nơ-ron trung tâm
2.1.2 Mạng nơ-ron nhân tạo
Aleksander và Morton (1990) định nghĩa một mạng nơ-ron nhân tạo như
sau: “Mạng nơ-ron nhân tạo là nghiên cứu các mạng với các nút có thể thích
nghi thông qua quá trình học từ các nhiệm vụ, lưu trữ các kiến thức kinh nghiệm và tạo ra các kiến thức.” [12].
Hecht - Nielsen (1990) định nghĩa mạng ron như sau: “Một mạng
nơ-ron là một mạng song song, phân bố cấu trúc xử lý thông tin gồm các phần tử
xử lý (mà có thể xử lý bộ nhớ cục bộ và có thể thực hiện khu biệt các thao tác
xử lý thông tin) kết nối với nhau qua một kênh tín hiệu duy nhất gọi là liên kết Mỗi phần tử xử lý có một liên kết đầu ra rẽ vào nhiều liên kết phụ như mong muốn - gọi là tín hiệu đầu ra của phần tử xử lý Xử lý thông tin chỉ phụ thuộc vào giá trị hiện thời của tín hiệu đến mỗi phần tử xử lý qua các liên kết ảnh hưởng và các giá trị lưu trữ trong bộ nhớ cục bộ của phần tử xử lý” [12].
Một máy tính điển hình gồm các thành phần cơ bản là đơn vị xử lýtrung tâm (CPU) có thể thực hiện các lệnh khác nhau CPU cũng có thể đánhđịa chỉ một mảng bộ nhớ để nạp và lưu trữ thông tin Trong một chu kỳ tínhtoán điển hình, CPU tìm kiếm một lệnh và mọi dữ liệu được yêu cầu bởi lệnh
đó, sau đó thực hiện lệnh và lưu trữ các kết quả Ngược lại các mạng nơ-ronkhông bao gồm một mảng bộ nhớ độc lập cho việc lưu trữ thông tin (tức làlệnh và dữ liệu) Chúng cũng không có một CPU chung có khả năng thực hiệncác tệp lệnh đa dạng mà thay vào đó mạng nơ-ron được phân tích thành nhiềuphần tử xử lý đơn giản mà có thể thực hiện tính tổng các trọng số của đầu vào.Không giống như máy tính truyền thống, mạng nơ-ron không thực hiện
Trang 27một dãy các lệnh mà nó đáp ứng đa dạng các đầu vào được đưa vào mạng.Mạng nơ-ron không lưu trữ các kết quả trong các vị trí bộ nhớ mà biểu diễnthông tin thông qua toàn bộ trạng thái của mạng sau khi nó đạt được một sốđiều kiện cân bằng.
Trong trường hợp máy tính truyền thống, chúng ta có thể dễ dàng truynhập các dạng thông tin ví dụ tại địa chỉ bộ nhớ 3541 có thể nhận giá trị hiệnthời của biến X Vì mạng nơ-ron lưu trữ thông tin thông qua các liên kết khácnhau giữa các phần tử xử lý, do đó các thông tin mô tả các kiến trúc hoặc cấutrúc của mạng hơn là nội dung của vị trí bộ nhớ trong mạng
Nói cách khác, các hệ thống mạng nơ-ron nhân tạo là các hệ thống tế bàovật lý mà có thể lưu trữ sử dụng các kiến thức kinh nghiệm với các đặc điểm sau:
1 Khả năng thích nghi: Các thuật toán huấn luyện đủ mạnh và các quy
tắc tự tổ chức cho phép nó tự thích nghi với các yêu cầu trong môi trườngthay đổi liên tục
2 Xử lý phi tuyến: Khả năng thực hiện các nhiệm vụ đòi hỏi quan hệ phi
tuyến đối với sự phân lớp và dự đoán
3 Xử lý song song: Các kiến trúc với nhiều đơn vị xử lý cung cấp cho xử
lý đồng thời cũng như phân bố song song lưu trữ các thông tin
2.1.3 Các ứng dụng của mạng nơ-ron
Đặc trưng của mạng nơ-ron nhân tạo là khả năng học và xử lý song song
Nó có thể gần đúng mối quan hệ tương quan phức tạp giữa các yếu tố đầu vào
và đầu ra của các quá trình cần nghiên cứu và khi đã học được thì việc kiểmtra độc lập thường cho kết quả tốt Sau khi đã học xong, mạng nơ-ron nhântạo có thể tính toán kết quả đầu ra tương ứng với bộ số liệu đầu vào mới
Về mặt cấu trúc, mạng nơ-ron nhân tạo là một hệ thống gồm nhiều phần
tử xử lý đơn giản cùng hoạt động song song Tính năng này của ANN
Trang 28(Artificial Neural Network) cho phép nó có thể được áp dụng để giải các bàitoán lớn.
Với những đặc điểm đó, mạng nơ-ron nhân tạo đã được sử dụng để giảiquyết nhiều bài toán thuộc nhiều lĩnh vực của các ngành khác nhau Cácnhóm ứng dụng mà mạng nơ-ron nhân tạo đã được áp dụng rất có hiệu quả là:
• Bài toán phân lớp, nhận dạng: Loại bài toán này đòi hỏi giải quyết
vấn đề phân loại các đối tượng quan sát được thành các nhóm dựa trên cácđặc điểm của các nhóm đối tượng đó Đây là dạng bài toán cơ sở của rất nhiềubài toán trong thực tế: Nhận dạng chữ viết, tiếng nói, nhận dạng khuôn mặt,phân loại gen, phân loại chất lượng sản phẩm,…
• Bài toán dự báo: Mạng nơ-ron nhân tạo đã được ứng dụng thành công
trong việc xây dựng các mô hình dự báo sử dụng tập dữ liệu trong quá khứ để
dự đoán số liệu trong tương lai Đây là nhóm bài toán khó và rất quan trọng trong nhiều ngành khoa học
• Bài toán điều khiển và tối ưu hoá: Nhờ khả năng học và xấp xỉ hàm
mà mạng nơ-ron nhân tạo đã được sử dụng trong nhiều hệ thống điều khiển tựđộng cũng như góp phần giải quyết những bài toán tối ưu trong thực tế
Tóm lại, mạng nơ-ron nhân tạo được xem như là một cách tiếp cận đầytiềm năng để giải quyết các bài toán có tính phi tuyến, phức tạp và đặc biệt làtrong tình huống mối quan hệ bản chất vật lý của quá trình cần nghiên cứukhông dễ thiết lập tường minh
2.2 Kiến trúc mạng nơ-ron
2.2.1.Mô hình nơ-ron nhân tạo
2.2.1.1 Mô hình nơ-ron một đầu vào (Single - input neuron)
Mô hình nơ-ron một đầu vào được chỉ ra trong Hình 2.2
Trang 29Hình 2.2 Mô hình nơ-ron một đầu vào
+ a là đầu ra của nơ-ron: a = f(n) = f(wp + b).
+ Đầu ra phụ thuộc vào hàm truyền được chọn bởi người thiết kế
+ w và b là các tham số phải điều chỉnh bởi một số luật học dùng huấn
luyện mạng
Nếu liên hệ mô hình này với mô hình nơ-ron sinh học đã mô tả trong phần 2.1.1 thì:
+ Trọng số w tương ứng với cường độ synape.
+ Bộ tổng và hàm truyền là thần kinh tế bào
+ Đầu ra của nơ-ron a biểu diễn tín hiệu sợi trục thần kinh (axon).
Hàm truyền có thể là một hàm tuyến tính hoặc một hàm phi tuyến Một
số hàm truyền a = f(n) thường dùng trong mạng nơ-ron nhân tạo được đưa ra
trong bảng 2.1
Trang 30Bảng 2.1 Một số hàm truyền của mạng nơ-ron
Chúng ta có thể định nghĩa các hàm truyền khác để đưa vào sử dụng nếu
Trang 312.2.1.2 Mô hình nơ-ron nhiều đầu vào (multiple- input neuron)
Mô hình nơ-ron R đầu vào được chỉ ra trong Hình 2.3
Hình 2.3 Mô hình nơ-ron nhiều đầu vào
Trong đó:
Trang 32+ P là véc tơ đầu vào có kích thước Rxl.