1. Trang chủ
  2. » Luận Văn - Báo Cáo

nghiên cứu phương pháp máy vectơ tựa trong nhận dạng chữ viết tay (xử lý ảnh)

66 1,7K 6
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên cứu phương pháp máy vectơ tựa trong nhận dạng chữ viết tay (Xử lý ảnh)
Tác giả Nguyễn Minh Đức
Người hướng dẫn TS. Phạm Anh Phương
Trường học Trường Đại học Duy Tân
Chuyên ngành Khoa học máy tính
Thể loại Luận văn thạc sĩ khoa học máy tính
Năm xuất bản 2012
Thành phố Đà Nẵng
Định dạng
Số trang 66
Dung lượng 0,91 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Luận văn thạc sỹ Khoa học máy tính.Đề tài: nghiên cứu phương pháp máy vectơ tựa trong nhận dạng chữ viết tay (xử lý ảnh)

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC DUY TÂN

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC DUY TÂN

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Người hướng dẫn khoa học: TS Phạm Anh Phương

ĐÀ NẴNG, 2012

Trang 3

LỜI CẢM ƠN

Tôi xin được gửi lời cám ơn sâu sắc tới TS Phạm Anh Phương về những chỉ dẫn khoa học và tận tình hướng dẫn, định hướng cho tôi trong suốt quá trình thực hiện Luận văn

Tôi xin chân thành cám ơn các Thầy, Cô trong Khoa Sau đại học, những người

đã quan tâm tổ chức, chỉ đạo và trực tiếp giảng dạy trong suốt quá trình học tập của chúng tôi

Tôi xin chân thành cám ơn bạn bè, đồng nghiệp đã có nhiều ý kiến quan trọng giúp tôi hoàn thiện tốt hơn luận văn của mình

Tôi xin gửi lời cảm ơn tới gia đình, anh chị em và những người thân đã quan tâm, giúp đỡ và động viên để tôi yên tâm và hoàn thành được luận văn

Đà Nẵng, tháng 6 năm 2012

Nguyễn Minh Đức

Trang 4

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi Các số liệu và kết quả nghiên cứu trong luận văn này là trung thực và không trùng lặp với các đề tài khác

Học viên thực hiện luận văn

Nguyễn Minh Đức

Trang 5

MỤC LỤC

Trang phụ bìa i

Lời cảm ơn ii

Lời cam đoan iii

Mục lục iv

Danh mục ký hiệu và từ viết tắt vi

Danh sách các bảng biểu vii

Danh sách các hình vẽ viii

Mở đầu 1

1 Lý do chọn đề tài 1

2 Mục đích nghiên cứu 2

3 Đối tượng và phạm vi nghiên cứu của đề tài 2

4 Phương pháp nghiên cứu 2

5 Kết cấu của luận văn 3

CHƯƠNG 1 TỔNG QUAN VỀ NHẬN DẠNG CHỮ VIẾT TAY 4

1.1 Giới thiệu 4

1.2 Các phương pháp nhận dạng cổ điển 5

1.2.1 Nhận dạng dựa vào đặc trưng cấu trúc chữ 5

1.2.2 Nhận dạng bằng phương pháp đối sánh mẫu 9

1.3 Sử dụng các phương pháp máy học tiên tiến 10

1.3.1 Sử dụng mạng Nơron 10

1.3.2 Sử dụng mô hình Markov ẩn 12

1.3.3 Sử dụng phương pháp máy véc tơ tựa 13

1.4 Mô hình tổng quát của một hệ nhận dạng 14

1.4.1 Mô hình tổng quát 14

1.4.2 Tiền xử lý 15

1.4.2.1 Nhị phân hóa ảnh 16

1.4.2.2 Hiệu chỉnh kích thước ảnh 16

1.4.2.3 Khử nhiễu 17

1.4.2.4 Làm trơn biên chữ 18

1.4.2.5 Làm dày chữ 19

1.4.2.6 Làm mảnh chữ 20

1.4.2.7 Xoay văn bản 20

1.4.3 Tách chữ 20

1.4.4 Trích chọn đặc trưng 21

1.4.4.1 Đặc trưng thống kê 22

1.4.4.2 Đặc trưng hình học và hình thái 24

1.4.4.3 Biến đổi toàn cục và triển khai chuỗi 24

1.4.5 Huấn luyện và nhận dạng 25

Trang 6

1.4.6 Hậu xử lý 25

CHƯƠNG 2 PHƯƠNG PHÁP MÁY VÉCTƠ TỰA 27

2.1 Cơ sở lý thuyết 27

2.1.1 Giới thiệu bài toán phân lớp nhị phân 27

2.1.2 Máy SVM tuyến tính 28

2.1.2.1 SVM trong trường hợp tập mẫu phân hoạch tuyến tính được 28

2.1.2.2 SVM tuyến tính trong trường hợp tập mẫu không phân hoạch tuyến tính được 30

2.1.3 Máy SVM phi tuyến 35

2.2 Các thuật toán huấn luyện SVM 37

2.2.1 Thuật toán chặt khúc 37

2.2.2 Thuật toán phân rã 37

2.2.3 Thuật toán cực tiểu tuần tự 38

2.2.3.1 Tối ưu hai α i 39

2.2.3.2 Cập nhật các tham số mỗi bước tối ưu thành công 39

2.2.3.3 Chọn hai α i cho việc tối ưu 40

CHƯƠNG 3 ÁP DỤNG SVM VÀO BÀI TOÁN NHẬN DẠNG CHỮ VIẾT TAY 42

3.1 Một số chiến lược SVM đa lớp 42

3.1.1 Sử dụng mô hình SVM đa lớp theo chiến lược OVO 42

3.1.2 Sử dụng mô hình SVM đa lớp theo chiến lược OVR 44

3.2 Đề xuất mô hình nhận dạng 45

3.2.1 Chuẩn hóa kích thước ảnh 45

3.2.2 Trích chọn đặc trưng 46

3.2.3 Lựa chọn thuật toán huấn luyện phân lớp 48

3.2.4 Phân lớp nhận dạng 48

3.3 Kết quả thực nghiệm 50

3.3.1 Kết quả thực nghiệm trên bộ dữ liêu MNIST 50

3.3.2 Kết quả thực nghiệm trên tập dữ liệu USPS 52

Kết luận 54

1 Các kết quả đạt được 54

2 Các hạn chế của luận văn 54

3 Hướng phát triển 55

Tài liệu tham khảo 56

Tài liệu tiếng Việt 56

Tài liệu tiếng Anh 57

Trang 7

DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT

SVM Support Vector Machine – (Máy Vectơ tựa)

Quốc gia Hoa Kỳ

SMO Sequential Minimal Optimization – (Thuật toán cực tiểu tuần tự)

OVO One – versus – One – (Một chống một)

OVR One – versus – Rest – (Một chống phần còn lại)

ANN Artificial Neural Network (Mạng nơron nhân tạo)

HMM Hiden Markov Models – (Mô hình Markov ẩn)

Trang 8

DANH SÁCH CÁC BẢNG BIỂU

Bảng 1: Kết quả thực nghiệm trên tập MNIST với hàm nhân RBF(s =0.08) 51 Bảng 2 Kết quả thực nghiệm trên tập dữ liệu USPS 52 Bảng 3 Kết quả thực nghiệm trên tập dữ liệu USPS với C=10, hàm nhân

RBF(=0.05) 53

Trang 9

DANH SÁCH CÁC HÌNH VẼ

Hình 1-1 Mã Freeman 6

Hình 1-2 Mô tả một số ký tự dựa trên cấu trúc nguyên thủy 7

Hình 1-3 Mạng perceptron đa lớp 12

Hình 1-4 Mô hình tổng quát của một hệ nhận dạng chữ viết 15

Hình 1-5 Nhị phân hóa ảnh 16

Hình 1-6 Chuẩn hóa kích thước ảnh các ký tự “A” và “D” 17

Hình 1-7 Nhiễu đốm và nhiễu vệt đen dài 17

Hình 1-8 Làm trơn biên chữ bằng kỹ thuật Dineen và Unger 19

Hình 1-9 Xác định khoảng phân cách giữa hai ký tự và hai từ 21

Hình 1-10 Phân vùng ký tự A 23

Hình 1-11 Trích chọn theo phép chiếu theo hai chiều trên ký tự a 23

Hình 1-12 Trích chọn theo chu tuyến của ký tự a 24

Hình 2-1 Các siêu phẳng H1, H2 phân cách giữa hai lớp 27

Hình 2-2 Siêu phẳng tách tuyến tính 28

Hình 2-3 Không thể phân hoạch tập mẫu trên bằng một siêu phẳng 30

Hình 2-4 Một mặt phân chia phi tuyến có thể trở thành một siêu phẳng trong không gian lớn hơn 35

Hình 3-1 Sơ đồ bỏ phiếu cho bài toán phân 5 lớp 43

Hình 3-2 Bài toán phân bốn lớp theo chiến lược OVR 44

Hình 3-3 Mô hình nhận dạng chữ viết tay rời rạc 45

Hình 3-4 Chuẩn hóa kích thước ảnh 46

Hình 3-5 Trích chọn đặc trưng nhị phân 47

Hình 3-6 Trích chọn đặc trưng ma trận trọng số vùng 48

Hình 3-7 Các mẫu chữ số viết tay trích từ tập dữ liệu MNIST 51

Hình 3-8 Các mẫu chữ số viết tay trích từ tập dữ liệu USPS 52

Trang 10

MỞ ĐẦU

1 Lý do chọn đề tài

Đã từ lâu chiếc máy tính trở thành công cụ không thể thiếu trong hầu hết các lĩnh vực đời sống xã hội, máy tính hỗ trợ từng cá nhân cũng như cơ quan doanh nghiệp phát triển Con người không ngừng nghiên cứu để tăng cường sức mạnh của máy tính, từ tốc độ xử lý, khả năng tính toán cũng như khả năng lưu trữ thông tin, qua đó giúp cho máy tính ngày càng thông minh hơn và đảm nhận các chức năng gần với con người hơn

Để thực hiện việc lưu trữ và xử lý thông tin, vấn đề giao tiếp giữa con người với máy tính càng được chú trọng Trong các lĩnh vực đời sống xã hội, những thông tin được lưu trữ dưới dạng các văn bản viết tay là các tài liệu quan trọng và có số lượng cực lớn Việc lưu trữ các tài liệu đó vào máy tính dưới dạng các tài liệu văn bản đòi hỏi phải xây dựng những chương trình giúp máy tính nhận dạng được chữ viết tay

Sự nhận dạng chính xác ký tự latin đánh máy được xem là vấn đề đã được giải quyết Hiện nay, với chữ Việt, phần mềm nhận dạng chữ Việt in VnDOCR 4.0

có khả năng nhận dạng trực tiếp các loại tài liệu được quét qua máy quét, không cần lưu trữ dưới dạng tệp ảnh trung gian Các trang tài liệu có thể được quét và lưu trữ dưới dạng tệp tin nhiều trang Kết quả nhận dạng được lưu trữ sang định dạng của Microsoft Word, Excel phục vụ rất tốt nhu cầu số hóa dữ liệu

Trong khi đó, bài toán nhận dạng chữ viết tay vẫn chưa được giải quyết một cách trọn vẹn và vẫn đang là một vấn đề thách thức đối với các nhà nghiên cứu không những trong nước mà trên toàn thế giới vì những đặc thù riêng của nó Chữ viết tay phụ thuộc nhiều vào phong cách của người viết, mỗi người có một cách viết khác nhau

Hiện tại có khá nhiều phương pháp nhận dạng chữ viết trong đó phương pháp máy véctơ tựa (SVM - Support Vector Machine) là phương pháp máy học tiên

Trang 11

tiến, được áp dụng rộng rãi hiện nay, độ chính xác cao, được ứng dụng trong nhiều lĩnh vực không chỉ trong nhận dạng xử lý ảnh mà còn trong lĩnh vực khai phá dữ liệu, phân tích văn bản, phân tích gene…

Vì vậy luận văn này chọn phương pháp máy Véctơ tựa để nghiên cứu bài toán nhận dạng chữ viết tay

2 Mục đích nghiên cứu

- Nghiên cứu về phương pháp phân lớp SVM áp dụng cho bài toán nhận dạng chữ viết tay

- Cài đặt demo dạng chữ viết tay rời rạc với độ chính xác chấp nhận được

3 Đối tượng và phạm vi nghiên cứu của đề tài

Đối tượng nghiên cứu của đề tài:

- Quy trình nhận dạng chữ viết tay ngoại tuyến

- Phương pháp phân lớp máy Véctơ tựa

Phạm vi nghiên cứu của đề tài:

- Nhận dạng chữ viết tay rời rạc trên các tập dữ liệu chữ số viết tay MNIST và USPS

- Trong phương pháp SVM chọn thuật toán huấn luyện cực tiểu tuần tự -SMO

- Đối với SVM đa lớp, nghiên cứu hai chiến lược OVO (One-vs-One) và OVR (One-vs-Rest)

4 Phương pháp nghiên cứu

- Tìm kiếm, đọc hiểu các tài liệu, các thông tin liên quan đến đề tài

- Sử dụng thư viện mã nguồn mở LIBSVM để xây dựng ứng dụng

- Sử dụng các tập dữ liệu chữ số viết tay điển hình như USPS va MNIST cho

việc kiểm thử bộ nhận dạng và dựa vào kết quả thực nghiệm để đánh giá chất lượng bộ nhận dạng

Trang 12

5 Kết cấu của luận văn

Nội dung của cuốn luận văn được trình bày trong ba chương

Chương 1 Tổng quan về nhận dạng chữ viết: Giới thiệu về chữ in và chữ

viết tay, trong đó tập trung vào bài toán đặt nhận dạng chữ viết tay ngoại tuyến và lựa chọn phương pháp nhận dạng Đồng thời giới thiệu tổng quan về một hệ nhận dạng với tất cả các khâu từ tiền xử lý, trích chọn đặc trưng cho tới khâu huấn luyện, nhận dạng và cuối cùng là phần hậu xử lý

Chương 2 Phương pháp máy Véctơ tựa: Bao gồm các cơ sở lý thuyết của

phương pháp SVM và các thuật toán huấn luyện SVM phổ biến

Chương 3 Áp dụng SVM vào bài toán nhận dạng chữ viết tay: Đề xuất

mô hình nhận dạng cùng với việc cài đặt ứng dụng và một số kết quả thực nghiệm trên các bộ dữ liệu chuẩn với các chiến lược thường được sử dụng cho bài toán phân

đa lớp

Trang 13

CHƯƠNG 1 TỔNG QUAN VỀ NHẬN DẠNG CHỮ VIẾT TAY

1.1 Giới thiệu

Chữ in hay chữ đánh máy là dạng chữ mà mỗi ký tự được thể hiện theo các quy ước có sẵn, trong cùng một font chữ các ký tự là giống nhau qua đó tạo điều kiện thuận lợi để giải quyết bài toán nhận dạng chữ in một cách hiệu quả nhất Cho tới nay bài toán nhận dạng và số hóa chữ in được coi như đã giải quyết triệt để với rất nhiều các ứng dụng có trên thị trường, trong đó phần mềm nhận dạng chữ của hãng ABBYY được đánh giá là một giải pháp nhận dạng hoàn chỉnh nhất với hơn

190 ngôn ngữ và độ chính xác đạt được trên 99%, ở Việt Nam phần mềm VnDOCR 4.0 Professional đạt độ chính xác nhận dạng lên tới 99% và được sử dụng rộng rãi trong việc số hóa tất cả các tài liệu văn bản in

Trong khi đó, bài toán nhận dạng chữ viết tay vẫn chưa được giải quyết trọn vẹn vì những khó khăn nhất định xuất phát từ chính những đặc điểm của chữ viết tay Chữ viết tay với những đặc thù độc đáo của nó như sự biến đổi đa dạng trong cách viết từng ký tự (cùng một người viết nhưng các ký tự chỉ tồn tại sự đồng dạng chứ không có sự đồng nhất), độ nghiêng của chữ, khoảng trống giữa các chữ, hoặc cách viết một số ký tự nhất định của từng người viết, ngoài ra chữ viết tay còn thay đổi theo trạng thái tinh thần của người viết Chính vì những lý do đó mà việc giải quyết bài toán toán nhận dạng chữ viết tay vẫn tiếp tục là một đề tài thách thức với các nhà nghiên cứu

Có hai loại nhận dạng chữ viết tay:

- Thứ nhất là nhận dạng chữ viết tay ngoại tuyến (off-line handwriting recognition): chương trình sẽ thông dịch các kí tự, các chữ hay các đoạn văn được viết trên các mẫu giấy hoặc các các bề mặt khác mà chúng ta có thể thu thập thông tin về chúng thông qua hình ảnh thu được từ các bề mặt bằng cách chụp lại hình ảnh

Trang 14

- Thứ hai là nhận dạng chữ viết tay trực tuyến (online handwriting recognition): nhận dạng ký tự hoặc chữ viết dựa trên thông tin thu được trong thời gian thực ngay lúc người dùng thực hiện hành động viết, những thông tin đó là tốc

độ viết, áp lực khi viết và hướng viết

Đối với phương pháp nhận dạng, hiện nay có khá nhiều phương pháp, cổ điển nhất là nhận dạng dựa vào đặc trưng cấu trúc chữ, phương pháp đối sánh mẫu,

K láng giềng gần nhất, hay một số phương pháp tiên tiến như sử dụng mạng Nơron,

mô hình Markov ẩn, hay sử dụng máy vector tựa…

1.2 Các phương pháp nhận dạng cổ điển

1.2.1 Nhận dạng dựa vào đặc trưng cấu trúc chữ

Cách tiếp cận của phương pháp này dựa vào việc mô tả đối tượng nhờ một số khái niệm biểu thị đối tượng cơ sở trong ngôn ngữ tự nhiên Để mô tả đối tượng người ta dùng một số dạng nguyên thuỷ như đoạn thẳng, cung,… Mỗi đối tượng được mô tả như một sự kết hợp của các dạng nguyên thuỷ Chẳng hạn một hình chữ nhật được định nghĩa gồm bốn đoạn thẳng vuông góc với nhau từng đôi một Các

ký tự chữ viết thường bao gồm các đoạn thẳng và các dường cong Tất cả các đoạn thẳng hoặc đường cong đều có thể mở rộng theo một hướng nhất định Một đường cong có thể tạo thành một vòng lặp Do đó một ký tự chữ viết tay đều có thể mô tả bằng việc sử dụng các loại nguyên thủy khác nhau của đường thẳn, đường cong cùng một số thông tin định hướng của chúng Chú ý rằng một nét đơn cũng có thể chứa đựng một vài dạng nguyên thủy

Về cơ bản, có năm dạng nguyên thủy được sử dụng để mô tả các đối tượng bao gồm :

- Line : Đường thẳng

- Up : Đường cong ngược chiều kim đồng hồ

- Down : Đường cong cùng chiều kim đồng hồ

Trang 15

- Loop: Đường cong tạo thành một vòng lặp

- Dot: Một đoạn rất ngắn thường là nhiễu hoặc cũng có thể là một phần của ký

tự, ví dụ như dấu chấm của ký tự i hay j…

Trong mô hình này người ta sử dụng một bộ ký hiệu kết thúc Vt một bộ ký hiệu không kết thúc gọi là Vn Ngoài ra có dùng một tập các luật sản xuất để mô tả cách xây dựng các đối tượng phù hợp dựa trên các đối tượng đơn giản hơn hoặc đối tượng nguyên thủy (tập Vt) Trong cách tiếp cận này, ta chấp nhận khẳng định là: Cấu trúc một dạng là kết quả của việc áp dụng luật sản xuất theo những nguyên tắc xác định bắt đầu từ một dạng gốc ban đầu Một cách hình thức, ta có thế coi mô hình này tương đương với một văn phạm G = (Vt, Vn, P, S), trong đó:

- Vt là bộ ký hiệu kết thúc Vt = {line, up, down, loop, dot, ‘{‘, ‘}’, ‘,’, 0, 1, 2,

3, 4, 5, 6, 7}, với 0 đến 7 biểu diễn cho các giá trị hướng trong mã chuỗi Freeman (Hình 1-1)

Trang 16

StrokeSet  Stroke, StrokeSet Stroke  { PrimitiveSet}

PrimitiveSet  Primitive PrimitiveSet  Primitive, PrimitiveSet Primitive  { LineType, Direction}

Primitive  loop Primitive  dot LineType  line | up | down Direction  0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 }

- S là dạng (ký hiệu bắt đầu): Lưu ý rằng không có thông tin về hướng nào

được liên kết với các Dot bị cô lập Hướng của một đường thẳng hay một đường cong phụ thuộc vào các điểm bắt đầu và kết thúc của chúng Dưới đây

là một số ví dụ

Hình 1-2 Mô tả một số ký tự dựa trên cấu trúc nguyên thủy

Các quy tắc kết hợp các dạng nguyên thuỷ được xây dựng giống như việc nghiên cứu văn phạm trong một ngôn ngữ Vì vậy quá trình quyết định nhận dạng là quá trình phân tích cú pháp Phương pháp này đặt vấn đề giải quyết bài toán nhận dạng chữ tổng quát Tuy vậy, cho đến nay còn nhiều vấn đề liên quan đến hệ nhận dạng cú pháp chưa được giải quyết độc lập và chưa xây dựng được các thuật toán phổ dụng Hiện nay, nhận dạng theo cấu trúc phổ biến là trích trọn các đặc trưng

Trang 17

của mẫu học, phân hoạch bảng kí tự dựa trên các đặc trưng này (quá trình học font chữ), sau đó với ảnh cần nhận dạng ta sẽ trích chọn các đặc trưng của nó, so sánh trên bảng phân hoạch này để tìm ra ký tự có các đặc trưng phù hợp

Đây là phương pháp nhận dạng chữ viết tay hạn chế dựa theo cấu trúc của xương và đường biên Sử dụng phương pháp này đòi hỏi phải xây dựng các đặc trưng của chữ, đặc biệt là đặc trưng về điểm uốn, điểm gấp khúc và đặc trưng các nét chữ

Sau đây là quy trình thực hiện:

sẽ có một dãy các nét làm đặc trưng cơ bản của chữ Để tách các nét của chữ ta thực hiện các bước như sau: đánh dấu các điểm chạc, xác định điểm xuất phát, xác định nét xuất phát, tách các nét tiếp theo

Với một chữ, sau khi qua quá trình làm mảnh và tách nét ta sẽ thu được một dãy các nét có thứ tự Mỗi nét đặc trưng bởi cặp chỉ số đầu và cuối tương ứng với thứ tự của điểm chạc đầu và điểm chạc cuối Đặc trưng này tương đối ổn định với

một chữ, do đó đặc trưng này được dùng làm đặc trưng “cứng” của chữ Nghĩa là hai chữ được gọi là cùng lớp nếu giống nhau về đặc trưng xương Nhờ tính “cứng”

Trang 18

của xương ta có thể phân lớp và thực hiện tìm kiếm một cách hiệu quả Chỉ số các điểm chạc được đánh số theo thứ tự duyệt các đỉnh và bắt đầu từ đỉnh xuất phát Điều này làm cho cấu trúc xương của các thành phần liên thông là độc lập với nhau Nếu khi thêm một thành phần liên thông mới như nhiễu lớn thì không ảnh hưởng đến cấu trúc của các thành phần liên thông khác Một điểm chạc 4 có thể phân thành hai điểm chạc 3 và một nét nhỏ nối giữa chúng Điều này khiến một cấu trúc chữ có thể biến đổi thành nhiều cấu trúc khác nhau, do vậy ta phải nhập các điểm chạc gần nhau thành một điểm (không nhập điểm mút)

Dựa vào đặc trưng về cấu trúc xương và cấu trúc biên (chỉ số của các nét xương và chỉ số của các nét tạo bởi các điểm uốn của biên - các nét này rất ổn định đối với ký tự), ta sẽ phân tập mẫu học thành các lớp

Quá trình tìm kiếm để phân lớp được tiến hành qua hai bước:

- Xác định lớp tương ứng với mẫu vào

- Tìm kiếm trong lớp đó mẫu nào gần giống với mẫu vào nhất 1.2.2 Nhận dạng bằng phương pháp đối sánh mẫu

Đây là phương pháp khá cổ điển, được phát triển từ những năm 60 Nội dung

chủ yếu của phương pháp này là mẫu cần nhận dạng được chia nhỏ thành n*m vùng

khác nhau Tại mỗi vùng, tổng số điểm đen được tính toán Nếu giá trị của chúng lớn hơn một ngưỡng nào đó thì vùng đó được gọi là vùng đen, ngược lại là vùng trắng Quá trình nhận dạng được thực hiện nhờ 1 cây quyết định Tại đó mỗi nút là 1 câu hỏi: "vùng tương ứng có phải là vùng đen hay không?"

Phương pháp này khá đơn giản, tuy nhiên nếu số lượng vùng quá lớn thì độ

phức tạp sẽ tăng Phương pháp này tỏ ra kém hiệu quả khi thay đổi các kiểu chữ, vì

thế đối sánh mẫu chỉ áp dụng tốt đối với nhận dạng chữ in, còn đối với chữ viết tay

thì phương pháp này tỏ ra kém hiệu quả, kết quả nhận dạng của nó cũng rất nhạy

cảm với nhiễu Quy trình thực hiện của phương pháp đối sánh như sau:

Trang 19

Trích chọn đặc trưng: với một mẫu a, trích các thông số gọi là đặc trưng của mẫu đó Kí hiệu đặc trưng của mẫu a là Fa

 Học mẫu: một tập mẫu được dùng để học bằng cách lưu đặc trưng các mẫu học đó vào cơ sở dữ liệu, kí hiệu là L

 Định nghĩa một Metric: với hai đặc trưng Fa và Fb, định nghĩa khoảng cách d(Fa,Fb) giữa hai đặc trưng đó

 Nhận dạng: với mỗi mẫu vào là x chưa biết, ta trích chọn đặc trưng tương ứng Fx Tìm trong cơ sở dữ liệu đặc trưng Fb L “gần giống” với Fx nhất theo nghĩa:

) F d(F, min ) F ,

L F x b

Khi đó mẫu x được nhận dạng là mẫu b trong cơ sở dữ liệu

Nhận xét: Phương pháp đối sánh mẫu có đặc điểm là kích thước cơ sở dữ liệu lớn và tốc độ nhận dạng không nhanh

1.3 Sử dụng các phương pháp máy học tiên tiến

1.3.1 Sử dụng mạng Nơron

Mạng Nơron nhân tạo (Artificial Neural Network: ANNs) là sự tái tạo bằng những chức năng của hệ thần kinh con người với vô số các Nơron được liên kết truyền thông với nhau qua mạng Giống như con người, ANNs được học bởi kinh nghiệm, lưu những kinh nghiệm đó và sử dụng trong những tình huống phù hợp

Mạng Nơ ron nhân tạo được nghiên cứu từ những năm 40, với những nghiên cứu của McCulloch và Pitts Các ông đã chứng tỏ rằng mạng Nơron có thể dùng để tính toán mọi hàm logic (AND, OR,…) Tiếp theo đó là nhiều nghiên cứu cho thấy mạng Nơron còn có khả năng giải quyết các vấn đề phân lớp Tuy nhiên vào những năm cuối thập kỉ 60 thì Minsky và Papert đã chỉ ra một giới hạn không thể vuợt qua được khi giải quyết các vấn đề phân lớp của mạng Nơron một lớp và các ông cho rằng mạng Nơron nhiều lớp cũng gặp phải tình trạng tương tự như vậy Do ảnh

Trang 20

hưởng của Minsky và Papert cùng khả năng hạn chế của máy tính thời đó nên các nghiên cứu về mạng Nơron tạm thời bị lắng xuống Vào những năm 80, các cản trở này được giỡ bỏ vì các máy tính thời kỳ này rất mạnh, đồng thời có rất nhiều công trình nghiên cứu phát triển một số mô hình mạng, các công trình này cho thấy khả năng của mạng Nơron nhân tạo vô cùng lớn: mạng Kohonen có khả năng hoạt động giống bộ nhớ, mạng Grossberg có khả năng tự tổ chức, mạng Hopfield có khả năng liên hệ (phản xạ có điều kiện)…Một phát triển hết sức quan trọng khác là việc khám phá ra thuật toán lan truyền ngược sai số dùng để huấn luyện mạng Nơron nhiều lớp Bằng thuật toán này Rumehart và McClelland đã trả lời được vấn đề đặt ra bởi Minsky và Papert những năm ‘60 là: mạng Nơron nhân tạo hoàn toàn có khả năng giải quyết các vấn đề phức tạp

Với thuật toán đơn giản nhưng rất hiệu quả, cùng với thành công của mô hình này trong các ứng dụng thực tiễn, mạng Nơron nhân tạo hiện đang là một trong các hướng nghiên cứu chính của ngành học trí tuệ nhân tạo Mạng Nơron nhân tạo tỏ ra rất phù hợp với các bài toán đối sánh, phân loại mẫu, xấp xỉ hàm, tối ưu hoá, lượng

tử hoá vector và phân hoạch không gian dữ liệu, trong khi các máy tính truyền thống không đủ khả năng giải quyết các vấn đề trên một cách có hiệu quả Đặc biệt trong các hệ thống nhận dạng, phương pháp nhận dạng sử dụng mạng Nơron nhân tạo đã đạt được tỉ lệ nhận dạng cao, có thể so sánh với các phương pháp như nhận dạng cấu trúc, logic mờ, …

Các mạng Nơron sử dụng trong các hệ thống nhận dạng chữ là mạng perceptron đa lớp MLP (MultiLayer Perceptron) (Hình 1-3) thuộc loại mạng truyền thẳng và mạng Kohonen thuộc nhóm mạng lang truyền ngược Mạng Perceptron đa lớp được đề xuất bởi Rosenblatt được nhiều tác giả sử dụng trong các hệ nhận dạng chữ

Trong kỹ thuật nhận dạng ký tự, mạng Nơron tỏ ra ưu thế hơn các phương pháp truyền thống ở chỗ không tốn thời gian cho thủ tục tiền xử lý, làm mảnh ký tự, trích trọn đặc trưng… Mặt khác các phương pháp ra quyết định trong nhận

Trang 21

dạng truyền thống được cài đặt tĩnh trong chương trình, khi muốn bổ sung thêm các mẫu học mới phải thiết kế lại chương trình Trong khi với mạng Nơron, chỉ cần cung cấp một tập mẫu vào ra của dữ liệu mới cho pha huấn luyện là có thể bổ sung vào “bộ nhớ mạng” những kiểu dữ liệu mới mà không ảnh hưởng đến cấu trúc chương trình ban đầu [3]

Hình 1-3 Mạng perceptron đa lớp

Hạn chế của mạng Nơron là tính chậm và xác xuất không cao, không có quy tắc tổng quát để xác định cấu trúc mạng và các tham số học tối ưu cho một (lớp) bài toán nhất định Tiêu chuẩn thu thập cơ sở dữ liệu huấn luyện còn khắt khe Do đó,

để hệ thống có thể ứng dụng trong thực tế cần phải nới lỏng hơn nữa các tiêu chuẩn này

1.3.2 Sử dụng mô hình Markov ẩn

Từ mấy thập kỉ trước, các mô hình Markov ẩn (HMM - Hiden Markov Models) được tư duy như một sự mở rộng của các kĩ thuật quy hoạch động, nó trở thành cách tiếp cận tiêu biểu cho bài toán nhận dạng tiếng nói tự động HMM là một kĩ thuật mô hình hóa tham số, trái ngược với giải thuật quy hoạch động không

có tham số

HMM là một mô hình xác suất hữu hạn trạng thái theo kiểu phát sinh tiến trình bằng cách định nghĩa xác suất liên kết trên các chuỗi quan sát Mỗi chuỗi quan sát được sinh ra bởi một chuỗi các phép chuyển trạng thái, bắt đầu từ trạng thái khởi

Trang 22

đầu cho đến khi thu được trạng thái kết thúc Tại mỗi trạng thái thì một phần tử của chuỗi quan sát được phát sinh ngẫu nhiên trước khi chuyển sang trạng thái tiếp theo Các trạng thái của HMM được xem là ẩn bên trong mô hình vì tại mỗi thời điểm chỉ nhìn thấy các kí hiệu quan sát còn các trạng thái cũng như sự chuyển đổi trạng thái được vận hành ẩn bên trong mô hình

Một số ưu điểm khi sử dụng mô hình này là phương pháp mô tả đường biên ít

bị ảnh hưởng bởi kích thước chữ cũng như độ đậm, nhạt của nét chữ, ít bị tác động bởi nhiễu trên đường biên Việc sử dụng các HMM để khử nhiễu và trích chọn đặc trưng cho kết quả tốt, với thời gian thực hiện chấp nhận được Từ việc đặc tả được cấu trúc, bằng kỹ thuật phân lớp và mã hoá mỗi lớp bằng một mô hình nhận dạng

Cơ sở dữ liệu các mô hình nhận dạng có khả năng tự động loại bỏ sự dư thừa, giảm thiểu thời gian truy xuất, đạt tốc độ tương đối tốt trong các thử nghiệm, xác suất cao, coding đơn giản, không dùng nhiều bộ nhớ

Hạn chế của mô hình này là các thuật toán dò biên thường rất nhạy cảm khi chữ bị dính nét hay đứt nét, để khác phục điều này, hệ thống phải có khả năng lường trước những nét có thể bị dính hay bị đứt để đưa ra một mẫu phụ dùng trong trường hợp mẫu nhận dạng bị dính nét hay đứt nét Phương pháp này chỉ cố gắng

mô tả tốt nhất cấu trúc chữ mà chưa chú ý đến kích thước, điều này khiến cho hệ thống dễ nhầm lẫn chữ hoa và chữ thường, nhất là đối với những ký tự mà viết hoa hay viết thường chỉ khác nhau về mặt kích thước như chữ `c` và `C`, `x` và `X` Nhược điểm là rất khó để phân lớp dữ liệu

1.3.3 Sử dụng phương pháp máy véc tơ tựa

Thuật toán SVM ban đầu được tìm ra bởi Vladimir N Vapnik và dạng chuẩn hiện nay sử dụng lề mềm được tìm ra bởi Vapnik và Corinna Cortes năm 1995 Máy vectơ tựa là một khái niệm trong thống kê và khoa học máy tính cho một tập hợp các phương pháp học có giám sát liên quan đến nhau để phân loại và phân tích hồi quy SVM dạng chuẩn nhận dữ liệu vào và phân loại chúng vào hai lớp khác nhau

Do đó SVM là một thuật toán phân loại nhị phân (http://en.wikipedia.org/wiki/SVM )

Trang 23

Mô hình SVM đầu tiên được thiết kế cho bài toán phân lớp nhị phân Ý tưởng chính của mô hình này là tìm một siêu phẳng phân cách để tách hai lớp sao cho khoảng cách (margin) giữa hai lớp đó đạt cực đại Khoảng cách này được xác định bởi các véc tơ hỗ trợ (SV – Support Vector), các SV này được lọc ra từ tập mẫu huấn luyện bằng cách giải một bài toán tối ưu lồi

Tuy nhiên, trong nhiều ứng dụng thời gian thực, chẳng hạn như nhận dạng chữ viết tay thì buộc phải giải một bài toán phân nhiều lớp Vì vậy các mô hình SVM đa lớp cũng được nghiên cứu và phát triển để đáp ứng với các dạng bài toán phân nhiều lớp Có một số hướng tiếp cận để giải bài toán SVM đa lớp, nhưng hầu hết đều được phát triển từ bài toán phân lớp nhị phân.[4]

1.4 Mô hình tổng quát của một hệ nhận dạng

Trang 24

Hình 1-4 Mô hình tổng quát của một hệ nhận dạng chữ viết

1.4.2 Tiền xử lý

Đây là giai đoạn rất quan trọng, ảnh hưởng trực tiếp độ chính xác của các thuật toán nhận dạng, tuy nhiên nó cũng làm cho tốc độ nhận dạng của hệ thống bị chậm lại Vì vậy, tùy thuộc vào chất lượng quét vào của từng văn bản cụ thể để chúng ta chọn sử dụng một hoặc một số thủ tục tiền xử lý Nếu cần ưu tiên tốc độ

xử lý và chất lượng của máy quét cao thì ta có thể bỏ qua giai đoạn này Tuy nhiên, thường thì chúng ta vẫn phải thực hiện một số thủ tục quan trọng nhất Các thủ tục

Trang 25

này bao gồm: nhị phân hóa ảnh, hiệu chỉnh kích thước ảnh về kích thước chuẩn, khử nhiễu, làm trơn biên chữ, làm dày chữ, làm mảnh chữ và xoay văn bản

“trắng”) và tất cả các giá trị bé hơn ngưỡng thành một giá trị độ sáng khác (“đen”)

Hình 1-5 Nhị phân hóa ảnh

1.4.2.2 Hiệu chỉnh kích thước ảnh

Phương pháp hiệu chỉnh ảnh dựa trên việc xác định trọng tâm ảnh, sau đó xác định khoảng cách lớn nhất từ tâm ảnh đến các cạnh trên, dưới, trái, phải của hình chữ nhật bao quanh ảnh Thông qua khoảng cách lớn nhất đó, có thể xác định được một tỷ lệ co, giãn của ảnh gốc so với kích thước chuẩn Từ đó hiệu chỉnh kích thước ảnh theo tỷ lệ co, giãn này Như vậy, thuật toán luôn đảm bảo được tính cân bằng khi co và giãn ảnh, ảnh sẽ không bị biến dạng, không bị lệch

Trang 26

Hình 1-6 Chuẩn hóa kích thước ảnh các ký tự “A” và “D”

1.4.2.3 Khử nhiễu

Nhiễu là các điểm có màu (cường độ sáng) không tương thích với màu của các điểm xung quanh Nhiễu thường được hiểu là các điểm đen (hoặc chính xác hơn là các điểm khác màu nền) vô nghĩa trên văn bản, nhưng đôi lúc nhiễu cũng là các điểm có màu nền và thường gây ra hiện tượng đứt nét Nhiễu có nhiều loại (nhiễu đốm đen, nhiễu đốm trắng, nhiễu vệt đen dài, nhiễu đứt nét ) Nhiễu có nhiều nguyên nhân bao gồm các yếu tố về giấy in, mực in, tình trạng hiện tại của văn bản,

do chất lượng của máy quét, các thông số về độ phân giải, độ sáng tối, độ tương phản hay do chính thao tác của người quét ảnh…

Hình 1-7 Nhiễu đốm và nhiễu vệt đen dài

Trang 27

Nhiễu xuất hiện có thể làm sai lệch nội dung của văn bản gây khó khăn trong nhiều quá trình như quá trình tách vùng chữ, tách các ký tự, hoặc có thể tạo hiểu nhầm thành các ký tự dấu trong văn bản tiếng Việt chẳng hạn

 Khử nhiễu: Nhiễu được chia thành hai loại: nhiễu hệ thống và nhiễu ngẫu nhiên Đặc trưng của nhiễu hệ thống là tính tuần hoàn Do vậy, có thể khử nhiễu này bằng việc sử dụng phép biến đổi Fourier và loại bỏ các đỉnh điểm Đối với nhiễu ngẫu nhiên chẳng hạn để khử các nhiễu đốm (các nhiễu kích thước nhỏ), có thể sử dụng các phương pháp lọc (lọc trung bình, lọc trung vị ) Tuy nhiên, với các nhiễu vệt đen (hoặc các nhiễu có kích thước lớn) thì các phương pháp lọc này không hiệu quả, trong trường hợp này chúng ta nên sử dụng phương pháp khử các vùng liên thông nhỏ

1.4.2.4 Làm trơn biên chữ

Đôi khi do chất lượng quét ảnh quá xấu, các đường biên của chữ không còn giữ được dáng điệu trơn tru ban đầu của nó mà hình thành các đường răng cưa giả tạo Trong trường hợp này phải áp dụng một số kỹ thuật để làm trơn biên chữ, lấp đầy các chỗ trống, xoá đi các điểm giả tạo trên biên Hai kỹ thuật hay được sử dụng

là kỹ thuật Unger và kỹ thuật Dineen (Hình 1-8).

Kỹ thuật Dineen dùng một mặt nạ n*n di chuyển trên tất cả các vị trí của ảnh

mẫu Một mẫu mới được tạo ra, trong đó mỗi phần tử tại tâm cửa sổ sẽ được tính lại theo các phần tử lân cận Nếu tổng số các phần tử trong cửa sổ lớn hơn ngưỡng  nào đó thì trong mẫu mới, vị trí tương ứng sẽ đen; ngược lại là trắng Kích thước cửa sổ thường chọn là 3 x 3 hay 4 x 4 Thực tế kỹ thuật Dineen là dùng trung bình trọng số

Kỹ thuật Unger sử dụng một tập luật để lấp các chỗ trống trên ảnh:

Một điểm trên mẫu mới là đen nếu và chỉ nếu thoả 1 trong 2 điều kiện sau:

- P là điểm đen

- Có ít nhất 3 trong 4 láng giềng: P3, P2, P6, P8 là đen

Trang 28

Để loại bỏ các điểm sáng cô lập trên biên sau khi đã lấp đầy chỗ trống, Unger lại dùng một bộ luật áp dụng cho các phần tử trong phạm vi cửa sổ n*n Tập luật này được mô tả như sau: một điểm trên mẫu mới là đen nếu và chỉ nếu giá trị của

nó bằng 1 và thoả một trong hai điều kiện:

Hình 1-8 Làm trơn biên chữ bằng kỹ thuật Dineen và Unger

Trang 29

1.4.2.6 Làm mảnh chữ

Hiện nay có rất nhiều phương pháp làm mảnh chữ Đây là một bước quan trọng nhằm phát hiện khung xương của ký tự bằng cách loại bỏ dần các điểm cực biên Quá trình làm mảnh này giúp ta chỉ lấy những thông tin cần thiết về hình dạng của ký tự và loại bỏ các pixel dư thừa Tuy nhiên, quá trình làm mảnh chữ rất nhạy cảm với việc khử nhiễu

1.4.2.7 Xoay văn bản

Do trang tài liệu quét vào không cẩn thận hoặc do sự cố in ấn dẫn đến văn bản quét bị nghiêng, các hàng chữ bị lệch so với lề chuẩn một góc  gây khó khăn cho

công đoạn tách chữ, đôi khi không thể tách được Trong những trường hợp như vậy,

ta phải tính lại tọa độ điểm ảnh của các chữ bị sai lệch

Thao tác xoay đưa văn bản nghiêng một góc  trở về đúng góc độ ban đầu của

nó, tương ứng với việc dời từng pixel từ vị trí cũ (x,y) sang vị trí mới (x0,y0)

Trong đó mối tương quan giũa giá trị cũ với giá trị mới như sau:

X0 = x * cos

Y0 = ± x * sin , phép toán cộng khi muốn văn bản xoay ngược chiều kim

đồng hồ và phép toán trừ tương ứng cho việc xoay văn bản cùng chiều kim đồng hồ 1.4.3 Tách chữ

Sau giai đoạn xử lý sơ bộ, văn bản đã được tăng cường, ta chuyển sang giai đoạn tách chữ Chỉ có thể nhận dạng đúng nếu chữ đã được tách khỏi văn bản Có nhiều thuật toán tách chữ từ đơn giản đến phức tạp như: tách chữ theo chiều ngang - đứng và tách chữ theo theo lược đồ xám

Trang 30

- Tách chữ theo chiều ngang và đứng

Phương pháp này thường chỉ được áp dụng đối với chữ in, do đặc điểm của chữ in là mỗi ký tự luôn nằm trọn trong một ô nào đó Như vậy, quá trình tách chữ đồng nhất với việc tìm ra khuôn chữ tại vị trí của nó trong văn bản Quá trình này gọi là tách chữ theo hình chữ nhật (ngang và đứng) bao quanh ký tự Thao tác này đơn giản và nhanh Tuy nhiên không thể áp dụng với mọi font chữ

- Tách chữ theo lược đồ xám

Khi máy quét tốt các dòng trong văn bản được phân cách khá tốt, việc tìm ra đường phân ranh giữa hai dòng là khá dễ Song thực tế luôn không phải là dễ vì đối với chữ viết tay các dòng có thể dính nhau hay chữ bị nhoè

Trong trường hợp này, đường phân ranh được hiểu là đường có ít điểm cắt nhất Như vậy cần xây dựng lược đồ xám cho các dòng chữ và đường nằm ngang tại đáy của thung lũng lược đồ cần tìm [2]

Hình 1-9 Xác định khoảng phân cách giữa hai ký tự và hai từ

1.4.4 Trích chọn đặc trưng

Trích chọn đặc trưng là việc tìm và chọn ra các đặc trưng đặc thù của mỗi ảnh Các đặc điểm của đối tượng được trích chọn tuỳ theo mục đích nhận dạng trong quá

Trang 31

trình xử lý ảnh Trong bài toán nhận dạng, trích chọn đặc trưng thường là bước đứng trước bước nhận dạng và đứng sau bước tiền xử lý Nó có tác dụng chọn ra các đặc trưng tiêu biểu của ảnh đầu vào (sau khi đã được qua bước tiền xử lý) từ đó cung cấp các đặc trưng này cho bước nhận dạng để xử lý Trích chọn đặc trưng không những làm giảm kích thước mẫu đầu vào mà còn làm tăng độ chính xác của

hệ nhận dạng nói chung điều đó đòi hỏi các đặc trưng được trích chọn phải thu gọn vừa đủ nhưng vẫn đảm bảo được thông tin của ký tự Có thể nêu ra một số đặc điểm của ảnh sau đây:

Đặc điểm không gian: Phân bố mức xám, phân bố xác suất, biên độ, điểm uốn v.v

Đặc điểm biến đổi: Các đặc điểm loại này được trích chọn bằng việc thực hiện lọc vùng (zonal filtering) Các bộ vùng được gọi là “mặt nạ đặc điểm” (feature mask) thường là các khe hẹp với hình dạng khác nhau (chữ nhật, tam giác, cung tròn v.v )

Đặc điểm biên và đường biên: Đặc trưng cho đường biên của đối tượng và do vậy rất hữu ích trong việc trích chọn các thuộc tính bất biến được dùng khi nhận dạng đối tượng Các đặc điểm này có thể được trích chọn nhờ toán tử gradient, toán

tử la bàn, toán tử Laplace, toán tử “chéo không” (zero crossing) v.v

Việc trích chọn hiệu quả các đặc điểm giúp cho việc nhận dạng các đối tượng ảnh chính xác, với tốc độ tính toán cao và dung lượng nhớ lưu trữ giảm xuống [1]Các phương pháp trích chọn đặc trưng được chia thành 3 nhóm chính:

1.4.4.1 Đặc trưng thống kê

Biểu diễn tài liệu ảnh bằng phân bố thống kê các điểm bảo toàn các kiểu biến đổi trên một số vùng Mặc dù kiểu đặc trưng này không cho phép xây dựng lại ảnh gốc, nhưng nó sử dụng để thu nhỏ số chiều của tập đặc trưng để tăng tốc độ và thu gọn độ phức tạp tính toán Sau đây là một số đặc trưng thống kê thường dùng để biểu diễn chữ:

Trang 32

Phân vùng (zoning): Khung chứa ký tự được chia thành một vài vùng chồng

nhau hoặc không chồng nhau Mật độ của các điểm hoặc một số đặc trưng trong các vùng khác nhau được phân tích và hình thành các đặc trưng [5]

Hình 1-10 Phân vùng ký tự A

chạc (là điểm chung của các nét hoặc là điểm đầu mút của nét) Trước tiên cần chọn một số điểm chạc sao cho chúng tách chữ thành các nét không cắt nhau Như vậy,

để lấy nét, ta xuất phát từ điểm chạc này theo chiều kim đồng hồ để đến điểm chạc kia, đồng thời xoá luôn nét đó ra khỏi ảnh, không xoá điểm chạc (vì nó là điểm chung), điểm chạc chỉ được xoá khi không còn cạnh nào xuất phát từ nó Kết quả ta

sẽ có một dãy các nét làm đặc trưng cơ bản của chữ

Các phép chiếu: Các ký tự có thể được biểu diễn bằng cách chiếu các giá trị

mức xám của từng điểm lên trên các dòng theo các hướng khác nhau Các đặc trưng này tạo ra dãy tín hiệu một chiều từ ảnh hai chiều

Hình 1-11 Trích chọn theo phép chiếu theo hai chiều trên ký tự a

Trang 33

Đặc trưng chu tuyến: Phần được trích chọn là khoảng cách từ biên của khung chứa ảnh tới điểm đen của chữ trên cùng một dòng quét Phương pháp trích chọn này mô tả tốt các khối bên ngoài của chữ và cho phép phân biệt một số lượng lớn các ký tự, ví dụ phân biệt ký tự “q” và “p”

Hình 1-12 Trích chọn theo chu tuyến của ký tự a

1.4.4.2 Đặc trưng hình học và hình thái

Các tính chất cục bộ và toàn cục khác nhau của các ký tự có thể được biểu diễn bằng các đặc trưng hình học và hình thái học Các kiểu đặc trưng này cũng có thể giải mã một số tri thức về cấu trúc của đối tượng hoặc có thể cung cấp một số tri thức như sắp xếp các thành phần để tạo ra đối tượng

1.4.4.3 Biến đổi toàn cục và triển khai chuỗi

Một tín hiệu liên tục thường chứa nhiều thông tin hơn những đặc trưng mà chúng ta cần cho mục đích phân lớp Việc trích chọn đặc trưng có thể đúng đối với việc xấp xỉ các tín hiệu liên tục thành các tín hiệu rời rạc Một cách để biểu diễn một tín hiệu là tổ hợp tuyến tính của một dãy các hàm đơn giản hơn Các hệ số của

tổ hợp tuyến tính cung cấp một tri thức giải mã vừa đủ như các phép biến đổi hoặc khai triển chuỗi Các biến dạng khác như các phép dịch chuyển và phép quay là bất biến dưới các phép biến đổi toàn cục và khai triển chuỗi

Ngày đăng: 13/03/2014, 10:41

HÌNH ẢNH LIÊN QUAN

Hình 1-3 Mạng perceptron đa lớp - nghiên cứu phương pháp máy vectơ tựa trong nhận dạng chữ viết tay (xử lý ảnh)
Hình 1 3 Mạng perceptron đa lớp (Trang 21)
Hình 1-4 Mô hình tổng quát của một hệ nhận dạng chữ viết - nghiên cứu phương pháp máy vectơ tựa trong nhận dạng chữ viết tay (xử lý ảnh)
Hình 1 4 Mô hình tổng quát của một hệ nhận dạng chữ viết (Trang 24)
Hình 1-7 Nhiễu đốm và nhiễu vệt đen dài - nghiên cứu phương pháp máy vectơ tựa trong nhận dạng chữ viết tay (xử lý ảnh)
Hình 1 7 Nhiễu đốm và nhiễu vệt đen dài (Trang 26)
Hình 1-9 Xác định khoảng phân cách giữa hai ký tự và hai từ - nghiên cứu phương pháp máy vectơ tựa trong nhận dạng chữ viết tay (xử lý ảnh)
Hình 1 9 Xác định khoảng phân cách giữa hai ký tự và hai từ (Trang 30)
Hình 1-12 Trích chọn theo chu tuyến của ký tự a - nghiên cứu phương pháp máy vectơ tựa trong nhận dạng chữ viết tay (xử lý ảnh)
Hình 1 12 Trích chọn theo chu tuyến của ký tự a (Trang 33)
Hình 2-2 Siêu phẳng tách tuyến tính. - nghiên cứu phương pháp máy vectơ tựa trong nhận dạng chữ viết tay (xử lý ảnh)
Hình 2 2 Siêu phẳng tách tuyến tính (Trang 37)
Hình 2-4 Một mặt phân chia phi tuyến có thể trở thành một siêu phẳng trong - nghiên cứu phương pháp máy vectơ tựa trong nhận dạng chữ viết tay (xử lý ảnh)
Hình 2 4 Một mặt phân chia phi tuyến có thể trở thành một siêu phẳng trong (Trang 44)
Hình 3-1 Sơ đồ bỏ phiếu cho bài toán phân 5 lớp - nghiên cứu phương pháp máy vectơ tựa trong nhận dạng chữ viết tay (xử lý ảnh)
Hình 3 1 Sơ đồ bỏ phiếu cho bài toán phân 5 lớp (Trang 52)
Hình 3-2 Bài toán phân bốn lớp theo chiến lược OVR - nghiên cứu phương pháp máy vectơ tựa trong nhận dạng chữ viết tay (xử lý ảnh)
Hình 3 2 Bài toán phân bốn lớp theo chiến lược OVR (Trang 53)
Hình 3-3 Mô hình nhận dạng chữ viết tay rời rạc. - nghiên cứu phương pháp máy vectơ tựa trong nhận dạng chữ viết tay (xử lý ảnh)
Hình 3 3 Mô hình nhận dạng chữ viết tay rời rạc (Trang 54)
Hình 3-4  Chuẩn hóa kích thước ảnh. - nghiên cứu phương pháp máy vectơ tựa trong nhận dạng chữ viết tay (xử lý ảnh)
Hình 3 4 Chuẩn hóa kích thước ảnh (Trang 55)
Hình 3-5 Trích chọn đặc trưng nhị phân - nghiên cứu phương pháp máy vectơ tựa trong nhận dạng chữ viết tay (xử lý ảnh)
Hình 3 5 Trích chọn đặc trưng nhị phân (Trang 56)
Hình 3-6 Trích chọn đặc trưng ma trận trọng số vùng - nghiên cứu phương pháp máy vectơ tựa trong nhận dạng chữ viết tay (xử lý ảnh)
Hình 3 6 Trích chọn đặc trưng ma trận trọng số vùng (Trang 57)
Hình 3-8 Các mẫu chữ số viết tay trích từ tập dữ liệu USPS - nghiên cứu phương pháp máy vectơ tựa trong nhận dạng chữ viết tay (xử lý ảnh)
Hình 3 8 Các mẫu chữ số viết tay trích từ tập dữ liệu USPS (Trang 61)
Bảng 2. Kết quả thực nghiệm trên tập dữ liệu USPS. - nghiên cứu phương pháp máy vectơ tựa trong nhận dạng chữ viết tay (xử lý ảnh)
Bảng 2. Kết quả thực nghiệm trên tập dữ liệu USPS (Trang 61)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w