NGHIÊN CỨU HIDDEN MARKOV MODEL VÀ ỨNG DỤNG TRONG NHẬN DẠNG CHỮ VIẾT TAY

Tuy nhiên nhận dạng chữ viết tay đang còn là vấn đề đang được quan tâm đối với các nhà nghiên cứu, trong đó đã có một số phươngpháp nhận dạng chữ viết tay như nhận dạng đối sánh mẫu, p

Trang 1

1 Tính cấp thiết của đề tài 1

2 Mục tiêu nghiên cứu 2

3 Đối tượng và phạm vi nghiên cứu 2

4 Phương pháp nghiên cứu 2

5 Bố cục đề tài 2

6 Tổng quan tài liệu nghiên cứu 3

CHƯƠNG 1 TỔNG QUAN VỀ XỬ LÝ ẢNH SỐ VÀ NHẬN DẠNG 4

1.1 GIỚI THIỆU CHUNG VỀ XỬ LÝ ẢNH SỐ VÀ ỨNG DỤNG 4

1.2 TỔNG QUAN VỀ XỬ LÝ ẢNH SỐ 5

1.2.1 Thu nhận ảnh 5

1.2.2 Tiền xử lý ảnh 6

1.2.3 Xử lý mức trung 11

1.2.4 Xử lý mức cao 16

1.2.5 Cơ sở tri thức 16

1.3 CÁC KHÔNG GIAN MÀU VÀ ẢNH MÀU 16

1.3.1 Màu trong xử lý ảnh số 16

1.3.2 Không gian màu RGB 18

1.4 XỬ LÝ HÌNH THÁI HỌC 19

1.4.1 Khái niệm cơ bản 19

1.4.2 Phép co và giãn ảnh nhị phân 20

1.4.3 Phép đóng và mở ảnh nhị phân 21

CHƯƠNG 2 TỔNG QUAN NHẬN DẠNG CHỮ VIẾT TAY 24

2.1 TỔNG QUAN NHẬN DẠNG CHỮ VIẾT TAY 24

2.1.1 Nhận dạng chữ 24

Trang 2

2.2.1 Giai đoạn tiền xử lý ảnh 25

2.2.2 Phương pháp nhận dạng chữ viết tay 26

2.2.3 Hậu xử lý 31

2.3 CÁC MÔ HÌNH NHẬN DẠNG CHỮ VIẾT TAY 33

2.3.1 Mô hình tham số 33

2.3.2 Mô hình cấu trúc 33

2.4 MỘT SỐ HỆ THỐNG NHẬN DẠNG CHỮ VIẾT TAY HIỆN NAY 34

2.4.1 Hệ thống xác thực chữ ký viết tay HDUSigVeri 34

2.4.2 Hệ thống MMI trên xe Audi A8 hỗ trợ nhận dạng chữ viết tay 35

2.4.3 Hệ thống nhận dạng chữ viết tay rời rạc trực tuyến trên một trạm làm việc của IBM 36

CHƯƠNG 3 ỨNG DỤNG MÔ HÌNH MARKOV ẨN TRONG NHẬN DẠNG CHỮ VIẾT TAY 37

3.1 GIỚI THIỆU TỔNG QUAN VỀ MÔ HÌNH MARKOV ẨN 37

3.1.1 Mô hình Markov ẩn 37

3.1.2 Các bài toán cơ bản cho mô hình Markov ẩn 45

3.2 MỘT SỐ ĐIỀU KIỆN RÀNG BUỘC VỀ MẪU CHỮ 51

3.3 CÁC MẪU CHỮ VIẾT TAY 53

3.4 MỘT SỐ KỸ THUẬT NHẬN DẠNG TRÊN HMM 57

3.4.1 Trích lọc đặc trưng 57

3.4.2 Huấn luyện và nhận dạng bằng mô hình Markov ẩn 61

3.5 MÔI TRƯỜNG VÀ CÔNG CỤ CÀI ĐẶT 65

3.6 LƯU ĐỒ GIẢI THUẬT 65

3.7 CÀI ĐẶT THỰC NGHIỆM 68

3.7.1 Sơ đồ chương trình thực nghiệm 68

Trang 3

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 77 TÀI LIỆU THAM KHẢO 79 QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN (Bản sao)

Trang 4

CSDL Cơ sở dữ liệu

Codeword Mã cung ứng với vectơ hướng

State Trạng thái

Observation Sự quan sát

HMM Hidden Markov Model

CCD Charge Coupled Device

MOS Metal - Oxid - Semiconductor

HSV Hue - Saturation - Value

CIE Commission Internationale d’EclairageORC Optical character Recognizer

MLP MultiLayer Perception

MMI Multimedia Interface

BMW Bayerische Motoren Werke AG

IBM International Business Machines

Trang 5

1.8 Bước sóng quang phổ con người nhìn thấy được 16

1.10 Một số hình dáng của phần tử cấu trúc phẳng 191.11 Phép giãn và co ảnh nhị phân sử dụng một phần tử cấu

trúc

20

1.12 Quá trình thực hiện phép mở ảnh nhị phân 211.13 Quá trình thực hiện phép đóng ảnh nhị phân 222.1 Sơ đồ tổng quát của quá trình nhận dạng chữ viết tay 24

2.3 Mẫu ảnh ký tự cho quá trình hậu xử lý 312.4 Biểu đồ và đạo hàm dấu hiệu đặc trưng của ký tự O ở hình

2.6 Giao diện phiên bản mới nhất của phần mềm nhận diện

chữ ký viết tay HDUSigVeri

34

3.1 Chuỗi Markov 5 trạng thái với lựa chọn chuyển đổi trạng 37

Trang 6

3.3 Các mô hình Markov tung đồng xu 43

3.5 Sơ đồ đường dẫn quay lui của các trạng thái cho ra HTTH 49

3.11 Hai điểm gần nhau trên ký tự tạo thành đoạn thẳng lệch so

với phương ngang gốc

57

3.12 Cấu trúc liên kết HMM với 3 trạng thái 58

3.14 Phân đoạn đường thẳng cho cấu trúc liên kết HMM 60

3.16 Lưu đồ giải thuật trích lọc đặc trưng 653.17 Lưu đồ giải thuật huấn luyện mẫu chữ viết tay 66

3.20 Giao diện chương trình nhận dạng chữ viết tay 683.21 Kết quả của quá trình trích rút đặc trưng 70

Trang 7

Tôi cam đoan đây là công trình nghiên cứu của riêng tôi.

Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được

ai công bố trong bất kỳ công trình nào khác.

Tác giả

Nguyễn Thị Hà Phương

Trang 8

MỞ ĐẦU

1 Tính cấp thiết của đề tài

Hiện nay, trong cuộc sống cũng như trong công việc việc sử dụng cácbảng biểu, bảng điểm, giấy tờ, công văn… viết bằng tay vẫn còn nhiều, hoặcnhững bảng biểu đó được gõ bằng máy nhưng vẫn tồn tại chữ viết tay, ví dụnhư điểm trong bảng điểm, chữ ký, họ và tên, ngày tháng năm… Vì vậy việcnhập liệu bằng tay tốn nhiều công sức và thời gian, do đó việc nhận dạng đểđọc dữ liệu tự động vào máy tính là rất cần thiết

Vấn đề nhân dạng chữ được nhiều nhà khoa học nghiên cứu và ứngdụng từ rất nhiều năm nay:

o Nhận dạng chữ in: phục vụ cho công việc tự động hóa nhập tài liệu,tăng tốc độ và hiệu quả nhập thông tin

o Nhận dạng chữ viết tay: mỗi người viết tay có những kiểu chữ, cáchviết khác nhau, và với mức độ ràng buộc khác nhau nhằm phục vụ ứng dụngđọc chứng từ, hóa đơn, bản thảo viết tay…

Đến thời điểm này thì việc nhận dạng chữ in gần như được trọn vẹn

(phần mềm FindReader 9.0 của ABBYY có thể nhận dạng chữ in theo 20 ngôn ngữ khác nhau) Tuy nhiên nhận dạng chữ viết tay đang còn là vấn đề đang

được quan tâm đối với các nhà nghiên cứu, trong đó đã có một số phươngpháp nhận dạng chữ viết tay như nhận dạng đối sánh mẫu, phương phápnơron [2, 4], phương pháp tiếp cận cấu trúc [5], phương pháp Hidden MarkovModel (HMM, mô hình Markov ẩn) [8, 9, 10, 11, 13, 15]… Trong đó nhậndạng theo phương pháp HMM được sử dụng nhiều nơi và đã có kết quả khảquan

Đó là lý do tôi chọn đề tài “Nghiên cứu Hidden Markov Model và ứngdụng trong nhận dạng chữ viết tay”

Trang 9

2 Mục tiêu nghiên cứu

Nghiên cứu Hidden Markov Model và ứng dụng trong nhận dạng chữviết tay

3 Đối tượng và phạm vi nghiên cứu

- Nghiên cứu mô hình HMM.

- Ứng dụng mô hình HMM trong nhận dạng chữ viết tay trên một số

mẫu chữ

4 Phương pháp nghiên cứu

o Nghiên cứu lý thuyết:

- Tham khảo tài liệu trên mạng về một số phương pháp xử lý chữ viết

tay (chủ yếu là HMM)

- Tìm hiểu lập trình bằng Matlab.

- Nghiên cứu bài toán nhận dạng chữ viết tay.

- Tìm hiểu các kỹ thuật nhận dạng chữ viết tay.

o Nghiên cứu thực nghiệm:

- Dựa trên cơ sở lý thuyết xử lý ảnh, mô hình HMM và sự hướng dẫn

của giáo viên để thực hiện việc phân tích và cài đặt thực nghiệm nhận dạngchữ viết tay

- So sánh và đánh giá kết quả đạt được.

5 Bố cục đề tài

- Tổng quan về xử lý ảnh số và nhận dạng.

Trang 10

- Các phương pháp xử lý nhận dạng chữ viết tay.

- Cài đặt thực nghiệm nhận dạng chữ viết tay bằng Hidden Markov

Model

6 Tổng quan tài liệu nghiên cứu

Tìm hiểu:

- Tài liệu về mô hình Markov ẩn

- Tài liệu liên quan đến xử lý ảnh

- Các bài báo ứng dụng mô hình Markov ẩn

- Tài liệu về chữ viết tay và nhận dạng chữ viết tay

Ngoài những bài báo (tiếng Anh), tạp chí, giáo trình bài giảng, luận văncòn sử dụng những tài liệu trên các trang web

Trang 11

CHƯƠNG 1

TỔNG QUAN VỀ XỬ LÝ ẢNH SỐ VÀ NHẬN DẠNG

1.1 GIỚI THIỆU CHUNG VỀ XỬ LÝ ẢNH SỐ VÀ ỨNG DỤNG

Xử lý ảnh là một lĩnh vực quan trọng và mang tính khoa học Nó được

áp dụng vào nhiều lĩnh vực khác nhau, vì vậy nó làm kích thích các trung tâmnghiên cứu, ứng dụng, đặc biệt là áp dụng các công ty nghiên cứu về máy tínhchuyên dụng riêng cho nó Một ảnh được xác định là một hàm không gian hai

chiều f(x,y), trong đó (x,y) là vị trí trong không gian gọi là điểm ảnh (pixel) và

độ lớn của f(x, y) nào được gọi là độ sáng (intensity) hoặc mức xám (gray level) của ảnh tại điểm đó.

Xử lý ảnh là môn học liên quan đến nhiều lĩnh vực và cần rất nhiều kiếnthức tổng hợp khác Thứ nhất phải nói đến xử lý tín hiệu số là một môn họchết sức cơ bản cho xử lý tín hiệu chung, các khái niệm về tích chập, các biếnđổi Fourier, biến đổi Laplace, các bộ lọc hữu hạn… Thứ hai, các công cụ toánnhư đại số tuyến tính, xác suất, thống kê… Một số kiến thức cần thiết nhưmôn trí tuệ nhân tạo, các mạng nơron nhân tạo cũng được đề cập trong quátrình phân tích và nhận dạng ảnh

Các phương pháp xử lý ảnh tập trung vào hai công việc chính: cải thiệnảnh phục vụ cho con người và xử lý ảnh để lưu trữ, truyền và biểu diễn ảnhphục vụ nhận thức cho các máy tự động

Ứng dụng đầu tiên được biết đến trong lĩnh vực xử lý ảnh là nâng caochất lượng ảnh báo qua cáp từ London sang New York những năm 1920 Vấn

đề nâng cao chất lượng ảnh phát triển vào năm 1955, vì sau thế chiến thứ haimáy tính phát triển nhanh tạo điều kiện cho quá trình xử lý ảnh số thuận lợi.Năm 1964, máy tính đã có khả năng xử lý và nâng cao chất lượng ảnh từ mặttrăng và vệ tinh Ranger 7 của Mỹ bao gồm: làm nổi đường biên, lưu ảnh

Trang 12

Những năm 1970, xử lý ảnh bắt đầu được ứng dụng trong các lĩnh vực y

tế Từ những năm 1980 tới nay, các phương tiện xử lý, nâng cao chất lượng,nhận dạng ảnh phát triển không ngừng Các phương pháp tri thức nhân tạonhư mạng nơron nhân tạo, các thuật toán xử lý hiện đại và cải tiến, các công

cụ nén ảnh ngày càng được áp dụng rộng rãi và thu nhiều kết quả khả quan

xử lý tiếp theo sẽ bị giảm Ảnh có thể nhận qua camera màu hoặc đen trắng

Thường ảnh nhận qua camera là ảnh tương tự (loại camera ống chuẩn CCIR với tần số 1/25, mỗi ảnh 25 dòng), cũng có loại camera đã số hóa (như loại CCD – Change Coupled Device) là loại photodiot tạo cường độ sáng tại mỗi

điểm ảnh Camera thường dùng là loại quét dòng, ảnh tạo ra có dạng hai

Phân đoạn ảnh

(Image Segmentation)

Biểu diễn và mô tả

(Representation and description)

Nhận dạng và

nội suy ảnh

(Recognition and interpretation)

Cơ sở dữ liệu

(Data based)

Trang 13

chiều Chất lượng một ảnh thu nhận được phụ thuộc vào thiết bị thu, vào môitrường (ánh sáng, phong cảnh) Mặt khác, ảnh cũng có thể tiếp nhận từ vệtinh; có thể quét ảnh từ ảnh chụp hay văn bản bằng máy scan quét ảnh.

- Máy CCD (Charge-coupled Device)

Máy ảnh kỹ thuật số được sử dụng đầu tiên vào năm 1969, thay cho

phim ảnh là một linh kiện quang điện tử gọi là CCD (Charge Coupled Device)[18] Đây là một tấm phẳng to gần như tấm phim nhưng gồm có nhiều

ô li ti, mỗi ô là một cái tụ điện Gọi là tụ điện, nhưng thực tế gồm ba lớp, mộtlớp kim loại, một lớp oxyd và một lớp bán dẫn Do đó, có tên là tụ điện MOS

(Metal - Oxide - Semiconductor nghĩa là kim loại - oxyd - bán dẫn) như hình

1.2 Khi có ánh sáng chiếu đến tức là có photon đập vào, do hiệu ứng quangđiện nên điện tử bị bứt ra chứa vào trong tụ điện Mỗi một tụ điện của CCD

đóng vai trò là một điểm ảnh (pixel) có địa chỉ (x,y) rõ ràng Các điện tích

chứa trong các tụ điện của CCD được lần lượt chuyển đến thanh đọc để đọc

và chuyển về bộ nhớ, ghi lại tụ điện ở vị trí nào, được tích điện nhiều hay ít

Hình 1.2 Một tụ điện MOS.

1.2.2 Tiền xử lý ảnh

Ảnh sau khi được thu nhận từ các thiết bị quang học (CCD) hoặc thiết bị

điện tử có thể bị nhiễu và biến dạng Do đó, ảnh cần được đưa vào bộ tiền xử

MOS

Depletion region

Ảnh sáng

Ground

Trang 14

lý để nâng cao chất lượng ảnh Chức năng chính của bước tiền xử lý ảnh làkhử nhiễu, nâng cao độ tương phản, hiệu chỉnh mức xám để làm ảnh rõ hơn

và nét hơn cho các bước tiếp theo

a Khử nhiễu

Nhiễu của ảnh gồm 2 loại: nhiễu hệ thống và ngẫu nhiên Hai loại nhiễunày khác nhau về bản chất nên việc phát hiện và khử nhiễu cũng được tiếnhành theo các phương pháp và các kỹ thuật khác nhau

o Khử nhiễu hệ thống

Đặc trưng của nhiễu hệ thống là có tính qui luật do ảnh hưởng của mộttín hiệu nào đó trong quá trình thu nhận ảnh Có thể loại bỏ nhiễu này bằngcách sử dụng các phép biến đổi Fourier Tính chất chung của phép biến đổiFourier là nếu có nhiễu hệ thống trên ảnh thì sau khi khử nhiễu và áp dụngphép biến đổi Fourier ngược chúng ta sẽ thu lại được ảnh ban đầu đã loại trừđược nhiễu hệ thống

oKhử nhiễu ngẫu nhiên

Nhiễu ngẫu nhiên được sinh ra một cách ngẫu nhiên ngoài ý muốn trong

quá trình tạo ảnh (do kỹ thuật in, mực in, giấy in ) hoặc trong quá trình số hóa ảnh (do lỗi kỹ thuật quét hoặc chụp ảnh) Tác hại của nhiễu là làm sai

lệnh nội dung trong ảnh và gây khó khăn cho quá trình xử lý ảnh như táchvùng, tách đối tượng và kể cả nhận dạng đối tượng trong ảnh

Trong các trường hợp cụ thể, nhiễu thường là các điểm có màu (đối với ảnh màu), hoặc có cường độ sáng (đối với ảnh mức xám) không phù hợp với

màu của các điểm xung quanh Do đó, việc khử nhiễu trước tiên là phải xácđịnh được đâu là nhiễu, đâu là dữ liệu thật, sau đó loại nhiễu ra khỏi ảnh bằngcách thay giá trị tại điểm ảnh nhiễu bằng một giá trị phù hợp

Về mặt tổng quan, khử nhiễu ngẫu nhiên đều dựa vào tính phù hợp giữa

một điểm ảnh với các điểm lân cận nó Giả sử điểm ảnh S có tọa độ (x, y) S

Trang 15

có 4 điểm lân cận gần nhất theo phương đứng và ngang (lân cận theo 4 hướng chính: Đông, Tây, Nam, Bắc), ký hiệu là N4(S).

N4(S) = {(x-1,y); (x,y-1); (x,y+1); (x+1,y)} (1.1)

Tập 8 điểm lân cận của S ký hiệu là N8(S) :

Dựa vào thuộc tính màu hoặc mức sáng của các điểm lân cận, có thể xácđịnh điểm đang xét có phải là nhiễu hay không và thay đổi giá trị điểm nhiễubằng một giá trị hợp lý Phương pháp khử nhiễu ngẫu nhiên hiệu quả thườngđược áp dụng trong thực tế là sử dụng các kỹ thuật lọc ảnh

b Bộ lọc trong miền không gian

oLọc trung bình – Mean/Average filter

Lọc trung bình là kĩ thuật lọc tuyến tính, nó hoạt động như một bộ lọcthông thấp Với bộ lọc này mỗi điểm ảnh được thay thế bằng trung bình trọng

số của các điểm lân cận và được định nghĩa như sau:

Trang 16

Hình 1.3 Mặt nạ bộ lọc trung bình.

Bộ lọc trung bình thường được dùng để hướng tới việc bảo vệ biên củaảnh khỏi bị mờ khi làm trơn ảnh Các kiểu mặt nạ được sử dụng tùy theo cáctrường hợp khác nhau

oLọc trung vị - Median filter

Đây là một kỹ thuật lọc phi tuyến (non-linear), hiệu quả đối với hai loại nhiễu: nhiễu đốm (speckle noise) và nhiễu muối tiêu (salt-pepper noise) Các điểm ảnh của ảnh đầu vào I(u, v) được thay thế bởi giá trị trung vị của các điểm ảnh hàng xóm tương ứng với mặt nạ H(i, j) của nó.

Thuật toán lọc trung vị như sau: sử dụng một mặt nạ hay cửa sổ lọc có

ma trận kích thước 3x3; 5x5 quét qua lần lượt từng điểm ảnh của ảnh đầuvào

Tại vị trí của mỗi điểm ảnh chúng ta lấy giá trị của các điểm ảnh tươngứng trong vùng mặt nạ của ảnh đầu vào “lấp” vào ma trận của mặt nạ lọc Sắp

xếp các điểm ảnh trong cửa sổ lọc theo thứ tự (tăng hoặc giảm dần).

Gán điểm ảnh nằm chính giữa của dãy các giá trị điểm ảnh đã được sắpxếp ở trên cho giá trị điểm ảnh đang xét của ảnh đầu ra

Hình 1.4 Các bước trong thuật toán lọc trung vị.

c Bộ lọc trong miền tần số

oLọc đồng hình (Homomorphie Filter)

Thực tế, ảnh quan sát được ban đầu bao gồm ảnh đầu vào và một hệ

số nhiễu Gọi X’(m, n) là ảnh thu được, X(m, n) là ảnh đầu vào và T(m, n) là

nhiễu, như vậy ta có công thức thể hiện mối quan hệ giữa chúng:

X(m, n) = X’(m, n)*T(m, n) (1.4)

Lọc đồng hình thực hiện lấy logarit ảnh quan sát Do đó ta có kết quả:

3 7 2 1

Sắp xếp

2 1

0 0

P k-1 P k =median

P 0

3 7 2

Trang 17

log(X(m, n)) = log(X’(m, n)) + log(T(m, n)) (1.5)

Dễ dàng nhận thấy nhiễu hệ thống có trong ảnh đầu vào sẽ bị giảm Sauquá trình lọc tuyến tính, chúng ta chuyển về ảnh cũ bằng phép biến đổi hàm

mũ e.

oLọc thông thấp và lọc thông cao

Các đường biên và nhiễu trong ảnh tập trung nhiều vào phần tần số caocủa phép biến đổi Fourier của nó Do đó, để làm trơn ảnh bằng phương phápmiền tần số chúng ta có thể loại bỏ các thành phần tần số cao trong biến đổiFourier của ảnh

Vì các thành phần tần số cao bị loại bỏ và thông tin trong vùng tần sốthấp được cho qua nên phương pháp này gọi là lọc thông thấp Bộ lọc thôngthấp có thể kể đến như bộ lọc thông thấp Butterworth, Gaussian

Ảnh có thể bị nhòe do chúng ta làm suy giảm các thành phần tần số caotrong biến đổi Fourier của nó Vì các phần tử biên và những thay đổi đột ngộtkhác trong mức xám tương ứng của các thành phần tần số cao, việc làm nétảnh có thể thực hiện trong miền tần số bằng phương pháp lọc thông cao: làmsuy giảm các thành phần tần số thấp nhưng không phá hủy thông tin tần sốcao trong biến đổi Fourier Bộ lọc thông cao có thể kể đến như bộ lọc thôngcao Butterworth, Gaussian

Bộ lọc thông thấp thường dùng làm trơn nhiễu và nội suy ảnh Bộ lọcthông cao thường dùng trong việc trích chọn biên và làm trơn ảnh

1.2.3 Xử lý mức trung

Giai đoạn này là quá trình xử lý phức tạp, thường được sử dụng để phânđoạn ảnh, xác định và dự đoán biên ảnh, xác định vùng ảnh, nén ảnh để lưutrữ hoặc truyền phát Đặc điểm của các hệ thống xử lý ảnh mức trung là tínhiệu đầu vào là hình ảnh, còn tín hiệu đầu ra là các thành phần được tách ra từ

hình ảnh đầu vào Cụ thể chúng ta thực hiện phân đoạn ảnh.

Trang 18

Phân đoạn ảnh là bước tách hình ảnh đầu vào thành các vùng thành phầnhoặc các vật thể riêng để biểu diễn, phân tích, nhận dạng Đây cũng là mộttrong những vấn đề khó giải quyết nhất trong lĩnh vực xử lý ảnh Nếu thựchiện tách quá sâu các chi tiết trong ảnh thì bài toán nhận dạng các thành phầnđược tách ra sẽ trở nên phức tạp, ngược lại nếu quá trình phân đoạn được thựchiện quá thô hoặc phân đoạn sai thì kết quả nhận được cuối cùng sẽ khôngchính xác

Thông thường, bước đầu tiên trong quá trình phân đoạn ảnh là việc khửnền để kiểm soát được đối tượng Đối với các ảnh đơn sắc, việc phân đoạnảnh được thực hiện thông qua việc kiểm tra biểu đồ mức xám Các thuật toánphân đoạn ảnh đều dựa trên tính không liên tục hoặc tính tương tự của các giátrị mức xám của ảnh

Tính không liên tục của các giá trị mức xám trong ảnh cho chúng ta thấy

có sự thay đổi đột ngột về cường độ sáng trong ảnh Phân đoạn ảnh có thểthực hiện bởi ba kỹ thuật cơ bản: phân đoạn ảnh dựa trên ngưỡng, dựa trênbiên và dựa trên vùng

oPhân đoạn ảnh dựa trên ngưỡng

Các kỹ thuật phân đoạn ảnh dựa trên ngưỡng hầu hết đều dựa vào lược đồmức xám của ảnh để tính toán ngưỡng Việc tính toán ngưỡng bao hàm việc xác

định một tập các giá trị ngưỡng (có thể là một hoặc nhiều giá trị ngưỡng), dựa

vào giá trị ngưỡng để phân tách ảnh ra thành những vùng có ý nghĩa

(a) (b)

Trang 19

Hình 1.5 Phân đoạn ảnh dựa trên ngưỡng của lược đồ mức xám:

(a) Sử dụng một ngưỡng T, (b) Sử dụng hai ngưỡng T1 và T2.

Giả sử chúng ta có lược đồ mức xám của một ảnh như hình 1.5a, dựa vàolược đồ mức xám này chúng ta có thể nhận thấy rằng ảnh này có hai nhómmức xám Một nhóm thể hiện giá trị mức xám của đối tượng và nhóm còn lại

thể hiện giá trị mức xám của nền, ngưỡng T chính là giá trị để tách biệt đối tượng ra khỏi nền Do đó, bất kì giá trị của điểm ảnh f(x, y) nào của ảnh mà có giá trị lớn hơn T thì được gọi là điểm thuộc đối tượng, ngược lại gọi là điểm

thuộc nền của đối tượng

Thuật toán tách ngưỡng Otsu vào năm 1979 là một trong những thuật

toán lấy ngưỡng toàn cục T được đề xuất từ rất sớm và hiệu quả để tách đối

Hình 1.6 Sử dụng thuật toán Otsu tách ngưỡng:

a) Ảnh gốc, b) Lược đồ của ảnh gốc, c) Ảnh sau khi biến thành nhị phân.Tuy nhiên, nhiều trường hợp trong một ảnh không phải chỉ có hai nhómmức xám mà có thể có nhiều nhóm mức xám khác nhau, ví dụ như hình 1.6bthì lúc này để tách các đối tượng ra khỏi nền hoặc phân tách biệt các đốitượng trong ảnh chúng ta sử dụng nhiều ngưỡng khác nhau, trường hợp nàygọi là phân đoạn ảnh đa ngưỡng

Khi đó, mọi điểm ảnh f(x, y) sẽ thuộc về đối tượng thứ nhất nếu T1<f(x,y)≤T2, thuộc đối tượng khác nếu f(x, y) > T2, và thuộc nền nếu f(x, y) ≤ T1.

T

Trang 20

oPhân đoạn ảnh dựa trên biên

Việc xác định biên ảnh là một vấn đề cơ bản và đặc điểm quan trọngtrong phân tích ảnh vì các kĩ thuật phân đoạn ảnh chủ yếu dựa vào biên Mộtđiểm ảnh được gọi là biên nếu ở đó có sự thay đổi đột ngột về mức xám Tậphợp các điểm biên tạo thành biên, hay còn gọi là đường bao của ảnh Mỗi mộtbiên là một thuộc tính gắn liền với một điểm riêng biệt và được tính toán từnhững điểm lân cận của nó Có hai phương pháp phát hiện biên tổng quát, đó

là phương pháp phát hiện biên dựa vào sự biến thiên về giá trị độ sáng của

điểm ảnh (phương pháp đạo hàm) và phương pháp phát hiện biên dựa vào sự

biến thiên nhỏ và đồng đều về độ sáng của các điểm ảnh thuộc đối tượng

(phương pháp xử lý kết cấu của đối tượng).

Phương pháp phát hiện biên sử dụng đạo hàm có thể kể tới là: phương

pháp đạo hàm bậc nhất (phương pháp Gradient) và phương pháp đạo hàm bậc hai (phương pháp Laplace) Phương pháp Gradient (ví dụ: sử dụng toán tử Prewitt, Sobel, Robert ) và kỹ thuật la bàn (ví dụ: sử dụng toán tử la bàn Kirsh, toán tử la bàn Prewitt )

Trang 21

Ảnh gốc Phương pháp

Laplace

Phương pháp Gradient

Hình 1.7 Một số phương pháp tìm biên.

Ngoài ra còn có một số phương pháp phát hiện biên khác khắc phụcđược những điểm yếu của hai phương pháp phát hiện biên ở trên và giải quyếtcác ràng buộc trong việc phát hiện biên như: mức lỗi, định vị và hiệu suất củaphương pháp Một trong những phương pháp hiệu quả đó là phương phápCanny do John Canny đề xuất vào năm 1986

Phương pháp phát hiện biên xử lý kết cấu đối tượng hay còn gọi làphương pháp phát hiện biên gián tiếp là phương pháp dựa vào phép xử lý kếtcấu của đối tượng, cụ thể là dựa vào sự biến thiên và đồng đều độ sáng củacác điểm ảnh thuộc một đối tượng Nếu các vùng của ảnh được xác định thìđường ranh giới giữa các vùng đó chính là biên cần tìm

oPhân đoạn ảnh dựa trên vùng

Vùng (region) trong xử lý ảnh là một nhóm các điểm ảnh liên kết với

nhau có cùng các thuộc tính Sự phân chia các vùng thường được thực hiệnbằng cách sử dụng giá trị xám của điểm ảnh

Có hai phương pháp phân đoạn ảnh theo vùng là:

- Phân đoạn theo lan tỏa vùng (Region growing).

- Phân đoạn theo phương pháp phân chia và kết hợp vùng (Region Splitting and Merging).

Phân đoạn ảnh dựa trên vùng thường được sử dụng cho mục đích phânđoạn ảnh phức tạp với số lượng lớp trên vùng là lớn và chưa biết trước [6]

Trang 22

và xử lý theo kinh nghiệm cùng với tri thức của con người Nếu không có một

hệ cơ sở tri thức phù hợp thì hệ thống thị giác máy tính không thể “suy nghĩ”

và không thể đưa ra những quyết định thông minh giống như con người

1.3 CÁC KHÔNG GIAN MÀU VÀ ẢNH MÀU

1.3.1 Màu trong xử lý ảnh số

Sử dụng màu trong xử lý được thúc đẩy bởi các yếu tố:

- Màu sắc giúp chúng ta nhận diện các đối tượng đơn giản hơn vàkhai thác được nhiều thông tin từ ảnh màu

- Hệ thống thị giác của con người có thể cảm nhận, phân biệt đượchàng nghìn màu và cường độ sáng khác nhau Những yếu tố này là

Trang 23

những thuộc tính tự nhiên quan trọng để chúng ta có thể phân tíchảnh.

Xử lý ảnh màu được chia làm 2 phạm vi chính: xử lý toàn màu (full color) và xử lý giả màu (pseudo color)

Trong phạm vi thứ nhất, các ảnh thường được thu nhận bằng các bộ cảmbiến màu, như máy quét ảnh màu, TV, Camera màu

Trong phạm vi thứ hai, một ảnh màu được tách thành các kênh màu cócường độ sáng đơn hoặc khoảng cường độ sáng

Hiện nay, các loại xử lý ảnh màu được thực hiện theo cách thứ hai, tức là

từ ảnh màu sẽ tiến hành chuyển đổi và tách ảnh màu sang một không gianmàu khác với các kênh màu có cường độ sáng đơn hoặc ảnh có cường độ sáng

nằm trong một khoảng nào đó ví dụ như ảnh xám (0 - 255), ảnh nhị phân (0

và 1), ảnh màu bao gồm các kênh màu (ví dụ như từng kênh màu của không gian màu RGB: R, G, B) hoặc kết hợp 2 kênh màu.

Hình 1.8 Bước sóng trong quang phổ con người nhìn thấy được.

Các thuộc tính của màu sắc thường dùng để phân biệt bằng mắt thường

là: độ sáng (Brightness), độ bão hòa (Saturation) và sắc độ (Hue) Hầu hết các

nguồn sáng mà chúng ta nhìn thấy có chứa năng lượng trong một dải bước

sóng của ánh sáng Hue là bước sóng (Wavelength) trong dải quang phổ mà

chúng ta có thể nhìn thấy ánh sáng, tại đó lượng năng lượng từ nguồn sángphát ra là lớn nhất Độ bão hòa là một thể hiện cho dãi tần có thể nhìn thấy từ

Trang 24

nguồn sáng Trong hình 1.8, độ bão hòa được đại diện bởi độ dốc của sườndốc của đường cong

1.3.2 Không gian màu RGB

Không gian màu RGB mô tả màu sắc bằng ba màu kết hợp với nhau ở

các bước sóng chuẩn như màu: đỏ (red) = 700 nm, xanh lá (green) = 546,1

nm và xanh dương (blue) = 435,8 nm Không gian màu này được minh họa

bằng một khối lập phương với các trục chính là R, G, B ở hình 1.9

Hình 1.9 Không gian màu RGB.

Mỗi màu trong không gian màu RGB đều được biểu diễn như là mộtvectơ thông qua ba vectơ cơ sở là đỏ, xanh lá cây và xanh dương Do đó, mỗi

điểm ảnh trong ảnh I được xác định như sau:

I(x, y) = (R(x, y), G(x, y), B(x, y)) T = (R,G,B) T (1.6)

Vì vậy, ứng với các tổ hợp khác nhau của ba màu này sẽ cho ta một màumới Không gian màu RGB là chuẩn công nghiệp cho các thao tác đồ họamáy tính Các thao tác màu sắc có thể được tính toán trên các không gian màukhác nhau nhưng cuối cùng cần phải chuyển về không gian màu RGB để hiểnthị lên màn hình máy tính vì thiết bị phần cứng dựa trên mô hình RGB

Chúng ta có thể chuyển đổi qua lại giữa không gian màu RGB sang các

không gian màu khác như: HSV, CIE.

Trang 25

1.4 XỬ LÝ HÌNH THÁI HỌC

1.4.1 Khái niệm cơ bản

Xử lý ảnh hình thái học mô tả một dãy các kỹ thuật xử lý ảnh liên quanđến hình dạng và các đặc trưng riêng trên ảnh Tất cả các thao tác xử lý hìnhthái học đều dựa trên hai ý tưởng cơ bản:

- Fit: tất cả các điểm ảnh nằm trên phần tử cấu trúc che phủ tất cả các

xử lý Các điểm trung tâm của phần tử cấu trúc được gọi là điểm gốc, xácđịnh các điểm ảnh được xử lý, kiểu phần tử cấu trúc này còn được gọi là phần

tử cấu trúc phẳng Các điểm ảnh trong phần tử cấu trúc có giá trị bằng 1 xác

định vùng lân cận của phần tử cấu trúc Trong không gian 3D hay không gian

không phẳng (non-flat), các phần tử cấu trúc sử dụng các giá trị 0 và 1 để xác định phạm vi của phần tử cấu trúc trong mặt phẳng x, mặt phẳng y và thêm

giá trị độ cao để xác định chiều thứ ba, kiểu phần tử cấu trúc này còn đượcgọi là phần tử cấu trúc không phẳng Các phần tử cấu trúc thường được quyđịnh theo một hình dáng và có kích thước khác nhau Một số hình dáng củaphần tử cấu trúc thuộc về phần tử cấu trúc phẳng: chữ nhật, hình tròn, elip,

hình thoi Trong khi đó hình dáng: quả bóng (ball) và tùy ý thuộc về phần tử

cấu trúc không phẳng

Trang 26

Hình 1.10 Một số hình dáng của phần tử cấu trúc phẳng.

Về cơ bản, xử lý hình thái học giống với lọc không gian ảnh Phần tử cấutrúc dịch qua mỗi điểm ảnh trên ảnh ban đầu và tạo ra điểm ảnh mới sau khi

xử lý Giá trị của điểm ảnh mới phụ thuộc vào thao tác thực hiện Phần lớncác phép toán hình thái học được định nghĩa từ hai phép toán cơ bản là phép

toán co (Erosion) và giãn (Dilation) ảnh nhị phân

1.4.2 Phép co và giãn ảnh nhị phân

Một ứng dụng quan trọng của phép co ảnh nhị phân là dùng để loại trừ

các chi tiết không cần thiết trên hình ảnh (ví dụ như nhiễu hay các thành phần

dư thừa) và nó thường làm mỏng đối tượng trong ảnh nhị phân.

b Phép giãn ảnh (Dilation)

Gọi A là ảnh gốc, B là một phần tử cấu trúc Phép giãn nhị phân của ảnh

A với phần tử cấu trúc B được kí hiệu và chúng ta có thể biểu diễn phéptoán co ảnh dưới dạng phép toán tổ hợp như sau:

Trang 27

(1.8)

Như vậy, phép giãn ảnh nhị phân của tập A bởi phần tử cấu trúc B là tập hợp của các điểm z (z là tâm của phần tử cấu trúc B trên tập A) sao cho phản

xạ của Bz giao với tập A tại ít nhất một điểm.

Tổng quát hơn, nếu A là một hình ảnh và B là phần tử cấu trúc có tâm điểm nằm trên hình ảnh A, khi đó phép giãn của hình ảnh A bởi phần tử cấu trúc B có thể được hiểu như quỹ tích của các điểm được phủ bởi phần tử cấu trúc B khi tâm điểm của B di chuyển trên cạnh của hình ảnh A

Ảnh gốc Phép giãn ảnh

Ảnh gốc Phép co ảnh

Hình 1.11 Phép giãn và co ảnh nhị phân sử dụng một phần tử cấu trúc.

Một trong các ứng dụng đơn giản nhất của phép giãn ảnh nhị phân là nốicác nét đứt trong quá trình nâng cao chất lượng ảnh Nhìn chung, phép giãnảnh nhị phân thường làm to đối tượng

1.4.3 Phép đóng và mở ảnh nhị phân

Phép mở ảnh và phép đóng ảnh là hai phép toán được mở rộng từ haiphép toán hình thái cơ bản là phép co và phép giãn ảnh nhị phân Phép mởảnh thường làm trơn biên của đối tượng trong ảnh, như loại bỏ những phầnnhô ra có kích thước nhỏ Phép đóng ảnh cũng tương tự làm trơn biên của đốitượng trong ảnh nhưng ngược với phép mở

Trang 28

a Phép mở ảnh (Opening)

Gọi A là đối tượng trong hình ảnh và B là phần tử cấu trúc,(O) là ký hiệu

của phép mở ảnh giữa tập hợp A và phần tử cấu trúc B, phép mở ảnh được xác

định bởi công thức:

= (A B) (1.9)

Như vậy, phép mở ảnh phải trải qua hai giai đoạn là co ảnh và giãn ảnh.Đầu tiên sử dụng phép co với phần tử cấu trúc có kích thước tương ứng để tácđộng lên đối tượng trong ảnh Sau đó áp dụng phép giãn ảnh cho kết quả đóthì chúng ta sẽ thu được kết quả

Hình 1.12 Quá trình thực hiện phép mở ảnh nhị phân.

b Phép đóng ảnh (Closing)

Tương tự như phép mở ảnh, nhưng quá trình thực hiện phép đóng ảnh thìngược lại, với mục đích lấp đầy những chỗ thiếu hụt của đối tượng trên ảnhdựa vào các phần tử cơ bản ban đầu

Với tập hợp A là đối tượng trong ảnh, B là phần tử cấu trúc, là ký hiệu

phép đóng ảnh Khi đó phép đóng ảnh của tập hợp A bởi phần tử cấu trúc B,

kí hiệu là , xác định bởi:

= (1.10)

Trang 29

Cho một hình ảnh nhị phân, với đối tượng trong ảnh có những khu vực

bị đứt gãy, không liền mạch Để khắc phục hiện tượng này ta áp dụng phép

đóng ảnh, với A là đối tượng ban đầu, B là phần tử cấu trúc có kích thước 3x3.

Khi áp dụng phép đóng ảnh, đầu tiên đối tượng này sẽ được mở rộng bằng

phép giãn nhị phân theo phần tử cấu trúc B Lúc này những khu vực thiếu hụt

sẽ được bù lên và khu vực đứt sẽ được nối lại Sau đó áp dụng phép co nhịphân để đưa đối tượng về trạng thái ban đầu

Trang 30

CHƯƠNG 2

TỔNG QUAN NHẬN DẠNG CHỮ VIẾT TAY

2.1 TỔNG QUAN NHẬN DẠNG CHỮ VIẾT TAY

2.1.1 Nhận dạng chữ

Bài toán nhận dạng chữ là một bài toán nhận dạng tiêu biểu mà ứng

dụng của nó khá phổ biến: các hệ nhận dạng chữ OCR (Optical Character Recognizer) Bài toán này được phân thành 2 nhánh lớn:

oNhận dạng chữ in để phục vụ cho công tác đọc tự động văn bản, đẩynhanh việc nhập thông tin vào máy

oNhận dạng chữ viết tay với các kiểu chữ khác nhau, phục vụ cho cácứng dụng đọc và xử lý hoá đơn, văn bản…

2.1.2 Quá trình nhận dạng

Quá trình nhận dạng gồm 3 giai đoạn chính:

oLựa chọn mô hình biểu diễn đối tượng

oLựa chọn phương pháp nhận dạng và huấn luyện hệ thống

oTiến hành nhận dạng

Khi mô hình biểu diễn đối tượng đã xác định, có thể là định lượng (mô hình tham số) hay định tính (mô hình cấu trúc) thì chúng ta có thể thực hiện giai đoạn học Trước khi nhận dạng hệ thống phải được huấn luyện (học)

nhằm điều chỉnh phân hoạch tập đối tượng thành các lớp Do đó, học là mộtgiai đoạn rất quan trọng trong hệ thống nhận dạng

 Học có giám sát

Kỹ thuật phân loại nhờ kiến thức biết trước gọi là học có giám sát Đặcđiểm cơ bản của kỹ thuật này là người ta có một thư viện các mẫu chuẩn đểxem nó thuộc loại nào Ví dụ như trong một ảnh ký tự, người ta muốn phân

Trang 31

biệt chữ cái này là chữ ‘C’ hay không phải là chữ ‘C’; tập mẫu này là chữ ‘A’, tập mẫu kia là chữ ‘O’, trong đó các đối tượng này đã được miêu tả Vấn đề

chủ yếu là thiết kế một hệ thống để có thể đối sánh đối tượng trong ảnh vớimẫu chuẩn và quyết định gán cho chúng vào một lớp Việc đối sánh nhờ vàocác thủ tục ra quyết định dựa trên một công cụ gọi là hàm phân lớp hay hàm

ra quyết định

 Học không giám sát

Kỹ thuật học này phải tự định ra các lớp khác nhau và xác định các tham

số đặc trưng cho từng lớp Học không có thầy đương nhiên là khó khăn hơn.Một mặt, do số lớp không biết trước, mặt khác những đặc trưng của các lớpcũng không biết trước Kỹ thuật này nhằm tiến hành một cách gộp nhóm cóthể và chọn lựa cách tốt nhất Bắt đầu từ tập dữ liệu, nhiều thủ tục xử lý khácnhau nhằm phân lớp và nâng cấp dần để đạt được một phương án phân loại

2.2 QUY TRÌNH XỬ LÝ NHẬN DẠNG CHỮ VIẾT TAY

Quy trình xử lý nhận dạng chữ viết tay được thể hiện ở hình 2.1.

Hình 2.1 Sơ đồ tổng quát của quá trình nhận dạng chữ viết tay.

2.2.1 Giai đoạn tiền xử lý ảnh

Đây là giai đoạn quan trọng ảnh hưởng đến kết quả nhận dạng Tuỳthuộc vào chất lượng ảnh được quét mà ta tiến hành các thủ tục xử lý khácnhau Vì quá trình xử lý sơ bộ có thể làm chậm tốc độ xử lý của hệ thống nênnếu ảnh quét vào là tốt thì có thể bỏ qua bước này Theo [15] thì bất kỳ mộtứng dụng xử lý ảnh nào cũng bị nhiễu như những điểm cô lập Nhiễu làm tăngđặc trưng không xác định và cho ra kết quả hiệu suất và tính chính xác trong

Trang 32

nhận dạng giảm đi Do đó phần tiền xử lý được thực hiện trước khi chúng tabắt đầu phương pháp trích lọc đặc trưng Ở đây chuỗi các hoạt động được tiến

hành liên tiếp như biểu đồ luồng (hình 2.2) Chúng ta sử dụng lọc trung vị cho

ảnh ký tự tốt hơn trong việc thực hiện để loại bỏ những điểm không mongmuốn hoặc những điểm cô lập Sau đó làm mỏng ảnh để có được xương củaảnh ký tự giúp cho quá trình quan sát dễ dàng hơn và làm tăng tốc độ xử lýcủa các quá trình sau

Hình 2.2 Giai đoạn tiền xử lý.

2.2.2 Phương pháp nhận dạng chữ viết tay

Nhận dạng chữ viết là một lĩnh vực thu hút được sự quan tâm nghiên cứucủa các nhà khoa học Lĩnh vực nghiên cứu này bắt đầu từ vài thập kỷ trước

và hiện nay đã thu được một số thành công đáng kể Trên thế giới đã xuấthiện nhiều ứng dụng thương mại thực hiện nhận dạng chữ tùy theo từng yêucầu cụ thể, có thể là nhận dạng chữ in trên một kiểu chữ, hoặc nhiều kiểu chữ

(omni font), có thể là nhận dạng trên một ngôn ngữ hoặc là nhiều ngôn ngữ (omni language), hoặc là nhận dạng chữ số viết tay có ràng buộc Ta có thể kể

Ảnh ký tự (character Image)

Làm dày ảnh (thickening)

Tạo ngưỡng (Thresholding)

Lọc trung vị (Median Filtering)

Tìm xương ảnh (Thinning)

Trang 33

ra một số sản phẩm tiêu biểu như: OmniPage ở Việt Nam [24], việc nghiêncứu xây dựng các hệ nhận dạng chữ tiếng Việt cũng được bắt đầu rất sớm.Hiện tại trong lĩnh vực nhận dạng chữ in đã có một số sản phẩm thương mạivới chất lượng tốt như VnDOCR [16] của Viện Công Nghệ Thông Tin,ImageScan của CadPro Tuy nhiên, việc nhận dạng chữ viết tay cũng chưa đạtđược nhiều kết quả Để giải quyết các khó khăn của nhận dạng chữ nói chung

và nhận dạng chữ viết tay nói riêng, các nhà nghiên cứu đã đề xuất rất nhiềucác kỹ thuật nhận dạng dựa trên cơ sở của lý thuyết thống kê, cấu trúc chữ,đặc trưng, HMM và mạng nơron.

a Phương pháp đối sánh mẫu

Kỹ thuật nhận dạng ở đây dựa vào lý thuyết ra quyết định Người taxác định các đặc trưng của cấu trúc chữ như: số nhát cắt ngang, các nétcong hay thẳng, mở hay đóng… Cách sử dụng các dấu hiệu cũng khácnhau Theo các tác giả [3], chữ được chia thành hai nhóm lớn:

o Nhóm thứ nhất là nhóm gồm các chữ có ít nhất là một nhát cắt

Nhóm này gồm các chữ như: C E F G I J L P T Y Z, các số từ 1 đến

7 và số 9

o Nhóm thứ hai gồm các chữ còn lại và hai số 0 và 8 Sử dụng thêm

tính chất đóng mở, ta lại chia nhóm hai thành 4 nhóm nhỏ:

Đối với nhóm 1 do đặc tính của nó nên phải dùng phương pháp cửa sổ

di động để xem xét Dựa vào lát cắt, người ta chia chữ làm 6 thành phần

Trang 34

và biểu diễn bởi một vectơ V: V1, V2, V3, V4, V5, V6

Vi = 1 nếu có một điểm đen trên phần i, ngược lại bằng 0 nếu không

Phương pháp này thường sử dụng trong trường hợp chữ viết tay phảiđược viết một cách cẩn thận và đòi hỏi độ chính xác về các đường nét cao hơncác phương pháp khác, vì nó tìm điểm đặc trưng của các chữ số, trong khi đócác chữ số có thể có các đường nét giống nhau Chỉ cần ghi cẩu thả là sẽ dẫnđến trường hợp nhận dạng sai sang chữ số khác

Hiện nay, các loại mạng nơron thông dụng gồm có: mạng truyền thẳng

(feed-forward), mạng hồi qui (feedback), mạng tự tổ chức (self-organizing).

Mạng truyền thẳng feed-forward bao gồm nhiều lớp các đơn vị xử lý phi

tuyến (non-linear processing unit) Một vectơ đầu vào sẽ được đưa vào lớp

vào của mạng và sau đó các tính toán được thực hiện lan truyền thẳng từ lớpvào đến các lớp ẩn và kết thúc ở lớp ra Mạng Perceptron nhiều lớp MLP

(MultiLayer Perceptron) là một trong những loại mạng truyền thẳng điển

hình, được sử dụng rộng rãi trong các hệ thống nhận dạng như nhận dạng ký

Trang 35

tự quang, chữ viết tay, nhận dạng tiếng nói…

Trang 36

c Phương pháp tiếp cận cấu trúc

Theo [19], cách tiếp cận của phương pháp này dựa vào việc mô tả đốitượng nhờ một số khái niệm biểu diễn đối tượng cơ sở trong ngôn ngữ tựnhiên Để mô tả đối tượng người ta dùng một số dạng nguyên thủy như đoạnthẳng, cung… Mỗi đối tượng được mô tả như một sự kết hợp của các dạngnguyên thủy

Các quy tắc kết hợp các dạng nguyên thủy được xây dựng giống nhưviệc nghiên cứu văn phạm trong một ngôn ngữ, do đó quá trình quyết địnhnhận dạng là quá trình phân tích cú pháp Phương pháp này đặt vấn đề để giảiquyết bài toán nhận dạng chữ tổng quát Tuy vậy, cho đến nay còn nhiều vấn

đề liên quan đến hệ nhận dạng cú pháp chưa được giải quyết độc lập và chưaxây dựng được các thuật toán phổ dụng Hiện nay, nhận dạng theo cấu trúcphổ biến là trích lọc các đặc trưng của mẫu học, phân hoạch bảng ký tự dựatrên các đặc trưng này, sau đó ảnh cần nhận dạng sẽ được trích lọc đặc trưng

và so sánh trên bảng phân hoạch để tìm ra ký tự có các đặc trưng phù hợp.Đối với nhận dạng chữ viết tay rời rạc dựa theo cấu trúc xương và đườngbiên, công việc này đòi hỏi phải xây dựng các đặc trưng của chữ, đặc biệt làđặc trưng về các điểm uốn, điểm gấp khúc và đặc trưng của các nét Sau khitiến hành công đoạn tiền xử lý, công việc tách các nét được tiến hành thôngqua các điểm rẽ nhánh, hay trích chọn đặc trưng cấu trúc xương của chữ, mỗinét đặc trưng bởi cặp chỉ số đầu và cuối tương ứng với thứ tự của điểm rẽnhánh đầu và cuối Cuối cùng là xây dựng cây tìm kiếm, dựa vào đặc trưng vềcấu trúc xương và cấu trúc biên để phân tập mẫu học thành các lớp

Các phương pháp cấu trúc áp dụng cho các bài toán nhận dạng chữ đượcphát triển theo hai bước:

oPhương pháp ngữ pháp

Trang 37

Các phương pháp ngữ pháp khởi tạo một số luật sinh để hình thành các

ký tự từ một tập các công thức ngữ pháp nguyên thuỷ Các luật sinh này cóthể kết nối bất kỳ kiểu đặc trưng thống kê và đặc trưng hình thái nào dưới một

số cú pháp hoặc các luật ngữ nghĩa Giống như lý thuyết ngôn ngữ, các luậtsinh cho phép mô tả các cấu trúc câu có thể chấp nhận được và trích chọnthông tin theo ngữ cảnh về chữ viết bằng cách sử dụng các kiểu ngữ phápkhác nhau

Các phương pháp ngữ pháp hầu hết được sử dụng trong giai đoạn hậu xử

lý để sửa các lỗi mà không nhận dạng đã thực hiện sai

oPhương pháp đồ thị

Các đơn vị chữ viết được mô tả bởi các cây hoặc các đồ thị Các dạng

nguyên thủy của ký tự (các nét) được lựa chọn bởi một hướng tiếp cận cấu

trúc Đối với mỗi lớp, một đồ thị hoặc cây được thành lập trong giai đoạnhuấn luyện để mô tả các nét, các ký tự hoặc các từ Giai đoạn nhận dạng gánmột đồ thị chưa biết vào một trong các lớp bằng cách sử dụng một độ đo để

so sánh các đặc điểm giống nhau giữa các đồ thị

Có rất nhiều hướng tiếp cận khác nhau sử dụng phương pháp đồ thị, tiêubiểu là hướng tiếp cận đồ thị phân cấp được dùng trong việc nhận dạng chữviết tay Trung Quốc và Hàn Quốc

d Phương pháp mô hình Markov ẩn

Các tác giả [9] đã trình bày nhận dạng ngôn ngữ ký hiệu từ những hiệuứng tay hoặc dáng điệu tay là miền hoạt động trong nghiên cứu nhận dạng cửchỉ điệu bộ cho mối tương tác giữa người và máy Nhận dạng cử chỉ tay có

nhiều ứng dụng như: Sign Language Recognition (nhận dạng ngôn ngữ ký hiệu), Communication in Video conference (việc giao tiếp trong hội nghị thông qua video), Using a finger as a pointer for selecting option from menu and Interacting with a computer by easy way for children (sử dụng ngón tay

Trang 38

như là con trỏ để lựa chọn thuộc tính từ menu và tương tác với máy tính bằng phương pháp dễ nhất cho trẻ em)… Hơn một vài năm trước, nhiều phương

pháp nhận dạng cử chỉ tay được đề xuất và những phương pháp này khác với

những phương pháp khác về mô hình của chúng: Neural Network (mạng nơron), Syntactical Analysis (sự phân tích cú pháp) và Hidden Markov

Model… Từ khi HMM được sử dụng rộng rãi trong nhận dạng chữ viết tay,lời nói, tạo nhãn hiệu phần lời nói và dịch tự động, người ta đã trình bày một

phương pháp để nhận dạng đồ họa cử chỉ tay từ ‘A’ đến ‘Z’ sử dụng HMM để

đưa ra sự đánh giá về hướng giữa bất kỳ một điểm trên quỹ đạo chữ và điểmtrung tâm của chữ đó Phương pháp này phụ thuộc vào cơ sở dữ liệu mà

chúng ta xây dựng và mô hình Left-Right Banded (mô hình Markov chuyển từ trái qua phải) Các tác giả đã tạo được cơ sở dữ liệu của 13000 mẫu từ 100

người và mỗi người viết 5 lần mỗi ký tự 2600 mẫu được sử dụng để huấnluyện HMM và phần còn lại được sử dụng để kiểm tra mô hình nhận dạng.Kết quả nhận dạng trung bình đạt 98.26%, một hiệu suất rất cao so với cácphương pháp nhận dạng khác và tốc độ nhận dạng nhanh

Trang 39

Đối với mỗi nhóm chúng ta trích xuất một hay nhiều hơn một vài đặctrưng để có thể phân biệt những ký tự này với gần như 100% độ chính xác Ví

dụ ký tự ‘O’ và ‘Q’ có thể dễ dàng phân biệt theo các hình 2.3, 2.4, 2.5.

a) b)

Hình 2.3 Mẫu ảnh ký tự cho quá trình hậu xử lý: a) Ký tự ‘O’, b) Ký tự ‘Q’.

Hình 2.4 Biểu đồ và đạo hàm dấu hiệu đặc trưng của ký tự ‘O’ ở hình 2.3.

Hình 2.5 Biểu đồ và đạo hàm dấu hiệu đặc trưng của ký tự ‘Q’ ở hình 2.3.

Những biểu đồ trên diễn tả sự khác nhau giữa biểu đồ dấu hiệu đặc trưng

của ký tự ‘Q’ chứa đỉnh nhọn rất lớn và ký tự ‘O’ sử dụng ngưỡng tiêu chuẩn.

Góc (độ)

Đạ

o hà

m củ

a bá

n kín h

Góc (độ)

Bá

n kính

Đạ

o hà

m của bá

n kín h

Bá

n kín h

Trang 40

Lưu ý rằng đặc trưng ký hiệu không được sử dụng để huấn luyện mô hìnhHMM của tất cả các ký tự

2.3 CÁC MÔ HÌNH NHẬN DẠNG CHỮ VIẾT TAY

Việc lựa chọn một quá trình nhận dạng có liên quan mật thiết đến kiểu

mô tả mà người ta sử dụng để đặc tả đối tượng Trong nhận dạng, ta phânchia làm hai họ lớn:

- Họ mô tả theo tham số

- Họ mô tả theo cấu trúc

Cách mô tả được lựa chọn sẽ xác định mô hình đối tượng Như vậychúng ta sẽ có hai loại mô hình: mô hình theo tham số và mô hình cấu trúc

2.3.1 Mô hình tham số

Sử dụng các vectơ để đặc tả đối tượng Mỗi phần tử của vectơ mô tả

một đặc tính của đối tượng Tuy nhiên việc lựa chọn đặc trưng nào là hoàntoàn phụ thuộc vào ứng dụng Ví dụ: trong nhận dạng chữ, các tham số làcác dấu hiệu:

Định dạng
Số trang	85
Dung lượng	22,95 MB

NGHIÊN CỨU HIDDEN MARKOV MODEL VÀ ỨNG DỤNG TRONG NHẬN DẠNG CHỮ VIẾT TAY

TỔNG QUAN NHẬN DẠNG CHỮ VIẾT TAY

Phương pháp tiếp cận cấu trúc