1. Trang chủ
  2. » Luận Văn - Báo Cáo

NGHIÊN CỨU HIDDEN MARKOV MODEL VÀ ỨNG DỤNG TRONG NHẬN DẠNG CHỮ VIẾT TAY

85 1K 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 85
Dung lượng 22,95 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Tuy nhiên nhận dạng chữ viết tay đang còn là vấn đề đang được quan tâm đối với các nhà nghiên cứu, trong đó đã có một số phươngpháp nhận dạng chữ viết tay như nhận dạng đối sánh mẫu, p

Trang 1

1 Tính cấp thiết của đề tài 1

2 Mục tiêu nghiên cứu 2

3 Đối tượng và phạm vi nghiên cứu 2

4 Phương pháp nghiên cứu 2

5 Bố cục đề tài 2

6 Tổng quan tài liệu nghiên cứu 3

CHƯƠNG 1 TỔNG QUAN VỀ XỬ LÝ ẢNH SỐ VÀ NHẬN DẠNG 4

1.1 GIỚI THIỆU CHUNG VỀ XỬ LÝ ẢNH SỐ VÀ ỨNG DỤNG 4

1.2 TỔNG QUAN VỀ XỬ LÝ ẢNH SỐ 5

1.2.1 Thu nhận ảnh 5

1.2.2 Tiền xử lý ảnh 6

1.2.3 Xử lý mức trung 11

1.2.4 Xử lý mức cao 16

1.2.5 Cơ sở tri thức 16

1.3 CÁC KHÔNG GIAN MÀU VÀ ẢNH MÀU 16

1.3.1 Màu trong xử lý ảnh số 16

1.3.2 Không gian màu RGB 18

1.4 XỬ LÝ HÌNH THÁI HỌC 19

1.4.1 Khái niệm cơ bản 19

1.4.2 Phép co và giãn ảnh nhị phân 20

1.4.3 Phép đóng và mở ảnh nhị phân 21

CHƯƠNG 2 TỔNG QUAN NHẬN DẠNG CHỮ VIẾT TAY 24

2.1 TỔNG QUAN NHẬN DẠNG CHỮ VIẾT TAY 24

2.1.1 Nhận dạng chữ 24

Trang 2

2.2.1 Giai đoạn tiền xử lý ảnh 25

2.2.2 Phương pháp nhận dạng chữ viết tay 26

2.2.3 Hậu xử lý 31

2.3 CÁC MÔ HÌNH NHẬN DẠNG CHỮ VIẾT TAY 33

2.3.1 Mô hình tham số 33

2.3.2 Mô hình cấu trúc 33

2.4 MỘT SỐ HỆ THỐNG NHẬN DẠNG CHỮ VIẾT TAY HIỆN NAY 34

2.4.1 Hệ thống xác thực chữ ký viết tay HDUSigVeri 34

2.4.2 Hệ thống MMI trên xe Audi A8 hỗ trợ nhận dạng chữ viết tay 35

2.4.3 Hệ thống nhận dạng chữ viết tay rời rạc trực tuyến trên một trạm làm việc của IBM 36

CHƯƠNG 3 ỨNG DỤNG MÔ HÌNH MARKOV ẨN TRONG NHẬN DẠNG CHỮ VIẾT TAY 37

3.1 GIỚI THIỆU TỔNG QUAN VỀ MÔ HÌNH MARKOV ẨN 37

3.1.1 Mô hình Markov ẩn 37

3.1.2 Các bài toán cơ bản cho mô hình Markov ẩn 45

3.2 MỘT SỐ ĐIỀU KIỆN RÀNG BUỘC VỀ MẪU CHỮ 51

3.3 CÁC MẪU CHỮ VIẾT TAY 53

3.4 MỘT SỐ KỸ THUẬT NHẬN DẠNG TRÊN HMM 57

3.4.1 Trích lọc đặc trưng 57

3.4.2 Huấn luyện và nhận dạng bằng mô hình Markov ẩn 61

3.5 MÔI TRƯỜNG VÀ CÔNG CỤ CÀI ĐẶT 65

3.6 LƯU ĐỒ GIẢI THUẬT 65

3.7 CÀI ĐẶT THỰC NGHIỆM 68

3.7.1 Sơ đồ chương trình thực nghiệm 68

Trang 3

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 77 TÀI LIỆU THAM KHẢO 79 QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN (Bản sao)

Trang 4

CSDL Cơ sở dữ liệu

Codeword Mã cung ứng với vectơ hướng

State Trạng thái

Observation Sự quan sát

HMM Hidden Markov Model

CCD Charge Coupled Device

MOS Metal - Oxid - Semiconductor

HSV Hue - Saturation - Value

CIE Commission Internationale d’EclairageORC Optical character Recognizer

MLP MultiLayer Perception

MMI Multimedia Interface

BMW Bayerische Motoren Werke AG

IBM International Business Machines

Trang 5

1.8 Bước sóng quang phổ con người nhìn thấy được 16

1.10 Một số hình dáng của phần tử cấu trúc phẳng 191.11 Phép giãn và co ảnh nhị phân sử dụng một phần tử cấu

trúc

20

1.12 Quá trình thực hiện phép mở ảnh nhị phân 211.13 Quá trình thực hiện phép đóng ảnh nhị phân 222.1 Sơ đồ tổng quát của quá trình nhận dạng chữ viết tay 24

2.3 Mẫu ảnh ký tự cho quá trình hậu xử lý 312.4 Biểu đồ và đạo hàm dấu hiệu đặc trưng của ký tự O ở hình

2.6 Giao diện phiên bản mới nhất của phần mềm nhận diện

chữ ký viết tay HDUSigVeri

34

3.1 Chuỗi Markov 5 trạng thái với lựa chọn chuyển đổi trạng 37

Trang 6

3.3 Các mô hình Markov tung đồng xu 43

3.5 Sơ đồ đường dẫn quay lui của các trạng thái cho ra HTTH 49

3.11 Hai điểm gần nhau trên ký tự tạo thành đoạn thẳng lệch so

với phương ngang gốc

57

3.12 Cấu trúc liên kết HMM với 3 trạng thái 58

3.14 Phân đoạn đường thẳng cho cấu trúc liên kết HMM 60

3.16 Lưu đồ giải thuật trích lọc đặc trưng 653.17 Lưu đồ giải thuật huấn luyện mẫu chữ viết tay 66

3.20 Giao diện chương trình nhận dạng chữ viết tay 683.21 Kết quả của quá trình trích rút đặc trưng 70

Trang 7

Tôi cam đoan đây là công trình nghiên cứu của riêng tôi.

Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được

ai công bố trong bất kỳ công trình nào khác.

Tác giả

Nguyễn Thị Hà Phương

Trang 8

MỞ ĐẦU

1 Tính cấp thiết của đề tài

Hiện nay, trong cuộc sống cũng như trong công việc việc sử dụng cácbảng biểu, bảng điểm, giấy tờ, công văn… viết bằng tay vẫn còn nhiều, hoặcnhững bảng biểu đó được gõ bằng máy nhưng vẫn tồn tại chữ viết tay, ví dụnhư điểm trong bảng điểm, chữ ký, họ và tên, ngày tháng năm… Vì vậy việcnhập liệu bằng tay tốn nhiều công sức và thời gian, do đó việc nhận dạng đểđọc dữ liệu tự động vào máy tính là rất cần thiết

Vấn đề nhân dạng chữ được nhiều nhà khoa học nghiên cứu và ứngdụng từ rất nhiều năm nay:

o Nhận dạng chữ in: phục vụ cho công việc tự động hóa nhập tài liệu,tăng tốc độ và hiệu quả nhập thông tin

o Nhận dạng chữ viết tay: mỗi người viết tay có những kiểu chữ, cáchviết khác nhau, và với mức độ ràng buộc khác nhau nhằm phục vụ ứng dụngđọc chứng từ, hóa đơn, bản thảo viết tay…

Đến thời điểm này thì việc nhận dạng chữ in gần như được trọn vẹn

(phần mềm FindReader 9.0 của ABBYY có thể nhận dạng chữ in theo 20 ngôn ngữ khác nhau) Tuy nhiên nhận dạng chữ viết tay đang còn là vấn đề đang

được quan tâm đối với các nhà nghiên cứu, trong đó đã có một số phươngpháp nhận dạng chữ viết tay như nhận dạng đối sánh mẫu, phương phápnơron [2, 4], phương pháp tiếp cận cấu trúc [5], phương pháp Hidden MarkovModel (HMM, mô hình Markov ẩn) [8, 9, 10, 11, 13, 15]… Trong đó nhậndạng theo phương pháp HMM được sử dụng nhiều nơi và đã có kết quả khảquan

Đó là lý do tôi chọn đề tài “Nghiên cứu Hidden Markov Model và ứngdụng trong nhận dạng chữ viết tay”

Trang 9

2 Mục tiêu nghiên cứu

Nghiên cứu Hidden Markov Model và ứng dụng trong nhận dạng chữviết tay

3 Đối tượng và phạm vi nghiên cứu

- Nghiên cứu mô hình HMM.

- Ứng dụng mô hình HMM trong nhận dạng chữ viết tay trên một số

mẫu chữ

4 Phương pháp nghiên cứu

o Nghiên cứu lý thuyết:

- Tham khảo tài liệu trên mạng về một số phương pháp xử lý chữ viết

tay (chủ yếu là HMM)

- Tìm hiểu lập trình bằng Matlab.

- Nghiên cứu bài toán nhận dạng chữ viết tay.

- Tìm hiểu các kỹ thuật nhận dạng chữ viết tay.

o Nghiên cứu thực nghiệm:

- Dựa trên cơ sở lý thuyết xử lý ảnh, mô hình HMM và sự hướng dẫn

của giáo viên để thực hiện việc phân tích và cài đặt thực nghiệm nhận dạngchữ viết tay

- So sánh và đánh giá kết quả đạt được.

5 Bố cục đề tài

- Tổng quan về xử lý ảnh số và nhận dạng.

Trang 10

- Các phương pháp xử lý nhận dạng chữ viết tay.

- Cài đặt thực nghiệm nhận dạng chữ viết tay bằng Hidden Markov

Model

6 Tổng quan tài liệu nghiên cứu

Tìm hiểu:

- Tài liệu về mô hình Markov ẩn

- Tài liệu liên quan đến xử lý ảnh

- Các bài báo ứng dụng mô hình Markov ẩn

- Tài liệu về chữ viết tay và nhận dạng chữ viết tay

Ngoài những bài báo (tiếng Anh), tạp chí, giáo trình bài giảng, luận văncòn sử dụng những tài liệu trên các trang web

Trang 11

CHƯƠNG 1

TỔNG QUAN VỀ XỬ LÝ ẢNH SỐ VÀ NHẬN DẠNG

1.1 GIỚI THIỆU CHUNG VỀ XỬ LÝ ẢNH SỐ VÀ ỨNG DỤNG

Xử lý ảnh là một lĩnh vực quan trọng và mang tính khoa học Nó được

áp dụng vào nhiều lĩnh vực khác nhau, vì vậy nó làm kích thích các trung tâmnghiên cứu, ứng dụng, đặc biệt là áp dụng các công ty nghiên cứu về máy tínhchuyên dụng riêng cho nó Một ảnh được xác định là một hàm không gian hai

chiều f(x,y), trong đó (x,y) là vị trí trong không gian gọi là điểm ảnh (pixel) và

độ lớn của f(x, y) nào được gọi là độ sáng (intensity) hoặc mức xám (gray level) của ảnh tại điểm đó.

Xử lý ảnh là môn học liên quan đến nhiều lĩnh vực và cần rất nhiều kiếnthức tổng hợp khác Thứ nhất phải nói đến xử lý tín hiệu số là một môn họchết sức cơ bản cho xử lý tín hiệu chung, các khái niệm về tích chập, các biếnđổi Fourier, biến đổi Laplace, các bộ lọc hữu hạn… Thứ hai, các công cụ toánnhư đại số tuyến tính, xác suất, thống kê… Một số kiến thức cần thiết nhưmôn trí tuệ nhân tạo, các mạng nơron nhân tạo cũng được đề cập trong quátrình phân tích và nhận dạng ảnh

Các phương pháp xử lý ảnh tập trung vào hai công việc chính: cải thiệnảnh phục vụ cho con người và xử lý ảnh để lưu trữ, truyền và biểu diễn ảnhphục vụ nhận thức cho các máy tự động

Ứng dụng đầu tiên được biết đến trong lĩnh vực xử lý ảnh là nâng caochất lượng ảnh báo qua cáp từ London sang New York những năm 1920 Vấn

đề nâng cao chất lượng ảnh phát triển vào năm 1955, vì sau thế chiến thứ haimáy tính phát triển nhanh tạo điều kiện cho quá trình xử lý ảnh số thuận lợi.Năm 1964, máy tính đã có khả năng xử lý và nâng cao chất lượng ảnh từ mặttrăng và vệ tinh Ranger 7 của Mỹ bao gồm: làm nổi đường biên, lưu ảnh

Trang 12

Những năm 1970, xử lý ảnh bắt đầu được ứng dụng trong các lĩnh vực y

tế Từ những năm 1980 tới nay, các phương tiện xử lý, nâng cao chất lượng,nhận dạng ảnh phát triển không ngừng Các phương pháp tri thức nhân tạonhư mạng nơron nhân tạo, các thuật toán xử lý hiện đại và cải tiến, các công

cụ nén ảnh ngày càng được áp dụng rộng rãi và thu nhiều kết quả khả quan

xử lý tiếp theo sẽ bị giảm Ảnh có thể nhận qua camera màu hoặc đen trắng

Thường ảnh nhận qua camera là ảnh tương tự (loại camera ống chuẩn CCIR với tần số 1/25, mỗi ảnh 25 dòng), cũng có loại camera đã số hóa (như loại CCD – Change Coupled Device) là loại photodiot tạo cường độ sáng tại mỗi

điểm ảnh Camera thường dùng là loại quét dòng, ảnh tạo ra có dạng hai

Phân đoạn ảnh

(Image Segmentation)

Biểu diễn và mô tả

(Representation and description)

Nhận dạng và

nội suy ảnh

(Recognition and interpretation)

Cơ sở dữ liệu

(Data based)

Trang 13

chiều Chất lượng một ảnh thu nhận được phụ thuộc vào thiết bị thu, vào môitrường (ánh sáng, phong cảnh) Mặt khác, ảnh cũng có thể tiếp nhận từ vệtinh; có thể quét ảnh từ ảnh chụp hay văn bản bằng máy scan quét ảnh.

- Máy CCD (Charge-coupled Device)

Máy ảnh kỹ thuật số được sử dụng đầu tiên vào năm 1969, thay cho

phim ảnh là một linh kiện quang điện tử gọi là CCD (Charge Coupled Device)[18] Đây là một tấm phẳng to gần như tấm phim nhưng gồm có nhiều

ô li ti, mỗi ô là một cái tụ điện Gọi là tụ điện, nhưng thực tế gồm ba lớp, mộtlớp kim loại, một lớp oxyd và một lớp bán dẫn Do đó, có tên là tụ điện MOS

(Metal - Oxide - Semiconductor nghĩa là kim loại - oxyd - bán dẫn) như hình

1.2 Khi có ánh sáng chiếu đến tức là có photon đập vào, do hiệu ứng quangđiện nên điện tử bị bứt ra chứa vào trong tụ điện Mỗi một tụ điện của CCD

đóng vai trò là một điểm ảnh (pixel) có địa chỉ (x,y) rõ ràng Các điện tích

chứa trong các tụ điện của CCD được lần lượt chuyển đến thanh đọc để đọc

và chuyển về bộ nhớ, ghi lại tụ điện ở vị trí nào, được tích điện nhiều hay ít

Hình 1.2 Một tụ điện MOS.

1.2.2 Tiền xử lý ảnh

Ảnh sau khi được thu nhận từ các thiết bị quang học (CCD) hoặc thiết bị

điện tử có thể bị nhiễu và biến dạng Do đó, ảnh cần được đưa vào bộ tiền xử

MOS

Depletion region

Ảnh sáng

Ground

Trang 14

lý để nâng cao chất lượng ảnh Chức năng chính của bước tiền xử lý ảnh làkhử nhiễu, nâng cao độ tương phản, hiệu chỉnh mức xám để làm ảnh rõ hơn

và nét hơn cho các bước tiếp theo

a Khử nhiễu

Nhiễu của ảnh gồm 2 loại: nhiễu hệ thống và ngẫu nhiên Hai loại nhiễunày khác nhau về bản chất nên việc phát hiện và khử nhiễu cũng được tiếnhành theo các phương pháp và các kỹ thuật khác nhau

o Khử nhiễu hệ thống

Đặc trưng của nhiễu hệ thống là có tính qui luật do ảnh hưởng của mộttín hiệu nào đó trong quá trình thu nhận ảnh Có thể loại bỏ nhiễu này bằngcách sử dụng các phép biến đổi Fourier Tính chất chung của phép biến đổiFourier là nếu có nhiễu hệ thống trên ảnh thì sau khi khử nhiễu và áp dụngphép biến đổi Fourier ngược chúng ta sẽ thu lại được ảnh ban đầu đã loại trừđược nhiễu hệ thống

oKhử nhiễu ngẫu nhiên

Nhiễu ngẫu nhiên được sinh ra một cách ngẫu nhiên ngoài ý muốn trong

quá trình tạo ảnh (do kỹ thuật in, mực in, giấy in ) hoặc trong quá trình số hóa ảnh (do lỗi kỹ thuật quét hoặc chụp ảnh) Tác hại của nhiễu là làm sai

lệnh nội dung trong ảnh và gây khó khăn cho quá trình xử lý ảnh như táchvùng, tách đối tượng và kể cả nhận dạng đối tượng trong ảnh

Trong các trường hợp cụ thể, nhiễu thường là các điểm có màu (đối với ảnh màu), hoặc có cường độ sáng (đối với ảnh mức xám) không phù hợp với

màu của các điểm xung quanh Do đó, việc khử nhiễu trước tiên là phải xácđịnh được đâu là nhiễu, đâu là dữ liệu thật, sau đó loại nhiễu ra khỏi ảnh bằngcách thay giá trị tại điểm ảnh nhiễu bằng một giá trị phù hợp

Về mặt tổng quan, khử nhiễu ngẫu nhiên đều dựa vào tính phù hợp giữa

một điểm ảnh với các điểm lân cận nó Giả sử điểm ảnh S có tọa độ (x, y) S

Trang 15

có 4 điểm lân cận gần nhất theo phương đứng và ngang (lân cận theo 4 hướng chính: Đông, Tây, Nam, Bắc), ký hiệu là N4(S).

N4(S) = {(x-1,y); (x,y-1); (x,y+1); (x+1,y)} (1.1)

Tập 8 điểm lân cận của S ký hiệu là N8(S) :

Dựa vào thuộc tính màu hoặc mức sáng của các điểm lân cận, có thể xácđịnh điểm đang xét có phải là nhiễu hay không và thay đổi giá trị điểm nhiễubằng một giá trị hợp lý Phương pháp khử nhiễu ngẫu nhiên hiệu quả thườngđược áp dụng trong thực tế là sử dụng các kỹ thuật lọc ảnh

b Bộ lọc trong miền không gian

oLọc trung bình – Mean/Average filter

Lọc trung bình là kĩ thuật lọc tuyến tính, nó hoạt động như một bộ lọcthông thấp Với bộ lọc này mỗi điểm ảnh được thay thế bằng trung bình trọng

số của các điểm lân cận và được định nghĩa như sau:

Trang 16

Hình 1.3 Mặt nạ bộ lọc trung bình.

Bộ lọc trung bình thường được dùng để hướng tới việc bảo vệ biên củaảnh khỏi bị mờ khi làm trơn ảnh Các kiểu mặt nạ được sử dụng tùy theo cáctrường hợp khác nhau

oLọc trung vị - Median filter

Đây là một kỹ thuật lọc phi tuyến (non-linear), hiệu quả đối với hai loại nhiễu: nhiễu đốm (speckle noise) và nhiễu muối tiêu (salt-pepper noise) Các điểm ảnh của ảnh đầu vào I(u, v) được thay thế bởi giá trị trung vị của các điểm ảnh hàng xóm tương ứng với mặt nạ H(i, j) của nó.

Thuật toán lọc trung vị như sau: sử dụng một mặt nạ hay cửa sổ lọc có

ma trận kích thước 3x3; 5x5 quét qua lần lượt từng điểm ảnh của ảnh đầuvào

Tại vị trí của mỗi điểm ảnh chúng ta lấy giá trị của các điểm ảnh tươngứng trong vùng mặt nạ của ảnh đầu vào “lấp” vào ma trận của mặt nạ lọc Sắp

xếp các điểm ảnh trong cửa sổ lọc theo thứ tự (tăng hoặc giảm dần).

Gán điểm ảnh nằm chính giữa của dãy các giá trị điểm ảnh đã được sắpxếp ở trên cho giá trị điểm ảnh đang xét của ảnh đầu ra

Hình 1.4 Các bước trong thuật toán lọc trung vị.

c Bộ lọc trong miền tần số

oLọc đồng hình (Homomorphie Filter)

Thực tế, ảnh quan sát được ban đầu bao gồm ảnh đầu vào và một hệ

số nhiễu Gọi X’(m, n) là ảnh thu được, X(m, n) là ảnh đầu vào và T(m, n) là

nhiễu, như vậy ta có công thức thể hiện mối quan hệ giữa chúng:

X(m, n) = X’(m, n)*T(m, n) (1.4)

Lọc đồng hình thực hiện lấy logarit ảnh quan sát Do đó ta có kết quả:

3 7 2 1

Sắp xếp

2 1

0 0

P k-1 P k =median

P 0

3 7 2

Trang 17

log(X(m, n)) = log(X’(m, n)) + log(T(m, n)) (1.5)

Dễ dàng nhận thấy nhiễu hệ thống có trong ảnh đầu vào sẽ bị giảm Sauquá trình lọc tuyến tính, chúng ta chuyển về ảnh cũ bằng phép biến đổi hàm

mũ e.

oLọc thông thấp và lọc thông cao

Các đường biên và nhiễu trong ảnh tập trung nhiều vào phần tần số caocủa phép biến đổi Fourier của nó Do đó, để làm trơn ảnh bằng phương phápmiền tần số chúng ta có thể loại bỏ các thành phần tần số cao trong biến đổiFourier của ảnh

Vì các thành phần tần số cao bị loại bỏ và thông tin trong vùng tần sốthấp được cho qua nên phương pháp này gọi là lọc thông thấp Bộ lọc thôngthấp có thể kể đến như bộ lọc thông thấp Butterworth, Gaussian

Ảnh có thể bị nhòe do chúng ta làm suy giảm các thành phần tần số caotrong biến đổi Fourier của nó Vì các phần tử biên và những thay đổi đột ngộtkhác trong mức xám tương ứng của các thành phần tần số cao, việc làm nétảnh có thể thực hiện trong miền tần số bằng phương pháp lọc thông cao: làmsuy giảm các thành phần tần số thấp nhưng không phá hủy thông tin tần sốcao trong biến đổi Fourier Bộ lọc thông cao có thể kể đến như bộ lọc thôngcao Butterworth, Gaussian

Bộ lọc thông thấp thường dùng làm trơn nhiễu và nội suy ảnh Bộ lọcthông cao thường dùng trong việc trích chọn biên và làm trơn ảnh

1.2.3 Xử lý mức trung

Giai đoạn này là quá trình xử lý phức tạp, thường được sử dụng để phânđoạn ảnh, xác định và dự đoán biên ảnh, xác định vùng ảnh, nén ảnh để lưutrữ hoặc truyền phát Đặc điểm của các hệ thống xử lý ảnh mức trung là tínhiệu đầu vào là hình ảnh, còn tín hiệu đầu ra là các thành phần được tách ra từ

hình ảnh đầu vào Cụ thể chúng ta thực hiện phân đoạn ảnh.

Trang 18

Phân đoạn ảnh là bước tách hình ảnh đầu vào thành các vùng thành phầnhoặc các vật thể riêng để biểu diễn, phân tích, nhận dạng Đây cũng là mộttrong những vấn đề khó giải quyết nhất trong lĩnh vực xử lý ảnh Nếu thựchiện tách quá sâu các chi tiết trong ảnh thì bài toán nhận dạng các thành phầnđược tách ra sẽ trở nên phức tạp, ngược lại nếu quá trình phân đoạn được thựchiện quá thô hoặc phân đoạn sai thì kết quả nhận được cuối cùng sẽ khôngchính xác

Thông thường, bước đầu tiên trong quá trình phân đoạn ảnh là việc khửnền để kiểm soát được đối tượng Đối với các ảnh đơn sắc, việc phân đoạnảnh được thực hiện thông qua việc kiểm tra biểu đồ mức xám Các thuật toánphân đoạn ảnh đều dựa trên tính không liên tục hoặc tính tương tự của các giátrị mức xám của ảnh

Tính không liên tục của các giá trị mức xám trong ảnh cho chúng ta thấy

có sự thay đổi đột ngột về cường độ sáng trong ảnh Phân đoạn ảnh có thểthực hiện bởi ba kỹ thuật cơ bản: phân đoạn ảnh dựa trên ngưỡng, dựa trênbiên và dựa trên vùng

oPhân đoạn ảnh dựa trên ngưỡng

Các kỹ thuật phân đoạn ảnh dựa trên ngưỡng hầu hết đều dựa vào lược đồmức xám của ảnh để tính toán ngưỡng Việc tính toán ngưỡng bao hàm việc xác

định một tập các giá trị ngưỡng (có thể là một hoặc nhiều giá trị ngưỡng), dựa

vào giá trị ngưỡng để phân tách ảnh ra thành những vùng có ý nghĩa

(a) (b)

Trang 19

Hình 1.5 Phân đoạn ảnh dựa trên ngưỡng của lược đồ mức xám:

(a) Sử dụng một ngưỡng T, (b) Sử dụng hai ngưỡng T1 và T2.

Giả sử chúng ta có lược đồ mức xám của một ảnh như hình 1.5a, dựa vàolược đồ mức xám này chúng ta có thể nhận thấy rằng ảnh này có hai nhómmức xám Một nhóm thể hiện giá trị mức xám của đối tượng và nhóm còn lại

thể hiện giá trị mức xám của nền, ngưỡng T chính là giá trị để tách biệt đối tượng ra khỏi nền Do đó, bất kì giá trị của điểm ảnh f(x, y) nào của ảnh mà có giá trị lớn hơn T thì được gọi là điểm thuộc đối tượng, ngược lại gọi là điểm

thuộc nền của đối tượng

Thuật toán tách ngưỡng Otsu vào năm 1979 là một trong những thuật

toán lấy ngưỡng toàn cục T được đề xuất từ rất sớm và hiệu quả để tách đối

Hình 1.6 Sử dụng thuật toán Otsu tách ngưỡng:

a) Ảnh gốc, b) Lược đồ của ảnh gốc, c) Ảnh sau khi biến thành nhị phân.Tuy nhiên, nhiều trường hợp trong một ảnh không phải chỉ có hai nhómmức xám mà có thể có nhiều nhóm mức xám khác nhau, ví dụ như hình 1.6bthì lúc này để tách các đối tượng ra khỏi nền hoặc phân tách biệt các đốitượng trong ảnh chúng ta sử dụng nhiều ngưỡng khác nhau, trường hợp nàygọi là phân đoạn ảnh đa ngưỡng

Khi đó, mọi điểm ảnh f(x, y) sẽ thuộc về đối tượng thứ nhất nếu T1<f(x,y)≤T2, thuộc đối tượng khác nếu f(x, y) > T2, và thuộc nền nếu f(x, y) ≤ T1.

T

Trang 20

oPhân đoạn ảnh dựa trên biên

Việc xác định biên ảnh là một vấn đề cơ bản và đặc điểm quan trọngtrong phân tích ảnh vì các kĩ thuật phân đoạn ảnh chủ yếu dựa vào biên Mộtđiểm ảnh được gọi là biên nếu ở đó có sự thay đổi đột ngột về mức xám Tậphợp các điểm biên tạo thành biên, hay còn gọi là đường bao của ảnh Mỗi mộtbiên là một thuộc tính gắn liền với một điểm riêng biệt và được tính toán từnhững điểm lân cận của nó Có hai phương pháp phát hiện biên tổng quát, đó

là phương pháp phát hiện biên dựa vào sự biến thiên về giá trị độ sáng của

điểm ảnh (phương pháp đạo hàm) và phương pháp phát hiện biên dựa vào sự

biến thiên nhỏ và đồng đều về độ sáng của các điểm ảnh thuộc đối tượng

(phương pháp xử lý kết cấu của đối tượng).

Phương pháp phát hiện biên sử dụng đạo hàm có thể kể tới là: phương

pháp đạo hàm bậc nhất (phương pháp Gradient) và phương pháp đạo hàm bậc hai (phương pháp Laplace) Phương pháp Gradient (ví dụ: sử dụng toán tử Prewitt, Sobel, Robert ) và kỹ thuật la bàn (ví dụ: sử dụng toán tử la bàn Kirsh, toán tử la bàn Prewitt )

Trang 21

Ảnh gốc Phương pháp

Laplace

Phương pháp Gradient

Hình 1.7 Một số phương pháp tìm biên.

Ngoài ra còn có một số phương pháp phát hiện biên khác khắc phụcđược những điểm yếu của hai phương pháp phát hiện biên ở trên và giải quyếtcác ràng buộc trong việc phát hiện biên như: mức lỗi, định vị và hiệu suất củaphương pháp Một trong những phương pháp hiệu quả đó là phương phápCanny do John Canny đề xuất vào năm 1986

Phương pháp phát hiện biên xử lý kết cấu đối tượng hay còn gọi làphương pháp phát hiện biên gián tiếp là phương pháp dựa vào phép xử lý kếtcấu của đối tượng, cụ thể là dựa vào sự biến thiên và đồng đều độ sáng củacác điểm ảnh thuộc một đối tượng Nếu các vùng của ảnh được xác định thìđường ranh giới giữa các vùng đó chính là biên cần tìm

oPhân đoạn ảnh dựa trên vùng

Vùng (region) trong xử lý ảnh là một nhóm các điểm ảnh liên kết với

nhau có cùng các thuộc tính Sự phân chia các vùng thường được thực hiệnbằng cách sử dụng giá trị xám của điểm ảnh

Có hai phương pháp phân đoạn ảnh theo vùng là:

- Phân đoạn theo lan tỏa vùng (Region growing).

- Phân đoạn theo phương pháp phân chia và kết hợp vùng (Region Splitting and Merging).

Phân đoạn ảnh dựa trên vùng thường được sử dụng cho mục đích phânđoạn ảnh phức tạp với số lượng lớp trên vùng là lớn và chưa biết trước [6]

Trang 22

và xử lý theo kinh nghiệm cùng với tri thức của con người Nếu không có một

hệ cơ sở tri thức phù hợp thì hệ thống thị giác máy tính không thể “suy nghĩ”

và không thể đưa ra những quyết định thông minh giống như con người

1.3 CÁC KHÔNG GIAN MÀU VÀ ẢNH MÀU

1.3.1 Màu trong xử lý ảnh số

Sử dụng màu trong xử lý được thúc đẩy bởi các yếu tố:

- Màu sắc giúp chúng ta nhận diện các đối tượng đơn giản hơn vàkhai thác được nhiều thông tin từ ảnh màu

- Hệ thống thị giác của con người có thể cảm nhận, phân biệt đượchàng nghìn màu và cường độ sáng khác nhau Những yếu tố này là

Trang 23

những thuộc tính tự nhiên quan trọng để chúng ta có thể phân tíchảnh.

Xử lý ảnh màu được chia làm 2 phạm vi chính: xử lý toàn màu (full color) và xử lý giả màu (pseudo color)

Trong phạm vi thứ nhất, các ảnh thường được thu nhận bằng các bộ cảmbiến màu, như máy quét ảnh màu, TV, Camera màu

Trong phạm vi thứ hai, một ảnh màu được tách thành các kênh màu cócường độ sáng đơn hoặc khoảng cường độ sáng

Hiện nay, các loại xử lý ảnh màu được thực hiện theo cách thứ hai, tức là

từ ảnh màu sẽ tiến hành chuyển đổi và tách ảnh màu sang một không gianmàu khác với các kênh màu có cường độ sáng đơn hoặc ảnh có cường độ sáng

nằm trong một khoảng nào đó ví dụ như ảnh xám (0 - 255), ảnh nhị phân (0

và 1), ảnh màu bao gồm các kênh màu (ví dụ như từng kênh màu của không gian màu RGB: R, G, B) hoặc kết hợp 2 kênh màu.

Hình 1.8 Bước sóng trong quang phổ con người nhìn thấy được.

Các thuộc tính của màu sắc thường dùng để phân biệt bằng mắt thường

là: độ sáng (Brightness), độ bão hòa (Saturation) và sắc độ (Hue) Hầu hết các

nguồn sáng mà chúng ta nhìn thấy có chứa năng lượng trong một dải bước

sóng của ánh sáng Hue là bước sóng (Wavelength) trong dải quang phổ mà

chúng ta có thể nhìn thấy ánh sáng, tại đó lượng năng lượng từ nguồn sángphát ra là lớn nhất Độ bão hòa là một thể hiện cho dãi tần có thể nhìn thấy từ

Trang 24

nguồn sáng Trong hình 1.8, độ bão hòa được đại diện bởi độ dốc của sườndốc của đường cong

1.3.2 Không gian màu RGB

Không gian màu RGB mô tả màu sắc bằng ba màu kết hợp với nhau ở

các bước sóng chuẩn như màu: đỏ (red) = 700 nm, xanh lá (green) = 546,1

nm và xanh dương (blue) = 435,8 nm Không gian màu này được minh họa

bằng một khối lập phương với các trục chính là R, G, B ở hình 1.9

Hình 1.9 Không gian màu RGB.

Mỗi màu trong không gian màu RGB đều được biểu diễn như là mộtvectơ thông qua ba vectơ cơ sở là đỏ, xanh lá cây và xanh dương Do đó, mỗi

điểm ảnh trong ảnh I được xác định như sau:

I(x, y) = (R(x, y), G(x, y), B(x, y)) T = (R,G,B) T (1.6)

Vì vậy, ứng với các tổ hợp khác nhau của ba màu này sẽ cho ta một màumới Không gian màu RGB là chuẩn công nghiệp cho các thao tác đồ họamáy tính Các thao tác màu sắc có thể được tính toán trên các không gian màukhác nhau nhưng cuối cùng cần phải chuyển về không gian màu RGB để hiểnthị lên màn hình máy tính vì thiết bị phần cứng dựa trên mô hình RGB

Chúng ta có thể chuyển đổi qua lại giữa không gian màu RGB sang các

không gian màu khác như: HSV, CIE.

Trang 25

1.4 XỬ LÝ HÌNH THÁI HỌC

1.4.1 Khái niệm cơ bản

Xử lý ảnh hình thái học mô tả một dãy các kỹ thuật xử lý ảnh liên quanđến hình dạng và các đặc trưng riêng trên ảnh Tất cả các thao tác xử lý hìnhthái học đều dựa trên hai ý tưởng cơ bản:

- Fit: tất cả các điểm ảnh nằm trên phần tử cấu trúc che phủ tất cả các

xử lý Các điểm trung tâm của phần tử cấu trúc được gọi là điểm gốc, xácđịnh các điểm ảnh được xử lý, kiểu phần tử cấu trúc này còn được gọi là phần

tử cấu trúc phẳng Các điểm ảnh trong phần tử cấu trúc có giá trị bằng 1 xác

định vùng lân cận của phần tử cấu trúc Trong không gian 3D hay không gian

không phẳng (non-flat), các phần tử cấu trúc sử dụng các giá trị 0 và 1 để xác định phạm vi của phần tử cấu trúc trong mặt phẳng x, mặt phẳng y và thêm

giá trị độ cao để xác định chiều thứ ba, kiểu phần tử cấu trúc này còn đượcgọi là phần tử cấu trúc không phẳng Các phần tử cấu trúc thường được quyđịnh theo một hình dáng và có kích thước khác nhau Một số hình dáng củaphần tử cấu trúc thuộc về phần tử cấu trúc phẳng: chữ nhật, hình tròn, elip,

hình thoi Trong khi đó hình dáng: quả bóng (ball) và tùy ý thuộc về phần tử

cấu trúc không phẳng

Trang 26

Hình 1.10 Một số hình dáng của phần tử cấu trúc phẳng.

Về cơ bản, xử lý hình thái học giống với lọc không gian ảnh Phần tử cấutrúc dịch qua mỗi điểm ảnh trên ảnh ban đầu và tạo ra điểm ảnh mới sau khi

xử lý Giá trị của điểm ảnh mới phụ thuộc vào thao tác thực hiện Phần lớncác phép toán hình thái học được định nghĩa từ hai phép toán cơ bản là phép

toán co (Erosion) và giãn (Dilation) ảnh nhị phân

1.4.2 Phép co và giãn ảnh nhị phân

Một ứng dụng quan trọng của phép co ảnh nhị phân là dùng để loại trừ

các chi tiết không cần thiết trên hình ảnh (ví dụ như nhiễu hay các thành phần

dư thừa) và nó thường làm mỏng đối tượng trong ảnh nhị phân.

b Phép giãn ảnh (Dilation)

Gọi A là ảnh gốc, B là một phần tử cấu trúc Phép giãn nhị phân của ảnh

A với phần tử cấu trúc B được kí hiệu và chúng ta có thể biểu diễn phéptoán co ảnh dưới dạng phép toán tổ hợp như sau:

Trang 27

(1.8)

Như vậy, phép giãn ảnh nhị phân của tập A bởi phần tử cấu trúc B là tập hợp của các điểm z (z là tâm của phần tử cấu trúc B trên tập A) sao cho phản

xạ của Bz giao với tập A tại ít nhất một điểm.

Tổng quát hơn, nếu A là một hình ảnh và B là phần tử cấu trúc có tâm điểm nằm trên hình ảnh A, khi đó phép giãn của hình ảnh A bởi phần tử cấu trúc B có thể được hiểu như quỹ tích của các điểm được phủ bởi phần tử cấu trúc B khi tâm điểm của B di chuyển trên cạnh của hình ảnh A

Ảnh gốc Phép giãn ảnh

Ảnh gốc Phép co ảnh

Hình 1.11 Phép giãn và co ảnh nhị phân sử dụng một phần tử cấu trúc.

Một trong các ứng dụng đơn giản nhất của phép giãn ảnh nhị phân là nốicác nét đứt trong quá trình nâng cao chất lượng ảnh Nhìn chung, phép giãnảnh nhị phân thường làm to đối tượng

1.4.3 Phép đóng và mở ảnh nhị phân

Phép mở ảnh và phép đóng ảnh là hai phép toán được mở rộng từ haiphép toán hình thái cơ bản là phép co và phép giãn ảnh nhị phân Phép mởảnh thường làm trơn biên của đối tượng trong ảnh, như loại bỏ những phầnnhô ra có kích thước nhỏ Phép đóng ảnh cũng tương tự làm trơn biên của đốitượng trong ảnh nhưng ngược với phép mở

Trang 28

a Phép mở ảnh (Opening)

Gọi A là đối tượng trong hình ảnh và B là phần tử cấu trúc,(O) là ký hiệu

của phép mở ảnh giữa tập hợp A và phần tử cấu trúc B, phép mở ảnh được xác

định bởi công thức:

= (A B) (1.9)

Như vậy, phép mở ảnh phải trải qua hai giai đoạn là co ảnh và giãn ảnh.Đầu tiên sử dụng phép co với phần tử cấu trúc có kích thước tương ứng để tácđộng lên đối tượng trong ảnh Sau đó áp dụng phép giãn ảnh cho kết quả đóthì chúng ta sẽ thu được kết quả

Hình 1.12 Quá trình thực hiện phép mở ảnh nhị phân.

b Phép đóng ảnh (Closing)

Tương tự như phép mở ảnh, nhưng quá trình thực hiện phép đóng ảnh thìngược lại, với mục đích lấp đầy những chỗ thiếu hụt của đối tượng trên ảnhdựa vào các phần tử cơ bản ban đầu

Với tập hợp A là đối tượng trong ảnh, B là phần tử cấu trúc, là ký hiệu

phép đóng ảnh Khi đó phép đóng ảnh của tập hợp A bởi phần tử cấu trúc B,

kí hiệu là , xác định bởi:

= (1.10)

Trang 29

Cho một hình ảnh nhị phân, với đối tượng trong ảnh có những khu vực

bị đứt gãy, không liền mạch Để khắc phục hiện tượng này ta áp dụng phép

đóng ảnh, với A là đối tượng ban đầu, B là phần tử cấu trúc có kích thước 3x3.

Khi áp dụng phép đóng ảnh, đầu tiên đối tượng này sẽ được mở rộng bằng

phép giãn nhị phân theo phần tử cấu trúc B Lúc này những khu vực thiếu hụt

sẽ được bù lên và khu vực đứt sẽ được nối lại Sau đó áp dụng phép co nhịphân để đưa đối tượng về trạng thái ban đầu

Trang 30

CHƯƠNG 2

TỔNG QUAN NHẬN DẠNG CHỮ VIẾT TAY

2.1 TỔNG QUAN NHẬN DẠNG CHỮ VIẾT TAY

2.1.1 Nhận dạng chữ

Bài toán nhận dạng chữ là một bài toán nhận dạng tiêu biểu mà ứng

dụng của nó khá phổ biến: các hệ nhận dạng chữ OCR (Optical Character Recognizer) Bài toán này được phân thành 2 nhánh lớn:

oNhận dạng chữ in để phục vụ cho công tác đọc tự động văn bản, đẩynhanh việc nhập thông tin vào máy

oNhận dạng chữ viết tay với các kiểu chữ khác nhau, phục vụ cho cácứng dụng đọc và xử lý hoá đơn, văn bản…

2.1.2 Quá trình nhận dạng

Quá trình nhận dạng gồm 3 giai đoạn chính:

oLựa chọn mô hình biểu diễn đối tượng

oLựa chọn phương pháp nhận dạng và huấn luyện hệ thống

oTiến hành nhận dạng

Khi mô hình biểu diễn đối tượng đã xác định, có thể là định lượng (mô hình tham số) hay định tính (mô hình cấu trúc) thì chúng ta có thể thực hiện giai đoạn học Trước khi nhận dạng hệ thống phải được huấn luyện (học)

nhằm điều chỉnh phân hoạch tập đối tượng thành các lớp Do đó, học là mộtgiai đoạn rất quan trọng trong hệ thống nhận dạng

 Học có giám sát

Kỹ thuật phân loại nhờ kiến thức biết trước gọi là học có giám sát Đặcđiểm cơ bản của kỹ thuật này là người ta có một thư viện các mẫu chuẩn đểxem nó thuộc loại nào Ví dụ như trong một ảnh ký tự, người ta muốn phân

Trang 31

biệt chữ cái này là chữ ‘C’ hay không phải là chữ ‘C’; tập mẫu này là chữ ‘A’, tập mẫu kia là chữ ‘O’, trong đó các đối tượng này đã được miêu tả Vấn đề

chủ yếu là thiết kế một hệ thống để có thể đối sánh đối tượng trong ảnh vớimẫu chuẩn và quyết định gán cho chúng vào một lớp Việc đối sánh nhờ vàocác thủ tục ra quyết định dựa trên một công cụ gọi là hàm phân lớp hay hàm

ra quyết định

 Học không giám sát

Kỹ thuật học này phải tự định ra các lớp khác nhau và xác định các tham

số đặc trưng cho từng lớp Học không có thầy đương nhiên là khó khăn hơn.Một mặt, do số lớp không biết trước, mặt khác những đặc trưng của các lớpcũng không biết trước Kỹ thuật này nhằm tiến hành một cách gộp nhóm cóthể và chọn lựa cách tốt nhất Bắt đầu từ tập dữ liệu, nhiều thủ tục xử lý khácnhau nhằm phân lớp và nâng cấp dần để đạt được một phương án phân loại

2.2 QUY TRÌNH XỬ LÝ NHẬN DẠNG CHỮ VIẾT TAY

Quy trình xử lý nhận dạng chữ viết tay được thể hiện ở hình 2.1.

Hình 2.1 Sơ đồ tổng quát của quá trình nhận dạng chữ viết tay.

2.2.1 Giai đoạn tiền xử lý ảnh

Đây là giai đoạn quan trọng ảnh hưởng đến kết quả nhận dạng Tuỳthuộc vào chất lượng ảnh được quét mà ta tiến hành các thủ tục xử lý khácnhau Vì quá trình xử lý sơ bộ có thể làm chậm tốc độ xử lý của hệ thống nênnếu ảnh quét vào là tốt thì có thể bỏ qua bước này Theo [15] thì bất kỳ mộtứng dụng xử lý ảnh nào cũng bị nhiễu như những điểm cô lập Nhiễu làm tăngđặc trưng không xác định và cho ra kết quả hiệu suất và tính chính xác trong

Trang 32

nhận dạng giảm đi Do đó phần tiền xử lý được thực hiện trước khi chúng tabắt đầu phương pháp trích lọc đặc trưng Ở đây chuỗi các hoạt động được tiến

hành liên tiếp như biểu đồ luồng (hình 2.2) Chúng ta sử dụng lọc trung vị cho

ảnh ký tự tốt hơn trong việc thực hiện để loại bỏ những điểm không mongmuốn hoặc những điểm cô lập Sau đó làm mỏng ảnh để có được xương củaảnh ký tự giúp cho quá trình quan sát dễ dàng hơn và làm tăng tốc độ xử lýcủa các quá trình sau

Hình 2.2 Giai đoạn tiền xử lý.

2.2.2 Phương pháp nhận dạng chữ viết tay

Nhận dạng chữ viết là một lĩnh vực thu hút được sự quan tâm nghiên cứucủa các nhà khoa học Lĩnh vực nghiên cứu này bắt đầu từ vài thập kỷ trước

và hiện nay đã thu được một số thành công đáng kể Trên thế giới đã xuấthiện nhiều ứng dụng thương mại thực hiện nhận dạng chữ tùy theo từng yêucầu cụ thể, có thể là nhận dạng chữ in trên một kiểu chữ, hoặc nhiều kiểu chữ

(omni font), có thể là nhận dạng trên một ngôn ngữ hoặc là nhiều ngôn ngữ (omni language), hoặc là nhận dạng chữ số viết tay có ràng buộc Ta có thể kể

Ảnh ký tự (character Image)

Làm dày ảnh (thickening)

Tạo ngưỡng (Thresholding)

Lọc trung vị (Median Filtering)

Tìm xương ảnh (Thinning)

Trang 33

ra một số sản phẩm tiêu biểu như: OmniPage ở Việt Nam [24], việc nghiêncứu xây dựng các hệ nhận dạng chữ tiếng Việt cũng được bắt đầu rất sớm.Hiện tại trong lĩnh vực nhận dạng chữ in đã có một số sản phẩm thương mạivới chất lượng tốt như VnDOCR [16] của Viện Công Nghệ Thông Tin,ImageScan của CadPro Tuy nhiên, việc nhận dạng chữ viết tay cũng chưa đạtđược nhiều kết quả Để giải quyết các khó khăn của nhận dạng chữ nói chung

và nhận dạng chữ viết tay nói riêng, các nhà nghiên cứu đã đề xuất rất nhiềucác kỹ thuật nhận dạng dựa trên cơ sở của lý thuyết thống kê, cấu trúc chữ,đặc trưng, HMM và mạng nơron. 

a Phương pháp đối sánh mẫu

Kỹ thuật nhận dạng ở đây dựa vào lý thuyết ra quyết định Người taxác định các đặc trưng của cấu trúc chữ như: số nhát cắt ngang, các nétcong hay thẳng, mở hay đóng… Cách sử dụng các dấu hiệu cũng khácnhau Theo các tác giả [3], chữ được chia thành hai nhóm lớn:

o Nhóm thứ nhất là nhóm gồm các chữ có ít nhất là một nhát cắt

Nhóm này gồm các chữ như: C E F G I J L P T Y Z, các số từ 1 đến

7 và số 9

o Nhóm thứ hai gồm các chữ còn lại và hai số 0 và 8 Sử dụng thêm

tính chất đóng mở, ta lại chia nhóm hai thành 4 nhóm nhỏ:

Đối với nhóm 1 do đặc tính của nó nên phải dùng phương pháp cửa sổ

di động để xem xét Dựa vào lát cắt, người ta chia chữ làm 6 thành phần

Trang 34

và biểu diễn bởi một vectơ V: V1, V2, V3, V4, V5, V6

Vi = 1 nếu có một điểm đen trên phần i, ngược lại bằng 0 nếu không

Phương pháp này thường sử dụng trong trường hợp chữ viết tay phảiđược viết một cách cẩn thận và đòi hỏi độ chính xác về các đường nét cao hơncác phương pháp khác, vì nó tìm điểm đặc trưng của các chữ số, trong khi đócác chữ số có thể có các đường nét giống nhau Chỉ cần ghi cẩu thả là sẽ dẫnđến trường hợp nhận dạng sai sang chữ số khác

Hiện nay, các loại mạng nơron thông dụng gồm có: mạng truyền thẳng

(feed-forward), mạng hồi qui (feedback), mạng tự tổ chức (self-organizing).

Mạng truyền thẳng feed-forward bao gồm nhiều lớp các đơn vị xử lý phi

tuyến (non-linear processing unit) Một vectơ đầu vào sẽ được đưa vào lớp

vào của mạng và sau đó các tính toán được thực hiện lan truyền thẳng từ lớpvào đến các lớp ẩn và kết thúc ở lớp ra Mạng Perceptron nhiều lớp MLP

(MultiLayer Perceptron) là một trong những loại mạng truyền thẳng điển

hình, được sử dụng rộng rãi trong các hệ thống nhận dạng như nhận dạng ký

Trang 35

tự quang, chữ viết tay, nhận dạng tiếng nói…

Trang 36

c Phương pháp tiếp cận cấu trúc

Theo [19], cách tiếp cận của phương pháp này dựa vào việc mô tả đốitượng nhờ một số khái niệm biểu diễn đối tượng cơ sở trong ngôn ngữ tựnhiên Để mô tả đối tượng người ta dùng một số dạng nguyên thủy như đoạnthẳng, cung… Mỗi đối tượng được mô tả như một sự kết hợp của các dạngnguyên thủy

Các quy tắc kết hợp các dạng nguyên thủy được xây dựng giống nhưviệc nghiên cứu văn phạm trong một ngôn ngữ, do đó quá trình quyết địnhnhận dạng là quá trình phân tích cú pháp Phương pháp này đặt vấn đề để giảiquyết bài toán nhận dạng chữ tổng quát Tuy vậy, cho đến nay còn nhiều vấn

đề liên quan đến hệ nhận dạng cú pháp chưa được giải quyết độc lập và chưaxây dựng được các thuật toán phổ dụng Hiện nay, nhận dạng theo cấu trúcphổ biến là trích lọc các đặc trưng của mẫu học, phân hoạch bảng ký tự dựatrên các đặc trưng này, sau đó ảnh cần nhận dạng sẽ được trích lọc đặc trưng

và so sánh trên bảng phân hoạch để tìm ra ký tự có các đặc trưng phù hợp.Đối với nhận dạng chữ viết tay rời rạc dựa theo cấu trúc xương và đườngbiên, công việc này đòi hỏi phải xây dựng các đặc trưng của chữ, đặc biệt làđặc trưng về các điểm uốn, điểm gấp khúc và đặc trưng của các nét Sau khitiến hành công đoạn tiền xử lý, công việc tách các nét được tiến hành thôngqua các điểm rẽ nhánh, hay trích chọn đặc trưng cấu trúc xương của chữ, mỗinét đặc trưng bởi cặp chỉ số đầu và cuối tương ứng với thứ tự của điểm rẽnhánh đầu và cuối Cuối cùng là xây dựng cây tìm kiếm, dựa vào đặc trưng vềcấu trúc xương và cấu trúc biên để phân tập mẫu học thành các lớp

Các phương pháp cấu trúc áp dụng cho các bài toán nhận dạng chữ đượcphát triển theo hai bước:

oPhương pháp ngữ pháp

Trang 37

Các phương pháp ngữ pháp khởi tạo một số luật sinh để hình thành các

ký tự từ một tập các công thức ngữ pháp nguyên thuỷ Các luật sinh này cóthể kết nối bất kỳ kiểu đặc trưng thống kê và đặc trưng hình thái nào dưới một

số cú pháp hoặc các luật ngữ nghĩa Giống như lý thuyết ngôn ngữ, các luậtsinh cho phép mô tả các cấu trúc câu có thể chấp nhận được và trích chọnthông tin theo ngữ cảnh về chữ viết bằng cách sử dụng các kiểu ngữ phápkhác nhau

Các phương pháp ngữ pháp hầu hết được sử dụng trong giai đoạn hậu xử

lý để sửa các lỗi mà không nhận dạng đã thực hiện sai

oPhương pháp đồ thị

Các đơn vị chữ viết được mô tả bởi các cây hoặc các đồ thị Các dạng

nguyên thủy của ký tự (các nét) được lựa chọn bởi một hướng tiếp cận cấu

trúc Đối với mỗi lớp, một đồ thị hoặc cây được thành lập trong giai đoạnhuấn luyện để mô tả các nét, các ký tự hoặc các từ Giai đoạn nhận dạng gánmột đồ thị chưa biết vào một trong các lớp bằng cách sử dụng một độ đo để

so sánh các đặc điểm giống nhau giữa các đồ thị

Có rất nhiều hướng tiếp cận khác nhau sử dụng phương pháp đồ thị, tiêubiểu là hướng tiếp cận đồ thị phân cấp được dùng trong việc nhận dạng chữviết tay Trung Quốc và Hàn Quốc

d Phương pháp mô hình Markov ẩn

Các tác giả [9] đã trình bày nhận dạng ngôn ngữ ký hiệu từ những hiệuứng tay hoặc dáng điệu tay là miền hoạt động trong nghiên cứu nhận dạng cửchỉ điệu bộ cho mối tương tác giữa người và máy Nhận dạng cử chỉ tay có

nhiều ứng dụng như: Sign Language Recognition (nhận dạng ngôn ngữ ký hiệu), Communication in Video conference (việc giao tiếp trong hội nghị thông qua video), Using a finger as a pointer for selecting option from menu and Interacting with a computer by easy way for children (sử dụng ngón tay

Trang 38

như là con trỏ để lựa chọn thuộc tính từ menu và tương tác với máy tính bằng phương pháp dễ nhất cho trẻ em)… Hơn một vài năm trước, nhiều phương

pháp nhận dạng cử chỉ tay được đề xuất và những phương pháp này khác với

những phương pháp khác về mô hình của chúng: Neural Network (mạng nơron), Syntactical Analysis (sự phân tích cú pháp) và Hidden Markov

Model… Từ khi HMM được sử dụng rộng rãi trong nhận dạng chữ viết tay,lời nói, tạo nhãn hiệu phần lời nói và dịch tự động, người ta đã trình bày một

phương pháp để nhận dạng đồ họa cử chỉ tay từ ‘A’ đến ‘Z’ sử dụng HMM để

đưa ra sự đánh giá về hướng giữa bất kỳ một điểm trên quỹ đạo chữ và điểmtrung tâm của chữ đó Phương pháp này phụ thuộc vào cơ sở dữ liệu mà

chúng ta xây dựng và mô hình Left-Right Banded (mô hình Markov chuyển từ trái qua phải) Các tác giả đã tạo được cơ sở dữ liệu của 13000 mẫu từ 100

người và mỗi người viết 5 lần mỗi ký tự 2600 mẫu được sử dụng để huấnluyện HMM và phần còn lại được sử dụng để kiểm tra mô hình nhận dạng.Kết quả nhận dạng trung bình đạt 98.26%, một hiệu suất rất cao so với cácphương pháp nhận dạng khác và tốc độ nhận dạng nhanh

Trang 39

Đối với mỗi nhóm chúng ta trích xuất một hay nhiều hơn một vài đặctrưng để có thể phân biệt những ký tự này với gần như 100% độ chính xác Ví

dụ ký tự ‘O’ và ‘Q’ có thể dễ dàng phân biệt theo các hình 2.3, 2.4, 2.5.

a) b)

Hình 2.3 Mẫu ảnh ký tự cho quá trình hậu xử lý: a) Ký tự ‘O’, b) Ký tự ‘Q’.

Hình 2.4 Biểu đồ và đạo hàm dấu hiệu đặc trưng của ký tự ‘O’ ở hình 2.3.

Hình 2.5 Biểu đồ và đạo hàm dấu hiệu đặc trưng của ký tự ‘Q’ ở hình 2.3.

Những biểu đồ trên diễn tả sự khác nhau giữa biểu đồ dấu hiệu đặc trưng

của ký tự ‘Q’ chứa đỉnh nhọn rất lớn và ký tự ‘O’ sử dụng ngưỡng tiêu chuẩn.

Góc (độ)

Đạ

o hà

m củ

a bá

n kín h

Góc (độ)

n kính

Đạ

o hà

m của bá

n kín h

n kín h

Trang 40

Lưu ý rằng đặc trưng ký hiệu không được sử dụng để huấn luyện mô hìnhHMM của tất cả các ký tự

2.3 CÁC MÔ HÌNH NHẬN DẠNG CHỮ VIẾT TAY

Việc lựa chọn một quá trình nhận dạng có liên quan mật thiết đến kiểu

mô tả mà người ta sử dụng để đặc tả đối tượng Trong nhận dạng, ta phânchia làm hai họ lớn:

- Họ mô tả theo tham số

- Họ mô tả theo cấu trúc

Cách mô tả được lựa chọn sẽ xác định mô hình đối tượng Như vậychúng ta sẽ có hai loại mô hình: mô hình theo tham số và mô hình cấu trúc

2.3.1 Mô hình tham số

Sử dụng các vectơ để đặc tả đối tượng Mỗi phần tử của vectơ mô tả

một đặc tính của đối tượng Tuy nhiên việc lựa chọn đặc trưng nào là hoàntoàn phụ thuộc vào ứng dụng Ví dụ: trong nhận dạng chữ, các tham số làcác dấu hiệu:

Ngày đăng: 06/07/2015, 10:23

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Huỳnh Hữu Hưng, Xử lý ảnh số, Khoa CNTT, Trường ĐHBK Đà Nẵng Sách, tạp chí
Tiêu đề: ử lý ảnh số
[2] Huỳnh Hữu Hưng, Nguyễn Trọng Nguyên và các tác giả (2012), Nhận dạng ngôn ngữ ký hiệu tiếng Việt sử dụng mạng Neuron nhân tạo, Hội nghị khoa học ĐH Đà Nẵng lần V. No 5. tr 105-111 Sách, tạp chí
Tiêu đề: Nhận dạng ngôn ngữ ký hiệu tiếng Việt sử dụng mạng Neuron nhân tạo
Tác giả: Huỳnh Hữu Hưng, Nguyễn Trọng Nguyên và các tác giả
Năm: 2012
[3] Hoàng Kiêm, Nguyễn Ngọc Kỷ và các tác giả (1992), Nhận dạng: Các phương pháp và ứng dụng, Nhà xuất bản thống kê, Hà Nội Sách, tạp chí
Tiêu đề: Nhận dạng: Các phương pháp và ứng dụng
Tác giả: Hoàng Kiêm, Nguyễn Ngọc Kỷ và các tác giả
Nhà XB: Nhà xuất bản thống kê
Năm: 1992
[4] Lê Tiến Mười (2009), Mạng Neural RBF và ứng dụng nhận dạng chữ viết tay, Hà Nội Sách, tạp chí
Tiêu đề: Mạng Neural RBF và ứng dụng nhận dạng chữ viết tay
Tác giả: Lê Tiến Mười
Năm: 2009
[5] Ngô Quốc Tạo, Nghiên cứu phương pháp nhận dạng chữ viết tay trực tuyến theo phương pháp nhận dạng cấu trúc.Tiếng Anh Sách, tạp chí
Tiêu đề: Nghiên cứu phương pháp nhận dạng chữ viết tay trực tuyến theo phương pháp nhận dạng cấu trúc
[6] Da-Wen Sun (2008), Computer vision technology for Food Quality Evalution, Elsevier Sách, tạp chí
Tiêu đề: Computer vision technology for Food Quality Evalution
Tác giả: Da-Wen Sun
Năm: 2008
[7] Lawrence Rabiner, Biing-Hwang Juang, Fundamental of speech recognition, Prentice-Hall International, Inc Sách, tạp chí
Tiêu đề: Fundamental of speech recognition
[8] Mahmoud Elmzain, Ayoub Al-Hamadi, và các tác giả (2008), A Hidden Markov Model – Based Continuous Gesture Recognition System For Hand Motion Trajectory, Otto - von - Guericke-University Magdeburg, Germany, IEEE, 4tr Sách, tạp chí
Tiêu đề: A Hidden Markov Model – Based Continuous Gesture Recognition System For Hand Motion Trajectory
Tác giả: Mahmoud Elmzain, Ayoub Al-Hamadi, và các tác giả
Năm: 2008
[10] Mahmoud Elmezain, Ayoub Al-Hamadi,….(2009), “A Hidden Markov Model-Based Isolated and Meaningful Hand Gesture Recognition”, International Journal of Electrical and Electronics Engineering, 3:3 Sách, tạp chí
Tiêu đề: A Hidden Markov Model-Based Isolated and Meaningful Hand Gesture Recognition”, "International Journal of Electrical and Electronics Engineering
Tác giả: Mahmoud Elmezain, Ayoub Al-Hamadi,…
Năm: 2009
[11] Nianjun liu, Brian C, Lovell và các tác giả (2004), Understanding HMM Training For Video Gesture Recognition, The University of Queensland, Brisbane, Australia 4072, IEEE, tr 567-570 Sách, tạp chí
Tiêu đề: Understanding HMM Training For Video Gesture Recognition", The University of Queensland, Brisbane, Australia 4072, IEEE
Tác giả: Nianjun liu, Brian C, Lovell và các tác giả
Năm: 2004
[13] Nianjun Liu, Brian C. Lovell, Peter J. Kootsookos (2003), Evalution of HMM Training Algorithms for Letter Hand Gesture Recognition, The University of Queensland, Brisbane, Australia 4072, IEEE, 4tr Sách, tạp chí
Tiêu đề: Evalution of HMM Training Algorithms for Letter Hand Gesture Recognition
Tác giả: Nianjun Liu, Brian C. Lovell, Peter J. Kootsookos
Năm: 2003
[14] N. Tanibata, N. Shimada, Y.Shirai (2002). “Extraction of Hand Feature for Recognition of Sign Language words”, In International Conference on Vision Interface, tr 391-398 Sách, tạp chí
Tiêu đề: Extraction of Hand Feature for Recognition of Sign Language words”, "In International Conference on Vision Interface
Tác giả: N. Tanibata, N. Shimada, Y.Shirai
Năm: 2002
[12] Nianjun Liu, Brian C. Lovell, Peter J. Kootsookos, and Richard I.A Khác

HÌNH ẢNH LIÊN QUAN

Hình 1.4. Các bước trong thuật toán lọc trung vị. - NGHIÊN CỨU HIDDEN MARKOV MODEL VÀ ỨNG DỤNG TRONG NHẬN DẠNG CHỮ VIẾT TAY
Hình 1.4. Các bước trong thuật toán lọc trung vị (Trang 15)
Hình 1.6. Sử dụng thuật toán Otsu tách ngưỡng: - NGHIÊN CỨU HIDDEN MARKOV MODEL VÀ ỨNG DỤNG TRONG NHẬN DẠNG CHỮ VIẾT TAY
Hình 1.6. Sử dụng thuật toán Otsu tách ngưỡng: (Trang 18)
Hình 1.9. Không gian màu RGB. - NGHIÊN CỨU HIDDEN MARKOV MODEL VÀ ỨNG DỤNG TRONG NHẬN DẠNG CHỮ VIẾT TAY
Hình 1.9. Không gian màu RGB (Trang 23)
Hình 1.11. Phép giãn và co ảnh nhị phân sử dụng một phần tử cấu trúc. - NGHIÊN CỨU HIDDEN MARKOV MODEL VÀ ỨNG DỤNG TRONG NHẬN DẠNG CHỮ VIẾT TAY
Hình 1.11. Phép giãn và co ảnh nhị phân sử dụng một phần tử cấu trúc (Trang 26)
Hình 1.13. Quá trình thực hiện phép đóng ảnh nhị phân. - NGHIÊN CỨU HIDDEN MARKOV MODEL VÀ ỨNG DỤNG TRONG NHẬN DẠNG CHỮ VIẾT TAY
Hình 1.13. Quá trình thực hiện phép đóng ảnh nhị phân (Trang 28)
Hình 3.6. Mẫu chữ in hoa: a) Mẫu sai, b) Mẫu đúng. - NGHIÊN CỨU HIDDEN MARKOV MODEL VÀ ỨNG DỤNG TRONG NHẬN DẠNG CHỮ VIẾT TAY
Hình 3.6. Mẫu chữ in hoa: a) Mẫu sai, b) Mẫu đúng (Trang 57)
Hình 3. 13.  Mẫu ký tự với các phân đoạn. - NGHIÊN CỨU HIDDEN MARKOV MODEL VÀ ỨNG DỤNG TRONG NHẬN DẠNG CHỮ VIẾT TAY
Hình 3. 13. Mẫu ký tự với các phân đoạn (Trang 63)
Hình 3.1 5.  Quá trình nhận dạng một ký tự. - NGHIÊN CỨU HIDDEN MARKOV MODEL VÀ ỨNG DỤNG TRONG NHẬN DẠNG CHỮ VIẾT TAY
Hình 3.1 5. Quá trình nhận dạng một ký tự (Trang 65)
Hình 3.1 7 . Lưu đồ giải thuật huấn luyện mẫu chữ viết tay. - NGHIÊN CỨU HIDDEN MARKOV MODEL VÀ ỨNG DỤNG TRONG NHẬN DẠNG CHỮ VIẾT TAY
Hình 3.1 7 . Lưu đồ giải thuật huấn luyện mẫu chữ viết tay (Trang 70)
Hình 3.1 8 . Lưu đồ giải thuật nhận dạng. - NGHIÊN CỨU HIDDEN MARKOV MODEL VÀ ỨNG DỤNG TRONG NHẬN DẠNG CHỮ VIẾT TAY
Hình 3.1 8 . Lưu đồ giải thuật nhận dạng (Trang 71)
Hình 3.1 9.  Sơ đồ chương trình thực nghiệm. - NGHIÊN CỨU HIDDEN MARKOV MODEL VÀ ỨNG DỤNG TRONG NHẬN DẠNG CHỮ VIẾT TAY
Hình 3.1 9. Sơ đồ chương trình thực nghiệm (Trang 72)
Hình 3.20 là giao diện chương trình nhận dạng với đầy đủ các chức năng.  Trong chương trình này phần Trích lọc đặc trưng được tách riêng, vì đối với  quá trình Nhận dạng cũng như Máy học đều cần phải có bước trích lọc đặc  trưng để lấy ra đặc trưng của ch - NGHIÊN CỨU HIDDEN MARKOV MODEL VÀ ỨNG DỤNG TRONG NHẬN DẠNG CHỮ VIẾT TAY
Hình 3.20 là giao diện chương trình nhận dạng với đầy đủ các chức năng. Trong chương trình này phần Trích lọc đặc trưng được tách riêng, vì đối với quá trình Nhận dạng cũng như Máy học đều cần phải có bước trích lọc đặc trưng để lấy ra đặc trưng của ch (Trang 73)
Hình 3.22 .  Chức năng nhập dữ liệu. - NGHIÊN CỨU HIDDEN MARKOV MODEL VÀ ỨNG DỤNG TRONG NHẬN DẠNG CHỮ VIẾT TAY
Hình 3.22 Chức năng nhập dữ liệu (Trang 75)
Hình 3. 24.  Mô hình Markov ẩn. - NGHIÊN CỨU HIDDEN MARKOV MODEL VÀ ỨNG DỤNG TRONG NHẬN DẠNG CHỮ VIẾT TAY
Hình 3. 24. Mô hình Markov ẩn (Trang 76)
Hình 3.2 5.  Chức năng nhận dạng chữ viết tay. - NGHIÊN CỨU HIDDEN MARKOV MODEL VÀ ỨNG DỤNG TRONG NHẬN DẠNG CHỮ VIẾT TAY
Hình 3.2 5. Chức năng nhận dạng chữ viết tay (Trang 77)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w