Tuy nhiên nhận dạng chữ viết tay đang còn là vấn đề đang được quan tâm đối với các nhà nghiên cứu, trong đó đã có một số phươngpháp nhận dạng chữ viết tay như nhận dạng đối sánh mẫu, p
Trang 11 Tính cấp thiết của đề tài 1
2 Mục tiêu nghiên cứu 2
3 Đối tượng và phạm vi nghiên cứu 2
4 Phương pháp nghiên cứu 2
5 Bố cục đề tài 2
6 Tổng quan tài liệu nghiên cứu 3
CHƯƠNG 1 TỔNG QUAN VỀ XỬ LÝ ẢNH SỐ VÀ NHẬN DẠNG 4
1.1 GIỚI THIỆU CHUNG VỀ XỬ LÝ ẢNH SỐ VÀ ỨNG DỤNG 4
1.2 TỔNG QUAN VỀ XỬ LÝ ẢNH SỐ 5
1.2.1 Thu nhận ảnh 5
1.2.2 Tiền xử lý ảnh 6
1.2.3 Xử lý mức trung 11
1.2.4 Xử lý mức cao 16
1.2.5 Cơ sở tri thức 16
1.3 CÁC KHÔNG GIAN MÀU VÀ ẢNH MÀU 16
1.3.1 Màu trong xử lý ảnh số 16
1.3.2 Không gian màu RGB 18
1.4 XỬ LÝ HÌNH THÁI HỌC 19
1.4.1 Khái niệm cơ bản 19
1.4.2 Phép co và giãn ảnh nhị phân 20
1.4.3 Phép đóng và mở ảnh nhị phân 21
CHƯƠNG 2 TỔNG QUAN NHẬN DẠNG CHỮ VIẾT TAY 24
2.1 TỔNG QUAN NHẬN DẠNG CHỮ VIẾT TAY 24
2.1.1 Nhận dạng chữ 24
Trang 22.2.1 Giai đoạn tiền xử lý ảnh 25
2.2.2 Phương pháp nhận dạng chữ viết tay 26
2.2.3 Hậu xử lý 31
2.3 CÁC MÔ HÌNH NHẬN DẠNG CHỮ VIẾT TAY 33
2.3.1 Mô hình tham số 33
2.3.2 Mô hình cấu trúc 33
2.4 MỘT SỐ HỆ THỐNG NHẬN DẠNG CHỮ VIẾT TAY HIỆN NAY 34
2.4.1 Hệ thống xác thực chữ ký viết tay HDUSigVeri 34
2.4.2 Hệ thống MMI trên xe Audi A8 hỗ trợ nhận dạng chữ viết tay 35
2.4.3 Hệ thống nhận dạng chữ viết tay rời rạc trực tuyến trên một trạm làm việc của IBM 36
CHƯƠNG 3 ỨNG DỤNG MÔ HÌNH MARKOV ẨN TRONG NHẬN DẠNG CHỮ VIẾT TAY 37
3.1 GIỚI THIỆU TỔNG QUAN VỀ MÔ HÌNH MARKOV ẨN 37
3.1.1 Mô hình Markov ẩn 37
3.1.2 Các bài toán cơ bản cho mô hình Markov ẩn 45
3.2 MỘT SỐ ĐIỀU KIỆN RÀNG BUỘC VỀ MẪU CHỮ 51
3.3 CÁC MẪU CHỮ VIẾT TAY 53
3.4 MỘT SỐ KỸ THUẬT NHẬN DẠNG TRÊN HMM 57
3.4.1 Trích lọc đặc trưng 57
3.4.2 Huấn luyện và nhận dạng bằng mô hình Markov ẩn 61
3.5 MÔI TRƯỜNG VÀ CÔNG CỤ CÀI ĐẶT 65
3.6 LƯU ĐỒ GIẢI THUẬT 65
3.7 CÀI ĐẶT THỰC NGHIỆM 68
3.7.1 Sơ đồ chương trình thực nghiệm 68
Trang 3KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 77 TÀI LIỆU THAM KHẢO 79 QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN (Bản sao)
Trang 4CSDL Cơ sở dữ liệu
Codeword Mã cung ứng với vectơ hướng
State Trạng thái
Observation Sự quan sát
HMM Hidden Markov Model
CCD Charge Coupled Device
MOS Metal - Oxid - Semiconductor
HSV Hue - Saturation - Value
CIE Commission Internationale d’EclairageORC Optical character Recognizer
MLP MultiLayer Perception
MMI Multimedia Interface
BMW Bayerische Motoren Werke AG
IBM International Business Machines
Trang 51.8 Bước sóng quang phổ con người nhìn thấy được 16
1.10 Một số hình dáng của phần tử cấu trúc phẳng 191.11 Phép giãn và co ảnh nhị phân sử dụng một phần tử cấu
trúc
20
1.12 Quá trình thực hiện phép mở ảnh nhị phân 211.13 Quá trình thực hiện phép đóng ảnh nhị phân 222.1 Sơ đồ tổng quát của quá trình nhận dạng chữ viết tay 24
2.3 Mẫu ảnh ký tự cho quá trình hậu xử lý 312.4 Biểu đồ và đạo hàm dấu hiệu đặc trưng của ký tự O ở hình
2.6 Giao diện phiên bản mới nhất của phần mềm nhận diện
chữ ký viết tay HDUSigVeri
34
3.1 Chuỗi Markov 5 trạng thái với lựa chọn chuyển đổi trạng 37
Trang 63.3 Các mô hình Markov tung đồng xu 43
3.5 Sơ đồ đường dẫn quay lui của các trạng thái cho ra HTTH 49
3.11 Hai điểm gần nhau trên ký tự tạo thành đoạn thẳng lệch so
với phương ngang gốc
57
3.12 Cấu trúc liên kết HMM với 3 trạng thái 58
3.14 Phân đoạn đường thẳng cho cấu trúc liên kết HMM 60
3.16 Lưu đồ giải thuật trích lọc đặc trưng 653.17 Lưu đồ giải thuật huấn luyện mẫu chữ viết tay 66
3.20 Giao diện chương trình nhận dạng chữ viết tay 683.21 Kết quả của quá trình trích rút đặc trưng 70
Trang 7Tôi cam đoan đây là công trình nghiên cứu của riêng tôi.
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được
ai công bố trong bất kỳ công trình nào khác.
Tác giả
Nguyễn Thị Hà Phương
Trang 8MỞ ĐẦU
1 Tính cấp thiết của đề tài
Hiện nay, trong cuộc sống cũng như trong công việc việc sử dụng cácbảng biểu, bảng điểm, giấy tờ, công văn… viết bằng tay vẫn còn nhiều, hoặcnhững bảng biểu đó được gõ bằng máy nhưng vẫn tồn tại chữ viết tay, ví dụnhư điểm trong bảng điểm, chữ ký, họ và tên, ngày tháng năm… Vì vậy việcnhập liệu bằng tay tốn nhiều công sức và thời gian, do đó việc nhận dạng đểđọc dữ liệu tự động vào máy tính là rất cần thiết
Vấn đề nhân dạng chữ được nhiều nhà khoa học nghiên cứu và ứngdụng từ rất nhiều năm nay:
o Nhận dạng chữ in: phục vụ cho công việc tự động hóa nhập tài liệu,tăng tốc độ và hiệu quả nhập thông tin
o Nhận dạng chữ viết tay: mỗi người viết tay có những kiểu chữ, cáchviết khác nhau, và với mức độ ràng buộc khác nhau nhằm phục vụ ứng dụngđọc chứng từ, hóa đơn, bản thảo viết tay…
Đến thời điểm này thì việc nhận dạng chữ in gần như được trọn vẹn
(phần mềm FindReader 9.0 của ABBYY có thể nhận dạng chữ in theo 20 ngôn ngữ khác nhau) Tuy nhiên nhận dạng chữ viết tay đang còn là vấn đề đang
được quan tâm đối với các nhà nghiên cứu, trong đó đã có một số phươngpháp nhận dạng chữ viết tay như nhận dạng đối sánh mẫu, phương phápnơron [2, 4], phương pháp tiếp cận cấu trúc [5], phương pháp Hidden MarkovModel (HMM, mô hình Markov ẩn) [8, 9, 10, 11, 13, 15]… Trong đó nhậndạng theo phương pháp HMM được sử dụng nhiều nơi và đã có kết quả khảquan
Đó là lý do tôi chọn đề tài “Nghiên cứu Hidden Markov Model và ứngdụng trong nhận dạng chữ viết tay”
Trang 92 Mục tiêu nghiên cứu
Nghiên cứu Hidden Markov Model và ứng dụng trong nhận dạng chữviết tay
3 Đối tượng và phạm vi nghiên cứu
- Nghiên cứu mô hình HMM.
- Ứng dụng mô hình HMM trong nhận dạng chữ viết tay trên một số
mẫu chữ
4 Phương pháp nghiên cứu
o Nghiên cứu lý thuyết:
- Tham khảo tài liệu trên mạng về một số phương pháp xử lý chữ viết
tay (chủ yếu là HMM)
- Tìm hiểu lập trình bằng Matlab.
- Nghiên cứu bài toán nhận dạng chữ viết tay.
- Tìm hiểu các kỹ thuật nhận dạng chữ viết tay.
o Nghiên cứu thực nghiệm:
- Dựa trên cơ sở lý thuyết xử lý ảnh, mô hình HMM và sự hướng dẫn
của giáo viên để thực hiện việc phân tích và cài đặt thực nghiệm nhận dạngchữ viết tay
- So sánh và đánh giá kết quả đạt được.
5 Bố cục đề tài
- Tổng quan về xử lý ảnh số và nhận dạng.
Trang 10- Các phương pháp xử lý nhận dạng chữ viết tay.
- Cài đặt thực nghiệm nhận dạng chữ viết tay bằng Hidden Markov
Model
6 Tổng quan tài liệu nghiên cứu
Tìm hiểu:
- Tài liệu về mô hình Markov ẩn
- Tài liệu liên quan đến xử lý ảnh
- Các bài báo ứng dụng mô hình Markov ẩn
- Tài liệu về chữ viết tay và nhận dạng chữ viết tay
Ngoài những bài báo (tiếng Anh), tạp chí, giáo trình bài giảng, luận văncòn sử dụng những tài liệu trên các trang web
Trang 11CHƯƠNG 1
TỔNG QUAN VỀ XỬ LÝ ẢNH SỐ VÀ NHẬN DẠNG
1.1 GIỚI THIỆU CHUNG VỀ XỬ LÝ ẢNH SỐ VÀ ỨNG DỤNG
Xử lý ảnh là một lĩnh vực quan trọng và mang tính khoa học Nó được
áp dụng vào nhiều lĩnh vực khác nhau, vì vậy nó làm kích thích các trung tâmnghiên cứu, ứng dụng, đặc biệt là áp dụng các công ty nghiên cứu về máy tínhchuyên dụng riêng cho nó Một ảnh được xác định là một hàm không gian hai
chiều f(x,y), trong đó (x,y) là vị trí trong không gian gọi là điểm ảnh (pixel) và
độ lớn của f(x, y) nào được gọi là độ sáng (intensity) hoặc mức xám (gray level) của ảnh tại điểm đó.
Xử lý ảnh là môn học liên quan đến nhiều lĩnh vực và cần rất nhiều kiếnthức tổng hợp khác Thứ nhất phải nói đến xử lý tín hiệu số là một môn họchết sức cơ bản cho xử lý tín hiệu chung, các khái niệm về tích chập, các biếnđổi Fourier, biến đổi Laplace, các bộ lọc hữu hạn… Thứ hai, các công cụ toánnhư đại số tuyến tính, xác suất, thống kê… Một số kiến thức cần thiết nhưmôn trí tuệ nhân tạo, các mạng nơron nhân tạo cũng được đề cập trong quátrình phân tích và nhận dạng ảnh
Các phương pháp xử lý ảnh tập trung vào hai công việc chính: cải thiệnảnh phục vụ cho con người và xử lý ảnh để lưu trữ, truyền và biểu diễn ảnhphục vụ nhận thức cho các máy tự động
Ứng dụng đầu tiên được biết đến trong lĩnh vực xử lý ảnh là nâng caochất lượng ảnh báo qua cáp từ London sang New York những năm 1920 Vấn
đề nâng cao chất lượng ảnh phát triển vào năm 1955, vì sau thế chiến thứ haimáy tính phát triển nhanh tạo điều kiện cho quá trình xử lý ảnh số thuận lợi.Năm 1964, máy tính đã có khả năng xử lý và nâng cao chất lượng ảnh từ mặttrăng và vệ tinh Ranger 7 của Mỹ bao gồm: làm nổi đường biên, lưu ảnh
Trang 12Những năm 1970, xử lý ảnh bắt đầu được ứng dụng trong các lĩnh vực y
tế Từ những năm 1980 tới nay, các phương tiện xử lý, nâng cao chất lượng,nhận dạng ảnh phát triển không ngừng Các phương pháp tri thức nhân tạonhư mạng nơron nhân tạo, các thuật toán xử lý hiện đại và cải tiến, các công
cụ nén ảnh ngày càng được áp dụng rộng rãi và thu nhiều kết quả khả quan
xử lý tiếp theo sẽ bị giảm Ảnh có thể nhận qua camera màu hoặc đen trắng
Thường ảnh nhận qua camera là ảnh tương tự (loại camera ống chuẩn CCIR với tần số 1/25, mỗi ảnh 25 dòng), cũng có loại camera đã số hóa (như loại CCD – Change Coupled Device) là loại photodiot tạo cường độ sáng tại mỗi
điểm ảnh Camera thường dùng là loại quét dòng, ảnh tạo ra có dạng hai
Phân đoạn ảnh
(Image Segmentation)
Biểu diễn và mô tả
(Representation and description)
Nhận dạng và
nội suy ảnh
(Recognition and interpretation)
Cơ sở dữ liệu
(Data based)
Trang 13chiều Chất lượng một ảnh thu nhận được phụ thuộc vào thiết bị thu, vào môitrường (ánh sáng, phong cảnh) Mặt khác, ảnh cũng có thể tiếp nhận từ vệtinh; có thể quét ảnh từ ảnh chụp hay văn bản bằng máy scan quét ảnh.
- Máy CCD (Charge-coupled Device)
Máy ảnh kỹ thuật số được sử dụng đầu tiên vào năm 1969, thay cho
phim ảnh là một linh kiện quang điện tử gọi là CCD (Charge Coupled Device)[18] Đây là một tấm phẳng to gần như tấm phim nhưng gồm có nhiều
ô li ti, mỗi ô là một cái tụ điện Gọi là tụ điện, nhưng thực tế gồm ba lớp, mộtlớp kim loại, một lớp oxyd và một lớp bán dẫn Do đó, có tên là tụ điện MOS
(Metal - Oxide - Semiconductor nghĩa là kim loại - oxyd - bán dẫn) như hình
1.2 Khi có ánh sáng chiếu đến tức là có photon đập vào, do hiệu ứng quangđiện nên điện tử bị bứt ra chứa vào trong tụ điện Mỗi một tụ điện của CCD
đóng vai trò là một điểm ảnh (pixel) có địa chỉ (x,y) rõ ràng Các điện tích
chứa trong các tụ điện của CCD được lần lượt chuyển đến thanh đọc để đọc
và chuyển về bộ nhớ, ghi lại tụ điện ở vị trí nào, được tích điện nhiều hay ít
Hình 1.2 Một tụ điện MOS.
1.2.2 Tiền xử lý ảnh
Ảnh sau khi được thu nhận từ các thiết bị quang học (CCD) hoặc thiết bị
điện tử có thể bị nhiễu và biến dạng Do đó, ảnh cần được đưa vào bộ tiền xử
MOS
Depletion region
Ảnh sáng
Ground
Trang 14lý để nâng cao chất lượng ảnh Chức năng chính của bước tiền xử lý ảnh làkhử nhiễu, nâng cao độ tương phản, hiệu chỉnh mức xám để làm ảnh rõ hơn
và nét hơn cho các bước tiếp theo
a Khử nhiễu
Nhiễu của ảnh gồm 2 loại: nhiễu hệ thống và ngẫu nhiên Hai loại nhiễunày khác nhau về bản chất nên việc phát hiện và khử nhiễu cũng được tiếnhành theo các phương pháp và các kỹ thuật khác nhau
o Khử nhiễu hệ thống
Đặc trưng của nhiễu hệ thống là có tính qui luật do ảnh hưởng của mộttín hiệu nào đó trong quá trình thu nhận ảnh Có thể loại bỏ nhiễu này bằngcách sử dụng các phép biến đổi Fourier Tính chất chung của phép biến đổiFourier là nếu có nhiễu hệ thống trên ảnh thì sau khi khử nhiễu và áp dụngphép biến đổi Fourier ngược chúng ta sẽ thu lại được ảnh ban đầu đã loại trừđược nhiễu hệ thống
oKhử nhiễu ngẫu nhiên
Nhiễu ngẫu nhiên được sinh ra một cách ngẫu nhiên ngoài ý muốn trong
quá trình tạo ảnh (do kỹ thuật in, mực in, giấy in ) hoặc trong quá trình số hóa ảnh (do lỗi kỹ thuật quét hoặc chụp ảnh) Tác hại của nhiễu là làm sai
lệnh nội dung trong ảnh và gây khó khăn cho quá trình xử lý ảnh như táchvùng, tách đối tượng và kể cả nhận dạng đối tượng trong ảnh
Trong các trường hợp cụ thể, nhiễu thường là các điểm có màu (đối với ảnh màu), hoặc có cường độ sáng (đối với ảnh mức xám) không phù hợp với
màu của các điểm xung quanh Do đó, việc khử nhiễu trước tiên là phải xácđịnh được đâu là nhiễu, đâu là dữ liệu thật, sau đó loại nhiễu ra khỏi ảnh bằngcách thay giá trị tại điểm ảnh nhiễu bằng một giá trị phù hợp
Về mặt tổng quan, khử nhiễu ngẫu nhiên đều dựa vào tính phù hợp giữa
một điểm ảnh với các điểm lân cận nó Giả sử điểm ảnh S có tọa độ (x, y) S
Trang 15có 4 điểm lân cận gần nhất theo phương đứng và ngang (lân cận theo 4 hướng chính: Đông, Tây, Nam, Bắc), ký hiệu là N4(S).
N4(S) = {(x-1,y); (x,y-1); (x,y+1); (x+1,y)} (1.1)
Tập 8 điểm lân cận của S ký hiệu là N8(S) :
Dựa vào thuộc tính màu hoặc mức sáng của các điểm lân cận, có thể xácđịnh điểm đang xét có phải là nhiễu hay không và thay đổi giá trị điểm nhiễubằng một giá trị hợp lý Phương pháp khử nhiễu ngẫu nhiên hiệu quả thườngđược áp dụng trong thực tế là sử dụng các kỹ thuật lọc ảnh
b Bộ lọc trong miền không gian
oLọc trung bình – Mean/Average filter
Lọc trung bình là kĩ thuật lọc tuyến tính, nó hoạt động như một bộ lọcthông thấp Với bộ lọc này mỗi điểm ảnh được thay thế bằng trung bình trọng
số của các điểm lân cận và được định nghĩa như sau:
Trang 16Hình 1.3 Mặt nạ bộ lọc trung bình.
Bộ lọc trung bình thường được dùng để hướng tới việc bảo vệ biên củaảnh khỏi bị mờ khi làm trơn ảnh Các kiểu mặt nạ được sử dụng tùy theo cáctrường hợp khác nhau
oLọc trung vị - Median filter
Đây là một kỹ thuật lọc phi tuyến (non-linear), hiệu quả đối với hai loại nhiễu: nhiễu đốm (speckle noise) và nhiễu muối tiêu (salt-pepper noise) Các điểm ảnh của ảnh đầu vào I(u, v) được thay thế bởi giá trị trung vị của các điểm ảnh hàng xóm tương ứng với mặt nạ H(i, j) của nó.
Thuật toán lọc trung vị như sau: sử dụng một mặt nạ hay cửa sổ lọc có
ma trận kích thước 3x3; 5x5 quét qua lần lượt từng điểm ảnh của ảnh đầuvào
Tại vị trí của mỗi điểm ảnh chúng ta lấy giá trị của các điểm ảnh tươngứng trong vùng mặt nạ của ảnh đầu vào “lấp” vào ma trận của mặt nạ lọc Sắp
xếp các điểm ảnh trong cửa sổ lọc theo thứ tự (tăng hoặc giảm dần).
Gán điểm ảnh nằm chính giữa của dãy các giá trị điểm ảnh đã được sắpxếp ở trên cho giá trị điểm ảnh đang xét của ảnh đầu ra
Hình 1.4 Các bước trong thuật toán lọc trung vị.
c Bộ lọc trong miền tần số
oLọc đồng hình (Homomorphie Filter)
Thực tế, ảnh quan sát được ban đầu bao gồm ảnh đầu vào và một hệ
số nhiễu Gọi X’(m, n) là ảnh thu được, X(m, n) là ảnh đầu vào và T(m, n) là
nhiễu, như vậy ta có công thức thể hiện mối quan hệ giữa chúng:
X(m, n) = X’(m, n)*T(m, n) (1.4)
Lọc đồng hình thực hiện lấy logarit ảnh quan sát Do đó ta có kết quả:
3 7 2 1
Sắp xếp
2 1
0 0
P k-1 P k =median
P 0
3 7 2
Trang 17log(X(m, n)) = log(X’(m, n)) + log(T(m, n)) (1.5)
Dễ dàng nhận thấy nhiễu hệ thống có trong ảnh đầu vào sẽ bị giảm Sauquá trình lọc tuyến tính, chúng ta chuyển về ảnh cũ bằng phép biến đổi hàm
mũ e.
oLọc thông thấp và lọc thông cao
Các đường biên và nhiễu trong ảnh tập trung nhiều vào phần tần số caocủa phép biến đổi Fourier của nó Do đó, để làm trơn ảnh bằng phương phápmiền tần số chúng ta có thể loại bỏ các thành phần tần số cao trong biến đổiFourier của ảnh
Vì các thành phần tần số cao bị loại bỏ và thông tin trong vùng tần sốthấp được cho qua nên phương pháp này gọi là lọc thông thấp Bộ lọc thôngthấp có thể kể đến như bộ lọc thông thấp Butterworth, Gaussian
Ảnh có thể bị nhòe do chúng ta làm suy giảm các thành phần tần số caotrong biến đổi Fourier của nó Vì các phần tử biên và những thay đổi đột ngộtkhác trong mức xám tương ứng của các thành phần tần số cao, việc làm nétảnh có thể thực hiện trong miền tần số bằng phương pháp lọc thông cao: làmsuy giảm các thành phần tần số thấp nhưng không phá hủy thông tin tần sốcao trong biến đổi Fourier Bộ lọc thông cao có thể kể đến như bộ lọc thôngcao Butterworth, Gaussian
Bộ lọc thông thấp thường dùng làm trơn nhiễu và nội suy ảnh Bộ lọcthông cao thường dùng trong việc trích chọn biên và làm trơn ảnh
1.2.3 Xử lý mức trung
Giai đoạn này là quá trình xử lý phức tạp, thường được sử dụng để phânđoạn ảnh, xác định và dự đoán biên ảnh, xác định vùng ảnh, nén ảnh để lưutrữ hoặc truyền phát Đặc điểm của các hệ thống xử lý ảnh mức trung là tínhiệu đầu vào là hình ảnh, còn tín hiệu đầu ra là các thành phần được tách ra từ
hình ảnh đầu vào Cụ thể chúng ta thực hiện phân đoạn ảnh.
Trang 18Phân đoạn ảnh là bước tách hình ảnh đầu vào thành các vùng thành phầnhoặc các vật thể riêng để biểu diễn, phân tích, nhận dạng Đây cũng là mộttrong những vấn đề khó giải quyết nhất trong lĩnh vực xử lý ảnh Nếu thựchiện tách quá sâu các chi tiết trong ảnh thì bài toán nhận dạng các thành phầnđược tách ra sẽ trở nên phức tạp, ngược lại nếu quá trình phân đoạn được thựchiện quá thô hoặc phân đoạn sai thì kết quả nhận được cuối cùng sẽ khôngchính xác
Thông thường, bước đầu tiên trong quá trình phân đoạn ảnh là việc khửnền để kiểm soát được đối tượng Đối với các ảnh đơn sắc, việc phân đoạnảnh được thực hiện thông qua việc kiểm tra biểu đồ mức xám Các thuật toánphân đoạn ảnh đều dựa trên tính không liên tục hoặc tính tương tự của các giátrị mức xám của ảnh
Tính không liên tục của các giá trị mức xám trong ảnh cho chúng ta thấy
có sự thay đổi đột ngột về cường độ sáng trong ảnh Phân đoạn ảnh có thểthực hiện bởi ba kỹ thuật cơ bản: phân đoạn ảnh dựa trên ngưỡng, dựa trênbiên và dựa trên vùng
oPhân đoạn ảnh dựa trên ngưỡng
Các kỹ thuật phân đoạn ảnh dựa trên ngưỡng hầu hết đều dựa vào lược đồmức xám của ảnh để tính toán ngưỡng Việc tính toán ngưỡng bao hàm việc xác
định một tập các giá trị ngưỡng (có thể là một hoặc nhiều giá trị ngưỡng), dựa
vào giá trị ngưỡng để phân tách ảnh ra thành những vùng có ý nghĩa
(a) (b)
Trang 19Hình 1.5 Phân đoạn ảnh dựa trên ngưỡng của lược đồ mức xám:
(a) Sử dụng một ngưỡng T, (b) Sử dụng hai ngưỡng T1 và T2.
Giả sử chúng ta có lược đồ mức xám của một ảnh như hình 1.5a, dựa vàolược đồ mức xám này chúng ta có thể nhận thấy rằng ảnh này có hai nhómmức xám Một nhóm thể hiện giá trị mức xám của đối tượng và nhóm còn lại
thể hiện giá trị mức xám của nền, ngưỡng T chính là giá trị để tách biệt đối tượng ra khỏi nền Do đó, bất kì giá trị của điểm ảnh f(x, y) nào của ảnh mà có giá trị lớn hơn T thì được gọi là điểm thuộc đối tượng, ngược lại gọi là điểm
thuộc nền của đối tượng
Thuật toán tách ngưỡng Otsu vào năm 1979 là một trong những thuật
toán lấy ngưỡng toàn cục T được đề xuất từ rất sớm và hiệu quả để tách đối
Hình 1.6 Sử dụng thuật toán Otsu tách ngưỡng:
a) Ảnh gốc, b) Lược đồ của ảnh gốc, c) Ảnh sau khi biến thành nhị phân.Tuy nhiên, nhiều trường hợp trong một ảnh không phải chỉ có hai nhómmức xám mà có thể có nhiều nhóm mức xám khác nhau, ví dụ như hình 1.6bthì lúc này để tách các đối tượng ra khỏi nền hoặc phân tách biệt các đốitượng trong ảnh chúng ta sử dụng nhiều ngưỡng khác nhau, trường hợp nàygọi là phân đoạn ảnh đa ngưỡng
Khi đó, mọi điểm ảnh f(x, y) sẽ thuộc về đối tượng thứ nhất nếu T1<f(x,y)≤T2, thuộc đối tượng khác nếu f(x, y) > T2, và thuộc nền nếu f(x, y) ≤ T1.
T
Trang 20oPhân đoạn ảnh dựa trên biên
Việc xác định biên ảnh là một vấn đề cơ bản và đặc điểm quan trọngtrong phân tích ảnh vì các kĩ thuật phân đoạn ảnh chủ yếu dựa vào biên Mộtđiểm ảnh được gọi là biên nếu ở đó có sự thay đổi đột ngột về mức xám Tậphợp các điểm biên tạo thành biên, hay còn gọi là đường bao của ảnh Mỗi mộtbiên là một thuộc tính gắn liền với một điểm riêng biệt và được tính toán từnhững điểm lân cận của nó Có hai phương pháp phát hiện biên tổng quát, đó
là phương pháp phát hiện biên dựa vào sự biến thiên về giá trị độ sáng của
điểm ảnh (phương pháp đạo hàm) và phương pháp phát hiện biên dựa vào sự
biến thiên nhỏ và đồng đều về độ sáng của các điểm ảnh thuộc đối tượng
(phương pháp xử lý kết cấu của đối tượng).
Phương pháp phát hiện biên sử dụng đạo hàm có thể kể tới là: phương
pháp đạo hàm bậc nhất (phương pháp Gradient) và phương pháp đạo hàm bậc hai (phương pháp Laplace) Phương pháp Gradient (ví dụ: sử dụng toán tử Prewitt, Sobel, Robert ) và kỹ thuật la bàn (ví dụ: sử dụng toán tử la bàn Kirsh, toán tử la bàn Prewitt )
Trang 21Ảnh gốc Phương pháp
Laplace
Phương pháp Gradient
Hình 1.7 Một số phương pháp tìm biên.
Ngoài ra còn có một số phương pháp phát hiện biên khác khắc phụcđược những điểm yếu của hai phương pháp phát hiện biên ở trên và giải quyếtcác ràng buộc trong việc phát hiện biên như: mức lỗi, định vị và hiệu suất củaphương pháp Một trong những phương pháp hiệu quả đó là phương phápCanny do John Canny đề xuất vào năm 1986
Phương pháp phát hiện biên xử lý kết cấu đối tượng hay còn gọi làphương pháp phát hiện biên gián tiếp là phương pháp dựa vào phép xử lý kếtcấu của đối tượng, cụ thể là dựa vào sự biến thiên và đồng đều độ sáng củacác điểm ảnh thuộc một đối tượng Nếu các vùng của ảnh được xác định thìđường ranh giới giữa các vùng đó chính là biên cần tìm
oPhân đoạn ảnh dựa trên vùng
Vùng (region) trong xử lý ảnh là một nhóm các điểm ảnh liên kết với
nhau có cùng các thuộc tính Sự phân chia các vùng thường được thực hiệnbằng cách sử dụng giá trị xám của điểm ảnh
Có hai phương pháp phân đoạn ảnh theo vùng là:
- Phân đoạn theo lan tỏa vùng (Region growing).
- Phân đoạn theo phương pháp phân chia và kết hợp vùng (Region Splitting and Merging).
Phân đoạn ảnh dựa trên vùng thường được sử dụng cho mục đích phânđoạn ảnh phức tạp với số lượng lớp trên vùng là lớn và chưa biết trước [6]
Trang 22và xử lý theo kinh nghiệm cùng với tri thức của con người Nếu không có một
hệ cơ sở tri thức phù hợp thì hệ thống thị giác máy tính không thể “suy nghĩ”
và không thể đưa ra những quyết định thông minh giống như con người
1.3 CÁC KHÔNG GIAN MÀU VÀ ẢNH MÀU
1.3.1 Màu trong xử lý ảnh số
Sử dụng màu trong xử lý được thúc đẩy bởi các yếu tố:
- Màu sắc giúp chúng ta nhận diện các đối tượng đơn giản hơn vàkhai thác được nhiều thông tin từ ảnh màu
- Hệ thống thị giác của con người có thể cảm nhận, phân biệt đượchàng nghìn màu và cường độ sáng khác nhau Những yếu tố này là
Trang 23những thuộc tính tự nhiên quan trọng để chúng ta có thể phân tíchảnh.
Xử lý ảnh màu được chia làm 2 phạm vi chính: xử lý toàn màu (full color) và xử lý giả màu (pseudo color)
Trong phạm vi thứ nhất, các ảnh thường được thu nhận bằng các bộ cảmbiến màu, như máy quét ảnh màu, TV, Camera màu
Trong phạm vi thứ hai, một ảnh màu được tách thành các kênh màu cócường độ sáng đơn hoặc khoảng cường độ sáng
Hiện nay, các loại xử lý ảnh màu được thực hiện theo cách thứ hai, tức là
từ ảnh màu sẽ tiến hành chuyển đổi và tách ảnh màu sang một không gianmàu khác với các kênh màu có cường độ sáng đơn hoặc ảnh có cường độ sáng
nằm trong một khoảng nào đó ví dụ như ảnh xám (0 - 255), ảnh nhị phân (0
và 1), ảnh màu bao gồm các kênh màu (ví dụ như từng kênh màu của không gian màu RGB: R, G, B) hoặc kết hợp 2 kênh màu.
Hình 1.8 Bước sóng trong quang phổ con người nhìn thấy được.
Các thuộc tính của màu sắc thường dùng để phân biệt bằng mắt thường
là: độ sáng (Brightness), độ bão hòa (Saturation) và sắc độ (Hue) Hầu hết các
nguồn sáng mà chúng ta nhìn thấy có chứa năng lượng trong một dải bước
sóng của ánh sáng Hue là bước sóng (Wavelength) trong dải quang phổ mà
chúng ta có thể nhìn thấy ánh sáng, tại đó lượng năng lượng từ nguồn sángphát ra là lớn nhất Độ bão hòa là một thể hiện cho dãi tần có thể nhìn thấy từ
Trang 24nguồn sáng Trong hình 1.8, độ bão hòa được đại diện bởi độ dốc của sườndốc của đường cong
1.3.2 Không gian màu RGB
Không gian màu RGB mô tả màu sắc bằng ba màu kết hợp với nhau ở
các bước sóng chuẩn như màu: đỏ (red) = 700 nm, xanh lá (green) = 546,1
nm và xanh dương (blue) = 435,8 nm Không gian màu này được minh họa
bằng một khối lập phương với các trục chính là R, G, B ở hình 1.9
Hình 1.9 Không gian màu RGB.
Mỗi màu trong không gian màu RGB đều được biểu diễn như là mộtvectơ thông qua ba vectơ cơ sở là đỏ, xanh lá cây và xanh dương Do đó, mỗi
điểm ảnh trong ảnh I được xác định như sau:
I(x, y) = (R(x, y), G(x, y), B(x, y)) T = (R,G,B) T (1.6)
Vì vậy, ứng với các tổ hợp khác nhau của ba màu này sẽ cho ta một màumới Không gian màu RGB là chuẩn công nghiệp cho các thao tác đồ họamáy tính Các thao tác màu sắc có thể được tính toán trên các không gian màukhác nhau nhưng cuối cùng cần phải chuyển về không gian màu RGB để hiểnthị lên màn hình máy tính vì thiết bị phần cứng dựa trên mô hình RGB
Chúng ta có thể chuyển đổi qua lại giữa không gian màu RGB sang các
không gian màu khác như: HSV, CIE.
Trang 251.4 XỬ LÝ HÌNH THÁI HỌC
1.4.1 Khái niệm cơ bản
Xử lý ảnh hình thái học mô tả một dãy các kỹ thuật xử lý ảnh liên quanđến hình dạng và các đặc trưng riêng trên ảnh Tất cả các thao tác xử lý hìnhthái học đều dựa trên hai ý tưởng cơ bản:
- Fit: tất cả các điểm ảnh nằm trên phần tử cấu trúc che phủ tất cả các
xử lý Các điểm trung tâm của phần tử cấu trúc được gọi là điểm gốc, xácđịnh các điểm ảnh được xử lý, kiểu phần tử cấu trúc này còn được gọi là phần
tử cấu trúc phẳng Các điểm ảnh trong phần tử cấu trúc có giá trị bằng 1 xác
định vùng lân cận của phần tử cấu trúc Trong không gian 3D hay không gian
không phẳng (non-flat), các phần tử cấu trúc sử dụng các giá trị 0 và 1 để xác định phạm vi của phần tử cấu trúc trong mặt phẳng x, mặt phẳng y và thêm
giá trị độ cao để xác định chiều thứ ba, kiểu phần tử cấu trúc này còn đượcgọi là phần tử cấu trúc không phẳng Các phần tử cấu trúc thường được quyđịnh theo một hình dáng và có kích thước khác nhau Một số hình dáng củaphần tử cấu trúc thuộc về phần tử cấu trúc phẳng: chữ nhật, hình tròn, elip,
hình thoi Trong khi đó hình dáng: quả bóng (ball) và tùy ý thuộc về phần tử
cấu trúc không phẳng
Trang 26Hình 1.10 Một số hình dáng của phần tử cấu trúc phẳng.
Về cơ bản, xử lý hình thái học giống với lọc không gian ảnh Phần tử cấutrúc dịch qua mỗi điểm ảnh trên ảnh ban đầu và tạo ra điểm ảnh mới sau khi
xử lý Giá trị của điểm ảnh mới phụ thuộc vào thao tác thực hiện Phần lớncác phép toán hình thái học được định nghĩa từ hai phép toán cơ bản là phép
toán co (Erosion) và giãn (Dilation) ảnh nhị phân
1.4.2 Phép co và giãn ảnh nhị phân
Một ứng dụng quan trọng của phép co ảnh nhị phân là dùng để loại trừ
các chi tiết không cần thiết trên hình ảnh (ví dụ như nhiễu hay các thành phần
dư thừa) và nó thường làm mỏng đối tượng trong ảnh nhị phân.
b Phép giãn ảnh (Dilation)
Gọi A là ảnh gốc, B là một phần tử cấu trúc Phép giãn nhị phân của ảnh
A với phần tử cấu trúc B được kí hiệu và chúng ta có thể biểu diễn phéptoán co ảnh dưới dạng phép toán tổ hợp như sau:
Trang 27(1.8)
Như vậy, phép giãn ảnh nhị phân của tập A bởi phần tử cấu trúc B là tập hợp của các điểm z (z là tâm của phần tử cấu trúc B trên tập A) sao cho phản
xạ của Bz giao với tập A tại ít nhất một điểm.
Tổng quát hơn, nếu A là một hình ảnh và B là phần tử cấu trúc có tâm điểm nằm trên hình ảnh A, khi đó phép giãn của hình ảnh A bởi phần tử cấu trúc B có thể được hiểu như quỹ tích của các điểm được phủ bởi phần tử cấu trúc B khi tâm điểm của B di chuyển trên cạnh của hình ảnh A
Ảnh gốc Phép giãn ảnh
Ảnh gốc Phép co ảnh
Hình 1.11 Phép giãn và co ảnh nhị phân sử dụng một phần tử cấu trúc.
Một trong các ứng dụng đơn giản nhất của phép giãn ảnh nhị phân là nốicác nét đứt trong quá trình nâng cao chất lượng ảnh Nhìn chung, phép giãnảnh nhị phân thường làm to đối tượng
1.4.3 Phép đóng và mở ảnh nhị phân
Phép mở ảnh và phép đóng ảnh là hai phép toán được mở rộng từ haiphép toán hình thái cơ bản là phép co và phép giãn ảnh nhị phân Phép mởảnh thường làm trơn biên của đối tượng trong ảnh, như loại bỏ những phầnnhô ra có kích thước nhỏ Phép đóng ảnh cũng tương tự làm trơn biên của đốitượng trong ảnh nhưng ngược với phép mở
Trang 28a Phép mở ảnh (Opening)
Gọi A là đối tượng trong hình ảnh và B là phần tử cấu trúc,(O) là ký hiệu
của phép mở ảnh giữa tập hợp A và phần tử cấu trúc B, phép mở ảnh được xác
định bởi công thức:
= (A B) (1.9)
Như vậy, phép mở ảnh phải trải qua hai giai đoạn là co ảnh và giãn ảnh.Đầu tiên sử dụng phép co với phần tử cấu trúc có kích thước tương ứng để tácđộng lên đối tượng trong ảnh Sau đó áp dụng phép giãn ảnh cho kết quả đóthì chúng ta sẽ thu được kết quả
Hình 1.12 Quá trình thực hiện phép mở ảnh nhị phân.
b Phép đóng ảnh (Closing)
Tương tự như phép mở ảnh, nhưng quá trình thực hiện phép đóng ảnh thìngược lại, với mục đích lấp đầy những chỗ thiếu hụt của đối tượng trên ảnhdựa vào các phần tử cơ bản ban đầu
Với tập hợp A là đối tượng trong ảnh, B là phần tử cấu trúc, là ký hiệu
phép đóng ảnh Khi đó phép đóng ảnh của tập hợp A bởi phần tử cấu trúc B,
kí hiệu là , xác định bởi:
= (1.10)
Trang 29Cho một hình ảnh nhị phân, với đối tượng trong ảnh có những khu vực
bị đứt gãy, không liền mạch Để khắc phục hiện tượng này ta áp dụng phép
đóng ảnh, với A là đối tượng ban đầu, B là phần tử cấu trúc có kích thước 3x3.
Khi áp dụng phép đóng ảnh, đầu tiên đối tượng này sẽ được mở rộng bằng
phép giãn nhị phân theo phần tử cấu trúc B Lúc này những khu vực thiếu hụt
sẽ được bù lên và khu vực đứt sẽ được nối lại Sau đó áp dụng phép co nhịphân để đưa đối tượng về trạng thái ban đầu
Trang 30CHƯƠNG 2
TỔNG QUAN NHẬN DẠNG CHỮ VIẾT TAY
2.1 TỔNG QUAN NHẬN DẠNG CHỮ VIẾT TAY
2.1.1 Nhận dạng chữ
Bài toán nhận dạng chữ là một bài toán nhận dạng tiêu biểu mà ứng
dụng của nó khá phổ biến: các hệ nhận dạng chữ OCR (Optical Character Recognizer) Bài toán này được phân thành 2 nhánh lớn:
oNhận dạng chữ in để phục vụ cho công tác đọc tự động văn bản, đẩynhanh việc nhập thông tin vào máy
oNhận dạng chữ viết tay với các kiểu chữ khác nhau, phục vụ cho cácứng dụng đọc và xử lý hoá đơn, văn bản…
2.1.2 Quá trình nhận dạng
Quá trình nhận dạng gồm 3 giai đoạn chính:
oLựa chọn mô hình biểu diễn đối tượng
oLựa chọn phương pháp nhận dạng và huấn luyện hệ thống
oTiến hành nhận dạng
Khi mô hình biểu diễn đối tượng đã xác định, có thể là định lượng (mô hình tham số) hay định tính (mô hình cấu trúc) thì chúng ta có thể thực hiện giai đoạn học Trước khi nhận dạng hệ thống phải được huấn luyện (học)
nhằm điều chỉnh phân hoạch tập đối tượng thành các lớp Do đó, học là mộtgiai đoạn rất quan trọng trong hệ thống nhận dạng
Học có giám sát
Kỹ thuật phân loại nhờ kiến thức biết trước gọi là học có giám sát Đặcđiểm cơ bản của kỹ thuật này là người ta có một thư viện các mẫu chuẩn đểxem nó thuộc loại nào Ví dụ như trong một ảnh ký tự, người ta muốn phân
Trang 31biệt chữ cái này là chữ ‘C’ hay không phải là chữ ‘C’; tập mẫu này là chữ ‘A’, tập mẫu kia là chữ ‘O’, trong đó các đối tượng này đã được miêu tả Vấn đề
chủ yếu là thiết kế một hệ thống để có thể đối sánh đối tượng trong ảnh vớimẫu chuẩn và quyết định gán cho chúng vào một lớp Việc đối sánh nhờ vàocác thủ tục ra quyết định dựa trên một công cụ gọi là hàm phân lớp hay hàm
ra quyết định
Học không giám sát
Kỹ thuật học này phải tự định ra các lớp khác nhau và xác định các tham
số đặc trưng cho từng lớp Học không có thầy đương nhiên là khó khăn hơn.Một mặt, do số lớp không biết trước, mặt khác những đặc trưng của các lớpcũng không biết trước Kỹ thuật này nhằm tiến hành một cách gộp nhóm cóthể và chọn lựa cách tốt nhất Bắt đầu từ tập dữ liệu, nhiều thủ tục xử lý khácnhau nhằm phân lớp và nâng cấp dần để đạt được một phương án phân loại
2.2 QUY TRÌNH XỬ LÝ NHẬN DẠNG CHỮ VIẾT TAY
Quy trình xử lý nhận dạng chữ viết tay được thể hiện ở hình 2.1.
Hình 2.1 Sơ đồ tổng quát của quá trình nhận dạng chữ viết tay.
2.2.1 Giai đoạn tiền xử lý ảnh
Đây là giai đoạn quan trọng ảnh hưởng đến kết quả nhận dạng Tuỳthuộc vào chất lượng ảnh được quét mà ta tiến hành các thủ tục xử lý khácnhau Vì quá trình xử lý sơ bộ có thể làm chậm tốc độ xử lý của hệ thống nênnếu ảnh quét vào là tốt thì có thể bỏ qua bước này Theo [15] thì bất kỳ mộtứng dụng xử lý ảnh nào cũng bị nhiễu như những điểm cô lập Nhiễu làm tăngđặc trưng không xác định và cho ra kết quả hiệu suất và tính chính xác trong
Trang 32nhận dạng giảm đi Do đó phần tiền xử lý được thực hiện trước khi chúng tabắt đầu phương pháp trích lọc đặc trưng Ở đây chuỗi các hoạt động được tiến
hành liên tiếp như biểu đồ luồng (hình 2.2) Chúng ta sử dụng lọc trung vị cho
ảnh ký tự tốt hơn trong việc thực hiện để loại bỏ những điểm không mongmuốn hoặc những điểm cô lập Sau đó làm mỏng ảnh để có được xương củaảnh ký tự giúp cho quá trình quan sát dễ dàng hơn và làm tăng tốc độ xử lýcủa các quá trình sau
Hình 2.2 Giai đoạn tiền xử lý.
2.2.2 Phương pháp nhận dạng chữ viết tay
Nhận dạng chữ viết là một lĩnh vực thu hút được sự quan tâm nghiên cứucủa các nhà khoa học Lĩnh vực nghiên cứu này bắt đầu từ vài thập kỷ trước
và hiện nay đã thu được một số thành công đáng kể Trên thế giới đã xuấthiện nhiều ứng dụng thương mại thực hiện nhận dạng chữ tùy theo từng yêucầu cụ thể, có thể là nhận dạng chữ in trên một kiểu chữ, hoặc nhiều kiểu chữ
(omni font), có thể là nhận dạng trên một ngôn ngữ hoặc là nhiều ngôn ngữ (omni language), hoặc là nhận dạng chữ số viết tay có ràng buộc Ta có thể kể
Ảnh ký tự (character Image)
Làm dày ảnh (thickening)
Tạo ngưỡng (Thresholding)
Lọc trung vị (Median Filtering)
Tìm xương ảnh (Thinning)
Trang 33ra một số sản phẩm tiêu biểu như: OmniPage ở Việt Nam [24], việc nghiêncứu xây dựng các hệ nhận dạng chữ tiếng Việt cũng được bắt đầu rất sớm.Hiện tại trong lĩnh vực nhận dạng chữ in đã có một số sản phẩm thương mạivới chất lượng tốt như VnDOCR [16] của Viện Công Nghệ Thông Tin,ImageScan của CadPro Tuy nhiên, việc nhận dạng chữ viết tay cũng chưa đạtđược nhiều kết quả Để giải quyết các khó khăn của nhận dạng chữ nói chung
và nhận dạng chữ viết tay nói riêng, các nhà nghiên cứu đã đề xuất rất nhiềucác kỹ thuật nhận dạng dựa trên cơ sở của lý thuyết thống kê, cấu trúc chữ,đặc trưng, HMM và mạng nơron.
a Phương pháp đối sánh mẫu
Kỹ thuật nhận dạng ở đây dựa vào lý thuyết ra quyết định Người taxác định các đặc trưng của cấu trúc chữ như: số nhát cắt ngang, các nétcong hay thẳng, mở hay đóng… Cách sử dụng các dấu hiệu cũng khácnhau Theo các tác giả [3], chữ được chia thành hai nhóm lớn:
o Nhóm thứ nhất là nhóm gồm các chữ có ít nhất là một nhát cắt
Nhóm này gồm các chữ như: C E F G I J L P T Y Z, các số từ 1 đến
7 và số 9
o Nhóm thứ hai gồm các chữ còn lại và hai số 0 và 8 Sử dụng thêm
tính chất đóng mở, ta lại chia nhóm hai thành 4 nhóm nhỏ:
Đối với nhóm 1 do đặc tính của nó nên phải dùng phương pháp cửa sổ
di động để xem xét Dựa vào lát cắt, người ta chia chữ làm 6 thành phần
Trang 34và biểu diễn bởi một vectơ V: V1, V2, V3, V4, V5, V6
Vi = 1 nếu có một điểm đen trên phần i, ngược lại bằng 0 nếu không
Phương pháp này thường sử dụng trong trường hợp chữ viết tay phảiđược viết một cách cẩn thận và đòi hỏi độ chính xác về các đường nét cao hơncác phương pháp khác, vì nó tìm điểm đặc trưng của các chữ số, trong khi đócác chữ số có thể có các đường nét giống nhau Chỉ cần ghi cẩu thả là sẽ dẫnđến trường hợp nhận dạng sai sang chữ số khác
Hiện nay, các loại mạng nơron thông dụng gồm có: mạng truyền thẳng
(feed-forward), mạng hồi qui (feedback), mạng tự tổ chức (self-organizing).
Mạng truyền thẳng feed-forward bao gồm nhiều lớp các đơn vị xử lý phi
tuyến (non-linear processing unit) Một vectơ đầu vào sẽ được đưa vào lớp
vào của mạng và sau đó các tính toán được thực hiện lan truyền thẳng từ lớpvào đến các lớp ẩn và kết thúc ở lớp ra Mạng Perceptron nhiều lớp MLP
(MultiLayer Perceptron) là một trong những loại mạng truyền thẳng điển
hình, được sử dụng rộng rãi trong các hệ thống nhận dạng như nhận dạng ký
Trang 35tự quang, chữ viết tay, nhận dạng tiếng nói…
Trang 36c Phương pháp tiếp cận cấu trúc
Theo [19], cách tiếp cận của phương pháp này dựa vào việc mô tả đốitượng nhờ một số khái niệm biểu diễn đối tượng cơ sở trong ngôn ngữ tựnhiên Để mô tả đối tượng người ta dùng một số dạng nguyên thủy như đoạnthẳng, cung… Mỗi đối tượng được mô tả như một sự kết hợp của các dạngnguyên thủy
Các quy tắc kết hợp các dạng nguyên thủy được xây dựng giống nhưviệc nghiên cứu văn phạm trong một ngôn ngữ, do đó quá trình quyết địnhnhận dạng là quá trình phân tích cú pháp Phương pháp này đặt vấn đề để giảiquyết bài toán nhận dạng chữ tổng quát Tuy vậy, cho đến nay còn nhiều vấn
đề liên quan đến hệ nhận dạng cú pháp chưa được giải quyết độc lập và chưaxây dựng được các thuật toán phổ dụng Hiện nay, nhận dạng theo cấu trúcphổ biến là trích lọc các đặc trưng của mẫu học, phân hoạch bảng ký tự dựatrên các đặc trưng này, sau đó ảnh cần nhận dạng sẽ được trích lọc đặc trưng
và so sánh trên bảng phân hoạch để tìm ra ký tự có các đặc trưng phù hợp.Đối với nhận dạng chữ viết tay rời rạc dựa theo cấu trúc xương và đườngbiên, công việc này đòi hỏi phải xây dựng các đặc trưng của chữ, đặc biệt làđặc trưng về các điểm uốn, điểm gấp khúc và đặc trưng của các nét Sau khitiến hành công đoạn tiền xử lý, công việc tách các nét được tiến hành thôngqua các điểm rẽ nhánh, hay trích chọn đặc trưng cấu trúc xương của chữ, mỗinét đặc trưng bởi cặp chỉ số đầu và cuối tương ứng với thứ tự của điểm rẽnhánh đầu và cuối Cuối cùng là xây dựng cây tìm kiếm, dựa vào đặc trưng vềcấu trúc xương và cấu trúc biên để phân tập mẫu học thành các lớp
Các phương pháp cấu trúc áp dụng cho các bài toán nhận dạng chữ đượcphát triển theo hai bước:
oPhương pháp ngữ pháp
Trang 37Các phương pháp ngữ pháp khởi tạo một số luật sinh để hình thành các
ký tự từ một tập các công thức ngữ pháp nguyên thuỷ Các luật sinh này cóthể kết nối bất kỳ kiểu đặc trưng thống kê và đặc trưng hình thái nào dưới một
số cú pháp hoặc các luật ngữ nghĩa Giống như lý thuyết ngôn ngữ, các luậtsinh cho phép mô tả các cấu trúc câu có thể chấp nhận được và trích chọnthông tin theo ngữ cảnh về chữ viết bằng cách sử dụng các kiểu ngữ phápkhác nhau
Các phương pháp ngữ pháp hầu hết được sử dụng trong giai đoạn hậu xử
lý để sửa các lỗi mà không nhận dạng đã thực hiện sai
oPhương pháp đồ thị
Các đơn vị chữ viết được mô tả bởi các cây hoặc các đồ thị Các dạng
nguyên thủy của ký tự (các nét) được lựa chọn bởi một hướng tiếp cận cấu
trúc Đối với mỗi lớp, một đồ thị hoặc cây được thành lập trong giai đoạnhuấn luyện để mô tả các nét, các ký tự hoặc các từ Giai đoạn nhận dạng gánmột đồ thị chưa biết vào một trong các lớp bằng cách sử dụng một độ đo để
so sánh các đặc điểm giống nhau giữa các đồ thị
Có rất nhiều hướng tiếp cận khác nhau sử dụng phương pháp đồ thị, tiêubiểu là hướng tiếp cận đồ thị phân cấp được dùng trong việc nhận dạng chữviết tay Trung Quốc và Hàn Quốc
d Phương pháp mô hình Markov ẩn
Các tác giả [9] đã trình bày nhận dạng ngôn ngữ ký hiệu từ những hiệuứng tay hoặc dáng điệu tay là miền hoạt động trong nghiên cứu nhận dạng cửchỉ điệu bộ cho mối tương tác giữa người và máy Nhận dạng cử chỉ tay có
nhiều ứng dụng như: Sign Language Recognition (nhận dạng ngôn ngữ ký hiệu), Communication in Video conference (việc giao tiếp trong hội nghị thông qua video), Using a finger as a pointer for selecting option from menu and Interacting with a computer by easy way for children (sử dụng ngón tay
Trang 38như là con trỏ để lựa chọn thuộc tính từ menu và tương tác với máy tính bằng phương pháp dễ nhất cho trẻ em)… Hơn một vài năm trước, nhiều phương
pháp nhận dạng cử chỉ tay được đề xuất và những phương pháp này khác với
những phương pháp khác về mô hình của chúng: Neural Network (mạng nơron), Syntactical Analysis (sự phân tích cú pháp) và Hidden Markov
Model… Từ khi HMM được sử dụng rộng rãi trong nhận dạng chữ viết tay,lời nói, tạo nhãn hiệu phần lời nói và dịch tự động, người ta đã trình bày một
phương pháp để nhận dạng đồ họa cử chỉ tay từ ‘A’ đến ‘Z’ sử dụng HMM để
đưa ra sự đánh giá về hướng giữa bất kỳ một điểm trên quỹ đạo chữ và điểmtrung tâm của chữ đó Phương pháp này phụ thuộc vào cơ sở dữ liệu mà
chúng ta xây dựng và mô hình Left-Right Banded (mô hình Markov chuyển từ trái qua phải) Các tác giả đã tạo được cơ sở dữ liệu của 13000 mẫu từ 100
người và mỗi người viết 5 lần mỗi ký tự 2600 mẫu được sử dụng để huấnluyện HMM và phần còn lại được sử dụng để kiểm tra mô hình nhận dạng.Kết quả nhận dạng trung bình đạt 98.26%, một hiệu suất rất cao so với cácphương pháp nhận dạng khác và tốc độ nhận dạng nhanh
Trang 39Đối với mỗi nhóm chúng ta trích xuất một hay nhiều hơn một vài đặctrưng để có thể phân biệt những ký tự này với gần như 100% độ chính xác Ví
dụ ký tự ‘O’ và ‘Q’ có thể dễ dàng phân biệt theo các hình 2.3, 2.4, 2.5.
a) b)
Hình 2.3 Mẫu ảnh ký tự cho quá trình hậu xử lý: a) Ký tự ‘O’, b) Ký tự ‘Q’.
Hình 2.4 Biểu đồ và đạo hàm dấu hiệu đặc trưng của ký tự ‘O’ ở hình 2.3.
Hình 2.5 Biểu đồ và đạo hàm dấu hiệu đặc trưng của ký tự ‘Q’ ở hình 2.3.
Những biểu đồ trên diễn tả sự khác nhau giữa biểu đồ dấu hiệu đặc trưng
của ký tự ‘Q’ chứa đỉnh nhọn rất lớn và ký tự ‘O’ sử dụng ngưỡng tiêu chuẩn.
Góc (độ)
Đạ
o hà
m củ
a bá
n kín h
Góc (độ)
Bá
n kính
Đạ
o hà
m của bá
n kín h
Bá
n kín h
Trang 40Lưu ý rằng đặc trưng ký hiệu không được sử dụng để huấn luyện mô hìnhHMM của tất cả các ký tự
2.3 CÁC MÔ HÌNH NHẬN DẠNG CHỮ VIẾT TAY
Việc lựa chọn một quá trình nhận dạng có liên quan mật thiết đến kiểu
mô tả mà người ta sử dụng để đặc tả đối tượng Trong nhận dạng, ta phânchia làm hai họ lớn:
- Họ mô tả theo tham số
- Họ mô tả theo cấu trúc
Cách mô tả được lựa chọn sẽ xác định mô hình đối tượng Như vậychúng ta sẽ có hai loại mô hình: mô hình theo tham số và mô hình cấu trúc
2.3.1 Mô hình tham số
Sử dụng các vectơ để đặc tả đối tượng Mỗi phần tử của vectơ mô tả
một đặc tính của đối tượng Tuy nhiên việc lựa chọn đặc trưng nào là hoàntoàn phụ thuộc vào ứng dụng Ví dụ: trong nhận dạng chữ, các tham số làcác dấu hiệu: