9Nhận dạng chữ in: đã được giải quyết gần như trọn vẹnsản phẩm FineReader 9.0 của hãng ABBYY có thể nhận dạngchữ in theo 192 ngôn ngữ khác nhau, phần mềm nhận dạngchữ Việt in VnDOCR 4.0
Trang 1ĐẠI HỌC DUY TÂN
KHOA CÔNG NGHỆ THÔNG TIN
Chủ đề
NHẬN DẠNG CHỮ VÀ CÁC HƯỚNG NGHIÊN CỨU
Người trình bày
TS PHẠM ANH PHƯƠNG
Bộ môn Cơ sở Tin học
Friday, March 04, 2011
Trang 2NỘI DUNG TRÌNH BÀY
1 Giới thiệu
2 Sơ đồ tổng quát của một hệ nhận dạng chữ
5 Các kiến thức cần thiết để nghiên cứu
4 Các hướng tiếp cận nhận dạng
3 Các phương pháp trích chọn đặc trưng
Trang 39Nhận dạng chữ viết tay: với những mức độ ràng buộc
khác nhau về cách viết, kiểu chữ phục vụ cho các ứng dụngđọc và xử lý các chứng từ, hóa đơn, phiếu ghi, bản viết taychương trình Nhận dạng chữ viết tay được tách ra hai
hướng phát triển: nhận dạng chữ viết tay trực tuyến
(on-line) và chữ viết tay ngoại tuyến (off-(on-line).
9Nhận dạng chữ in: phục vụ cho công việc tự động hóa đọc
tài liệu, tăng tốc độ và chất lượng nhập thông tin vào máytính trực tiếp từ các nguồn tài liệu
Trang 49Nhận dạng chữ in: đã được giải quyết gần như trọn vẹn
(sản phẩm FineReader 9.0 của hãng ABBYY có thể nhận dạngchữ in theo 192 ngôn ngữ khác nhau, phần mềm nhận dạngchữ Việt in VnDOCR 4.0 của Viện Công nghệ Thông tin Hà Nội
có thể nhận dạng được các tài liệu chứa hình ảnh, bảng vàvăn bản với độ chính xác trên 98%)
Trang 5LỊCH SỬ PHÁT TRIỂN
Friday, March 04, 2011
• Các sản phẩm nhận dạng chữ thương mại có từ những năm
1950, khi máy tính lần đầu tiên được giới thiệu tính năng mới
về nhập và lưu trữ dữ liệu hai chiều bằng cây bút viết trên mộttấm bảng cảm ứng Công nghệ mới này cho phép các nhànghiên cứu làm việc trên các bài toán nhận dạng chữ viết tayon-line
• Nhận dạng chữ được biết đến từ năm 1900, khi nhà khoa họcngười Nga Tyuring phát triển một phương tiện trợ giúp chonhững người mù
Giai đoạn 1: (1900 – 1980)
Trang 6LỊCH SỬ PHÁT TRIỂN
¾ Năm 1954, máy nhận dạng chữ đầu tiên đã được phát triển bởi
J Rainbow dùng để đọc chữ in hoa nhưng rất chậm
¾ Mô hình nhận dạng chữ viết được đề xuất từ năm 1951 do phátminh của M Sheppard được gọi là GISMO, một robot đọc-viết
Giai đoạn 1: (1900 – 1980) (tt)
¾ Năm 1967, Công ty IBM đã thương mại hóa hệ thống nhậndạng chữ
Trang 7đã được phát triển trong giai đoạn trước đã có được môi trường
lý tưởng để triển khai các ứng dụng nhận dạng chữ
Giai đoạn 2: (1980 – 1990)
¾ Trong giai đoạn này, các hướng nghiên cứu chỉ tập trung vàocác kỹ thuật nhận dạng hình dáng chứ chưa áp dụng cho thôngtin ngữ nghĩa Điều này dẫn đến sự hạn chế về hiệu suất nhậndạng, không hiệu quả trong nhiều ứng dụng thực tế
Trang 8LỊCH SỬ PHÁT TRIỂN
¾ Các kỹ thuật nhận dạng kết hợp với các phương pháp luận
trong lĩnh vực học máy (Machine Learning) được áp dụng
rất hiệu quả
¾ Các hệ thống nhận dạng thời gian thực được chú trọng tronggiai đoạn này
Giai đoạn 3: (Từ 1990 đến nay)
¾ Một số công cụ học máy hiệu quả như mạng nơ ron, mô hình
Markov ẩn, SVM (Support Vector Machines) và xử lý ngôn
ngữ tự nhiên
Trang 9Trích chọn đặc trưng
Huấn luyện Nhận dạng
Hậu xử lý
Văn bản được
nhận dạng
Friday, March 04, 2011
Trang 10Giai đoạn tiền xử lý
• Nhị phân hóa ảnh • Lọc nhiễu • Tìm xương
• Hiệu chỉnh độ nghiêng
Trang 11Giai đoạn tách chữ
Friday, March 04, 2011
Trang 12CÁC PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG
• Biến đổi toàn cục và khai triển chuỗi
• Đặc trưng thống kê
• Đặc trưng hình học và hình thái
Trang 1313 Friday, March 04, 2011
Biến đổi toàn cục và khai triển chuỗi
• Biến đổi Fourier
• Biến đổi Wavelet
• Khai triển Karhunent-Loeve
PCA - Principal Component Analysis
• Phương pháp mô men
Trang 14Đặc trưng thống kê
Phân vùng (Zone) Các giao điểm và khoảng cách
Trang 1515 Friday, March 04, 2011
Đặc trưng thống kê (tt)
Chu tuyến (Contour Profile) Projection histograms
Trang 16Đặc trưng thống kê (tt)
Đặc trưng hướng (Direction Features)
Các ký tự được mô tả như các vectơ mà các
Trang 1717 Friday, March 04, 2011
Đặc trưng hình học và hình thái
• Các cấu trúc hình thái: dựa trên các cấu trúc nguyên thủy
(đoạn thẳng, cung) tạo ra ký tự
• Các đại lượng hình học: các ký tự được biểu diễn bằng độ đo
của các đại lượng hình học như tỷ số giữa chiều rộng và chiều cao của hộp chứa ký tự, quan hệ khoảng cách giữa hai điểm, so sánh
độ dài giữa hai nét, độ rộng của một nét, khối lượng chữ hoa vàchữ thường của các từ, độ dài từ
• Đồ thị và cây: Đầu tiên, các từ hoặc các ký tự được phân chia
thành một tập các đối tượng nguyên thủy như các nét, các điểm chạc Sau đó, các thành phần nguyên thủy được sử dụng trong các đồ thị liên quan
Trang 18tỏ ra kém hiệu quả.
Sử dụng trong giai đoạn hậu
xử lý để sửa các lỗi mà khối nhận dạng đã thực hiện sai
Chữ viết được mô tả bởi các đồ thị, mỗi đồ thị là sự kết hợp của
Trang 19CÁC HƯỚNG TIẾP CẬN NHẬN DẠNG (tt)
Friday, March 04, 2011
• Tiếp cận thống kê dựa trên cơ sở ba giả thuyết chính:
1 Phân bố của tập đặc trưng là phân bố Gauss hoặc trong trường hợp xấu nhất là phân bố đều.
2 Có các số liệu thống kê đầy đủ có thể dùng cho mỗi lớp.
3 Tập ảnh {I} có thể trích chọn một tập đặc trưng {fi}∈F, i∈{1, ,n} mà tập đặc trưng này đại diện cho mỗi lớp mẫu riêng biệt.
Trang 20CÁC HƯỚNG TIẾP CẬN NHẬN DẠNG (tt)
• Các phương pháp học máy tiên tiến
Mô hình Markov ẩn (HMM – Hidden Markov
Model)
Mô hình Markov ẩn (HMM – Hidden Markov
Model)
Mạng nơ ron (NN - Neural Network) Mạng nơ ron
(NN - Neural Network)
Máy vectơ tựa
Máy vectơ tựa
Trang 21CÁC HƯỚNG TIẾP CẬN NHẬN DẠNG (tt)
Friday, March 04, 2011
• Kết hợp các chiến lược nhận dạng
Mỗi kỹ thuật phân lớp
đều có những ưu điểm
và nhược điểm riêng.
Kết hợp với nhau theo một cách nào đó để nâng cao hiệu quả nhận dạng
Xây dựng các kiến trúc kết hợp phân lớp
Kiến trúc tuần tự
Kiến trúc song song
Kiến trúc lai ghép
Trang 22CÁC HƯỚNG TIẾP CẬN NHẬN DẠNG (tt)
Kiến trúc tuần tự
Kiến trúc song song
Chuyển kết quả đầu ra của một máy phân lớp thành đầu vào của máy phân lớp tiếp theo, các chiến lược
tiêu biểu: Boosting, thác nước
Kết nối kết quả của các máy phân lớp độc lập của nhiều chiến lược khác nhau Tiêu biểu
nhất là chiến lược bỏ phiếu và luật quyết định Bayes
Lai ghép giữa hai kiến trúc tuần tự
Trang 23CÁC KIẾN THỨC CẦN THIẾT ĐỂ NGHIÊN CỨU
Friday, March 04, 2011
• Xử lý ảnh (Image Processing)
• Học máy (Machine Learning)
• Xác suất thống kê và toán ứng dụng
• Ngôn ngữ học và ngôn ngữ học tính toán
(Linguistic and Computational Linguistic)
Mạng nơ ron, HMM SVM
Boosting,
Kernel method
Bayes k-NN,
n-Gram http://www.kernel-machines.org/
Trang 24CÁC BỘ DỮ LIỆU CHUẨN PHỤC VỤ NGHIÊN CỨU
• Bộ dữ liệu USPS (United States Postal Service)
• Bộ dữ liệu MNIST (National Institute of Standard and Technology of the United States)
gồm 7291 mẫu dùng để Train và 2007 mẫu khác để test,
mỗi mẫu là một ảnh đa cấp xám kích thước 16×16.
gồm 60.000 mẫu dùng để Train và 10.000 mẫu khác để test, mỗi mẫu là một ảnh đa cấp xám kích thước 28×28.
Trang 25MỘT SỐ KẾT QUẢ THỰC NGHIỆM TRÊN TẬP MNIST
Friday, March 04, 2011
CLASSIFIER ERROR (%) Reference
K-nearest-neighbors, L3 1.22 Kenneth Wilder, U Chicago
K-NN, shape context matching 0.63 Belongie et al IEEE PAMI 2002
K-NN with non-linear deformation
(P2DHMDM) 0.52 Keysers et al IEEE PAMI 2007
SVM deg 4 polynomial 1.1 LeCun et al 1998
Reduced Set SVM deg 5 polynomial 1.0 LeCun et al 1998
Virtual SVM deg-9 poly [distortions] 0.8 LeCun et al 1998
Trainable feature extractor + SVMs 0.54 Lauer et al., Pattern Recognition 40-6, 2007
3-layer NN, 500+300 HU 1.53 Hinton, unpublished, 2005
2-layer NN, 800 HU, MSE 0.9 Simard et al., ICDAR 2003
2-layer NN, 800 HU, cross-entropy 0.7 Simard et al., ICDAR 2003
NN, 784-500-500-2000-30 + nearest neighbor,
RBM + NCA training 1.0 Salakhutdinov and Hinton, AI-Stats 2007
http://yann.lecun.com/exdb/mnist/
Trang 26KẾT LUẬN
• Nhận dạng chữ in đã được giải quyết gần như trọn vẹn
• Nhận dạng chữ viết tay (online/Offline) vẫn là bài toán mở
• Trong nước: các giải pháp nhận dạng chữ viết tay tiếng Việt vẫn đang được quan tâm, nghiên cứu.
• Xu hướng sử dụng các kiến trúc lai ghép giữa các phương pháp nhận dạng, Boosting để tăng tốc độ cũng như độ chính xác nhận dạng.
• Mô hình ngôn ngữ thống kê N-Gram trong giai đoạn hậu
Trang 2727 Friday, March 04, 2011
KẾT LUẬN (tt)
• Phát triển các ứng dụng nhận dạng trên các Form chữ viết tay
Trang 29Friday, March 04, 2011 29
Cảm ơn quý vị đã chú ý lắng nghe!