1. Trang chủ
  2. » Luận Văn - Báo Cáo

041_Nghiên cứu và ứng dụng trích chọn đặc trưng trong nhận dạng chữ viết tay tiếng Việt

2 1K 14
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên cứu và ứng dụng trích chọn đặc trưng trong nhận dạng chữ viết tay tiếng Việt
Tác giả Đinh Việt Cường
Người hướng dẫn TS. Nguyễn Việt Hà
Trường học Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành Nhận dạng chữ viết tay
Thể loại Luận văn
Năm xuất bản 2023
Thành phố Hà Nội
Định dạng
Số trang 2
Dung lượng 305,68 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Để khắc phục những khó khăn này, em đề xuất giải pháp: nhận dạng nhiều cấp bằng cách chia tập kí tự ra thành nhiều nhóm mỗi nhóm gồm các kí tự gần giống nhau đồng thời áp dụng phương phá

Trang 1

- 12 -

NGHIÊN CỨU VÀ ỨNG DỤNG TRÍCH CHỌN ĐẶC TRƯNG

TRONG NHẬN DẠNG CHỮ VIẾT TAY TIẾNG VIỆT

Đinh Việt Cường

MSSV: 0121815

Email: dvcuong83@yahoo.com

Cán bộ hướng dẫn: TS Nguyễn Việt Hà

1 Giới thiệu

Ngoài những khó khăn chung của bài toán

nhận dạng chữ viết tay, nhận dạng chữ viết tay

tiếng Việt còn có những khó khăn do đặc thù

của tiếng Việt đem lại Hệ thống dấu của tiếng

Việt khiến cho số lượng kí tự là rất lớn trong đó

có những nhóm kí tự rất giống nhau và khó

phân biệt (các kí tự có dấu xuất phát từ cùng

một nguyên âm chỉ khác nhau phần dấu) Điều

này khiến cho hiệu quả nhận dạng là rất thấp

khi chúng ta chỉ nhận dạng tất cả các kí tự trong

một lần (nhận dạng một cấp) Để khắc phục

những khó khăn này, em đề xuất giải pháp:

nhận dạng nhiều cấp bằng cách chia tập kí tự ra

thành nhiều nhóm (mỗi nhóm gồm các kí tự

gần giống nhau) đồng thời áp dụng phương

pháp trích chọn đặc trưng phù hợp cho từng

nhóm kí tự để nâng cao chất lượng nhận dạng

2 Tổng quan về trích chọn đặc trưng

Trích chọn đặc trưng là việc tìm và chọn ra

các đặc trưng đặc thù của mỗi ảnh Các đặc

trưng này có thể là các đặc trưng về mật độ

điểm ảnh, mức xám trung bình của các điểm

ảnh và biên ảnh [1]

Trong bài toán nhận dạng, trích chọn đặc

trưng thường là bước đứng trước bước nhận

dạng và đứng sau bước tiền xử lý Nó có tác

dụng chọn ra các đặc trưng tiêu biểu của ảnh

đầu vào (sau khi đã được qua bước tiền xử lý)

từ đó cung cấp các đặc trưng này cho bước

nhận dạng để xử lý Trích chọn đặc trưng

không những làm giảm kích thước mẫu đầu vào

mà còn làm tăng độ chính xác của hệ nhận dạng

nói chung

Có nhiều phương pháp trích chọn đặc trưng

có thể áp dụng cho bài toán nhận dạng, tuy

nhiên có 3 phương pháp chính thường được sử

dụng đó là: trích chọn đặc trưng theo hướng,

trích chọn đặc trưng theo cấu trúc và trích chọn

đặc trưng theo tính lồi lõm [2] Một cách tương

ứng, các phương pháp này lấy ra đặc trưng của

ảnh theo nhiều cấp độ nhìn nhận khác nhau: từ

một điểm ảnh, một vài điểm ảnh tới rất nhiều

điểm ảnh (có thể trải trên toàn bộ ảnh) Dựa trên đặc thù của mỗi bài toán nhận dạng, chúng

ta cần sử dụng phương pháp trích chọn đặc trưng phù hợp để việc nhận dạng đạt được hiệu quả cao nhất

3 Trích chọn đặc trưng áp dụng cho bài toán

Theo giải pháp được đề ra trong phần giới thiệu, chúng ta cần tiến hành các bước: phân loại kí tự thành các nhóm và sau đó với mỗi nhóm áp dụng phương pháp trích chọn đặc trưng phù hợp

Phân loại kí tự:

Việc phân nhóm các kí tự tiếng Việt viết thường được thực hiện dựa trên quy tắc: các kí

tự gần giống nhau, dễ gây nhầm lẫn thì sẽ được phân về một nhóm Theo quy tắc này các kí tự

có dấu xuất phát từ cùng một chữ cái có phần thân giống nhau, chỉ khác nhau phần dấu nên ta

sẽ xếp vào một nhóm; đối với các kí tự không

có dấu, các kí tự có cấu trúc hình học tương tự như nhau cũng được xếp chung vào một nhóm,

ví dụ (nhóm chữ r và s, nhóm chữ d và đ…)

Trích chọn đặc trưng áp dụng cho các nhóm:

Để nâng cao chất lượng cho hệ nhận dạng nhiều cấp tương ứng với bảng phân nhóm kí tự, việc trích chọn đặc trưng cho ảnh đầu vào cần đạt được những mục tiêu sau:

• Khi cần xếp kí tự vào một nhóm, trích chọn đặc trưng cần lấy ra các đặc trưng của kí tự

là đặc điểm chung của nhóm Các đặc trưng này là đại diện cho mỗi nhóm (các kí tự trong nhóm đều có) và khác với đặc trưng chung của các nhóm khác

• Khi cần phân biệt các kí tự trong cùng một nhóm, trích chọn đặc trưng chỉ có nhiệm vụ chọn ra những đặc trưng đặc thù cho mỗi kí

tự trong nhóm và bỏ qua những đặc trưng là đặc điểm chung của nhóm

Do đó, với từng nhóm kí tự ở mỗi cấp nhận dạng chúng ta cần tìm ra phương pháp trích chọn đặc trưng cho phù hợp Để có thể áp dụng

Trang 2

- 13 -

cho các hệ nhận dạng khác nhau (bằng mô hình

mạng neuron, SVM, hay Markov,…), một cách

tổng quát nhất chúng ta cần tiến hành trích chọn

đặc trưng cho các nhóm sau:

• Trích chọn đặc trưng cho nhóm 0 (ở cấp

nhận dạng đầu tiên) có nhiệm vụ tìm ra

những đặc trưng là đặc thù của mỗi nhóm

con sau nó để xác định xem kí tự đầu vào

thuộc về nhóm nào trong các nhóm con này

• Trích chọn đặc trưng cho các nhóm kí tự

có dấu cùng gốc: nhiệm vụ của trích chọn

đặc trưng trong phần này là tập trung đến

phần dấu của kí tự, tìm ra đặc trưng trên

phần dấu để phân biệt các dấu Khi đã phân

biệt được dấu, chúng ta sẽ phân biệt được

cả kí tự

• Trích chọn đặc trưng cho các nhóm kí tự

không dấu: có nhiệm vụ tìm ra những đặc

trưng riêng của các kí tự trong cùng một

nhóm

4 Thực nghiệm

Do chưa có cơ sở dữ liệu kí tự viết tay tiếng

Việt chuẩn nào nên cùng với việc xây dựng hệ

thống thực nghiệm, chúng em đã tiến hành thu

thập cơ sở dữ liệu theo các tiêu chuẩn sau (đây

cũng chính là phạm vi của bài toán mà chúng

em đang giải quyết):

• Kiểu chữ “đứng” theo nghĩa không quá

nghiêng về bên trái hoặc phải

• Chữ viết không thiếu hoặc thừa nét, dấu

được đặt chuẩn theo quy định của tiếng

Việt

Để kiểm tra tính hiệu quả của các phương

pháp trích chọn đặc trưng, chúng ta thường phải

sử dụng mô hình nhận dạng Mô hình nhận

dạng được em sử dụng trong các thực nghiệm ở

đây là mạng neuron (việc nghiên cứu và cài đặt

mạng neuron được thực hiện bởi một thành

viên khác trong nhóm)

Thực nghiệm 1: Thực nghiệm khẳng định

tính hiệu quả của việc trích chọn đặc trưng

Dùng một mạng neuron để nhận dạng tất cả

các kí tự viết tay tiếng Việt Cố định số lần

huấn luyện mạng là 30, tập mẫu học gồm

10000 mẫu và tập test là 5000 mẫu Tiến hành

hai thực nghiệm sau: Thực nghiệm thứ nhất (1)

chúng ta không trích chọn đặc trưng cho ảnh

đầu vào trước khi mạng neuron nhận dạng và

thực nghiệm thứ hai (2) chúng ta dùng phương

pháp GSC (kết hợp của 3 phương pháp trên) để trích chọn đặc trưng cho ảnh đầu vào Kết quả thực nghiệm được thể hiện trong bảng 4.1:

P 2 TCĐT

% đúng (train)

TG nhận dạng

% đúng (test)

Từ kết quả thực nghiệm trên ta thấy việc trích chọn đặc trưng không những làm giảm thời gian nhận dạng mà còn nâng cao rất nhiều

độ chính xác của việc nhận dạng (từ 76.4% lên 81.12 %)

Thực nghiệm 2: Thực nghiệm khẳng định hiệu quả của việc phân nhóm

Trong thực nghiệm này, việc phân nhóm kí

tự được tiến hành và ứng với mỗi nhóm kí tự đó

ta áp dụng một phương pháp trích chọn đặc trưng phù hợp (bằng cách tiến hành nhiều thực nghiệm khác để lựa chọn) Tỷ lệ nhận dạng

đúng trên tập test là 95.8% cao hơn rất nhiều so

với khi ta không phân nhóm kí tự (81.12%)

Ngoài ra chúng em (em và hai thành viên khác trong nhóm) cũng đã cài đặt được hệ

thống thực nghiệm chung cho bài toán Nhận

dạng đoạn văn bản viết tay tiếng Việt nét liền

và thu được kết quả ban đầu rất khả quan

5 Kết luận

Sau quá trình nghiên cứu về trích chọn đặc trưng và bài toán nhận dạng chữ viết tay tiếng Việt, em đã đề xuất một giải pháp khắc phục được những khó khăn của bài toán và cài đặt được hệ thực nghiệm nhận dạng chữ viết tay tiếng Việt với tỷ lệ nhận dạng đúng khá cao (95.8%) dựa trên việc phân nhóm kí tự và áp dụng trích chọn đặc trưng phù hợp cho mỗi nhóm Đây là một tỷ lệ cao so với các hệ nhận dạng chữ viết tay ở Việt Nam hiện nay

Trong thời gian tới em sẽ tiếp tục mở rộng phạm vi của bài toán và hướng tới phát triển các ứng dụng thực tế như nhận dạng các bảng

kê khai tiếng Việt

6 Tài liệu tham khảo

[1] William K Pratt Digital Image Processing,

2001

[2] Sargur N Srihari Gradient-Based contour

encoding for character recognition, Pattern

Recognition, 1996

Ngày đăng: 06/10/2013, 18:20

HÌNH ẢNH LIÊN QUAN

cho các hệ nhận dạng khác nhau (bằng mô hình mạng neuron, SVM, hay Markov,…), mộ t cách  tổng quát nhất chúng ta cần tiến hành trích chọn  đặc trưng cho các nhóm sau:  - 041_Nghiên cứu và ứng dụng trích chọn đặc trưng trong nhận dạng chữ viết tay tiếng Việt
cho các hệ nhận dạng khác nhau (bằng mô hình mạng neuron, SVM, hay Markov,…), mộ t cách tổng quát nhất chúng ta cần tiến hành trích chọn đặc trưng cho các nhóm sau: (Trang 2)

TỪ KHÓA LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w