1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nhận dạng các biểu mẫu tài liệu

27 162 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 27
Dung lượng 495,19 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

TS Ngô Quốc Tạo và Thạc sỹ Nguyễn Tiến Sỹ, người thầy đã truyền đạt cho tôi những kiến thức đầu tiên về Xử lý ảnh và nhận dạng, người thầy đã dìu dắt, hướng dẫn tôi và cho tôi những ý ki

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

PHAN VĂN THUẬN

NHẬN DẠNG CÁC BIỂU MẪU TÀI LIỆU

Chuyên ngành: Công nghệ thông tin

Mã số: 1.01.10

LUẬN VĂN THẠC SỸ

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS NGÔ QUỐC TẠO

HÀ NỘI – 2007

Trang 2

LỜI CẢM ƠN!

Luận văn là kết quả đạt được sau hai năm học cao học (2004-2006) tại trường Đại học Công Nghệ - Đại học Quốc Gia Hà Nội và quá trình nghiên cứu, công tác tại Trung tâm nghiên cứu và phát triển Công nghệ phần mềm, Đại học Công nghệ, ĐHQGHN

Trước tiên tôi xin gửi lời biết ơn chân thành nhất tới PGS TS Ngô Quốc Tạo

và Thạc sỹ Nguyễn Tiến Sỹ, người thầy đã truyền đạt cho tôi những kiến thức đầu tiên về Xử lý ảnh và nhận dạng, người thầy đã dìu dắt, hướng dẫn tôi và cho tôi những ý kiến quý báu, những lời khuyên bổ ích trong suốt quá trình tìm hiểu và hoàn thành luận văn này

Tôi xin bày tỏ lòng biết ơn đến các thầy cô trong Trường Đại học Công nghệ

đã dạy dỗ tôi trong suốt hai năm học cao học vừa qua Tôi xin gửi lời cảm ơn đến Trung tâm nghiên cứu và phát triển Công nghệ Phần mềm, nơi đã tạo điều kiện cho chúng tôi học tập trong suốt thời gian học cao học

Tôi xin bày tỏ lòng cám ơn sâu sắc đến anh chị, bạn bè cùng lớp K11T2 đã cho tôi những lời động viên, góp ý và giúp đỡ tôi trong quá trình học tập và thực hiện luận văn Tôi xin cảm ơn các thầy, anh chị và các bạn trong Trung tâm nghiên cứu và phát triển Công nghệ phần mềm luôn cho tôi những lời động viên, khích lệ, những góp ý sâu sắc và những định hướng để tôi sớm hoàn thành luận văn này Xin cảm ơn Khoa Công nghệ thông tin, Trường Đại học Công nghệ, ĐHQGHN luôn tạo điều kiện tốt cho tôi học tập và công tác trong suốt quá trình học tập và làm luận văn

Cuối cùng tôi xin bày tỏ lòng biết ơn sâu sắc tới gia đình, nơi luôn ủng hộ, giúp đỡ và ở bên tôi trong mọi hoàn cảnh khó khăn

Hà Nội, tháng 11/2007

Phan Văn Thuận

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan kết quả đạt được trong luận văn là sản phẩm của riêng cá nhân tôi, không sao chép lại của người khác Luận văn là kết quả của quá trình học tập, nghiên cứu và làm việc nghiêm túc trong suốt hơn hai năm cao học Trong toàn

bộ nội dung của luận văn, những điều được trình bày hoặc là kết quả nghiên cứu của cá nhân hoặc là kết quả tổng hợp từ nhiều nguồn tài liệu khác Những kết quả nghiên cứu nào của cá nhân đều được chỉ ra rõ ràng trong luận văn Các thông tin tổng hợp hay các kết quả lấy từ nhiều nguồn tài liệu khác thì được trích dẫn một cách đầy đủ và hợp lý Tất cả các tài liệu tham khảo đều có xuất xứ rõ ràng và được trích dẫn hợp pháp

Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định cho lời cam đoan của mình

Hà Nội, tháng 11/2007

Phan Văn Thuận

Trang 4

MỤC LỤC

MỞ ĐẦU

CHƯƠNG 1 - Tổng quan 81.1 Đặt vấn đề 81.2 Nội dung và cấu trúc của luận văn 10

CHƯƠNG 2 - Khái quát một số phương pháp phân vùng ảnh và khử nghiêng Error! Bookmark not defined.

2.1 Tổng quan về xử lý biểu mẫu. Error! Bookmark not defined.

2.1.1 Các đặc trưng của biểu mẫu Error! Bookmark not defined.

2.1.2 Quá trình xử lý biểu mẫu dựa trên Ngôn ngữ mô tả biểu mẫu Error! Bookmark not defined.

2.1.3 Quá trình xử lý biểu mẫu dựa trên đăng ký biểu mẫu (Form

registration) Error! Bookmark not defined.

2.1.4 Hệ thống xử lý biểu mẫu Error! Bookmark not defined.

2.2 Các kỹ thuật thường được sử dụng trong nhận dạng cấu trúc biểu mẫu. Error! Bookmark not defined.

2.2.1 Chỉnh độ nghiêng của văn bản biểu mẫu Error! Bookmark not defined.

not defined.

defined.

Bookmark not defined.

2.2.2 Phân tích trang Error! Bookmark not defined.

defined.

defined.

defined.

CHƯƠNG 3 - Đề xuất giải pháp sử dụng biểu mẫu động Error! Bookmark not defined.

3.1 Hệ thống xử lý biểu mẫu động Error! Bookmark not defined.

3.1.1 Giới thiệu về hệ thống xử lý biểu mẫu Error! Bookmark not defined.

Trang 5

3.1.2 So sánh với các phương pháp truyền thống Error! Bookmark not defined.

3.1.3 Phương pháp nhân dạng cơ bản Error! Bookmark not defined.

3.1.4 Thiết kế hệ thống Error! Bookmark not defined.

3.2 Các thuật toán xử lý ảnh áp dụng cho xử lý biểu mẫu động Error! Bookmark not defined.

3.2.1 Khái niệm biểu mẫu động Error! Bookmark not defined.

3.2.2 Lược đồ xử lý biểu mẫu động Error! Bookmark not defined.

3.2.3 Các phương pháp tách chữ viết tay ra khỏi khung điền Error! Bookmark not defined.

3.2.4 Xác định vị trí các khung điền Error! Bookmark not defined.

3.3.1 Thuật toán bóc viền Error! Bookmark not defined.

3.3.2 Thuật toán xác định góc nghiêng Error! Bookmark not defined.

3.4 Thực nghiệm Error! Bookmark not defined.

3.4.1 Môi trường thực nghiệm Error! Bookmark not defined.

3.4.2 Thực nghiệm đối với các thuật toán cơ bản trên biểu mẫu động

Error! Bookmark not defined.

not defined.

Bookmark not defined.

Bookmark not defined.

3.4.3 Thực nghiệm đối với các thuật toán khác Error! Bookmark not defined.

Bookmark not defined.

Trang 6

3.4.3.2 Thực nghiệm nhận dạng đường thẳng dày Error! Bookmark not defined.

Kết luận Error! Bookmark not defined.

o TÀI LIỆU THAM KHẢO 12

Trang 7

DANH MỤC HÌNH ẢNH

Hình 2.1: Lược đồ quá trình xử lý biểu mẫu dựa trên Ngôn ngữ mô tả biểu mẫu

Error! Bookmark not defined.

Hình 2.2: Một hệ thống xử lý biểu mẫu văn bản Error! Bookmark not defined Hình 2.3: (a) Ảnh trước khi khử nghiêng; (b) Ảnh sau khi khử nghiêng Error!

Bookmark not defined.

Hình 2.4: (a), (b), (c) : Các đối tượng trên ảnh ; (d), (e), (f) : Phân cụm các đối

tượng [17] Error! Bookmark not defined Hình 3.1 Phân tách chữ viết tay và các khung Error! Bookmark not defined Hình 3.2 Hệ thống biểu mẫu động Error! Bookmark not defined Hình 3.3: Data set Error! Bookmark not defined Hình 3.4: Vùng mã hóa thông tin Error! Bookmark not defined Hình 3.5: Một minh họa về biểu mẫu động Error! Bookmark not defined Hình 3.6: Luồng xử lý Error! Bookmark not defined Hình 3.7: Hình ảnh của chấm nhỏ Error! Bookmark not defined Hình 3.8: Một cấu trúc của khung Error! Bookmark not defined Hình 3.9: Một biểu mẫu động Error! Bookmark not defined Hình 3.10: Một số cấu trúc chấm nhỏ Error! Bookmark not defined Hình 3.11: Một lược đồ xử lý biểu mẫu động Error! Bookmark not defined Hình 3.12 : Khung trước khi tách Error! Bookmark not defined Hình 3.13 : Khung sau khi đã tách chữ viết tay Error! Bookmark not defined Hình 3.14 : Chữ viết tay sau khi đã tách khung Error! Bookmark not defined Hình 3.15 : Phép chiếu theo chiều ngang Error! Bookmark not defined Hình 3.16 : Phép chiếu khung theo chiều dọc Error! Bookmark not defined Hình 3.17 : Phép chiếu theo chiều dọc các điểm ảnh Error! Bookmark not

defined.

Hình 3.18: Ảnh scan có đường viền màu đen Error! Bookmark not defined.

Hình 3.19: Các kiểu hình dạng khác nhau của cụm, mỗi màu tương ứng với một

cụm Error! Bookmark not defined Hình 3.20: Mô tả điểm lân cận trực tiếp Error! Bookmark not defined Hình 3.21: Mô tả điểm lân cận Error! Bookmark not defined Hình 3.22: Mô tả điểm nối Error! Bookmark not defined Hình 3.23: Ảnh scan có đường viền màu đen và ảnh sau khi đã bóc viền đen Error!

Bookmark not defined.

Hình 3.24: (a) Ảnh scan, các đường màu đỏ là các đường chiếu ở góc nghiêng θ

(b) Ảnh được xấp xỉ bởi các hình bình hành Error! Bookmark not defined.

Hình 3.25: (a) Ảnh scan (b) (c) (d) Ảnh các đường chiếu đen và trắng ở các góc nghiêng -2.5 0

, -3.5 0 , 2 0 Error! Bookmark not defined.

Hình 3.26: (a) Ảnh scan (b) Ảnh sau khi chính xác góc nghiêng Error! Bookmark

not defined.

Hình 3.27 Ảnh trước và sau khi xoay đúng chiều Error! Bookmark not defined Hình 3.28 Phiếu trả lời được quét ngược chiều Error! Bookmark not defined.

Trang 8

dạng chữ Trong luận văn này chúng tôi trình bày một phương pháp sử dụng “cấu

trúc các chấm nhỏ” để tạo ra các khung điền thông tin Cấu trúc các chấm nhỏ này

được tạo ra bởi rất nhiều các chấm nhỏ hoặc các đoạn thẳng nhỏ Phương pháp của chúng tôi có những đặc điểm nổi bật sau:

viết tay ra khỏi khung điền

chóng và dễ dàng bằng các thuật toán xử lý ảnh đơn giản, đặc biệt trong các trường hợp chữ viết tay đè lên khung

xử lý tự động các ký tự trong khung

Chúng tôi đã tiến hành thực nghiệm trên nhiều mẫu biểu mẫu động và thu được những kết quả rất khả quan

Trang 9

Từ khóa – Xử lý ảnh, Phân tích trang tài liệu, Nhận dạng, Biểu mẫu, Phép toán hình thái , Active form.

Trang 10

CHƯƠNG 1 - Tổng quan

1.1 Đặt vấn đề

Trong thực tế, công việc nhập dữ liệu chiếm một chi phí khá lớn do khối lượng dữ liệu phải nhập và công sức bỏ ra để đảm bảo việc nhập có độ chính xác cao Vì thế từ lâu vấn đề nhập liệu tự động đã được đầu tư nhiều Nguồn dữ liệu phổ biến nhất là các văn bản trên giấy, do đó giải pháp chủ yếu là phải lấy ảnh và nhận dạng Nhận dạng là bài toán đã xuất hiện khá lâu và đã đạt được nhiều thành tựu to lớn Tuy nhiên nhận dạng một văn bản bất kì bao gồm cả các văn bản có lẫn chữ viết tay hay hình ảnh luôn là một bài toán khó và hiện nay vẫn chưa thật sự có giải pháp hoàn chỉnh

Trên thế giới, hiện đã có nhiều ứng dụng liên quan đến vấn đề nhận dạng văn bản hay nhập dữ liệu tự động Có thể kể đến như : sản phẩm FineReader, Scan

To Office của hãng ABBYY, Smart scan Xpress của Pegasus Image, các ứng dụng chấm thi tự động …Ở Việt Nam cũng đã có các ứng dụng nhận dạng văn bản như VNDocR của Viện Công nghệ Thông tin hay ImageScan của CardPro Đây là các ứng dụng nhận dạng chữ in Việc nhận dạng chữ viết tay đang còn là một thách thức Một số nghiên cứu về nhận dạng chữ viết tay đã được thực hiện tại Viện CNTT và Bộ môn Công nghệ Phần mềm Tuy nhiên các ứng dụng này hiện vẫn còn rất nhiều hạn chế do khả năng nhận dạng chữ viết tay chưa đạt được độ chính xác cần thiết để có thể áp dụng rộng rãi trên thực tế

Có hai đối tượng văn bản cần nhận dạng có đặt trưng khác nhau đòi hỏi có các phương pháp xử lý khác nhau Đó là nhận dạng văn bản phi cấu trúc và nhận dạng văn bản kiểu biểu mẫu với các dữ liệu chữ được sắp xếp trong những vùng xác định Cùng với sự phát triển của công nghệ xử lý ảnh hiện nay, các thuật toán nhận dạng ngày càng chính xác và đưa ra được các kết quả đáng tin cậy Ngay cả đối với chữ viết tay cũng có thể đạt được độ chính xác cao với điều kiện là chỉ nhận dạng từng chữ riêng biệt và chữ viết đẹp Với các văn bản thông thường, ta khó có thể đạt

Trang 11

được điều này Tuy nhiên, các biểu mẫu nhập liệu là kiểu văn bản có cấu trúc và ta

có thể đưa ra một số quy tắc ràng buộc để tăng độ chính xác cho việc nhận dạng - chẳng hạn như: các chữ được viết riêng rẽ trên các ô riêng biệt của các vùng nhập liệu Mặt khác, việc nhận dạng chữ viết không cần thiết phải tiến hành trên toàn bộ ảnh của tài liệu mà chỉ giới hạn ở những vùng nhập dữ liệu Đặc điểm này cũng cho phép ta tiếp cận bài toán một cách có hiệu quả hơn, chẳng hạn có thể sử dụng các thông tin sẵn có từ thiết kế biểu mẫu làm tham số nhận dạng Một khía cạnh khác của nhận dạng biểu mẫu tài liệu là các dữ liệu nhận dạng được của mỗi vùng của

biểu mẫu sẽ phải được tự động gắn vào một trường dữ liệu xác định của ứng dụng

Luận văn này chỉ giới hạn tập trung trình bày về quá trình nhận dạng các vùng dữ liệu, trích chọn ra chữ viết tay để đưa vào module nhận dạng chữ tiếng

Việt Cụ thể, chúng tôi đề xuất sử dụng “biểu mẫu động” và các thuật toán xử lý trên biểu mẫu động, bao gồm xác định các khung điền thông tin, tách chữ viết tay ra

khỏi khung điền, mã hóa thông tin vào khung điền, giải mã các thông tin từ khung

điền dựa vào cấu trúc các điểm nhỏ Thêm vào đó, chúng tôi cũng sẽ đề xuất một

Trang 12

 Thực nghiệm

- Thử nghiệm độ chính xác của các thuật toán

- Đánh giá kết quả, hiệu quả của thuật toán và nhận xét

1.2 Nội dung và cấu trúc của luận văn

Bài toán con được thực hiện trong khoá luận này là bài toán phân vùng ảnh

và tách ra được các chữ viết tay để phục vụ cho module nhận dạng chữ viết tay Nắm bắt được khó khăn cũng như những đặc trưng của bài toán này, chúng tôi đã

áp dụng một giải pháp mới, đó là sử dụng biểu mẫu động, có độ chính xác cao trong

việc tiền xử lý biểu mẫu, phân vùng và tách ra được các chữ viết tay để nhận dạng

Với nội dung chính là trình bày những lý thuyết cơ bản về tiền xử lý ảnh, phân vùng ảnh khóa luận được tổ chức như sau:

Chương 1: Tổng quan

Phần đầu của chương giới thiệu về bài toán nhập dữ liệu tự động nói chung: tình hình Việt Nam và thế giới, các thành tựu đã đạt được trong lĩnh vực nhận dạng chữ viết, những khó khăn cũng như các đặc trưng của bài toán nhận dạng biểu mẫu nhập dữ liệu so với các bài toán nhận dạng khác Phần tiếp theo giới thiệu về hệ thống chung mà chúng tôi đang tiến hành nghiên cứu và xây dựng: nghiên cứu và xây dựng hệ thống nhập dữ liệu tự động bằng nhận dạng hình ảnh, phạm vi giới hạn

và quy trình giải quyết bài toán Từ đó nêu lên nội dung mà chúng tôi nghiên cứu và thực hiện trong bài toán chung

Chương 2: Tổng quan một số phương pháp phân vùng ảnh và khử nghiêng

Chương hai trình bày về các phương pháp phân vùng ảnh, khử nghiêng, các khái niệm và tầm quan trọng của khử nghiêng và phân vùng ảnh trong nhận dạng biểu mẫu Chương này cũng xác định các ưu nhược điểm và phạm vi áp dụng của mỗi phương pháp để từ đó lựa chọn giải pháp thích hợp

Chương 3: Đề xuất giải pháp sử dụng biểu mẫu động

Trang 13

Chương này trình bày về phần việc chính mà tôi đã thực hiện trong đề tài

chung: Giải pháp sử dụng hệ thống xử lý biểu mẫu động cho việc phân vùng ảnh và

động

động

Chương 4: Kết luận

Chương bốn tổng kết lại những kết quả đạt được và những việc cần được tiếp tục thực hiện trong tương lai

Trang 14

o TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt

STT

nâng cao cho xử lý biểu mẫu động và ứng dụng”, Hội thảo khoa học quốc

gia lần thứ 3-Nghiên cứu cở bản và ứng dụng công nghệ thông tin, 10-2007

luận tốt nghiệp, đại học Công nghệ, đại học Quốc gia Hà nội, 5-2004

nhập tài liệu tự động bằng nhận dạng quang học”, Khóa luận tốt nghiệp , đại

học Công nghệ, đại học Quốc gia Hà nội, 5-2006.

Tài liệu tiếng Anh

STT

editing document, Proc SPIE, Vol.4307, pp184- 192 (2001)

Information Carriers for Printed Documents, Proc.15th ICPR’2000, Vol.4,

pp380-384 (2000.9)

From Dot Texture for Active Form, Proc ACM Symposium on Document

Engineering, pp105- 144 (2003.11)

Takeshi SAKURADA Masaki NAKAGAWA: “A Prototype of An Active

Form System”, Seventh International Conference on Document Analysis

and Recognition (ICDAR), Edinburgh, Scotland, pp921-925 (2003.8)

Trang 15

[9] Koichi Kise, Yasuo Miki, Keinosuke Matsumoto: Backgrounds as

Information Carriers for Printed Documents, Proc.15th ICPR’2000, Vol.4,

pp380-384 (2000.9)

[10] Bilan Zhu, Taro Shimamura, Masaki Nakagawa:Document processing

Visualation, Image and Image processing, September 8-10 -2003, Spain

[11] S.V Rice, F.R Jenkins, and T.A Nartker The Fifth Annual Test of OCR

Accuracy Technical Report TR-96-01, Information Science Research

Institute, University of Nevada, Las Vegas, April 1996

[12] RM Haralick Document Image Understanding: Geometric and Logical

Layout In IEEE Computer Society Con] Computer Vision and Pattern

Recognition (CVPR), pages 385390, Seattle, Washington, 1994

[13] Y.Y Tang, S.\\I Lee, and C.Y Suen Automatic Document Processing: a

Survey Pattern Recognition, 29(12):19311952, 1996

[14] A.K Jain and B Yu Document Representation and Its Application to Page

Decomposition Technical Report MSUCPS:TR96-63, Michigan State

University, East Lansing, MI, December 1996

[15] L O'Gorman and R Kasturi Dowment Image Analysis IEEE Computer

Society Press, Los Alamitos, CA, 1995

[16] F Fignoni, S Messelodi, and C.M Modena Review of the State of the Art

in Optical Character Recognition Part 1: Machine Printed Documents

Technical Report #9607-03, IRST, Trento, Italy, June 1996

[17] J.M White and G.D Rohrer Image Thresholding for Optical Character

Recognition and Other Apllications Requiring Character Image Extraction

IBM Journal of Besercl; and Development, 27(4):400411, July 1983

[18] T Taxt, P.J Flynn, and A.K Jain Segmentation of Document Images IEEE

Transaction on Pattern Analysis and Machine Intelligence, 1(12):13221329, December 1989

[19] L O'Gorman Binarization and Multithresholding of Document Images

Ngày đăng: 16/11/2016, 20:56

TỪ KHÓA LIÊN QUAN

w