1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Nhận dạng ký tự quang cho văn bản có cấu trúc, ứng dụng trong đọc chứng minh thư nhân dân TT

24 9 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 24
Dung lượng 594,21 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Trên cơ sở nghiên cứu bài toán bóc tách thông tin ký tự quang cho văn bản có cấu trúc và các phương pháp học máy để xử lý bài toán nhận dạng chứng minh thư nhân dân.. Các bước cơ bản bản

Trang 1

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

-

Nguyễn Đình Mậu

NHẬN DẠNG KÝ TỰ QUANG CHO VĂN BẢN CÓ CẤU TRÚC, ỨNG DỤNG TRONG ĐỌC CHỨNG

MINH THƯ NHÂN DÂN

Chuyên nghành: Hệ thống thông tin

Mã số: 8.48.01.04

TÓM TẮT LUẬN VĂN THẠC SĨ

HÀ NỘI - NĂM 2021

Trang 2

Luận văn được hoàn thành tại:

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

Người hướng dẫn khoa học: TS Nguyễn Trọng Khánh

Phản biện 1: ……… Phản biện 2: ………

Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Công nghệ Bưu chính Viễn thông

Vào lúc: giờ ngày tháng … năm 2021

Có thể tìm hiểu luận văn tại:

- Thư viện của Học viện Công nghệ Bưu chính Viễn thông

Trang 3

MỞ ĐẦU

1 Lý do chọn đề tài:

Chúng ta sống trong thời đại khi bất kỳ tổ chức hoặc công ty nào mở rộng quy mô và để phù hợp phải thay đổi cách họ nhìn vào công nghệ và thích nghi với sự thay đổi nhanh chóng của công nghệ Chúng ta đã biết Google đã số hóa sách như thế nào hoặc cách Google Earth sử dụng NLP để xác định địa chỉ Hoặc làm thế nào có thể đọc văn bản trong các tài liệu kỹ thuật số như hóa đơn, giấy tờ pháp lý, vv Đó chính là bài toán nhận dạng ký tự quang học (OCR) được thực hiện trong luận văn này Nhận dạng ký tự quang học là ứng dụng công nghệ chuyên dùng để đọc text ở file ảnh Được biết đến là một công cụ scan kỹ thuật số chuyên nhận dạng các ký tự, chữ viết tay, hay chữ đánh máy, công nghệ này chuyên dùng để truyền tải, nhập liệu dữ liệu, nhận dạng ký tự quang học có khả năng số hóa nhiều tài liệu khác nhau như: hóa đơn, hộ chiếu, danh thiết, tài liệu, Bằng cách áp dụng nhận dạng ký tự quang học, quy trình số hóa tài liệu, tìm kiếm và chỉnh sửa sẽ được thực hiện một cách tự động, tiết kiệm không gian lưu trữ

và thuận tiện trong việc tra cứu thông tin

Xuất phát từ thực tế trên, tôi đã tìm hiểu đề tài “Nhận dạng ký

tự quang cho văn bản có cấu trúc, ứng dụng trong đọc chứng minh thư nhân dân” dưới sự hướng dẫn của TS Nguyễn Trọng Khánh Luận văn tập trung nghiên cứu, giải quyết các vấn đề liên quan đến bài toán phân tích cấu trúc, xác định và bóc tách các trường thông tin cần nhận dạng trên CMND

Tổng quan vấn đề nghiên cứu

Trên cơ sở nghiên cứu bài toán bóc tách thông tin ký tự quang cho văn bản có cấu trúc và các phương pháp học máy để xử lý bài toán nhận dạng chứng minh thư nhân dân Tác giả tiến hành nghiên cứu và thực nghiệm trên tập dữ liệu chứng minh thu thập, sau đó đánh giá kết quả thu được dựa trên phương pháp học máy nghiên cứu

Mục đích nghiên cứu

Trang 4

- Nghiên cứu phương pháp phân tích cấu trúc ảnh, bóc tách xác định từng vùng chữ, vùng nào là caption, vùng nào là content trong các tài liệu có cấu trúc thu thập

- Nghiên cứu phương pháp học máy phù hợp áp dụng cho bài toán nhận dạng chứng minh thư nhân dân

- Xây dựng chương trình bóc tách các trường thông tin áp dụng trên tập dữ liệu hình ảnh thu thập được, đánh giá các kết quả thực nghiệm và đưa ra kết luận

Đối tượng nghiên cứu

- Tập dữ liệu ảnh chứng minh thư nhân dân thu thập được

- Phương pháp học máy sâu Deep Learning áp dụng cho bài toán dọc ký tự quang ORC

Phương pháp nghiên cứu

- Nghiên cứu lý thuyết

- Thu thập và xử lý dữ liệu

- Thực nghiệm và phân tích đánh giá kết quả thu được

2 Bố cục luận văn

Luận văn chia làm 3 chương chính:

CHƯƠNG I : GIỚI THIỆU BÀI TOÁN

1.1 Tổng quan về nhận dạng ký tự quang

1.2 Các bước cơ bản bản nhận dạng ký tự quang học

1.3 Mô tả bài toán nhận dạng chứng minh nhân dân

CHƯƠNG 2: KỸ THUẬT HỌC SÂU TRONG PHÂN TÍCH CHỨNG MINH THƯ

2.1 Các phương pháp sử dụng để thực hiện bài toán nhận dạng

ký tự quang học

2.2 Mô hình mạng học sâu SSD-V2

2.2.1 Đa hộp

2.2.2 Đa hộp giới hạn và IoU

2.2.3 Những cải tiến của mô hình SSD-v2

Trang 5

2.6 Nhận diện ký tự với mô hình transformer

2.6.1 Nhược điểm của mô hình RNN

Trang 6

CHƯƠNG I : GIỚI THIỆU BÀI TOÁN

1.1 Tổng quan về nhận dạng ký tự quang

Chúng ta sống trong thời đại khi bất kỳ tổ chức hoặc công ty nào mở rộng quy mô và để phù hợp phải thay đổi cách họ nhìn vào công nghệ và thích nghi với sự thay đổi nhanh chóng của công nghệ Chúng ta đã biết Google đã số hóa sách như thế nào hoặc cách Google Earth sử dụng NLP để xác định địa chỉ Hoặc làm thế nào có thể đọc văn bản trong các tài liệu kỹ thuật số như hóa đơn, giấy tờ pháp lý, vv Đó chính là bài toán nhận dạng ký tự quang học (OCR) được thực hiện trong luận văn này Nhận dạng ký tự quang học là ứng dụng công nghệ chuyên dùng để đọc text ở file ảnh Được biết đến là một công cụ scan kỹ thuật số chuyên nhận dạng các ký tự, chữ viết tay, hay chữ đánh máy, công nghệ này chuyên dùng để truyền tải, nhập liệu dữ liệu, nhận dạng ký tự quang học có khả năng số hóa nhiều tài liệu khác nhau như: hóa đơn, hộ chiếu, danh thiết, tài liệu, Bằng cách áp dụng nhận dạng ký tự quang học, quy trình số hóa tài liệu, tìm kiếm và chỉnh sửa sẽ được thực hiện một cách tự động, tiết kiệm không gian lưu trữ

và thuận tiện trong việc tra cứu thông tin

Hiện nay đối với ảnh chụp văn bản cần nhận dạng, ta có thể chia

ra làm 2 loại :

- Văn bản có cấu trúc - Văn bản trong một tài liệu đánh máy thường xuất hiện trong những nền tảng tiêu chuẩn, có hàng lối, phông chữ tiêu chuẩn Các văn bản này thường gặp ở những giấy tờ tùy thân như chứng minh thư nhân dân, giấy khai sinh, hộ chiếu hay có thể là trang sách Đối với loại dữ liệu này, việc trích xuất đặc trưng, xác định

vị trí ký tự và nhận dạng ký tự sẽ không khó nếu văn bản không bị mờ, nhòe hoặc điều kiện ánh sáng quá thiếu

Văn bản phi cấu trúc - Văn bản tại các vị trí ngẫu nhiên trong một khung cảnh tự nhiên Văn bản thưa thớt, không có cấu trúc hàng thích hợp, nền phức tạp, tại vị trí ngẫu nhiên trong ảnh và không có phông chữ chuẩn Những văn bản này có thể là biển hiệu quảng cáo, hóa đơn, biển số xe hoặc chữ viết tay Trong phạm vi đồ án, các kí tự

Trang 7

nằm trên sản phẩm có thể được gọi là văn bản phi cấu trúc vì chúng

có màu sắc, vị trí ngẫu nhiên trong ảnh

1.2 Các bước cơ bản bản nhận dạng ký tự quang học

Trước khi có sự bùng nổ của công nghệ học sâu vào năm 2012, nhận dạng ký tự quang học vẫn là một vấn đề thách thức đặc biệt là khi hình ảnh văn bản được chụp trong môi trường không bị giới hạn Khi hình ảnh chứa nền phức tạp, nhiễu, phông chữ khác nhau và biến dạng hình học trong hình ảnh Điều đó được thể hiện rất rõ trong các trường hợp hóa đơn khách hàng chụp gửi lại cho chúng ta có thể ở trong những điều kiện rất xấu như lóa (do giấy in hóa đơn rất bóng),

bị nhàu nát, không đủ sáng, bị ướt, Chính trong những tình huống như vậy nhận dạng ký tự quang học kết hợp cùng học sâu là biện pháp tốt nhất được sử dụng để nhận dạng văn bản

Bất kỳ một hệ thống nhận dạng ký tự quang học nào đều tuân theo 3 bước sau:

- Tiền xử lý ảnh: Trước khi xác định được vị trí các kí tự, ảnh cần được tiền xử lý để đạt được một số yêu cầu nhất định Ảnh có thể được nâng cao chất lượng, phân cụm để giảm số lượng giá trị trong ảnh, lọc nhiễu sử dụng các bộ lọc như Gaussian, Median hoặc có thể đưa về hệ màu đen trắng đối với những bài toán có nền đơn giản như phân loại biển số xe để giảm chiều dữ liệu cũng như kích thước dữ liệu Đối với một số bài toán sử dụng công nghệ học sâu, ảnh sẽ được thay đổi kích thước nhất định để phù hợp với mô hình Quá trình tiền

xử lý này cần thực hiện sao cho giảm nhiễu và các thông tin ngoại lai nhiều nhất tuy nhiên vẫn phải giữ lại được những thông tin cần thiết cho quá trình xác định và nhận diện sau này

- Phát hiện ký tự: Sau khi ảnh được tiền xử lý, ta sẽ tiến hành xác định vị trí của ký tự hoặc nhóm các kí tự có cấu trúc giống nhau Mục tiêu của nhận diện ký tự tương tự như các bài toán xác định vật thể với vật thể đặc thù ở đây là vị trí của các ký tự Hiện nay, với sự bùng nổ của công nghệ học sâu, các mô hình được sinh ra để giải quyết những bài toán với độ chính xác cao lên tới hơn 90% có thể được kể đến như

DB, Text Fusnet[13], CRAFT[14], Các mô hình này cho kết quả nhận

Trang 8

diện tốt trên các bộ văn bản có cấu trúc lẫn những văn bản phi cấu trúc, tiêu biểu như nhận diện biển báo (1 loại kĩ trên không chỉ thể hiện được kết quả tốt trên các bộ văn bản có cấu trúc mà còn ở cả các loại văn bản phi cấu trúc tiêu biểu nhất là biển báo (1 loại văn bản cảnh)

- Nhận diện ký tự: Sau khi đã xác định các các hộp giới hạn, từng hộp sẽ được xử lý để nhận dạng được các kí tự có trong vùng ảnh đó đó

và ghép thành từ cụ thể Hiện nay, một số công cụ thông dụng thường được sử dụng Tesseract, Google API tuy nhiên khi gặp những trường hợp ảnh bị mờ hoặc méo thường sẽ cho ra kết quả không được tốt Các

mô hình học sâu hiện nay thường dùng cho bài toán này như CRNN, ASTER, MORAN, DAN có cấu trúc chung là biến đổi ảnh - trích xuất đặc trưng – mô hình tuần tự – dự đoán Trong đó mô hình tuần tự và dự đoán là 2 phần đóng vai trò quan trọng nhất của một mô hình nhận dạng

ký tự với các kiến trúc nổi tiếng là LSTM, CTC và Attention

1.3 Mô tả bài toán nhận dạng chứng minh nhân dân

Với bài toán nhận diện ký tự quang học cho dữ liệu là ảnh chứng minh thư, có rất nhiều quy trình được đề xuất, trong đó thường bao gồm các bước sau:

- Xác định vùng quan tâm chưa chứng minh thư Do ảnh chụp chứng minh thư thường bị nghiêng, chéo, ta cần phải chuẩn hóa ảnh trước khi cho vào mô hình nhận diện Các phương pháp thường được

sử dụng là: xác định biên của chứng minh thư, xác định góc của chứng minh thư Xác định biên của chứng minh minh thư có thể sử dụng các

kỹ thuật như tìm đường biên trong xử lý ảnh, phân vùng đối tượng, xác định các góc của chứng minh thư Từ kết quả thực nghiệm, phương pháp tiếp cận bằng cách xác định bốn góc của chứng minh thư đạt kết quả ổn định nhất nên trong luận văn này, phương pháp này sẽ được sử dụng Dựa vào vị trí bốn góc của chứng minh thư, ta xác định được vùng quan tâm chứa chứng minh thư trong ảnh Phần này, tác giả của luận văn đề xuất sử dụng mô hình học sâu SSD - v2[12] để xác định 4 góc: trên - trái, trên - phải, dưới - trái, dưới - phải Từ đó, tác giả có thể xác định được tâm xoay và ma trận chuyển vị để từ đó thu được ảnh vùng quan tâm ở vị trí tốt được sử dụng cho phần nhận diện ký tự ở bước 2

Trang 9

- Xác định hộp giới hạn của từng dòng ký tự của ảnh Các hộp giới hạn ứng với từng dòng ký tự của ảnh Phần xác định ký tự này có thể sử dụng các mô hình nhận diện vật thể phổ biến hoặc dùng các mô hình chuyên biệt cho các bài toán xác định văn bản cảnh như: CTPN[15], EAST[16], Differentiable Binarization[17], CRAFT,

- Nhận diện nội dung các ký tự trong các hình giới hạn ký tự Phần nhận dạng ký tự có thể sử dụng các framework như Tesseract hoặc các mô hình về nhận dạng ký tự văn bản cảnh: CRNN-CTC loss, Attention-OCR,

- Sử dụng mạng thần kinh đồ thị để xác định các trường thông tin Đầu tiên, ta cần nhận diện được chữ trong văn bản, các chữ này được đưa qua mô hình trích xuất đặc trưng Những đặc trưng này biểu diễn mối liên hệ giữa vị trí của các từ trong văn bản với nhau Những

dữ liệu này được đưa qua một mô hình đồ thị để phân loại đặc trưng này thuộc những nốt nào Các nút ở đây chính là các hộp giới hạn thu được sau bước xác định ký tự Dựa vào kết quả phân loại này, ta sẽ có kết quả cuối cùng là các trường thông tin của văn bản Việc định nghĩa các cạnh của graph thuộc phần mô hình đồ thị sẽ được đề cập ở phần sau của luận văn Luận văn này áp dụng phương pháp được đề xuất trong bài báo Invoice-GCN, với việc xây dựng và tổng hợp đặc trưng

từ nhiều kiểu / thuộc tính khác

Sau cùng, ta "nối" tất cả các thuộc tính đó lại và thu được 1 vectơ đặc trưng 317 chiều (1 + 1 + 3 + 8 + 4 + 300) làm nốt đặc trưng ban đầu ứng với từng nốt (từng hình hộp chứa ký tự) trong đồ đồ thị

CHƯƠNG 2: KỸ THUẬT HỌC SÂU TRONG PHÂN TÍCH

CHỨNG MINH THƯ

Phần lớn các mô hình dùng cho nhận diện ký tự hiện nay đều dựa trên công thức: Biến đổi ảnh - Trích xuất đặc trưng - Mô hình hóa tuần tự - Dự đoán Với mô hình SOTA trong những năm gần đây là TPS- ResNet - BiLSTM - Attention, quyết định sử dụng mô hình này phục vụ cho bài toán Text Recognition cho chứng minh thư

Trang 10

2.1 Các phương pháp sử dụng để thực hiện bài toán nhận dạng ký tự quang học

Phương pháp học sâu hiện nay đã đạt được nhiều thành tựu trong ứng dụng nhận dạng, xử lý hình ảnh Do đó, trong luận văn này, tác giả không sử dụng phương pháp học máy cổ điển mà sử dụng phương pháp học sâu để xử lý bài toán nhận dạng ký tự quang học cho văn bản có cấu trúc ứng dụng trong đọc thông tin trong chứng minh thư Bài toán nhận diện ký tự quang học được chia làm ba phần:

- Phát hiện vùng ROI của chứng minh thư: sử dụng mạng thần kinh nhân tạo SSD-v2 để xác định góc của chứng minh thư Từ đó, xoay thẳng chứng minh thư để tăng chất lượng nhận diện ký tự

- Xác định vùng vùng quan tâm dựa trên cấu trúc văn bản bản

sử dụng mô hình CRAFT Vùng quan tâm sẽ chứa từng ký tự của văn bản, bốn góc của vùng quan tâm tạo thành hình chữ nhật Vùng ảnh này sẽ được sử dụng ở bước sau: nhận diện ký tự

- Nhận diện ký tự: mô hình transformer đã cải thiện khả năng nhận diện ký tự trong văn bản có ngữ nghĩa so với mô hình RNN và

mô hình LSTM Mô hình này transformer được sử dụng trong bài toán này dựa trên mô hình vietocr

2.2 Mô hình mạng học sâu SSD-V2

2.2.1 Đa hộp

Kỹ thuật hộp giới hạn được sử dụng trong mạng SSD được lấy

ý tưởng từ bài báo Scalable, High-Quality Object Detection[18] của tác giả Szegedy, là một phương pháp sử dụng nhiều hộp giới hạn với các kích thước khác nhau để phù hợp với mọi đối tượng có kích thước lớn, nhỏ khác nhau nhau Dưới đây là kiến trúc của mạng thần kinh

dự đoán đa kích thước được sử dụng trong SSD

2.2.2 Đa hộp giới hạn và IoU

Logic xoay quanh việc tạo ra hộp giới hạn khá phức tạp Trong

đa hộp giới hạn, một khái niệm được sử dụng là điểm ban đầu (hay thuật ngữ mỏ neo trong Faster-R-CNN), là những hộp giới hạn được tính toán trước với kích thước cố định tuân theo phân phối gần với

Trang 11

phân phối của hộp giới hạn mẫu Trong thực tế, những điểm ban đầu này được lựa chọn khi tỉ lệ Intersection/Union (IoU) lớn hơn ngưỡng 0.5 Như mô tả trong hình dưới dây, giá trị IoU tại 0.5 vẫn chưa đủ tốt nhưng nó sẽ là một điểm bắt đầu tương đối ổn cho thuật cho giải thuật hồi quy hộp giới hạn(chính là việc học tham số của mạng) - điều này thực sự sẽ tiết kiệm thời gian và đem lại kết quả tốt hơn rất nhiều so với việc bắt đầu tại một vị trí ngẫu nhiên

Do đó đa hộp giới hạn bắt đầu với những điểm ban đầu như một

dự đoán ban đầu được khởi tạo tạo với mục đích hồi quy gần hơn với hộp giới hạn thực sự Kiến trúc của đa hộp giới hạn bao gồm 11 điểm ban đầu với mỗi tế bào bản đồ đặc trưng (8x8, 6x6, 4x4, 3x3, 2x2) và cho 1 điểm ban đầu với 1x1 bản đồ đặc trưng dẫn đến tổng cộng có

1420 điểm ban đầu với mỗi hình ảnh, do đó cho phép bao phủ hoàn toàn một bức ảnh đầu vào trên những tỉ lệ khác nhau, khiến việc nhận diện những đối tượng ở các kích thước khác nhau trở nên dễ dàng

2.2.3 Những cải tiến của mô hình SSD-v2

Một vài cải tiến nhỏ được thêm vào mạng để cải thiện khả năng nhận diện và phân loại đối tượng

a Điểm ban đầu cố định:

Không giống với đa hộp giới hạn, mỗi tế bào bản đồ đặc trưng sẽ được gắn với một tập các hình hộp giới hạn mặc định với số chiều và tỉ

lệ khác nhau Các điểm ban đầu này được lựa chọn bằng tay Phương pháp này cho phép SSD tạo được các hình hộp giới hạn cho bất kỳ kiểu đầu vào nào mà không yêu cầu một bước huấn luyện đầu để tạo ra các điểm ban đầu Ví dụ, giả sử ta có 2 điểm là (x1, y1) và (x2, y2) với mỗi tập hộp giới hạn mặc định cho mỗi tế bào bản đồ đặc trưng và c nhóm cho việc phân loại Với một ma trận đặc trưng có kích thước f = m x n, SSD sẽ tính ra f x b x (4+c) giá trị cho ma trận đặc trưng này Hình dưới đây minh họa cho ý tưởng của điểm ban đầu cố định

b Phân loại:

Đa hộp giới hạn không thể phân loại được đối tượng,vì vậy, với mỗi hình hộp giới hạn được đưa ra, SSD tính toán luôn sự dự đoán cho việc phân loại của đối tượng và các lớp có thể trong tập dữ liệu

Trang 12

mã của mạng CRAFT tương tự với mạng UNet Nó sẽ bỏ qua những kết nối tổng hợp các đặc trưng ở mức low-levels

Mạng CRAFT dự đoán hai giá trị cho từng ký tự:

- Điểm vùng: chứa thông tin liên quan đến vùng của ký tự, được dùng để định vị ký tự

- Điểm mối quan hệ: 'Mối quan hệ' là mức độ mà một chất có

xu hướng kết hợp với một chất khác Vì vậy, điểm số mối quan hệ hợp nhất các ký tự thành một trường hợp duy nhất (một từ) CRAFT tạo ra hai bản đồ dưới dạng đầu ra: Bản đồ mức khu vực và Bản đồ sở thích Bản đồ mối quan hệ là một đại diện bằng hình ảnh cho nhân vật

có liên quan

Cuối cùng, điểm số sở thích và khu vực được kết hợp để đưa ra hộp giới hạn của mỗi từ Các tọa độ theo thứ tự: (trái-trên), (phải-trên), (phải-dưới), (trái-dưới), trong đó mỗi tọa độ là một cặp (x, y) CRAFT

là mô hình đa ngôn ngữ, có nghĩa là nó có thể phát hiện văn bản được viết bằng bất kỳ tập lệnh nào, không chỉ tiếng Latinh

Sau khi sử dụng CRAFT, với kết quả hộp giới hạn được trích xuất ra, ta sẽ được ảnh chứa ký tự đã được tách rời (như hình dưới) Tuy nhiên, trong thực tế, chứng minh thư có thể bị nghiêng hoặc cong Chính vì vậy, phép biến đổi TPS[14] để chỉnh các ảnh bị cong hoặc nghiêng về ảnh bình thường

Mạng TPS sẽ có đầu vào là 2 tập điểm mốc tương ứng nhau, mỗi tập gồm K điểm thuộc ảnh đầu vào và ảnh rectified Do yêu cầu của ảnh rectified là các chữ phải thẳng, vì thế K điểm mốc thuộc ảnh

Ngày đăng: 15/04/2022, 10:59

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w