1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Nhận dạng ký tự quang cho văn bản có cấu trúc, ứng dụng trong đọc chứng minh thư nhân dân

55 7 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 55
Dung lượng 2,58 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Danh sách hình ảnh Hình 1: Văn bản có cấu trúc 10 Hình 7: Kết quả nhận diện text với từng trường thông tin trong chứng minh thư 14 Hình 8: Pipeline của hệ thống nhận diện ký tự quang học

Trang 2

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

Trang 3

BẢN CAM ĐOAN

Tôi cam đoan đã thực hiện kiểm tra mức độ tương đồng nội dung luận văn qua phần mềm DoIT một cách trung thực và đạt kết quả mức độ tương đồng là: 17% toàn bộ nội dung luận văn Bản luận văn kiểm tra qua phần mềm là bản cứng luận văn đã nộp để bảo vệ trước Hội đồng Nếu sai tôi xin chịu các hình thức kỷ luật theo quy định hiện hành của Học viện

Hà Nội, ngày 09 tháng 02 năm 2022

HỌC VIÊN CAO HỌC (ký và ghi rõ họ tên)

Nguyễn Đình Mậu

Trang 4

LỜI CẢM ƠN

Trước tiên, tôi xin bày tỏ lời cảm ơn sâu sắc đến các thầy, cô giáo trong khoa sau Đại học nói riêng và các thầy cô giáo của trường Học viện Công nghệ Bưu chính viễn thông nói chung lời cảm ơn chân thành nhất

Đặc biệt, tôi xin gửi lời cảm ơn sâu sắc tới TS Nguyễn Trọng Khánh

người đã tận tình chỉ bảo, hướng dẫn tôi trong suốt quá trình tìm hiểu, nghiên cứu để hoàn thành luận văn tốt nghiệp của mình Nếu không có những hỗ trợ

về kiến thức chuyên môn của thầy thì chắc chắn tôi không thể hoàn thành đúng thời hạn

Đồng thời, tôi xin cảm ơn tới gia đình, những người thân yêu luôn bên cạnh, động viên, giúp đỡ tôi trong suốt quá trình học tập Bên cạnh đó tôi cũng xin gửi lời cảm ơn đến các thành viên trong lớp M19CQIS01-B đã chia sẻ những kinh nghiệm, kiến thức quý báu cho tôi trong quá trình nghiên cứu thực hiện luận văn

Thời gian thực hiện luận văn, kinh nghiệm về các lĩnh vực nghiên cứu của bản thân còn hạn chế, luận văn cũng còn thiếu sót, rất mong nhận được những ý kiến đóng góp của Quý thầy cô và các bạn để tôi có thể hoàn thiện luận văn một cách tốt nhất./

Hà Nội, ngày 09 tháng 02 năm 2022

Trang 5

Mục lục

CHƯƠNG 2: KỸ THUẬT HỌC SÂU TRONG PHÂN TÍCH CHỨNG MINH THƯ 12

Trang 6

Danh sách hình ảnh

Hình 1: Văn bản có cấu trúc 10

Hình 7: Kết quả nhận diện text với từng trường thông tin trong chứng minh thư 14 Hình 8: Pipeline của hệ thống nhận diện ký tự quang học sử dụng mạng mạng thần

Hình 13: Kiến trúc trúc của mạng thần kinh dự đoán đa kích thước trong mô hình SSD 19

Trang 7

Hình 27: Cập nhật đầu ra cho tế bào LSTM 29

Hình 42: Hình ảnh cần nhận diện 41 Hình 43: Kết quả nhận diện và thời gian xử lý 41

Trang 8

Danh mục từ viết tắt

STT Ký hiệu chữ viết tắt Chữ viết đầy đủ

Trang 9

CHƯƠNG I : GIỚI THIỆU BÀI TOÁN 1.1 Tổng quan về nhận dạng ký tự quang

Chúng ta sống trong thời đại khi bất kỳ tổ chức hoặc công ty nào mở rộng quy

mô và để phù hợp phải thay đổi cách họ nhìn vào công nghệ và thích nghi với sự thay đổi nhanh chóng của công nghệ Chúng ta đã biết Google đã số hóa sách như thế nào hoặc cách Google Earth sử dụng NLP để xác định địa chỉ hoặc làm thế nào có thể đọc văn bản trong các tài liệu kỹ thuật số như hóa đơn, giấy tờ pháp lý Đó chính là bài toán nhận dạng ký tự quang học (OCR) được thực hiện trong luận văn này Nhận dạng ký tự quang học là ứng dụng công nghệ chuyên dùng để đọc text ở file ảnh Được biết đến là một công cụ scan kỹ thuật số chuyên nhận dạng các ký tự, chữ viết tay, hay chữ đánh máy, công nghệ này chuyên dùng để truyền tải, nhập liệu dữ liệu, nhận dạng ký tự quang học có khả năng số hóa nhiều tài liệu khác nhau như: hóa đơn,

hộ chiếu, danh thiết, tài liệu Bằng cách áp dụng nhận dạng ký tự quang học, quy trình số hóa tài liệu, tìm kiếm và chỉnh sửa sẽ được thực hiện một cách tự động, tiết kiệm không gian lưu trữ và thuận tiện trong việc tra cứu thông tin

Hiện nay đối với ảnh chụp văn bản cần nhận dạng, ta có thể chia ra làm 2 loại :

- Văn bản có cấu trúc: Văn bản trong một tài liệu đánh máy thường xuất hiện trong những nền tảng tiêu chuẩn, có hàng lối, phông chữ tiêu chuẩn Các văn bản này thường gặp ở những giấy tờ tùy thân như chứng minh thư nhân dân, giấy khai sinh,

hộ chiếu hay có thể là trang sách Đối với loại dữ liệu này, việc trích xuất đặc trưng, xác định vị trí ký tự và nhận dạng ký tự sẽ không khó nếu văn bản không bị mờ, nhòe hoặc điều kiện ánh sáng quá thiếu

Văn bản phi cấu trúc: Văn bản tại các vị trí ngẫu nhiên trong một khung cảnh

tự nhiên Văn bản thưa thớt, không có cấu trúc hàng thích hợp, nền phức tạp, tại vị trí ngẫu nhiên trong ảnh và không có phông chữ chuẩn Những văn bản này có thể là biển hiệu quảng cáo, hóa đơn, biển số xe hoặc chữ viết tay Trong phạm vi luận văn, các kí tự nằm trên sản phẩm có thể được gọi là văn bản phi cấu trúc vì chúng có màu sắc, vị trí ngẫu nhiên trong ảnh

Trang 10

Hình 1: Văn bản có cấu trúc

Hình 2: Văn bản phi cấu trúc

1.2 Các bước cơ bản bản nhận dạng ký tự quang học

Trước khi có sự bùng nổ của công nghệ học sâu vào năm 2012, nhận dạng ký

tự quang học vẫn là một vấn đề thách thức đặc biệt là khi hình ảnh văn bản được chụp trong môi trường không bị giới hạn Khi hình ảnh chứa nền phức tạp, nhiễu, phông chữ khác nhau và biến dạng hình học trong hình ảnh Điều đó được thể hiện rất rõ trong các trường hợp hóa đơn khách hàng chụp gửi lại cho chúng ta có thể ở trong những điều kiện rất xấu như lóa (do giấy in hóa đơn rất bóng), bị nhàu nát, không đủ sáng, bị ướt Chính trong những tình huống như vậy, nhận dạng ký tự quang học kết hợp cùng học sâu là biện pháp tốt nhất được sử dụng để nhận dạng văn bản

Hình SEQ Hình \* ARABIC 1: Văn bản có cấu trúc

Hình SEQ Hình \* ARABIC 2: Văn bản phi cấu trúc

Trang 11

Hình 3: Sơ đồ cơ bản của một hệ thống nhận dạng ký tự quang học

Bất kỳ một hệ thống nhận dạng ký tự quang học nào đều tuân theo 3 bước sau:

- Tiền xử lý ảnh: Trước khi xác định được vị trí các kí tự, ảnh cần được tiền xử

lý để đạt được một số yêu cầu nhất định Ảnh có thể được nâng cao chất lượng, phân cụm để giảm số lượng giá trị trong ảnh, lọc nhiễu sử dụng các bộ lọc như Gaussian, Median hoặc có thể đưa về hệ màu đen trắng đối với những bài toán có nền đơn giản như phân loại biển số xe để giảm chiều dữ liệu cũng như kích thước dữ liệu Đối với một số bài toán sử dụng công nghệ học sâu, ảnh sẽ được thay đổi kích thước nhất định để phù hợp với mô hình Quá trình tiền xử lý này cần thực hiện sao cho giảm nhiễu và các thông tin ngoại lai nhiều nhất tuy nhiên vẫn phải giữ lại được những thông tin cần thiết cho quá trình xác định và nhận diện sau này

- Phát hiện ký tự: Sau khi ảnh được tiền xử lý, ta sẽ tiến hành xác định vị trí của ký

tự hoặc nhóm các kí tự có cấu trúc giống nhau Mục tiêu của nhận diện ký tự tương tự như các bài toán xác định vật thể với vật thể đặc thù ở đây là vị trí của các ký tự Hiện nay, với sự bùng nổ của công nghệ học sâu, các mô hình được sinh ra để giải quyết những bài toán với độ chính xác cao lên tới hơn 90% có thể được kể đến như DB, Text Fusnet[13], CRAFT[14], Các mô hình này cho kết quả nhận diện tốt trên các bộ văn bản có cấu trúc lẫn những văn bản phi cấu trúc, tiêu biểu như nhận diện biển báo (một loại kĩ thuật trên không chỉ thể hiện được kết quả tốt trên các bộ văn bản có cấu trúc mà còn ở cả các loại văn bản phi cấu trúc tiêu biểu nhất là biển báo - loại văn bản cảnh)

Hình 4: Kết quả nhận diện hộp giới hạn sử dụng mô hình xác định ký tự

Trang 12

- Nhận diện ký tự: Sau khi đã xác định các các hộp giới hạn, từng hộp sẽ được

xử lý để nhận dạng được các kí tự có trong vùng ảnh đó đó và ghép thành từ cụ thể

Hiện nay, một số công cụ thông dụng thường được sử dụng Tesseract, Google API

tuy nhiên khi gặp những trường hợp ảnh bị mờ hoặc méo thường sẽ cho ra kết quả

không được tốt Các mô hình học sâu hiện nay thường dùng cho bài toán này như

CRNN, ASTER, MORAN, DAN có cấu trúc chung là biến đổi ảnh - trích xuất đặc

trưng - mô hình tuần tự - dự đoán Trong đó mô hình tuần tự và dự đoán là 2 phần

đóng vai trò quan trọng nhất của một mô hình nhận dạng ký tự với các kiến trúc nổi

tiếng là LSTM, CTC và Attention

CHƯƠNG 2: KỸ THUẬT HỌC SÂU TRONG PHÂN TÍCH CHỨNG MINH THƯ

Phần lớn các mô hình dùng cho nhận diện ký tự hiện nay đều dựa trên công thức:

Biến đổi ảnh - Trích xuất đặc trưng - Mô hình hóa tuần tự - Dự đoán Với mô hình

SOTA trong những năm gần đây là TPS- ResNet - BiLSTM - Attention, quyết định sử

dụng mô hình này phục vụ cho bài toán Text Recognition cho chứng minh thư

2.1 Mô tả bài toán nhận dạng chứng minh nhân dân

Hình 5: Chứng minh thư mẫu cũ

Trang 13

Với bài toán nhận diện ký tự quang học cho dữ liệu là ảnh chứng minh thư, có rất nhiều quy trình được đề xuất, trong đó thường bao gồm các bước sau:

- Xử lý ảnh, xác định vùng quan tâm chưa chứng minh thư Do ảnh chụp chứng minh thư thường bị nghiêng, chéo, ta cần phải chuẩn hóa ảnh trước khi cho vào mô hình nhận diện Các phương pháp thường được sử dụng là: xác định biên của chứng minh thư, xác định góc của chứng minh thư Xác định biên của chứng minh minh thư

có thể sử dụng các kỹ thuật như tìm đường biên trong xử lý ảnh, phân vùng đối tượng, xác định các góc của chứng minh thư Từ đó, tác giả có thể xác định được tâm xoay

và ma trận chuyển vị để từ đó thu được ảnh vùng quan tâm ở vị trí tốt được sử dụng cho phần nhận diện ký tự ở bước 2

- Xác định hộp giới hạn của từng dòng ký tự của ảnh Các hộp giới hạn ứng với từng dòng ký tự của ảnh Phần xác định ký tự này có thể sử dụng các mô hình nhận diện vật thể phổ biến hoặc dùng các mô hình chuyên biệt cho các bài toán xác định văn bản cảnh như: CTPN[15], EAST[16], Differentiable Binarization[17], CRAFT,

- Nhận diện nội dung các ký tự trong các hình giới hạn ký tự Phần nhận dạng ký tự

có thể sử dụng các framework như Tesseract hoặc các mô hình về nhận dạng ký tự văn bản cảnh: CRNN-CTC loss, Attention-OCR,

Ví dụ 1 ảnh sau khi thực hiện qua 2 bước xác định góc và xác định ký tự

Hình 6: Hộp giới hạn của vùng chữ nhận diện được

Trang 14

Hình 7: Kết quả nhận diện text với từng trường thông tin trong chứng minh thư Pipeline của mô hình được mô tả như sau

Hình 8: Pipeline của hệ thống nhận diện ký tự quang học sử dụng mạng mạng thần

kinh đồ thị

- Sử dụng mạng thần kinh đồ thị để xác định các trường thông tin Đầu tiên, ta cần nhận diện được chữ trong văn bản, các chữ này được đưa qua mô hình trích xuất đặc trưng Những đặc trưng này biểu diễn mối liên hệ giữa vị trí của các từ trong văn bản với nhau Những dữ liệu này được đưa qua một mô hình đồ thị để phân loại đặc trưng này thuộc những nốt nào Các nút ở đây chính là các hộp giới hạn thu được sau bước xác định ký tự Dựa vào kết quả phân loại này, ta sẽ có kết quả cuối cùng là các trường thông tin của văn bản

2.2 Các phương pháp sử dụng để thực hiện bài toán nhận dạng ký tự quang học

Phương pháp học sâu hiện nay đã đạt được nhiều thành tựu trong ứng dụng nhận dạng, xử lý hình ảnh Do đó, trong luận văn này, tác giả không sử dụng phương pháp học máy cổ điển mà sử dụng phương pháp học sâu để xử lý bài toán nhận dạng ký tự quang học cho văn bản có cấu trúc ứng dụng trong đọc thông tin trong chứng minh thư

Ảnh

đầu

vào

Tách chữ

Trích xuất đặc trưng

Mô hình hóa

đồ thị

Phân loại nốt trong đồ thị

Tách đối tượng

Trang 15

Bài toán nhận diện ký tự quang học được chia làm ba phần:

- Xử lý ảnh, phát hiện vùng ROI của chứng minh thư: sử dụng phương pháp học sâu để xác định góc của chứng minh thư Từ đó, xoay thẳng chứng minh thư để tăng chất lượng nhận diện ký tự

- Xác định vùng vùng quan tâm dựa trên cấu trúc văn bản bản sử dụng mô hình CRAFT Vùng quan tâm sẽ chứa từng ký tự của văn bản, bốn góc của vùng quan tâm tạo thành hình chữ nhật Vùng ảnh này sẽ được sử dụng ở bước sau: nhận diện ký tự

- Nhận diện ký tự: mô hình transformer đã cải thiện khả năng nhận diện ký tự trong văn bản có ngữ nghĩa so với mô hình RNN và mô hình LSTM Mô hình này transformer được sử dụng trong bài toán này dựa trên mô hình vietocr

2.3 Xử lý ảnh

Trong thực tế, khi chụp chứng minh thư có thể bị nghiêng hoặc cong Chính vì vậy, để chỉnh các ảnh bị cong hoặc nghiêng về ảnh bình thường, có nhiều các phương pháp sử dụng

2.3.1 Phép biến đổi TPS

Hình 9: Minh họa phép biến đổi TPS Mạng TPS sẽ có đầu vào là 2 tập điểm mốc tương ứng nhau, mỗi tập gồm K

thẳng, vì thế K điểm mốc thuộc ảnh đầu ra sẽ có vị trí cố định dọc theo phía trên và phía dưới ảnh ( các điểm màu tím) Khi đó, khi chúng ta lấy các điểm mốc ở ảnh đầu vào dọc theo phía trên và phía dưới các kí tự (các điểm màu xanh), phép đổi TPS sẽ cho ra ảnh rectified là chữ đã được chỉnh méo

Trang 16

Vấn đề lớn nhất chính là việc làm thế nào để tìm được các tập điểm mốc trên ảnh đầu vào Để dự đoán được vị trí các điểm này, sử dụng thêm 1 mạng neural network nhỏ với đầu vào chính là ảnh input Giả sử ta có được các tập điểm mốc C’

và C của ảnh đầu vào I và ảnh rectified Ir, trong đó C = [c1, ,cK] ϵ R2xK là ma trận tọa độ của K điểm mốc thuộc ảnh rectified, ck=[xk,yk]T là tọa độ x,y điểm thứ k Tương

Trang 17

Viết dưới dạng ma trận ta nhận được:

Hình 10: Minh hoạ quá trình tính toán điểm p’

2.3.2 Sử dụng biến đổi Hough

Ý tưởng của việc áp dụng biển đồi Hough trong phát hiện góc nghiêng ảnh là dùng một mãng tích luỹ để đếm số điểm ảnh nằm trên một đường thẳng trong không gian ảnh Mảng tích lũy là một mảng hai chiều với chỉ số hàng của mảng cho biết góc lệch φ cùa một đường thằng và chi số cột chính là giá trị r khoảng cách từ gốc toạ độ tới đường thẳng đó Sau đó tính tồng số điềm ảnh nằm trên những đường thắng song

Trang 18

song nhau theo các góc lệch thay đổi Góc nghiêng ảnh tương ứng với góc có tổng giá trị mảng tích luỹ cực đại

Theo biển đổi Hough, mỗi một đường thằng trong mặt phẳng tương ứng được biền diễn bởi một cặp (r, φ) Giả sử, ta có một điểm ảnh (x,y) trong mặt phẳng Vì qua điểm ảnh này có vô số đường thẳng, mỗi đường thẳng lại cho một cặp (r, φ) nên với mỗi điểm ảnh ta sẽ xác định được một số cặp (r, φ) thoả mãn phương trình Hough Hình vẽ dưới đây minh hoạ cách dùng biến đổi Hough để phát hiện góc nghiêng ảnh Giả sử, có một số điểm ảnh Đây là những điểm giữa đáy các hình chữ nhật ngoại tiếp các đối tượng đã được lựa chọn từ các bước trước, ở đây, ta thấy trên mặt phẳng

có hai đường thẳng song song nhau Đường thẳng thứ nhất có ba điềm ảnh nên giá trị màng tích luỹ bằng 3 Đường thằng thứ hai có giá trị mảng tích luỹ bằng 4 Do đó, tổng giá trị mảng tích lũy cho cùng góc φ trường hợp này bằng 7

Hình 11: Sử dụng biến đổi Hough trong xử lý góc nghiêng

2.3.3 Mô hình mạng học sâu SSD-V2

Hình 12: Mô hình mạng SSD với tầng cơ sở VGG-16

Trang 19

Kiến trúc của mạng SSD được xây dựng trên mạng VGG-16 được loại bỏ tầng kết nối toàn bộ Lý do VGG-16 được sử dụng làm tầng cơ sở vì tính hiệu quả trong việc thực hiện bài toán phân loại ảnh với các ảnh có độ phân giải cao Thay vì sử dụng tầng kết nối toàn bộ của VGG, các tầng tích chập phụ trợ được thêm vào, để có thể trích xuất được các đặc trưng với nhiều tỷ lệ khác nhau và giảm dần kích thước của đầu vào trong từng tầng

Đa hộp: Kỹ thuật hộp giới hạn được sử dụng trong mạng SSD được lấy ý tưởng

từ bài báo Scalable, High-Quality Object Detection[18] của tác giả Szegedy, là một phương pháp sử dụng nhiều hộp giới hạn với các kích thước khác nhau để phù hợp với mọi đối tượng có kích thước lớn, nhỏ khác nhau nhau Dưới đây là kiến trúc của

mạng thần kinh dự đoán đa kích thước được sử dụng trong SSD

Hình 13: Kiến trúc trúc của mạng thần kinh dự đoán đa kích thước trong mô hình SSD

Hàm lỗi của đa hộp giới hạn là sự kết hợp của 2 thành phần tương ứng với 2 chức năng của SSD:

- Mất mát tin cậy: thành phần này tính toán tỉ lệ rơi vào nhóm mà hộp giới hạn được tính toán Độ đo cross-entropy được sử dụng để đo thành phần này

- Mất mát vị trí: Thành phần này ước lượng sự sai lệch thực tế của hộp giới hạn

so với tập dữ liệu mẫu L2-Norm được sử dụng ở đây

Trang 20

- Hàm mất mát được xây dựng với 2 thành phần trên có công thức như sau:

multibox_loss = confidence_loss + alpha * location_loss

Giá trị alpha giúp chúng ta cân bằng được sự ảnh hưởng của mất mát vị trí Cũng như nhiều mô hình mạng học sâu, mục tiêu của chúng ta là tìm những giá trị tham số

có thể tối thiểu được hàm mất mát tốt nhất, theo đó đưa ra được những dự đoán càng gần với dữ liệu mẫu

Đa hộp giới hạn và IoU

Hình 14: Đánh giá độ chính xác của kết quả dự đoán hộp giới hạn

Logic xoay quanh việc tạo ra hộp giới hạn khá phức tạp Trong đa hộp giới hạn, một khái niệm được sử dụng là điểm ban đầu (hay thuật ngữ mỏ neo trong Faster-R-

Trang 21

CNN), là những hộp giới hạn được tính toán trước với kích thước cố định tuân theo phân phối gần với phân phối của hộp giới hạn mẫu Trong thực tế, những điểm ban đầu này được lựa chọn khi tỉ lệ Intersection/Union (IoU) lớn hơn ngưỡng 0.5 Như

mô tả trong hình dưới dây, giá trị IoU tại 0.5 vẫn chưa đủ tốt nhưng nó sẽ là một điểm bắt đầu tương đối ổn cho thuật cho giải thuật hồi quy hộp giới hạn(chính là việc học tham số của mạng) - điều này thực sự sẽ tiết kiệm thời gian và đem lại kết quả tốt hơn

rất nhiều so với việc bắt đầu tại một vị trí ngẫu nhiên

Do đó đa hộp giới hạn bắt đầu với những điểm ban đầu như một dự đoán ban

đầu được khởi tạo tạo với mục đích hồi quy gần hơn với hộp giới hạn thực sự Kiến

trúc của đa hộp giới hạn bao gồm 11 điểm ban đầu với mỗi tế bào bản đồ đặc trưng (8x8, 6x6, 4x4, 3x3, 2x2) và cho 1 điểm ban đầu với 1x1 bản đồ đặc trưng dẫn đến tổng cộng có 1420 điểm ban đầu với mỗi hình ảnh, do đó cho phép bao phủ hoàn toàn một bức ảnh đầu vào trên những tỉ lệ khác nhau, khiến việc nhận diện những đối tượng ở các kích thước khác nhau trở nên dễ dàng

Những cải tiến của mô hình SSD-v2

Một vài cải tiến nhỏ được thêm vào mạng để cải thiện khả năng nhận diện và phân loại đối tượng

Điểm ban đầu cố định: Không giống với đa hộp giới hạn, mỗi tế bào bản đồ

đặc trưng sẽ được gắn với một tập các hình hộp giới hạn mặc định với số chiều và tỉ

lệ khác nhau Các điểm ban đầu này được lựa chọn bằng tay Phương pháp này cho phép SSD tạo được các hình hộp giới hạn cho bất kỳ kiểu đầu vào nào mà không yêu cầu một bước huấn luyện đầu để tạo ra các điểm ban đầu Ví dụ, giả sử ta có 2 điểm

là (x1, y1) và (x2, y2) với mỗi tập hộp giới hạn mặc định cho mỗi tế bào bản đồ đặc trưng và c nhóm cho việc phân loại Với một ma trận đặc trưng có kích thước f = m

x n, SSD sẽ tính ra f x b x (4+c) giá trị cho ma trận đặc trưng này Hình dưới đây minh họa cho ý tưởng của điểm ban đầu cố định

Trang 22

Hình 15: Ma trận đặc trưng tương ứng với nhiều kích thước bản đồ đặc trưng

Phân loại: Đa hộp giới hạn không thể phân loại được đối tượng,vì vậy, với mỗi

hình hộp giới hạn được đưa ra, SSD tính toán luôn sự dự đoán cho việc phân loại của

đối tượng và các lớp có thể trong tập dữ liệu

2.4 Xác định vùng quan tâm dựa trên cấu trúc văn bản

2.4.1 Mô hình CRAFT

CRAFT (Character-Region Awareness For Text detection) là mạng thần kinh

nhân tạo dùng để xác định vị trí của từng ký tự riêng lẻ và liên kết các ký tự xác định được để tạo thành một chữ có nghĩa

Trang 23

Hình 16: Mô hình của mạng CRAFT Mạng CRAFT sử dụng kiến trúc mạng thần kinh tích chập dựa trên mạng VGG-

16 làm cơ sở Mạng VGG-16 được sử dụng để làm kiến trúc trích xuất đặc trưng, được dùng để mã hóa dữ liệu đầu vào của mạng để tạo thành một biểu diễn đặc trưng nhất định Phần giải mã của mạng CRAFT tương tự với mạng Unet, nhưng sẽ bỏ qua những kết nối tổng hợp các đặc trưng ở mức low-levels

Mạng CRAFT dự đoán hai giá trị cho từng ký tự:

- Điểm vùng: chứa thông tin liên quan đến vùng của ký tự, được dùng để định

vị ký tự

- Điểm mối quan hệ: 'Mối quan hệ là mức độ mà một chất có xu hướng kết hợp

với một chất khác Vì vậy, điểm số mối quan hệ hợp nhất các ký tự thành một trường hợp duy nhất (một từ) CRAFT tạo ra hai bản đồ dưới dạng đầu ra: Bản đồ mức khu vực và Bản đồ sở thích

Trang 25

Hình 19: Bản đồ tương quan Cuối cùng, điểm số sở thích và khu vực được kết hợp để đưa ra hộp giới hạn của mỗi từ Các tọa độ theo thứ tự: (trái-trên), (phải-trên), (phải-dưới), (trái-dưới), trong đó mỗi tọa độ là một cặp (x, y) CRAFT là mô hình đa ngôn ngữ, có nghĩa là

nó có thể phát hiện văn bản được viết bằng bất kỳ tập lệnh nào, không chỉ tiếng Latinh

Hình 20: Hình giới hạn màu đỏ Sau khi sử dụng CRAFT, với kết quả hộp giới hạn được trích xuất ra, ta sẽ được ảnh chứa ký tự đã được tách rời (như hình dưới)

Trang 26

Hình 21: Ảnh kết quả nhận diện bị nghiêng, méo

Trang 27

sợ bị thay đổi LSTM có khả năng bỏ đi hoặc thêm vào các thông tin cần thiết cho trạng thái tế bào, chúng được điều chỉnh cẩn thận bởi các nhóm được gọi là cổng (gate) Các cổng là nơi sàng lọc thông tin đi qua nó, chúng được kết hợp bởi một tầng mạng sigmoid và một phép nhân Tầng sigmoid sẽ cho đầu ra là một số trong khoản [0, 1], mô tả có bao nhiêu thông tin có thể được thông qua Khi đầu ra là 0 thì

có nghĩa là không cho thông tin nào qua cả, còn khi là 1 thì có nghĩa là cho tất cả các thông tin đi qua nó Một LSTM gồm có 3 cổng như vậy để duy trì và điều hành trạng thái của tế bào Bước đầu tiên của LSTM là quyết định xem thông tin nào cần bỏ đi

từ trạng thái tế bào Quyết định này được đưa ra bởi tầng sigmoid - gọi là “tầng cổng

Ngày đăng: 15/04/2022, 10:51

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
1. PGS.TS. Nguyễn Quang Hoan (2014), “Giáo trình xử lý ảnh”, Học viện Công nghệ bưu chính viễn thông Sách, tạp chí
Tiêu đề: Giáo trình xử lý ảnh
Tác giả: PGS.TS. Nguyễn Quang Hoan
Năm: 2014
2. Lê Đức Hiếu (2015), “Ứng dụng một số kỹ thuật xử lý ảnh trong phân tích chứng minh nhân dân”, Luận văn thạc sĩ Công nghệ Thông tin, trường Đại học Công nghệ Sách, tạp chí
Tiêu đề: Ứng dụng một số kỹ thuật xử lý ảnh trong phân tích chứng minh nhân dân
Tác giả: Lê Đức Hiếu
Năm: 2015
3. Hồ Đức Lĩnh (2017), “Xử lý hình thái học trên ảnh và ứng dụng”, Khoa Công nghệ Thông tin - Đại học Đông Á Sách, tạp chí
Tiêu đề: Xử lý hình thái học trên ảnh và ứng dụng
Tác giả: Hồ Đức Lĩnh
Năm: 2017
4. Phan Thị Phượng (2017), “Nghiên cứu mô hình học máy sâu và mạng Neuron”, Luận văn thạc sĩ trường ĐH Công nghiệp Hà Nội Sách, tạp chí
Tiêu đề: Nghiên cứu mô hình học máy sâu và mạng Neuron
Tác giả: Phan Thị Phượng
Năm: 2017
5. Graph Convolutional Networks (GCN) & Pooling https://jonathan- hui.medium.com/graph-convolutional-networks-gcn-pooling-839184205692 Link
6. Using Graph Convolutional Neural Networks on Structured Documents for Information Extraction https://towardsdatascience.com/using-graph-convolutional-neural-networks-on-structured-documents-for-information-extraction-c1088dcd2b8f Link
11. Bộ dữ liệu huấn luyện: https://drive.google.com/drive/folders/1-3bBT6fM4Ilo4zDTXGy1QAAclRTP6D2v?usp=sharing Link
12. Mark Sandler, Andrew Howard, Menglong Zhu, Andrey Zhmoginov, Liang-Chieh Chen : MobileNetV2: Inverted Residuals and Linear Bottlenecks:https://arxiv.org/pdf/1801.04381.pdf Link
13. Jian Ye, Zhe Chen, Juhua Liu, Bo Du: TextFuseNet: Scene Text Detection with Richer Fused Features Khác
14. Youngmin Baek, Bado Lee, Dongyoon Han, Sangdoo Yun, and Hwalsuk Lee: Character Region Awareness for Text Detection Khác
15. Z. Tian, W. Huang, T. He, P. He and Y. Qiao: Detecting Text in Natural Image with Connectionist Text Proposal Network, ECCV, 2016 Khác
16. Xinyu Zhou, Cong Yao, He Wen, Yuzhi Wang, Shuchang Zhou, Weiran He, Jiajun Liang: EAST: An Efficient and Accurate Scene Text Detector Khác
17. Minghui Liao, Zhaoyi Wan , Cong Yao,, Kai Chen, Xiang Bai: Real-time Scene Text Detection with Differentiable Binarization Khác
18. Christian Szegedy, Scott Reed, Dumitru Erhan, Dragomir Anguelov, Sergey Ioffe, Scalable, High-Quality Object Detection Khác

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w