Luận văn thạc sĩ nghiên cứu phát triển thuật toán nhận dạng, trích xuất thông tin trong văn bản tiếng việt

~— Tự do —1Hạnh phúc BẢN XÁC NHẠN CHỈNH SỬA LUẬN VĂN THẠC SĨ Ho và tên tác giả 1LÊ BÍCH HẠNH Dé tai Juan van Nghiên cứu phát triển thuật toán nhận đạng, trích xuất thông tín trong vă

Trang 1

TRUONG DAI HQC BACH KHOA HA NOI

LUAN VAN THAC Si

Nghiên cứu phát triển thuật toán nhận dạng, trích xuất thông tỉn trong văn bản tiếng Việt

LÊ BÍCH HẠNH

hanh.Ib202777M@is.hust.cdu.vn Ngành Kỹ thuật Điện tử

Giảng viên lưởng dẫn: TS Nguyễn Vũ Thắng

HÀ NỘI, 2022

Trang 2

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

~— Tự do —1Hạnh phúc

BẢN XÁC NHẠN CHỈNH SỬA LUẬN VĂN THẠC SĨ

Ho và tên tác giả 1LÊ BÍCH HẠNH

Dé tai Juan van Nghiên cứu phát triển thuật toán nhận đạng, trích xuất

thông tín trong văn bản tiếng Viel

Chuyên ngành kỳ thuật Diện tử

+ _ Hỗ sung Kết luận chương: Bổ sung kết luận chương 2 trang 61, kết luận chương,

3 trang 76, kết luận chương 4 trang 90

«_ Chỉnh sửa lại phản Kết luận chỉ tiết, hợp lý hơn: Đã chỉnh sửa phản Kết luận

trang 92

«_ Làm rõ phạm vi, đổi tượng của luận văn: Bễ sung tại trang |

+ Việt hóa lại sơ đỗ xử lý: Sử dụng văn phong tiếng Việt thay thế, đã chỉnh sửa

trong 1ĩnh 1.2

« _ Chính sửa lại các lỗi chính tả: Sửa các lỗi chính tả khi đánh máy được hội đồng

nhận xéL

Trang 3

Chính sửa lỗi chế bản, tính từ sở hữu: Chính sửa các dại tử xưng hồ trong luận văn từ “em” được thay thể băng “tác giả”

Ngày 27 tháng 10 nấm 2022

CHỦ TỊCH HỘI DÒNG

Trang 4

LOI MO DAU

Bai loan trich xuất thông lin trong vin ban (Information extraction) duce khéi

xướng từ những nam 703 (DeTong’s FRUMP program) Sau nay da than lap Message Understanding Conferences MUC vào những năm 90s ‘Tuy bai toán đã xuất hiện

sớm nhưng vẫn còn nhiều thách thức khi xuất hiện nhiều ruấu vin ban khác nhau và quả trình chuyên đổi từ văn bản từ dịnh dang scan sang dinh dang text Bai toán trích: xuất thông tin văn bản đi kem với công việc xử lý ngôn ngữ tự nhiên, trong đẻ xử lý

xugôn ngữ tự nhiên bao gồm nhận dạng chữ viết và nhận đang giọng Khân đạng chữ

viết mang nhiều thách thức hơn khi có hơn 7000 ngôn ngữ khác nhau và đặc biệt khó

khăn đềi với chữ viết tay Các công trình nghiên cứu về nhận dang chữ viết, trích xuất

thông tin trưng văn bản mới đừng lại nhiêu ở ngôn ngữ Tiếng Anh, Hếng Việt còn chưa được khai phả nhiều

Ung dung yao bải toán trích xuất thông tin trong văn bản tiếng Việt, để tài sẽ tập trung nghiên cửu, xây đựng một hệ thống hoàn chỉnh tù phân lách, nhận điện chữ viết trong văn bản định đạng ảnh hay ban scan đến trích xuất tự động các thông tin quan trong trong văn bản Cụ thé nghiên cửu sẽ ứng dụng trên hóa đơn thanh toán tiếng Việt, báo gồm hóa đơn chữ in và hóa dơn chữ viết tay

é trich xuất được thông ti trong văn bán thì yêu câu đầu tiên cần lam 1a tim ra

được các chữ viết trong văn bản định đang ảnh, bước liếp theo cần nhận điện chữ viết

để biết dược nội dung văn bản và cuối cùng sẽ chọn lọc phản loai dẻ tìm ra các thông, tin theo yêu câu Với sự phát triển của thị giác máy tỉnh và học sau (deep learning),

nghiên cứu sẽ sử đựng cáo mô hình deep learning khác nhau đế giải quyết lần lượt các

vấn dễ trên Cuối cùng các chức năng sẽ dược tổng, hợp dé hoan thành một hệ thống

Trang 5

Tuan van ughién ctu, ther nghigm han dạng trích xuất thông tín trong văn bản tiếng Việt cụ thể là trong các hóa don thanh toán tiếng Việt với 16 trường thông tin khác nhau với đầu vào là ánh chựp hỏa đơn hoặc bán scan không thể tác động hay

chỉnh s ø Hệ thông được thử nghiện với nhiều mẫu hóa đưa khác nhau bao gồm cả chữ m và chữ viết tay Tiên hành thu thập dữ liệu là các hoa don thanh toán trên

internet thu được 240 ảnh, với 4& mẫu hóa đơn khác nhau và tự xây dụng thêm các hóa

đơn sử dụng chữ viết tay, số lượng bao gồm 144 ảnh, với 4§ mẫu khác nhau, thụ thập chữ viết của 20 người bao gồm nhiều lửa tuổi vả giới tính khác nhau Về thuật toán

nhận dạng, trích xuất thang tin, nghiên cứu chia làm ba bước tương ứng với ba bài toán

nhỏ, ba bước lầu lượt là: nhận đạng chữ viết, rhận dang ký tự quang học và sau đó là

trích xuất thông tin Với ba bài toán trên, nghiên củu tập chung tỉm các giái pháp ứng

dung deep learning để giải quyết Bài toán nhận đạng chữ viết, nghiên cứu thử nghiệm

so sánh bạ ruô hình Easler R-CNN, cascsde R-ƠNN, Yol.ov4 Bài toán nhận đợng ký

tụ quang học, nghiên cứu thử nghiệm so sánh hai mỏ hình là AttentionOCR và TransforrnerOCT: còn bài toán còn lại nghiên cứu tập chung thử nghiệm mô hình Graph Convolutional Network (GCN) Chuong trinh nhin dang, trích xuất thông tín

được triển khai viết bằng ngôn ngữ Python, thực hiện huấn luyện mô hình mạng, sử

dụng thư viện pylorch

Tuan văn nghiên cứu đã hoàn thành hệ thông từ đầu đến cuối từ nhận dạng chữ viễt

cến trích xuất các thông tin quan trọng trong hóa don tiếng Việt, tiễn hành nghiền cứu, thử nghiệm đề tim ra eáe giải pháp tốt nhật cho từng công đoạn, kết quả cho độ chính xác là 92% cho hóa đơn chữ mm và 7894 cho chữ viết tay Cuối cùng một trang web đọri giản cũng được xây dựng để người dùng có thẻ thứ nghiệm va quan sắt trực quan kết

quả

HỌC VIÊN

Trang 6

MUC LUC

DANH MỤC HÌNH VẼ 22s H111 n0 1 0n.110011111xxxe second

CHƯƠNG 1 ĐẶT VẤN ĐẼ H111 n0 1 0n.110011111xxxe 1 CHƯƠNG 2 CƠ SỞ LÝ THUYẾT

2.1 Cơ sở lý thuyết cho bài toàn phát hiện chữ viễt -

2.1.1 Bài toán phát hiện đối tượng

2.1.2 Thudt todn faster R-CNN trong phat hidn đối tượng we TO 21.3 Thuật toán caycade R-CNN trong phút hiện dỗi tượng "- 21.4 Thuật toán Yolo trong phat hiện đắt tượng 21

2.2 Cư sở lý thuyết cho bai toan nhận dạng ký tự tiếng Viel 33

321 Nhận dạng kỷ tự quang hạc — 133

2.3 Cơ sở lý thuyết cho bai toàn trích xuất thông tin trong văn bán từ ảnh 49

2.3.1 Bài toán trích xuẤt thông tin trong vin ban tir anh 49

2.3.2 MGt sé If thuyét dé thj co ban wn SL

2.3.3 Mit sb bai todn khi sit dung Graph Convolutional Network 33

2.3.4 Graph Convolutional Network trong bài toán trích xuất thông tu trong

2.4 KẾt luận chương c2 H111 n0 1 0n.110011111xxxe we OL CHƯƠNG 3: THỦ NGITEỆM TRÍCH XUAT THONG TIN TRONG TOA DON TIẾNG VIỆT 52225255 se SHHE1101 HE ca 62 3.1 Thử nghiệm phát hiện chữ viết viết với thudt toan Faster R-CNN, Cascade

Trang 7

31.1 Thiết lân các thông số cho mô hình Faster R-CNNN và Cascade R-CINN G2

3.4.3 Nik Wj dit ligu cho bai toda phat hig chit vi8e 0 cesses nse 66

3.2 Thử nghiệm nhận đạng ký tự quang học với mô hình AttentionOCR va

321 Thiết lập thông sé cho mé hinh AttentionOCR va TransformerOCR .69

3.232 Xử lý dữ liệu cho bài toán nhận dang ký tự quang bọc 70

3.3 Thủ nghiệm trích xuất thông tin trong höa đơn tiếng Việt sử dụng mô hình

331 Thiết lập thông số cho mé hink Graph Convolutional Network 72

33.2 Nit If đữ lậu cho bài toán trích xuất thông tin 74

CHUONG 4: KET QUA THU NGHIEM VA DANH GIÁ

4.1 Kết quả thứ nghiệm và đánh giá cho bài toán nhát hiện chữ viết 2T

41.1 Các tham số sử dụng đỄ đánh giá môỗ NÌnh co ằcoeoecee 71

4.2 Kết quá thử nghiệm và dánh giá cho bài toán nhận dạng ký tự 8

4.22 Kết quả và dánh giá kết guả — 84

4.3 Kết quả thứ nghiệm và đánh giá cho bài toán nhận trích xuất thông tản và

cho cả hệ thống 0000552 ccec H111 n0 1 0n.110011111xxxe 85

4.33 Kết quả rà dánh giá kết guả — 86

Trang 8

DANH MUC KY HIEU VA CHU VIET TAT

SVM: Support Veclor Machine

CNN; Convolutional Neural Network

OCR: Optical Character Recognition

GCN: Graph convolutional network

JoU; Intersection over Union

YoLo: You Only Look Once

AUC: Arca Under the Curve

ROL Region of Lnterest

RPN: Region Proposal Network

NMS: Non-maximal suppression

SSL: Sum-squared error

CSP: Cross-Stage-Partial connections)

DenseNet: Dense conmacted convolutional network

LSTM: Long Short Term Memory

Trang 9

DANH MỤC HèNH VẼ

Hỡnh 1.1 Cỏc bước xỳ lý hệ thổng — 2

Hỡnh I.2 Sơ dộ khụi xử lý

Hỡnh 2.1 Se dộ cỏc mỗi liờn hệ giữa gỏc tỏc vụ bong computer vision

6

8

Hỡnh 2.2 So sảnh dầu ra của bải toỏn classification với loealization vả đetectiontffl ở

TIỡnh 2.3 Phõn biết bài toan classification, object localization, object detection) 9

0

Hỡnh 2.4 Sơ dỗ pipcline xử lý trong mụ hỡnh mạng R-ƠNN, Pè, sec 1 11ỡnh 2.5 Lõu ra sau khi thực hiện Oraph Based image Segmentation ẽđẽ Ml

Hỡnh 2.7 Thực hiện ROI pooling "— 13

1ỡnh 2.8 3o sảnh thời train vộ test gitta R-CNN va Fast R- “CNN ơ 14

Hỡnh 2.14 Hiệu s

Hỡnh 2.15 Hiệu suất khi sử dụng bốn giai doạn “ ve

Linh 2.16 a, Lligu suat sit dung 18Box b, Lligu suất sử dụng mắt tớch oh phi ơ 20

Hỡnh 2.18 Mờ hỡnh cascade R-CNN với cỏc mụ hỡnh hỗ trợ khỏc nhau ”L, 21

Hỡnh 2.20 Minh họa Grid ceHlf#ẽ, sec

Linh 2.24 Linh 4oh minh hoa 1% s4 luong Anchor box trong mạng HetinaNet??l _ 26

Trang 10

Hình 2.26 Cấu trúc mồ hình YoLov3Ê#, —

Tinh 2.27 Cau trac Darknet53/41, — -

Hình 2.28 Quả trình đào tạo để tinh chỉnh kích thước của anchor box sao cho giống

với vật thể nhất!

Tinh 2.29 Cau tric YeLov4E”1

Tình 2 30 Câu trúc BfficienINst-B3F”

Tinh 2.31 Cấu trúc DenseNetP” ¬

Hình 3.32 Một số cấu trúc điến hinh sử dụng cho pha eee,

Tình 3.33 Mô hình kiến trúc AttentionOCR

Hình 2.34 Cấu tạo feature maps - "—

Tĩnh 2.35 Mạng nơ-ron thông thường (trái) và CNN (phảj)J28]

Tinh 2 36 Mô hình kiến trúc CNNEEI

Hình 2.37 Hoạt động của các bộ lọc trong mạng CNNEÌ _ cesses

Tlinh 2.38 Toat dang ctia Max Pooling layer™!

Linh 2.40 Cau tạo của một LÿEM

Hinh 2 4] Mé hinh kién tric TransformerOCR™

Hinh 2.42 Kiến trúc hai khối ota kién trie transformer

Tĩnh 2.43 So sánh câu trúc của transformer với LSTM e.cceee

Hình 2.44 Câu trúc của bô EncaderP°!

Tmh 2.45 Ví dụ cơ chế tìm kiếm của self attention

Tlinh 2.46 Cau tric self attention!*!

Tinh 2.47 Tinh toan Mulli Head Attention vector!

linh 2.49 Các loại cầu trúc vả phương thức cho bải toán trích xuất thông tin

Hinh 2 50 Cầu trúc để thủ trong mô hình Graph Convolntional Network?!)

Hình 2.51 Vi du min hoa bai toan Link Prediction’)

Tĩnh 2.52 Ví dụ minh họa bài toán Node Classification! secs

Hinh 2.3 Ví dụ mình họa bài toán Cluslerng & Comnuily deiseionE2

Hình 2.54 Vi dụ các vector từ trược biểu diễn trong không gian word2vec

Tlinh 2.55 Tai cách xây đựng không gian veotor worđ2veoll

Tình 3.56 Kiến trúc mô hình Skip-gramP?l

Trang 11

Hinh 2.57 Mö hình Skip-eram với windows size=2E2Ì, c2 2122021122222111, re 58

Tlinh 2.58 Dé thi liên kết giữa các textbox H111 n0 1 0n.110011111xxxe 59

Hình 2.59 Kiến trúc mô bình Graph Convolutional Network trong bai toan node

Hình 3.3 Cấu trúc mạng ResNet56f, — 64

Hình 3.6 Hinh ảnh dược gần nhãn với phần mềm Ìabellung, 552555 68 Ilinh 3.7 Kiến trúc VGGKet (2014) E, — 69

Hình 3.9 Một số hình ảnh gán nhãn cho ánh chữ viết tay ccocccc sec 7

Hình 3.11 Ví dụ về đạng đữ liệu nút — 74

linh 3.12 Vỉ dụ về đạng đữ liệu cạnh H111 n0 1 0n.110011111xxxe 75

Tĩnh 4.3 Kết quả nhận điện với hóa đơn chữ in — 81

Hinh 4.4 Kết quả nhận diện với hóa đơn chữ viết tay 8

Hình 4.5 Một số trường hợp nhận dign sai voi héa don chit in 83 11nnh 4.6 Trường hợp nhận điện sai với hỏa đơn chữ viết tay 83 Hình 4.7 Trường hợp nhận điện sai với hóa đơn chữ viết tay 85

Hình 4.8 Trang web trích xuất thông tin ¬ 88 linh 4.9 Kết quả trả về sau khi trịch xuất thông tin H111 n0 1 0n.110011111xxxe 88

iv

Trang 12

DANH MỤC BẰNG BIÊU

Bang 1.1 Khảo sát các phương pháp phát hiện chứ viết đã được công, bỏ

Bang 1.2 Các bộ đứ liệu chuẩn sử đụng để phát lriện chữ viết đã được công bổ 3 Bang 1.3 Khảo sát các nghiên cửu vẻ nhận đang ký tự đã dược công bỏ s4 Bang 2.1 Các thông số của backbone được sứ dụng trong YoLov4 wl Bang 3.1 Các thông số sử đụng trong quá Bình huấn luyệnEasler R-ƠNN và cascade

Bang 3.2 Các thông số sử dụng trong quá trinh huẳn luyện YoLov4 2 6S

Bang 3.4 Một số tham số huấn luyện cho mô hình OŒH 520055 we TO

Bang 3 6 Một số tham số huấn luyện cho mô hình GƠN 74 Bang 4.1 Két qua thử nghiệm các mô hình theo thông số loU we TD

Bang 4.2 Kết quả thử nghiệm các mô hinh theo thông số Recall 79 đảng 4.3 Kết quả thử nghiệm các rnô hình theo thông số ÁP 79

Bang 4.4 Kết quả kiểm thử của mô hình AttentionOCR coccscscvcc Ö84 Bảng 4 5 Kết quả kiểm thử của mô hinh TransformerOCR 84 Bảng 4.6 KỗI quả kiểm thữ của mô hình trích xuấi thông ti 86 Bảng 4.7 Kết quả kiểm thử của hệ thống trích xuất thông tin trong hỏa don tiếng, Việt

§7

Trang 13

¡ đang cổ gắng với nhiệm vụ phân tích văn bản, cái khỏ khăn nhất

không phải là tìm dúng tải hiệu mà là từn những thông tin chính xác trong những tải

liệu đây Lliều rõ mỗi liên kết giữa các chú thể trong đoạn văn, các sự kiện trong đoạn

văn mô t8 diễn ra như thế nào, hoặc lả tìm những thông tín quý giá Lừ những từ khỏa

trong đoạn văn do, va vi thé, việc tìm ra cách tự động trích xuất thông tin từ dữ liệu văn bản và trình bày nó theo cách có cầu trúc sẽ giúp chúng ta gặt hái được nhiều lợi

Ích, giảm đáng ké thời gian ta phải dành dễ đọc lưới qua các lải liệu

Nghiên cứu tập chung vào một mẫu văn bán nhất định (mẫu hỏa đơn thanh toán

tiêng Việt), phục vụ cho các doanh nghiện hay kế toán để có thế tụ động, nhanh chóng,

ly ra các trường thông tin ming muốn rhư mã hóa đơn, ngày thang, thong Gin bên:

bán (tên, địa chỉ, số điện thoại ), thông tín bên mua, tổng số tiến phải trả, phần trăm thuế Mô hình sẽ lây ra các trường thông tin đó tùy thuộc vào meng muốn của người

cài đối, sử dụng, Phạm vi nghiên cứu thử nghiệm với đầu vào là lilo ảnh, file pdf cũa

hỏa đơn chữ in, hoặc chữ viết tay, hình ảnh rõ ràng, độ nghiêng chữ không quả L0 độ,

va néi dung héa dem chỉ trong một trang

Đầu vào sẽ là ảnh chụp hay ảnh scan mdt hoa don thanh ton, dau ra hé théng sé tur động lẫy ra được các trường thông tin mong muốn (nội dung của trưởng thông tin đó

được định đạng text, ví dụ têu đơn vị tua: Trường đại học Bách Khoa Hà Nội, địa

chỉ: số I Đại Cổ Việt, Hai Bà Trưng, Hà Nội, Tổng tiên phải trả: 100.000.000 )

Dễ xây dựng một hệ thống hoàn chính từ phân tách text trong vấn bản là ảnh hay

‘ban scan đến trích xuất tự động các thông tin quan trọng trong văn bản thì cân giải

quyết lần lượt ba nội dung sau, trong, mỗi nội dung sẽ giải quyết hai phan dé 1a hoa

đơn chữ in và hóa đơn chữ viết tay Mỗi nội dưng sẽ được coi là một bài toán nhỏ sẽ

được nghiên cứu, thử nghiệm độc lập trước khi téng hop thành một hệ thống hoàn

chính Ha nội dung nghiên cửu như sau:

1 Xử lý ảnh để nhận điện các dòng chữ trong văn ban

3 Nghiên cứu nhận đạng ký tự cho tiếng Việt

3 Trích xuất thông tì quan trợng từ văn bản tiếng Việt

Trang 14

Trong nội dung thứ nhất là vẫn đề xử lý ảnh để lấy ra được tất cả các đòng text có

xuất hiện trong văn bản Đây được coi như bai toản phát hiện đối tượng trong ảnh Việc ngắt câu sẽ trở thành vẫn đẻ, vỉ các đổi tượng đang rất giống nhau, Đầu vảo của bài toán thứ nhất là ảnh chụp hay ảnh scan hóa đơn, đầu ra ta sẽ có vị trí của các dòng chữ xuất hiện trong ảnh

Với bài toán phát hiện vùng văn bản (text detection) đã cỏ nhiều nghiên cửu, sử

dụng nhiều phương pháp khác nhau, nhưng với tiếng Việt thì chưa có nhiều nghiên cứu được công bố Dưới đây lả các công trình nghiên cứu đã có về van dé phát hiện chữ viết, chủ đạo là tiếng Anh, tiếng Trung Quốc Bảng khảo sát được viết theo từ các phương pháp cũ đến mới

Bang 1.1 Khão sát các phương pháp phát hiện chứ viết đã được công bố

2001 | tieng Trung | Từ chữ viết ban đầu sử dụng bộ lọc phát hiện |Độ chính xác

Quốc, tiếng cạnh va mô hình Gaussian | thấp, nhiễu tác Anh mixtures color, phan tích bô cục văn bản cụ | đông

thể, kết hợp nhận dạng ký tự quang học

2004 | tiếng Trung Phân loại AdaBoost và mã hóa nhị phân|Độ chính xác

Quốc, tiếng _ | Niblack°”l thập, các văn bản

không phát hiện được

2010 | tiéng Trung — | Phát hiện cạnh Canny, chuyển đổi đồ rộng của |Độ chính xác

quốc, tiếng nét Viết tổng hợp dòng văn bản, phát hiện | thấp, nhiễu tác

bị giới hạn

2011 [tiếng Anh Học không giám sát phân cụm K, means, bộ | Phức tạp, nhiều

lọc Gaussian, phân loại tuyén tinh SVM"! text có kích

thước nhỏ không phát hiện được

Trang 15

2012 tiếng Anh Phân cụm K means, CNN gém 2 lớp Hch Phát hiện thiểu,

chập, 1 lớp kết nỗi dây đảt⁄9] bị giới hạn trong

tập hợp chữ viết

nhất định

2013 tiếng Anh đặc trung MACeLBP (MuHileval Adapive Nhiễu tác động,

Color edge Local Binary Patter) va model bé qua mất các

Randon forest đế phản loại ký tự độc lập

2018 tiếng Trmg | CNN Slóptíchchấp và l lớp Ka di đây di, ‘Tinh foan cao,

Quée 12 kích thước đầu vào khác nhau! tốc độ châm

2019 tiếng Anh, Phát hiện đối tượng sử dung YoLov3FfT Phát hiện từng,

cụm chữ viết

Các bộ đữ liệu chuẩn có sẵn sử dụng để học chơ bài toàn phát hiện chữ viết đã

được công bô được thẻ hiện ở bảng đưới đây Các bệ đữ liệu có sẵn ciing chỉ đứng lại

ở các ngôn ngữ Anh, Trang Quốc, hàn Quốc, và Á Rập, và chưa có bộ đữ liêu chuẩn

nảo về tiếng Việt

Băng 1.7 Các bộ dữ liệu chuẩn sử dụng đễ phát hiện chữ viết đã được công bố

Trang 16

Trong nội dung thứ bai sẽ nghiên cứu nhận điện ký tự tiếng Việt OCR (nhận dạng

ký tự quang học) là ứng dụng công nghệ chuyên đùng để đọc toxL ở file anh Puce biết

đến là một công cụ soan kỹ thuật số chuyên nhận đạng các ký tụ, chữ viết tay, hay chữ đánh máy, công nghệ nảy chuyên đùng đề truyền tâi, nhập liệu đữ liêu Đặc biệt, ở

OCR có khả răng kỹ thuật số nhiều dưới nhiều dạng tải liệu khác nhau: hóa đơn, hộ

chiêu, đanh thiếp, tài liệu Vì vậy nghiên cứu sử đụng OCR cho văn bản tiếng Việt

Từ vị tí các đông chữ có trong bài toán thứ nhất, bài toán thứ hai sẽ tiến hành OCR dé

biết được nội dung chính xác của đòng chữ dó

Với bai toan nhận dạng ký tự chữ viết tiếng Việt cũng đã có nghiên cửu được công

bổ, sử dụng rhuều phương pháp kháo nhau Dưới đây là các công trình nghiên cứu đã

công bố

Băng 1.3 Khảo sát các nghiên cứu về nhận dạng ký tự đã được công bế

2014 Vienamese Handwriting Phân loại các ký tự viêtinhoa | Chỉ nhận dạng

Recognition for Automatic Việt (bao gồm cả đấu) khi | được từng ký tự

Data EntryinEmroliment | đầu vàolà ảnh các ký tựriêng | nấu cả câu tủ

quả nhiều n +hỉ phân loại

Trang 17

2015 Isolated Vietnamese Phần loại các ký tự tiếng Việt, sa] Cin qua nhiều

Handwriting Recognition | dung qua trình tiền xửlý để cất | nhãn khi phân

Uneonstrained Victrame: (Reewrent Neural Nelworks) dễ | nhưng cân labe]

Online Handwriting Databasd nan dang ky ty và dự doàn các | một lượng lớn

an Reeognition Expetimcnbs| ký tự tiếp thco đữ liệu để có thé

2018 — ICFIIR2018-Competiion | Cung cấp bộ đữ liệu vànhận | Tý lệlỗi từtháp

on Vietnamese Online đang chữ viết, đông chữ và câ | với nhân đang Tlandwritlen Text đoạn văn Sũ dụng mô hình chữ, tỷ lệ lỗi tit

Recognilion using HANDS- | Leng short term mernory cồn cao với

VNOnIDB (VOHTR20181 | (1.STV) kết hợp ComcetionisL | nhận đạng đông

Temporal Classification (CTC) | chit va doan vin

2020 A Robust End-To-End ‘Su dung kién tric Attention Kết quả tốt, độ

tố rằng, Ít ký tự

Các bộ đữ cho bài toán nhận đạng ký tự tiếng Việt có sẵn hay công khai thường có

số lượng không nhiễu vá không da dạng thường là các dữ liệu ảnh với chữ viết rõ rảng,

hai, Với mô bình phân loại text, nghiên cứu sử dụng model GCN (graph convolution

network) Một mô hình tương đổi mới mẻ, giúp phác họa chân thục cấu trúc liên kết

của các câu từ trong văn bản Đối với nội dụng nghiện cứu thứ ba này thì hấu như không cỏ nghiên cứu cụ thể nào dược công bó cho van dé nay, và đặc biệt các nghiên cứu về trích xuất thông tin chỉ đừng lại ở một văn bân có cầu trúc nhật định nhưt các

Trang 18

'Tổng quan sơ dễ khối xử lý như sau

kẻ, ‘| [Nhan cier ;ung| 4H! {Nan dạm sỹ | (IV | chuẩn ngụ | 954 số

Hình 1.2 5ø đỗ khối xử lý

ar tne plang in wry

Trong luận văn tết nghiệp này tác giả sẽ tập trung giải quyết lần lượt từng néi dung

bài toán với mục tiêu như sau

1 Làm rõ từng bài toán, tim ra phương pháp giải quyết phủ hợp nhất, thử nghiệm

và đánh giá các phương pháp đối với đữ liệu là hóa đơn thanh toán tiếng Việt

2 Xử lý hai loại hóa đơn là hóa đơn chữ im và chữ viết tay

3 Xây dựng hệ thống hoàn chính, phát triển giao diện đề hỗ trợ người ding sit

dung

Từ mục tiêu nghiên cứu trên, láo giỗ ti

hành thực hiện các bước sau và cũng là

các chương sẽ trinh hảy tiếp theo trang báa cáo, mỗi chương sẽ trình bảy lần lượt các néi dung lién quan đến ba bài toán nhé va hệ thống hoàn chính sẽ được trình bảy tại

chương cuỗi cùng

Chương 1: Đặt vẫn để

Chương 3: Cơ sở lý thuyết

Chương 3: Các phương pháp thử nghiệm

Chương 4: Kết quá thủ nghiệm và đánh giá

Trang 19

CHUONG 2 CO SO LY THUYET

Chương 2 sẽ trình bảy lần lượt các lý thuyết sử đụng trong từng bài toán nhỏ Bao gỗm các khái niệm, công thức, cầu trúc mô hình học sâu được sử dụng trong nghiên cửu và thứ nghiệm Do nghiên cứu đã được chia làm ba bai toan nhỏ nên các lý thuyết

cũng sẽ được trình bày lần lượt phục vụ cho ba bài toán đỏ

2.1 Cơ sử lý thuyết cha bài toán phát hiện chữ viết

2.1.1 Bài toắn phải hiện đỗi trọng

Computer Vision là một lĩnh vực lam cho may tinh co thé nhin được như con người, nhìn ở đây có nghĩa là hiểu được hình anh, video tr 46 c6 thé lam cơ sở đề trả

lời các câu hỏi như: có gì trong ảnh, cơn mẻo ở đâu trong bức ảnh, trong ảnh có bao

Trong xử lý ảnh có bên

nhiều cơn chó, con mèo, con mèo có đang bắt clruột không:

bài toan khae nhau bao gém: phan loai hinh anh (Image classification), Dinh vị vật thé (Cl

đổi tượng (Instanoe Segmentation)

ficalion with Localization), Phat hién déi kong (Object Delecuion), Phan doar

hận đạng đổi tượng là một thuật ngữ chưng dé mô tả một tập hợp cáo nhiệm vụ

thị giác may tính có liên quan liên quan đến việc xác định các đối tượng trong anh kỹ thuật số

Thân loại hình ânh liên quan đến việc đự đoán lớp của một đổi tượng trong một

hinh anh Định vị vật thế đễ cập đến việc xác đinh vị Irí của một hoặc nhiều đối tượng, tvong mét hinh anh va vé bounding box xung quanh chủng Phát hiện đổi tượng kết

hợp hai nhiệm vụ trên và thực hiện cho một hoặc nhiều đối lượng trong hình ảnh Chúng ta có thể phân biệt giữa ba nhiệm vụ thị giác máy tính cơ bản trên thông qua

input va output cia chung nhu sau:

ø_ Input Một hình ảnh với một dối tượng, chẳng hạn như một bức ãnh

lớp)

® Định vị đối tượng: Xác định vị trí hiện diện của các đối tượng trong ảnh và cho biết vị trí của chúng bằng bounding box

Trang 20

ø_ Inpưc Một hình ánh có một hoặc nhiều dỗi tượng, chẳng hạn như một bức

tboumding box và nhấn củ đối tượng nằm trong ruột hình ảnh

co Input: Mét hinh ảnh có một hoặc nhiều dồi tượng, chẳng hạn như một bức ảnh

¢ Output: Mét hodc nhiều boumding box và nhãn cho méi bounding box

Một số định nghĩa khác cũng rất quan trọng trong computer vision la phan đoạn đổi Lượng (nbjcct sogznentaion), trong đó các đối tượng được nhận đựng bằng cách làm nổi bật cáo pixel cụ thê của dối tượng thay vi bounding box

Bên dưới là sơ đỏ tổng hợp các tác vụ của computer vision

Tinh 2.1 Sv dé cic méi Hén hé piira cdc tác vụ trong computer vision

Khac voi bai toan Classification with Localization xae định vị trí của một đối tuomg trong hinh, bai toan detection hay Object Detection sẽ xác định vị trí tất cả cáo

đối tượng có trong bức hình Theo đỏ Input của bài toán này là ảnh và danh sách các

đổi tượng quan tâm Đầu ra của bải toán là các vị trí của các đổi tượng kèm theo nhãn của đổi tượng đỏ

Trang 21

Hình 2.2 So sánh đầu ra của bài toán classification voi localization va detection“?

Object Detection đã có rất nhiều ứng dụng khác nhau: Image Annotation (Chu

thích hình ảnh), Face Detection (Phat hiện khuôn mặt), License Plate Identification

(Nhân diện biển số xe), People Counting (Đêm số lượng người),

Như vậy xét trên một khia cạnh nào đỏ ta cỏ thể nhân xét rằng bài toán

Classification là tiên đề của bải toan Localization va thông tin của bài toan

Localization cũng rất hữu ích cho bài toán Detection Đề phân biệt các bài toán khác nhau ta có thể xác định dựa trên việc kết quả của bài toán đang trả lời các câu hỏi gì

Hinh 2.3 Phin biét bai ton classification, object localization, object detection™

Với bải toán phát hiện đổi tượng, ngày nay có nhiều phương pháp học sâu (deep learning) duge thiet ké dé giải quyết bải toan

Lịch sử hình thành, phát triển và đặc điểm câu trúc của các thuật toán object detection bao gồm 2 nhóm chỉnh:

quyết các nhiệm vụ định vị vật thể và nhân diện vật thẻ

Trang 22

Ho cae mô hình YoLo (You Only Look Once), la mét nhém ky thuat thir hai dé

nhận dạng đổi tượng được thiết kế đẻ nhận diện vật thẻ real time

2.1.2 Thuật toán faster R-CNN trong phát hiện đối trợng

2.1.2.1 Thuật toán R-CNNỀ

R-CNN được giới thiệu lần đầu vảo 2014 bởi Ross Girshick vả các cộng sự ở UC Berkeley một trong những trung tâm nghiên cửu AI hang đầu thể giới trong bài báo

Rich feature hierarchies for accurate object detection and semantic segmentation

Nó có thể là một trong những ứng dung nên móng đầu tiên của mạng nơ-ron tích chập đổi với vấn đề định vị, phát hiện và phân đoạn đôi tượng Cách tiếp cân đã được chứng minh trên các bộ đữ liệu điểm chuẩn, đạt được kết quả tốt nhất trên bộ đữ liệu

VOC-2012'Ì và bộ dữ liêu phát hiện đối tong ILSVRC-2013!"*! gém 200 lớp

Kiến trúc của R-CNN gồm 3 thanh phan do la

network,

hình ảnh chứa trong region proposal ve ding nhan

Kiến trúc của mô hình được mồ tả trong biêu đồ bên dưới:

R-CNN: Regions with CNN features

1.Input 2 Extractregion 3 Compute 4 Classify

image proposals (~2k) CNN features regions

Hình 2.4 Sơ đồ pipeline xử lý trong mô hình mạng R-CNN

Có thể nhận thây các hình ảnh con được trích xuất tại bước hai với số lượng rất lớn

(khoảng 2000 region proposals) Tiếp theo đó áp dụng một mạng deep CNN đẻ tính

10

Trang 23

toán các feature tại bước ba và trả ra kết quả dự báo nhãn ở bước thứ tư như một tác

vụ phân loại ảnh thông thường

Một kỹ thuật được sử dụng đẻ đẻ xuất các region proposal hoặc các bounding box

chứa các đối tượng tiêm năng trong hình ảnh duoc goi la “selective search” Thuat

toan Selective search co dau vao lả ảnh mảu, đầu ra sẽ la khoang 2000 region proposal

(bounding box) ma co kha nang chứa các đối tượng

Đầu tiên ảnh được segment qua thuật toán Graph Based Image Segmentation, dựa

vào màu sắc của từng pixel mà gắn nhãn các pixel đó chung một đổi tượng, tô màu giống nhau cho các pixel cỏ củng giả trị

Hình 2.5 Dau ra sau khi thực hiện Graph Based Image Segmentation "*!

Nhân xét: Ta không thể dùng mỗi mảu trong output dé lam một region proposal

được vì

® Mỗi đổi tượng trong ảnh cỏ thẻ chứa nhiều hơn một màu vì một đổi tượng,

thường có nhiễu bộ phân với mâu sắc khác nhau

® Các đổi tượng bị che mắt một phần

Vi vay can nhỏm các vùng màu với nhau dé lam region proposal Tiep theo, các vùng màu được nhỏm với nhau dua trên độ tương đồng vẻ mau sac, hudng gradient, kich thước, Cuối cùng các region proposal được xác định dựa trên các nhóm vùng,

Trang 24

Mô hình huân luyện một mạng CNN học sâu trên rất nhiêu region proposal cho môi

hình ảnh nên rất chậm

2.1.2.2 Thuật toán Fast R-CNN

Fast R-CNN ra đời để giải quyết được một số hạn chế của R-CNN là cải thiện tốc

độ

Tương tự như R-CNN thì Fast R-CNN vẫn dùng selective search dé lay ra cac

region proposal Tuy nhién la no khéng tach 2000 region proposal ra khỏi ảnh và thực

hign bai toan image classification cho méi anh Fast R-CNN cho cả bức ảnh vào ConvNet (một vai convolutional layer + max pooling layer) dé tao ra convolutional feature map

Sau đó các vùng region proposal duge lay ra tuong img tir convolutional feature

map Tiếp đỏ được Flatten và thêm hai lớp Fully connected layer (FCs) để dự đoán lớp

của region proposal và giả trị offset values của bounding box

Rol feature

feature map VECLOF vu 2y

Hình 2.6 Kiến trúc single model Fast R-CNN "7!

Tuy nhiên là kích thước của các region proposal khác nhau nên khi Flatten sẽ ra

các vector có kích thước khác nhau nên không thể áp dụng neural network được nên

cân resize các region proposal vẻ củng kích thước trước khi đủng transfer learning Tuy nhiên ở feature map không thẻ resize được, nên phải chuyển các region proposal trong feature map vẻ cùng kích thước Region of Interest (ROI) pooling ra đời để thực

hiện nhiệm vụ đó

Region of Interest (ROT) pooling

12

Trang 25

ROI pooling 14 mét dạng của pooling layer Điểm khác so với max pooling hay average pooling là bất kẻ kích thước của tensor input, ROI pooling luôn cho ra output

có kích thước cô định được định nghĩa trước

Ta kí hiệu a/b là phần nguyên của a khi chia cho b vả a%b là phần dư của a khi

Trang 26

Hình 2.8 So sánh thời train và test giữa R-CNN và Fast R-CNNP?

Fast R-CNN thực hiện feature map với cả ảnh sau đó với lây các region proposal

ra tir feature map, con R-CNN thực hiện tách các region proposal ra rồi mới thực hiện

CNN trên từng region proposal Do đỏ Fast R-CNN nhanh hơn đáng ke nhờ tôi ưu việc tỉnh toán

Tuy nhiên với thời gian testing của Fast R-CNN thi thời gian tinh region proposal

rat lâu và điều đó sẽ làm châm thuật toán

2.1.2.3 Thuật toán faster R-CNN

Faster R-CNN khỏng dùng thuat toan selective seareh để lây ra các region

proposal, ma né thém mét mang CNN mới gọi là Region Proposal Network (RPN) dé

tìm các region proposal Đỏ lả điểm mới để cải thiện tiếp tốc độ của Fast R-CNN:

my

Region Proposal Netw

feature maps

Hình 2.9 Kiến trúc mới Faster R-CNN P1

Đầu tiên cả bức ảnh được cho qua pre-trained model de lay feature map Sau đỏ feature map duoc dimg cho Region Proposal Network dé lay dugc cac region

14

Trang 27

proposal Sau khi lẫy được vị trí các region proposal thi thuc hiện tương tự Fast R-

CNN

Region Proposal Network (RPN)

Input cia RPN 1a feature map va output 1a cac region proposal Cac region

proposal là hình chữ nhật

Mà một hình chữ nhật được xác định bằng hai điểm ở hai góc, ví dụ A( mịn,

y min) và B(x max, y_max) Nhận xét:

® Khi RPN dự đoánthỉx min<x max vày mỉn<y max

® Hơn nữa các giả tri x„y khi dự đoản cỏ thê ra ngoài khỏi bức ảnh

Anehor là một kĩ thuật mới để biểu diễn region proposal

Ý tưởng là thay vi dự đoán hai góc của bounding box ta sẽ dự đoán điểm trung tâm

(x_center, y_center) va width, height của hình chữ nhật Nhu vay moi anchor được

xác định bằng 4 tham s6 (x_center, y_center, width, height)

Vi khéng str dung Selective search nén RPN ban dau can xác định các anchor box

cé the la region proposal, sau d6 qua RPN thi chi output nhimg anchor box chic chan chứa đổi tượng

Hình 2.10 Xác định các anchor box”?!

Ví đụ ảnh bên trai kích thước 400 * 600 pixel, tác tâm của anchor box mảu xanh,

cách nhau 16 pixel => cỏ khoảng (400*600)/(16*16) = 938 tâm Do các object trong

ảnh có thể cỏ kích thước và tỉ lệ khác nhau nên với mỗi tâm ta định nghĩa 9 anchors

với kich thước 64 x 64, 128 * 128, 256x256, môi kích thước có 3 tỉ lệ tương ứng: 1:1,

1:2và2:1

Giống như hình bên phải với tâm ở giữa 3 kích thước ứng với mảu da cam, xanh

lam, xanh lục và với mỗi kích thước có 3 tỉ lệ.

Trang 28

Số lượng anchor box sẽ la 938 * 9 = 8442 anchors Tuy nhién sau RPN, chi git lai Khoang 1000 anchors box dé thuc hién nhu trong Fast R-CNN

Việc của RPN Ia ly ra cdc region proposal giéng nhu selective search chit khéng

phải là phân loại ảnh

Mô hình RPN khá đơn giản, feature map được cho qua Conv layer 3*3, 512

kernels Sau đỏ với mỗi anchor lây được ở trên, RPN thực hiện 2 bước:

Du doan xem anchor day la foreground (chita object) hay background (khéng chứa object)

® Dự đoản4offSetvalue chox center, y_center, width, height cho các anchor

Nhận xét: có rất nhiều anchor bị chồng lên nhau nên non-maxima suppression được dùng đề loại bỏ các anchor chỏng lên nhau

Sau củng dựa vảo phan tram dur doan background RPN sẽ lây N anchor (N cỏ thể

là 100, 1000 hay 2000) dé lam region proposal

Kết quả của Faster R-CNN

Hình 2.11 So sánh thời testing giữa Fast R-CNN và Faster R-CNNE7

Nhìn ở hình trên có thê thấy Faster R-CNN nhanh hơn hẳn các dòng R-CNN trước

đó, vi vậy có thẻ dùng cho real-time object detection

2.1.3 Thuật toán easeade R-CNN trong phát hiện đổi tượng

Trong bải toản phát hiện đối tượng, ngưỡng giao nhau (Intersection over Union-

1oU) thường được sử dụng để xác định tỉ lệ giữa các mặt tích cực và phủ định Đánh

giá một mô hình Hai yêu tổ chỉnh mà Faster R-CNN mắc phải khi tăng ngưỡng IoU

là

16

Trang 29

® Quá sung sức trong quả trình đảo tạo, do các mâu dương tính biển mất theo cap

số nhân tức là rất nhiều mẫu dương tính sẽ biển mắt khi ngưỡng IoU tăng lên

Hai yếu tổ nảy làm hiệu suất của quá trình phát hiện đối tượng học sâu trước day

cỏ xu hướng giảm khi tăng ngưỡng IoU Cascade R-CNN của UC San Diego ra doi

nhằm khắc phục trường hợp này Kiến trúc của mô hình Cascade R-CNN được thé hiện trong hình 2.14b Kiến trúc nảy là một phần mở rộng các câu trúc phân đoạn của

Faster R-CNN, Faster R-CNN tap chung sti dung mang con Region Proposal Network (RPN) như Hình 2.14a Tuy nhiên Cascade R-CNN không giới hạn trong cơ chế này

mả kết hợp với giới hạn hỏi quy theo tâng (cascaded bounding box regression) và phát hién theo tang (cascaded detection)

được thể hiển trong câu trúc Hinh 2,14b và theo phương trình:

f(x, b) = Ấr ®Ẩr- ° + - ` ° ñ(x, b) PT21

Trang 30

Trong đó T là tổng số giai đoạn duoc phan tang Điểm then chốt là mỗi bộ hỏi ƒ quy

được tối ưu hóa cho từng phân phối {b} được đảo tạo bở bộ hỏi quy trước đỏ lả ƒ,,

chứ không phải phân phổi ban đầu {bị}

Khác với bbox lặp lại sử dụng cùng HI, các đâu khác nhau được sử dụng ở các

giai đoạn khác nhau, tức là HI, H2, H3 được sử dụng như trong hình 2.14 trên,

hoặc ƒ ƒr- ƒz như trong phương trỉnh trên

Mỗi một lớp phân tầng được thiết kế cho một ngưỡng IoU cụ thể từ nhỏ đến lớn Hồi quy theo tầng là một quy trình lẫy mẫu lại, không phải là bước xử ly sau, cung cấp các mau dương tỉnh tốt cho giai đoạn tiếp theo

Va không cỏ sự khác biệt giữa đảo tạo và suy luận vì ngưỡng kiển trúc và IoU là như nhau trong quả trình đảo tạo và suy luận

Hình 2.13 Biểu đồ IoU của các mẫu đầu tao™

Hình trên thẻ hiện phân phối các đầu ra của RPN theo ngưỡng IoU Các số màu đỏ

là phân tăm dương cao hơn ngưỡng IoU tương ứng Có thẻ thay các dé xuất RPN nghiêng về các IoU thấp khi ở phân lớp thứ nhất Điều nay chắc chắn dân đền việc huấn luyện các bộ phát hiện có ngưỡng IoU cao hơn là không hiểu quả nều chỉ sử dụng một tằng hỏi quy Mô hình Cascade R-CNN giải quyết vấn đẻ nảy bằng cách dựa vào các hỏi quy phan tang như một cơ chế lấy mâu lại Bắt đầu từ một tập mẫu huấn luyên (xị, bị), hỏi quy theo tầng sẽ liên tiếp lẫy lại các mẫu phân phối (x'¡, b’;) cia

ngưỡng IoU cao Theo cách nảy, có thẻ giữ lại tập hợp các mâu tốt của các giai đoạn

huấn luyện kế tiếp ở một kích thước gản như không đổi, ngay cả khi chất lượng máy

dò (ngưỡng IoU) được tăng lên Điều này được minh họa trong Hình 2.15, trong đỏ sự

phân bổ nghiêng nhiêu hơn đến các ví dụ chất lượng cao sau mỗi bước lay mau lai

Hai kết quả đạt được, một là, không bị quả khớp (overfitting) với tập mẫu vi các mẫu

18

Trang 31

tích cực rất phong phú ở tất cả các tập dữ liệu, hai là, các bộ phát hiện của các giai

đoạn sau được tôi ưu hỏa cho các ngưỡng IoU cao hơn

Ở mỗi giai đoạn /, R-CNN bao gồm một bô phân loại ủ, và một bộ hồi quy ft, được tối ưu hóa cho ngưỡng IoU ut, khi ut > ut-1, Dieu nay được huân luyện bởi cách giảm thiểu hảm loss

1,8) = Lash), ¥) +4 [V1] Lice (H*P)8) PT 2.2

Voi b' =f, 0°", B), g la gidi han thuc su cia x’

Theo suy luận, chát lượng của các giả thuyết được cải thiện theo trình tự, bởi các ứng, dụng của cùng một quy trình phân tâng và các bộ phát hiện chất lượng cao hơn chỉ được yêu câu hoạt đông trên các giả thuyết chất lượng cao hơn

e Kết quả thực nghiệm

Để đánh giá sự hiệu quả của mô hình Cascade R-CNN so với các mô hình

detection trước, mô hình sẽ thử nghiệm trên tập dit ligu MSCOCO 2017"), chia

khoảng 118.000 hình ảnh đẻ huần luyện, 5.000 ảnh đẻ xác thực vả khoảng 20.000 hinh

of — 027 (apso 256) 0-06 (AP-0.380) *|—w98lAo-oae) 0207 JA2-0 365) #I|—u-06(Ap-0384)

Hình 2.14 Hiệu suất của các giai đoạn khác nhau"!

Trong giai đoạn đâu tiên, u = 0.5 đạt được AP cao nhất ở ngưỡng IoU thấp Điều

đỏ hiểu được khi ở giai đoạn đầu tiên được huần luyện đảo tạo bằng cách sử dụng u =

05

Đổi với giai đoạn thứ hai, u = 0.6 đạt được AP cao nhật ở gần tất cả các ngưỡng

IoU

Đôi với giai đoạn thứ ba, u = 0.7 đạt được AP ở ngưỡng IoU cao

Nhưng khi sử dụng bến tâng, hiệu suất không thay đổi hoặc giảm, mặc đủ mô hình

có thê nhận được AP cao nhất ở AP80 vả AP90 (theo như Hình 2.17 thê hiện)

Vi vay, mô hình tốt nhất sẽ là mô hình cascade R-CNN sit dung 3 tang

Trang 32

# stages |test stage} AP | APso APso APra APso APso

Hình 2.15 Hiệu suất khi sử dụng bốn giai đoạn

Localization Performance Integral Loss

Hình 2.16 a, Hiệu suất sử dụng BBox b, Hiệu suất sử dụng mát tích phân?

So voi bounding box lap di lap lai, Cascade R-CNN giai doan ba có hiệu suất nội

địa hóa tổng thể tốt hơn cho toàn bộ đường cong với các IoU đầu vào khác nhau

Đổi với giai đoạn một, cả hai đều cỏ AP tương tự nhau vì chưa có tỉnh chỉnh hộp

Fasier R-CNN by Œ-RMI [ I9J | Ineeption-ResNet-v2 38J 520 Deformable R-FCN [5]* Aligned-Inception-ResNet 40.1 525

'VGGI6+Wide ResNet ResNet-101

Trang 33

Cascade R-CNN vượt trội hơn YoLov2 , SSD, RetinaNet , Faster R-CNN , FPN ,

G-RMI, DCNV1 và Mask R-CNN với tỷ suất lợi nhuận lớn

Mask R-CNN sử dụng mặt nạ phân đoạn dé giúp phát hiện đối tượng trong khi

Cascade R-ƠNN không cân

val GH test-des (20k)

AP Aso APrs APs Alia Abr | AP Asc APry APs ẢPw ÁP,

6 19 BO ĐÔ 12 355/25 19 26 81 281 M7 0.5 [01153] 7MM|270 2 277 $6 284 422|269 H3 278 83 382 41 Gils | 007s | FIM] 270 487 369 58 305 404|771 489 269 l04 297 332 24: |0075⁄| 184M] 31.1 498 333 1D4 344 481|3Ô9 499 %6 105 331 đáo

(0015| 2MM [303 532 308 122 M7 4| 1H 59 M2 130 33g 238 039a |0088| 356M |334 370 352 11§ 372 5l1|333 526 352 121 162 431 03s [009% 365 386 382 208 400 478/365 590 392 203 388 464 038: |5: 43 S04 47 339 447 S41|4Đó S99 440 224 427 521 38: [Oss] 2M 48S 06 417 2321 4L# 31.|384 GIL 419 713 HR wR đáp | 0.14: | MEM|437 €ló 266 23⁄8 462 574/428 O21 463 237 455 552

m hackhone cwealel

Hình 2.18 Mê hình cascade R-CNN với các mô bình hỗ trợ khác nhau”?

Kiến trúc Cascade R-CNN cũng có thể được áp dung cho R-FCN va FPN

Đối với các đâu dò và thiết bị dò khác nhau, với việc sử dụng Cascade R-CNN, AP

tổng thé được cái thiện

Tham sẻ và thời gian: Số lượng tham số RCNN phân tầng tầng lên củng với số lượng giai doạn phân tảng Sự gia tăng là tuyến tinh trong số thông sé cia dau do

đường cơ sở Ngoài ra, vi chỉ phí tính toán của đâu phát hiện thường nhỏ khi so sánh với RPN, chi phi tính toán cũa Cascads R-CNN là nhô, ở cả quá trình đảo tạo và thử

nghiêm

2.1.4 Thuật toán VaLa trong phát hiện đỗi tượng

Với các mô hình phát hiện vật thẻ họ R-CNN thường phải quét quả bức ảnh nhiều lân để có thể tim kiếm vật thể, hoặc sử dung nhiều giai đoạn để phát hiện đối tượng Nhưng đối với Yol.o thì chỉ cần lướt qua bức ảnh miội

ấn để phảt hiện luôn đối tượng

và vị trí của đối tượng, cho nên các tên YoLo được viết tắt tir cum ti “You only look

onoe” bắt nguồn từ cách hoạt động của nó Sau đây nghiên cứu sẽ trình bày lân lượt

các cầu trúc của YoLovl dén YoLov4 (phiên bản mới nhật của YoLo),

2.14.2 YoLovi

a Cau trúc

2L

Trang 34

YoLoverl sit dung 24 lép chap: bao gồm lớp (1*1) gọi là Reduction layers (dủng

để giảm kich thước ảnh),lớp chập (3*3) gọi là Convolution layers.Xen kế giữa 24 lớp

chập là các lớp max pooling và kết thúc bằng 2 lớp fully connected Kết quả là một ma trân 3 chiều có dạng 7x7x30

Với mỗi ]x1x30 trong 7x7x30 được gọi là một tensor, vậy đổi với 7*7x30 thi ta sẽ

Ni tau" ina = Inge gang }2 láng

“Em “up

Sàn

Hình 2.19 Cấu trúc YoLov1'

YoLo chia một bức ảnh thành Sx8 ô lưới được gọi lả các grid cell, thường có kích

thước 7x7 pixel Trọng tâm của vật thể được tìm trong các ô lưới đỏ (được học thông

qua việc gán nhan va huan luyện) Nếu trọng tâm của đối tượng nằm trong ô lưới bắt

kỳ thi nó sẽ chịu trách nhiệm tim vật thể đó

Hình 2.20 Minh hoa Grid cell!

Các ô lưới nảy sẽ phải tìm ra các vật thẻ và dự đoán xem trong đó có chứa vật thẻ

hay không Các ô lưới sẽ đưa ra (2B + C) giá trị dự đoán, trong đó:

2

Trang 35

® Bbounding box (tức là hộp chửa đổi tượng), đối với YoLov1 thi B=2 Với mỗi

B sẽ có 5 giá trị nhỏ nữa là : x (trọng tâm đối tượng theo phương x- đổi chiếu

với ô lưới chứa nó), y (trọng tầm đối tượng theo phương y ~ đổi chiếu với ô

lưới chứa nó), w (độ rộng của vật thẻ- đối chiêu với kích thước của toàn bộ bức ảnh), h (độ cao của vật thẻ - đối chiều với kích thước của toàn bộ bức

anh) va confidence (d6 tu tin- xac suat do la vat thé)

1oU so với ground truth box (nhãn được gán bằng tay) lớn hơn thì được xuất ra

Hình 2.21 Trong tim vat the?

đó (đối với YoLov1 thì số classes lả 20, bởi vì model YoLov1 là một model đã

được huấn luyện sẵn và chúng ta không thẻ đào tạo hay sửa chữa được nên chỉ

cỏ thể lẫy ra dùng)

Hình 2.22 Giá trị của số classes”"!

23

Trang 36

Voi méi 6 lưới thi tối đa sẽ chỉ phát hiện được 1 đổi tượng, vậy nên đổi với YoLovl th sẽ xảy ra những vân đề sau:

® Phát hiện được tôi đa 49 đổi tượng (nêu thuật toán chia anh thành 7*7),

® Nếu một ô lưới chứa trọng tâm của nhiều đổi tượng, thi model cũng chỉ phát hiện được một đối tượng có độ chính xác cao nhất

@ Nếu vật thể nảo đỏ quả lớn so với bức ảnh, đồng nghĩa với việc vật thẻ đỏ sẽ có nhiều trọng tâm ở nhiều ô lưới khác nhau Vậy nên vật thẻ đó sẽ được phát hiện

nhiều lần

b Hàm Loss funetion

YoLo sit dung ham “tổng bình phương lỗi” (sum-squared eror Viết tắt 1a SSE)

“Léi” 6 day tue la lay gia trị của ground truth box ( nhãn gán bằng tay) trừ đi bounding,

box prediction (bounding box mả model dự đoán), sau đó bình phương giả trị nảy lên

Các giả trị x,y,w,h,C là giả trị của ground truth box, cỏn các giả trị có dâu mũ lả của

bounding box mả model dự đoản

c Non-maximal suppression (NMS)

Như đã trình bày ở trên, sẽ có nhiều vật thẻ lớn và trọng tâm của nó có thẻ rơi vảo nhiều ô lưới (grid cell) củng một lúc, sẽ dẫn tới việc một vật thẻ sẽ được dự đoản nhiều lần Cho nên tác giả đã sử dụng NMS đẻ loại bỏ những trường hợp như thế này

Cách thực hiện:

Hình 2.23 Minh họa NMSES

1 Loại bỏ những đối tượng cé confidence C < C-threshold (ngưỡng nay chúng ta

có thể cầu hình)

24

Trang 37

bà Sắp xếp những dỏi tượng có confidenoe C theo thứ tự giảm dan

3 Chọn bounding box cửa những vật thể cỏ confidence C cao nhất và xuất ra kết quả

4 Loại bỏ những boumding box có [øU < ToU-threshold (nguting nay chúng ta cô

* BatchNormalization: thém LatchNormalization vào tất cá các lớp chập Việc này

có thế giúp chúng ta tránh được hiện tượng giá trị của xx rơi vào khoảng bão

hoa sau kb di qua gác bản kích hoạt phí tuyển Vậy nên nó đấm bảo rằng không,

có sự kích hoạt nao bị vượt quả cao hoặc quá thấp Diễu nảy giúp cho các weighis

ma khi không dung BatchNormalization cé thế sẽ không bao giờ được học thi nay

Tại được học bình thường Điều này giúp chúng la lau giảm đi sự phụ thuộc vào

giả trị khải tao của cáo tham số Và sau khí áp dụng BatchNormalization thi gia

trị mAP của model đã tăng thêm 2%

® Bộ phân loại phản giải cao (High Resolution Classifier):

® YoLovl sẽ đảo tạo bộ phân loại với ánh có kích thước 224::224, sau đỏ sẽ tăng,

kích thước lén 448448 để nhậu dang,

& Còn dối với ver2, tác giả vẫn dào tạo bộ phân loại với ảnh có kích thước

2245224, sau đỏ đào tạo tiếp với ảnh có kích thước 448448 ở 10 epochs cudi,

cuối cùng mới đetection ở ảnh có độ phân giải 448x448 Việc sử dụng High

Resolution Classifier nay giup ting mAP Lén tdi da 4%

® Phát hiện nhiều đối tượng trong một ô lưới (gird cell):

œ@ YoLoœwvl: đối với hình trên, ver 1 sẽ chỉ có thế nhận dang được hoặc là người

hoặc là cavat trong, õ lưới máu đó.

Trang 38

26

® Nhưng tới ver2, để giải quyết vấn đề đỏ, tác giả đã cho model dự đoản nhiều bounding box hơn Va để dự đoán nhiều bounding box thi khai niém Anchor

box ra đời

là do model dự đoán), Với mot 6 ludi sé c6 trach nhiém tạo ra một số K các Anchor box với các kich thước khác nhau Các Anchor box nảy sẽ được dự

đoán xem là nó có chứa vật thể hay không, dựa vào kết quả tính toán của IoU' giữa no va ground truth (néu IoU > 50% thì Anchor box đó được coi là chứa vật thể)

Hình 2.24 Hình ảnh minh họa 1% số lượng Anchor box trong mạng RetinaNetÊ°)

Các vật thê nhỏ: YoLov2 chia bức ảnh thành 1313 ô lưới nên khả năng tìm kiểm

được các đổi tượng cỏ kích thước nhỏ là cao hơn so với YoLov1 là 7x7

Được đào tạo trên nhiêu kích thước ảnh đầu vào: đối với YoLov1 thì chỉ được đảo

tạo trên một vải kích thước ảnh đầu vảo cổ định, nhưng sang YoLov? thi tac gia da

cho đảo tạo mô hình trên các ảnh có kich thước thay đổi từ 320x320 cho đến 640*640 Điều này làm cho model cỏ thể học được nhiêu đặc điểm của đổi tượng

hơn cũng như cho ra độ chính xác cao hơn

Tensor: Với việc bỏ đi các lớp fully connected vả thay vảo đỏ là sử dụng anchor

box, kết quả cuối củng của mô hình sẽ là: 13x]3x 125 Với môi tensor cỏ kích

Trang 39

thude 1x1x125 duoc tinh nhur sau: k x (5 +20), trong dé k =5 va 20 là số lượng lớp

vật thể được đảo tạo sẵn

lại được sử dụng Darknet19 với 19 lớp convolution cùng với Š lớp max pooling

(không có các lớp fully connected để dự đoán mả thay vào đó thì anchor box được

sử dụng) Darknetl9 xử lý rất nhanh trong việc nhận dạng vật thể nên rất cỏ ý

nghĩa trong việc xử lý ở thời gian thực

® Với việc sử dụng đarknet19 (19 lớp chập) và thêm 11 lớp chập nữa để phục vụ quá

trình nhận dạng vật thẻ Điều nảy khiến cho mô hình khả chật vật khi gặp phải những đối tượng có kích thước nhỏ Củng với việc cầu trúc của nó khong he str

dụng các nguyên liệu hiện đại tại thời điểm 6 nhu: residual, upsampling hay skip

connect Nén khó có thể trích xuất được tốt nhất các đặc trưng của vật thẻ

Convolutional | 512 14x14 Convolutional | 256 14 x 14 Convolutional | 512 14x14

Softmax

Hinh 2.25 Cau trac Darknet19°"!

3.1.4.3 YoLov3-tốt hơn nhưng chậm hơn

a Cau trie

27

Trang 40

Hình 2.26 Cầu trúc mô hình YoLov39

Với YoLov] sử dụng cau trúc 24 lớp tích chập, YoLov2 thì sử dụng cấu trúc

đarknet19 và 11 lớp tích chập nữa, thì YoLov3 sử dụng câu trúc darknet53 (cao gồm

53 lớp tích chập) và bản thân YoLov3 có thêm 53 lớp tích chập nữa Vật tổng công

YoLov3 sẽ cỏ tắt cả 106 lớp chập

Convolutional 32 3x3 256 x 256

Convolutional 64 3x3/2 128 x 128 Convolutional 32 1x1

1x| Convolutional 64 3x3 Residual 128 x 128

Convolutional 1263x372 64x64 —

Convolutional 64 1x1 2x} Convolutional 128 3x3 Residual 84x64 Convolutional 256 3x3/2 32x32 Convolutional 128 1x1

8x)| Convolutional 256 3x3 Residual 32x32 Convolutional 512 3x3/2 16x16 [Convolutional 256 1x1

512 3x3

Connected 1000 Softmax

Hình 2.27 Cấu trúc DarknetS3°

28

Tiêu đề	Luận văn thạc sĩ nghiên cứu phát triển thuật toán nhận dạng, trích xuất thông tin trong văn bản tiếng Việt
Tác giả	Lấ Bích Hạnh
Người hướng dẫn	TS. Nguyễn Vũ Thắng
Trường học	Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành	Kỹ thuật Điện tử
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2022
Thành phố	Hà Nội

Định dạng
Số trang	108
Dung lượng	3,98 MB