~— Tự do —1Hạnh phúc BẢN XÁC NHẠN CHỈNH SỬA LUẬN VĂN THẠC SĨ Ho và tên tác giả 1LÊ BÍCH HẠNH Dé tai Juan van Nghiên cứu phát triển thuật toán nhận đạng, trích xuất thông tín trong vă
Trang 1TRUONG DAI HQC BACH KHOA HA NOI
LUAN VAN THAC Si
Nghiên cứu phát triển thuật toán nhận dạng, trích xuất thông tỉn trong văn bản tiếng Việt
LÊ BÍCH HẠNH
hanh.Ib202777M@is.hust.cdu.vn Ngành Kỹ thuật Điện tử
Giảng viên lưởng dẫn: TS Nguyễn Vũ Thắng
HÀ NỘI, 2022
Trang 2CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
~— Tự do —1Hạnh phúc
BẢN XÁC NHẠN CHỈNH SỬA LUẬN VĂN THẠC SĨ
Ho và tên tác giả 1LÊ BÍCH HẠNH
Dé tai Juan van Nghiên cứu phát triển thuật toán nhận đạng, trích xuất
thông tín trong văn bản tiếng Viel
Chuyên ngành kỳ thuật Diện tử
+ _ Hỗ sung Kết luận chương: Bổ sung kết luận chương 2 trang 61, kết luận chương,
3 trang 76, kết luận chương 4 trang 90
«_ Chỉnh sửa lại phản Kết luận chỉ tiết, hợp lý hơn: Đã chỉnh sửa phản Kết luận
trang 92
«_ Làm rõ phạm vi, đổi tượng của luận văn: Bễ sung tại trang |
+ Việt hóa lại sơ đỗ xử lý: Sử dụng văn phong tiếng Việt thay thế, đã chỉnh sửa
trong 1ĩnh 1.2
« _ Chính sửa lại các lỗi chính tả: Sửa các lỗi chính tả khi đánh máy được hội đồng
nhận xéL
Trang 3Chính sửa lỗi chế bản, tính từ sở hữu: Chính sửa các dại tử xưng hồ trong luận văn từ “em” được thay thể băng “tác giả”
Ngày 27 tháng 10 nấm 2022
CHỦ TỊCH HỘI DÒNG
Trang 4LOI MO DAU
Bai loan trich xuất thông lin trong vin ban (Information extraction) duce khéi
xướng từ những nam 703 (DeTong’s FRUMP program) Sau nay da than lap Message Understanding Conferences MUC vào những năm 90s ‘Tuy bai toán đã xuất hiện
sớm nhưng vẫn còn nhiều thách thức khi xuất hiện nhiều ruấu vin ban khác nhau và quả trình chuyên đổi từ văn bản từ dịnh dang scan sang dinh dang text Bai toán trích: xuất thông tin văn bản đi kem với công việc xử lý ngôn ngữ tự nhiên, trong đẻ xử lý
xugôn ngữ tự nhiên bao gồm nhận dạng chữ viết và nhận đang giọng Khân đạng chữ
viết mang nhiều thách thức hơn khi có hơn 7000 ngôn ngữ khác nhau và đặc biệt khó
khăn đềi với chữ viết tay Các công trình nghiên cứu về nhận dang chữ viết, trích xuất
thông tin trưng văn bản mới đừng lại nhiêu ở ngôn ngữ Tiếng Anh, Hếng Việt còn chưa được khai phả nhiều
Ung dung yao bải toán trích xuất thông tin trong văn bản tiếng Việt, để tài sẽ tập trung nghiên cửu, xây đựng một hệ thống hoàn chỉnh tù phân lách, nhận điện chữ viết trong văn bản định đạng ảnh hay ban scan đến trích xuất tự động các thông tin quan trong trong văn bản Cụ thé nghiên cửu sẽ ứng dụng trên hóa đơn thanh toán tiếng Việt, báo gồm hóa đơn chữ in và hóa dơn chữ viết tay
é trich xuất được thông ti trong văn bán thì yêu câu đầu tiên cần lam 1a tim ra
được các chữ viết trong văn bản định đang ảnh, bước liếp theo cần nhận điện chữ viết
để biết dược nội dung văn bản và cuối cùng sẽ chọn lọc phản loai dẻ tìm ra các thông, tin theo yêu câu Với sự phát triển của thị giác máy tỉnh và học sau (deep learning),
nghiên cứu sẽ sử đựng cáo mô hình deep learning khác nhau đế giải quyết lần lượt các
vấn dễ trên Cuối cùng các chức năng sẽ dược tổng, hợp dé hoan thành một hệ thống
Trang 5
Tuan van ughién ctu, ther nghigm han dạng trích xuất thông tín trong văn bản tiếng Việt cụ thể là trong các hóa don thanh toán tiếng Việt với 16 trường thông tin khác nhau với đầu vào là ánh chựp hỏa đơn hoặc bán scan không thể tác động hay
chỉnh s ø Hệ thông được thử nghiện với nhiều mẫu hóa đưa khác nhau bao gồm cả chữ m và chữ viết tay Tiên hành thu thập dữ liệu là các hoa don thanh toán trên
internet thu được 240 ảnh, với 4& mẫu hóa đơn khác nhau và tự xây dụng thêm các hóa
đơn sử dụng chữ viết tay, số lượng bao gồm 144 ảnh, với 4§ mẫu khác nhau, thụ thập chữ viết của 20 người bao gồm nhiều lửa tuổi vả giới tính khác nhau Về thuật toán
nhận dạng, trích xuất thang tin, nghiên cứu chia làm ba bước tương ứng với ba bài toán
nhỏ, ba bước lầu lượt là: nhận đạng chữ viết, rhận dang ký tự quang học và sau đó là
trích xuất thông tin Với ba bài toán trên, nghiên củu tập chung tỉm các giái pháp ứng
dung deep learning để giải quyết Bài toán nhận đạng chữ viết, nghiên cứu thử nghiệm
so sánh bạ ruô hình Easler R-CNN, cascsde R-ƠNN, Yol.ov4 Bài toán nhận đợng ký
tụ quang học, nghiên cứu thử nghiệm so sánh hai mỏ hình là AttentionOCR và TransforrnerOCT: còn bài toán còn lại nghiên cứu tập chung thử nghiệm mô hình Graph Convolutional Network (GCN) Chuong trinh nhin dang, trích xuất thông tín
được triển khai viết bằng ngôn ngữ Python, thực hiện huấn luyện mô hình mạng, sử
dụng thư viện pylorch
Tuan văn nghiên cứu đã hoàn thành hệ thông từ đầu đến cuối từ nhận dạng chữ viễt
cến trích xuất các thông tin quan trọng trong hóa don tiếng Việt, tiễn hành nghiền cứu, thử nghiệm đề tim ra eáe giải pháp tốt nhật cho từng công đoạn, kết quả cho độ chính xác là 92% cho hóa đơn chữ mm và 7894 cho chữ viết tay Cuối cùng một trang web đọri giản cũng được xây dựng để người dùng có thẻ thứ nghiệm va quan sắt trực quan kết
quả
HỌC VIÊN
Trang 6MUC LUC
DANH MỤC HÌNH VẼ 22s H111 n0 1 0n.110011111xxxe second
CHƯƠNG 1 ĐẶT VẤN ĐẼ H111 n0 1 0n.110011111xxxe 1 CHƯƠNG 2 CƠ SỞ LÝ THUYẾT
2.1 Cơ sở lý thuyết cho bài toàn phát hiện chữ viễt -
2.1.1 Bài toán phát hiện đối tượng
2.1.2 Thudt todn faster R-CNN trong phat hidn đối tượng we TO 21.3 Thuật toán caycade R-CNN trong phút hiện dỗi tượng "- 21.4 Thuật toán Yolo trong phat hiện đắt tượng 21
2.2 Cư sở lý thuyết cho bai toan nhận dạng ký tự tiếng Viel 33
321 Nhận dạng kỷ tự quang hạc — 133
2.3 Cơ sở lý thuyết cho bai toàn trích xuất thông tin trong văn bán từ ảnh 49
2.3.1 Bài toán trích xuẤt thông tin trong vin ban tir anh 49
2.3.2 MGt sé If thuyét dé thj co ban wn SL
2.3.3 Mit sb bai todn khi sit dung Graph Convolutional Network 33
2.3.4 Graph Convolutional Network trong bài toán trích xuất thông tu trong
2.4 KẾt luận chương c2 H111 n0 1 0n.110011111xxxe we OL CHƯƠNG 3: THỦ NGITEỆM TRÍCH XUAT THONG TIN TRONG TOA DON TIẾNG VIỆT 52225255 se SHHE1101 HE ca 62 3.1 Thử nghiệm phát hiện chữ viết viết với thudt toan Faster R-CNN, Cascade
Trang 731.1 Thiết lân các thông số cho mô hình Faster R-CNNN và Cascade R-CINN G2
3.4.3 Nik Wj dit ligu cho bai toda phat hig chit vi8e 0 cesses nse 66
3.2 Thử nghiệm nhận đạng ký tự quang học với mô hình AttentionOCR va
321 Thiết lập thông sé cho mé hinh AttentionOCR va TransformerOCR .69
3.232 Xử lý dữ liệu cho bài toán nhận dang ký tự quang bọc 70
3.3 Thủ nghiệm trích xuất thông tin trong höa đơn tiếng Việt sử dụng mô hình
331 Thiết lập thông số cho mé hink Graph Convolutional Network 72
33.2 Nit If đữ lậu cho bài toán trích xuất thông tin 74
CHUONG 4: KET QUA THU NGHIEM VA DANH GIÁ
4.1 Kết quả thứ nghiệm và đánh giá cho bài toán nhát hiện chữ viết 2T
41.1 Các tham số sử dụng đỄ đánh giá môỗ NÌnh co ằcoeoecee 71
4.2 Kết quá thử nghiệm và dánh giá cho bài toán nhận dạng ký tự 8
4.22 Kết quả và dánh giá kết guả — 84
4.3 Kết quả thứ nghiệm và đánh giá cho bài toán nhận trích xuất thông tản và
cho cả hệ thống 0000552 ccec H111 n0 1 0n.110011111xxxe 85
4.33 Kết quả rà dánh giá kết guả — 86
Trang 8DANH MUC KY HIEU VA CHU VIET TAT
SVM: Support Veclor Machine
CNN; Convolutional Neural Network
OCR: Optical Character Recognition
GCN: Graph convolutional network
JoU; Intersection over Union
YoLo: You Only Look Once
AUC: Arca Under the Curve
ROL Region of Lnterest
RPN: Region Proposal Network
NMS: Non-maximal suppression
SSL: Sum-squared error
CSP: Cross-Stage-Partial connections)
DenseNet: Dense conmacted convolutional network
LSTM: Long Short Term Memory
Trang 9DANH MỤC HèNH VẼ
Hỡnh 1.1 Cỏc bước xỳ lý hệ thổng — 2
Hỡnh I.2 Sơ dộ khụi xử lý
Hỡnh 2.1 Se dộ cỏc mỗi liờn hệ giữa gỏc tỏc vụ bong computer vision
6
8
Hỡnh 2.2 So sảnh dầu ra của bải toỏn classification với loealization vả đetectiontffl ở
TIỡnh 2.3 Phõn biết bài toan classification, object localization, object detection) 9
0
Hỡnh 2.4 Sơ dỗ pipcline xử lý trong mụ hỡnh mạng R-ƠNN, Pè, sec 1 11ỡnh 2.5 Lõu ra sau khi thực hiện Oraph Based image Segmentation ẽđẽ Ml
Hỡnh 2.7 Thực hiện ROI pooling "— 13
1ỡnh 2.8 3o sảnh thời train vộ test gitta R-CNN va Fast R- “CNN ơ 14
Hỡnh 2.14 Hiệu s
Hỡnh 2.15 Hiệu suất khi sử dụng bốn giai doạn “ ve
Linh 2.16 a, Lligu suat sit dung 18Box b, Lligu suất sử dụng mắt tớch oh phi ơ 20
Hỡnh 2.18 Mờ hỡnh cascade R-CNN với cỏc mụ hỡnh hỗ trợ khỏc nhau ”L, 21
Hỡnh 2.20 Minh họa Grid ceHlf#ẽ, sec
Linh 2.24 Linh 4oh minh hoa 1% s4 luong Anchor box trong mạng HetinaNet??l _ 26
Trang 10Hình 2.26 Cấu trúc mồ hình YoLov3Ê#, —
Tinh 2.27 Cau trac Darknet53/41, — -
Hình 2.28 Quả trình đào tạo để tinh chỉnh kích thước của anchor box sao cho giống
với vật thể nhất!
Tinh 2.29 Cau tric YeLov4E”1
Tình 2 30 Câu trúc BfficienINst-B3F”
Tinh 2.31 Cấu trúc DenseNetP” ¬
Hình 3.32 Một số cấu trúc điến hinh sử dụng cho pha eee,
Tình 3.33 Mô hình kiến trúc AttentionOCR
Hình 2.34 Cấu tạo feature maps - "—
Tĩnh 2.35 Mạng nơ-ron thông thường (trái) và CNN (phảj)J28]
Tinh 2 36 Mô hình kiến trúc CNNEEI
Hình 2.37 Hoạt động của các bộ lọc trong mạng CNNEÌ _ cesses
Tlinh 2.38 Toat dang ctia Max Pooling layer™!
Linh 2.40 Cau tạo của một LÿEM
Hinh 2 4] Mé hinh kién tric TransformerOCR™
Hinh 2.42 Kiến trúc hai khối ota kién trie transformer
Tĩnh 2.43 So sánh câu trúc của transformer với LSTM e.cceee
Hình 2.44 Câu trúc của bô EncaderP°!
Tmh 2.45 Ví dụ cơ chế tìm kiếm của self attention
Tlinh 2.46 Cau tric self attention!*!
Tinh 2.47 Tinh toan Mulli Head Attention vector!
linh 2.49 Các loại cầu trúc vả phương thức cho bải toán trích xuất thông tin
Hinh 2 50 Cầu trúc để thủ trong mô hình Graph Convolntional Network?!)
Hình 2.51 Vi du min hoa bai toan Link Prediction’)
Tĩnh 2.52 Ví dụ minh họa bài toán Node Classification! secs
Hinh 2.3 Ví dụ mình họa bài toán Cluslerng & Comnuily deiseionE2
Hình 2.54 Vi dụ các vector từ trược biểu diễn trong không gian word2vec
Tlinh 2.55 Tai cách xây đựng không gian veotor worđ2veoll
Tình 3.56 Kiến trúc mô hình Skip-gramP?l
Trang 11Hinh 2.57 Mö hình Skip-eram với windows size=2E2Ì, c2 2122021122222111, re 58
Tlinh 2.58 Dé thi liên kết giữa các textbox H111 n0 1 0n.110011111xxxe 59
Hình 2.59 Kiến trúc mô bình Graph Convolutional Network trong bai toan node
Hình 3.3 Cấu trúc mạng ResNet56f, — 64
Hình 3.6 Hinh ảnh dược gần nhãn với phần mềm Ìabellung, 552555 68 Ilinh 3.7 Kiến trúc VGGKet (2014) E, — 69
Hình 3.9 Một số hình ảnh gán nhãn cho ánh chữ viết tay ccocccc sec 7
Hình 3.11 Ví dụ về đạng đữ liệu nút — 74
linh 3.12 Vỉ dụ về đạng đữ liệu cạnh H111 n0 1 0n.110011111xxxe 75
Tĩnh 4.3 Kết quả nhận điện với hóa đơn chữ in — 81
Hinh 4.4 Kết quả nhận diện với hóa đơn chữ viết tay 8
Hình 4.5 Một số trường hợp nhận dign sai voi héa don chit in 83 11nnh 4.6 Trường hợp nhận điện sai với hỏa đơn chữ viết tay 83 Hình 4.7 Trường hợp nhận điện sai với hóa đơn chữ viết tay 85
Hình 4.8 Trang web trích xuất thông tin ¬ 88 linh 4.9 Kết quả trả về sau khi trịch xuất thông tin H111 n0 1 0n.110011111xxxe 88
iv
Trang 12DANH MỤC BẰNG BIÊU
Bang 1.1 Khảo sát các phương pháp phát hiện chứ viết đã được công, bỏ
Bang 1.2 Các bộ đứ liệu chuẩn sử đụng để phát lriện chữ viết đã được công bổ 3 Bang 1.3 Khảo sát các nghiên cửu vẻ nhận đang ký tự đã dược công bỏ s4 Bang 2.1 Các thông số của backbone được sứ dụng trong YoLov4 wl Bang 3.1 Các thông số sử đụng trong quá Bình huấn luyệnEasler R-ƠNN và cascade
Bang 3.2 Các thông số sử dụng trong quá trinh huẳn luyện YoLov4 2 6S
Bang 3.4 Một số tham số huấn luyện cho mô hình OŒH 520055 we TO
Bang 3 6 Một số tham số huấn luyện cho mô hình GƠN 74 Bang 4.1 Két qua thử nghiệm các mô hình theo thông số loU we TD
Bang 4.2 Kết quả thử nghiệm các mô hinh theo thông số Recall 79 đảng 4.3 Kết quả thử nghiệm các rnô hình theo thông số ÁP 79
Bang 4.4 Kết quả kiểm thử của mô hình AttentionOCR coccscscvcc Ö84 Bảng 4 5 Kết quả kiểm thử của mô hinh TransformerOCR 84 Bảng 4.6 KỗI quả kiểm thữ của mô hình trích xuấi thông ti 86 Bảng 4.7 Kết quả kiểm thử của hệ thống trích xuất thông tin trong hỏa don tiếng, Việt
§7
Trang 13¡ đang cổ gắng với nhiệm vụ phân tích văn bản, cái khỏ khăn nhất
không phải là tìm dúng tải hiệu mà là từn những thông tin chính xác trong những tải
liệu đây Lliều rõ mỗi liên kết giữa các chú thể trong đoạn văn, các sự kiện trong đoạn
văn mô t8 diễn ra như thế nào, hoặc lả tìm những thông tín quý giá Lừ những từ khỏa
trong đoạn văn do, va vi thé, việc tìm ra cách tự động trích xuất thông tin từ dữ liệu văn bản và trình bày nó theo cách có cầu trúc sẽ giúp chúng ta gặt hái được nhiều lợi
Ích, giảm đáng ké thời gian ta phải dành dễ đọc lưới qua các lải liệu
Nghiên cứu tập chung vào một mẫu văn bán nhất định (mẫu hỏa đơn thanh toán
tiêng Việt), phục vụ cho các doanh nghiện hay kế toán để có thế tụ động, nhanh chóng,
ly ra các trường thông tin ming muốn rhư mã hóa đơn, ngày thang, thong Gin bên:
bán (tên, địa chỉ, số điện thoại ), thông tín bên mua, tổng số tiến phải trả, phần trăm thuế Mô hình sẽ lây ra các trường thông tin đó tùy thuộc vào meng muốn của người
cài đối, sử dụng, Phạm vi nghiên cứu thử nghiệm với đầu vào là lilo ảnh, file pdf cũa
hỏa đơn chữ in, hoặc chữ viết tay, hình ảnh rõ ràng, độ nghiêng chữ không quả L0 độ,
va néi dung héa dem chỉ trong một trang
Đầu vào sẽ là ảnh chụp hay ảnh scan mdt hoa don thanh ton, dau ra hé théng sé tur động lẫy ra được các trường thông tin mong muốn (nội dung của trưởng thông tin đó
được định đạng text, ví dụ têu đơn vị tua: Trường đại học Bách Khoa Hà Nội, địa
chỉ: số I Đại Cổ Việt, Hai Bà Trưng, Hà Nội, Tổng tiên phải trả: 100.000.000 )
Dễ xây dựng một hệ thống hoàn chính từ phân tách text trong vấn bản là ảnh hay
‘ban scan đến trích xuất tự động các thông tin quan trọng trong văn bản thì cân giải
quyết lần lượt ba nội dung sau, trong, mỗi nội dung sẽ giải quyết hai phan dé 1a hoa
đơn chữ in và hóa đơn chữ viết tay Mỗi nội dưng sẽ được coi là một bài toán nhỏ sẽ
được nghiên cứu, thử nghiệm độc lập trước khi téng hop thành một hệ thống hoàn
chính Ha nội dung nghiên cửu như sau:
1 Xử lý ảnh để nhận điện các dòng chữ trong văn ban
3 Nghiên cứu nhận đạng ký tự cho tiếng Việt
3 Trích xuất thông tì quan trợng từ văn bản tiếng Việt
Trang 14Trong nội dung thứ nhất là vẫn đề xử lý ảnh để lấy ra được tất cả các đòng text có
xuất hiện trong văn bản Đây được coi như bai toản phát hiện đối tượng trong ảnh Việc ngắt câu sẽ trở thành vẫn đẻ, vỉ các đổi tượng đang rất giống nhau, Đầu vảo của bài toán thứ nhất là ảnh chụp hay ảnh scan hóa đơn, đầu ra ta sẽ có vị trí của các dòng chữ xuất hiện trong ảnh
Với bài toán phát hiện vùng văn bản (text detection) đã cỏ nhiều nghiên cửu, sử
dụng nhiều phương pháp khác nhau, nhưng với tiếng Việt thì chưa có nhiều nghiên cứu được công bố Dưới đây lả các công trình nghiên cứu đã có về van dé phát hiện chữ viết, chủ đạo là tiếng Anh, tiếng Trung Quốc Bảng khảo sát được viết theo từ các phương pháp cũ đến mới
Bang 1.1 Khão sát các phương pháp phát hiện chứ viết đã được công bố
2001 | tieng Trung | Từ chữ viết ban đầu sử dụng bộ lọc phát hiện |Độ chính xác
Quốc, tiếng cạnh va mô hình Gaussian | thấp, nhiễu tác Anh mixtures color, phan tích bô cục văn bản cụ | đông
thể, kết hợp nhận dạng ký tự quang học
2004 | tiếng Trung Phân loại AdaBoost và mã hóa nhị phân|Độ chính xác
Quốc, tiếng _ | Niblack°”l thập, các văn bản
không phát hiện được
2010 | tiéng Trung — | Phát hiện cạnh Canny, chuyển đổi đồ rộng của |Độ chính xác
quốc, tiếng nét Viết tổng hợp dòng văn bản, phát hiện | thấp, nhiễu tác
bị giới hạn
2011 [tiếng Anh Học không giám sát phân cụm K, means, bộ | Phức tạp, nhiều
lọc Gaussian, phân loại tuyén tinh SVM"! text có kích
thước nhỏ không phát hiện được
Trang 152012 tiếng Anh Phân cụm K means, CNN gém 2 lớp Hch Phát hiện thiểu,
chập, 1 lớp kết nỗi dây đảt⁄9] bị giới hạn trong
tập hợp chữ viết
nhất định
2013 tiếng Anh đặc trung MACeLBP (MuHileval Adapive Nhiễu tác động,
Color edge Local Binary Patter) va model bé qua mất các
Randon forest đế phản loại ký tự độc lập
2018 tiếng Trmg | CNN Slóptíchchấp và l lớp Ka di đây di, ‘Tinh foan cao,
Quée 12 kích thước đầu vào khác nhau! tốc độ châm
2019 tiếng Anh, Phát hiện đối tượng sử dung YoLov3FfT Phát hiện từng,
cụm chữ viết
Các bộ đữ liệu chuẩn có sẵn sử dụng để học chơ bài toàn phát hiện chữ viết đã
được công bô được thẻ hiện ở bảng đưới đây Các bệ đữ liệu có sẵn ciing chỉ đứng lại
ở các ngôn ngữ Anh, Trang Quốc, hàn Quốc, và Á Rập, và chưa có bộ đữ liêu chuẩn
nảo về tiếng Việt
Băng 1.7 Các bộ dữ liệu chuẩn sử dụng đễ phát hiện chữ viết đã được công bố
Trang 16Trong nội dung thứ bai sẽ nghiên cứu nhận điện ký tự tiếng Việt OCR (nhận dạng
ký tự quang học) là ứng dụng công nghệ chuyên đùng để đọc toxL ở file anh Puce biết
đến là một công cụ soan kỹ thuật số chuyên nhận đạng các ký tụ, chữ viết tay, hay chữ đánh máy, công nghệ nảy chuyên đùng đề truyền tâi, nhập liệu đữ liêu Đặc biệt, ở
OCR có khả răng kỹ thuật số nhiều dưới nhiều dạng tải liệu khác nhau: hóa đơn, hộ
chiêu, đanh thiếp, tài liệu Vì vậy nghiên cứu sử đụng OCR cho văn bản tiếng Việt
Từ vị tí các đông chữ có trong bài toán thứ nhất, bài toán thứ hai sẽ tiến hành OCR dé
biết được nội dung chính xác của đòng chữ dó
Với bai toan nhận dạng ký tự chữ viết tiếng Việt cũng đã có nghiên cửu được công
bổ, sử dụng rhuều phương pháp kháo nhau Dưới đây là các công trình nghiên cứu đã
công bố
Băng 1.3 Khảo sát các nghiên cứu về nhận dạng ký tự đã được công bế
2014 Vienamese Handwriting Phân loại các ký tự viêtinhoa | Chỉ nhận dạng
Recognition for Automatic Việt (bao gồm cả đấu) khi | được từng ký tự
Data EntryinEmroliment | đầu vàolà ảnh các ký tựriêng | nấu cả câu tủ
quả nhiều n +hỉ phân loại
Trang 17
2015 Isolated Vietnamese Phần loại các ký tự tiếng Việt, sa] Cin qua nhiều
Handwriting Recognition | dung qua trình tiền xửlý để cất | nhãn khi phân
Uneonstrained Victrame: (Reewrent Neural Nelworks) dễ | nhưng cân labe]
Online Handwriting Databasd nan dang ky ty và dự doàn các | một lượng lớn
an Reeognition Expetimcnbs| ký tự tiếp thco đữ liệu để có thé
2018 — ICFIIR2018-Competiion | Cung cấp bộ đữ liệu vànhận | Tý lệlỗi từtháp
on Vietnamese Online đang chữ viết, đông chữ và câ | với nhân đang Tlandwritlen Text đoạn văn Sũ dụng mô hình chữ, tỷ lệ lỗi tit
Recognilion using HANDS- | Leng short term mernory cồn cao với
VNOnIDB (VOHTR20181 | (1.STV) kết hợp ComcetionisL | nhận đạng đông
Temporal Classification (CTC) | chit va doan vin
2020 A Robust End-To-End ‘Su dung kién tric Attention Kết quả tốt, độ
tố rằng, Ít ký tự
Các bộ đữ cho bài toán nhận đạng ký tự tiếng Việt có sẵn hay công khai thường có
số lượng không nhiễu vá không da dạng thường là các dữ liệu ảnh với chữ viết rõ rảng,
hai, Với mô bình phân loại text, nghiên cứu sử dụng model GCN (graph convolution
network) Một mô hình tương đổi mới mẻ, giúp phác họa chân thục cấu trúc liên kết
của các câu từ trong văn bản Đối với nội dụng nghiện cứu thứ ba này thì hấu như không cỏ nghiên cứu cụ thể nào dược công bó cho van dé nay, và đặc biệt các nghiên cứu về trích xuất thông tin chỉ đừng lại ở một văn bân có cầu trúc nhật định nhưt các
Trang 18'Tổng quan sơ dễ khối xử lý như sau
kẻ, ‘| [Nhan cier ;ung| 4H! {Nan dạm sỹ | (IV | chuẩn ngụ | 954 số
Hình 1.2 5ø đỗ khối xử lý
ar tne plang in wry
Trong luận văn tết nghiệp này tác giả sẽ tập trung giải quyết lần lượt từng néi dung
bài toán với mục tiêu như sau
1 Làm rõ từng bài toán, tim ra phương pháp giải quyết phủ hợp nhất, thử nghiệm
và đánh giá các phương pháp đối với đữ liệu là hóa đơn thanh toán tiếng Việt
2 Xử lý hai loại hóa đơn là hóa đơn chữ im và chữ viết tay
3 Xây dựng hệ thống hoàn chính, phát triển giao diện đề hỗ trợ người ding sit
dung
Từ mục tiêu nghiên cứu trên, láo giỗ ti
hành thực hiện các bước sau và cũng là
các chương sẽ trinh hảy tiếp theo trang báa cáo, mỗi chương sẽ trình bảy lần lượt các néi dung lién quan đến ba bài toán nhé va hệ thống hoàn chính sẽ được trình bảy tại
chương cuỗi cùng
Chương 1: Đặt vẫn để
Chương 3: Cơ sở lý thuyết
Chương 3: Các phương pháp thử nghiệm
Chương 4: Kết quá thủ nghiệm và đánh giá
Trang 19CHUONG 2 CO SO LY THUYET
Chương 2 sẽ trình bảy lần lượt các lý thuyết sử đụng trong từng bài toán nhỏ Bao gỗm các khái niệm, công thức, cầu trúc mô hình học sâu được sử dụng trong nghiên cửu và thứ nghiệm Do nghiên cứu đã được chia làm ba bai toan nhỏ nên các lý thuyết
cũng sẽ được trình bày lần lượt phục vụ cho ba bài toán đỏ
2.1 Cơ sử lý thuyết cha bài toán phát hiện chữ viết
2.1.1 Bài toắn phải hiện đỗi trọng
Computer Vision là một lĩnh vực lam cho may tinh co thé nhin được như con người, nhìn ở đây có nghĩa là hiểu được hình anh, video tr 46 c6 thé lam cơ sở đề trả
lời các câu hỏi như: có gì trong ảnh, cơn mẻo ở đâu trong bức ảnh, trong ảnh có bao
Trong xử lý ảnh có bên
nhiều cơn chó, con mèo, con mèo có đang bắt clruột không:
bài toan khae nhau bao gém: phan loai hinh anh (Image classification), Dinh vị vật thé (Cl
đổi tượng (Instanoe Segmentation)
ficalion with Localization), Phat hién déi kong (Object Delecuion), Phan doar
hận đạng đổi tượng là một thuật ngữ chưng dé mô tả một tập hợp cáo nhiệm vụ
thị giác may tính có liên quan liên quan đến việc xác định các đối tượng trong anh kỹ thuật số
Thân loại hình ânh liên quan đến việc đự đoán lớp của một đổi tượng trong một
hinh anh Định vị vật thế đễ cập đến việc xác đinh vị Irí của một hoặc nhiều đối tượng, tvong mét hinh anh va vé bounding box xung quanh chủng Phát hiện đổi tượng kết
hợp hai nhiệm vụ trên và thực hiện cho một hoặc nhiều đối lượng trong hình ảnh Chúng ta có thể phân biệt giữa ba nhiệm vụ thị giác máy tính cơ bản trên thông qua
input va output cia chung nhu sau:
© Phan loai hinh dnb: Dir doan nhấn của một đối tượng trong một hình ảnh
ø_ Input Một hình ảnh với một dối tượng, chẳng hạn như một bức ãnh
© Output Nhan lớp (ví dụ: một hoặc nhiễu sẻ nguyên được ánh xạ tới nhan
lớp)
® Định vị đối tượng: Xác định vị trí hiện diện của các đối tượng trong ảnh và cho biết vị trí của chúng bằng bounding box
Trang 20ø_ Inpưc Một hình ánh có một hoặc nhiều dỗi tượng, chẳng hạn như một bức
tboumding box và nhấn củ đối tượng nằm trong ruột hình ảnh
co Input: Mét hinh ảnh có một hoặc nhiều dồi tượng, chẳng hạn như một bức ảnh
¢ Output: Mét hodc nhiều boumding box và nhãn cho méi bounding box
Một số định nghĩa khác cũng rất quan trọng trong computer vision la phan đoạn đổi Lượng (nbjcct sogznentaion), trong đó các đối tượng được nhận đựng bằng cách làm nổi bật cáo pixel cụ thê của dối tượng thay vi bounding box
Bên dưới là sơ đỏ tổng hợp các tác vụ của computer vision
Tinh 2.1 Sv dé cic méi Hén hé piira cdc tác vụ trong computer vision
Khac voi bai toan Classification with Localization xae định vị trí của một đối tuomg trong hinh, bai toan detection hay Object Detection sẽ xác định vị trí tất cả cáo
đối tượng có trong bức hình Theo đỏ Input của bài toán này là ảnh và danh sách các
đổi tượng quan tâm Đầu ra của bải toán là các vị trí của các đổi tượng kèm theo nhãn của đổi tượng đỏ
Trang 21Hình 2.2 So sánh đầu ra của bài toán classification voi localization va detection“?
Object Detection đã có rất nhiều ứng dụng khác nhau: Image Annotation (Chu
thích hình ảnh), Face Detection (Phat hiện khuôn mặt), License Plate Identification
(Nhân diện biển số xe), People Counting (Đêm số lượng người),
Như vậy xét trên một khia cạnh nào đỏ ta cỏ thể nhân xét rằng bài toán
Classification là tiên đề của bải toan Localization va thông tin của bài toan
Localization cũng rất hữu ích cho bài toán Detection Đề phân biệt các bài toán khác nhau ta có thể xác định dựa trên việc kết quả của bài toán đang trả lời các câu hỏi gì
Hinh 2.3 Phin biét bai ton classification, object localization, object detection™
Với bải toán phát hiện đổi tượng, ngày nay có nhiều phương pháp học sâu (deep learning) duge thiet ké dé giải quyết bải toan
Lịch sử hình thành, phát triển và đặc điểm câu trúc của các thuật toán object detection bao gồm 2 nhóm chỉnh:
© Ho cae mô hình R-CNN (Region-Based Convolutional Neural Networks) giải
quyết các nhiệm vụ định vị vật thể và nhân diện vật thẻ
Trang 22Ho cae mô hình YoLo (You Only Look Once), la mét nhém ky thuat thir hai dé
nhận dạng đổi tượng được thiết kế đẻ nhận diện vật thẻ real time
2.1.2 Thuật toán faster R-CNN trong phát hiện đối trợng
2.1.2.1 Thuật toán R-CNNỀ
R-CNN được giới thiệu lần đầu vảo 2014 bởi Ross Girshick vả các cộng sự ở UC Berkeley một trong những trung tâm nghiên cửu AI hang đầu thể giới trong bài báo
Rich feature hierarchies for accurate object detection and semantic segmentation
Nó có thể là một trong những ứng dung nên móng đầu tiên của mạng nơ-ron tích chập đổi với vấn đề định vị, phát hiện và phân đoạn đôi tượng Cách tiếp cân đã được chứng minh trên các bộ đữ liệu điểm chuẩn, đạt được kết quả tốt nhất trên bộ đữ liệu
VOC-2012'Ì và bộ dữ liêu phát hiện đối tong ILSVRC-2013!"*! gém 200 lớp
Kiến trúc của R-CNN gồm 3 thanh phan do la
© Vùng để xuất hình anh (Region proposal): Co tác dụng tạo vả trích xuất các vủng đề xuất chứa vật thẻ được bao bởi các bounding box
© Trích lọc đặc trưng (Feature Extractor): Trích xuất các đặc trưng giúp nhân diện hình ảnh từ các region proposal thông qua các mạng deep convolutional neural
network,
© Phan loai (classifier): Dua vao input 1a cac features 6 phan true dé phan loai
hình ảnh chứa trong region proposal ve ding nhan
Kiến trúc của mô hình được mồ tả trong biêu đồ bên dưới:
R-CNN: Regions with CNN features
1.Input 2 Extractregion 3 Compute 4 Classify
image proposals (~2k) CNN features regions
Hình 2.4 Sơ đồ pipeline xử lý trong mô hình mạng R-CNN
Có thể nhận thây các hình ảnh con được trích xuất tại bước hai với số lượng rất lớn
(khoảng 2000 region proposals) Tiếp theo đó áp dụng một mạng deep CNN đẻ tính
10
Trang 23toán các feature tại bước ba và trả ra kết quả dự báo nhãn ở bước thứ tư như một tác
vụ phân loại ảnh thông thường
Một kỹ thuật được sử dụng đẻ đẻ xuất các region proposal hoặc các bounding box
chứa các đối tượng tiêm năng trong hình ảnh duoc goi la “selective search” Thuat
toan Selective search co dau vao lả ảnh mảu, đầu ra sẽ la khoang 2000 region proposal
(bounding box) ma co kha nang chứa các đối tượng
Đầu tiên ảnh được segment qua thuật toán Graph Based Image Segmentation, dựa
vào màu sắc của từng pixel mà gắn nhãn các pixel đó chung một đổi tượng, tô màu giống nhau cho các pixel cỏ củng giả trị
Hình 2.5 Dau ra sau khi thực hiện Graph Based Image Segmentation "*!
Nhân xét: Ta không thể dùng mỗi mảu trong output dé lam một region proposal
được vì
® Mỗi đổi tượng trong ảnh cỏ thẻ chứa nhiều hơn một màu vì một đổi tượng,
thường có nhiễu bộ phân với mâu sắc khác nhau
® Các đổi tượng bị che mắt một phần
Vi vay can nhỏm các vùng màu với nhau dé lam region proposal Tiep theo, các vùng màu được nhỏm với nhau dua trên độ tương đồng vẻ mau sac, hudng gradient, kich thước, Cuối cùng các region proposal được xác định dựa trên các nhóm vùng,
Trang 24© Chi phi training ton kẻm về số lượng bounding box vả thời gian huấn luyện:
Mô hình huân luyện một mạng CNN học sâu trên rất nhiêu region proposal cho môi
hình ảnh nên rất chậm
© Phat hiện đổi tượng châm: Tốc độ xử lý không the dim bao realtime
2.1.2.2 Thuật toán Fast R-CNN
Fast R-CNN ra đời để giải quyết được một số hạn chế của R-CNN là cải thiện tốc
độ
Tương tự như R-CNN thì Fast R-CNN vẫn dùng selective search dé lay ra cac
region proposal Tuy nhién la no khéng tach 2000 region proposal ra khỏi ảnh và thực
hign bai toan image classification cho méi anh Fast R-CNN cho cả bức ảnh vào ConvNet (một vai convolutional layer + max pooling layer) dé tao ra convolutional feature map
Sau đó các vùng region proposal duge lay ra tuong img tir convolutional feature
map Tiếp đỏ được Flatten và thêm hai lớp Fully connected layer (FCs) để dự đoán lớp
của region proposal và giả trị offset values của bounding box
Rol feature
feature map VECLOF vu 2y
Hình 2.6 Kiến trúc single model Fast R-CNN "7!
Tuy nhiên là kích thước của các region proposal khác nhau nên khi Flatten sẽ ra
các vector có kích thước khác nhau nên không thể áp dụng neural network được nên
cân resize các region proposal vẻ củng kích thước trước khi đủng transfer learning Tuy nhiên ở feature map không thẻ resize được, nên phải chuyển các region proposal trong feature map vẻ cùng kích thước Region of Interest (ROI) pooling ra đời để thực
hiện nhiệm vụ đó
Region of Interest (ROT) pooling
12
Trang 25ROI pooling 14 mét dạng của pooling layer Điểm khác so với max pooling hay average pooling là bất kẻ kích thước của tensor input, ROI pooling luôn cho ra output
có kích thước cô định được định nghĩa trước
Ta kí hiệu a/b là phần nguyên của a khi chia cho b vả a%b là phần dư của a khi
Trang 26Hình 2.8 So sánh thời train và test giữa R-CNN và Fast R-CNNP?
Fast R-CNN thực hiện feature map với cả ảnh sau đó với lây các region proposal
ra tir feature map, con R-CNN thực hiện tách các region proposal ra rồi mới thực hiện
CNN trên từng region proposal Do đỏ Fast R-CNN nhanh hơn đáng ke nhờ tôi ưu việc tỉnh toán
Tuy nhiên với thời gian testing của Fast R-CNN thi thời gian tinh region proposal
rat lâu và điều đó sẽ làm châm thuật toán
2.1.2.3 Thuật toán faster R-CNN
Faster R-CNN khỏng dùng thuat toan selective seareh để lây ra các region
proposal, ma né thém mét mang CNN mới gọi là Region Proposal Network (RPN) dé
tìm các region proposal Đỏ lả điểm mới để cải thiện tiếp tốc độ của Fast R-CNN:
my
Region Proposal Netw
feature maps
Hình 2.9 Kiến trúc mới Faster R-CNN P1
Đầu tiên cả bức ảnh được cho qua pre-trained model de lay feature map Sau đỏ feature map duoc dimg cho Region Proposal Network dé lay dugc cac region
14
Trang 27proposal Sau khi lẫy được vị trí các region proposal thi thuc hiện tương tự Fast R-
CNN
Region Proposal Network (RPN)
Input cia RPN 1a feature map va output 1a cac region proposal Cac region
proposal là hình chữ nhật
Mà một hình chữ nhật được xác định bằng hai điểm ở hai góc, ví dụ A( mịn,
y min) và B(x max, y_max) Nhận xét:
® Khi RPN dự đoánthỉx min<x max vày mỉn<y max
® Hơn nữa các giả tri x„y khi dự đoản cỏ thê ra ngoài khỏi bức ảnh
Anehor là một kĩ thuật mới để biểu diễn region proposal
Ý tưởng là thay vi dự đoán hai góc của bounding box ta sẽ dự đoán điểm trung tâm
(x_center, y_center) va width, height của hình chữ nhật Nhu vay moi anchor được
xác định bằng 4 tham s6 (x_center, y_center, width, height)
Vi khéng str dung Selective search nén RPN ban dau can xác định các anchor box
cé the la region proposal, sau d6 qua RPN thi chi output nhimg anchor box chic chan chứa đổi tượng
Hình 2.10 Xác định các anchor box”?!
Ví đụ ảnh bên trai kích thước 400 * 600 pixel, tác tâm của anchor box mảu xanh,
cách nhau 16 pixel => cỏ khoảng (400*600)/(16*16) = 938 tâm Do các object trong
ảnh có thể cỏ kích thước và tỉ lệ khác nhau nên với mỗi tâm ta định nghĩa 9 anchors
với kich thước 64 x 64, 128 * 128, 256x256, môi kích thước có 3 tỉ lệ tương ứng: 1:1,
1:2và2:1
Giống như hình bên phải với tâm ở giữa 3 kích thước ứng với mảu da cam, xanh
lam, xanh lục và với mỗi kích thước có 3 tỉ lệ.
Trang 28Số lượng anchor box sẽ la 938 * 9 = 8442 anchors Tuy nhién sau RPN, chi git lai Khoang 1000 anchors box dé thuc hién nhu trong Fast R-CNN
Việc của RPN Ia ly ra cdc region proposal giéng nhu selective search chit khéng
phải là phân loại ảnh
Mô hình RPN khá đơn giản, feature map được cho qua Conv layer 3*3, 512
kernels Sau đỏ với mỗi anchor lây được ở trên, RPN thực hiện 2 bước:
Du doan xem anchor day la foreground (chita object) hay background (khéng chứa object)
® Dự đoản4offSetvalue chox center, y_center, width, height cho các anchor
Nhận xét: có rất nhiều anchor bị chồng lên nhau nên non-maxima suppression được dùng đề loại bỏ các anchor chỏng lên nhau
Sau củng dựa vảo phan tram dur doan background RPN sẽ lây N anchor (N cỏ thể
là 100, 1000 hay 2000) dé lam region proposal
Kết quả của Faster R-CNN
Hình 2.11 So sánh thời testing giữa Fast R-CNN và Faster R-CNNE7
Nhìn ở hình trên có thê thấy Faster R-CNN nhanh hơn hẳn các dòng R-CNN trước
đó, vi vậy có thẻ dùng cho real-time object detection
2.1.3 Thuật toán easeade R-CNN trong phát hiện đổi tượng
Trong bải toản phát hiện đối tượng, ngưỡng giao nhau (Intersection over Union-
1oU) thường được sử dụng để xác định tỉ lệ giữa các mặt tích cực và phủ định Đánh
giá một mô hình Hai yêu tổ chỉnh mà Faster R-CNN mắc phải khi tăng ngưỡng IoU
là
16
Trang 29® Quá sung sức trong quả trình đảo tạo, do các mâu dương tính biển mất theo cap
số nhân tức là rất nhiều mẫu dương tính sẽ biển mắt khi ngưỡng IoU tăng lên
© Sự không phủ hợp về thời gian suy diễn giữa IoU mà mô hình sẽ tối ưu vào những IoU của giả thuyết đầu vào Tôn tại trường hợp IoU khi huân luyện cao nhưng khi kiểm tra lại cho kết quả thấp
Hai yếu tổ nảy làm hiệu suất của quá trình phát hiện đối tượng học sâu trước day
cỏ xu hướng giảm khi tăng ngưỡng IoU Cascade R-CNN của UC San Diego ra doi
nhằm khắc phục trường hợp này Kiến trúc của mô hình Cascade R-CNN được thé hiện trong hình 2.14b Kiến trúc nảy là một phần mở rộng các câu trúc phân đoạn của
Faster R-CNN, Faster R-CNN tap chung sti dung mang con Region Proposal Network (RPN) như Hình 2.14a Tuy nhiên Cascade R-CNN không giới hạn trong cơ chế này
mả kết hợp với giới hạn hỏi quy theo tâng (cascaded bounding box regression) và phát hién theo tang (cascaded detection)
được thể hiển trong câu trúc Hinh 2,14b và theo phương trình:
f(x, b) = Ấr ®Ẩr- ° + - ` ° ñ(x, b) PT21
Trang 30Trong đó T là tổng số giai đoạn duoc phan tang Điểm then chốt là mỗi bộ hỏi ƒ quy
được tối ưu hóa cho từng phân phối {b} được đảo tạo bở bộ hỏi quy trước đỏ lả ƒ,,
chứ không phải phân phổi ban đầu {bị}
Khác với bbox lặp lại sử dụng cùng HI, các đâu khác nhau được sử dụng ở các
giai đoạn khác nhau, tức là HI, H2, H3 được sử dụng như trong hình 2.14 trên,
hoặc ƒ ƒr- ƒz như trong phương trỉnh trên
Mỗi một lớp phân tầng được thiết kế cho một ngưỡng IoU cụ thể từ nhỏ đến lớn Hồi quy theo tầng là một quy trình lẫy mẫu lại, không phải là bước xử ly sau, cung cấp các mau dương tỉnh tốt cho giai đoạn tiếp theo
Va không cỏ sự khác biệt giữa đảo tạo và suy luận vì ngưỡng kiển trúc và IoU là như nhau trong quả trình đảo tạo và suy luận
Hình 2.13 Biểu đồ IoU của các mẫu đầu tao™
Hình trên thẻ hiện phân phối các đầu ra của RPN theo ngưỡng IoU Các số màu đỏ
là phân tăm dương cao hơn ngưỡng IoU tương ứng Có thẻ thay các dé xuất RPN nghiêng về các IoU thấp khi ở phân lớp thứ nhất Điều nay chắc chắn dân đền việc huấn luyện các bộ phát hiện có ngưỡng IoU cao hơn là không hiểu quả nều chỉ sử dụng một tằng hỏi quy Mô hình Cascade R-CNN giải quyết vấn đẻ nảy bằng cách dựa vào các hỏi quy phan tang như một cơ chế lấy mâu lại Bắt đầu từ một tập mẫu huấn luyên (xị, bị), hỏi quy theo tầng sẽ liên tiếp lẫy lại các mẫu phân phối (x'¡, b’;) cia
ngưỡng IoU cao Theo cách nảy, có thẻ giữ lại tập hợp các mâu tốt của các giai đoạn
huấn luyện kế tiếp ở một kích thước gản như không đổi, ngay cả khi chất lượng máy
dò (ngưỡng IoU) được tăng lên Điều này được minh họa trong Hình 2.15, trong đỏ sự
phân bổ nghiêng nhiêu hơn đến các ví dụ chất lượng cao sau mỗi bước lay mau lai
Hai kết quả đạt được, một là, không bị quả khớp (overfitting) với tập mẫu vi các mẫu
18
Trang 31tích cực rất phong phú ở tất cả các tập dữ liệu, hai là, các bộ phát hiện của các giai
đoạn sau được tôi ưu hỏa cho các ngưỡng IoU cao hơn
Ở mỗi giai đoạn /, R-CNN bao gồm một bô phân loại ủ, và một bộ hồi quy ft, được tối ưu hóa cho ngưỡng IoU ut, khi ut > ut-1, Dieu nay được huân luyện bởi cách giảm thiểu hảm loss
1,8) = Lash), ¥) +4 [V1] Lice (H*P)8) PT 2.2
Voi b' =f, 0°", B), g la gidi han thuc su cia x’
Theo suy luận, chát lượng của các giả thuyết được cải thiện theo trình tự, bởi các ứng, dụng của cùng một quy trình phân tâng và các bộ phát hiện chất lượng cao hơn chỉ được yêu câu hoạt đông trên các giả thuyết chất lượng cao hơn
e Kết quả thực nghiệm
Để đánh giá sự hiệu quả của mô hình Cascade R-CNN so với các mô hình
detection trước, mô hình sẽ thử nghiệm trên tập dit ligu MSCOCO 2017"), chia
khoảng 118.000 hình ảnh đẻ huần luyện, 5.000 ảnh đẻ xác thực vả khoảng 20.000 hinh
of — 027 (apso 256) 0-06 (AP-0.380) *|—w98lAo-oae) 0207 JA2-0 365) #I|—u-06(Ap-0384)
Hình 2.14 Hiệu suất của các giai đoạn khác nhau"!
Trong giai đoạn đâu tiên, u = 0.5 đạt được AP cao nhất ở ngưỡng IoU thấp Điều
đỏ hiểu được khi ở giai đoạn đầu tiên được huần luyện đảo tạo bằng cách sử dụng u =
05
Đổi với giai đoạn thứ hai, u = 0.6 đạt được AP cao nhật ở gần tất cả các ngưỡng
IoU
Đôi với giai đoạn thứ ba, u = 0.7 đạt được AP ở ngưỡng IoU cao
Nhưng khi sử dụng bến tâng, hiệu suất không thay đổi hoặc giảm, mặc đủ mô hình
có thê nhận được AP cao nhất ở AP80 vả AP90 (theo như Hình 2.17 thê hiện)
Vi vay, mô hình tốt nhất sẽ là mô hình cascade R-CNN sit dung 3 tang
Trang 32# stages |test stage} AP | APso APso APra APso APso
Hình 2.15 Hiệu suất khi sử dụng bốn giai đoạn
Localization Performance Integral Loss
Hình 2.16 a, Hiệu suất sử dụng BBox b, Hiệu suất sử dụng mát tích phân?
So voi bounding box lap di lap lai, Cascade R-CNN giai doan ba có hiệu suất nội
địa hóa tổng thể tốt hơn cho toàn bộ đường cong với các IoU đầu vào khác nhau
Đổi với giai đoạn một, cả hai đều cỏ AP tương tự nhau vì chưa có tỉnh chỉnh hộp
Fasier R-CNN by Œ-RMI [ I9J | Ineeption-ResNet-v2 38J 520 Deformable R-FCN [5]* Aligned-Inception-ResNet 40.1 525
'VGGI6+Wide ResNet ResNet-101
Trang 33Cascade R-CNN vượt trội hơn YoLov2 , SSD, RetinaNet , Faster R-CNN , FPN ,
G-RMI, DCNV1 và Mask R-CNN với tỷ suất lợi nhuận lớn
Mask R-CNN sử dụng mặt nạ phân đoạn dé giúp phát hiện đối tượng trong khi
Cascade R-ƠNN không cân
val GH test-des (20k)
AP Aso APrs APs Alia Abr | AP Asc APry APs ẢPw ÁP,
6 19 BO ĐÔ 12 355/25 19 26 81 281 M7 0.5 [01153] 7MM|270 2 277 $6 284 422|269 H3 278 83 382 41 Gils | 007s | FIM] 270 487 369 58 305 404|771 489 269 l04 297 332 24: |0075⁄| 184M] 31.1 498 333 1D4 344 481|3Ô9 499 %6 105 331 đáo
(0015| 2MM [303 532 308 122 M7 4| 1H 59 M2 130 33g 238 039a |0088| 356M |334 370 352 11§ 372 5l1|333 526 352 121 162 431 03s [009% 365 386 382 208 400 478/365 590 392 203 388 464 038: |5: 43 S04 47 339 447 S41|4Đó S99 440 224 427 521 38: [Oss] 2M 48S 06 417 2321 4L# 31.|384 GIL 419 713 HR wR đáp | 0.14: | MEM|437 €ló 266 23⁄8 462 574/428 O21 463 237 455 552
m hackhone cwealel
Hình 2.18 Mê hình cascade R-CNN với các mô bình hỗ trợ khác nhau”?
Kiến trúc Cascade R-CNN cũng có thể được áp dung cho R-FCN va FPN
Đối với các đâu dò và thiết bị dò khác nhau, với việc sử dụng Cascade R-CNN, AP
tổng thé được cái thiện
Tham sẻ và thời gian: Số lượng tham số RCNN phân tầng tầng lên củng với số lượng giai doạn phân tảng Sự gia tăng là tuyến tinh trong số thông sé cia dau do
đường cơ sở Ngoài ra, vi chỉ phí tính toán của đâu phát hiện thường nhỏ khi so sánh với RPN, chi phi tính toán cũa Cascads R-CNN là nhô, ở cả quá trình đảo tạo và thử
nghiêm
2.1.4 Thuật toán VaLa trong phát hiện đỗi tượng
Với các mô hình phát hiện vật thẻ họ R-CNN thường phải quét quả bức ảnh nhiều lân để có thể tim kiếm vật thể, hoặc sử dung nhiều giai đoạn để phát hiện đối tượng Nhưng đối với Yol.o thì chỉ cần lướt qua bức ảnh miội
ấn để phảt hiện luôn đối tượng
và vị trí của đối tượng, cho nên các tên YoLo được viết tắt tir cum ti “You only look
onoe” bắt nguồn từ cách hoạt động của nó Sau đây nghiên cứu sẽ trình bày lân lượt
các cầu trúc của YoLovl dén YoLov4 (phiên bản mới nhật của YoLo),
2.14.2 YoLovi
a Cau trúc
2L
Trang 34YoLoverl sit dung 24 lép chap: bao gồm lớp (1*1) gọi là Reduction layers (dủng
để giảm kich thước ảnh),lớp chập (3*3) gọi là Convolution layers.Xen kế giữa 24 lớp
chập là các lớp max pooling và kết thúc bằng 2 lớp fully connected Kết quả là một ma trân 3 chiều có dạng 7x7x30
Với mỗi ]x1x30 trong 7x7x30 được gọi là một tensor, vậy đổi với 7*7x30 thi ta sẽ
Ni tau" ina = Inge gang }2 láng
“Em “up
Sàn
Hình 2.19 Cấu trúc YoLov1'
YoLo chia một bức ảnh thành Sx8 ô lưới được gọi lả các grid cell, thường có kích
thước 7x7 pixel Trọng tâm của vật thể được tìm trong các ô lưới đỏ (được học thông
qua việc gán nhan va huan luyện) Nếu trọng tâm của đối tượng nằm trong ô lưới bắt
kỳ thi nó sẽ chịu trách nhiệm tim vật thể đó
Hình 2.20 Minh hoa Grid cell!
Các ô lưới nảy sẽ phải tìm ra các vật thẻ và dự đoán xem trong đó có chứa vật thẻ
hay không Các ô lưới sẽ đưa ra (2B + C) giá trị dự đoán, trong đó:
2
Trang 35® Bbounding box (tức là hộp chửa đổi tượng), đối với YoLov1 thi B=2 Với mỗi
B sẽ có 5 giá trị nhỏ nữa là : x (trọng tâm đối tượng theo phương x- đổi chiếu
với ô lưới chứa nó), y (trọng tầm đối tượng theo phương y ~ đổi chiếu với ô
lưới chứa nó), w (độ rộng của vật thẻ- đối chiêu với kích thước của toàn bộ bức ảnh), h (độ cao của vật thẻ - đối chiều với kích thước của toàn bộ bức
anh) va confidence (d6 tu tin- xac suat do la vat thé)
© Từ 2 bounding box B, ta dira vo confidence cita bounding box nao lén hon va
1oU so với ground truth box (nhãn được gán bằng tay) lớn hơn thì được xuất ra
Hình 2.21 Trong tim vat the?
© Csé bing sé classes va cé gia tri là xác suất của trọng tâm vật thẻ rơi vào ô lưới
đó (đối với YoLov1 thì số classes lả 20, bởi vì model YoLov1 là một model đã
được huấn luyện sẵn và chúng ta không thẻ đào tạo hay sửa chữa được nên chỉ
cỏ thể lẫy ra dùng)
Hình 2.22 Giá trị của số classes”"!
23
Trang 36Voi méi 6 lưới thi tối đa sẽ chỉ phát hiện được 1 đổi tượng, vậy nên đổi với YoLovl th sẽ xảy ra những vân đề sau:
® Phát hiện được tôi đa 49 đổi tượng (nêu thuật toán chia anh thành 7*7),
® Nếu một ô lưới chứa trọng tâm của nhiều đổi tượng, thi model cũng chỉ phát hiện được một đối tượng có độ chính xác cao nhất
@ Nếu vật thể nảo đỏ quả lớn so với bức ảnh, đồng nghĩa với việc vật thẻ đỏ sẽ có nhiều trọng tâm ở nhiều ô lưới khác nhau Vậy nên vật thẻ đó sẽ được phát hiện
nhiều lần
b Hàm Loss funetion
YoLo sit dung ham “tổng bình phương lỗi” (sum-squared eror Viết tắt 1a SSE)
“Léi” 6 day tue la lay gia trị của ground truth box ( nhãn gán bằng tay) trừ đi bounding,
box prediction (bounding box mả model dự đoán), sau đó bình phương giả trị nảy lên
Các giả trị x,y,w,h,C là giả trị của ground truth box, cỏn các giả trị có dâu mũ lả của
bounding box mả model dự đoản
c Non-maximal suppression (NMS)
Như đã trình bày ở trên, sẽ có nhiều vật thẻ lớn và trọng tâm của nó có thẻ rơi vảo nhiều ô lưới (grid cell) củng một lúc, sẽ dẫn tới việc một vật thẻ sẽ được dự đoản nhiều lần Cho nên tác giả đã sử dụng NMS đẻ loại bỏ những trường hợp như thế này
Cách thực hiện:
Hình 2.23 Minh họa NMSES
1 Loại bỏ những đối tượng cé confidence C < C-threshold (ngưỡng nay chúng ta
có thể cầu hình)
24
Trang 37bà Sắp xếp những dỏi tượng có confidenoe C theo thứ tự giảm dan
3 Chọn bounding box cửa những vật thể cỏ confidence C cao nhất và xuất ra kết quả
4 Loại bỏ những boumding box có [øU < ToU-threshold (nguting nay chúng ta cô
* BatchNormalization: thém LatchNormalization vào tất cá các lớp chập Việc này
có thế giúp chúng ta tránh được hiện tượng giá trị của xx rơi vào khoảng bão
hoa sau kb di qua gác bản kích hoạt phí tuyển Vậy nên nó đấm bảo rằng không,
có sự kích hoạt nao bị vượt quả cao hoặc quá thấp Diễu nảy giúp cho các weighis
ma khi không dung BatchNormalization cé thế sẽ không bao giờ được học thi nay
Tại được học bình thường Điều này giúp chúng la lau giảm đi sự phụ thuộc vào
giả trị khải tao của cáo tham số Và sau khí áp dụng BatchNormalization thi gia
trị mAP của model đã tăng thêm 2%
® Bộ phân loại phản giải cao (High Resolution Classifier):
® YoLovl sẽ đảo tạo bộ phân loại với ánh có kích thước 224::224, sau đỏ sẽ tăng,
kích thước lén 448448 để nhậu dang,
& Còn dối với ver2, tác giả vẫn dào tạo bộ phân loại với ảnh có kích thước
2245224, sau đỏ đào tạo tiếp với ảnh có kích thước 448448 ở 10 epochs cudi,
cuối cùng mới đetection ở ảnh có độ phân giải 448x448 Việc sử dụng High
Resolution Classifier nay giup ting mAP Lén tdi da 4%
® Phát hiện nhiều đối tượng trong một ô lưới (gird cell):
œ@ YoLoœwvl: đối với hình trên, ver 1 sẽ chỉ có thế nhận dang được hoặc là người
hoặc là cavat trong, õ lưới máu đó.
Trang 3826
® Nhưng tới ver2, để giải quyết vấn đề đỏ, tác giả đã cho model dự đoản nhiều bounding box hơn Va để dự đoán nhiều bounding box thi khai niém Anchor
box ra đời
© Anchor box: né la cae bounding box nhưng được tạo ra sẵn (còn bounding box
là do model dự đoán), Với mot 6 ludi sé c6 trach nhiém tạo ra một số K các Anchor box với các kich thước khác nhau Các Anchor box nảy sẽ được dự
đoán xem là nó có chứa vật thể hay không, dựa vào kết quả tính toán của IoU' giữa no va ground truth (néu IoU > 50% thì Anchor box đó được coi là chứa vật thể)
Hình 2.24 Hình ảnh minh họa 1% số lượng Anchor box trong mạng RetinaNetʰ)
Các vật thê nhỏ: YoLov2 chia bức ảnh thành 1313 ô lưới nên khả năng tìm kiểm
được các đổi tượng cỏ kích thước nhỏ là cao hơn so với YoLov1 là 7x7
Được đào tạo trên nhiêu kích thước ảnh đầu vào: đối với YoLov1 thì chỉ được đảo
tạo trên một vải kích thước ảnh đầu vảo cổ định, nhưng sang YoLov? thi tac gia da
cho đảo tạo mô hình trên các ảnh có kich thước thay đổi từ 320x320 cho đến 640*640 Điều này làm cho model cỏ thể học được nhiêu đặc điểm của đổi tượng
hơn cũng như cho ra độ chính xác cao hơn
Tensor: Với việc bỏ đi các lớp fully connected vả thay vảo đỏ là sử dụng anchor
box, kết quả cuối củng của mô hình sẽ là: 13x]3x 125 Với môi tensor cỏ kích
Trang 39thude 1x1x125 duoc tinh nhur sau: k x (5 +20), trong dé k =5 va 20 là số lượng lớp
vật thể được đảo tạo sẵn
© Darknetl9: véi YoLov1 sit dung backbone 1 24 lép convolution thi sang YoLov2
lại được sử dụng Darknet19 với 19 lớp convolution cùng với Š lớp max pooling
(không có các lớp fully connected để dự đoán mả thay vào đó thì anchor box được
sử dụng) Darknetl9 xử lý rất nhanh trong việc nhận dạng vật thể nên rất cỏ ý
nghĩa trong việc xử lý ở thời gian thực
® Với việc sử dụng đarknet19 (19 lớp chập) và thêm 11 lớp chập nữa để phục vụ quá
trình nhận dạng vật thẻ Điều nảy khiến cho mô hình khả chật vật khi gặp phải những đối tượng có kích thước nhỏ Củng với việc cầu trúc của nó khong he str
dụng các nguyên liệu hiện đại tại thời điểm 6 nhu: residual, upsampling hay skip
connect Nén khó có thể trích xuất được tốt nhất các đặc trưng của vật thẻ
Convolutional | 512 14x14 Convolutional | 256 14 x 14 Convolutional | 512 14x14
Softmax
Hinh 2.25 Cau trac Darknet19°"!
3.1.4.3 YoLov3-tốt hơn nhưng chậm hơn
a Cau trie
27
Trang 40
Hình 2.26 Cầu trúc mô hình YoLov39
Với YoLov] sử dụng cau trúc 24 lớp tích chập, YoLov2 thì sử dụng cấu trúc
đarknet19 và 11 lớp tích chập nữa, thì YoLov3 sử dụng câu trúc darknet53 (cao gồm
53 lớp tích chập) và bản thân YoLov3 có thêm 53 lớp tích chập nữa Vật tổng công
YoLov3 sẽ cỏ tắt cả 106 lớp chập
Convolutional 32 3x3 256 x 256
Convolutional 64 3x3/2 128 x 128 Convolutional 32 1x1
1x| Convolutional 64 3x3 Residual 128 x 128
Convolutional 1263x372 64x64 —
Convolutional 64 1x1 2x} Convolutional 128 3x3 Residual 84x64 Convolutional 256 3x3/2 32x32 Convolutional 128 1x1
8x)| Convolutional 256 3x3 Residual 32x32 Convolutional 512 3x3/2 16x16 [Convolutional 256 1x1
512 3x3
Connected 1000 Softmax
Hình 2.27 Cấu trúc DarknetS3°
28