1. Trang chủ
  2. » Luận Văn - Báo Cáo

NHẬN DẠNG đối TƯỢNG đồ họa TRONG ẢNH văn bản sử DỤNG MẠNG nơ RON TÍCH CHẬP

62 35 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 62
Dung lượng 11,05 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

a ph¶ncác ph˜Ïng pháp và mô hình nh™n diªn Ëi t˜Òng Á hÂa trong £nh v´n b£n hiªn nayang ˜Òc hußn luyªn trên mÎt bÎ d˙ liªu có ı hai ph¶n là v‡ trí và tên nhãn cıaËi t˜Òng Á hÂa.. Tßt c£

Trang 1

ÑI H≈C QU»C GIA HÀ NÀI

Nguyπn Tußn Anh

ÉNH VãN BÉN S€ D÷NG MÑNG NÃ RON

TÍCH CHäP

LUäN VãN THÑC Sû Ngành: Khoa hÂc máy tính

HÀ NÀI - 2021

Trang 2

ÑI H≈C QU»C GIA HÀ NÀI

Nguyπn Tußn Anh

ÉNH VãN BÉN S€ D÷NG MÑNG NÃ RON

TÍCH CHäP

LUäN VãN THÑC Sû Ngành: Khoa hÂc máy tính

Cán bÎ h˜Óng d®n: TS Nguyπn Th‡ NgÂc Diªp

HÀ NÀI - 2021

Trang 3

Ëi t˜Òng Á hÂa nh˜ b£ng bi∫u, Á th‡ Các hª thËng tìm ki∏m Á hÂa muËn ho§tÎng hiªu qu£ thì c¶n có b˜Óc nh™n d§ng và phát hiªn các Ëi t˜Òng này a ph¶ncác ph˜Ïng pháp và mô hình nh™n diªn Ëi t˜Òng Á hÂa trong £nh v´n b£n hiªn nayang ˜Òc hußn luyªn trên mÎt bÎ d˙ liªu có ı hai ph¶n là v‡ trí và tên nhãn cıa

Ëi t˜Òng Á hÂa Công s˘c và thÌi gian ∫ gán nhãn cho các bÎ d˙ liªu này là rßtlÓn Do v™y trong lu™n v´n này chúng tôi ∑ xußt mÎt ph˜Ïng pháp có th∫ t™n dˆng

bÎ d˙ liªu không ¶y ı v∑ tên nhãn cıa các lÓp ∫ nh™n d§ng các Ëi t˜Òng Á hÂa.Nh˙ng óng góp chính cıa lu™n v´n bao gÁm

– ∑ xußt ph˜Ïng pháp s˚ dˆng m§ng nÏ ron tích ch™p YOLO cho bài toán ‡nhv‡ Ëi t˜Òng Á hÂa vÓi bÎ d˙ liªu chø bao gÁm các v‡ trí cıa hÎp giÓi h§n.– ∑ xußt ph˜Ïng pháp s˚ dˆng m§ng hÂc sâu t¸ giám sát DINO cho b˜Óc tríchxußt thuÎc tính hình £nh dùng trong bài toán phân lo§i các lÓp Ëi t˜Òng ÁhÂa vÓi bÎ d˙ liªu có sË l˜Òng £nh mÈi lÓp h§n ch∏

– Xây d¸ng và phát tri∫n hª thËng tìm ki∏m và truy xußt các Ëi t˜Òng Á hÂatrong £nh v´n b£n

Ph˜Ïng pháp nh™n d§ng các Ëi t˜Òng Á hÂa trong £nh v´n b£n ˜Òc trình bày tronglu™n v´n ã ˜Òc th˚ nghiªm và §t k∏t qu£ xßp xø 74% trên các bÎ d˙ liªu ki∫m th˚

và ánh giá Áp dˆng các ph˜Ïng pháp trên vào ∫ xây d¸ng nên hª thËng tìm ki∏m

và truy xußt các v´n b£n t¯ các Ëi t˜Òng Á hÂa §t ˜Òc k∏t qu£ Î hÁi t˜ng §t93,3%

T¯ khóa: nh™n d§ng Ëi t˜Òng, phân lo§i hình £nh, Ëi t˜Òng Á hÂa

Trang 4

Digital transformation and digitization of documents have greatly benefited nesses as they can cut operating costs and increase working efficiency Decisions arenow made quickly and accurately through timely and transparent reporting systems

busi-In turn, the number of report documents that need to be processed and stored creases, leading to an increasingly complex search problem The need now is not just

in-to search from the textual content but also in-to look for graphic objects such as tablesand graphs For visual search systems to work effectively, there is a need to recognizeand detect these objects Most of the methods and models for recognizing graphicobjects in-text images are currently being trained on a dataset with two parts, the lo-cation and the label name of the graphical object The effort to label these datasets isnot tiny, and the time spent is also considerable Therefore, in this thesis, we propose

a method that can use the incomplete data set of label names of classes to identifygraphic objects The main contributions of the thesis include

– We propose using a convolutional neural network (YOLO) to locate graphicobjects with a dataset that includes only the bounding box’s locations

– We propose a method to use a self-supervised deep learning network (DINO) forthe feature extraction step used to classify graphic objects with a dataset with

a limited number of images per class

– Building and developing a system for searching and retrieving graphic objects intext images

The method of recognizing graphic objects in text images presented in this thesis hasbeen tested and achieved approximately 74% results on test and evaluation datasets.Applying the above methods to build a system for searching and retrieving documentsfrom graphic objects also achieved the top 3 recall results of 93.3%

Keywords: object recognition, image classification, graphic object

Trang 5

LÕI CÉM ÃN

LÌi ¶u tiên cho tôi xin ˜Òc g˚i lÌi c£m Ïn chân thành và sâu s≠c nhßt tÓi TS.Nguyπn Th‡ NgÂc Diªp ng˜Ìi ã h˜Óng d®n và chø b£o t™n tình nhßt cho tôi trongsuËt quá trình hoàn thành lu™n v´n này

Tôi xin ˜Òc g˚i lÌi c£m Ïn tÓi toàn bÎ các th¶y giáo, cô giáo cıa tr˜Ìng §ihÂc Công Nghª - §i hÂc QuËc Gia Hà NÎi nh˙ng ng˜Ìi ã t§o i∑u kiªn tËt nhßt ∫tôi có th∫ hÂc t™p, nghiên c˘u và hÏn c£ là ã truy∑n thˆ cho tôi nh˙ng hành trangki∏n th˘c ¶y ı nhßt

Tôi cÙng xin g˚i lÌi c£m Ïn chân thành nhßt tÓi nh˙ng ng˜Ìi b§n ng˜Ìi anh, ch‡

ã giúp Ô tôi hoàn thiªn c£ v∑ ki∏n th˘c chuyên môn và kˇ n´ng hÂc t™p nghiên c˘u.CuËi cùng và không th∫ thi∏u ó là lÌi c£m Ïn tÓi bË mµ và ch‡ tôi và ∞c biªt làb§n Dung Phùng nh˙ng ng˜Ìi ã luôn bên c§nh tôi giúp Ô và Îng viên cÍ vÙ tinhth¶n tôi trong nh˙ng lúc khó kh´n nhßt

Tôi xin chân thành c£m Ïn!

Hà NÎi, ngày 10 tháng 10 n´m 2021

Sinh viên

Nguyπn Tußn Anh

Trang 6

LÕI CAM OAN

Tôi xin cam oan toàn bÎ lu™n v´n v∑ ph˜Ïng pháp nh™n d§ng Ëi t˜Òng ÁhÂa trong £nh v´n b£n s˚ dˆng m§ng nÏ ron tích ch™p này là do tôi th¸c hiªn d˜Óis¸ h˜Óng d®n cıa TS Nguyπn Th‡ NgÂc Diªp Tßt c£ các công trình nghiên c˘u, bàibáo, khóa lu™n, tài liªu cıa các tác gi£ khác ˜Òc tôi s˚ dˆng trong khóa lu™n này

∑u ˜Òc trích d®n t˜Ìng minh và ∑u có trong danh sách tài liªu tham kh£o

Hà NÎi, ngày 10 tháng 10 n´m 2021

Sinh viên

Nguyπn Tußn Anh

Trang 7

Mˆc lˆc

1.1 BËi c£nh nghiên c˘u 1

1.2 Mô t£ bài toán và ∞t vßn ∑ 2

1.3 Mˆc tiêu nghiên c˘u 3

1.4 óng góp cıa lu™n v´n 3

1.5 Cßu trúc lu™n v´n 4

Ch˜Ïng 2 Các nghiên c˘u liên quan 6 2.1 Các bÎ d˙ liªu v∑ nh™n d§ng Ëi t˜Òng Á hÂa 6

2.2 Các ph˜Ïng pháp trích xußt thuÎc tính cıa £nh 8

2.2.1 Trích xußt thuÎc tính cıa £nh s˚ dˆng m§ng tích ch™p 8

2.3 Các nghiên c˘u v∑ phát hiªn Ëi t˜Òng Á hÂa trong £nh v´n b£n 10

2.3.1 Faster R-CNN 12

Trang 8

2.3.2 Mask R-CNN 13

2.3.3 Ph˜Ïng pháp ti∏p c™n d¸a trên l™p trình Îng 14

2.4 Hª thËng tìm ki∏m hình £nh d¸a trên nÎi dung 14

Ch˜Ïng 3 Ph˜Ïng pháp nh™n d§ng Ëi t˜Òng Á hÂa trong £nh v´n b£n 16 3.1 Ph˜Ïng pháp nh™n d§ng Ëi t˜Òng Á hÂa Ïn nhãn 16

3.1.1 Ph˜Ïng pháp s˚ dˆng m§ng tích ch™p cho b˜Óc phát hiªn Ëi t˜Òng Á hÂa trong £nh v´n b£n 18

3.1.2 Trích xußt thuÎc tính cıa £nh s˚ dˆng m§ng transformer 20

3.1.3 Phân lo§i hình £nh s˚ dˆng ph˜Ïng pháp k∏t hÒp 24

3.2 Hª thËng tìm ki∏m Ëi t˜Òng Á hÂa 24

Ch˜Ïng 4 Th¸c nghiªm và k∏t qu£ 27 4.1 BÎ d˙ liªu th¸c nghiªm 27

4.2 Ph˜Ïng pháp ánh giá 28

4.3 K∏t qu£ th¸c nghiªm 30

4.3.1 K∏t qu£ nh™n d§ng Ëi t˜Òng a nhãn 30

4.3.2 K∏t qu£ nh™n d§ng Ëi t˜Òng Ïn nhãn 33

4.3.3 K∏t qu£ phân lo§i £nh Ëi t˜Òng Á hÂa 35

4.3.4 K∏t qu£ nh™n d§ng Ëi t˜Òng Á hÂa Ïn nhãn k∏t hÒp phân lo§i hình £nh 36

4.3.5 K∏t qu£ nh™n d§ng Ëi t˜Òng Á hÂa trên bÎ d˙ liªu v´n b£n hành chính 37

4.4 K∏t qu£ cıa hª thËng tìm ki∏m Ëi t˜Òng Á hÂa 39

Trang 9

Tài liªu tham kh£o 43

Trang 10

CNN Convolutional Neural NetworkPCA Principal Component AnalysisRGB Red, green, blue

SVC Support Vector ClassificationSVM Support-vector machine

Trang 11

Danh sách b£ng

2.1 Các thông tin chung v∑ các bÎ d˙ liªu phÍ bi∏n 8

3.1 Thông tin v∑ các bi∫n th∫ cıa mô hình DINO ViT 23

4.1 Thông tin v∑ bÎ d˙ liªu IIT-AR-13K 27

4.2 Thông tin v∑ bÎ d˙ liªu IIT-AR-13K 28

4.3 K∏t qu£ nh™n d§ng Ëi t˜Òng a nhãn so sánh vÓi bài báo [1] 30

4.4 K∏t qu£ nh™n d§ng Ëi t˜Òng a nhãn so sánh các ph˜Ïng pháp khác 31 4.5 K∏t qu£ nh™n d§ng b£ng khi so sánh vÓi các bÎ d˙ liªu khác 33

4.6 K∏t qu£ nh™n d§ng Ëi t˜Òng Ïn nhãn 34

4.7 BÎ d˙ liªu phân lo§i hình £nh 35

4.8 K∏t qu£ phân lo§i hình £nh s˚ dˆng ph˜Ïng pháp k∏t hÒp 35

4.9 K∏t qu£ phân lo§i hình £nh s˚ dˆng ph˜Ïng pháp tinh chønh mô hình 35 4.10 K∏t qu£ nh™n d§ng Ëi t˜Òng Á hÂa Ïn nhãn k∏t hÒp vÓi phân lo§i hình £nh 37

4.11 K∏t qu£ Î o recall top k cıa hª thËng tìm ki∏m vÓi các mô hình trích xußt thuÎc tính 39

Trang 12

Danh sách hình v≥

1.1 ¶u vào và ¶u ra cıa bài toán nh™n diªn Ëi t˜Òng Á hÂa 2

1.2 Hình minh hÂa v∑ các hÎp giÓi h§n các Ëi t˜Òng Á hÂa và tên nhãn các lÓp Ëi t˜Òng 4

2.1 MÎt vài ví dˆ v∑ các bÎ d˙ liªu ICDAR-17, ICDAR-19, tableBank, UNLV 6 2.2 MÎt vài ví dˆ v∑ các bÎ d˙ liªu DocBANK, ICDAR-13, IIT-AR-13k, PubLayNet 7

2.3 Ví dˆ v∑ ki∏n trúc CNN 9

2.4 Ki∏n trúc cıa mô hình EfficientNet b0 [2] 10

2.5 Ki∏n trúc cıa mô hình ResNet 18 [3] 10

2.6 Ki∏n trúc cıa mô hình GoogleNet [4] 10

2.7 Ki∏n trúc cıa Faster R-CNN [5] 12

2.8 Ki∏n trúc cıa Mask R-CNN [6] 13

3.1 Mô hình chung cıa ph˜Ïng pháp nh™n d§ng các Ëi t˜Òng Á hÂa Ïn nhãn 17

3.2 Ki∏n trúc cıa FCNN trong nghiên c˘u [7] 18

3.3 Ki∏n trúc cıa YOLO trong nghiên c˘u [8] 19

3.4 Ki∏n trúc cıa YOLOv3 trong nghiên c˘u [9] 20

3.5 Mô hình chung cıa ki∏n trúc transformer [10] cho £nh 21

Trang 13

3.6 TÍng quan ph˜Ïng pháp hußn luyªn mô hình DINO trong nghiên c˘u

[11] 22

3.7 Mô hình chung cıa các hª thËng tìm ki∏m £nh d¸a trên nÎi dung 25

3.8 Mô hình chung cıa hª thËng tìm ki∏m Ëi t˜Òng Á hÂa 26

4.1 Phân bË v∑ sË l˜Òng và Î dài các chi∑u cıa các Ëi t˜Òng Á hÂa trong bÎ d˙ liªu 28

4.2 Ví dˆ v∑ Î chính xác và Î hÁi t˜ng 29

4.3 Ví dˆ v∑ Î IoU 29

4.4 Chi ti∏t so sánh YOLOv3 YOLOv4 YOLOv5 và DETR 32

4.5 Chi ti∏t quá trình hußn luyªn mô hình YOLOv3 nh™n d§ng Ëi t˜Òng Ïn nhãn 34

4.6 Các ví dˆ v∑ tr˜Ìng hÒp nh™n d§ng úng 38

4.7 Các ví dˆ v∑ tr˜Ìng hÒp nh™n d§ng sai 38

Trang 14

Ch˜Ïng 1

GiÓi thiªu

1.1 BËi c£nh nghiên c˘u

Trong nh˙ng n´m g¶n ây, khái niªm “chuy∫n Íi sË” ã không còn mÓi l§ và ˜Òcnh≠c ∏n rßt nhi∑u trên các ph˜Ïng tiªn truy∑n thông §i chúng MÎt trong nh˙nglÒi ích dπ dàng có th∫ nh™n thßy cıa chuy∫n Íi sË Ëi vÓi doanh nghiªp c£ t˜ nhân

và nhà n˜Óc ó là c≠t gi£m chi phí v™n hành, và t´ng hiªu qu£ làm viªc Các quy∏t

‡nh bây giÌ ˜Òc ˜a ra nhanh chóng và chính xác hÏn nhÌ các hª thËng báo cáothông suËt k‡p thÌi, và tËi ˜u hóa ˜Òc n´ng sußt làm viªc cıa nhân viên

Trong các doanh nghiªp sË l˜Òng các v´n b£n báo cáo hàng ngày c¶n ph£i gi£iquy∏t và l˜u tr˙ ngày mÎt lÓn d®n ∏n bài toán tìm ki∏m ngày mÎt ph˘c t§p Nhuc¶u cıa ng˜Ìi dùng ngày giÌ ây không còn chø d¯ng l§i  viªc tìm ki∏m t¯ nÎi dungv´n b£n mà còn c¶n tìm ki∏m các Ëi t˜Òng Á hÂa nh˜ b£ng bi∫u, Á th‡ và bi∫u Á

Do v™y yêu c¶u v∑ mÎt hª thËng tìm ki∏m các Ëi t˜Òng Á hÂa trong v´n b£n là c¶nthi∏t

Các hª thËng tìm ki∏m Ëi t˜Òng Á hÂa muËn ho§t Îng tËt thì b˜Óc ¶u tiên

ó là qu£n l˛ và t§o ra chø mˆc các Ëi t˜Òng Á hÂa trong v´n b£n và ∫ có th∫ ánhchø mˆc các Ëi t˜Òng thì tr˜Óc h∏t chúng ta c¶n ph£i nh™n d§ng và phát hiªn các

Ëi t˜Òng

Trang 15

1.2 Mô t£ bài toán và ∞t vßn ∑

Hình 1.1: ¶u vào và ¶u ra cıa bài toán nh™n diªn Ëi t˜Òng Á hÂa

Nh™n d§ng Ëi t˜Òng Á hÂa trong £nh v´n b£n là bài toán ‡nh v‡ và phân lo§i

Trang 16

các Ëi t˜Òng Á hÂa ví dˆ nh˜ b£ng bi∫u, Á th‡ xußt hiªn trong các £nh v´n b£n.Trong ph§m vi lu™n v´n này chúng tôi ã tÍng hÒp và l¸a chÂn n´m lo§i nhãn d¸atheo bÎ d˙ liªu IIT-AR-13k [1] ∫ nh™n d§ng bao gÁm các lo§i nhãn là b£ng, Á th‡,bi∫u t˜Òng, £nh th™t và ch˙ k˛ ¶u vào và ¶u ra cıa bài toán ˜Òc mô t£ nh˜ trongHình 1.1, t§i ó ¶u vào s≥ là £nh scan, £nh chˆp cıa v´n b£n c¶n ˜Òc nh™n d§ng

Ëi t˜Òng và ¶u ra s≥ là tÂa Î v‡ trí cıa các Ëi t˜Òng Á hÂa kèm theo tên cıa lo§i

Ëi t˜Òng Á hÂa ó

a ph¶n các ph˜Ïng pháp và mô hình nh™n diªn hiªn nay c¶n ph£i ˜Òc hußnluyªn trên mÎt bÎ d˙ liªu lÓn và ¶y ı c£ hai ph¶n là v‡ trí hÎp giÓi h§n và nhãncıa các lÓp Công s˘c ∫ gán nhãn cho các bÎ d˙ liªu này là không h∑ nh‰ hÏn n˙athÌi gian b‰ ra cÙng rßt lÓn Do v™y c¶n có mÎt ph˜Ïng pháp s˚ dˆng d˙ liªu vÓi sËl˜Òng nhãn nh‰ hÏn mà k∏t qu£ nh™n d§ng v®n hiªu qu£

1.3 Mˆc tiêu nghiên c˘u

Mˆc tiêu cıa lu™n v´n này ó là s˚ dˆng bÎ d˙ liªu chø bao gÁm v‡ trí các hÎp giÓih§n và mÎt bÎ d˙ liªu dùng ∫ phân lo§i các Ëi t˜Òng Á hÂa vÓi sË l˜Òng £nh mÈilÓp là h§n ch∏ nh˜ Hình 1.2 T¯ ó ∑ xußt ph˜Ïng pháp nh™n d§ng Ëi t˜Òng ÁhÂa trong £nh v´n b£n

1.4 óng góp cıa lu™n v´n

Nh˙ng óng góp chính cıa lu™n v´n bao gÁm:

– ∑ xußt ph˜Ïng pháp s˚ dˆng m§ng nÏ ron tích ch™p YOLO cho bài toán nh™nd§ng Ëi t˜Òng Á hÂa trong £nh v´n b£n vÓi bÎ d˙ liªu chø bao gÁm các v‡ trícıa hÎp giÓi h§n (bounding box)

– ∑ xußt ph˜Ïng pháp s˚ dˆng m§ng hÂc sâu t¸ giám sát DINO cho b˜Óc tríchxußt thuÎc tính hình £nh dùng trong bài toán phân lo§i các lÓp Ëi t˜Òng ÁhÂa khi d˙ liªu nhãn mÈi chø vÓi sË l˜Òng nh‰ nhãn mÈi lÓp

Trang 17

Hình 1.2: Hình minh hÂa v∑ các hÎp giÓi h§n các Ëi t˜Òng Á hÂa và tên nhãn cáclÓp Ëi t˜Òng

– Ÿng dˆng mô hình YOLO trong khâu ‡nh v‡ Ëi t˜Òng và mô hình DINO trongkhâu trích xußt thuÎc tính ∫ xây d¸ng hª thËng tìm ki∏m Ëi t˜Òng Á hÂatrong £nh v´n b£n

1.5 Cßu trúc lu™n v´n

Cßu trúc các ph¶n cıa lu™n v´n ˜Òc trình bày nh˜ sau:

– Ch˜Ïng 2: GiÓi thiªu và mô t£ v∑ các bÎ d˙ liªu ã có v∑ chı ∑ nh™n d§ng

Ëi t˜Òng Á hÂa trong £nh v´n b£n, các ph˜Ïng pháp trích xußt thuÎc tính cıa

£nh Áng thÌi tÍng hÒp và tóm t≠t v∑ các ph˜Ïng pháp nh™n d§ng Ëi t˜Òng

Á hÂa ã có cÙng nh˜ i∫m m§nh và i∫m y∏u cıa t¯ng ph˜Ïng pháp Mô hìnhchung và cách th˘c xây d¸ng hª thËng tìm ki∏m, truy xußt hình £nh d¸a trênnÎi dung

Trang 18

– Ch˜Ïng 3 Mô t£ và gi£i thích v∑ ph˜Ïng pháp nh™n d§ng Ëi t˜Òng Á hÂa

Ïn nhãn trong £nh v´n b£n và ph˜Ïng pháp phân lo§i hình £nh các Ëi t˜Òng

Á hÂa Mô t£ cách th˘c xây d¸ng hª thËng tìm ki∏m Ëi t˜Òng Á hÂa trong

£nh v´n b£n

– Ch˜Ïng 4: Trình bày v∑ cách th˘c tÍ ch˘c và chu©n b‡ bÎ d˙ liªu, các k∏t qu£

§t ˜Òc cıa ph˜Ïng pháp khi ˜Òc ánh giá trên các bÎ d˙ liªu ki∫m tra ÁngthÌi ánh giá v∑ m˘c Î hiªu qu£ cıa hª thËng tìm ki∏m Ëi t˜Òng Á hÂa trong

£nh v´n b£n

– Ch˜Ïng 5: Trình bày v∑ vai trò cıa nghiên c˘u trong lu™n v´n, các k∏t qu£ §t

˜Òc, các i∫m h§n ch∏ cıa ph˜Ïng pháp cÙng nh˜ h˜Óng phát tri∫n ti∏p theocıa lu™n v´n

Trang 19

Ch˜Ïng 2

Các nghiên c˘u liên quan

2.1 Các bÎ d˙ liªu v∑ nh™n d§ng Ëi t˜Òng Á hÂa

Hình 2.1: MÎt vài ví dˆ v∑ các bÎ d˙ liªu ICDAR-17, ICDAR-19, tableBank, UNLVBài toán nh™n d§ng Ëi t˜Òng Á hÂa trong v´n b£n có th∫ ˜Òc nhìn nh™n là mÎt

Trang 20

Hình 2.2: MÎt vài ví dˆ v∑ các bÎ d˙ liªu DocBANK, ICDAR-13, IIT-AR-13k, LayNet

Pub-b˜Óc phát tri∫n t¯ bài toán nh™n d§ng b£ng trong v´n b£n MÎt vài các bÎ d˙ liªu v∑nh™n d§ng b£ng và Ëi t˜Òng Á hÂa có th∫ k∫ ∏n nh˜ DocBank [12], ICDAR-13 [13],IIT-AR-13K [1], PubLayNet [14], ICDAR-17 POD [15], ICDAR-19 [16] , TableBank[17], and UNLV [18] Hình 2.1 và Hình 2.2 cho thßy mÎt vài nh˙ng ví dˆ v∑ các bÎd˙ liªu nh™n diªn Ëi t˜Òng Á hÂa trong £nh v´n b£n Các thông tin chung v∑ các

bÎ d˙ liªu ˜Òc mô t£ trong B£ng 2.1

Trong lu™n v´n này chúng tôi s˚ dˆng bÎ d˙ liªu IIIT-AR-13k [1] do bÎ d˙ liªunày bao gÁm các Ëi t˜Òng Á hÂa a d§ng hÏn các bÎ d˙ liªu khác nh˜ £nh minhhÂa, £nh th™t, bi∫u t˜Òng và ch˙ k˛ BÎ d˙ liªu này bao gÁm 13 nghìn trang báo cáohàng n´m có sÆn công khai Báo cáo hàng n´m b¨ng ti∏ng Anh và các ngôn ng˙ khôngph£i ti∏ng Anh (ti∏ng Pháp, ti∏ng Nh™t, ti∏ng Nga, v.v.) cıa hÏn hai m˜Ïi chín công

ty khác nhau Báo cáo hàng n´m ch˘a nhi∑u lo§i Ëi t˜Òng Á hÂa khác nhau nh˜b£ng, nhi∑u lo§i bi∫u Á khác nhau (ví dˆ: bi∫u Á thanh, bi∫u Á hình tròn, bi∫u

Á ˜Ìng, v.v.), hình £nh, bi∫u tr˜ng cıa công ty, ch˙ k˛, tem, b£n phác th£o, v.v

Trang 21

Trong bÎ d˙ liªu chø ˜Òc gán nhãn n´m lo§i Ëi t˜Òng Á hÂa, bao gÁm: b£ng, £nhminh hÂa (bao gÁm c£ Á th‡ và phác th£o), hình £nh t¸ nhiên, bi∫u tr˜ng và ch˙ k˛.

B£ng 2.1: Các thông tin chung v∑ các bÎ d˙ liªu phÍ bi∏n

2.2.1 Trích xußt thuÎc tính cıa £nh s˚ dˆng m§ng tích ch™p

Trích xußt thuÎc tính cıa £nh là mÎt chı ∑ không còn mÓi trong lænh v¸c th‡ giácmáy tính Có th∫ hi∫u các hình £nh, bao gÁm rßt nhi∑u thuÎc tính  t¶ng thßp nhßt

ó chính là ma tr™n các i∫m £nh ˜Òc mô t£ b¨ng 3 màu s≠c ‰, xanh d˜Ïng, xanhlˆc Nh˜ng n∏u ˜a toàn bÎ các thuÎc tính này tr¸c ti∏p vào các mô hình d¸ oán s≥làm cho tËc Î hußn luyªn cıa các mô hình b‡ gi£m i rõ rªt Do v™y ti∏n trình tríchxußt thuÎc tính cıa £nh ˜Òc s˚ dˆng dùng ∫ tìm cách trích xußt ra nh˙ng thôngtin mang tính tr¯u t˜Òng hÏn ∫ có th∫ ˜a vào mô hình d¸ oán Ph˜Ïng pháp phÍbi∏n nhßt khi nói ∏n trích xußt thuÎc tính cıa £nh ó chính là các m§ng nÏ ron tíchch™p (convolutional neural network - CNN) [19] ngoài ra còn có vision transformer(ViT) [10]

Trang 22

– Các lÓp tích ch™p (convolutional layer - conv)

– LÓp tÍng hÒp (pooling layer - Pool) nh¨m làm gi£m các tham sË trong tr˜ÌnghÒp £nh có kích th˜Óc lÓn

– LÓp k∏t nËi ¶y ı (fully connected layer - FC) ∫ tÍng hÒp các thuÎc tính l§inh¨m s˚ dˆng hàm kích ho§t (softmax ho∞c sigmoid) ∫ phân lo§i nhãn

Trong mô t£ nh˜ Hình 2.3, các lÓp tích ch™p s≥ ti∏n hành ch§y các c˚a sÍ tr˜Òt trên

£nh ¶u vào ∫ có th∫ t§o ra các ma tr™n ∞c tr˜ng Các ma tr™n ∞c tr˜ng này cótác dˆng ch˘a các ∞c tr˜ng quan trÂng sau nhi∑u l¶n tÍng hÒp ∫ gi£m tham sË.LÓp k∏t nËi ¶y ı có th∫ s˚ dˆng chúng và ti∏n hành phân lo§i £nh MÎt sË nh˙ngm§ng tích ch™p phÍ bi∏n có th∫ k∫ ∏n nh˜ GoogleNet [4], InceptionBN [21], ResNet[3], EfficientNet [2]

Trang 23

Hình 2.4: Ki∏n trúc cıa mô hình EfficientNet b0 [2]

Hình 2.5: Ki∏n trúc cıa mô hình ResNet 18 [3]

Hình 2.6: Ki∏n trúc cıa mô hình GoogleNet [4]

2.3 Các nghiên c˘u v∑ phát hiªn Ëi t˜Òng Á hÂa

trong £nh v´n b£n

Nh™n d§ng Ëi t˜Òng là mÎt thu™t ng˙ dùng ∫ mô t£ mÎt t™p hÒp các nhiªm vˆtrong lænh v¸c th‡ giác máy tính có liên quan liên quan ∏n viªc xác ‡nh và phân lo§icác Ëi t˜Òng trong £nh kˇ thu™t sË

– Xác ‡nh v‡ trí Ëi t˜Òng nh™n vào mÎt hình £nh và tr£ v∑ v‡ trí cıa mÎt ho∞c

Trang 24

nhi∑u Ëi t˜Òng trong mÎt hình £nh

– Phân lo§i hình £nh nh™n ¶u vào là mÎt £nh và có nhiªm vˆ là d¸ oán tên lÓpcıa mÎt Ëi t˜Òng trong mÎt hình £nh

Phát hiªn Ëi t˜Òng là s¸ k∏t hÒp hai bài toán trên ∫ th¸c hiªn cho mÎt ho∞c nhi∑u

Ëi t˜Òng trong hình £nh Có th∫ phân biªt gi˙a ba nhiªm vˆ th‡ giác máy tính cÏb£n trên thông qua ¶u vào và ¶u ra cıa chúng nh˜ sau:

– Phân lo§i hình £nh: D¸ oán lÓp cıa Ëi t˜Òng trong hình £nh ¶u vào

– ¶u vào: MÎt b˘c £nh cˆ th∫

– ¶u ra: Tên cıa lÓp

– ‡nh v‡ Ëi t˜Òng: Xác ‡nh v‡ trí cıa các Ëi t˜Òng trong £nh và chø ra v‡ trícıa chúng b¨ng các to§ Î

– ¶u ra: MÎt ho∞c nhi∑u hÎp giÓi h§n và tên nhãn cıa chúng

Các ph˜Ïng pháp và nghiên c˘u v∑ bài toán phát hiªn Ëi t˜Òng Á hÂa trong

£nh v´n b£n nh˙ng n´m g¶n ây ã phát tri∫n và §t ˜Òc mÎt vài nh˙ng k∏t qu£áng k∫ D¸a theo các tÍng hÒp và phân tích trong nghiên c˘u [22] ta có th∫ chia cácph˜Ïng pháp hiªn t§i theo các lo§i sau: Faster RCNN [5], Mask RCNN [6], ph˜Ïngpháp l™p trình Îng [23] và s˚ dˆng m§ng tích ch™p ¶y ı [24]

Trang 25

2.3.1 Faster R-CNN

Faster R-CNN [5] là phiên b£n c£i ti∏n cıa Fast R-CNN [25] là m§ng phát hiªn Ëit˜Òng hai giai o§n Hình 2.7 minh hÂa ki∏n trúc cıa Faster R-CNN [5]

Hình 2.7: Ki∏n trúc cıa Faster R-CNN [5]

Các tác gi£ ã ∑ xußt ph˜Ïng pháp [26] phát hiªn b£ng trong v´n b£n s˚ dˆngph˜Ïng pháp hÂc sâu d¸a trên hình £nh b¨ng cách tri∫n khai Faster R-CNN [5] ∫phát hiªn các b£ng trong £nh tài liªu Trong bài báo ã trình bày r¨ng các ph˜Ïngpháp phát hiªn Ëi t˜Òng trong v´n b£n ˜Òc giÓi thiªu g¶n ây phˆ thuÎc vào m§ngnÏ-ron tích ch™p (CNN) có th∫ phát hiªn các b£ng trong hình £nh tài liªu B¨ng cácht™n dˆng các x˜Ïng sËng (back-bone) nh˜ ZFNet [27] và VGG-16 [20], các tác gi£ ã

§t ˜Òc nh˙ng k∏t qu£ ¶y h˘a hµn trên t™p d˙ liªu ICDAR-13 [13] Cách ti∏p c™nnày ã s˚ dˆng kˇ thu™t hÂc chuy∫n giao b¨ng cách s˚ dˆng mô hình ˜Òc ào t§otr˜Óc trên bÎ d˙ liªu Pascal-VOC [28]

Trong nghiên c˘u [29] các tác gi£ ã tri∫n khai ph˜Ïng pháp phát hiªn Ëi t˜Òng

Á ho§ trong v´n b£n bao gÁm các Ëi t˜Òng là công th˘c và b£ng, s˚ dˆng mÎt kˇthu™t tÍng hÒp cıa Fast R-CNN [25] và Faster R-CNN [5] Các tác gi£ ã k∏t hÒpcác ∑ xußt khu v¸c thu ˜Òc t¯ Fast R-CNN [25] và Faster R-CNN [5] và sau ó áp

Trang 26

dˆng hÁi quy hÎp giÓi h§n ∫ t´ng hiªu qu£, ph˜Ïng pháp ã ˜Òc ánh giá trên bÎd˙ liªu ICDAR-17 POD [15].

Hình 2.8: Ki∏n trúc cıa Mask R-CNN [6]

Mask R-CNN [6] là ph˜Ïng pháp nh™n diªn Ëi t˜Òng ˜Òc c£i ti∏n t¯ mô hìnhFaster R-CNN [5] vÓi viªc bÍ sung thêm hàm mßt mát phân o§n Hình 2.8 mô t£ki∏n trúc cÏ b£n cıa Mask R-CNN [6] Các Ëi t˜Òng Á hÂa trong các v´n b£n tàiliªu có ph˜Ïng sai gi˙a các lÓp rßt thßp MÎt Ëi t˜Òng ban ¶u ˜Òc g≠n nhãn làmÎt b£ng có th∫ dπ dàng b‡ hi∫u sai vÓi mÎt hình ho∞c công th˘c B¨ng cách t™ndˆng s¸ mßt phân o§n cıa Mask R-CNN [6], các tác gi£ ã c£i thiªn hiªu sußt cıa

hª thËng phát hiªn Ëi t˜Òng Á hÂa Trong bài báo [30] các tác gi£ ∑ xußt ph˜Ïngpháp phát hiªn Ëi t˜Òng Á hÂa trong £nh tài liªu thông qua viªc s˚ dˆng MaskR-CNN [6] Các tác gi£ ∑ xußt r¨ng không c¶n thêm các b˜Óc ti∑n x˚ l˛ và h™u x˚ l˛hình £nh B¨ng cách t™n dˆng s˘c m§nh cıa viªc hÂc chuy∫n giao (transfer learning),các tác gi£ so sánh hiªu n´ng nh™n diªn Ëi t˜Òng trên các bÎ d˙ liªu nÍi ti∏ng cıaICDAR-17 POD [15], UNLV [18] và ICDAR-13 [13]

MÎt ph˜Ïng pháp khác là CDeC-Net [31] t™n dˆng m§ng l˜Ói phát hiªn Ëit˜Òng Cascade Mask R-CNN d¸a trên Cascade R-CNN [32] Nghiên c˘u [31] ã chothßy mÎt s¸ c£i thiªn áng chú ˛ trong hiªu sußt cıa hª thËng phát hiªn b£ng Sau

Trang 27

khi ánh giá kˇ càng, các tác gi£ ã k∏t lu™n r¨ng m§ng Cascade Mask R-CNN [31]v˜Òt trÎi hÏn so vÓi các hª thËng phát hiªn b£ng tr˜Óc ây.

2.3.3 Ph˜Ïng pháp ti∏p c™n d¸a trên l™p trình Îng

Trong bài báo [23] các tác gi£ ã giÓi thiªu cách ti∏p c™n phát hiªn Ëi t˜Òng Á hÂad¸a trên hÂc sâu t˜Ïng t¸ nh˜ các thu™t toán phát hiªn Ëi t˜Òng Ph˜Ïng pháp nàys˚ dˆng m§ng nÏ-ron tích ch™p ∫ phát hiªn Ëi t˜Òng Á ho§ t§i các vùng ˘ng viên

˜Òc ∑ xußt ˜Òc tinh chønh thông qua ph˜Ïng pháp l™p trình Îng thay vì ph˜Ïngpháp triªt tiêu không tËi a (Non-maximum suppression-NMS) [33]

B£ng, hình minh ho§, công th˘c và dòng v´n b£n ˜Òc b£n ‡a hóa trong hình

£nh tài liªu bi hª thËng cıa chúng Các tác gi£ l™p lu™n r¨ng các Ëi t˜Òng trang cóph˜Ïng sai cao v∑ t lª khung hình cıa chúng, không giËng nh˜ các Ëi t˜Òng tronghình £nh phong c£nh t¸ nhiên Do ó, tính n´ng triªt tiêu không tËi a không phùhÒp ∫ phát hiªn tßt c£ các Ëi t˜Òng Á hÂa trong hình £nh tài liªu So sánh k∏t qu£vÓi cách ti∏p c™n phát hiªn Ëi t˜Òng thông th˜Ìng cıa Fast R-CNN [25] và FasterR-CNN [5], các tác gi£ ã k∏t lu™n r¨ng ph˜Ïng pháp d¸a trên l™p trình Îng ã v˜ÒttrÎi hÏn so vÓi các ph˜Ïng pháp còn l§i

2.4 Hª thËng tìm ki∏m hình £nh d¸a trên nÎi dung

Hª thËng tìm ki∏m hình £nh d¸a trên nÎi dung là mÎt hª thËng cho phép nh™n ¶uvào t¯ ng˜Ìi dùng là mÎt £nh và s≥ tr£ v∑ k∏t qu£ là mÎt danh sách các £nh trong ónÎi dung cıa £nh k∏t qu£ tr£ v∑ s≥ giËng ho∞c g¶n giËng vÓi £nh ˜Òc tìm ki∏m MÎtvài nh˙ng ví dˆ i∫n hình có th∫ k∫ ∏n nh˜ google tìm ki∏m hình £nh Các nghiênc˘u v∑ hª thËng tím ki∏m hình £nh d¸a trên nÎi dung [34] [35] [36] [37] [38] [39] [40]

ã có nhi∑u nh˙ng phát tri∫n và c£i ti∏n v∑ nhi∑u m∞t Các ph˜Ïng pháp trích xußtthuÎc tính ˜Òc s˚ dˆng trong các hª thËng tìm ki∏m hình £nh cÙng rßt a d§ng.– Trích xußt ∞c tr˜ng d¸a theo các ph˜Ïng pháp cÍ i∫n Các ph˜Ïngpháp trích xußt thuÎc tính theo cách cÍ i∫n này a ph¶n xußt hiªn t¯ tr˜Óc

Trang 28

nh˙ng n´m 2011 Trong bài báo [37], các tác gi£ s˚ dˆng ba lo§i ∞c tr˜ng ó là:(color co-occurrence matrix -CCM), (difference between pixels of scan pattern-DBPSP), (color histogram for K-mean - CHKM) K∏t qu£ khi so sánh ph˜Ïngpháp cıa [37] [34] [41] trên bÎ d˙ liªu 1000 £nh cıa 10 lÓp Ëi t˜Òng[37] chothßy ph˜Ïng pháp tËt nhßt là [37] chø §t ˜Òc 72,7%.

– Trích xußt ∞c tr˜ng d¸a trên các m§ng hÂc sâu Các ph˜Ïng pháp aph¶n s˚ dˆng m§ng t¸ Îng mã hóa (autoencoders) và m§ng nÏ ron tích ch™p Cóth∫ k∫ ∏n mÎt vài ph˜Ïng pháp nh˜ Deep Autoencoder [42], Deep Multi-ViewHashing (DMVH) [43], Online Multimodal Deep Similarity Learning (OMDSL)[44], Deep Ranking Model [45]

– Trích xußt ∞c tr˜ng d¸a trên m§ng transformer Trong bài báo [40], cáctác gi£ ã giÓi thiªu mô hình (Image Retrieval Transformers - IRT) trong ó

có so sánh các cách th˘c khác nhau khi s˚ dˆng model ViT Trong ó mô hìnhIRTR vÓi ∞c tr˜ng ¶u ra ˜Òc i∑u ti∏t ã thu ˜Òc k∏t qu£ tËt nhßt Trongbài báo [46] các tác gi£ ã s˚ dˆng mô hình ViT ˜Òc hußn luyªn ∫ làm b˜Óctrích xußt ∞c tr˜ng Các k∏t qu£ khi s˚ dˆng ph˜Ïng pháp [46] khá tËt 88%vÓi bÎ dataset INRIA [47] và PARIS6K [48] Các tác gi£ cÙng nêu ra nh˙ng ˜ui∫m cıa m§ng ViT là luôn sÆn sàng s˚ dˆng, không c¶n i∑u chønh ho∞c hußnluyªn l§i tham sË

Trang 29

Ch˜Ïng 3

Ph˜Ïng pháp nh™n d§ng Ëi t˜Òng Á hÂa trong £nh v´n b£n

3.1 Ph˜Ïng pháp nh™n d§ng Ëi t˜Òng Á hÂa Ïn

nhãn

VÓi các ph˜Ïng pháp xác ‡nh Ëi t˜Òng Á hÂa trong £nh v´n b£n Ïn thu¶n ã

˜Òc k∫ ∏n trong Ch˜Ïng 2 v¯a rÁi chúng ta thßy r¨ng s≥ chø c¶n mÎt mô hìnhnh™n d§ng Ëi t˜Òng duy nhßt K∏t qu£ tr£ v∑ cıa mô hình s≥ là v‡ trí cıa Ëi t˜Òng

và tên lo§i cıa Ëi t˜Òng Á hÂa ó Nh˜ng vÓi các mô hình này chúng ta c¶n ph£i

có bÎ d˙ liªu bao gÁm các hÎp giÓi h§n và tên nhãn ˘ng vÓi t¯ng hÎp giÓi h§n mÎt

∫ có th∫ chu©n b‡ các bÎ d˙ liªu nh˜ này s≥ mßt rßt nhi∑u công s˘c ∫ gán nhãn

Do v™y chúng tôi s˚ dˆng mÎt ph˜Ïng pháp mÓi gÂi là ph˜Ïng pháp nh™n diªn Ëit˜Òng Á hÂa Ïn nhãn

Viªc chu©n b‡ bÎ d˙ liªu ∫ hußn luyªn cho mô hình bây giÌ s≥ ˜Òc rút gÂnmÎt b˜Óc là gán nhãn v∑ lo§i Ëi t˜Òng cho t¯ng hÎp giÓi h§n Các Ëi t˜Òng Á hÂa

Trang 30

bây giÌ ∑u s≥ chung mÎt nhãn gÂi là “ Ëi t˜Òng” Và ˜a bÎ d˙ liªu này vào ∫ hußnluyªn mô hình phát hiªn Ëi t˜Òng B˜Óc còn l§i là phân lo§i các lo§i Ëi t˜Òng s≥ c¶nchu©n b‡ mÎt bÎ d˙ liªu v∑ các lo§i Ëi t˜Òng Á hÂa nh˜ng sË l˜Òng £nh c¶n chu©nb‡ mÈi lÓp s≥ không c¶n toàn bÎ mà chø c¶n mÎt vài £nh mÈi lÓp.

Hình 3.1: Mô hình chung cıa ph˜Ïng pháp nh™n d§ng các Ëi t˜Òng Á hÂa Ïn nhãn

Ph˜Ïng pháp nh™n d§ng các Ëi t˜Òng Á hÂa Ïn nhãn ˜Òc mô t£ các b˜Ócnh˜ trong Hình 3.1 Trong ó ¶u vào s≥ là mÎt v´n b£n ˜Òc i qua b˜Óc phát hiªn

Ëi t˜Òng ∫ tr£ v∑ v‡ trí các Ëi t˜Òng Á hÂa T¯ các v‡ trí ó ta s≥ lßy ra các £nh

Trang 31

và ˜Òc qua b˜Óc phân lo§i các Ëi t˜Òng Á hÂa và tr£ v∑ tên cıa các lo§i Ëi t˜Òng

Á hÂa ó Hª thËng s˚ dˆng hai mô hình chính ó là mô hình xác ‡nh v‡ trí các Ëit˜Òng Á hÂa và mô hình trích xußt thuÎc tính cıa £nh

3.1.1 Ph˜Ïng pháp s˚ dˆng m§ng tích ch™p cho b˜Óc phát

hiªn Ëi t˜Òng Á hÂa trong £nh v´n b£n

Hình 3.2: Ki∏n trúc cıa FCNN trong nghiên c˘u [7]

Cùng vÓi các thu™t toán phát hiªn Ëi t˜Òng, m§ng nÏ ron tích ch™p ¶y ı(Fully Convolutional Neural Networks - FCNN) [24] ã ˜Òc s˚ dˆng ∫ gi£i quy∏tbài toán phát hiªn Ëi t˜Òng Á hÂa trong £nh v´n b£n CÏ ch∏ FCNN [24] là gánnhãn cho mÈi pixel có trong mÎt hình £nh Hình 3.2 mô t£ ki∏n trúc cıa FCNN [24],trong nghiên c˘u [49] các tác gi£ coi r¨ng bài toán nh™n diªn các Ëi t˜Òng Á ho§ s≥t˜Ïng t¸ nh˜ các bài toán nh™n diªn thông th˜Ìng Các tác gi£ ∑ xußt r¨ng mÈi lÓp

Ëi t˜Òng có th∫ ˜Òc coi riêng biªt ∫ phân lo§i các lÓp ó hª thËng s˚ dˆng FCNN[24] trong ó mÈi pixel s≥ ˜Òc phân lo§i thành b£ng, bi∫u Á ho∞c n∑n trong £nh tàiliªu B£n Á chı th∫ chính thu ˜Òc s≥ ˜Òc truy∑n thêm tÓi lÓp CRF (ConditionalRandom Field) [24] giúp làm m‡n ¶u ra cıa hª thËng

Ngoài ra ph˜Ïng pháp nh™n d§ng v™t th∫ không th∫ thi∏u ó là YOLO [8] là mÎtm§ng hÂc sâu k∏t hÒp gi˙a lÓp tích ch™p và các lÓp k∏t nËi ¶y ı Có th∫ nói ây là

Ngày đăng: 23/03/2022, 15:45

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w