1. Trang chủ
  2. » Luận Văn - Báo Cáo

(Luận văn thạc sĩ) Nghiên cứu bài toán bóc tác thông tin trong chứng minh thư sử dụng học sâu

57 49 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 57
Dung lượng 4,38 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

(Luận văn thạc sĩ) Nghiên cứu bài toán bóc tác thông tin trong chứng minh thư sử dụng học sâu(Luận văn thạc sĩ) Nghiên cứu bài toán bóc tác thông tin trong chứng minh thư sử dụng học sâu(Luận văn thạc sĩ) Nghiên cứu bài toán bóc tác thông tin trong chứng minh thư sử dụng học sâu(Luận văn thạc sĩ) Nghiên cứu bài toán bóc tác thông tin trong chứng minh thư sử dụng học sâu(Luận văn thạc sĩ) Nghiên cứu bài toán bóc tác thông tin trong chứng minh thư sử dụng học sâu(Luận văn thạc sĩ) Nghiên cứu bài toán bóc tác thông tin trong chứng minh thư sử dụng học sâu(Luận văn thạc sĩ) Nghiên cứu bài toán bóc tác thông tin trong chứng minh thư sử dụng học sâu(Luận văn thạc sĩ) Nghiên cứu bài toán bóc tác thông tin trong chứng minh thư sử dụng học sâu(Luận văn thạc sĩ) Nghiên cứu bài toán bóc tác thông tin trong chứng minh thư sử dụng học sâu(Luận văn thạc sĩ) Nghiên cứu bài toán bóc tác thông tin trong chứng minh thư sử dụng học sâu(Luận văn thạc sĩ) Nghiên cứu bài toán bóc tác thông tin trong chứng minh thư sử dụng học sâu(Luận văn thạc sĩ) Nghiên cứu bài toán bóc tác thông tin trong chứng minh thư sử dụng học sâu(Luận văn thạc sĩ) Nghiên cứu bài toán bóc tác thông tin trong chứng minh thư sử dụng học sâu(Luận văn thạc sĩ) Nghiên cứu bài toán bóc tác thông tin trong chứng minh thư sử dụng học sâu(Luận văn thạc sĩ) Nghiên cứu bài toán bóc tác thông tin trong chứng minh thư sử dụng học sâu(Luận văn thạc sĩ) Nghiên cứu bài toán bóc tác thông tin trong chứng minh thư sử dụng học sâu(Luận văn thạc sĩ) Nghiên cứu bài toán bóc tác thông tin trong chứng minh thư sử dụng học sâu(Luận văn thạc sĩ) Nghiên cứu bài toán bóc tác thông tin trong chứng minh thư sử dụng học sâu(Luận văn thạc sĩ) Nghiên cứu bài toán bóc tác thông tin trong chứng minh thư sử dụng học sâu(Luận văn thạc sĩ) Nghiên cứu bài toán bóc tác thông tin trong chứng minh thư sử dụng học sâu(Luận văn thạc sĩ) Nghiên cứu bài toán bóc tác thông tin trong chứng minh thư sử dụng học sâu(Luận văn thạc sĩ) Nghiên cứu bài toán bóc tác thông tin trong chứng minh thư sử dụng học sâu(Luận văn thạc sĩ) Nghiên cứu bài toán bóc tác thông tin trong chứng minh thư sử dụng học sâu(Luận văn thạc sĩ) Nghiên cứu bài toán bóc tác thông tin trong chứng minh thư sử dụng học sâu(Luận văn thạc sĩ) Nghiên cứu bài toán bóc tác thông tin trong chứng minh thư sử dụng học sâu

Trang 1

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ

Trang 2

2

BỘ GIÁO DỤC

VÀ ĐÀO TẠO

VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ

LUẬN VĂN THẠC SĨ NGÀNH MÁY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC :

PGS.TS NGÔ QUỐC TẠO

Hà Nội – 2021

Trang 3

3

LỜI CAM ĐOAN

Tôi là Phạm Văn Dương, học viên khóa 2019B, ngành Máy tính, chuyên ngành

Hệ thống thông tin Tôi xin cam đoan luận văn “Nghiên cứu bài toán bóc tách thông tin trong chứng minh thư sử dụng học sâu” là do tôi nghiên cứu, tìm

hiểu và phát triển dưới sự hướng dẫn của PGS.TS Ngô Quốc Tạo, không phải sự sao chép từ các tài liệu, công trình nghiên cứu của người khác mà không ghi rõ trong tài liệu tham khảo Tôi xin chịu trách nhiệm về lời cam đoan này

Hà Nội, ngày tháng năm 2021

Tác giả

Phạm Văn Dương

Trang 4

4

LỜI CẢM ƠN

Lời cảm ơn trân trọng đầu tiên Tôi muốn dành tới các thầy cô Học viện khoa học và công nghệ Việt Nam, Viện công nghệ thông tin, Viện Hàn lâm khoa học và công nghệ Việt Nam nói chung và các thầy cô trong bộ môn Hệ thống thông tin cũng như khoa Công nghệ thông tin nói riêng đã tận tình giảng dạy và truyền đạt nhưng kiến thức quý báu trong suốt khoá cao học vừa qua, giúp tôi có nhưng kiến thức chuyên môn nền tảng để làm cơ sở lý luận khoa học cho luận văn này

Đặc biệt Tôi xin chân thành cảm ơn thầy PGS.TS Ngô Quốc Tạo đã dìu dắt và hướng dẫn tôi trong suốt quá trình làm luận văn, sự chỉ bảo và định hướng của thầy giúp tôi tự tin nghiên cứu nhưng vấn đề mới và giải quyết bài toán một cách khoa học

Tôi xin trân trọng cảm ơn Ban giám hiệu Học viện khoa học công nghệ Việt Nam - Viện Hàn lâm khoa học và công nghệ Việt Nam đã tạo các điều kiện cho tôi được học tập và làm luận văn một cách thuận lợi

Tôi xin cảm ơn sự hỗ trợ của nhiệm vụ: “Hỗ trợ hoạt động nghiên cứu khoa học cho nghiên cứu viên cao cấp năm 2021” mã số: nvcc02.01/21-21 của Viện Hàn lâm Khoa học và Công nghệ Việt Nam (VAST), Hà Nội, Việt Nam

Mặc dù đã cố gắng rất nhiều, nhưng chắc chắn trong quá trình học tập cũng như luận văn không khỏi nhưng thiết sót Tôi rất mong được sự thông cảm và chỉ bảo tận tình của các thầy cô và các bạn

Hà Nội, ngày tháng năm 2021

Phạm Văn Dương

Trang 5

5

MỤC LỤC

DANH MỤC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT 7

DANH MỤC HÌNH VẼ VÀ ĐỒ THỊ 8

MỞ ĐẦU 10

CHƯƠNG 1 TỔNG QUAN VỀ PHÁT HIỆN, NHẬN DẠNG KÝ TỰ, SỰ PHÁT TRIỂN CỦA HỌC MÁY VÀ HỌC SÂU 12

1.1 Tổng quan về phát hiện và nhận dạng ký tự 12

1.2 Sự phát triển của học máy và học sâu 13

1.3 Kết luận chương 17

CHƯƠNG 2 GIỚI THIỆU VỀ MẠNG CONVOLUTION NEURAL NETWORK 18

2.1 Giới thiệu sơ lược về CNN 18

2.2 Convolution Layer – Tầng Tích Chập 18

2.3 Strides – Bước nhảy 20

2.4 Padding – Đệm 21

2.5 Non Linearity (ReLU) – Phi tuyến tính 21

2.6 Pooling Layer – Tầng gộp 22

2.7 Full Connected Layer – Tầng kết nối đầy đủ 23

2.8 Kết luận chương 23

CHƯƠNG 3 MÔ HÌNH MẠNG PIXELLINK CHO PHÁT HIỆN VĂN BẢN 24

3.1 Cấu trúc mạng 24

3.2 Kết nối các điểm ảnh 27

3.3 Tối ưu 27

3.3.1 Tính toán vùng chính xác 27

3.3.2 Hàm mất mát 28

3.4 Chuẩn bị dữ liệu và đào tạo 30

3.4.1 Chuẩn bị dữ liệu 30

3.4.2 Dữ liệu thật: 31

3.4.3 Dữ liệu được sinh ra 32

3.4.4 Tiền xử lý dữ liệu: 33

Trang 6

6

3.4.5 Quá trình đào tạo 34

3.4.6 Tối ưu: 34

3.4.7 Kết quả đạt được: 35

3.4.8 Hạn chế của mô hình 35

3.5 Kết luận chương 36

CHƯƠNG 4 GIỚI THIỆU VỀ CONVOLUTION RECURRENT NEURAL NETWORK 37

4.1 Giới thiệu bài toán và lợi thế của CRNN 37

4.2 Cấu trúc 38

4.3 Tầng trích xuất đặc trưng chuỗi 39

4.4 Gán nhãn trình tự 39

4.5 Tầng Transcription 45

4.6 Hàm mất mát 47

4.7 Tóm tắt cấu trúc mô hình 48

4.7.1 Cách tạo dữ liệu và đào tạo 49

4.7.2 Dữ liệu thật 49

4.7.3 Dữ liệu sinh 49

4.7.4 Hạn chế của mô hình 49

4.8 Kết luận chương 50

CHƯƠNG 5: CÀI ĐẶT THỬ NGHIỆM VÀ KẾT QUẢ 51

5.1 Bài toán 51

5.2 Mô hình giải quyết bài toán 51

5.3 Môi trường cài đặt 52

5.4 Dữ liệu kiểm thử 52

5.5 Kết quả thực nghiệm 53

KẾT LUẬN 55

TÀI LIỆU THAM KHẢO 57

Trang 7

7

DANH MỤC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT

CNN Convolutional Neural Network Mạng nơ-ron tích chập RNN Recurrent Neural Nework Mạng nơ-ron hồi quy CRNN Convolutional Recurrent

Neural Nework

Mạng nơ-ron hồi quy xoắn

LSTM Long Short-term Memory Bộ nhớ ngắn hạn dài

AI Artifical Intelligence Trí tuệ nhân tạo

OCR Optical Character Recognition Nhận dạng ký tự quang

học

Trang 8

8

DANH MỤC HÌNH VẼ VÀ ĐỒ THỊ

Hình 1.0.1 Quá trình nhận dạng 10

Hình 1.0.2 Mối quan hệ giưa AI, ML, DL 11

Hình 1.0.3 Các giai đoạn của AI 12

Hình 2.0.1 Mô hình CNN sử dụng cho bài toán phân loại 14

Hình 2.0.2 Nhân ma trận ảnh với bộ lọc 15

Hình 2.0.3 Ma trận và bộ lọc 15

Hình 2.0.4 Kết quả thực hiện phép nhân 15

Hình 2.0.5 Đầu ra của ma trận có bước nhảy là hai 16

Hình 2.0.6 Hoạt động của hàm ReLU 17

Hình 2.0.7 Max Pooling 17

Hình 2.0.8 Mô tả tầng kết nối đầy đủ 18

Hình 3.0.1 Mô hình mạng VGG16 20

Hình 3.0.2 Quá trình của Pixellink 21

Hình 3.0.3 Các hộp với diện tích khác nhau 23

Hình 3.0.4 Hình minh họa của quá trình xác định hộp 25

Hình 3.0.5 Dữ liệu sinh ra 27

Hình 3.0.6 Nhãn của dữ liệu sinh 28

Hình 3.0.7 Hàm mất mát của phân loại mỗi điểm ảnh 29

Hình 3.8 hàm mất mát liên kết 29

Hình 3.0.9 Hình kết quả của mô hình Pixellink 29

Hình 3.0.10 Hình miêu tả sự hạn chế 30

Hình 4.0.1 Cấu trúc mạng CRNN 32

Hình 4.0.2 Mô hình RNN 33

Hình 4.0.3 Cấu trúc mạng LSTM 34

Hình 4.0.4 Hình minh họa thông tin được truyền đi 35

Hình 4.0.5 Tầng mạng và phép nhân 35

Trang 9

9

Hình 4.0.6 Hình minh họa cổng quên 36

Hình 4.0.7 Hình mô tả cập nhật khối 37

Hình 4.0.8 Hình mô tả quá trình cập nhật trạng thái mới 37

Hình 4.0.9 Hình mô tả qúa trình xác định đầu ra 45

Hình 4.0.10 Hình mình họa chọn các giá trị có xác suất cao nhất 47

Hình 4.0.11 Hình mình họa chọn các giá trị có xác suất cao nhất 49

Hình 5.0.1 Giao diện chương trình khi truy cập 52

Hình 5.0.2 Giao diện chương trình khi tải ảnh CMT thành công 52

Hình 5.0.3 Giao diện chương trình sau khi ra kết quả 53

Trang 10

10

MỞ ĐẦU

Nhận dạng mẫu là một ngành khoa học của học máy (hay trí tuệ nhân tạo) nhằm phân loại dữ liệu (các mẫu) vào một số lớp Mẫu có thể là bất kỳ thực thể nào cần được nhận ra, ví dụ: chữ in, chữ viết tay, vân tay, khuôn mặt, tiếng nói, hình dạng,… Cùng với sự phát triển của khoa học kỹ thuật, các ứng dụng của nhận dạng mẫu ngày càng được mở rộng, từ việc tự động hoá một số quy trình trong sản xuất công nghiệp cho đến dự báo thời tiết, dự báo cháy rừng hay là một phần quan trọng trong các hệ thống máy tính thông minh…

Một trong những ứng dụng phổ biến của nhận dạng mẫu hiện nay là phân tích

và nhận dạng ảnh tài liệu (có nguồn gốc từ hệ thống nhận dạng ký tự quang học), nhằm số hoá các trang tài liệu giấy như sách, báo, tạp chí,… Cho đến nay, bài toán phân tích và nhận dạng ảnh tài liệu đã được giải quyết gần như trọn vẹn và cũng đã

có những sản phẩm thương mại, như VnDOCR của Viện công nghệ thông tin hay FineReader của hãng ABBYY,…

Bên cạnh lớp bài toán phân tích và nhận dạng ảnh tài liệu một cách tổng quát ở trên còn có lớp bài toán riêng biệt cho từng ngành, từng lĩnh vực cụ thể, như: phân tích và nhận dạng bảng biểu, phiếu điều tra, mẫu điền thông tin, danh thiếp, hộ chiếu,… Đối với lớp bài toán này thì việc phân tích cấu trúc của ảnh tài liệu là đặc biệt quan trọng, bởi vì nó sẽ quyết định đến việc tách và nhận dạng chính xác các trường thông tin cần thiết cho từng ứng dụng cụ thể

Trên thế giới đã có nhiều sản phẩm phần mềm phân tích và nhận dạng ảnh thẻ chứa thông tin cá nhân (như hộ chiếu, danh thiếp,…) và được ứng dụng trong nhiều lĩnh vực, như: làm thủ tục hải quan, các giao dịch ở các cửa hàng, khách sạn,… Ở Việt Nam loại thẻ chứa thông tin các nhân được sử dụng nhiểu nhất là Giấy chứng minh nhân dân (CMND) Do đó, trong luận văn này, tôi xin đề xuất một phương pháp phân tích ảnh CMND dựa trên việc phân tích và nhận dạng biểu mẫu với kỹ thuật xử

lý hình ảnh thông minh

Trang 31

31

Dữ liệu để train với Pixellink được chia thành hai phần đó là dữ liệu tự gán nhãn và

dữ liệu được sinh ra

3.4.2 Dữ liệu thật:

Từ các ảnh, sử dụng công cụ là phần mềm LabelImg để xác định hộp cho các chuỗi, phần mềm này ứng với mỗi ảnh sẽ sinh ra một tệp có định dạng *.xml tương ứng, từ tệp *.xml mình chuyển về định dạng mong muốn đầu vào của mạng và lưu dưới tệp định dạng txt

Chú ý: Nếu quá trình xác định hộp cho dữ liệu thật mà nội dung của hộp đó không thể xác định bằng mắt thường thì được xem là nhiễu, khi đó nội dung đó được gán nhãn là ###, để quá trình đào tạo ở mạng lúc tính toán mất mát sẽ xem nhưng hộp đó

có chi phí bằng 0, sẽ không ảnh hưởng đến quá trình cập nhật trên các bộ tham số của mô hình Dưới đây là hình ảnh minh họa của quá trình xác định hộp cũng như gán nhãn cho hộp

Hình 3.0.4 Hình minh họa của quá trình xác định hộp

Trang 32

32

Mỗi tệp tin có định dạng *.txt có cấu trúc như sau:

Mỗi hàng ứng với mỗi hộp tương ứng trên hình đã được đánh nhãn hộp, tám phần tử đầu tiên từ trái sang phải lần lượt là tọa độ của các hộp tương ứng, phần tử sau cùng là nội dung của hộp đó chứa Việc dánh nhãn nội dung ứng với tầng hộp sẽ

có thể tái sử dụng cho quá trình đào tạo mạng nhận dạng

3.4.3 Dữ liệu được sinh ra

Bởi vì sự hạn chế của dữ liệu thật, cũng như là thời gian đánh hộp dữ liệu, qua tìm hiểu thì để sinh dữ liệu có nhưng mạng nỗi tiếng như GAN, nhưng do một số hạn chế nên sử dụng các kỹ thuật trong xử lý ảnh để tạo ra dữ liệu, nó được thực hiện một cách tự động từ việc sinh nội dung và gán nhãn nội dung cho tầng hộp Sau đây tôi trình bày tầng bước trong quá trình sinh dữ liệu của mình

Cần có các phông chữ hỗ trợ ngôn ngư mình muốn nhận dạng và phát hiện, cụ thể nếu ngôn ngư là tiếng Việt thì sử dụng các phông hỗ trợ tiếng Việt, và các nền mình muốn sinh dữ liệu lên đó, và một bộ từ điển

Và dữ liệu thật sẽ không bao giờ là sạch, chúng sẽ chứa nhiễu, cũng như tác động bởi môi trường bên ngoài như ánh sáng, chất lượng hình ảnh đầu vào khác nhau

Bước 1: Sử dụng kỹ thuật xử lý ảnh để sinh các chuỗi chứa trong từ điển lên nền

mong muốn

Trang 33

33

Bước 2: Áp dụng các kỹ thuật xử lý ảnh để tạo các hiệu ứng, mô phỏng các hiệu ứng

giống với dữ liệu thật

Bước 3: Xác định vùng hộp cho các chuỗi được sinh ra và lưu dưới định dạng là tệp

.txt Tệp này có cấu trúc nội dung giống như cấu trúc tệp txt của dữ liệu thật

Dưới đây là mẫu của dữ liệu sinh gồm ảnh và nội dung tệp txt tương ứng

Trang 34

34

thường chứa nhiễu nên chúng ta cần tiền xử lý trước khi đưa vào mạng để đào tạo, một số cách được áp dụng cho tiền xử lý như sau

• Sử dụng bộ lọc Gaussian, bộ lọc median để bỏ nhiễu

• Loại nhưng hộp có diện tích bé

3.4.5 Quá trình đào tạo

• Dữ liệu thật 500 mẫu, dữ liệu sinh 1000 mẫu và đào tạo trong 72h

3.4.6 Tối ưu:

• Sử dụng SGD với momentum là: 0.9 và weight decay là 0.0005

• Tốc độ học được gán bằng 0.001 cho 100 vòng lặp đầu, sau đó được gán bằng 0.01

Dưới đây cấu hình máy cho quá trình đào tạo:

• Máy tính xách tay/Laptop Geforce GTX 1060, core i5, bộ nhớ RAM 8,0 GB

Hình 3.0.7 Hàm mất mát của phân loại mỗi điểm ảnh

Trang 35

• Thực hiện xác định hộp trên các ảnh có kích thước lớn mất nhiều thời gian

Trang 36

36

• Ảnh đầu vào có kích thước bé nhưng để phù hợp với kích đầu vào của mạng, cần biến đổi kích thước về chuẩn Như vậy ảnh sẽ dễ bị vỡ và kết quả không tốt

3.5 Kết luận chương

Trong chương 3 luận văn đề cập đến thuật toán Pixellink đây là một thuật toán sử dụng học sâu, thuật toán để xác định và phát hiện văn bản Thuật tóa Pixellink thực hiện gán nhãn ở mức độ cụm sử dụng hai cơ chế đó lf phân loại các điểm ảnh và tính số điểm ảnh liên kết giũa các điểm ảnh kề nó

Trang 37

37

CHƯƠNG 4 GIỚI THIỆU VỀ CONVOLUTION RECURRENT NEURAL

NETWORK 4.1 Giới thiệu bài toán và lợi thế của CRNN

Nếu muốn máy tính nhận dạng văn bản, NN là một lựa chọn tốt hơn tất cả các cách tiếp cận khác tại thời điểm hiện tại, Sử dụng NN ở đây là bao gồm CNN để trích xuất các đặc trưng chuỗi và sử dụng RNN để thu được thông tin qua đặc trưng chuỗi

đó

Nhận dạng chuỗi ký tự trên ảnh được nghiên cứu từ lâu, mạng CRNN giải quyết vấn đề nhận dạng các ký tự trên bức ảnh, bài toán này là một trong những thách thức và rất quan trọng trong nhận dạng chuỗi các ký tự trên các hình ảnh bài toán này khác nhiều so với bài toán nhận dạng đối tượng tổng quát, bài toán nhận dạng chuỗi thường yêu cầu hệ thống dự đoán một chuỗi của các nhãn, thay vì một nhãn đơn lẻ Vậy có thể xem nhận dạng đối tượng là một phần của bài toán nhận dạng chuỗi, một trong những thuộc tính chuỗi đó là độ dài chuỗi thay đổi khác nhau Như

từ "ok" có độ dài là 2 kí tự nhưng từ " congratulation " có độ dài lên tới mười lăm kí

tự như vậy nhưng kiến trúc mạng nổi tiếng như Deep Convolution Neural Networks (DCNN) không thể áp dụng trực tiếp cho bài toán này

Vì đầu vào của mạng trên có chiều của đầu vào và đầu ra cố định Trong khi

đó nhãn của chuỗi có độ dài thay đổi Do vậy, mô hình Recurrent neural networks (RNN) ra đời, nhằm giải quyết bài toán có tính chất chuỗi Một trong nhưng lợi thế của RNN đó là không cần biết vị trí chính xác của các phần tử của chuỗi trong ảnh trong lúc đào tạo cũng như kiểm tra Nhưng ở bước tiền xửa lý phải chuyển ảnh đầu vào có kích thước chiều cao cố định Như vậy sự kết hợp của DCNN [8] và RNN tạo nên cấu trúc CRNN [9], Vậy nên mạng CRNN [9] có những lợi thế hơn các cấu trúc khác đó là:

• Có thể học trực tiếp chuỗi mà không cần chính xác vị trí của các phần tử trong chuỗi

Trang 38

38

• Trích xuất trực tiếp đặc trưng từ ảnh không yêu cầu xử lý thủ công cũng như tiền xử lý

• Có tính chất của RNN có thể sinh ra một chuỗi của các đối tượng

• Không bị ràng buộc bởi độ dài của chuỗi, chỉ yêu cầu chuẩn hóa về chiều cao trong cả hai quá trình đào tạo và kiểm tra

• Cần ít tham số hơn mạng DCNN [8] tiêu chuẩn, tiêu tốn bộ nhớ ít hơn

Trang 39

39

Tầng transcription là tầng cao nhất của CRNN, nhiệm vụ chuyển từ các đặc trưng của tầng recurrent trước đó về dạng chuỗi

4.3 Tầng trích xuất đặc trưng chuỗi

Đặc trưng của một bức ảnh là một thành phần rất quan trọng, trích xuất đặc trưng là một bước bản lề cho các bước sau của thuật toán Hiện nay sự phát triển của

DL trong đó có mạng CNN, là một mạng khá nổi tiếng để trích xuất đặc trưng từ bức ảnh Ở mô hình mạng CRNN [9] là sự kết hợp của mạng CNN và mạng RNN, dựa vào cấu trúc mạng, dễ nhận thấy rằng đã sử dụng CNN để trích xuất đặc trưng

Ở tầng dưới cùng ở hình 4.0.1, thành phần bao gồm các convolutional và max-

pooling và bỏ đi tầng kết nối đầy đủ, tầng trích xuất đặc trưng sử dụng để trích xuất

đặc trưng chuỗi trên ảnh đầu và trước khi đưa vào mạng thì các ảnh đầu vào phải đưa

về cùng chiều cao Bởi vì mỗi véc tơ đặc trưng phải cùng số chiều với nhau, sau đó

các véc tơ của đặc trưng chuỗi được trích xuất từ feature maps là đầu vào của tầng

tiếp theo Cụ thể, mỗi véc tơ từ trái sang phải theo cột, nghĩa là véc tơ thứ 𝑖 là sự nối

nhau của các cột thứ i của tất các feature maps, độ rộng của mỗi cột là một điểm ảnh

Vì sử dụng max-pooling nên mỗi cột của feature maps tương ứng là các hình chữ

nhật trên ảnh gốc (trên trường tiếp nhận) Dễ nhận ra, mỗi véc tơ của đặc trưng chuỗi

là một hình chữ nhật đó trên ảnh gốc

4.4 Gán nhãn trình tự

Một bidirectional Recurrent Neural Network được xây dựng trên đỉnh của các tầng

Convolutinal, được xem như tầng recurrent, tầng recurrent có nhiệm vụ dự đoán một phân phối 𝑦𝑡 cho mỗi frame của chuỗi đặc trưng 𝑋 = 𝑥1, … … 𝑥𝑇 Những lợi thế của tầng recurrent là:

• Mô hình RNN có khả năng mạnh mẽ trong lưu giư nội dung dạng chuỗi

• Xử lý trên nội dung chuỗi là phù hợp và hưu dụng hơn nhiều so với xử lý trên tầng kí tự riêng lẻ Bởi vì ví dụ như nhận dạng chuỗi trên bức ảnh thì việc xác định tầng kí tự rất khó khăn và khi ấy có nhiều trường sẽ dễ bị nhầm lẫn giưa các kí tự đơn lẻ ví dụ như chữ cái “i” và chữ cái “l”

Ngày đăng: 29/03/2022, 09:12

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w