Giới thiệu bài toán phát hiện và nhận dạng công thức toán học trong tài liệu định dạng ảnhCông thức toán học đã được sử dụng từ lâu trong cuộc sống của con người.. Kết quả nhận dạng công
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
BÙI HẢI PHONG
NGHIÊN CỨU NÂNG CAO HIỆU QUẢ PHÁT HIỆN CÔNG THỨC TOÁN HỌC TRONG ẢNH VĂN BẢN
Ngành: Khoa học máy tính
Mã số: 9480101
TÓM TẮT LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH
Hà Nội −2021
Trang 2Công trình này được hoàn thành tại:
Trường Đại học Bách Khoa Hà Nội
Người hướng dẫn khoa học:
Vào hồi giờ , ngày tháng năm 2021
Có thể tìm hiểu luận án tại thư viện:
1 Thư viện Tạ Quang Bửu - Trường ĐHBK Hà Nội
2 Thư viện Quốc gia Việt Nam
Trang 3Giới thiệu bài toán phát hiện và nhận dạng công thức toán học trong tài liệu định dạng ảnh
Công thức toán học đã được sử dụng từ lâu trong cuộc sống của con người Công thứctoán học có thể được định nghĩa là sự kết hợp chặt chẽ, hữu hạn các ký hiệu toán học theongữ cảnh [5] Các luật kết hợp các ký hiệu toán học phụ thuộc vào những ngữ cảnh nhất định.Công thức toán học thường chứa các biến, phép toán, hàm, các ký hiệu đặc biệt (dấu ngoặc,dấu chấm) Các thành phần của công thức toán học được kết hợp dựa trên các thứ tự và tuântheo ngữ pháp nhất định Trong tài liệu, công thức toán học được chia thành hai loại: côngthức độc lập và công thức nội tuyến Công thức độc lập xuất hiện trên một dòng văn bảnriêng biệt trong khi đó, công thức nội tuyến xuất hiện trên cùng một dòng với kí tự văn bảnthông thường Phát hiện công thức độc lập đã thu được nhiều kết quả tích cực, tuy vậy, pháthiện công thức nội tuyến vẫn là một thách thức và đang tiếp tục được nghiên cứu rộng rãi.Phát hiện công thức hướng tới xác định vị trí công thức trong tài liệu khoa học Trongkhi đó, nhận dạng công thức toán học nhằm chuyển đổi công thức từ định dạng ảnh sang địnhdạng chuỗi ký tự và biểu diễn chuỗi ký tự dưới một định dạng nhất định (trong luận án này,kết quả nhận dạng được biểu diễn dưới dạng Latex) Hình 1 minh họa quá trình phát hiện
và nhận dạng công thức trong tài liệu ảnh Kết quả phát hiện và nhận dạng công thức có mốiquan hệ chặt chẽ Việc phát hiện chính xác công thức giúp nhận dạng công thức chính xác.Ngược lại, các lỗi trong quá trình phát hiện công thức có thể gây ra lỗi trong quá trình nhậndạng
Phạm vi nghiên cứu của luận án như sau:
Trang 4Hình 1 Ví dụ minh họa phát hiện (a) và nhận dạng (b) công thức toán học trong tài liệudạng ảnh Công thức độc lập và công thức nội tuyến được đánh dấu bằng các hình chữ nhậtmàu đỏ và xanh Kết quả nhận dạng công thức và biểu diễn bằng Latex (c).
(1) Trên thực tế, công thức toán học rất đa dạng và được sử dụng trong nhiều lĩnh vựckhoa học khác nhau, luận án nghiên cứu phương pháp phát hiện và nhận dạng công thức toánhọc (không phải là công thức vật lý, hóa học) trong tài liệu khoa học Trong các tài liệu này,công thức thường được biểu diễn dưới một số định dạng như chữ in đậm, in nghiêng Kíchthước của công thức nằm trong các đoạn văn bản, không vượt quá lề của tài liệu Các côngthức không nằm trong các thành phần khác của tài liệu như bảng, hình vẽ
(2) Độ chính xác của phát hiện và nhận dạng công thức phụ thuộc nhiều vào chất lượngtài liệu ảnh đầu vào Luận án này đi sâu nghiên cứu phương pháp phát hiện và nhận dạngcông thức trong tài liệu in, thẳng (không nghiêng, cong) có độ phân giải cao
(3) Luận án phát hiện các công thức trong tài liệu khoa học và biểu diễn các công thứcđược phát hiện bằng các hình chữ nhật bao quanh công thức Sau đó, các công thức đượcnhận dạng và biểu diễn nhờ định dạng Latex [4]
Những khó khăn, thách thức chính trong việc nhận dạng công thức toán học như sau:(1) Cho tới nay, hàng trăm kí tự toán học được sử dụng trong công thức toán học Việcnhận dạng chính xác một số lượng lớn các kí tự toán học là một thách thức lớn Một số kí tự
có thể chứa một hoặc nhiều thành phần (ví dụ các kí tự ’i’, ‘j’, ‘=’) Trong khi đó, một số kí
tự toán học phức tạp có thể chứa các kí tự khác (ví dụ √
a ) (2) Một số kí tự toán học cóvai trò khác nhau tùy theo ngữ cảnh (3) Một số kí tự toán học có thể được biểu diễn mộtcách tường minh hoặc có thể hiểu ngầm tùy theo các kí tự đi kèm (4) Cũng như ngôn ngữ tựnhiên, kí hiệu toán học rất đa dạng và có tính chất địa phương Do đó, luận án chỉ tập trungnghiên cứu phương pháp nhận dạng một số lượng nhất định các công thức toán học
Trang 5án đề xuất một phương pháp phát hiện công thức một cách tích hợp Phương pháp này gồmhai bước chính Bước thứ nhất áp dụng phương pháp biến đổi ảnh dựa trên khoảng cách đểchuyển đối ảnh tài liệu từ đen trắng sang ảnh màu Phép biến đổi này nhằm tận dụng cácthông tin khác nhau về hiển thị của công thức, qua đó giúp nhận dạng công thức chính xáchơn Bước thứ hai áp dụng và tối ưu mạng học sâu tiên tiến Faster R-CNN nhằm phát hiệncông thức trong ảnh sau khi biến đổi một cách chính xác (3) Luận án kết hợp và tối ưu cácmạng học sâu mới trong việc phát hiện và nhận dạng công thức toán học Cụ thể, các côngthức được phát hiện trong tài liệu dựa trên mạng Faster R-CNN Sau đó, các công thức nàyđược nhận dạng dựa trên mạng học sâu theo cấu trúc Mã hóa-Giải mã.
Cấu trúc của luận án
Chương "Giới thiệu"trình bày mục tiêu, giới hạn của luận án cũng như những khó khăncủa bài toán phát hiện và nhận dạng công thức toán học Chương 1 giới thiệu, phân tích một
số phương pháp liên quan trong phát hiện và nhận dạng công thức Chương 2 đề xuất mô hìnhlai cho phép kết hợp giữa kỹ thuật trích chọn đặc trưng thủ công và trích chọn đặc trưng tựđộng dựa trên các mô hình học sâu tiên tiến Phương pháp lai này cùng với một số chiến lượcphân tích trang tài liệu đã nâng cao độ chính xác của phát hiện công thức toán học Chương
3 đề xuất phương pháp tích hợp để tiếp tục nâng cao độ chính xác trong phát hiện công thức.Chương 4 đề xuất phương pháp kết hợp giữa phát hiện và nhận dạng công thức toán học dựatrên các mô hình học sâu tiên tiến Chương kết luận trình bày tóm tắt các đóng góp của luận
án và đưa ra các hướng phát triển tiếp theo
CHƯƠNG 1
Nghiên cứu liên quan
Chương này nghiên cứu các phương pháp chính liên quan tới phát hiện và nhận dạngcông thức toán học trong tài liệu ảnh Các ưu, nhược điểm của các phương pháp được phântích Từ đó, những đề xuất, cài tiến chất lượng phát hiện và nhận dạng công thức được đưa
ra trong các chương tiếp theo
Trang 61.1 Các kỹ thuật phân tích trang tài liệu
Các phương pháp truyền thống giải quyết bài toán phát hiện công thức toán học dựatrên hai bước [9]: phân tích trang tài liệu và phát hiện công thức dựa trên kết quả phân tíchtrang Phân tích trang tài liệu là kỹ thuật được sử dụng để phân vùng tài liệu thành các vùngđồng nhất về cấu trúc [17] Trong những năm gần đây, phân tích trang tài liệu thu hút đượcnhiều nhà nghiên cứu trên thế giới Trước hết, các trang tài liệu được tiền xử lý để nâng caochất lượng Các kỹ thuật tiền xử lý thường gặp như: lọc nhiễu, loại bỏ góc nghiêng, cong củatài liệu Sau đó, các kỹ thuật phân tích trang tài liệu được áp dụng bao gồm: kỹ thuật phântích từ dưới lên, phân tích từ trên xuống, phân tích dựa trên độ phân giải khác nhau và kỹthuật lai [15] Trong những năm gần đây, các mạng học sâu được áp dụng để phân tích trangtài liệu Ưu điểm của các mạng học sâu là có thể phân tích các tài liệu có cấu trúc đa dạngkhác nhau [16]
1.2 Phát hiện công thức trong tài liệu ảnh
Phát hiện công thức toán học trong tài liệu ảnh đã được nghiên cứu từ nhiều năm Cácphương pháp có thể được chia thành ba loại chính: phương pháp sử dụng luật, phương pháp
sử dụng trích chọn đặc trưng thủ công và phương pháp sử dụng các mạng học sâu
1.2.1 Phát hiện công thức dựa trên luật
Trong những nghiên cứu đầu tiên về phát hiện công thức trong tài liệu ảnh, các luật đượcđưa ra để phát hiện công thức [6, 18] Các luật được đưa ra dựa trên sự khác nhau về hìnhthái học, biểu diễn công thức so với văn bản thông thường Các phương pháp này thườngđược áp dụng để phát hiện công thức trong một số trường hợp đặc biệt Phương pháp nàygặp nhiều lỗi sai trong phát hiện công thức trong tài liệu có cấu trúc phức tạp
1.2.2 Phát hiện công thức dựa trên trích chọn đặc trưng thủ công
Các đặc trưng của công thức được trích chọn, thiết kế thủ công để phát hiện công thứctrong tài liệu ảnh Bảng 1.1 tổng hợp một số đặc trưng cơ bản được thiết kế để phát hiệncông thức độc lập Bên cạnh đó, các đặc trưng khác được thiết kế để phát hiện công thứcnội tuyến Bảng 1.2 tổng hợp các đặc trưng được thiết kế để phát hiện công thức nội tuyến.Sau khi trích chọn đặc trưng, các bộ phân lớp như K láng giềng gần nhất hay Máy vec tơ hỗtrợ được áp dụng để phát hiện công thức Các phương pháp phát hiện công thức dựa trêntrích chọn đặc trưng thủ công cho độ chính xác cao với một số dữ liệu nhất định, tuy vậy, cácphương pháp phát hiện này cho hiệu quả thấp với công thức nội tuyến
Bảng 1.1 Các đặc trưng được sử dụng để phát hiện công thức độc lập
Đặc trưng Mô tả
Mật độ [12] Mật độ các điểm ảnh màu đen
Tỉ lệ chiều cao và chiều rộng [19] Tỉ lệ chiều cao và chiều rộng của dòng chữ
Căn lề trái, phải [12, 20] Căn lề của dòng chữ so với lề văn bản
Vị trí của kí tự [12] Thay đổi vị trí của kí tự trong công thức
Khoảng cách dòng [23] Khoảng cách với dòng trước và dòng sau
Trang 7Bảng 1.2 Các đặc trưng được sử dụng để phát hiện công thức nội tuyến
Đặc trưng Mô tả
Kí tự đặc biệt [13] Một từ có chứa kí tự đặc biệt hay không
Mật độ[12] Mật độ điểm ảnh màu đen
Tỉ lệ chiều cao/chiều rộng [12] Tỉ lệ chiều cao/chiều rộng của từ
Thay đổi vị trí của kí tự [12] Sự thay đổi vị trí của các kí tự trong một từ
Khoảng cách giữa các kí tự [23] Khoảng cách giữa các kí tự trong từ
1.2.3 Phát hiện công thức toán học dựa trên các mạng học sâu
Trong những năm gần đây, kỹ thuật học sâu cho thấy hiệu quả vượt trội trong phát hiện
và nhận dạng công thức Nghiên cứu [21] áp dụng kiến trúc mạng U-net trong phát hiện côngthức Sau khi phát hiện, kỹ thuật hậu xử lý được áp dụng để nâng cao độ chính xác trongphát hiện công thức Mạng U-net được huấn luyện trên tập dữ liệu khoa học đa dạng để nângcao hiệu quả phát hiện công thức Độ chính xác đạt được cho phát hiện công thức theo các độ
đo "precision"và "recall"lần lượt là 95.2% và 91% trên cơ sở dữ liệu dùng chung GTDB Mặc
dù nghiên cứu này cho kết quả phát hiện kí tự toán học chính xác, nhưng trong quá trìnhphát hiện công thức, nghiên cứu này chưa xử lý tốt việc xây dựng cấu trúc của công thức đầy
đủ Ngoài ra, nghiên cứu [22] phát hiện công thức dựa trên các cấu trúc mạng nơ ron SSD-512
và YOLOv3
1.3 Nhận dạng công thức
1.3.1 Các phương pháp truyền thống trong nhận dạng công thức
Nhận dạng công thức toán học đã được nghiên cứu từ những năm 1960 Đây là lĩnh vựcthu hút được nhiều sự chú ý nhưng cũng vô cùng thử thách Các phương pháp truyền thốngnhận dạng công thức toán học thường gồm 3 bước: phân vùng kí tự, nhận dạng kí tự và phântích cấu trúc tài liệu Nghiên cứu [1] tổng hợp nhiều phương pháp khác nhau để giải quyếtbài toán nhận dạng công thức Các phương pháp phân vùng kí tự thường dựa trên phân tíchcác thành phần liên tục của kí tự hoặc dựa trên hình chiếu của kí tự Các phương pháp nàythường gặp khó khăn trong phân vùng kí tự lớn có chứa các kí tự con (ví dụ kí tự căn bậchai, tính tổng) hoặc các kí tự liền kề nhau Các phương pháp nhận dạng kí tự được nghiêncứu dựa trên các đặc trưng của các kí tự kết hợp với các bộ phân lớp học máy So với phânvùng và nhận dạng kí tự, bước phân tích cấu trúc công thức là khó khăn nhất Một số cấutrúc thường dùng để giải quyết bài toán phân tích cấu trúc toán học như: cấu trúc cây, đồthị, văn phạm phi ngữ cảnh
Như vậy, các phương pháp truyền thống để nhận dạng công thức đã được nghiên cứu từnhiều năm Các phương pháp này thường có những nhược điểm chính sau: (1) Độ chính xácnhận dạng công thức toán học còn thấp Bất kỳ lỗi nào gặp phải trong quá trình phân vùng,nhận dạng kí tự hay phân tích cấu trúc kí tự đều dẫn đến kết quả nhận dạng sai (2) Việctrích chọn đặc trưng thủ công cho một số lượng lớn kí tự toán học tốn rất nhiều thời gian vàcông sức (3) Rất khó đánh giá, so sánh độ chính xác trong nhận dạng của các phương pháp
Trang 8đề xuất vì các phương pháp này thử nghiệm trên các tập dữ liệu khác nhau.
1.3.2 Nhận dạng công thức toán học sử dụng các mạng Nơ ron
Trong những năm gần đây, các mạng học sâu được áp dụng một cách hiệu quả trongnhận dạng công thức toán học Nghiên cứu [24] áp dụng mạng nơ ron tích chập và mạng hồiquy để nhận dạng công thức toán học được chụp bằng camera Một số mô hình dựa trên mạngEncoder-Decoder[25] được đưa ra để nhận dạng công thức toán học Ý tưởng chính của mạngnày là sử dụng mạng nơ ron tích chập để trích chọn đặc trưng tự động của ảnh công thức.Sau đó, bộ giải mã áp dụng cấu trúc mạng hồi quy để giải mã các đặc trưng này thành kếtquả nhận dạng công thức Từ mô hình mạng Encoder-Decoder, một số kỹ thuật được tiếp tụccải tiến để nâng cao chất lượng nhận dạng công thức Nghiên cứu [3] đưa ra cơ chế học tăngcường dựa trên mẫu chữ viết tay và chữ in để nâng cao độ chính xác nhận công thức So vớicác phương pháp truyền thống, phương pháp nhận dạng dựa trên học sâu cho độ chính xáccao hơn đối với các công thức toán học lớn, phức tạp
1.4 Cơ sở dữ liệu và độ đo đánh giá hệ thống
1.4.1 Cơ sở dữ liệu
Một số phương pháp đã có đánh giá độ chính xác của bài toán phát hiện và nhận dạngcông thức toán học trên các cơ sở dữ liệu cá nhân có kích thước nhỏ Để có đánh giá rõ ràng
và so sánh được các phương pháp đã có, luận án thực hiện các thử nghiệm trên các bộ cơ sở
dữ liệu dùng chung trên thế giới là cơ sở dữ liệu Marmot [11] và GTDB [21] So với cơ sở dữliệu Marmot, cơ sở dữ liệu GTDB lớn hơn, thách thức hơn về số lượng, kích thước công thức.Thông tin so sánh giữa hai cơ sở dữ liệu được mô tả trong bảng 1.3
Bảng 1.3 Thông tin về cơ sở dữ liệu Marmot và GTDB
Huấn luyện Thử nghiệm Huấn luyện Thử nghiệm
Số trang tài liệu 569 236 330 70
Số lượng công thức độc lập 4218 2488 1322 253
Số lượng công thức nội tuyến 22178 9397 6951 956
Số công thức trung bình/1 trang 47.55 23.70
1.4.2 Độ đo đánh giá hiệu năng hệ thống
Hai độ đo phổ biến được áp dụng để đánh giá hiệu năng hệ thống phát hiện công thức
Độ đo thứ nhất là Precision (P), Recall (R) và F1 score Độ đo thứ hai được sử dụng là độ
đo IoU (Intersection over Union) Độ đo IoU thường được áp dụng trong bài toán phát hiệnđối tượng
Trong khi đó, hai độ đo về tỉ lệ lỗi ký tự (WER) và tỉ lệ lỗi nhận dạng công thức (ExpRate)được áp dụng để đánh giá độ chính xác của hệ thống nhận dạng công thức Độ đo (ExpRate)
là tỉ lệ số lượng công thức nhận dạng đúng hoàn toàn so với tổng số công thức có trong cơ sở
dữ liệu Độ đo (WER) được tính theo tỉ lệ giữa số lượng kí tự cần thay đổi (thêm, sửa, xóa)
Trang 9để thu được chuỗi chính xác biểu diễn công thức và tổng số kí tự của chuỗi biểu diễn côngthức.
CHƯƠNG 2
Phát hiện công thức sử dụng phương pháp kết hợp giữa trích chọn đặc trưng thủ công và các mạng học sâu
2.1 Giới thiệu phương pháp
Tài liệu khoa học thường bao gồm nhiều thành phần khác nhau như: bảng, hình vẽ, kí
tự và công thức toán học Các phương pháp truyền thống phát hiện công thức dựa trên hai
kỹ thuật chính: phân tích trang tài liệu và trích chọn đặc trưng thủ công Các phương pháptruyền thống thường cho kết quả phát hiện công thức thấp đối với các tài liệu có cấu trúcphức tạp Do đó, chương này trình bày phương pháp kết hợp giữa trích chọn đặc trưng thủcông và kỹ thuật học sâu tiên tiến nhằm nâng cao độ chính xác phát hiện công thức toán học.Hình 2.1 minh họa các bước của phương pháp Đầu vào của phương pháp là hình ảnh tài liệuđen trắng Kỹ thuật phân tích trang tài liệu dựa trên phép chiếu được thực hiện để tách dòngtài liệu (text lines) Các công thức độc lập được phát hiện từ các dòng tài liệu thu được Cácdòng tài liệu không phải là công thức độc lập được tách thành các từ (word) Các công thứcnội tuyến được phát hiện từ các từ Cuối cùng, kỹ thuật hậu xử lý được áp dụng để nâng cao
độ chính xác trong phát hiện công thức
Hình 2.1 Sơ đồ khối của hệ thống phát hiện công thức toán học
Trang 102.2 Phân tích trang tài liệu
Công thức và văn bản trong tài liệu được biểu diễn từ trên xuống dưới và từ trái sangphải, do vậy, kĩ thuật phân tích trang tài liệu dựa trên hình chiếu ngang và hình chiếu dọcđược áp dụng [8] Hình chiếu ngang và hình chiếu dọc của ảnh cho biết sự phân bố của cácđiểm ảnh theo hai chiều, do đó, đây là kĩ thuật đơn giản và phù hợp cho phân tích cấu trúctài liệu Mục tiêu của quá trình phân tích trang tài liệu là để lấy ra các dòng văn bản và các
từ Dựa trên các dòng và các từ đã lấy được từ trang tài liệu, công thức độc lập và công thứcnội tuyến sẽ được phát hiện
2.3 Phát hiện công thức dựa trên phương pháp trích chọn đặc trưng
2.3.1 Phát hiện công thức độc lập dựa trên trích chọn đặc trưng thủ côngMật độ và khoảng cách giữa các kí tự của công thức độc lập thường khác so với các kí tựvăn bản thông thường Do đó, để làm nổi bật đặc trưng này, các dòng văn bản được chuyểnđổi sang miền tần số nhờ biến đổi Fast Fourier Transform (FFT)
Trang 11Cho ảnh a có kích thước M × N , biến đổi FFT [7] của ảnh này được tính dựa trên côngthức sau:
A(Ω, ψ) =
MXm=1
NXn=1a(m, n)e−j(Ωm+ψn) (2.1)
Trong đó, A(Ω, ψ) là giá trị biến đổi thu được trong miền tần số nhờ áp dụng biến đổiFFT Sau quá trình biến đổi sang miền tần số, thành phần tần số và biên độ của biến đổiFFT thu được sẽ được sử dụng làm đặc trưng để phát hiện công thức độc lập
Để nâng cao độ chính xác của phát hiện công thức độc lập, các bộ phân lớp khác nhaubao gồm Máy vectơ hỗ trợ (SVM), k láng giềng gần nhất (KNN), cây quyết định (Decisiontree) và rừng ngẫu nhiên (Random Forest) được huấn luyện, tinh chỉnh Các bộ phân lớp nàyđược sử dụng kết hợp với các đặc trưng thu được để nâng cao độ chính xác trong phát hiệncông thức độc lập
2.3.2 Phát hiện công thức nội tuyến dựa trên trích chọn đặc trưng thủ côngSau khi phát hiện công thức độc lập, các dòng không phải là công thức độc lập đượcphân vùng thành các từ (word) Các từ thu được sẽ được tiếp tục phân loại để phát hiện côngthức nội tuyến Công thức nội tuyến thường chứa ít kí tự toán học và thường được biểu diễnnghiêng Để phát hiện công thức nội tuyến, luận án đề xuất phương pháp trích chọn đặc trưngdựa trên phép chiếu của ảnh công thức nội tuyến Trong phương pháp này, trước hết, hìnhchiếu theo phương ngang và phương dọc của ảnh công thức được tính toán Sau đó, phươngpháp tìm những điểm cực đại và cực tiểu của các hình chiếu Các điểm cực trị này phân bốgần đúng theo phân bố chuẩn (Gaussian), do đó, các tham số của phân bố chuẩn được sửdụng làm các đặc trưng của hình chiếu của công thức Như vậy, vectơ đặc trưng để phát hiệncông thức nội tuyến sẽ bao gồm những giá trị như sau:
(1) Số lượng các cực đại địa phương của các hình chiếu ngang và hình chiếu dọc của ảnhcác từ (word)
(2) Giá trị trung bình của các cực đại địa phương của các hình chiếu ngang, dọc
(3) Độ lệch chuẩn của các cực đại địa phương
(4) Số lượng các cực tiểu địa phương của các hình chiếu ngang và hình chiếu dọc của ảnhcác từ (word)
(5) Giá trị trung bình của các cực tiểu địa phương của các hình chiếu ngang, dọc.(6) Độ lệch chuẩn của các cực tiểu địa phương
Với ảnh có kích thước m × n, độ phức tạp của giải thuật trích chọn đặc trưng lần lượt làO(m) và O(n) áp dụng cho hình chiếu ngang và hình chiếu dọc của ảnh Giải thuật tập trunglấy đặc trưng của các điểm cực trị của hình chiếu trên mỗi chiều của ảnh thay vì lấy đặc trưng
Trang 12của toàn bộ ảnh, do đó hiệu năng của giải thuật tốt hơn hơn so với các phương pháp tríchchọn đặc trưng đã có trên toàn bộ ảnh.
Hình 2.3 Sơ đồ khối phát hiện công thức sử dụng các mạng nơ ron tích chập
Để nâng cao độ chính xác của phát hiện công thức độc lập, các bộ phân lớp khác nhaubao gồm Máy vectơ hỗ trợ (SVM), k láng giềng gần nhất (KNN), cây quyết định (Decisiontree) và rừng ngẫu nhiên (Random Forest) được huấn luyện, tinh chỉnh Các bộ phân lớp nàyđược sử dụng kết hợp với các đặc trưng thu được để nâng cao độ chính xác trong phát hiệncông thức độc lập
2.4 Phát hiện công thức sử dụng các mạng nơ ron tích chập
So với các phương pháp trích chọn đặc trưng thủ công, các mạng nơ ron tích chập chohiệu quả cao hơn trong phát hiện công thức Trong luận án này, hai mạng nơ ron tích chậpphổ biến là Alexnet và Resnet được áp dụng để tăng độ chính xác trong phát hiện công thức
So với mạng Alexnet, mạng Resnet có cấu trúc phức tạp hơn và cho khả năng phát hiện côngthức chính xác hơn
Hình 2.3 minh họa các bước phát hiện công thức toán học dựa trên các mạng nơ ron tíchchập Khác với phương pháp trích chọn đặc trưng thủ công, các mạng nơ ron tích chập học tựđộng một số lượng lớn các đặc trưng của ảnh công thức Nhờ vậy mà các đặc trưng khác biệtgiữa công thức và văn bản được học tự động một cách hiệu quả mà không phụ thuộc nhiềuvào sự quan sát của người dùng Sau quá trình học tự động, sự phân loại công thức được thựchiện ở lớp softmax
Trang 132.5 Phát hiện công thức dựa trên kết hợp muộn giữa phương pháp
trích chọn đặc trưng thủ công và sử dụng các mạng nơ ron tích chập
Hình 2.4 Sơ đồ khối của phát hiện công thức dựa trên kết hợp muộn giữa phương pháp tríchchọn đặc trưng thủ công và sử dụng các mạng nơ ron tích chập
Trong những năm gần đây, chiến lược kết hợp nhiều mô hình cho hiệu quả cao trong pháthiện và phân loại đối tượng Luận án nghiên cứu và áp dụng phương pháp kết hợp muộn giữakết quả dự đoán công thức đầu ra của các bộ phân lớp học máy (SVM, kNN, cây quyết định,rừng ngẫu nhiên) và kết quả dự đoán của lớp softmax của các mạng nơ ron tích chập Sơ đồkhối 2.4 mô tả chi tiết quá trình kết hợp muộn trong phát hiện công thức
2.6 Kỹ thuật hậu xử lý trong phát hiện công thức
Trong phát hiện công thức, một số công thức lớn thường bị tách thành nhiều dòng Do
đó, nhằm nâng cao độ chính xác trong phát hiện công thức, luận án áp dụng phương pháp