Tổng quan về phân tích cấu trúc hình học trang ảnh tài liệu 1 1.1 Các thành phần chính của hệ thống nhận dạng văn bản.. Từ viết tắt Từ gốc Giải thích nghĩaAOSM An adaptive over-split and
Trang 1VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
PHÂN TÍCH CẤU TRÚC HÌNH HỌC TRANG ẢNH TÀI LIỆU DỰA TRÊN PHƯƠNG PHÁP NGƯỠNG THÍCH NGHI
LUẬN ÁN TIẾN SỸ TOÁN HỌC
Hà Nội - 08/02/2018
Trang 2Tôi xin cam đoan luận án tiến sĩ "Phân tích cấu trúc hình học trang ảnh tàiliệu dựa trên phương pháp ngưỡng thích nghi" là một công trình nghiên cứu củariêng tôi Các số liệu và tài liệu trong luận án là trung thực và chưa được công bố trongbất kì công trình nghiên cứu nào Tất cả các tài liệu tham khảo đều được trích dẫn vàtham chiếu đầy đủ.
Hà Nội, ngày 08 tháng 02 năm 2018
Tác giả luận án
i
Trang 3Luận án Tiến sĩ được hoàn thiện bằng sự nỗ lực và nghiêm túc của tôi trong quátrình nghiên cứu, quá trình luôn được sự hỗ trợ, giúp đỡ tận tình của Thầy giáo hướngdẫn khoa học, Ban lãnh đạo Học viện Khoa học và Công nghệ, Ban lãnh đạo TrườngTHPT Chuyên Hạ Long - Quảng Ninh, các đồng nghiệp, các chuyên gia và các nhà khoahọc, bạn bè và những người thân trong gia đình tôi.
Trước tiên, xin trân trọng cảm ơn Thầy giáo hướng dẫn khoa học đã luôn dành sựnhiệt tình, ân cần, chỉ bảo và định hướng cho tôi trên con đường nghiên cứu khoa học
từ ngày đầu học tập và quá trình nghiên cứu trong những năm qua
Chân thành cảm ơn Học viện Khoa học và Công nghệ - Viện Hàn Lâm Khoa học vàCông Nghệ Việt Nam đã ủng hộ, giúp đỡ tôi trong quá trình học tập và nghiên cứu.Đặc biệt, tôi xin dành tặng tình cảm và sự biết ơn cao quý đến bạn bè và các thànhviên trong gia đình: Bố, mẹ, anh chị, vợ và hai con yêu quý đã chấp nhận nhiều hy sinhvất vả, luôn sát cánh cùng tôi trong cuộc sống, quá trình học tập nghiên cứu để tôi cóđược thành công này
ii
Trang 4Lời cam đoan i
Danh mục các hình vẽ vi
Chương 1 Tổng quan về phân tích cấu trúc hình học trang ảnh tài liệu 1
1.1 Các thành phần chính của hệ thống nhận dạng văn bản 1
1.1.1 Tiền xử lý 1
1.1.1.1 Nhị phân hóa 2
1.1.1.2 Phát hiện và phân loại các thành phần liên thông 3
1.1.1.3 Lọc nhiễu 4
1.1.1.4 Căn chỉnh độ nghiêng 4
1.1.2 Phân tích trang ảnh tài liệu 5
1.1.3 Nhận dạng kí tự quang học 7
1.1.4 Hậu xử lý 8
1.2 Các thuật toán phân tích cấu trúc hình học (phân tách) trang ảnh tài liệu tiêu biểu 9
1.2.1 Hướng tiếp cận từ trên xuống 9
1.2.2 Hướng tiếp cận từ dưới lên 9
1.2.3 Hướng tiếp cận lai ghép 11
1.2.4 Các thuật toán tiêu biểu 12
1.3 Các phương pháp và các tập dữ liệu đánh giá các thuật toán phân tách trang ảnh tài liệu 15
1.3.1 Độ đo F-Measure 16
1.3.2 Độ đo PSET 16
1.3.3 Độ đo PRImA 18
1.3.4 Dữ liệu 23
1.4 Vấn đề nghiên cứu, hướng tiếp cận và những đóng góp của luận án 26
1.5 Kết luận chương 27
iii
Trang 52.2 Bài toán phát hiện nền trang ảnh 29
2.2.1 Định nghĩa vùng trắng lớn nhất 29
2.2.2 Thuật toán tìm vùng trắng lớn nhất 32
2.2.3 Thuật toán phát hiện nền trang ảnh 34
2.3 Tăng tốc thuật toán phát hiện nền trang ảnh 34
2.4 Thuật toán WhiteSpace và Fast-WhiteSpace 36
2.4.1 Thuật toán WhiteSpace 36
2.4.2 Thuật toán Fast-WhiteSpace 37
2.5 Thực nghiệm và thảo luận 38
2.6 Kết luận chương 39
Chương 3 Thuật toán phân tách trang ảnh tài liệu HP2S và AOSM 42 3.1 Mô hình phân tách trang của hai thuật toán HP2S và AOSM 42
3.2 Thuật toán HP2S 44
3.2.1 Phát hiện các đường phân tách 44
3.2.2 Xác định các dòng chữ 45
3.2.3 Gom cụm các dòng chữ thành các vùng chữ 50
3.3 Thuật toán AOSM 52
3.3.1 Xác định các vùng chữ ứng cử viên 52
3.3.1.1 Phát hiện các đối tượng phân tách 52
3.3.1.2 Xác định biên của mỗi vùng chữ ứng cử viên 56
3.3.1.3 Gom các kí tự thành các dòng chữ ứng cử viên 58
3.3.2 Gom cụm các vùng chữ bị "tách quá" 59
3.3.2.1 Hạn chế của các phương pháp truyền thống 60
3.3.2.2 Phương pháp ngưỡng thích nghi 63
3.4 Thuật toán Fast-AOSM 65
3.5 Xác định các đoạn văn bản 67
3.5.1 Định nghĩa các dòng chữ phân tách 67
3.5.2 Tách các vùng chữ thuần nhất thành các đoạn văn bản 68
3.6 Thực nghiệm và thảo luận 70
3.6.1 Các thuật toán, tập dữ liệu và độ đo 70
3.6.2 Các kết quả thực nghiệm và thảo luận 72
3.7 Kết luận chương 82
Kết luận và hướng phát triển 85
Danh mục các công trình đã công bố của tác giả 88
iv
Trang 6Từ viết tắt Từ gốc Giải thích nghĩa
AOSM An adaptive over-split and
merge algorithm for pagesegmentation
Thuật toán phân tích trang táchquá và gom cụm bằng phươngpháp ngưỡng thích nghi
HP2S A hybrid paragraph-level
page segmentation
Một thuật toán lai ghép phân tíchtrang ảnh tài liệu ở cấp độ đoạnvăn bản
"tách quá" over segmentation Lỗi phân tích một vùng dữ liệu
chuẩn (được chuẩn bị sắn) thànhcác vùng nhỏ hơn
"gộp" under segmentation Lỗi gộp các vùng ảnh lại với nhautab-stop tab-stop Kí tự ở đầu hoặc cuối mỗi dòng
chữFRE FineReader Sản phẩm thương mại nhận dạng
văn bản của hãng ABBYY
TO Tesseract Open Source
OCR Engine
Bộ mã nguồn mở được phát triểnbởi tập đoàn công nghệ thông tinHP
ground-truth ground-truth các dòng chữ (vùng chữ) được
chuẩn bị sắn
v
Trang 71 Trang chủ của cuộc thi phân tích trang quốc tế các năm 2009, 2015 và 2017 xii
1.1 Các bước xử lý cơ bản của một hệ thống nhận dạng văn bản 2
1.2 Hệ thống nhận dạng VnDOCR.4.0 2
1.3 Một ví dụ xác định hình bao các thành phần liên thông 3
1.4 Minh họa trang ảnh tài liệu với nhiễu là những chấm nhỏ, những vệt dàiđen ở lề trang ảnh 4
1.5 Một ví dụ minh họa ảnh đầu vào bị nghiêng so với các trục tọa độ 5
1.6 Minh họa kết quả của quá trình phân tích trang 6
1.7 Minh họa các kết quả phân tích trang đúng và phân tích trang sai trêncùng một trang ảnh đầu vào Kết quả phân tích ở hình a), b) được xem
là phân tích đúng Kết quả phân tích ở hình c) có hai lỗi: lỗi gộp hai cộtvăn bản và lỗi gộp vùng chữ với vùng ảnh 6
1.8 Kết quả nhận dạng sai do phân tích trang sai a) kết quả phân tích trangsai, b) kết quả nhận dạng sai do vùng ảnh được xem như chữ 7
1.9 Kết quả nhận dạng sai do phân tích trang sai a) kết quả phân tích trangsai b) kết quả của quá trình nhận dạng đã trộn vùng chữ ở hai cột lại vớinhau 8
1.10 Minh họa một trường hợp phân tích lỗi của thuật toán WhiteSpace Dothuật toán không xử lý được những vùng ảnh có cấu trúc không phải hìnhchữ nhật nên mắc lỗi "tách quá" 10
1.11 Minh họa một trường hợp phân tích lỗi của thuật toán Docstrum Thuậttoán mắc lỗi "gộp" và lỗi "tách quá" do các ngưỡng khoảng cách khôngđược đánh giá đúng 10
1.12 Minh họa một trường hợp phân tích lỗi của thuật toán Tab-Stop Thuậttoán Tab-Stop mắc lỗi "gộp" do xác định thiêu đối tượng phân tách giữacác cột văn bản 11
1.13 a) Các thành phần liên thông được xác định từ thuật toán PAL b) Cácvùng trắng xen kẽ giữa các thành phần liên thông được xác định c), d)Các vùng trắng đã được lọc 14
1.14 Kết quả lọc các vùng trắng và dây chuyền các vùng trắng tạo thành cácphân tách giữa các cột văn bản, các dòng chữ được tạo thành 15
1.15 Các kiểu lỗi trong phân tách trang ảnh tài liệu được định nghĩa trong PSET 17
1.16 Công cụ đánh giá các thuật toán phân tách trang của thư viên PRImA(phiên bản 1.51) 18
1.17 Lỗi "gộp" vùng theo phương ngang và lỗi "gộp" vùng theo phương dọc,a) các kiểu lỗi, b) các vùng ảnh chuẩn của ảnh tương ứng 19
vi
Trang 81.19 Lỗi "quên/quên một phần" vùng ảnh, a) các kiểu lỗi, b) các vùng ảnh
chuẩn của ảnh tương ứng 20
1.20 Lỗi "phân loại sai" vùng ảnh, a) kiểu lỗi, b) các vùng ảnh chuẩn của ảnh tương ứng 21
1.21 Sự phụ thuộc của các kiểu lỗi vào các trọng số, a) 6 kiểu lỗi cơ bản của một cấu hình đánh giá, b) mỗi kiểu lỗi lại phụ thuộc vào một tập các trọng số 22
1.22 Một số ảnh minh họa của tập dữ liệu UWIII 24
1.23 Một số ảnh minh họa của tập dữ liệu PRImA 25
1.24 Một số ảnh minh họa của tập dữ liệu UNLV 26
2.1 Một trang ảnh có cấu trúc trang và cấu trúc nền đơn giản 30
2.2 Minh họa trường hợp các vùng chữ của trang ảnh được phân tách hoàn toàn dựa trên các vùng trắng nền trang ảnh a) các hình chữ nhật thể hiện cho các vùng trắng nền của trang ảnh, b) kết quả phân tách trang 30
2.3 Thời gian thực thi trung bình của các thuật toán tiêu biểu [TPAMI2008][62] 31 2.4 Hình chữ nhật có đường bao màu xanh thể hiển cho vùng trắng lớn nhất tìm được 31
2.5 Sơ đồ thuật toán tìm các vùng trắng lớn nhất 33
2.6 Mô tả bước chia trang ảnh thành bốn miền con của thuật toán tìm vùng trắng lớn nhất, (a) hình bao và các hình chữ nhật, (b) điểm chốt tìm được, (c, d) các miền con trái/phải và trên/dưới 34
2.7 Sơ đồ thuật toán tìm các vùng trắng bao phủ nền trang ảnh 35
2.8 Hạn chế dẫn đến làm giảm tốc độ thực thi của thuật toán WhiteSpace-Detection Miền ZCTR, ZCRT và các miền con của chúng sẽ được xét lại nhiều lần 36
2.9 Minh họa một trường hợp sinh các miền con của thuật toán WhiteS-paceDetection và thuật toán Fast-WhiteSWhiteS-paceDetection a) thuật toán WhiteSpaceDetection b) thuật toán Fast-WhiteSpaceDetection 37
2.10 Sơ đồ thuật toán WhiteSpace 38
2.11 Minh họa các bước của thuật toán WhiteSpace Hình a) thể hiện ảnh gốc đầu vào, b) thể hiện hình bao của các thành phần liên thông (CCs), c) các hình chữ nhật là các vùng trắng bao phủ nền của trang ảnh, d) các hình chữ nhật là các đối tượng phân tách ngang và dọc được sử dụng để phân đoạn trang ảnh thành các vùng, e) thể hiện kết quả của quá trình phân tách 39
2.12 Biểu đồ thể hiện thời gian thực thi trung bình của thuật toán WhiteSpace và Fast-WhiteSpace 40
2.13 Biểu đồ so sánh độ chính xác của thuật toán Fast-Whitespace với thuật toán WhiteSpace và các thuật toán phân tách trang tiên tiến hiện nay: Tab-stop và RAST 41
3.1 Mô hình chung của hai thuật toán HP2S và AOSM 43
3.2 Các bước chính của quá trình xác định các vùng chữ của thuật toán HP2S 44
vii
Trang 9được xét đến không phải là một tab−stop ứng cử viên 45
3.4 Minh họa những bước xác định các đường phân tách: a) ảnh đầu vào vớihình bao của các kí tự, b) tab−stop ứng cử viên, c) tab−stop, d) tab−stop
3.8 a) các dòng chữ ứng cử viên, b) trường hợp không tồn tại đường phântách, dw được sử dụng để tách các kí tự thành các dòng chữ 49
3.9 Lỗi quên gộp các kí tự gần kề vào dòng chữ a) các đường phân tách, b)các chỉ số bị tách ra khỏi các dòng chữ bởi các đường phân tách 49
3.10 a) minh họa các kí tự được gán nhãn m−tabs, b) minh họa các dòng chữđược phục hồi lại 50
3.11 a) Ảnh gốc, b) các đường phân tách, c) các vùng chữ được xác định 51
3.12 Minh họa khoảng cách theo phương ngang giữa hai dòng chữ linei và linej 51
3.13 Các bước chính của quá trình xác định các vùng chữ của thuật toán AOSM 52
3.14 Hình minh họa các phân tách vật lý, các tab−stop và cả các vùng trắngphân cách giữa các cột văn bản 53
3.15 Lỗi "gộp" bị gây ra do tham số "ngưỡng" khoảng cách không phù hợp chocác vùng khác nhau trên cùng một trang ảnh 54
3.16 Lỗi "gộp" bị gây ra do thuật toán theo hướng tiếp cận từ trên xuốngkhông xử lý được những vùng ảnh có cấu trúc "không phải hình chữ nhật" 55
3.17 Hình a) minh họa lỗi "gộp" bị gây ra bởi thuật toán RAST (thuật toánlai ghép) do xác định thiếu đường phân tách Hình b) minh họa lỗi "táchquá" bị gây ra bởi thuật toán PAL (thuật toán lai ghép) do xác định saicác đường phân tách 56
3.18 Các bước của giai đoạn 1: a) ảnh gốc đầu vào ; b) các hình chữ nhật thểhiện các vùng trắng nền tìm được ; c) kết quả của quá trình "đổ mực" ;d) các vùng chữ ứng cử viên 57
3.19 Minh họa các điểm được xem là điểm biên, điểm góc a) minh họa mộtđiểm với 8 lân cận của điểm đó Một điểm là điểm biên, nếu nó là điểmtrắng và 8 lân cận của nó có ít nhất một điểm đen b), c), d) Một điểm làđiểm góc nếu nó là điểm trắng và 8 lân cận của nó có 1 hoặc 5 điểm đenc), d) 58
3.20 Hình minh họa thuật toán Ray-Casting xác định điểm trong hoặc ngoài
đa giác 59
3.21 Các bước chính của quá trình gom cụm các kí tự thành các dòng chữ 60
viii
Trang 10UWIII-3.25 Chiều cao x −height được ước lượng trên một dòng chữ 64
3.26 Minh họa một trường hợp các dòng chữ được nhóm lại với nhau bằngphương pháp ngưỡng thích nghi 65
3.27 Kết quả của quá trình nhóm các dòng chữ bị "tách quá": a) các dòng chữ
bị "tách quá" ; b) kết quả sau khi gom cụm 65
3.28 Minh họa một trường hợp phân tách tốt của thuật toán Fast-AOSM chỉvới bước xác định và loại bỏ các vùng trắng a) các hình chữ nhật thể hiệncho các vùng trắng được phát hiện, b) kết quả phân tách 66
3.29 Dòng chữ liền trước (pre−line) và liền sau (next−line) của một dòng chữ(current−line) 67
3.30 Hình chữ nhật "nét đứt" thể hiện dòng chữ bắt đầu của một đoạn văn bản 67
3.31 Các chữ nhật "nét đứt" thể hiện các dòng chữ nằm phía trên a) và nằmphía dưới b) của các cột văn bản 68
3.32 Dòng chữ bắt đầu của một đoạn với "symbol" a), dòng chữ bắt đầu củamột tài liệu tham khảo b) 69
3.33 Các khối văn bản rất gần nhau Dòng chữ có hình bao là nét đứt nằm bắcngang qua hai cột văn bản có khoảng cách rất gần với các dòng chữ ở haicột bên dưới nó Các thuật toán truyền thống hầu hết thất bại trong tìnhhuống này và gây ra lỗi "gộp" 69
3.34 Tách các vùng chữ thuần nhất thành các đoạn văn bản: a) ảnh gốc, b) kếtquả phân tách không sử dụng các dòng chữ phân tách, c) các dòng chữ
"tô đậm" là các dòng chữ phân tách, d) các vùng chữ được tách ra do ápdụng các dòng chữ phân tách, e) kết quả phân tách cuối cùng 71
3.35 Độ chính xác của các thuật toán với độ đo PSET, tập dữ liệu UW-III andICDAR2009 73
3.36 Độ chính xác của các thuật toán với độ đo F-Measure và tập dữ liệuICDAR2009 74
3.37 Độ chính xác của thuật toán HP2S và AOSM so với các kết quả tốp đầu
đã được công bố tại cuộc thi ICDAR2009 [4] với độ đo PRImA và tập dữliệu ICDAR2009 74
3.38 Độ chính xác của thuật toán Fast-AOSM và các kết quả tốp đầu đã đượccông bố tại cuộc thi ICDAR2015 [9] với độ đo PRImA và tập dữ liệu củacuộc thi 75
3.39 Độ chính xác của thuật toán HP2S, Fast-AOSM, các hệ thống tốp đầutại cuộc thi phân tích trang năm 2015 (ICDAR2015), bộ mã nguồn mởTesseract-3.03 và Fine Reader 12 được thực nghiệm trên tập UNLV vớibốn ngữ cảnh khác nhau của độ đo PRImA 75
ix
Trang 113.41 So sánh các kiểu lỗi khác nhau khi thực hiện trên tập dữ liệu ICDAR2009
dataset với độ đo PSET 77
3.42 So sánh các kiểu lỗi của thuật toán Fast-AOSM với các thuật toán tốp đầu tại cuộc thi năm 2015 khi thực hiện trên tập dữ liệu ICDAR2015 dataset với ngữ cảnh OCR của độ đo PRImA 77
3.43 Kết quả thực hiện của thuật toán HP2S trên độ đo PSET-measure, tập dữ liệu ICDAR2009 với các giá trị khác nhau của θ 78
3.44 Kết quả thực hiện của thuật toán AOSM trên độ đo PSET-measure, tập dữ liệu ICDAR2009 với các giá trị khác nhau của θ 79
3.45 Thời gian thực thi trung bình của mỗi thuật toán khi thực hiện trên mỗi trang ảnh 79
3.46 Kết quả phân tách trên cùng ảnh PRImA-00000197 80
3.47 Kết quả phân tách trên cùng ảnh PRImA-00000781 81
3.48 Kết quả phân tách trên cùng ảnh PRImA-00000769 82
3.49 Kết quả phân tách trên cùng ảnh UWIII-A005 83
3.50 Minh họa một kết quả phân tích của cả hai thuật toán HP2S và Fast -AOSM trên cùng trang ảnh PRImA-00000801, a) kết quả phân tích của thuật toán HP2S, b) kết quả phân tích của thuật toán Fast - AOSM 84
x
Trang 12Tính cấp thiết của đề tài
Ngày nay với sự phát triển của công nghệ thông tin và nhu cầu ngày càng tăng đốivới truyền thông, nhu cầu giao tiếp, trao đổi, lưu trữ thông tin ở dưới dạng các tệp vănbản điện tử Hầu hết tài liệu của người dùng bây giờ đều đã được số hóa và được lưutrữ trên máy tính Việc số hóa đảm bảo tính an toàn và thuận tiện hơn hẳn so với sửdụng tài liệu giấy Mặc dù vậy, yêu cầu về các văn bản giấy vẫn không thay đổi Đã cónhiều cài tiến trong việc sử dụng các văn bản giấy và hầu hết mọi người vẫn thích đọcvăn bản giấy hơn đọc các văn bản điện tử, đặc biệt là khi đọc các văn bản khoa học,công văn, Tuy nhiên, việc sử dụng văn bản giấy thường mang đến những hạn chếnhư ; việc lưu trữ chúng sẽ rất rườm rà và tốn nhiều thời gian, đặc biệt là khi muốn sửachữa hay chỉ dùng lại một phần văn bản Vì vậy nhu cầu cấp thiết của con người là tạo
ra các máy trí tuệ nhận tạo có thể làm tốt những vấn đề này thay con người Vấn đềnày sẽ có thể được giải quyết nếu các văn bản giấy có thể được chuyển đổi một cách tựđộng thành các văn bản điện tử sao cho các máy có thể đọc và hiểu được thông tin Tuynhiên, nó không phải là một nhiệm vụ đơn gian để tự động chuyển đổi các văn bản giấythành các văn bản điện từ giữ nguyên định dạng Nhận dạng văn bản đã ra đời nhằmmục tiêu chuyển đổi tự động các văn bản ở dạng ảnh sang dạng tệp tin có thể dễ dànglưu trữ và chỉnh sửa Quá trình nhận dạng văn bản được thực hiện qua các bước chínhnhư sau: trang ảnh đầu vào sẽ qua bước tiền xử lý, sau đó là bước phân tích trang, đầu
ra của phân tích trang sẽ là đầu vào của bước nhận dạng, cuối cùng là bước hậu xử lý.Kết quả của một hệ thống nhận dạng phụ thuộc chính vào hai bước: phân tích trang vànhận dạng Đến thời điểm này, bài toán nhận dạng trên các văn bản chữ in đã được giảiquyết gần như trọn vẹn (sản phẩm thương mại FineReader 12.0 của hãng ABBYY cóthể nhận dạng chữ in trên nhiều ngôn ngữ khác nhau, phần mềm nhận dạng chữ Việt
in VnDOCR 4.0 của Viện Công nghệ Thông Tin Hà Nội có thể nhận dạng với độ chínhxác trên 98%) Tuy nhiên trên thế giới cũng như ở Việt Nam, bài toán phân tích trangvẫn còn là một thách thức lớn đối với các nhà nghiên cứu Cho đến nay phân tích trangvẫn đang nhận được sự quan tâm của nhiều nhà nghiên cứu Cứ hai năm một lần trênthế giới lại có cuộc thi phân tích trang quốc tế nhằm thúc đẩy sự phát triển các thuậttoán phân tích trang1 Chính những điều này đã là động lực thúc đẩy luận án cố gắngnghiên cứu để đề xuất các giải pháp hữu hiệu cho bài toán phân tích trang
xi
Trang 13(ICDAR2017)Hình 1 – Trang chủ của cuộc thi phân tích trang quốc tế các năm 2009, 2015 và 2017
xii
Trang 14Trong những năm gần đây đã có rất nhiều các thuật toán phân tích trang được pháttriển, đặc biệt là các thuật toán phát triển theo hướng tiếp cận lai ghép Các thuật toánđược đề xuất đều thể hiện những điểm mạnh, điểm yếu khác nhau, nhưng nhìn chunghầu hết vẫn mắc phải hai lỗi cơ bản là: lỗi phân tách một vùng chữ đúng ra thành cácvùng chữ nhỏ hơn từ đó làm sai hoặc mất thông tin của các dòng chữ hay đoạn văn bản(sau đây gọi là lỗi "tách quá"), lỗi gộp các vùng chữ ở các cột văn bản hay các đoạn vănbản lại với nhau (sau đây gọi là lỗi "gộp") Vì vậy mục tiêu của luận án là nghiên cứuphát triển các thuật toán phân tích trang giảm đồng thời cả hai kiểu lỗi: "tách quá",
2 Sự thay đổi đa dạng của kích cỡ và kiểu phông chữ
3 Sự xuất hiện của các vùng bảng với cấu trúc rất đa dạng và phức tạp, có nhữngvùng bảng không được giới hạn bởi các đường kẻ, hoặc có những vùng bảng vớicác đường kẻ đứt nét,
4 Sự có mặt của các vùng ảnh không phải là vùng chữ như: ảnh, biểu đồ, logo,đường kẻ, Tạo ra rất nhiều khó khăn cho việc phân loại là chữ hay không phải
là chữ
5 Mỗi ngôn ngữ lại có thứ tự đọc, cách viết, cách giãn dòng và cấu trúc khác nhau
Vì vậy, các thuật toán phân tích trang hiện nay vẫn bị giới hạn bởi ngôn ngữ.Luận án giới hạn phạm vi nghiên cứu trong khuôn khổ các trang ảnh tài liệu đượcsoạn thảo bằng ngôn ngữ Latin cụ thể là Tiếng Anh và tập trung vào phân tích các vùngchữ, chưa đề xuất đến vấn đề phát hiện và phân tích cấu trúc bảng Bài toán đặt ra làxây dựng một mô hình hiệu quả cho việc phân tích các vùng chữ
xiii
Trang 151 Đánh giá ưu nhược điểm của các hướng tiếp cận của các thuật toán phân tíchtrang.
2 Đề xuất một giải pháp làm tăng tốc thuật toán phát hiện nền trang ảnh
3 Đề xuất phương pháp tham số thích nghi làm giảm sự ảnh hưởng của kích cỡ vàkiểu phông chữ đến kết quả phân tích trang
4 Đề xuất một giải pháp mới cho vấn đề phát hiện và sử dụng các đối tượng phântách trong các thuật toán phân tích trang
5 Đề xuất một giải pháp mới tách các vùng chữ thành các đoạn văn bản dựa trênphân tích ngữ cảnh
Bố cục của luận án
Luận án được phân thành ba chương với cấu trúc như sau :
Chương 1: Tổng quan về phân tích trang ảnh tài liệu
Chương này trình bày tổng quan về hệ thống nhận dạng văn bản và bài toán phântích trang ảnh tài liệu, những thuật toán phân tích trang tiêu biểu, các phương pháp vàcác tập dữ liệu để đánh giá các thuật toán phân tích trang
Chương 2: Thuật toán nhanh phát hiện nền trang ảnh tài liệu
Chương này trình bày vai trò quan trọng của nền trang ảnh trong phân tích trang,thuật toán phát hiện nền hiệu quả WhiteSpace, thuật toán phát hiện nền nhanh dựatrên việc cải tiến của thuật toán WhiteSpace
Chương 3: Thuật toán phân tích trang ảnh HP2S và AOSM
Chương này trình bày hai thuật toán phân tách trang ảnh tài liệu theo hướng tiếpcận lai ghép HP2S và AOSM Các thuật toán được phát triển dựa trên sự kết hợp giữaphương pháp xác định các đối tượng phân tách và phương pháp tham số thích nghi.Những kết quả thực nghiệm được trình bày trong chương này đã chứng tỏ hai thuậttoán HP2S và AOSM có độ chính xác cao so với những thuật toán và các sản phẩmthương mại hàng đầu trong thời điểm hiện tại
Cuối cùng là kết luận và hướng phát triển của luận án
xiv
Trang 16Tổng quan về phân tích cấu trúc
hình học trang ảnh tài liệu
Trong chương này, luận án trình bày tổng quan hệ thống nhận dạng văn bản, bàitoán phân tích trang, các thuật toán phân tích trang tiêu biểu, những lỗi cơ bản nhấtcủa các thuật toán phân tích trang Từ đó dẫn đến mục tiêu nghiên cứu và những kếtquả đạt được của luận án
1.1 Các thành phần chính của hệ thống nhận dạng
văn bản
Về cơ bản, một hệ thống nhận dạng văn bản thường được thực hiện qua các bước
cơ bản như được mô tả ở hình 1.1 Những thông tin ở dạng văn bản như sách, báo, tạpchí, sau quá trình quét ảnh sẽ cho ta kết quả là các trang ảnh tài liệu Những file ảnhnày sẽ là đầu vào của một hệ thống nhận dạng, kết quả đầu ra của hệ thống nhận dạng
là những file văn bản có thể dễ dàng chính sửa và lưu trữ, ví dụ như: file *.doc, *.docx,
*.excel, *.pdf, xem Hình 1.2 Luận án chỉ tập trung vào nghiên cứu bước phân tíchtrang, trong đó trọng tâm là phân tích cấu trúc hình học của trang ảnh
1.1.1 Tiền xử lý
Nhiệm vụ của quá trình tiền xử lý trang ảnh thông thường là nhị phân hóa, xácđịnh các thành phần liên thông ảnh, lọc nhiễu, căn chỉnh độ nghiêng Kết quả đầu ra
1
Trang 17Hình 1.1 – Các bước xử lý cơ bản của một hệ thống nhận dạng văn bản.
Trang 18định những điểm ảnh thuộc vùng nền có giá trị là 0, những điểm ảnh thuộc phần nộidung của ảnh có giá trị là 1.
1.1.1.2 Phát hiện và phân loại các thành phần liên thông
Các thành phần liên thông là các vùng gồm các điểm ảnh liên tục có cùng giá trị.Chúng ta nói rằng hai điểm ảnh [r , c], [r0, c0] trong một ảnh nhị phân B là liên tục nếutồn tại một dãy các điểm ảnh [r0, c0], [r1, c1], , [rn, cn], sao cho: [r , c] = [r0, c0], [r0, c0] =[rn, cn], B [ri, ci] = 1 và [ri, ci] là lân cận của [ri −1, ci −1] với mọi i = 1, , n Để xác địnhcác thành phần liên thông, thuật toán dò biên của Heckbert đã được áp dụng, thuậttoán được cài đặt trong bộ mã nguồn mở của thư viện xử lý ảnh Leptonica [2], xem Hình
Các thuật toán được trình bày trong luận án này sử dụng phép biến đổi hình thái
để lọc các ảnh bán sắc, các đường kẻ ngang, kẻ dọc Sau đó, xây dựng biểu đồ tần sốcủa chiều rộng và chiều cao của các thành phần liên thông Từ đó suy ra được kích cỡ
Trang 19trung bình của các phông chữ, dựa trên các kích cỡ trung bình này các thành phần liênthông của trang ảnh được chia làm ba loại như sau: nhóm các thành phần nhỏ (đượcxem như là nhiễu), loại các thành phần liên thông lớn (xem như vùng ảnh), phần cònlại được xem là phần chữ Cũng đã có rất nhiều các thuật toán giải quyết bài toán nàytheo hướng xem xét chi tiết trong nhiều trường hợp riêng, ví dụ như [18], [69]
1.1.1.3 Lọc nhiễu
Những trang ảnh thu được sau quá trình quét ảnh, chụp ảnh, có thể xuất hiện nhữngthành phần không mong muốn được gọi là nhiễu, những kiểu nhiễu thường gặp là nhữngchấm nhỏ trên trang ảnh, những vệt đen dài thường xuất hiện ở lề trang ảnh, xemHình 1.4 Lọc nhiễu là một vấn đề căn bản, kết quả của quá trình lọc nhiễu sẽ có ảnhhướng đáng kể đến độ chính xác của hệ thống nhận dạng Đã có nhiều phương phápmạnh lọc nhiễu được đề xuất ví dụ như [54], [59], [60], [61]
Hình 1.4 – Minh họa trang ảnh tài liệu với nhiễu là những chấm nhỏ, những vệt dài
đen ở lề trang ảnh
1.1.1.4 Căn chỉnh độ nghiêng
Góc nghiêng của trang ảnh tài liệu là một vấn đề phổ biến ở hầu hết các trang ảnhtài liệu, nó là kết quả của quá trình quét dữ liệu từ dạng giấy thành các file ảnh hoặccũng có thể là do đặc trưng của cấu trúc dữ liệu các trang ảnh, xem Hình 1.5 Trong
Trang 20hầu hết các trường hợp, ngay cả khi góc nghiêng của trang ảnh là nhỏ cũng có nhữngảnh hưởng bất lợi rất rõ ràng đến độ chính xác của bước phân tích cấu trúc hình học
và phân tích cấu trúc logic của trang ảnh Điều này là vì hầu hết các thuật toán phântích trang ảnh đều yêu cầu dữ liệu đầu vào là những trang ảnh đã được căn chỉnh độnghiêng, có một số ít các thuật toán phân tích không yêu cầu việc căn chỉnh độ nghiêng
ở bước trước đó [33], [49] Tuy nhiên, hầu hết các thuật toán phân tích đều yêu cầu cáctrang ảnh đầu vào đã được xử lý góc nghiêng ở bước trước đó Đã có nhiều thuật toánphát hiện góc nghiêng trang ảnh được đề xuất, ví dụ như [27], [51], [52] Các thuật toánđược đề xuất trong luận án này cũng được thực hiện trên những trang ảnh đã được cănchỉnh độ nghiêng
Hình 1.5 – Một ví dụ minh họa ảnh đầu vào bị nghiêng so với các trục tọa độ
1.1.2 Phân tích trang ảnh tài liệu
Phân tích cấu trúc trang ảnh tài liệu (document layout analysis - sau đây gọi tắt là
"phân tích trang") là một trong những thành phần chính của các hệ thống nhận dạngvăn bản (OCR - System) Ngoài ra nó còn được ứng dụng rộng rãi trong các lĩnh vựckhác của tin học ví dụ như: số hóa tài liệu, nhập liệu tự động, thị giác máy tính, Nhiệm
vụ của phân tích trang bao gồm việc tự động phát hiện những vùng ảnh có trên mộttrang ảnh tài liệu (cấu trúc hình học) [12], [48] và phân loại chúng thành những vùng
dữ liệu khác nhau như vùng chữ, vùng ảnh, vùng bảng biểu, vùng đồ thị, (cấu trúclogic) [30], [32], [39], [40], [50], [51], [73] xem Hình 1.6 Kết quả phân tích trang được sửdụng như một thông tin đầu vào cho quá trình nhận dạng và nhập liệu tự động của các
hệ thống xử lý ảnh tài liệu
Trang 21Ảnh đầu vào Kết quả phân tíchHình 1.6 – Minh họa kết quả của quá trình phân tích trang.
Hình 1.7 – Minh họa các kết quả phân tích trang đúng và phân tích trang sai trêncùng một trang ảnh đầu vào Kết quả phân tích ở hình a), b) được xem là phân tíchđúng Kết quả phân tích ở hình c) có hai lỗi: lỗi gộp hai cột văn bản và lỗi gộp vùng
chữ với vùng ảnh
So với phân tích cấu trúc logic thì phân tích cấu trúc hình học (hay phân tách page segmentation) trang ảnh tài liệu thu hút được nhiều sự quan tâm hơn từ các nhànghiên cứu do tính chất đa dạng và phức tạp của cấu trúc các loại văn bản khác nhau.Không chỉ các đặc trưng văn bản như sách, báo, tạp chí, báo cáo mà còn có các yếu
-tố biên tập như kích cỡ chữ, kiểu phông chữ, cách trình bày, các ràng buộc về căn chỉnh
Trang 22b)Hình 1.8 – Kết quả nhận dạng sai do phân tích trang sai a) kết quả phân tích trang
sai, b) kết quả nhận dạng sai do vùng ảnh được xem như chữ
trang có thể ảnh hưởng đến khả năng phát hiện và phân tích chính xác của các thuậttoán Trang ảnh đầu vào có cấu trúc dữ liệu mà các vùng ảnh của nó có thể bao quanhbởi các hình chữ nhật không giao nhau thì được gọi là cấu trúc "hình chữ nhật", trongtrường hợp ngược lại thì trang ảnh được gọi là có cấu trúc "không phải hình chữ nhật".Phân tích cấu trúc hình học hay còn được biết nhiều đến trong các bài giảng với cáctên gọi là phân tích cấu trúc vật lý hay phân tách trang ảnh tài liệu Nhiệm vụ của nó làphân tách trang ảnh tài liệu thành các miền thuần nhất và phân loại mỗi vùng vào mộtloại cụ thể của kiểu cấu trúc vật lý Các thành phần cấu trúc vật lý thông dụng nhấtđược chia thành chữ, đồ thị, ảnh bán sắc, các đường kẻ ngang, dọc Trong một số côngtrình công bố khác xem xét cấu trúc vật lý của trang ảnh trong một vài trường hợp cụthể hơn, ví dụ như: nhận diện công thức toán học, biểu đồ cấu trúc hóa học,
1.1.3 Nhận dạng kí tự quang học
Đây là giai đoạn quan trọng nhất của hệ thống nhận dạng văn bản, giai đoạn nàyquyết định độ chính xác của hệ thống nhận dạng Có nhiều phương pháp phân lớp khácnhau được áp dụng cho các hệ thống nhận dạng kí tự quang học, ví dụ như: phương
Trang 23b
Hình 1.9 – Kết quả nhận dạng sai do phân tích trang sai a) kết quả phân tích trangsai b) kết quả của quá trình nhận dạng đã trộn vùng chữ ở hai cột lại với nhau
pháp đối sánh, phương pháp tiếp cận trực tiếp, phương pháp ngữ pháp, phương pháp
đồ thị, mạng nơ ron, phương pháp thống kê, máy véc tơ tựa (SVM)
1.1.4 Hậu xử lý
Đây là công đoạn cuối cùng của quá trình nhận dạng Có thể hậu xử lý là bước ghépnối các kí tự đã nhận dạng thành các từ, các câu, các đoạn văn bản nhằm tái hiện lạivăn bản đồng thời phát hiện ra các lỗi nhận dạng sai bằng cách kiểm tra chính tả dựatrên cấu trúc và ngữ nghĩa của các từ, các câu hoặc các đoạn văn bản Việc phát hiện
ra các lỗi, các sai sót trong nhận dạng ở bước này góp phần đáng kể vào việc nâng caochất lượng nhận dạng
Trang 24Cách đơn giản nhất để kết nối các thông tin ngữ cảnh là tận dụng một từ điển đểđiều chỉnh các lỗi của hệ thống nhận dạng Ý tưởng cơ bản này dựa trên cơ sở đánh vầnkiểm tra đầu ra của hệ thống nhận dạng và cung cấp một số khả năng cho các đầu racủa máy nhận dạng khi các đầu ra này không nằm đúng vị trí trong từ điển Việc kiểmtra lỗi chính tả phù hợp với một số ngôn ngữ như Anh, Pháp, Đức, Việt Nam,
1.2 Các thuật toán phân tích cấu trúc hình học (phân
tách) trang ảnh tài liệu tiêu biểu
Qua hàng chục năm phát triển cho đến nay đã có rất nhiều các thuật toán phân táchtrang đã được công bố, ví dụ như: [5], [9], [17], [46], [62] Dựa trên thứ tự thực hiện củacác thuật toán, các thuật toán phân tách trang ảnh tài liệu có thể được chia thành bahướng tiếp cận khác nhau: từ trên xuống, từ dưới lên và lai ghép
1.2.1 Hướng tiếp cận từ trên xuống
Các thuật toán theo hướng tiếp cận từ trên xuống tiêu biểu như: X-Y Cut [47],WhiteSpace [14] Các thuật toán theo hướng tiếp cận này thực hiện phân tách trangbằng cách chia đệ quy trang ảnh tài liệu theo các phương ngang hoặc phương thẳngđứng dọc theo các vùng trắng trong trang Những vùng trắng này thường là dọc theobiên của các cột văn bản hoặc biên của các đoạn ảnh văn bản Điểm mạnh của các thuậttoán này là độ phức tạp tính toán thấp, cho kết quả phân tách tốt trên những trang ảnh
có cấu trúc hình chữ nhật tức là các trang ảnh mà các vùng ảnh có thể được bao quanhbởi các hình chữ nhật không giao nhau Tuy nhiên, chúng không thể xử lý được nhữngtrang ảnh mà các vùng ảnh không phải là hình chữ nhật, xem Hình 1.10
1.2.2 Hướng tiếp cận từ dưới lên
Các thuật toán theo hướng tiếp cận từ dưới lên tiêu biểu như: [33], [49], [65] Cácthuật toán theo hướng tiếp cận này bắt đầu với các vùng nhỏ của trang ảnh (các điểmảnh hoặc các kí tự) và lần lượt nhóm các vùng nhỏ có cùng kiểu lại với nhau để hìnhthành nên các vùng ảnh Điểm mạnh của hướng tiếp cận này là các thuật toán có thể
xử lý tốt những trang ảnh với cấu trúc bất kì Điểm yếu của các thuật toán theo hướng
Trang 25Hình 1.10 – Minh họa một trường hợp phân tích lỗi của thuật toán WhiteSpace Dothuật toán không xử lý được những vùng ảnh có cấu trúc không phải hình chữ nhật
nên mắc lỗi "tách quá"
tiếp cận từ dưới lên là tốn bộ nhớ, chậm, do các vùng nhỏ được gộp lại với nhau dựatrên những tham số khoảng cách mà thông thường các tham số này được ước lượng trêntoàn trang ảnh nên các thuật toán này thường quá nhạy cảm với giá trị tham số và mắclỗi "tách quá" các vùng ảnh văn bản, đặc biệt là các vùng chữ có sự khác biệt về kích
cỡ và kiểu phông [43], [62], xem Hình1.11
Hình 1.11 – Minh họa một trường hợp phân tích lỗi của thuật toán Docstrum Thuậttoán mắc lỗi "gộp" và lỗi "tách quá" do các ngưỡng khoảng cách không được đánh giá
đúng
Trang 261.2.3 Hướng tiếp cận lai ghép
Từ những phân tích trên cho thấy ưu điểm của hướng tiếp cận từ dưới lên là nhượcđiểm của hướng tiếp cận từ trên xuống và ngược lại Do đó, trong những năm gần đây
đã có nhiều các thuật toán phát triển theo hướng lai ghép giữa hướng tiếp cận từ trênxuống và hướng tiếp cận từ dưới lên, một trong các thuật toán tiêu biểu như: RAST [14],PAL [19], Tab-Stop [66] Các thuật toán phát triển theo hướng này thường dựa trên cácđối tượng phân tách: các vùng trắng hình chữ nhật, các tab−stop, để suy ra cấu trúccác cột văn bản Từ đó các vùng ảnh được xác định bằng phương pháp gom cụm Cáckết quả đánh giá đã cho thấy các thuật toán lai ghép đã khắc phục được phần nào hạnchế của các thuật toán theo hướng tiếp cận từ trên xuống và từ dưới lên, đó là có thểthực hiện trên những trang ảnh với cấu trúc bất kì và ít hạn chế hơn vào các tham sốkhoảng cách Tuy nhiên, việc xác định các đối tượng phân tách lại là một bài toán gặpphải rất nhiều khó khăn bởi nhiều lý do, ví dụ như có những vùng chữ ở quá gần nhau,các vùng chữ được căn lề, trái phải không thẳng hàng hoặc khoảng cách giữa các thànhphần liên thông là quá lớn, điều này đã làm cho các thuật toán hiện tại thường mắcphải các lỗi quên hoặc xác định nhầm các đường phân tách dẫn đến kết quả phân táchlỗi [43], [62], [9], xem Hình1.12
Hình 1.12 – Minh họa một trường hợp phân tích lỗi của thuật toán Tab-Stop Thuậttoán Tab-Stop mắc lỗi "gộp" do xác định thiêu đối tượng phân tách giữa các cột văn
bản
Trang 271.2.4 Các thuật toán tiêu biểu
Thuật toán Docstrum: Sau khi được loại bỏ nhiễu, các thành phần liên thông đượcchia thành hai nhóm: nhóm thứ nhất gồm các thành phần liên thông có kích cỡ phôngchữ nhỏ hơn giá trị ngưỡng, nhóm thứ hai gồm các thành phần liên thông có kích cỡphông chữ lớn hơn giá trị ngưỡng, và được xác định là nhóm các kí tự thuộc phần tiêu
đề Tiếp theo, các biểu đồ tần suất của góc và khoảng cách của mỗi thành phần liênthông với K – láng giềng được xây dựng Đỉnh cao nhất của mỗi biểu đồ được xác định
là độ nghiêng của trang và khoảng cách giữa các kí tự Từ khoảng cách giữa các kí tự
và độ nghiêng của trang, ta xác định được các dòng chữ bằng cách sử dụng thuật toántìm bao đóng Cuối cùng, các dòng chữ được nhóm lại với nhau thành các vùng chữ dựatrên các ngưỡng khoảng cách theo phương ngang và phương dọc
Thuật toán WhiteSpace: Sau bước tiền xử lý, các thành phần liên thông được chiathành các nhóm: nhóm các thành phần liên thông có kích cỡ phông quá nhỏ được xem
là nhiễu, nhóm các kí tự có kích cỡ quá lớn được xem là các vùng ảnh, các đường kẻngang, dọc, các thành phần liên thông còn lại được xem là phần chữ Bước tiếp theo cácvùng trắng của trang ảnh được xác định bằng cách áp dụng thuật toán tìm vùng trắngcủa Breuel [14] Sau đó, chỉ các vùng trắng có kích cỡ theo phương ngang, phương dọc,
và số lượng các thành phần liên thông liền kề đủ lớn được giữ lại Cuối cùng, các vùngtrắng được giữ lại sẽ được xem là các thành phần liên thông và thực hiện quá trình phântích ngược để suy ra các vùng chữ của trang ảnh
Thuật toán Tab – Stop: Xuất phát từ một trang ảnh, bước tiền xử lý ảnh được thựchiện để loại bỏ nhiễu và xác định các vùng ảnh, các dòng kẻ, các thành phần liên thôngđược xem như các thành phần chữ Ý tưởng chính của thuật toán là xác định các kí tựđầu hoặc cuối của mỗi dòng chữ (được gọi tắt là tab-stop) và liên kết các tab-stop lạithành các đối tượng phân tách giữa các cột văn bản Thuật toán được thực hiện qua cácbước sau: trước tiên các tab-stop ứng cử viên được xác định dựa trên mỗi tương quancủa mỗi thành phần liên thông so với các lân cận trái, phải Bước tiếp theo, thuật toánbình phương trung bình nhỏ nhất được sử dụng để nhóm các tab-stop ứng cử viên lại vớinhau thành các đường phân tách (tab–line) Từ các tab–line này thuật toán tiến hànhnhóm các thành phần liên thông theo phương ngang lại với nhau thành các dòng chữ.Cuối cùng phương pháp từ dưới lên được áp dụng để nhóm các dòng chữ thành các vùngchữ
Thuật toán Fraunhofer: Thuật toán Fraunhofer [4], [5], [8], [9] tham gia tại các cuộcthi phân tích trang các năm 2009, 2011, 2013 và 2015 là một trong các thuật toán tiêu
Trang 28biểu phát triển theo hướng tiếp cận lai ghép Trước tiên, thuật toán Fraunhofer áp dụngbước tìm các vùng trắng của thuật toán WhiteSpace [14] để tìm tập các vùng trắng lớnnhất mà hợp của chúng lại bao phủ nền của trang ảnh Bước tiếp theo là lọc các vùngtrắng, ở bước này chỉ những vùng trắng có kích cỡ theo chiều rộng và chiều dài, đồngthời có số thành phần liên thông gần kề đủ lớn thì được giữ lại Các vùng trắng đóngvai trò là các đối tượng phân tách được sử dụng trong quá trình gom các kí tự thànhcác dòng chữ và gom các dòng chữ thành các vùng chữ.
Thuật toán PAL: Thuật toán PAL [5], [9] có độ chính xác tại các cuộc thi phân tíchtrang các năm 2013 và 2015 Ở đây thuật toán đề xuất một phương pháp mới phát hiệncác đối tượng phân tách Đầu vào của thuật toán là một tập các thành phần liên thông.Giữ hai thành phần liền kề sẽ sinh ra một vùng trắng xen kẽ giữa chúng, xem Hình
1.13a) và b) Sau đó, các vùng trắng có kích cỡ theo chiều rộng và chiều cao đủ nhỏ sovới kích phổ biến của các thành phần liên thông sẽ bị loại bỏ Tiếp tục, những trắngđứng độc lập sẽ bị loại bỏ, xem Hình1.13 c) Kết quả của bước lọc này cho kết quả cácdòng chữ được xác định có thể bị phân tách quá nhỏ, tức là có các dòng chữ sẽ bị táchthành nhiều dòng chữ ứng cử viên nhỏ hơn, xem Hình 1.13 d) Bước tiếp theo của quátrình này, thuật toán PAL sẽ gom cụm các vùng trắng còn lại thành dây chuyên cácvùng trắng liền kề với nhau theo phương nào đó, xem Hình1.14a), dây chuyền các vùngtrắng có số vùng trắng ít và nghiêng góc sẽ bị loại bỏ, xem Hình 1.14 b) Những vùngtrắng cuối cùng sẽ phân tách các thành phần liên thông thành các dòng chữ, xem Hình
1.14 c), đồng thời cũng tạo thành các đối tượng phân tách giữa các cột văn bản
Thuật toán CVML: Thuật toán CVML [20] đứng top ba tại cuộc thi phân tích trangquốc tế năm 2017 Trước tiên, thuật toán sẽ trích rút các thành phần liên thông và rồinhóm các thành phần liên thông thành các dòng chữ bằng cách sử dụng phương phápmới ước lượng khoảng cách và góc nghiêng của trang ảnh được trình bày trong [35], [36]
và sau đó xác định cấu trúc các đoạn văn bản Sau đó, các thành phần khác nhau (ví
dụ như : các đường phần tách, tranh ảnh, biểu đồ, ) được xác định từ các vùng khôngphải chữ bằng cách áp dụng các thuật toán ở [37], [71]
Thuật toán MHS: Thuật toán MHS [70] được đề xuất bởi Trần Tuấn Anh, là mộtthuật toán lai ghép với sự kết hợp của bước phân tích các thành phần liên thông vàphân tích các khoảng trắng nền trang ảnh Thuật toán được bắt đầu với bước phát hiệncác thành phần liên thông và lọc các thành phần liên thông Kết quả của quá trình này
sẽ lọc đi các thành phần nhiều và xác định được các thành phần liên thông được xemchắc chắn là các thành phần không phải chữ Trên các thành phần còn lại, phương phápphân loại đa lớp được thực hiện, là phương pháp với sự kết hợp của quá trình phân tích
Trang 30b)
c)Hình 1.14 – Kết quả lọc các vùng trắng và dây chuyền các vùng trắng tạo thành các
phân tách giữa các cột văn bản, các dòng chữ được tạo thành
1.3 Các phương pháp và các tập dữ liệu đánh giá các
thuật toán phân tách trang ảnh tài liệu
Đánh giá các thuật toán phân tách trang ảnh tài liệu luôn là một vấn đề phức tạp vì
nó phụ thuộc nhiều vào tập dữ liệu, các vùng dữ liệu được chuẩn bị trước (ground-truth)
và phương pháp đánh giá Vấn đề đánh giá chất lượng của các thuật toán phân táchtrang đã nhận được nhiều sự quan tâm Một trong các hướng phát triển sớm cho bàitoán này là hướng tiếp cận đo độ chính xác của các thuật toán phân tách trang dựatrên việc phân tích lỗi của những vùng chữ được nhận dạng [31] Cách đánh giá này đếnnay đã ít được sử dụng vì nó phải sử dụng kết quả đầu ra của nhiều bước và không sửdụng để chỉ đánh giá phần phân tách trang Yanikoglu et al [76] đã trình bày một môitrường phân tách trang chuẩn, được gọi tên là Pink Panther Hướng cận tiếp dựa trên
sự biểu diễn các vùng ảnh bởi các đa giác bất kì, tuy nhiên cách này tương đối phức tạp
và khó thực hiện Liang et al.[41] đã đưa ra một độ đo dựa trên sự tương ứng giữa cácphần được xác định với ground-truth Das et al [23] đã đề xuất một độ đo thực nghiệm
Trang 31dựa trên mô hình "graph-like" của dữ liệu Điểm hạn chế của độ đo này là không hỗtrợ đánh giá các trang ảnh có cấu trúc "không phải hình chữ nhật" Mao et al [44] đãtrình bày một phương pháp thực nghiệm PSET đo độ chính xác của các dòng chữ, độ
đo này được xác định thông qua các lỗi "gộp dòng", "tách dòng", "quên dòng", "xácđịnh nhầm" của các dòng chữ so với các vùng chữ groud-truth Độ đo PSET đã được
sử dụng nhiều để đánh giá các thuật toán phân tách trang, vì nó không phụ thuộc vàocấu trúc trang ảnh, chỉ yêu cầu groud-truth ở cấp độ dòng chữ, đặc biệt là độ đo này có
mã nguồn mở rất thuận lợi để sử dụng Tuy nhiên, độ đo PSET đưa ra những kết luận
về lỗi "gộp dòng", "tách dòng" là quá nghiêm khắc vì vậy kết quả thông báo lỗi trongnhiều trường hợp vẫn chưa sát với thực tế Clausner et al [21] đã phát triển một độ đotiên tiến PRImA để đánh giá các thuật toán phân tách trang ảnh tài liệu Độ đo này đãđược sử dụng thành công trong các cuộc thi phân tích trang quốc tế các năm 2011, 2013
— lỗi tách dòng chữ, trong đó lỗi tách dòng lại có ba loại là, tách dòng theo chiềungang, tách dòng theo chiều dọc, tách hình bao của một dòng chữ theo chiều dọc,
Trang 32— lỗi gộp các dòng chữ, trong đó lỗi gộp dòng lại có hai kiểu gộp dòng là, gộp dòngchữ theo chiều ngang, gộp dòng chữ theo chiều dọc,
— lỗi quên dòng chữ và lỗi xác định nhầm dòng chữ
Cho G là tập tất cả các dòng văn bản chuẩn trong một trang ảnh, ba tập con của Gđược định nghĩa như sau (xem hình 1.15 ):
— Tập con C gồm các dòng văn bản không được nhận ra
— Tập con S gồm các dòng văn bản bị tách ra
— Tập con M gồm các dòng văn bản bị gộp với nhau
Khi đó, thước đo độ chính xác của thuật toán được xác định bởi công thức sau:
ρ = | G | − | C ∪S ∪M |
| G |
Hình 1.15 – Các kiểu lỗi trong phân tách trang ảnh tài liệu được định nghĩa trong
PSET
Trang 331.3.3 Độ đo PRImA
Độ đo PRImA được phát triển bởi một nhóm nghiên cứu của trường đại học Salford,được đề xuất vào năm 2009 và được sử dụng thành công tại cuộc thi phân tích trangICDAR2009, đến năm 2011 thì được phát triển hoàn thiện hơn [21], [22] Nó cung cấpmột phương pháp đánh giá là sự kết hợp của các kiểu lỗi khác nhau: tách, gộp, quên,phát hiện nhầm, phân loại sai và thứ tự đọc cùng với sự điều chỉnh các trọng số theotừng kiểu ứng dụng khác nhau Đây là một độ đo đã thể hiện được những cải tiến vượttrội so với các độ đo trước đây, được sử dụng thành công trong các cuộc thi phân tíchtrang ICDAR2009, ICDAR2011, ICDAR2013 và ICDAR2015 Nó đã được phát triểnthành một công cụ khá thuận tiện, xem Hình 1.16
Hình 1.16 – Công cụ đánh giá các thuật toán phân tách trang của thư viên PRImA
Trang 34— Lỗi quên hoặc quên một phần: là một vùng ảnh chuẩn bị quên hoàn toàn hoặc
Hình 1.17 – Lỗi "gộp" vùng theo phương ngang và lỗi "gộp" vùng theo phương dọc,
a) các kiểu lỗi, b) các vùng ảnh chuẩn của ảnh tương ứng
Mỗi kiểu lỗi lại phụ thuộc vào một tập các trọng số, sự thay đổi của tập các trọng
số của mỗi kiểu lỗi sẽ thể hiện cho mức độ quan trọng của mỗi kiểu lỗi trong các ngữcảnh đánh giá khác nhau, xem Hình 1.21 Có hai mức độ của ý nghĩa của lỗi: Độc lậpvới ngữ cảnh và phụ thuộc vào ngữ cảnh
Trong luận án này, ba ngữ cảnh đánh giá được sử dụng trong các thực nghiệm là:Segmentation performance, OCR evaluation, Text evaluation [21] Những ngữ cảnh đánhgiá này đã được sử dụng thành công tại các cuộc thi phân tích trang năm 2011, 2013 và2015
— Genernal-Segmentation (G-Segmentation): là ngữ cảnh đánh giá cho mụctiêu phân tách trang tổng quát Trong ngữ cảnh này tất cả các trọng số của cáckiểu lỗi đều được cài đặt ở cấp độ cân bằng nhau
Trang 35a) b)
Hình 1.18 – Lỗi "tách" vùng theo phương ngang và lỗi "tách" vùng theo phương dọc,
a) các kiểu lỗi, b) các vùng ảnh chuẩn của ảnh tương ứng
Hình 1.19 – Lỗi "quên/quên một phần" vùng ảnh, a) các kiểu lỗi, b) các vùng ảnh
chuẩn của ảnh tương ứng
Trang 36a) b)Hình 1.20 – Lỗi "phân loại sai" vùng ảnh, a) kiểu lỗi, b) các vùng ảnh chuẩn của ảnh
tương ứng
— Segmentation: là ngữ cảnh tập trung vào đánh giá chất lượng phân tích cấutrúc hình học của các thuật toán phân tích trang (bỏ qua phân tích cấu trúclogic) Trong ngữ cảnh đánh giá này tất cả các trọng số của các kiểu lỗi phân lớpsai được bỏ qua hoàn toàn, các lỗi Miss và partial-miss có trọng số cao nhất Cáctrọng số của các lỗi merge và lỗi split là 50%, trong khi lỗi false detection đượcxem như là ít quan trọng nhất và có trọng số chỉ là 10%
— OCR: Cấu hình này tương tự với cấu hình Segmentation nhưng lỗi phân loạisai chữ (vùng chữ mà lại gán nhãn là vùng không phải chữ, tiêu đề lại gán nhãn
là đoạn văn bản, ) có trọng số cao nhất và tất cả các trọng số phân loại sai khác
có trọng số là 10%
— Text: Sử dụng cấu hình OCR nhưng chỉ tập trung vào vùng chữ, bỏ qua vùngkhông phải chữ Tức là chỉ tập trung độ chính xác của các thuật toán phân táchtrang trên các vùng chữ mà bỏ tất cả các vùng khác
Trang 37b)Hình 1.21 – Sự phụ thuộc của các kiểu lỗi vào các trọng số, a) 6 kiểu lỗi cơ bản củamột cấu hình đánh giá, b) mỗi kiểu lỗi lại phụ thuộc vào một tập các trọng số
Trang 381.3.4 Dữ liệu
Các tập dữ liệu UNLV [1], PRImA [7] và UW-III [55] được sử dụng để đánh giá thựcnghiệm và so sánh các thuật toán phân tách trang ảnh tài liệu Các tập dữ liệu này đều
có ground-truth ở cấp độ đoạn văn bản và cấp độ các dòng chữ, được biểu diễn bởi các
đa giác không giao nhau Tập dữ liệu UW-III có 1600 bức ảnh nhị phân được quét ở độphân giải 300 DPI và đã được căn chỉnh lại độ nghiêng Đây là một tập dữ liệu rất đadạng có nhiều các trang ảnh về sách, báo, tạp chí, thư, rất nhiều trang ảnh có nhiễu(những chấm nhỏ, nhiễu lề trang ảnh hoặc những phần chữ không xác định được bởicác thành phần lân cận, ) Vì vậy, UW-III là một tập dữ liệu rất phù hợp để thực hiệnđánh giá so sánh các thuật toán trên nó, xem Hình1.22
Tập dữ liệu PRImA gồm 305 trang ảnh được quét ở độ phân giải 300 DPI Nó chứanhiều trang ảnh đa dạng về các kiểu trang ảnh, phản ánh nhiều thách thức trong phântách trang Cấu trúc của trang ảnh chứa đựng một sự pha trộn từ đơn giản đến phứctạp, gồm nhiều bức ảnh có phần chữ bao quanh các trang ảnh, có sự thay đổi lớn vềkích cỡ kiểu phông chữ Do đó, đây là một tập dữ liệu rất tốt để thực hiện đánh giá
so sánh các thuật toán phân tách trang Các tập con của tập dữ liệu này đã được lựachọn làm các tập dữ liệu tại các cuộc thi phân tích trang các năm 2009, 2015 và 2017.Sau đây, các tập dữ liệu này lần lượt được gọi là các tập dữ liệu: ICDAR2009 dataset,ICDAR2015 dataset và ICDAR2017 dataset Số lượng các trang ảnh trong các tập dữliệu này lần lượt là: 55, 70 và 75
Tính chất của ảnh Số lượng trang ảnh Số lượng trang ảnh
Trang 39Hình 1.22 – Một số ảnh minh họa của tập dữ liệu UWIII.
Tập dữ liệu ICDAR2015 có 28 ảnh có cấu trúc hình chữ nhật, còn lại ảnh có cấutrúc không phải hình chữ nhật, trong đó có ảnh có cầu trúc phức tạp 12 ảnh chiếm cácảnh có sự thay đổi nhiều về kích cỡ phông chữ, đặc biệt trong số đó, có một số ảnh cóphông chữ rất lớn Hình 1.23 minh họa một số ảnh tiêu biểu của tập dữ liệu PRImA.Tập dữ liệu UNLV (University of Nevada, Las Vegas, U.S.A) [1] chứa một số lượng rấtlớn (hơn 2000 ảnh) các ảnh nhị phận có độ phân giải 300 DPI Có cấu trúc dữ liệu rất
đa dạng như: sách, báo, tạp chí, kỉ yếu, báo cáo, Trong luận án này, một tập con củatập UNLV gồm 50 ảnh được lựa chọn cho các đánh giá thực nghiệm (sau đây được gọitắt là tập dữ liệu UNLV) Đây là tập dữ liệu gồm những ảnh tiêu biểu nhất của tập dữliệu UNLV, nó phản ánh được đầy đủ các thách thức trong phân tách trang Đặc biệt
Trang 40Hình 1.23 – Một số ảnh minh họa của tập dữ liệu PRImA.
nó chứa một tỉ lệ lớn các ảnh có các vùng bảng với cấu trúc rất phức tạp, đây là mộtđiều còn hạn chế ở hai tập dữ liệu trên, xem Hình1.24