chữ, kiểu chữ nghiêng, đậm, gạch dưới… vì thế trước khi nhận dạng chữ, một số thao tác tiền xử lý sẽ được tác động lên ảnh như, lọc nhiễu, chỉnh góc nghiêng và đặc biệt quan trọng là phâ
Trang 2LỜI CAM ĐOAN
Tôi xin cam đoan luận văn cao học “Đánh giá sự ảnh hưởng của
tham số đến kết quả phân tách của thuật toán WhiteSpace” là công trình
nghiên cứu của riêng tôi và hoàn thành dưới sự hướng dẫn khoa học của TS Nguyễn Đức Dũng
Trong toàn bộ nội dung của luận văn, những phần được trình bày là của cá nhân tôi hoặc được tổ hợp từ nhiều nguồn tài liệu khác nhau Tất cả các tài liệu, số liệu đều là trung thực có xuất xứ rõ ràng và được trích dẫn đúng theo quy định
Tôi hoàn toàn chịu trách nhiệm với lời cam đoan của mình
Học viên thực hiện luận văn
Phạm Văn Thủy
Trang 3LỜI CẢM ƠN
Tôi xin gửi lời cảm ơn chân thành tới TS Nguyễn Đức Dũng vì đã có những chỉ dẫn, động viên trong suốt quá trình thực hiện luận văn của tôi Đồng thời tôi xin chân thành cảm ơn các thầy cô giáo trong Ban giám hiệu, phòng Đào tạo, các thầy cô giáo của trường Đại học Công nghệ Thông tin và Truyền thông - Đại học Thái Nguyên cùng các thầy cô giáo trong Viện Công nghệ Thông Tin - Viện Hàn lâm Khoa học Việt Nam đã quan tâm, tạo điều kiện thuận lợi, giảng dạy và hướng dẫn tôi trong suốt quá trình học tập và hoàn thiện luận văn
Cuối cùng tôi xin cảm ơn mọi sự giúp đỡ từ người thân, đồng nghiệp những người đã luôn ủng hộ, hỗ trợ tôi trong suốt quá trình thực hiện luận văn của mình
Mặc dù đã có nhiều cố gắng, tuy nhiên luận văn của tôi không thể tránh khỏi những thiếu sót, do đó tôi rất mong nhận đuợc những ý kiến đánh giá, bổ sung để tôi có thể hoàn thiện luận văn của mình./
Quảng Ninh, ngày tháng năm 2017
Trang 4MỤC LỤC
DANH MỤC HÌNH ẢNH 7
PHẦN MỞ ĐẦU 10
1 Đặt vấn đề 10
2 Nội dung nghiên cứu chính 11
2.1 Mục tiêu chính của đề tài 11
2.2 Ý nghĩa khoa học của đề tài 12
2.3 Nhiệm vụ nghiên cứu 12
2.4 Phương pháp nghiên cứu 12
2.5 Phạm vi nghiên cứu 13
3 Bố cục của luận văn 13
CHƯƠNG 1: TỔNG QUAN VỀ PHÂN TÍCH ẢNH TÀI LIỆU 14
1.1 Tổng quan về phân tích ảnh tài liệu 14
1.1.1 Giới thiệu về ảnh tài liệu 14
1.1.2 Hệ phân tích ảnh tài liệu 15
1.1.3 Quá trình thu nhận ảnh tài liệu 20
1.1.4 Vai trò của phân tích ảnh tài liệu 21
1.2 Cấu trúc của ảnh tài liệu 23
1.2.1 Cấu trúc vật lý 23
1.2.2 Cấu trúc logic 24
1.3 Phân tích trang tài liệu 24
1.3.1 Tiền xử lý (preprocessing): 26
1.3.2 Phân tích cấu trúc vật lý 27
1.3.3 Phân tích cấu trúc logic: 29
1.4 Kết luận 30
CHƯƠNG 2: ĐÁNH GIÁ SỰ ẢNH HƯỞNG CỦA THAM SỐ ĐẾN KẾT QUẢ PHÂN TÁCH CỦA THUẬT TOÁN WHITESPACE 31
Trang 52.1 Các hướng tiếp cận và một số thuật toán phân tách trang tiêu biểu
31
2.1.1 Hướng tiếp cận Top-down 31
a) Tổng quan 31
c) Ưu điểm: 35
d) Nhược điểm: 35
2.1.2 Hướng tiếp cận Bottom-up 38
a) Tổng quan 38
c) Ưu điểm 42
d) Nhược điểm 42
2.1.3 Hướng tiếp cận theo phương pháp lai ghép (hybrid) 43
a) Tổng quan 43
b) Thuật toán tách và Nối thích nghi (Adaptive Split - and - Merge) 43
c) Ưu điểm 45
d) Nhược điểm 45
2.1.4 Đánh giá và lựa chọn thuật toán 46
2.2 Thuật toán phân tích trang tài liệu Whitespace 47
2.2.1 Giới thiệu 47
2.2.2 Whitespace Cover 48
2.2.2.1 Định nghĩa bài toán 48
2.2.2.2 Thuật toán 49
2.3 Ảnh hưởng của tham số đến kết quả phân tách của thuật toán Whitespace 54
2.3.1 Tham số về tỉ lệ chồng lấp (giao nhau) của các hình chữ nhật trắng 54
2.3.2 Tham số về khoảng trắng tối đa trong trang văn bản 56
Trang 62.4 Kết luận 68
CHƯƠNG 3: XÂY DỰNG CHƯƠNG TRÌNH VÀ THỰC NGHIỆM PHÂN TÍCH TRANG TÀI LIỆU 71
3.1 Yêu cầu hệ thống 71
3.2 Giới thiệu chương trình 71
3.2.1 Giao diện chương trình 72
3.2.2 Chức năng 72
3.3 Thực nghiệm 73
3.3.1 Dữ liệu 73
3.3.2 Giới thiệu độ đo PSET 73
3.3.3 Kết quả thực nghiệm và thảo luận 76
TÀI LIỆU THAM KHẢO 88
Trang 7DANH MỤC HÌNH ẢNH
Hình 1.1: Sơ đồ tổng quan quá trình tạo ảnh tài liệu 14
Hình 1.2: Ví dụ ảnh tài liệu 14
Hình 1.3: Sơ đồ khối liệt kê nhiệm vụ xử lý ảnh tài liệu được phân chia theo cấp bậc trong mỗi vùng của ảnh 17
Hình 1.4: mô phỏng một chuỗi các bước trong phân tích hình ảnh tài liệu phổ biến 19
Hình 1.5 Một hình ảnh nhị phân của chữ "e" được thực hiện lên ON và OFF các điểm ảnh, ON điểm ảnh được hiển thị ở đây là "X"[15] 21
Hình 1.6: Sơ đồ OCR cơ bản 22
Hình 1.7: Cấu trúc vật lý: c, d-Cấu trúc logic của một tài liệu 23
Hình 1.8: Ví dụ loại tài liệu có bố cục phức tạp 25
Hình 1.9: Sơ đồ nguyên lý hệ thống xử lý tài liệu[15] 25
Hình 1.10: a - Ảnh gốc b - Ảnh sau khi tách nền 27
Hình 1.11: Ví dụ một ảnh tài liệu bị nghiêng một góc 5 độ 28
Hình 1.12: Ví dụ một cây mô tả cấu trúc logic của một trang tài liệu[14] 29
Hình 2.1: Kết quả chiếu nghiêng theo phương ngang và phương thẳng đứng của một trang tài liệu 4 32
Hình 2.2: Phân tách cột dựa vào phép chiếu nghiêng theo phương ngang 33
Hình 2.3: Phép chiếu nghiêng theo phương ngang để phân đoạn ký tự hoặc từ 33
Hình 2.4: Kết quả thực hiện của thuật toán X-Y Cut 35
Hình 2.5: Lược đồ chiếu ngang của một dòng chữ nghiêng 36
- rất khó phân đoạn ký tự 36
Hình 2.6: Lược đồ chiếu đứng của trang tài liệu bị nghiêng 37
Hình 2.7: Lược đồ chiếu đứng của một bài báo 37
Trang 8Hình 2.8: Phương pháp Dostrum cho phân tích định dạng trang (a) Một phần của nội dung văn bản gốc (b) Các thành phần lân cận gần nhất được xác định (c) Các hình chữ nhật tối thiểu tạo nên nhóm láng giềng gần nhất từ đó xác
định được dòng văn bản 39
Hình 2.9: Kết quả thực hiện của kỹ thuật Smearing 41
Hình 2.10: Mô tả thuật toán Tách và Nối thích nghi 44
Hình 2.11: Hình minh họa bước đệ quy của thuật toán Cover khoảng trắng phân nhánh - giới hạn Xem giải thích ở nội dung văn bản 49
Hình 2.12: Áp dụng thuật toán tìm kiếm dòng ràng buộc cho các biến thức mô phỏng của một trang 52
Hình 2.13: Fig 1.Mô tả thuật toán WCover [16] (a) hình bao và các hình chữ nhật, (b) điểm chốt tìm được (c,d) các miền con trai/phải và trên/dưới 54
Hình 2.14: Mô hình dòng văn bản được sử dụng tìm kiếm dòng ràng buộc 58
Hình 2.15: Minh họa bài toán tìm kiếm dòng ràng buộc với những trở ngại 59 Hình 2.16: Ví dụ về kết quả đánh giá khoảng trắng để phát hiện các ranh giới cột trong tài liệu có bố cục phức tạp (các tài liệu A00C, D050, và E002 từ cơ sở dữ liệu UW-III) Lưu ý rằng ngay cả các bố cục phức tạp cũng được mô tả bởi một tập nhỏ các dấu tách cột 63
Hình 3.1: Giao diện chương trình 72
Hình 3.2: Giao diện chức năng chương trình 72
Hình 3.3: Minh họa các kiểu lỗi trong phân tích trang ảnh tài liệu 74
Hình 3.4: Ảnh số 0000085 trong tập ảnh UW-III 76
Hình 3.5: Giao diện và kết quả thực nghiệm 77
Hình 3.6: Kết quả phân tách hình 0000085 – UW-III 77
Hình 3.7: Bảng kết quả thực nghiệm 79
Hình 3.8: Ảnh hưởng của số lượng khoảng trắng tối đa đến kết quả của Wcuts và ageblock 80
Trang 9Hình 3.9: Ảnh hưởng của Max_results đến thời gian thực hiện chương trình 80 Hình 3.10: Độ chính xác của thuật toán với độ đo PSET sử dụng tham số khoảng trắng là 300 82 Hình 3.11: Vùng bị bỏ qua 83 Hình 3.12: Vùng bị phân tách thành các phần quá nhỏ 83 Hình 3.13: Độ chính xác của thuật toán với độ đo PSET sử dụng tham số tỉ lệ giao nhau là 95% 84
Trang 10Việc chuyển đổi tài liệu điện tử sang tài liệu giấy có thể thực hiện được
dễ dàng bằng cách in hay fax, nhưng công việc ngược lại là chuyển từ tài liệu giấy sang tài liệu điện tử lại là một vấn đề không hề đơn giản Chúng ta mong muốn có thể số hóa tất cả các tài liệu, sách, báo đó và lưu trữ chúng trên máy tính, việc tổ chức và sử dụng chúng sẽ thuận tiện hơn rất nhiều Vậy nhưng giải pháp sẽ là gì?
Công nghệ đang phát triển một cách chóng mặt, các máy scan với tốc
độ hàng nghìn trang một giờ, các máy tính với công nghệ xử lí nhanh chóng
và chính xác một cách siêu việt Vậy tại sao chúng ta không quét các trang tài liệu vào và xử lý, chuyển chúng thành các văn bản một cách tự động? Nhưng vấn đề là khi quét chúng ta chỉ thu được các trang tài liệu đó dưới dạng ảnh nên không thể thao tác, sửa chữa, tìm kiếm như trên các bản Office được, khi
đó máy tính không phân biệt được đâu là điểm ảnh của chữ và đâu là điểm ảnh của đối tượng đồ họa
Một giải pháp được đưa ra đó là xây dựng các hệ thống nhận dạng chữ trong các tấm ảnh chứa cả chữ và đối tượng đồ họa, sau đó chuyển thành dạng trang văn bản và có thể mở, soạn thảo được trên các trình soạn thảo văn bản
Trong thực tế quá trình nhận dạng thì có rất nhiều tham số ảnh hưởng đến kết quả của các chương trình nhận dạng như nhiễu, Font chữ, kích thước
Trang 11chữ, kiểu chữ nghiêng, đậm, gạch dưới… vì thế trước khi nhận dạng chữ, một
số thao tác tiền xử lý sẽ được tác động lên ảnh như, lọc nhiễu, chỉnh góc nghiêng và đặc biệt quan trọng là phân tách trang tài liệu để xác định cấu trúc của trang văn bản đồng thời tách biệt hai thành phần là chữ và các đối tượng
đồ họa
Dù đã được nghiên cứu trong nhiều năm nhưng bài toán phân tách trang ảnh tài liệu vẫn là một vấn đề quan trọng và thời sự do sự thay đổi đa dang về cấu trúc và các đặc trưng văn bản Các thuật toán phân tách trang hiện nay đều phụ thuộc rất nhiều vào kết quả của quá trình lọc khoảng trắng, chỉnh góc nghiêng, tức là các tham số điều kiện để quyết định các khoảng trắng có được giữ lại hay không, góc nghiêng có phù hợp hay không Các tham số này hoặc cố định hoặc được xác định trên toàn trang ảnh do đó có hoặc không phù hợp trên những trang ảnh có sự thay đổi nhiều về kích cỡ
hoặc kiểu font Trong luận văn này, tập trung nghiên cứu và “Đánh giá sự ảnh hưởng của tham số đến kết quả phân tách của thuật toán WhiteSpace” với mục đích lựa chọn được tham số phù hợp nhằm phát huy
các điểm mạnh và khắc phục nhược điểm của thuật toán
2 Nội dung nghiên cứu chính
2.1 Mục tiêu chính của đề tài
- Tìm hiểu hướng tiếp cận để phân tách trang (Top-down hay
bottom-up, …) Tìm hiểu cấu trúc trang tài liệu (cấu trúc vật lý, logic)
- Tìm hiểu một số kỹ thuật phân tích trang tài liệu (phân vùng, phân đoạn, topdown hay bottom-up, …)Trình bày kỹ thuật phân tích trang văn bản White-space
- Cài đặt thử nghiệm một giải pháp phân tích trang văn bản trên kỹ thuật Top-down bằng thuật toán White-space
Trang 12- Đánh giá sự ảnh hưởng của tham số đến kết quả phân tách trang của thuật toán White-space
- Từ kết quả nghiên cứu có một sự chuẩn bị kiến thức đẩy đủ cho bước nghiên cứu tiếp theo là nhận dạng ký tự quang
2.2 Ý nghĩa khoa học của đề tài
- Giải quyết được vấn đề về học thuật: đề tài sẽ mang ý nghĩa cung cấp
về mặt lý thuyết và thực nghiệm để làm rõ về sự ảnh hưởng của tham số đến kết quả phân tách của thuật toán Whitespace
- Đáp ứng được yêu cầu của thực tiễn: từ các lý thuyết đã được nghiên cứu, từ đó liên hệ và gắn vào thực tiễn để có thể áp dụng vào các lĩnh vực như: Số hóa tài liệu, lưu trữ thư viện, điện tử hóa văn phòng, nhận dạng và xử
lý ảnh
2.3 Nhiệm vụ nghiên cứu
Mục đích của luận văn đề cập được đến hai phần:
- Phần lý thuyết: Nắm rõ và trình bày những cơ sở lý thuyết liên quan đến cấu trúc trang tài liệu, một số kỹ thuật phân tích trang tài liệu, từ đó có để
có thể xác định tính quan trọng của bước này trong nhận dạng ký tự, đồng thời hiểu các công việc kế tiếp cần làm trong bước nhận dạng ký tự
- Phần phát triển ứng dụng: Áp dụng các thuật toán đã trình bày ở phần
lý thuyết từ đó đánh giá sự ảnh hưởng của tham số và chọn một giải pháp tối
ưu khi lựa chọn tham số và cài đặt thử nghiệm chương trình phân tích trang tài liệu
2.4 Phương pháp nghiên cứu
- Tìm kiếm, tham khảo, tổng hợp tài liệu từ các nguồn khác nhau để xây dựng phần lý thuyết cho luận văn
- Sử dụng các kỹ thuật được áp dụng phân tích trang tài liệu để làm rõ bản chất của các vấn đề được đưa ra trong phần lý thuyết
Trang 13- Xây dựng chương trình Demo, độ đo và thực nghiệm và thảo luận
2.5 Phạm vi nghiên cứu
Bài toán phân tích trang tài liệu đã được phát triển với nhiều thành tựu trong thực tế, có rất nhiều thuật toán tối ưu đã được các nhà khoa học đề nghị Tuy nhiên có thể nói chưa có một chương trình nào có thể “đọc” một ảnh văn bản như con người, vì thực tế có rất nhiều kiểu trang văn bản khác nhau, khác nhau về cấu trúc trình bày, ngôn ngữ, kiểu font, chữ viết tay,… Đây thực sự là một bài toán lớn, chính vì thế trong phạm vi của luận văn chỉ tìm hiểu một số
kỹ thuật phân tích trang văn bản tiêu biểu với mục đích để so sánh với một thuật toán mới chưa được đưa ra ở các đề tài trước Cuối cùng, dựa vào đó để xây dựng Demo cho một ứng dụng Các kết quả nghiên cứu dự kiến cần đạt được:
- Tìm hiểu tài liệu liên quan đến lĩnh vực quan tâm để nắm bắt được bản chất vấn đề đặt ra
- Báo cáo lý thuyết
- Chương trình Demo
- Kết quả thực kiệm
- Đánh giá kết quả
3 Bố cục của luận văn
Nội dung của luận văn được trình bày trong ba chương :
Chương 1: Tổng quan về phân tích trang tài liệu
Chương 2: Đánh giá sự ảnh hưởng của tham số đến kết quả phân tách của
thuật toán WhiteSpace
Chương 3: Cài đặt chương trình Demo và đánh giá kết quả
Trang 14CHƯƠNG 1 TỔNG QUAN VỀ PHÂN TÍCH ẢNH TÀI LIỆU 1.1 Tổng quan về phân tích ảnh tài liệu
1.1.1 Giới thiệu về ảnh tài liệu
Ảnhnh tài liệu được đề cập ở đây là các file ảnh số hoá thu được bằng cách dùng máy scanner, hoặc chụp từ Các máy ảnh số, hay nhận từ một máy fax Ảnh tài liệu có nhiều loại: ảnh đen trắng, ảnh đa cấp xám, ảnh đa cấp xám với các phần mở rộng như TIF, BMP, PCX, …(Hình 1.2) và ảnh tài liệu được đưa ra trong luận văn này là ảnh đa cấp xám
Tài liệu Thiết bị thu nhận ảnh Ảnh số tài liệu
Hình 1.1: Sơ đồ tổng quan quá trình tạo ảnh tài liệu
Hình 1.2: Ví dụ ảnh tài liệu
Trang 151.1.2 Hệ phân tích ảnh tài liệu
Ảnh tài liệu sau khi được quét và lưu trữ vào máy tính thì nó được cấu thành từ những điểm ảnh, nhiệm vụ của chúng ta là phải trích chọn được những thông tin đặc trưng từ nó sao cho máy tính có thể “đọc” và “hiểu” được các thành phần này Để làm được điều này người ta phải áp dụng các thuật toán kết hợp cùng với những kỹ thuật cả về phần cứng và phần mềm máy tính, sự tích hợp này là yếu tố chính tạo thành một hệ phân tích ảnh tài liệu Sau khi tạo được hệ phân tích ảnh, người ta tiến hành quá trình xử lý ảnh gồm việc thao tác lên ảnh đầu vào để cuối cùng cho ảnh đầu ra với kết quả đạt được những mục tiêu đã định trước đó Cụ thể là kết quả của ảnh đầu ra có thể
là một kết luận về sự nhận dạng hoặc là một ảnh đã được xử lý tốt hơn
Một trong những công nghệ khá phổ biến hiện nay được áp dụng để nhận dạng văn bản là công nghệ nhận dạng ký tự bằng quang học (Optical Character Recognition-OCR) Cơ chế chủ yếu của nó là nhận dạng ký tự trên nền định dạng ảnh tài liệu và chuyển sản phẩm nhận dạng được sang kiểu tập tin văn bản Từ đó OCR có thể giúp chúng ta thao tác trên văn bản như tạo, sửa đổi, xóa bỏ, tìm kiếm, thay thế nội dung của tài liệu Như vậy, mục tiêu của hệ phân tích ảnh tài liệu là phát hiện ra được các đối tượng khác nhau trong một ảnh tài liệu như chữ đánh máy, chữ viết bằng tay, hình ảnh, văn bản chia thành hàng, cột, v.v Đồng thời hệ phân tích này còn phải trích xuất được những thành phần trong ảnh tài liệu mà chúng ta mong muốn để phục vụ cho những mục đích nghiên cứu và ứng dụng khác nhau Và đặc biệt trong bài luận này là trọng tâm nhấn mạnh đến việc phát hiện được bảng biểu (detect table) trong ảnh tài liệu Trên cơ sở đặc điểm chung của một ảnh tài liệu thường có chứa hai loại đối tượng chính là văn bản và hình ảnh cũng như đa
số các công nghệ nhận dạng được áp dụng hiện nay, chúng ta có thể thấy rằng một hệ phân tích ảnh tài liệu thực hiện hai nhiệm vụ chính (xem hình 1.3)
Trang 16Nhiệm vụ thứ nhất là phải xử lý các đối tượng hình ảnh được cấu thành
từ hình vẽ, đường kẻ, dấu vân tay, khuôn mặt, những nốt đen lớn, biểu đồ,…Và nhiệm vụ thứ hai là phải xử lý các đối tượng văn bản cấu thành từ chữ viết như ký tự, từ, chuỗi ký tự, chữ viết tay Việc phát hiện độ nghiêng (tilt) của tài liệu (độ nghiêng của văn bản xuất hiện khi chúng ta quét ảnh 5 tài liệu từ máy quét đã đặt không chuẩn xác các vị trí của nó), phát hiện các phông chữ, độ lớn chữ, từ, cụm từ, dòng văn bản, đoạn văn bản và các cột văn bản là những công việc quan trọng và cần thiết để thực hiện việc phát hiện văn bản được ứng dụng công nghệ OCR như đã đề cập Sau khi thực hiện thành công hai nhiệm vụ chính, hệ phân tích ảnh tài liệu sẽ trích chọn những thông tin cần thiết đã phát hiện được, đưa vào một tài liệu ở một định dạng khác như tập tin văn bản (word) hoặc ngôn ngữ hiển thị siêu văn bản (Hyper Text Markup Language-HTML) Việc đầu tư tài chính, công nghệ, con người cùng các yếu tố liên quan để thiết kế và ứng dụng hệ phân tích ảnh tài liệu là rất cần thiết và vô cùng quan trọng Nó giúp chúng ta giải quyết rất nhiều vấn
đề trong thực tế khi mà số lượng các dữ liệu lớn Con người tiếp nhận và xử
lý thông tin nhờ vào các giác quan, nhưng có thể nói trong đó có khoảng 80%
là thu nhận bằng mắt Một vài ví dụ điển hình có thể minh chứng rằng thực sự cần thiết để sở hữu một hệ thống phân tích ảnh tài liệu nào đó Thứ nhất, ta là người phải nhập điểm số cho hàng trăm nghìn sinh viên trong một trường đại học được gửi về từ các giáo viên giảng dạy, theo cách làm truyền thống thì tại phòng xử lý điểm phải có ít nhất một người ngồi đọc điểm cùng với một người gõ vào máy tính Việc này vừa tốn thời gian, tốn chi phí nhân công, ít khách quan lại dễ xảy ra sai sót do yếu tố con người Thay vào đó, nhà trường
có thể thiết kế phiếu điểm giao cho giảng viên trong đó đã có sẵn các giá trị từ
1 đến 10 cho mỗi sinh viên và chỉ việc chấm điểm theo cách tô đen vào vị trí điểm số mà sinh viên đạt được Cuối cùng bảng điểm này được quét để máy
Trang 17tính phát hiện điểm số một cách tự động nhờ vào chấm đen mà giảng viên đã
tô đậm thông qua một hệ nhận dạng ảnh tài liệu, theo đó sẽ khắc phục được những nhược điểm của cách làm truyền thống
Thứ hai là, tại một doanh nghiệp sản xuất kinh doanh với số nhân công hàng chục ngàn người làm việc trong ngày, trong các công đoạn chấm công
có việc kiểm tra sự có mặt của nhân viên vào đầu giờ và cuối giờ làm Với phương pháp truyền thống doanh nghiệp phải cử ra rất nhiều người để theo dõi các nhân viên còn lại việc vào và ra khỏi công ty phải đúng giờ Việc này
đã được khắc phục nhằm đem lại sự thuận lợi, chính xác và ít tốn kém bằng cách sử dụng một máy chấm công bằng vân tay, trong đó tích hợp công nghệ
xử lý và so sánh dấu vân tay bảo đảm công tác thống kê số giờ làm mà không cần sự theo dõi trực tiếp của con 6 người Trong đó, máy chấm công bằng dấu vân tay ứng dụng hệ phân tích ảnh tài liệu
Hình 1.3: Sơ đồ khối liệt kê nhiệm vụ xử lý ảnh tài liệu được phân chia
theo cấp bậc trong mỗi vùng của ảnh
Trang 18Hệ phân tích ảnh tài liệu đã được sử dụng trong vài thập kỷ qua, đặc biệt là trong ngành kinh doanh ngân hàng, bưu điện, thư viện,…ứng dụng để máy tính đọc mã vạch hoặc lưu trữ tài liệu ở dạng điện tử, vào cuối những năm 1980 và 1990 thì đã phát triển nhanh chóng Lý do chủ yếu của việc phát triển này là tốc độ ngày càng lớn và chi phí thấp hơn của phần cứng máy tính
Kể từ khi máy fax trở nên phổ biến, chi phí của máy quét quang học cho các tài liệu đầu vào giảm xuống đã giúp các doanh nghiệp nhỏ cũng như mỗi cá nhân có cơ hội được sử dụng những công nghệ này Mặc dù ảnh tài liệu có chứa một lượng tương đối lớn dữ liệu, thì ngay cả máy tính cá nhân hiện nay cũng đã có tốc độ đủ để xử lý chúng Bộ nhớ máy tính bây giờ không những đủ cho các hình ảnh tài liệu lớn, mà quan trọng hơn, bộ nhớ quang học bây giờ cũng đủ để lưu trữ khối lượng lớn dữ liệu Điều này dẫn đến ngày càng phát triển công nghệ nhận dạng và xử lý ảnh tài liệu Sự bổ sung cần thiết cho những cải tiến phần cứng là những tiến bộ đang được thực hiện trong việc phát triển các thuật toán và phần mềm phân tích ảnh tài liệu Trong đó công nghệ OCR có khả năng nhận dạng văn bản với độ chính xác lên đến khoảng 90%, bên cạnh đó nhiều phương pháp nhận dạng ảnh tài liệu khác cũng được cải tiến gần như xử lý ảnh tài liệu xử lý văn bản xử lý đối tượng ảnh Nhận dạng ký tự quang học phân tích bố trí trang xử lý đường kẻ
xử lý biểu tượng và vùng văn bản phát hiện độ nghiêng, dòng, khối và đoạn văn bản Đường thẳng, góc và các đường cong Lấp đầy các khu vực Hình 1.1:
Sơ đồ khối liệt kê nhiệm vụ xử lý ảnh tài liệu được phân chia theo cấp bậc trong mỗi vùng của ảnh[15] Theo đó, các tài liệu viết tay hoặc tài liệu đã được in ấn hay những hình ảnh có thể được chuyển thành tài liệu điện tử trên máy tính để thuận tiện trong việc lưu trữ, quản lý, chỉnh sửa và biên soạn lại Tuy nhiên, tài liệu giấy cho đến nay vẫn đang phát huy vai trò truyền thống của nó do tính chất trực quang, dễ thao tác, phổ biến được rộng rãi đối với
Trang 19mọi đối tượng sử dụng Vì vậy, chúng ta phải tìm cách giải quyết vấn đề là sử dụng công nghệ và các thuật toán để tích hợp dữ liệu dưới dạng ảnh tài liệu vào trong bộ nhớ phần cứng để xử lý bằng máy tính Sau khi đã tạo ra dữ liệu, máy tính phải thực hiện các bước xử lý cơ bản như xử lý điểm ảnh, phân tích các thành phần đặc trưng, phân tách từng thành phần phát hiện riêng biệt là phát hiện hình ảnh và phát hiện văn bản
Hình 1.4: mô phỏng một chuỗi các bước trong phân tích hình ảnh tài liệu phổ biến
Các phần tiếp theo sẽ trình bày vắn tắt một số bước cơ bản này Sau khi thu thập dữ liệu, hình ảnh trải qua xử lý cấp độ điểm ảnh và phân tích tính năng, sau đó mỗi loại đối tượng văn bản và hình ảnh được phát hiện và xử lý riêng Thu thập dữ liệu được thực hiện trên một tài liệu giấy thường bằng cách quét quang học Các dữ liệu sau đó được lưu trữ trong một tập tin hình ảnh, gọi là điểm ảnh, được lấy mẫu trong một mô hình mạng lưới xuyên suốt ảnh
Trang 201.1.3 Quá trình thu nhận ảnh tài liệu
Ảnh tài liệu thường được thu thập bằng cách quét quang học thông qua máy quét hoặc bằng cách sao chép hình ảnh và những đoạn phim kỹ thuật số
từ máy chụp hoặc máy quay phim (camera) rồi được lưu trữ vào máy tính dưới dạng một tập tin ảnh gồm có các yếu tố hình ảnh, hoặc điểm ảnh, đó là
“nguyên liệu” đầu vào để phân tích ảnh tài liệu sau này Dữ liệu lúc này được tập hợp là các điểm ảnh (pixels) và được mô phỏng thành tập hợp của một lưới các điểm ảnh (a grid pattern) [15] Các thiết bị thu nhận ảnh tài liệu có hai loại chính tương ứng với hai loại ảnh thông dụng Vector và Raster Theo
đó, quá trình thu nhận ảnh tài liệu thực hiện các công đoạn chính gồm việc biến đổi năng lượng quang học thành năng lượng điện gọi là cảm biến và tổng hợp năng lượng điện thành ảnh gọi là quá trình lượng tử hóa (Đỗ Năng Toàn-2008) Với ảnh nhị phân thì cường độ điểm ảnh có thể nhận một trong hai giá trị OFF (0) hoặc ON (1) (Hình 1.5) Đối với ảnh đa cấp xám thì cường độ điểm ảnh nhận giá trị từ 0 đến 255 và với ảnh màu thì giá trị điểm ảnh nhận 3 kênh là R, G, B từ 0 đến 255 giá trị màu sắc Thí dụ, với một trang ảnh tài liệu
có kích thước 30x40 cm và có 140 điểm ảnh trong 1 centimet thì tạo được ảnh với 4200x5600 điểm ảnh Từ đó cho thấy rằng một ảnh tài liệu thông thường
là tập hợp của các giá trị điểm ảnh mà người ta đã dùng các bộ cảm biến hoặc máy quét để biến tín hiệu quang thành tín hiệu điện liên tục, rồi thì khắc phục hiện tượng chồng phổ, thực hiện lượng tử hóa cùng với các công đoạn kỹ thuật khác và cuối cùng sẽ trích chọn được các thông tin phù hợp
Trang 21Hình 1.5 Một hình ảnh nhị phân của chữ "e" được thực hiện lên ON và OFF các điểm ảnh, ON điểm ảnh được hiển thị ở đây là "X"[15] 1.1.4 Vai trò của phân tích ảnh tài liệu
Ngày nay, máy tính đang phát triển mạnh mẽ, tốc độ xử lý không ngừng được nâng lên Cùng với nó là sự ra đời của các phần mềm thông minh
đã khiến máy tính ngày một gần gũi với con người hơn Một trong các khả năng tuyệt vời của con người mà các nhà khoa học máy tính muốn đạt được
đó là khả năng nhận dạng và lĩnh vực nhận dạng thu được nhiều thành công nhất là nhận dạng ký tự quang OCR–Optical Character Recognition OCR có thể được hiểu là quá trình chuyển đổi tài liệu dưới dạng file ảnh số hoá (là dạng chỉ có người đọc được) thành tài liệu dưới dạng file văn bản (là tài liệu
mà cả người và máy đều có thể đọc được) OCR có rất nhiều ứng dụng hữu ích trong cuộc sống như:
- Sắp xếp thư tín, dựa vào việc nhận dạng mã bưu chính (Zipcode) hay địa chỉ gửi tới
- Tự động thu thập dữ liệu từ các mẫu đơn/báo biểu hay từ các hồ sơ lao động
- Hệ thống tự động kiểm tra trong ngân hàng (tự động xác nhận chữ ký)
- Tự động xử lý các hóa đơn hay các yêu cầu thanh toán
- Hệ thống tự động đọc và kiểm tra passport
Trang 22- Máy đọc cho những người khiếm thính
- Các ứng dụng Datamining
- …
Sơ đồ một hệ thống OCR cơ bản ở Hình 1.6 Trong đó:
- Scanner: Thiết bị quét ảnh
- OCR hardware/software:
o Document analysis: Phân tích tài liệu
o Character recognition: Nhận dạng ký tự
o Contexttual processor: Xử lý văn cảnh
- Output interface: Đầu ra
Vai trò chính của khâu phân tích ảnh tài liệu là việc phân đoạn trang, tách vùng văn bản ra khỏi nền và đồ họa tạo mẫu chuẩn cho khâu nhận dạng
Rõ ràng là kết quả của khâu phân tích này ảnh hưởng rất lớn đến hiệu qủa của khâu nhận dạng nếu sử dụng mẫu hay các chuỗi văn bản đầu ra của nó
Hình 1.6: Sơ đồ OCR cơ bản
Trang 231.2 Cấu trúc của ảnh tài liệu
Có hai loại cấu trúc của tài liệu được quan tâm ở đây đó là cấu trúc vật
lý hay bố cục vật lý và cấu trúc logic mô tả mối quan hệ logic giữa các vùng đối tượng trong tài liệu
- Top-down: Thuật toán này bắt đầu từ vùng lớn nhất chứa cả trang tài liệu sau đó liên tục phân chia thành các vùng nhỏ hơn
- Các thuật toán không theo thứ bậc: như Fractal Signature, Adaptive split-and-merge …
Hình 1.7: Cấu trúc vật lý: c, d-Cấu trúc logic của một tài liệu
Trang 241.2.2 Cấu trúc logic
Ngoài bố cục vật lý, các trang tài liệu còn chứa đựng nhiều thông tin về ngữ cảnh và nội dung như các tiêu đề, đoạn văn, đề mục, … Thông thường phân tích cấu trúc logic của tài liệu được thực hiện trên kết quả của bước phân tích bố cục vật lý Tuy nhiên với một số loại tài liệu phức tạp, thì pha phân tích bố cục vật lý lại cần thêm một số thông tin logic liên quan đến các vùng
để có thể phân đoạn một cách chính xác Hình 4(c,d) mô tả một ví dụ cấu trúc logic của tài liệu
1.3 Phân tích trang tài liệu
Ảnh tài liệu chứa rất nhiều loại vùng thông tin khác nhau như các block, lines, words, figures, tables và background Ta có thể gọi các vùng này theo chức năng của nó trong tài liệu hoặc gán cho nó các nhãn logic như sentences, titles, captions, address,… Quá trình phân tích tài liệu là thực hiện việc tách một tài liệu thành các vùng theo một tiêu chuẩn hay mối quan hệ lẫn nhau nào đấy Công việc này được thực hiện qua nhiều bước như tiền xử lý, tách vùng, lặp cấu trúc tài liệu,… Một số loại tài liệu như báo, tạp chí, sách quảng cáo, chúng có cấu trúc và bố cục rất phức tạp và không có một form chung nào cả (Hình 5)
Với con người để có thể đọc hiểu được một trang tài liệu còn cần thêm nhiều kiến thức bổ sung như ngôn ngữ, hoàn cảnh, các luật ngầm định, vì thế việc tự động phân tích các trang tài liệu một cách tổng quát là một việc rất khó khăn thậm chí là không khả thi ngay cả với các hệ thống phân tích tài liệu tiên tiến nhất[15]
Trang 25Hình 1.8: Ví dụ loại tài liệu có bố cục phức tạp
Sơ đồ nguyên lý của một hệ thống tự động phân tích tài liệu như sau:
Hình 1.9: Sơ đồ nguyên lý hệ thống xử lý tài liệu[15]
Trang 261.3.1 Tiền xử lý (preprocessing):
Hầu hết các ảnh tài liệu đều có nhiễu do quá trình thu nhận ảnh gây ra
(môi trường, chất lượng máy quét, máy ảnh), vì thế trong quá trình xây dựng các thuật toán phân tích cần loại bỏ các nhiễu này và công việc này thường được tiến hành trước khi bắt đầu phân tích bố cục hay cấu trúc và gọi là Tiền
xử lý Nhiệm vụ chính của bước này là loại bỏ nhiễu, tách nền ra khỏi nội dung, phát hiện và xoay góc nghiêng,…
Lọc nhiễu (noise removal):
Nhiễu luôn là một vấn đề trong hầu hết các bài toán đọc hiểu tài liệu Nhiễu sinh ra không chỉ do quá trình scan ảnh mà còn bao gồm cả các nhiễu trắng gây ra từ chính sensor hay các mạch thu nhận trong các máy thu nhận ảnh số Nhiễu có thể được loại bớt sử dụng một số các kỹ thuật như lọc trung bình, lọc trung vị, lọc thông thấp,…
“phần nổi” là một công việc khó khăn Ta có thể tách nền bằng một số kỹ thuật như sau:
- Gán mỗi điểm ảnh vào “phần nổi” hay phần nền dựa theo một tiêu chí nào đấy (như ngưỡng mức xám, …)
- Dựa theo độ đo xác suất xuất hiện của mỗi điểm ảnh mà phân lớp nó vào nền hay phần nổi
- Dựa vào các pixel liên thông kết hợp với mạng noron để phân tách
Trang 27Hình 1.10: a - Ảnh gốc b - Ảnh sau khi tách nền Xác định góc nghiêng:
Do quá trình thu nhận ảnh (như đặt lệch tài liệu khi scan,…) ảnh tài liệu thu được rất có thể bị nghiêng, tức trục của các dòng văn bản không song song với trục ngang (Hình 8) Việc xác định được góc nghiêng và xoay lại tài liệu là một khâu rất quan trọng ảnh hưởng đến hiệu quả trong một số thuật toán phân tích Ví dụ như các thuật toán dựa theo biểu đồ sau phép chiếu nghiêng để tiến hành phân tích thì sẽ hoàn toàn thất bại nếu văn bản bị nghiêng Tuy nhiên việc có thể tự động ước lượng được chính xác góc nghiêng của ảnh tài liệu là một bài toán khó Có nhiều kỹ thuật để có thể xác định được góc nghiêng của tài liệu, điểm chung trong hầu hết các thuật toán là xác định góc nghiêng bằng việc xác định hướng của các dòng văn bản dựa vào vị trí một số ký tự trong tài liệu
1.3.2 Phân tích cấu trúc vật lý
Phân tích tài liệu được định nghĩa là quá trình xác định cấu trúc vật lý của một tài liệu Trong khâu này thì từ một ảnh tài liệu đầu vào sẽ được chia thành một số khối (block) chứa các nội dung thành phần của tài liệu như các
Trang 28dòng văn bản, tiêu đề, đồ họa, cùng với có hoặc không các tri thức biết trước về định dạng của nó[15] Có một số phương pháp phân tích và được phân ra làm hai loại như sau:
Các phương thức có thứ bậc: Trong quá trình chia tài liệu thành các block chúng ta quan tâm đến mối quan hệ về mặt hình học giữa các block Có
ba phương pháp thuộc loại này là:
o Phân tích top-down (trên xuống)
o Phân tích buttom-up (dưới lên)
o Phân tích kiểu Adaptive split-and-merge (tách và nối thích nghi) Các phương pháp không có thứ bậc: Trong quá trình chia tài liệu thành các khối chúng ta không quan tâm đến mối quan hệ hình học giữa các block
Hình 1.11: Ví dụ một ảnh tài liệu bị nghiêng một góc 5 độ
Trang 291.3.3 Phân tích cấu trúc logic:
Từ kết quả của pha phân tích cấu trúc vật lý, phân tích cấu trúc logic sẽ
đi xác định mối quan hệ logic giữa các vùng đã được gắn nhãn như tiêu đề, văn bản, đề mục, hearder,… Bước này là cơ sở cho việc nhận dạng ký tự Việc xác định được vị trí chính xác của mỗi vùng trong cấu trúc logic sẽ tăng thêm thông tin cho quá trình nhận dạng như thông tin về ngữ cảnh, đoán nhận được kiểu font và kích thước chữ nếu biết nó thuộc vùng tiêu đề, đề mục hay trong đoạn văn,… (Hình 1.7)
Hình 1.12: Ví dụ một cây mô tả cấu trúc logic của một trang tài liệu[14]
Trang 301.4 Kết luận
Chương thứ nhất với những nội dung cơ bản và một số nội dung mới có liên quan mật thiết với hệ phân tích ảnh tài liệu Đặc biệt là đã đề cập một số công đoạn chính trong xuyên suốt quá trình kể từ lúc thu quét ảnh tài liệu đầu vào, đến lúc có thể phát hiện và trích chọn được những tính năng quan trọng
do người dùng đặt ra ban đầu Bên cạnh một số kỹ thuật truyền thống, kết hợp với việc tham khảo các tài liệu trong nước và thế giới đã có đề cập đến một số cải tiến, một số phương pháp cũng như ý tưởng mới của một số tác giả từng
có nhiều cống hiến và thành công trong lĩnh vực nghiên cứu xử lý ảnh Chương 2 và chương 3 của bài luận sẽ trình bày tiếp những nội dung sâu sắc hơn về bài toán tìm vùng trắng tối đa và thuật toán phân tách trang tài liệu WhiteSpace, quá trình thực nghiệm và một số kết quả đạt được
Trang 31CHƯƠNG 2 ĐÁNH GIÁ SỰ ẢNH HƯỞNG CỦA THAM SỐ ĐẾN KẾT QUẢ PHÂN TÁCH CỦA THUẬT TOÁN WHITESPACE
2.1 Các hướng tiếp cận và một số thuật toán phân tách trang tiêu biểu
Các thuật toán phân tách trang ảnh tài liệu được chia thành ba loại, tương ứng với ba cách tiếp cận khác nhau là từ trên xuống (top-down), từ
dưới lên (bottom-up) và phương pháp lai ghép (hybrid)
2.1.1 Hướng tiếp cận Top-down
a) Tổng quan
Ý tưởng chính của thuật toán là phân tách liên tiếp từ một trang ban đầu thành các vùng cơ sở nhỏ hơn Các khối cơ sở ở đây là các khối như đoạn văn, tiêu đề, đồ họa,… Việc phân tách chúng thành các vùng riêng biệt dựa trên tiêu chí về ngưỡng khoảng cách mà phương pháp phổ thông nhất là xác định thông qua kết quả của phép chiếu nghiêng
Phép chiếu nghiêng theo hướng x bất kỳ: Thực chất là đi xác định lược
đồ xám bằng cách tính tổng các điểm ảnh đa cấp xám đen (hoặc trắng) theo phương vuông góc với x dọc theo trục y Trong thực tế x thường là phương nằm ngang hay phương thẳng đứng so với trang văn bản
Một ví dụ về phép chiếu nghiêng với một trang tài liệu cho ở 2.1): Trên lược đồ xám của phép chiếu nghiêng sẽ xuất hiện các điểm cực trị, với phép chiếu nghiêng theo phương thẳng đứng ta dễ nhận thấy độ rộng của các đáy chính là khoảng cách giữa hai dòng, với các độ rộng của đáy nào đó
(Hình-mà tần suất xuất hiện ít hoặc vượt quá một ngưỡng chính là khoảng các giữa hai vùng văn bản Còn tại vị trí các đỉnh là trục của mỗi dòng văn bản
Với phép chiếu nghiêng theo phương ngang ta có thể phân tách được các cột hay các vùng cơ sở dựa vào ngưỡng khoảng cách của đáy (Hình-2.3)
Trang 32Cũng theo nguyên tắc này nếu áp dụng phép chiếu nghiêng trên mỗi dòng văn bản ta cũng có thể phân đoạn được các ký tự hoặc các từ dựa vào khoảng cách của đáy (ví dụ như Hình-2.1)
Hình 2.1: Kết quả chiếu nghiêng theo phương ngang và phương
thẳng đứng của một trang tài liệu 4
Trang 33Hình 2.2: Phân tách cột dựa vào phép chiếu nghiêng theo phương ngang
Hình 2.3: Phép chiếu nghiêng theo phương ngang để phân đoạn ký tự hoặc từ
Trang 34b) Thuật toán X-Y Cut
Thuật toán X-Y Cut [17]còn được gọi là thuật toán đệ quy X-Y Cut (RXYC) RXYC là thuật toán đi từ trên xuống dựa vào một cây cơ sở Ở đây, gốc của cây cơ sở đại diện cho toàn bộ trang tài liệu Tất cả các lá cùng đại diện cho các phần phân khúc Thuật toán X-Y Cut chia tách các tài liệu thành hai hay nhiều khối chữ nhật đại diện cho nút của cây
Thuật toán X-Y Cut được sử dụng để phân khúc trang tài liệu trong hệ thống ORC Khi một tài liệu được scan, ảnh của file scan sẽ xuất hiện “noise”
có thể gọi là hiện tượng nhiễu Làm cho file ảnh vừa scan bị lệch đi nhiều hay
ít so với bản gốc, gây khó khăn cho việc phân đoạn tài liệu.Thuật toán X-Y Cut là một trong những thuật toán được đưa ra để giải quyết tình trạng này
Input: Ảnh sau khi được quét Output: Ảnh được xử lý thành từng khối chữ nhật
Bước 1 Loại bỏ nhiễu ở biên của phân đoạn;
- Lấy các tài liệu quét;
- Chọn một điểm ảnh (X,Y) từ tài liệu và nhận được và kết nối với những điểm ảnh tương ứng, làm như vậy cho 8 điểm ảnh xung quanh ta có được giá trị của các điểm ảnh còn lại (X-1,Y),Right( X+1,Y),Top(X, Y+1), Bottom(X,Y-1) và điểm ảnh bốn chéo {(X-1,Y-1),(X+1,Y-1),(X- 1,Y+1),(X+1,Y+1)};
- Nếu tất cả các điểm ảnh kết nối là màu đen sau đó thay đổi tất cả các điểm kết nối với màu trắng và tiếp tục này quá trình cho đến khi toàn bộ tài liệu được bao phủ bằng cách khác quá trình điểm ảnh tiếp theo và lặp lại bước 1
Bước 2 Tạo bảng tổng hợp tiền tố cho hệ thống OCR;
Bước 3 Tạo biểu đồ cho các giá trị điểm ảnh tại mỗi nút;
Trang 35Bước 4 Tạo một giá trị ngưỡng (Tx, Ty) tương ứng với trục X và trục
Y;
Bước 5 So sánh (Tx, Ty) với thung lũng biểu đồ (Vx và Vy ) 5.1 Nếu
Vx > Tx hoặc Vy > Ty thì: + Chia tại trung điểm; + Quay lại bước 4; 5.2 Ngược lại, thực hiện bước 6
Bước 6 Kết thúc thuật toán;
Kết quả thực hiện của thuật toán X-Y Cut cải tiến với một ảnh tài liệu đầu vào thực tế được thể hiện như hình sau:
Hình 2.4: Kết quả thực hiện của thuật toán X-Y Cut
c) Ưu điểm:
Điểm mạnh của các thuật toán này là độ phức tạp tính toán thấp, cho kết quả phân tách tốt trên những trang ảnh có cấu trúc rectangular (những vùng ảnh văn bản có thể xác định đường biên là các hình chữ nhật)
d) Nhược điểm:
Phân tích top-down tồn tại một số nhược điểm như:
Trang 36- Kém hiệu quả với các loại tài liệu có bố cục phức tạp (Hình 2.5)
- Cần xoay ảnh về đúng vị trí ngang nếu ảnh bị nghiêng (Hình 2.6) - Làm việc tốt chỉ với ảnh nhị phân
- Kém hiệu quả với các trang tài liệu sử dụng nhiều loại font và size khác nhau
- Thông thường top-down được sử dụng cho các loại tài liệu biết trước form bố cục, và có bố cục vật lý đơn giản
Hình 2.5: Lược đồ chiếu ngang của một dòng chữ nghiêng
- rất khó phân đoạn ký tự
Trang 37Hình 2.6: Lược đồ chiếu đứng của trang tài liệu bị nghiêng
Trang 382.1.2 Hướng tiếp cận Bottom-up
a) Tổng quan
Bottom-up bắt đầu với những phần nhỏ và tìm cách nhóm chúng vào những phần lớn hơn, liên tiếp tới khi mọi khối trên trang được xác định Thực hiện phép nhóm bottom-up các phần văn bản nhờ một loạt thao tác làm trơn theo loạt, theo các hướng Kết quả thu được là các vùng ON và ta phân tích các vùng liên thông trên đó Tính toán một vài số liệu trên những vùng liên thông này, ví dụ khoảng chiều cao và chiều dài các từ Những thông tin đặc trưng này được dùng để phân biệt các khối văn bản và phân biệt phần văn bản
và phần đồ họa Esposito đã dùng cách tiếp cận tương tự, nhưng trước hết xác định hợp biên của từng ký tự, sau đó thao tác trên hợp biên này, thay vì trên từng pixel nhằm giảm lượng tính toán Một số thuật toán tiêu biểu cho hướng tiếp cận này là Smearing[15], Docstrum[14], Voronoi[16]
Phương pháp Docstrum bó cụm khác thực hiện với k lân cận gần nhất
để nhóm các ký tự và các dòng văn bản và các khối cấu trúc (Hình 2.8) Trước tiên, với mỗi phần tài liệu, xác định các đường nối k lân cận gần nhất với các phần xung quanh Khoảng cách và góc của các đường nối này được vẽ trên các biểu đồ Vì hầu hết các đường nối được tạo giữa các ký tự cùng dòng, góc tối đa sẽ chỉ ra góc nghiêng và khoảng cách tối đa sẽ là khoảng cách giữa các ký tự Sử dụng các ước lượng này, các dòng văn bản được xác định như nhóm các ký tự và các từ dọc theo hướng của trang Các dòng văn bản được nhóm thành các khối sử dụng đặc tính của tài liệu là các dòng cùng khối thường gần nhau hơn các dòng khác khối
Trang 39Hình 2.8: Phương pháp Dostrum cho phân tích định dạng trang (a) Một phần của nội dung văn bản gốc (b) Các thành phần lân cận gần nhất được xác định (c) Các hình chữ nhật tối thiểu tạo nên nhóm láng giềng gần
nhất từ đó xác định được dòng văn bản
Trang 40b) Thuật toán Smearing
Thuật toán Smearing Còn gọi là RLSA(The run-length smearing algorithm)[15], thuật toán này dựa trên việc làm nhòe/mờ các ảnh điểm đen trên một hình ảnh nhị phân Quá trình này sẽ làm mờ các điểm ảnh đen trên một trang mà theo đó các điểm ảnh trắng nhỏ sẽ bị làm đen
Thuật toán được mô tả cụ thể như sau:
Input: Ảnh sau khi được quét: I
Output: Ảnh J chứa các vùng thông tin được xác định
Bước 1: Nhị phân ảnh đầu vào
+ Các điểm trắng (white pixels) được thể hiện bằng giá trị 0
+ Các điểm đen (black pixels) được thể hiện bằng giá trị 1
Bước 2: I1 Ảnh I được làm mờ theo phương ngang với giá trị ngưỡng Th
Bước 3: I2 Ảnh I được làm mờ theo phương thẳng đứng với ngưỡng Tv
Bước 4: J I1AND I2
Bước 5: Làm mờ ảnh J theo phương ngang với ngưỡng Ts
Bước 6: Liên kết các các thành phần liên thông thành các vùng văn bản
Việc làm mờ sẽ được thực hiện dựa trên 2 quy tắc đơn giản:
Quy tắc 1: Bit 0 sẽ được chuyển thành 1 nếu số liền sát 0 nhỏ hơn hoặc bằng
với ngưỡng C nhất định (nếu độ dài một chuỗi của 0 nhỏ hơn hoặc bằng với một ngưỡng, thì 0 sẽ được đổi thành 1)
Quy tắc 2: Bit 1 không đổi
Xem xét ví dụ dưới đây, khi 0 tượng trưng cho điểm ảnh trắng và 1 tượng trưng cho điểm ảnh đen, dòng đầu tiên thể hiện chuỗi điểm ảnh nguyên bản và dòng thứ 2 là kết quả thu được sau khi sử dụng phương pháp làm mờ