1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nhận dạng các biểu mẫu tài liệu

109 402 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 109
Dung lượng 2,03 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Với nội dung chính là trình bày những lý thuyết cơ bản về tiền xử lý ảnh, phân vùng ảnh khóa luận được tổ chức như sau: Chương 1: Tổng quan Phần đầu của chương giới thiệu về bài toán nh

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

PHAN VĂN THUẬN

NHẬN DẠNG CÁC BIỂU MẪU TÀI LIỆU

Chuyên ngành: Công nghệ thông tin

Mã số: 1.01.10

LUẬN VĂN THẠC SỸ

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS NGÔ QUỐC TẠO

HÀ NỘI – 2007

Trang 2

MỤC LỤC

MỞ ĐẦU

CHƯƠNG 1 - Tổng quan 9

1.1 Đặt vấn đề 9

1.2 Nội dung và cấu trúc của luận văn 11

CHƯƠNG 2 - Khái quát một số phương pháp phân vùng ảnh và khử nghiêng 13

2.1 Tổng quan về xử lý biểu mẫu. 13

2.1.1 Các đặc trưng của biểu mẫu 13

2.1.2 Quá trình xử lý biểu mẫu dựa trên Ngôn ngữ mô tả biểu mẫu 13

2.1.3 Quá trình xử lý biểu mẫu dựa trên đăng ký biểu mẫu (Form registration) 15

2.1.4 Hệ thống xử lý biểu mẫu 15

2.2 Các kỹ thuật thường được sử dụng trong nhận dạng cấu trúc biểu mẫu. 16

2.2.1 Chỉnh độ nghiêng của văn bản biểu mẫu 17

2.2.1.1 Phân tích hình ảnh của phép chiếu 18

2.2.1.2 Xác định góc nghiêng dựa vào biến đổi Hough 20

2.2.1.3 Phân cụm hàng xóm gần nhất 22

2.2.1.4 Sự tương quan của các đường thẳng 24

2.2.1.5 Một số kỹ thuật tính góc nghiêng khác 25

2.2.1.6 Bảng tổng kết về các thuật toán xác định góc nghiêng 27

2.2.2 Phân tích trang 28

2.2.2.1 Các kỹ thuật phân vùng ký tự 30

2.2.2.2 Các kỹ thuật phân vùng trang văn bản 36

2.2.2.3 Các kỹ thuật kết hợp phân vùng/phân lớp 41

2.2.2.4 Các kỹ thuật phân lớp khối 47

2.2.2.5 Bảng tổng kết về các kỹ thuật phân tích trang 54

CHƯƠNG 3 - Đề xuất giải pháp sử dụng biểu mẫu động 59

3.1 Hệ thống xử lý biểu mẫu động 59

3.1.1 Giới thiệu về hệ thống xử lý biểu mẫu 59

3.1.2 So sánh với các phương pháp truyền thống 60

3.1.3 Phương pháp nhân dạng cơ bản 61

3.1.4 Thiết kế hệ thống 62

3.1.4.1 Kiến trúc hệ thống 62

3.1.4.2 Hệ thống chuẩn bị biểu mẫu 62

3.1.4.3 Hệ thống xử lý biểu mẫu 65

3.1.4.4 Ứng dụng 68

3.2 Các thuật toán xử lý ảnh áp dụng cho xử lý biểu mẫu động 69

Trang 3

3.2.1 Khái niệm biểu mẫu động 69

3.2.2 Lược đồ xử lý biểu mẫu động 71

3.2.3 Các phương pháp tách chữ viết tay ra khỏi khung điền 72

3.2.3.1 Tìm hiểu các thuật toán tách cơ bản 72

3.2.3.2 Tách chữ viết tay ra khỏi khung điền 73

3.2.4 Xác định vị trí các khung điền 75

3.2.4.1 Phương pháp chiếu 75

3.2.4.2 Phương pháp bỏ qua các khoảng trắng 76

3.2.5 Xác định thông tin ẩn chứa trong các khung điền 77

3.3 Các thuật toán khác áp dụng cho biểu mẫu động 77

3.3.1 Thuật toán bóc viền 78

3.3.2 Thuật toán xác định góc nghiêng 82

3.3.2.1 Thuật toán sử dụng phép chiếu 82

3.3.2.2 Thuật toán sử dụng đường thẳng dày 88

3.4 Thực nghiệm 91

3.4.1 Môi trường thực nghiệm 91

3.4.2 Thực nghiệm đối với các thuật toán cơ bản trên biểu mẫu động 91

3.4.2.1 Thực nghiệm tách chữ viết tay khỏi khung điền 91

3.4.2.2 Thực nghiệm xác định vị trí các khung điền thông tin 92

3.4.2.3 Thực nghiệm xác định cấu trúc điểm nhỏ trong từng khung 93

3.4.3 Thực nghiệm đối với các thuật toán khác 93

3.4.3.1 Xác định góc nghiêng của ảnh theo phương pháp chiếu 93

3.4.3.2 Thực nghiệm nhận dạng đường thẳng dày 95

Kết luận 96

o TÀI LIỆU THAM KHẢO 98

Trang 4

DANH MỤC HÌNH ẢNH

Hình 2.1: Lược đồ quá trình xử lý biểu mẫu dựa trên Ngôn ngữ mô tả biểu mẫu 14

Hình 2.2: Một hệ thống xử lý biểu mẫu văn bản 15

Hình 2.3: (a) Ảnh trước khi khử nghiêng; (b) Ảnh sau khi khử nghiêng 18

Hình 2.4: (a), (b), (c) : Các đối tượng trên ảnh ; (d), (e), (f) : Phân cụm các đối tượng [17] 23

Hình 3.1 Phân tách chữ viết tay và các khung 62

Hình 3.2 Hệ thống biểu mẫu động 62

Hình 3.3: Data set 65

Hình 3.4: Vùng mã hóa thông tin 65

Hình 3.5: Một minh họa về biểu mẫu động 66

Hình 3.6: Luồng xử lý 67

Hình 3.7: Hình ảnh của chấm nhỏ 69

Hình 3.8: Một cấu trúc của khung 69

Hình 3.9: Một biểu mẫu động 69

Hình 3.10: Một số cấu trúc chấm nhỏ 70

Hình 3.11: Một lược đồ xử lý biểu mẫu động 71

Hình 3.12 : Khung trước khi tách 74

Hình 3.13 : Khung sau khi đã tách chữ viết tay 74

Hình 3.14 : Chữ viết tay sau khi đã tách khung 74

Hình 3.15 : Phép chiếu theo chiều ngang 75

Hình 3.16 : Phép chiếu khung theo chiều dọc 75

Hình 3.17 : Phép chiếu theo chiều dọc các điểm ảnh 77

Hình 3.18: Ảnh scan có đường viền màu đen 78

Hình 3.19: Các kiểu hình dạng khác nhau của cụm, mỗi màu tương ứng với một cụm 79

Hình 3.20: Mô tả điểm lân cận trực tiếp 80

Hình 3.21: Mô tả điểm lân cận 80

Hình 3.22: Mô tả điểm nối 81

Hình 3.23: Ảnh scan có đường viền màu đen và ảnh sau khi đã bóc viền đen 82

Hình 3.24: (a) Ảnh scan, các đường màu đỏ là các đường chiếu ở góc nghiêng θ (b) Ảnh được xấp xỉ bởi các hình bình hành 84

Hình 3.25: (a) Ảnh scan (b) (c) (d) Ảnh các đường chiếu đen và trắng ở các góc nghiêng -2.5 0 , -3.5 0 , 2 0 85

Hình 3.26: (a) Ảnh scan (b) Ảnh sau khi chính xác góc nghiêng 87

Hình 3.27 Ảnh trước và sau khi xoay đúng chiều 90

Hình 3.28 Phiếu trả lời được quét ngược chiều 90

Trang 5

DANH MỤC BẢNG BIỂU

Bảng 2.1 Một số đặc tính của các kỹ thuật chỉnh góc nghiêng 28

Bảng 2.2 Sự phân lớp của các thuật toán phân tích trang 29

Bảng 2.3 Các đặc trƣng của các kỹ thuât phân vùng ký tự 55

Bảng 2.4 Các đặc trƣng của kỹ thuật phân vùng trang 56

Bảng 2.5 Các đặc trƣng của các kỹ thuật kết hợp phân vùng/phân lớp 57

Bảng 2.6 Các đặc trƣngcủa các kỹ thuật phân lớp khối 58

Bảng 3.1: Character Type 64

Bảng 3.2 : Direction 64

Bảng 3.3: Kết quả thực nghiệm tách chữ ra khỏi khung điền bằng phép toán gán nhãn 91

Bảng3.5: Kết quả thực nghiệm xác định vị trí các khung điền 92

Bảng 3.6: Kết quả thực nghiệm xác định cấu trúc điểm nhỏ 93

Bảng 3.7 Kết quả thực nghiệm xác định góc nghiêng với một số góc tiêu biểu 94

Bảng 3.8: Kiểm thử hiệu năng 94

Trang 6

dạng chữ Trong luận văn này chúng tôi trình bày một phương pháp sử dụng “cấu

trúc các chấm nhỏ” để tạo ra các khung điền thông tin Cấu trúc các chấm nhỏ này

được tạo ra bởi rất nhiều các chấm nhỏ hoặc các đoạn thẳng nhỏ Phương pháp của chúng tôi có những đặc điểm nổi bật sau:

 Không cần thiết kế biểu mẫu có màu sắc mà vẫn tách các ký tự chữ viết tay ra khỏi khung điền

 Dễ dàng tách phần chữ viết tay ra khỏi khung điền một cách nhanh chóng và dễ dàng bằng các thuật toán xử lý ảnh đơn giản, đặc biệt trong các trường hợp chữ viết tay đè lên khung

 Chi phí cho xử lý biểu mẫu là thấp

 Không cần biết trước vị trí logic của các khung điền chữ và tìm cách

Trang 7

CHƯƠNG 1 - Tổng quan 1.1 Đặt vấn đề

Trong thực tế, công việc nhập dữ liệu chiếm một chi phí khá lớn do khối lượng dữ liệu phải nhập và công sức bỏ ra để đảm bảo việc nhập có độ chính xác cao Vì thế từ lâu vấn đề nhập liệu tự động đã được đầu tư nhiều Nguồn dữ liệu phổ biến nhất là các văn bản trên giấy, do đó giải pháp chủ yếu là phải lấy ảnh và nhận dạng Nhận dạng là bài toán đã xuất hiện khá lâu và đã đạt được nhiều thành tựu to lớn Tuy nhiên nhận dạng một văn bản bất kì bao gồm cả các văn bản có lẫn chữ viết tay hay hình ảnh luôn là một bài toán khó và hiện nay vẫn chưa thật sự có giải pháp hoàn chỉnh

Trên thế giới, hiện đã có nhiều ứng dụng liên quan đến vấn đề nhận dạng văn bản hay nhập dữ liệu tự động Có thể kể đến như : sản phẩm FineReader, Scan

To Office của hãng ABBYY, Smart scan Xpress của Pegasus Image, các ứng dụng chấm thi tự động …Ở Việt Nam cũng đã có các ứng dụng nhận dạng văn bản như VNDocR của Viện Công nghệ Thông tin hay ImageScan của CardPro Đây là các ứng dụng nhận dạng chữ in Việc nhận dạng chữ viết tay đang còn là một thách thức Một số nghiên cứu về nhận dạng chữ viết tay đã được thực hiện tại Viện CNTT và Bộ môn Công nghệ Phần mềm Tuy nhiên các ứng dụng này hiện vẫn còn rất nhiều hạn chế do khả năng nhận dạng chữ viết tay chưa đạt được độ chính xác cần thiết để có thể áp dụng rộng rãi trên thực tế

Có hai đối tượng văn bản cần nhận dạng có đặt trưng khác nhau đòi hỏi có các phương pháp xử lý khác nhau Đó là nhận dạng văn bản phi cấu trúc và nhận dạng văn bản kiểu biểu mẫu với các dữ liệu chữ được sắp xếp trong những vùng xác định Cùng với sự phát triển của công nghệ xử lý ảnh hiện nay, các thuật toán nhận dạng ngày càng chính xác và đưa ra được các kết quả đáng tin cậy Ngay cả đối với chữ viết tay cũng có thể đạt được độ chính xác cao với điều kiện là chỉ nhận dạng từng chữ riêng biệt và chữ viết đẹp Với các văn bản thông thường, ta khó có thể đạt

Trang 8

được điều này Tuy nhiên, các biểu mẫu nhập liệu là kiểu văn bản có cấu trúc và ta

có thể đưa ra một số quy tắc ràng buộc để tăng độ chính xác cho việc nhận dạng - chẳng hạn như: các chữ được viết riêng rẽ trên các ô riêng biệt của các vùng nhập liệu Mặt khác, việc nhận dạng chữ viết không cần thiết phải tiến hành trên toàn bộ ảnh của tài liệu mà chỉ giới hạn ở những vùng nhập dữ liệu Đặc điểm này cũng cho phép ta tiếp cận bài toán một cách có hiệu quả hơn, chẳng hạn có thể sử dụng các thông tin sẵn có từ thiết kế biểu mẫu làm tham số nhận dạng Một khía cạnh khác của nhận dạng biểu mẫu tài liệu là các dữ liệu nhận dạng được của mỗi vùng của

biểu mẫu sẽ phải được tự động gắn vào một trường dữ liệu xác định của ứng dụng

Luận văn này chỉ giới hạn tập trung trình bày về quá trình nhận dạng các vùng dữ liệu, trích chọn ra chữ viết tay để đưa vào module nhận dạng chữ tiếng

Việt Cụ thể, chúng tôi đề xuất sử dụng “biểu mẫu động” và các thuật toán xử lý trên biểu mẫu động, bao gồm xác định các khung điền thông tin, tách chữ viết tay ra

khỏi khung điền, mã hóa thông tin vào khung điền, giải mã các thông tin từ khung

điền dựa vào cấu trúc các điểm nhỏ Thêm vào đó, chúng tôi cũng sẽ đề xuất một

số thuật toán hỗ trợ để nâng cao tỉ lệ nhận dạng đúng Các giải pháp thực nghiệm bao gồm các công việc cụ thể như sau:

 Các thuật toán xử lý biểu mẫu động :

- Thuật toán xác định các khung điền thông tin

- Thuật toán tách chữ viết tay ra khỏi khung điền thông tin và ngược lại

- Thuật toán giải mã các thông tin

 Các thuật toán nâng cao độ chính xác:

- Thuật toán bóc biên

- Thuật toán chỉnh độ nghiêng dựa vào phép chiếu

- Thuật toán chỉnh độ nghiêng dựa vào đường thẳng dày

Trang 9

 Thực nghiệm

- Thử nghiệm độ chính xác của các thuật toán

- Đánh giá kết quả, hiệu quả của thuật toán và nhận xét

1.2 Nội dung và cấu trúc của luận văn

Bài toán con được thực hiện trong khoá luận này là bài toán phân vùng ảnh

và tách ra được các chữ viết tay để phục vụ cho module nhận dạng chữ viết tay Nắm bắt được khó khăn cũng như những đặc trưng của bài toán này, chúng tôi đã

áp dụng một giải pháp mới, đó là sử dụng biểu mẫu động, có độ chính xác cao trong

việc tiền xử lý biểu mẫu, phân vùng và tách ra được các chữ viết tay để nhận dạng

Với nội dung chính là trình bày những lý thuyết cơ bản về tiền xử lý ảnh, phân vùng ảnh khóa luận được tổ chức như sau:

Chương 1: Tổng quan

Phần đầu của chương giới thiệu về bài toán nhập dữ liệu tự động nói chung: tình hình Việt Nam và thế giới, các thành tựu đã đạt được trong lĩnh vực nhận dạng chữ viết, những khó khăn cũng như các đặc trưng của bài toán nhận dạng biểu mẫu nhập dữ liệu so với các bài toán nhận dạng khác Phần tiếp theo giới thiệu về hệ thống chung mà chúng tôi đang tiến hành nghiên cứu và xây dựng: nghiên cứu và xây dựng hệ thống nhập dữ liệu tự động bằng nhận dạng hình ảnh, phạm vi giới hạn

và quy trình giải quyết bài toán Từ đó nêu lên nội dung mà chúng tôi nghiên cứu và thực hiện trong bài toán chung

Chương 2: Tổng quan một số phương pháp phân vùng ảnh và khử nghiêng

Chương hai trình bày về các phương pháp phân vùng ảnh, khử nghiêng, các khái niệm và tầm quan trọng của khử nghiêng và phân vùng ảnh trong nhận dạng biểu mẫu Chương này cũng xác định các ưu nhược điểm và phạm vi áp dụng của mỗi phương pháp để từ đó lựa chọn giải pháp thích hợp

Chương 3: Đề xuất giải pháp sử dụng biểu mẫu động

Trang 10

Chương này trình bày về phần việc chính mà tôi đã thực hiện trong đề tài

chung: Giải pháp sử dụng hệ thống xử lý biểu mẫu động cho việc phân vùng ảnh và

tách chữ viết tay Nội dung của chương tập trung vào:

Đưa ra các khái niệm về biểu mẫu động và hệ thống xử lý biểu mẫu

động

Trình bày các thuật toán cơ bản ứng dụng cho việc nhận dạng biểu mẫu

động

 Đánh giá ưu và nhược điểm của các thuật toán này

 Mô tả chi tiết quá trình thực nghiệm các thuật toán đã đề xuất

Chương 4: Kết luận

Chương bốn tổng kết lại những kết quả đạt được và những việc cần được tiếp tục thực hiện trong tương lai

Trang 11

CHƯƠNG 2 - Khái quát một số phương pháp phân vùng ảnh và khử nghiêng

2.1 Tổng quan về xử lý biểu mẫu

Biểu mẫu văn bản (Form document) là một loại văn bản “có mục đích”, được sử dụng rất rộng rãi trong cuộc sống hàng ngày của chúng ta Ví dụ, hàng triệu các phiên giao dịch tài chính được thực hiện hàng ngày cùng với sự xuất hiện của biểu mẫu văn bản như là các loại séc, giấy tờ thanh toán Với thể loại văn bản này, chúng ta có thể sử dụng các phương pháp riêng biệt để hiểu về nó

2.1.1 Các đặc trưng của biểu mẫu

Biểu mẫu có một số đặc trưng như sau:

 Nhìn chung, biểu mẫu bao gồm nhiều đoạn thẳng mà có chung hướng theo chiều ngang hoặc theo chiều dọc

 Những thông tin cần lấy từ biểu mẫu thường là các thông tin được điền vào Các vị trí điền thông tin có thể được xác định thông qua các đường thẳng được nhận dạng

 Các chữ trong biểu mẫu thường là: tập hợp các chữ in máy, tập hợp các chữ in được viết bằng tay và tập hợp các chữ viết tay Các kiểu chữ này

có thể được nhận dạng thông qua các kỹ thuật nhận dạng chữ viết tay

2.1.2 Quá trình xử lý biểu mẫu dựa trên Ngôn ngữ mô tả biểu mẫu

Chúng ta biết rằng, quá trình xử lý biểu mẫu có thể được thực hiện dựa trên ngôn ngữ mô tả biểu mẫu (Form Description Language) Một sơ đồ khối của phương pháp này được thể hiện ở hình 1 dưới đây Mục đích của phương pháp này

là trích chọn ra được các thông tin được gọi là item từ các biểu mẫu

Trang 12

Để thu đƣợc các item từ biểu mẫu, bộ mô tả item đƣợc sử dụng Giả sử ta

có ba tập hợp hữu hạn bao gồm tập hợp các quan hệ Γ = {Γ1, Γ2, ,Γk} giữa tập hợp các item α = {α1, α2, ,αm} và tập hợp các đồ thị Σ = {Σ1, Σ2, ,Σn} và nó có thể đƣợc thể hiện bởi ma trận 0-Γi Chúng ta gọi nó là ma trận mô tả Item: M ID , nhƣ là :

trong đó R, L, A, B thể hiện cho thứ tự phải, trái, trên, dưới

Hình 2.1: Lược đồ quá trình xử lý biểu mẫu dựa trên Ngôn ngữ mô tả

Trang 13

2.1.3 Quá trình xử lý biểu mẫu dựa trên đăng ký biểu mẫu (Form registration)

Một hệ thống xử lý biểu mẫu có thể phát triển dựa trên việc đăng ký trước các biểu mẫu trống Quá trình xử lý bao gồm hai bước:

(1) Đăng ký biểu mẫu trống

(2) Nhận dạng các dữ liệu điền trong biểu mẫu

Trong bước đăng ký, một biểu mẫu, ví dụ chưa điền thông tin gì sẽ được quét và được đăng ký với máy tính Thông qua việc nâng cao chất lượng đường thẳng (line), trích chọn đường viền và xác định góc vuông thì cả dữ liệu và nhãn của

nó sẽ được trích chọn ra Các mối quan hệ giữa những vùng điền thông tin được xác định Giao tiếp giữa con người và máy tính được đòi hỏi trong suốt quá trình đăng

ký Kết quả của quá trình đăng ký được lưu trữ như là dữ liệu định dạng của biểu mẫu ví dụ Trong suốt bước đăng ký biểu mẫu, chỉ các vùng dữ liệu được chích chọn để xác đinh vị trí của các vùng này

Document classification Document

library

Image database

Compression

Data extraction

& OCR

Coded database

Trang 14

Ở đây, một hệ thống xử lý biểu mẫu thông minh (IFPS) được trình bày Hệ

thống này cung cấp các khả năng về:

 Tự động đánh chỉ số cho biểu mẫu về viêc lưu trữ/truy vấn từ thư viện biểu mẫu

 Nắm bắt được thông tin về hình ảnh biểu mẫu được quét, sử dụng OCR

 Khả năng lưu trữ rất hiệu quả dữ liệu hình ảnh biểu mẫu sau khi được quét

IFPS bao gồm 6 thành phần chính:

 Mô hình định nghĩa biểu mẫu

 Lưu trữ mô hình biểu mẫu trong một thư viện biểu mẫu

 Kết nối biểu mẫu đầu vào dựa vào mô hình được lưu trữ trong thư viện biểu mẫu

 Đăng ký mô hình được chọn cho biểu mẫu đầu vào

 Chuyển đổi dữ liệu ảnh được trích chọn thành mã ký hiệu cho đầu vào của cơ sở dữ liệu

 Loại bỏ phần chỉ số của một biểu mẫu và giữ lại chỉ phần điền dữ liệu trong việc lưu trữ

Mục đính chính của luận văn này là tập trung vào việc nhận dạng và phân tích cấu trúc biểu mẫu văn bản còn nhiệm vụ nhận dạng chữ không nằm trong khuôn khổ của luận văn này Do đó ở phần tiếp theo, chúng ta sẽ tìm hiểu các thuật toán nhận dạng thực hiện việc này

2.2 Các kỹ thuật thường được sử dụng trong nhận dạng cấu trúc biểu mẫu

Mục đích của quá trình nhận dạng và phân tích cấu trúc biểu mẫu là xác định, phân lớp các vùng trên ảnh biểu mẫu, liên kết chúng với các biến kiểu dữ liệu

và cuối cùng là biểu diễn lại chúng dưới dạng cấu trúc logic (logic structure)

Trang 15

2.2.1 Chỉnh độ nghiêng của văn bản biểu mẫu

Khi một biểu mẫu được in và sau đó được quét vào máy tính thì việc hình ảnh của biểu mẫu bị nghiêng đi là vấn đề không thể tránh khỏi Để xác định được góc nghiêng của biểu mẫu nói riêng hay của văn bản nói chung là khó và thường gặp phải những khó khăn sau:

 Góc nghiêng để có thể nhận dạng được bị giới hạn

 Kích cỡ và kiểu của font chữ trong biểu mẫu bị giới hạn

 Phụ thuộc vào cấu trúc của biểu mẫu: sự có mặt kết hợp của các hình vẽ, đường phân cách, bảng biểu sẽ gây ra nhiều vấn đề

 Chỉ thực hiện được trên một số độ phân giải cho trước của ảnh

 Chi phí tính toán cao

 Giới hạn trên một số ứng dụng nhất định

 Yêu cầu các vùng text phải rộng

 Hơn nữa, hầu hết các thuật toán áp dụng cho văn bản chữ in sẽ không chạy được đối với văn bản chữ viết tay

Hầu hết các kỹ thuật xác đinh góc nghiêng có thể phân chia thành các lớp chính như sau:

1 Phân tích hình ảnh của phép chiếu (projection profiles)

2 Biến đổi Hough

3 Phân cụm các phần tử kết nối (connected component clustering)

4 Sự tương quan giữa các đường thẳng Ngoài các thuật toán được xếp vào 4 lớp trên còn có một thuật xác định độ nghiêng khác như là:

 Xác định độ nghiêng dựa vào phân tích phổ Fourier

 Xác định độ nghiêng dựa vào phân tích Gradient

 Các thuật toán liên quan đến biến đổi hình thái (morphological)

Trang 16

 Xác định độ nghiêng dựa vào xác định các đường thẳng trong các phân vùng

Hình 2.3: (a) Ảnh trước khi khử nghiêng; (b) Ảnh sau khi khử nghiêng

2.2.1.1 Phân tích hình ảnh của phép chiếu

Những tiền đề cơ bản của các phương pháp tiếp cận này là giải quyết văn bản trong trường hợp các dòng văn bản đủ dài, thẳng và nằm song song với nhau Lược đồ tính toán cơ bản của phép chiếu là phụ thuộc vào từng góc nghiêng, định nghĩa của một hàm đối tượng, và việc lựa chọn góc nghiêng được thực hiện thông qua hàm này Với yêu cầu giảm bớt độ phức tạp tính toán khi thực hiện, hàng loạt các thuật toán khác nhau dựa trên cơ sở phép chiếu đã được đưa ra Mục đích của các thuật toán này là giảm thiểu khối lượng dữ liệu tham gia vào quá trình tính toán hoặc là nâng cao chiến lược tìm kiếm điều kiện tốt nhất cho việc xác định góc nghiêng

Trong thuật toán được đưa ra bởi Postl [26], chỉ những điểm đầu mũi trên lưới văn bản được sử dụng để tính trong phép chiếu và khoảng cách giữa các đỉnh

Trang 17

lồi trên hình chiếu sẽ được tính toán Góc nghiêng sẽ được lựa chọn trong trường hợp tổng khoảng cách này là lớn nhất

Thuật toán do Baird [27] đề xuất cũng không sử dụng tất cả các điểm ảnh

mà lựa chọn một số điểm để sử dụng trong phép chiếu: đầu tiên xác định từng thành phần liên thông, điểm chính giữa ở đáy của hình bao của mỗi thành phần liên thông

sẽ được sử dụng trong phép chiếu Hàm xác định góc nghiêng sẽ tính tổng độ rộng của các đáy lõm trên hình chiếu Để tăng tốc độ trong việc lựa chọn góc nghiêng đúng nhất, một kỹ thuật lặp được thực hiện Ở lần lặp đầu tiên, ta sẽ tính phép chiếu

mà mỗi lần thay đổi góc chiếu là lớn Ở các lần lặp tiếp theo, với góc nghiêng thu được từ lần lặp trước, ta lại thực hiện lại phép chiếu nhưng sự thay đổi góc chiếu là nhỏ hơn Thuật toán này cho kết quả chính xác với tốc độ nhanh và hoạt động với nhiều loại văn bản khác nhau: nhiều hình khối, bảng biểu, nhiều kích cỡ, kiểu chữ khác nhau

Thuật toán của Ciardiello [28] chỉ sử dụng một vùng nhỏ trên trang văn bản (đó là vùng có mật độ cao các điểm đen trên mỗi dòng) trong phép chiếu; và góc nghiêng được chọn khi mà sự chênh lệch giữa đỉnh lồi và đáy lõm trong hình chiếu

là lớn nhất

Thuật toán do Ishitani [29] sử dụng phép chiếu mà hình chiếu được định nghĩa theo cách khác Đầu tiên, một tập hợp các đường thẳng song song sẽ được xác định và chỉ các đường thẳng này sẽ được sử dụng trong phép chiếu Góc nghiêng được xác định trong trường hợp mà độ dốc trong phép chiếu là lớn nhất Phương pháp này chạy tốt trong trường hợp các vùng rộng không có ký tự

Bagdanow và Kanai [30] đưa ra một kỹ thuật ứng dụng cho các ảnh văn bản nén định dạng JBIG Họ tìm kiếm các vệt đen liên thông của các điểm ảnh mà nó không có các điểm đen hàng xóm ở phía dưới: vệt đen bên phải lớn nhất được lựa

chọn Những sự sắp xếp của các điểm ảnh này ứng dụng chuẩn pass mode trong

chuẩn nén CCITT4 Chúng có thể dễ dàng được xác định bởi việc phân tích

Trang 18

CCITT4 hoặc dựa vào chuỗi bit nén JBIG Việc lựa chọn góc nghiêng tương tự như thuật toán của Postl

2.2.1.2 Xác định góc nghiêng dựa vào biến đổi Hough

Dựa vào biến đổi Hough, hàng loạt các kỹ thuật xác định góc nghiêng được phát triển Các kỹ thuật này dựa trên sự tìm kiếm những đặc tính khác biệt của văn bản như là hướng của các ký tự, các dòng văn bản thường song song với nhau Từng điểm đen (x,y) của ảnh được ánh xạ vào trong không gian Hough (ρ, θ), sử dụng biến đổi ρ = x cos(θ) + y sin(θ) Các điểm ảnh thẳng hàng sẽ đem lại các đỉnh trong không gian Hough Góc nghiêng của phương pháp này phụ thuộc vào góc nghiêng của trục Độ phức tạp của thuật toán là tuyến tính đối với số lượng các điểm biến đổi và sự thay đổi góc quay

Srihari và Govindaraju [31] đã ứng dụng kỹ thuật này cho ảnh nhị phân mà thoả mãn điều kiện ảnh chỉ có ký tự và các khối ký tự đều có chung một hướng Từng điểm đen được ánh xạ vào không gian Hough và góc nghiêng được xác định

trong trường hợp tổng các điểm dọc theo thành phần ρ là lớn nhất

Để cải thiện tốc độ tính toán của kỹ thuật, hàng loạt các biến thể của thuật toán được phát triển, chủ yếu là nhằm vào việc giảm bớt số lượng các điểm ảnh ánh

xạ vào không gian Hough Việc này có thể đạt được nhờ:

 Sự lựa chọn tập hợp điểm ảnh được đại diện bởi một điểm ảnh

 Giới hạn việc phân tích trên một phần của ảnh

Hinds phát triển một thuật toán xác định góc nghiêng mà giảm lược phần lớn số lượng điểm ảnh được ánh xạ vào không gian Hough Ảnh văn bản có độ phân giải là 300 dpi được chuyển đổi sang một ảnh phụ Ảnh phụ được tạo ra bằng cách thay thế 4 điểm đen liên thông theo chiều dọc bằng một điểm đen ở đáy của liên thông, nhằm loại bỏ các thành phần không phải là ký tự Biến đổi Hough được áp dụng cho tất các các điểm ảnh trên ảnh phụ mà ảnh phụ này có kích thước giảm di

25 lần so với ảnh gốc

Trang 19

Spitz [23] mô tả một kỹ thuật giảm số lượng điểm ảnh đầu vào, hoạt động trực tiếp trên ảnh nén CCITT 4 Các điểm ảnh tương ứng với pass codes được chích chọn với một singer pass trên toàn bộ ảnh nén và được ánh xạ vào không gian Hough Kỹ thuật này được mở rộng cho ảnh nén JBIG

Le [34] mô tả một thuật toán xác định hướng của trang và độ nghiêng của văn bản Hướng của trang được xác định bằng cách phân chia ảnh thành các phần vuông nhỏ, từng phần được xác định là có dữ liệu nguyên bản hay không nguyên bản dựa vào các kỹ thuật nhân heuristic thông qua việc xác định mật độ và sự phân tán của các điểm đen Từng vùng nguyên bản được phân lớp như là hình, phong cảnh bằng việc phân hình của các phép chiếu theo chiều dọc và chiều ngang Việc phân lớp phụ thuộc chủ yếu vào việc thay đổi của các đỉnh lồi so với các đáy lõm,

và sự so sánh sự biến đổi của các ảnh phép chiếu Số lượng của các điểm đen trong từng vùng nguyên bản sẽ được sử dụng như là kết quả phân lớp Những vùng vuông này tạo thành lớp đầu tiên của một hình chóp; từng tầng tiếp theo được cấu tạo bởi các vùng vuông lớn hơn, các vùng này được tạo ra bởi sự kết hợp của chín vùng nhỏ hơn của tầng trước Đỉnh của hình chóp thể hiện cả trang văn bản Thông tin về việc phân lớp được truyền từ các tầng dưới lên tới đỉnh: từng vùng được phân lớp, trang văn bản được đặt nằm dọc hay nằm ngang, bằng một tiêu chuẩn phân lớp chủ yếu giữa chín vùng dưới và được truyền vào phần kết quả phân lớp Góc nghiêng được xác định thông qua các vùng nhỏ trên ảnh mà có kết quả phân lớp cao nhất trong số chín vùng ở tầng thấp nhất của hình chóp Biến đổi Hough được áp dụng tính toán cho các điểm đen ở hàng cuối cùng của mỗi thành phần liên kết

Một kỹ thuật khác có thể giảm bớt dữ liệu tính toán được đề xuất bởi Min [35] Ảnh văn bản được phân chia thành các vùng dọc từ trên xuống dưới, độ rộng của mỗi vùng phụ thuộc vào các đường thẳng phân chia vùng và góc nghiêng lớn nhất có thể Trong từng vùng này, một vectơ được xây dựng bằng việc gán giá trị 1 cho dòng chứa ít nhất một điểm đen và giá trị 0 cho các trường hợp ngược lại Các

Trang 20

điểm đen ở trung tâm của các vệt đen dọc của từng vectơ sẽ được ánh xạ vào không gian Hough

Pal và Chaudhuri [36] đưa ra hai kỹ thuật xác định góc nghiêng khác Kỹ thuật thứ nhất thực hiện việc giảm thiểu dữ liệu tính toán thông qua tính các hình vuông bao phủ của các thành phần kết nối Ý tưởng cơ bản là xoá bỏ các thành phần mang theo nhiễu: các ký tự to dần, nhỏ dần Các thành phần nhỏ được lọc bỏ nếu

nó có độ sâu nhỏ hơn độ sâu trung bình của các thành phần Từ đây, hình thành hai tập hợp điểm L1 và L2 tách biệt: L1 chứa các điểm ảnh ở bên trái phía trên nhất và L2 chứa các điểm ảnh ở bên phải phía dưới nhất của từng thành phần Các điểm ở trong L1 và L2 sẽ được sử dụng trong biến đổi Hough

Một thuật toán xác định góc nghiêng khác dựa vào biến đổi Hough được đề xuất bởi Yu và Jain [37] Bước đầu tiên của thuật toán tập trung vào việc tính toán hiệu quả các thành phần liên thông và trọng tâm của chúng dựa vào một cấu trúc gọi

là đồ thị liền kề khối Biến đổi Hough được áp dụng cho các điểm trọng tâm này với hai độ phân giải góc biến đổi khác nhau Ở độ phân giải góc lớn cho phép chúng ta tính xấp xỉ góc nghiêng, sau đó chúng ta sẽ tính chính xác được góc nghiêng thông qua lần tính biến đổi Hough lần 2 với độ phân giải góc mịn hơn Thuật toán này chạy rất nhanh và chính xác đối với những ảnh có độ phân giải thấp

2.2.1.3 Phân cụm hàng xóm gần nhất

Phương pháp phân cụm hàng xóm gần nhất sử dụng để xác định góc nghiêng của ảnh dựa trên việc xác định các cụm đối tượng gần nhau, ví dụ tiêu biểu

là các dòng chữ Vì trong ảnh văn bản các đối tượng thường được phân bố đều và

có hướng cùng với hướng của văn bản nên việc xác định các cụm đối tượng gần nhau này giúp ta ước lượng được góc nghiêng của ảnh

Trang 21

Hình 2.4: (a), (b), (c) : Các đối tượng trên ảnh ; (d), (e), (f) : Phân cụm

Một phương pháp khác xác định góc nghiêng dựa vào tư tưởng người hàng xóm gần nhất được đề xuất bởi O’Gorman [39] Tác giả tính toán hình phổ tổng

hợp của trang văn bản, được gọi là docstrum, và dùng nó làm điểm xuất phát để phân tích trang Với từng thành phần kết nối tìm được trong trang văn bản, k thành

phần hàng xóm gần nhất được xác định Một tập hợp các cặp được tạo thành từ bản thân thành phần và với từng thành phần trong k hàng xóm gần nhất Từng cặp thành

phần này được biến đổi trong bộ (d,ф), trong đó d là khoảng cách Euclidean và ф là

góc giữa hai điểm trung tâm của hai thành phần Kết quả của tính toán từng cặp này

sẽ được tổng hợp lại để tạo thành docstrum Việc lựa chọn giá trị k là không giới hạn, nhưng giá trị k tốt có được phụ thuộc vào tính chất hình học của văn bản Góc nghiêng được xác định trong trường hợp histogram phẳng nhất của góc ф

Trang 22

Phương pháp khác được trình bày bởi Smith [40] cũng dựa vào kỹ thuật phân cụm các thành phần liên thông trong các dòng văn bản Bước đầu tiên là lọc

bỏ các thành phần nhỏ và chỉ giữ lại những thành phần có độ cao trong khoảng

20-th và 95-20-th Các 20-thành phần còn lại được sắp xếp 20-theo toạ độ các cột của chúng

Trong từng dòng, các thành phần được phân chia vào các nhóm như sau: từng thành phần mà có hướng theo chiều dọc trùng với các dòng đã tồn tại thì được tính Nó được đưa vào tập hợp khoảng cách ngang giữa thành phần và dòng và đánh giá độ nghiêng hiện thời của dòng Thành phần hiện tại được sử dụng cho một dòng mới hoặc một dòng đã có, phụ thuộc vào mức độ trùng nhau theo chiều dọc Với từng phân cụm, góc nghiêng của dòng được tính thông qua giá trị của ít nhất một trung tuyến của các vùng Góc nghiêng toàn cục được tính thông qua độ nghiêng của trung tuyến này

Pal và Chaudhuri [36] trình bày một cách tiếp cận khác dựa vào phân cụm

của hai tập hợp điểm, L 1 và L 2, được chích chọn từ trong ảnh Hai tập hợp này được phân tích tách biệt nhau như sau: một đường thẳng khởi tạo được xác định bởi việc tìm kiếm ba điểm gần nhau và thẳng hàng trong tập hợp bắt đầu từ đỉnh của ảnh Các điểm của tập hợp sau đó được phân cụm theo khoảng cách của chúng tới đường thẳng khởi tạo Với từng phân cụm, độ dốc của vùng tham gia bởi hai điểm xa nhất,

sẽ xác định độ nghiêng xấp xỉ Độ nghiêng toàn cục được tính theo trung bình của

các độ nghiêng tính trong L 1 và L 2

2.2.1.4 Sự tương quan của các đường thẳng

Chúng ta nhận thấy rằng, độ nghiêng của vùng văn bản thể hiện một cấu trúc đồng nhất theo chiều ngang, do vậy những kỹ thuật này sẽ tập trung vào việc xác định

độ nghiêng của ảnh thông qua tính toán những độ lệch góc dọc theo hình ảnh

Akiyama và Hagita [41] mô tả một thuật toán xác định nhanh góc nghiêng: văn bản được chia thành nhiều các vùng dọc bằng nhau về độ rộng Tại mỗi vùng, một phép chiếu theo chiều ngang được thực hiện dọc theo sự nghiêng nhằm mục đích đem lại mối tương quan tốt nhất của từng phép chiếu thực hiện trước đó Độ

Trang 23

nghiêng được xác định như là sự nghịch đảo của phép tính tỉ lệ giữa độ dốc trung bình và độ rộng của vùng

Phương pháp được mô tả bở Yan [42] có những điểm thú vị là nó có thể sử dụng trực tiếp cho ảnh đa cấp xám hay ảnh màu mà cũng tương tự như xử lý đối với ảnh nhị phân và nó không yêu cầu phải chích chọn ra đặc trưng của các thành phần

Phương pháp này dựa vào việc tính toán hàm tương quan tích luỹ R cho nhiều phần của các đường thẳng dọc, được lựa chọn với khoảng cách cố định D Nó được định nghĩa như sau: R(s) =Σ x,y I(x+D, y+s)I(x,y) với phép tính tông được tính trên toàn

ảnh I Góc nghiêng được tính bằng nghịch đảo của phép tính tang giữa giá trị s lớn nhất của R(s) và D

Gatos [33] đề xuất một kỹ thuật tính góc nghiêng dựa trên mối tương quan

đo lường giữa các vùng dọc của ảnh đã đươc tiền xử lý làm mịn theo chiều ngang Các vùng dọc có diện tích bằng nhau và có độ rộng được xác định qua thực nghiệm Với mỗi vùng, một hàm được xây dựng và gán giá trị 1 cho dòng mà có ít nhất 1

điểm đen và bằng 0 cho trường hợp ngược lại Và với từng cặp hàm (L i , L j), một ma

trân tương quan được thiết lập: C i,j (r, λ) = L i (r).L j (r+λ), trong đó λ thể hiện sự thay

đổi theo chiều dọc Một ma trận mối tương quan chung được tạo ra bằng cách tổng

hợp các ma trận C i,j Một phép chiếu dọc theo trục λ sẽ giúp chúng ta tính được góc nghiêng

2.2.1.5 Một số kỹ thuật tính góc nghiêng khác

Sauvola và Pietikainen [44] đề xuất một phương pháp tính góc nghiêng dựa vào phân tích hướng Gradient, có thể áp dụng cho ảnh nhị phân hoặc ảnh đa cấp xám Ảnh được sử dụng hai mặt nạ để lấy ánh xạ gradient (biên độ và hướng) Các hướng trội của từng ô trong lưới sẽ được tính và sử dụng các thông tin gradient Lược đồ Histogram của các hướng này được tính sau sự lượng tử hoá góc Giá trị lớn nhất của lược đồ Histogram kết quả sẽ cho chúng ta góc nghiêng văn bản

Trang 24

Một kỹ thuật tương tự được trình bày bởi Sun và Si [45] Chúng ta biết rằng trong một văn bản điển hình sẽ tồn tại nhiều điểm mà có hướng gradient là vuông góc với các dòng văn bản Lược đồ histogram của hướng gradient của ảnh đa cấp xám được tính Lược đồ histogram này sau đó được làm nhẵn với lọc trung tuyến để giảm các hiệu ứng phụ liên quan đến lượng tử hoá Mô hình của lược đồ histogram

sẽ cho chúng ta tính toán được góc nghiêng

Một kỹ thuật khác được đưa ra bởi Postl [26]: tính biến đổi Fourier của trang văn bản và thông qua các đặc tính của hình phổ Fourier để tìm ra góc nghiêng

Lấy S(u,v) là biến đổi 2-D Fourier của văn bản, và W(u,v) = |S(u,v)|2

do sự nhô cao hoặc sự thụt xuống của một số ký tự Biến đổi dãn được thực hiện đệ quy trên ảnh kết quả, và vẫn sử dụng cấu trúc phần tử như trên Ngưỡng của ảnh kết quả tạo ra một ảnh bitmap mà các dòng ký tự được thể hiện bởi các thành phần kéo dài đã xác định được hướng Các hướng này có thể là hướng sai bởi vì nhiễu, các hình ảnh hoặc các thành phần tranh Các đường thẳng mà có hướng gần như nhau sẽ được thu thập bởi một thuật toán lặp Góc nghiêng của trang văn bản sẽ được tính từ tập hợp các hướng được lựa chọn này

Một hướng tiếp cận khác rất thú vị được trình bày bởi Aghajan [47] Việc tính độ nghiêng văn bản được thực hiện thông qua việc tính hướng đến của sóng điện từ hai chiều được cảm nhận bởi một mảng cảm biến tuyến tính Tại đỉnh của

Trang 25

các cột ảnh có các cảm biến ảo đo tín hiệu bởi một tập hợp các đường thẳng trên

ảnh Việc phân tích quang phổ của vector đo được thực hiện bởi kỹ thuật

TLS-ESPRIT cho xử lý mảng Thuật toán có khả năng xác định nhiều góc nghiêng thông

và có thể chạy tốt trên ảnh nhị phân và ảnh đa cấp xám

2.2.1.6 Bảng tổng kết về các thuật toán xác định góc nghiêng

method reference input type

resolution

skew range / accuract;

±45° 0.6° complex documents with a

dominant text direction

Baird [27] b/w 300

dpi

±15° 0.05° a dominant text direction, a

few touching char acters, text overwhelms non text

Ciardiello et

al [28]

b/w 300 ±45° 0.70 complex documents,

e.g magazines Ishitani [29] dpi b/w

300

±3o 0.12° complex documents with few

text lines Bagdanov

Krillai [30]

dvi b/w, JBIG 300

±3° documents with no or a few

non textual parts

Hough

transform

Srihari Govindaraju [31]

b/w 75 dpi ±15° 0.5° complex documents; an es

timate of max characters height is needed

Lee et at [34] b/w 200

dpi

complex documents, e.g medical journals Min et at

[35]

i b/w 300 dpi

±200

0.5°

noisy structured documents with tables; an estimate of in-terline gaps is needed Pal Chaud-

huri [36].1

b/w 160 dpi

±45° 0.2° complex documents with one

text direction, dominant tual part., Roman script

Neighbor

Hashizume

et al [38]

b/w 54-63 dpi

±90o

5o

Simple documents (e.g

envelopes) with line gaps wider than chacracter gaps O’Gorman b/w 300 ±90o Text only documents with few

Trang 26

Clustering [39] dpi touching characters; multiple

text directions Smith [40] b/w 300

dpi

±15o 0.05o

One text direction

Pal Chaudhuri [36].2

b/w 160 dpi

±45o 0.2o

Complex documents with one text direction, dominant textual part, Roman script Correlation Akiyama

Hagita [41]

b/w 200 dpi

±10o Documents with text and

graphics, textual part dominant

dominant non-slanted textual part

b/w, 300dpi

±5o 0.5o

Complex documents with a dominant text direction, line gaps wider than character gaps

Documents with some non textual parts

Bảng 2.1 Một số đặc tính của các kỹ thuật chỉnh góc nghiêng

Trang 27

là ký tự Trong trường hợp này, các vùng không chứa các ký tự dễ dàng bỏ qua được

Các kỹ thuật phân vùng trang : Các thuật toán này tập trung vào việc phân

chia trang văn bản thành các vùng đồng nhất Chúng được phân chia vào trong các phân lớp phụ thuộc vào kỹ thuật chúng sử dụng :

o Kỹ thuật làm nhoè (smearing)

o Phân tích phổ phép chiếu

o Dựa vào kết cấu hoặc là phân tích địa phương

o Phân tích cấu trúc nền đen

Các kỹ thuật kết hợp phân vùng/phân lớp : dành cho một số thuật toán

không cần thiết phải phân chia giữa bước phân vùng và bước phân lớp Các thuật toán này dựa vào :

o Phân tích các thành phần kết nối

o Làm nhoè

o Phân tích cấu trúc hoặc cục bộ

Các kỹ thuật phân lớp khối : Các thuật toán này gán nhãn các vùng nhỏ

trước khi phân vùng thành các khối Phần quan trọng nhất của kỹ thuật là dựa vào các đặc tính phân vùng và đặc tính phân loại số tuyến tính Ngoài ra vẫn còn có các kỹ thuật khác cũng được thể hiện

Bảng 2.2 Sự phân lớp của các thuật toán phân tích trang

PAGE SEGMENTATION

CONNECTED

COMPONENTS

ANALYSIS

BLOCK CLASSIFICATION

SEGMENTATION CLASSIFICATION

TEXTURE BASED

OR LOCAL ANALYSIS

CONNECTED COMPONENTS ANALYSIS

SMEARING

TEXTURE BASED

OR LOCAL ANALYSIS

LINEAR DISSCRIMNANT CLASSIFIERS

NEUTRAL NETWORK CLASSIFIERS

BINARY DISSCRIMNANT CLASSIFCATION TREE BACKGROUND

STRUCTURE

Trang 28

2.2.2.1 Các kỹ thuật phân vùng ký tự

Phần này mô tả các thuật toán phân tách các vùng ký tự trong một trang văn bản, sau đó đưa vào một cấu trúc có thứ bậc

2.2.2.1.1 Phân tích thành phân kết nối

O’Gorman mô tả một thuật toán [39] định vị các dòng ký tự và các khối ký

tự trong một trang văn bản có ký tự, bảng biểu hoặc các phép tính Kỹ thuật này dựa

trên việc tính toán phổ của văn bản, goi là docstrum, đã được mô tả ở các phần xác

định độ nghiêng Bước đầu tiên sẽ lọc bỏ các nhiễu như là các thành phần nhỏ bé hoặc các lỗ trong các thành phần Bước tiếp theo, các thành phần kết nối được phân cụm tuỳ theo khu vục chúng đứng Bước phân cụm này nhằm mục đích nâng cao

hiệu quả của việc tính phổ docstrum Việc phân tích docstrum giúp chúng ta tính

được khoảng cách các đường thẳng, khoảng cách giữa các ký tự Khoảng cách giữa các ký tự được tính như là khoảng lõm lớn nhất trong lược đồ histogram của khoảng

cách d Khoảng cách giữa các đường thẳng cũng được xác định thông qua lược đồ histogram với khoảng cách d Các dòng văn bản thu được bằng cách kết hợp các

thành phần gần nhau nhất trên một đường thẳng Với từng nhóm, các thành phần trong nhóm được liên kết với nhau thông qua một đường thẳng tương đối đi qua tâm của mỗi thành phần Cuối cùng, các khối ký tự được hình thành bởi việc kết hợp các dòng văn bản song song với nhau mà hoặc là thẳng đứng và chồng lên nhau, hoặc là cộng tuyến với nhau và đóng trong hướng song song Trong khi giải thích của thuật toán này cho rằng nó chỉ có thể ứng dụng cho từng loại văn bản riêng biệt với một hướng duy nhất thì tác giả lại cho rằng thuật toán có thể mở rộng cho các văn bản bao gồm nhiều vùng con với các đặc tính khác nhau, các định dạng và hướng khác

nhau Tác giả đề xuất nên thực hiện bước phân vùng sau khi đã tích k hàng xóm gần

nhất, nhóm các thành phần lại vào trong nhóm

Hones và Lichter trình bày một thuật toán phân tích trang có thể ứng dụng cho các văn bản có các loại ký tự khác nhau và với nhiều góc nghiêng khác nhau

Trang 29

Các thành phần kết nối của cả nền văn bản cũng như nội dung văn bản được chích chọn, nhằm tạo ra cơ sở để xử lý các ký tự bình thường và bất bình thường Các thành phần kết nối mà quá nhỏ hoặc quá lớn so với kích cỡ trung bình của tất cả các thành phần, sẽ không nằm trong các dòng văn bản Đối với mỗi thành phần, một danh sách các hàng xóm gần nhất được xác định; chỉ những đối tượng mà có cùng màu sắc mới có thể là hàng xóm của nhau Thông tin về sự sắp xếp (khoảng cách và góc) của chúng được giữ lại Các dòng tạm thời được tạo ra bắt đầu từ các bộ ba hàng xóm có vị trí và độ lớn xấp xỉ như nhau Cũng vẫn sử dụng những điều kiện như trên, các bộ ba hàng xóm được mở rộng bằng cách thêm thành phần mới vào biên giới của mình Một quá trình tạm nhằm mục đích gán lại các thành phần vào trong các dòng và tạo ra các khối từ các dòng văn bản Việc này được thực hiện thông qua đánh giá các thông tin về sự song song, sự gần nhau của các thành phần

và sự đồng nhất của các khối Từng thành phần kết nối được gán nhãn là ký tự hoăc không là ký tự thông qua việc xem xét các đặc tính hình học và sự tương quan của

nó trong dòng hay trong khối văn bản mà nó đứng Cuối cùng, các thành phần ký tự được nhóm lại vào nhóm các ký tự và các từ cũng được xem xét lại các thành phần trong nó mà ở lần đánh giá trước bị cho là không phù hợp

Deforges và Barba [60] mô tả một phương pháp tách ra các ký tự từ một ảnh đa cấp xám hỗn hợp Không một thông tin cơ sở nào được tạo ra về hình dáng

và độ dốc của các vùng ký tự Bước cơ bản đầu tiên là tách ra các ứng viên có thể là

từ ký tự từ một thể hiện hình chóp đa độ phân giải của ảnh Các từ có thể đồng thời được góp vào tròng các dòng và khối văn bản phụ thuộc vào mối tương quan về không gian của chúng và khoảng cách của chúng với nhau Trong từng khối, các dòng văn bản được phân cụm bằng cách sử dụng sử dụng một luật về độ dốc và chiều sâu của chúng, nhằm mục đích làm cho khối ký tự đồng nhất hơn Các ứng viên từ có quan hệ với nhau được phân tích độc lập: vùng của chúng ở trong ảnh được nhị phân hoá và một số đặc trưng được trích chọn để xác định chúng có phải

là ký tự hay không là ký tự

Trang 30

Kỹ thuật Minimum Spanning Tree (MST) được Dias [52] mô tả, sử dụng MST để xác định hướng của các dòng văn bản (chiều dọc và ngang) trong trang văn bản Thuật toán của Dias sử dụng nhận xét rằng khoảng cách giữa các ký tự là nhỏ hơn khoảng cách giữa các dòng văn bản Các thành phần kết nối được xác định và từng thành phần được bao trùm bởi một hộp chữ nhật vừa khít bao quanh Các hộp chữ nhật được xác định sao cho các cạnh của hộp tiếp đều tiếp xúc với các cạnh ngoài cùng của thành phần Giá trị liên quan đến từng cạnh là khoảng cách nhỏ nhất giữa các hộp mà nó kết nối Cây spanning nhỏ nhất được tính Phần ký tự được phân vùng bằng cách loại bỏ một số nhánh trong MST và các nhánh này được lựa chọn bằng việc so sánh các thông tin cục bộ và toàn cục Các thông tin cục bộ như

là độ dài của nhánh và các đỉnh trong đường kết nối với nhau của hai thành phần thông qua nhánh này Các thông tin toàn cục là tĩnh, như là độ dài giới hạn được tính từ sự phân bố của độ dài các nhánh, độ dài kết nối của tất cả các thành phần trong trang và độ lệch chuẩn của các đỉnh trong kết nối của mỗi thành phần Điểm mạnh của thuật toán này là khả năng làm việc được với các khối không phải là hình chữ nhật và không phụ thuộc vào hướng của các dòng văn bản (chiều dọc và chiều ngang) Hơn nữa, nó có thể xử lý được các ký tự kết nối trong vùng văn bản; thực tế quy tắc được lựa chọn mang lại hiệu quả giữ được các khoảng cách nhỏ giữa các nhóm ký tự kết nối, khác với khoảng cách được tính từ tâm của các thành phần Kết quả thực nghiệm trên 50 mẫu văn bản đã cho kết quả tốt

2.2.2.1.2 Các kỹ thuật chiếu (projection profile)

Một phương pháp rất đơn giản để phân vùng các dòng văn bản là thông qua phân tích các giá trị tương quan của các đỉnh và đáy của hình phổ phép chiếu văn bản dọc theo góc nghiêng đã được xác định Các đỉnh và đáy của hình phổ lần lượt thể hiện cho các dòng ký tự và khoảng cách giữa các dòng Phương pháp này đã được sử dụng rộng rãi và cho nhiều kết quả tốt Chú ý rằnghình phổ của một dòng văn bản tương ứng với hai đỉnh có một đáy nhỏ ở giữa

Trang 31

Baird [53] trình bày chi tiết một phương pháp phân tích các cột của vùng ký

tự Cách tiếp cận này có tên là toàn cục tới cục bộ, được mô tả thông qua định nghĩa

của một mô hình tham số về đặc điểm của cột văn bản Các tham số này sẽ quyết định việc phân tích: các thông tin của một ảnh đầu vào thường là sự phân chia vùng trong nó và các tham số không gian Thông tin quan trọng nhất liên quan tới các cột văn bản là: các ký tự được in theo các dòng song song (±0.5 degree) và chúng có chiều ngang (±5 degree), từng dòng ký tự đồng nhất nhau về kích cỡ và các kích cỡ này là biết trước; các ký tự được in là không bị dính nhau và việc tách các ký tự ra

là dễ dàng Các thành phần kết nối của ảnh văn bản nhị phân được tách ra Góc nghiêng được xác định và chỉnh lại Một phép chiếu theo chiều ngang của các cột được phân tích để tách ra các dòng ký tự trong nó Trong mỗi dòng ký tự, từng ký

tự được tách ra và cho vào các nhóm đã được phân loại từ trước: nhờ các nhóm phân loại này để có được các thông tin về các dòng văn bản cơ sở, từ đó tính được kích cỡ ký tự và vị trí của dòng văn bản Các ký tự được kết hợp vào trong các từ thông qua việc xác định giá trị ngưỡng khoảng cách giữa các ký tự và khoảng cách giữa các từ trong một đoạn văn bản

Ha [56] đề xuất một phương pháp đơn giản để phân vùng trang văn bản và phân lớp các thành phần vào trong các từ, các dòng và các đoạn văn bản Phương pháp này dựa trên việc phân tích các phép chiếu theo chiều dọc và chiều ngang của hình bao các thành phần kết nối Phương pháp này chỉ có thể ứng dụng cho các ảnh văn bản với các yêu cầu: ảnh nhị phân, có chất lượng tốt như không có nhiễu, văn bản đã được khử nghiêng, các cột tách rời nhau và cuối cùng là có khoảng cách rõ ràng giữa các ký tự, giữa các từ, giữa các dòng ký tự, giữa các khối văn bản

Parodi và Piccioli [61] mô tả một phương pháp tách các dòng ký tự từ một văn bản phi cấu trúc và có độ nghiêng nhỏ Cách tiếp cận này dựa vào phân tích phổ phép chiếu của các cột nhỏ theo chiều dọc, các cột trùng lên nhau, mà được xác định từ ảnh đầu vào Với từng cột, các vùng mà bao gồm các điểm ảnh nổi bật được

xác định và gọi là các line element Các line element của các cột nối tiếp nhau được

Trang 32

liên kết với nhau nếu phép chiếu của chúng là trùng lên nhau và có cùng độ sâu Với từng phần tử, chỉ có duy nhất một liên kết với các phần tử khác thuộc cột khác được chấp nhận Danh sách kết quả của các thành phần sẽ thể hiện các ứng cử viên có thể

là những đường thẳng ký tự Độ nghiêng của dòng được tính thông qua độ dốc của đường thẳng trung tâm của các phần tử Độ nghiêng của trang được xác định như là giá trị trung bình của tất cả độ nghiêng các đường thẳng Sau đó ảnh văn bản được xoay lại cho đúng Hình bao chữ nhật bên ngoài của các ứng cử viên đường thẳng

ký tự được tính toán Một phép lọc các hình bao này được thực hiện để loại bỏ các phần tử không phải là vùng ký tự Số lượng các ký tự trong mỗi ứng cử viên dòng

ký tự được xác định thông qua tỉ lệ độ rộng/độ sâu của hình chữ nhật bao quanh Các hình bao chữ nhật mà có số lượng chuyển đổi từ điểm đen/điểm trắng và điểm trắng/điểm đen dọc theo hướng của dòng ký tự là không xấp xỉ tương ứng với số ký

tự trong dòng cũng sẽ bị loại bỏ Những ứng viên còn lại chính là những dòng ký tự

và được nhóm vào trong các khối văn bản

2.2.2.1.3 Kỹ thuật phân tích cục bộ dựa vào kết cấu

Chen [57] mô tả một thuật toán phân vùng để tách ra các từ trong một trang văn bản Ảnh của trang văn bản có độ phân giải là 150 dpi Một khối từ được định nghĩa là một vùng hình chữ nhật mà chứa một từ Một khối từ được xác định thông qua một lớp các pixel mà mỗi pixel có thể tính được số pixel phía sau nó Việc này được thực hiện từ một tập hợp các ảnh con nhân tạo có các điểm ảnh liên kết được

gán nhãn, có phải là một khối từ hay không Một tập hợp n biến đổi đệ quy, từng biến đổi là một cấu trúc phần tử khác nhau, được áp dụng để đào tạo từ ảnh gốc ra n

ảnh biến đổi Số điểm ảnh của những ảnh con này được mô hình bởi các vectơ thể hiện vị trí trong ảnh biến đổi Xác suất đến sau của từng véctơ trong mỗi khối từ được tính toán Bằng cách này, một lược đồ xác suất liên quan đến các ảnh con được tạo ra Lược đồ này chính là ngưỡng để xác định các khối từ Giá trị của ngưỡng được xác định bằng các tính histogram của lược đồ xác suất: sử dụng hàm hồi quy tuyến tính để ước lượng các histogram và các giá trị ngưỡng lựa chọn của

Trang 33

các ảnh con trong tập hợp đào tạo Sự xuất hiện của phần nhô cao hay phần thụt xuống của các ký tự có thể gây ra việc các từ trong các dòng khác nhau có thể được nhóm vào trong một khối từ Một bước xử lý để thực hiện việc xác định các khối và tách chúng một cách thích hợp Bước này phụ thuộc vào việc so sánh độ sâu của khối với độ sâu của khối vượt trội trong trang văn bản Việc phân tách phụ thuộc vào việc xác định các điểm cắt trong phổ phép chiếu của lược đồ xác suất tương ứng với khối

2.2.2.1.4 Kỹ thuật phân tích cấu trúc nền

Baird [55] mô tả một kỹ thuật phân vùng dựa vào việc phân tích cấu trúc nền của ảnh văn bản, từ đó xác định cấu trúc hình học của trang Ở phần tiền xử lý ảnh, các thành phần xuất hiện mà quá nhỏ hoặc quá lớn để có thể là ký tự sẽ bị lọc

bỏ và ảnh trang văn bản được chỉnh độ nghiêng Tất cả các hình bao chữ nhật lớn nhất bao phủ nền như là các hình chữ nhật trắng mà không thể mở rộng hơn nữa, sẽ được liệt kê Một yêu cầu phân cấp được xác định cho khu vực và tỉ lệ của các vùng

chữ nhật Lựa chọn N vùng chữ nhật lớn nhất bao phủ nền Việc mở rộng giá trị N

sẽ làm tăng tính chính xác cho sự bao phủ vùng Những vùng không được bao phủ

sẽ là các khối Phương pháp này không đòi hỏi sự quy định về các tập ký tự, nó chỉ đòi hỏi duy nhất kích kỡ trung bình của các vùng ký tự

2.2.2.1.3 Các kỹ thuật làm nhoè

Một trong những kỹ thuật đầu tiên để xác định vùng ký tự và vùng không

ký tự được trình bày bởi Johnton [58] Một số yêu cầu như sau : các ký tự được in theo các dòng ngang, ảnh đầu vào là sạch, các vùng không chứa ký tự không nằm sát vùng ký tự, độ rộng và độ cao của các ký tự là xác định Ý tưởng cơ bản của kỹ thuật là : các ký tự xuất hiện như một tập hợp của các sọc ngang Thuật toán hoạt động theo hai bước :

1 Xoá các đối tượng lớn hơn kích cỡ của ký tự Nó sử dụng một chuỗi các toán tử hình thái theo chiều dọc và chiều ngang mà các tham số phụ thuộc

Trang 34

vào kích thước của ký tự Kết quả là một ảnh được sử dụng như là một mặt nạ để tăng cường các ký tự từ ảnh gốc Các thành phần nhỏ có liên quan và phân vùng các dòng vẫn như cũ

2 Xoá bỏ các đối tượng nhỏ hơn kích thước của ký tự chuẩn bằng cách cũng sử dụng các phép toán hình thái như trên Ảnh đầu ra có thể được sử dụng như là một mặt nạ để xác định những vùng chỉ chứa các ký tự của ảnh gốc

2.2.2.2 Các kỹ thuật phân vùng trang văn bản

Phần này mô tả các thuật toán chỉ sử dụng việc phân vùng văn bản thành các vùng đồng nhất, không sử dụng việc phân lớp theo các khối

2.2.2.2.1 Các kỹ thuật làm loang

Thuật toán Run Length Smearing Algorithm (RLSA) được đề xuất bởi Wong [63] Ảnh đầu vào phải sạch và đã được chỉnh độ nghiêng Các phép toán của thuật toán dựa vào sự liên kết của các chuỗi điểm ảnh, ví dụ như là các dòng và các

cột Một chuỗi x bao gồm các số 0 và 1 được biến đổi vào trong chuỗi y theo các

quy tắc sau :

Các số 0 trong x được biến đổi thành 1 trong y nếu số lượng các số 0 liên tiếp nhau nhỏ hơn hoặc bằng ngưỡng C cho trước

Các số 1 trong x không thay đổi trong y

Kết quả của phép biến đổi này là các vùng đen là hàng xóm gần nhất của

nhau thì luôn cách nhau nhỏ hơn hoặc bằng C điểm ảnh Bậc của kết nối phụ thuộc vào giá trị của C và sự phân tán của các điểm trắng và đen trong toàn trang văn bản, với độ phân giải cụ thể nào đó RLSA có thể ứng dụng cho các dòng và cho các cột

của các trang văn bản Đối với các ảnh có độ phân giải 240 dpi, giá trị ngưỡng của

vệt loang theo chiều ngang và theo chiều dọc là khác nhau : C h = 300, C v = 500 Các

ảnh được kết hợp bởi toán tử AND và phép toán làm mịn theo chiều ngang, sử dụng

ngưỡng C h = 30 Hàm phân vùng của RLSA cho các vùng ký tự mô tả bởi các khối

Trang 35

nhỏ, tương ứng với các dòng ký tự Thuật toán chạy nhanh nhưng có một số giới hạn : giá trị các ngưỡng là một tập hợp ưu tiên, nó chỉ có thể ứng dụng cho các văn bản có cấu trúc hình chữ nhật Để xác định ra các khối hình chữ nhật, một bước xử

lý tiếp theo được thực hiện Kết quả của thuật toán RLSA là rất tôt và thú vi, vì dễ thực hiện và có nhiều ứng dụng

2.2.2.2.2 Các kỹ thuật dựa vào phép chiếu

Một trong những thuật toán phân vùng trang phổ biến nhất là thuật toán Cut

X-Y đệ quy, RXYC Thuật toán được áp dụng cho ảnh nhị phân sạch, đã được khử nghiêng Thuật toán RXYC thực hiện phân chia đệ quy trang văn bản thành hai hay

nhiều hơn các khối hình chữ nhật mà được trình diễn thông qua đỉnh của một cấu trúc hình cây Trong từng bước đệ quy, phép chiếu được thực hiện theo chiều dọc

và chiều ngang Việc phân vùng của từng khối được thực hiện thông qua xem xét các vết lõm trong hình phổ của phép các phép chiếu : độ rộng của vệt lõm lớn hơn một ngưỡng cho trước Các ngưỡng này có thể là khác nhau ở từng bước của quá trình đệ quy và phụ thuộc vào những hiểu biết về lớp văn bản Thông tin về sự ưu tiên là cần thiết liên quan đến việc định nghĩa điều kiện dừng của sự đệ quy Kỹ thuật này chỉ ứng dụng được cho các trang văn bản có cấu trúc có thể phân tích thành chuỗi các thành phần con theo chiều dọc hoặc theo chiều ngang

Nhiều tác giả khác cũng sử dụng thuật toán RXYC nhưng có một số thay đổi Wang và Srihari [65] so sánh cách tiếp cận RLSA với RXYC Thuật toán RXYC được lựa chọn cho việc phân vùng cho các trang báo Nagy [66,67] đưa ra một cách tiếp cận từ trên xuống, trong đó có sự kết hợp của phân vùng cấu trúc và

hàm gán nhãn Việc phân vùng dựa trên thủ tục RXYC và được chỉ dẫn bởi những

đặc trưng biết trước của cấu trúc trang Một thuật toán huấn luyện về phân vùng

trang dựa vào kỹ thuật RXYC được trình bày bởi Sylwester và Seth [68]

Các khối cột lớn nhất có thể là kết quả của thuật toán phân vùng do Pavlidis

và Zhou trình bày [69] Chúng được định nghĩa như là các vùng nhỏ của ảnh đầu

Trang 36

vào mà chứa đựng một kiểu dữ liệu đơn và có thể phân tách nhau bởi các khoảng trắng thẳng Các văn bản có độ nghiêng nhỏ, các cột có các góc nghiêng khác nhau (do sự vặn vẹo của văn bản khi in) có thể được giải quyết Thuật toán dựa trên việc phân tích hình phổ của phép chiếu theo chiều dọc, như là tất cả các khối nhỏ liên tục của các đường quét Độ rộng của các khoảng trắng trong các phép chiếu theo chiều

dọc tương ứng với khoảng trống giữa các cột, được gọi là column interval Các khối

cột được xây dựng lặp lại bởi sự kết hợp các phần của cáccolumn interval theo các quy tắc sau : là rất khít với hướng dọc, có độ rộng tương tự nhau, các phép chiếu theo chiều dọc của chúng được chứa một trong đối tượng khác Ở bước tiếp theo, một quá trình kết hợp xảy ra cùng với sự tính toán góc nghiêng của các khối kết quả Với từng khối cột, hướng trung tâm được xác định bằng việc tự thêm vào các điểm trung tâm của culumn interval với một đường thẳng Sự kết hợp của các khối cột được thực hiện với các luật tưong tự như ở trên và bắt buộc với sự thẳng hàng của các trục trung tâm Một đặc điểm hay của cách tiếp cận này là nó thể hiện được

sự mềm dẻo của phương pháp từ dưới lên và cùng một lúc giảm bớt được sự không hiệu quả của việc sử dụng column interval như là các phần tử cơ bản của quá trình kết hợp Sự lựa chon này đảm bảo thuật toán chạy tốt với một số cấu trúc đối tượng thay thế cho nhiều đối tượng ở mức thấp như là các điểm ảnh, các thành phần liên thông hay kết nối Một giới hạn của thuật toán là trong trường hợp các ký tự in với kích thước lớn, có thể tạo ra các khối cột bị phân tán do khoảng cách lớn giữa các

từ Do đó, một số tham số như là độ rộng khoảng trống giữa các cột, cần được hiệu chỉnh phù hợp với từng văn bản khác nhau

2.2.2.2.3 Các kỹ thuật phân tích cục bộ dựa vào cấu trúc

Trong nghiên cứu của Jain và Bhattacharjee [70], quá trình phân tách các vùng ký tự và không ký tự được xem như là vấn đề phân vùng cấu trúc Nghiên cứu này đưa ra một cách tiếp cận lọc đa kênh để phân vùng cấu trúc Ý tưởng cơ bản là các vùng ký tự trong ảnh văn bản định nghĩa một cấu trúc duy nhất mà có thể dễ dàng thu được thông qua một số nhỏ phép lọc Gabor Các phép lọc được ứng dụng

Trang 37

trực tiếp cho ảnh đa cấp xám đầu vào Ở đây không yêu cầu các thông tin ban đầu như cấu trúc, kiểu font chữ, góc nghiêng Thuật toán phân vùng cấu trúc thực hiện theo ba bước chính :

1 Lọc ảnh thông qua n phép lọc Gabor

2 Tính các vectơ đặc trưng

3 Phân cụm các vectơ đặc trưng vào K cụm ; toạ độ (x,y) của từng điểm

ảnh được sử dụng như là các đặc trưng thêm vào Một giá trị tiêu biểu

của K sử dụng theo kinh nghiệm là 3 để có thể phân chia thành ba loại

cấu trúc :

a Vùng ký tự

b Vùng đồng nhất

c Đường biên giới của các vùng đồng nhất

Trong trường hợp K = 4 sẽ có nhiều hơn một lựa chọn thích hợp (các ký tự

viết tay) Để đánh giá được các giá trị kinh nghiệm, trong một chế độ phân lớp có giám sát, đối tượng phân loại lớp đào tạo (hàng xóm gần nhất trong kinh nghiệm) có

thể được sử dụng cho các ảnh đến sau Việc lựa chọn n lần lọc cho sự phân cụm

được tối ưu là một nhiệm vụ tới hạn, trên thực tế các lọc này không đảm bảo kết quả tốt nhất cho tất cả các vấn đề phân vùng

Tang [71] mô tả một phương pháp tiếp cận phân vùng trang dựa vào chữ ký phân dạng thay đổi (fractal) Ảnh đa cấp xám đầu vào được coi như một bề mặt fractal Vùng bề mặt được sử dụng như là một chữ ký fractal (FS) mô tả cấu trúc hình học cục bộ của các vùng khác nhau trong ảnh văn bản Vùng bề mặt được định

nghĩa với đơn vị đo là δ và giá trị của nó tăng với giới hạn khi δ giảm theo công thức hàm mũ xấp xỉ : A δ ≈ βδ 2-D

, trong đó β là một hằng số và D đại diện cho kích

cỡ của fractal Lấy logarithm cả hai vế, chúng ta có thể thấy rằng kích cỡ của fractal

có thể nhìn như là một độ dốc trong không gian log-log :

Trang 38

Do đó, kích cỡ của fractal D có thể tính được thông qua tính vùng bề mặt tại duy nhất độ đo đơn vị khác nhau, δ 1 và δ 2 Vùng bề mặt tại đơn vị được xác định

bằng cách đếm tất cả các điểm có khoảng cách nhỏ hơn hoặc bằng δ từ bề mặt và chia đôi số điểm này cho 2δ Tác giả chú ý rằng chữ ký fractal có thể được sử dụng

để phân biệt các vùng khác nhau như là : vùng ký tự, vùng hình ảnh, vùng nền Chúng phân chia ảnh thành các vùng nhỏ tách rời nhau và phân lớp chúng theo các chữ ký fractal

2.2.2.2.4 Kỹ thuật phân tích nền cấu trúc

Normand và Viard-Gaudin [72] trình bày một thuật toán làm mịn 2D cho

việc phân tích nền của văn bản, là một mở rộng cơ bản của kỹ thuật RLSA cho hai

chiều Họ đề nghị hai phần tử cấu trúc : hình vuông (square) và hình tám cạnh (octagon), và chọn hình tám cạnh cho nó vì tốt hơn về thuộc tính đẳng hướng Từng điểm ảnh nền được thay thế bởi một chỉ số, phụ thuộc vào kích thước của phần tử cấu trúc lớn nhất có thể được thay thế toàn bộ mà không giao nhau với điểm ảnh đối tượng Một cấu trúc cây có thứ bậc được tính bởi ngưỡng liên kết với các giá trị giảm khác nhau và giữ dấu vết của các thành phần kết nối đã được tạo ra Từng đỉnh của cấu trúc cây thể hiện một vùng của liên kết Đỉnh gốc thể hiện toàn bộ ảnh văn bản, và đỉnh con của mỗi đỉnh là các thành phần kết nối thu được bởi ngưỡng của vùng trong trang văn bản được thể hiện bởi đỉnh Các lá của cây tương ứng với các thành phần kết nối của trang văn bản Cấu trúc này được sử dụng để thực hiện một cách hiệu quả việc phân vùng của trang văn bản vào các khối Kết quả này có được được nhờ việc lựa chọn các đỉnh liên quan (relevant node) trong cấu trúc cây và việc tách ra các vùng con tương ứng với chúng

Kise [73] trình bày một phương pháp dựa trên việc làm mảnh (thinning) nền văn bản Quá trình phân vùng được thực hiện thông qua việc lựa chọn các thành phần đến sau của các chuỗi mà bao bọc các khối văn bản Đề xuất của thuật toán nhằm vào việc lọc bỏ các chuỗi không cần thiết và giữ lại các vòng lặp này Đầu tiên, các chuỗi kết thúc với một điểm ảnh cuối cùng sẽ bị loại bỏ Các chuỗi còn lại

Trang 39

được phân tích để loại bỏ những những chuỗi nằm giữa các ký tự và giữa các dòng

ký tự, và giữ lại các chuỗi nằm giữa các vùng giống nhau (như là giữa các cột )

Có hai đặc trưng được sử dụng : khoảng cách của các điểm trong chuỗi tới các điểm

ảnh đối tượng, và được gọi là độ rộng dòng trung bình sai khác, mà đưa vào trong

các đặc tính của các vùng đối tượng liền kề Quá trình lọc yêu cầu sự điều chỉnh tới hạn của một số ngưỡng mà phụ thuộc vào các khoảng cách trong ảnh đầu vào Sự

có mặt của các khe rộng giữa các từ hoặc các ký tự có thể tạo ra sai lầm khi phân vùng

2.2.2.3 Các kỹ thuật kết hợp phân vùng/phân lớp

Phần này trình bày các thuật toán áp dụng cho cho các trang văn bản mà việc phân tích là rất khó khăn Các thuật toán này sẽ thực hiện đồng thời cả quá trình phân vùng và quá trình phân lớp

2.2.2.3.1 Kỹ thuật phân tích các thành phần kết nối

Akiyama và hagita [41] đã đề xuất một kỹ thuật phân tích trang dành cho những ảnh văn bản đã được chỉnh nghiêng và bao gồm các vùng văn bản và hình ảnh Một số cở sở để tiến hành bao gồm : các dòng tiêu đề, các khối dòng văn bản, các hình ảnh, mỗi vùng được tương ứng với một vùng hình bao chữ nhật, và các đường thẳng liền nét hoặc đứt nét Do đó, một tập hợp gồm 15 đặc trưng hình học được thừa nhận cho cấu trúc của trang văn bản Bước đầu tiên là việc trích chọn miền các thành phần chia tách thông qua việc phân tích các thành phần kết nối của ảnh văn bản Các đường thẳng liền nét được thể hiện thông qua các thành phần có

độ dài tốt với số lượng crossing nhỏ (số lượt chuyển trạng thái trắng/đen theo hướng ngang và hướng dọc), trong khi đường thẳng đứt nét được thể hiện bởi các thành phần bao quanh bởi các điểm trắng liên tục Bước tiếp theo là tính độ dày của các

dòng ký tự Lược đồ histogram chiều sâu của các thành phần được tính Mức độ T

của lược đồ histogram thể hiện độ dày chính xác nhất của dòng ký tự Các thành

phần có độ sâu nhỏ hơn 1.5T sẽ là các ứng viên ký tự, ngược lại thì các thành phần

sẽ là ứng viên dòng tiêu đề hoặc ứng viên hình ảnh phụ thuộc vào số lượng crossing

Trang 40

của nó (thấp hay cao) Khối ký tự được xác định bắt đầu từ các ứng viên ký tự Những ứng viên này được phân cụm theo giá trị của hai tiêu chuẩn : phân tách vùng hoặc các vùng trắng trong phổ của phép chiếu Để tránh phân vùng quá, quá trình phân tách bị giới hạn khi số lượng crossing của tất các các cụm giảm xuống dưới một giới hạn cho trước Các thành phần ký tự liền kề trong một khối được kết hợp

để tạo ra các dòng ký tự Vùng ký tự đơn độc hoặc không có quy tắc sẽ bị đưa vào danh sách các ứng viên dòng tiêu đề hoặc ứng viên ảnh Các dòng tiêu đề được xác định bằng cách tương tự Các khối ảnh sẽ được xác định cuối cùng bằng việc kết hợp các vùng ảnh, các chuỗi thành phần ký tự là đóng đối với vùng ảnh

Zlatopolsky [76] sử dụng một kỹ thuật dựa trên quá trình phát triển tích luỹ bắt đầu từ những thành phần kết nối Quá trình phát triển được điều khiển bởi một

số ngưỡng có giá trị được xác định thông qua kích cỡ của các đối tượng được kết hợp Một giả thuyết là các khối ký tự được bao quanh bởi các khoảng trắng Một quá trình tiền xử lý nhằm xác định các thành phần không phải là ký tự, như là các thành phần nhỏ và dài Các thành phần này được xác định để phát hiện ra sự hiện diện của sự phân chia các khối như là các khung, hay là được kết hợp để tạo ra các khối hình ảnh Trong từng khung, các thành phần được nhóm lại trong các phân dòng bởi quá trình kết hợp tính các khoảng cách theo chiều dọc và chiều ngang của chúng Tại bước này, góc nghiêng của trang được xác định thông qua giá trị trung bình hướng của các phần tử có độ dài đủ lớn, và toàn trang văn bản sẽ được xoay chuẩn lại Các khối văn bản thu được sau khi kết hợp các vùng dòng ký tự đóng theo cả hai hướng dọc và ngang và tương tự nhau đối về các đặc tính dòng Tuy nhiên phương pháp này không hoạt động tốt trong các ảnh có sự hiện diện của các

ký tự bị gãy hay cấu trúc ảnh bị gãy (broken)

Wang và Yagasaki [77] trình bày một phương pháp dựa trên việc lựa chọn phân cấp và phân lớp các thành phần kết nối Đầu tiên, các vùng bao mở rộng, hoặc các đường nét của các thành phần kết nối được tìm kiếm Các thành phần rất lớn sẽ được gán nhãn không phải là ký tự Kích cỡ trung bình của các thành phần được

Ngày đăng: 25/03/2015, 10:01

HÌNH ẢNH LIÊN QUAN

Hình 2.1: Lược đồ quá trình xử lý biểu mẫu dựa trên Ngôn ngữ mô tả - Nhận dạng các biểu mẫu tài liệu
Hình 2.1 Lược đồ quá trình xử lý biểu mẫu dựa trên Ngôn ngữ mô tả (Trang 12)
Hình 2.2: Một hệ thống xử lý biểu mẫu văn bản - Nhận dạng các biểu mẫu tài liệu
Hình 2.2 Một hệ thống xử lý biểu mẫu văn bản (Trang 13)
Hình 2.3: (a) Ảnh trước khi khử nghiêng; (b) Ảnh sau khi khử nghiêng - Nhận dạng các biểu mẫu tài liệu
Hình 2.3 (a) Ảnh trước khi khử nghiêng; (b) Ảnh sau khi khử nghiêng (Trang 16)
Hình 2.4: (a), (b), (c) : Các đối tượng trên ảnh ; (d), (e), (f) : Phân cụm - Nhận dạng các biểu mẫu tài liệu
Hình 2.4 (a), (b), (c) : Các đối tượng trên ảnh ; (d), (e), (f) : Phân cụm (Trang 21)
Bảng 2.2 Sự phân lớp của các thuật toán phân tích trang - Nhận dạng các biểu mẫu tài liệu
Bảng 2.2 Sự phân lớp của các thuật toán phân tích trang (Trang 27)
Bảng 2.4 Các đặc trƣng của kỹ thuật phân vùng trang - Nhận dạng các biểu mẫu tài liệu
Bảng 2.4 Các đặc trƣng của kỹ thuật phân vùng trang (Trang 54)
Bảng 2.6 Các đặc trƣngcủa các kỹ thuật phân lớp khối - Nhận dạng các biểu mẫu tài liệu
Bảng 2.6 Các đặc trƣngcủa các kỹ thuật phân lớp khối (Trang 56)
Hình 3.5: Một minh họa về biểu mẫu động - Nhận dạng các biểu mẫu tài liệu
Hình 3.5 Một minh họa về biểu mẫu động (Trang 64)
Hình 3.6: Luồng xử lý - Nhận dạng các biểu mẫu tài liệu
Hình 3.6 Luồng xử lý (Trang 65)
Hình 3.11: Một lược đồ xử lý biểu mẫu động - Nhận dạng các biểu mẫu tài liệu
Hình 3.11 Một lược đồ xử lý biểu mẫu động (Trang 69)
Hình 3.23: Ảnh scan có đường viền màu đen và ảnh sau khi đã bóc viền đen - Nhận dạng các biểu mẫu tài liệu
Hình 3.23 Ảnh scan có đường viền màu đen và ảnh sau khi đã bóc viền đen (Trang 80)
Hình 3.25: (a) Ảnh scan. (b) (c) (d) Ảnh các đường chiếu đen và trắng ở - Nhận dạng các biểu mẫu tài liệu
Hình 3.25 (a) Ảnh scan. (b) (c) (d) Ảnh các đường chiếu đen và trắng ở (Trang 83)
Hình 3.28. Phiếu trả lời được quét ngược chiều - Nhận dạng các biểu mẫu tài liệu
Hình 3.28. Phiếu trả lời được quét ngược chiều (Trang 88)
Hình 3.27. Ảnh trước và sau khi xoay đúng chiều - Nhận dạng các biểu mẫu tài liệu
Hình 3.27. Ảnh trước và sau khi xoay đúng chiều (Trang 88)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN