1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phương pháp phát hiện bảng trong tài liệu tổng hợp

72 380 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 72
Dung lượng 1,9 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Hình 1.11 Các cấu trúc đặc trưng nét, tính lõm, lỗ hổng, các điểm cắt ngang và kết thúc có thể được sử dụng làm các chiều của không gian đặc trưng để phân loại ký tự Hình 1.12 Các đặc t

Trang 1

ĐẠI HỌC THÁI NGUYÊN

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG

Trang 2

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG

-  -

Nguyễn Cảnh Ân

PHƯƠNG PHÁP PHÁT HIỆN BẢNG TRONG TÀI LIỆU TỔNG HỢP

Chuyên ngành : Khoa học máy tính

Mã số: 60 48 01

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC:

Trang 3

MỤC LỤC

DANH MỤC CÁC HÌNH VẼ i

LỜI CẢM ƠN iii

MỞ ĐẦU 1

CHƯƠNG 1: HỆ PHÂN TÍCH TRANG TÀI LIỆU ẢNH VÀ BÀI TOÁN PHÁT HIỆN BẢNG………4

1.1 Giới thiệu chung hệ phân tích trang tài liệu và bài toán phát hiện bảng… 4

1.1.1 Quá trình thu nhận ảnh 7

1.1.2 Các bước xử lý điểm ảnh 8

1.1.2.1 Phương pháp nhị phân 8

1.1.2.2 Giảm nhiễu 9

1.1.2.3 Phân đoạn 10

1.1.2.4 Làm mảnh và xác định vùng 11

1.1.2.5 Mã hóa CC và véctơ hóa 13

1.1.3 Phân tích các đặc trưng của tài liệu ảnh 14

1.1.4 Phân tích các đối tượng văn bản trong tài liệu 14

1.1.4.1 Ước lượng độ nghiêng của văn bản 15

1.1.4.2 Phân tích sơ đồ trình bày của trang tài liệu 16

1.1.5 Nhận dạng ký tự quang học (OCR) 18

1.1.5.1 Trích chọn đặc trưng 20

1.1.5.2 Phân loại 21

1.1.5.3 Nhận dạng ký tự dựa trên ngữ cảnh 24

1.2 Bài toán phát hiện bảng 25

1.2.1 Mô tả bài toán 25

Trang 4

1.2.2 Một số hướng tiếp cận 28

1.3 Kết luận chương 29

CHƯƠNG 2: PHÂN TÍCH BẢNG DỰA TRÊN T-RECS 31

2.1 Phương pháp phát hiện bảng trong tài liệu ảnh 31

2.2 Giới thiệu thuật toán T-Recs 36

2.2.1 Các bước khởi tạo và phân đoạn của thuật toán 38

2.2.2 Trường hợp xác định sai cột của thuật toán 41

2.2.3 Cải tiến một số bước của thuật toán 42

2.2.4 Những ưu điểm của thuật toán 46

2.2.5 Những mặt hạn chế của thuật toán khởi tạo 47

2.3 Xử lý khối sau khi phân đoạn 48

2.3.1 Trộn các khối phân đoạn sai 49

2.3.2 Phân tách các cột bị trộn vào một khối 50

2.3.3 Nhóm các từ bị phân tách 52

2.4 Phân tích khối 53

2.5 Phát hiện cấu trúc các cột, hàng 55

2.6 Kết luận chương 55

CHƯƠNG 3: CHƯƠNG TRÌNH DEMO CỦA THUẬT TOÁN 57

3.1 Giới thiệu chung 57

3.2 Mô tả chương trình 57

3.3 Một số kết quả thử nghiệm 59

KẾT LUẬN 60

DANH MỤC CÁC TÀI LIỆU THAM KHẢO 63

Trang 5

DANH MỤC CÁC HÌNH VẼ

Hình 1.1 Sơ đồ khối của việc xử lý tài liệu

Hình 1.2 Các bước xử lý cho một hệ phân tích tài liệu, đi kèm sơ đồ là một

thí dụ với các kết quả thu được từ từng bước

Hình 1.3 Phương pháp nhị phân ảnh (a) Histogram của ảnh đa cấp xám

nguyên bản Trục ngang biểu diễn các giá trị ngưỡng được chọn Ảnh sau khi được nhị phân: (b) sử dụng ngưỡng thấp, (c) ngưỡng hợp lý, (d) ngưỡng quá cao

(a) Ký tự “m” (b) Một sơ đồ (c) Vân tay………

biểu diễn cho hướng mà một điểm láng giềng của X thuộc: 0 (hướng tây), 1(tây - bắc), 2(bắc), 3(đông - bắc), 4(đông), 5(đông – nam), 6(nam), 7(tây – nam)

Hình 1.7 Biểu đồ Histogram của phép chiếu ngang và dọc của ảnh (a) và

(b)

Hình 1.9 Để phân tách và nhận dạng hai số 4,2 có các nét nối liền nhau

như trên dễ gây nhầm lẫn

Hình 1.10 Các ký tự viết bằng tay sẽ rất dễ nhầm lẫn……… Hình 1.11 Các cấu trúc đặc trưng nét, tính lõm, lỗ hổng, các điểm cắt ngang

và kết thúc có thể được sử dụng làm các chiều của không gian đặc trưng để phân loại ký tự

Hình 1.12 Các đặc trưng của ảnh ký tự được trích ra

Hình 1.13 Một số nhầm lẫn giữa bảng và đối tượng khác

Hình 1.14 Khái niệm các thành phần trong bảng

Trang 6

Hình 2.1 Một số lỗi phổ biến của các thuật toán phát hiện cấu trúc bảng

Hình 2.3 Các từ láng giềng của từ “consist” theo chiều dọc

Hình 2.7 Mô tả kết quả thuật toán đã được điều chỉnh nhận dạng khối

Hình 2.9 Mô tả quá trình phân khối của văn bản trong các cột có khoảng cách

rất hẹp

Hình 2.10 Trường hợp một ô của bảng chiếm nhiều dòng dữ liệu

Hình 2.11 Những mặt hạn chế của thuật toán

Hình 2.12 Trộn hai khối bị phân tách

Hình 2.13 (a):Tách các cột nhỏ trong cột lớn;(b):Trộn các khối nhỏ vào khối

lớn

Hình 2.14 Trộn các từ bị tách nhờ vào các đoạn thẳng canh lề

Hình 2.15 (a) Phân tích khối loại 1 thành cấu trúc các ô của bảng ; (b) Ô

khối loại 2 được phân tich nhờ vào ô khối loại 1

Hình 2.16 Tách các khối loại 2 thành các hàng trong bảng

Hình 3.4 Nhận dạng ra các cột, các khối văn bản

Trang 7

LỜI CẢM ƠN

Trong suốt thời gian làm luận văn vừa qua, dưới sự giúp đỡ và chỉ bảo nhiệt tình của PGS.TS Ngô Quốc Tạo – Viện Công nghệ Thông tin – Viện Khoa học

và công nghệ Việt Nam, luận văn của em đã được hoàn thành Mặc dù bản thân

đã cố gắng không ngừng cùng với sự tận tâm của thầy hướng dẫn song do thời gian và khả năng cũng còn nhiều hạn chế nên luận văn cũng không tránh khỏi những thiếu sót trong quá trình làm

Để hoàn thành xong luận văn này, em xin bày tỏ lòng biết ơn sâu sắc tới PGS.TS Ngô Quốc Tạo – người thầy đã tận tình hướng dẫn em trong quá trình tìm hiểu, xây dựng và phát triển luận văn này

Em xin chân thành cảm ơn các thầy cô giáo trong Ban giám hiệu, phòng Đào tạo, các thầy cô giáo của trường Đại học Công nghệ Thông tin và Truyền thông – Đại học Thái Nguyên cùng các thầy cô giáo trong Viện Công nghệ Thông Tin – Viện Khoa học và Công nghệ Việt Nam đã quan tâm, tạo điều kiện thuận lợi, nhiệt tình giảng dạy và hướng dẫn em trong suốt hai năm học qua Và cuối cùng tôi xin gửi lời cảm ơn đến gia đình, cơ quan và toàn thể học viên lớp K11I Ninh Bình đã quan tâm, động viên và giúp đỡ tôi trong suốt hai năm học vừa qua

Cuối cùng em rất mong nhận được sự chỉ dẫn, góp ý của các thầy cô giáo để luận văn của em được hoàn thiện hơn

Em xin trân trọng cảm ơn !

Trang 8

MỞ ĐẦU

Trong những năm gần đây, các thiết bị phần cứng máy tính phục vụ cho công việc lưu trữ và xử lý hình ảnh đã phát triển vượt bậc cả về dung lượng lẫn tốc độ xử lý Đồng thời, giá cả của các thiết bị này cũng đã giảm đến mức con người trên toàn thế giới dễ dàng sở hữu những thiết bị liên quan đến việc phân tích và xử lý hình ảnh

Cùng với sự phát triển đó có những thách thức đặt ra đối với các nhà khoa học máy tính Các loại tài liệu lưu trữ trên giấy và xử lý theo các cách thức cũ không theo kịp tốc độ phát triển của công nghệ Những công việc ngày nay liên quan đến các loại tài liệu không chỉ là các tài liệu chữ chỉ để lưu trữ mà tài liệu bao gồm nhiều thành phần như các bảng biểu, ảnh…với số lượng khổng lồ tài liệu và xử lý những nhiệm vụ phức tạp trên máy tính ngày càng nhiều Những công việc văn phòng hàng ngày đều liên quan đến tài liệu, một tài liệu không chỉ đơn giản được lưu trữ mà nó cần phải được xử lý để có khả năng thay đổi, soạn thảo, chỉnh sửa và trích chọn các thông tin quan trọng Vì thế các hệ phân tích tài liệu ra đời, mục đích của chúng là giúp biểu diễn thông tin trong các tài liệu ảnh, tài liệu giấy được đưa vào từ máy quét dưới dạng có cấu trúc

Lĩnh vực xử lý ảnh là một công việc có nhiều ứng dụng trong cuộc sống, theo đó, một số nước phát triển trên thế giới như Nhật Bản, Trung Quốc, Pháp,

Mỹ, Canada đã không ngừng nghiên cứu phát triển công nghệ phần mềm liên quan đến ngành nhận dạng và xử lý hình ảnh để khai thác triệt để lợi thế của sức mạnh phần cứng hiện có Cùng với sự phát triển công nghệ tri thức và nhận dạng trên thế giới, Việt Nam ta cũng đang từng bước đầu tư và phát triển ngành nhận dạng và xử lý ảnh Điển hình là sự phát triển và ứng dụng mạnh mẽ của Viện Khoa học công nghệ Việt Nam – Viện Công nghệ Thông tin Việt Nam Tại Viện

đã có nhiều tác giả nghiên cứu và cải tiến một số thuật toán quan trọng liên quan

Trang 9

đến việc nhận dạng và phân tách các đối tượng khác nhau trong ảnh tài liệu Từ

đó đưa ra được một số phần mềm ứng dụng thiết thực trong cuộc sống Điển hình là sản phẩm phần mềm Hệ nhận dạng quang học OCR, hay hệ nhận dạng các chuỗi văn bản, bảng biểu VnDOCR

Nhiều thuật toán ra đời và từng bước phát triển đã phục vụ đắc lực cho việc đưa ra các ứng dụng khả thi vào cuộc sống cũng như góp phần xây dựng và bổ sung kho tri thức khoa học công nghệ của thế giới Điển hình về thuật toán nhận dạng đối tượng trong ảnh tài liệu là thuật toán nhận dạng bảng theo phương pháp tiếp cận dưới lên (bottom-up) được đề xuất bởi tác giả Thomas G.Kieninger được đặt tên là T-Recs

Phát hiện bảng và ảnh trong tài liệu ảnh là những bài toán khó và phức tạp Trước đây các hệ phân tích tài liệu ảnh chỉ tập trung vào nhận dạng các chuỗi ký

tự, phân đoạn các khối văn bản Ngày nay tài liệu không chỉ đơn thuần là văn bản mà nó còn bao gồm hỗn hợp những đối tượng các chuỗi ký tự, ảnh, các hình

xử lý khác, cũng như kết hợp xử lý tự động các dữ liệu thu thập được Do đó,

khi đã phát hiện được một đối tượng (văn bản hay hình ảnh) thì việc phát hiện

luôn cả cấu trúc chứa đựng và liên quan với đối tượng đó là thật sự cần thiết Một trong những cấu trúc quan trọng phổ biến thường được sử dụng mà trong

luận văn quan tâm đề cập đến đó là việc phát hiện bảng biểu (detect table) trong

ảnh tài liệu

Trong phạm vi một đề tài luận văn thạc sĩ với chủ đề “Phương pháp phát hiện bảng trong tài liệu tổng hợp” tôi sẽ tìm hiểu một số phương pháp, kỹ

Trang 10

thuật phát hiện bảng trong tài liệu tổng hợp, đưa ra giải pháp cải tiến thuật toán, hướng phát triển của thuật toán, xây dựng chương trình thử nghiệm

Bố cục của luận văn ngoài phần mở đầu và phần kết luận bao gồm 3 chương Chương 1 trình bày ngắn gọn cấu trúc chung của một hệ phân tích tài liệu ảnh, bao gồm các thành phần chính như: lấy dữ liệu, xử lý điểm ảnh, trích chọn đặc trưng và giới thiệu bài toán phát hiện bảng

Chương 2 đưa ra một thuật toán phát hiện bảng theo phương pháp tiếp cận dưới – lên (bottom – up) Thuật toán được đề xuất bởi Thomas G Kieninger (1998) được đặt tên là T-Recs Tuy nhiên để phát hiện được chính xác các cấu trúc bảng thì thuật toán còn nhiều hạn chế Luận văn sẽ chỉ ra trường hợp thuật toán phát hiện sai và đưa ra giải pháp nâng cao độ chính xác khi phát hiện

Cuối cùng chương 3 trình bày chương trình thử nghiệm: Nhận dạng bảng

theo cấu trúc dùng để nhận dạng bảng trong trang tài liệu tổng hợp

Phần kết luận nêu tóm tắt lại các vấn đề được đưa ra trong luận văn và đưa

ra những vấn đề còn tồn tại để nâng cao tính hiệu quả của những thuật toán Các hướng giải quyết và nghiên cứu trong tương lai đối với những phương pháp này cũng sẽ được đưa ra

Trang 11

CHƯƠNG 1: HỆ PHÂN TÍCH TRANG TÀI LIỆU ẢNH VÀ

BÀI TOÁN PHÁT HIỆN BẢNG 1.1 Giới thiệu chung một hệ phân tích trang tài liệu và bài toán phát hiện bảng

Ảnh tài liệu sau khi được quét và lưu trữ trong máy tính dưới dạng các tệp

dữ liệu ảnh, chúng bao gồm các điểm ảnh (pixels) và mô hình giống như lưới

các điểm ảnh Một vấn đề đặt ra cho chúng ta là trích chọn ra các thông tin đặc

trưng để máy tính có thể nhận biết được các dữ liệu này Đây chính là nhiệm vụ

của một hệ phân tích trang tài liệu Đó chính là một tập hợp các thuật toán và

các kỹ thuật để có thể phát hiện ra các đối tượng văn bản, đối tượng ảnh trong

ảnh tài liệu và có khả năng trích chọn ra các thông tin người dùng mong muốn

Một trong những công nghệ được áp dụng để nhận dạng văn bản là công nghệ

nhận dạng ký tự bằng quang học (Optical Character Recognition – OCR) Phần

mềm này có khả năng nhận dạng ký tự trên nền định dạng ảnh tài liệu và chuyển

sản phẩm nhận dạng sang kiểu tập tin văn bản có khả năng soạn thảo và tìm

kiếm nội dung của tài liệu

Như vậy, mục đích của hệ phân tích tài liệu là phát hiện ra được các đối

tượng khác nhau trong ảnh tài liệu như các đối tượng văn bản, hình ảnh… và

đưa ra được các thông tin người dùng mong muốn để phục vụ cho các mục đích

nghiên cứu, ứng dụng khác nhau Và đặc biệt, trong phạm vi nghiên cứu của

luận văn này đi sâu về việc phát hiện bảng (detect table) trong ảnh tài liệu

Trong các loại văn bản, tài liệu thì đối tượng bảng là thành phần quan trọng

trong một trang tài liệu tổng hợp, do đó trước hết việc phân tích sơ đồ trình bày,

cấu trúc trang là rất cần thiết để phục vụ cho việc xác định đối tượng bảng biểu

Một trang tài liệu tổng hợp thông thường gồm có hai loại đối tượng chính là văn

bản và hình ảnh, trên cơ sở các công nghệ nhận dạng hiện nay thì một hệ phân

tích trang tài liệu sẽ thực hiện hai nhiệm vụ chính sau Nhiệm vụ thứ nhất là xử

Trang 12

lý các đối tượng văn bản như ký tự, chuỗi ký tự, các từ Nhiệm vụ thứ hai là xử

lý các đối tượng hình ảnh được tạo ra từ các hình vẽ, đường kẻ, biểu đồ, các lôgô công ty…Sau khi thực hiện thành công hai nhiệm vụ chính trên thì hệ phân tích trang tài liệu sẽ trích chọn ra các thông tin cần thiết đã phát hiện được và được lưu lại dưới dạng định dạng tài liệu khác như Word,Html…

Ta có thể đưa ra sơ đồ khối liệt kê quá trình xử lý ảnh tài liệu như sau:

Hình 1.1: Sơ đồ khối của việc xử lý tài liệu Nguồn: Gorman(2009)

Trên thực tế chúng ta thấy việc thiết kế và ứng dụng được một hệ phân tích tài liệu ảnh rất cần thiết, nó giúp chúng ta giải quyết nhiều vấn đề khi mà số lượng dữ liệu lớn Chúng ta có thể xem một số ví dụ cụ thể dưới đây để thấy được sự cần thiết của việc phân tích trang tài liệu Thứ nhất, thực tế khi ta làm các công việc văn phòng thì hầu hết các tài liệu văn bản được tạo ra từ máy tính nhưng các máy tính có thể được cài đặt các phần mềm khác nhau, do đó có thể định dạng của chúng là không tương thích với nhau và kích thước cũng khác nhau Khi đó sẽ cần có một hệ phân tích tài liệu ảnh có khả năng lựa chọn được

Xử lý vùng và biểu tượng

Văn bản

Xác định độ nghiêng, dòng văn bản, các khối văn bản, đoạn văn bản

Đường thẳng, đường cong, góc

Vùng được

Trang 13

một số thông tin cần thiết để có khả năng chuyển đổi giữa các định dạng trên máy tính khác nhau

Trường hợp thứ hai là tại các doanh nghiệp sản xuất lớn với hàng ngàn công nhân thì việc chấm công theo cách thông thường sẽ rất khó khăn Tuy nhiên, việc này được khắc phục nhằm đem lại sự tiện lợi, chính xác và nhanh chóng bằng cách sử dụng máy chấm công bằng vân tay tích hợp công nghệ xử lý và so sánh dấu vân tay bảo đảm được công tác chấm công giờ làm không cần sự theo dõi trực tiếp của con người Trong đó máy chấm công bằng vân tay ứng dụng hệ phân tích ảnh tài liệu

Ngày nay, Công nghệ OCR có khả năng nhận dạng văn bản chính xác đến hơn 90%, các tài liệu lưu trữ trong thư viện, các tài liệu kỹ thuật sẽ được chuyển đổi thành các tài liệu điện tử trên máy tính để thuận tiện hơn trong việc lưu trữ, chỉnh sửa, biên tập lại Tuy nhiên tài liệu giấy cho đến nay vẫn được sử dụng rộng rãi vì phù hợp với mọi đối tượng, dễ thao tác, phổ biến vì tính trực quan

Do đó, vấn đề ở đây là chúng ta phải sử dụng công nghệ kết hợp các thuật toán

để tích hợp các dữ liệu dưới dạng ảnh để đưa vào xử lý trong máy tính

Sau khi có dữ liệu, máy tính phải thực hiện các bước xử lý cơ bản như xử lý điểm ảnh, phân tích các thành phần đặc trưng để phát hiện đối tượng văn bản và đối tượng ảnh

Trang 14

Hình 1.2: Các bước xử lý cho một hệ phân tích tài liệu, đi kèm sơ đồ là một thí dụ với các kết quả thu được từ từng bước Nguồn: Gorman(2009)

1.1.1 Quá trình thu nhận ảnh

Thông thường ảnh được thu thập bằng cách quét quang học thông qua máy quét hoặc bằng cách sao chép hình ảnh, những đoạn phim kỹ thuật số từ máy chụp hoặc máy quay phim rồi được lưu trữ vào máy tính dưới dạng một tập tin ảnh gồm có các yếu tố hình ảnh, hoặc điểm ảnh, đó là “nguyên liệu” đầu vào để phân tích ảnh tài liệu sau này

Giá trị điểm ảnh có thể là 0 và 1 trong ảnh nhị phân, 0 đến 255 trong ảnh đa cấp xám và ảnh màu với 3 giá trị R, G, B từ 0 đến 255 Thí dụ, với một trang ảnh tài liệu có kích thước 30x40 cm và có 140 điểm ảnh trong 1 centimet thì tạo được ảnh với 4200x5600 điểm ảnh Do đó có thể thấy rằng một tài liệu ảnh chỉ

Phân tích và nhận

dạng đối tượng ảnh

Phân tích và nhận dạng văn bản

1000 vùng ảnh được tô với kích thước

từ 20x20 đến 200x200 điểm ảnh 500x5 đặc trưng của đường thẳng và đường cong 10x5 đặc trưng vùng

Hai sơ đồ và 1 ảnh lô

gô của công ty,.v.v

Trang 15

bao gồm các dữ liệu thô (giá trị các điểm ảnh) và chúng sẽ được sử dụng những

kỹ thuật phân tích thích hợp để lấy ra được các thông tin cần thiết

1.1.2 Các bước xử lý điểm ảnh

Sau khi đã thu thập được ảnh, người ta sẽ tiến hành quá trình xử lý điểm ảnh để làm cơ sở cho các quá trình phân tích và nhận dạng về sau Cụ thể, thường thực hiện các công việc như chọn ngưỡng để chuyển ảnh đa cấp xám, ảnh màu về dạng ảnh nhị phân hay các thành phần trong ảnh tài liệu

không cần quan tâm đến có thể được loại trừ bằng việc giảm nhiễu (noise reduction) và một số bước còn lại là phân đoạn, dò biên để xác định các vùng,

các đặc trưng và đối tượng phù hợp Sau khi đã thực hiện các công đoạn vừa rồi, thì người ta thường nén các dữ liệu bằng các phương pháp mã hóa chuỗi

(chain coding) và biểu diễn ở dạng vectơ

1.1.2.1 Phương pháp nhị phân

Đối với ảnh tài liệu dạng đa cấp xám có thông tin vốn là nhị phân như văn bản hoặc hình ảnh thì mục tiêu là phải chọn được một ngưỡng để tách thông tin nền và thông tin ảnh thành hai phần riêng biệt Công việc này chính là để chọn được một ngưỡng thích hợp để tách thông tin ảnh tài liệu thành hai phần như vậy không phải là việc dễ dàng và sẽ càng khó khăn hơn đối với chúng ta khi gặp phải những thông tin ảnh mà độ tương phản giữa giá trị điểm ảnh nền và giá trị điểm ảnh văn bản là thấp Khi đường nét của văn bản quá mỏng hoặc khi quét ảnh tài liệu không đủ cường độ sáng thích hợp thì cũng gây ra những khó khăn trong quá trình tìm ngưỡng Vì vậy, người ta đã áp dụng nhiều phương pháp tách ngưỡng để khắc phục khó khăn trên Trong đó phương pháp tách ngưỡng tự động thường được áp dụng Cụ thể, giá trị ngưỡng α trong kỹ thuật tách ngưỡng thường cho bởi người sử dụng Kỹ thuật tìm, tách ngưỡng tự động nhằm tìm ra ngưỡng α một cách tự động dựa vào histogram theo nguyên

lý trong vật lý là vật thể tách làm hai phần nếu tổng độ lệch trong từng phần

là tối thiểu (Đỗ Năng Toàn-2008)

Trang 16

Hình 1.3: Mô phỏng phương pháp nhị phân ảnh (a): Biểu đồ Histogram của ảnh đa cấp xám ban đầu (b): ngưỡng thấp (c): ngưỡng phù hợp (c):

ngưỡng cao Nguồn: Gorman (2009)

1.1.2.2 Giảm nhiễu

Xuất hiện các điểm nhiễu trong tài liệu ảnh là do nhiều nguyên nhân bao gồm sự thoái hoá theo thời gian, sự sao chép, quá trình quét tài liệu từ máy quét Các nhiễu làm giảm hoặc nhiều khi làm mất khả năng biểu lộ thông tin của đối tượng chính trong ảnh Có nhiều loại nhiễu như nhiễu cộng, nhiễu nhân, nhiễu

Trang 17

xung Với mỗi loại nhiễu cần có các bộ lọc thích hợp Với nhiễu cộng và nhiễu nhân ta dùng các bộ lọc thông thấp, trung bình, và lọc đồng hình Sở dĩ như vậy

vì bản chất của nhiễu là thường tương ứng với tần số cao và cơ sở lý thuyết của các bộ lọc là chỉ cho những tín hiệu nào đó thông qua Nhiễu có thể coi như sự đột biến của một điểm ảnh so với các điểm lân cận Một số kỹ thuật xử lý ảnh sẽ được áp dụng để loại bỏ nhiễu

Sau khi được nhị phân hoá, tài liệu ảnh sẽ được lọc để giảm nhiễu Nhiễu muối và nhiễu hạt tiêu (Salt and Pepper noise) là những loại nhiễu phổ biến nhất

có trong các tài liệu kém chất lượng Chúng xuất hiện như những điểm ảnh khác biệt so với vùng xung quanh, chẳng hạn các điểm ảnh nhiễu ON (điểm mang thông tin ảnh) trong vùng nền OFF (điểm mang thông tin nền) hay ngược lại các điểm ảnh OFF trong vùng nền ON và các cạnh gồ ghề của ký tự hay các đối tượng ảnh Các phép toán hình thái thường được sử dụng để loại bỏ nhiễu Hai phép toán hình thái cơ bản là giãn ảnh (Dilation) và co ảnh (Erosion) Co ảnh là phương pháp làm giảm kích cỡ của vùng ON Giãn ảnh là phương pháp ngược lại với co ảnh, trong đó những điểm đơn ON thì tăng thêm Các phép toán này thường được kết hợp với nhau nhiều lần và áp dụng tuần tự co ảnh và giãn ảnh nhiều lần Một trong những phương pháp kết hợp đó được gọi là phép toán OPENING, sử dụng cùng một số lần co ảnh và giãn ảnh Kết quả của phép toán OPENING là vùng biên của đối tượng nhẵn hơn, vùng eo nhỏ bị đứt và các vùng điểm nhiễu nhỏ được loại bỏ Phép toán đối xứng của OPENING là CLOSING

Nó thực hiện giãn ảnh cùng một số lần với co ảnh Kết quả thu được của phép toán CLOSING đó là vùng biên nhẵn hơn, loại bỏ các lỗ hổng (holes) nhỏ trong đối tượng và nối liền các kẽ hở ngắn giữa các đối tượng

1.1.2.3 Phân đoạn

Để phục vụ cho các bước xử lý ảnh tài liệu về sau, một trong những công đoạn khá quan trọng là phải tiến hành phân đoạn các đặc tính cơ bản có chứa trong hình ảnh thu nhận được Cụ thể, việc phân đoạn được tiến hành với hai

Trang 18

tiến trình chính Thứ nhất là tách riêng biệt giữa các lớp của ảnh tài liệu, gồm lớp hình ảnh và lớp văn bản đối với trường hợp dữ liệu đầu vào có chứa cả hình ảnh và văn bản Thứ hai là tiếp tục thực hiện các tiến trình phân tích trên các lớp vừa được tách ra Với lớp hình ảnh thì phân định rõ các đối tượng hình

vẽ, đường kẻ, biểu tượng cũng như các loại hình ảnh khác Còn đối với lớp văn bản thì tiến hành xác định các ký tự, từ, đoạn văn, chia cột văn bản,…Một số hướng tiếp cận phương pháp phân khúc các đặc tính ảnh như dựa trên không gian đặc trưng, không gian ảnh hoặc là dựa trên mô hình vật lý Tiếp đến là văn bản sẽ được tách thành các đoạn, các cột, các chuỗi, còn hình ảnh thì được tách thành các biểu tượng, đường kẻ và các đối tượng ảnh khác Như vậy, tài liệu ảnh sau khi được thực hiện phân khúc sẽ quản lý được các đối tượng rất nhỏ như các phần cơ bản của ảnh

1.1.2.4 Làm mảnh và xác định vùng

Làm mảnh ảnh là một thao tác xử lý trong đó đối tượng ảnh được biểu diễn như những đường trục trung tâm hay còn gọi là lấy xương của đối tượng ảnh Đây là kỹ thuật làm giảm bớt các điểm ảnh lân cận có cùng bản chất nhưng vẫn bảo đảm tính liên kết và liên thông của mỗi đối tượng ảnh Xương được coi như

là hình dạng cơ bản của một đối tượng, người ta có thể lấy lại được các thông tin về hình dạng nguyên bản của một đối tượng thông qua xương của nó Việc tìm được xương của đối tượng ảnh sẽ giúp chúng ta giảm bớt tốn kém vì không cần thiết phải lưu trữ những thông tin không quan trọng trong quá trình

xử lý sau này, cũng như có thể đồng bộ hóa việc lưu trữ các đối tượng ảnh tương tự nhau ví dụ như những đoạn thẳng có thể vẽ với độ dày mỏng khác nhau nhưng khi lưu trữ và biểu diễn thì các đoạn này là giống nhau nhờ vào việc biểu diễn xương của chúng Hình 1.4 biểu diễn ảnh nguyên bản bên trái và xương tương ứng của chúng phía bên phải Đã có nhiều thuật toán được phát triển trong việc tìm xương nhằm từng bước khắc phục việc mất mát thông tin trong quá trình thực hiện Người ta chia thành hai loại thuật toán tìm xương là

tìm xương dựa trên làm mảnh (thinning) và tìm xương không dựa trên làm

Trang 19

mảnh Thuật toán làm mảnh là quá trình lặp duyệt và kiểm tra tất cả các điểm thuộc đối tượng Trong mỗi lần lặp tất cả các điểm của đối tượng sẽ được kiểm tra: Nếu chúng thỏa mãn điều kiện xóa nào đó tuỳ thuộc vào mỗi thuật toán thì

nó sẽ bị xóa đi Quá trình được lặp lại cho đến khi không còn điểm biên nào được xóa Đối tượng được bóc dần lớp biên cho đến khi nào bị thu mảnh lại chỉ còn các điểm biên Người ta thường sử dụng thuật toán làm mảnh song song và thuật toán làm mảnh tuần tự Nếu tìm xương không dựa trên làm mảnh thì để tách được xương của đối tượng, người ta sử dụng đường biên của đối tượng nhờ vào trục trung vị thông qua hai bước cơ bản: Bước thứ nhất là tính khoảng cách từ mỗi điểm ảnh của đối tượng đến điểm biên gần nhất và cần phải tính toán khoảng cách tới tất cả các điểm biên của ảnh Bước thứ hai, khoảng cách ảnh đã được tính toán và các điểm ảnh có giá trị lớn nhất được xem là nằm trên xương của đối tượng (Đỗ Năng Toàn-2008)

Hình 1.4: Ảnh nguyên bản bên trái và ảnh sau khi làm mảnh bên phải

(a) Ký tự “m” (b) Một sơ đồ (c) Vân tay Nguồn: Gorman (2009)

Trang 20

1.1.2.5 Mã hóa CC và véctơ hóa

Khi đã phát hiện được xương hoặc biên của đối tượng ảnh thì ta có thể biểu diễn ảnh theo một trong hai cách này Nhưng đối tượng ảnh còn có thể được biểu diễn hiệu quả hơn bằng cách lưu trữ các điểm ảnh theo các giá trị ON

và OFF, trong đó giá trị ON thể hiện giá trị của mỗi điểm ảnh và OFF biểu diễn giá trị điểm nền

Một trong những phương pháp lưu ảnh hiệu quả đó là lưu dưới dạng mã xích CC (Chain Code – Freeman 1974), trong đó các điểm có giá trị ON được biểu diễn thông qua tập các điểm láng giềng đi theo một hướng quy định Thay

vì phải lưu trữ vị trí của điểm ảnh có giá trị ON chúng ta sẽ lưu trữ hướng của các điểm láng giềng Các điểm láng giềng của một điểm x là tất cả các điểm nằm liền kề với x thuộc ma trận 3 x 3 với điểm x là tâm Có hai ưu điểm khi biểu diễn giá trị điểm ảnh theo hướng thay vì phải lưu vị trí của điểm ảnh Thứ nhất

đó là việc lưu trữ hiệu quả hơn Thông thường với những ảnh có kích thước lớn hơn 256 x 256, toạ độ giá trị điểm ảnh ON thường được biểu diễn bởi 16 bít; trái lại với cách lưu trữ CC một điểm láng giềng thuộc 1 trong tám hướng, do đó mỗi một điểm ảnh ON chỉ cần biểu diễn bằng 1 byte hay thậm chí chỉ cần 3 bít

để lưu Một ưu điểm khác có thể thấy trong CC đó là vì CC lưu theo cấu trúc các điểm ảnh có liên quan với nhau và do đó dựa vào cách thức lưu trữ này có thể thực hiện các công việc xử lý như làm trơn các đường cong và tính xấp xỉ các đường thẳng trơn

Sau bước xử lý điểm ảnh, dữ liệu thô của ảnh đã được biểu diễn ở cấp độ trừu tượng cao hơn: đã khoanh được vùng bao của chuỗi ký tự, biểu diễn CC và véctơ của các đường cong và đường thẳng, hay đã xác định được vùng biên của các đối tượng

3 2 1

4 X 0

5 6 7

Trang 21

Hình 1.5: Cửa sổ 3x3 điểm ảnh với điểm ảnh X nằm ở tâm Các giá trị số biểu diễn cho hướng mà một điểm láng giềng của X thuộc: 0 (hướng tây), 1(tây - bắc), 2(bắc), 3(đông - bắc), 4(đông), 5(đông – nam), 6(nam), 7(tây – nam)

1.1.3 Phân tích các đặc trưng của tài liệu ảnh

Đặc trưng của ảnh tài liệu gồm có đặc trưng cục bộ (local features) và đặc trưng toàn cục (global features) Với ảnh tài liệu chứa văn bản, đặc trưng toàn

cục mô tả từng trang, độ nghiêng của trang khi quét vào từ máy quét, độ dài dòng, khoảng cách dòng, còn đặc trưng cục bộ thì mô tả về kích thước phông chữ, dấu chấm câu, v.v…Tương tự như thế, với ảnh tài liệu chứa hình ảnh, thì đặc trưng toàn cục cũng xét đến độ nghiêng của trang tài liệu, độ rộng dòng, phạm vi của độ cong đối với các đường cong, độ dài tối thiểu của dòng Và đặc trưng cục bộ lại xét đến việc mô tả mỗi góc, mô tả đường cong và đường thẳng, định vị các hình chữ nhật, hình tròn và hình dạng của các loại hình học khác Như vậy, để phục vụ cho các công đoạn xử lý ảnh tiếp theo, thì các hình ảnh sau khi đã xử lý điểm ảnh nó sẽ được lưu trữ ở dạng xương, dạng hình bao hoặc dạng véctơ hóa và tiếp tục được phân tích đặc trưng, được ghi

nhận và xử lý để làm cơ sở dữ liệu cho những thao tác xử lý nhận dạng về sau 1.1.4 Phân tích các đối tượng văn bản trong tài liệu

Có hai loại phân tích được áp dụng trong việc phân tích văn bản trong tài liệu ảnh Loại thứ nhất là nhận dạng ký tự quang học (ORC) để nhận dạng từng ký

tự, các chuỗi ký tự từ ảnh bitmap (bmp), loại thứ hai là phân tích sơ đồ trình bày của trang tài liệu nhằm nhận biết được định dạng của văn bản, và từ đó hiểu được cấu trúc, vị trí, chức năng của các khối văn bản (tiêu đề chính, tiêu đề phụ, đoạn văn bản, chú thích v.v…) Phụ thuộc vào cách sắp xếp của các khối văn bản, một biểu mẫu kinh doanh, hay là một phong bì thư Nhận dạng ký tự quang học và phân tích sơ đồ trình bày có thể được thực hiện một cách riêng rẽ, hay có thể lấy kết quả của phần này để sử dụng cho phần kia Nhận dạng ký tự quang học thường được nhận biết như là ứng dụng nhận dạng ký tự viết tay hay các ký

tự trong tài liệu in Kỹ thuật phân tích sơ đồ trình bày được áp dụng để phân tích

Trang 22

định dạng của trang, một loại ứng dụng phân tích sơ đồ trình bày đó là nhận dạng biểu mẫu, giúp phân tích và nhận dạng cấu trúc biểu mẫu và văn bản có trong biểu mẫu Trong một số trường hợp người ta cần phải xác định độ nghiêng của tài liệu bởi vì tài liệu được quét có thể bị nghiêng so với bề ngang của trang

giấy trong trường hợp tài liệu đó không được đặt đúng khi quét vào từ máy quét

1.1.4.1 Ước lượng độ nghiêng của văn bản

Ảnh tài liệu được cho là nghiêng khi phát hiện góc nghiêng khác 0 Một dòng

văn bản được cấu thành từ một nhóm các ký tự, các từ tiếp giáp tương đối gần nhau, các biểu tượng,…được bố trí trên một đường thẳng theo hướng đứng hoặc nằm ngang Những dòng văn bản này là căn cứ cơ bản để xác định góc độ nghiêng của trang ảnh tài liệu trên cơ sở so sánh tính chất song song của các

dòng văn bản so với các cạnh của mép trang tài liệu

Việc xác định độ nghiêng và điều chỉnh độ nghiêng của tài liệu là một việc làm cần thiết trước khi thực hiện những bước trên Một phương pháp xác định

độ nghiêng của tài liệu phổ biến đó là phép chiếu nghiêng Phép chiếu nghiêng

là phương pháp tính số lượng điểm ảnh ON (điểm ảnh có giá trị 1 trong ảnh nhị phân) khi quét ảnh theo các dòng hay các cột và lưu giá trị này vào một mảng, trong đó chỉ số của mảng chính là dòng hay cột được quét Do đó giá trị các điểm ảnh ON khi quét qua trang ảnh sẽ được biểu diễn bởi một đồ thị tần suất Mỗi một lần thực hiện phép chiếu nghiêng ta sẽ chiếu ảnh theo các góc khác nhau (từ 0 đến 180 độ), tức là sẽ thực hiện quay ảnh một góc tương ứng Để tìm được góc nghiêng của văn bản thì sẽ tìm góc quay sao cho đồ thị tần suất có nhiều những đỉnh cao nhất và những vùng trũng nhất Nếu đồ thị tần suất có 10 đỉnh và 10 vùng trũng thì có thể suy ra rằng tài liệu ảnh có 10 dòng văn bản Do

đó với mỗi phép chiếu nghiêng ta sẽ tính số đo độ cao của các đỉnh và số đo độ cao các vùng trũng, góc chiếu nào mà có sự khác nhau giữa hai số đo này là lớn nhất thì chính là góc nghiêng của văn bản

Trang 23

Hình 1.7 : Biểu đồ Histogram của phép chiếu ngang và dọc của ảnh (a) và (b)

Trang 24

Hình 1.8: Kết quả phân tích cấu trúc và chức năng các khối của một trang tài liệu

Sau khi xác định được độ nghiêng của trang tài liệu, ảnh sẽ được quay một góc để độ nghiêng của trang bằng 0, sau đó quá trình phân tích sơ đồ trình bày của trang được thực hiện Phân tích cấu trúc trình bày được thực hiện để lấy ra được cấu trúc các khối văn bản (các đoạn văn bản) trong tài liệu Tuỳ thuộc vào định dạng của từng loại tài liệu, quá trình phân đoạn có thể thực hiện phân tách các từ, các dòng văn bản hay cấu trúc các khối (nhóm các dòng văn bản, chẳng hạn các đoạn văn bản hay các bảng danh mục) Thông thường người ta dựa vào quy tắc sắp xếp thông tin trong trang tài liệu để nhận dạng từng khối và gán

Trang 25

nhãn cho chúng Một thí dụ đưa ra kết quả sau khi phân tích trang đầu tiên của một tài liệu kỹ thuật bao gồm: tên tài liệu, tác giả, tóm tắt, từ khoá, các đoạn trong thân văn bản v.v Hình 1.8 đưa ra một thí dụ với kết quả sau khi đã thực hiện phân tích cấu trúc và gán nhãn cho các khối trên một trang tài liệu ảnh Hai phương pháp phân tích theo hướng cấu trúc vật lý thường được sử

dụng để tiến hành phân tích trang là tiếp cận từ trên xuống (top-down) hoặc tiếp cận từ dưới lên (bottom-up) Hai phương pháp này có tính đối ngẫu lẫn

nhau Nhưng người ta thường áp dụng phối hợp theo hướng kế thừa sản phẩm của nhau để cùng phân tích trang tài liệu Thông thường phương pháp từ trên xuống sẽ đi phân tích những khối cấu trúc lớn đến những khối và thành phần cấu trúc hay đối tượng nhỏ hơn Thí dụ một trang có thể được phân tích thành các khối phần trên, khối phần giữa và khối phần chân của trang, rồi thì các khối này lại được phân tích thành các đoạn văn bản và đối tượng ảnh, tiếp đến các đoạn này lại được tách thành các dòng, các cụm từ, các từ, các ký tự Trong khi

đó phương pháp tiếp cận dưới lên lại phân tích theo chiều hướng quy nạp ngược lại, cụ thể là nó đối ngẫu bằng cách xuất phát từ các khoảng trắng liên thuộc được giao kết với các ký tự để phát hiện các từ, tiếp đến các từ này lại được giao kết với nhau để nhận dạng được từng dòng, cứ tiếp tục như vậy để phát hiện được các thành phần lớn hơn của trang

1.1.5 Nhận dạng ký tự quang học (OCR)

Phát hiện ký tự quang học (OCR) là một công nghệ thuộc lĩnh vực nhận dạng, công nghệ này được áp dụng để nhận dạng các chuỗi kỹ tự dựa trên cơ sở

là các bảng chữ cái Trên thực tế các nước lại có một kiểu chữ khác nhau, các ký

tự trong bảng chữ cái cũng thường có các kiểu viết khác nhau Do đó có sự đa dạng của các nét chữ viết tay, của các kiểu phông chữ, kích thước chữ khác nhau Vì thế để nhận dạng ra các chuỗi ký tự đa dạng như vậy người ta phải xây dựng các quy tắc xác định để nhận biết từng ký tự Theo đó OCR luôn cố gắng tích hợp cả kỹ thuật, thuật toán và xây dựng hệ thống phần mềm để từng bước nhận dạng được chữ viết với khả năng ngày một giống như con người hơn

Trang 26

Tuy nhiên, với dữ liệu đầu vào là các chữ viết, nó được tạo ra tự do, không theo một quy tắc xác định, một sự ràng buộc nào đó về độ lớn, đường nét, độ đậm nhạt, các nét đứt… khi chúng ta viết chữ Ngay cả khi chúng ta đánh máy thì mỗi loại văn bản lại có quy định bởi các phông chữ, cỡ chữ và cách trình bày khác nhau Đây chính là khó khăn rất lớn cho OCR trong khi nhận dạng nếu gặp phải tài liệu chữ viết có nhiều điểm nhiễu, các nét đứt, các chữ viết không được nắn nót Ví dụ như số “ 6 “ và số “ 0 “ rất dễ nhầm lẫn nhau, chữ “ u” giống chữ “ v” khi chữ viết không được nắn nót Và trên thực tế sẽ càng khó khăn hơn khi các từ ngữ lại thường được xây dựng cả con số lẫn các chữ cái ví dụ như số tài khoản ngân hàng do máy tính tạo ra hoặc khi người ta viết tay các ký tự dính nét nhau khi tạo thành một từ

Hình 1.9: Để phân tách và nhận dạng hai số 4,2 có các nét nối liền nhau như

trên dễ gây nhầm lẫn Nguồn Dengel (2001)

Trang 27

Hình 1.10: Các ký tự viết bằng tay sẽ rất dễ nhầm lẫn (Nguồn Dengel 2001)

Thuật toán OCR thường có hai phần chính: trích chọn đặc trưng và phân loại

Một cách cơ bản, quá trình OCR gán một ảnh ký tự vào một lớp bằng cách sử dụng thuật toán phân loại dựa trên những đặc trưng được trích chọn và mối liên

hệ giữa các đặc trưng đó Độ đo tương tự là cơ sở để xác định một đối tượng có thuộc một lớp ký tự hay không Thông thường sẽ có một thành phần thứ ba đó là

quá trình xử lý dựa trên ngữ cảnh để sửa lại những lỗi của OCR Dưới đây sẽ

trình bày ngắn gọn ba thành phần của OCR

1.1.5.1 Trích chọn đặc trưng

Các tính năng của đối tượng được trích xuất và sắp xếp dưới dạng những độ

đo Song song với quá trình này, người ta xây dựng các lớp dữ liệu chứa các ký

tự bằng cách tạo ra một mô hình chung nhất cho các lớp đó Từ đó tiếp tục thực hiện quá trình chọn lựa tính năng đặc trưng bằng cách tìm kiếm và so sánh các thuộc tính của từ ngữ nhận dạng trên cơ sở các lớp đã được xây dựng trước đó

Và do đó quá trình trích chọn đặc trưng sẽ cố gắng tìm ra các thuộc tính dựa

Trang 28

trên nguyên mẫu đã xây dựng cho các lớp Các đặc trưng chung như, số lượng các lỗ hổng trong ký tự, mặt lõm của đường viền bên ngoài, sự nhô ra của điểm cao nhất và các đặc trưng nội tại, các điểm cắt ngang, các điểm kết thúc, các góc v.v sẽ được sử dụng Mỗi ảnh ký tự sẽ trích ra các đặc trưng trên và phân loại chúng vào lớp tương ứng

1.1.5.2 Phân loại

Trong phương pháp phân loại dựa trên thống kê, những mẫu ảnh ký tự được biểu diễn bằng các điểm trong không gian đặc trưng đa chiều Mỗi một thành phần trong không gian đa chiều biểu diễn cho một độ đo đặc trưng Quá trình phân loại sẽ chia không gian đa chiều thành các vùng tương ứng với các lớp ký

tự và chúng được gán nhãn tương ứng

Một thí dụ về không gian đặc trưng được sử dụng để phân loại 50 ký tự vào

5 lớp khác nhau {C, E, T, X, Y} được chỉ ra trên hình 1.11 Không gian đặc trưng dựa trên hai thuộc tính, phần trăm của các điểm ảnh màu đen nằm trên nét

dọc (SV) và nét ngang (SH) của ký tự Nét bút của ký tự được tách ra thành các

nét ngang và nét dọc Một điểm ảnh có thể thuộc một hoặc cả hai nét trên, do đó

S V + S H có thể lớn hơn 100% Ký tự E và T có thể coi là có giá trị S V và S H lớn

nhất; ký tự C có giá trị S V và S H xấp xỉ 50%; ký tự X và Y có giá trị S H được coi như là nhỏ nhất Khi đó phân loại các ảnh ký tự sẽ dựa vào độ đo khoảng cách từ

nó đến các lớp đã được huấn luyện

Trang 29

Hình 1.11: Các cấu trúc đặc trưng nét, tính lõm, lỗ hổng, các điểm cắt ngang

và kết thúc có thể được sử dụng làm các chiều của không gian đặc trưng để phân loại ký tự Nguồn Dengel (2001)

Đối sánh với giá trị tập huấn luyện là một phương pháp thuần tuý dùng để

phân loại và nó cũng được coi là một phương pháp phổ biến nhất Các điểm ảnh riêng rẽ sẽ được sử dụng trực tiếp như là những đặc trưng Độ đo tương tự sẽ được thay thế cho độ đo khoảng cách Độ đo sẽ được tính dựa trên việc đếm số lượng điểm ảnh thoả mãn một tính chất nào đó (số lượng điểm ảnh đen và trắng của ảnh dữ liệu trùng với số lượng điểm ảnh đen và trắng tương ứng nằm trên tập huấn luyện) Phương pháp đối sánh với giá trị tập huấn luyện còn có cách gọi khác là cực đại hoá sự tương quan Tương tự như vậy, chúng ta cũng đếm số điểm ảnh không thoả mãn (số lượng điểm ảnh đen của ảnh dữ liệu trùng với số lượng điểm ảnh trắng nằm trên tập huấn luyện và ngược lại) Lớp với số lượng điểm ảnh không thoả mãn là ít nhất sẽ được chọn làm lớp cho đối tượng kiểm tra Phương pháp như vậy gọi là cực tiểu hoá độ lệch Số lượng điểm ảnh thoả

Trang 30

mãn và không thoả mãn có thể quy đổi được và từ đó tính ra được độ tương tự của đối tượng so với tập huấn luyện Đối sánh với tập huấn luyện là một phương pháp hiệu quả khi mà sự thay đổi trong một lớp đối tượng là do các điểm nhiễu thêm vào

Hình 1.12: Các đặc trưng của ảnh ký tự được trích ra

Quy tắc K láng giềng gần nhất (K – Nearest Neighbor Rule )(K – NNR) là một luật quyết định nổi tiếng được sử dụng rộng rãi trong bài toán phân loại của nhận dạng Tỉ lệ lỗi khi phân loại dùng K – NNR đảm bảo cho ra tỉ lệ lỗi không vượt quá hai lần tỉ lệ lỗi Bayes (tỉ lệ lỗi đạt được tối thiểu khi biết sự phân bố dữ

liệu) và sẽ tiến tới tỉ lệ lỗi Bayes với một giá trị nào đó của K Quy tắc K – NNR

sẽ đặc biệt hiệu quả khi mà phân bố xác suất của các biến đặc trưng là chưa xác định Chọn lọc các tập huấn luyện là một phần quan trọng của quy tắc láng giềng gần nhất (1 – NNR)

Mặc dù nhiều vấn đề đã được giải quyết một cách thành công nhờ sử dụng phương pháp thống kê, nhưng vẫn có những cách biểu diễn các mẫu hiệu quả dưới dạng cấu trúc hay sắp xếp các thành phần như là định nghĩa các thuộc tính của mẫu Phương pháp biểu diễn cấu trúc trong OCR biểu diễn các mô hình ký

Trang 31

tự dưới dạng các mẫu và mối quan hệ giữa các mẫu để mô tả cấu trúc mô hình một cách rõ ràng [1]

Khi được yêu cầu mô tả ký tự trong bảng chữ cái, mọi người thường biểu diễn chúng dưới dạng cấu trúc các đặc trưng (Hình 1.12)

Chẳng hạn như: chữ cái hoa ‘A’ có hai đường kẻ thẳng (nét bút) dưới chân,

có một điểm kết thúc nằm trên đỉnh và một đường kẻ ngang cắt hai điểm giữa,

có một lỗ hổng ở phía trên Tư tưởng cốt lõi của phương pháp cấu trúc đó là biểu diễn mô hình dưới dạng tập các thuộc tính đặc trưng mà có khả năng mô tả bất

kỳ một đối tượng thuộc lớp đối tượng đang xét và có khả năng phân biệt các lớp đối tượng khác nhau

1.1.5.3 Nhận dạng ký tự dựa trên ngữ cảnh

Một trong những phương pháp hữu hiệu để cải thiện tính chính xác và nâng cao hiệu suất của công nghệ OCR là việc áp dụng một thứ tự từ điển trong mỗi ngôn ngữ để nhận định và phân biệt giữa những ký tự ghép lại thành từ

(word) là có nghĩa hay không có nghĩa Người ta lập một hệ các nhãn để lần

lượt thay thế cho các ký tự trong quá trình tạo thành một từ nào đó Những kết

hợp của các ký tự mà tạo thành một từ không có ý nghĩa (theo cách là từ này chưa hoặc không tồn tại trong từ điển trước đó) thì được loại bỏ Thực tế cho

thấy có thể gán nhãn đúng cho các ký tự ngay cả khi không thiết lập một hệ thống danh sách các nhãn ban đầu cho các ký tự Trong trường hợp này thì đơn giản chỉ thực hiện việc nhóm tất cả các ký tự trong các tài liệu có hình dạng tương tự nhau Theo đó, một hệ thống từ điển với kích thước nhỏ sẽ được sử dụng để thay thế các biểu tượng trong mỗi nhóm với một ký tự duy nhất

Như vậy, cách thức xử lý này căn cứ vào ngữ nghĩa của từ trong từ điển

để khắc phục một số lỗi mà chính bản thân OCR chưa thể khắc phục được Người ta lắp ráp các ký tự để hình thành nên các từ trên cơ sở trích chọn những thông tin của các ký tự khác nhau được phát hiện trong một từ nhờ vào sự có nghĩa của từ đó Việc đánh giá xem một từ là có nghĩa hay không thì cách tốt

Trang 32

nhất là so khớp từ đó với các từ đã có trong từ điển hoặc tập các từ vựng của

một ngôn ngữ đặc thù nào đó Như đã trình bày trong phần 1.5, rằng chữ u rất giống với chữ v nên trong quá trình nhận dạng đặc trưng rất khó để phân biệt được hai chữ này Giả sử bài toán nhận dạng yêu cầu nhận ra ký tự x là ký tự

gì khi nó đã được phân bổ nằm trong một dãy nhãn ký tự gồm các ký tự

qxeen Theo đó, việc nhận dạng dựa trên ngữ cảnh có ứng dụng từ điển Tiếng Anh sẽ xác định rằng ký tự x là ký tự u chứ không phải ký tự v bởi vì về quy tắc từ vựng trong Anh ngữ thì chỉ có gần như duy nhất ký tự u là đi liền sau ký

tự q và cũng trong từ điển tiếng Anh không có từ qveen mà lại có từ queen

(Ngô Quốc Tạo - 2007)

Đã có những nghiên cứu một cách hệ thống kết quả nhận dạng thu được từ OCR trên Tiếng Anh Một báo cáo đầy đủ kết quả từ những sản phẩm OCR trên tài liệu được in bằng máy được công bố bởi trường đại học Nevada [11] Với những tài liệu đạt tiêu chuẩn, kết quả nhận dạng chính xác từ 99.13% tới 99.77% Với những tài liệu có chất lượng kém, độ chính xác của nhận dạng cũng đạt từ 89.34% tới 97.01% Kết quả nhận dạng giảm đi đối với những tài liệu chất lượng kém chủ yếu là do các nét ký tự bị đứt và các ký tự liền kề nối liền nét Thời gian gần đây, phương pháp OCR nhận dạng ảnh trong tài liệu phức tạp cũng được Wilson [4] công bố một báo cáo toàn diện trong việc sử dụng và đánh giá phương pháp OCR cho những ứng dụng xử lý biểu mẫu

1.2 Bài toán phát hiện bảng

1.2.1 Mô tả bài toán

Phát hiện, phân tích và nhận dạng bảng trong các trang ảnh tài liệu –

(document images) là một trong số các vấn đề chính của phân tích và nhận dạng

tài liệu Phát hiện bảng là bài toán phát hiện ra các cột, các hàng, các ô có trong bảng Vấn đề này đã được nghiên cứu trong nhiều năm và đã có hàng trăm bài báo khoa học được công bố, đặc biệt trong những năm gần đây được nhiều nhà khoa học quan tâm tập trung nghiên cứu Năm 2013, hội nghị quốc tế hàng đầu

Trang 33

về phân tích và nhận dạng tài liệu (ICDAR’13) đã khởi xướng và tổ chức cuộc thi nhận dạng bảng trong tài liệu [2] Bài toán nhận biết bảng được chia thành các bài thành các nhiệm vụ như sau (theo từng bước/mức độ hiểu biết khác nhau

về bảng):

+ Định vị bảng (table location) hay còn gọi là phát hiện bảng (table detection):

xác định các vùng trong tài liệu có chứa nội dung là bảng

+ Nhận dạng cấu trúc bảng (table structure recognition) hay còn gọi là phân đoạn/phân tích bảng (table segmentation/analysis): xây dựng lại cấu trúc các

thành phần của bảng (các hàng, các cột, các ô – rows, columns, cells)

+ Diễn giải bảng (table interpretation): giải thích ý nghĩa của cấu trúc bảng,

bao gồm:

- Phân tích chức năng (functional analysis): xác định chức năng của các ô và

quan hệ logic trừu tượng giữa chúng (xác định đâu là phần tiêu đề, đâu là phần nội dung,…)

- Giải thích ngữ nghĩa (semantic interpretation): hiểu ngữ nghĩa của bảng

dựa vào các thực thể trong bảng, các thuộc tính với các giá trị tương ứng và mối quan hệ giữa các thực thể trong bảng (xác định xem bảng mô tả về nội dung gì, cột/hàng chứa nội dung dạng gì,…)

Trong đó, phát hiện và phân tích cấu trúc bảng là quan trọng nhưng cũng khó khăn hơn cả, mang tính tổng quát hơn, được tập trung nghiên cứu nhiều hơn Những khó khăn trong nhận dạng bảng là do bản chất bảng là một cấu trúc phức tạp và khi đặt trong ngữ cảnh của tài liệu thì dễ gây nhầm lẫn với các đối

tượng khác trong tài liệu (Hình 1.13)

Trang 34

Hình 1.13: Một số nhầm lẫn giữa bảng và đối tượng khác

Ngoài ra chúng ta cũng thấy sự đa dạng của các thành phần của bảng, bao

gồm các hàng và các cột tạo thành các ô, trong các ô có hoặc không có đường bao của ô (đường phân tách các hàng và các cột), một ô có thể bị bỏ trống thông tin hoặc gộp (merge) với các ô khác,…

Hình 1.14 Khái niệm các thành phần trong bảng [3]

Các ứng dụng chủ yếu của phát hiện, nhận dạng bảng là được sử dụng trong các hệ thống nhận dạng ký tự quang học (OCR) như FineReader của ABBYY hay VnDOCR của Viện Công nghệ thông tin… Một số khác được ứng dụng trong các hệ thống nhập liệu tự động (kết hợp với kỹ thuật nhận dạng biểu mẫu)

Trang 35

1.2.2 Một số hướng tiếp cận

Có rất nhiều hướng tiếp cận khác nhau trong phát hiện và phân tích cấu trúc bảng Hướng tiếp cận thường được nghĩ ngay đến là tìm các đường kẻ có thể có của bảng (các đường phân tách hàng/cột của bảng, có thể là đường liền nét hoặc đứt nét), sau đó tìm các điểm giao của các đường kẻ ngang và dọc để xây dựng lại cấu trúc bảng dưới dạng lưới (grid), cuối cùng phân tích sự hợp nhất của các

ô (merge cell) dựa trên một số luật [5], [7] mô tả một số bước trong thuật toán Với hướng tiếp cận này thì việc phát hiện đường kẻ là quan trọng nhất, chỉ cần một lỗi nhỏ trong phát hiện đường kẻ thì cũng làm sai toàn bộ thuật toán Có nhiều kỹ thuật để phát hiện đường kẻ như dựa vào biến đổi Hough… Tuy nhiên các kỹ thuật thường rất nhạy cảm với độ nghiêng của trang, nên cần các thao tác tiền xử lý để căn chỉnh độ nghiêng của tài liệu Hạn chế của hướng tiếp cận này

là chỉ có thể phát hiện được các bảng được tạo bởi các đường kẻ, với những bảng không có đường kẻ thì thuật toán sẽ không phát hiện được bảng Để khắc phục nhược điểm này, một số tác giả bổ sung thêm một số kỹ thuật phát hiện các khoảng trắng (white space) phân tách hàng/cột Tuy nhiên việc này là rất khó khăn, nhất là đối với các loại tài liệu có nhiều cột, vì rất dễ nhầm lẫn giữa khoảng trắng phân tách cột của bảng với khoảng trắng phân tách cột của trang Hướng tiếp cận khác, phổ biến hơn, phát hiện bảng trong quá trình phân tích trang Khác với hướng tiếp cận trên, việc phát hiện và phân tích cấu trúc bảng độc lập với phân tích trang, hướng tiếp cận này sẽ đặt phát hiện bảng trong mối quan hệ với phân tích trang ảnh tài liệu Trong quá trình phân tích trang, sau khi phát hiện được các cột (column) bằng các kỹ thuật như T-Recs, Whitespace, Tab-stop,…[6], [9], [12], [13]sẽ quyết định xem trong các cột đó, đâu là cột của trang đâu là cột của bảng dựa vào một số đặc trưng thống kê như mật độ, tính chất của các từ (word), các dòng (text-line) trong cột Nếu là cột của bảng thì gom/nhóm các cột liền nhau thành bảng và loại các cột đứng một mình Nếu là các cột của trang thì tiến hành phân tách cột thành các đoạn (paragraph) Hướng tiếp cận này không những giúp phát hiện được vùng bảng mà còn nâng cao chất

Trang 36

lượng phân tích trang Tuy nhiên, lại rất hay gặp phải các lỗi như phát hiện nhầm hay gộp hai bảng ở hai cột của trang lại với nhau

1.3 Kết luận chương

Trong chương này đã mô tả các thành phần chung của một hệ phân tích tài liêụ ảnh đặc biệt là đã đề cập một số công đoạn chính trong xuyên suốt quá trình kể từ lúc thu quét ảnh tài liệu đầu vào, đến lúc có thể phát hiện và trích chọn được những tính năng quan trọng do người dùng đặt ra ban đầu Bên cạnh một số kỹ thuật truyền thống, kết hợp với việc tham khảo các tài liệu trong nước và thế giới đã có đề cập đến một số cải tiến, một số phương pháp cũng như ý tưởng mới của một số tác giả từng có nhiều cống hiến và thành công trong lĩnh vực nghiên cứu xử lý ảnh

Mặc dù đã được nghiên cứu trong nhiều năm nhưng bài toán phát hiện, nhận dạng bảng vẫn là một thách thức lớn Trong nghiên cứu của ICDAR’13 trên tập

dữ liệu là các tài liệu kỹ thuật số (các file PDF) [2] cho thấy hầu hết các phương pháp đều cho kết quả không tốt, chỉ một số sản phẩm thương mại cho kết quả tốt hơn Mặt khác độ chính xác của các thuật toán trong kiểu bảng có đường kẻ và không có đường kẻ là khác nhau, điều này cho thấy các thuật toán chỉ làm việc tốt trên một số kiểu bảng nhất định Có nhiều hướng tiếp cận để phát hiện, nhận dạng bảng nhưng về cơ bản trước tiên cần phân tích, đánh giá các phương pháp nhận dạng bảng tiên tiến hiện nay Cài đặt, thử nghiệm và phân tích kết quả các thuật toán phân tích trang và phát hiện vùng bảng như T-Recs, Whitespace, Tab-Stop đồng thời áp dụng các kỹ thuật tiền xử lý ảnh để nâng cao chất lượng ảnh đầu vào như các kỹ thuật xóa nhiễu, căn chỉnh độ nghiêng trang,… Với ảnh đầu vào chưa phải là ảnh đen/trắng (black and white), áp dụng các kỹ thuật nhị phân ảnh với ngưỡng thích ứng để giảm nhiễu, tăng cường chất lượng ảnh Sau đó tiến hành xóa nhiễu trong ảnh, với nhiễu muối và hạt tiêu thì có thể sử dụng các phép biến đổi hình thái, với nhiễu biên/lề (marge) áp dụng các phép chiếu (ngang/dọc) để loại bỏ,… Tiếp theo là căn chỉnh độ nghiêng của trang ảnh, sử

Ngày đăng: 23/08/2016, 15:04

HÌNH ẢNH LIÊN QUAN

Hình 1.3: Mô phỏng phương pháp nhị phân ảnh. (a): Biểu đồ Histogram  của ảnh đa cấp xám ban đầu - Phương pháp phát hiện bảng trong tài liệu tổng hợp
Hình 1.3 Mô phỏng phương pháp nhị phân ảnh. (a): Biểu đồ Histogram của ảnh đa cấp xám ban đầu (Trang 16)
Hình 1.4: Ảnh nguyên bản bên trái và ảnh sau khi làm mảnh bên phải.   (a) Ký tự “m”. (b) Một sơ đồ - Phương pháp phát hiện bảng trong tài liệu tổng hợp
Hình 1.4 Ảnh nguyên bản bên trái và ảnh sau khi làm mảnh bên phải. (a) Ký tự “m”. (b) Một sơ đồ (Trang 19)
Hình 1.6: Văn bản bị nghiêng sau khi được quét qua máy quét - Phương pháp phát hiện bảng trong tài liệu tổng hợp
Hình 1.6 Văn bản bị nghiêng sau khi được quét qua máy quét (Trang 23)
Hình 2.1 Một số lỗi phổ biến của các thuật toán phát hiện cấu trúc - Phương pháp phát hiện bảng trong tài liệu tổng hợp
Hình 2.1 Một số lỗi phổ biến của các thuật toán phát hiện cấu trúc (Trang 41)
Hình  2.2.  Thuật  toán  phát  hiện  bảng  dựa  Tab-stop:  (a)  Các  phần  ứng  cử  của  bảng, (b) Các cột ứng cử của bảng, (c) Vùng bảng phát hiện được [7] - Phương pháp phát hiện bảng trong tài liệu tổng hợp
nh 2.2. Thuật toán phát hiện bảng dựa Tab-stop: (a) Các phần ứng cử của bảng, (b) Các cột ứng cử của bảng, (c) Vùng bảng phát hiện được [7] (Trang 43)
Hình 2.3: Mô tả từ giao nhau vùng bao quanh với từ consists chọn trước. (a):  vùng bao quanh của từ - Phương pháp phát hiện bảng trong tài liệu tổng hợp
Hình 2.3 Mô tả từ giao nhau vùng bao quanh với từ consists chọn trước. (a): vùng bao quanh của từ (Trang 47)
Hình 2.7: Mô tả kết quả thuật toán đã được điều chỉnh nhận dạng khối - Phương pháp phát hiện bảng trong tài liệu tổng hợp
Hình 2.7 Mô tả kết quả thuật toán đã được điều chỉnh nhận dạng khối (Trang 52)
Hình 2.9: Mô tả quá trình phân khối của văn bản trong các cột có khoảng cách  rất hẹp - Phương pháp phát hiện bảng trong tài liệu tổng hợp
Hình 2.9 Mô tả quá trình phân khối của văn bản trong các cột có khoảng cách rất hẹp (Trang 54)
Hình 2.13:  (a):  Tách các  cột  nhỏ trong cột  lớn;  (b): Trộn các  khối nhỏ vào  khối lớn;   Nguồn: Kieninger (1998) và xử lý của tác giả (7/2014) - Phương pháp phát hiện bảng trong tài liệu tổng hợp
Hình 2.13 (a): Tách các cột nhỏ trong cột lớn; (b): Trộn các khối nhỏ vào khối lớn; Nguồn: Kieninger (1998) và xử lý của tác giả (7/2014) (Trang 59)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w