1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu và ứng dụng thuật toán phát hiện bảng trong ảnh tài liệu luận văn thạc sĩ

65 702 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên cứu và ứng dụng thuật toán phát hiện bảng trong ảnh tài liệu luận văn thạc sĩ
Trường học Trường Đại Học Công Nghệ Thông Tin
Chuyên ngành Công Nghệ Thông Tin
Thể loại Luận văn
Định dạng
Số trang 65
Dung lượng 2,06 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Như vậy, mục tiêu của hệ phân tích ảnh tài liệu là phát hiện ra được các đối tượng khác nhau trong một ảnh tài liệu như chữ đánh máy, chữ viết bằng tay, hình ảnh, văn bản chia thành hàng

Trang 1

CHƯƠNG 1 GIỚI THIỆU TỔNG QUÁT VỀ HỆ PHÂN TÍCH ẢNH TÀI LIỆU

1.1 Tổng quan về hệ phân tích ảnh tài liệu

Ảnh tài liệu sau khi được quét và lưu trữ vào máy tính thì nó được cấu thành từ những điểm ảnh, nhiệm vụ của chúng ta là phải trích chọn được những

thông tin đặc trưng từ nó sao cho máy tính có thể “đọc” và “hiểu” được các thành

phần này Để làm được điều này người ta phải áp dụng các thuật toán kết hợp cùng với những kỹ thuật cả về phần cứng và phần mềm máy tính, sự tích hợp này là yếu

tố chính tạo thành một hệ phân tích ảnh tài liệu Sau khi tạo được hệ phân tích ảnh, người ta tiến hành quá trình xử lý ảnh gồm việc thao tác lên ảnh đầu vào để cuối cùng cho ảnh đầu ra với kết quả đạt được những mục tiêu đã định trước đó Cụ thể

là kết quả của ảnh đầu ra có thể là một kết luận về sự nhận dạng hoặc là một ảnh đã được xử lý tốt hơn Một trong những công nghệ khá phổ biến hiện nay được áp

dụng để nhận dạng văn bản là công nghệ nhận dạng ký tự bằng quang học (Optical

Character Recognition-OCR) Cơ chế chủ yếu của nó là nhận dạng ký tự trên nền

định dạng ảnh tài liệu và chuyển sản phẩm nhận dạng được sang kiểu tập tin văn bản Từ đó OCR có thể giúp chúng ta thao tác trên văn bản như tạo, sửa đổi, xóa bỏ, tìm kiếm, thay thế nội dung của tài liệu

Như vậy, mục tiêu của hệ phân tích ảnh tài liệu là phát hiện ra được các đối tượng khác nhau trong một ảnh tài liệu như chữ đánh máy, chữ viết bằng tay, hình ảnh, văn bản chia thành hàng, cột, v.v Đồng thời hệ phân tích này còn phải trích xuất được những thành phần trong ảnh tài liệu mà chúng ta mong muốn để phục vụ cho những mục đích nghiên cứu và ứng dụng khác nhau Và đặc biệt trong bài luận

này là trọng tâm nhấn mạnh đến việc phát hiện được bảng biểu (detect table) trong

ảnh tài liệu Trên cơ sở đặc điểm chung của một ảnh tài liệu thường có chứa hai loại đối tượng chính là văn bản và hình ảnh cũng như đa số các công nghệ nhận dạng được áp dụng hiện nay, chúng ta có thể thấy rằng một hệ phân tích ảnh tài liệu thực

hiện hai nhiệm vụ chính (xem hình 1.1) Nhiệm vụ thứ nhất là phải xử lý các đối

tượng hình ảnh được cấu thành từ hình vẽ, đường kẻ, dấu vân tay, khuôn mặt, những nốt đen lớn, biểu đồ,…Và nhiệm vụ thứ hai là phải xử lý các đối tượng văn bản cấu thành từ chữ viết như ký tự, từ, chuỗi ký tự, chữ viết tay Việc phát hiện độ

nghiêng (tilt) của tài liệu (độ nghiêng của văn bản xuất hiện khi chúng ta quét ảnh

Trang 2

tài liệu từ máy quét đã đặt không chuẩn xác các vị trí của nó), phát hiện các phông

chữ, độ lớn chữ, từ, cụm từ, dòng văn bản, đoạn văn bản và các cột văn bản là những công việc quan trọng và cần thiết để thực hiện việc phát hiện văn bản được ứng dụng công nghệ OCR như đã đề cập Sau khi thực hiện thành công hai nhiệm

vụ chính, hệ phân tích ảnh tài liệu sẽ trích chọn những thông tin cần thiết đã phát

hiện được, đưa vào một tài liệu ở một định dạng khác như tập tin văn bản (word)

hoặc ngôn ngữ hiển thị siêu văn bản (Hyper Text Markup Language-HTML)

Việc đầu tư tài chính, công nghệ, con người cùng các yếu tố liên quan để thiết kế và ứng dụng hệ phân tích ảnh tài liệu là rất cần thiết và vô cùng quan trọng

Nó giúp chúng ta giải quyết rất nhiều vấn đề trong thực tế khi mà số lượng các dữ liệu lớn Con người tiếp nhận và xử lý thông tin nhờ vào các giác quan, nhưng có thể nói trong đó có khoảng 80% là thu nhận bằng mắt Một vài ví dụ điển hình có thể minh chứng rằng thực sự cần thiết để sở hữu một hệ thống phân tích ảnh tài liệu nào đó Thứ nhất, ta là người phải nhập điểm số cho hàng trăm nghìn sinh viên trong một trường đại học được gửi về từ các giáo viên giảng dạy, theo cách làm truyền thống thì tại phòng xử lý điểm phải có ít nhất một người ngồi đọc điểm cùng với một người gõ vào máy tính Việc này vừa tốn thời gian, tốn chi phí nhân công,

ít khách quan lại dễ xảy ra sai sót do yếu tố con người Thay vào đó, nhà trường có thể thiết kế phiếu điểm giao cho giảng viên trong đó đã có sẵn các giá trị từ 1 đến

10 cho mỗi sinh viên và chỉ việc chấm điểm theo cách tô đen vào vị trí điểm số mà sinh viên đạt được Cuối cùng bảng điểm này được quét để máy tính phát hiện điểm

số một cách tự động nhờ vào chấm đen mà giảng viên đã tô đậm thông qua một hệ nhận dạng ảnh tài liệu, theo đó sẽ khắc phục được những nhược điểm của cách làm truyền thống Thứ hai là, tại một doanh nghiệp sản xuất kinh doanh với số nhân công hàng chục ngàn người làm việc trong ngày, trong các công đoạn chấm công có việc kiểm tra sự có mặt của nhân viên vào đầu giờ và cuối giờ làm Với phương pháp truyền thống doanh nghiệp phải cử ra rất nhiều người để theo dõi các nhân viên còn lại việc vào và ra khỏi công ty phải đúng giờ Việc này đã được khắc phục nhằm đem lại sự thuận lợi, chính xác và ít tốn kém bằng cách sử dụng một máy chấm công bằng vân tay, trong đó tích hợp công nghệ xử lý và so sánh dấu vân tay bảo đảm công tác thống kê số giờ làm mà không cần sự theo dõi trực tiếp của con

Trang 3

người Trong đó, máy chấm công bằng dấu vân tay ứng dụng hệ phân tích ảnh tài liệu

Hệ phân tích ảnh tài liệu đã được sử dụng trong vài thập kỷ qua, đặc biệt là trong ngành kinh doanh ngân hàng, bưu điện, thư viện,…ứng dụng để máy tính đọc

mã vạch hoặc lưu trữ tài liệu ở dạng điện tử, vào cuối những năm 1980 và 1990 thì

đã phát triển nhanh chóng Lý do chủ yếu của việc phát triển này là tốc độ ngày càng lớn và chi phí thấp hơn của phần cứng máy tính Kể từ khi máy fax trở nên phổ biến, chi phí của máy quét quang học cho các tài liệu đầu vào giảm xuống đã giúp các doanh nghiệp nhỏ cũng như mỗi cá nhân có cơ hội được sử dụng những công nghệ này Mặc dù ảnh tài liệu có chứa một lượng tương đối lớn dữ liệu, thì ngay cả máy tính cá nhân hiện nay cũng đã có tốc độ đủ để xử lý chúng Bộ nhớ máy tính bây giờ không những đủ cho các hình ảnh tài liệu lớn, mà quan trọng hơn,

bộ nhớ quang học bây giờ cũng đủ để lưu trữ khối lượng lớn dữ liệu Điều này dẫn đến ngày càng phát triển công nghệ nhận dạng và xử lý ảnh tài liệu Sự bổ sung cần thiết cho những cải tiến phần cứng là những tiến bộ đang được thực hiện trong việc phát triển các thuật toán và phần mềm phân tích ảnh tài liệu Trong đó công nghệ OCR có khả năng nhận dạng văn bản với độ chính xác lên đến khoảng 90%, bên cạnh đó nhiều phương pháp nhận dạng ảnh tài liệu khác cũng được cải tiến gần như

Xử lý đường kẻ Xử lý biểu

tượng và vùng

Văn bản Phát hiện độ

nghiêng, dòng, khối

và đoạn văn bản

Đường thẳng, góc và các đường cong Lấp đầy các

khu vực

Hình 1.1: Sơ đồ khối liệt kê nhiệm vụ xử lý ảnh tài liệu được phân chia theo cấp bậc

trong mỗi vùng của ảnh Nguồn: Gorman(2009), tác giả dịch thuật (7/2012)

Trang 4

tương tự Theo đó, các tài liệu viết tay hoặc tài liệu đã được in ấn hay những hình ảnh có thể được chuyển thành tài liệu điện tử trên máy tính để thuận tiện trong việc lưu trữ, quản lý, chỉnh sửa và biên soạn lại Tuy nhiên, tài liệu giấy cho đến nay vẫn đang phát huy vai trò truyền thống của nó do tính chất trực quang, dễ thao tác, phổ biến được rộng rãi đối với mọi đối tượng sử dụng Vì vậy, chúng ta phải tìm cách giải quyết vấn đề là sử dụng công nghệ và các thuật toán để tích hợp dữ liệu dưới dạng ảnh tài liệu vào trong bộ nhớ phần cứng để xử lý bằng máy tính

Sau khi đã tạo ra dữ liệu, máy tính phải thực hiện các bước xử lý cơ bản như xử lý điểm ảnh, phân tích các thành phần đặc trưng, phân tách từng thành phần phát hiện riêng biệt là phát hiện hình ảnh và phát hiện văn bản

Hình 1.2 Một trình tự để phân tích ảnh tài liệu, cùng với các ví dụ về các kết quả trung

gian, kết quả cuối cùng và kích thước của dữ liệu Nguồn: Gorman (2009), tác giả dịch thuật (7/2012)

Trang Tài liệu

Xử lý mức điểm ảnh Thu thập dữ liệu

107 điểm ảnh

500x5 đặc trưng đường thẳng và đường cong

10 x 5 đặc trưng vùng

7.500 hình bao ký tự, mỗi hộp có kích thước 15x20 điểm ảnh

500 đường kẻ và các đường cong, độ dài

từ 20 đến 2.000 điểm ảnh

10 khu vực khác nhau được tô, từ 20x20 đến 200x200 điểm ảnh

Trang 5

Hình 1.2 mô phỏng một chuỗi các bước trong phân tích hình ảnh tài liệu phổ biến Các phần tiếp theo sẽ trình bày vắn tắt một số bước cơ bản này Sau khi thu thập dữ liệu, hình ảnh trải qua xử lý cấp độ điểm ảnh và phân tích tính năng, sau

đó mỗi loại đối tượng văn bản và hình ảnh được phát hiện và xử lý riêng Thu thập

dữ liệu được thực hiện trên một tài liệu giấy thường bằng cách quét quang học Các

dữ liệu sau đó được lưu trữ trong một tập tin hình ảnh, gọi là điểm ảnh, được lấy mẫu trong một mô hình mạng lưới xuyên suốt ảnh tài liệu (Gorman – 2009)

1.2 Quá trình thu nhận ảnh tài liệu

Ảnh tài liệu thường được thu thập bằng cách quét quang học thông qua máy quét hoặc bằng cách sao chép hình ảnh và những đoạn phim kỹ thuật số từ máy

chụp hoặc máy quay phim (camera) rồi được lưu trữ vào máy tính dưới dạng một

tập tin ảnh gồm có các yếu tố hình ảnh, hoặc điểm ảnh, đó là “nguyên liệu” đầu vào

để phân tích ảnh tài liệu sau này Dữ liệu lúc này được tập hợp là các điểm ảnh

(pixels) và được mô phỏng thành tập hợp của một lưới các điểm ảnh (a grid pattern)

(Gorman - 2009)

Các thiết bị thu nhận ảnh tài liệu có hai loại chính tương ứng với hai loại ảnh thông dụng Vector và Raster Theo đó, quá trình thu nhận ảnh tài liệu thực hiện các công đoạn chính gồm việc biến đổi năng lượng quang học thành năng lượng điện gọi là cảm biến và tổng hợp năng lượng điện thành ảnh gọi là quá trình lượng

tử hóa (Đỗ Năng Toàn-2008) Với ảnh nhị phân thì cường độ điểm ảnh có thể nhận

một trong hai giá trị OFF (0) hoặc ON (1) (Hình 1.3) Đối với ảnh đa cấp xám thì

cường độ điểm ảnh nhận giá trị từ 0 đến 255 và với ảnh màu thì giá trị điểm ảnh nhận 3 kênh là R, G, B từ 0 đến 255 giá trị màu sắc Thí dụ, với một trang ảnh tài liệu có kích thước 30x40 cm và có 140 điểm ảnh trong 1 centimet thì tạo được ảnh với 4200x5600 điểm ảnh Từ đó cho thấy rằng một ảnh tài liệu thông thường là tập hợp của các giá trị điểm ảnh mà người ta đã dùng các bộ cảm biến hoặc máy quét để biến tín hiệu quang thành tín hiệu điện liên tục, rồi thì khắc phục hiện tượng chồng phổ, thực hiện lượng tử hóa cùng với các công đoạn kỹ thuật khác và cuối cùng sẽ trích chọn được các thông tin phù hợp

Trang 6

1.3 Các bước xử lý điểm ảnh của ảnh tài liệu

Một số bước quan trọng trong quá trình xử lý điểm ảnh của hệ phân tích ảnh tài liệu cần phải được thực hiện để làm cơ sở cho các quá trình phân tích và nhận dạng về sau Cụ thể, người ta thường thực hiện các công việc gồm tăng giảm

độ sáng bằng cách cộng thêm cho mỗi giá trị của điểm ảnh một giá trị nguyên c nào

đó, nếu giá trị c lớn hơn 0 thì ảnh sáng lên, ngược lại nếu giá trị c nhỏ hơn 0 thì ảnh

sẽ tối đi Tiếp đến là việc chọn và tách ngưỡng để chuyển ảnh màu hoặc ảnh đa cấp xám về ảnh nhị phân, hay các thành phần trong ảnh tài liệu không cần quan tâm đến

có thể được loại trừ bằng việc giảm nhiễu (noise reduction) và một số bước còn lại

là phân đoạn, dò biên để xác định các vùng, các đặc trưng và đối tượng phù hợp Sau khi đã thực hiện các công đoạn vừa rồi, thì người ta thường nén các dữ liệu

bằng các phương pháp mã hóa chuỗi (chain coding) và biểu diễn ở dạng vectơ

Hình 1.3 Một hình ảnh nhị phân của chữ "e" được thực hiện lên ON và

OFF các điểm ảnh, ON điểm ảnh được hiển thị ở đây là "X" Nguồn

Gorman (2009)

Trang 7

gây ra những khó khăn trong quá trình tìm ngưỡng Vì vậy, người ta đã áp dụng nhiều phương pháp tách ngưỡng để khắc phục khó khăn trên Trong đó phương pháp tách ngưỡng tự động thường được áp dụng Cụ thể, giá trị ngưỡng α trong kỹ thuật tách ngưỡng thường cho bởi người sử dụng Kỹ thuật tìm, tách ngưỡng tự động nhằm tìm ra ngưỡng α một cách tự động dựa vào histogram theo nguyên lý trong vật lý là vật thể tách làm hai phần nếu tổng độ lệch trong từng phần là tối thiểu (Đỗ Năng Toàn-2008) Cũng phải lưu ý trong quá trình tách ngưỡng khi chuyển ảnh màu thành ảnh đen trắng được ứng dụng khi quét và nhận dạng văn bản

có thể xảy ra sai sót nền thành ảnh hoặc ảnh thành nền, dẫn đến ảnh bị đứt nét hoặc

kết dính (Hình 1.4)

Hình 1.4: Mô phỏng phương pháp nhị phân ảnh (a): Biểu đồ Histogram của ảnh đa cấp

xám ban đầu (b): ngưỡng thấp (c): ngưỡng phù hợp (c): ngưỡng cao Nguồn: Gorman (2009)

Trang 8

1.3.2 Phương pháp khử nhiễu ảnh

Trong quá trình thu nhận ảnh tài liệu, có hai loại nhiễu cơ bản là nhiễu hệ thống (nhiễu này có quy luật nên có thể khử bằng các phép biến đổi) và nhiễu ngẫu nhiên (những dạng vết bẩn không rõ nguyên nhân nên có thể khắc phục bằng các phép lọc) Nguyên nhân chủ yếu gây ra nhiễu là do quá trình sao chép ảnh

(photocopy) hay quá trình quét ảnh hoặc chuyển qua máy Fax Giảm nhiễu nhằm

mục đích loại bỏ các tính năng không liên quan để tránh trường hợp gây ra lỗi trong các bước xử lý tiếp theo cũng như giảm dung lượng lưu trữ và giảm được thời gian

xử lý

Ảnh nhị phân thường xuất hiện một số loại nhiễu kích thước nhỏ gọi là nhiễu xung, nhiễu đốm hay chỉ một loại bụi bẩn nào đó, thuật ngữ tiếng anh thường

gọi là salt-and-pepper noise, tức là mô tả điểm nhiễu như hạt muối hoặc hạt tiêu Để

khử nhiễu, người ta thường sử dụng một số phương pháp như các phép toán hình thái học, trong đó nghiên cứu về cấu trúc hay hình học topo của đối tượng trong ảnh tài liệu Phần lớn các phép toán của “Hình thái” được định nghĩa từ hai phép toán cơ

bản là phép toán “giãn nở” (Dilation) và phép toán “co” (Erosion) Giả sử ta có đối

tượng X và phần tử cấu trúc mẫu B trong không gian hai chiều, ký hiệu Bx là dịch chuyển của B tới vị trí x Khi đó, phép “giãn nở” của X theo mẫu B là hợp của tất cả các Bx với x thuộc X Và phép “co” của X theo B là tập hợp tất cả các điểm x sao cho Bx nằm trong X Như vậy có thể thấy rằng phép “co” ảnh sẽ làm giảm kích thước của vùng mang thông tin ảnh trong vùng mang thông tin nền, và phép “giãn nở” ảnh thực hiện điều ngược lại và làm cho vùng mang thông tin ảnh trong vùng mang thông tin nền tăng lên Người ta thực hiện tuần tự việc “co” và “giãn nở” ảnh nhiều lần bằng cách kết hợp các phép toán này Một vài phương pháp kết hợp như

vậy có tên là phép toán mở (OPEN) và phép toán đối xứng của nó là phép toán đóng (CLOSE) Phép toán mở của X theo cấu trúc B là tập hợp các điểm của ảnh X sau

khi đã co và giãn nở liên tiếp theo B Kết quả mà phép toán mở mang lại là làm nhẵn vùng biên của đối tượng, làm đứt vùng eo nhỏ và từ đó khử được những vùng điểm nhiễu nhỏ Theo đó, kết quả của phép toán đóng là làm nhẵn vùng biên, các lỗ hổng nhỏ được loại trừ và các kẽ hở không đáng kể giữa các đối tượng được hàn

gắn lại (Hình 1.5)

Trang 9

1.3.3 Phân khúc các đặc tính

Để phục vụ cho các bước xử lý ảnh tài liệu về sau, một trong những công

đoạn khá quan trọng là phải tiến hành phân khúc (còn được gọi là phân segmentation) các đặc tính cơ bản có chứa trong hình ảnh thu nhận được Cụ thể,

đoạn-việc phân khúc được tiến hành với hai tiến trình chính Thứ nhất là tách riêng biệt giữa các lớp của ảnh tài liệu, gồm lớp hình ảnh và lớp văn bản đối với trường hợp

dữ liệu đầu vào có chứa cả hình ảnh và văn bản Thứ hai là tiếp tục thực hiện các tiến trình phân tích trên các lớp vừa được tách ra Với lớp hình ảnh thì phân định rõ các đối tượng hình vẽ, đường kẻ, biểu tượng cũng như các loại hình ảnh khác Còn đối với lớp văn bản thì tiến hành xác định các ký tự, từ, đoạn văn, chia cột văn bản,…Một số hướng tiếp cận phương pháp phân khúc các đặc tính ảnh như dựa trên không gian đặc trưng, không gian ảnh hoặc là dựa trên mô hình vật lý Hiện nay một số phương pháp phân khúc thường được áp dụng như phương pháp phân khúc

Hình 1.5: Mô phỏng sự kết hợp giữa các phép toán hình thái học ứng dụng vào

việc khử một vài loại nhiễu cơ bản Nguồn: Gorman (2009)

Trang 10

yếu của B.G Prasad hoặc phân khúc dựa trên ngưỡng cục bộ thích nghi Giả sử ảnh đầu vào là một trang sách, trong đó có cả chữ viết được chia thành các đoạn và chia

ra hai cột, đồng thời có cả hình ảnh minh họa, thì lúc này việc phân khúc ảnh sẽ thực hiện tách riêng hình ảnh và văn bản Tiếp đến là văn bản sẽ được tách thành các đoạn, các cột, các chuỗi, còn hình ảnh thì được tách thành các biểu tượng, đường kẻ và các đối tượng ảnh khác Như vậy, tài liệu ảnh sau khi được thực hiện phân khúc sẽ quản lý được các đối tượng rất nhỏ như các phần cơ bản của ảnh

1.3.4 Tìm xương và phát hiện biên

Tìm xương của ảnh là việc biểu diễn ảnh dưới dạng những đường trục trung tâm của đối tượng ảnh Đây là kỹ thuật làm giảm bớt các điểm ảnh lân cận có cùng bản chất nhưng vẫn bảo đảm tính liên kết và liên thông của mỗi đối tượng ảnh Xương được coi như là hình dạng cơ bản của một đối tượng, người ta có thể lấy lại được các thông tin về hình dạng nguyên bản của một đối tượng thông qua xương của nó Việc tìm được xương của đối tượng ảnh sẽ giúp chúng ta giảm bớt tốn kém

vì không cần thiết phải lưu trữ những thông tin không quan trọng trong quá trình xử

lý sau này, cũng như có thể đồng bộ hóa việc lưu trữ các đối tượng ảnh tương tự nhau ví dụ như những đoạn thẳng có thể vẽ với độ dày mỏng khác nhau nhưng khi lưu trữ và biểu diễn thì các đoạn này là giống nhau nhờ vào việc biểu diễn xương của chúng Hình 1.6 biểu diễn ảnh nguyên bản bên trái và xương tương ứng của chúng phía bên phải Đã có nhiều thuật toán được phát triển trong việc tìm xương nhằm từng bước khắc phục việc mất mác thông tin trong quá trình thực hiện Người

ta chia thành hai loại thuật toán tìm xương là tìm xương dựa trên làm mảnh

(thinning) và tìm xương không dựa trên làm mảnh Thuật toán làm mảnh là quá

trình lặp duyệt và kiểm tra tất cả các điểm thuộc đối tượng Trong mỗi lần lặp tất cả các điểm của đối tượng sẽ được kiểm tra: Nếu chúng thỏa mãn điều kiện xóa nào đó tủy thuộc vào mỗi thuật toán thì nó sẽ bị xóa đi Quá trình được lặp lại cho đến khi không còn điểm biên nào được xóa Đối tượng được bóc dần lớp biên cho đến khi nào bị thu mảnh lại chỉ còn các điểm biên Người ta thường sử dụng thuật toán làm mảnh song song và thuật toán làm mảnh tuần tự Nếu tìm xương không dựa trên làm mảnh thì để tách được xương của đối tượng, người ta sử dụng đường biên của đối tượng nhờ vào trục trung vị thông qua hai bước cơ bản: Bước thứ nhất tính khoảng

Trang 11

các từ mỗi điểm ảnh của đối tượng đến điểm biên gần nhất, và cần phải tính toán khoảng cách tới tất cả các điểm biên của ảnh Bước thứ hai, khoảng cách ảnh đã được tính toán và các điểm ảnh có giá trị lớn nhất được xem là nằm trên xương của đối tượng (Đỗ Năng Toàn-2008)

Việc tìm xương là hữu hiệu đối với những đối tượng ảnh có độ mảnh dạng đường thẳng, nét viết, bản đồ, đường vân và các đối tượng có hình thù tương tự, nhưng đối với những đối tượng ảnh có kích thước lớn như những vùng được tô kín bằng màu đen hoặc những vết loan thì xương của chúng chỉ là một điểm ảnh nằm tại tâm của đối tượng Lúc này, việc phát hiện biên của đối tượng sẽ tỏ ra hiệu quả hơn để định hình và biểu diễn đối tượng kiểu này Biên là yếu tố quan trọng trong việc trích chọn đặc điểm nhằm tiến đến “hiểu” ảnh Với ảnh đen trắng, một điểm được gọi là điểm biên nếu nó là điểm đen có ít nhất một điểm trắng bên cạnh Tập hợp các điểm biên tạo nên đường biên hay đường bao của đối tượng ảnh Người ta thường sử dụng một số phương pháp phát hiện biên như: Phát hiện biên trực tiếp, phát hiện biên gián tiếp thông qua một số kỹ thuật phát hiện biên như kỹ thuật

Gradient, kỹ thuật Prewitt, kỹ thuật Sobel, kỹ thuật la bàn, kỹ thuật Laplace, kỹ thuật Canny (Đỗ Năng Toàn-2008)…Còn đối với các đối tượng ảnh chiếm những

vùng nhỏ như những ký tự riêng biệt hoặc những nét vẽ các đối tượng cực nhỏ trong sơ đồ bản mạch điện tử chẳng hạn thì cả việc tìm xương lẫn phát hiện biên đều không phát huy hiệu quả mà lúc này người ta sẽ dùng cách thức lưu trữ mảng (array) của những giá trị của điểm ảnh để biểu diễn những vùng ảnh nhỏ này

Hình 1.6: Mô tả hình ảnh nguyên bản và Xương tương ứng của nó

(a): chữ “m”; (b): sơ đồ bản mạch; (c): dấu vân tay Nguồn Gorman (2009)

Trang 12

1.3.5 Lưu trữ dạng véctơ hóa

Khi đã phát hiện được xương hoặc biên của đối tượng ảnh thì ta có thể biểu diễn ảnh theo một trong hai cách này Nhưng đối tượng ảnh còn có thể được biểu diễn hiệu quả hơn bằng cách lưu trữ các điểm ảnh theo các giá trị ON và OFF, trong

đó giá trị ON thể hiện giá trị của mỗi điểm ảnh và OFF biểu diễn giá trị điểm nền Người ta thường dùng phương pháp lưu trữ dưới dạng mã mắc xích, theo đó, các điểm có giá trị ON được biểu diễn thông qua một tập các điểm láng giềng có thể đi theo hướng 4 láng giềng hoặc 8 láng giềng của nó Phương pháp này sẽ lưu trữ

hướng (vector) của các điểm láng giềng mà không cần lưu trữ vị trí của điểm ảnh có

giá trị ON Láng giềng của điểm X là tất cả các điểm nằm liền kề điểm X thuộc ma trận 3x3 với điểm X là tâm (Hình 1.7) Một số ưu điểm mà phương pháp này đem lại là việc lưu trữ sẽ hiệu quả hơn vì thông thường với ảnh có kích thước lớn hơn 256x256 thì tọa độ giá trị điểm ảnh ON thường được biểu diễn bởi 16 bit; trong khi

đó cách lưu trữ dạng véctơ hóa một điểm láng giềng thuộc một trong tám hướng do vậy mỗi điểm ảnh ON chỉ cần biểu diễn bằng một byte, thậm chí chỉ cần 3 bit để lưu Ngoài ra, phương pháp vector hóa lưu theo cấu trúc các điểm ảnh có liên quan với nhau do vậy tạo điều kiện thuận lợi để làm trơn các đường cong và có thể xấp xỉ cho các đường thẳng

1.4 Các bước phân tích ảnh tài liệu

Để phân tích sâu sắc và hiểu được bản chất của ảnh tài liệu, thì sau các bước tiền xử lý đã trình bày ở những phần trên, người ta tiếp tục tiến hành các công đoạn phân tích ảnh Một số nhiệm vụ quan trọng ở bước phân tích này là phân tích

Trang 13

các đặc trưng của ảnh, phân tích các đối tượng văn bản, trong đó việc ước lượng độ nghiêng và phân tích sơ đồ trình bày trên trang tài liệu là được chú trọng hơn cả

1.4.1 Phân tích các đặc trưng của ảnh tài liệu

Đặc trưng của ảnh tài liệu gồm có đặc trưng cục bộ (local features) và đặc

trưng toàn cục (global features) Với ảnh tài liệu chứa văn bản, đặc trưng toàn cục

mô tả từng trang, độ nghiêng của trang khi quét vào từ máy quét, độ dài dòng, khoảng cách dòng, còn đặc trưng cục bộ thì mô tả về kích thước phông chữ, dấu chấm câu, v.v…Tương tự như thế, với ảnh tài liệu chứa hình ảnh, thì đặc trưng toàn cục cũng xét đến độ nghiêng của trang tài liệu, độ rộng dòng, phạm vi của độ cong đối với các đường cong, độ dài tối thiểu của dòng Và đặc trưng cục bộ lại xét đến việc mô tả mỗi góc, mô tả đường cong và đường thẳng, định vị các hình chữ nhật, hình tròn và hình dạng của các loại hình học khác

Như vậy, để phục vụ cho các công đoạn xử lý ảnh tiếp theo, thì các hình ảnh sau khi đã xử lý điểm ảnh nó sẽ được lưu trữ ở dạng xương, dạng hình bao hoặc dạng véctơ hóa và tiếp tục được phân tích đặc trưng Sau khi hoàn thành bước phân tích đặc trưng thì gần như tất cả các loại đối tượng được phát hiện đầy đủ hơn, như

là phát hiện đường cong được xấp xỉ thành hình đa giác nào đó (polygonal approximation), định vị được các điểm quan trọng nằm trên đường thẳng và đường cong như các điểm góc và điểm chuẩn bị để uốn cong Theo đó, các biểu tượng ảnh hoặc các ký tự riêng biệt có các vùng giới hạn tương ứng thì những đặc trưng điển hình như độ thắt chặt của hình bao, tỷ lệ hình ảnh, độ dày đặc của các điểm ON của ảnh, số đường viền cũng như tính chất trơn của nó,… tất cả chúng đều được ghi nhận và xử lý để làm cơ sở dữ liệu cho những thao tác xử lý nhận dạng về sau

1.4.2 Phân tích các đối tượng văn bản trong ảnh tài liệu

Để phân tích đối tượng văn bản trong ảnh tài liệu, người ta thường sử dụng một số phương pháp phân tích truyền thống Thứ nhất là phương pháp phát hiện ký

tự, phát hiện chuỗi ký tự bằng công nghệ nhận dạng ký tự quang học (OCR) đã có

đề cập ở phần đầu của bài luận này Thứ hai là người ta sử dụng phương pháp phân tích bố trí trang tài liệu để phát hiện được định dạng của văn bản bao gồm những yếu tố quan trọng như phát hiện khu vực ghi chú thích, khu vực phân biệt đoạn này

Trang 14

với đoạn khác, dấu hiệu cho thấy nơi trình bày tiêu đề phụ, tiêu đề chính Chúng ta

có thể áp dụng hai phương pháp phân tích này một cách tuần tự, riêng lẻ hoặc phối hợp chặt chẽ với nhau bằng việc kế thừa sản phẩm của phương pháp này để ứng dụng vào phương pháp kia Từ đó phát hiện được văn bản là một bảng ghi chú, một

tờ mục lục, một bảng liệt kê hay biểu mẫu được sử dụng trong ngân hàng hay là một dạng bì thư được sử dụng trong ngành viễn thông và bưu điện v.v…tùy vào cách thức bố trí của các khối văn bản Điểm mạnh của phương pháp OCR thường được ghi nhận và đánh giá cao trong việc phát hiện văn bản từ những ký tự được tạo ra từ máy in hoặc những chữ viết tay Trong khi đó phương pháp phân tích bố trí trang tài liệu lại đi phân tích các sơ đồ trình bày nhằm phân tích các định dạng trang ảnh tài liệu để tiến đến phát hiện các cấu trúc của những bảng biểu và cả việc phát hiện những thông tin đang được chứa đựng trong các biểu mẫu đó Và đôi khi chúng ta cũng phải chú trọng phát hiện độ nghiêng của ảnh tài liệu để có giải pháp khắc phục

sự nghiêng khi quét ảnh đầu vào vì yếu tố nghiêng sẽ ảnh hưởng rất lớn đến việc nhận dạng các đối tượng về sau

1.4.2.1 Xác định độ nghiêng của ảnh tài liệu

Như đã có trình bày sơ lược ở những phần trên của bài luận này, nguyên nhân tạo ra độ nghiêng của ảnh tài liệu là do trong quá trình thu nhận ảnh đầu vào

(quá trình quét ảnh hoặc sao chụp ảnh bằng tay đã đặt ảnh không chính xác tuyệt đối về vị trí thẳng góc, hoặc quá trình chụp ảnh không giữ được phương thẳng đứng của máy chụp,…) Ảnh tài liệu được cho là nghiêng khi phát hiện góc nghiêng

khác 0 Một dòng văn bản được cấu thành từ một nhóm các ký tự, các từ tiếp giáp tương đối gần nhau, các biểu tượng,…được bố trí trên một đường thẳng theo hướng đứng hoặc nằm ngang Những dòng văn bản này là căn cứ cơ bản để xác định góc

độ nghiêng của trang ảnh tài liệu trên cơ sở so sánh tính chất song song của các dòng văn bản so với các cạnh của mép trang tài liệu Tức nhiên là trang ảnh tài liệu ban đầu sẽ không nghiêng theo nghĩa là các dòng văn bản có độ song song tuyệt đối

so với các cạnh theo chiều ngang và chiều dọc của một trang, và khi quét vào máy tính thì trang này cũng có thể bảo toàn nghiêng nghĩa là góc nghiêng bằng 0 nhưng điều này là không chắc chắn hoàn toàn Vì vậy, cần phải định vị độ nghiêng và khắc phục nó trước khi thực hiện những bước tiếp theo bởi vì khi áp dụng công nghệ

Trang 15

OCR hoặc phân tích bố trí trang tài liệu yêu cầu điều kiện là góc nghiêng trang tài liệu phải bằng 0

Một số phương pháp định vị độ nghiêng đã được đề xuất như là chọn đường

cơ sở phù hợp với phép biến đổi Hough (fitting baselines by the Hough transform), phương pháp phân nhóm láng giềng gần nhất (nearest-neighbor clustering) hay phương pháp chiếu nghiêng một bên (using the projection profile) Với phương

pháp chiếu nghiêng một bên thì người ta tính số các điểm ảnh có giá trị 1 đối với ảnh nhị phân sau khi đã rà ảnh theo các cột hay các dòng rồi ghi nhận các giá trị này vào một cấu trúc nhớ theo kiểu mảng hoặc danh sách liên kết, trong đó mỗi dòng hay cột được rà sẽ tạo ra một chỉ số cho mảng hay cho danh sách liên kết Do đó một biểu đồ tần suất sẽ được hình thành để biểu thị các điểm ảnh có giá trị 1 nói trên Người ta tiến hành chiếu ảnh theo các góc có giá trị từ 0o đến 180o theo phép

chiếu nghiêng một bên (Hình 1.8a và Hình 1.8b) Người ta dùng các khái niệm

“vùng đỉnh” và “vùng lõm” để ứng dụng vào việc phát hiện nghiêng Cụ thể, với ảnh

tài liệu có góc nghiêng là 0 thì vùng đỉnh của phép chiếu nghiêng một bên thể hiện

các dòng chứa các từ (word) và vùng lõm sẽ thể hiện khoảng trắng giữa các dòng

đó Để định vị được độ lớn góc nghiêng của ảnh tài liệu, thì ta đi tìm góc quay một bên mà tại đó biểu đồ tần suất thể hiện nhiều vùng lõm nhất và nhiều vùng đỉnh nhất Giả sử rằng biểu đồ tần suất ghi nhận được 20 vùng đỉnh và 20 vùng lõm thì

có thể biết rằng ảnh tài liệu hiện có 20 dòng văn bản Theo đó, với từng phép chiếu nghiêng một bên người ta tính tổng số đo về độ cao của các vùng đỉnh và tổng số đo

về độ cao của các vùng lõm tương ứng, góc chiếu nào có sự khác nhau giữa hai số

đo này lớn nhất thì đó là góc nghiêng của ảnh tài liệu

Trang 16

1.4.2.2 Phân tích cấu trúc bố trí của trang ảnh tài liệu

Nếu ảnh tài liệu thu nhận được đã phát hiện ra góc nghiêng khác 0, người ta tiến hành xoay ảnh một góc thích hợp để trả độ nghiêng ảnh về 0, rồi tiếp tục thực hiện quá trình phân tích cấu trúc bố trí của mỗi trang mà có khi còn được gọi là phân tích theo cấu trúc bố trí vật lý và hình học Mục tiêu của quá trình này là phát

hiện và trích chọn được cấu trúc của các phần văn bản (ở đây chủ yếu lấy được khối

và đoạn văn bản) bằng cách tách biệt các từ, tách cấu trúc của các khối, các dòng

v.v…tùy thuộc vào định dạng vật lý ban đầu của tài liệu Ngoài ra việc xem xét để

phân tích cấu trúc của trang bố trí theo chức năng (còn được gọi là phân tích theo

sự bố cục loogic và cú pháp) cũng được thực hiện, trong đó có sử dụng những thông

tin miền phụ thuộc bao gồm các quy tắc bố trí của từng loại cấu trúc trang cụ thể, để thực hiện gán nhãn cho các khối cấu trúc và đưa ra một số dấu hiệu nhận biết các khối này Việc ghi nhãn cho các khối chức năng này cũng có thể dẫn đến việc sáp nhập hoặc chia tách các khối cấu trúc trong trang

Hình 1.9 mô tả một thí dụ về kết quả phân tích cấu trúc một trang ảnh tài liệu, trong đó nội dung và cách thức sắp xếp thông tin quy định trình bày cho trang

Nguồn: Gorman (2009)

Trang 17

đầu tiên của một tài liệu kỹ thuật Sau khi phân tích đã phân định được các khối chỉ định cho các thành phần chính, gồm: tên tài liệu, tiêu đề chính, tên tác giả, phần tóm tắt, các từ khóa, các đề mục, các khối cấu thành phần thân chính của văn bản, phần chú thích và phần ghi nhận về bản quyền của tác giả

Ảnh tài liệu nguyên

bản ban đầu được

quét vào máy tính

Hình ảnh thể hiện cấu trúc Hình ảnh thể hiện chức

năng của các khối

Thông tin bản quyền tác giả

Khối 1 thể hiện Thân văn bản

Khối 2 thể hiện Thân văn bản

Hình 1.9: Mô tả phân tích cấu trúc và phân tích theo chức năng các khối trong trang tài liệu

Nguồn: Xử lý của tác giả (7/2012)

Trang 18

Hai phương pháp phân tích theo hướng cấu trúc vật lý thường được sử dụng

để tiến hành phân tích trang là tiếp cận từ trên xuống (top-down) hoặc tiếp cận từ dưới lên (bottom-up) Hai phương pháp này có tính đối ngẫu lẫn nhau Nhưng người

ta thường áp dụng phối hợp theo hướng kế thừa sản phẩm của nhau để cùng phân tích trang tài liệu Thông thường phương pháp từ trên xuống sẽ đi phân tích những khối cấu trúc lớn đến những khối và thành phần cấu trúc hay đối tượng nhỏ hơn Thí dụ một trang có thể được phân tích thành các khối phần trên, khối phần giữa và khối phần chân của trang, rồi thì các khối này lại được phân tích thành các đoạn văn bản và đối tượng ảnh, tiếp đến các đoạn này lại được tách thành các dòng, các cụm

từ, các từ, các ký tự Trong khi đó phương pháp tiếp cận dưới lên lại phân tích theo chiều hướng quy nạp ngược lại, cụ thể là nó đối ngẫu bằng cách xuất phát từ các khoảng trắng liên thuộc được giao kết với các ký tự để phát hiện các từ, tiếp đến các

từ này lại được giao kết với nhau để nhận dạng được từng dòng, cứ tiếp tục như vậy

để phát hiện được các thành phần lớn hơn của trang

1.5 Tìm hiểu phương pháp phát hiện ký tự quang học

Phát hiện ký tự quang học (OCR) là một công nghệ thuộc lĩnh vực nhận dạng, người ta ứng dụng công nghệ này nhằm nhận dạng các chuỗi ký tự trên cơ sở căn cứ ban đầu là những ký tự trong bảng chữ cái, khởi đầu là bảng chữ cái tiếng Anh Nhưng cho dù là bảng chữ cái giới hạn nào thì cũng có rất nhiều kiểu viết khác nhau, có thể do sự đa dạng của các nét viết tay hoặc do kiểu phông chữ, kích thước chữ Vì thế, để phát hiện được các chuỗi ký tự đa dạng như vậy người ta phải tìm cách tạo ra các quy tắc cũng như một số quy ước tổng thể làm căn cứ thì mới có thể giải quyết được bài toán nhận dạng phức tạp này Theo đó, OCR luôn cố gắng tích hợp và phát triển cả công nghệ phần cứng lẫn những thuật toán và xây dựng hệ thống phần mềm để từng bước nhận dạng chữ viết với khả năng càng giống với con người càng tốt

Tuy nhiên, cũng như những công nghệ nhận dạng khác, vì phải làm việc với

dữ liệu ảnh đầu vào cực kỳ phức tạp là chữ viết, nó được tạo ra một cách tự do đó là không có một quy tắc nhất định hay bất kỳ ràng buộc nào về độ lớn, đường nét, độ đậm nhạt, sự kết nét hay đứt nét…khi người ta viết chữ Hay ngay cả khi đánh máy tính thì với mỗi loại văn bản cũng được quy định bởi những phông chữ, cỡ chữ và

Trang 19

cách trình này khác nhau Điều này tạo nên khó khăn rất lớn cho OCR trong khi nhận dạng nếu gặp phải những ảnh tài liệu chữ viết hoặc văn bản có nhiều điểm nhiễu hay bị liền nét giữa các con chữ hay bị đứt nét trong một con chữ hoặc gặp phải chữ viết không được nắn nót Một khi chữ viết tay không nắn nót hoặc máy tính áp dụng một số phông chữ không được chân phương, không thường dùng thì

thí dụ chữ u rất giống với chữ v, số 6 giống với số 0 hoặc giống với số 4, số 3 giống với số 9 (Hình 1.10a) Và sẽ càng khó khăn hơn khi mà cấu trúc của những từ ngữ

lại được xây dựng cả con số lẫn với chữ cái như số tài khoản sử dụng trong các ngân hàng do máy tính tạo ra, hay thói quen viết tay các ký tự dính nét nhau khi tạo

thành một từ hoặc là những từ viết tắt chẳng hạn (Hình 1.10b)

Hình 1.10a: Mô tả những nét chữ viết tay không nắn nót dẫn đến rất khó

nhận dạng bằng công nghệ OCR Nguồn: Dengel (2001)

Hình 1.10b: Mô tả chữ viết tay với thói quen viết liền nét giữa số 4 và số 2

dẫn đến rất khó nhận dạng và tách biệt hai con số bằng công nghệ OCR

Nguồn:

Dengel (2001)

Trang 20

Công nghệ OCR là một hệ thống rất phức tạp của nhiều bước và nhiều công đoạn thực hiện khác nhau Trong đó có một số bước thực hiện cơ bản gồm có phương pháp thực hiện và nhận dạng ký tự dựa trên ngữ cảnh như sau đây

1.5.1 Phương pháp

Việc trích chọn các tính năng và phân loại để chia không gian đa chiều thành các vùng tương ứng là những phần cốt lõi của công nghệ OCR trong đó có áp dụng một số thuật toán chuyên biệt Theo đó, thuật toán phân loại dựa trên các tính năng của ảnh được trích chọn và những đặc điểm liên quan giữa các tính năng đó sẽ được áp dụng để phân lớp trước các loại ký tự và phân bổ một ký tự nhận dạng được vào trong một lớp tương ứng Để phân bổ được một ký tự vào một lớp nào đó người ta sử dụng tính chất về độ đo tương thích và thực hiện quá trình xử lý từ ngữ dựa trên ngữ cảnh để hiệu chỉnh một số lỗi mà OCR chưa thể khắc phục được

1.5.1.1 Trích chọn các tính năng

Các tính năng của đối tượng được trích xuất và sắp xếp dưới dạng những độ

đo Song song với quá trình này, người ta xây dựng các lớp dữ liệu chứa các ký tự bằng cách tạo ra một mô hình chung nhất cho các lớp đó Từ đó tiếp tục thực hiện quá trình chọn lựa tính năng đặc trưng bằng cách tìm kiếm và so sánh các thuộc tính của từ ngữ đang nhận dạng trên cơ sở các lớp đã được xây dựng trước đó Cụ thể, các tính năng thường được đưa vào lớp để so sánh bao gồm các điểm bắt đầu, điểm kết thúc, các dấu hiệu nối như gạch nối giữa hai thành phần để tạo nên ký tự mà cả chữ A và chữ H đều có, các góc, các cạnh, các điểm uốn, điểm cắt, mặt lỗi lõm của các đường bao bên ngoài cũng như các đường nét đặc trưng cơ bản của ký tự và của

từ Cuối cùng các sản phẩm là những tính năng của các ký tự đã được trích chọn và phân bổ vào từng lớp thích hợp Nhưng trong quá trình phân lớp thì OCR thường gặp phải những khó khăn khi phân định các lớp có những đặc trưng tương tự nhau, như những đặc trưng của chữ o và số 0, chữ l và số 1 hay ký tự này quay đầu thì trở

thành ký tự khác như ký tự số 6 và số 9, chữ d và chữ p, v.v…

1.5.1.2 Phân loại

Nhìn chung nếu chỉ áp dụng một tính năng duy nhất thì không thể nhận dạng được ký tự cũng như không thể tạo ra được các lớp đa dạng của những ký tự

Trang 21

trong bảng chữ cái Thay vào đó, một hệ thống tổng hợp trích xuất một số tính năng của mỗi hình ảnh ký tự và cố gắng phân loại sự giống nhau của vectơ tính năng này

với một lớp đặc trưng (character class) Một số phương pháp căn cứ trên cấu trúc

cú pháp cũng như xây dựng phương pháp mô hình hóa lý thuyết phân loại đã được ứng dụng Thí dụ, trong phương pháp Bayesian phân loại mẫu, mỗi lớp tính năng

được đặc trưng bởi sự phân bố xác suất có điều kiện được đưa ra Trong đó, f đại diện cho véctơ tính năng và Ci đại diện cho lớp đặc trưng i Một xác suất tiên

nghiệm của các lớp tính năng khác nhau cũng đã được đề cập đến để tính toán trong

quá trình phân bố một ký tự vào một lớp Sau đó, một véctơ tính năng f được ánh xạ

vào lớp Ck sao cho tối đa hóa xác suất về sau (C k /f)

Xét thí dụ khác về không gian tính năng được ứng dụng để phân loại các ký

tự dựa trên các lớp khác nhau Với mỗi ký tự người ta xét đến các tính năng bao gồm tỷ lệ các điểm ảnh đen nằm trên những nét ngang và nét dọc Theo như hình 11a thì có 5 lớp ký tự là lớp C, lớp E, lớp T, lớp X và lớp Y Ta gọi tỷ lệ điểm ảnh

trên nét dọc là (Nd) và trên nét ngang là (Nn) thì các nét tạo thành ký tự sẽ tách

thành nét dọc và nét ngang và tất nhiên một điểm ảnh có thể thuộc một trong hai nét trên mà cũng có thể là điểm giao của cả hai nét này Vì vậy, tổng tỷ lệ của Nd + Nn

có thể sẽ lớn hơn 100% E và T là hai ký tự có thể nhận giá trị Nd và Nn lớn nhất C

là ký tự có giá trị Nd và Nn gần bằng 50%, hai ký tự còn lại X và Y có giá trị Nn nhỏ nhất Lúc này ảnh ký tự sẽ được phân loại nhờ vào độ đo khoảng cách từ ký tự

đó đến các lớp đặc trưng đã được tích hợp trước đó (Hình 1.11a)

Hình 1.11a: Mô tả tính năng đặc trưng về đường nét, các điểm cắt, điểm bắt đầu, điểm kết

thúc ứng dụng làm chiều ngang, chiều dọc để phân lớp ký tự Nguồn Dengel (2001)

Tỷ lệ phần trăm số điểm ảnh đen theo chiều ngang của nét chữ, Nn

Trang 22

Ngoài ra, người ta cũng thường sử dụng một phương pháp khác để các điểm ảnh riêng biệt được quan niệm như là những lớp tính năng đặc trưng Lúc này độ đo khoảng cách không còn được sử dụng nữa mà thay vào đó là độ đo tương tự Độ đo tương tự là độ đo mà người ta tính bằng cách đếm số điểm ảnh thỏa những tính chất nhất định đã được quy ước trước đó, trong đó các lớp tính năng quy ước trước đó có những thành phần mà đặc điểm của nó trùng khớp với đặc điểm của ký tự nhận dạng về số lượng điểm ảnh đen và trắng Ngược lại, người ta cũng tiến hành đếm số lượng các điểm ảnh không thỏa mãn những tính chất nhất định đề ra trước đó và số điểm ảnh ít nhất này tạo thành những lớp phục vụ cho các đối tượng kiểm tra Số lượng điểm ảnh thỏa và không thỏa có thể đối chiếu được và theo đó tính được độ

đo tương tự của ký tự đang nhận dạng với lớp tính năng đã có trong cơ sở dữ liệu

Trong quá trình phân lớp các đối tượng, người ta còn dùng đến kỹ thuật áp dụng quy tắc K láng giềng gần nhất (nearest-neighbor rule; K-NNR) Quy tắc này

nhằm hạn chế lỗi không vượt quá nhiều lần so với tỷ lệ lỗi Bayesian và khi giá trị K đạt ở một mức độ phù hợp thì sẽ đạt được tỷ lệ lỗi này Việc chọn ra những lớp so sánh như tri thức lớp huấn luyện trong lĩnh vực hệ cơ sở tri thức hay công nghệ nơ-ron nhân tạo là một phần quan trọng trong quy tắc K láng giềng gần nhất Và quy tắc này sẽ hiệu quả hơn khi các biến đặc trưng chưa xác định phân bổ xác suất

Người ta thường mô tả cấu trúc các tính năng để biểu diễn một ký tự trong bảng chữ cái Thí dụ chữ A có một điểm dừng đổi hướng trên đỉnh đầu, một đường

kẻ ngang cắt ở giữa tương tự như chữ H, hai nét đối xứng nhau so với đường kẻ thẳng đứng đi qua điểm dừng trên đỉnh đầu, tạo ra một khu vực khép kín ở phía trên

như là một lỗ hổng (hole) (Hình 1.11b) Ý tưởng của phương pháp cấu trúc là biểu

diễn mô hình dạng tập các thuộc tính đặc trưng để mô tả được mọi đối tượng thuộc lớp đang xét cũng như tạo khả năng phân biệt rõ ràng với các lớp đối tượng khác Điều này sẽ hạn chế lỗi cũng như những nhầm lẫn xảy ra trong quá trình nhận dạng

Nguồn: Xử lý của tác giả (7/2012)

Hình 1.11b: Mô phỏng một số tính năng của ảnh ký tự được trích chọn

Nét & Điểm

Lõm

Lỗ hổng Cắt

Kết thúc

Trang 23

1.5.2 Nhận dạng ký tự dựa trên ngữ cảnh

Một trong những phương pháp hữu hiệu để cải thiện tính chính xác và nâng cao hiệu suất của công nghệ OCR là việc áp dụng một thứ tự từ điển trong mỗi ngôn

ngữ để nhận định và phân biệt giữa những ký tự ghép lại thành từ (word) là có

nghĩa hay không có nghĩa Người ta lập một hệ các nhãn để lần lượt thay thế cho các ký tự trong quá trình tạo thành một từ nào đó Những kết hợp của các ký tự mà

tạo thành một từ không có ý nghĩa (theo cách là từ này chưa hoặc không tồn tại trong từ điển trước đó) thì được loại bỏ Thực tế cho thấy có thể gán nhãn đúng cho

các ký tự ngay cả khi không thiết lập một hệ thống danh sách các nhãn ban đầu cho các ký tự Trong trường hợp này thì đơn giản chỉ thực hiện việc nhóm tất cả các ký

tự trong các tài liệu có hình dạng tương tự nhau Theo đó, một hệ thống từ điển với kích thước nhỏ sẽ được sử dụng để thay thế các biểu tượng trong mỗi nhóm với một

ký tự duy nhất Sự thay thế đó được thực hiện lần đầu tiên cho những từ ngắn (short words) kể từ khi chỉ có vài sự kết hợp giữa các từ như chỉ có một vài từ trong từ

điển

Như vậy, cách thức xử lý này căn cứ vào ngữ nghĩa của từ trong từ điển để khắc phục một số lỗi mà chính bản thân OCR chưa thể khắc phục được Người ta lắp ráp các ký tự để hình thành nên các từ trên cơ sở trích chọn những thông tin của các ký tự khác nhau được phát hiện trong một từ nhờ vào sự có nghĩa của từ đó Việc đánh giá xem một từ là có nghĩa hay không thì cách tốt nhất là so khớp từ đó với các từ đã có trong từ điển hoặc tập các từ vựng của một ngôn ngữ đặc thù nào

đó Như đã trình bày trong phần 1.5, rằng chữ u rất giống với chữ v, nên trong quá

trình nhận dạng đặc trưng rất khó để phân biệt được hai chữ này Giả sử bài toán

nhận dạng yêu cầu nhận ra ký tự x là ký tự gì khi nó đã được phân bổ nằm trong một dãy nhãn ký tự gồm các ký tự qxeen Theo đó, việc nhận dạng dựa trên ngữ cảnh có ứng dụng từ điển Tiếng Anh sẽ xác định rằng ký tự x là ký tự u chứ không

phải ký tự v bởi vì về quy tắc từ vựng trong Anh ngữ thì chỉ có gần như duy nhất ký

tự u là đi liền sau ký tự q và cũng trong từ điển tiếng Anh không có từ qveen mà lại

có từ queen (Ngô Quốc Tạo - 2007)

Một nhóm tác giả thuộc trường đại học Nevada thuộc bang Las Vegas, Hoa

Kỳ vào năm 1994 có công bố các báo cáo về sự thành công trong việc nghiên cứu

Trang 24

công nghệ OCR ứng dụng vào việc phát hiện ký tự và từ viết bằng Tiếng Anh Cụ thể là với những ảnh tài liệu Tiếng Anh đạt chuẩn thì kết quả nhận dạng có độ chính xác từ 99,13% đến 99,77% Con số này sẽ khiêm tốn hơn là từ 89,34% đến 97,01% đối với các ảnh tài liệu kém chất lượng hơn Khi người ta thực nghiệm với những ảnh tài liệu mà nét các ký tự liền kề bị kết nối hoặc bị đứt nét con chữ thì kết quả cho thấy độ chính xác vào khoảng dưới 89% (Nartker - 1994)

Một số bài báo khác đã đề cập đến công nghệ OCR điển hình như bài “Xem xét lại lịch sử nghiên cứu và phát triển OCR” của các tác giả Mori, Suen, và

Yamamoto đưa ra một cái nhìn tổng quan toàn diện và giới thiệu công nghệ OCR

Bài viết “công nghệ Omnifont” của tác giả Bokser trình bày mô tả chi tiết hơn về các phương pháp tiếp trong một hệ thống thương mại OCR Bài viết “Một mô hình tính toán để công nhận hình ảnh từ multi-font” của các tác giả Ho, Hull, và Srihari

mô tả sự kết hợp của nhận dạng ký tự, phân đoạn, và từ hình dạng cho OCR Hay

bài viết “Hệ thống để đọc các thành phần chính của một văn bản hoàn chỉnh” của

Tsujimoto và Asada mô tả một hệ thống tài liệu có thành phần chính là tài liệu phân tích, sự hiểu biết, và phân đoạn nhận dạng ký tự (Ngô Quốc Tạo - 2007)

Nhưng vẫn còn những khó khăn tồn tại khi phải tiến hành xử lý các ảnh tài

liệu văn bản đầu vào có chứa các ký tự là các chỉ số trên (superscript) và chỉ số dưới (supscript) cũng như phải xử lý nhận dạng các ký tự trong bộ ký tự toán học,

vật lý học, hóa học, các ký tự về tích phân, hàm số và những ký tự đặc thù khác

1.6 Phân tích các đối tượng ảnh trong ảnh tài liệu

Trong các ảnh tài liệu thường có sự tồn tại đồng thời của đối tượng ảnh (ví

dụ như biểu tượng của doanh nghiệp, sơ đồ tổ chức, các hình vẽ, các đường kẻ và đặc biệt là bảng biểu – table) và đối tượng thuộc kiểu chuỗi, kiểu văn bản Trong

đó các đối tượng ảnh được nhận dạng thường bố trí riêng lẻ hoặc kèm với các đối tượng ảnh khác hay nằm chung với các đoạn văn bản Vì vậy mà người ta cần phải xây dựng những khu vực ứng dụng đặc thù để phát hiện từng loại đối tượng ảnh trong ảnh tài liệu riêng biệt Từ đó trích chọn được các thông tin tồn tại trong nội dung của ảnh mà những thông tin đó là có ý nghĩa phục vụ cho mục tiêu nhận dạng Việc nhận dạng đối tượng ảnh trong ảnh tài liệu là quan trọng không kém so với việc nhận dạng chữ viết Vì kết quả đạt được của nó giúp ích rất nhiều cho việc làm

Trang 25

cho máy tính hiểu được ảnh tài liệu và có thể dễ dàng chuyển đổi các tập tin tài liệu

từ định dạng này sang định dạng khác Sở dĩ phải chuyển đổi như vậy là vì các tập tin dữ liệu trên máy tính không phải lúc nào cũng tương thích với nhau sự khác biệt

về hệ thống, về ngôn ngữ của vùng miền Mục đích còn tiến xa hơn khi người ta không những làm cho máy tính hiểu được những hình ảnh do chính công nghệ thông tin và tin học tạo ra mà còn làm cho máy “hiểu” và “phân tích” được cả những hình ảnh được vẽ bằng tay như những bức tranh vẽ, tranh thêu hay những bản vẽ kỹ thuật phức tạp chẳng hạn Song điều này gần như vẫn còn gặp nhiều khó khăn cả về mặt thuật toán lẫn công nghệ

Tác giả Fletcher đề xuất một thuật toán để tách riêng thành phần hình ảnh

đồ họa và văn bản Fletcher dựa trên phương pháp biến đổi Hough và sử dụng tính năng rằng các thành phần văn bản thường được trình bày trên một đường thẳng Ý tưởng này tương tự như việc phát hiện độ nghiêng của ảnh đầu vào đã được trình bày trong phần 1.4.2.1 Như vậy việc trích chọn văn bản sẽ thường kéo theo trích chọn các đối tượng từ ảnh như đường kẻ, đường cong Tiếp đến là áp dụng xử lý một số công đoạn trung gian như áp dụng kỹ thuật nhận dạng theo mẫu, nhận dạng mẫu theo cấu trúc xác định độ đo, nhận dạng mẫu theo cú pháp nhờ vào ngữ cảnh,…Sau đó sẽ tiến hành tập hợp các tính năng vào một tập thực thể trên cơ sở căn cứ của các miền nhận dạng riêng của từng ứng dụng Trong đó việc tập hợp, phân tích và đánh giá chủ yếu vẫn dựa trên các mẫu và hệ cơ sở tri thức Vấn đề là người ta phải xây dựng những hệ cơ sở tri thức, mạng nơ-ron nhân tạo và máy học ứng dụng riêng biệt cho từng mảng bài toán riêng biệt, để từ đó phân định được sự khác nhau về mặt chức năng đối với cùng một đối tượng ảnh được trích chọn ra Thí

dụ việc nhận dạng từ ảnh tài liệu đã trích chọn được một đoạn thẳng thì nhiệm vụ của máy tính là phải phân định đây là đường kết nối giữa hai điểm trong một bản vẽ

kỹ thuật hay là đường đi liên thông giữa hai thành phố của một bản đồ nào đó Thuật toán này được thảo luận trong bài báo của Karl Tombre và cộng sự Theo đó

các tác giả này trình bày về việc tách biệt văn bản và hình ảnh (Text/Graphics)

thành hai lớp (Karl - 1998) Một lớp giả định chứa văn bản và một lớp có chứa các đối tượng đồ họa cũng như trình bày một sự hợp nhất của một phương pháp được đề xuất bởi Fletcher và Kasturi, với một số cải tiến nhất định để làm cho nó phù hợp

Trang 26

hơn cho các tài liệu đồ họa phong phú Ngoài ra, bài báo còn thảo luận về các lựa chọn đúng đắn của ngưỡng cho phương pháp này cũng như sự ổn định của nó và cũng đề xuất thêm một bước xử lý để lấy các thành phần văn bản bị dính vào các hình ảnh, thông qua kỹ thuật phát hiện xương và phân đoạn khoảng cách cục bộ (Fletcher - 1998)

Nhìn chung thì công nghệ OCR đã tạo được các hệ thống xử lý với phiên bản thương mại đã phục vụ được nhu cầu nhận dạng trong đó phân biệt rõ ràng các đối tượng hình ảnh và văn bản Một số tác giả cũng đã đề xuất cải tiến thuật toán để từng bước khắc phục sự nhầm lẫn khi ảnh tài liệu có nhiều những điểm nhiễu hoặc

ký tự văn bản vì nguyên nhân nào đó mà kết dính vào đối tượng hình ảnh hay một

số hình ảnh quá nhỏ dẫn đến máy đồng nhất nó với một ký tự Dù rằng khoa học về

hệ cơ sở tri thức và ngành máy học đã phát triển trong nước cũng như trên thế giới, nhưng vẫn còn những khó khăn thách thức đối với lĩnh vực nhận dạng một khi chúng ta phải tiến đến xử lý phân tích ảnh màu nhiều lớp, nhận dạng ảnh ba chiều trong ảnh kỹ thuật, những bức tranh vẽ cổ điển bằng tay hay những bản vẽ kiến trúc

3 của bài luận sẽ trình bày tiếp những nội dung sâu sắc hơn về bài toán phát hiện một số đối tượng quan trọng trong ảnh tài liệu, đặc biệt là các đối tượng chuỗi văn bản, đối tượng hình ảnh và đối tượng bảng biểu

Trang 27

CHƯƠNG 2 TÌM HIỂU VÀ PHÂN TÍCH THUẬT TOÁN PHÁT HIỆN VĂN BẢN,

PHÁT HIỆN ẢNH TRONG ẢNH TÀI LIỆU 2.1 Giới thiệu chung

Ý tưởng cơ bản của thuật toán phát hiện đối tượng văn bản, phát hiện đối tượng ảnh trong ảnh tài liệu có cả văn bản và hình ảnh là xác định những vùng chứa văn bản riêng và xác định vùng chứa ảnh riêng Mỗi nhóm đối tượng này được xếp

vào một lớp (class) để thuận tiện trong việc lưu trữ, truy vấn và xử lý Quá trình

phát hiện đối tượng có thể thực hiện theo trình tự phát hiện các vùng được cho là văn bản trước, tiếp đến là phát hiện vùng đối ngẫu với những vùng văn bản, những vùng đối ngẫu này là những vùng chứa hình ảnh Hoặc cũng có thể thực hiện theo trình tự ngược lại nghĩa là sẽ phát hiện những vùng hình ảnh trước dựa trên cơ sở lý thuyết về những đặc tính phân biệt giữa vùng văn bản và vùng ảnh đã nêu trong chương 1, sau khi đã phát hiện được những vùng phi văn bản thì những vùng đối

ngẫu sẽ là vùng văn bản Tác giả Zhaoyang , với bài báo “Detection of Text Regions From Digital Engineering Drawings” xuất bản vào tháng 04 năm 1998 cũng đã có

chỉ ra rằng một trong những nguyên tắc cơ bản để giải quyết bài toán một cách hiệu quả đó là tạm thời xóa đi những vùng phi văn bản trong những vùng có chứa hỗn hợp cả văn bản và những hình ảnh tựa như những bản vẽ kỹ thuật Thuật toán của Zhaoyang cũng như nội dung trình bày của bài luận trong chương này không đề cập đến việc phát hiện văn bản từ ảnh tài liệu chỉ chứa những văn bản thuần túy Những

ý tưởng như vậy đã được hiện thực hóa bằng thuật toán có thể phát hiện những ký

tự của Phương Tây hoặc của Trung Quốc, nhưng vẫn còn những hạn chế khi gặp phải những ảnh tài liệu đầu vào có nhiều lỗi về độ nhiễu (Zhaoyang - 1998)

Thông thường những ảnh tài liệu được quét vào máy tính chứa rất nhiều đối tượng thông tin khác nhau Do sự khác biệt cơ bản giữa các đối tượng thông tin này, cũng như những yêu cầu về việc tiết kiệm lưu trữ, tăng tốc độ xử lý buộc người ta phải véc tơ hóa hình ảnh chẳng hạn, nên chúng phải được xử lý bởi những cách thức và kỹ thuật khác nhau Vì vậy, phát hiện văn bản và phát hiện ảnh trong ảnh tài liệu để tách chúng ra thành những lớp độc lập tương đối phục vụ cho quá trình xử lý hình ảnh tổng thể là một công việc rất cần thiết cho ngành nhận dạng và xử lý ảnh

Đã có nhiều tác giả đề xuất những phương pháp để thực hiện việc này được công bố

Trang 28

trong những bài báo khoa học trước đây Nhóm tác giả Y.Wang, E.J.Wang, L.Ye,

W.Li và D.N.Ying của bài báo “A Study on Automatic Input and Recognition of Engineering Drawing” xuất bản năm 1991 đề xuất thuật toán với ý tưởng chủ đạo

rằng đối tượng hình ảnh thông thường có kích thước lớn hơn đối tượng văn bản (Wang - 1991) Vì thế nhóm tác giả này đề xuất sẽ tìm xương của các loại đối tượng này và sau đó tiến hành phát hiện và tách biệt chúng Nhưng phương pháp này sẽ gặp phải khó khăn khi tài liệu ảnh có nhiều điểm nhiễu và có sự kết dính giữa các

ký tự với nhau hoặc kết dính giữa ký tự với hình ảnh nào đó Fletcher và Kasturi cũng có đề xuất ý tưởng rằng dựa trên các thành phần liên thông đồng thời dựa vào phép biến đổi Hough để phát hiện các khối của những chuỗi ký tự rồi tách chúng ra khỏi văn bản hỗn hợp nhiều loại đối tượng khác nhau (Fletcher - 1988) Phương pháp này cho thấy có hiệu quả ngay cả khi chúng ta thay đổi độ lớn văn bản cũng như đa dạng hóa phông chữ Một số phương pháp ít hiệu quả hơn nhưng lại có thể phục vụ để xử lý cho những loại hình văn bản đặc thù như bản đồ, bản vẽ kỹ thuật cũng đã được đề xuất (Wong - 1982)

Nói chung là một số phương pháp được các tác giả đề xuất gần đây thực hiện trên các ảnh tài liệu đầu vào có các đặc điểm như sau: thứ nhất các ảnh tài liệu được số hóa ban đầu phải tối thiểu hóa các điểm nhiễu cũng như phải được chuẩn bị

kỹ lưỡng việc xử lý thô theo những tiêu chuẩn nhất định Thứ hai là ảnh đầu vào không có tình trạng các văn bản bị kết dính vào các đối tượng ảnh, xử lý độ nghiêng của ảnh để có thể nhận dạng ký tự theo một trong hai hướng dọc và ngang Và các phương pháp này chưa quan tâm nhiều đến việc xử lý các loại ký tự đặc biệt của một số nước trên thế giới như chữ viết của người Trung Quốc,Thái Lan, Lào hay chữ viết đặc thù khác của các nước Trung Đông chẳng hạn

Nhưng trong thực tế, những ứng dụng thiết kế đồ họa có sự hỗ trợ của máy

tính (computer aided design) hay quá trình sản xuất có sử dụng máy tính (computer aided manufacturing), thì cần phải chuyển một lượng cực kỳ lớn mang tính công

nghiệp những ảnh tài liệu trên giấy sang dạng số hóa được lưu trữ và xử lý trên máy tính Mà với những thuật toán còn nhiều điểm yếu khi chưa thể xử lý hết những lỗi đầu vào dẫn đến hiệu suất chưa cao sẽ làm hạn chế tính ứng dụng của nó Trong khi

đó dữ liệu đầu vào luôn luôn xảy ra trường hợp nhiễu, hoặc vì nhiều lý do khác

Trang 29

nhau dẫn đến có sự kết dính giữa văn bản với văn bản và giữa văn bản với hình ảnh Như vậy, khi công nghệ phần cứng đã phát triển thì sự hạn chế của thuật toán dẫn đến việc phải tốn nhiều thời gian và nhân lực để tiền xử lý sao cho trong quá trình

số hóa hình ảnh phải bảo đảm được những điều kiện đặt ra đối với mỗi thuật toán khác nhau

2.2 Một số phương pháp nhận dạng văn bản và hình ảnh

Để nhận dạng văn bản và hình ảnh trong ảnh tài liệu hỗn hợp, người ta có

thể áp dụng riêng lẽ hoặc phối kết hợp giữa một số phương pháp như sau Phương pháp thứ nhất, có thể phát hiện các đoạn thẳng để phân loại các đối tượng và áp dụng phép biến đổi véc tơ hóa của ảnh tài liệu Phương pháp thứ hai, sử dụng các

phép biến đổi hình thái như phép co ảnh, giãn ảnh Từ phép biến đổi này thì các đối tượng tuyến tính sẽ được phát hiện và trích xuất ra trước, những đối tượng đối ngẫu với hình ảnh sẽ được quan niệm là văn bản và sẽ được trích ra sau Phương pháp này lại gặp rắc rối khi mà phải xử lý những ảnh đầu vào với những ký hiệu, biểu

tượng và hình ảnh phức tạp Phương pháp thứ ba, là người ta xây dựng các quy tắc

để từ đó làm căn cứ xác định được các thành phần liên thông Sau khi định vị được một thành phần liên thông, người ta sẽ xếp nó vào một lớp nào đó để tiếp tục xử lý

và trả về kết quả đó là chuỗi văn bản hay là một hình ảnh Như đã có trình bày trong phần 1.6 của bài luận này, nhóm tác giả Fletcher và Kasturi đã đề xuất một thuật toán khá nỗi tiếng dựa trên phương pháp này Theo đó hai tác giả đã chứng minh được rằng thuật toán có khả năng phân tích thành hai lớp đối tượng riêng biệt kể cả trong môi trường ảnh với nhiều đối tượng phức tạp Song họ cũng chỉ ra rằng việc ảnh đầu vào có sự kết dính đối tượng văn bản với hình ảnh vẫn còn là vấn đề khó khăn đối với thuật toán Chương này của bài luận chú trọng trình bày và tổng hợp thuật toán phát hiện văn bản và hình ảnh dựa trên ý tưởng của phương pháp thứ ba Trên cơ sở lý thuyết của chương 1, sẽ dựa vào những tính năng khác nhau của mỗi loại hình đối tượng để làm căn cứ phân tích các thành phần liên thông Trong đó chú trọng tìm kiếm các vùng được quan niệm là vùng hình ảnh và xếp các sản phẩm tìm được vào lớp hình ảnh Sau đó mới định vị các vùng đối ngẫu và những vùng đối ngẫu này sẽ được phát hiện là vùng văn bản Thuật toán có thể phát hiện được chữ viết Trung Quốc, chữ viết Phương Tây trong ảnh tài liệu có chứa hỗn hợp của

Trang 30

văn bản và hình ảnh Mặc dù thuật toán này có thể xử lý trường hợp kết dính văn bản với văn bản hoặc kết dính văn bản với đối tượng hình ảnh trong một chừng mực nhất định, nhưng nó cũng bị hạn chế khi gặp phải những ảnh tài liệu có quá nhiều tính năng đặc thù hoặc bị quá nhiều điểm nhiễu Điều quan trọng là cách làm này sẽ phân định được hai lớp văn bản và hình ảnh riêng biệt làm dữ liệu đầu cuối cho

những hệ thống nhận dạng phù hợp thông qua việc xử lý ở mức điểm ảnh (pixel level) và thực hiện quá trình tìm xương và véc tơ hóa

2.3 Một số tính năng của tập tin ảnh tài liệu

Hiển nhiện là bằng mắt thường người ta có thể phân biệt được đâu là đối tượng hình ảnh và đâu là đối tượng văn bản trong 1 ảnh tài liệu đang hiện hữu trên giấy Nhưng khi chúng ta số hóa ảnh ở dạng ảnh nhị phân thì hình như không thể phân biệt được một cách rõ ràng hai loại hình ảnh này Lý do là lúc này tất cả các đối tượng hình ảnh đều được biểu diễn dưới dạng nhị phân là những con số 0 và 1

Vì vậy, để phân định được hai loại đối tượng này trong ảnh nhị phân người ta xây dựng những quy tắc dựa trên cơ sở đặc tính của chúng Phương pháp thông thường

là xây dựng một cơ sở dữ liệu bằng phương pháp thống kê và tiên đoán rồi tích hợp vào hệ thống máy học có ứng dụng công nghệ của mạng nơ-ron nhân tạo và hệ cơ

sở tri thức Nhưng vấn đề đặt ra là một số loại chữ viết có cấu trúc như hình vẽ sẽ làm cho máy tính nhầm lẫn giữa ký tự và hình vẽ Điển hình như chữ viết của Nhật Bản, Hàn Quốc hay Trung Quốc chẳng hạn, những kiểu chữ viết này có những nét

sổ ngang, sổ dọc, được chia thành từng bộ như Bộ Trúc, Bộ Nữ,… đặc biệt như chữ Trung Quốc chỉ tính riêng Bộ Thủ đã có đến 214 Bộ Thủ cơ bản Điều này cần thiết phải xây dựng một cơ sở dữ liệu máy học rất lớn Có thể lấy thí dụ máy tính sẽ

nhầm lẫn giữa hình vẽ và chữ Trung Quốc trong quá trình nhận dạng (Hình 2.1),

trong đó, máy tính sẽ nhầm lẫn giữa vùng 1 với vùng a, vùng 2 với vùng b và vùng

3 với vùng c

Hình 2.1: Một số vị trí máy tính dễ nhầm lẫn khi nhận dạng Nguồn: Zhaoyang (1998)

Trang 31

Giải pháp để phần nào có thể khắc phục vấn đề này là đưa ra những tính năng cơ bản để phân biệt văn bản và hình ảnh Cụ thể những tính năng ưu việt để phân biệt là đối với văn bản thì bao gồm các chuỗi ký tự được cấu thành từ những

ký tự chữ cái la tinh, ký tự số, các ký tự đặc biệt (special symbol), các ký tự chữ đặc

thù của các quốc gia như Trung Quốc, Nhật Bản, Hàn Quốc, Thái Lan, v.v…Trong khi đó hình ảnh thì lại có những tính năng khác biệt không phải là các ký tự như các loại đường thẳng, đoạn thẳng kích thước lớn hơn những nét sổ của ký tự, những đường cong dài và lớn hơn những nét chữ cái la tinh hay những nét cong của chữ Thái Lan, hay những hình ảnh, biểu đồ, sơ đồ và những hình thù đa dạng khác

Tính năng quan trọng thứ nhất được xét đến để làm cơ sở cho quá trình phân biệt giữa ký tự, chuỗi ký tự, văn bản so với hình ảnh đó là diện tích hình chữ nhật hoặc hình vuông cực tiểu bao quanh mỗi loại đối tượng này (một số tài liệu gọi

là vùng bao hay hình bao, tiếng Anh thường dùng chữ boundary area, bài luận này dùng cụm từ “vùng bao quanh”) Tính năng thứ hai được đề cập đến đó là tỷ lệ mật

độ điểm ảnh màu đen và màu trắng xét trong phạm vi vùng bao quanh của mỗi đối

tượng này Bài luận dùng cụm từ “mật độ điểm ảnh” (MĐĐA), để chỉ tính năng

này Lấy thí dụ để tính toán mật độ điểm ảnh như sau, giả sử xét ảnh tài liệu gồm có một chuỗi ký tự tiếng Trung Quốc, hai chuỗi ký tự tiếng Anh và một hình vẽ thể

hiện mặt cắt của một thiết bị kỹ thuật nào đó (Hình 2.2)

Gọi Sđen là số lượng điểm ảnh màu đen (điểm ảnh nhận giá trị 1 trong ảnh nhị phân), và gọi Strắng là số lượng điểm ảnh màu trắng (điểm ảnh nhận giá trị 0

Hình 2.2: Ảnh tài liệu chứa chuỗi văn bản và hình ảnh Nguồn: Zhaoyang (1998)

Trang 32

trong ảnh nhị phân) tính trong vùng bao quanh của đối tượng Đối với văn bản thì

tính vùng bao quanh cho mỗi từ với chữ tiếng Anh và tính cho mỗi chữ cho tiếng

Trung Quốc và tính cho cả hình ảnh trong hình 2.2c Lúc này mật độ điểm ảnh (đơn

vị tính là %) sẽ được tính bởi công thức:

MĐĐA (%) = Sđen /(S đen + S trắng )

Với cách tính toán như công thức tính giá trị MĐĐA kết hợp với phương

pháp thống kê số liệu trên Bảng 1 (Số liệu thống kê về số điểm ảnh và giá trị mật độ điểm ảnh) ta sẽ có được các giá trị về mật độ điểm ảnh trong một vùng bao quanh

xác định trước làm cơ sở để tìm tần suất xuất hiện của các điểm ảnh đen và trắng, từ

đó sẽ có cơ sở về mặt số liệu để phân biệt được giữa một đối tượng là hình ảnh và đối tượng kia là ký tự hoặc chuỗi ký tự

Để ứng dụng được các giá trị mật độ điểm ảnh, người ta tiến hành kẻ đường thẳng cắt ngang qua đường trung tuyến của các vùng bao quanh các chuỗi văn bản

và cũng kẻ đường thẳng tương tự đối với hình ảnh, lúc này ta sẽ thống kê kết quả thu được từ việc thống kê số lượng các giao điểm giữa đường thẳng vừa kẻ với các điểm ảnh đen tạo nên các nét chữ cũng như giao điểm giữa đường thẳng vừa kẻ với

các điểm đen tạo nên hình ảnh (tức nhiên là chỉ xét trong phạm vi vùng bao quanh), gọi chung là “giao điểm” Ta quy ước rằng nếu có tồn tại giao điểm thì được biểu diễn tương ứng bởi 1 điểm cao nhất (the highest point) và nếu không tồn tại giao

Bảng 2.1: Số liệu thống kê về số điểm ảnh và giá trị mật độ điểm ảnh

(Nguồn: Zhaoyang, “Detection of Text Regions From Digital Engineering Drawings”-1998)

Ký tự/từ Độ rộng Độ cao Số điểm ảnh đen ảnh trắng Số điểm ảnh (MĐĐA) Mật độ điểm

Ngày đăng: 18/12/2013, 14:29

HÌNH ẢNH LIÊN QUAN

Hình 1.1: Sơ đồ khối liệt kê nhiệm vụ xử lý ảnh tài liệu được phân chia theo cấp bậc - Nghiên cứu và ứng dụng thuật toán phát hiện bảng trong ảnh tài liệu luận văn thạc sĩ
Hình 1.1 Sơ đồ khối liệt kê nhiệm vụ xử lý ảnh tài liệu được phân chia theo cấp bậc (Trang 3)
Hình 1.2. Một trình tự để phân tích ảnh tài liệu, cùng với các ví dụ về các kết quả trung - Nghiên cứu và ứng dụng thuật toán phát hiện bảng trong ảnh tài liệu luận văn thạc sĩ
Hình 1.2. Một trình tự để phân tích ảnh tài liệu, cùng với các ví dụ về các kết quả trung (Trang 4)
Hình 1.4: Mô phỏng phương pháp nhị phân ảnh. (a): Biểu đồ Histogram của ảnh đa cấp - Nghiên cứu và ứng dụng thuật toán phát hiện bảng trong ảnh tài liệu luận văn thạc sĩ
Hình 1.4 Mô phỏng phương pháp nhị phân ảnh. (a): Biểu đồ Histogram của ảnh đa cấp (Trang 7)
Hình 1.5: Mô phỏng sự kết hợp giữa các phép toán hình thái học ứng dụng vào - Nghiên cứu và ứng dụng thuật toán phát hiện bảng trong ảnh tài liệu luận văn thạc sĩ
Hình 1.5 Mô phỏng sự kết hợp giữa các phép toán hình thái học ứng dụng vào (Trang 9)
Hình 1.6: Mô tả hình ảnh nguyên bản và Xương tương ứng của nó. - Nghiên cứu và ứng dụng thuật toán phát hiện bảng trong ảnh tài liệu luận văn thạc sĩ
Hình 1.6 Mô tả hình ảnh nguyên bản và Xương tương ứng của nó (Trang 11)
Hình ảnh thể hiện cấu trúc  Hình ảnh thể hiện chức - Nghiên cứu và ứng dụng thuật toán phát hiện bảng trong ảnh tài liệu luận văn thạc sĩ
nh ảnh thể hiện cấu trúc Hình ảnh thể hiện chức (Trang 17)
Hình 1.10a: Mô tả những nét chữ viết tay không nắn nót dẫn đến rất khó - Nghiên cứu và ứng dụng thuật toán phát hiện bảng trong ảnh tài liệu luận văn thạc sĩ
Hình 1.10a Mô tả những nét chữ viết tay không nắn nót dẫn đến rất khó (Trang 19)
Hình 1.11a:  Mô tả tính năng đặc trưng về đường nét, các điểm cắt, điểm bắt đầu, điểm kết - Nghiên cứu và ứng dụng thuật toán phát hiện bảng trong ảnh tài liệu luận văn thạc sĩ
Hình 1.11a Mô tả tính năng đặc trưng về đường nét, các điểm cắt, điểm bắt đầu, điểm kết (Trang 21)
Hình 2.2: Ảnh tài liệu chứa chuỗi văn bản và hình ảnh. Nguồn: Zhaoyang (1998) - Nghiên cứu và ứng dụng thuật toán phát hiện bảng trong ảnh tài liệu luận văn thạc sĩ
Hình 2.2 Ảnh tài liệu chứa chuỗi văn bản và hình ảnh. Nguồn: Zhaoyang (1998) (Trang 31)
Hình 3.6: Trường hợp: (a)-trộn được thành 1 khối;  (b)-không trộn được - Nghiên cứu và ứng dụng thuật toán phát hiện bảng trong ảnh tài liệu luận văn thạc sĩ
Hình 3.6 Trường hợp: (a)-trộn được thành 1 khối; (b)-không trộn được (Trang 55)
Hình 3.7: (a): Tách các cột nhỏ trong cột lớn; (b): Trộn các khối nhỏ vào khối lớn - Nghiên cứu và ứng dụng thuật toán phát hiện bảng trong ảnh tài liệu luận văn thạc sĩ
Hình 3.7 (a): Tách các cột nhỏ trong cột lớn; (b): Trộn các khối nhỏ vào khối lớn (Trang 57)
Hình 4.1: Giao diện chương trình thử nghiệm thuật toán T-Recs có điều chỉnh - Nghiên cứu và ứng dụng thuật toán phát hiện bảng trong ảnh tài liệu luận văn thạc sĩ
Hình 4.1 Giao diện chương trình thử nghiệm thuật toán T-Recs có điều chỉnh (Trang 62)
Hình 4.2: Kết quả phát hiện các từ, tạo vùng bao quanh các từ của một - Nghiên cứu và ứng dụng thuật toán phát hiện bảng trong ảnh tài liệu luận văn thạc sĩ
Hình 4.2 Kết quả phát hiện các từ, tạo vùng bao quanh các từ của một (Trang 63)
Hình 4.3: Kết quả phát hiện các từ, tạo vùng bao quanh các từ và - Nghiên cứu và ứng dụng thuật toán phát hiện bảng trong ảnh tài liệu luận văn thạc sĩ
Hình 4.3 Kết quả phát hiện các từ, tạo vùng bao quanh các từ và (Trang 63)
Hình 4.4: Giao diện chương trình thử nghiệm phát hiện đối tượng văn bản và - Nghiên cứu và ứng dụng thuật toán phát hiện bảng trong ảnh tài liệu luận văn thạc sĩ
Hình 4.4 Giao diện chương trình thử nghiệm phát hiện đối tượng văn bản và (Trang 65)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w