Nhận dạng đối tượng ảnh là bài toán nhằm phân tách các đối tượng ảnh trong những trang tài liệu ảnh có chứa hỗn hợp các đối tượng là chuỗi ký tự và các đối tượng ảnh như: các sơ đồ, hình
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI ĐẠI HỌC CÔNG NGHỆ
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI
NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS TS Ngô Quốc Tạo
Hà nội – 2007
Trang 3MỤC LỤC
MỤC LỤC 1
DANH MỤC CÁC THUẬT NGỮ VIẾT TẮT 3
DANH MỤC CÁC BẢNG BIỂU 4
DANH MỤC CÁC HÌNH VẼ 5
MỞ ĐẦU 7
CHƯƠNG 1 TỔNG QUAN HỆ PHÂN TÍCH TÀI LIỆU ẢNH 10
1.1 Giới thiệu chung một hệ phân tích trang tài liệu 10
1.2 Thu nhận ảnh (Data Capture) 13
1.3 Bước xử lý điểm ảnh (Pixel – level processing) 13
1.3.1 Phương pháp nhị phân (Binarization) 13
1.3.2 Giảm nhiễu (Noise reduction) 14
1.3.3 Phân đoạn (Segmentation) 15
1.3.4 Làm mảnh và xác định vùng (Thinning and region detection) 16
1.3.5 Mã hóa CC và véctơ hóa (Chain coding and vectorization) 17
1.4 Bước phân tích các đặc trưng của tài liệu ảnh (Feature – level analysis) 18
1.5 Phân tích các đối tượng văn bản trong tài liệu 18
1.5.1 Ước lượng độ nghiêng của văn bản 19
1.5.2 Phân tích sơ đồ trình bày của trang tài liệu (Layout analysis) 20
1.6 Nhận dạng ký tự quang học (OCR) 22
1.6.1 Phương pháp 24
1.6.1.1 Trích chọn đặc trưng 24
1.6.1.2 Phân loại 24
1.6.2 Nhận dạng ký tự dựa trên ngữ cảnh 27
1.7 Phân tích các đối tượng ảnh trong tài liệu 28
1.8 Kết luận chương 29
CHƯƠNG 2 THUẬT TOÁN TÁCH VĂN BẢN - ẢNH TỪ TRANG TÀI LIỆU ẢNH 31
2.1 Giới thiệu 31
2.2 Những đặc trưng chung của một tệp tài liệu ảnh 34
2.3 Thuật toán phân tách văn bản - ảnh 37
2.3.1 Xoá bỏ các đối tượng tuyến tính (đường thẳng) 37
2.3.2 Phân tích các thành phần liên thông của nét bút 39
2.3.3 Kết hợp các nét ký tự tạo thành các chuỗi văn bản 41
2.3.4 Thực hiện các phép toán hình thái 42
2.3.5 Phân tích các thành phần liên thông mới (NCCs) 42
2.3.6 Biểu diễn cấu trúc thông tin của các chuỗi văn bản 42
Trang 42.3.7 Thiết lập các tham số 43
2.4 Kết luận chương 44
CHƯƠNG 3 THUẬT TOÁN TÁCH BẢNG T-RECS 46
3.1 Giới thiệu 46
3.2 Thuật toán phân đoạn khởi tạo 48
3.2.1 Trường hợp thuật toán nhận dạng sai cột 49
3.2.2 Cải tiến các bước của thuật toán phân đoạn khởi tạo - T-Recs++ 50
3.2.3 Những ưu điểm của thuật toán 52
3.2.4 Những mặt hạn chế của thuật toán khởi tạo 53
3.3 Các bước xử lý khối sau khi phân đoạn 54
3.3.1 Trộn các khối phân đoạn sai 54
3.3.2 Phân tách các cột bị trộn vào một khối 55
3.3.3 Nhóm các từ bị phân tách 57
3.4 Phân tích khối 58
3.4.1 Khối loại 2 nằm cùng với khối loại 1 59
3.5 Xác định cấu trúc các cột, hàng 59
3.6 Kết luận chương 59
CHƯƠNG 4 THỰC NGHIỆM 61
4.1 Nhận dạng đối tượng ảnh 61
4.1.1 Giới thiệu 61
4.1.2 Mô tả chương trình 62
4.1.3 Một số kết quả thử nghiệm 62
4.2 T-Recs++ 67
4.2.1 Giới thiệu 67
4.2.2 Mô tả chương trình 67
4.2.3 Một số kết quả thử nghiệm 69
KẾT LUẬN 72
TÀI LIỆU THAM KHẢO 74
Trang 5DANH MỤC CÁC THUẬT NGỮ VIẾT TẮT
Trang 6DANH MỤC CÁC BẢNG BIỂU
Bảng 1 Độ đậm của nét bút (LSD) của Hình 13 35 Bảng 2 Tổng kết một số kết quả thực nghiệm nhận dạng đối tượng ảnh 63 Bảng 3 Tổng kết một số kết quả thực nghiệm nhận dạng bảng 70
Trang 7DANH MỤC CÁC HÌNH VẼ
Hình 1 Sơ đồ khối của việc xử lý tài liệu 11
Hình 2 Các bước xử lý cho một hệ phân tích tài liệu, đi kèm sơ đồ là một thí dụ với các kết quả thu được từ từng bước 12
Hình 3 Phương pháp nhị phân ảnh (a) Histogram của ảnh đa cấp xám nguyên bản Trục ngang biểu diễn các giá trị ngưỡng được chọn Ảnh sau khi được nhị phân: (b) sử dụng ngưỡng thấp, (c) ngưỡng hợp lý, (d) ngưỡng quá cao 14
Hình 4 Ảnh nguyên bản bên trái và ảnh sau khi làm mảnh bên phải (a) Ký tự “m” (b) Một sơ đồ (c) Vân tay 17
Hình 5 Cửa sổ 3x3 điểm ảnh với điểm ảnh X nằm ở tâm Các giá trị số biểu diễn cho hướng mà một điểm láng giềng của X thuộc: 0 (tây), 1(tây - bắc), 2(bắc), 3(đông - bắc), 4(đông), 5(đông – nam), 6(nam), 7(tây – nam) 18
Hình 6 Biểu đồ Histogram của phép chiếu ngang và dọc của ảnh (a) và (b) 20
Hình 7 Kết quả phân tích cấu trúc và chức năng các khối của một trang tài liệu Phân tích cấu trúc sẽ cho kết quả là các khối riêng rẽ dựa trên khoảng trắng giữa các khối Nhận dạng chức năng và gãn nhãn cho các khối dựa trên quy tắc sắp xếp thông tin của trang tài liệu 21
Hình 8 Các ký tự viết bằng tay sẽ rất dễ nhầm lẫn 23
Hình 9 Sẽ không dễ dàng gì để phân tách và nhận dạng hai số 4,2 có các nét nối liền nhau như trên 23
Hình 10 Các cấu trúc đặc trưng nét, tính lõm, lỗ hổng, các điểm cắt ngang và kết thúc có thể được sử dụng làm các chiều của không gian đặc trưng để phân loại ký tự 25
Hình 11 Các đặc trưng của ảnh ký tự được trích ra 26
Hình 12 Một số thí dụ nhầm lẫn giữa ký tự và ảnh 35
Hình 13 Thí dụ về văn bản và ảnh 35
Hình 14 Biểu diễn các điểm ảnh giao nhau 36
Hình 15 Một số trường hợp ngoại lệ 36
Hình 16 Sơ đồ khối thực hiện của thuật toán phân tách văn bản - ảnh 38
Hình 17 Phép toán kéo giãn trong việc nhận dạng các đường kẻ nghiêng (a) ảnh nguyên bản (b) α = ±22.5 (c) α = ±45 (d) α = ±67.5 38
Hình 18 Dùng bút để tô các điểm ảnh thoả mãn (T5 = 12 với kích thước cỡ chữ là 20) 41
Hình 19 Các từ láng giềng của từ “consist” theo chiều dọc 48
Hình 20 Thuật toán phân đoạn khởi tạo đối với một đoạn văn bản 49
Hình 21 Trường hợp thuật toán nhận dạng sai cột 49
Hình 22 Trường hợp giữa các dòng của một cột trong bảng có ô trắng 50
Hình 23 Mô phỏng việc thực hiện các bước sau khi đã cải tiến thuật toán T-Recs++ 52
Hình 24 Kết quả nhận dạng các cột từ Hình 22 52
Hình 25 Quá trình phân đoạn các cột của bảng 52
Hình 26 Trường hợp một ô của bảng chiếm nhiều dòng 53
Hình 27 Những mặt hạn chế của thuật toán 54
Hình 28 Trộn hai khối bị phân tách 55
Hình 29 Tách các cột bị trộn 56
Hình 30 Trộn lại các khối con bị tách 56
Hình 31 Nhận biết các từ bị phân tách dựa vào các điểm phân lề 58
Hình 32 Tách các khối loại 1 thành các ô của bảng 58
Hình 33 Tách các khối loại 2 thành các hàng trong bảng 59
Hình 34 Giao diện của chương trình nhận dạng đối tượng ảnh 63
Trang 8Hình 35 Kết quả nhận dạng một sơ đồ 64
Hình 36 Một thí dụ về ký tự tiếp xúc với đối tượng ảnh 64
Hình 37 Một thí dụ cho kết quả nhận dạng khá chính xác 65
Hình 38 Thí dụ một hình vẽ máy cơ khí 65
Hình 39 Thí dụ về một bản thiết kế 66
Hình 40 Thí dụ về sơ đồ một bộ điều chỉnh điện áp và mạch điện 66
Hình 41 Giao diện chương trình T-Recs++ 68
Hình 42 Kết quả xây dựng khối của T-Recs++ 69
Hình 43 Trường hợp nhận dạng có môi trường bảng 70
Hình 44 Trường hợp nhận dạng đối với một văn bản thông báo 71
Hình 45 Thí dụ về nhận dạng bảng điểm 71
Trang 9Một hệ phân tích và nhận dạng tài liệu ảnh có mục đích là chuyển đổi tự động những thông tin lưu trữ trong tài liệu giấy thành biểu diễn dưới dạng những cấu trúc
mà có thể truy xuất, thay đổi được bằng máy tính Quy trình xử lý của một hệ phân tích tài liệu bắt đầu bằng việc lấy dữ liệu, các tài liệu từ giấy in sẽ được quét qua máy quét để lưu trữ trong máy tính dưới dạng các tệp dữ liệu ảnh Rõ ràng rằng khi máy tính ra đời và phát triển đã giải quyết được nhiều vấn đề trong việc lưu trữ thông tin Theo ước tính trên thế giới, chỉ có một số lượng nhỏ tài liệu từ những thư viện giấy khổng lồ được đưa lên mạng và vì vậy còn có một số lượng lớn những nguồn tri thức của nhân loại đang được lưu trữ theo cách thức cổ điển trong những thư viện mà việc
bỏ ra chi phí duy trì (chủ yếu trả lương cho nhân viên) cho những nguồn tài liệu này là rất lớn Thông tin bây giờ không nhất thiết phải lưu trữ bằng giấy, một cách lưu trữ không an toàn, không bền vững theo thời gian, thay vì đó nó được lưu trữ một cách ổn định và an toàn trong máy tính Do đó bằng cách này hay cách khác tài liệu giấy được quét thành các tệp dữ liệu ảnh và được lưu trữ trong máy tính Không chỉ đơn giản là vấn đề lưu trữ, các tài liệu từ giấy in được đưa vào máy tính còn cần được xử lý và trích chọn ra những thông tin quan trọng Một tài liệu giấy in được đưa vào máy tính còn yêu cầu có khả năng soạn thảo, hiệu chỉnh và khôi phục lại Một tệp dữ liệu ảnh cần phải chuyển được sang những định dạng khác để có khả năng soạn thảo, khi đó phải đảm bảo các thông tin được chuyển sang từ tệp dữ liệu ảnh phải không bị mất đi, không bị thiếu thông tin và cấu trúc vị trí của dữ liệu vẫn được giữ nguyên Chẳng hạn
vị trí các đoạn văn bản, tiêu đề, các bảng dữ liệu, các vùng ảnh, v.v phải được
Trang 10chuyển sang đúng theo cấu trúc thể hiện trên tệp dữ liệu ảnh Vì thế ngành nhận dạng hay các hệ phân tích tài liệu ảnh ra đời và phát triển để giải quyết những vấn đề trên Một tài liệu ảnh là một cách biểu diễn trực quan của các trang tài liệu được in như một bài tạp chí, một lá thư, một trang báo, một mẩu thư hay một bản vẽ kỹ thuật, v.v Một tài liệu ảnh có thể bao gồm các chuỗi ký tự, các hình vẽ, các bức ảnh, v.v Bên cạnh việc chuyển toàn bộ nội dung của tài liệu sang tài liệu điện tử cũng cần phải bảo toàn cấu trúc và định dạng của tài liệu Mục tiêu cơ bản của một hệ phân tích tài liệu ảnh hoàn chỉnh đó là chuyển một tài liệu lưu trữ bằng giấy sang dạng biểu diễn có thứ
tự cấu trúc và nội dung của nó Tài liệu được chuyển sang phải có khả năng thay đổi, soạn thảo và lưu trữ bởi vì nội dung của tài liệu có thể truy cập bởi cấu trúc của nó thay vì phải truy cập dưới dạng những mẫu ảnh Có một số lượng lớn ứng dụng của hệ phân tích tài liệu ảnh được ứng dụng trong các lĩnh vực như: dịch vụ bưu chính, chính phủ, chăm sóc y tế, thư viện, v.v
Một vài sản phẩm thương mại đã có chẳng hạn như các hệ nhận dạng quang học OCR để nhận dạng các ký tự in, ký tự viết tay, các bảng biểu tuy nhiên vẫn cần nhiều nghiên cứu để cải thiện độ chính xác của các hệ thống này Một số sản phẩm chẳng hạn như VnDOCR (của Việt Nam) cho phép nhận dạng các chuỗi văn bản, các bảng biểu hay Omnipage, Find Reader v.v là những sản phẩm nhận dạng nổi tiếng
Bài toán nhận dạng bảng và các đối tượng ảnh trong tài liệu ảnh là những bài toán khó và phức tạp Trước đây các hệ phân tích tài liệu ảnh chỉ tập trung vào nhận dạng các chuỗi ký tự, phân đoạn các khối văn bản Ngày nay tài liệu không chỉ đơn thuần là văn bản mà nó còn bao gồm hỗn hợp những đối tượng các chuỗi ký tự, ảnh, các hình
vẽ, sơ đồ, các bảng biểu v.v Nhận dạng bảng là bài toán nhận dạng ra cấu trúc bảng
có trong trang tài liệu ảnh, bao gồm việc nhận dạng các cột, các dòng và các ô có chứa
dữ liệu trong bảng Nhận dạng đối tượng ảnh là bài toán nhằm phân tách các đối tượng ảnh trong những trang tài liệu ảnh có chứa hỗn hợp các đối tượng là chuỗi ký tự và các đối tượng ảnh như: các sơ đồ, hình vẽ, bức ảnh v.v Đã có rất nhiều phương pháp, thuật toán tách bảng, tách ảnh được công bố trước đây Tuy nhiên những nghiên cứu trên những vấn đề đó đã và đang tiếp tục phát triển bởi vì chất lượng, độ chính xác, tính hiệu quả của những phương pháp được công bố trước đây vẫn chưa thực sự hoàn chỉnh và cần phải cải tiến chúng
Trang 11Luận văn bao gồm 5 phần chủ yếu tập trung vào trình bày những thuật toán nhận dạng bảng và trích ra những đối tượng ảnh trong trang tài liệu ảnh
Chương 1 trình bày ngắn gọn cấu trúc chung của một hệ phân tích tài liệu ảnh, bao gồm các thành phần chính như: lấy dữ liệu, xử lý điểm ảnh, trích chọn đặc trưng, nhận dạng đối tượng ảnh và nhận dạng văn bản
Chương 2 trình bày một bài toán điển hình trong nhận dạng đó là bài toán phân tách văn bản và ảnh một cách riêng rẽ Trong chương này một thuật toán phân tách văn bản và ảnh cũng sẽ được trình bày dựa vào việc phân tích các thành phần liên thông (CCs)
Chương 3 đưa ra một thuật toán nhận dạng bảng theo phương pháp tiếp cận dưới – lên (bottom – up) Thuật toán được đề xuất bởi Thomas G Kieninger (1998) [15] được đặt tên là T-Recs Tuy nhiên để nhận dạng được chính xác các cấu trúc bảng thì thuật toán còn nhiều hạn chế Luận văn sẽ chỉ ra trường hợp hạn chế của thuật toán và đề xuất thuật toán cải tiến T-Recs++
Cuối cùng chương 4 trình bày hai chương trình thử nghiệm: Nhận dạng đối tượng
ảnh để tách các đối tượng ảnh ra khỏi trang tài liệu ảnh có lẫn văn bản và T-Recs++
dùng để nhận dạng bảng
Phần kết luận nêu tóm tắt lại các vấn đề được đưa ra trong luận văn và đưa ra những vấn đề còn tồn tại để nâng cao tính hiệu quả của những thuật toán Các hướng giải quyết và nghiên cứu trong tương lai đối với những phương pháp này cũng sẽ được đưa ra
Thuật toán T-Recs++ trình bày trong chương 3 được công bố trong báo cáo [1] Ngoài bốn chương chính và phần kết luận, luận văn còn có thêm các danh mục bao gồm: danh mục các từ viết tắt, danh mục bảng biểu, danh mục hình vẽ và tài liệu tham khảo để thuận tiện cho việc đọc và tìm hiểu nội dung của luận văn
Trang 12CHƯƠNG 1 TỔNG QUAN HỆ PHÂN TÍCH TÀI LIỆU ẢNH
1.1 Giới thiệu chung một hệ phân tích trang tài liệu
Một hệ phân tích tài liệu ảnh nói đến một hệ thống bao gồm những thuật toán và
các kỹ thuật mà có thể áp dụng cho các tài liệu ảnh để lấy ra được các thông tin mà máy tính có thể đọc được và hiểu được từ các điểm dữ liệu ảnh [3] Một sản phẩm phân tích tài liệu ảnh mà nhiều người biết đến đó là phần mềm Nhận dạng ký tự quang học (OCR), phần mềm có khả năng nhận dạng các ký tự từ các loại tài liệu dưới dạng ảnh OCR giúp người dùng có khả năng soạn thảo và tìm kiếm nội dung của tài liệu Chương này sẽ mô tả tóm tắt các thành phần chính có trong một hệ phân tích tài liệu Mục đích của một hệ phân tích tài liệu là có khả năng nhận dạng ra các đối tượng văn bản, đối tượng ảnh trong tài liệu ảnh và có khả năng trích chọn ra được các thông tin mà người dùng mong muốn Chúng ta có thể chia một hệ phân tích tài liệu thành hai phần (Hình 1) Phần thứ nhất là xử lý văn bản, liên quan đến việc xử lý các đối tượng văn bản: ký tự, chuỗi ký tự, các từ Xử lý văn bản bao gồm các công việc sau: xác định độ nghiêng của tài liệu (độ nghiêng hay độ xiên của tài liệu ảnh do tài liệu được đặt không đúng khi thực hiện quét vào từ máy quét), tìm các cột, các đoạn văn bản, các dòng văn bản, các từ và cuối cùng là nhận dạng văn bản (có thể thêm các thuộc tính như loại phông chữ, kích thước của phông chữ) bởi phương pháp nhận dạng
ký tự quang học (OCR) Phần thứ hai là xử lý các đối tượng ảnh là các đối tượng tạo ra
từ các đường kẻ trong sơ đồ, các đường kẻ phân tách giữa các đoạn văn bản, các hình
vẽ, các lôgô của công ty… Sau khi áp dụng các kỹ thuật phân tích ảnh và văn bản, các đối tượng cần nhận dạng trong tài liệu ảnh được trích ra và được biểu diễn dưới dạng một tài liệu định dạng khác, chẳng hạn như word, html…
Chúng ta có thể xem xét 3 ví dụ cụ thể được chỉ ra dưới đây để thấy được sự cần thiết của việc phân tích tài liệu:
1) Phần lớn các tài liệu văn bản trong văn phòng làm việc đều được tạo ra từ
máy tính, và thậm chí chúng được tạo ra bởi các máy tính, phần mềm khác nhau, và do đó có thể định dạng của chúng là không tương thích với nhau Chúng có thể bao gồm các định dạng văn bản, các bảng dữ liệu và cũng có
Trang 13thể là các văn bản viết bằng tay Chúng có kích thước khác nhau, có thể từ một tấm thẻ doanh nghiệp đến một ảnh vẽ kỹ thuật lớn Một hệ phân tích tài liệu sẽ giúp nhận dạng các loại tài liệu, có khả năng trích chọn ra được các phần chức năng và có khả năng chuyển từ một định dạng máy tính này sang một định dạng khác
2) Một thí dụ khác là các máy phân loại thư tự động dùng để phân loại, sắp
xếp thư và nhận dạng địa chỉ thư Những máy này đã có từ những thập kỷ trước, nhưng ngày nay yêu cầu cao hơn đó là xử lý nhiều thư hơn, nhanh hơn và yêu cầu chính độ xác cao hơn
3) Hơn thế nữa trong những thư viện cổ điển trước đây (thư viện lưu trữ các
loại sách báo dưới dạng giấy tờ, vẫn còn tồn tại nhiều), việc các tài liệu bị mất các thông tin, thiếu thông tin, số lượng bản sao hạn chế hay thậm chí các tài liệu bị thoái hoá theo thời gian là những vấn đề phổ biến Vì vậy chúng cần phải được khôi phục và chỉnh sửa bằmg những kỹ thuật phân tích tài liệu Những ví dụ trên đã tạo ra thách thức và động lực cho sự phát triển những giải pháp trong tương lai của một hệ phân tích tài liệu
Hình 1 Sơ đồ khối của việc xử lý tài liệu
Các hệ phân tích tài liệu sẽ ngày càng phát triển và hiển nhiên là chúng sẽ có trong các hệ xử lý tài liệu Chẳng hạn như, hệ thống OCR sẽ được sử dụng rộng rãi để lưu trữ, tìm kiếm và trích dẫn từ các tài liệu lưu trữ trên giấy Các kỹ thuật phân tích cách
bố trí trong một trang tài liệu giúp nhận dạng những biểu mẫu (form) riêng biệt, hay định dạng của một trang tài liệu và cho phép sao lưu tài liệu đó Các sơ đồ có thể được
Xử lý đối tượng ảnh
Xử lý dòng
Xử lý vùng và biểu tượng
Văn bản
Xác định độ nghiêng, dòng văn bản, các khối văn bản, các đoạn văn bản
Đường thẳng, đường cong, góc Vùng được tô
Trang 14đưa vào từ các bức ảnh hay vẽ bằng tay và có thể thay đổi, soạn thảo lại chúng Sử dụng máy tính có thể chuyển các tài liệu viết bằng tay thành các tài liệu điện tử được lưu trữ trong máy tính Các tài liệu được lưu trữ trong các thư viện, các tài liệu kỹ thuật trong các công ty sẽ được chuyển đổi sang thành tài liệu điện tử nhằm nâng cao hiệu quả, thuận tiện trong việc lưu trữ và dễ dàng mang đến cơ quan hay mang về nhà Mặc dù tài liệu sẽ ngày càng được xử lý và lưu trữ nhiều trong máy tính nhưng trên thực tế có rất nhiều các hệ thống khác nhau mà tài liệu giấy là phương tiện làm việc hiệu quả và chắc chắn rằng tài liệu giấy vẫn sẽ là phương tiện làm việc với chúng ta trong một vài thập kỷ nữa Vấn đề ở đây là làm sao chúng ta tích hợp những tài liệu giấy vào trong máy tính xử lý
Hình 2 Các bước xử lý cho một hệ phân tích tài liệu, đi kèm sơ đồ là một thí dụ với các kết
quả thu được từ từng bước
Hình 2 minh hoạ cho các bước xử lý chung của một hệ phân tích tài liệu [3] Sau khi dữ liệu được tạo ra, tài liệu ảnh phải trải qua các bước xử lý điểm ảnh và phân tích
Trang tài liệu
Hai sơ đồ và 1 ảnh lô gô của công ty,.v.v
Trang 15đặc trưng và sau đó tách ra từng phần nhận dạng văn bản và ảnh riêng rẽ Các phần sau
sẽ mô tả ngắn gọn các bước xử lý trên
1.2 Thu nhận ảnh (Data Capture)
Dữ liệu trong các tài liệu giấy thường được quét qua máy quét và đưa vào máy tính dưới dạng các tệp dữ liệu ảnh, chúng bao gồm các điểm ảnh (pixels) và mô hình giống như lưới các điểm ảnh Giá trị điểm ảnh có thể là 0 và 1 trong ảnh nhị phân, 0 đến 255 trong ảnh đa cấp xám và ảnh màu với 3 giá trị R, G, B từ 0 đến 255 Ở độ phân giải thông thường thì có 120 điểm ảnh trong 1 centimet và với 1 trang có kích thước 20 x 30 cm thì tạo ra một ảnh với 2400 x 3600 điểm ảnh Do đó có thể thấy rằng một tài liệu ảnh chỉ bao bồm các dữ liệu thô (giá trị các điểm ảnh) và chúng sẽ được sử dụng những kỹ thuật phân tích thích hợp để lấy ra được các thông tin cần thiết
1.3 Bước xử lý điểm ảnh (Pixel – level processing)
Bước tiếp theo trong một hệ phân tích tài liệu là thực hiện một số thao tác xử lý trên tài liệu ảnh thu được để chuẩn bị cho những bước phân tích sau này Chẳng hạn như các thao tác: chọn ngưỡng để chuyển ảnh đa cấp xám hay ảnh màu về dạng ảnh nhị phân, giảm nhiễu để loại bỏ những dữ liệu không liên quan, phân đoạn để phân tách các thành phần khác nhau trong ảnh và cuối cùng là làm mảnh hay dò biên để dễ dàng xác định các vùng, các đặc trưng thích hợp và các đối tượng cần quan tâm Sau những bước xử lý ở trên, dữ liệu thường được biểu diễn dưới dạng nén lại như dùng
mã hoá CC và biểu diễn dưới dạng véctơ Bước xử lý điểm ảnh (người ta cũng có thể gọi là bước tiền xử lý (preprocessing) hay bước xử lý cấp thấp trong một số bài báo) sẽ
là chủ đề của phần này [3]
1.3.1 Phương pháp nhị phân (Binarization)
Với những ảnh đa cấp xám với các thông tin mà vốn đã ở dạng nhị phân chẳng hạn như các chuỗi văn bản hay các đối tượng ảnh, thì phương pháp nhị phân thông thường sẽ được thực hiện trước Mục đích của phương pháp này là sẽ tự động chọn một ngưỡng cần thiết để tách ảnh ra làm hai phần: thông tin ảnh và thông tin nền Việc lựa chọn một ngưỡng tốt (ngưỡng mà có thể phân tách ảnh thành hai phần: phần ảnh, phần nền một cách chính xác) luôn là một quá trình khó và dễ gây ra lỗi (Hình 3) Điều
Trang 16này sẽ đặc biệt khó trong các trường hợp khi độ tương phản giữa giá trị các điểm ảnh văn bản và nền là thấp (chẳng hạn như văn bản được soạn thảo trên một nền xám thuần nhất), khi nét của văn bản là mỏng hoặc là khi dữ liệu không được chiếu sáng tốt khi thực hiện quét từ tài liệu giấy Rất nhiều phương pháp đã được phát triển để khắc phục những hạn chế trên, chẳng hạn như phương pháp tách ngưỡng tự động tìm ra giá trị θ thích hợp để chia ảnh thành hai phần
Hình 3 Phương pháp nhị phân ảnh (a) Histogram của ảnh đa cấp xám nguyên bản Trục
ngang biểu diễn các giá trị ngưỡng được chọn Ảnh sau khi được nhị phân: (b) sử dụng ngưỡng thấp, (c) ngưỡng hợp lý, (d) ngưỡng quá cao
1.3.2 Giảm nhiễu (Noise reduction)
Xuất hiện các điểm nhiễu trong tài liệu ảnh là do nhiều nguyên nhân bao gồm sự thoái hoá theo thời gian, sự sao chép, quá trình quét tài liệu từ máy quét Một số kỹ
Trang 17thuật xử lý ảnh sẽ được áp dụng để loại bỏ nhiễu Sau khi được nhị phân hoá, tài liệu ảnh sẽ được lọc để giảm nhiễu Nhiễu muối và nhiễu hạt tiêu (Salt and Pepper noise) là những loại nhiễu phổ biến nhất có trong các tài liệu kém chất lượng Chúng xuất hiện như những điểm ảnh khác biệt so với vùng xung quoanh, chẳng hạn các điểm ảnh nhiễu ON (điểm mang thông tin ảnh) trong vùng nền OFF (điểm mang thông tin nền) hay ngược lại các điểm ảnh OFF trong vùng nền ON và các cạnh gồ ghề của ký tự hay các đối tượng ảnh Các phép toán hình thái thường được sử dụng để loại bỏ nhiễu Hai phép toán hình thái cơ bản là giãn ảnh (Dilation) và co ảnh (Erosion) Co ảnh là phương pháp làm giảm kích cỡ của vùng ON Giãn ảnh là phương pháp ngược lại với
co ảnh, trong đó những điểm đơn ON thì tăng thêm Các phép toán này thường được kết hợp với nhau nhiều lần và áp dụng tuần tự co ảnh và giãn ảnh nhiều lần Một trong những phương pháp kết hợp đó được gọi là phép toán OPENING, sử dụng cùng một
số lần co ảnh và giãn ảnh Kết quả của phép toán OPENING là vùng biên của đối tượng nhẵn hơn, vùng eo nhỏ bị đứt và các vùng điểm nhiễu nhỏ được loại bỏ Phép toán đối xứng của OPENING là CLOSING Nó thực hiện giãn ảnh cùng một số lần với co ảnh Kết quả thu được của phép toán CLOSING đó là vùng biên nhẵn hơn, loại
bỏ các lỗ hổng (holes) nhỏ trong đối tượng và nối liền các kẽ hở ngắn giữa các đối tượng
1.3.3 Phân đoạn (Segmentation)
Quá trình phân đoạn được thực hiện làm hai phần Phần thứ nhất, tách ra thành các lớp văn bản và ảnh riêng biệt nếu như trong tài liệu có chứa cả văn bản và ảnh Phần thứ hai là thực hiện phân tách trên hai lớp đối tượng vừa tách ở trên, với văn bản xác định các cột, các đoạn văn bản, các từ và các ký tự; với lớp đối tượng ảnh thực hiện phân tách các biểu tượng, các hình vẽ, các đường kẻ và các hình ảnh Chẳng hạn như một tài liệu ảnh có chứa các đoạn văn bản và các hình minh hoạ giống như một trang tạp chí, đầu tiên văn bản và ảnh sẽ được tách riêng Sau đó văn bản sẽ được tách
ra thành các chuỗi ký tự Ảnh thì được tách ra các thành phần như hình chữ nhật, hình tròn, các đường kẻ, biểu tượng v.v Sau bước trên tài liệu ảnh sẽ phân tách ra thành những đối tượng nhỏ hơn như các ký tự và các thành phần cơ bản của ảnh
Trang 181.3.4 Làm mảnh và xác định vùng (Thinning and region detection)
Làm mảnh ảnh là một thao tác xử lý ảnh trong đó đối tượng ảnh được biểu diễn như là những đường trục được gọi là đường tâm hay còn gọi là lấy xương của ảnh Một đối tượng ảnh khi đó chỉ được biểu diễn bởi đường xương của nó bằng việc giảm bớt số lượng điểm ảnh có giá trị ON của đối tượng và vẫn đảm bảo tính chất liên thông của đối tượng Mục đích của việc làm mảnh ảnh là giảm bớt các thành phần mà chỉ lưu trữ các thông tin thiết yếu phục vụ cho việc phân tích và nhận dạng sau này thuận tiện hơn Chẳng hạn như một đường kẻ thẳng có thể vẽ bằng tay với độ đậm của nét bút là khác nhau nhưng có thể biểu diễn chúng giống nhau Trong Hình 4, một số ảnh được đưa ra trong đó nội dung của ảnh được phân tích bằng phương pháp làm mảnh và kết quả làm mảnh của ảnh cũng được đưa ra Chú ý rằng một số cuốn sách hay bài báo cũng gọi làm mảnh ảnh bằng các thuật ngữ lấy xương ảnh hay lấy đường tâm của ảnh Trong khuôn khổ của luận văn này chúng ta sẽ dùng thuật ngữ “làm mảnh” (thinning) Một thuật ngữ khác cũng liên quan đến thao tác làm mảnh ảnh đó là tìm “trục trung vị” Trục trung vị bao gồm các điểm ảnh của một vùng mà mỗi điểm ảnh có khoảng cách bằng nhau tới hai điểm biên gần nó nhất Tiêu chuẩn của trục trung vị chính là tư tưởng chính của phương pháp làm mảnh ảnh Tuy nhiên khái niệm trục trung vị chỉ được xác định đối với những vùng ảnh liên tục, với trường hợp các mẫu ảnh không liên tục một số kỹ thuật làm mảnh ảnh khác được đưa ra
Lưu ý rằng nếu một hình tròn hay một hình vuông mà được tô kín bởi các điểm đen thì kết quả làm mảnh những đối tượng trên sẽ là một điểm ảnh nằm tại tâm của hình vẽ bất kể kích thước của đối tượng là như thế nào Do đó có thể thấy rõ ràng rằng việc xác định được vùng biên của đối tượng là rất quan trọng Nói chung với các đối tượng có kích thước lớn, dò biên là phương pháp lựa chọn thích hợp để biểu diễn đối tượng, còn đối với những đối tượng được tạo thành bởi những nét kết nối dài thì làm mảnh là phương pháp thích hợp hơn Làm mảnh thường được sử dụng như là một quá trình tiền xử lý đối với những ứng dụng phân tích tài liệu như xử lý sơ đồ hay bản đồ Với những đối tượng ảnh lớn mà vùng ảnh được tô đầy chẳng hạn như những lôgô thì phương pháp dò biên đối tượng thích hợp hơn Nhưng với những vùng nhỏ, chẳng hạn từng ký tự riêng biệt thì cũng không phải phương pháp làm mảnh cùng không phải
Trang 19phương pháp dò biên được thực hiện mà khi đó vùng ảnh sẽ được biểu diễn dưới dạng mảng các giá trị của điểm ảnh
Hình 4 Ảnh nguyên bản bên trái và ảnh sau khi làm mảnh bên phải
(a) Ký tự “m” (b) Một sơ đồ (c) Vân tay
1.3.5 Mã hóa CC và véctơ hóa (Chain coding and vectorization)
Khi một đối tượng được biểu diễn dưới dạng xương của ảnh hay bằng đường viền, chúng có thể biểu diễn một cách hiệu quả hơn là lưu các điểm ảnh một cách đơn giản các giá trị ON và OFF Một trong những phương pháp lưu ảnh hiệu quả đó là lưu dưới dạng mã xích CC (Chain Code – Freeman 1974), trong đó các điểm có giá trị ON được biểu diễn thông qua tập các điểm láng giềng đi theo một hướng quy định Thay vì phải lưu trữ vị trí của điểm ảnh có giá trị ON chúng ta sẽ lưu trữ hướng của các điểm láng giềng Các điểm láng giềng của một điểm x là tất cả các điểm nằm liền kề với x thuộc
ma trận 3 x 3 với điểm x là tâm (Hình 5) Có hai ưu điểm khi biểu diễn giá trị điểm ảnh theo hướng thay vì phải lưu vị trí của điểm ảnh Thứ nhất đó là việc lưu trữ hiệu quả hơn Thông thường với những ảnh có kích thước lớn hơn 256 x 256, toạ độ giá trị điểm ảnh ON thường được biểu diễn bởi 16 bít; trái lại với cách lưu trữ CC một điểm
Trang 20láng giềng thuộc 1 trong tám hướng, do đó mỗi một điểm ảnh ON chỉ cần biểu diễn bằng 1 byte hay thậm chí chỉ cần 3 bít để lưu Một ưu điểm khác có thể thấy trong CC
đó là vì CC lưu theo cấu trúc các điểm ảnh có liên quan với nhau và do đó dựa vào cách thức lưu trữ này có thể thực hiện các công việc xử lý như làm trơn các đường cong và tính xấp xỉ các đường thẳng trơn
Sau bước xử lý điểm ảnh, dữ liệu thô của ảnh đã được biểu diễn ở cấp độ trừu tượng cao hơn: đã khoanh được vùng bao của chuỗi ký tự, biểu diễn CC và véctơ của các đường cong và đường thẳng, hay đã xác định được vùng biên của các đối tượng
3 2 1
4 X 0
5 6 7 Hình 5 Cửa sổ 3x3 điểm ảnh với điểm ảnh X nằm ở tâm Các giá trị số biểu diễn cho hướng
mà một điểm láng giềng của X thuộc: 0 (tây), 1(tây - bắc), 2(bắc), 3(đông - bắc), 4(đông), 5(đông – nam), 6(nam), 7(tây – nam)
1.4 Bước phân tích các đặc trưng của tài liệu ảnh (Feature – level analysis)
Sau bước xử lý trên các điểm ảnh, các đặc trưng của các đối tượng trên tài liệu ảnh sẽ được trích chọn và phân tích để giúp ích cho những bước nhận dạng sau này Tại bước phân tích đặc trưng ảnh, dữ liệu ảnh làm mảnh và biểu diễn dưới dạng CC sẽ được phân tích để xác định các đường thẳng, các đường cong và các điểm quan trọng nằm dọc trên đường cong Các đường cong thường được tính xấp xỉ bởi hình đa giác Các điểm quan trọng chẳng hạn các điểm góc và điểm bị uốn cong đều được xác định
để giúp ích cho việc phân tích nhận dạng các hình vẽ Đối với các vùng giới hạn tương ứng của từng ký tự riêng rẽ hay các biểu tượng ảnh, các đặc trưng nội tại như tỉ lệ hình dáng, độ chặt của hình bao (tỉ lệ giữa diện tích và chu vi), tính không đối xứng, độ đậm đặc của các điểm đen, tính trơn của đường viền, số lượng đường viền, số lượng các đường thẳng giao nhau và các đường đầu mút đều được tính toán để làm dữ liệu đầu vào phục vụ cho việc nhận dạng từng đối tượng
1.5 Phân tích các đối tượng văn bản trong tài liệu
Có hai loại phân tích được áp dụng trong việc phân tích văn bản trong tài liệu ảnh Loại thứ nhất là nhận dạng ký tự quang học (OCR) để nhận dạng từng ký tự, các chuỗi
Trang 21ký tự từ ảnh bitmap (bmp), loại thứ hai là phân tích sơ đồ trình bày của trang tài liệu nhằm nhận biết được định dạng của văn bản, và từ đó hiểu được cấu trúc, vị trí, chức năng của các khối văn bản (tiêu đề chính, tiêu đề phụ, đoạn văn bản, chú thích v.v ) Phụ thuộc vào cách sắp xếp của các khối văn bản, một trang văn bản có thể là một trang tiêu đề, một bảng mục lục của tạp chí, một biểu mẫu kinh doanh, hay là một phong bì thư Nhận dạng ký tự quang học và phân tích sơ đồ trình bày có thể được thực hiện một cách riêng rẽ, hay có thể lấy kết quả của phần này để sử dụng cho phần kia Nhận dạng ký tự quang học thường được nhận biết như là ứng dụng nhận dạng ký
tự viết tay hay các ký tự trong tài liệu in Kỹ thuật phân tích sơ đồ trình bày được áp dụng để phân tích định dạng của trang, một loại ứng dụng phân tích sơ đồ trình báy đó
là nhận dạng biểu mẫu, giúp phân tích và nhận dạng cấu trúc biểu mẫu và các văn bản
có trong biểu mẫu Trong một số trường hợp người ta cần phải xác định độ nghiêng của tài liệu bởi vì tài liệu được quét có thể bị nghiêng so với bề ngang của trang giấy trong trường hợp tài liệu đó không được đặt đúng khi quét vào từ máy quét Ước lượng
độ nghiêng và phân tích sơ đồ trình bày của văn bản sẽ được mô tả ngắn gọn trong phần dưới đây Phương pháp nhận dạng ký tự quang học sẽ được đề cập đến ở phần sau
1.5.1 Ước lượng độ nghiêng của văn bản
Một dòng văn bản bao gồm một nhóm các ký tự, biểu tượng, và các từ nằm liền kề nhau, khá gần nhau và đều nằm trên cùng một đường thẳng (có thể theo chiều thẳng đứng hay chiều dọc) Thông thường hướng của các dòng văn bản sẽ xác định độ nghiêng của tài liệu Bình thường một trang tài liệu sẽ có độ nghiêng là 0 khi mà các dòng văn bản theo chiều ngang hay chiều dọc sẽ song song với các cạnh tương ứng của trang tài liệu, tuy nhiên trong một số trường hợp khi một trang tài liệu được quét hay sao chụp bằng tay, độ nghiêng của tài liệu khi đó sẽ khác 0 Vì các bước phân tích như OCR hay phân tích sơ đồ trình bày phụ thuộc vào trang tài liệu đầu vào với độ nghiêng là 0 do đó xác định độ nghiêng và điều chỉnh độ nghiêng của tài liệu là một việc làm cần thiết trước khi thực hiện những bước trên Một phương pháp xác định độ nghiêng của tài liệu phổ biến đó là phép chiếu nghiêng Phép chiếu nghiêng là phương pháp tính số lượng điểm ảnh ON (điểm ảnh có giá trị 1 trong ảnh nhị phân) khi quét
Trang 22ảnh theo các dòng hay các cột và lưu giá trị này vào một mảng, trong đó chỉ số của mảng chính là dòng hay cột được quét Do đó giá trị các điểm ảnh ON khi quét qua trang ảnh sẽ được biểu diễn bởi một đồ thị tần suất Mỗi một lần thực hiện phép chiếu nghiêng ta sẽ chiếu ảnh theo các góc khác nhau (từ 0 đến 180 độ), tức là sẽ thực hiện quay ảnh một góc tương ứng Phép chiếu nghiêng thường được thực hiện theo chiều ngang hoặc dọc và được gọi là các phép chiếu nghiêng theo chiều ngang, dọc tương ứng (Hình 6) Với một tài liệu ảnh mà góc nghiêng bằng 0 thì các đỉnh của phép chiếu biểu diễn các dòng có chứa ký tự, còn các vùng trũng biểu diễn cho khoảng không gian trắng giữa các dòng Để tìm được góc nghiêng của văn bản thì sẽ tìm góc quay sao cho đồ thì tần suất có nhiều những đỉnh cao nhất và những vùng trũng nhất Nếu
đồ thị tần suất có 10 đỉnh và 10 vùng trũng thì có thể suy ra rằng tài liệu ảnh có 10 dòng văn bản Do đó với mỗi phép chiếu nghiêng ta sẽ tính số đo độ cao của các đỉnh
và số đo độ cao các vùng trũng, góc chiếu nào mà có sự khác nhau giữa hai số đo này
là lớn nhất thì chính là góc nghiêng của văn bản
Hình 6 Biểu đồ Histogram của phép chiếu ngang và dọc của ảnh (a) và (b)
1.5.2 Phân tích sơ đồ trình bày của trang tài liệu (Layout analysis)
Sau khi xác định được độ nghiêng của trang tài liệu, ảnh sẽ được quay một góc để
độ nghiêng của trang bằng 0, sau đó quá trình phân tích sơ đồ trình bày của trang được
Trang 23Hình 7 Kết quả phân tích cấu trúc và chức năng các khối của một trang tài liệu Phân tích
cấu trúc sẽ cho kết quả là các khối riêng rẽ dựa trên khoảng trắng giữa các khối Nhận dạng chức năng và gãn nhãn cho các khối dựa trên quy tắc sắp xếp thông tin
của trang tài liệu
thực hiện Phân tích cấu trúc trình bày được thực hiện để lấy ra được cấu trúc các khối văn bản (các đoạn văn bản) trong tài liệu Tuỳ thuộc vào định dạng của từng loại tài liệu, quá trình phân đoạn có thể thực hiện phân tách các từ, các dòng văn bản hay cấu trúc các khối (nhóm các dòng văn bản, chẳng hạn các đoạn văn bản hay các bảng danh mục) Thông thường người ta dựa vào quy tắc sắp xếp thông tin trong trang tài liệu để
Trang 24nhận dạng từng khối và gán nhãn cho chúng Một thí dụ đưa ra kết quả sau khi phân tích trang đầu tiên của một tài liệu kỹ thuật bao gồm: tên tài liệu, tác giả, tóm tắt, từ khoá, các đoạn trong thân văn bản v.v Hình 7 đưa ra một thí dụ với kết quả sau khi
đã thực hiện phân tích cấu trúc và gán nhãn cho các khối trên một trang tài liệu ảnh Phân tích cấu trúc của trang có thể sử dụng phương pháp tiếp cận trên - xuống [9] hay tiếp cận dưới – lên [10] Với phương pháp tiếp cận từ trên - xuống, một trang tài liệu được phân tách từ các thành phần lớn xuống các thành phần nhỏ hơn, chẳng hạn trang tài liệu có thể phân tách thành các cột, sau đó các cột được phân tách thành các đoạn văn bản, từ các đoạn văn bản lại tách ra thành các dòng văn bản, sau đó tách các từ v.v Với phương pháp tiếp cận từ dưới – lên, các thành phần liên thông được trộn với các ký tự để nhận dạng từ, các từ lại được trộn với nhau để tạo thành các dòng văn bản, từ các dòng văn bản xây dựng thành các đoạn văn bản v.v Một cách lần lượt, hai phương pháp trên có thể kết hợp cùng nhau để phân tích cấu trúc của tài liệu
1.6 Nhận dạng ký tự quang học (OCR)
Nhận dạng ký tự quang học (OCR) là phần cốt lõi của ngành nhận dạng, trong đó mục đích của OCR là nhận biết được các chuỗi ký tự từ bảng chữ cái Các ký tự trong bảng chữ cái thường có rất nhiều kiểu viết khác nhau Trên thực tế các ký tự thường được viết bằng nhiều kiểu khác nhau tuỳ thuộc vào kích cỡ, loại phông chữ và nét bút viết tay của từng người Mặc dù các ký tự có thể viết theo nhiều cách nhưng có lẽ rằng vẫn có những quy tắc xác định để nhận biết từng ký tự Phát triển những thuật toán trên máy tính để nhận biết các ký tự trong bảng chữ cái là một nhiệm vụ trọng tâm của OCR Nhưng thách thức đối với vấn đề này đó là – trong khi con người có thể nhận dạng gần như chính xác 100% các ký tự viết tay thì OCR vẫn chưa thể đạt tới được điều này
Khó khăn đối với OCR thể hiện qua một số đặc điểm Sự gia tăng số lượng và kích cỡ của phông chữ trong bảng chữ cái, không ràng buộc các kiểu chữ viết tay, các
ký tự nối liền nhau, các nét bị đứt, các điểm nhiễu v.v tất cả chúng làm cho quá trình nhận dạng gặp khó khăn Hình 8 chỉ ra một thí dụ giữa số „0‟ và số „6‟ rất dễ nhầm lẫn khi chúng được viết bằng tay Một từ cũng có thể hoàn toàn là các con số, chẳng hạn
Trang 25các số điện thoại, hay hoàn toàn là các ký tự trong bảng chữ cái hoặc có thể trộn lẫn giữa chữ cái và số
Hình 8 Các ký tự viết bằng tay sẽ rất dễ nhầm lẫn
Hình 9 Sẽ không dễ dàng gì để phân tách và nhận dạng hai số 4,2
có các nét nối liền nhau như trên
Do đó quá trình nhận dạng sẽ càng trở nên khó khăn hơn khi các ký tự liền kề trong một chuỗi nối liền nét (Hình 9) Các ký tự nối liền nét là điều rất bình thường và mang ý nghĩa gắn kết (như ký tự gạch nối), khi nối một ký tự số với một ký tự chữ cái viết hoa trong một từ viết tắt thì sẽ rất khó nhận dạng
Trang 261.6.1 Phương pháp
Thuật toán OCR thường có hai phần chính: trích chọn đặc trưng và phân loại Một cách cơ bản, quá trình OCR gán một ảnh ký tự vào một lớp bằng cách sử dụng thuật toán phân loại dựa trên những đặc trưng được trích chọn và mối liên hệ giữa các đặc trưng đó Độ đo tương tự là cơ sở để xác định một đối tượng có thuộc một lớp ký tự
hay không Thông thường sẽ có một thành phần thứ ba đó là quá trình xử lý dựa trên
ngữ cảnh để sửa lại những lỗi của OCR Dưới đây sẽ trình bày ngắn gọn ba thành phần
của OCR
1.6.1.1 Trích chọn đặc trƣng
Trích chọn đặc trưng liên quan đến việc trích ra những thuộc tính của đối tượng dưới dạng các độ đo Để biểu diễn một lớp ký tự phải xây dựng một mô hình nguyên mẫu chung cho các lớp ký tự Và do đó quá trình trích chọn đặc trưng sẽ cố gắng tìm
ra các thuộc tính dựa trên nguyên mẫu đã xây dựng cho các lớp Các đặc trưng chung như, số lượng các lỗ hổng trong ký tự, mặt lõm của đường viền bên ngoài, sự nhô ra của điểm cao nhất và các đặc trưng nội tại, các điểm cắt ngang, các điểm kết thúc, các góc v.v sẽ được sử dụng Mỗi ảnh ký tự sẽ trích ra các đặc trưng trên và phân loại chúng vào lớp tương ứng
1.6.1.2 Phân loại
Trong phương pháp phân loại dựa trên thống kê, những mẫu ảnh ký tự được biểu diễn bằng các điểm trong không gian đặc trưng đa chiều Mỗi một thành phần trong không gian đa chiều biểu diễn cho một độ đo đặc trưng Quá trình phân loại sẽ chia không gian đa chiều thành các vùng tương ứng với các lớp ký tự và chúng được gán nhãn tương ứng
Một thí dụ về không gian đặc trưng được sử dụng để phân loại 50 ký tự vào 5 lớp khác nhau {C, E, T, X, Y} được chỉ ra trên Hình 10 Không gian đặc trưng dựa trên
hai thuộc tính, phần trăm của các điểm ảnh màu đen nằm trên nét dọc (S V) và nét
ngang (S H) của ký tự Nét bút của ký tự được tách ra thành các nét ngang và nét dọc
Một điểm ảnh có thể thuộc một hoặc cả hai nét trên, do đó S V + S H có thể lớn hơn
100% Ký tự E và T có thể coi là có giá trị S V và S H lớn nhất; ký tự C có giá trị S V và
Trang 27S H xấp xỉ 50%; ký tự X và Y có giá trị S H được coi như là nhỏ nhất Khi đó phân loại các ảnh ký tự sẽ dựa vào độ đo khoảng cách từ nó đến các lớp đã được huấn luyện
Hình 10 Các cấu trúc đặc trưng nét, tính lõm, lỗ hổng, các điểm cắt ngang và kết thúc có thể
được sử dụng làm các chiều của không gian đặc trưng để phân loại ký tự
Đối sánh với giá trị tập huấn luyện là một phương pháp thuần tuý dùng để phân
loại và nó cũng được coi là một phương pháp phổ biến nhất Các điểm ảnh riêng rẽ sẽ được sử dụng trực tiếp như là những đặc trưng Độ đo tương tự sẽ được thay thế cho
độ đo khoảng cách Độ đo sẽ được tính dựa trên việc đếm số lượng điểm ảnh thoả mãn một tính chất nào đó (số lượng điểm ảnh đen và trắng của ảnh dữ liệu trùng với số lượng điểm ảnh đen và trắng tương ứng nằm trên tập huấn luyện) Phương pháp đối sánh với giá trị tập huấn luyện còn có cách gọi khác là cực đại hoá sự tương quan Tương tự như vậy, chúng ta cũng đếm số điểm ảnh không thoả mãn (số lượng điểm ảnh đen của ảnh dữ liệu trùng với số lượng điểm ảnh trắng nằm trên tập huấn luyện và ngược lại) Lớp với số lượng điểm ảnh không thoả mãn là ít nhất sẽ được chọn làm lớp cho đối tượng kiểm tra Phương pháp như vậy gọi là cực tiểu hoá độ lệch Số lượng
Trang 28điểm ảnh thoả mãn và không thoả mãn có thể quy đổi được và từ đó tính ra được độ tương tự của đối tượng so với tập huấn luyện Đối sánh với tập huấn luyện là một phương pháp hiệu quả khi mà sự thay đổi trong một lớp đối tượng là do các điểm nhiễu thêm vào
Hình 11 Các đặc trưng của ảnh ký tự được trích ra
Quy tắc K láng giềng gần nhất (K – NNR) là một quy tắc quyết định nổi tiếng được sử dụng rộng rãi trong bài toán phân loại của nhận dạng Tỉ lệ lỗi khi phân loại dùng K – NNR đảm bảo cho ra tỉ lệ lỗi không vượt quá hai lần tỉ lệ lỗi Bayes (tỉ lệ lỗi đạt được tối thiểu khi biết sự phân bố dữ liệu) và sẽ tiến tới tỉ lệ lỗi Bayes với một giá
trị nào đó của K Quy tắc K – NNR sẽ đặc biệt hiệu quả khi mà phân bố xác suất của
các biến đặc trưng là chưa xác định Chọn lọc các tập huấn luyện là một phần quan trọng của quy tắc láng giềng gần nhất (1 – NNR)
Mặc dù nhiều vấn đề đã được giải quyết một cách thành công nhờ sử dụng phương pháp thống kê, nhưng vẫn có những cách biểu diễn các mẫu hiệu quả dưới dạng cấu trúc hay sắp xếp các thành phần như là định nghĩa các thuộc tính của mẫu Phương pháp biểu diễn cấu trúc trong OCR biểu diễn các mô hình ký tự dưới dạng các mẫu và mối quan hệ giữa các mẫu để mô tả cấu trúc mô hình một cách rõ ràng [3] Khi được yêu cầu mô tả ký tự trong bảng chữ cái, mọi người thường biểu diễn chúng dưới dạng cấu trúc các đặc trưng (Hình 11) Chẳng hạn như: chữ cái hoa „A‟ có
Trang 29hai đường kẻ thẳng (nét bút) dưới chân, có một điểm kết thúc nằm trên đỉnh, và một đường kẻ ngang cắt hai điểm giữa, có một lỗ hổng ở phía trên Tư tưởng cốt lõi của phương pháp cấu trúc đó là biểu diễn mô hình dưới dạng tập các thuộc tính đặc trưng
mà có khả năng mô tả bất kỳ một đối tượng thuộc lớp đối tượng đang xét và có khả năng phân biệt các lớp đối tượng khác nhau
1.6.2 Nhận dạng ký tự dựa trên ngữ cảnh
Phương pháp xử lý này sử dụng ý nghĩa của các từ để sửa lại những lỗi để lại của OCR Phương pháp này sử dụng thông tin từ các ký tự khác nhau được nhận dạng trong một từ và dựa vào ý nghĩa của từ khi lắp ghép ký tự vào từ Thông thường một
từ có nghĩa hay không sẽ dựa vào từ điển hay từ vựng của ngôn ngữ đó Giả sử giữa
hai từ u và v rất khó phân biệt khi nhận dạng, chẳng hạn một trong hai từ này xuất hiện tại vị trí thứ hai (tính từ trái sang phải) của từ qXeen Kỹ thuật xử lý dựa trên ngữ cảnh
sẽ xác định ký tự u là thích hợp trong trường hợp này vì trong từ điển từ qveen không
có trong từ điển Tiếng Anh Chúng ta cũng có thể áp dụng quy tắc ký tự đi theo sau ký
tự q chỉ có u
Đã có những nghiên cứu một cách hệ thống kết quả nhận dạng thu được từ OCR trên Tiếng Anh Một báo cáo đầy đủ kết quả từ những sản phẩm OCR trên tài liệu được in bằng máy được công bố bởi trường đại học Nevada [11] Với những tài liệu đạt tiêu chuẩn, kết quả nhận dạng chính xác từ 99.13% tới 99.77% Với những tài liệu
có chất lượng kém, độ chính xác của nhận dạng cũng đạt từ 89.34% tới 97.01% Kết quả nhận dạng giảm đi đối với những tài liệu chất lượng kém chủ yếu là do các nét ký
tự bị đứt và các ký tự liền kề nối liền nét Thời gian gần đây, phương pháp OCR nhận dạng ảnh trong tài liệu phức tạp cũng được công bố [12] Wilson [13] đã công bố một báo cáo toàn diện trong việc sử dụng và đánh giá phương pháp OCR cho những ứng dụng xử lý biểu mẫu
Đã có rất nhiều tài liệu nghiên cứu mô tả phương pháp nhận dạng OCR OCR được coi là nghiên cứu quan trọng nhất trong lĩnh vực nhận dạng Trong khi các nghiên cứu phương pháp OCR trên ký tự La mã đã giảm dần thì nghiên cứu OCR trên các loại ký tự không phải La mã tiếp tục là vấn đề được quan tâm nhiều đến Để theo dõi các vấn đề mới nhất hay các phương pháp mới người đọc nên theo dõi các hội thảo
Trang 30về nhận dạng như Hội thảo quốc tế về Phân tích tài liệu và Nhận dạng và Hội thảo quốc tế về nhận dạng chữ viết tay
1.7 Phân tích các đối tƣợng ảnh trong tài liệu
Nhận dạng đối tượng ảnh là một chủ đề quan trọng trong phân tích trang tài liệu ảnh vì các thành phần của ảnh luôn đi kèm với văn bản, các sơ đồ biểu diễn, lô gô của công ty xuất hiện trong đầu thư, và các đường kẻ phân cách các ô trong bảng Các đối tượng ảnh được nhận dạng là các ảnh xuất hiện dọc theo các đoạn văn bản và ảnh trong tài liệu Chúng ta cũng có thể xây dựng những miền ứng dụng riêng biệt để nhận dạng từng loại đối tượng ảnh trong tài liệu; chúng có thể bao gồm các biểu tượng trong
sơ đồ kỹ thuật, biểu đồ nghiệp vụ, bản đồ, vân tay v.v Mục đích của việc nhận dạng đối tượng ảnh là lấy ra được các thông tin mang ý nghĩa xuất hiện bên trong nội dung của ảnh
Khi mà tài liệu hầu như được xử lý và tạo ra bằng máy tính thì việc phân tích tài liệu ảnh càng trở nên quan trọng Những người làm việc trên máy tính liên quan đến việc truyền tải và chuyển đổi tệp dữ liệu nhận thấy một điều rằng các tệp dữ liệu thường ít khi tương thích với nhau Bởi vì có sự khác nhau về ngôn ngữ, đặc điểm của
hệ thống, và sự thay đổi của các phiên bản CAD và các gói định dạng văn bản, do đó các tệp dữ liệu của những hệ thống khác nhau thường không tương thích với nhau Một hệ thống xử lý tài liệu có thể chuyển đổi một định dạng tài liệu ảnh kỹ thuật này sang định dạng khác, nhưng mục đích của hệ thống cũng phải có khả năng chuyển đổi được những tài liệu ảnh vẽ bằng tay Điều này cũng giống như việc nhận dạng chữ viết tay và văn bản trong OCR Khi máy tính có khả năng phân tích được những hình vẽ tay phức tạp một cách nhanh chóng và chính xác thì vấn đề nhận dạng đối tượng ảnh
sẽ được giải quyết, tuy nhiên để đến khi đạt được điều đó thì vẫn cần nghiên cứu đối với lĩnh vực này
Trong vấn đề nhận dạng đối tượng ảnh có những bước xứ lý chung cũng giống như đối với nhận dạng văn bản Các phương pháp tiền xử lý, phân đoạn, và trích chọn đặc trưng được mô tả trước đây sẽ được thực hiện trước tiên Thuật toán phân đoạn khởi tạo thường để áp dụng cho tài liệu có lẫn đối tượng văn bản và ảnh nhằm tách riêng thành hai phần văn bản và ảnh Một thuật toán được áp dụng để tách riêng các
Trang 31thành phần văn bản nằm trong vùng ảnh được Fletcher đề xuất [14] Đó là phương pháp dựa trên biến đổi Hough, sử dụng một đặc điểm đó là các thành phần văn bản thường nằm trên đường thẳng Sau khi văn bản được tách ra, các đặc trưng khác cũng được trích ra từ ảnh bao gồm các đường kẻ thẳng, các đường cong, các vùng tô Sau khi trích chọn đặc trưng, kỹ thuật nhận dạng theo mẫu được áp dụng, cả phương pháp nhận dạng mẫu theo cấu trúc xác định độ đo tương tự của các đặc trưng được trích ra
so với các đặc trưng mẫu sử dụng hình vẽ và phương tiện thống kê, lẫn phương pháp nhận dạng mẫu theo cú pháp dựa vào ngữ cảnh và quy tắc ngữ pháp (từ vựng) Sau khi thực hiện quy trình xử lý trung gian này, các đặc trưng được tập hợp lại vào một thực thể với một vài ý nghĩa phụ thuộc vào miền nhận dạng riêng của ứng dụng Kỹ thuật
sử dụng ở đây bao gồm đối sánh mẫu, giả thuyết, đánh giá và dựa trên tri thức Đối tượng ảnh được lấy ra đôi khi là khác nhau tuỳ thuộc vào miền ứng dụng của bài toán Chẳng hạn một đường kẻ thẳng có thể là một đối tượng đường trên bản đồ và cũng có thể là đường dây nối trong sơ đồ mạch điện
Phần lớn các sản phầm hệ thống OCR thương mại có khả năng nhận dạng các đường biên dài và đường kẻ trong bảng khác so với cách nhận dạng ký tự, do đó việc
cố gắng nhận dạng các đối tượng đó như là ký tự không xảy ra Hệ phân tích ảnh cho các bản vẽ kỹ thuật phải phân biệt được đâu là văn bản và đâu là ảnh Thông thường các hệ thống đều có khả năng nhận dạng tốt các đối tượng ảnh ngoại trừ một số trường hợp đặc biệt chẳng hạn khi ký tự nối liền với các hình vẽ gây ra nhầm lẫn đây là một đối tượng ảnh; hay có những biểu tượng qua nhỏ và được coi như là một ký tự Tách đoạn và phân tích ảnh màu với nhiều lớp của bản đồ, nhận dạng đối tượng ảnh ba chiều trong ảnh kỹ thuật, và những bản vẽ kiến trúc 3 – D là những thí dụ cho thấy còn nhiều thách thức đối với những người làm nghiên cứu trong lĩnh vực nhận dạng Rõ ràng rằng rất nhiều miền ứng dụng phụ thuộc tri thức cũng được áp dụng vào trong tất
cả những hệ thống nhận dạng, phân tích ảnh
1.8 Kết luận chương
Chương này đã mô tả ngắn gọn các thành phần chung của một hệ phân tích tài liệu ảnh Trong đó đã trình bày các bước chính từ khi thu nhận ảnh đến khi trích ra được những thông tin người dùng mong muốn Các chương tiếp theo sẽ lần lượt mô tả chi
Trang 32tiết những thuật toán nhận dạng đối tượng ảnh dựa vào thành phần liên thông trong tài liệu có lẫn ảnh và văn bản và phương pháp nhận dạng bảng bằng thuật toán T-Recs
Trang 33CHƯƠNG 2 THUẬT TOÁN TÁCH VĂN BẢN - ẢNH
TỪ TRANG TÀI LIỆU ẢNH
2.1 Giới thiệu
Một tệp tài liệu ảnh thường chứa đựng các thông tin hỗn hợp như các đoạn văn bản và ảnh, chẳng hạn như các trang báo được quét, bản đồ hay các tài liệu được quét
từ máy quét Do đó để lấy ra được phần chứa đựng thông tin và phần chứa ảnh riêng rẽ
và chính xác cần có các kỹ thuật xử lý phức tạp Các thuật toán tách văn bản - ảnh giúp chúng ta lấy ra được các thông tin như vậy Một thuật toán tách văn bản - ảnh sẽ phân tách tài liệu thành hai lớp: lớp chứa văn bản và lớp chứa các đối tượng ảnh Chương này sẽ trình khái quát về các phương pháp tách văn bản - ảnh và trình bày một thuật toán phân tách văn bản - ảnh hiệu quả Tư tưởng cơ bản của thuật toán là trước tiên đi xác định các vùng không phải là văn bản và lưu giữ thông tin của vùng này vào lớp các đối tượng ảnh Các vùng còn lại sẽ thuộc lớp văn bản Cách làm như vậy sẽ hiệu quả hơn là trước tiên đi xác định trực tiếp các vùng văn bản Thuật toán này có khả năng tách được cả các loại ký tự đặc biệt chẳng hạn như ký tự Trung Quốc [28]
Những năm gần đây đã có rất nhiều nghiên cứu về vấn đề nhận dạng ký tự quang học (OCR) trên những tài liệu ảnh mà chúng có thể chứa đựng các thông tin hỗn hợp văn bản và ảnh Trong một hệ thống nhận dạng tài liệu, một tài liệu thường chứa nhiều loại biểu tượng (các kiểu ký tự, ảnh) thông tin khác nhau Chính vì có sự khác nhau lớn giữa các đặc trưng của từng loại biểu tượng mà chúng sẽ được xử lý theo từng kỹ thuật khác nhau Hơn thế nữa, những yêu cầu cao đối với các kỹ thuật xử lý ảnh như các phép véc tơ hóa đối tượng ảnh, nhận dạng các loại ký tự Tiếng Anh, ký tự số, ký
tự Trung Quốc đòi hỏi phải được nghiên cứu dựa theo những cách thức khác nhau Chính vì những lý do đó tách các thành phần văn bản và ảnh từ những tệp tài liệu ảnh
là một yêu cầu cần thiết đối với máy tính
Có rất nhiều phương pháp tách văn bản và ảnh từ trang tài liệu ảnh được công bố trước đây Phương pháp được đưa ra trong [34] dựa trên khái niệm, đối tượng văn bản bao giờ cũng có kích thước nhỏ hơn đối tượng ảnh, quá trình tách văn bản và ảnh được thực hiện sau khi đã làm mảnh các đối tượng Phương pháp trên khá đơn giản nhưng
Trang 34nó sẽ không hiệu quả khi một ký tự tiếp xúc với một ký tự khác hay một đối tượng ảnh khác Yamada [29] giới thiệu một phương pháp tách các đối tượng từ bản đồ địa hình, trong đó phương pháp có thể tách ra các đối tượng là đường đi và các toà nhà, phần còn lại của bản đồ là các đối tượng văn bản Một trong những phương pháp được biết đến nhiều nhất là của Wong, Casey và Wahl [36], được điều chỉnh và cải tiến trong [37] Tuy nhiên, một số chứng minh cho thấy phương pháp trên chỉ hoạt động hiệu quả trên các tệp tài liệu chứa nhiều văn bản, ngược lại trên các tài liệu ảnh chứa nhiều các đối tượng ảnh thì phương pháp không hiệu quả Một vài phương pháp dựa trên các khoảng trắng [38] và một vài phương pháp tiếp cận từ trên – xuống (top – down) sử dụng phân tích toạ độ X – Y [39][40] Phương pháp được biết đến là hoạt động hiệu quả nhất trong kỹ thuật tách văn bản - ảnh được đưa ra trong [14] Phương pháp này dựa trên việc phân tích các thành phần liên thông và dựa vào phép biến đổi Hough để nhóm các thành phần trong cùng một chuỗi ký tự và tách chúng ra khỏi các đối tượng ảnh Phương pháp hoạt động hiệu quả trên cả những thay đổi kiểu phông chữ, kích cỡ phông chữ và hướng văn bản
Tóm lại các phương pháp được giới thiệu ở trên hoạt động dựa trên một số điều kiện sau:
1) Tài liệu ảnh phải không có các thành phần nhiễu và chúng phải được xử lý để chuẩn hoá một số điều kiện trước khi thực hiện thuật toán
2) Các chuỗi ký tự trong tài liệu ảnh phải không tiếp xúc với đối tượng ảnh Hướng của các chuỗi ký tự thường được nhận dạng theo chiều ngang hay chiều dọc Trong trường hợp chuỗi ký tự có hướng khác việc nhận dạng sẽ khó hơn
3) Văn bản phải không chứa các kiểu ký tự Trung Quốc [28]
Tuy nhiên những điều kiện, yêu cầu đối với tài liệu được nhận dạng ở trên đã làm hạn chế việc nhận dạng một số lượng lớn tài liệu của một số ứng dụng Chẳng hạn trong ứng dụng CAD/CAM, nó sẽ chuyển một số lượng lớn tài liệu ảnh trên giấy sang định dạng của CAD/CAM Tuy nhiên những loại tài liệu ảnh vẽ này lại có một số lượng lớn thành phần nhiễu, có các ký tự tiếp xúc với ký tự và ký tự tiếp xúc với các đối tượng ảnh Mặc dù có một số thao tác xử lý những vấn đề này nhưng chúng vẫn gặp phải một số hạn chế đó là vấn đề thời gian
Trang 35Trong các phương pháp phân tách văn bản và ảnh trong tài liệu ảnh, có thể phân chúng thành một trong ba loại phương pháp cơ bản sau:
1 Một số tác giả trực tiếp sử dụng các phép biến đổi hình thái để lọc ra các đối tượng tuyến tính, chẳng hạn các hình vẽ và sau đó tách những đối tượng này ra khỏi tài liệu, những thành phần còn lại sẽ được coi là văn bản Phương pháp này đặc biệt có hiệu quả đối với các tài liệu là các bản đồ đơn giản [41][42], tuy nhiên nó sẽ gặp phải khó khăn khi mà trong tài liệu có các hình vẽ phức tạp hơn
2 Tương tự như vậy, một số tác giả khác lại đi tìm các đường kẻ để phân loại các đối tượng, dựa vào phép biến đổi véc tơ hoá [44] của tài liệu ảnh
3 Phương pháp thứ 3 được nhiều tác giả sử dụng nhất, dựa trên việc phân tích các thành phần liên thông, và các thành phần liên thông này sẽ được lọc ra xem chúng thuộc lớp đối tượng nào (văn bản/ảnh) dựa vào một số quy tắc xác định Một trong những thuật toán nổi tiếng nhất dựa trên phương pháp này được đưa ra bởi Fletcher và Kasturi [14] Thuật toán này đã chứng minh rằng
nó có khả năng phân tách tốt hai lớp đối tượng, ngay cả khi tài liệu chứa các đối tượng phức tạp Tuy nhiên thuật toán này vẫn chưa có khả năng phân loại trực tiếp đối tượng văn bản tiếp xúc với đối tượng ảnh
Trong chương này, một thuật toán phân tách văn bản - ảnh trên những tài liệu ảnh
vẽ kỹ thuật dựa trên quy tắc sẽ được trình bày Thuật toán phân tách này dựa trên tư tưởng phân tách thứ 3, tức là đi phân tích các thành phần liên thông và dựa vào phân tích các đặc trưng khác nhau của các đối tượng văn bản và ảnh Chiến lược của thuật toán này đó là cố gắng đi tìm càng nhiều càng tốt các vùng đối tượng ảnh và lưu trữ thông tin của chúng, cách làm này hiệu quả hơn là đi tìm trực tiếp các vùng đối tượng văn bản trước Thuật toán này có khả năng phân tách được các đối tượng văn bản bao gồm các ký tự Trung Quốc, ký tự La tinh, ký hiệu đặc biệt từ loại tài liệu ảnh có chứa hỗn hợp văn bản và ảnh một cách khá hiệu quả Thuật toán cũng có một số hạn chế trong việc nhận dạng một số loại tài liệu ảnh và một số mức độ nhiễu và tuy nhiên nó
có khả năng phân tách đối tượng văn bản tiếp xúc với đối tượng ảnh và không phụ thuộc vào kích cỡ kiểu ký tự Hướng của chuỗi ký tự cũng sẽ được đánh giá Quá trình làm mảnh ảnh có thể dẫn đến mất thông tin, thuật toán sẽ xử lý ở mức điểm ảnh trước khi quá trình làm mảnh và véc tơ hoá được thực hiện, chính vì vậy mà hai lớp đối tượng ảnh sẽ được lưu lại: một lớp chứa các đối tượng văn bản và lớp kia chứa các đối
Trang 36tượng ảnh Các loại đối tượng này sẽ được nhận dạng sau đó bằng những hệ thống nhận dạng thích hợp
Những phần được trình bày dưới đây sẽ trình bày chi tiết các bước thực hiện của thuật toán Phần 2 sẽ trình bày những đặc trưng chung của một tài liệu ảnh Phần 3 sẽ
mô tả các bước để xác định các đối tượng ảnh và tách chúng ra khỏi đối tượng văn bản Cuối cùng phần 4 đưa ra kết luận của chương này
2.2 Những đặc trƣng chung của một tệp tài liệu ảnh
Thế nào được gọi là đối tượng văn bản và đối tượng ảnh? Dường như không có sự phân biệt rõ ràng hai loại đối tượng này trên ảnh nhị phân, bởi vì cả hai đối tượng đều được biểu diễn bởi các con số 0 và 1 trong ảnh nhị phân Do đó việc phân biệt được sự khác nhau giữa hai loại đối tượng này sẽ dựa vào phán đoán chủ quan và thống kê Đối với trường hợp văn bản được kết hợp bởi các ký tự Trung Quốc sẽ có một số trường hợp đặc biệt Thí dụ trong Hình 12 chỉ ra một số nhầm lẫn khi nhận dạng, trong đó vùng 1 giống như vùng a, 2 giống như b và 3 giống như c Mặc dù máy tính sẽ rất khó
để phân biệt sự khác nhau giống như trong Hình 12, nhưng chúng ta sẽ dễ dàng phân biệt chúng nếu dựa vào những điều kiện sau:
- Văn bản – các biểu tượng hay chuỗi ký tự bao gồm các ký tự, các từ, ký tự
số, ký tự Trung Quốc (hoặc ngôn ngữ khác) hoặc các ký tự đặc biệt
- Ảnh – các thành phần không chứa các ký tự, bao gồm tất cả các loại đường
thẳng, đường cong, hay các bức ảnh, sơ đồ, v.v
Dựa trên những định nghĩa cơ bản của hai loại đối tượng văn bản và ảnh ở trên, chúng ta có thể nhận biết được những đặc trưng khác nhau giữa hình bao của vùng văn bản và ảnh được liệt kê dưới đây:
1) Kích cỡ của ký tự văn bản bao giờ cũng nhỏ hơn nhiều kích cỡ của các đối
tượng ảnh Tỉ lệ kích cỡ hình bao của văn bản thường nhỏ Chẳng hạn với kiểu chữ Tahoma – 20 có tỉ lệ trung bình của chiều rộng/chiều cao là vào khoảng 2:3
2) Các ký tự văn bản thường nằm trong một chuỗi ký tự Khoảng cách giữa
các ký tự trong một từ hay khoảng cách giữa các từ thường là nhỏ và thường theo những quy tắc nhất định Hướng của chuỗi ký tự thường là theo chiều ngang, chiều dọc hoặc là nghiêng một góc 45 độ
Trang 37Hình 12 Một số thí dụ nhầm lẫn giữa ký tự và ảnh
Hình 13 Thí dụ về văn bản và ảnh Bảng 1 Độ đậm của nét bút (LSD) của Hình 13
Trang 383) Độ đậm của nét chữ trong vùng chuỗi văn bản bao giờ cũng lớn hơn so với
độ đậm của vùng ảnh
4) Độ dài của các thành phần tuyến tính trong nét bút của chuỗi ký tự thường
ngắn hơn so với các đối tượng ảnh, chẳng hạn như một đường kẻ dài hiếm khi xuất hiện trong nét bút của chuỗi ký tự
Mặc dù trên thực tế mỗi đặc trưng được đưa ra ở trên cũng có một số ngoại lệ xảy
ra Tuy nhiên ở trên là bốn đặc trưng chung nhất của các đối tượng văn bản và ảnh
Hình 14 Biểu diễn các điểm ảnh giao nhau
Hình 15 Một số trường hợp ngoại lệ
Thí dụ được đưa ra trên Hình 13 bao gồm hai loại kiểu ký tự: ký tự Trung Quốc và
ký tự Tiếng Anh Bảng 1 chỉ ra thông tin về Độ Đậm Đặc (LSD) của các đối tượng
văn bản và ảnh Trong đó B là số lượng điểm ảnh màu đen (black pixel – 1) và W là số lượng điểm ảnh màu trắng (white pixel – 0) tính trong hình bao Khi đó LSD được tính bằng công thức LSD = B/(B+W)(%) Trong đó hình bao của một đối tượng là một hình chữ nhật giới hạn nhỏ nhất bao quanh đối tượng, hình chữ nhật bao quanh ký tự Trung Quốc, hình chữ nhật bao quanh một từ Tiếng Anh, hình chữ nhật bao quanh toàn bộ hình 2c Nếu chúng ta kẻ một đường thẳng cắt ngang từng chuỗi ký tự và ảnh trong hình 2c, khi đó điểm giao của những đường thẳng này và các nét bút sẽ là các điểm ảnh màu đen hoặc màu trắng Cho rằng các điểm ảnh màu đen được biểu diễn ở mức cao, các điểm ảnh màu trắng được biểu diễn ở mức thấp, khi đó Hình 14 biểu
Hình 2c
Trang 39diễn tần số xuất hiện của các điểm ảnh giao nhau màu đen và màu trắng khi đường thẳng cắt ngang qua các đối tượng Nhìn trên Hình 14 sự thay đổi tần số của các nét bút trong văn bản thường cao hơn so với đối tượng ảnh Hình 15 chỉ ra một số trường hợp ngoại lệ Hình 15a đưa ra một bức ảnh nhỏ và nhìn giống như một ký tự Hình 15b
là một ký tự Trung Quốc rất khó phân biệt so với các đối tượng ảnh, đặc biệt khi ký tự này tiếp xúc với các đối tượng ảnh Hình 15c là một đối tượng ảnh có LSD cao Những ngoại lệ trên là những nguyên nhân chính dẫn đến sự nhận dạng và phân tách sai các đối tượng trong các kết quả thí nghiệm được đưa ra dưới đây
2.3 Thuật toán phân tách văn bản - ảnh
Phần này sẽ trình bày thuật toán phân tách văn bản - ảnh dựa trên một số quy tắc [28] để xác định các đối tượng ảnh, lưu giữ thông tin của chúng và từ đó xác định được các đối tượng văn bản Hình 16 chỉ ra sơ đồ thực hiện lần lượt các bước của thuật toán Các bước thực hiện chính của thuật toán được tóm tắt lại như sau:
2.3.1 Xoá bỏ các đối tượng tuyến tính (đường thẳng)
Theo như đặc trưng 4 trong phần 2.2 các thành phần tuyến tính của ảnh thường được xác định trước Khái niệm thành phần tuyến tính (LC) để ám chỉ đến các đối tượng có nét bút là các điểm ảnh đen (black pixel) nằm liên tiếp khi đi theo một hướng nhất định Trong phần này, thuật toán sẽ duyệt từ trên xuống dưới quét theo từng hàng
để tìm các thành phần LC, một LC sẽ được xác định là một đối tượng ảnh khi mà độ dài của nó lớn hơn một tham số T1 được đặt trước Cũng làm tương tự như vậy nhưng
sẽ quét theo chiều thẳng đứng từ trái sang phải để tìm những thành phần LC Các thành phần LC có góc nghiêng là ±22.5, ±45, ±67.5 cũng sẽ được xác định Tất cả các đối tượng LC được xác định không phải là văn bản (non text regions) sẽ được đưa vào lớp các đối tượng ảnh
Trong trường hợp hình chữ nhật bao của đối tượng văn bản có chiều rộng hẹp xấp
xỉ một điểm ảnh thì đối tượng đó được cho là một đường kẻ thẳng đứng hay ngang có
độ rộng là 1 điểm ảnh và chúng được coi như là một đối tượng ảnh Do đó phần lớn các điểm nhiễu (dấu chấm câu) hay các LC ngắn (dấu gạch ngang, gạch nối) sẽ bị coi
là những đối tượng ảnh