20 CHƯƠNG 2: MỘT SỐ KỸ THUẬT PHÂN TÍCH CẤU TRÚC, ỨNG DỤNG TRONG PHÁT HIỆN VÀ BÓC TÁCH CÁC TRƯỜNG THÔNG TIN TRÊN ẢNH TÀI LIỆU .... Một trong những ứng dụng phổ biến của nhận dạng mẫu hiện
Trang 1ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
Trang 2ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Nguyễn Thị Thanh Tân
THÁI NGUYÊN - 2014
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi và hoàn thành dưới sự hướng dẫn khoa học của TS Nguyễn Thị Thanh Tân
Nếu có gì vi phạm tôi xin hoàn toàn chịu trách nhiệm
Học viên thực hiện luận văn
Đoàn Duy Thường
Trang 4LỜI CẢM ƠN
Tôi xin gửi lời cảm ơn chân thành nhất tới TS Nguyễn Thị Thanh Tân vì
đã có những chỉ dẫn, động viên quý báu trong suốt quá trình thực hiện luận văn của tôi Đồng thời tôi xin chân thành cảm ơn các thầy cô giáo trong Ban giám hiệu, phòng Đào tạo, các thầy cô giáo của trường Đại học Công nghệ Thông tin và Truyền thông - Đại học Thái Nguyên cùng các thầy cô giáo trong Viện Công nghệ Thông Tin - Viện Hàn lâm Khoa học Việt Nam đã quan tâm, tạo điều kiện thuận lợi, nhiệt tình giảng dạy và hướng dẫn tôi trong suốt quá trình học tập và hoàn thiện luận văn
Cuối cùng tôi xin cảm ơn mọi sự giúp đỡ từ người thân, đồng nghiệp những người đã luôn ủng hộ, hỗ trợ tôi trong suốt quá trình thực hiện luận văn của mình
Mặc dù đã có nhiều cố gắng, tuy nhiên luận văn của tôi không thể tránh khỏi những thiếu sót, do đó tôi rất mong nhận được những ý kiến đánh giá, bổ sung để tôi có thể hoàn thiện luận văn của mình./
Thái Nguyên, ngày tháng năm 2014
Tác giả
Đoàn Duy Thường
Trang 5MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
MỤC LỤC iii
DANH MỤC CÁC THUẬT NGỮ VIẾT TẮT vi
DANH MỤC BẢNG BIỂU ix
DANH MỤC THUẬT TOÁN x
PHẦN MỞ ĐẦU 1
1 Đặt vấn đề 1
2 Mục tiêu của luận văn 2
3 Tính cấp thiết của luận văn 2
4 Bố cục của luận văn 3
CHƯƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG VĂN BẢN VÀ BÀI TOÁN PHÂN TÍCH CẤU TRÚC 4
1.1 Tổng quan về nhận dạng văn bản 5
1.2 Bài toán phân tích cấu trúc trang 7
1.2.1 Giới thiệu chung 7
1.2.2 Một số kỹ thuật tiền xử lý trong phân tích cấu trúc trang ảnh 10
1.2.2.1 Nhị phân ảnh 10
1.2.2.2 Căn chỉnh độ nghiêng trang ảnh 13
1.2.2.3 Lọc nhiễu 14
1.2.2.4 Tách nền 16
1.2.2.5 Các toán tử hình thái 16
Trang 61.2.3 Một số hướng tiếp cận trong phân tích cấu trúc trang văn bản 19
1.3 Kết luận 20
CHƯƠNG 2: MỘT SỐ KỸ THUẬT PHÂN TÍCH CẤU TRÚC, ỨNG DỤNG TRONG PHÁT HIỆN VÀ BÓC TÁCH CÁC TRƯỜNG THÔNG TIN TRÊN ẢNH TÀI LIỆU 21
2.1 Kỹ thuật X-Y Cut 21
2.2 Kỹ thuật Smearing 23
2.3 Kỹ thuật Whitespace 26
2.4 Kỹ thuật Docstrum 27
2.5 Kỹ thuật dựa trên lược đồ Voronoi 29
2.6 Kỹ thuật phát hiện các ràng buộc trên dòng văn bản 32
2.7 Kỹ thuật phân tích cấu trúc ảnh tài liệu 33
2.7.1 Đặc trưng của ảnh tài liệu cần nhận dạng 33
2.7.2 Phát hiện trường số trong ảnh 35
2.7.2.1 Xác định vùng có thể là trường số của ảnh 36
2.7.2.2 Tìm và tách trường số 37
2.7.2.3 Phân đoạn vùng số 38
2.7.3 Phân tích cấu trúc bảng 40
2.7.4 Tách các trường thông tin còn lại 42
2.7.4.1 Tách các đối tượng thuộc mỗi dòng 44
2.7.4.2 Xóa tiêu đề 45
2.7.4.3 Lấy lại các ký tự bị mất 47
2.8 Kết luận 48
Trang 7CHƯƠNG 3: CHƯƠNG TRÌNH ỨNG DỤNG 50
3.1 Mô tả bài toán 50
3.2 Phân tích, cài đặt chương trình thử nghiệm 51
3.2.1 Tiền xử lý ảnh mặt trước CMND 54
3.2.2 Tiền xử lý ảnh mặt sau CMND 62
3.2.3 Các độ đo đánh giá hiệu quả của phương pháp 63
3.2.4 Dữ liệu thử nghiệm 64
3.3 Kết quả thực nghiệm 65
3.4 Kết luận 66
PHẦN KẾT LUẬN 68
DANH MỤC TÀI LIỆU THAM KHẢO 69
Trang 8DANH MỤC CÁC THUẬT NGỮ VIẾT TẮT
Trang 9DANH MỤC HÌNH VẼ
Hình 1 1 Thu nhận ảnh tài liệu 5
Hình 1 2 Quy trình chung của một hệ thống OCR 6
Hình 1 3 Một số tài liệu có cấu trúc phức tạp 7
Hình 1.4 Quy trình phân tích cấu trúc trang ảnh 8
Hình 1 5 b- Cấu trúc vật lý; c,d - Cấu trúc logic của một tài liệu 10
Hình 1.6 Phần tử cấu trúc 3 3 17
Hình 1.7 Phép giãn ảnh với phần tử cấu trúc 3x3 18
Hình 1.8 Phép co ảnh với phần tử cấu trúc 3x3 18
Hình 2 1 a) Ảnh gốc b) Kết quả thực hiện của thuật toán X-Y Cut 23
Hình 2 2 Kết quả thực hiện của kỹ thuật Smearing 25
Hình 2 3 Tài liệu ảnh trước khi xử lý Tài liệu ảnh sau khi được xử lý 27
Hình 2 4 Xác định các thành phần liên thông, trọng tâm của các dòng 28
Hình 2 5 Sơ đồ Voronoi 30
Hình 2 6 Kết quả thực hiện của kỹ thuật sử dụng lược đồ Voronoi 30
Hình 2 7 Mẫu “Giấy Chứng minh nhân dân” 34
Hình 2 8 Xác định vùng Số CMND 37
Hình 2 9 Phân đoạn vùng số Chứng minh Nhân dân 39
Hình 2 10 Xác định cấu trúc bảng 42
Hình 2 11 Mặt nạ dòng mặt trước 44
Hình 3 1 Quy trình nhận dạng thông tin trên CMND 50
Hình 3 2 Quy trình thực hiện của chương trình thử nghiệm 51
Trang 10Hình 3 3 Tiền xử lý ảnh mặt trước CMND 55
Hình 3 4 Nhị phân ảnh CMND 60
Hình 3 5 Phương pháp tia quay 61
Hình 3 6 Ảnh CMND 65
Hình 3 7 Một số trường hợp khó phát hiện 66
Trang 11DANH MỤC BẢNG BIỂU
Bảng 1 1 Bảng mã 4 màu 11 Bảng 2 1 Thông tin mặt trước CMND 34 Bảng 3.1 Kết quả thực nghiệm 66
Trang 12DANH MỤC THUẬT TOÁN
Thuật toán 1 1 Thuật toán chỉnh độ nghiêng 13
Thuật toán 1 2 Thuật toán xoay ảnh 13
Thuật toán 2 1 Thuật toán X-Y Cut cải tiến 22
Thuật toán 2 2: Thuật toán RLSA 24
Thuật toán 2 3 Thuật toán Whitespace 26
Thuật toán 2 4: Thuật toán Dostrum 27
Thuật toán 2 5 Thuật toán phân tích cấu trúc dựa trên lược đồ Voronoi 31
Thuật toán 2 6 Xác định các vùng có thể là Trường Số CMND 36
Thuật toán 2 7 Tìm và tách trường Số CMND 38
Thuật toán 2 8 Phân đoạn vùng Số CMND 39
Thuật toán 2 9 Ước lượng bề dày đường lượn sóng 40
Thuật toán 2 10 Xác định các đường kẻ ngang trong bảng 41
Thuật toán 2 11 Tách các ký tự thuộc mỗi dòng 45
Thuật toán 2 12 Xoá phần tiêu đề 47
Thuật toán 3 1 Thuật toán nhị phân ảnh Otsu 56
Thuật toán 3 2 Thuật toán nhị phân ảnh Niblack 58
Thuật toán 3 3 Thuật toán Sử dụng tia quay để xác định góc nghiêng 61
Trang 13Một trong những ứng dụng phổ biến của nhận dạng mẫu hiện nay là phân tích và nhận dạng ảnh tài liệu (có nguồn gốc từ hệ thống nhận dạng ký
tự quang học), nhằm số hoá các trang tài liệu giấy như sách, báo, tạp chí… Cho đến nay, bài toán phân tích và nhận dạng ảnh tài liệu đã được giải quyết gần như trọn vẹn và cũng đã có những sản phẩm thương mại, như VnDOCR của Viện công nghệ thông tin hay FineReader của hãng ABBYY…
Bên cạnh lớp bài toán phân tích và nhận dạng ảnh tài liệu một cách tổng quát ở trên còn có lớp bài toán riêng biệt cho từng ngành, từng lĩnh vực
cụ thể, như: phân tích và nhận dạng bảng biểu, phiếu điều tra, mẫu điền thông tin, danh thiếp, hộ chiếu,… Đối với lớp bài toán này thì việc phân tích cấu trúc của ảnh tài liệu là đặc biệt quan trọng, bởi vì nó sẽ quyết định đến việc tách và nhận dạng chính xác các trường thông tin cần thiết cho từng ứng dụng cụ thể
Trên thế giới đã có nhiều sản phẩm phần mềm phân tích và nhận dạng ảnh thẻ chứa thông tin cá nhân (như hộ chiếu, danh thiếp…) và được ứng dụng trong nhiều lĩnh vực, như: làm thủ tục hải quan, các giao dịch ở các cửa
Trang 14hàng, khách sạn… Ở Việt Nam loại thẻ chứa thông tin cá nhân được sử dụng nhiều nhất là Giấy chứng minh nhân dân (CMND) Do thông tin trên các CMND được in thủ công từ các phôi có sẵn nên đôi khi định dạng không chuẩn, các dòng chữ và các ký tự trên đó có thể xiên, vẹo, thậm chí dính/chồng vào nhau Bên cạnh đó, các CMND có thể bị mờ, ố theo thời gian Đây là những yếu tố gây khó khăn và làm giảm chất lượng của một hệ thống nhận dạng đồng thời cũng là một trong số những nguyên do chính mà cho đến hiện nay các sản phẩm nhận dạng CMND chưa đáp ứng được nhu cầu tự động hóa công việc nhập liệu thông tin trên CMND trong các hoạt động giao dịch hàng ngày Quy trình giải quyết bài toán nhận dạng thông tin trên CMNDbao gồm 2 công đoạn chính Công đoạn thứ nhất tập trung vào việc phân tích cấu trúc, xác định và bóc tách các trường thông tin cần nhận dạng trên CMND Công đoạn thứ hai là nhận dạng các vùng thông tin đã được bóc tách Luận văn tập trung nghiên cứu, giải quyết các vấn đề liên quan đến công đoạn thứ nhất trong bài toán nhận dạng thông tin trên CMND
2 Mục tiêu của luận văn
Tìm hiểu một số kỹ thuật phân tích trang tài liệu (phân vùng, phân đoạn,…) nói chung vàảnh CMND nói riêng nhằm phát hiện và bóc tách các trường thông tin cần nhận dạng trên CMND Cài đặt thử nghiệm, kiểm chứng lại kết quả mà luận văn đã nghiên cứu và từ kết quả nghiên cứu có một sự chuẩn bị kiến thức đầy đủ cho bước nghiên cứu tiếp theo
3 Tính cấp thiết của luận văn
Giải quyết được vấn đề về học thuật: Đề tài sẽ mang ý nghĩa cung cấp về mặt lý thuyết để làm rõ về các phương pháp phân tích ảnh CMND
Trang 15Đáp ứng được yêu cầu của thực tiễn: từ các lý thuyết đã được nghiên cứu, từ đó liên hệ và gắn vào thực tiễn để có thể áp dụng vào việc phân tích ảnh CMND trong thực tế
4 Bố cục của luận văn
Các nội dung trình bày trong luận văn được chia thành 3 chương
Chương 1 giới thiệu các vấn đề tổng quan nhận dạng văn bản và bài toán
phân tích cấu trúc trang ảnh tài liệu Chương 2 tập trung vào các kỹ thuật
phân tích cấu trúc, ứng dụng trong phát hiện và bóc tách các trường thông tin
cần nhận dạng trên ảnh tài liệu (ảnh CMND).Chương 3 trình bày quá trình
phân tích, thiết kế và cài đặt chương trình thử nghiệm nhằm đánh giá hiệu quả của phương pháp trên các tập dữ liệu ảnh CMND đầu vào được thu thập từ thực tế
Trang 16CHƯƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG VĂN BẢN VÀ
BÀI TOÁN PHÂN TÍCH CẤU TRÚC
Ngày nay, việc sử dụng máy tính để lưu trữ tài liệu không còn là vấn đề mới mẻ và cần phải chứng minh tính an toàn, thuận tiện của nó Tuy nhiên việc sử dụng giấy để lưu trữ tài liệu trong một số mục đích vẫn chưa thể thay thế được như sách báo, công văn Hơn nữa, lượng tài liệu được tạo ra từ nhiều năm trước vẫn còn rất nhiều mà không thể bỏ đi được vì tính quan trọng của chúng
Chúng ta mong muốn có thể điện tử hóa hàng tỉ trang tài liệu đó và cất chúng chỉ trong một thiết bị lưu trữ với kích thước bằng một cuốn sách nhỏ, tìm kiếm các thông tin mà chỉ cần tốn vài giây với một lần gõ phím Enter Vậy giải pháp là gì?
Thông thường người ta sẽ phải thuê người cùng với việc tốn hàng tháng, hàng năm mới có thể nhập vào máy tính được hết lượng tài liệu đó Hiện nay chúng ta đã có các máy Scan với tốc độ cao, công nghệ xử lý của máy tính ngày càng siêu việt với tốc độ tính toán vượt cả tốc độ ánh sáng, vậy tại sao chúng ta không quét toàn bộ các trang tài liệu vào và chuyển chúng thành văn bản một cách tự động?
Bằng cách đó, tốc độ và tính chính xác sẽ tăng hàng trăm lần trong khi chi phí lại rất nhỏ Vấn đề là khi quét vào máy tính chúng ta không thu được ngay các dòng văn bản từ các trang tài liệu đó để có thể soạn thảo, sửa chữa
và tìm kiếm như làm trên Office Tất cả những gì thu được chỉ là các tấm ảnh của các trang văn bản, máy tính lại đối xử công bằng với mọi điểm ảnh, máy tính không có “mắt” như chúng ta để biết đâu là điểm ảnh của chữ, đâu là điểm ảnh của đối tượng đồ họa
Trang 17Một giải pháp được đặt ra đó là xây dựng các hệ thống nhận dạng văn bản trong tấm ảnh chứa cả chữ và đối tượng đồ họa cần tách và chuyển chúng thành trang văn bản để từ đó có thể mở và soạn thảođược trên các chương trình soạn thảo văn bản
1.1 Tổng quan vềnhận dạng văn bản
Hiện nay, máy tính đang phát triển mạnh mẽ, tốc độ xử lý không ngừng được nâng lên Cùng với nó là sự ra đời của các phần mềm thông minh đã làm cho máy tính ngày một gần gũi với con người hơn Một trong những ứng dụng thành công của lĩnh vực nhận dạng mẫu là nhận dạng chữ
in (nhận dạng ký tự quang học OCR -Optical Character Recognition) Nhận dạng chữ là quá trình chuyển đổi từ dạng hình ảnh của một hay nhiều trang ảnh chứa các thông tin văn bản thành tệp văn bản thực sự có thể soạn thảo được trên máy tính.OCR có rất nhiều ứng dụng hữu ích trong cuộc sống như:Sắp xếp thư tíndựa vào việc nhận dạng mã bưu chính (Zipcode) hay địa chỉ gửi tới, tự động thu thập dữ liệu từ các mẫu đơn/báo biểu hay từ các
hồ sơ lao động, tự động kiểm tra, xác nhận chữ ký trong ngân hàng, tự động xử lý các hóa đơn hay các yêu cầu thanh toán, nhập liệu tự động, kiểm tra thông tin trên passport…
Hình 1 1 Thu nhận ảnh tài liệu
Trang 18Trang ảnh tài liệu được đề cập ở đây là các file ảnh số hoá thu được bằng cách quét các trang tài liệu dùng máy scanner, máy ảnh số, hay nhận từ một máy fax, file ảnh này được lưu trữ trong máy tính (Hình 1 1) Ảnh tài liệu có nhiều loại: ảnh đen trắng, ảnh màu, ảnh đa cấp xám với các phần mở rộng như TIF, BMP, PCX… và ảnh tài liệu được đưa ra trong luận văn này là ảnh đa cấp xám
Quy trình chung của một hệ thống nhận dạng văn bản được thể hiện cụ thể trên Hình 1 2 Ảnh tài liệu cần nhận dạng trước tiên sẽ được tiền xử lý nhằm tăng cường chất lượng, căn chỉnh độ nghiêng, nắnchỉnh hình ảnh Sau
đó sẽ tiến hành phân tích nhằm xác định cấu trúc trang tài liệu đồng thời xác định được các vùng thông tin cần nhận dạng trên ảnh đầu vào Bước tiếp theo
sẽ tiến hành nhận dạng các vùng thông tin văn bản đã được xác định Bước hậu xử lý cuối cùng sẽ thực hiện các thao tác kiểm lỗi chính tả và địnhdạng lại cấu trúc trang văn bản
Hình 1 2 Quy trình chung của một hệ thống OCR
Trang 19Từ quy trình của hệ thống nhận dạng trênHình 1 2 cho thấy bước phân tích cấu trúc trang tài liệu, bóc tách các vùng văn bản để nhận dạng có ảnh hưởng rất lớn tới chất lượng của một hệ thống nhận dạng
1.2 Bài toán phân tích cấu trúc trang
1.2.1 Giới thiệu chung
Ảnh tài liệu chứa rất nhiều loại vùng thông tin khác nhau như các block, lines, words, figures, tables và background Ta có thể gọi các vùng này theo chức năng của nó trong tài liệu hoặc gán cho nó các nhãn logic như sentences, titles, captions, address (xem Hình 1 3)
Hình 1 3 Một số tài liệu có cấu trúc phức tạp
Quá trình phân tích cấu trúc ảnh thực chất là quá trình tách một tài liệu thành các vùng theo một tiêu chuẩn hay mối quan hệ lẫn nhau nào đấy Công việc này được thực hiện qua nhiều bước như tiền xử lý, tách vùng, lặp cấu trúc tài liệu… Một số loại tài liệu như báo, tạp chí, sách quảng cáo, chúng có cấu trúc và bố cục rất phức tạp và khôngcó một Form chung nào cả Với con người để có thể đọc hiểu được một trang tài liệu còn cần thêm nhiều kiến thức
bổ sung như ngôn ngữ, hoàn cảnh, các luật ngầm định, vì thế việc tự động
Trang 20phân tích các trang tài liệu một cách tổng quát là một việc rất khó khăn thậm chí là không khả thi ngay cả với các hệ thống phân tích tài liệu tiên tiến nhất Các bước xử lý chính trong quy trình phân tích cấu trúc trang ảnh được thể hiện cụ thể trênHình 1.4 Trong đó, từ trang ảnh đầu vào trước tiên sẽ được tiền xử lý nhằm loại bỏ nhiễu, căn chỉnh độ nghiêng, tách nềntrang ảnh,v.v.Sau đó sẽ tiến hành phân tích bố cục và cấu trúc trang ảnh nhằm xác định các vùng thông tin khác nhau trên trang ảnh đầu vào (các vùng văn bản, tiêu đề, ảnh, bảng biểu,…) Các vùng văn bản sẽ tiếp tục được phân đoạn thành các thành phần nhỏ hơn, chẳng hạn như dòng, từ hoặc ký tự để phục vụ cho bước nhận dạng sau này Việc đánh giá hiệu quả của các thuật toán phân tích trang được tiến hành dựa trên các file ground truth (chứa thông tin chi tiết của các vùng thông tin cần xác định) cho trước
Hình 1.4 Quy trình phân tích cấu trúc trang ảnh
Cấu trúc tài liệu thu được từ việc liên tiếp chia nhỏ nội dung của tài liệu thành các phần đơn vị nhỏ (tức là không thể phân chia được nữa) và chúng được gọi là các đối tượng cơ sở (basic objects) Còn tất cả các đối tượng khác được gọi là các đối tượng hỗn hợp.Hai loại cấu trúc của tài liệu được quan tâm ở đây đó là cấu trúc vật lý (hay bố cục vật lý) và cấu trúc logic mô tả mối quan hệ logic giữa các vùng đối tượng trong tài liệu
Trang 21 Block:Là đối tượng cơ sở tương ứng với một vùng hình chữ nhật chứa
một phần nội dụng của tài liệu
Frame:Một đối tượng hỗn hợp tương ứng với một hình chữ nhật bao
gồm một hoặc nhiều Block hoặc bao gồm nhiều các Frame
Page:Là đối tượng hình học hoặc hỗn hợp các thành phần cơ sở tương
ứng với một vùng hình chữ nhật, nếu là đối tượng hỗn hợp nó chứa một hoặc nhiều Block, một hoặc nhiều Frame
Page set(tập trang):Là một tập của một hoặc nhiều page
Điểm gốc của cấu trúc (hay nút gốc):Là một đối tượng ở mức cao nhất
trong sơ đồ phân cấp của cấu trúc hình học tài liệu
Cấu trúc logic:
Ngoài bố cục vật lý, các trang tài liệu còn chứa đựng nhiều thông tin về ngữ cảnhvà nội dung như các tiêu đề, đoạn văn, đề mục,…và mỗi vùng nội dung này lại được gán các nhãn logic hay nhãn theo chức năng tương ứng, khác biệt hoàn toàn với các nhãn trong bố cục vật lý Hầu hết các tài liệu đều
có một quy tắc đọc để có thể hiểu hết nội dung của tài liệu Với một số ngôn ngữ đặc biệt như tiếng Trung, tiếng Ả Rập lại có cách đọc khác biệt (như đọc
từ phải qua trái, từ trên xuống) Tập hợp tất cả các yếu tố logic và chức năng trong một tài liệu và mối quan hệ giữa chúng được gọi là cấu trúc logic của tài
Trang 22liệu Thông thường pha phân tích cấu trúc logic của tài liệu được thực hiện trên kết quả của bước phân tích bố cục vật lý Tuy nhiên với một số loại tài liệu phức tạp, thì pha phân tích bố cục vật lý lại cần thêm một số thông tin logic liên quan để các vùng để có thể phân đoạn một các chính xác
1.2.2 Một số kỹ thuật tiền xử lý trong phân tích cấu trúc trang ảnh
Trong một hệ thống nhận dạng nói chung và phân tích cấu trúc trang ảnh nói riêng, các bước tiền xử lý thường được thực hiện trước quá trình phân tích, nhận dạng Các kỹ thuật tiền xử lý thường được sử dụng bao gồm: Nhị phân hóa ảnh, căn chỉnh độ nghiêng, loại nhiễu, tách nền
1.2.2.1 Nhị phân ảnh
Trong thực tế, ảnh văn bản mà chúng ta nhận vào ban đầu để xử lý là ảnh màu Vì vậy, để có thể thực hiện được quá trình phân tích và nhận dạng, chúng ta cần phải chuyển chúng thành ảnh nhị phân trong đó mỗi điểm ảnh (pixel) được biểu diễn bởi một trong 2 giá trị là 0 hoặc 255 Đầu tiên, ảnh màu nhận vào sẽ được chuyển thành ảnh xám với các mức xám có giá trị từ 0 đến 255 dựa trên ba giá trị RED, GREEN, BLUE của ảnh đầu vào Từ ảnh xám này, chúng ta sẽ so sánh mức xám của từng điểm với một ngưỡng cho
Hình 1 5.b- Cấu trúc vật lý; c,d - Cấu trúc logic của một tài liệu
Trang 23trước để quyết định điểm đó sẽ là 0 hoặc 255, giá trị 0 biểu diễn cho màu đen
và 255 biểu diễn cho màu trắng
Nhị phân ảnh (hay còn gọi là phân ngưỡng) là thao tác chuyển từ ảnh màu, ảnh đa cấp xám về ảnh nhị phân bằng cách tìm một ngưỡng: tổng quát hoặc cục bộ Kỹ thuật này đặt ngưỡng để hiển thị các tông màu liên tục Các điểm trong ảnh được so sánh với ngưỡng định trước Giá trị của ngưỡng sẽ quyết định điểm có được hiển thị hay không Do vậy ảnh kết quả sẽ mất đi một số chi tiết Có nhiều kỹ thuật chọn ngưỡng áp dụng cho các đối tượng khác nhau:
Hiển thị 2 màu: Chỉ dùng ảnh đen trắng có 256 mức xám Bản chất của
phương pháp này là chọn ngưỡng dựa trên lược đồ mức xám của ảnh Để đơn giản có thể lấy ngưỡng với giá trị là 127 Như vậy:
Trong đó u(m, n) là mức xám tại tọa độ i(m, n)
Nhìn chung kĩ thuật này khó chấp nhận vì ảnh mất khá nhiều chi tiết
Hiển thị 4 màu: Hiện 4 màu để khắc phục nhược điểm của kỹ thuật hiển
thị 2 màu Một ví dụ của bảng mã 4 màu được cho ở Bảng 1 1
Trang 241 Các phương pháp dựa vào hình dạng của histogram (Histogram Shape Based Thresholding Methods) Căn cứ vào hình dáng của histogram như: các đỉnh, các khe và độ cong (peaks, valleys and curvatures) để xác định ngưỡng
Vị trí lấy ngưỡng có thể là khe lõm nhất giữa hai đỉnh hay điểm cách xa đường thẳng nối hai đỉnh
2 Các phương pháp dựa vào việc chia nhóm (Clustering-Based Thresholding Methods) Các phương pháp loại này cố gắng chia ảnh ra làm hai nhóm tương ứng với nền và đối tượng dựa trên một số tiêu trí đánh giá
“khoảng cách” giữa hai nhóm hay giữa các phần tử trong mỗi nhóm
3 Các phương pháp dựa vào entropy (Entropy-Based Thresholding Methods) Trong kỹ thuật này người ta chọn ngưỡng dựa vào entropy dựa trên một số cơ sở như: cực đại các entropy (nền và đối tượng), cực tiểu các entropy lai (giữa ảnh gốc và ảnh nhị phân) hay độ đo entropy mờ
4 Các phương pháp dựa vào thuộc tính giống nhau (Thresholding Based on Attribute Similarity) Ngưỡng được xác định dựa độ đo các thuộc tính giống nhau của ảnh gốc và ảnh nhị phân, chẳng hạn như căn cứ vào các cạnh thỏa mãn, độ chặt của hình dáng, momen mức xám, khả năng liên kết, kết cấu…
5 Các phương pháp căn cứ vào không gian (Spatial Thresholding Methods) Sử dụng sự tương liên hoặc/và phân phối thống kê bậc cao giữa các pixel để chọn ngưỡng
6 Các phương pháp ngưỡng thích ứng cục bộ (Locally Adaptive Thresholding) Kỹ thuật này sẽ xác định ngưỡng t(x,y) cho từng điểm ảnh (x,y) riêng biệt căn cứ vào mối tương quan giữa điểm ảnh đó và các láng giềng của nó
Trang 251.2.2.2 Căn chỉnh độ nghiêng trang ảnh
Trong quá trình thu thập ảnh tài liệu, ảnh có thể bị nghiêng do đó cần phải căn chỉnh độ nghiêng của ảnh bằng các xác định góc nghiêng và xoay ảnh trở lại như ảnh gốc Các bước chỉnh độ nghiêng của ảnh được
mô tả như sau:
Thuật toán 1 1 Thuật toán chỉnh độ nghiêng
Input: Ảnh (nhị phân) bị nghiêng
Output: Ảnh đã chỉnh độ nghiêng
1 Xác định góc nghiêng
2 Xoay ảnh với góc nghiêng
Trong đó, xác định góc nghiêng là thao tác quan trọng nhất và cũng là thao tác khó khăn nhất Có nhiều phương pháp khác nhau để xác định góc nghiêng: Có thể trực tiếp dựa vào các thống kê, đánh giá góc nghiêng của các đối tượng trong ảnh hay phân tích, đánh giá trên ảnh đã được biến đổi Trong
đó có 3 phương pháp thường được sử dụng:Phương pháp biến đổi Hough, phương pháp láng giềng gần nhất và phương pháp sử dụng tia quay.Các phương pháp này sẽ được trình bày cụ thể ở phần tiếp theo
Sau khi đã xác định được góc nghiêng của ảnh sẽ thực hiện xoay ảnh với góc nghiêng đã xác định được quanh một vị trí gốc (tâm xoay) Tâm xoay thường lấy là điểm chính giữa của ảnh (w/2, h/2) Các bước được thực hiện theo Thuật toán 1 2
Thuật toán 1 2 Thuật toán xoay ảnh
Input:
1 Ảnh (nhị phân) bị nghiêng I
2 Góc nghiêng
Trang 26Output: Ảnh đã chỉnh độ nghiêng I’
Duyệt tất cả các điểm ảnh g(x,y) trong ảnh I
1 Xác định vị trí mới g’(x’,y’) trong ảnh I’
2 Chuyển giá trị điểm ảnh: g’(x’,y’) = g(x,y)
1.2.2.3 Lọc nhiễu
Trong xử lý ảnh, nhiễu được coi là những phần tử ảnh mà giá trị của nó trội so với các phần tử xung quanh [1] Có rất nhiều nguồn tạo ra nhiễu, chẳng hạn như ống kính máy ảnh/ máy quét bị bẩn, sự thay đổi độ nhạy của đầu dò,
do sự biến đổi của môi trường, sai số lượng tử hóa hay sai số truyền Về cơ bản có thể chia thành một số loại nhiễu như sau:
Nhiễu cộng: nhiễu cộng thường phân bố khắp ảnh Nếu ta gọi ảnh
quan sát(ảnh thu được) là X_qs, ảnh gốc là X_gốc và nhiễu là η Ảnh thu được có thể biểu diễn bởi:
X_qs = X_gốc + η
Nhiễu nhân: Nhiễu nhân thường phân bố khắp ảnh Nếu ta gọi ảnh
quan sát (ảnh thu được) là X_qs, ảnh gốc là X_gốc và nhiễu là η Ảnh thu được có thể biểu diễn bởi:
X_qs = X_gốc × η
Nhiễu xung: Là sự kết hợp của nhiễu muối và nhiễu tiêu Có 2 loại:
nhiễu xung đơn cực và nhiễu xung lưỡng cực Nhiễu xung lưỡng cực
có hàm phân bố là:
Trang 27Nếu b>a, mức xám b xuất hiện như là điểm sáng của ảnh, a là điểm tối Nếu a>b, ngược lại Nếu a=b=0 là nhiễu xung đơn cực
Nhiễu muối tiêu (Salt-pepper noise): Một ví dụ điển hình nhất của
loại nhiễu xung này - sẽ cho thấy rõ hơn tính chất “đột biến” của nó Các điểm ảnh bị nhiễu (noise pixel) có thể nhận các giá trị cực đại hoặc cực tiểu trong khoảng giá trị [0, 255] Với ảnh mức xám (gray scale), nếu một điểm ảnh có giá trị cực đại (tức cường độ sáng bằng 255) thì nó sẽ tạo ra một đốm trắng trên ảnh, trông giống như hạt
“muối” Và ngược lại nếu một điểm ảnh có giá trị cực tiểu (tức cường
độ sáng bằng 0) thì sẽ tạo ra một đốm đen, giống như “tiêu” Vậy nên còn gọi là ảnh muối tiêu Thông thường, khi nói một ảnh nhiễu muối tiêu 30% nghĩa là trong đó tỉ lệ các điểm ảnh nhiễu mang gia trị cực tiểu là 15% và cực đại là 15%
Nhiễu Gaussian: Bởi vì khả năng dễ ứng dụng toán của nó trong cả
lĩnh vực không gian và tần số, nhiễu Gaussian được sử dụng phổ biến trong thực tiễn Có hàm phân bố là:
Trong đó, z biểu diễn mức xám, µ là giá trị trung bình của z, σ là độ
Nhiễu Uniform: Được cho bởi:
Việc lọc nhiễu nhằm nâng cao chất lượng ảnh đầu vào, giúp cho các công đoạn sau tiến hành dễ dàng và chính xác hơn Các phương pháp lọc nhiễu điển hình thường được sử dụng như lọc trung bình (mean filter), lọc
Trang 28trung vị (median filter),lọc hình học (geometric filter), lọc điều hòa (harmonic filter), lọc phi điều hòa (contraHamonical filter) [1], [19]
1.2.2.4 Tách nền
Trong bài toán phân tích cấu trúc trang, nền của ảnh được coi là những thành phần không có nghĩa nhưng lại có khả năng ảnh hưởng rất nhiều tới độ chính xác của việc phát hiện, bóc tách các trường thông tin Đối với bài toán nhận dạng văn bản truyền thống thì đầu vào thường có nền đồng nhất (màu sáng hoặc tối) và thao tác tách nền đôi khi không cần thiết Tuy nhiên, đối với bài toán nhận dạng thông tin trên các loại thẻ như CMND, hộ chiếu thì nền của ảnh không đồng nhất mà có các hoa văn rất phức tạp, thậm chí màu của các hoa văn nền và chữ có thể giống nhau Vì vậy, việc khử nền trước khi phân tích và xác định các đối tượng là khâu xử lý rất quan trọng Tùy thuộc vào từng bài toán, có thể áp dụng các kỹ thuật khác nhau chẳng như áp dụng
các toán tử hình thái (morphological operations), các phép lọc (lọc theo màu,
theo kích thước, hình dạng của đối tượng, v.v)
1.2.2.5 Các toán tử hình thái
Trong ảnh nhị phân, mỗi một điểm ảnh chỉ có hai mức xám (0 và 1) Do
đó có thể coi mỗi phần tử ảnh như một phần tử lôgic và có thể áp dụng các toán tử hình thái đối với nó Đầu vào của các toán tử hình thái thường là ảnh nhị phân (một số trường hợp là ảnh đa cấp xám) và phần tử cấu trúc (structuring element), kết hợp với việc sử dụng các toán tử tập hợp: hợp, giao, trừ và lấy phần bù Các thao tác xử lý (trên ảnh đầu vào) cơ bản dựa trên những đặc trưng hình dáng của đối tượng như: hình bao, xương ảnh, bao lồi… dưới sự giám sát của phần tử cấu trúc
Phần tử cấu trúc là một mặt nạ dạng bất kỳ, chỉ chứa thành phần đối tượng (thiết lập là 1) và thành phần “không quan tâm” (được để trống) Trong
Trang 29một số trường hợp, phần tử cấu trúc có thể chứa thành phần là nền (mang trị
số 0) Có thể hiểu phần tử cấu trúc như là một tập tọa độ các điểm (kích thước nhỏ) chứa một gốc tọa độ (thường ở vị trí giữa) Ví dụ trên Hình 1.6 là một phần tử cấu trúc kích thước 3x3
Hình 1.6 Phần tử cấu trúc 3 3
Tất cả các toán tử hình thái đều là sự phối hợp của hai toán tử cơ bản:
giãn ảnh (dilation) và co ảnh (erosion) Có nhiều cách khác nhau để định
nghĩa các toán tử hình thái (giãn ảnh và co ảnh) Giả sử g(x, y) là ảnh nhị phân
nghĩa như sau:
n m H n y m x g y
x
n m
n m H n y m x g y
x
n m
tử AND và (m, n) là tọa độ các điểm trong phần tử cấu trúc
Hiệu ứng cơ bản của toán tử giãn ảnh trên ảnh nhị phân là sự mở rộng dần dần đường biên của các đối tượng ảnh (thường là các điểm ảnh màu trắng) Do đó kích thước của các đối tượng ảnh tăng lên trong khi lỗ hổng bên trong đối tượng và khoảng cách giữa các đối tượng thì giảm xuống Mức độ
Trang 30giãn nở được quy định bởi tích chất của phần tử cấu trúc Hình 1.7 thể hiện phép giãn ảnh với phần tử cấu trúc kích thước 3x3 đã cho ở trên
Hình 1.7 Phép giãn ảnh với phần tử cấu trúc 3x3
Trong khi đó phép co có hiệu ứng đối ngược lại, phép co ảnh làm cho các đường biên của đối tượng bị “xói mòn”, dẫn đến kích thước của các đối tượng trong ảnh giảm đi Khoảng cách giữa các đối tượng thì tăng lên và lỗ hổng trong mỗi đối tượng thì được mở rộng ra Mức độ bào mòn của các đối tượng cũng được quy định bởi tính chất của phần tử cấu trúc Hình 1.8 thể hiện phép co ảnh với phần tử cấu trúc kích thước 3x3
Hình 1.8 Phép co ảnh với phần tử cấu trúc 3x3
Nếu sử dụng các phép co ảnh và giãn ảnh một cách riêng lẻ thì sẽ làm mất đi các đặc trưng (hình dạng, kích thước) của ảnh Do đó người ta thường kết hợp hai phép toán này với nhau, bằng cách: co bao nhiêu lần thì giãn bấy nhiêu lần và ngược lại Một trong số những cách kết hợp đó được gọi là phép
opening và closing, hai phép toán này đối xứng nhau Phép toán opening
được định nghĩa như sau (thứ tự thực hiện là: co ảnh trước rồi mới giãn ảnh)
Trang 31Còn closing được định nghĩa (giãn rồi mới co):
Hiệu ứng của hai phương pháp này tương tự như hiệu ứng của phương pháp co ảnh và giãn ảnh (opening tương đương với co ảnh còn closing tương đương với giãn ảnh) nhưng mức độ co/giãn thấp hơn
Toán tử opening sẽ xóa các điểm ảnh có kích thước nhỏ (nhỏ hơn hoặc bằng kích thước phần tử cấu trúc) trong khi vẫn dữ được các đặc trưng của các đối tượng trong ảnh Không làm giảm kích thước của các đối tượng, chỉ xóa điểm ảnh là gai xung quanh viền đối tượng Do đó nó thường được xử dụng để xóa nhiễu trong ảnh (các nhiễu hạt tiêu) Trong một số trường hợp nó
sẽ xóa đi các liên kết “mảnh” giữa các đối tượng, ví dụ như chỗ dính nhau giữa các ký tự
Toán tử closing thường dùng để nối các nét bị đứt trong đối tượng và lấp đầy các lỗ hổng bên trong đối tượng trong khi vẫn giữ được hình dạng và kích thước của đối tượng Khi kích thước của phần tử cấu trúc lớn hơn khoảng cách giữa hai đối tượng, thì hai đối tượng này được nối với nhau nhưng hình dạng chung của khối (chứa hai đối tượng) không thay đổi Dựa vào tính chất
này để nối các ký tự trên cùng một dòng văn bản trong ảnh với nhau
1.2.3 Một số hướng tiếp cận trong phân tích cấu trúc trang văn bản
Có rất nhiều phương pháp phân tích cấu trúc ảnh đã được đề xuất nhưng
về cơ bản có thể được chia làm ba hướng tiếp cận chính là hướng tiếp cận từ trên xuống (top-down approaches), hướng tiếp cận từ dưới lên (bottom-down approaches) và hướng tiếp cận kết hợp
Hướng tiếp cận từ trên xuống:Thường bắt đầu từ toàn bộ trang ảnh đầu
vào và phân tách nó thành các vùng nhỏ dần cho đến khi thỏa mãn các điều kiện cho trước hoặc các vùng thu được là đồng nhất Hướng tiếp
Trang 32cận này có ưu điểm là tốc độ thực thi nhanh nhưng chúng chỉ hữu ích trong trường hợp đã có tri thức về cấu trúc của trang ảnh cần phân tích Các thuật toán phân tích từ trên xuống điển hình gồm các thuật toán sử dụng phép chiếu, thuật toán X-Y Cut, thuật toán white streams
Hướng tiếp cận từ dưới lên: Bắt đầu từ các điểm ảnh, ghép chúng
thành các vùng đồng nhất lớn hơn (các thành phần liên thông, ký tự, dòng, khối văn bản, v.v) Hướng tiếp cận này có ưu điểm là linh hoạt
và có khả năng chịu được độ nghiêng của trang ảnh (thậm chí là nghiêng nhiều) nhưng chậm hơn so với phương pháp có hướng tiếp cận từ trên xuống Các thuật toán phân tích từ dưới lên điển hình gồm thuật toán Docstrum đề xuất bới O’Gorman, thuật toán dựa trên biểu
đồ Voronoi của Kise và cộng sự, thuật toán run-length smearing của Wahl và cộng sự…
Hướng tiếp cận kết hợp: Được đề xuất nhằm mục đích tận dụng được
các ưu điểm của hai hướng tiếp cận trên Điển hình của hướng tiếp cận
này chính là thuật toán spit-and-merge đề xuất bởi Pavlidis and Zhou…
1.3 Kết luận
Trong chương này, luận văn đã trình bày một cách tóm lược tổng quan
về nhận dạng văn bản và bài toán phân tích cấu trúc trang ảnh Bên cạnh đó, luận văn cũng đã tìm hiểu, khảo sát về các phương pháp phân tích cấu trúc trang theo 3 hướng tiếp cận chính: Từ dưới lên (bottom-up), từ trên xuống (top-down) và các hướng tiếp cận kết hợp Các khảo sát thực nghiệm cho thấy bước tiền xử lý, tăng cường chất lượng ảnh đầu vào là một trong những bước
xử lý quan trọng trong quy trình thực hiện của một hệ thống phân tích cấu trúc trang ảnh nói chung Dựa trên cơ sở những vấn đề tìm hiểu trong chương này, trong chương tiếp theo, luận văn sẽ tiến hành một số các kỹ thuật trong phân tích cấu trúc ảnh tài liệu và tiến hành phân tích cấu trúc của ảnh CMND
Trang 33CHƯƠNG 2: MỘT SỐ KỸ THUẬT PHÂN TÍCH CẤU TRÚC, ỨNG DỤNG TRONG PHÁT HIỆN VÀ BÓC TÁCH CÁC TRƯỜNG THÔNG TIN TRÊN ẢNH TÀI LIỆU
Trong chương này, luận văn sẽ tập trung tìm hiểu một số kỹ thuật đã và đang được ứng dụng thành công cho bài toán phân tích cấu trúc trang ảnh nói chung và trang văn bản nói riêng Nội dung của chương này sẽ là nền tảng cơ
sở cho những đề xuất trong bài toán ứng dụng cụ thể: Phân tích cấu trúc ảnh chứng minh nhân dân sẽ được đề cập cụ thể trong phần tiếp theo
2.1 Kỹ thuật X-Y Cut
Thuật toán X-Y Cut [10]còn được gọi là thuật toán đệ quy X-Y Cut (RXYC) RXYC là thuật toán đi từ trên xuống dựa vào một cây cơ sở Ở đây, gốc của cây cơ sở đại diện cho toàn bộ trang tài liệu Tất cả các lá cùng đại diện cho các phần phân khúc Thuật toán X-Y Cut chia tách các tài liệu thành hai hay nhiều khối chữ nhật đại diện cho nút của cây
Thuật toán X-Y Cut được sử dụng để phân khúc trang tài liệu trong hệ thống ORC Khi một tài liệu được scan, ảnh của file scan sẽ xuất hiện “noise”
có thể gọi là hiện tượng nhiễu Làm cho file ảnh vừa scan bị lệch đi nhiều hay
ít so với bản gốc, gây khó khăn cho việc phân đoạn tài liệu.Thuật toán X-Y Cut là một trong những thuật toán được đưa ra để giải quyết tình trạng này Nội dungvà cách thực hiện thuật toán này rất đơn giản: các điểm ảnh của hình ảnh trong tài liệu sẽ được chiếu theo phương thẳng đứng và phương ngang Sau đó chúng ta sẽ nhận diện khoảng trắng lớn nhất có thể trong hình chiếu này và tại đó ta thực hiện chia hình ảnh thành 2 ảnh phụ Ta lặp lại phương pháp này theo qui tắc đệ qui/một cách đệ qui cho đến khi hoàn thành một tiêu chí nào đó
Sửdụng kỹ thuật nàychúng ta sẽ có được một chuỗi các phần theo phương ngang và dọc.Những phần này phân hình ảnh ra thành nhiều phần
Trang 34Nếu chúng ta thu nhỏ những phần này thành các hình tam giác nhỏ nhất có thể chứa đựng tất cả các điểm ảnh đen thì ta sẽ thu được nhiều khối khác nhau Tùy thuộc vào tiêu chuẩn dừng mà ta sẽ có được các khối to hay nhỏ Tuy nhiên, phương pháp này có những hạn chế nhất định Có một vài vấn đề với thiết bị chia tách tuyến cũng như viền sao chép đen điển hình trong việc quét và sao chép những trang sách Trong trường hợp tồn tại những viền này, thuật toán sẽ không cắt bất cứ phần nào bởi vì nó không thể tìm thấy bất
cứ lỗ hổng (khoảng trống) nào Đó là lý do vì sao trước tiên chúng ta phải loại
bỏ những viền đen ra khỏi dữ liệu hình ảnh trước khi chạy thuật toán X-Y Cut Nó cũng có thể chỉ phân đoạn được các sơ đồ Manhattan.Vấn đề này có thể khắc phục bằng thuật toán X-Y Cut cải tiến như sau:
Thuật toán 2 1 Thuật toán X-Y Cut cải tiến
Input: Ảnh sau khi được quét
Output: Ảnh được xử lý thành từng khối chữ nhật
Bước 1 Loại bỏ nhiễu ở biên của phân đoạn;
Lấy các tài liệu quét;
Chọn một điểm ảnh (X,Y) từ tài liệu và nhận được và kết nối với những điểm ảnh tương ứng, làm như vậy cho 8 điểm ảnh xung quanh ta có được giá trị của các điểm ảnh còn lại (X-1,Y),Right( X+1,Y),Top(X, Y+1), Bottom(X,Y-1) và điểm ảnh bốn chéo {(X-1,Y-1),(X+1,Y-1),(X-1,Y+1),(X+1,Y+1)};
Nếu tất cả các điểm ảnh kết nối là màu đen sau đó thay đổi tất cả các điểm kết nối với màu trắng và tiếp tục này quá trình cho đến khi toàn
bộ tài liệu được bao phủ bằng cách khác quá trình điểm ảnh tiếp theo
và lặp lại bước 1
Trang 35Bước 2 Tạo bảng tổng hợp tiền tố cho hệ thống OCR;
Bước 3 Tạo biểu đồ cho các giá trị điểm ảnh tại mỗi nút;
Bước 4 Tạo một giá trị ngưỡng (Tx, Ty) tương ứng với trục x và trục Y; Bước 5 So sánh (Tx, Ty) với thung lũng biểu đồ (Vx và Vy )
Kết quả thực hiện của thuật toán X-Y Cut cải tiến với một ảnh tài liệu
Hình 2 1 a) Ảnh gốc b) Kết quả thực hiện của thuật toán X-Y Cut
2.2.Kỹ thuật Smearing
Thuật toán Smearing Còn gọi là RLSA(The run-length smearing algorithm)[20],thuật toán này dựa trên việc làm nhòe/mờ các ảnh điểm đen
Trang 36trên một hình ảnh nhị phân Quá trình này sẽ làm mờ các điểm ảnh đen trên một trang mà theo đó các điểm ảnh trắng nhỏ sẽ bị làm đen Thuật toán được
mô tả cụ thể như sau:
Thuật toán 2 2: Thuật toán RLSA
Input: Ảnh sau khi được quét: I
Output: Ảnh J chứa các vùng thông tin được xác định
Bước 1: Nhị phân ảnh đầu vào
+ Các điểm trắng (white pixels) được thể hiện bằng giá trị 0
+ Các điểm đen (black pixels) được thể hiện bằng giá trị 1
Bước 2: I 1 Ảnh I được làm mờ theo phương ngang với giá trị ngưỡng Th
Bước 3: I 2 Ảnh I được làm mờ theo phương thẳng đứng với ngưỡng Tv
Bước 4: J I 1 AND I 2
Bước 5: Làm mờ ảnh J theo phương ngang với ngưỡng Ts
Bước 6: Liên kết các các thành phần liên thông thành các vùng văn bản
Việc làm mờ sẽ được thực hiện dựa trên 2 quy tắc đơn giản:
Quy tắc 1: Bit 0 sẽ được chuyển thành 1 nếu số liền sát 0 nhỏ hơn
hoặc bằng với ngưỡng C nhất định (nếu độ dài một chuỗi của 0 nhỏ hơn hoặc bằng với một ngưỡng, thì 0 sẽ được đổi thành 1)
Quy tắc 2: Bit 1 không đổi
Xem xét ví dụ dưới đây, khi 0 tượng trưng cho điểm ảnh trắng và 1 tượng trưng cho điểm ảnh đen, dòng đầu tiên thể hiện chuỗi điểm ảnh nguyên bản và dòng thứ 2 là kết quả thu được sau khi sử dụng phương pháp làm mờ Ngưỡng làm mờ C=4
0 0 0 1 0 0 0 0 0 1 0 1 0 0 0 0 1 0 0 0 0 0 0 0 1 1 0 0 0
1 1 1 1 0 0 0 0 0 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 1 1 1 1 1
Trang 37Đầu tiên, toàn bộ dữ liệu hình ảnh sẽ được làm mờ theo phương ngang
được cố định qua kinh nghiệm thực hành Sau đó, 2 hình ảnh nhị phân này sẽ
được kết nối lại bởi phép toán điểm ảnh thông minh AND Sau đó hình ảnh
nhị phân này sau đó sẽ được làm trơn một lần nữa bằng thuật toán làm mờ với
a) Ảnh đầu vào a) b) Làm làm mờ theo phương
ngang với ngưỡng T h = 300
c) Làm mờ theo phương dọc với ngưỡng T v = 300
Trang 38Sau bước sẽ tiến hànhphân tách các vùng giới hạn thông qua phương pháp phân tích các thành phần liên thông Đây được coi là bước nhập liệu hình ảnh và đặt lại các thành phần liên thông vào các vùng tương ứng Một thành phần liên kết sẽ bao gồm một chuỗi các điểm ảnh liên thông với nhau Chúng ta sẽ xem xét các điểm ảnh theo 4 hướng: phía trên, phía dưới, bên trái
và bên phải, còn được gọi chung là 4-vùng lân cận (trái ngược với 8-vùng lân cận kể cả các vùng chéo) Các vùng liên thông được xác định là những vùng hình chữ nhật với kích thước nhỏ nhất có thể bao gồm tất cả các điểm ảnh của
thành phần liên kết đó
2.3 Kỹ thuật Whitespace
Thuật toán Whitespace[9] sử dụng một phương pháp khác để phân đoạn trang: đó là thay vì sử dụng khu vực in đen để phân chia, kỹ thuật này sẽ tìm những khoảng trắng giữa các cột và tuyến nhằm thực hiện việc phân chia dữ liệu hình ảnh
Thuật toán 2 3 Thuật toán Whitespace
Input: Ảnh sau khi được quét
Output: Ảnh gồm những khung giới hạn tạo bởi hình chữ nhật màu trắng
1 Bước đầu tiên là tìm một tập hợp các hình chữ nhật màu trắng tối đa 2.Xếp hạng những hình này dựa theo khu vực và tỉ lệ bên ngoài chúng
Bước đầu tiên đó là tìm tất cả các hình chữ nhật màu trắng nhiều nhất có thể Đây là những hình không thể mở rộng kích cỡ nếu như không thêm vào 1 hoặc nhiều điểm ảnh đen Tiếp sau đó, ta sẽ được xếp hạng những hình này dựa theo khu vực và tỉ lệ bên ngoài chúng Một hình chữ nhật N tốt nhất sẽ được chọn làm phần mô tả cho bối cảnh Các khối ngoài phần mô tả này có thể bị tách ra
Trang 39Điểm khác nhau chính giữa phương pháp của Baird và Breuel chính là các bước tìm hình chữ nhật Một số ít các tham biến sẽ thay đổi nhưng cách tiếp cận vẫn giữ nguyên
Hình 2 3 Tài liệu ảnh trước khi xử lý Tài liệu ảnh sau khi được xử lý
2.4 Kỹ thuật Docstrum
Thuật toán Dostrum[17]là một kỹ thuật phân tích cấu trúc theo hướng tiếp cận từ dưới lên dựa trên việc phân cụm các thành phần liên thông bằng phương pháp k-láng giềng gần nhất.Thuật toán được mô tả cụ thể như sau:
Thuật toán 2 4: Thuật toán Dostrum
Input: Ảnh sau khi được quét: I
Output: Ảnh chứa các vùng thông tin được xác định
Bước 1: Tiền xử lý (nhị phân ảnh, tăng cường chất lượng ảnh đầu vào)
Bước 2: Xác định các thành phần liên thông cơ bản và trọng tâm của chúng Bước 3: Đối với mỗi thành phần liên thông, xác định k-láng giềng gần nhất
của nó, và trích chọn các láng giềng trong cùng 1 dòng
Bước 4: Tạo ra các dòng phù hợp
Bước 5: Điều chỉnh lại các dòng
Trang 40Bước xử lý đầu tiên nhằm tiến hành nhị phân ảnh, căn chỉnh độ nghiêng
và tăng cường chất lượng Trong bước xử lý tiếp theo, các thành phần liên thông quá lớn hoặc quá nhỏ sẽ được loại bỏ Thực tế, những thành phần quá lớn thường là các vùng ảnh và các thành phần quá nhỏ thường là nhiễu hoặc một số loại dấu chấm (dấu chấm câu, dấu của chữ i) Các thành phần này có thể gây nhiễu cho quá trình xác định trọng tâm của dòng nên sẽ được tạm thời loại bỏ kết quả thực hiện của bước này được thể hiện cụ thể trênHình 2 4
a) Phân tích các thành phần
liên thông
b) Loại bỏ các thành phần quá lớn và quá nhỏ
c) Xác định trọng tâm của
các dòng
Hình 2 4 Xác định các thành phần liên thông, trọng tâm của các dòng
Kỹ thuật Dostrum thực hiện dựa trên những thành phần liên kết thường thể hiện các đặc tính riêng rẽ, một phần của một đặc tính (đặc điểm), và hợp nhất các đặc tính cũng như một số dấu hiệu chấm câu Với mỗi thành phần liên kết này, ta sẽ tính toán số k-các điểm lân cận gần nhất Đầu tiên, số k-các điểm lân cận gần nhất sẽ tính số thành phần liên kết gần nhất so với thành phần liên kết đầu tiên sử dụng một số khối khoảng cách Trong trường hợp này sẽ sử dụng khoảng cách Euclidean và số k được cho bằng 5 Như vậy, với mỗi thành phần liên kết ta sẽ có 5 vùng lân cận và một khoảng cách d, và chúng ta có thể ước tính một góc θ Do đó, với mỗi cặp thành phần liên kiết i
và j ta có Dij(d, θ)