nghiên cứu phương pháp phân tích cấu trúc ảnh màu, ứng dụng trong nhận dạng chứng minh nhân dân

20 CHƯƠNG 2: MỘT SỐ KỸ THUẬT PHÂN TÍCH CẤU TRÚC, ỨNG DỤNG TRONG PHÁT HIỆN VÀ BÓC TÁCH CÁC TRƯỜNG THÔNG TIN TRÊN ẢNH TÀI LIỆU .... Một trong những ứng dụng phổ biến của nhận dạng mẫu hiện

Trang 1

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

Trang 2

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Nguyễn Thị Thanh Tân

THÁI NGUYÊN - 2014

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi và hoàn thành dưới sự hướng dẫn khoa học của TS Nguyễn Thị Thanh Tân

Nếu có gì vi phạm tôi xin hoàn toàn chịu trách nhiệm

Học viên thực hiện luận văn

Đoàn Duy Thường

Trang 4

LỜI CẢM ƠN

Tôi xin gửi lời cảm ơn chân thành nhất tới TS Nguyễn Thị Thanh Tân vì

đã có những chỉ dẫn, động viên quý báu trong suốt quá trình thực hiện luận văn của tôi Đồng thời tôi xin chân thành cảm ơn các thầy cô giáo trong Ban giám hiệu, phòng Đào tạo, các thầy cô giáo của trường Đại học Công nghệ Thông tin và Truyền thông - Đại học Thái Nguyên cùng các thầy cô giáo trong Viện Công nghệ Thông Tin - Viện Hàn lâm Khoa học Việt Nam đã quan tâm, tạo điều kiện thuận lợi, nhiệt tình giảng dạy và hướng dẫn tôi trong suốt quá trình học tập và hoàn thiện luận văn

Cuối cùng tôi xin cảm ơn mọi sự giúp đỡ từ người thân, đồng nghiệp những người đã luôn ủng hộ, hỗ trợ tôi trong suốt quá trình thực hiện luận văn của mình

Mặc dù đã có nhiều cố gắng, tuy nhiên luận văn của tôi không thể tránh khỏi những thiếu sót, do đó tôi rất mong nhận được những ý kiến đánh giá, bổ sung để tôi có thể hoàn thiện luận văn của mình./

Thái Nguyên, ngày tháng năm 2014

Tác giả

Đoàn Duy Thường

Trang 5

MỤC LỤC

LỜI CAM ĐOAN i

LỜI CẢM ƠN ii

MỤC LỤC iii

DANH MỤC CÁC THUẬT NGỮ VIẾT TẮT vi

DANH MỤC BẢNG BIỂU ix

DANH MỤC THUẬT TOÁN x

PHẦN MỞ ĐẦU 1

1 Đặt vấn đề 1

2 Mục tiêu của luận văn 2

3 Tính cấp thiết của luận văn 2

4 Bố cục của luận văn 3

CHƯƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG VĂN BẢN VÀ BÀI TOÁN PHÂN TÍCH CẤU TRÚC 4

1.1 Tổng quan về nhận dạng văn bản 5

1.2 Bài toán phân tích cấu trúc trang 7

1.2.1 Giới thiệu chung 7

1.2.2 Một số kỹ thuật tiền xử lý trong phân tích cấu trúc trang ảnh 10

1.2.2.1 Nhị phân ảnh 10

1.2.2.2 Căn chỉnh độ nghiêng trang ảnh 13

1.2.2.3 Lọc nhiễu 14

1.2.2.4 Tách nền 16

1.2.2.5 Các toán tử hình thái 16

Trang 6

1.2.3 Một số hướng tiếp cận trong phân tích cấu trúc trang văn bản 19

1.3 Kết luận 20

CHƯƠNG 2: MỘT SỐ KỸ THUẬT PHÂN TÍCH CẤU TRÚC, ỨNG DỤNG TRONG PHÁT HIỆN VÀ BÓC TÁCH CÁC TRƯỜNG THÔNG TIN TRÊN ẢNH TÀI LIỆU 21

2.1 Kỹ thuật X-Y Cut 21

2.2 Kỹ thuật Smearing 23

2.3 Kỹ thuật Whitespace 26

2.4 Kỹ thuật Docstrum 27

2.5 Kỹ thuật dựa trên lược đồ Voronoi 29

2.6 Kỹ thuật phát hiện các ràng buộc trên dòng văn bản 32

2.7 Kỹ thuật phân tích cấu trúc ảnh tài liệu 33

2.7.1 Đặc trưng của ảnh tài liệu cần nhận dạng 33

2.7.2 Phát hiện trường số trong ảnh 35

2.7.2.1 Xác định vùng có thể là trường số của ảnh 36

2.7.2.2 Tìm và tách trường số 37

2.7.2.3 Phân đoạn vùng số 38

2.7.3 Phân tích cấu trúc bảng 40

2.7.4 Tách các trường thông tin còn lại 42

2.7.4.1 Tách các đối tượng thuộc mỗi dòng 44

2.7.4.2 Xóa tiêu đề 45

2.7.4.3 Lấy lại các ký tự bị mất 47

2.8 Kết luận 48

Trang 7

CHƯƠNG 3: CHƯƠNG TRÌNH ỨNG DỤNG 50

3.1 Mô tả bài toán 50

3.2 Phân tích, cài đặt chương trình thử nghiệm 51

3.2.1 Tiền xử lý ảnh mặt trước CMND 54

3.2.2 Tiền xử lý ảnh mặt sau CMND 62

3.2.3 Các độ đo đánh giá hiệu quả của phương pháp 63

3.2.4 Dữ liệu thử nghiệm 64

3.3 Kết quả thực nghiệm 65

3.4 Kết luận 66

PHẦN KẾT LUẬN 68

DANH MỤC TÀI LIỆU THAM KHẢO 69

Trang 8

DANH MỤC CÁC THUẬT NGỮ VIẾT TẮT

Trang 9

DANH MỤC HÌNH VẼ

Hình 1 1 Thu nhận ảnh tài liệu 5

Hình 1 2 Quy trình chung của một hệ thống OCR 6

Hình 1 3 Một số tài liệu có cấu trúc phức tạp 7

Hình 1.4 Quy trình phân tích cấu trúc trang ảnh 8

Hình 1 5 b- Cấu trúc vật lý; c,d - Cấu trúc logic của một tài liệu 10

Hình 1.6 Phần tử cấu trúc 3 3 17

Hình 1.7 Phép giãn ảnh với phần tử cấu trúc 3x3 18

Hình 1.8 Phép co ảnh với phần tử cấu trúc 3x3 18

Hình 2 1 a) Ảnh gốc b) Kết quả thực hiện của thuật toán X-Y Cut 23

Hình 2 2 Kết quả thực hiện của kỹ thuật Smearing 25

Hình 2 3 Tài liệu ảnh trước khi xử lý Tài liệu ảnh sau khi được xử lý 27

Hình 2 4 Xác định các thành phần liên thông, trọng tâm của các dòng 28

Hình 2 5 Sơ đồ Voronoi 30

Hình 2 6 Kết quả thực hiện của kỹ thuật sử dụng lược đồ Voronoi 30

Hình 2 7 Mẫu “Giấy Chứng minh nhân dân” 34

Hình 2 8 Xác định vùng Số CMND 37

Hình 2 9 Phân đoạn vùng số Chứng minh Nhân dân 39

Hình 2 10 Xác định cấu trúc bảng 42

Hình 2 11 Mặt nạ dòng mặt trước 44

Hình 3 1 Quy trình nhận dạng thông tin trên CMND 50

Hình 3 2 Quy trình thực hiện của chương trình thử nghiệm 51

Trang 10

Hình 3 3 Tiền xử lý ảnh mặt trước CMND 55

Hình 3 4 Nhị phân ảnh CMND 60

Hình 3 5 Phương pháp tia quay 61

Hình 3 6 Ảnh CMND 65

Hình 3 7 Một số trường hợp khó phát hiện 66

Trang 11

DANH MỤC BẢNG BIỂU

Bảng 1 1 Bảng mã 4 màu 11 Bảng 2 1 Thông tin mặt trước CMND 34 Bảng 3.1 Kết quả thực nghiệm 66

Trang 12

DANH MỤC THUẬT TOÁN

Thuật toán 1 1 Thuật toán chỉnh độ nghiêng 13

Thuật toán 1 2 Thuật toán xoay ảnh 13

Thuật toán 2 1 Thuật toán X-Y Cut cải tiến 22

Thuật toán 2 2: Thuật toán RLSA 24

Thuật toán 2 3 Thuật toán Whitespace 26

Thuật toán 2 4: Thuật toán Dostrum 27

Thuật toán 2 5 Thuật toán phân tích cấu trúc dựa trên lược đồ Voronoi 31

Thuật toán 2 6 Xác định các vùng có thể là Trường Số CMND 36

Thuật toán 2 7 Tìm và tách trường Số CMND 38

Thuật toán 2 8 Phân đoạn vùng Số CMND 39

Thuật toán 2 9 Ước lượng bề dày đường lượn sóng 40

Thuật toán 2 10 Xác định các đường kẻ ngang trong bảng 41

Thuật toán 2 11 Tách các ký tự thuộc mỗi dòng 45

Thuật toán 2 12 Xoá phần tiêu đề 47

Thuật toán 3 1 Thuật toán nhị phân ảnh Otsu 56

Thuật toán 3 2 Thuật toán nhị phân ảnh Niblack 58

Thuật toán 3 3 Thuật toán Sử dụng tia quay để xác định góc nghiêng 61

Trang 13

Một trong những ứng dụng phổ biến của nhận dạng mẫu hiện nay là phân tích và nhận dạng ảnh tài liệu (có nguồn gốc từ hệ thống nhận dạng ký

tự quang học), nhằm số hoá các trang tài liệu giấy như sách, báo, tạp chí… Cho đến nay, bài toán phân tích và nhận dạng ảnh tài liệu đã được giải quyết gần như trọn vẹn và cũng đã có những sản phẩm thương mại, như VnDOCR của Viện công nghệ thông tin hay FineReader của hãng ABBYY…

Bên cạnh lớp bài toán phân tích và nhận dạng ảnh tài liệu một cách tổng quát ở trên còn có lớp bài toán riêng biệt cho từng ngành, từng lĩnh vực

cụ thể, như: phân tích và nhận dạng bảng biểu, phiếu điều tra, mẫu điền thông tin, danh thiếp, hộ chiếu,… Đối với lớp bài toán này thì việc phân tích cấu trúc của ảnh tài liệu là đặc biệt quan trọng, bởi vì nó sẽ quyết định đến việc tách và nhận dạng chính xác các trường thông tin cần thiết cho từng ứng dụng cụ thể

Trên thế giới đã có nhiều sản phẩm phần mềm phân tích và nhận dạng ảnh thẻ chứa thông tin cá nhân (như hộ chiếu, danh thiếp…) và được ứng dụng trong nhiều lĩnh vực, như: làm thủ tục hải quan, các giao dịch ở các cửa

Trang 14

hàng, khách sạn… Ở Việt Nam loại thẻ chứa thông tin cá nhân được sử dụng nhiều nhất là Giấy chứng minh nhân dân (CMND) Do thông tin trên các CMND được in thủ công từ các phôi có sẵn nên đôi khi định dạng không chuẩn, các dòng chữ và các ký tự trên đó có thể xiên, vẹo, thậm chí dính/chồng vào nhau Bên cạnh đó, các CMND có thể bị mờ, ố theo thời gian Đây là những yếu tố gây khó khăn và làm giảm chất lượng của một hệ thống nhận dạng đồng thời cũng là một trong số những nguyên do chính mà cho đến hiện nay các sản phẩm nhận dạng CMND chưa đáp ứng được nhu cầu tự động hóa công việc nhập liệu thông tin trên CMND trong các hoạt động giao dịch hàng ngày Quy trình giải quyết bài toán nhận dạng thông tin trên CMNDbao gồm 2 công đoạn chính Công đoạn thứ nhất tập trung vào việc phân tích cấu trúc, xác định và bóc tách các trường thông tin cần nhận dạng trên CMND Công đoạn thứ hai là nhận dạng các vùng thông tin đã được bóc tách Luận văn tập trung nghiên cứu, giải quyết các vấn đề liên quan đến công đoạn thứ nhất trong bài toán nhận dạng thông tin trên CMND

2 Mục tiêu của luận văn

Tìm hiểu một số kỹ thuật phân tích trang tài liệu (phân vùng, phân đoạn,…) nói chung vàảnh CMND nói riêng nhằm phát hiện và bóc tách các trường thông tin cần nhận dạng trên CMND Cài đặt thử nghiệm, kiểm chứng lại kết quả mà luận văn đã nghiên cứu và từ kết quả nghiên cứu có một sự chuẩn bị kiến thức đầy đủ cho bước nghiên cứu tiếp theo

3 Tính cấp thiết của luận văn

Giải quyết được vấn đề về học thuật: Đề tài sẽ mang ý nghĩa cung cấp về mặt lý thuyết để làm rõ về các phương pháp phân tích ảnh CMND

Trang 15

Đáp ứng được yêu cầu của thực tiễn: từ các lý thuyết đã được nghiên cứu, từ đó liên hệ và gắn vào thực tiễn để có thể áp dụng vào việc phân tích ảnh CMND trong thực tế

4 Bố cục của luận văn

Các nội dung trình bày trong luận văn được chia thành 3 chương

Chương 1 giới thiệu các vấn đề tổng quan nhận dạng văn bản và bài toán

phân tích cấu trúc trang ảnh tài liệu Chương 2 tập trung vào các kỹ thuật

phân tích cấu trúc, ứng dụng trong phát hiện và bóc tách các trường thông tin

cần nhận dạng trên ảnh tài liệu (ảnh CMND).Chương 3 trình bày quá trình

phân tích, thiết kế và cài đặt chương trình thử nghiệm nhằm đánh giá hiệu quả của phương pháp trên các tập dữ liệu ảnh CMND đầu vào được thu thập từ thực tế

Trang 16

CHƯƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG VĂN BẢN VÀ

BÀI TOÁN PHÂN TÍCH CẤU TRÚC

Ngày nay, việc sử dụng máy tính để lưu trữ tài liệu không còn là vấn đề mới mẻ và cần phải chứng minh tính an toàn, thuận tiện của nó Tuy nhiên việc sử dụng giấy để lưu trữ tài liệu trong một số mục đích vẫn chưa thể thay thế được như sách báo, công văn Hơn nữa, lượng tài liệu được tạo ra từ nhiều năm trước vẫn còn rất nhiều mà không thể bỏ đi được vì tính quan trọng của chúng

Chúng ta mong muốn có thể điện tử hóa hàng tỉ trang tài liệu đó và cất chúng chỉ trong một thiết bị lưu trữ với kích thước bằng một cuốn sách nhỏ, tìm kiếm các thông tin mà chỉ cần tốn vài giây với một lần gõ phím Enter Vậy giải pháp là gì?

Thông thường người ta sẽ phải thuê người cùng với việc tốn hàng tháng, hàng năm mới có thể nhập vào máy tính được hết lượng tài liệu đó Hiện nay chúng ta đã có các máy Scan với tốc độ cao, công nghệ xử lý của máy tính ngày càng siêu việt với tốc độ tính toán vượt cả tốc độ ánh sáng, vậy tại sao chúng ta không quét toàn bộ các trang tài liệu vào và chuyển chúng thành văn bản một cách tự động?

Bằng cách đó, tốc độ và tính chính xác sẽ tăng hàng trăm lần trong khi chi phí lại rất nhỏ Vấn đề là khi quét vào máy tính chúng ta không thu được ngay các dòng văn bản từ các trang tài liệu đó để có thể soạn thảo, sửa chữa

và tìm kiếm như làm trên Office Tất cả những gì thu được chỉ là các tấm ảnh của các trang văn bản, máy tính lại đối xử công bằng với mọi điểm ảnh, máy tính không có “mắt” như chúng ta để biết đâu là điểm ảnh của chữ, đâu là điểm ảnh của đối tượng đồ họa

Trang 17

Một giải pháp được đặt ra đó là xây dựng các hệ thống nhận dạng văn bản trong tấm ảnh chứa cả chữ và đối tượng đồ họa cần tách và chuyển chúng thành trang văn bản để từ đó có thể mở và soạn thảođược trên các chương trình soạn thảo văn bản

1.1 Tổng quan vềnhận dạng văn bản

Hiện nay, máy tính đang phát triển mạnh mẽ, tốc độ xử lý không ngừng được nâng lên Cùng với nó là sự ra đời của các phần mềm thông minh đã làm cho máy tính ngày một gần gũi với con người hơn Một trong những ứng dụng thành công của lĩnh vực nhận dạng mẫu là nhận dạng chữ

in (nhận dạng ký tự quang học OCR -Optical Character Recognition) Nhận dạng chữ là quá trình chuyển đổi từ dạng hình ảnh của một hay nhiều trang ảnh chứa các thông tin văn bản thành tệp văn bản thực sự có thể soạn thảo được trên máy tính.OCR có rất nhiều ứng dụng hữu ích trong cuộc sống như:Sắp xếp thư tíndựa vào việc nhận dạng mã bưu chính (Zipcode) hay địa chỉ gửi tới, tự động thu thập dữ liệu từ các mẫu đơn/báo biểu hay từ các

hồ sơ lao động, tự động kiểm tra, xác nhận chữ ký trong ngân hàng, tự động xử lý các hóa đơn hay các yêu cầu thanh toán, nhập liệu tự động, kiểm tra thông tin trên passport…

Hình 1 1 Thu nhận ảnh tài liệu

Trang 18

Trang ảnh tài liệu được đề cập ở đây là các file ảnh số hoá thu được bằng cách quét các trang tài liệu dùng máy scanner, máy ảnh số, hay nhận từ một máy fax, file ảnh này được lưu trữ trong máy tính (Hình 1 1) Ảnh tài liệu có nhiều loại: ảnh đen trắng, ảnh màu, ảnh đa cấp xám với các phần mở rộng như TIF, BMP, PCX… và ảnh tài liệu được đưa ra trong luận văn này là ảnh đa cấp xám

Quy trình chung của một hệ thống nhận dạng văn bản được thể hiện cụ thể trên Hình 1 2 Ảnh tài liệu cần nhận dạng trước tiên sẽ được tiền xử lý nhằm tăng cường chất lượng, căn chỉnh độ nghiêng, nắnchỉnh hình ảnh Sau

đó sẽ tiến hành phân tích nhằm xác định cấu trúc trang tài liệu đồng thời xác định được các vùng thông tin cần nhận dạng trên ảnh đầu vào Bước tiếp theo

sẽ tiến hành nhận dạng các vùng thông tin văn bản đã được xác định Bước hậu xử lý cuối cùng sẽ thực hiện các thao tác kiểm lỗi chính tả và địnhdạng lại cấu trúc trang văn bản

Hình 1 2 Quy trình chung của một hệ thống OCR

Trang 19

Từ quy trình của hệ thống nhận dạng trênHình 1 2 cho thấy bước phân tích cấu trúc trang tài liệu, bóc tách các vùng văn bản để nhận dạng có ảnh hưởng rất lớn tới chất lượng của một hệ thống nhận dạng

1.2 Bài toán phân tích cấu trúc trang

1.2.1 Giới thiệu chung

Ảnh tài liệu chứa rất nhiều loại vùng thông tin khác nhau như các block, lines, words, figures, tables và background Ta có thể gọi các vùng này theo chức năng của nó trong tài liệu hoặc gán cho nó các nhãn logic như sentences, titles, captions, address (xem Hình 1 3)

Hình 1 3 Một số tài liệu có cấu trúc phức tạp

Quá trình phân tích cấu trúc ảnh thực chất là quá trình tách một tài liệu thành các vùng theo một tiêu chuẩn hay mối quan hệ lẫn nhau nào đấy Công việc này được thực hiện qua nhiều bước như tiền xử lý, tách vùng, lặp cấu trúc tài liệu… Một số loại tài liệu như báo, tạp chí, sách quảng cáo, chúng có cấu trúc và bố cục rất phức tạp và khôngcó một Form chung nào cả Với con người để có thể đọc hiểu được một trang tài liệu còn cần thêm nhiều kiến thức

bổ sung như ngôn ngữ, hoàn cảnh, các luật ngầm định, vì thế việc tự động

Trang 20

phân tích các trang tài liệu một cách tổng quát là một việc rất khó khăn thậm chí là không khả thi ngay cả với các hệ thống phân tích tài liệu tiên tiến nhất Các bước xử lý chính trong quy trình phân tích cấu trúc trang ảnh được thể hiện cụ thể trênHình 1.4 Trong đó, từ trang ảnh đầu vào trước tiên sẽ được tiền xử lý nhằm loại bỏ nhiễu, căn chỉnh độ nghiêng, tách nềntrang ảnh,v.v.Sau đó sẽ tiến hành phân tích bố cục và cấu trúc trang ảnh nhằm xác định các vùng thông tin khác nhau trên trang ảnh đầu vào (các vùng văn bản, tiêu đề, ảnh, bảng biểu,…) Các vùng văn bản sẽ tiếp tục được phân đoạn thành các thành phần nhỏ hơn, chẳng hạn như dòng, từ hoặc ký tự để phục vụ cho bước nhận dạng sau này Việc đánh giá hiệu quả của các thuật toán phân tích trang được tiến hành dựa trên các file ground truth (chứa thông tin chi tiết của các vùng thông tin cần xác định) cho trước

Hình 1.4 Quy trình phân tích cấu trúc trang ảnh

Cấu trúc tài liệu thu được từ việc liên tiếp chia nhỏ nội dung của tài liệu thành các phần đơn vị nhỏ (tức là không thể phân chia được nữa) và chúng được gọi là các đối tượng cơ sở (basic objects) Còn tất cả các đối tượng khác được gọi là các đối tượng hỗn hợp.Hai loại cấu trúc của tài liệu được quan tâm ở đây đó là cấu trúc vật lý (hay bố cục vật lý) và cấu trúc logic mô tả mối quan hệ logic giữa các vùng đối tượng trong tài liệu

Trang 21

 Block:Là đối tượng cơ sở tương ứng với một vùng hình chữ nhật chứa

một phần nội dụng của tài liệu

 Frame:Một đối tượng hỗn hợp tương ứng với một hình chữ nhật bao

gồm một hoặc nhiều Block hoặc bao gồm nhiều các Frame

 Page:Là đối tượng hình học hoặc hỗn hợp các thành phần cơ sở tương

ứng với một vùng hình chữ nhật, nếu là đối tượng hỗn hợp nó chứa một hoặc nhiều Block, một hoặc nhiều Frame

 Page set(tập trang):Là một tập của một hoặc nhiều page

 Điểm gốc của cấu trúc (hay nút gốc):Là một đối tượng ở mức cao nhất

trong sơ đồ phân cấp của cấu trúc hình học tài liệu

 Cấu trúc logic:

Ngoài bố cục vật lý, các trang tài liệu còn chứa đựng nhiều thông tin về ngữ cảnhvà nội dung như các tiêu đề, đoạn văn, đề mục,…và mỗi vùng nội dung này lại được gán các nhãn logic hay nhãn theo chức năng tương ứng, khác biệt hoàn toàn với các nhãn trong bố cục vật lý Hầu hết các tài liệu đều

có một quy tắc đọc để có thể hiểu hết nội dung của tài liệu Với một số ngôn ngữ đặc biệt như tiếng Trung, tiếng Ả Rập lại có cách đọc khác biệt (như đọc

từ phải qua trái, từ trên xuống) Tập hợp tất cả các yếu tố logic và chức năng trong một tài liệu và mối quan hệ giữa chúng được gọi là cấu trúc logic của tài

Trang 22

liệu Thông thường pha phân tích cấu trúc logic của tài liệu được thực hiện trên kết quả của bước phân tích bố cục vật lý Tuy nhiên với một số loại tài liệu phức tạp, thì pha phân tích bố cục vật lý lại cần thêm một số thông tin logic liên quan để các vùng để có thể phân đoạn một các chính xác

1.2.2 Một số kỹ thuật tiền xử lý trong phân tích cấu trúc trang ảnh

Trong một hệ thống nhận dạng nói chung và phân tích cấu trúc trang ảnh nói riêng, các bước tiền xử lý thường được thực hiện trước quá trình phân tích, nhận dạng Các kỹ thuật tiền xử lý thường được sử dụng bao gồm: Nhị phân hóa ảnh, căn chỉnh độ nghiêng, loại nhiễu, tách nền

1.2.2.1 Nhị phân ảnh

Trong thực tế, ảnh văn bản mà chúng ta nhận vào ban đầu để xử lý là ảnh màu Vì vậy, để có thể thực hiện được quá trình phân tích và nhận dạng, chúng ta cần phải chuyển chúng thành ảnh nhị phân trong đó mỗi điểm ảnh (pixel) được biểu diễn bởi một trong 2 giá trị là 0 hoặc 255 Đầu tiên, ảnh màu nhận vào sẽ được chuyển thành ảnh xám với các mức xám có giá trị từ 0 đến 255 dựa trên ba giá trị RED, GREEN, BLUE của ảnh đầu vào Từ ảnh xám này, chúng ta sẽ so sánh mức xám của từng điểm với một ngưỡng cho

Hình 1 5.b- Cấu trúc vật lý; c,d - Cấu trúc logic của một tài liệu

Trang 23

trước để quyết định điểm đó sẽ là 0 hoặc 255, giá trị 0 biểu diễn cho màu đen

và 255 biểu diễn cho màu trắng

Nhị phân ảnh (hay còn gọi là phân ngưỡng) là thao tác chuyển từ ảnh màu, ảnh đa cấp xám về ảnh nhị phân bằng cách tìm một ngưỡng: tổng quát hoặc cục bộ Kỹ thuật này đặt ngưỡng để hiển thị các tông màu liên tục Các điểm trong ảnh được so sánh với ngưỡng định trước Giá trị của ngưỡng sẽ quyết định điểm có được hiển thị hay không Do vậy ảnh kết quả sẽ mất đi một số chi tiết Có nhiều kỹ thuật chọn ngưỡng áp dụng cho các đối tượng khác nhau:

Hiển thị 2 màu: Chỉ dùng ảnh đen trắng có 256 mức xám Bản chất của

phương pháp này là chọn ngưỡng dựa trên lược đồ mức xám của ảnh Để đơn giản có thể lấy ngưỡng với giá trị là 127 Như vậy:

Trong đó u(m, n) là mức xám tại tọa độ i(m, n)

Nhìn chung kĩ thuật này khó chấp nhận vì ảnh mất khá nhiều chi tiết

Hiển thị 4 màu: Hiện 4 màu để khắc phục nhược điểm của kỹ thuật hiển

thị 2 màu Một ví dụ của bảng mã 4 màu được cho ở Bảng 1 1

Trang 24

1 Các phương pháp dựa vào hình dạng của histogram (Histogram Shape Based Thresholding Methods) Căn cứ vào hình dáng của histogram như: các đỉnh, các khe và độ cong (peaks, valleys and curvatures) để xác định ngưỡng

Vị trí lấy ngưỡng có thể là khe lõm nhất giữa hai đỉnh hay điểm cách xa đường thẳng nối hai đỉnh

2 Các phương pháp dựa vào việc chia nhóm (Clustering-Based Thresholding Methods) Các phương pháp loại này cố gắng chia ảnh ra làm hai nhóm tương ứng với nền và đối tượng dựa trên một số tiêu trí đánh giá

“khoảng cách” giữa hai nhóm hay giữa các phần tử trong mỗi nhóm

3 Các phương pháp dựa vào entropy (Entropy-Based Thresholding Methods) Trong kỹ thuật này người ta chọn ngưỡng dựa vào entropy dựa trên một số cơ sở như: cực đại các entropy (nền và đối tượng), cực tiểu các entropy lai (giữa ảnh gốc và ảnh nhị phân) hay độ đo entropy mờ

4 Các phương pháp dựa vào thuộc tính giống nhau (Thresholding Based on Attribute Similarity) Ngưỡng được xác định dựa độ đo các thuộc tính giống nhau của ảnh gốc và ảnh nhị phân, chẳng hạn như căn cứ vào các cạnh thỏa mãn, độ chặt của hình dáng, momen mức xám, khả năng liên kết, kết cấu…

5 Các phương pháp căn cứ vào không gian (Spatial Thresholding Methods) Sử dụng sự tương liên hoặc/và phân phối thống kê bậc cao giữa các pixel để chọn ngưỡng

6 Các phương pháp ngưỡng thích ứng cục bộ (Locally Adaptive Thresholding) Kỹ thuật này sẽ xác định ngưỡng t(x,y) cho từng điểm ảnh (x,y) riêng biệt căn cứ vào mối tương quan giữa điểm ảnh đó và các láng giềng của nó

Trang 25

1.2.2.2 Căn chỉnh độ nghiêng trang ảnh

Trong quá trình thu thập ảnh tài liệu, ảnh có thể bị nghiêng do đó cần phải căn chỉnh độ nghiêng của ảnh bằng các xác định góc nghiêng và xoay ảnh trở lại như ảnh gốc Các bước chỉnh độ nghiêng của ảnh được

mô tả như sau:

Thuật toán 1 1 Thuật toán chỉnh độ nghiêng

Input: Ảnh (nhị phân) bị nghiêng

Output: Ảnh đã chỉnh độ nghiêng

1 Xác định góc nghiêng

2 Xoay ảnh với góc nghiêng

Trong đó, xác định góc nghiêng là thao tác quan trọng nhất và cũng là thao tác khó khăn nhất Có nhiều phương pháp khác nhau để xác định góc nghiêng: Có thể trực tiếp dựa vào các thống kê, đánh giá góc nghiêng của các đối tượng trong ảnh hay phân tích, đánh giá trên ảnh đã được biến đổi Trong

đó có 3 phương pháp thường được sử dụng:Phương pháp biến đổi Hough, phương pháp láng giềng gần nhất và phương pháp sử dụng tia quay.Các phương pháp này sẽ được trình bày cụ thể ở phần tiếp theo

Sau khi đã xác định được góc nghiêng của ảnh sẽ thực hiện xoay ảnh với góc nghiêng đã xác định được quanh một vị trí gốc (tâm xoay) Tâm xoay thường lấy là điểm chính giữa của ảnh (w/2, h/2) Các bước được thực hiện theo Thuật toán 1 2

Thuật toán 1 2 Thuật toán xoay ảnh

Input:

1 Ảnh (nhị phân) bị nghiêng I

2 Góc nghiêng

Trang 26

Output: Ảnh đã chỉnh độ nghiêng I’

Duyệt tất cả các điểm ảnh g(x,y) trong ảnh I

1 Xác định vị trí mới g’(x’,y’) trong ảnh I’

2 Chuyển giá trị điểm ảnh: g’(x’,y’) = g(x,y)

1.2.2.3 Lọc nhiễu

Trong xử lý ảnh, nhiễu được coi là những phần tử ảnh mà giá trị của nó trội so với các phần tử xung quanh [1] Có rất nhiều nguồn tạo ra nhiễu, chẳng hạn như ống kính máy ảnh/ máy quét bị bẩn, sự thay đổi độ nhạy của đầu dò,

do sự biến đổi của môi trường, sai số lượng tử hóa hay sai số truyền Về cơ bản có thể chia thành một số loại nhiễu như sau:

Nhiễu cộng: nhiễu cộng thường phân bố khắp ảnh Nếu ta gọi ảnh

quan sát(ảnh thu được) là X_qs, ảnh gốc là X_gốc và nhiễu là η Ảnh thu được có thể biểu diễn bởi:

X_qs = X_gốc + η

Nhiễu nhân: Nhiễu nhân thường phân bố khắp ảnh Nếu ta gọi ảnh

quan sát (ảnh thu được) là X_qs, ảnh gốc là X_gốc và nhiễu là η Ảnh thu được có thể biểu diễn bởi:

X_qs = X_gốc × η

Nhiễu xung: Là sự kết hợp của nhiễu muối và nhiễu tiêu Có 2 loại:

nhiễu xung đơn cực và nhiễu xung lưỡng cực Nhiễu xung lưỡng cực

có hàm phân bố là:

Trang 27

Nếu b>a, mức xám b xuất hiện như là điểm sáng của ảnh, a là điểm tối Nếu a>b, ngược lại Nếu a=b=0 là nhiễu xung đơn cực

Nhiễu muối tiêu (Salt-pepper noise): Một ví dụ điển hình nhất của

loại nhiễu xung này - sẽ cho thấy rõ hơn tính chất “đột biến” của nó Các điểm ảnh bị nhiễu (noise pixel) có thể nhận các giá trị cực đại hoặc cực tiểu trong khoảng giá trị [0, 255] Với ảnh mức xám (gray scale), nếu một điểm ảnh có giá trị cực đại (tức cường độ sáng bằng 255) thì nó sẽ tạo ra một đốm trắng trên ảnh, trông giống như hạt

“muối” Và ngược lại nếu một điểm ảnh có giá trị cực tiểu (tức cường

độ sáng bằng 0) thì sẽ tạo ra một đốm đen, giống như “tiêu” Vậy nên còn gọi là ảnh muối tiêu Thông thường, khi nói một ảnh nhiễu muối tiêu 30% nghĩa là trong đó tỉ lệ các điểm ảnh nhiễu mang gia trị cực tiểu là 15% và cực đại là 15%

Nhiễu Gaussian: Bởi vì khả năng dễ ứng dụng toán của nó trong cả

lĩnh vực không gian và tần số, nhiễu Gaussian được sử dụng phổ biến trong thực tiễn Có hàm phân bố là:

Trong đó, z biểu diễn mức xám, µ là giá trị trung bình của z, σ là độ

Nhiễu Uniform: Được cho bởi:

Việc lọc nhiễu nhằm nâng cao chất lượng ảnh đầu vào, giúp cho các công đoạn sau tiến hành dễ dàng và chính xác hơn Các phương pháp lọc nhiễu điển hình thường được sử dụng như lọc trung bình (mean filter), lọc

Trang 28

trung vị (median filter),lọc hình học (geometric filter), lọc điều hòa (harmonic filter), lọc phi điều hòa (contraHamonical filter) [1], [19]

1.2.2.4 Tách nền

Trong bài toán phân tích cấu trúc trang, nền của ảnh được coi là những thành phần không có nghĩa nhưng lại có khả năng ảnh hưởng rất nhiều tới độ chính xác của việc phát hiện, bóc tách các trường thông tin Đối với bài toán nhận dạng văn bản truyền thống thì đầu vào thường có nền đồng nhất (màu sáng hoặc tối) và thao tác tách nền đôi khi không cần thiết Tuy nhiên, đối với bài toán nhận dạng thông tin trên các loại thẻ như CMND, hộ chiếu thì nền của ảnh không đồng nhất mà có các hoa văn rất phức tạp, thậm chí màu của các hoa văn nền và chữ có thể giống nhau Vì vậy, việc khử nền trước khi phân tích và xác định các đối tượng là khâu xử lý rất quan trọng Tùy thuộc vào từng bài toán, có thể áp dụng các kỹ thuật khác nhau chẳng như áp dụng

các toán tử hình thái (morphological operations), các phép lọc (lọc theo màu,

theo kích thước, hình dạng của đối tượng, v.v)

1.2.2.5 Các toán tử hình thái

Trong ảnh nhị phân, mỗi một điểm ảnh chỉ có hai mức xám (0 và 1) Do

đó có thể coi mỗi phần tử ảnh như một phần tử lôgic và có thể áp dụng các toán tử hình thái đối với nó Đầu vào của các toán tử hình thái thường là ảnh nhị phân (một số trường hợp là ảnh đa cấp xám) và phần tử cấu trúc (structuring element), kết hợp với việc sử dụng các toán tử tập hợp: hợp, giao, trừ và lấy phần bù Các thao tác xử lý (trên ảnh đầu vào) cơ bản dựa trên những đặc trưng hình dáng của đối tượng như: hình bao, xương ảnh, bao lồi… dưới sự giám sát của phần tử cấu trúc

Phần tử cấu trúc là một mặt nạ dạng bất kỳ, chỉ chứa thành phần đối tượng (thiết lập là 1) và thành phần “không quan tâm” (được để trống) Trong

Trang 29

một số trường hợp, phần tử cấu trúc có thể chứa thành phần là nền (mang trị

số 0) Có thể hiểu phần tử cấu trúc như là một tập tọa độ các điểm (kích thước nhỏ) chứa một gốc tọa độ (thường ở vị trí giữa) Ví dụ trên Hình 1.6 là một phần tử cấu trúc kích thước 3x3

Hình 1.6 Phần tử cấu trúc 3 3

Tất cả các toán tử hình thái đều là sự phối hợp của hai toán tử cơ bản:

giãn ảnh (dilation) và co ảnh (erosion) Có nhiều cách khác nhau để định

nghĩa các toán tử hình thái (giãn ảnh và co ảnh) Giả sử g(x, y) là ảnh nhị phân

nghĩa như sau:

n m H n y m x g y

x

n m

n m H n y m x g y

x

n m

tử AND và (m, n) là tọa độ các điểm trong phần tử cấu trúc

Hiệu ứng cơ bản của toán tử giãn ảnh trên ảnh nhị phân là sự mở rộng dần dần đường biên của các đối tượng ảnh (thường là các điểm ảnh màu trắng) Do đó kích thước của các đối tượng ảnh tăng lên trong khi lỗ hổng bên trong đối tượng và khoảng cách giữa các đối tượng thì giảm xuống Mức độ

Trang 30

giãn nở được quy định bởi tích chất của phần tử cấu trúc Hình 1.7 thể hiện phép giãn ảnh với phần tử cấu trúc kích thước 3x3 đã cho ở trên

Hình 1.7 Phép giãn ảnh với phần tử cấu trúc 3x3

Trong khi đó phép co có hiệu ứng đối ngược lại, phép co ảnh làm cho các đường biên của đối tượng bị “xói mòn”, dẫn đến kích thước của các đối tượng trong ảnh giảm đi Khoảng cách giữa các đối tượng thì tăng lên và lỗ hổng trong mỗi đối tượng thì được mở rộng ra Mức độ bào mòn của các đối tượng cũng được quy định bởi tính chất của phần tử cấu trúc Hình 1.8 thể hiện phép co ảnh với phần tử cấu trúc kích thước 3x3

Hình 1.8 Phép co ảnh với phần tử cấu trúc 3x3

Nếu sử dụng các phép co ảnh và giãn ảnh một cách riêng lẻ thì sẽ làm mất đi các đặc trưng (hình dạng, kích thước) của ảnh Do đó người ta thường kết hợp hai phép toán này với nhau, bằng cách: co bao nhiêu lần thì giãn bấy nhiêu lần và ngược lại Một trong số những cách kết hợp đó được gọi là phép

opening và closing, hai phép toán này đối xứng nhau Phép toán opening

được định nghĩa như sau (thứ tự thực hiện là: co ảnh trước rồi mới giãn ảnh)

Trang 31

Còn closing được định nghĩa (giãn rồi mới co):

Hiệu ứng của hai phương pháp này tương tự như hiệu ứng của phương pháp co ảnh và giãn ảnh (opening tương đương với co ảnh còn closing tương đương với giãn ảnh) nhưng mức độ co/giãn thấp hơn

Toán tử opening sẽ xóa các điểm ảnh có kích thước nhỏ (nhỏ hơn hoặc bằng kích thước phần tử cấu trúc) trong khi vẫn dữ được các đặc trưng của các đối tượng trong ảnh Không làm giảm kích thước của các đối tượng, chỉ xóa điểm ảnh là gai xung quanh viền đối tượng Do đó nó thường được xử dụng để xóa nhiễu trong ảnh (các nhiễu hạt tiêu) Trong một số trường hợp nó

sẽ xóa đi các liên kết “mảnh” giữa các đối tượng, ví dụ như chỗ dính nhau giữa các ký tự

Toán tử closing thường dùng để nối các nét bị đứt trong đối tượng và lấp đầy các lỗ hổng bên trong đối tượng trong khi vẫn giữ được hình dạng và kích thước của đối tượng Khi kích thước của phần tử cấu trúc lớn hơn khoảng cách giữa hai đối tượng, thì hai đối tượng này được nối với nhau nhưng hình dạng chung của khối (chứa hai đối tượng) không thay đổi Dựa vào tính chất

này để nối các ký tự trên cùng một dòng văn bản trong ảnh với nhau

1.2.3 Một số hướng tiếp cận trong phân tích cấu trúc trang văn bản

Có rất nhiều phương pháp phân tích cấu trúc ảnh đã được đề xuất nhưng

về cơ bản có thể được chia làm ba hướng tiếp cận chính là hướng tiếp cận từ trên xuống (top-down approaches), hướng tiếp cận từ dưới lên (bottom-down approaches) và hướng tiếp cận kết hợp

Hướng tiếp cận từ trên xuống:Thường bắt đầu từ toàn bộ trang ảnh đầu

vào và phân tách nó thành các vùng nhỏ dần cho đến khi thỏa mãn các điều kiện cho trước hoặc các vùng thu được là đồng nhất Hướng tiếp

Trang 32

cận này có ưu điểm là tốc độ thực thi nhanh nhưng chúng chỉ hữu ích trong trường hợp đã có tri thức về cấu trúc của trang ảnh cần phân tích Các thuật toán phân tích từ trên xuống điển hình gồm các thuật toán sử dụng phép chiếu, thuật toán X-Y Cut, thuật toán white streams

Hướng tiếp cận từ dưới lên: Bắt đầu từ các điểm ảnh, ghép chúng

thành các vùng đồng nhất lớn hơn (các thành phần liên thông, ký tự, dòng, khối văn bản, v.v) Hướng tiếp cận này có ưu điểm là linh hoạt

và có khả năng chịu được độ nghiêng của trang ảnh (thậm chí là nghiêng nhiều) nhưng chậm hơn so với phương pháp có hướng tiếp cận từ trên xuống Các thuật toán phân tích từ dưới lên điển hình gồm thuật toán Docstrum đề xuất bới O’Gorman, thuật toán dựa trên biểu

đồ Voronoi của Kise và cộng sự, thuật toán run-length smearing của Wahl và cộng sự…

Hướng tiếp cận kết hợp: Được đề xuất nhằm mục đích tận dụng được

các ưu điểm của hai hướng tiếp cận trên Điển hình của hướng tiếp cận

này chính là thuật toán spit-and-merge đề xuất bởi Pavlidis and Zhou…

1.3 Kết luận

Trong chương này, luận văn đã trình bày một cách tóm lược tổng quan

về nhận dạng văn bản và bài toán phân tích cấu trúc trang ảnh Bên cạnh đó, luận văn cũng đã tìm hiểu, khảo sát về các phương pháp phân tích cấu trúc trang theo 3 hướng tiếp cận chính: Từ dưới lên (bottom-up), từ trên xuống (top-down) và các hướng tiếp cận kết hợp Các khảo sát thực nghiệm cho thấy bước tiền xử lý, tăng cường chất lượng ảnh đầu vào là một trong những bước

xử lý quan trọng trong quy trình thực hiện của một hệ thống phân tích cấu trúc trang ảnh nói chung Dựa trên cơ sở những vấn đề tìm hiểu trong chương này, trong chương tiếp theo, luận văn sẽ tiến hành một số các kỹ thuật trong phân tích cấu trúc ảnh tài liệu và tiến hành phân tích cấu trúc của ảnh CMND

Trang 33

CHƯƠNG 2: MỘT SỐ KỸ THUẬT PHÂN TÍCH CẤU TRÚC, ỨNG DỤNG TRONG PHÁT HIỆN VÀ BÓC TÁCH CÁC TRƯỜNG THÔNG TIN TRÊN ẢNH TÀI LIỆU

Trong chương này, luận văn sẽ tập trung tìm hiểu một số kỹ thuật đã và đang được ứng dụng thành công cho bài toán phân tích cấu trúc trang ảnh nói chung và trang văn bản nói riêng Nội dung của chương này sẽ là nền tảng cơ

sở cho những đề xuất trong bài toán ứng dụng cụ thể: Phân tích cấu trúc ảnh chứng minh nhân dân sẽ được đề cập cụ thể trong phần tiếp theo

2.1 Kỹ thuật X-Y Cut

Thuật toán X-Y Cut [10]còn được gọi là thuật toán đệ quy X-Y Cut (RXYC) RXYC là thuật toán đi từ trên xuống dựa vào một cây cơ sở Ở đây, gốc của cây cơ sở đại diện cho toàn bộ trang tài liệu Tất cả các lá cùng đại diện cho các phần phân khúc Thuật toán X-Y Cut chia tách các tài liệu thành hai hay nhiều khối chữ nhật đại diện cho nút của cây

Thuật toán X-Y Cut được sử dụng để phân khúc trang tài liệu trong hệ thống ORC Khi một tài liệu được scan, ảnh của file scan sẽ xuất hiện “noise”

có thể gọi là hiện tượng nhiễu Làm cho file ảnh vừa scan bị lệch đi nhiều hay

ít so với bản gốc, gây khó khăn cho việc phân đoạn tài liệu.Thuật toán X-Y Cut là một trong những thuật toán được đưa ra để giải quyết tình trạng này Nội dungvà cách thực hiện thuật toán này rất đơn giản: các điểm ảnh của hình ảnh trong tài liệu sẽ được chiếu theo phương thẳng đứng và phương ngang Sau đó chúng ta sẽ nhận diện khoảng trắng lớn nhất có thể trong hình chiếu này và tại đó ta thực hiện chia hình ảnh thành 2 ảnh phụ Ta lặp lại phương pháp này theo qui tắc đệ qui/một cách đệ qui cho đến khi hoàn thành một tiêu chí nào đó

Sửdụng kỹ thuật nàychúng ta sẽ có được một chuỗi các phần theo phương ngang và dọc.Những phần này phân hình ảnh ra thành nhiều phần

Trang 34

Nếu chúng ta thu nhỏ những phần này thành các hình tam giác nhỏ nhất có thể chứa đựng tất cả các điểm ảnh đen thì ta sẽ thu được nhiều khối khác nhau Tùy thuộc vào tiêu chuẩn dừng mà ta sẽ có được các khối to hay nhỏ Tuy nhiên, phương pháp này có những hạn chế nhất định Có một vài vấn đề với thiết bị chia tách tuyến cũng như viền sao chép đen điển hình trong việc quét và sao chép những trang sách Trong trường hợp tồn tại những viền này, thuật toán sẽ không cắt bất cứ phần nào bởi vì nó không thể tìm thấy bất

cứ lỗ hổng (khoảng trống) nào Đó là lý do vì sao trước tiên chúng ta phải loại

bỏ những viền đen ra khỏi dữ liệu hình ảnh trước khi chạy thuật toán X-Y Cut Nó cũng có thể chỉ phân đoạn được các sơ đồ Manhattan.Vấn đề này có thể khắc phục bằng thuật toán X-Y Cut cải tiến như sau:

Thuật toán 2 1 Thuật toán X-Y Cut cải tiến

Input: Ảnh sau khi được quét

Output: Ảnh được xử lý thành từng khối chữ nhật

Bước 1 Loại bỏ nhiễu ở biên của phân đoạn;

Lấy các tài liệu quét;

Chọn một điểm ảnh (X,Y) từ tài liệu và nhận được và kết nối với những điểm ảnh tương ứng, làm như vậy cho 8 điểm ảnh xung quanh ta có được giá trị của các điểm ảnh còn lại (X-1,Y),Right( X+1,Y),Top(X, Y+1), Bottom(X,Y-1) và điểm ảnh bốn chéo {(X-1,Y-1),(X+1,Y-1),(X-1,Y+1),(X+1,Y+1)};

Nếu tất cả các điểm ảnh kết nối là màu đen sau đó thay đổi tất cả các điểm kết nối với màu trắng và tiếp tục này quá trình cho đến khi toàn

bộ tài liệu được bao phủ bằng cách khác quá trình điểm ảnh tiếp theo

và lặp lại bước 1

Trang 35

Bước 2 Tạo bảng tổng hợp tiền tố cho hệ thống OCR;

Bước 3 Tạo biểu đồ cho các giá trị điểm ảnh tại mỗi nút;

Bước 4 Tạo một giá trị ngưỡng (Tx, Ty) tương ứng với trục x và trục Y; Bước 5 So sánh (Tx, Ty) với thung lũng biểu đồ (Vx và Vy )

Kết quả thực hiện của thuật toán X-Y Cut cải tiến với một ảnh tài liệu

Hình 2 1 a) Ảnh gốc b) Kết quả thực hiện của thuật toán X-Y Cut

2.2.Kỹ thuật Smearing

Thuật toán Smearing Còn gọi là RLSA(The run-length smearing algorithm)[20],thuật toán này dựa trên việc làm nhòe/mờ các ảnh điểm đen

Trang 36

trên một hình ảnh nhị phân Quá trình này sẽ làm mờ các điểm ảnh đen trên một trang mà theo đó các điểm ảnh trắng nhỏ sẽ bị làm đen Thuật toán được

mô tả cụ thể như sau:

Thuật toán 2 2: Thuật toán RLSA

Input: Ảnh sau khi được quét: I

Output: Ảnh J chứa các vùng thông tin được xác định

Bước 1: Nhị phân ảnh đầu vào

+ Các điểm trắng (white pixels) được thể hiện bằng giá trị 0

+ Các điểm đen (black pixels) được thể hiện bằng giá trị 1

Bước 2: I 1 Ảnh I được làm mờ theo phương ngang với giá trị ngưỡng Th

Bước 3: I 2 Ảnh I được làm mờ theo phương thẳng đứng với ngưỡng Tv

Bước 4: J I 1 AND I 2

Bước 5: Làm mờ ảnh J theo phương ngang với ngưỡng Ts

Bước 6: Liên kết các các thành phần liên thông thành các vùng văn bản

Việc làm mờ sẽ được thực hiện dựa trên 2 quy tắc đơn giản:

Quy tắc 1: Bit 0 sẽ được chuyển thành 1 nếu số liền sát 0 nhỏ hơn

hoặc bằng với ngưỡng C nhất định (nếu độ dài một chuỗi của 0 nhỏ hơn hoặc bằng với một ngưỡng, thì 0 sẽ được đổi thành 1)

Quy tắc 2: Bit 1 không đổi

Xem xét ví dụ dưới đây, khi 0 tượng trưng cho điểm ảnh trắng và 1 tượng trưng cho điểm ảnh đen, dòng đầu tiên thể hiện chuỗi điểm ảnh nguyên bản và dòng thứ 2 là kết quả thu được sau khi sử dụng phương pháp làm mờ Ngưỡng làm mờ C=4

0 0 0 1 0 0 0 0 0 1 0 1 0 0 0 0 1 0 0 0 0 0 0 0 1 1 0 0 0

1 1 1 1 0 0 0 0 0 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 1 1 1 1 1

Trang 37

Đầu tiên, toàn bộ dữ liệu hình ảnh sẽ được làm mờ theo phương ngang

được cố định qua kinh nghiệm thực hành Sau đó, 2 hình ảnh nhị phân này sẽ

được kết nối lại bởi phép toán điểm ảnh thông minh AND Sau đó hình ảnh

nhị phân này sau đó sẽ được làm trơn một lần nữa bằng thuật toán làm mờ với

a) Ảnh đầu vào a) b) Làm làm mờ theo phương

ngang với ngưỡng T h = 300

c) Làm mờ theo phương dọc với ngưỡng T v = 300

Trang 38

Sau bước sẽ tiến hànhphân tách các vùng giới hạn thông qua phương pháp phân tích các thành phần liên thông Đây được coi là bước nhập liệu hình ảnh và đặt lại các thành phần liên thông vào các vùng tương ứng Một thành phần liên kết sẽ bao gồm một chuỗi các điểm ảnh liên thông với nhau Chúng ta sẽ xem xét các điểm ảnh theo 4 hướng: phía trên, phía dưới, bên trái

và bên phải, còn được gọi chung là 4-vùng lân cận (trái ngược với 8-vùng lân cận kể cả các vùng chéo) Các vùng liên thông được xác định là những vùng hình chữ nhật với kích thước nhỏ nhất có thể bao gồm tất cả các điểm ảnh của

thành phần liên kết đó

2.3 Kỹ thuật Whitespace

Thuật toán Whitespace[9] sử dụng một phương pháp khác để phân đoạn trang: đó là thay vì sử dụng khu vực in đen để phân chia, kỹ thuật này sẽ tìm những khoảng trắng giữa các cột và tuyến nhằm thực hiện việc phân chia dữ liệu hình ảnh

Thuật toán 2 3 Thuật toán Whitespace

Input: Ảnh sau khi được quét

Output: Ảnh gồm những khung giới hạn tạo bởi hình chữ nhật màu trắng

1 Bước đầu tiên là tìm một tập hợp các hình chữ nhật màu trắng tối đa 2.Xếp hạng những hình này dựa theo khu vực và tỉ lệ bên ngoài chúng

Bước đầu tiên đó là tìm tất cả các hình chữ nhật màu trắng nhiều nhất có thể Đây là những hình không thể mở rộng kích cỡ nếu như không thêm vào 1 hoặc nhiều điểm ảnh đen Tiếp sau đó, ta sẽ được xếp hạng những hình này dựa theo khu vực và tỉ lệ bên ngoài chúng Một hình chữ nhật N tốt nhất sẽ được chọn làm phần mô tả cho bối cảnh Các khối ngoài phần mô tả này có thể bị tách ra

Trang 39

Điểm khác nhau chính giữa phương pháp của Baird và Breuel chính là các bước tìm hình chữ nhật Một số ít các tham biến sẽ thay đổi nhưng cách tiếp cận vẫn giữ nguyên

Hình 2 3 Tài liệu ảnh trước khi xử lý Tài liệu ảnh sau khi được xử lý

2.4 Kỹ thuật Docstrum

Thuật toán Dostrum[17]là một kỹ thuật phân tích cấu trúc theo hướng tiếp cận từ dưới lên dựa trên việc phân cụm các thành phần liên thông bằng phương pháp k-láng giềng gần nhất.Thuật toán được mô tả cụ thể như sau:

Thuật toán 2 4: Thuật toán Dostrum

Input: Ảnh sau khi được quét: I

Output: Ảnh chứa các vùng thông tin được xác định

Bước 1: Tiền xử lý (nhị phân ảnh, tăng cường chất lượng ảnh đầu vào)

Bước 2: Xác định các thành phần liên thông cơ bản và trọng tâm của chúng Bước 3: Đối với mỗi thành phần liên thông, xác định k-láng giềng gần nhất

của nó, và trích chọn các láng giềng trong cùng 1 dòng

Bước 4: Tạo ra các dòng phù hợp

Bước 5: Điều chỉnh lại các dòng

Trang 40

Bước xử lý đầu tiên nhằm tiến hành nhị phân ảnh, căn chỉnh độ nghiêng

và tăng cường chất lượng Trong bước xử lý tiếp theo, các thành phần liên thông quá lớn hoặc quá nhỏ sẽ được loại bỏ Thực tế, những thành phần quá lớn thường là các vùng ảnh và các thành phần quá nhỏ thường là nhiễu hoặc một số loại dấu chấm (dấu chấm câu, dấu của chữ i) Các thành phần này có thể gây nhiễu cho quá trình xác định trọng tâm của dòng nên sẽ được tạm thời loại bỏ kết quả thực hiện của bước này được thể hiện cụ thể trênHình 2 4

a) Phân tích các thành phần

liên thông

b) Loại bỏ các thành phần quá lớn và quá nhỏ

c) Xác định trọng tâm của

các dòng

Hình 2 4 Xác định các thành phần liên thông, trọng tâm của các dòng

Kỹ thuật Dostrum thực hiện dựa trên những thành phần liên kết thường thể hiện các đặc tính riêng rẽ, một phần của một đặc tính (đặc điểm), và hợp nhất các đặc tính cũng như một số dấu hiệu chấm câu Với mỗi thành phần liên kết này, ta sẽ tính toán số k-các điểm lân cận gần nhất Đầu tiên, số k-các điểm lân cận gần nhất sẽ tính số thành phần liên kết gần nhất so với thành phần liên kết đầu tiên sử dụng một số khối khoảng cách Trong trường hợp này sẽ sử dụng khoảng cách Euclidean và số k được cho bằng 5 Như vậy, với mỗi thành phần liên kết ta sẽ có 5 vùng lân cận và một khoảng cách d, và chúng ta có thể ước tính một góc θ Do đó, với mỗi cặp thành phần liên kiết i

và j ta có Dij(d, θ)

Định dạng
Số trang	82
Dung lượng	2,57 MB

nghiên cứu phương pháp phân tích cấu trúc ảnh màu, ứng dụng trong nhận dạng chứng minh nhân dân

Các toán tử hình thái

Kỹ thuật dựa trên lƣợc đồ Voronoi