1. Trang chủ
  2. » Luận Văn - Báo Cáo

nghiên cứu một số kỹ thuật hiệu chỉnh form tài liệu

80 546 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 80
Dung lượng 2,27 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Để hoạt động tốt, nhận dạng các tài liệu với độ chính xác cao, thì hệ thống cần phải tự động nâng cao chất lượng hình ảnh của form tài liệu, hiệu chỉnh góc nghiêng, hiệu chỉnh độ dịch ch

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG

Luận văn Thạc sỹ Công nghệ Thông tin

Người hướng dẫn khoa học:

PGS TS ĐỖ NĂNG TOÀN

ĐỒNG NAI, 2013

Trang 3

LỜI CẢM ƠN

Trước hết tôi xin gởi lời cảm ơn chân thành tới thầy PGS.TS Đỗ Năng Toàn, người thầy hướng dẫn khoa học, định hướng nghiên cứu và tận tình hướng dẫn cho tôi trong suốt quá trình làm luận văn Nếu không có thầy, tôi khó có thể hoàn thành luận văn này

Bên cạnh đó, tôi cũng muốn gửi lời cảm ơn đến các thầy cô đang làm việc tại khoa Công nghệ Thông tin trường Đại học Lạc Hồng đã quan tâm chỉ bảo và trực tiếp giảng dạy lớp cao học khóa 3

Tôi xin chân thành cảm ơn Ban giám hiệu trường THCS Phú Mỹ Hưng đã tạo điều kiện thuận lợi và hỗ trợ cho tôi trong việc thu thập số liệu của trường để phục vụ cho nhu cầu luận văn

Cuối cùng, tôi xin cảm ơn gia đình và bạn bè, đặc biệt là thành viên của lớp CHK3 – Đại học Lạc Hồng - những người đã luôn ủng hộ và động viên để tôi yên tâm nghiên cứu và hoàn thành luận văn

Nguyễn Minh An

Trang 4

LỜI CAM ĐOAN

Tôi xin cam đoan luận văn: “Nghiên cứu một số kỹ thuật hiệu chỉnh form tài liệu” là kết quả quá trình học tập, nghiên cứu khoa học độc lập, nghiêm túc

Các số liệu trong luận văn là trung thực, có nguồn gốc rõ ràng, được trích dẫn

và có tính kế thừa, phát triển từ các tài liệu, tạp chí, các công trình nghiên cứu đã được công bố, các website, …

Các phương pháp nêu trong luận văn được rút ra từ những cơ sở lý luận và quá trình nghiên cứu tìm hiểu của tác giả

Đồng Nai, tháng 06 năm 2013

Tác giả

Nguyễn Minh An

Trang 5

TÓM TẮT LUẬN VĂN

Một tệp tin ảnh sau khi scan để nhận dạng thành văn bản số thì giai đoạn tiền

xử lí như lọc nhiễu, hiệu chỉnh độ nghiêng, hiệu chỉnh độ lệch là nhu cầu cần thiết

Về kỹ thuật lọc nhiễu, luận văn giời thiệu các kỹ thuật lọc tuyến tính và phi tuyến tính Hiệu chỉnh độ dịch chuyển giới thiệu kỹ thuật so sánh histogram Về phương pháp khử nghiêng, luận văn tìm hiểu các phương pháp phân tích hình chiếu, biến đổi Hough, phân tích láng giềng và phép toán hình thái Các thuật toán nghiên cứu trong luận văn được áp dụng vào hiệu chỉnh form điểm tại trường THCS Phú Mỹ Hưng và bước đầu thu được những kết quả nhất định

Trang 6

MỤC LỤC

LỜI CẢM ƠN

LỜI CAM ĐOAN

TÓM TẮT LUẬN VĂN

MỤC LỤC

PHẦN MỞ ĐẦU 1

-Chương 1: KHÁI QUÁT FORM TÀI LIỆU VÀ BÀI TOÁN HIỆU CHỈNH FORM TÀI LIỆU 4

-1.1 Khái quát về Form tài liệu 4

-1.1.1 Form tài liệu là gì? 4

-1.1.2 Phân loại form tài liệu 4

-1.1.2.1 Ảnh trắng, đen 4

-1.1.2.2 Ảnh màu 4

-1.2 Thu nhận và biểu diễn form tài liệu 5

-1.2.1 Thu nhận form tài liệu 5

-1.2.2 Cấu trúc Form tài liệu 5

-1.2.2.1 Mào đầu tệp(Header) 5

-1.2.2.2 Dữ liệu nén (Data Compression) 5

-1.2.2.3 Bảng màu (Palette color) 5

-1.2.3 Một số phương pháp biểu diễn Form tài liệu 5

-1.2.3.1 Mã loạt dài (Run – Length code) 5

-1.2.3.2 Mã xích (Chain Code) 6

-1.2.3.3 Mã tứ phân (Quad Tree Code) 7

-1.3 Bài toán hiệu chỉnh Form tài liệu 7

-1.3.1 Một số vấn đề trong hiệu chỉnh form tài liệu 7

-1.3.2 Một số cách tiếp cận trong hiệu chỉnh form tài liệu 7

-1.3.2.1 Nhiễu form tài liệu 7

-1.3.2.2 Khử nhiễu 8

Trang 7

Chương 2: HIỆU CHỈNH FORM TÀI LIỆU 15

-2.1 Độ dịch chuyển của form tài liệu 15

-2.1.1 Giới thiệu 15

-2.1.2 Phát hiện độ dịch chuyển của form tài liệu 16

-2.1.3 Hiệu chỉnh độ dịch chuyển form tài liệu 17

-2.1.3.1 Phương pháp thứ nhất 19

-2.1.3.2 Phương pháp thứ hai 20

-2.2 Độ nghiêng của form tài liệu 22

-2.2.1 Giới thiệu 22

-2.2.2 Một số thuật toán và phát hiện góc nghiêng văn bản 23

-2.2.2.1 Thuật toán dựa vào phân tích hình chiếu (Projection Profile) 23 -2.2.2.2 Các thuật toán dựa vào biến đổi Hough (Hought Transform) 28

-2.2.2.3 Các thuật toán phân tích láng giềng (nearest Neighbour Clustering)

35

-2.2.2.4 Phương pháp dùng phép toán hình thái 41

Chương 3: CHƯƠNG TRÌNH THỬ NGHIỆM 48

-3.1 Bài toán 48

-3.2 Phân tích bài toán 48

-3.2.1 Module File 49

-3.2.2 Module Basic 50

-3.2.3 Module Filter 51

-3.2.4 Module Skew Detection 51

-3.3 Một số kết quả hiệu chỉnh form tài liệu 52

PHẦN KẾT LUẬN 60 -TÀI LIỆU THAM KHẢO

PHỤ LỤC (Một số định dạng form tài liệu)

P.1 Định dạng ảnh IMG

P.2 Định dạng ảnh PCX

P.3 Định dạng ảnh TIFF

P.4 Định dạng ảnh GIF

P.5 Định dạng ảnh Bitmap

Trang 8

DANH MỤC HÌNH, BẢNG

Hình 1.1 Ảnh nhị phân và các biểu diễn mã loạt dài tương ứng -6-

Hình 1.2: Minh hoạ mã xích -7-

Hình 1.3 Các toán tử gờ sai phân -12-

Hình 1.4 Sơ đồ bộ lọc thông cao -13-

Hình 1.5 Một số nhân chập trong lọc thông cao -13-

Hình 1.6 Bảng điểm qua lọc thông cao -14-

Hình 2.1 Bảng điểm bị dịch chuyển sau khi scan -15-

Hình 2.2 Mô hình histogram dọc của bảng điểm mẫu -16-

Hình 2.3 Mô hình histogram dọc của bảng điểm cần nhận dạng -16-

Hình 2.4 Mô hình histogram của bảng điểm mẫu và bảng điểm cần nhận dạng được xếp trên cùng một trục tọa độ -17-

Hình 2.5 Ảnh mẫu và ảnh cần nhận dạng -19-

Hình 2.6 Mô hình histogram dọc của bảng điểm mẫu -20-

Hình 2.7 Mô hình histogram ngang của bảng điểm cần nhận dạng -20-

Hình 2.8 Mô hình histogram của bảng điểm mẫu và bảng bảng điểm cần nhận dạng được xếp trên cùng một trục tọa độ -21-

Hình 2.9 Ảnh sau khi scan bị nghiêng -22-

Hình 2.10 Cấu trúc của dòng văn bản -23-

Hình 2.11 Phép chiếu ngang và chiếu dọc của trang tài liệu -24-

Hình 2.12 Phép chiếu dọc của dòng văn bản -24-

Hình 2.13 Phép chiếu dọc của dòng văn bản -24-

Hình 2.14 Đường thẳng Hough trong toạ độ cực -33-

Hình 2.15 Biến đổi Hough phát hiện góc nghiêng -34-

Hình 2.16 Các đối tượng trên ảnh -36-

Hình 2.17 Phân cụm các đối tượng -36-

Hình 2.18 NNC của hình có K=2, (b)K=3, (c)K4 -39-

Hình 2.19 Ảnh (d)đường kết nối với K=2 (e)đường kết nối với K=3 (f)đường kết nối với K4 -39-

Trang 9

Hình 2.21 Những khoảng góc nghiêng khác nhau được sử dụng để ước lượng góc

nghiêng phù hợp cho phần tử cấu trúc -44-

Hình 2.22 Một thành phần liên thông dài với hệ tọa độ ảnh -45-

Hình 3.1 Sơ đồ khối -48-

Hình 3.2 Giao diện chương trình thử nghiệm -49-

Hình 3.3 Giao diện Module file -50-

Hình 3.4 Giao diện Module Basic -50-

Hình 3.5 Giao diện Module Filter -51-

Hình 3.6 Giao diện Module Skew Detection -52-

Hình 3.7 Bảng điểm sau khi scan chưa được xử lí -53-

Hình 3.8 Bảng điểm sau khi chuyển sang ảnh xám -53-

Hình 3.9 Bảng điểm sau khi chuyển nhị phân -54-

Hình 3.10 Bảng điểm sau khi được lọc trung bình không gian -54-

Hình 3.11 Bảng điểm sau khi được lọc thông thấp -55-

Hình 3.12 Bảng điểm sau khi được lọc đồng hình -55-

Hình 3.13 Phát hiện độ nghiêng bảng điểm bằng Hough -56-

Hình 3.14 Phát hiện độ nghiêng bảng điểm bằng phân tích láng giềng -56-

Hình 3.15 Phát hiện độ nghiêng bảng điểm bằng phân tích hình chiếu -57-

Hình 3.16 Hình sau khi thực hiện phép quay -57-

Hình 3.17 File hình được lưu lại sau khi thực hiện phép quay -58-

Bảng 1.1 Bảng so sánh kết quả áp dụng các thuật toán vào hiệu chỉnh độ nghiêng bảng điểm

Trang 10

-59-PHẦN MỞ ĐẦU

1 Lý do thực hiện đề tài

Với sự phát triển như vũ bão của ngành công nghệ thông tin, hiện nay, hầu hết các lĩnh vực đều có sự hiện diện của máy tính điện tử: từ việc tự động hóa các công việc văn phòng đến việc điều khiển robot, thám hiểm vũ trụ,

Cùng theo sự phát triển đó, nhận dạng và xử lí ảnh là một lĩnh vực ngày càng nhiều các nhà khoa học quan tâm Các công việc được lưu trữ theo lối cổ truyền như giấy, gỗ, vải,… chứa đựng một lượng lớn tri thức của nhân loại lại không có độ bền vĩnh cửu, khó

xử lí và lưu trữ Song song đó, các tài liệu như: sách, báo, văn bản, biểu mẫu,… khi lưu trữ phải tốn nhiều thời gian và tiền bạc cho việc nhập các tài liệu đó Vậy, sao chúng ta không nghĩ đến việc dùng máy scan để quét các tài liệu đó vào máy tính và dùng các kỹ thuật xử lí ảnh để chúng thành các văn bản một cách tự động?

Một giải pháp đó là xây dựng một hệ thống nhận dạng chữ, trong các tấm ảnh chứa chữ và các đối tượng đồ họa cần tách và chuyển thành dạng trang văn bản, mở và xử lí được trên các trình soạn thảo văn bản Để hoạt động tốt, nhận dạng các tài liệu với độ chính xác cao, thì hệ thống cần phải tự động nâng cao chất lượng hình ảnh của form tài liệu, hiệu chỉnh góc nghiêng, hiệu chỉnh độ dịch chuyển, … của form tài liệu

Thực tế bản thân em là một giáo viên tin học, em nhận thấy nhu cầu tại đơn vị rất cần việc chuyển từ dữ liệu giấy sang dữ liệu số để lưu trữ các hồ sơ văn phòng tại đơn vị

là cần thiết Song song đó, xuất phát từ ý tưởng: các bài kiểm tra, bài thi của học sinh nếu được dùng máy scan để quét vào máy tính và thông qua một hệ thống nhận dạng và xử lý chuyển các bài kiểm tra từ văn bản giấy sang văn bản số Đồng thời, ta xây dựng một hệ thống nhằm so sánh nội dung bài kiểm tra, bài thi với đáp án có sẵn và hệ thống sẽ đưa ra các phương án chấm bài cho học sinh thì việc tự động hóa công việc chấm bài cho học sinh sẽ giúp đỡ giáo viên một phần rất đáng kể

Nhưng để làm được việc trên, một ảnh tài liệu sau khi đưa vào máy tính từ các thiết

bị như: scanner, camera,…sẽ bị nhiễu, bị nghiêng hay bị lệch do nhiều cách, có thể là do

để giấy vào máy quét hay máy fax không chính xác hay ảnh tài liệu có phương ngang có thể bị quét theo phương dọc do kích thước máy quét không đủ,…

Trang 11

độ lệch, hiệu chỉnh độ nghiêng,… trước khi tiến hành nhận dạng và xử lý các ảnh tài liệu này Xuất phát từ ý tưởng trên, luận văn sẽ nghiên cứu một số kỹ thuật hiệu chỉnh form tài liệu nhằm giúp cho việc nhận dạng các tài liệu đạt chất lượng cao Sau khi hoàn thành luận văn, em sẽ tiếp tục học tập và nghiên cứu để phát triển lên hệ thống chấm điểm các bài kiểm tra dạng tự luận một cách tự động

 Tình hình nghiên cứu trong nước liên quan đến đề tài:

- Đề tài “Thiết kế và cài đặt hệ thống nhập liệu tự động -MarkRead dựa trên các

kỹ thuật nhận dạng và xử lý ảnh”, PGS.TS Đỗ Năng Toàn, Viện Công Nghệ Thông Tin, năm 1999-2000

- Luận văn Thạc sĩ “Nghiên cứu bài toán phân trang dựa vào ảnh quét tiếng việt”, Phạm Tuyết Trinh, ĐH KHTN TP.HCM, 1999

 Tình hình nghiên cứu ngoài nước liên quan đến đề tài:

- “Using White Space for Automated Document Structuring”, Daniela Rus and Kristen Summers, Department of Computer Science Cornell University, 1994

- “Document image analysis: A primer”, RANGACHAR KASTURI, LAWRENCE O’GORMAN and VENU GOVINDARAJU, Department of Computer Science & Engineering, The Pennsylvania State University, University Park, PA 16802, USA, 2002

- “Document Structure and Layout Analysis”, Anoop M Namboodiri and Anil K Jain, International Institute of Information Technology, Hyderabad, 500 019, India

- A Knowledge-Based Approach to the Layout Analysis, Floriana Esposito, Donato Malerba and Giovanni Semeraro, Dipartimento di Informatica - Universitd degli Studi - via Orabona, 4 - 70126 Bari, Italy

Nhận xét:

Mặc dù trong và ngoài nước hiện đang nghiên cứu nhiều lĩnh vực form tài liệu, nhưng chưa có một công trình nghiên cứu nào phát triển chuyên sâu và đầy đủ các kỹ thuật hiệu chỉnh form tài liệu để từ đó có thể giúp em phục vụ việc xây dựng hệ thống chấm điểm các bài kiểm tra tự luận một cách tự động

2 Mục tiêu đề tài:

Nghiên cứu một số kỹ thuật hiệu chỉnh độ dịch chuyển và độ nghiêng của phiếu điểm, phục vụ cho quá trình nhập điểm thi tự động nhờ máy quét

Trang 12

 Tìm hiểu khái quát về nhu cầu chuyển từ phiếu điểm văn bản giấy sang phiếu điểm số

 Tìm hiểu tổng quan về xử lí ảnh và form tài liệu

 Nghiên cứu một số kỹ thuật hiệu chỉnh form tài liệu như hiệu chỉnh độ dịch chuyển, hiệu chỉnh độ nghiêng,…

 Thiết kế, phát triển chương trình thử nghiệm hiệu chỉnh độ dịch chuyển và độ nghiêng của phiếu điểm thi

 Xây dựng báo cáo sơ bộ và hoàn chỉnh báo cáo

4 Phương pháp thực hiện

 Khảo sát thực tế về các nhu cầu chuyển các văn bản, biểu mẫu giấy sang văn bản, biểu mẫu số

 Tìm hiểu nghiên cứu tài liệu, tìm hiểu các thông tin trên Internet về các kỹ thuật

xử lý ảnh và form tài liệu

 Nghiên cứu phương pháp Histogram chỉnh độ dịch chuyển của form tài liệu

 Nghiên cứu thuật toán Hough hiệu chỉnh góc nghiêng của form tài liệu

 Thực nghiệm: sử dụng các thuật toán hiệu chỉnh form tài liệu để xây dựng chương trình hiệu chỉnh độ dịch chuyển và độ nghiêng của phiếu điểm thi

Luận văn được chia làm 3 chương:

Chương 1: Khái quát form tài liệu và bài toán hiệu chỉnh form tài liệu: chương

này đề cập đến các khái niệm cơ bản về form tài liệu, cách thu nhận, biểu diễn form tài liệu và một số phương pháp hiệu chỉnh form tài liệu

Chương 2: Hiệu chỉnh form tài liệu: trong chương này đề cập đến phương pháp

phát hiện và hiệu chỉnh độ lệch form tài liệu bằng thuật toán Histogram Đồng thời còn nêu phương pháp phát hiện và hiệu chỉnh độ nghiêng form tài liệu bằng các phương pháp phân tích hình chiếu, biến đổi Hough, phân tích láng giềng, phép toán hình thái

Chương 3: Chương trình thử nghiệm: tiến hành xây dựng chương trình thừ

nghiệm hiệu chỉnh độ lệch và độ nghiêng form tài liệu

Trang 13

Chương 1: KHÁI QUÁT FORM TÀI LIỆU VÀ BÀI TOÁN

HIỆU CHỈNH FORM TÀI LIỆU

1.1 Khái quát về Form tài liệu

1.1.1 Form tài liệu là gì?

Form tài liệu là các ảnh thu được của các tài liệu bằng giấy thông qua các thiết bị như: camera, scanner, máy fax, …

Ảnh tài liệu gồm có các loại: ảnh đen trắng, ảnh màu, ảnh xám đa cấp, … với phần

Nếu L = 2 thì B = 1, nghĩa là chỉ có 2 mức: 0 và 1, còn gọi là ảnh nhị phân Mức 1 ứng với màu sáng, còn mức 0 ứng với màu tối Nếu L>2 ta có ảnh đa xám Như vậy, với ảnh nhị phân mỗi điểm ảnh được mã hóa trên 1 bit, còn với ảnh 256 mức, thì mỗi điểm ảnh được mã hóa trên 8 bit Với ảnh đen trắng: nếu dùng 8 bit để biểu diễn mức xám, số các mức xám có thể được biểu diễn là 256 Mỗi mức xám được biểu diễn dưới dạng một

số nguyên nằm trong khoảng từ 0 đến 255, với mức 0 biểu diễn cho mức cường độ đen nhất và với 255 biểu diễn cho mức cường độ sáng nhất

1.1.2.2 Ảnh màu

Ảnh màu theo lý thuyết của Thomas là ảnh tổ hợp từ 3 màu cơ bản: đỏ (R), lục (G), lam (B) và thường thu nhận trên các dải băng tần khác nhau Với ảnh màu, cách biểu diễn cũng tự như với ảnh đen trắng, chỉ khác là các số tại mỗi phần tử của ma trận biểu diễn cho ba màu riêng lẻ gồm: đỏ (red), lục (green), lam (blue) Để biểu diễn cho một ảnh màu gồm 24 bit và được chia thành 3 khoảng 8 bit Mỗi màu cũng phân thành L cấp màu khác nhau (thường L=256) Mỗi khoảng này biểu diễn cho cường độ sáng của một trong các màu chính Do đó để lưu trữ ành màu người ta có thể lưu trữ từng màu riêng biệt, mỗi màu lưu trữ như một ảnh đa cấp xám Nên không gian nhớ dành cho một ảnh màu lớn gấp 3 lần một ảnh đa cấp xám cùng kích cỡ

Trang 14

1.2.1 Thu nhận form tài liệu

Đây là công bước đầu tiên trong quá trình xử lí form tài liệu nhưng nó có tính quyết định đến độ phân giải, chất lượng màu, dung lượng bộ nhớ của form tài liệu nên việc lựa chọn các thiết bị thu nhận cần quan tâm đến khả năng thu nhận ảnh của chúng Các thiết

bị thu nhận form tài liệu bao gồm camera, scanner, Các thiết bị thu nhận ảnh thông thường Raster là camera, còn Vester là sensor hoặc bàn số hóa Digitalizer hoặc được chuyển đổi từ ảnh Raster

Tóm lại, hệ thống thu nhận ảnh được thực hiện như một quá trình:

 Cảm biến: biến đổi năng lượng quang học thành năng lượng điện

 Tổng hợp năng lượng điện thành ảnh

1.2.2 Cấu trúc Form tài liệu

1.2.2.1 Mào đầu tệp(Header)

Mào đầu tệp [2] là phần chứa các thông tin về kiểu ảnh, kích thước, độ phân giải, số bit dùng cho 1 pixel, cách mã hóa, vị trí màu…

1.2.2.2 Dữ liệu nén (Data Compression)

Số liệu ảnh được mã hóa bởi kiểu mã hóa chỉ ra trong phần mào đầu tệp

1.2.2.3 Bảng màu (Palette color)

Bảng màu cho biết số màu dùng trong ảnh và bảng màu được sử dụng để hiển thị màu của ảnh

1.2.3 Một số phương pháp biểu diễn Form tài liệu

1.2.3.1 Mã loạt dài (Run – Length code)

Phương pháp này hay dùng biểu diễn cho vùng ảnh hay ảnh nhị phân Một vùng ảnh R có thể biểu diễn đơn giản nhờ một ma trận nhị phân:

Trang 15

Khi đó ảnh được biểu diễn qua điểm ảnh bắt đầu A cùng với chuỗi các từ mã Một biến thể của phương pháp này là tăng số hướng Điều này được minh họa như hình dưới đây:

Trang 16

(nguồn [3])

Hình 1.2 Minh hoạ mã xích

1.2.3.3 Mã tứ phân (Quad Tree Code)

Theo phương pháp mã tứ phân[3], một vùng ảnh coi như bao kín một hình chữ nhật Vùng này được chia làm 4 vùng con (Quadrant) Nếu một vùng con gồm toàn điểm đen (1) hay toàn điểm trắng (0) thì không chia tiếp Trong trường hợp ngược lại, vùng con gồm cả điểm đen và điểm trắng gọi là vùng không đồng nhất, ta tiếp tục chia thành 4 vùng con tiếp và kiểm tra tính đồng nhất của các vùng con đó Quá trình chia dừng lại khi mỗi vùng con chỉ chứa thuần nhất điểm đen hoặc điểm trắng Quá trình đó tạo thành một cây chia theo bốn phần gọi là cây tứ phân Như vậy, cây biểu diễn ảnh gồm một chuỗi các kí hiệu b (black), w (while) và g (grey) kèm theo ký hiệu mã hóa 4 vùng con Biểu diễn theo phương pháp này tốt hơn so với các phương pháp trên, nhất là so với mã loạt dài Tuy nhiên, để tính số đo các hình như chu vi, mô men là tương đối khó khăn

1.3 Bài toán hiệu chỉnh Form tài liệu

1.3.1 Một số vấn đề trong hiệu chỉnh form tài liệu

Hiệu chỉnh form tài liệu là một bước quan trọng, là tiền đề cho quá trình nhận dạng ảnh được chính xác Khi scan form tài liệu thì có thể bị nhiễu, mờ không sắc nét hoặc cần làm rõ các chi tiết như đường biên hay tài liệu bị nghiêng, bị lệch,…Mục đích chính của việc hiệu chỉnh form tài liệu là làm nổi bật một số đặc tính như thay đổi độ tương phản, lọc nhiễu, nổi biên, làm trơn, hiệu chỉnh độ lêch, hiệu chỉnh độ nghiêng,…

1.3.2 Một số cách tiếp cận trong hiệu chỉnh form tài liệu

1.3.2.1 Nhiễu form tài liệu

Nhiễu do nhiều nguyên nhân: quá trình quét form tài liệu, quá trình sao chép, sự thoái hóa theo thời gian, Nhiễu sẽ làm ảnh hưởng lớn đến kết quả nhận dạng form tài

Trang 17

nhiễu nhân và nhiễu xung [1]:

 Lọc trung bình không gian

Với lọc trung bình [3], mỗi điểm ảnh được thay thế bằng trung bình trọng số của các điểm lân cận và được định nghĩa như sau:

Trang 18

Lọc trung bình có trọng số chính là thực hiện chập ảnh đầu vào với nhân chập H Nhân chập H trong trường hợp này có dạng:

Trong lọc trung bình, thường người ta ưu tiên cho các hướng để bảo vệ biên của ảnh khỏi bị mờ khi làm trơn ảnh Các kiểu mặt nạ được sử dụng tùy theo các trường hợp khác nhau Các bộ lọc trên là bộ lọc tuyến tính theo nghĩa là điểm ảnh ở tâm của số sẽ được thay bởi tổ hợp các điểm lân cận chập với mặt nạ

Giả sử đầu vào biểu diễn bởi ma trận I:

Ảnh số thu được bởi lọc trung bình Y=H ⊗ I có dạng:

Một bộ lọc trung bình không gian khác cũng hay được sử dụng Phương trình của

bộ lọc đó có dạng:

Ở đây, nhân chập H có kích thuớc 2x2 và mỗi điểm ảnh kết quả có giá trị bằng

Trang 19

n

trung bình cộng của nó với trung bình cộng của 4 lân cận gần nhất Lọc trung bình trọng

số là một trường hợp riêng của lọc thông thấp

 Lọc thông thấp

Lọc thông thấp [1] thường được sử dụng để làm trơn nhiễu.Về nguyên lý của bộ lọc thông thấp giống như đã trình bày trên Trong kỹ thuật này người ta hay dùng một số nhân chập có dạng sau:

Ta dễ dàng nhận thấy khi b =1, Hb chính là nhân chập Ht1 (lọc trung bình) Để

hiểu rõ hơn bản chất khử nhiễu cộng của các bộ lọc này, ta viết lại phương trình thu nhận ảnh dưới dạng:

Trang 20

Lọc đồng hình thực hiện lấy logarit của ảnh quan sát Do vậy ta có kết quả sau:

Log(X(m, n)) = log( X (m, n) ) + log( η(m, n))

Rõ ràng, nhiễu nhân có trong ảnh sẽ bị giảm Sau quá trình lọc tuyến tính, ta chuyển về ảnh cũ bằng phép biến đổi hàm e mũ

b Lọc phi tuyến tính

Với kỹ thuật lọc phi tuyến tính, ta dùng bộ lọc trung vị, giả trung vị, lọc ngoài Với lọc trung vị, điểm ảnh đầu vào sẽ được thay thế bởi trung vị các điểm ảnh còn lọc giả trung vị sẽ là trung bình cộng của 2 giá trị “trung vị” (trung bình cộng của max và min)

Tính chất của lọc trung vị:

 Lọc trung vị là loại lọc phi tuyến Điều này dẽ nhận thấy từ:

Trungvi(x(m)+y(m)) ≠ Trungvi(x(m)) + Trungvi(y(m))

 Có lợi cho việc loại bỏ các điểm ảnh hay các hàng mà vẫn bảo toàn độ phân giải

 Hiệu quả giảm khi số điểm trong cửa sổ lớn hay bằng một nửa số điểm trong cửa sổ

Điều này dễ giải thích vì trung vị là (Nw+1)/2 giá trị lớn nhất nếu Nw lẻ Lọc

trung vị cho trường hợp 2 chiều coi như lọc trung vị tách được theo từng chiều

 Lọc ngoài (Outlier Filter)

Giả thiết có ngưỡng nào đó cho các mức nhiễu (có thể dựa vào lược đồ xám)

Trang 21

Tiến hành so sánh giá trị độ xám của một điểm ảnh với trung bình số học 8 lân cận của

nó Nếu sai lệch lớn hơn ngưỡng, điểm ảnh này được coi như nhiễu Trong trường hợp

đó, thay thế giá trị của điểm ảnh bằng giá trị trung bình 8 lân cận vừa tính được Bộ lọc ngoài có thể diễn tả bằng công thức sau:

với α(w) là trung bình cộng các điểm trong lân cận w; δ là ngưỡng ngoài

Các cửa sổ tính toán thường chọn là 3x3 Tuy nhiên, cửa sổ có thể mở rộng đến 5x5 hay 7x7 để đảm bảo tính tương quan giữa các điểm ảnh Vấn đề quan trọng là xác định ngưỡng để loại nhiễu mà vẫn không làm mất thông tin của ảnh

c Mặt nạ gờ sai phân và làm nhẵn

Mặt nạ gờ sai phân [1] dùng khá phổ biến trong công nghệ in ảnh để làm đẹp ảnh Với kỹ thuật này, tín hiệu đầu ra thu được bằng tín hiệu ra của bộ lọc gradient hay lọc dải cao bổ sung thêm đầu vào:

v(m,n) = u(m,n) + λg(m,n)

với λ>0, g(m, n) là gradient tại điểm (m, n) Hàm gradient dùng là hàm Laplace

G(m,n) = u(m,n) – {u(m-1,n) + u(m+1,n) + u(m,n+1)}/2

Đây chính là mặt nạ chữ thập

Tín hiệu

Hình 1.3 Các toán tử gờ sai phân

(nguồn [1])

Trang 22

d Lọc thông thấp, thông cao và lọc dải thông

Toán tử trung bình không gian là lọc thông thấp[1] Nếu hLP(m, n) biểu diễn

bộ lọc thông thấp FIR (Finite Impulse Response) thì bộ lọc thông cao hHP(m, n) có

thể được định nghĩa:

hHP(m, n) = δ(m, n) - hLP(m, n)

Như vậy, bộ lọc thông cao có thể cài đặt đơn giản như trên hình bên dưới

Bộ lọc dải thông có thể định nghĩa như sau:

HHP(m, n)= hL1(m, n) – hL2(m, n)

với hL1 và hL2 là các bộ lọc thông thấp

(nguồn [2])

Hình 1.4 Sơ đồ bộ lọc thông cao

Bộ lọc thông thấp thường dùng làm trơn nhiễu và nội suy ẩnh Bộ lọc thông cao dùng nhiều trong trích chọn biên và làm trơn ảnh, còn bộ lọc dải thông có hiệu quả làm nổi cạnh Về biên sẽ được trình bày kỹ trong các phần sau Tuy nhiên, dễ nhận thấy, biên là điểm có độ biến thiên nhanh về giá trị mức xám theo quan điểm

về tần số tín hiệu Như vậy, các điểm biên ứng với các thành phần tần số cao Từ

đó, có thể dùng bộ lọc thông cao để cải thiện nhiễu: nghĩa là có thể lọc các thành phần tần số thấp và giữ lại các thành phần tần số cao Vì thế, lọc thông cao thường được dùng làm trơn biên trước khi tiến thành các thao tác với biên ảnh Dưới đây là một số mặt nạ dùng trong lọc thông cao:

(nguồn [2])

Hình 1.5 Một số nhân chập trong lọc thông cao

Trang 23

Các nhân chập thông cao có đặc tính chung là tổng các hệ số của bộ lọc bằng 1 Nguyên nhân chính là ngăn cản sự tăng quá giới hạn của các giá trị mức xám (các giá trị điểm ảnh vẫn giữ được giá trị của nó một cách gần đúng không thay đổi nhiều so với giá trị thực)

(nguồn THCS Phú Mỹ Hưng)

Hình 1.6 Bảng điểm qua lọc thông cao

Trang 24

Chương 2: HIỆU CHỈNH FORM TÀI LIỆU

2.1 Độ dịch chuyển của form tài liệu

2.1.1 Giới thiệu

Qua việc khảo sát tại trường THCS Phú Mỹ Hưng, huyện Củ Chi, TP.HCM thì mỗi năm sẽ có ít nhất 2 kỳ thi HKI và HKII thì việc chấm bài thi, sau đó vào điểm từ bài thi vào phiếu điểm, rồi lại phân lớp vào điểm sổ cá nhân của giáo viên, rồi giáo viên phải vào sổ điểm lớn, sau đó lại nhập điểm vào phần mềm VMIS để tính điểm cho học sinh tốn rất nhiều thời gian nhưng lại khó tránh khỏi sai sót Nếu như những phiếu điểm sau khi được vào từ bài thi ta có thể đưa vào excel để được

xử lí trên phần mềm VMIS thì hay biết mấy Các phiếu điểm sau khi được quét bằng máy quét (scanner) thì được lưu dưới dạng file ảnh, thường với các định dạng TIF, GIF, PCX, BMP, JPG,… Nhưng những ảnh này thường xảy ra nhiễu ảnh, hay

bị nghiêng, bị lệch ảnh,… Do đó, việc hiệu chỉnh độ dịch chuyển của ảnh so với ảnh gốc là điều cần thiết Việc đó sẽ giúp tăng độ chính xác trong việc nhận dạng các phiếu điểm

(nguồn THCS Phú Mỹ Hưng)

Hình 2.1 Bảng điểm bị dịch chuyển sau khi scan

Trang 25

2.1.2 Phát hiện độ dịch chuyển của form tài liệu

Để phát hiện độ dịch chuyển của bảng điểm so với bảng điểm gốc ta sẽ áp dụng kỹ thuật đo độ tương tự bằng cách xây dựng histogram ngang và histogram dọc của bảng điểm để xét vị trí tương đối của giữa các vùng thay đổi Độ dịch chuyển của bảng điểm so với mẫu sẽ được đánh giá dựa trên sự tương đồng của histogram bảng điểm so với histogram của bảng điểm mẫu tương ứng

Ta có histogram dọc bảng điểm mẫu và bảng điểm cần nhận dạng như sau:

Trang 26

Sau khi ta vẽ histogram của bảng điểm mẫu và bảng điểm cần nhận dạng, tiếp theo ta xếp 2 mô hình histogram này trên cùng một trục tọa độ

2.1.3 Hiệu chỉnh độ dịch chuyển form tài liệu

Sau khi, ta dùng phương so khớp bằng histogram [1] của bảng điểm mẫu và bảng điểm cần nhận dạng, nếu 2 mô hình histogram này không khớp với nhau thì ta tiến hành dịch chuyển bảng điểm cần nhận dạng sao cho histogram của bảng điểm cần nhận dạng khớp với bảng điểm mẫu Trong luận văn này sẽ giới thiệu phương pháp Histogram để dịch chuyển bảng điểm

Như ta đã biết, histogram ngang hay dọc của bảng điểm là tổng số các điểm đen trên một hàng ngang hay dọc của bảng điểm đó.Vậy một bảng điểm ta có 2 mô hình histogram là histogram ngang và histogram dọc Đối với một dòng ảnh mà histogram ngang bằng 0 thì đó là dòng

H(I)=#{(I,Y),I(I,Y)=0}

Trang 27

Đây chính là histogram ngang của dòng i

Giả sử chúng ta làm việc với ảnh đen trắng (ảnh 1 bits).Gọi Buf là mảng chứa

Trang 28

hm và vm Tương tự, ta thực hiện với bảng điểm cần nhận dạng ta tìm được h và v tương ứng

Sau đó ta so sánh sự chênh lệch giữa hai cặp hm và h,vm và v để tịnh tiến những dòng đen của bảng điểm lên hay xuống một khoảng cách (được tính theo đơn vị pixel) |hm- h| Và tịnh tiến các cột đen của ảnh sang trái hay phải một khoảng | vm-v|

Phương pháp này có ưu điểm là thời gian thực hiện khá nhanh tuy nhiên nó thực sự chính xác khi ảnh mẫu và ảnh cần nhận dạng phải rơi vào trường hợp khá

Trang 29

lý tưởng là ảnh mẫu và ảnh cần nhận dạng không có nhiễu Trong trường hợp ngược lại kết quả thường không được như ý muốn

Trong thực tế đôi khi ảnh mẫu và ảnh cần nhận dạng thường bị nhiễu khi quét vào, và có những trường hợp ảnh mẫu không bị nhiễu nhưng ảnh cần nhận dạng lại bị nhiễu hay trong trường hợp ngược lại

Để khắc phục nhược điểm trên ta tiếp tục nghiên cứu phương pháp thứ hai

Trang 30

Sau khi ta vẽ histogram của bảng điểm mẫu và bảng điểm cần nhận dạng, tiếp theo ta xếp 2 mô hình histogram này trên cùng một trục tọa độ

- Hmax là một ước lượng đủ lớn;

- h1(i) là histogram dọc của ảnh mẫu;

- h2(i) là histogram của ảnh cần nhận dạng

Thông thường ta cố định một đối số và tìm đối số còn lại Chẳng hạn ta cố định k=0 và tìm vị trí theo công thức (*).Tại vị trí l chính là cột đầu tiên của bức ảnh sau khi điều chỉnh lề phía trên

Tương tự để hiệu chỉnh lề trái của ảnh ta cũng tiến hành các bước như hiệu chỉnh lề trái nhưng thay vì sử dụng histogram dọc ta lại sử dụng histogram ngang

Trang 31

2.2 Độ nghiêng của form tài liệu

2.2.1 Giới thiệu

Bảng điểm sau khi được quét vào máy tính thì cần phải thực hiện một số thao tác hiệu chỉnh như lọc nhiễu và chuyển sang ảnh nhị phân rồi mới hiệu chỉnh độ nghiêng, công đoạn cuối mới nhận dạng bảng điểm Bất kỳ một tài liệu giấy khi đưa vào máy tính đều bị nghiêng với một góc nào đó do trong quá trình quét tài liệu hay là copy Điều này sẽ làm ảnh hưởng đến quá trình phân tích tài liệu và nhận dạng các ký tự trong tài liệu Vì vậy, phát hiện và hiệu chỉnh góc nghiêng của tài liệu là bài toán cần phải giải quyết đầu tiên và tất yếu trong quá trình xử lý ảnh văn bản Hiện tại nhu cầu chuyển từ tài liệu giấy sang tài liệu số của xã hội ngày càng nhiều, nên bài toán góc nghiêng văn bản ngày càng được quan tâm nhiều với các góc độ khác nhau

(nguồn THCS Phú Mỹ Hưng)

Hình 2.9 Ảnh sau khi scan bị nghiêng

Có nhiều hướng tiếp cận bài toán góc nghiêng văn bản khác nhau Các thuật toán phát hiện góc nghiêng thường được xây dựng cho các hệ thống phân tích ảnh văn bản khác nhau nên chỉ giải quyết cho các loại ảnh văn bản cụ thể Gồm có các thuật toán như sau:

 Các thuật toán dựa vào phân tích hình chiếu (Projection Profile)

 Các thuật toán dựa vào biến đổi Hough (Hough Transform)

 Các thuật toán phân tích láng giềng (nearest Neighbour Clustering)

 Phương pháp dùng phép toán hình thái

Trang 32

2.2.2 Một số thuật toán và phát hiện góc nghiêng văn bản

2.2.2.1 Thuật toán dựa vào phân tích hình chiếu (Projection Profile)

Phương pháp này dựa trên đặc trưng của văn bản là các dòng chữ thì nằm theo hàng ngang, giữa các dòng là khoảng cách hoặc các đối tượng khác như bảng, hình thường được đặt theo hàng ngang Mỗi dòng chữ được chia làm 3 vùng: vùng trên, vùng giữa và vùng dưới (hình bên dưới) [9]

(nguồn [9])

Hình 2.10 Cấu trúc của dòng văn bản

Phương pháp chiếu nghiêng rất thích hợp việc xác định độ lệch Một hình chiếu nghiêng là một biểu đồ tần suất của số các giá trị điểm đen tích luỹ lại ứng với các dòng mẫu trên toàn bộ trang Do đặc trưng này nên khi ta chiếu các điểm đen của một văn bản với góc nghiêng bằng không theo chiều ngang thì ta sẽ thu được một đồ thị rất sắc và có độ biến thiên lớn Với các văn bản bị nghiêng, ta có thể thấy

là phép chiếu sẽ tạo ra một đồ thị trơn và thấp hơn Dựa trên việc đánh giá các đồ thị này ta sẽ tìm được góc nghiêng chính xác của ảnh

Nghiêng có thể ở góc bất kỳ, nhưng thường thì nó được thực hiện theo hướng nằm ngang dọc theo các dòng hoặc theo hướng thẳng đứng vuông góc với các dòng; những độ nghiêng được gọi là các hình chiếu nghiêng theo các hướng nằm ngang hoặc thẳng đứng

Trang 34

Thuật toán phát hiện góc nghiêng văn bản dựa vào hình chiếu có thể bao gồm các bước chính sau:

Dùng hàm rút gọn F để chuyển ảnh đầu vào thành một tập các bộ ba (x,y,w) trong đó (x,y) là toạ độ của một điểm ảnh đại diện cho một đối tượng và w là trọng

số của điểm đó Ở đây, điểm đại diện được hiểu theo nghĩa là điểm biểu diễn các ký

tự trong các đối tượng của ảnh Trọng số w sẽ được đề cập sau và thường phụ thuộc vào từng thuật toán

Một hàm P dùng để chiếu các điểm tìm được ở trên vào một mảng đểm A theo các góc chiếu khác nhau Ứng với mỗi góc  có một mảng A dùng lưu số điểm đại diện Mảng A là mảng một chiều, phần tử A[r] sẽ cho biết số điểm đại diện nằm trên đường thẳng đó là r

Sau khi tính được mảng A[r], áp dụng một hàm tối ưu hóa  cho các giá trị mảng này theo một tiêu chuẩn nào đó Cuối cùng góc lệch của văn bản là góc tương ứng có giá trị hàm tối ưu hóa cực đại

Đây là một trong những phương pháp phổ biến nhất trong phát hiện góc nghiêng văn bản Ý tưởng chính của phương pháp này là tính histogram cho tất

cả các góc lệch Histogram của một góc là số điểm ảnh đen trong ảnh sao cho các điểm này nằm trên những đường thẳng có cùng một hướng tương ứng với góc đó Sau đó, dùng một hàm tính chi phí để áp dụng cho các giá trị histogram này Góc nghiêng của văn bản tương ứng với góc có giá trị hàm chi phí là lớn nhất Theo hướng tiếp cận này, các thuật toán phát hiện góc nghiêng được đề xuất bởi các tác giả: Akiyama và Hagita, Bard, Bloomberg, Nakano, Kanai và Bagdanov, Komukai và Saiwai, Lam và Zandy, Messelodi và Modena, Shutao Li,

Qinghua Shen, Pavidis và Zhou, Postl[12], D X Le và Spitz

a Thuật toán Postl

Một cách sử dụng trực tiếp nhất đối với phương pháp chiếu mặt nghiêng trong việc xác định góc nghiêng là tính toán độ lệch của góc gần với hướng mong muốn Với mỗi góc nghiêng, người ta đo chiều cao các hộp theo mặt nghiêng và hộp nào

có chiều cao lớn nhất sẽ cho ta góc lệch cần tìm Tại góc lệch chuẩn, vì các dòng quét đã được sắp thẳng hàng theo các dòng văn bản, nên mặt cắt nghiêng sẽ có các

Trang 35

đỉnh lồi với độ cao lớn nhất và các vùng trũng ứng với khoảng trống giữa các dòng văn bản Đối với kỹ thuật chung này người ta có thể cải tiến và điều chỉnh để lặp lại một cách nhanh hơn đối với việc chuẩn hoá góc nghiêng và xác định góc nghiêng chính xác hơn Hàm rút gọn và hàm tối ưu [12] như sau:

FP(I)={(x.,y ,l)|0<x<w/, 0<y<h/,I(x ,y )=1}

P(A)=(A[p+1] - A[p])2

Với (x,y) là tọa độ của điểm ảnh đại diện,  và  là các ngưỡng kích thước,

w và h tương ứng là chiều rộng và chiều cao của ảnh

b Thuật toán Baird

Baird [6] tiến hành sửa đổi phương pháp mặt cắt nghiêng này để nâng cao tốc

độ và độ chính xác trong xác định độ lệch Trước hết, các phần kết nối được “xác định” và trung điểm cạnh dưới cũng được thể hiện Người ta xác định tổng các độ lệch (như sự chênh lệch về chiều cao giữa các điểm lồi và lõm) đối với các góc nghiêng khác nhau Giá trị thu được đối với mỗi góc sẽ được đo bởi số các điểm thuộc dòng cơ sở nằm trên đường chiếu theo góc ấy Chiều cao của các cột càng lớn thì góc nghiêng càng tiến tới không Giá trị đo được lớn nhất sẽ cho góc lệch thực

sự Độ chính xác của phương pháp này thường đạt trong phạm vi 0.5 độ so với hướng chuẩn Do việc xác định được tiến hành bằng cách sử dụng các trung điểm cạnh đáy của mỗi hộp nên có một giả định rằng trang giấy được đặt gần vuông góc khi quét Và một phần do giả thiết này nên phương pháp sẽ chỉ đạt độ chính xác cao nhất trong phạm vi góc lệch là dưới 10 độ

Baird dùng cách xác định hình chữ nhật chứa các đối tượng, điểm đại diện chính là trọng tâm của hình chữ nhật đó và hàm tối ưu bằng tổng bình phương các giá trị mảng Công thức được tính như sau:

FP(I)={(x,y,1)\(x,y) là tâm hình chữ nhật ngoại tiếp một đối tượng}

P(A)=(A[p+1] - A[p])2

Thuật toán có thể được mô phỏng như sau:

find_conn_comp_xy (image[], NROWS, NCOLS, &comp[], &ncomps ); for theta = -angle to +angle by resolution do

{

Trang 36

c Thuật toán Nakano

Nakano dùng tâm hình chữ nhật ngoại tiếp đối tượng làm điểm cơ sở, chiều rộng của hình chữ nhật là trọng số cho điểm cơ sở, hàm tối ưu phụ thuộc vào số các giá trị bằng 0 trong mảng đếm Công thức được tính như sau:

FP(I)={(x,y,w)|(x,y) là tọa độ góc trái dưới của hình chữ nhật bao quanh một đối tượng, w là chiều rộng hình chữ nhật}

 Tư tưởng của phép chiếu trong sáng, dễ cài đặt

 Tuy phép chiếu đòi hỏi tính toán phức tạp nhưng ta có thể tăng tốc được bằng cách sử dụng đường thẳng theo phương pháp Bresenham và kỹ thuật sử dụng bảng lookup table

 Hạn chế

 Cho kết quả không chính xác lắm đối với các ảnh có kích thước nhỏ do ta sử dụng các đường chiếu là các đường thẳng trong hệ tọa độ nguyên nên các đường thẳng này chỉ là xấp xỉ, ảnh càng

Trang 37

lớn thì các đường thẳng này càng chính xác => càng cho kết quả chính xác hơn

 Các hàm ước lượng về biểu đồ của phép chiếu chưa thể hiện được hết bản chất của phép chiếu Mỗi công thức chỉ mô tả được một khía cạch cụ thể

2.2.2.2 Các thuật toán dựa vào biến đổi Hough (Hough Transform)

Φ của đường thẳng và chỉ số cột r là khoảng cách từ gốc tọa độ tới đường thẳng đó Sau đó, tính tổng các điểm đen nằm trên những đường thẳng song song nhau theo các góc lệch thay đổi Góc có tổng giá trị mảng cực đại chính là góc nghiêng văn bản

Với hướng tiếp cận này, các tác giả Hinds, Jiang, Dianel Le, Sugwara, Nakano, nhóm Srihari và Govindaraju, nhóm Yu và Jain, nhóm Amin, Fischer, Paskison và Riscky

b Biến đổi Hough cho đường thẳng

Trong ảnh nhị phân, mỗi điểm đen I(xi,yi) sẽ có vô số đường thẳng qua điểm đen đó và mỗi đường thẳng có vô số góc nghiêng Mỗi đường thẳng này được mô tả bằng phương trình đường thẳng như sau:

Với: (x,y): là toạ độ của điểm ảnh

a: là hệ số góc của đường thẳng

b: là giao của đường thẳng với trục y là tại điểm y=b

Vì (xi,yi) i=1, nếu n điểm I thuộc đường thẳng (d) thì (d): y1= ax1 + b i=i,n

Trang 38

 b= - xia+yi (d1)

(d1) là phương trình đường thẳng trong không gian (a,b) Khi đó, một điểm trong không gian ảnh hai chiều (xi,yi) tương ứng với một đường thẳng (di) trong hệ toạ độ (a,b) Như vậy, một đường thẳng trong không gian Hough sẽ tương ứng với n điểm ảnh (xi,yi) cùng giao nhau tại một điểm, thì n điểm ảnh đó nằm trên một đường thẳng trong ảnh Các tham số của đường thẳng đó tương ứng với toạ độ Hough(a,b) của giao điểm

số a, b giao nhau tại 1 điểm và điểm giao chính là a, b Chính là hệ số xác định phương trình của đường thẳng mà các điểm nằm vào

 Phương pháp:

Xây dựng mảng chỉ số a, b và gán giá trị 0 cho tất cả các phân tử của mảng Với mỗi (xi; yi) và a, b là chỉ số của phần tử mảng thoả mãn

b = - xia + yi tăng giá trị của phân tử mảng tương ứng lên 1

Tìm phần tử mảng có giá trị lớn nhất nếu giá trị lớn nhất tìm được so với số phân tử lớn hơn hoặc bằng ngưỡng  cho trước thì ta có thể kết luận các điểm nằm

Trang 39

trên cùng 1 đường thẳng và đường thẳng có phương trình y = ax + b trong đó a, b tương ứng là chỉ số của phần tử mảng có giá trị lớn nhất tìm được

 Cấu trúc điều khiển:

Mảng dữ liệu đòi hỏi: Hough(1 Hx_max,1 Hy_max) với các trị nguyên Nhập và khởi tạo không gian Hough:

Nhập các tham số MAX_NUM và S_inkr (cp.below);

for (tất cả các điểm (x,y) phù hợp trong ảnh) do

for Hy:=1 to Hy_max do begin

{Lần lượt với tất cả các giá trị của , d được tính theo }

:=(Hy-1) _step; { tính theo độ}

Trang 40

Xác định các đường thẳng trong không gian Hough:

Tiền xử lý của không gian Hough nhằm làm tăng cực đại địa phương nếu cần

Until NUM <= MAX_NUM

Ngày đăng: 17/12/2014, 23:58

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Lương Mạnh Bá, Nguyễn Thanh Thủy “Nhập môn xử lí ảnh”, Đại học Bách khoa hà Nội, Nhà xuất bản Thống kê, 2008 Sách, tạp chí
Tiêu đề: Nhập môn xử lí ảnh
Nhà XB: Nhà xuất bản Thống kê
[4] A Amin and S. Fischer, “A Document Skew Detection Method Using the Hough Transform”, Pattern Analysis &amp; Applications, 2007 Sách, tạp chí
Tiêu đề: A Document Skew Detection Method Using the Hough Transform
[5] B. V. Dhandra, V. S. Malemath, H. Mallikarjun, and R. Hegadi, “Skew Detection in Binary Image Documents Based on Image Dilation and Region labeling Approach” in Pattern Recognition, 2006. ICPR 2006.18th International Conference, 2006, pp. 954-957 Sách, tạp chí
Tiêu đề: Skew Detection in Binary Image Documents Based on Image Dilation and Region labeling Approach
[6] Manjunath Aradhya, Hemantha Kumar G, and Shivakumara P, “Skew Detection Technique for Binary Document Images based on Hough Transform”. International Journal of Information and Communication Engineering, 2007 Sách, tạp chí
Tiêu đề: Skew Detection Technique for Binary Document Images based on Hough Transform
[7] RafeL Dueire Lins and Bruno Tenorio Avila, “A New Algorithm for Skew Dection in Images of Documents”. Universidade Federal de Pernambuco Recife-PE, Brazil, 2004 Sách, tạp chí
Tiêu đề: A New Algorithm for Skew Dection in Images of Documents
[8] A. K. Das and B. Chanda, “A fast algorithm for skew detection of document images using morphology,” International Journal on Document Analysis and Recognition, vol. 4, pp. 109-114, 2001 Sách, tạp chí
Tiêu đề: A fast algorithm for skew detection of document images using morphology
[10] T. Nguyen Due, B. Vo Dai, M. Nguyen Thi Tu, and G. Nguyen Thuy, “A Robust Document Skew Estimation Algorithm Using Mathematical Morphology,” in Tools with Artificial Intelligence, 2007. ICTAI 2007.19th IEEE International Conference, 2007, pp.496-503 Sách, tạp chí
Tiêu đề: A Robust Document Skew Estimation Algorithm Using Mathematical Morphology
[11] Sepideh Barekat Rezaei, Abdolhossein Sarrafzadeh, and Jamshid Shanbehzadeh, “Skew Detection of Scanned Document Images”.Proceedings of the International MultiConference of Engineers and Computer Scientists 2013 Vol I, IMECS 2013, March 13 - 15, 2013 Sách, tạp chí
Tiêu đề: Skew Detection of Scanned Document Images
[12] Chin-Teng Lin, Kan-Wei Fan, Chang-Mao Yeh, Her-Chang Pu, and Fang-Yi Wu, "High-Accuracy Skew Estimation of Document Images"International Joural of Fuzzy Systems, Vol.8, No.3, September 2006 Sách, tạp chí
Tiêu đề: High-Accuracy Skew Estimation of Document Images
[9] A.K. Das, B.Chada. A fast algorithm for skew detection of document images using morphological. Proc of International Journal on Document Analysis and Recognition, vol.4, 2001 Khác
[13] Yue Lu, Chew Lim Tan. A nearest-neighbor chain based approach to skew estimation in document images. Pattern Recognition Letters 24 (2003)2315–2323, Department of Computer Science, School of Computing National University of Singapore, Kent Ridge, Singapore 117543, 2003, tr2315-2319 Khác

HÌNH ẢNH LIÊN QUAN

Hình 1.1. Ảnh nhị phân và các biểu diễn mã loạt dài tương ứng. - nghiên cứu một số kỹ thuật hiệu chỉnh form tài liệu
Hình 1.1. Ảnh nhị phân và các biểu diễn mã loạt dài tương ứng (Trang 15)
Hình 1.6. Bảng điểm qua lọc thông cao - nghiên cứu một số kỹ thuật hiệu chỉnh form tài liệu
Hình 1.6. Bảng điểm qua lọc thông cao (Trang 23)
Hình 2.1. Bảng điểm bị dịch chuyển sau khi scan. - nghiên cứu một số kỹ thuật hiệu chỉnh form tài liệu
Hình 2.1. Bảng điểm bị dịch chuyển sau khi scan (Trang 24)
Hình 2.2. Mô hình histogram dọc của bảng điểm mẫu. - nghiên cứu một số kỹ thuật hiệu chỉnh form tài liệu
Hình 2.2. Mô hình histogram dọc của bảng điểm mẫu (Trang 25)
Hình 2.4. Mô hình histogram của bảng điểm mẫu và bảng điểm cần nhận - nghiên cứu một số kỹ thuật hiệu chỉnh form tài liệu
Hình 2.4. Mô hình histogram của bảng điểm mẫu và bảng điểm cần nhận (Trang 26)
Bảng điểm sau khi được quét vào máy tính thì cần phải thực hiện một số thao - nghiên cứu một số kỹ thuật hiệu chỉnh form tài liệu
ng điểm sau khi được quét vào máy tính thì cần phải thực hiện một số thao (Trang 31)
Hình 2.11. Phép chiếu ngang và chiếu dọc của trang tài liệu - nghiên cứu một số kỹ thuật hiệu chỉnh form tài liệu
Hình 2.11. Phép chiếu ngang và chiếu dọc của trang tài liệu (Trang 33)
Hình 2.15. Biến đổi Hough phát hiện góc nghiêng. - nghiên cứu một số kỹ thuật hiệu chỉnh form tài liệu
Hình 2.15. Biến đổi Hough phát hiện góc nghiêng (Trang 43)
Hình 2.16. Các đối tƣợng trên ảnh. - nghiên cứu một số kỹ thuật hiệu chỉnh form tài liệu
Hình 2.16. Các đối tƣợng trên ảnh (Trang 45)
Hình 2.18. NNC của hình có K=2, (b)K=3, (c)K  4 - nghiên cứu một số kỹ thuật hiệu chỉnh form tài liệu
Hình 2.18. NNC của hình có K=2, (b)K=3, (c)K  4 (Trang 48)
Hình 2.20. Các điểm left most bottom và bottom most left của thành phần - nghiên cứu một số kỹ thuật hiệu chỉnh form tài liệu
Hình 2.20. Các điểm left most bottom và bottom most left của thành phần (Trang 51)
Hình 2.22. Một thành phần liên thông dài với hệ tọa độ ảnh - nghiên cứu một số kỹ thuật hiệu chỉnh form tài liệu
Hình 2.22. Một thành phần liên thông dài với hệ tọa độ ảnh (Trang 54)
Hình 3.2. Giao diện chương trình thử nghiệm - nghiên cứu một số kỹ thuật hiệu chỉnh form tài liệu
Hình 3.2. Giao diện chương trình thử nghiệm (Trang 58)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w