1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu một số kỹ thuật hiệu chỉnh biểu mẫu và ứng dụng luận văn thạc sĩ

81 1,2K 1
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên cứu một số kỹ thuật hiệu chỉnh biểu mẫu và ứng dụng
Tác giả Nguyễn Trọng Vinh
Người hướng dẫn PGS. TS Ngô Quốc Tạo
Trường học Trường Đại Học Lạc Hồng
Chuyên ngành Công nghệ Thông tin
Thể loại Luận văn
Năm xuất bản 2011
Thành phố Đồng Nai
Định dạng
Số trang 81
Dung lượng 4,26 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Khi xem xét một văn bản, để kết luận văn bản có bị nghiêng hay không cách làm của chúng ta là căn cứ vào một số đối tượng chủ đạo và góc nghiêng văn bản được ước lượng dựa vào đường nối

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG

Luận văn Thạc sỹ Công nghệ Thông tin

Người hướng dẫn khoa học:

PGS TS NGÔ QUỐC TẠO

ĐỒNG NAI, 2011

Trang 3

LỜI CAM ĐOAN

- Tôi xin cam đoan luận văn thạc sỹ công nghệ thông tin: “Nghiên cứu một số phương pháp hiệu chỉnh biểu mẫu và ứng dụng” là kết quả của quá trình học tập, nghiên cứu khoa học độc lập, nghiêm túc

- Các số liệu trong luận văn là trung thực, có nguồn gốc rõ ràng, được trích dẫn và có tính kế thừa, phát triển từ các tài liệu, tạp chí, các công trình nghiên cứu đã được công bố, các website, …

- Các phương pháp nêu trong luận văn được rút ra từ những cơ sở lý luận và quá trình nghiên cứu tìm hiểu của tác giả

Đồng Nai, tháng 06 năm 2011

Tác giả

Nguyễn Trọng Vinh

Trang 4

LỜI CẢM ƠN

Trước hết tôi xin gửi lời cảm ơn sâu sắc đến Thầy hướng dẫn khoa học PGS TS Ngô Quốc Tạo về những chỉ dẫn khoa học, định hướng nghiên cứu

và tận tình hướng dẫn cho tôi trong suốt quá trình làm luận văn Nếu không

có sự giúp đỡ tận tình của thầy, tôi khó có thể hoàn thành luận văn này

Bên cạnh đó, tôi cũng muốn gửi lời cảm ơn đến các thầy cô đang làm việc tại khoa Công nghệ Thông tin trường Đại học Lạc Hồng đã quan tâm chỉ bảo và trực tiếp giảng dạy khóa cao học chúng tôi

Tôi xin chân thành cảm ơn lãnh đạo và các Thầy Cô ở Trung tâm Thông tin Tư liệu – Đại học Lạc Hồng, nơi tôi công tác, đã tạo mọi điều kiện thuận lợi cho tôi hoàn thành các môn học cũng như suốt thời gian làm luận văn tốt nghiệp

Bên cạnh đó, tôi gửi lời cảm ơn đến Ban Khảo thí – Đại học Lạc Hồng

đã tạo điều kiện thuận lợi cho tôi trong suốt quá trình thực hiện luận văn cũng như ứng dụng sản phẩm nghiên cứu vào thực tế

Cuối cùng, tôi xin cảm ơn gia đình và bạn bè, những người đã luôn ủng

hộ và động viên để tôi yên tâm nghiên cứu và hoàn thành luận văn

Nguyễn Trọng Vinh

Trang 5

MỤC LỤC

Trang

LỜI CAM ĐOAN i

LỜI CẢM ƠN ii

MỤC LỤC iii

DANH MỤC HÌNH ẢNH iv

DANH MỤC BẢNG BIỂU v

MỞ ĐẦU 1

CHƯƠNG 1 TỔNG QUAN VỀ XỬ LÝ ẢNH VÀ BÀI TOÁN PHÁT HIỆN GÓC NGHIÊNG VĂN BẢN 4

1.1 Xử lý ảnh và một số vấn đề cơ bản trong xử lý ảnh 4

1.1.1 Xử lý ảnh là gì? 4

1.1.2 Quá trình xử lý ảnh 4

1.1.2.1 Thu nhận ảnh 5

1.1.2.2 Tiền xử lý 6

1.1.2.3 Phân đoạn ảnh 6

1.1.2.4 Hệ quyết định 7

1.1.2.5 Trích chọn đặc điểm 7

1.1.2.6 Nhận dạng 8

1.1.3 Một số vấn đề cơ bản trong xử lý ảnh 9

1.1.3.1 Ảnh 9

1.1.3.2 Điểm ảnh 9

1.1.3.3 Mức xám 9

1.1.3.4 Các điểm 4 láng giềng 9

1.1.3.5 Các điểm 8 láng giềng 9

1.1.3.6 Đối tượng ảnh 10

1.1.3.7 Kỹ thuật phóng to, thu nhỏ ảnh 10

1.1.4 Tổng quan về ảnh văn bản 11

1.2 Tổng quan về bài toán phát hiện góc nghiêng văn bản 12

1.2.1 Góc nghiêng và vai trò việc phát hiện góc nghiêng văn bản 12

1.2.2 Phương pháp phân tích hình chiếu (Profile Projection) 12

1.2.2.1 Thuật toán Postl 14

1.2.2.2 Thuật toán Baird 14

1.2.2.3 Thuật toán Nakano 14

1.2.2.4 Nhận xét 15

1.2.3 Phương pháp phân tích dựa vào trọng tâm (Center of Gravity) 15

Trang 6

1.2.4 Phương pháp phân tích láng giềng (Nearest Neighbour Clustering) 19

1.2.4.1 Thuật toán Yue Lu và Chew Lim Tan 20

1.2.4.2 Nhận xét 21

1.2.5 Phương pháp dùng phép toán hình thái (Morphology) 22

1.2.5.1 Thuật toán L Najman 22

1.2.5.2 Nhận xét 24

1.2.6 Phương pháp dùng biến đổi Hough (Hough Transform) 24

1.2.6.1 Đường thẳng Hough trên tọa độ cực 24

1.2.6.2 Nhận xét 27

CHƯƠNG 2 BIÊN VÀ CÁC PHƯƠNG PHÁP DÒ BIÊN 28

2.1 Biên của đối tượng ảnh 28

2.1.1 Biên và các kiểu biên cơ bản trong ảnh 28

2.1.1.1 Biên lý tưởng 28

2.1.1.2 Biên dốc 29

2.1.1.3 Biên không trơn 30

2.1.2 Vai trò của biên trong nhận dạng 31

2.2 Các phương pháp dò biên trực tiếp 32

2.2.1 Phương pháp Gradient 32

2.2.2 Phương pháp Laplace 34

2.3 Phương pháp dò biên tổng quát 34

2.3.1 Khái niệm chu tuyến 34

2.3.2 Phương pháp dò biên tổng quát 36

2.4 Một số phương pháp dò biên nâng cao 38

2.4.1 Phương pháp Canny 38

2.4.2 Phương pháp Shen – Castan 39

CHƯƠNG 3 ỨNG DỤNG BIẾN ĐỔI HOUGH PHÁT HIỆN GÓC NGHIÊNG VĂN BẢN 40

3.1 Tiền xử lý và phát hiện góc nghiêng văn bản từ biên của đối tượng 40

3.2 Xác định đường thẳng Hough trên trang văn bản 41

3.3 Áp dụng biến đổi Hough phát hiện góc nghiêng văn bản 42

3.4 Thuật toán phát hiện góc nghiêng văn bản 44

3.5 Chỉnh sửa góc nghiêng văn bản 51

CHƯƠNG 4 XÂY DỰNG CHƯƠNG TRÌNH THỰC NGHIỆM 53

4.1 Sơ đồ khối 53

4.2 Thiết kế chương trình 54

4.2.1 Module giao diện chính 54

4.2.2 Module chuyển đổi ảnh gốc và biểu đồ mức xám 56

4.2.3 Module dò biên 58

Trang 7

4.2.4 Module biểu diễn biến đổi Hough 60

4.2.5 Module hiệu chỉnh góc nghiêng văn bản 61

4.3 Đánh giá kết quả 61

KẾT LUẬN 67

TÀI LIỆU THAM KHẢO 69

Trang 8

DANH MỤC HÌNH ẢNH

Hình 1.1 Sơ đồ quá trình xử lý ảnh 5

Hình 1.2 Ma trận 8 láng giềng 10

Hình 1.3 Tổng quan quá trình tạo ảnh tài liệu 12

Hình 1.4 Đa giác 6 đỉnh và trọng tâm được xác định 16

Hình 1.5 Hình chữ nhật ngoại tiếp ảnh văn bản thay cho đa giác 16

Hình 1.6 Ảnh đầu vào và kết quả sau khi áp dụng thuật toán 17

Hình 1.7 Tìm các điểm xa nhất theo các hướng trên ảnh 18

Hình 1.8 Trọng tâm được xác định dựa vào các điểm xa nhất 18

Hình 1.9 Đường cơ sở được nối từ trọng tâm đến gốc tọa độ 18

Hình 1.10 Xác định góc nghiêng ảnh văn bản 18

Hình 1.11 Phân tích láng giềng 19

Hình 1.12 Các K-NN và vector chỉ phương ứng với K=2,3,4 21

trong thuật toán Yue Lu-Chew Lim Tan 21

Hình 1.13 Đường thẳng Hough và trục tọa độ 25

Hình 1.14 Biểu diễn đường thẳng Hough đi qua 3 điểm 26

Hình 2.1 Đường biên lý tưởng 29

Hình 2.2 Đường biên dốc 29

Hình 2.3 Đường biên không trơn 30

Hình 2.4 Sơ đồ phân tích ảnh 31

Hình 2.5 Các 4- láng giềng của điểm ảnh P 35

Hình 2.6 Các 8- láng giềng của điểm ảnh P 35

Hình 2.7 Ví dụ về các chu tuyến đối ngẫu 36

Hình 2.8 Chu tuyến trong và chu tuyến ngoài của một đối tượng 36

Hình 3.1 Xác định hình chữ nhật ngoại tiếp các đối tượng 40

Hình 3.2 Đường thẳng trong toạ độ cực 41

Hình 3.3 Đường thẳng Hough trên trục tọa độ 43

Hình 3.4 Ví dụ về một ảnh nghiêng có ít ký tự chữ cái 45

Hình 3.5 Ví dụ về văn bản nghiêng có các đối tượng bao nhau 46

Hình 3.6 Sơ đồ giải thuật tổng quát 50

Hình 3.7 Xoay một điểm ảnh quanh gốc tọa độ 51

Hình 4.1 Sơ đồ tổng quát 53

Hình 4.2 Giao diện chính của chương trình 54

Hình 4.3 Sơ đồ module xử lý cơ bản 55

Hình 4.4 Màn hình giao diện chương trình khi chọn chức năng Open 55

Hình 4.5 Sơ đồ thao tác xử lý trên ảnh 56

Trang 9

Hình 4.6 Sơ đồ convert ảnh sang nhị phân và đa cấp xám 56

Hình 4.7 Giao diện biểu diễn Histogram của ảnh 57

Hình 4.8 Giao diện convert ảnh sang nhị phân và ảnh đa cấp xám 57

Hình 4.9 Sơ đồ chức năng dò biên 58

Hình 4.10 Dò biên bằng phương pháp Sobel 58

Hình 4.11 Dò biên bằng phương pháp Canny 59

Hình 4.12 Dò biên bằng phương pháp Emboss Laplacian 59

Hình 4.13 Dò biên bằng phương pháp Gradient 60

Hình 4.14 Biểu diễn biến đổi Hough của ảnh 60

Hình 4.15 Phát hiện góc nghiêng và xoay ảnh 61

Hình 4.16 Một ảnh bị nghiêng góc có các đối tượng xen lẫn văn bản, bảng biểu và ảnh kết quả sau khi hiệu chỉnh 1 góc 12.9o 63

Hình 4.17 Một ảnh bị nghiêng góc tiếng Nhật có xen lẫn hình ảnh, ký tự và ảnh kết quả sau khi hiệu chỉnh 1 góc 11.3o 64

Hình 4.18 Một bảng điểm bị nghiêng góc không thể nhận dạng được của hệ thống quản lý điểm và ảnh kết quả sau khi hiệu chỉnh 1 góc 7.61o 64

Hình 4.19 Một mẫu phiếu đánh giá chất lượng giảng dạy bị nghiêng góc không thể nhận dạng được và ảnh kết quả sau khi hiệu chỉnh 1 góc 9.72o 65

Hình 4.20 Một ảnh màu tài liệu bị nghiêng và ảnh kết quả sau khi hiệu chỉnh 1 góc 10.82o 65

Hình 4.21 Một ảnh màu tài liệu bị nghiêng gồm nhiều biểu đồ và ảnh kết quả sau khi hiệu chỉnh 1 góc 17.6o 66

Hình 4.22 Trang ảnh văn bản tồn tại nhiều góc nghiêng được phát hiện 66

Trang 10

DANH MỤC BẢNG BIỂU

Bảng 1 So sánh hiệu quả giữa các phương pháp phát hiện góc nghiêng 27 Bảng 2 Kết quả thực nghiệm trên một số ảnh văn bản 62

Trang 11

MỞ ĐẦU

Ngày nay việc sử dụng máy tính để lưu trữ tài liệu không còn là vấn đề mới mẻ và cần phải chứng minh tính an toàn, thuận tiện của nó Tuy nhiên việc sử dụng giấy để lưu trữ tài liệu trong một số mục đích vẫn không thể thay thế được (như báo, sách, công văn, hợp đồng, …) Hơn nữa, lượng tài liệu được tạo ra từ nhiều năm trước vẫn còn rất nhiều mà không thể bỏ đi được vì tính quan trọng của chúng

Để có thể có được một “văn phòng không giấy” khi đó hàng tỉ trang tài liệu sẽ được cất chỉ trong một ổ cứng kích thước bằng một cuốn sách nhỏ và

để tìm kiếm thông tin trong đó người ta chỉ cần tốn vài giây với một cái gõ phím Enter thì chắc chắn phải chuyển toàn bộ dữ liệu từ các trang giấy vào máy tính Đây cũng là cách đáp ứng nhu cầu tra cứu tài liệu điện tử càng tăng

và trở thành nhu cầu cấp thiết của mọi người trong đời sống

Thông thường người ta sẽ phải tốn rất nhiều thời gian và công sức mới

có thể nhập vào máy tính được hết lượng tài liệu đó Hiện nay, chúng ta đã có các máy Scan với tốc độ cao, công nghệ xử lý của máy tính ngày càng siêu việt với tốc độ tính toán vượt cả tốc độ ánh sáng, vậy tại sao chúng ta không quét toàn bộ các trang văn bản giấy vào máy tính và chuyển chúng thành tài liệu số?

Bằng cách đó tốc độ và tính chính xác sẽ tăng hàng trăm lần trong khi chi phí lại là cực tiểu Vấn đề là khi quét vào máy tính chúng ta không thể thu nhận được tài liệu như mong muốn được bởi nhiều lý do khách quan khiến cho trang tài liệu bị nghiêng ngả, mờ nhoè,… Tất cả những gì thu được chỉ là các tấm ảnh của các trang văn bản Máy tính không có “mắt” như chúng ta để biết đâu là file ảnh ngay ngắn, đúng chuẩn và đâu là file ảnh có chất lượng

Trang 12

thấp, nghiêng cần được hiệu chỉnh cho nên chúng đối xử công bằng như nhau với mọi điểm ảnh

Một giải pháp được nghĩ đến ngay đó là xây dựng các hệ thống hiệu chỉnh góc nghiêng văn bản đối với cả ảnh màu và ảnh trắng đen thuần tuý Từ

đó có thể biên soạn thành những tài liệu số hoàn chỉnh và bỏ qua thao tác lưu trữ hàng khối giấy tờ chiếm nhiều không gian và thời gian như trước đây

Khi xem xét một văn bản, để kết luận văn bản có bị nghiêng hay không cách làm của chúng ta là căn cứ vào một số đối tượng chủ đạo và góc nghiêng văn bản được ước lượng dựa vào đường nối các trung điểm cạnh đáy của các đối tượng này Xuất phát từ nhận xét trên, tôi sẽ trình bày một phương pháp phát hiện góc nghiêng văn bản từ kỹ thuật xác định chu tuyến một đối tượng ảnh và biến đổi Hough nhưng có điểm khác là sẽ dựa trên những điểm đặc trưng có kích thước chủ đạo trong ảnh Từ đó áp dụng biến đổi Hough lên các điểm ảnh đại diện cho chúng

* Cấu trúc của luận văn gồm 4 chương như sau:

- Chương 1: Tổng quan về xử lý ảnh và bài toán góc nghiêng văn bản: Chương này đề cập đến các khái niệm cơ bản về xử lý ảnh số, quá trình

xử lý ảnh Bên cạnh đó là sự phân tích, đánh giá đối với một số phương pháp phát hiện góc nghiêng văn bản

- Chương 2: Biên và các phương pháp dò biên: Chương này gồm các

khái niệm cơ bản về biên của đối tượng ảnh và vai trò của việc dò biên trong xác định góc nghiêng văn bản Toàn bộ chương tập trung vào việc làm rõ các khái niệm cơ bản cũng như đi sâu vào phân tích các phương pháp dò biên như: phương pháp trực tiếp (Gradient, Laplace), phương pháp dò biên tổng quát dựa vào chu tuyến, phương pháp dò biên nâng cao (Canny, Shen – Castan)

Trang 13

- Chương 3: Ứng dụng biến đổi Hough phát hiện góc nghiêng văn bản: Trên cơ sở các thuật toán đã tìm hiểu, toàn bộ chương này nêu rõ từng

bước thực hiện việc áp dụng biến đổi Hough vào xác định góc nghiêng và tiến hành hiệu chỉnh góc nghiêng văn bản

- Chương 4: Xây dựng chương trình thực nghiệm: Tiến hành xây

dựng chương trình thực nghiệm để phát hiện và hiệu chỉnh góc nghiêng văn bản dựa trên cơ sở lý thuyết đã tìm hiểu được về việc áp dụng biến đổi Hough

- Kết luận

Trang 14

và máy

Cũng như xử lý dữ liệu bằng đồ hoạ, xử lý ảnh số là một lĩnh vực của tin học ứng dụng Xử lý dữ liệu bằng đồ hoạ đề cập đến những ảnh nhân tạo, các ảnh này được xem xét như là một cấu trúc dữ liệu và được tạo ra bởi các chương trình Xử lý ảnh số [20] bao gồm các phương pháp và kĩ thuật để biến đổi, để truyền tải hoặc mã hoá các ảnh tự nhiên

1.1.2 Quá trình xử lý ảnh

Quá trình xử lý ảnh là một quá trình thao tác nhằm biến đổi một ảnh đầu vào để cho ra một ảnh kết quả như mong muốn Kết quả đầu ra của một quá trình xử lý ảnh có thể là một ảnh "tốt hơn" hoặc một kết luận

Mục đích của xử lý ảnh gồm:

 Biến đổi ảnh, làm tăng chất lượng ảnh

 Tự động nhận dạng ảnh, đoán nhận ảnh, đánh giá các nội dung của ảnh

Trang 15

Camera

Sensor

Thu nhận ảnh

Số hoá Phân tích

ảnh

Nhận dạng

Hệ quyết định

Lưu trữ Lưu trữ

Hình 1.1 Sơ đồ quá trình xử lý ảnh

Nhận biết và đánh giá các nội dung của ảnh là sự phân tích một hình ảnh thành những phần có ý nghĩa, để phân biệt đối tượng này với đối tượng khác Dựa vào đó ta có thể mô tả cấu trúc của hình ảnh ban đầu Có thể liệt kê một số phương pháp nhận dạng cơ bản như nhận dạng cạnh của các đối tượng trên ảnh, tách cạnh, phân đoạn hình ảnh v.v Kỹ thuật này được dùng nhiều trong y học (xử lý tế bào, nhiễm sắc thể), nhận dạng chữ trong văn bản

1.1.2.1 Thu nhận ảnh:

Đây là bước đầu tiên trong quá trình xử lý ảnh Để thực hiện điều này,

ta cần có bộ thu ảnh và khả năng số hoá những tín hiệu liên tục được sinh ra bởi bộ thu ảnh đó Bộ thu ảnh ở đây có thể là máy chụp ảnh đơn sắc hay màu, máy quét ảnh, Trong trường hợp bộ thu ảnh cung cấp chưa phải là dạng số hoá ta còn phải chuyển đổi hay số hoá ảnh

Quá trình chuyển đổi ADC [17] (Analog to Digital Converter) để thu nhận dạng số hoá của ảnh Các thông số quan trọng ở bước này là độ phân giải, chất lượng màu, dung lượng bộ nhớ và tốc độ thu nhận ảnh của các thiết

bị Mặc dù đây chỉ là công đoạn đầu tiên song kết quả của nó có ảnh hưởng rất nhiều đến công đoạn kế tiếp

Trang 16

1.1.2.2 Tiền xử lý:

Ở bước này, ảnh sẽ được cải thiện về độ tương phản, khử nhiễu, khử bóng, khử độ lệch,v.v… với mục đích làm cho chất lượng ảnh trở lên tốt hơn nữa, chuẩn bị cho các bước xử lý phức tạp hơn về sau trong quá trình xử lý ảnh Quá trình này thường được thực hiện bởi các bộ lọc

+ Khử nhiễu: Nhiễu được chia thành hai loại: nhiễu hệ thống và nhiễu

ngẫu nhiên Đặc trưng của nhiễu hệ thống là tính tuần hoàn Do vậy, có thể khử nhiễu này bằng việc sử dụng phép biến đổi Fourier và loại bỏ các đỉnh điểm Đối với nhiễu ngẫu nhiên, trường hợp đơn giản là các vết bẩn tương ứng với các điểm sáng hay tối, có thể khử bằng phương pháp nội suy, lọc trung vị và trung bình

+ Chỉnh mức xám: Đây là kỹ thuật nhằm chỉnh sửa tính không đồng đều của thiết bị thu nhận hoặc độ tương phản giữa các vùng ảnh

+ Chỉnh tán xạ: Ảnh thu nhận được từ các thiết bị quang học hay điện

tử có thể bị mờ, nhoè Phương pháp biến đổi Fourier dựa trên tích chập của ảnh với hàm tán xạ cho phép giải quyết việc hiệu chỉnh này

1.1.2.3 Phân đoạn ảnh:

Phân đoạn ảnh có nghĩa là chia một ảnh đầu vào thành nhiều phần khác nhau hay còn gọi là các đối tượng để biểu diễn phân tích, nhận dạng ảnh Ví dụ: để nhận dạng chữ (hoặc mã vạch) trên phong bì thư cho mục đích phân loại bưu phẩm, cần chia các câu, chữ về địa chỉ hoặc tên người thành các từ, các chữ, các số (hoặc các vạch) riêng biệt để nhận dạng

Đây là phần phức tạp khó khăn nhất trong xử lý ảnh và cũng dễ gây lỗi, làm mất độ chính xác của ảnh Kết quả nhận dạng ảnh phụ thuộc rất nhiều vào công đoạn này

Mục đích của phân đoạn ảnh là để có một miêu tả tổng hợp về nhiều phần tử khác nhau cấu tạo lên ảnh thô Vì lượng thông tin chứa trong ảnh rất

Trang 17

lớn, trong khi đa số các ứng dụng chúng ta chỉ cần trích một vài đặc trưng nào

đó, do vậy cần có một quá trình để giảm lượng thông tin khổng lồ đó Quá trình này bao gồm phân vùng ảnh và trích chọn đặc tính chủ yếu

1.1.2.5 Trích chọn đặc điểm:

Việc giải quyết bài toán nhận dạng trong những ứng dụng mới nảy sinh trong cuộc sống không chỉ tạo ra những thách thức về giải thuật, mà còn đặt

ra những yêu cầu về tốc độ tính toán

Đặc điểm chung của tất cả ứng dụng đó là những đặc điểm đặc trưng cần thiết thường là nhiều, không thể do chuyên gia đề xuất, mà phải được trích chọn dựa trên các thủ tục phân tích dữ liệu

Việc trích chọn hiệu quả các đặc điểm giúp cho việc nhận dạng các đối tượng ảnh chính xác, với tốc độ tính toán cao và dung lượng nhớ lưu trữ giảm xuống

Các đặc điểm của đối tượng được trích chọn tuỳ theo mục đích nhận dạng trong quá trình xử lý ảnh Có thể nêu ra một số đặc điểm của ảnh sau đây:

- Đặc điểm không gian: phân bố mức xám, phân bố xác suất, biên độ, điểm uốn v.v

Trang 18

- Đặc điểm biến đổi: các đặc điểm loại này được trích chọn bằng việc thực hiện lọc vùng (zonal filtering) Các bộ vùng được gọi là “mặt nạ đặc điểm” (feature mask) thường là các khe hẹp với hình dạng khác nhau (chữ nhật, tam giác, cung tròn v.v )

- Đặc điểm biên và đường biên: Đặc trưng cho đường biên của đối tượng và do vậy rất hữu ích trong việc trích chọn các thuộc tính bất biến được dùng khi nhận dạng đối tượng Các đặc điểm này có thể được trích chọn nhờ toán tử Gradient, toán tử la bàn, toán tử Laplace, toán tử “chéo không” (zero crossing)

1.1.2.6 Nhận dạng:

Nhận dạng ảnh là quá trình xác định nội dung ảnh

Quá trình này thường thu được bằng cách so sánh với mẫu chuẩn đã được lọc (hoặc lưu) từ trước

Đây là bước cuối cùng trong quá trình xử lý ảnh

Nhận dạng ảnh có thể được nhìn nhận một cách đơn giản là việc gán nhãn cho các đối tượng trong ảnh Ví dụ như khi nhận dạng chữ viết, các đối tượng trong ảnh cần nhận dạng là các mẫu chữ, ta cần tách riêng các mẫu chữ

đó ra và tìm cách gán đúng các ký tự của bảng chữ cái tương ứng cho các mẫu chữ thu được trong ảnh Giải thích là công đoạn gán nghĩa cho một tập các đối tượng đã được nhận biết

Chúng ta cũng có thể thấy rằng, không phải bất kỳ một ứng dụng xử lý ảnh nào cũng bắt buộc phải tuân theo tất cả các bước xử lý đã nêu ở trên, ví

dụ như các ứng dụng chỉnh sửa ảnh nghệ thuật chỉ dừng lại ở bước tiền xử lý Một cách tổng quát thì những chức năng xử lý bao gồm cả nhận dạng

và giải thích thường chỉ có mặt trong hệ thống phân tích ảnh tự động hoặc bán

tự động, được dùng để rút trích ra những thông tin quan trọng từ ảnh, ví dụ như các ứng dụng nhận dạng ký tự quang học, nhận dạng chữ viết tay v.v…

Trang 19

1.1.3 Một số vấn đề cơ bản trong xử lý ảnh

1.1.3.1 Ảnh :

Ảnh là một mảng số thực hai chiều (Ii j) có kích thước (m*n), trong đó mỗi phần tử Ii j (i=1 m, j=1 n) biểu thị mức xám của ảnh tại vị trí (i, j) tương ứng

Mỗi một điểm như vậy gọi là điểm ảnh (PEL: Picture Element [20]) hay gọi tắt là Pixel Trong khuôn khổ ảnh hai chiều, mỗi pixel ứng với cặp tọa

độ (x,y)

Điểm ảnh (Pixel) là một phần tử của ảnh số tại toạ độ (x, y) với độ xám hoặc màu nhất định Kích thước và khoảng cách giữa các điểm ảnh đó được chọn thích hợp sao cho mắt người cảm nhận sự liên tục về không gian và mức xám (hoặc màu) của ảnh số gần như ảnh thật Mỗi phần tử trong ma trận được gọi là một phần tử ảnh

1.1.3.3 Mức xám: là số các giá trị có thể nhận của các điểm ảnh

1.1.3.4 Các điểm 4 láng giềng:

Giả sử (i,j) là một điểm ảnh, khi đó các điểm 4 - láng giềng là:

N4 = {(i-1, j); (i+1, j); (i, j-1); (i, j+1)}

1.1.3.5 Các điểm 8 láng giềng:

N8 = N4  {(i-1,j-1); (j-1, j+1); (i+1, j-1); (i+1, j+1)}

Trang 20

1.1.3.6 Đối tượng ảnh:

Ta chỉ xét tới ảnh nhị phân vì mọi ảnh đều có thể đưa về dạng nhị phân bằng kỹ thuật phân ngưỡng Ký hiệu F là tập các điểm vùng, F là tập các điểm nền

F: là điểm đen

F : là điểm trắng

Quan hệ K liên thông (K = 4, 8) là một quan hệ phản xạ, đối xứng, bắc cầu, là quan hệ tương đương Mỗi lớp tương đương của nó biểu diễn một thành phần K liên thông của ảnh Về sau ta gọi mỗi thành phần K liên thông của ảnh là một đối tượng ảnh

1.1.3.7 Kỹ thuật phóng to, thu nhỏ ảnh:

Khi ảnh quá lớn chúng ta muốn nhìn toàn bộ ảnh thì chúng ta phải thu nhỏ ảnh lại và ngược khi ta muốn xem chi tiết một bộ phận nào đó của ảnh thì

Hình 1.2 Ma trận 8 láng giềng

Trang 21

Việc tính các điểm ảnh tương ứng của ảnh mới sẽ được tính theo công thức:

xp=x/k yp=y/k

+ Kỹ thuật thu nhỏ ảnh:

Tương tự như phóng to ảnh, khi thu nhỏ ảnh ta thu được ảnh mới giống ảnh cũ nhưng có kích thước nhỏ hơn ảnh cũ Kích thước của ảnh mới là :

Height=Height/k Width=Width/k

Việc tính các điểm ảnh tương ứng của ảnh mới sẽ được tính theo công thức:

xp=x*k yp=y*k

1.1.4 Tổng quan về ảnh văn bản

Trang ảnh văn bản hay ảnh tài liệu được đề cập ở đây là các file ảnh số hoá thu được bằng cách quét các trang tài liệu dùng máy scanner, máy ảnh số, hay nhận từ một máy fax, file ảnh này được lưu giữ trong máy tính Ảnh tài liệu có nhiều loại: ảnh đen trắng, ảnh màu, ảnh đa cấp xám với các phần mở rộng như JPG, TIF, BMP, PCX, …

Trang 22

1.2 Tổng quan về bài toán phát hiện góc nghiêng văn bản

1.2.1 Góc nghiêng và vai trò việc phát hiện góc nghiêng văn bản

Góc nghiêng văn bản là một bài toán kinh điển trong xử ý ảnh văn bản Giải quyết bài toán góc nghiêng là nhiệm vụ tiên quyết và cũng không thể tránh khỏi của bất kỳ một hệ thống xử lý ảnh văn bản nào Vì lẽ đó, cùng với

sự phát triển của xử lý ảnh nói chung và xử lý ảnh văn bản nói riêng, bài toán góc nghiêng văn bản cũng được quan tâm ngày càng nhiều và dưới nhiều góc

độ khác nhau Giải quyết được vấn để góc nghiêng văn bản sẽ làm cho hiệu quả ở khâu nhận dạng văn bản tăng lên đáng kể Có rất nhiều hướng tiếp cận cho bài toán góc nghiêng văn bản từ trước tới nay Các thuật toán phát hiện góc nghiêng thường được xây dựng cho các hệ thống phân tích ảnh văn bản khác nhau nên chỉ giải quyết cho những loại ảnh văn bản cụ thể

Sau đây là một số hướng tiếp cận phổ biến cho bài toán góc nghiêng văn bản

1.2.2 Phương pháp phân tích hình chiếu (Profile Projection)

Đây là một trong những phương pháp phổ biến nhất trong phát hiện góc nghiêng văn bản Ý tưởng chính của phương pháp này là tính histogram cho tất cả các góc lệch Histogram của một góc là số điểm ảnh đen trong ảnh sao cho các điểm này nằm trên những đường thẳng có cùng một hướng tương ứng

Tài liệu Thiết bị thu nhận ảnh ảnh số

Hình 1.3 Tổng quan quá trình tạo ảnh tài liệu

Trang 23

với góc đó Sau đó, dùng một hàm tính chi phí để áp dụng cho các giá trị histogram này Góc nghiêng của văn bản tương ứng với góc có giá trị hàm chi phí là lớn nhất

Theo hướng tiếp cận này, các thuật toán phát hiện góc nghiêng được đề xuất bởi các tác giả: Akiyama và Hagita, Bard, Bloomberg, Nakano, Kanai và Bagdanov, Komukai và Saiwai, Lam và Zandy, Messelodi và Modena, Shutao

Li, Qinghua Shen [13], Pavidis và Zhou, Postl, D X Le [12] và Spitz

Các thuật toán phát hiện góc nghiêng dựa vào hình chiếu thường bao gồm các bước chính sau:

+ Dùng một hàm rút gọn F để chuyển ảnh đầu vào thành một tập các bộ

ba (x,y,w) trong đó (x,y) là tọa độ của một điểm ảnh đại diện cho một đối tượng và w là trọng số của điểm đó Ở đây, điểm đại diện được hiểu theo

nghĩa là điểm biểu diễn các ký tự trong các đối tượng của ảnh Trọng số w

thường phụ thuộc vào từng thuật toán

+ Một hàm P dùng chiếu các điểm tìm được ở trên vào một mảng đếm

A[] theo các góc chiếu khác nhau Ứng với mỗi góc Φ có một mảng A Φ [] dùng lưu số điểm đại diện Mảng A Φ [] là mảng một chiều, phần tử AΦ[r] sẽ

cho biết số điểm đại diện nằm trên đường thẳng tạo với trục OX góc Φ và khoảng cách từ gốc tọa độ tới đường thẳng đó là r

+ Sau khi tính được mảng AΦ[], áp dụng một hàm tối ưu hóa Ω cho các

giá trị của mảng này theo một tiêu chuẩn nào đó Cuối cùng góc lệch của văn bản là góc tương ứng có giá trị hàm tối ưu hóa cực đại

Sự khác nhau chủ yếu của các thuật toán theo phương pháp này chính

là việc xây dựng các hàm rút gọn F và hàm tối ưu hóa Ω

Trang 24

1.2.2.1 Thuật toán Postl

Postl [18] dùng các tần số lấy mẫu theo chiều ngang và chiều dọc để lấy các điểm đen trong ảnh làm các điểm cơ sở Hàm rút gọn và hàm tối ưu hóa như sau:

F P (I) ={ (x.∆ξ,y.∆ŋ,1)| 0 < x < w/∆ξ , 0< y <h/∆ŋ ,I(x.∆ξ, y.∆ŋ)=1 }

Ω P (A Φ )=Σ(A Φ [p+1] - A Φ [p]) 2

Với (x,y) là tọa độ của điểm ảnh đại diện, ∆ξ và ∆ŋ là các ngưỡng kích

thước, w và h tương ứng là chiều rộng và chiều cao của ảnh

1.2.2.2 Thuật toán Baird

Baird [5] dùng cách xác định hình chữ nhật chứa các đối tượng, điểm đại diện chính là trọng tâm của hình chữ nhật đó và hàm tối ưu hóa bằng tổng bình phương các giá trị mảng A

Công thức hai hàm này như sau:

F P (I)={( x,y,1)| (x,y) là tâm hình chữ nhật ngoại tiếp một đối tượng }

Ω P (A Φ ) = Σ(A Φ [p]) 2

1.2.2.3 Thuật toán Nakano

Nakano cũng dùng tâm các hình chữ nhật ngoại tiếp đối tượng làm điểm cơ sở nhưng dùng luôn chiều rộng của các hình chữ nhật này làm trọng

số cho các điểm cơ sở và hàm tối ưu hóa phụ thuộc vào số các giá trị bằng 0 trong mảng đếm Công thức cho hai hàm này như sau:

(1)

(2)

Trang 25

FP(I)={( x,y,w) | (x,y) là tọa độ góc trái dưới của hình chữ nhật bao quanh một đối tượng, w là chiều rộng của hình chữ nhật }

Ω P (A Φ [p])=Σ(1-U(A Φ [p]))

Với U(AΦ[p])=1 nếu AΦ[p]=0, ngược lại U(AΦ[p])=0

Phát hiện góc lệch văn bản bằng cách chiếu các góc là một phương pháp đơn giản và dễ hiểu Tuy nhiên, những thuật toán dựa trên phương pháp này còn hạn chế nhiều về độ chính xác với các góc lệch lớn Baird cho rằng

để thuật toán cho kết quả có độ chính xác cao thì góc lệch văn bản phải giới hạn trong khoảng ±150 Hơn nữa, nếu văn bản có nhiều nhiễu và các đối tượng phi văn bản như bảng biểu, hình ảnh thì độ chính xác của thuật toán còn giảm đi đáng kể

1.2.2.4 Nhận xét

Gần đây, người ta đã kết hợp phương pháp hình chiếu và phương pháp các đối tượng với mục tiêu giải quyết vấn đề về giới hạn góc lệch Tuy vậy, phương pháp này lại phụ thuộc nhiều vào khoảng cách giữa các dòng văn bản

và quan trọng là chỉ xử lý được với những ảnh có chứa nhiều dòng văn bản và kích thước bé cỡ 512 * 512 pixels

1.2.3 Phương pháp phân tích dựa vào trọng tâm (Center of Gravity)

Đây là hướng tiếp cận tương đối mới cho bài toán phát hiện góc nghiêng văn bản Ý tưởng chính của phương pháp này là đi xây dựng một đa giác từ các điểm cực biên của văn bản Một đường thẳng được xây dựng từ tọa độ trọng tâm của đa giác đến gốc tọa độ Như vậy, góc lệch của đường thẳng này so với trục hoành chính là góc nghiêng của văn bản

Theo hướng tiếp cận này, việc xác định đường cơ sở nói chung là bước quan trọng nhất của toàn bộ quá trình Một phương pháp mới được sử dụng

(3)

Trang 26

trong thuật toán này lên tất cả các từ nội tiếp trong đa giác Trọng tâm của đa giác với góc tọa độ sẽ tạo thành 1

đỉnh được tìm thấy và trọng tâm của

đa giác được xác định bằng công

thức [4]:

c x = (x i + x i+1 )(x i y i+1 – x i+1 y i )

c y = (y i + y i+1 )(x i y i+1 – x i+1 y i )

Như vậy tùy theo đa giác tìm được qua bước xác định điểm xa nhất theo các hướng mà ta áp dụng thuật toán cho từng trường hợp cụ thể Hình chữ nhật được thay thế cho đa giác như trong hình 1.5 cũng được mô tả như là một cách để xây dựng đường cơ sở giúp xác định góc nghiêng văn bản

Hình 1.4 Đa giác 6 đỉnh và trọng tâm được xác định

Hình 1.5 Hình chữ nhật ngoại tiếp ảnh văn bản thay cho đa giác

(4)

Trang 27

* Thuật toán gồm các bước:

+ Đầu vào: ảnh văn bản bị nghiêng giống như hình 1.6

+ Đầu ra: ảnh đã được hiệu chỉnh góc nghiêng

+ Bước 1: Xác định những điểm xa nhất trong tất cả bốn hướng Hình 1.7 cho thấy hình ảnh quét điểm xa nhất

+ Bước 2: Tìm trọng tâm bằng cách sử dụng bốn điểm vừa xác định được ở bước 1, bốn điểm trước đại diện các góc đa giác và trung tâm đa giác (COG) có thể được tính bằng cách sử dụng các phương trình (4)

+ Bước 3: Để có được đường cơ sở, tiến hành kẻ đường thẳng nối trọng tâm đến gốc tọa độ Hình 1.9 cho thấy đường cơ bản được tìm thấy

+ Bước 4: Tìm góc của đường cơ sở so với trục ngang để phát hiện góc nghiêng Hình 1.10 cho thấy việc phát hiện góc nghiêng trên ảnh văn bản

+ Bước 5: Xoay ảnh với góc nghiêng tìm được theo chiều ngược chiều kim đồng hồ để được ảnh văn bản ngay ngắn, dễ nhìn

Hình 1.6 Ảnh đầu vào và kết quả sau khi áp dụng thuật toán

Trang 28

* Nhận xét:

Phương pháp này tỏ ra hiệu quả khi phát hiện và hiệu chỉnh góc nghiêng của ảnh văn bản được scan vào từ tạp chí, sách giáo khoa, báo chí và tài liệu viết tay, với độ phân giải khác nhau, phông chữ khác nhau và tỷ lệ chính xác khá cao Bên cạnh đó, phương pháp này khá đơn giản và độ phức tạp thấp dẫn đến thời gian thực hiện quá trình xử lý nhanh Nó không bị ảnh hưởng bởi nhiễu và đồng thời còn phù hợp để làm việc với văn bản có phông chữ khác nhau và cả các văn bản có độ phân giải khác nhau

Hình 1.7 Tìm các điểm xa nhất

theo các hướng trên ảnh

Hình 1.8 Trọng tâm được xác định dựa vào các điểm xa nhất

Hình 1.9 Đường cơ sở được nối

từ trọng tâm đến gốc tọa độ

Hình 1.10 Xác định góc nghiêng

ảnh văn bản

Trang 29

1.2.4 Phương pháp phân tích láng giềng (Nearest Neighbour Clustering)

Một hướng tiếp cận khác cho bài toán phát hiện góc nghiêng văn bản là phương pháp phân tích láng giềng lân

cận hay láng giềng gần nhất Các thuật

toán liên quan đến phương pháp này

được đề xuất bởi các tác giả:

Hashizume, O' Gorman, Jiang, Loibios,

nhóm Yue Lu và Chew Lim Tan [14],

Shivakumara, Kumar, X, Jaing, H, Bunke [10], Guru và Nagabhushan

Theo hướng tiếp cận này, các thuật toán trước hết dùng các kỹ thuật xác định biên cho các đối tượng riêng lẻ Sau đó, ứng với mỗi một đối tượng, tiến hành xác định một số láng giềng gần nó nhất, dùng một vector định hướng với hai đầu là hai điểm được chọn từ hai trong số các đối tượng này để xác định góc nghiêng Hai đối tượng là các láng giềng thân cận của nhau nếu kích thước của chúng phải thuộc một khoảng nào đó và khoảng cách giữa chúng cũng thỏa mãn bé hơn một ngưỡng nào đó được định nghĩa trước Hai điểm đại diện cho hai đối tượng có thể là các tọa độ giữa cạnh đáy của chúng hoặc có thể là các tọa độ dưới trái nhưng cũng có thể là tâm của các hình chữ nhật ngoại tiếp các đối tượng đó tùy theo từng thuật toán cụ thể

Vector của mỗi một nhóm láng giềng lân cận sẽ cho một góc lệch tương ứng cho nhóm đó Thông thường, các thuật toán theo phương pháp này dùng một mảng tích lũy để lưu histogram cho các góc lệch này Nghĩa là, giá trị của một phần tử mảng tích lũy sẽ cho biết số nhóm láng giềng mà vector định hướng cho góc bằng với chỉ số của phần tử mảng đó Góc lệch của văn

Hình 1.11 Phân tích láng giềng

Trang 30

Việc gom các đối tượng thành các cặp láng giềng gần nhất mục đích để gom các cặp ký tự kề nhau trong các dòng văn bản và vector giữa các đối tượng này cho biết góc của đường thẳng đi qua đáy của nhóm ký tự đó Tuy nhiên, trong trường hợp ảnh có nhiều nhiễu hoặc với ảnh có độ phân giải thấp, các ký tự chữ cái được chia thành nhiều phần riêng biệt thì các vector định hướng sẽ không phản ánh được đúng hướng lệch của văn bản nữa

1.2.4.1 Thuật toán Yue Lu và Chew Lim Tan

Trước hết, dùng thuật toán phân tích thành phần liên thông để thu được

các đối tượng ảnh riêng biệt Mỗi một đối tượng Ci nội tiếp trong một hình

chữ nhật có các cặp tọa độ trên trái và dưới phải tương ứng là (xli,yti) và

(xri,ybi), trọng tâm của hình chữ nhật ký hiệu là (hci, wci), ký hiệu hci và wci

là các chiều cao và rộng của hình chữ nhật Ta có các định nghĩa sau [14]:

a Định nghĩa 1: Khoảng cách từ tâm tới tâm của hai đối tượng C1 và C2 được định nghĩa:

dc(C1, C2)= ∆x + ∆y

Với ∆x = |xc1-xc2| và ∆y = |yc1-yc2|

b Định nghĩa 2: Khoảng hụt của hai đối tượng C1 và C2 được định

nghĩa:

• dg(C1, C2) =max (xl2 - xr1, xl1 - xr2) nếu ∆x > ∆y

• dg(C1, C2) =max (yt2 - xb1, yt1 - yb2) nếu ∆x < ∆y

c Định nghĩa 3: Định nghĩa láng giềng lân cận

C2 được gọi là láng giềng lân cận của C1 nếu thỏa mãn các điều

kiện sau:

• hc1≈ hc2 nếu ∆x > ∆y hoặc wc1≈ wc2 nếu ∆x < ∆y

• Cx2 > Cx1 với ∆x > ∆y hoặc Cx1 > Cx2 với ∆x < ∆y

(5)

(6)

Trang 31

• dg(C1,C2) = min dc(C1,Cm) với mọi m

• dg(C1,C2) < β.max (hc1,hc2)

Với β là một hằng số được định nghĩa trước trong thuật toán

d Định nghĩa 4: Định nghĩa K- láng giềng (K-Nearest-Neighbour chain K-NN)

K-NN được định nghĩa là một dãy chứa K đối tượng trong đó hai đối tượng kề nhau là các láng giềng của nhau theo định nghĩa 2

e Định nghĩa 5: Định nghĩa góc lệch của một dãy K-NN

Giả sử có dãy K-NN: S=[C1, C1, C1, , Ck,] Góc nghiêng của dãy các láng giềng này được định nghĩa như sau:

• Nếu xck-xc1 < yck-yc1 thì slopeK = (xck-xc1)/(yck-yc1)

• Nếu xck-xc1 > yck-yc1 thì slopeK = (yck-yc1)/ (xck-xc1)

Hình 1.12 Các K-NN và vector chỉ phương ứng với K=2,3,4

trong thuật toán Yue Lu-Chew Lim Tan

Trang 32

1.2.4.2 Nhận xét:

Điểm cải tiến lớn nhất của thuật toán này là việc quyết định hai đối tượng có là láng giềng của nhau hay không dựa vào các tiêu chí về kích thước của mỗi một đối tượng và khoảng cách giữa chúng Chính các tiêu chí này sẽ loại bỏ được những trường hợp ngoại lệ và đem lại kết quả chính xác hơn cho thuật toán

Trong định nghĩa 4, K là số các láng giềng trong một cụm láng giềng,

K càng lớn thì vector định hướng của cụm láng giềng có hướng càng gần với góc lệch thực sự của văn bản Trong thuật toán, K được giảm dần cho đến khi

số các cụm láng giềng đủ để xác định được góc lệch cho văn bản Hình 1.12 ở trên minh họa một ảnh văn bản nghiêng, các cụm láng giềng và các vector chỉ phương tương ứng thu được khi áp dụng thuật toán tìm K-NN với các giá trị của K=2,3,4

1.2.5 Phương pháp dùng phép toán hình thái (Morphology)

1.2.5.1 Thuật toán L Najman

Một số thuật toán xác định góc nghiêng sử dụng các phép toán hình thái Ý tưởng chủ đạo của phương pháp này xuất phát từ một đặc điểm của phép đóng ảnh là có khả năng gắn các đối tượng cạnh nhau Các thuật toán này thường dùng phép đóng nhiều lần với mục đích nối các dòng văn bản với nhau Giai đoạn tiếp theo sẽ dùng các vector chỉ phương của các dòng xác định góc nghiêng cho văn bản tương tự như trong phương pháp phân tích láng giềng

Theo hướng tiếp cận này gồm các thuật toán của các tác giả: L Najman [16], nhóm S Chen và R.M Haralick và nhóm A.K Das và B.Chada Thuật toán của L Najman có thể được xem là cải tiến nhất trong số các thuật toán

Trang 33

dùng phép toán hình thái xác định góc nghiêng văn bản Chúng ta sẽ lựa chọn thuật toán của L Najman để trình bày đại diện cho phương pháp này

Trước hết, ta định nghĩa các phép toán hình thái cơ bản phục vụ cho thuật toán L Najman

* Định nghĩa 1: Phép giãn nở (Dilation)

Giả sử có ảnh I và một mẫu B Ta định nghĩa phép giãn của I theo cấu

trúc B là tập tất cả các điểm x  I sao cho Bx chạm tới I Với Bx là dịch

chuyển của B tới vị trí x của ảnh I

Toán tử đóng được định nghĩa: CLOSE(I,T)=(IT)ΘT

Các phép toán hình thái có một số đặc điểm thú vị sau: Phép giãn nở cho phép nối các nét đứt trong các đối tượng Phép co có thể xóa nhiễu trong ảnh, với ảnh văn bản có thể dùng phép co để tách chữ Đặc biệt, phép đóng có khả năng gắn các đối tượng cạnh nhau trong ảnh Nếu ảnh là văn bản gồm các

ký tự thì dùng phép đóng sẽ trộn được các ký tự thành một từ và trộn các từ thành dòng văn bản trong trường hợp văn bản không bị lệch góc

Dựa vào đặc điểm trên đây của phép đóng, ý tưởng chính của thuật toán

(7)

(8)

(9) (10)

Trang 34

nghiêng cho văn bản Tuy nhiên công thức phép đóng trên đây chỉ có thể gắn các dòng trong văn bản không nghiêng

Vì vậy, trong thuật toán này, L Najman dùng phép đóng với các mẫu

nghiêng các góc khác nhau theo công thức: RLC(I)= I  ξ T Θ ξ T

Với cấu trúc mẫu bây giờ là ξT Trong đó, ξ là giá trị cho biết độ dài của mẫu, tức là mẫu có ξ phần tử theo chiều ngang và  là góc nghiêng của

1.2.6 Phương pháp dùng biến đổi Hough (Hough Transform)

1.2.6.1 Đường thẳng Hough trên tọa độ cực

Một hướng tiếp cận phổ biến khác cho bài toán phát hiện góc nghiêng văn bản là phương pháp dùng biến đổi Hough [4,12] Những thuật toán dùng biến đổi Hough thường xác định một số điểm đen và dùng biến đổi Hough tác động lên các điểm đó

(11)

Trang 35

Hình 1.13 Đường thẳng Hough và trục

tọa độ

Biến đổi Hough ánh xạ một

đường thẳng trong mặt phẳng thành

các cặp (r, ) trong không gian

Hough với r là khoảng cách từ gốc

tọa độ tới đường thẳng đó và  là

góc nghiêng của đường thẳng đó so

với trục ngang Sử dụng các tham số

này thì phương trình đường thẳng

có thể được viết là:

Và có thể được phân phối lại là: r = x cos + ysin Do đó với mỗi đường thẳng được xác định trong không gian Hough sẽ có duy nhất một cặp (r, ) Như vậy mới mỗi điểm bất kỳ trên mặt phẳng ảnh với trục tọa độ (giả sử là (x0, y0)) thì các đường đi qua nó có dạng: r () =

x 0 *cos + y 0 *sin với r (là khoảng cách giữa các đường thẳng vào gốc

tạo độ) được xác định bởi 

Góc nghiêng của văn bản tương ứng là góc có tổng số điểm nằm trên những đường thẳng cùng lệch góc là lớn nhất Số các điểm đen được áp dụng biến đổi Hough tùy thuộc vào từng thuật toán, có thể là tất cả các điểm đen hoặc có thể chỉ những điểm thỏa mãn một số ràng buộc nào đó hoặc chỉ là đáy của các đối tượng ảnh

Liên quan đến hướng tiếp cận này là những thuật toán của các tác giả: Hinds, Jiang, Dianel Le, Sugwara, Nakano, nhóm Srihari và Govindaraju, nhóm Yu và Jain, nhóm Amin, Fischer, Parkison và Riscky

(12)

Trang 36

Hình 1.14 Biểu diễn đường thẳng Hough đi qua 3

điểm

Trong số đó, phương

Govindaraju là áp dụng

biến đổi Hough cho tất cả

các điểm đen của ảnh Tất

nhiên, việc áp dụng không

có loại trừ một điểm nào

dẫn đến chi phí tính toán rất

lớn và ảnh hưởng đến độ chính xác của thuật toán Để giảm thời gian chạy và tăng một phần độ chính xác, Hinds chỉ áp dụng biến đổi Hough cho một số ít điểm hơn bằng phân tích chạy dài theo chiều dọc Mục đích của nén chạy dài theo chiều dọc trong thuật toán này là để lấy ra các điểm đáy của các dòng văn bản, loại bỏ đi những điểm đen khác kể cả chúng thuộc vào một ký tự và dùng biến đổi Hough lên điểm đen đó Tuy nhiên, chi phí tính toán của thuật toán này vẫn còn lớn và việc áp dụng biến đổi Hough cho tất cả các điểm đen

ở đáy có thể dẫn đến những kết quả sai trong trường hợp ảnh đầu vào có nhiều đối tượng phi ký tự như nhiễu, bảng biểu hay picure

Về lý thuyết, có thể nói theo hướng tiếp cận này, thuật toán của Dianel

Le là một trong những thuật toán có nhiều cải tiến nhất cả về thời gian chạy lẫn độ chính xác Dianel Le dùng phương pháp phân tích các thành phần liên thông và rút ra những điểm đáy của các đối tượng Biến đổi Hough chỉ được

áp dụng cho những điểm đáy này nếu đối tượng có kích thước trong một khoảng nào đó Ở đây, Dianel Le dùng hai ngưỡng kích thước được định nghĩa trước là chiều rộng và chiều cao để loại bớt đi những đối tượng quá lớn như picture hoặc quá bé như nhiễu Vì vậy, thuật toán này cho độ chính xác cao hơn và giảm đáng kể chi phí tính toán

Trang 37

1.2.6.2 Nhận xét

Thuật toán của Dianel Le sẽ gặp khó khăn nếu các đối tượng trong ảnh chứa nhau Chẳng hạn, các ký tự nằm hầu hết trong các đối tượng có kích thước lớn mà đáy của chúng không phải là những đường thẳng Khi đó, có thể những ký tự không được xét đến, thay vào đó lại áp dụng biến đổi Hough cho điểm đáy của các đối tượng phi ký tự dẫn đến kết quả đưa ra góc lệch sai cho văn bản Hơn nữa do các ngưỡng kích thước được cố định trước nên thuật toán này phụ thuộc nhiều vào kích thước các con chữ và số lượng ký tự trong văn bản

1.2.7 So sánh một số phương pháp phát hiện góc nghiêng

Trên cơ sở các thuật toán đã nghiên cứu để giải quyết bài toán góc nghiêng, việc lựa chọn áp dụng biến đổi Hough không xuất phát từ tốt độ xử

lý mà chủ yếu căn cứ vào góc lệch tìm được tương đối chính xác hơn so với các phương pháp khác khi cùng xử lý trên 1 trang ảnh văn bản

thực tế

Góc lệch tìm được

Thời gian (s)

Trang 38

CHƯƠNG 2 BIÊN VÀ CÁC PHƯƠNG PHÁP DÒ BIÊN

2.1 Biên của đối tượng ảnh

2.1.1 Biên và các kiểu biên cơ bản trong ảnh

Các đặc trưng của ảnh thường bao gồm các thành phần như: mật độ xám, phân bố xác suất, phân bố không gian, biên ảnh [2] Biên là một vấn đề chủ yếu và đặc biệt quan trọng trong phân tích ảnh vì các kĩ thuật phân đoạn ảnh chủ yếu dựa vào biên

Hiện nay có nhiều định nghĩa về biên ảnh [1] và mỗi định nghĩa được

sử dụng trong một số trường hợp nhất định Song nhìn chung, ta có thể hiểu là: một điểm ảnh có thể coi là biên nếu ở đó có sự thay đổi đột ngột về mức xám

Ví dụ: Đối với ảnh đen trắng, một điểm được gọi là điểm biên nếu nó là điểm đen có ít nhất một điểm trắng bên cạnh

Tập hợp các điểm biên tạo thành biên, hay còn gọi là đường bao của ảnh (boundary) Chẳng hạn, trong một ảnh nhị phân, một điểm có thể được gọi là biên nếu đây là một điểm đen và có ít nhất một điểm trắng nằm trong lân cận điểm đó

Mỗi một biên là một thuộc tính gắn liền với một điểm riêng biệt và được tính toán từ những điểm lân cận nó Đó là một biến Vector bao gồm hai thành phần:

- Độ lớn của Gadient

- Hướng φ được xoay đối với hướng Gradient ψ

2.1.1.1 Biên lý tưởng:

Trang 39

Việc phát hiện biên một cách lý tưởng là việc xác định được tất cả các đường bao trong đối tượng Biên là sự thay đổi đột ngột về mức xám nên sự thay đổi cấp xám giữa các vùng trong ảnh càng lớn thì càng dễ dàng nhận ra biên

Hình sau đây minh hoạ điểm ảnh có sự biến đổi mức xám u(x) một

cách đột ngột:

Một biên được coi đó là biên lý tưởng khi mà có sự thay đổi cấp xám lớn giữa các vùng trong ảnh Biên này thường chỉ xuất hiện khi có sự thay đổi cấp xám qua một điểm ảnh

2.1.1.2 Biên dốc:

Biên dốc xuất hiện khi sự thay đổi cấp xám trải rộng qua nhiều điểm ảnh Vị trí của cạnh được xem như vị trí chính giữa của đường dốc nối giữa cấp xám thấp và cấp xám cao Tuy

nhiên đây chỉ là đường dốc trong

toán học, từ khi ảnh được kỹ thuật

số hoá thì đường dốc không còn là

đường thẳng mà thành những

đường lởm chởm, không trơn

Hình 2.1 Đường biên lý tưởng

Hình 2.2 Đường biên dốc

Trang 40

Hình 2.3 Đường biên không trơn

2.1.1.3 Biên không trơn:

Trên thực tế, ảnh thường có biên không lý tưởng, các điểm ảnh trên ảnh thường có sự thay đổi mức xám đột ngột và không đồng nhất, đặc biệt là ảnh nhiễu Trong trường hợp không nhiễu (biên lý tưởng), bất cứ một sự thay đổi cấp xám nào cũng thông báo sự tồn tại của một biên Trường hợp đó khó có khả năng xảy ra, ảnh thường là không lý tưởng, có thể là do các nguyên nhân sau:

- Hình dạng không sắc nét

- Nhiễu: do một loạt các yếu tố như: kiểu thiết bị nhập ảnh, cường độ ánh sáng, nhiệt độ, hiệu ứng áp suất, chuyển động, bụi…, chưa chắc rằng hai điểm ảnh có cùng giá trị cấp xám khi được nhập lại có cùng cấp xám đó trong ảnh Kết quả của nhiễu trên ảnh gây ra một sự biến thiên ngẫu nhiên giữa các điểm ảnh Sự xuất hiện ngẫu nhiên của các điểm ảnh có mức xám chênh lệch cao làm cho các đường biên dốc trở lên không trơn tru mà trở thành các đường biên gồ ghề, mấp mô, không nhẵn, đây chính là đường biên trên thực

tế

Ngày đăng: 18/12/2013, 14:25

HÌNH ẢNH LIÊN QUAN

Hình 1.4 Đa giác 6 đỉnh và  trọng tâm được xác định - Nghiên cứu một số kỹ thuật hiệu chỉnh biểu mẫu và ứng dụng luận văn thạc sĩ
Hình 1.4 Đa giác 6 đỉnh và trọng tâm được xác định (Trang 26)
Hình 1.12 Các K-NN và vector chỉ phương ứng với K=2,3,4 - Nghiên cứu một số kỹ thuật hiệu chỉnh biểu mẫu và ứng dụng luận văn thạc sĩ
Hình 1.12 Các K-NN và vector chỉ phương ứng với K=2,3,4 (Trang 31)
Hình 3.5 Ví dụ về văn bản nghiêng có các đối tượng bao nhau - Nghiên cứu một số kỹ thuật hiệu chỉnh biểu mẫu và ứng dụng luận văn thạc sĩ
Hình 3.5 Ví dụ về văn bản nghiêng có các đối tượng bao nhau (Trang 56)
Sơ đồ giải thuật: - Nghiên cứu một số kỹ thuật hiệu chỉnh biểu mẫu và ứng dụng luận văn thạc sĩ
Sơ đồ gi ải thuật: (Trang 60)
Hình 4.1 Sơ đồ tổng quát - Nghiên cứu một số kỹ thuật hiệu chỉnh biểu mẫu và ứng dụng luận văn thạc sĩ
Hình 4.1 Sơ đồ tổng quát (Trang 63)
Hình 4.2 Giao diện chính của chương trình - Nghiên cứu một số kỹ thuật hiệu chỉnh biểu mẫu và ứng dụng luận văn thạc sĩ
Hình 4.2 Giao diện chính của chương trình (Trang 64)
Hình 4.3 Sơ đồ module xử lý cơ bản - Nghiên cứu một số kỹ thuật hiệu chỉnh biểu mẫu và ứng dụng luận văn thạc sĩ
Hình 4.3 Sơ đồ module xử lý cơ bản (Trang 65)
Hình 4.7 Giao diện biểu diễn Histogram của ảnh - Nghiên cứu một số kỹ thuật hiệu chỉnh biểu mẫu và ứng dụng luận văn thạc sĩ
Hình 4.7 Giao diện biểu diễn Histogram của ảnh (Trang 67)
Hình 4.8 Giao diện convert ảnh sang nhị phân và ảnh đa cấp xám - Nghiên cứu một số kỹ thuật hiệu chỉnh biểu mẫu và ứng dụng luận văn thạc sĩ
Hình 4.8 Giao diện convert ảnh sang nhị phân và ảnh đa cấp xám (Trang 67)
Hình 4.11 Dò biên bằng phương pháp Canny - Nghiên cứu một số kỹ thuật hiệu chỉnh biểu mẫu và ứng dụng luận văn thạc sĩ
Hình 4.11 Dò biên bằng phương pháp Canny (Trang 69)
Hình 4.12 Dò biên bằng phương pháp Emboss Laplacian - Nghiên cứu một số kỹ thuật hiệu chỉnh biểu mẫu và ứng dụng luận văn thạc sĩ
Hình 4.12 Dò biên bằng phương pháp Emboss Laplacian (Trang 69)
Hình 4.14 Biểu diễn biến đổi Hough của ảnh - Nghiên cứu một số kỹ thuật hiệu chỉnh biểu mẫu và ứng dụng luận văn thạc sĩ
Hình 4.14 Biểu diễn biến đổi Hough của ảnh (Trang 70)
Hình 4.15 Phát hiện góc nghiêng và xoay ảnh - Nghiên cứu một số kỹ thuật hiệu chỉnh biểu mẫu và ứng dụng luận văn thạc sĩ
Hình 4.15 Phát hiện góc nghiêng và xoay ảnh (Trang 71)
Hình 4.20 Một ảnh màu tài liệu bị nghiêng và ảnh kết quả sau khi hiệu - Nghiên cứu một số kỹ thuật hiệu chỉnh biểu mẫu và ứng dụng luận văn thạc sĩ
Hình 4.20 Một ảnh màu tài liệu bị nghiêng và ảnh kết quả sau khi hiệu (Trang 75)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm