Tìm hiểu một số kỹ thuật phát hiện góc nghiêng văn bản và ứng dụng

Thuật toán phát hiện góc nghiêngđược ứng dụng cho ảnh văn bản và xác định được góc nghiêng có thể là 0khi đã được số hóa.. Ngoài ra, khi quét toàn bộ bề mặtvăn bản có thể bị che khuất do

Trang 1

LỜI CẢM ƠN

Em xin trân trọng cảm ơn các thầy giáo, cô giáo trong Viện Công nghệ thông tin, Khoa Công nghệ thông tin Đại học Thái Nguyên đã nhiệt tình giảng dạy và hết lòng giúp đỡ em trong quá trình học tập và nghiên cứu đề tài.

Luận văn được hoàn thành tại Khoa Công nghệ thông tin dưới sự hướng

dẫn của PGS.TS Ngô Quốc Tạo Em xin bày tỏ lòng kính trọng và biết ơn

sâu sắc tới thầy.

Em cũng xin chân thành cảm ơn các bạn đồng nghiệp phòng Khảo thí & Đảm bảo chất lượng trường Đại học Hải Phòng đã tạo điều kiện giúp đỡ trong quá trình hoàn thành luận văn này.

Sự quan tâm, giúp đỡ của gia đình và bạn bè, đặc biệt lớp Cao học K7 Khoa Công nghệ thông tin đã cổ vũ, động viên em trong suốt thời gian học tập và thực hiện đề tài.

Mặc dù có nhiều cố gắng song luận văn không thể tránh khỏi những thiếu sót, tác giả mong nhận được sự đóng góp ý kiến của các thầy cô và các ban Xin chân thành cảm ơn!

Thái Nguyên, tháng 11 năm 2010

Tác giả

Hoàng Thị Vân Anh

Trang 2

LỜI CAM ĐOAN

Tôi xin cam đoan luận văn “ Tìm hiểu một số kỹ thuật phát hiện gócnghiêng văn bản và ứng dụng” là do tôi tự tìm hiểu và được hoàn thành dưới

sự hướng dẫn của thầy giáo PGS TS Ngô Quốc Tạo

Trang 3

MỤC LỤC

Trang Trang phụ bìa

Lời cam đoan

Mục lục

Danh mục các bảng

Danh mục các hình vẽ

Hình 3.4: Sơ đồ phân bố histogram chu vi sau khi gom 56 5

PrmAvr 61

Hình 3.4: Sơ đồ phân bố histogram chu vi sau khi gom 61

4.1 Sơ đồ chức năng của chương trình 64

4.2 Thiết kế Menu 65

4.3 Giao diện chính của chương trình 66

DANH MỤC BẢNG BIỂU Bảng 1: Kết quả thực nghiệm của các phương pháp phát hiện góc nghiêng……… 49

DANH MỤC HÌNH VẼ Hình 1.1 Quá trình xử lý ảnh 3

Hình 1.2: Các giai đoạn trong xử lý ảnh 3

Hình 1.3a 7

Hình 1.3b 7

Hình 1.4a: Các 4- láng giềng của điểm ảnh P 11

Hình 1.4b: Các 8- láng giềng của điểm ảnh P 11

Hình 1.5a.Chu tuyến ngoài 12

Hình 1.5b Chu tuyến trong 12

Hình 1.6: Chu tuyến trong và chu tuyến ngoài của một đối tượng 12

Hình 1.7: Hướng các láng giềng của một điểm ảnh 13

Trang 4

Hình 1.8a: Hướng xác định cặp vùng nền xuất phát 14

Hình 1.8b: Hướng xác định cặp vùng nền tiếp theo 14

Hình 2.1: Biến đổi Hough cho đường thẳng 16

Hình 2.2: Tham số r – φ của đường thẳng 16

Hình 2.3: Biến đổi Hough trong không gian r-φ 17

Hình 2.4: Các hình chữ nhật ngoại tiếp 18

Hình 2.5 : Áp dụng biến đổi Hough phát hiện góc nghiêng văn 19

Hình 2.6 Quay một điểm ảnh quanh gốc tọa độ 22

Hình 2.7 Hiện tượng rỗ ảnh sau khi quay 23

Hình 2.8 a Ảnh gốc 23

Hình 2.8b Ảnh bị nghiêng 50 23

Hình 2.8 Phương pháp hình chiếu được tính từ ảnh trong hình 2.8a, 2.8b 24

Hình 2.9 Một ví dụ các dòng văn bản có xu hướng dính lại với nhau do ảnh hưởng của dấu 27

Hình 2.10: Các điểm left most bottom và bottom most left 28

Hình 2.11: Những khoảng góc nghiêng khác nhau được sử dụng để ước lượng góc nghiêng phù hợp cho phần tử cấu trúc 31

Hình 2.12: Một vài ví dụ của việc sử dụng phép đóng và mở với những phần tử cấu trúc nghiêng 32

Hình 2.13: Một thành phần liên thông dài với hệ tọa độ ảnh 33

Hình 2.14a Định nghĩa điểm chủ đạo 41

Hình 2.14b Định hướng góc nghiêng 41

Hình 2.15: Điểm chủ đạo trên dòng văn bản 43

Hình 2.16: Quan hệ láng giềng giữa các điểm chủ đạo 43

Hình 2.17: Định hướng thuật toán phát hiện góc nghiêng 45

Hình 2.18: Mô hình quét dòng văn bản 47

Hình 3.1 Một ảnh văn bản nghiêng có độ phân giải thấp 51

Trang 5

Hình 3.2: Ví dụ về một ảnh văn bản nghiêng với nhiều đối tượng phức tạp và

ít ký tự 52

Hình 3.3: Sơ đồ phân bố histogram chu vi trước khi gom 55

Hình 3.4: Sơ đồ phân bố histogram chu vi sau khi gom 56

Hình 3.5 Ví dụ về một ảnh nghiêng có ít ký tự chữ cái 56

Hình 3.6 : Ví dụ về văn bản nghiêng có các đối tượng bao nhau 57

MỞ ĐẦU

1 Lý do chọn đề tài

Thông tin con người thu nhận từ thế giới bên ngoài, đến hơn 80% được ghi nhận bằng mắt tức là ở dạng ảnh Vì vậy xử lý ảnh là một ngành khoa học

đã, đang và sẽ phát triển mạnh có ứng dụng rộng rãi trong khoa học và đời sống thực tiễn như vẽ bản đồ, trong lĩnh vực quảng cáo, siêu thị, trong quân sự… Các hệ thống xử lý ảnh cho phép con người thu nhận lưu trữ, phân tích

và nhận dạng ảnh, một bộ phận quan trọng của xử lý ảnh là xử lý văn bản Một trong những nhiệm vụ chính cũng là đối tượng của xử lý ảnh văn bản là

tự động hóa công việc văn phòng

Hiện nay phần lớn lượng thông tin vẫn còn được lưu trữ, trình bày và phân phối thông qua phương tiện chủ yếu là giấy bởi con người tin tưởng hơn khi nhận được văn bản giấy Tuy nhiên có xu hướng đang phát triển để chia

sẻ và trao đổi thông tin điện tử, vì thế sự cần thiết để chuyển đổi từ tài liệu giấy sang tài liệu điện tử để lưu trữ, khôi phục và bảo trì ngày càng tăng lên

Trang 6

Để chuyển đổi từ tài liệu giấy sang dạng điện tử thì kỹ thuật thường gồm babước: quét và công nghệ kỹ thuật số, phân tích bố cục và nhận dạng ký tự.Khi văn bản được quét vào máy, văn bản bị nghiêng là không thể tránh khỏi

do các yếu tố khác nhau khi đưa ảnh vào Hầu hết các thuật toán nhận dạng ký

tự, phân tích bố cục là phổ biến nhưng lại rất nhạy cảm đối với sự biến dạngcủa ảnh văn bản và văn bản bị nghiêng có thể gây ra lỗi nghiêm trọng choviệc phân tích văn bản Do đó phát hiện và chỉnh sửa ảnh văn bản bị nghiêng

là cần thiết ở giai đoạn tiền xử lý để tránh nhiễu trong quá trình xử lýnghiêng

Một trong những vấn đề đầu tiên trong xử lý ảnh văn bản là bài toán gócnghiêng văn bản Nguyên nhân dẫn đến văn bản bị nghiêng một góc xuất phát

từ quá trình quét ảnh hoặc copy ảnh, dẫn đến ảnh bị lệch đi một góc tươngứng Văn bản bị lệch có ảnh hưởng rất lớn đến các quá trình xử lý ảnh tiếptheo, vì vậy việc phát hiện và chỉnh sửa góc nghiêng văn bản là nhiệm vụquan trọng đầu tiên trong xử lý ảnh văn bản

Với những lý do trên đây nên em đã chọn đề tài: “Tìm hiểu một số kỹ thuật phát hiện góc nghiêng văn bản và ứng dụng”.

2 Mục tiêu nghiên cứu

Hiểu được các phương pháp phát hiện góc nghiêng văn bản Từ đó đưa

ra những nhận xét, so sánh giữa các phương pháp Lựa chọn công cụ pháttriển phù hợp cài đặt ứng dụng

3 Đối tượng và phạm vi nghiên cứu

Tìm hiểu một vài kỹ thuật phát hiện góc nghiêng văn bản về mặt lýthuyết, từ đó lựa chọn phương pháp cài đặt ứng dụng vào thực tế

Áp dụng đối với ảnh văn bản đen trắng

4 Ý nghĩa khoa học và thực tiễn của đề tài

Hệ thống hoá các kiến thức về kỹ thuật phát hiện góc nghiêng văn bản

Trang 7

Việc tìm hiểu và phát triển ứng dụng thành công giúp cho việc xử lý ảnhtrở nên đơn giản và dễ dàng hơn đối với một số trường hợp như: xử lý ảnhban đầu để cho ra ảnh mới theo mong muốn của người dùng (ví dụ như ảnh bịnghiêng cần xử lý để thu được ảnh chính xác hơn…).

5 Phương pháp nghiên cứu

5.1 Dựa trên các tài liệu

- Tìm hiểu lý thuyết liên quan đến xử lý ảnh

- Tìm hiểu lý thuyết các kỹ thuật phát hiện góc nghiêng văn bản vàchỉnh sửa

- Biến đổi ảnh, làm tăng chất lượng ảnh

Kết luận

Trang 8

- Tự động nhận dạng ảnh, đoán nhận ảnh, đánh giá các nội dung củaảnh.

Nhận biết và đánh giá được nội dung của ảnh là để phân biệt được đốitượng này với đối tượng khác, từ đó ta có thể mô tả được ảnh ban đầu Cómột số phương pháp nhận dạng như: nhận dạng cạnh của một số đối tượngtrên ảnh, tách cạnh, phân đoạn hình ảnh … Các kỹ thuật này được ứng dụngnhiều trong y học như: xử lý tế bào, nhiễm sắc thể; nhận dạng chữ viết trongvăn bản…

Hình 1.2: Các giai đoạn trong xử lý ảnh1.1.2 Các vấn đề cơ bản trong xử lý ảnh

* Ảnh và điểm ảnh:

- Điểm ảnh được xem như là dấu hiệu hay cường độ sáng tại một tọa

độ trong không gian của đối tượng ảnh

- Ảnh được xem như là tập hợp các điểm ảnh Ảnh được biểu diễn bởimột mảng số thực hai chiều (Ii j) có kích thước (m x n), trong đó mỗi phần tử Ii

j (i = 1…m; j = 1…n) biểu đồ mức xám của ảnh tại vị trí (i, j) tương ứng Ảnh được gọi là ảnh nhị phân nếu các giá trị chỉ nhận 0 hoặc 1

* Mức xám: Mức xám là kết quả sự mã hóa tương ứng một cường độsáng của mỗi điểm ảnh với một giá trị số - kết quả của quá trình lượng hóa.Cách mã hóa thường dùng là 16, 32 hay 64 mức, mã hóa 256 mức là phổdụng nhất

Lưu trữ

Tiền

xử lý

Trích chọn đặc điểm

Trang 9

* Đối tượng ảnh: Trong quá trình xử lý ảnh, một ảnh được thu nhận vàomáy phải được mã hóa, vì vậy ảnh phải được lưu trữ thế nào sao cho các ứngdụng khác nhau có thể thao tác trên các loại dữ liệu này Một số dạng ảnh đãđược chuẩn hóa như: GIF, BMP, PCX, ; mỗi kiểu lưu trữ ảnh đều có điểmriêng Tùy theo vùng các giá trị xám của điểm ảnh mà các ảnh được phân chia

ra thành ảnh màu, ảnh xám, ảnh nhị phân Khi trên một ảnh chỉ có giá trị 0hoặc 1 thì ta nói đó là ảnh nhị phân hoặc ảnh đen trắng và các điểm ảnh của

nó gọi là điểm ảnh nhị phân Việc đếm các điểm ảnh trên ảnh nhị phân đã quabiến đổi tạo điều kiện thuận lợi cho việc tách ra các đặc tính Để tạo ra mộtảnh nhị phân từ ảnh đa cấp xám ta dùng phương pháp tách ngưỡng Các giá trịnằm ở trên ngưỡng được gán giá trị 1 còn ở bên dưới ngưỡng thì được gán giátrị 0

- Kỹ thuật tách ngưỡng: Ngưỡng θ trong kỹ thuật tách ngưỡng thườngđược cho bởi người sử dụng Kỹ thuật tìm, tách ngưỡng tự động nhằm tìm rangưỡng θ một cách tự động dựa vào Histogram theo nguyên lý trong vật lý làvật thể tách làm 2 phần nếu tổng độ lệch trong từng phần là tối thiểu

Giả sử ta có ảnh I ~ kích thước m x n; G ~ số mức xám của ảnh kể cảkhuyết thiếu; t(g) ~ số điểm ảnh có mức xám ≤ g

Ảnh thu nhận thường bị biến dạng do các thiết bị quang học và điện tử

Để khắc phục, người ta sử dụng các phép chiếu, các phép chiếu thường đượcxây dựng trên tập các điểm điều khiển

Trang 10

1.1.2.2 Khử nhiễu

Có hai loại nhiễu cơ bản trong quá trình thu nhận ảnh:

- Nhiễu hệ thống: là nhiễu có quy luật có thể khử bằng các phép biến đổi

- Nhiễu ngẫu nhiên: là dạng vết bẩn không rõ nguyên nhân nên có thể khắcphục bằng các phép lọc

1.1.2.3 Chỉnh mức xám

Nhằm khắc phục tính không đồng đều của hệ thống gây ra, thông thường

có hai hướng tiếp cận:

− Giảm số mức xám: thực hiện bằng cách nhóm các mức xám gần nhau thànhmột bó Trường hợp chỉ có hai mức xám thì chính là chuyển về ảnh đen trắng

− Tăng số mức xám: thực hiện nội suy ra các mức xám trung gian bằng kỹthuật nội suy Kỹ thuật này nhằm tăng độ mịn của ảnh

1.1.2.4 Phân tích ảnh

Là khâu quan trọng trong quá trình xử lý ảnh để tiến tới hiểu ảnh.Trong phân tích ảnh việc trích chọn đặc điểm là một bước quan trọng, các đặcđiểm của đối tượng được trích chọn tùy theo mục đích nhận dạng trong quátrình xử lý ảnh Một số đặc điểm của ảnh như: đặc điểm không gian, đặc điểmbiến đổi, đặc điểm biên và đường biên

1.1.2.5 Nhận dạng ảnh

Nhận dạng ảnh là quá trình liên quan đến các mô tả đối tượng mà người

ta muốn đặc tả nó Quá trình nhận dạng thường đi sau quá trình trích chọn cácđặc tính chủ yếu của đối tượng Nhận dạng tự động, mô tả đối tượng, phânloại và phân nhóm các mẫu là những vấn đề quan trọng trong thị giác máy,được ứng dụng trong nhiều ngành khoa học khác nhau

Hệ thống nhận dạng tự động bao gồm ba khâu tương ứng với ba giaiđoạn chủ yếu sau: thu nhận dữ kiệu và tiền xử lý, biểu diễn dữ liệu, nhận dạng

và ra quyết định Bốn cách tiếp cận khác nhau trong lý thuyết nhận dạng là:

Trang 11

Đối sánh mẫu dựa trên các đặc trưng được trích chọn, phân loại thống kê, đốisánh cấu trúc, phân loại dựa trên mạng nơron nhân tạo.

1.1.2.6 Nén ảnh

Lượng thông tin để biểu diễn cho một ảnh là rất lớn, vì vậy nén ảnhnhằm giảm thiểu không gian lưu trữ, thường được tiến hành theo cả haikhuynh hướng là nén có bảo toàn và nén không bảo toàn thông tin Nénkhông bảo toàn thì thường có khả năng nén cao hơn nhưng có khả năng phụchồi kém hơn Các cách nén ảnh:

− Nén ảnh thống kê: Dựa vào việc thống kê tần xuất xuất hiện của giá trị cácđiểm ảnh, trên cơ sở đó mà có chiến lược mã hóa thích hợp Ví dụ: mã nén

*.TIF

− Nén ảnh không gian: Dựa vào vị trí không gian của các điểm ảnh để tiếnhành mã hóa Kỹ thuật này dựa vào sự giống nhau của các điểm ảnh trong cácvùng gần nhau Ví dụ: mã nén *.PCX

− Nén ảnh sử dụng phép biến đổi: Tiếp cận theo hướng nén không bảo toàn,

kỹ thuật này thường nén hiệu quả hơn Ví dụ: nén *.JPG

− Nén ảnh Fractal: sử dụng tính chất Fractal của các đối tượng ảnh, thể hiện

sự lặp lại của các chi tiết Kỹ thuật nén sẽ tính toán để chỉ cần lưu trữ phầngốc của ảnh và quy luật sinh ra ảnh theo nguyên tắc Fractal

1.2 Bài toán phát hiện góc nghiêng văn bản

1.2.1 Giới thiệu bài toán phát hiện góc nghiêng văn

bản.

Một hệ thống xử lý văn bản thường giải quyết bài toán góc nghiêng vănbản như bước đầu tiên và tất yếu Nguyên nhân dẫn đến ảnh văn bản có thể bịquay hoặc nghiêng một góc bất kỳ có thể do nó được đặt trên trục quay khiquét ảnh hoặc do sự cố đặt văn bản Ảnh văn bản bị nghiêng được hiển thịnhư trong hình 1.3b

Trang 12

Ảnh văn bản bị nghiêng một góc tương ứng là 50 Trong thực tế, có thểnhìn thấy văn bản bị nghiêng với độ nghiêng ít nhất là 0,10 Như vậy, mộtchức năng mong muốn trong máy Photo hoặc máy quét là phát hiện và chỉnhsửa góc nghiêng một cách tự động Ví dụ đầu vào được thể hiện như hình1.3b và đầu ra được thể hiện như hình 1.3a Thuật toán phát hiện góc nghiêngđược ứng dụng cho ảnh văn bản và xác định được góc nghiêng (có thể là 0)khi đã được số hóa Một giải pháp đơn giản để phát hiện góc nghiêng là xácđịnh vị trí của ít nhất hai góc của văn bản gốc và tính toán góc nghiêng từchúng Tuy nhiên điều này có thể gây ra lỗi vì xảy ra biến dạng phi tuyến khicác trang không phẳng trên trục lăn giấy Ngoài ra, khi quét toàn bộ bề mặtvăn bản có thể bị che khuất do lỗi đưa văn bản đầu vào trong qúa trình quét.Cùng với sự phát triển của xử lý ảnh, đã có nhiều hướng tiếp cận áp dụng chobài toán phát hiện góc nghiêng văn bản như biến đổi Hough, phép chiếu, cácphép toán hình thái, phân tích láng giềng, Các đặc trưng của từng phươngpháp sẽ được trình bày ở chương tiếp theo

Khi xem xét một văn bản, để kết luận văn bản có bị nghiêng hay khôngcách làm của con người là căn cứ vào một số đối tượng chủ đạo và gócnghiêng văn bản được ước lượng dựa vào đường nối các điểm giữa đáy củacác đối tượng này Xuất phát từ nhận xét trên, luận văn sẽ trình bày mộtphương pháp phát hiện góc nghiêng văn bản từ kỹ thuật xác định chu tuyến

Trang 13

một đối tượng ảnh và áp dụng biến đổi Hough lên điểm giữa đáy hình chữnhật ngoại tiếp các đối tượng có kích thước chủ đạo trong ảnh Việc xác địnhcác hình chữ nhật này dựa vào biên hay chu tuyến ngoài của các đối tượng

1.2.2 Biên và phương pháp phát hiện biên

1.2.2.1 Biên của đối tượng ảnh

Biên là một vấn đề chủ yếu trong phân tích ảnh vì các kỹ thuật phânđoạn ảnh chủ yếu dựa vào biên Có thể thấy tầm quan trọng của biên khi tatheo dõi một họa sĩ làm việc Giả sử anh ta muốn vẽ một quả bóng, nét đầutiên được phác họa chính là đường biên của quả bóng sau đó mới đến các chitiết bên trong Như vậy, mới chỉ nhìn biên của sự vật ta cũng đã hình dung ítnhiều về nó và có thể phân biệt được với các sự vật khác

Một điểm ảnh được xem là biên nếu ở đó có sự thay đổi đột ngột vềmức xám Tập hợp các điểm biên tạo thành biên hay một đường bao của ảnh(boundary) Trong ảnh nhị phân, một điểm ảnh thuộc biên nếu đó là một điểmđen và có ít nhất một điểm trắng lân cận

Ta thường sử dụng hai phương pháp phát hiện biên cơ bản:

- Phát hiện biên trực tiếp: Phương pháp này làm nổi biên dựa vào sựbiến thiên mức xám của ảnh Kỹ thuật chủ yếu dùng để phát hiện biên ở đây

là dựa vào sự biến đổi theo hướng Nếu lấy đạo hàm bậc nhất của ảnh ta có

kỹ thuật Gradient, nếu lấy đạo hàm bậc hai của ảnh ta có kỹ thuật Laplace

- Phát hiện biên gián tiếp: Nếu bằng cách nào đó ta phân được ảnhthành các vùng thì ranh giới giữa các vùng đó gọi là biên Kỹ thuật dò biên

và phân vùng ảnh là hai bài toán đối ngẫu nhau vì dò biên để thực hiện phânlớp đối tượng Khi đã phân lớp xong nghĩa là đã phân vùng được ảnh vàngược lại, khi đã phân vùng ảnh xong là đã phân lớp thành các đối tượng,

do đó có thể phát hiện được biên

1.2.2.2 Phương pháp phát hiện biên trực tiếp

Trang 14

a Kỹ thuật phát hiện biên Gradient

Phương pháp gradient là phương pháp dò biên cục bộ dựa vào cực đạicủa đạo hàm Theo định nghĩa, gradient là một vector biểu thị tốc độ thay đổigiá trị của điểm ảnh theo 2 hướng x và y Các thành phần của gradient đượctính bởi:

dx

y x f y dx x f x

y x f

Trong thực tế, khi ta nói lấy đạo hàm của ảnh thực ra chỉ là mô phỏng

và xấp xỉ đạo hàm bằng các kỹ thuật nhân chập hay phép cuộn Do ảnh số làtín hiệu rời rạc nên đạo hàm không tồn tại

Kỹ thuật PreWitt: Kỹ thuật này sử dụng 2 mặt nạ theo 2 hướng x và y:

Quá trình tính toán được thực hiện qua 2 bước:

Trang 15

Kỹ thuật Sobel: Tương tự như kỹ thuật PreWitt, kỹ thuật Sobel sử dụng 2 ma

trận mặt nạ nhân chập là:

b Kỹ thuật Laplace:

Các phương pháp đánh giá Gradient ở trên làm việc rất tốt khi độ sángthay đổi rõ nét Tuy nhiên, khi mức xám thay đổi chậm, miền chuyển tiếp trảirộng, phương pháp Gradient lại kém hiệu quả so với phương pháp đạo hàmbậc 2 Laplace Theo định nghĩa , toán tử Laplace như sau:

2 2

2

y

f x

f

∆

∆ +

f x x

f

∆

− +

2 2

≈ [f(x+1,y) - f(x,y)] - [f(x,y) - f(x-1,y)]

= f(x+1,y) – 2f(x,y) + f(x-1,y)

1.2.2.3 Phương pháp phát hiện biên gián tiếp

a Định nghĩa chu tuyến

Trang 16

Chu tuyến của một đối tượng ảnh là dãy các điểm của đối tượng ảnh

P1, P2, , Pn sao cho Pi và Pi+1 là các 8-láng giềng của nhau (i = 1, …, n – 1) và

P1 là 8-láng giềng của Pn , ∀i ∃ Q không thuộc đối tượng ảnh và Q là 4-lánggiềng của Pi (hay nói cách khác ∀i thì Pi là biên 4) Kí hiệu <P1P2…Pn>.Trong đó 4-láng giềng được định nghĩa là các điểm trực tiếp bên trên, dưới,trái, phải của một điểm Và 8-láng giềng là những điểm 4-láng giềng hoặc cácđiểm trên trái, trên phải, dưới trái, dưới phải trực tiếp của một điểm

Chu tuyến đối ngẫu

Hai chu tuyến C = <P1, P2, Pn> và C’ = <Q1, Q2, , Qn> được gọi làhai chu tuyến đối ngẫu của nhau nếu và chỉ nếu ∀i ∃j sao cho:

• Pi và Qj là 4 láng giềng của nhau

• Các điểm Pi là vùng thì Qj là nền và ngược lại

Chu tuyến trong

Chu tuyến C được gọi là chu tuyến trong nếu và chỉ nếu:

• Chu tuyến đối ngẫu C’ của nó là chu tuyến của các điểm nền

• Độ dài của chu tuyến C’ nhỏ hơn độ dài của chu tuyến C

Chu tuyến ngoài

Chu tuyến C được gọi là chu tuyến ngoài (hình 1.5a) nếu và chỉ nếu:

• Chu tuyến đối ngẫu C’ của C là chu tuyến các điểm nền

• Độ dài của chu tuyến C’ lớn hơn độ dài chu tuyến C

Trang 17

1.2.2.4 Thuật toán dò biên tổng quát

Về cơ bản, thuật toán xác định chu tuyến một đối tượng ảnh gồm cácbước sau:

Bước 1: Xác định cặp vùng nền xuất phát P0

Bước 2: Xác định cặp vùng nền tiếp theo

Bước 3: Lựa chọn điểm biên vùng.

Bước 4: Nếu gặp lại cặp nền vùng xuất phát thì dừng, ngược lại quay lại

bước 2

Khái niệm cặp vùng nền được định nghĩa gồm một điểm vùng và mộtđiểm nền, trong đó nếu điểm vùng đi được một vòng chu tuyến thì điểm nềncũng đi được một vòng chu tuyến đối ngẫu

a Xác định cặp vùng nền xuất phát

Để xây dựng các hàm xác định cặp vùng nền xuất phát và tiếp theo, tađịnh nghĩa các hướng tương ứng với 8-láng giềng của một điểm ảnh Gọi

Orient []là mảng dùng lưu các hướng trên, mỗi phần tử tương ứng là độ lệch

hàng và cột của một láng giềng so với điểm đang xét

Chu tuyến C’ Chu tuyến C’ Chu tuyến C

Hình 1.6: Chu tuyến trong và chu tuyến ngoài của một đối tượng

Chu tuyến trong

Chu tuyến ngoài

Hình 1.5a.Chu tuyến ngoài Hình 1.5b Chu tuyến trong

Trang 18

Với một điểm P(x,y) của ảnh Image có màu c và hướng đi hiện tại là dir, hàm tìm cặp vùng nền xuất phát Inverse sẽ xác định một hướng đi xuất

phát cho P

Phương pháp: Từ hướng đi hiện tại quay theo chiều ngược kim đồng

hồ cho đến khi gặp một điểm cùng màu với điểm ảnh đang xét Nếu thànhcông hàm trả về hướng đi trước đó, ngược lại hàm trả về 8 (một giá trị không

thuộc mảng Orient[])

b Xác định cặp vùng tiếp theo

Sau khi xác định được một hướng đi đầu tiên, bước tiếp theo của thuậttoán là lặp lại công việc xác định cặp vùng nền tiếp theo cho tới khi gặp đựợcđiểm ban đầu

Tương tự như hàm xác định cặp vùng nền xuất phát, để tìm một hướng

đi cho bước kế tiếp từ hướng đi hiện tại ta quay theo chiều kim đồng cho tớikhi gặp điểm có cùng màu với điểm hiện tại và hàm trả về hướng đi đó Hàm

Next dùng để xác định hướng đi tiếp theo Hàm hàm trả về -1 (giá trị không thuộc Orient[]) nếu không thành công

c Thuật toán dò biên

0 4

5 6

3

7 Hình 1.8a: Hướng xác định cặp

vùng nền xuất phát.

0 4

5 6

3

7 Hình 1.8b: Hướng xác định cặp vùng nền tiếp theo.

Trang 19

Sau khi đã xây dựng được hai hàm Inverse và hàm Next xác định cặp

vùng nền xuất phát và cặp vùng nền tiếp theo Ta có thể chi tiết thuật toán tìmchu tuyến ngoài của một đối tượng ảnh như sau:

Bước 1: Xác định hướng xuất phát dir bằng hàm Inverse, savedir=dir Bước 2: Nếu dir = 8 return vì điểm ảnh bị cô lập, không có láng giềng Bước 3: Tìm một hướng đi tiếp theo bằng hàm Next với hướng hiện tại

là dir và lưu lại điểm ảnh tương ứng với hướng này.

Bước 4: Nếu gặp lại điểm ảnh ban đầu và hướng đi hiện tại dir trùng với hướng đi savedir ban đầu thì return.

Bước 5: Gán lại hướng đi hiện cho dir và quay lại bước 3.

CHƯƠNG II MỘT SỐ KỸ THUẬT PHÁT HIỆN GÓC NGHIÊNG VĂN BẢN

2.1 Biến đổi Hough

Một phương pháp cơ bản mà chúng ta có thể mô tả các đối tượng bởi cáchàm toán học mà các hàm này miêu tả biên đường thẳng, đó là biến đổiHough; được phát hiện vào năm 1962 do Paul Hough phát minh Mặc dù vềmặt lý thuyết các công thức toán học phức tạp có thể sử dụng được nhưng lạiđặt ra những yêu cầu tính toán có thực hiện được hay không

2.1.1 Đường thẳng Hough

Với biến đổi Hough, phần lớn các thông tin trên cạnh ảnh không được

sử dụng và để chuyển sang một hình thức khác thì bước đầu tiên là sử dụng kỹthuật chọn ngưỡng Bất kỳ điểm nào mà Gradient ở trên ngưỡng này thuộc về

Trang 20

biên, các điểm ảnh đó gọi là điểm cạnh Kỹ thuật này là tốt cho hình ảnh có độtương phản cao nhưng làm giảm tính ứng dụng của nó Biến đổi Hough là ánh

xạ một đường thẳng trong mặt phẳng thành các cặp (r, φ) trong không gian

Hough với r là khoảng cách từ gốc tọa độ tới đường thẳng đó và φ là góc

nghiêng của đường thẳng đó so với trục tung Xét đường thẳng trong mặtphẳng tọa độ có phương trình:

y – m*x – c = 0 (2.1)Trong đó m và c là 2 hằng số, nếu ta chọn một điểm trên mặt phẳng tọa

độ Đêcac (X, Y) nó có thể thuộc họ các đường được xác định bởi các giá trịkhác nhau của m và c Một điểm (xi, yi) trong không gian Đêcac sẽ tương ứngvới hằng số m – c được cho bởi phương trình: yi – m*xi = c

Vì vậy nếu mất một tập hợp các điểm trong không gian tọa độ điều nàytương ứng với một tập hợp các đường trong không gian m – c được thể hiệntrong hình 2.1:

Nếu các điểm đó tạo thành đường kẻ, dễ thấy tất cả các đường gặp nhautại một điểm duy nhất, đó là điểm xác định góc nghiêng và khoảng cách từgốc tạo độ tới đường thẳng Trong thực tế ta thường gặp nhiều đường, do đó

kỹ thuật này để chia nhỏ không gian m – c thành các khu vực nhỏ và đếm số

[x 2 ,y 2 ] [x 3 ,y 3 ]

[x 5 ,y 5 ] [x 4 ,y 4 ]

[x 2 ,y 2 ] [x 3 ,y 3 ] [x 4 ,y 4 ]

[x 5 ,y 5 ]

Y

X

M C

Điểm cạnh trong không gian ảnh Đường thẳng trong không gian tham số

Hình 2.1: Biến đổi Hough cho đường thẳng

Trang 21

đường mà nó đi qua Giá trị [m, c] tại tâm của mỗi khu vực với số đườngnhiều nhất được sử dụng để ước lượng đường đúng nhất trong không gian tọa

độ Tuy nhiên nếu ta coi tất cả các đường có thể xuất hiện trong ảnh thì tham

số góc nghiêng m bao gồm một phạm vi vô hạn Từ đó suy ra tham số [m, c]

Trang 22

Phương trình (2.2) có thể được xem là mối quan hệ giữa các tọa độ (x,y) của một số điểm trên cạnh ảnh, và giá trị của các tham số [r, q] xác địnhtrên đường thẳng Do đó ta phải lượng tử hóa các thông số vào các giá trịkhông gian rời rạc, ưu điểm của tham số r-q là được lượng tử hóa một cách dễdàng Nhìn vào hình 2.3 rõ ràng không phải tất cả các không gian tham số cầnđược xem xét Tất cả các hàm sin đều có chu kỳ giống nhau và do đó ta có thểgiới hạn q trong phạm vi [0, 2π] mà không mất tính tổng quát Phạm vi có thể

được chia thành các góc và kí hiệu φ θ θi, 2 ,3 , , 2i i π, nó có thể giới hạn phạm vi

nhiều hơn cái mà ta đang xét đến r Nếu cạnh của ảnh có độ phân giải nxm thì

không cần thiết xét giá trị của r lớn hơn 1 2 2

2

M = m +n , với θ ta có thể chiaphạm vi của r [0,…,rmax] thành một số bước rời rạc:

Biến đổi các điểm sang

đường hình sin trong không

gian

r-Ước lượng các điểm giao nhau trên phương trình đường thẳng Hình 2.3: Biến đổi Hough trong không gian r-

Trang 23

(0, ri, 2ri, 3ri,…, rmax)Hình 2.3 cho thấy chỉ có giá trị dương của r cần được xem xét nếu tađang dùng φ trong phạm vi [0…2π]

Để xây dựng thuật toán xác định góc nghiêng văn bản, trước hết ta dùng

kỹ thuật dò biên để xác định chu tuyến cho các đối tượng ảnh Các hình chữnhật chứa các đối tượng này được lưu lại cho các quá trình xử lý tiếp theo.Dựa vào sơ đồ phân bố các kích thước của các đối tượng, xác định cácngưỡng kích thước chủ đạo trong ảnh rồi dùng biến đổi Hough áp dụng chocác điểm giữa đáy của hình chữ nhật ngoại tiếp các đối tượng này.Cuối cùnggóc nghiêng văn bản sẽ được ước lượng từ mảng tích lũy trong quá trình ápdụng biến đổi Hough Như vậy công việc đầu tiên cần thực hiện là xác địnhđược các hình chữ nhật ngoại tiếp các đối tượng hay nói cách khác là xác địnhbiên của đối tượng Hình chữ nhật ngoại tiếp đối tượng sẽ được xác định ngaysau khi dò biên cho đối tượng đó

2.1.2 Áp dụng biến đổi Hough xác định góc nghiêng văn bản

Dùng một mảng tích lũy để đếm số điểm ảnh nằm trên mộtđường thẳng trong không gian ảnh, với chỉ số hàng cho biết góc lệch φ

của đường thẳng và chỉ số cột là r – khoảng cách từ gốc tọa độ tớiđường thẳng đó Sau đó tính tổng số điểm ảnh nằm trên đường thẳngsong song nhau theo các góc lệch thay đổi Góc nghiêng văn bản tươngứng với góc có tổng giá trị mảng tích lũy cực đại Mỗi đường thẳngtrong mặt phẳng tương ứng được biểu diễn bởi một cặp (r, φ) Giả sử

có một điểm (x, y) trong mặt phẳng, vì qua mỗi điểm có vô số đường

Hình 2.4: Các hình chữ nhật ngoại tiếp

đối tượng ảnh

Trang 24

thẳng, mỗi đường thẳng xác định được một cặp (r, φ) thỏa mãn

phương trình Hough:

Ta thấy trên mặt phẳng có hai đường thẳng song song nhau Đườngthẳng thứ nhất có ba điểm ảnh nên giá trị mảng tích luỹ bằng 4, đường thẳngthứ hai có giá trị mảng tích luỹ bằng 5 Do đó, tổng giá trị mảng tích luỹ chocùng góc φ trường hợp này bằng 9 Gọi Hough[2π][Max] là mảng tích lũy,

giả sử M và N tương ứng là chiều rộng và chiều cao của ảnh, ta có các bướcchính trong quá trình áp dụng biến đổi Hough phát hiện góc nghiêng văn bảnnhư sau:

Bước 1: Khai báo mảng chỉ số Hough[φ][r] với 0≤φ≤π và 0≤ r ≤ 2π,

0 r≤ ≤ M +N Gán giá trị khởi tạo bằng 0 cho các phần tử của mảng.

Bước 2: Với mỗi cặp (x, y) là điểm giữa đáy của hình chữ nhật ngoại tiếp

Hình 2.5 : Áp dụng biến đổi Hough phát hiện góc nghiêng văn bản

y

R 1 = x.cos φ + y.sin φ

Hough[ φ ][r 1 ] = 3

Trang 25

Bước 3: Trong mảng Hough[φ][r] tính tổng giá trị các phần tử theo từng

dòng và xác định dòng có tổng giá trị lớn nhất

Số phần tử của một phần tử mảng Hough[φ0][r0] chính là số điểm ảnh

thuộc đường thẳng x.cosφ0+y.sinφ0= r0 , vì vậy tổng số phần tử của một hàng

chính là tổng số điểm ảnh thuộc các đường thẳng tương ứng được biểu diễnbởi góc φ của hàng đó Do đó, góc nghiêng của văn bản chính là hàng có tổng

giá trị các phần tử mảng tích lũy lớn nhất

2.1.3 Thuật toán phát hiện góc nghiêng văn bản

Thuật toán phát hiện góc nghiêng văn bản gồm các bước sau:

Bước 1:

Với mỗi điểm ảnh ta duyệt ảnh theo thứ tự từ trên xuống và từ trái qua phải

- Nếu gặp một điểm vùng (x,y) chưa xét thực hiện các bước:

+ Áp dụng thuật toán xác định chu tuyến với đầu vào là (x,y) và màu tươngứng

+ Dùng hình chữ nhật ngoại tiếp kiểm tra nếu đối tượng có kích thước bìnhthường, áp dụng biến đổi Hough cho điểm giữa đáy của hình chữ nhật

- Nếu gặp một điểm đã xét, tìm một điểm ảnh trên cùng dòng có nhãn bằngvới điểm ảnh đang xét và tiến hành duyệt lại

cả hai Vì Vậy chúng ta không áp dụng biến đổi Hough cho tất cả các đốitượng sau khi tìm được chu tuyến của chúng mà loại những đối tượng có kíchthước kỳ lạ, hoặc là rất bé so với ký tự thường…

Trang 26

Sơ đồ giải thuật:

2.1.4 Chỉnh sửa góc nghiêng văn bản

Để chỉnh góc nghiêng văn bản ta quay ảnh với góc lệch đó Thuật toánquay ảnh là chuyển một điểm ảnh (x, y) từ ảnh ban đầu thành điểm ảnh mới

có tọa độ (x1, y1) trong ảnh kết quả với x1, y1 được xác định theo công thứcsau: x1 = x.cosφ+y.sinφ.

y1 = y.sinφ- x.cosφ

Lấy điểm trung bình cạnh đáy của từng hình chữ nhật

Xác định đường thẳng

Xoay văn bản với góc tìm được

Áp dụng biến đổi Hough để xác định đường thẳng từ tập điểm vừa tìm được

T

F

Xác định các đối tượng ảnh và hình chữ nhật chứa nó nhật chứa nó

Xác định các đối tượng ảnh và hình chữ nhật chứa nó

y

x

P ( x 1 , y 1 )

P ( x, y) O

Trang 27

Tuy nhiên một vấn đề trong kỹ thuật quay ảnh mà bất kỳ hệ thống xử lýảnh nào cũng gặp phải là giải quyết những lỗ hổng hay những điểm khôngđược gán màu trong ảnh kết quả trong quá trình quay Lý do dẫn đến sự xuấthiện những lỗ hổng chính là từ công thức quay ảnh Do phải làm tròn các giátrị thành số nguyên nên trong ảnh đích có một số điểm ảnh không tương ứngđược ánh xạ từ ảnh gốc sang những lỗ hổng Để giải quyết vấn đề lỗ hổng, taduyệt ảnh đích, gán màu cho chúng dựa vào màu của các láng giềng Với ảnhđen trắng, các lỗ hổng được gán màu đen.

Hiện nay đã có rất nhiều phương pháp đề nghị cho việc quay ảnh Có thểđơn cử như: phép quay dựa trên biến đổi Affine, phương pháp do Cheng đềnghị, phương pháp 3-pass, phương pháp do Jiang đề nghị hay phương phápblack run… Tuy nhiên, một hạn chế chung của các phương pháp này là làmấtđiểm trong khi quay do phép làm tròn số, gây ra hiện tượng “rỗ” ảnh (xemhình 2.7)

2.2 Phương pháp hình chiếu

Hình 2.6 Quay một điểm ảnh quanh gốc tọa độ

Hình 2.7 Hiện tượng rỗ ảnh sau khi quay

Trang 28

Một phương pháp đơn giản để xác định góc nghiêng văn bản là dùngphương pháp hình chiếu Ý tưởng chính của phương pháp này là tínhHistogram cho tất cả các góc lệch Histogram của một góc là số điểm đentrong ảnh sao cho các điểm này nằm trên những đường thẳng có cùng mộthướng tương ứng với góc đó Sau đó dùng một hàm chi phí áp dụng cho cácgiá trị Histogram này Góc nghiêng văn bản tương ứng với góc giá trị hàm chiphí cực đại Histogram này có biên độ và tần xuất lớn nhất khi văn bản có độnghiêng bằng 0 với số điểm đen là lớn nhất Điều này được minh họa ở hình2.8c, 2.8d trong đó cho thấy phương pháp hình chiếu được tính từ hình ảnhtrong hình 2.8a, 2.8b

2.8d

Hình 2.8 Phương pháp hình chiếuđược tính từ ảnh trong hình 2.8a, 2.8b

2.8c

Trang 29

Hình 2.8c có chiều cao và khoảng cách đều nhau hơn so với ảnh bịnghiêng góc thể hiện ở hình 2.8d Đặc điểm này được sử dụng trong một vàithuật toán, một trong số các phương pháp là sử dụng phép quay ảnh đầu vàoqua một góc và tính hình chiếu cho mỗi góc Sau đó trích chọn các điểm đạidiện từ phép chiếu được so sánh để xác định điểm cao hơn Phương pháp nàyđược thể hiện trong đoạn mã sau:

for theta = -angle to +angle by resolution do {for r = 0 to NROWS do

for c = 0 to NCOLS do

if (image[r][c] == BLACK) { rotate(r,c,theta,&new_row);

++proj_prof[new_row]; } angle_measure[theta] = criterion_function(proj_prof[]); }

kew_angle = choose_skew(angle_measure[]); }Trong phương pháp hình chiếu tọa độ của mỗi điểm đen được quay bởigóc và ô tương ứng tăng lên Dùng hàm Criterion ước lượng góc nghiêng chođỉnh đại diện – hình 2.7, sau đó hàm Choose_skew được gọi để xác định góclớn nhất từ hàm Criterion Xoay tọa độ thay vì quay ảnh bitmap lưu trữ tạmthời và làm giảm quá trình tính toán lặp lại nhiều lần

Thuật toán phát hiện góc nghiêng được đề xuất bởi các tác giả:Akiyama, Nakano,Potsl, Baird, Lam và Zandy,… Các thuật toán phát hiệngóc nghiêng văn bản dựa vào phương pháp hình chiếu thường bao gồm cácbước sau:

Bước 1: Dùng một hàm rút gọn F để chuyển ảnh đầu vào thành một tậpcác bộ ba (x, y, w) trong đó (x, y) là tọa độ của một điểm ảnh đại diện cho một

Trang 30

đối tượng và w là trọng số của điểm đó Điểm đại diện là điểm biểu diễn các

ký tự trong các đối tượng của ảnh

Bước 2: Một hàm P dùng để chiếu các điểm tìm được ở trên vào mộtmảng đếm A theo các góc chiếu khác nhau Ứng với mỗi góc φ có một mảng

Aφ dùng để lưu số điểm đại diện Mảng Aφ là mảng một chiều, phần tử Aφ

[r] sẽ cho biết số điểm đại diện nằm trên đường thẳng tạo với trục Ox góc φ

và khoảng cách từ gốc tọa độ tới đường thẳng đó là r

Bước 3: Sau khi tính được mảng Aφ[] áp dụng một hàm tối ưu hóa Ω

cho các giá trị của mảng này theo một tiêu chuẩn nào đó Cuối cùng góc lệchcủa văn bản là góc tương ứng có giá trị hàm tối ưu hóa cực đại Sự khác nhaucủa các thuật toán là việc xây dựng các hàm rút gọn F và hàm tối ưu hóa Ω

2.2.1 Thuật toán Postl

Postl dùng các tần số lấy mẫu theo chiều ngang và chiều dọc để lấy cácđiểm đen trong ảnh làm các điểm cơ sở

2.2.2 Thuật toán Baird

Baird dùng cách xác định hình chữ nhật chứa các đối tượng, điểm đạidiện chính là trọng tâm của hình chữ nhật đó và hàm tối ưu hóa bằng tổngbình phương các giá trị mảng A Công thức hai hàm này như sau:

FB(I) = {(x, y, 1)│(x, y) là tâm hình chữ nhật bao quanh một đối tượng}

ΩB(Aφ) = Σ(Aφ[p])2

2.2.3 Thuật toán Nakano

Trang 31

Nakano cũng dùng tâm các hình chữ nhật chứa đối tượng làm điểm cơ

sở nhưng dùng luôn chiều rộng của các hình chữ nhật này làm trọng số chocác điểm cơ sở và hàm tối ưu hóa phụ thuộc vào số các giá trị bằng 0 trongmảng đếm Công thức cho hai hàm này như sau:

FB(I) = {(x, y, w)│(x, y) là tọa độ góc trái dưới của hình chữ nhật baoquanh một đối tượng, w là chiều rộng của hình chữ nhật}

ΩB(Aφ[p]) = Σ(1-U(Aφ[p])), với U(Aφ[p]) = 1 nếu Aφ[p] = 0, ngược lạiU(Aφ[p]) = 0 Phát hiện góc lệch văn bản bằng cách chiếu các góc là mộtphương pháp đơn giản và dễ hiểu Tuy nhiên, những thuật toán dựa trênphương pháp này còn hạn chế nhiều về độc chính xác với các góc lệch lớn.Baird cho rằng để thuật toán cho kết quả có độ chính xác cao thì góc lệch vănbản phải giới hạn trong khoảng (-150, +150) Nếu văn bản có nhiều nhiễu vàcác đối tượng phi văn bản như bảng biểu, hình ảnh thì độ chính xác bị giảmđáng kể

2.3 Phép toán hình thái - Morphology

2.3.1 Phương pháp

Thuật toán thích hợp cho các văn bản có dấu như tiếng Việt, tiếngPháp, …Đối với loại văn bản này, việc xuất hiện của các dấu, phần phụ trên,phần phụ dưới của chữ cũng như nhiễu đã làm cho các dòng lân cận nhau có

xu hướng dính lại với nhau (xem hình 2.9) Chính điều này đã làm cho cácphương pháp xác định góc nghiêng văn bản trước đây bị thất bại Bằng cách

sử dụng các phép biến đổi Morphology, dấu, nhiễu sẽ bị tách khỏi ảnh vănbản Nó giúp cho việc xác định các dòng văn bản dễ dàng hơn Quá trình loại

bỏ nhiễu và dấu nhờ vào các phép biến đổi Morphology có thể làm mất một

số thông tin của văn bản Tuy nhiên, sự mất mát đó không quan trọng, vì gócnghiêng của văn bản được đặc trưng bởi các dòng văn bản ngay cả sau khi đãloại bỏ phần phụ trên và phụ dưới

Trang 32

Hình 2.9 Một ví dụ các dòng văn bản có xu hướng dính lại với nhau do ảnh hưởng của dấu

Xuất phát từ đặc điểm của phép đóng ảnh là có khả năng gắn cácđối tượng cạnh nhau Các thuật toán này thường dùng phép đóng nhiều lầnvới mục đích nối các dòng văn bản với nhau Giai đoạn tiếp theo sẽ dùng cácvector chỉ phương của các dòng xác định góc nghiêng cho văn bản tương tựnhư trong phương pháp phân tích láng giềng Theo hướng tiếp cận này gồmcác thuật toán của các tác giả: L Najman, nhóm S Chen và R.M Haralick và

nhóm A.K Das và B.Chada Thuật toán của L.Najman có thể được xem là cải

tiến nhất trong số các thuật toán dùng phép toán hình thái xác định gócnghiêng văn bản

Trước hết là quá trình tiền xử lý, đây là quá trình dùng để lọc nhiễu,dấu và những thành phần liên thông lớn Trong quá trình này các tham số nhưchiều cao và chiều rộng đặc trưng của chữ, … sẽ được tự động xác định dựatrên văn bản đầu vào Sau đó, thuật toán ước lượng thô sẽ xác định đượckhoảng mà góc nghiêng của văn bản rơi vào Cuối cùng, với những tham sốtìm thấy ở bước đầu tiên, sẽ thực hiện các phép đóng và mở cho các dòng vănbản để tạo thành các vệt tạo thuận lợi cho bước xác định góc nghiêng tiếptheo Sau đó một thuật toán đơn giản sẽ được dùng để xác định góc của mỗidòng văn bản và góc nghiêng của toàn bộ văn bản cũng sẽ được tìm thấy dựatrên góc nghiêng của các dòng văn bản

2.3.2 Bước tiền xử lý

Trong bước này, chúng ta sẽ lần lượt xác định các lược đồ về chiều cao

và chiều rộng của tất cả các thành phần liên thông trong văn bản Chiều cao

và chiều rộng xuất hiện nhiều lần nhất của các thành phần liên thông, gọi là

W và H, sẽ được xác định nhờ vào việc tìm ra đỉnh của những lược đồ này W

và H cũng chính là chiều cao và chiều rộng đặc trưng của các kí tự trong văn

Trang 33

bản Trong quá trình lọc dấu và nhiễu, các thành phần liên thông có chiều cao

và chiều rộng nhỏ hơn T0 × min{W, H} được xem là nhiễu và dấu, có nghĩa là đối với mỗi thành phần liên thông c(w, h), trong đó w và h là chiều cao và chiều rộng của nó Nếu max{w, h} ≤ T0 × min{W, H}, c sẽ bị loại khỏi văn

bản chúng ta đang xem xét Đối với việc loại bỏ các TPLT lớn, nếu một

TPLT c(w, h) được gọi là thành phần liên thông lớn khi min{w, h} ≥ 1/T0 ×

max{W, H}, nó cũng sẽ bị loại ra khỏi ảnh văn bản Sau khi thực hiện bước

tiền xử lý, ta sẽ có được hai ảnh gọi là bottom profile và left profile Bottomprofile được tạo ra bằng cách thay thế mỗi thành phần liên thông bằng mộtđiểm bottom most left, tương tự left profile được tạo ra dựa trên các điểm leftmost bottom của các thành phần liên thông (xem hình 2.10) Đối với các góctrong khoảng [-45o, 45o], các điểm bottom most left sẽ đặc trưng cho đườngbase lines của văn bản Tuy nhiên trong trường hợp góc nghiêng văn bản lớn,các điểm left most bottom của thành phần liên thông sẽ biểu thị cho các baselines tốt hơn (xem các hình 2.10(a), 2.10(b), 2.10(c))

Hình 2.10: Các điểm left most bottom và bottom most left

Trang 34

Trong mỗi profile (bottom hay left), góc của mỗi cặp điểm lân cậnđược tính và thống kê vào trong lược đồ góc (xem hình 2.10(d) và 2.10(e)).

Lân cận của một điểm p trong ảnh profile được xác định bằng cách quét tất

cả các điểm (trừ p) trong một hình chữ nhật có kích thước (2W, 2H) với tâm

là điểm p, trong đó W và H được lấy ở bước tiền xử lý W và H là bao nhiêu

sẽ tùy thuộc vào ảnh văn bản đầu vào Hình 2.10 là một ví dụ về lược đồ góccủa left profile và bottom profile Với mỗi profile, ta sẽ tính diện tích phầnđen của mỗi khoảng, khoảng nào có diện tích lớn nhất trong 9 khoảng của đồthị tương ứng sẽ được chọn ra Trong hai khoảng vừa tìm được, ta chọnkhoảng có diện tích lớn hơn và đó cũng chính là khoảng thuộc về góc nghiêngvăn bản

ÁP DỤNG CÁC PHÉP TOÁN HÌNH THÁI

Các định nghĩa căn bản của các phép toán Morphology

Định nghĩa 1: Phép giản nở (Dilation)

Giả sử có ảnh I và một mẫu B Ta định nghĩa phép giản của I theo cấutrúc B là tập tất cả các điểm x∈I sao cho Bx chạm tới I Với Bx là dịch chuyểncủa B tới vị trí x của ảnh I

I⊕B={ x | Bx ∩ I ≠ Ø }

Định nghĩa 2: Phép co (Erossion)

Phép co của ảnh I theo cấu trúc B là tập tất cả các điểm x∈ I sao cho Bx

nằm trong I Với Bx là dịch chuyển của B tới vị trí x của ảnh I

IΘB={ x | Bx∈I }

Định nghĩa 3: Toán tử đóng mở Giả sử có ảnh I và mẫu T Khi đó

Trang 35

Toán tử mở được định nghĩa: OPEN(I,T) = (IΘT)⊕T

Toán tử đóng được định nghĩa: CLOSE(I,T) = (I⊕T)ΘT

Các phép toán hình thái có một số đặc điểm sau: Phép giãn nở cho phépnối các nét đứt trong các đối tượng Phép co có thể xóa nhiễu trong ảnh, vớiảnh văn bản có thể dùng phép co để tách chữ Đặc biệt, phép đóng có khảnăng gắn các đối tượng cạnh nhau trong ảnh Nếu ảnh là văn bản gồm các ký

tự thì dùng phép đóng sẽ trộn được các ký tự thành một từ và trộn các từthành dòng văn bản trong trường hợp văn bản không bị lệch góc

Trong bước này, ta sẽ thực hiện các phép đóng và mở cho các dòng vănbản Phép đóng dùng để nối các kí tự trong một từ, và các từ trong một dòng,phép mở để loại bỏ các thành phần liên thông rất nhỏ, cũng như các phần phụtrên hay phần phụ dưới của ký tự Do đó các dòng văn bản sẽ trở thành cácvệt thon dài Tuy nhiên để thực hiện các phép đóng, mở một cách hiệu quảnhất ta cần xác định kích cỡ và hình dạng của các phần tử cấu trúc thật chínhxác Ví dụ, trong hình 2.10, khoảng mà góc nghiêng văn bản rơi vào [30o,

50o], thì góc quay của phần tử cấu trúc sẽ là 40o Lý do chia góc quay của vănbản thành 9 phần và mỗi phần tương ứng với 20o là vì mỗi góc quay α của

phần tử cấu trúc có thể phù hợp cho tất cả các văn bản có góc nghiêng trong

khoảng [α – 10o, α + 10o], nghĩa là khoảng chênh lệch là 20o Qua thựcnghiệm bằng cách quan sát và thử nghiệm trên một số lượng lớn các ảnh vănbản, cho thấy việc xác định góc quay cho các phần tử cấu trúc là rất quantrọng Nó giúp cho kết quả của các phép đóng mở là đúng đắn nhất Với mộtphần tử cấu trúc phù hợp, thì chỉ các từ trong cùng dòng mới kết hợp lại đượcvới nhau trong khi đó từ trong các dòng khác nhau sẽ vẫn rời nhau (xem hình2.11)

Định dạng
Số trang	70
Dung lượng	2,65 MB