Thuật toán phát hiện góc nghiêng được ứng dụng cho ảnh văn bản và xác định được góc nghiêng có thể là 0 khi đã được số hóa.. Cùng với sự phát triển của xử lý ảnh, đã có nhiều hướng tiếp
Trang 1Hoàng Thị Vân Anh
TÌM HIỂU MỘT SỐ KỸ THUẬT PHÁT HIỆN GÓC NGHIÊNG VĂN BẢN VÀ ỨNG DỤNG
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC
PGS.TS NGÔ QUỐC TẠO
Thái Nguyên - 2010
Trang 2thông tin, Khoa Công nghệ thông tin Đại học Thái Nguyên đã nhiệt tình giảng dạy và hết lòng giúp đỡ em trong quá trình học tập và nghiên cứu đề tài Luận văn được hoàn thành tại Khoa Công nghệ thông tin dưới sự hướng
dẫn của PGS.TS Ngô Quốc Tạo Em xin bày tỏ lòng kính trọng và biết ơn sâu
sắc tới thầy
Em cũng xin chân thành cảm ơn các bạn đồng nghiệp phòng Khảo thí & Đảm bảo chất lượng trường Đại học Hải Phòng đã tạo điều kiện giúp đỡ trong quá trình hoàn thành luận văn này
Sự quan tâm, giúp đỡ của gia đình và bạn bè, đặc biệt lớp Cao học K7 Khoa Công nghệ thông tin đã cổ vũ, động viên em trong suốt thời gian học tập và thực hiện đề tài
Mặc dù có nhiều cố gắng song luận văn không thể tránh khỏi những thiếu sót, tác giả mong nhận được sự đóng góp ý kiến của các thầy cô và các bạn Xin chân thành cảm ơn!
Thái Nguyên, tháng 11 năm 2010
Tác giả
Hoàng Thị Vân Anh
Trang 3Tôi xin cam đoan luận văn “Tìm hiểu một số kỹ thuật phát hiện góc nghiêng văn bản và ứng dụng” là do tôi tự tìm hiểu và được hoàn thành
dưới sự hướng dẫn của thầy giáo PGS TS Ngô Quốc Tạo
Trang 4MỤC LỤC
Trang Trang phụ bìa
Lời cam đoan
Mục lục i
Danh mục các bảng iv
Danh mục các hình vẽ iv
MỞ ĐẦU 1
CHƯƠNG I 3
TỔNG QUAN VỀ XỬ LÝ ẢNH VÀ BÀI TOÁN PHÁT HIỆN 3
GÓC NGHIÊNG VĂN BẢN 3
1.1 Xử lý ảnh và các vấn đề cơ bản trong xử lý ảnh .3
1.1.1 Xử lý ảnh là gì? 3
Hình 1.2: Các giai đoạn trong xử lý ảnh 3
1.1.2 Các vấn đề cơ bản trong xử lý ảnh 4
1.1.2.1 Nắn chỉnh biến dạng 5
1.1.2.2 Khử nhiễu 5
1.1.2.3 Chỉnh mức xám 5
1.1.2.4 Phân tích ảnh 6
1.1.2.5 Nhận dạng ảnh 6
1.1.2.6 Nén ảnh 6
1.2 Bài toán phát hiện góc nghiêng văn bản 7
1.2.1 Giới thiệu bài toán phát hiện góc nghiêng văn bản 7
1.2.2 Biên và phương pháp phát hiện biên 8
1.2.2.1 Biên của đối tượng ảnh 8
1.2.2.2 Phương pháp phát hiện biên trực tiếp 9
1.2.2.3 Phương pháp phát hiện biên gián tiếp 11
1.2.2.4 Thuật toán dò biên tổng quát 12
Trang 5CHƯƠNG II 15
MỘT SỐ KỸ THUẬT PHÁT HIỆN GÓC NGHIÊNG VĂN BẢN 15
2.1 Biến đổi Hough 15
2.1.1 Đường thẳng Hough 15
2.1.2 Áp dụng biến đổi Hough xác định góc nghiêng văn bản 19
2.1.3 Thuật toán phát hiện góc nghiêng văn bản 20
2.1.4 Chỉnh sửa góc nghiêng văn bản 22
2.2 Phương pháp hình chiếu 23
2.2.1 Thuật toán Postl 25
2.2.2 Thuật toán Baird 25
2.2.3 Thuật toán Nakano 26
2.3 Phép toán hình thái - Morphology 26
2.3.1 Phương pháp 26
2.3.2 Bước tiền xử lý 28
2.4 Phương pháp phân tích láng giềng 35
2.4.1 Phương pháp 35
2.4.2 Thuật toán Yue Lu và Chew Lim Tan 37
2.5 Phương pháp đường thẳng 38
2.5.1 Tư tưởng thuật toán phát hiện góc nghiêng văn bản 39
2.5.1.1 Chọn các miền xác định và các đối tượng 39
2.5.1.2 Lựa chọn các đối tượng 40
2.5.2 Bó cụm điểm chủ đạo 41
2.5.2.1 Định nghĩa 41
2.5.2.2 Phân cụm các điểm chủ đạo 42
2.5.3 Lựa chọn đường cơ sở 42
2.5.3.1 Phân loại điểm chủ đạo 42
2.5.3.2 Xác định đường thẳng sử dụng phương pháp bình phương nhỏ nhất 44 2.5.4 Thuật toán phát hiện góc nghiêng 45
2.5.4.1 Thuật toán định hướng góc nghiêng đơn giản 45
2.5.4.2 Thuật toán chính 46
2.5.5 Thuật toán sửa góc nghiêng 47
2.5.5.1 Mô hình quét dòng văn bản 47
Trang 62.5.5.2 Thuật toán chỉnh sửa góc nghiêng 48
2.5.5.3 Kết quả thử nghiệm 49
Bảng 1: Kết quả thực nghiệm của các phương pháp phát hiện góc nghiêng 49
2.6 Một vài phương pháp khác 50
CHƯƠNG 3 51
NÂNG CAO TỐC ĐỘ VÀ CHẤT LƯỢNG 51
PHÁT HIỆN GÓC NGHIÊNG 51
3.1 Xử lý ảnh có độ phân giải thấp 51
3.2 Tự động xác định ngưỡng phân loại 52
3.2.1 Mục đích và ý nghĩa việc dùng ngưỡng 52
3.2.2 Ý tưởng xuất phát 53
3.2.3 Phương pháp thực hiện 53
3.3 Một vài trường hợp ngoại lệ 56
CHƯƠNG 4 59
CÀI ĐẶT THỬ NGHIỆM 59
4.1 Sơ đồ chức năng của chương trình 59
4.2 Thiết kế Menu 60
4.3 Giao diện chính của chương trình 61
KẾT LUẬN 62
TÀI LIỆU THAM KHẢO 64
Trang 7DANH MỤC BẢNG BIỂU
Bảng 1: Kết quả thực nghiệm của các phương pháp phát hiện góc
nghiêng……… 49
DANH MỤC HÌNH VẼ Hình 1.1 Quá trình xử lý ảnh 3
Hình 1.2: Các giai đoạn trong xử lý ảnh 3
Hình 1.3a 7
Hình 1.3b 7
Hình 1.4a: Các 4- láng giềng của điểm ảnh P 11
Hình 1.4b: Các 8- láng giềng của điểm ảnh P 11
Hình 1.5a.Chu tuyến ngoài 12
Hình 1.5b Chu tuyến trong 12
Hình 1.6: Chu tuyến trong và chu tuyến ngoài của một đối tượng 12
Hình 1.7: Hướng các láng giềng của một điểm ảnh 13
Hình 1.8a: Hướng xác định cặp vùng nền xuất phát 14
Hình 1.8b: Hướng xác định cặp vùng nền tiếp theo 14
Hình 2.1: Biến đổi Hough cho đường thẳng 16
Hình 2.2: Tham số r – φ của đường thẳng 16
Hình 2.3: Biến đổi Hough trong không gian r- 17
Hình 2.4: Các hình chữ nhật ngoại tiếp 18
Hình 2.5 : Áp dụng biến đổi Hough phát hiện góc nghiêng văn 19
Hình 2.6 Quay một điểm ảnh quanh gốc tọa độ 22
Hình 2.7 Hiện tượng rỗ ảnh sau khi quay 23
Hình 2.8 a Ảnh gốc 23
Hình 2.8b Ảnh bị nghiêng 50 23
Hình 2.8 Phương pháp hình chiếu được tính từ ảnh trong hình 2.8a, 2.8b 24
Trang 8Hình 2.9 Một ví dụ các dòng văn bản có xu hướng dính lại với nhau do ảnh
hưởng của dấu 27
Hình 2.10: Các điểm left most bottom và bottom most left 28
Hình 2.11: Những khoảng góc nghiêng khác nhau được sử dụng để ước lượng góc nghiêng phù hợp cho phần tử cấu trúc 31
Hình 2.12: Một vài ví dụ của việc sử dụng phép đóng và mở với những phần tử cấu trúc nghiêng 32
Hình 2.13: Một thành phần liên thông dài với hệ tọa độ ảnh 33
Hình 2.14a Định nghĩa điểm chủ đạo 41
Hình 2.14b Định hướng góc nghiêng 41
Hình 2.15: Điểm chủ đạo trên dòng văn bản 43
Hình 2.16: Quan hệ láng giềng giữa các điểm chủ đạo 43
Hình 2.17: Định hướng thuật toán phát hiện góc nghiêng 45
Hình 2.18: Mô hình quét dòng văn bản 47
Hình 3.1 Một ảnh văn bản nghiêng có độ phân giải thấp 51
Hình 3.2: Ví dụ về một ảnh văn bản nghiêng với nhiều đối tượng phức tạp và ít ký tự 52
Hình 3.3: Sơ đồ phân bố histogram chu vi trước khi gom 55
Hình 3.4: Sơ đồ phân bố histogram chu vi sau khi gom 56
Hình 3.5 Ví dụ về một ảnh nghiêng có ít ký tự chữ cái 56
Hình 3.6 : Ví dụ về văn bản nghiêng có các đối tượng bao nhau 57
Trang 9và nhận dạng ảnh, một bộ phận quan trọng của xử lý ảnh là xử lý văn bản Một trong những nhiệm vụ chính cũng là đối tượng của xử lý ảnh văn bản là
tự động hóa công việc văn phòng
Hiện nay phần lớn lượng thông tin vẫn còn được lưu trữ, trình bày và phân phối thông qua phương tiện chủ yếu là giấy bởi con người tin tưởng hơn khi nhận được văn bản giấy Tuy nhiên có xu hướng đang phát triển để chia sẻ
và trao đổi thông tin điện tử, vì thế sự cần thiết để chuyển đổi từ tài liệu giấy sang tài liệu điện tử để lưu trữ, khôi phục và bảo trì ngày càng tăng lên Để chuyển đổi từ tài liệu giấy sang dạng điện tử thì kỹ thuật thường gồm ba bước: quét và công nghệ kỹ thuật số, phân tích bố cục và nhận dạng ký tự Khi văn bản được quét vào máy, văn bản bị nghiêng là không thể tránh khỏi
do các yếu tố khác nhau khi đưa ảnh vào Hầu hết các thuật toán nhận dạng ký
tự, phân tích bố cục là phổ biến nhưng lại rất nhạy cảm đối với sự biến dạng của ảnh văn bản và văn bản bị nghiêng có thể gây ra lỗi nghiêm trọng cho việc phân tích văn bản Do đó phát hiện và chỉnh sửa ảnh văn bản bị nghiêng
là cần thiết ở giai đoạn tiền xử lý để tránh nhiễu trong quá trình xử lý nghiêng Một trong những vấn đề đầu tiên trong xử lý ảnh văn bản là bài toán góc nghiêng văn bản Nguyên nhân dẫn đến văn bản bị nghiêng một góc xuất phát
từ quá trình quét ảnh hoặc copy ảnh, dẫn đến ảnh bị lệch đi một góc tương
Trang 10ứng Văn bản bị lệch có ảnh hưởng rất lớn đến các quá trình xử lý ảnh tiếp theo, vì vậy việc phát hiện và chỉnh sửa góc nghiêng văn bản là nhiệm vụ quan trọng đầu tiên trong xử lý ảnh văn bản
Với những lý do trên đây nên em đã chọn đề tài: “Tìm hiểu một số kỹ
thuật phát hiện góc nghiêng văn bản và ứng dụng”
2 Mục tiêu nghiên cứu
Hiểu được các phương pháp phát hiện góc nghiêng văn bản Từ đó đưa
ra những nhận xét, so sánh giữa các phương pháp Lựa chọn công cụ phát triển phù hợp cài đặt ứng dụng
3 Đối tượng và phạm vi nghiên cứu
Tìm hiểu một vài kỹ thuật phát hiện góc nghiêng văn bản về mặt lý
thuyết, từ đó lựa chọn phương pháp cài đặt ứng dụng vào thực tế
Áp dụng đối với ảnh văn bản đen trắng
4 Ý nghĩa khoa học và thực tiễn của đề tài
Hệ thống hoá các kiến thức về kỹ thuật phát hiện góc nghiêng văn bản Việc tìm hiểu và phát triển ứng dụng thành công giúp cho việc xử lý ảnh trở nên đơn giản và dễ dàng hơn đối với một số trường hợp như: xử lý ảnh ban đầu để cho ra ảnh mới theo mong muốn của người dùng (ví dụ như ảnh bị nghiêng cần xử lý để thu được ảnh chính xác hơn…)
5 Phương pháp nghiên cứu
5.1 Dựa trên các tài liệu
- Tìm hiểu lý thuyết liên quan đến xử lý ảnh
- Tìm hiểu lý thuyết các kỹ thuật phát hiện góc nghiêng văn bản và chỉnh sửa
5.2 Phương pháp toán học
- Xử lý các số liệu thống kê
Trang 11CHƯƠNG I TỔNG QUAN VỀ XỬ LÝ ẢNH VÀ BÀI TOÁN PHÁT HIỆN
- Biến đổi ảnh, làm tăng chất lượng ảnh
- Tự động nhận dạng ảnh, đoán nhận ảnh, đánh giá các nội dung của ảnh
Nhận biết và đánh giá được nội dung của ảnh là để phân biệt được đối tượng này với đối tượng khác, từ đó ta có thể mô tả được ảnh ban đầu Có một số phương pháp nhận dạng như: nhận dạng cạnh của một số đối tượng trên ảnh, tách cạnh, phân đoạn hình ảnh … Các kỹ thuật này được ứng dụng nhiều trong y học như: xử lý tế bào, nhiễm sắc thể; nhận dạng chữ viết trong văn bản…
Hình 1.2: Các giai đoạn trong xử lý ảnh
Trang 12* Đối tượng ảnh: Trong quá trình xử lý ảnh, một ảnh được thu nhận vào máy phải được mã hóa, vì vậy ảnh phải được lưu trữ thế nào sao cho các ứng dụng khác nhau có thể thao tác trên các loại dữ liệu này Một số dạng ảnh đã được chuẩn hóa như: GIF, BMP, PCX, ; mỗi kiểu lưu trữ ảnh đều có điểm riêng Tùy theo vùng các giá trị xám của điểm ảnh mà các ảnh được phân chia
ra thành ảnh màu, ảnh xám, ảnh nhị phân Khi trên một ảnh chỉ có giá trị 0 hoặc 1 thì ta nói đó là ảnh nhị phân hoặc ảnh đen trắng và các điểm ảnh của
nó gọi là điểm ảnh nhị phân Việc đếm các điểm ảnh trên ảnh nhị phân đã qua biến đổi tạo điều kiện thuận lợi cho việc tách ra các đặc tính Để tạo ra một ảnh nhị phân từ ảnh đa cấp xám ta dùng phương pháp tách ngưỡng Các giá trị nằm ở trên ngưỡng được gán giá trị 1 còn ở bên dưới ngưỡng thì được gán giá trị 0
- Kỹ thuật tách ngưỡng: Ngưỡng trong kỹ thuật tách ngưỡng thường được cho bởi người sử dụng Kỹ thuật tìm, tách ngưỡng tự động nhằm tìm ra
Trang 13ngưỡng một cách tự động dựa vào Histogram theo nguyên lý trong vật lý là vật thể tách làm 2 phần nếu tổng độ lệch trong từng phần là tối thiểu
Giả sử ta có ảnh I ~ kích thước m x n; G ~ số mức xám của ảnh kể cả khuyết thiếu; t(g) ~ số điểm ảnh có mức xám ≤ g
Ảnh thu nhận thường bị biến dạng do các thiết bị quang học và điện tử
Để khắc phục, người ta sử dụng các phép chiếu, các phép chiếu thường được xây dựng trên tập các điểm điều khiển
1.1.2.2 Khử nhiễu
Có hai loại nhiễu cơ bản trong quá trình thu nhận ảnh:
Nhiễu hệ thống: là nhiễu có quy luật có thể khử bằng các phép biến đổi
Nhiễu ngẫu nhiên: là dạng vết bẩn không rõ nguyên nhân nên có thể khắc phục bằng các phép lọc
Trang 141.1.2.4 Phân tích ảnh
Là khâu quan trọng trong quá trình xử lý ảnh để tiến tới hiểu ảnh Trong phân tích ảnh việc trích chọn đặc điểm là một bước quan trọng, các đặc điểm của đối tượng được trích chọn tùy theo mục đích nhận dạng trong quá trình xử lý ảnh Một số đặc điểm của ảnh như: đặc điểm không gian, đặc điểm biến đổi, đặc điểm biên và đường biên
1.1.2.5 Nhận dạng ảnh
Nhận dạng ảnh là quá trình liên quan đến các mô tả đối tượng mà người
ta muốn đặc tả nó Quá trình nhận dạng thường đi sau quá trình trích chọn các đặc tính chủ yếu của đối tượng Nhận dạng tự động, mô tả đối tượng, phân loại và phân nhóm các mẫu là những vấn đề quan trọng trong thị giác máy, được ứng dụng trong nhiều ngành khoa học khác nhau
Hệ thống nhận dạng tự động bao gồm ba khâu tương ứng với ba giai đoạn chủ yếu sau: thu nhận dữ kiệu và tiền xử lý, biểu diễn dữ liệu, nhận dạng
và ra quyết định Bốn cách tiếp cận khác nhau trong lý thuyết nhận dạng là: Đối sánh mẫu dựa trên các đặc trưng được trích chọn, phân loại thống kê, đối sánh cấu trúc, phân loại dựa trên mạng nơron nhân tạo
1.1.2.6 Nén ảnh
Lượng thông tin để biểu diễn cho một ảnh là rất lớn, vì vậy nén ảnh nhằm giảm thiểu không gian lưu trữ, thường được tiến hành theo cả hai khuynh hướng là nén có bảo toàn và nén không bảo toàn thông tin Nén không bảo toàn thì thường có khả năng nén cao hơn nhưng có khả năng phục hồi kém hơn Các cách nén ảnh:
Nén ảnh thống kê: Dựa vào việc thống kê tần xuất xuất hiện của giá trị các điểm ảnh, trên cơ sở đó mà có chiến lược mã hóa thích hợp Ví dụ: mã nén
*.TIF
Trang 15 Nén ảnh không gian: Dựa vào vị trí không gian của các điểm ảnh để tiến hành mã hóa Kỹ thuật này dựa vào sự giống nhau của các điểm ảnh trong các vùng gần nhau Ví dụ: mã nén *.PCX
Nén ảnh sử dụng phép biến đổi: Tiếp cận theo hướng nén không bảo toàn,
kỹ thuật này thường nén hiệu quả hơn Ví dụ: nén *.JPG
Nén ảnh Fractal: sử dụng tính chất Fractal của các đối tượng ảnh, thể hiện
sự lặp lại của các chi tiết Kỹ thuật nén sẽ tính toán để chỉ cần lưu trữ phần gốc của ảnh và quy luật sinh ra ảnh theo nguyên tắc Fractal
1.2 Bài toán phát hiện góc nghiêng văn bản
1.2.1 Giới thiệu bài toán phát hiện góc nghiêng văn bản
Một hệ thống xử lý văn bản thường giải quyết bài toán góc nghiêng văn bản như bước đầu tiên và tất yếu Nguyên nhân dẫn đến ảnh văn bản có thể bị quay hoặc nghiêng một góc bất kỳ có thể do nó được đặt trên trục quay khi quét ảnh hoặc do sự cố đặt văn bản Ảnh văn bản bị nghiêng được hiển thị như trong hình 1.3b
Ảnh văn bản bị nghiêng một góc tương ứng là 50 Trong thực tế, có thể nhìn thấy văn bản bị nghiêng với độ nghiêng ít nhất là 0,10 Như vậy, một chức năng mong muốn trong máy Photo hoặc máy quét là phát hiện và chỉnh sửa góc nghiêng một cách tự động Ví dụ đầu vào được thể hiện như hình
Trang 161.3b và đầu ra được thể hiện như hình 1.3a Thuật toán phát hiện góc nghiêng được ứng dụng cho ảnh văn bản và xác định được góc nghiêng (có thể là 0) khi đã được số hóa Một giải pháp đơn giản để phát hiện góc nghiêng là xác định vị trí của ít nhất hai góc của văn bản gốc và tính toán góc nghiêng từ chúng Tuy nhiên điều này có thể gây ra lỗi vì xảy ra biến dạng phi tuyến khi các trang không phẳng trên trục lăn giấy Ngoài ra, khi quét toàn bộ bề mặt văn bản có thể bị che khuất do lỗi đưa văn bản đầu vào trong qúa trình quét Cùng với sự phát triển của xử lý ảnh, đã có nhiều hướng tiếp cận áp dụng cho bài toán phát hiện góc nghiêng văn bản như biến đổi Hough, phép chiếu, các phép toán hình thái, phân tích láng giềng, Các đặc trưng của từng phương pháp sẽ được trình bày ở chương tiếp theo
Khi xem xét một văn bản, để kết luận văn bản có bị nghiêng hay không cách làm của con người là căn cứ vào một số đối tượng chủ đạo và góc nghiêng văn bản được ước lượng dựa vào đường nối các điểm giữa đáy của các đối tượng này Xuất phát từ nhận xét trên, luận văn sẽ trình bày một phương pháp phát hiện góc nghiêng văn bản từ kỹ thuật xác định chu tuyến một đối tượng ảnh và áp dụng biến đổi Hough lên điểm giữa đáy hình chữ nhật ngoại tiếp các đối tượng có kích thước chủ đạo trong ảnh Việc xác định các hình chữ nhật này dựa vào biên hay chu tuyến ngoài của các đối tượng
1.2.2 Biên và phương pháp phát hiện biên
1.2.2.1 Biên của đối tượng ảnh
Biên là một vấn đề chủ yếu trong phân tích ảnh vì các kỹ thuật phân đoạn ảnh chủ yếu dựa vào biên Có thể thấy tầm quan trọng của biên khi ta theo dõi một họa sĩ làm việc Giả sử anh ta muốn vẽ một quả bóng, nét đầu tiên được phác họa chính là đường biên của quả bóng sau đó mới đến các chi tiết bên trong Như vậy, mới chỉ nhìn biên của sự vật ta cũng đã hình dung ít nhiều về nó và có thể phân biệt được với các sự vật khác
Trang 17Một điểm ảnh được xem là biên nếu ở đó có sự thay đổi đột ngột về mức xám Tập hợp các điểm biên tạo thành biên hay một đường bao của ảnh (boundary) Trong ảnh nhị phân, một điểm ảnh thuộc biên nếu đó là một điểm đen và có ít nhất một điểm trắng lân cận
Ta thường sử dụng hai phương pháp phát hiện biên cơ bản:
- Phát hiện biên trực tiếp: Phương pháp này làm nổi biên dựa vào sự biến thiên mức xám của ảnh Kỹ thuật chủ yếu dùng để phát hiện biên ở đây
là dựa vào sự biến đổi theo hướng Nếu lấy đạo hàm bậc nhất của ảnh ta có
kỹ thuật Gradient, nếu lấy đạo hàm bậc hai của ảnh ta có kỹ thuật Laplace
- Phát hiện biên gián tiếp: Nếu bằng cách nào đó ta phân được ảnh thành các vùng thì ranh giới giữa các vùng đó gọi là biên Kỹ thuật dò biên
và phân vùng ảnh là hai bài toán đối ngẫu nhau vì dò biên để thực hiện phân lớp đối tượng Khi đã phân lớp xong nghĩa là đã phân vùng được ảnh và ngược lại, khi đã phân vùng ảnh xong là đã phân lớp thành các đối tượng,
do đó có thể phát hiện được biên
1.2.2.2 Phương pháp phát hiện biên trực tiếp
a Kỹ thuật phát hiện biên Gradient
Phương pháp gradient là phương pháp dò biên cục bộ dựa vào cực đại của đạo hàm Theo định nghĩa, gradient là một vector biểu thị tốc độ thay đổi giá trị của điểm ảnh theo 2 hướng x và y Các thành phần của gradient được tính bởi:
dx
y x f y dx x f x
y x f
y x f
Trang 18Kỹ thuật PreWitt: Kỹ thuật này sử dụng 2 mặt nạ theo 2 hướng x và y:
Quá trình tính toán được thực hiện qua 2 bước:
Các phương pháp đánh giá Gradient ở trên làm việc rất tốt khi độ sáng thay đổi
rõ nét Tuy nhiên, khi mức xám thay đổi chậm, miền chuyển tiếp trải rộng, phương pháp Gradient lại kém hiệu quả so với phương pháp đạo hàm bậc 2 Laplace Theo định nghĩa , toán tử Laplace như sau:
2
2 2 2
y
f x
f x x
Trang 19 [f(x+1,y) - f(x,y)] - [f(x,y) - f(x-1,y)]
= f(x+1,y) – 2f(x,y) + f(x-1,y)
2 2
1.2.2.3 Phương pháp phát hiện biên gián tiếp
a Định nghĩa chu tuyến
Chu tuyến của một đối tượng ảnh là dãy các điểm của đối tượng ảnh P1, P2, ,
Pn sao cho Pi và Pi+1 là các 8-láng giềng của nhau (i = 1, …, n – 1) và P1 là 8-láng giềng của Pn , i Q không thuộc đối tượng ảnh và Q là 4-láng giềng của Pi (hay nói cách khác i thì Pi là biên 4) Kí hiệu <P1P2…Pn> Trong đó 4-láng giềng được định nghĩa
là các điểm trực tiếp bên trên, dưới, trái, phải của một điểm Và 8-láng giềng là những điểm 4-láng giềng hoặc các điểm trên trái, trên phải, dưới trái, dưới phải trực tiếp của một điểm
Trang 20Hai chu tuyến C = <P1, P2, Pn> và C‟ = <Q1, Q2, , Qn> được gọi là hai chu tuyến đối ngẫu của nhau nếu và chỉ nếu i j sao cho:
Pi và Qj là 4 láng giềng của nhau
Các điểm Pi là vùng thì Qj là nền và ngược lại
Chu tuyến trong
Chu tuyến C được gọi là chu tuyến trong nếu và chỉ nếu:
Chu tuyến đối ngẫu C‟ của nó là chu tuyến của các điểm nền
Độ dài của chu tuyến C‟ nhỏ hơn độ dài của chu tuyến C
Chu tuyến ngoài
Chu tuyến C được gọi là chu tuyến ngoài (hình 1.5a) nếu và chỉ nếu:
Chu tuyến đối ngẫu C‟ của C là chu tuyến các điểm nền
Độ dài của chu tuyến C‟ lớn hơn độ dài chu tuyến C
1.2.2.4 Thuật toán dò biên tổng quát
Về cơ bản, thuật toán xác định chu tuyến một đối tượng ảnh gồm các bước sau:
Bước 1: Xác định cặp vùng nền xuất phát P0
Bước 2: Xác định cặp vùng nền tiếp theo
Bước 3: Lựa chọn điểm biên vùng
Chu tuyến C
Chu tuyến C’ Chu tuyến C’ Chu tuyến C
Hình 1.6: Chu tuyến trong và chu tuyến ngoài của một đối tượng
Chu tuyến trong
Chu tuyến ngoài
Hình 1.5a.Chu tuyến ngoài Hình 1.5b Chu tuyến trong
Trang 21Bước 4: Nếu gặp lại cặp nền vùng xuất phát thì dừng, ngược lại quay lại bước 2
Khái niệm cặp vùng nền được định nghĩa gồm một điểm vùng và một điểm nền, trong đó nếu điểm vùng đi được một vòng chu tuyến thì điểm nền cũng đi được một vòng chu tuyến đối ngẫu
a Xác định cặp vùng nền xuất phát
Để xây dựng các hàm xác định cặp vùng nền xuất phát và tiếp theo, ta định
nghĩa các hướng tương ứng với 8-láng giềng của một điểm ảnh Gọi Orient []là mảng
dùng lưu các hướng trên, mỗi phần tử tương ứng là độ lệch hàng và cột của một láng giềng so với điểm đang xét
Với một điểm P(x,y) của ảnh Image có màu c và hướng đi hiện tại là dir, hàm tìm cặp vùng nền xuất phát Inverse sẽ xác định một hướng đi xuất phát cho P
Phương pháp: Từ hướng đi hiện tại quay theo chiều ngược kim đồng hồ cho
đến khi gặp một điểm cùng màu với điểm ảnh đang xét Nếu thành công hàm trả về
hướng đi trước đó, ngược lại hàm trả về 8 (một giá trị không thuộc mảng Orient[])
b Xác định cặp vùng tiếp theo
Sau khi xác định được một hướng đi đầu tiên, bước tiếp theo của thuật toán là lặp lại công việc xác định cặp vùng nền tiếp theo cho tới khi gặp đựợc điểm ban đầu
2 10
3
7Hình 1.8a: Hướng xác định cặp
vùng nền xuất phát
2 104
3
7Hình 1.8b: Hướng xác định cặp vùng nền tiếp theo
Trang 22Tương tự như hàm xác định cặp vùng nền xuất phát, để tìm một hướng đi cho bước kế tiếp từ hướng đi hiện tại ta quay theo chiều kim đồng cho tới khi gặp điểm có
cùng màu với điểm hiện tại và hàm trả về hướng đi đó Hàm Next dùng để xác định hướng đi tiếp theo Hàm hàm trả về -1 (giá trị không thuộc Orient[]) nếu không thành
công
c Thuật toán dò biên
Sau khi đã xây dựng được hai hàm Inverse và hàm Next xác định cặp vùng nền
xuất phát và cặp vùng nền tiếp theo Ta có thể chi tiết thuật toán tìm chu tuyến ngoài của một đối tượng ảnh như sau:
Bước 1: Xác định hướng xuất phát dir bằng hàm Inverse, savedir=dir
Bước 2: Nếu dir = 8 return vì điểm ảnh bị cô lập, không có láng giềng
Bước 3: Tìm một hướng đi tiếp theo bằng hàm Next với hướng hiện tại là dir và
lưu lại điểm ảnh tương ứng với hướng này
Bước 4: Nếu gặp lại điểm ảnh ban đầu và hướng đi hiện tại dir trùng với hướng
đi savedir ban đầu thì return
Bước 5: Gán lại hướng đi hiện cho dir và quay lại bước 3
Trang 23CHƯƠNG II MỘT SỐ KỸ THUẬT PHÁT HIỆN GÓC NGHIÊNG VĂN BẢN
2.1 Biến đổi Hough
Một phương pháp cơ bản mà chúng ta có thể mô tả các đối tượng bởi các hàm
toán học mà các hàm này miêu tả biên đường thẳng, đó là biến đổi Hough; được phát
hiện vào năm 1962 do Paul Hough phát minh Mặc dù về mặt lý thuyết các công thức
toán học phức tạp có thể sử dụng được nhưng lại đặt ra những yêu cầu tính toán có
thực hiện được hay không
2.1.1 Đường thẳng Hough
Với biến đổi Hough, phần lớn các thông tin trên cạnh ảnh không được sử dụng
và để chuyển sang một hình thức khác thì bước đầu tiên là sử dụng kỹ thuật chọn
ngưỡng Bất kỳ điểm nào mà Gradient ở trên ngưỡng này thuộc về biên, các điểm ảnh
đó gọi là điểm cạnh Kỹ thuật này là tốt cho hình ảnh có độ tương phản cao nhưng làm
giảm tính ứng dụng của nó Biến đổi Hough là ánh xạ một đường thẳng trong mặt
phẳng thành các cặp (r, ) trong không gian Hough với r là khoảng cách từ gốc tọa độ
tới đường thẳng đó và là góc nghiêng của đường thẳng đó so với trục tung Xét
đường thẳng trong mặt phẳng tọa độ có phương trình:
y – m*x – c = 0 (2.1) Trong đó m và c là 2 hằng số, nếu ta chọn một điểm trên mặt phẳng tọa độ
Đêcac (X, Y) nó có thể thuộc họ các đường được xác định bởi các giá trị khác nhau
của m và c Một điểm (xi, yi) trong không gian Đêcac sẽ tương ứng với hằng số m – c
được cho bởi phương trình: yi – m*xi = c
Vì vậy nếu mất một tập hợp các điểm trong không gian tọa độ điều này tương
ứng với một tập hợp các đường trong không gian m – c được thể hiện trong hình 2.1:
Trang 24
Nếu các điểm đó tạo thành đường kẻ, dễ thấy tất cả các đường gặp nhau tại một điểm duy nhất, đó là điểm xác định góc nghiêng và khoảng cách từ gốc tạo độ tới đường thẳng Trong thực tế ta thường gặp nhiều đường, do đó
kỹ thuật này để chia nhỏ không gian m – c thành các khu vực nhỏ và đếm số đường mà nó đi qua Giá trị [m, c] tại tâm của mỗi khu vực với số đường nhiều nhất được sử dụng để ước lượng đường đúng nhất trong không gian tọa
độ Tuy nhiên nếu ta coi tất cả các đường có thể xuất hiện trong ảnh thì tham
số góc nghiêng m bao gồm một phạm vi vô hạn Từ đó suy ra tham số [m, c]
[x 5 ,y 5 ]
[x 4 ,y 4 ]
[x1,y1] [x1,y1]
v
[x1,y1]
[x 2 ,y 2 ] [x 3 ,y 3 ] [x 4 ,y 4 ]
Điểm cạnh trong không gian ảnh Đường thẳng trong không gian tham số
Hình 2.1: Biến đổi Hough cho đường thẳng
Trang 25Một đường có thể được đại diện bằng khoảng cách ngắn nhất từ gốc tọa
độ tới đường thẳng (r) và góc nghiêng () Từ hình 2.2 ta có thể có được một phương trình cho các đường thẳng tương đương với phương trình (1):
cos( ) ysin( )
rx (2.2) Xét điểm (xi, yi) trong không gian r – φ ta thay:
Biến đổi các điểm sang
đường hình sin trong không
Trang 26không gian rời rạc, ưu điểm của tham số r-q là được lượng tử hóa một cách dễ dàng Nhìn vào hình 2.3 rõ ràng không phải tất cả các không gian tham số cần được xem xét Tất cả các hàm sin đều có chu kỳ giống nhau và do đó ta có thể giới hạn q trong phạm vi [0, 2] mà không mất tính tổng quát Phạm vi có thể được chia thành các góc và kí hiệu i, 2 , 3 , , 2i i , nó có thể giới hạn phạm vi nhiều hơn cái mà ta đang xét đến r Nếu cạnh của ảnh có độ phân giải nxm thì
2
M m n , với ta có thể chia phạm vi của r [0,…,rmax] thành một số bước rời rạc:
(0, ri, 2ri, 3ri,…, rmax) Hình 2.3 cho thấy chỉ có giá trị dương của r cần được xem xét nếu ta đang dùng trong phạm vi [0…2π]
Để xây dựng thuật toán xác định góc nghiêng văn bản, trước hết ta dùng
kỹ thuật dò biên để xác định chu tuyến cho các đối tượng ảnh Các hình chữ nhật chứa các đối tượng này được lưu lại cho các quá trình xử lý tiếp theo Dựa vào sơ đồ phân bố các kích thước của các đối tượng, xác định các ngưỡng kích thước chủ đạo trong ảnh rồi dùng biến đổi Hough áp dụng cho các điểm giữa đáy của hình chữ nhật ngoại tiếp các đối tượng này.Cuối cùng góc nghiêng văn bản sẽ được ước lượng từ mảng tích lũy trong quá trình áp dụng biến đổi Hough Như vậy công việc đầu tiên cần thực hiện là xác định được các hình chữ nhật ngoại tiếp các đối tượng hay nói cách khác là xác định biên của đối tượng Hình chữ nhật ngoại tiếp đối tượng sẽ được xác định ngay sau khi dò biên cho đối tượng đó
Hình 2.4: Các hình chữ nhật ngoại tiếp
đối tượng ảnh
Trang 272.1.2 Áp dụng biến đổi Hough xác định góc nghiêng văn bản
Dùng một mảng tích lũy để đếm số điểm ảnh nằm trên một đường thẳng trong không gian ảnh, với chỉ số hàng cho biết góc lệch của đường thẳng và chỉ số cột là r – khoảng cách từ gốc tọa độ tới đường thẳng đó Sau
đó tính tổng số điểm ảnh nằm trên đường thẳng song song nhau theo các góc lệch thay đổi Góc nghiêng văn bản tương ứng với góc có tổng giá trị mảng tích lũy cực đại Mỗi đường thẳng trong mặt phẳng tương ứng được biểu diễn bởi một cặp (r, ) Giả sử có một điểm (x, y) trong mặt phẳng, vì qua mỗi điểm có vô số đường thẳng, mỗi đường thẳng xác định được một cặp (r,
) thỏa mãn phương trình Hough:
thẳng thứ nhất có ba điểm ảnh nên giá trị mảng tích luỹ bằng 4, đường thẳng thứ hai có giá trị mảng tích luỹ bằng 5 Do đó, tổng giá trị mảng tích luỹ cho cùng góc trường hợp này bằng 9 Gọi Hough[2π][Max] là mảng tích lũy, giả sử M và N tương ứng là chiều rộng và chiều cao của ảnh, ta có các bước chính trong quá trình áp dụng biến đổi Hough phát hiện góc nghiêng văn bản như sau:
Trang 28Bước 1: Khai báo mảng chỉ số Hough[][r] với 0≤≤π và 0≤ r ≤ 2,
0 r M N Gán giá trị khởi tạo bằng 0 cho các phần tử của mảng
Bước 2: Với mỗi cặp (x, y) là điểm giữa đáy của hình chữ nhật ngoại tiếp một đối
tượng
- Với mỗi itừ 0 đến 2π tính giá trị i theo công thức
ri= x.cosi+y.sini
- Làm tròn giá trị ri thành số nguyên gần nhất là r0
- Tăng giá trị của phần tử mảng Hough[i][r0] lên một đơn vị
Bước 3: Trong mảng Hough[][r] tính tổng giá trị các phần tử theo từng dòng và xác định dòng có tổng giá trị lớn nhất
Số phần tử của một phần tử mảng Hough[0][r0] chính là số điểm ảnh thuộc đường thẳng x.cos0+y.sin0= r0 , vì vậy tổng số phần tử của một hàng chính là tổng
số điểm ảnh thuộc các đường thẳng tương ứng được biểu diễn bởi góc của hàng đó
Do đó, góc nghiêng của văn bản chính là hàng có tổng giá trị các phần tử mảng tích lũy lớn nhất
2.1.3 Thuật toán phát hiện góc nghiêng văn bản
Thuật toán phát hiện góc nghiêng văn bản gồm các bước sau:
Bước 1:
Với mỗi điểm ảnh ta duyệt ảnh theo thứ tự từ trên xuống và từ trái qua phải
- Nếu gặp một điểm vùng (x,y) chưa xét thực hiện các bước:
+ Áp dụng thuật toán xác định chu tuyến với đầu vào là (x,y) và màu tương ứng
+ Dùng hình chữ nhật ngoại tiếp kiểm tra nếu đối tượng có kích thước bình thường, áp dụng biến đổi Hough cho điểm giữa đáy của hình chữ nhật
- Nếu gặp một điểm đã xét, tìm một điểm ảnh trên cùng dòng có nhãn bằng với điểm ảnh đang xét và tiến hành duyệt lại
Trang 29cả hai Vì Vậy chúng ta không áp dụng biến đổi Hough cho tất cả các đối tượng sau khi tìm được chu tuyến của chúng mà loại những đối tượng có kích thước kỳ lạ, hoặc là rất bé so với ký tự thường…
Sơ đồ giải thuật:
Lấy điểm trung bình cạnh đáy của từng hình chữ nhật
Xác định đường thẳng
Xoay văn bản với góc tìm được
Áp dụng biến đổi Hough để xác định đường thẳng từ tập điểm vừa tìm được
T
F
Xác định các đối tượng ảnh và hình chữ nhật chứa nó
nhật chứa nó
Xác định các đối tượng ảnh và hình chữ nhật chứa nó
Trang 302.1.4 Chỉnh sửa góc nghiêng văn bản
Để chỉnh góc nghiêng văn bản ta quay ảnh với góc lệch đó Thuật toán quay ảnh
là chuyển một điểm ảnh (x, y) từ ảnh ban đầu thành điểm ảnh mới có tọa độ (x1, y1) trong ảnh kết quả với x1, y1 được xác định theo công thức sau: x1 = x.cos+y.sin
y1 = y.sin- x.cos
Tuy nhiên một vấn đề trong kỹ thuật quay ảnh mà bất kỳ hệ thống xử lý ảnh nào cũng gặp phải là giải quyết những lỗ hổng hay những điểm không được gán màu trong ảnh kết quả trong quá trình quay Lý do dẫn đến sự xuất hiện những lỗ hổng chính là từ công thức quay ảnh Do phải làm tròn các giá trị thành số nguyên nên trong ảnh đích có một số điểm ảnh không tương ứng được ánh xạ từ ảnh gốc sang những lỗ hổng Để giải quyết vấn đề lỗ hổng, ta duyệt ảnh đích, gán màu cho chúng dựa vào màu của các láng giềng Với ảnh đen trắng, các lỗ hổng được gán màu đen
Hiện nay đã có rất nhiều phương pháp đề nghị cho việc quay ảnh Có thể đơn cử như: phép quay dựa trên biến đổi Affine, phương pháp do Cheng đề nghị, phương pháp 3-pass, phương pháp do Jiang đề nghị hay phương pháp black run… Tuy nhiên, một hạn chế chung của các phương pháp này là làmất điểm trong khi quay do phép làm tròn số, gây ra hiện tượng “rỗ” ảnh (xem hình 2.7)
Trang 312.2 Phương pháp hình chiếu
Một phương pháp đơn giản để xác định góc nghiêng văn bản là dùng phương pháp hình chiếu Ý tưởng chính của phương pháp này là tính Histogram cho tất cả các góc lệch Histogram của một góc là số điểm đen trong ảnh sao cho các điểm này nằm trên những đường thẳng có cùng một hướng tương ứng với góc đó Sau đó dùng một hàm chi phí áp dụng cho các giá trị Histogram này Góc nghiêng văn bản tương ứng với góc giá trị hàm chi phí cực đại Histogram này có biên độ và tần xuất lớn nhất khi văn bản có độ nghiêng bằng 0 với số điểm đen là lớn nhất Điều này được minh họa ở hình 2.8c, 2.8d trong đó cho thấy phương pháp hình chiếu được tính từ hình ảnh trong hình 2.8a, 2.8b
Hình 2.7 Hiện tượng rỗ ảnh sau khi quay
Trang 32Hình 2.8c có chiều cao và khoảng cách đều nhau hơn so với ảnh bị nghiêng góc thể hiện ở hình 2.8d Đặc điểm này được sử dụng trong một vài thuật toán, một trong số các phương pháp là sử dụng phép quay ảnh đầu vào qua một góc và tính hình chiếu cho mỗi góc Sau đó trích chọn các điểm đại diện từ phép chiếu được so sánh để xác định điểm cao hơn Phương pháp này được thể hiện trong đoạn mã sau:
for theta = -angle to +angle by resolution do { for r = 0 to NROWS do
for c = 0 to NCOLS do
if (image[r][c] == BLACK) { rotate(r,c,theta,&new_row);
++proj_prof[new_row]; } angle_measure[theta] = criterion_function(proj_prof[]); }
kew_angle = choose_skew(angle_measure[]); } Trong phương pháp hình chiếu tọa độ của mỗi điểm đen được quay bởi góc và ô tương ứng tăng lên Dùng hàm Criterion ước lượng góc nghiêng cho đỉnh đại diện – hình 2.7, sau đó hàm Choose_skew được gọi để xác định góc lớn nhất từ hàm Criterion Xoay tọa độ thay vì quay ảnh bitmap lưu trữ tạm
2.8d Hình 2.8 Phương pháp hình chiếu được tính từ ảnh trong hình 2.8a, 2.8b
2.8c
Trang 33thời và làm giảm quá trình tính toán lặp lại nhiều lần
Thuật toán phát hiện góc nghiêng được đề xuất bởi các tác giả: Akiyama, Nakano,Potsl, Baird, Lam và Zandy,… Các thuật toán phát hiện góc nghiêng văn bản dựa vào phương pháp hình chiếu thường bao gồm các bước sau:
Bước 1: Dùng một hàm rút gọn F để chuyển ảnh đầu vào thành một tập các bộ
ba (x, y, w) trong đó (x, y) là tọa độ của một điểm ảnh đại diện cho một đối tượng và w
là trọng số của điểm đó Điểm đại diện là điểm biểu diễn các ký tự trong các đối tượng của ảnh
Bước 2: Một hàm P dùng để chiếu các điểm tìm được ở trên vào một mảng đếm A theo các góc chiếu khác nhau Ứng với mỗi góc có một mảng A dùng để lưu số điểm đại diện Mảng A là mảng một chiều, phần tử A[r] sẽ cho biết số điểm đại diện nằm trên đường thẳng tạo với trục Ox góc và khoảng cách từ gốc tọa độ tới đường thẳng đó là r
Bước 3: Sau khi tính được mảng A[] áp dụng một hàm tối ưu hóa Ω cho các giá trị của mảng này theo một tiêu chuẩn nào đó Cuối cùng góc lệch của văn bản là góc tương ứng có giá trị hàm tối ưu hóa cực đại Sự khác nhau của các thuật toán là việc xây dựng các hàm rút gọn F và hàm tối ưu hóa Ω
2.2.1 Thuật toán Postl
Postl dùng các tần số lấy mẫu theo chiều ngang và chiều dọc để lấy các điểm đen trong ảnh làm các điểm cơ sở
Hàm rút gọn:
Fp(I) = {x*Δξ, y*Δη,1)│0<x<w/ Δξ; 0<y<h/Δη; I(x*Δξ, y*Δη) = 1}
Ωp(Aφ) = Σ(Aφ[p+1] - Aφ[p])2
Với (x, y) là tọa độ của điểm ảnh đại diện, Δξ và Δη là các ngưỡng kích thước;
w, h tương ứng là chiều rộng và chiều cao của ảnh
2.2.2 Thuật toán Baird
Trang 34Baird dùng cách xác định hình chữ nhật chứa các đối tượng, điểm đại diện chính là trọng tâm của hình chữ nhật đó và hàm tối ưu hóa bằng tổng bình phương các giá trị mảng A Công thức hai hàm này như sau:
FB(I) = {(x, y, 1)│(x, y) là tâm hình chữ nhật bao quanh một đối tượng}
ΩB(Aφ) = Σ(Aφ[p])2
2.2.3 Thuật toán Nakano
Nakano cũng dùng tâm các hình chữ nhật chứa đối tượng làm điểm cơ sở nhưng dùng luôn chiều rộng của các hình chữ nhật này làm trọng số cho các điểm cơ
sở và hàm tối ưu hóa phụ thuộc vào số các giá trị bằng 0 trong mảng đếm Công thức cho hai hàm này như sau:
FB(I) = {(x, y, w)│(x, y) là tọa độ góc trái dưới của hình chữ nhật bao quanh một đối tượng, w là chiều rộng của hình chữ nhật}
ΩB(Aφ[p]) = Σ(1-U(Aφ[p])), với U(Aφ[p]) = 1 nếu Aφ[p] = 0, ngược lại U(Aφ[p])
= 0 Phát hiện góc lệch văn bản bằng cách chiếu các góc là một phương pháp đơn giản
và dễ hiểu Tuy nhiên, những thuật toán dựa trên phương pháp này còn hạn chế nhiều
về độc chính xác với các góc lệch lớn Baird cho rằng để thuật toán cho kết quả có độ chính xác cao thì góc lệch văn bản phải giới hạn trong khoảng (-150
, +150) Nếu văn bản có nhiều nhiễu và các đối tượng phi văn bản như bảng biểu, hình ảnh thì độ chính xác bị giảm đáng kể
2.3 Phép toán hình thái - Morphology
2.3.1 Phương pháp
Thuật toán thích hợp cho các văn bản có dấu như tiếng Việt, tiếng Pháp, …Đối với loại văn bản này, việc xuất hiện của các dấu, phần phụ trên, phần phụ dưới của chữ cũng như nhiễu đã làm cho các dòng lân cận nhau có
xu hướng dính lại với nhau (xem hình 2.9) Chính điều này đã làm cho các phương pháp xác định góc nghiêng văn bản trước đây bị thất bại Bằng cách
sử dụng các phép biến đổi Morphology, dấu, nhiễu sẽ bị tách khỏi ảnh văn
Trang 35bản Nó giúp cho việc xác định các dòng văn bản dễ dàng hơn Quá trình loại
bỏ nhiễu và dấu nhờ vào các phép biến đổi Morphology có thể làm mất một
số thông tin của văn bản Tuy nhiên, sự mất mát đó không quan trọng, vì góc nghiêng của văn bản được đặc trưng bởi các dòng văn bản ngay cả sau khi đã loại bỏ phần phụ trên và phụ dưới
Hình 2.9 Một ví dụ các dòng văn bản có xu hướng dính lại với nhau do ảnh hưởng của dấu
Xuất phát từ đặc điểm của phép đóng ảnh là có khả năng gắn các đối tượng cạnh nhau Các thuật toán này thường dùng phép đóng nhiều lần với mục đích nối các dòng văn bản với nhau Giai đoạn tiếp theo sẽ dùng các vector chỉ phương của các dòng xác định góc nghiêng cho văn bản tương tự như trong phương pháp phân tích láng giềng Theo hướng tiếp cận này gồm các thuật toán của các tác giả: L Najman,
nhóm S Chen và R.M Haralick và nhóm A.K Das và B.Chada Thuật toán của
L.Najman có thể được xem là cải tiến nhất trong số các thuật toán dùng phép toán hình thái xác định góc nghiêng văn bản
Trước hết là quá trình tiền xử lý, đây là quá trình dùng để lọc nhiễu, dấu và những thành phần liên thông lớn Trong quá trình này các tham số như chiều cao và chiều rộng đặc trưng của chữ, … sẽ được tự động xác định dựa trên văn bản đầu vào Sau đó, thuật toán ước lượng thô sẽ xác định được khoảng mà góc nghiêng của văn bản rơi vào Cuối cùng, với những tham số tìm thấy ở bước đầu tiên, sẽ thực hiện các phép đóng và mở cho các dòng văn bản để tạo thành các vệt tạo thuận lợi cho bước xác định góc nghiêng tiếp theo Sau đó một thuật toán đơn giản sẽ được dùng để xác định góc của mỗi dòng văn bản và góc nghiêng của toàn bộ văn bản cũng sẽ được tìm thấy dựa trên góc nghiêng của các dòng văn bản
Trang 362.3.2 Bước tiền xử lý
Trong bước này, chúng ta sẽ lần lượt xác định các lược đồ về chiều cao
và chiều rộng của tất cả các thành phần liên thông trong văn bản Chiều cao
và chiều rộng xuất hiện nhiều lần nhất của các thành phần liên thông, gọi là W
và H, sẽ được xác định nhờ vào việc tìm ra đỉnh của những lược đồ này W và
H cũng chính là chiều cao và chiều rộng đặc trưng của các kí tự trong văn
bản Trong quá trình lọc dấu và nhiễu, các thành phần liên thông có chiều cao
và chiều rộng nhỏ hơn T0 × min{W, H} được xem là nhiễu và dấu, có nghĩa là đối với mỗi thành phần liên thông c(w, h), trong đó w và h là chiều cao và chiều rộng của nó Nếu max{w, h} ≤ T0 × min{W, H}, c sẽ bị loại khỏi văn
bản chúng ta đang xem xét Đối với việc loại bỏ các TPLT lớn, nếu một TPLT
c(w, h) được gọi là thành phần liên thông lớn khi min{w, h} ≥ 1/T0 × max{W,
H}, nó cũng sẽ bị loại ra khỏi ảnh văn bản Sau khi thực hiện bước tiền xử lý,
ta sẽ có được hai ảnh gọi là bottom profile và left profile Bottom profile được tạo ra bằng cách thay thế mỗi thành phần liên thông bằng một điểm bottom most left, tương tự left profile được tạo ra dựa trên các điểm left most bottom của các thành phần liên thông (xem hình 2.10) Đối với các góc trong khoảng [-45o, 45o], các điểm bottom most left sẽ đặc trưng cho đường base lines của văn bản Tuy nhiên trong trường hợp góc nghiêng văn bản lớn, các điểm left most bottom của thành phần liên thông sẽ biểu thị cho các base lines tốt hơn (xem các hình 2.10(a), 2.10(b), 2.10(c))
Hình 2.10: Các điểm left most bottom và bottom most left