Nhận dạng chữ cho ảnh màu thương hiệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN NGỌC TUẤN NHẬN DẠNG CHỮ CHO ẢNH MÀU THƯƠNG HIỆU LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội - 2015... ĐẠI HỌC QUỐC GIA HÀ NỘI

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN NGỌC TUẤN

NHẬN DẠNG CHỮ CHO ẢNH MÀU THƯƠNG HIỆU

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội - 2015

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN NGỌC TUẤN

NHẬN DẠNG CHỮ CHO ẢNH MÀU THƯƠNG HIỆU

Ngành: Công nghệ thông tin

Chuyên ngành: Khoa Học Máy Tính

Mã số: 60480101

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS LÊ THANH HÀ

Trang 3

Lời cam đoan

Tôi xin cam đoan đây là phần nghiên cứu và thực hiện khóa luận của riêng tôi, dưới sự hướng dẫn của TS Lê Thanh Hà, không sao chép từ các công trình nghiên cứu khác Tôi

đã trích dẫn đầy đủ các tài liệu tham khảo, các công trình nghiên cứu liên quan ở trong nước và quốc tế Nếu sai tôi xin chịu hoàn toàn trách nhiệm và chịu mọi kỷ luật của ĐHQG Hà Nội và Nhà trường.

Hà Nội, ngày 22 tháng 6 năm 2015

Học viên

Trang 4

Lời cảm ơn

Lời đầu tiên em xin bày tỏ lòng biết ơn sâu sắc tới TS Lê Thanh Hà, người đã hướng dẫn em tận tình trong suốt quá trình học tập, nghiên cứu

và viết luận văn Đồng thời giúp em lựa chọn hướng đi cho riêng mình Một lần nữa em xin được nói lời cảm ơn với Thầy

Em xin bày tỏ lòng biết ơn tới các thầy cô giáo trong Khoa Công Nghệ Thông Tin - Đại Học Công Nghệ - ĐHQGHN Các thầy cô đã dạy bảo, chỉ dẫn chúng em và luôn tạo điều kiện tốt nhất cho chúng em trong quá trình học tập, đặc biệt trong thời gian làm luận văn tốt nghiệp

Em xin cảm ơn các anh chị em lớp K17KHMT trường Đại Học Công Nghệ và các anh chị em trong lớp KHMT, đã giúp đỡ em trong suốt quá trình học tập

Cuối cùng con xin gửi tới bố mẹ và toàn thể gia đình lòng biết ơn và tình cảm yêu thương

Hà Nội ngày 22 tháng 6 năm 2015

Nguyễn Ngọc Tuấn

Trang 5

MỞ ĐẦU

Nhận dạng chữ in nói chung và nhận dạng chữ in trên ảnh màu là những bài toán có nhiều ứng dụng trong thực tế và thu hút được nhiều sự quan tâm nghiên cứu Máy tính tự động nhận dạng, xử lý ảnh đầu vào tạo ra các dữ liệu văn bản phục vụ lưu trữ, tìm kiếm, phân tích Nhờ đó giúp chúng ta tiết kiệm chi phí, thời gian, công sức so với nhập liệu thủ công Ngày nay, dưới sự cạnh tranh mạnh mẽ về kinh tế, việc xây dựng hình ảnh doanh nghiệp và truyền tải đến người tiêu dùng ngày càng trở nên quan trọng Ảnh thương hiệu (logo) là một phần không thể thiếu của quá trình này, và luôn được bổ sung vào cơ sở dữ liệu về các doanh nghiệp

Để khai thác thông tin ảnh thương hiệu trong các cơ sở dữ liệu, có thể dựa vào hai thành phần chính: phần hình ảnh và phần chữ (text) Trong

đó, phần text có thể chứa nhiều thông tin hữu ích như tên sản phẩm, tên doanh nghiệp, khẩu hiệu (slogan) , phục vụ đắc lực cho việc tìm kiếm, phân tích, lưu trữ Phương pháp được đề cập trong luận văn này nhằm giải quyết vấn đề trích xuất dữ liệu text từ ảnh thương hiệu một cách tự động, nâng cao độ chính xác và giảm thiểu chi phí cho hoạt động nhập liệu

Quan sát một số cơ sở dữ liệu ảnh thương hiệu, có thể thấy ảnh thương hiệu chỉ bao gồm thông tin dạng văn bản (text) chiếm một phần đáng kể,

và có thể giải quyết bằng phương pháp nhận dạng chữ thông thường Tuy nhiên, một phần không nhỏ ảnh màu thương hiệu ngoài text thường có các yếu tố hình họa đi kèm, chính sự nhập nhằng giữa vùng chữ in và vùng hình họa làm sự khó khăn khi trích xuất text tăng lên rất nhiều so với nhận dạng chữ in trên ảnh xám truyền thống Để giải quyết vấn đề đó, luận văn

đã đề xuất giải pháp kết hợp giữa phương pháp grayscale và phân đoạn ảnh cải tiến, dựa trên chính sự khác biệt về màu sắc và cảm nhận của mắt người, một nguyên tắc thường thấy trong thiết kế ảnh màu thương hiệu Bài toán nhận dạng chữ in trên ảnh màu gồm ba công đoạn chủ yếu: tiền xử lý, nhận dạng kí tự và hậu xử lý Trong luận văn này tập trung chủ yếu vào giai đoạn tiền xử lý, cụ thể là quá trình grayscale và phân đoạn ảnh, nhằm đưa ra những cải tiến để cải thiện độ chính xác của kết quả nhận dạng sau cùng Đồng thời cũng sử dụng máy nhận dạng văn bản Tesseract để xây dựng thành một hệ thống hoàn chỉnh

Trong phần thực nghiệm của luận văn, chúng tôi tiến hành nhận dạng

Trang 6

chữ in trên ảnh màu thương hiệu với nhiều kích cỡ chữ, font chữ và màu sắc khác nhau Kết quả sau cùng của hệ thống nhận dạng chữ in được cải thiện rõ rệt khi so sánh với các phương pháp phân đoạn khác và hệ thống nhận dạng hiện tại

Từ khóa: Nhận dạng chữ in, ảnh thương hiệu màu, biểu đồ Histogram, phân đoạn ảnh, nhị phân hóa

Trang 7

Mục lục

1.1 Đặt vấn đề 10

1.2 Nội dung nghiên cứu của luận văn 10

1.3 Cấu trúc luận văn 11

2 Cơ sở lý thuyết cho phân đoạn ảnh 13 2.1 Ảnh màu thương hiệu 13

2.2 Không gian màu (color space) 15

2.3 Biểu đồ Histogram 17

2.4 Chuyển đổi ảnh màu sang ảnh mức xám 17

2.5 Phân đoạn ảnh 18

2.6 Một số phương pháp phân đoạn 20

2.7 Máy nhận dạng văn bản Tesseract 21

3 Phân đoạn ảnh màu thương hiệu 24 3.1 Pha 1: Chuyển đổi ảnh màu sang ảnh mức xám 24

3.2 Pha 2: Phân đoạn ảnh phân cấp 28

3.2.1 Xác định khoảng cách cụm 28

3.2.2 Hòa nhập cụm 29

3.2.3 Thuật toán Arifin cải tiến lựa chọn ngưỡng tự động 29 3.3 Pha 3: Nhận dạng ký tự 30

4 Thực nghiệm và đánh giá 33 4.1 Môi trường thực nghiệm 33

4.2 Thực nghiệm về phân đoạn ảnh 33

4.3 Thực nghiệm nhận dạng 35

Trang 8

Danh mục hình vẽ

2.1 Ảnh thương hiệu màu 14

2.2 Không gian màu HSV 16

2.3 Phân cụm phân ngưỡng trên Histogram 18

2.4 Ảnh gốc và vùng ảnh sau phân đoạn 19

2.5 Cấu trúc của Tesseract 22

3.1 Sơ đồ hệ nhận dạng ký tự cho ảnh màu thương hiệu 25

3.2 Chuyển đổi ảnh màu sang ảnh mức xám; (a): ảnh gốc, (b) ảnh độ sáng, (c) ảnh mức xám áp dụng phương pháp của Rasche, (d) ảnh mức xám áp dụng phương pháp của Mark 26 3.3 Ảnh màu thương hiệu 27

3.4 Ảnh mức xám sau khi biến đổi sử dụng phương pháp của Mark 27

3.5 (a) Biểu đồ Histogram và quá trình hòa nhập cụm (b) 29

3.6 Nhận dạng văn bản trên ảnh đã phân đoạn bằng Tesseract 30 4.1 Ảnh thương hiệu sau phân đoạn áp dụng phương pháp Otsu 34 4.2 Ảnh thương hiệu sau phân đoạn bằng phương pháp phân cấp Arafin 34

4.3 Ảnh thương hiệu sau phân đoạn bằng phương pháp phân cấp K-means 35

4.4 Kết quả nhận dạng với các chỉ số RCR, RJR và ER cho mỗi mô hình 36

Trang 9

Danh mục bảng biểu

4.1 Bảng so sánh kết quả thực nghiệm 37

Trang 10

Danh sách các từ viết tắt

OCR Optical Character Recognition

RGB Red Green Blue

HSV Hue Saturation Value

CMYK Cyan Magenta Yellow Key

CIE International Commission on Illumination

LAB Lightness a b

LA*B* Lightness a* b*

RCR Recognition rate

RJR Rejection rate

ER Error rate

NOIP National Office of Intellectual Property

Trang 11

Tài liệu tham khảo

Pablo Arbelaez, Michael Maire, Charless Fowlkes, and Jitendra Malik Contour detection and hierarchical image segmentation IEEE Transactions on Pattern Analysis and Machine Intelligence, 33:898–916,

2011 ISSN 0162-8828 doi: http://doi.ieeecomputersociety.org/10.1109/TPAMI.2010.161.

Asano Akira Arifin, Agus Zainal Image segmentation by histogram thresholding using hierarchical cluster analysis Pattern Recogn Lett., 27(13):1515–1521, October 2006 ISSN 0167-8655 doi: 10 1016/j.patrec.2006.02.022 URL http://dx.doi.org/10.1016/j.patrec.2006.02.022

S Belongie, J Malik, and J Puzicha Shape matching and object recognition using shape contexts Pattern Analysis and Machine Intelligence, IEEE Transactions on, 24(4):509 –522, apr 2002 ISSN 0162-8828 doi: 10.1109/34.993558.

Teófilo Emídio de Campos, Bodla Rakesh Babu, and Manik Varma Character recognition in natural images In VISSAPP (2)’09, pages 273–280, 2009.

Line Eikvil Ocr - optical character recognition, 1993.

A Srikrishna G Rama Mohan Babu, P Srimaiyee Text extraction from heterogeneous images using mathematical morphology Journal of Theoretical and Applied Information Technology, 16(1):39–47, 2010.

Y M Y Hasan and L J Karam Morphological text extraction from images IEEE Transactions on Image Processing, 9(11):1978–1983, 2000 URL http://www.ncbi.nlm.nih.gov/pubmed/18262934

Rose Holley How good can it get? analysing and improving ocr accuracy in large scale historic newspaper digitisation programs D-Lib Magazine, 15(3/4), 03 2009.

Anil Jain and Aditya Vailaya Shape-based retrieval: A case study with trademark image databases Pattern Recognition, 31:1369–1390, 1998.

Keechul Jung, Kwang In Kim, and Anil K Jain Abstract text information extraction in images and video: A survey.

K.C.Singh and Lalit Mohan Satapathy Comparative Study on Thresholding International Journal of Instrumentation, 1:73–77, 2011 doi: 10.1002/col.5080160608.

Rainer Lienhart and Frank Stuber Automatic text recognition in digital videos Technical report, 1995.

Elizabeth Pirrotta Mark D Fairchild Predicting the lightness of chromatic object colors using CIELAB Color Research and Application, 16:385–393, 1991 doi: 10.1002/col.5080160608.

Shunji Mori, Hirobumi Nishida, and Hiromitsu Yamada Optical Character Recognition John Wiley & Sons, Inc., New York, NY, USA, 1st edition, 1999 ISBN 0471308196.

Jun Zhang and Jinglu Hu Image segmentation based on 2d otsu method with histogram analysis In Proceedings of the 2008 International Conference on Computer Science and Software Engineering -Volume 06, CSSE ’08, pages 105–108, Washington, DC, USA, 2008a IEEE Computer Society ISBN 978-0-7695-3336-0 doi: 10.1109/CSSE.2008.206 URL http://dx.doi.org/10.1109/CSSE.2008.

206

[2]

[3]

[4]

[5]

[6]

[7

]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[1]

Trang 12

Jun Zhang and Jinglu Hu Image segmentation based on 2d otsu method with histogram analysis In Proceedings of the 2008 International Conference on Computer Science and Software Engineering -Volume 06, CSSE ’08, pages 105–108, Washington, DC, USA, 2008b IEEE Computer Society ISBN 978-0-7695-3336-0.

Lihong Zheng and Xiangjian He Character segmentation for license plate recognition by k-means algo-rithm In Proceedings of the 16th international conference on Image analysis and processing - Volume Part II, ICIAP’11, pages 444–453, Berlin, Heidelberg, 2011 Springer-Verlag ISBN 978-3-642-24087-4 URL http://dl.acm.org/citation.cfm?id=2042703.2042751

Yu Zhong, K Karu, and A K Jain Locating text in complex color images In Proceedings of the Third International Conference on Document Analysis and Recognition (Volume 1) - Volume 1, ICDAR ’95, pages 146–149, Washington, DC, USA, Aug 1995 IEEE Computer Society ISBN 0-8186-7128-9 URL

http://dl.acm.org/citation.cfm?id=844379.844664

www.noip.gov.vn/

https://code.google.com/p/tesseract-ocr/

http://www.nuance.com/for-individuals/by-product/omnipage/

[16]

[17]

[18]

[19]

[20]

[21]

Định dạng
Số trang	12
Dung lượng	1,84 MB