Tuynhiên, một phần không nhỏ ảnh màu thương hiệu ngoài text thường có cácyếu tố hình họa đi kèm, chính sự nhập nhằng giữa vùng chữ in và vùnghình họa làm sự khó khăn khi trích xuất text
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN NGỌC TUẤN
NHẬN DẠNG CHỮ CHO ẢNH MÀU THƯƠNG HIỆU
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Hà Nội - 2015
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN NGỌC TUẤN
NHẬN DẠNG CHỮ CHO ẢNH MÀU THƯƠNG HIỆU
Ngành: Công nghệ thông tin
Chuyên ngành: Khoa Học Máy Tính
Mã số: 60480101
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: TS LÊ THANH HÀ
Hà Nội - 2015
Trang 3Lời cam đoan
Tôi xin cam đoan đây là phần nghiên cứu và thực hiện khóa luận của riêng tôi, dưới sự hướng dẫn của TS Lê Thanh Hà, không sao chép từ các công trình nghiên cứu khác Tôi
đã trích dẫn đầy đủ các tài liệu tham khảo, các công trình nghiên cứu liên quan ở trong nước và quốc tế Nếu sai tôi xin chịu hoàn toàn trách nhiệm và chịu mọi kỷ luật của ĐHQG Hà Nội và Nhà trường.
Hà Nội, ngày 22 tháng 6 năm 2015
Học viên
Trang 4Em xin cảm ơn các anh chị em lớp K17KHMT trường Đại Học CôngNghệ và các anh chị em trong lớp KHMT, đã giúp đỡ em trong suốt quátrình học tập.
Cuối cùng con xin gửi tới bố mẹ và toàn thể gia đình lòng biết ơn vàtình cảm yêu thương
Hà Nội ngày 22 tháng 6 năm 2015
Nguyễn Ngọc Tuấn
Trang 5MỞ ĐẦU
Nhận dạng chữ in nói chung và nhận dạng chữ in trên ảnh màu là nhữngbài toán có nhiều ứng dụng trong thực tế và thu hút được nhiều sự quantâm nghiên cứu Máy tính tự động nhận dạng, xử lý ảnh đầu vào tạo racác dữ liệu văn bản phục vụ lưu trữ, tìm kiếm, phân tích Nhờ đó giúpchúng ta tiết kiệm chi phí, thời gian, công sức so với nhập liệu thủ công.Ngày nay, dưới sự cạnh tranh mạnh mẽ về kinh tế, việc xây dựng hìnhảnh doanh nghiệp và truyền tải đến người tiêu dùng ngày càng trở nênquan trọng Ảnh thương hiệu (logo) là một phần không thể thiếu của quátrình này, và luôn được bổ sung vào cơ sở dữ liệu về các doanh nghiệp
Để khai thác thông tin ảnh thương hiệu trong các cơ sở dữ liệu, có thểdựa vào hai thành phần chính: phần hình ảnh và phần chữ (text) Trong
đó, phần text có thể chứa nhiều thông tin hữu ích như tên sản phẩm, têndoanh nghiệp, khẩu hiệu (slogan) , phục vụ đắc lực cho việc tìm kiếm,phân tích, lưu trữ Phương pháp được đề cập trong luận văn này nhằmgiải quyết vấn đề trích xuất dữ liệu text từ ảnh thương hiệu một cách tựđộng, nâng cao độ chính xác và giảm thiểu chi phí cho hoạt động nhậpliệu
Quan sát một số cơ sở dữ liệu ảnh thương hiệu, có thể thấy ảnh thươnghiệu chỉ bao gồm thông tin dạng văn bản (text) chiếm một phần đáng kể,
và có thể giải quyết bằng phương pháp nhận dạng chữ thông thường Tuynhiên, một phần không nhỏ ảnh màu thương hiệu ngoài text thường có cácyếu tố hình họa đi kèm, chính sự nhập nhằng giữa vùng chữ in và vùnghình họa làm sự khó khăn khi trích xuất text tăng lên rất nhiều so với nhậndạng chữ in trên ảnh xám truyền thống Để giải quyết vấn đề đó, luận văn
đã đề xuất giải pháp kết hợp giữa phương pháp grayscale và phân đoạnảnh cải tiến, dựa trên chính sự khác biệt về màu sắc và cảm nhận của mắtngười, một nguyên tắc thường thấy trong thiết kế ảnh màu thương hiệu.Bài toán nhận dạng chữ in trên ảnh màu gồm ba công đoạn chủ yếu:tiền xử lý, nhận dạng kí tự và hậu xử lý Trong luận văn này tập trungchủ yếu vào giai đoạn tiền xử lý, cụ thể là quá trình grayscale và phânđoạn ảnh, nhằm đưa ra những cải tiến để cải thiện độ chính xác của kếtquả nhận dạng sau cùng Đồng thời cũng sử dụng máy nhận dạng văn bảnTesseract để xây dựng thành một hệ thống hoàn chỉnh
Trong phần thực nghiệm của luận văn, chúng tôi tiến hành nhận dạng
Trang 6chữ in trên ảnh màu thương hiệu với nhiều kích cỡ chữ, font chữ và màusắc khác nhau Kết quả sau cùng của hệ thống nhận dạng chữ in được cảithiện rõ rệt khi so sánh với các phương pháp phân đoạn khác và hệ thốngnhận dạng hiện tại.
Từ khóa: Nhận dạng chữ in, ảnh thương hiệu màu, biểu đồ Histogram,phân đoạn ảnh, nhị phân hóa
Trang 7Mục lục
1.1 Đặt vấn đề 10
1.2 Nội dung nghiên cứu của luận văn 10
1.3 Cấu trúc luận văn 11
2 Cơ sở lý thuyết cho phân đoạn ảnh 13 2.1 Ảnh màu thương hiệu 13
2.2 Không gian màu (color space) 15
2.3 Biểu đồ Histogram 17
2.4 Chuyển đổi ảnh màu sang ảnh mức xám 17
2.5 Phân đoạn ảnh 18
2.6 Một số phương pháp phân đoạn 20
2.7 Máy nhận dạng văn bản Tesseract 21
3 Phân đoạn ảnh màu thương hiệu 24 3.1 Pha 1: Chuyển đổi ảnh màu sang ảnh mức xám 24
3.2 Pha 2: Phân đoạn ảnh phân cấp 28
3.2.1 Xác định khoảng cách cụm 28
3.2.2 Hòa nhập cụm 29
3.2.3 Thuật toán Arifin cải tiến lựa chọn ngưỡng tự động 29 3.3 Pha 3: Nhận dạng ký tự 30
4 Thực nghiệm và đánh giá 33 4.1 Môi trường thực nghiệm 33
4.2 Thực nghiệm về phân đoạn ảnh 33
4.3 Thực nghiệm nhận dạng 35
Trang 8Danh mục hình vẽ
2.1 Ảnh thương hiệu màu 14
2.2 Không gian màu HSV 16
2.3 Phân cụm phân ngưỡng trên Histogram 18
2.4 Ảnh gốc và vùng ảnh sau phân đoạn 19
2.5 Cấu trúc của Tesseract 22
3.1 Sơ đồ hệ nhận dạng ký tự cho ảnh màu thương hiệu 25
3.2 Chuyển đổi ảnh màu sang ảnh mức xám; (a): ảnh gốc, (b) ảnh độ sáng, (c) ảnh mức xám áp dụng phương pháp của Rasche, (d) ảnh mức xám áp dụng phương pháp của Mark 26 3.3 Ảnh màu thương hiệu 27
3.4 Ảnh mức xám sau khi biến đổi sử dụng phương pháp của Mark 27
3.5 (a) Biểu đồ Histogram và quá trình hòa nhập cụm (b) 29
3.6 Nhận dạng văn bản trên ảnh đã phân đoạn bằng Tesseract 30 4.1 Ảnh thương hiệu sau phân đoạn áp dụng phương pháp Otsu 34 4.2 Ảnh thương hiệu sau phân đoạn bằng phương pháp phân cấp Arafin 34
4.3 Ảnh thương hiệu sau phân đoạn bằng phương pháp phân cấp K-means 35
4.4 Kết quả nhận dạng với các chỉ số RCR, RJR và ER cho mỗi mô hình 36
Trang 9Danh mục bảng biểu
Trang 10Danh sách các từ viết tắt
OCR Optical Character Recognition
RGB Red Green Blue
HSV Hue Saturation Value
CMYK Cyan Magenta Yellow Key
CIE International Commission on Illumination
Trang 11Chương 1
TỔNG QUAN
Nhận dạng kí tự quang học (OCR - Optical Character Recognition)
là quá trình chuyển đổi hình ảnh của văn bản thành văn bản máy tính.Hiện nay, nhận dạng chữ in nói chung và nhận dạng chữ in trên ảnh màu
là những bài toán có nhiều ứng dụng trong thực tế, giúp tiết kiệm rấtnhiều các chi phí và thời gian cho việc nhập liệu Trong một số điều kiệnthuận lợi, nhận dạng chữ in đạt độ chính xác rất cao cho các hệ chữ phổthông[12] Tuy nhiên khi áp dụng ảnh màu, đặc biệt ảnh thương hiệu màu,rất nhiều vấn đề khó khăn của bài toán vẫn chưa được giải quyết triệt để
Vì vậy nhận được nhiều sự quan tâm nghiên cứu của con con người
Để cải thiện kết quả nhận dạng, nhiều nghiên cứu đề cập đến nâng caochất lượng của giai đoạn tiền xử lý, nhằm cung cấp đầu vào tốt hơn chocác giai đoạn nhận dạng tiếp theo Một trong các khó khăn gặp phải là sựnhập nhằng giữa các vùng văn bản và nền, gây ra sự sai lệch dữ liệu nhậndạng và giảm độ chính xác chung toàn bộ quá trình Thực nghiệm chothấy một số hệ nhận dạng mã nguồn mở đến thương mại như Tesseractcủa Google[20], OmniPage của Nuance[21] gặp phải vấn đề tương tự.Bài toán nhận dạng ký tự được thực hiện qua ba giai đoạn chính: Phânđoạn ảnh, nhận dạng và hậu xử lý Trong luận văn này tôi đi sâu vào cảitiến công đoạn phân đoạn ảnh Bên cạnh đó kết hợp modul nhận dạngTesseract để xây dựng thành một hệ thống nhận dạng văn bản hoàn thiện
Bài toán nhận dạng ký tự được thực hiện qua ba giai đoạn chính: Phânđoạn ảnh, nhận dạng và hậu xử lý Luận văn này nghiên cứu lý thuyết cơbản về các kỹ thuật phân đoạn có sẵn, đồng thời đi sâu vào cải tiến và kếthợp các phương pháp phân đoạn để đưa ra phương án có độ chính xác cao
Trang 12nhất Bên cạnh đó kết hợp modul nhận dạng Tesseract để xây dựng thànhmột hệ thống nhận dạng văn bản hoàn thiện.
Phân đoạn là quá trình quan trọng của tiền xỷ lý Đầu ra của quátrình này có ảnh hưởng rất lớn đến độ chính xác các tiếp theo, cũng nhưtoàn hệ thống Đối với ảnh màu thương hiệu, hai thành phần chính làtext và hình ảnh thường có sự kết hợp và đan xen lẫn nhau, việc phântách rõ ràng các thành phần này gặp nhiều trở ngại Tuy nhiên các ảnhthương hiệu màu vẫn có chung những nguyên tắc khi thiết kế có thể khaithác như: sự tương phản và đồng nhất về màu sắc, sự ảnh hưởng màusắc lên thị giác con người, khả năng đơn giản hóa dễ nắm bắt Luận văn
đã nghiên cứu đánh giá một số phương pháp được sử dụng trong phânđoạn ảnh, và áp dụng vào bài toán nhận dạng chữ trên ảnh thương hiệumàu, nhằm tách biệt vùng chứa text ra các lớp riêng biệt, từ đó đưa vàomáy nhận dạng có sẵn nhằm nâng khả năng nhận dạng Trong giai đoạnnhận dạng ký tự, máy nhận dạng Tesseract được đề xuất cho giai đoạn này.Quá trình phân đoạn trải qua hai bước:
1 Biến đổi grayscale: đưa ảnh thương hiệu màu ban đầu (có cácđiểm ảnh trong hệ màu RGB) sang ảnh mức xám Mức xám (graylevel) của ảnh đích được tính toán dựa trên yếu tố màu sắc, thứ tự
độ sáng, sự liên tục đường nét
2 Phân đoạn ảnh phân cấp: Sau khi đưa về ảnh mức xám, phânđoạn ảnh phân cấp phân các điểm ảnh có mức xám tương đươngnhau về các cụm riêng biệt, từ đó tách ra các lớp để tạo ra ảnh đầuvào của quá trình nhận dạng
Sau khi trải qua các bước trên từ ảnh thương hiệu ban đầu ta thu đượccác văn bản chứa text của ảnh Việc đánh giá phương pháp trong luận văndựa trên 3 yếu tố: tỉ lệ kí tự nhận dạng đúng, tỉ lệ kí tự nhận dạng sai và
tỉ lệ kí tự không nhận dạng được so với kết quả từ mắt người
Các phần còn lại của luận vặn có cấu trúc như sau:
Chương 2: trình bày cơ sở lý thuyết của phân đoạn ảnh, bao gồm cáckhái niệm cơ bản, các kỹ thuật cơ bản được sử dụng trong chuyển đổi ảnhmàu về ảnh mức xám và phân đoạn ảnh
Chương 3: trình bày chi tiết về phân đoạn ảnh cho ảnh thương hiệumàu Đồng thời đưa ra giải pháp tách ngưỡng tự động cho quá trình phân
Trang 13đoạn, bao gồm các thuật toán hòa nhập cụm, xác định khoảng cách giữacác cụm với nhau và lựa chọn tổng khoảng cách tối ưu các tập cụm.
Chương 3: trình bày về kết quả thực nghiệm của hệ thống nhận dạngsau khi đã ghép nối các thành phần lại với nhau, đồng thời mô tả tập dữliệu đầu vào và môi trường thực nghiệm
Chương 4: Kết luận
Trang 14Chương 2
Cơ sở lý thuyết cho phân đoạn ảnh
Ảnh thương hiệu (hay còn được gọi logo, biểu trưng) là một yếu tố đồhọa (kí hiệu, chữ biểu thị, biểu tượng, hình tượng ) kết hợp với cách thứcthể hiện để tạo thành hình ảnh đại diện cho một công ty hay các tổ chứcthương mại, nhãn hiệu, thương hiệu nào đó Nói cách khác, ảnh thươnghiệu được tạo ra nhằm ấn tượng bên ngoài giúp dễ dàng nhận ra thươnghiệu, đồng thời gợi lên tất cả những thông tin và trông đợi gắn với sảnphẩm hoặc dịch vụ có thương hiệu đó
Thông thường, ảnh thương hiệu phải được đảm bảo một số yêu cầusau:
-Nội dung: gồm hai phần chính là hình họa (phần không đọc được)
và text (phần đọc được) Phần không đọc được bao gồm những yếu tốkhông đọc được mà chỉ có thể cảm nhận được bằng thị giác như hình vẽ,biểu tượng (hình bông sen của Vietnam Airlines), màu sắc (màu xanh củaNokia, đỏ của Coca-Cola, hay kiểu dáng thiết kế, bao bì (kiểu chai biaHenniken) và các yếu tố nhận biết (bằng mắt) khác Phần đọc được baogồm những yếu tố có thể đọc được, tác động vào thị giác con người nhưtên công ty, doanh nghiệp (ví dụ như: Gateway, PGrand, 3M ), tên sảnphẩm (555, Coca-Cola ), câu khẩu hiệu, đặc trưng Thông thường, ảnhthương hiệu kết hợp cả hai thành phần với nhau để tăng khả năng nhậndạng và truyền tải thông tin Một số ảnh thương hiệu lại sử dụng chínhhình ảnh cách điệu của phần đọc được để giảm bớt số lượng chi tiết trongảnh Phần còn lại chỉ sử dụng một trong hai thành phần chính để tạo nênảnh thương hiệu
-Màu sắc: Màu sắc thường đơn giản, dễ dàng nhận thấy và ghi nhớ.Thông thường khi thiết kế có thể ưu tiên vẽ màu trắng và đen, sau đó
Trang 15Hình 2.1: Ảnh thương hiệu màu
đến các màu sắc nổi bật có thể đặt cạnh nhau như vàng-đỏ, xanh lá-đỏ Thực tế số lượng màu sắc trong ảnh thương hiệu thường bị hạn chế để dễghi nhớ, đôi khi chỉ bao gồm các văn bản với hai màu đen và trắng Cácthương hiệu nổi tiếng chỉ sử dụng một hoặc hai màu cơ bản như màu vàngcủa Kodak, McDonanld, màu xanh da trời của IBM, hay màu đỏ của CocaCola
-Sự khác biệt: có những dấu hiệu đặc biệt gây ấn tượng thị giác mạnh,
dễ phân biệt Đây là chức năng quan trọng của biểu trưng, giúp phân biệtthương hiệu hay sản phẩm với thương hiệu hay sản phẩm cạnh tranh Sựkhác biệt cũng làm cho thương hiệu dễ đi vào tâm trí của khách hàng hơn.Thông thường, để tạo sự khác biệt, ảnh thương hiệu tránh sử dụng nhữnghình cơ bản, phổ biến và được dùng nhiều
-Hình dáng: thường tạo khả năng dễ chấp nhận, dễ suy diễn, đơn giản
và dễ nhớ Trong một khoảng thời gian quan sát ngắn là người xem cóthể hình dung lại đường nét biểu trưng trong trí nhớ Trong bối cảnh rấtnhiều sản phẩm cạnh tranh cùng được khuếch trương trên các phương tiệnthông tin đại chúng, biểu trưng của thương hiệu sẽ không được khách hàngbiết đến nếu nó phức tạp và khó nhớ, dù là bằng tên gọi, ký hiệu hay chữviết Hầu hết các thương hiệu nổi tiếng thế giới đều sử dụng những dấuhiệu thương hiệu rất đơn giản Các ví dụ thường thấy như Kodak sử dụngchữ K được viết cách điệu, McDonald sử dụng chữ M hình cánh cổng màuvàng, Nike sử dụng nét phết, IBM sử dụng tên thượng hiệu viết cách điệu
Trang 16-Khả năng thích nghi: có khả năng thích nghi trong các thị trườngthuộc khu vực khác nhau, các nền văn hoá hay ngôn ngữ khác nhau Trênthực tế, khách hàng ở các nước khác nhau, có nền văn hoá khác nhau vàngôn ngữ khác nhau, vì vậy họ thường có cách hiểu khác nhau đối với cáchình ảnh hay ký hiệu Do đó các biểu trưng thương mại quốc tế ít dùnghình ảnh mang ý nghĩa sẵn có theo một nền văn hoá hay ngôn ngữ nào
mà sử dụng những hình ảnh mới rồi gắn chúng với các liên tưởng về sảnphẩm
-Ý nghĩa: biểu thị được những nét đặc trưng cho sản phẩm hay cácchủ đề liên quan Thực tế là những biểu trưng có ý nghĩa tự thân về sảnphẩm lại thường không tạo nên cảm giác khác biệt Hơn nữa, sản phẩmngày nay thường quá phức tạp khiến tên gọi hay hình ảnh có ý nghĩa thìlại khó khác biệt, dễ nhớ và đảm bảo tính tượng trưng Cho nên trong thực
tế tính ý nghĩa này thường được tạo ra qua các liên tưởng về thương hiệuhơn là tự thân thương hiệu
Không gian màu là một mô hình toán học dùng để mô tả các màu sắctrong thực tế được biểu diễn dưới dạng số học Trong thực tế có rất nhiềukhông gian màu khác nhau được mô hình để sử dụng vào những mục đíchkhác nhau Các không gian màu cơ bản và sử dụng trong luận văn gồm có
hệ không gian màu RGB, HSV và CMYK
Không gian màu RGB
RGB là không gian màu rất phổ biến được dùng trong đồ họa máy tính
và nhiều thiết bị kĩ thuật số khác Ý tưởng chính của không gian màu này
là sự kết hợp của 3 màu sắc cơ bản : màu đỏ (R, Red), xanh lục (G, Green)
và xanh lơ (B, Blue) để mô tả tất cả các màu sắc khác
Nếu như một ảnh số được mã hóa bằng 24bit, trong đó 8 bit cho kênh R,
8 bit cho kênh G, 8 bit cho kênh B, thì mỗi kênh này màu này sẽ nhận giátrị từ 0-255 Với mỗi giá trị khác nhau của các kênh màu kết hợp với nhau
ta sẽ được một màu khác nhau, ví dụ: màu đen là sự kết hợp của các kênhmàu (R, G, B) với giá trị tương ứng (0, 0, 0) màu trắng có giá trị (255, 255,255), màu vàng có giá trị (255, 255, 0), màu tím đậm có giá trị (64, 0, 128) Không gian màu CMYK
CMYK là không gian màu được sử dụng phổ biến trong ngành côngnghiệp in ấn Ý tưởng cơ bản của hệ không gian này là dùng 4 màu sắc cơbản để phục vụ cho việc pha trộn mực in Trong thực tế, người ta dùng 3
Trang 17Hình 2.2: Không gian màu HSV
màu là C (Cyan, xanh lơ), M (Magenta, hồng sẫm), và Y (Yellow, vàng)
để biểu diễn các màu sắc khác nhau Nếu lấy màu hồng sẫm cộng với vàng
sẽ ra màu đỏ, màu sẫm kết hợp với xanh lơ sẽ cho xanh lam Sự kết hợpcủa 3 màu trên sẽ cho ra màu đen, tuy nhiên màu đen ở đây khôn phải làđen tuyệt đối và thường có độ tương phản lớn, nên trong ngành in, để tiếtkiệm mực in người ta thêm vào màu đen để in những chi tiết có màu đenthay vì phải kết hợp 3 màu sắc trên Và như vậy ta có hệ màu CMYK.Nguyên lý làm việc của hệ màu này như sau : Trên một nền giấy trắng,khi mỗi màu này được in lên sẽ loại bỏ dần đi thành phần màu trắng 3màu C, M, Y khác nhau in theo những tỉ lệ khác nhau sẽ loại bỏ đi thànhphần đó một cách khác nhau và cuối cùng cho ta màu sắc cần in Khi cần
in màu đen, thay vì phải in cả 3 màu người ta dùng màu đen để in lên.Nguyên lý này khác với nguyên lý làm việc của hệ RGB ở chỗ hệ RGB là
sự kết hợp của các thành phần màu, còn hệ CMYK là sự loại bỏ lẫn nhaucủa các thành phần màu
Không gian màu HSV
HSV là không gian màu được dùng nhiều trong việc chỉnh sữa ảnh, phântích ảnh và một phần của lĩnh vực thị giác máy tính Hệ không gian nàydựa vào 3 thông số sau để mô tả màu sắc H (Hue: màu sắc), S (Saturation,
độ đậm đặc, sự bảo hòa), V (value, giá trị cường độ sáng)
Không gian màu này thường được biểu diễn dưới dạng hình trụ hoặchình nón Theo đó, đi theo vòng tròn từ 0-360 độ là trường biểu diễn màusắc (Hue) Trường này bắt đầu từ màu đỏ đầu tiên (red primary) tới màuxanh lục đầu tiên (green primary) nằm trong khoảng 0-120 độ, từ 120-240
độ là màu xanh lục tới xanh lơ (green primary blue primary) Từ 240
-360 là từ màu đen tới lại màu đỏ
Theo như cách biểu diễn không gian màu theo hình trụ như trên, đi từgiá trị độ sáng (V) được biểu diễn bằng cách đi từ dưới đáy hình trụ lên
và nằm trong khoảng từ 0 -1 Ở đáy hình trụ V có giá trị là 0, là tối nhất
Trang 18và trên đỉnh hình trụ là độ sáng lớn nhất (V = 1) Đi từ tâm hình trụ ramặt trụ là giá trị bão hòa của màu sắc (S) S có giá trị từ 0 - 1 0 ứng vớitâm hình trụ là chỗ mà màu sắc là nhạt nhất S = 1 ở ngoài mặt trụ, lànơi mà giá trị màu sắc là đậm đặc nhất Như vậy với mỗi giá trị (H, S, V)
sẽ cho ta một màu sắc mà ở đó mô tả đầy đủ thông tin về màu sắc, độđậm đặc và độ sáng của màu đó
Biểu đồ Histogram (còn được gọi là biểu đồ phân bố tần số) là biểu đồphân bố giá trị mức xám của một ảnh hoặc một vùng ảnh số Nhìn vàobiểu đồ histogram chúng ta có thể đánh giá về sắc thái và mức độ tươngphản của bức ảnh Biểu đồ này được sử dụng rộng rãi trong các ứng dụng
đồ họa và các thiết bị thu hình
• Histogram của một ảnh số với mức xám thuộc dải xám {0, L − 1} làh(rk) = nk với rk là mức xám thứ k, nk là số điểm ảnh có cùng mứcxám thứ k
• Biểu đồ Histogram có trục tung Oy biểu diễn số điểm ảnh của mứcxám nk và trục hoành Ox biểu diễn mức xám rk
• Xác suất của mức xám: p(rk) = nk/N với N là tổng số điểm ảnhTương tự với ảnh màu, histogram là biểu đồ cột thể hiện phân bố tần sốcủa các màu cơ bản được gộp lại với nhau
Phân cụm trên biểu đồ histogram: Là quá trình gộp các các pixel
có mức xám kề nhau trên biểu đồ histogram về cùng một cụm
Ngưỡng (Thresholding): Ranh giới phân chia giữa các cụm với nhau.Giả sử histogram h(rk) được chia làm hai cụm C1 và C2, ngưỡng phân chiagiữa hai cụm có giá trị là t, việc xác định điểm ảnh có mức xám rk thuộccụm nào dựa theo công thức:
IF rk < t THEN k ∈ C1
ELSE k ∈ C2
Hình 2.3 mô tả sự phân chia histogram thành hai cụm C1 và C1 sửdụng ngưỡng có giá trị k
Là quá trình biến đổi ảnh màu (điểm ảnh nhiều kênh) sang ảnh mứcxám Có rất nhiều các nghiên cứu về việc biến đổi từ ảnh màu sang ảnhmức xám với mục đích khác nhau Nguyên tắc chung các phương pháp này
Trang 19Hình 2.3: Phân cụm phân ngưỡng trên Histogram
là đưa yếu tố độ sáng (luminance) của ảnh màu về mức xám tương ứngcủa ảnh đích Một số phương pháp chuyển đổi thông dụng có thể kể đến:CIE 1931
Y = 0.2121R + 0.7152G + 0.114B (2.1)Trong đó Y là mức xám của ảnh đích
Trang 20Hình 2.4: Ảnh gốc và vùng ảnh sau phân đoạn
vector đặc trưng riêng (feature vectors) của nó, giúp chúng ta phân biệtđược nó với các vùng xung quanh Hình 2.4 minh họa ảnh gốc và các vùngảnh sau khi được phân đoạn Trong hầu hết các ứng dụng của lĩnh vực xử
lý ảnh, phân đoạn ảnh luôn đóng một vai trò quan trọng và thường là bướctiền xử lý đầu tiên trong toàn bộ quá trình trước khi thực hiện các thaotác khác ở mức cao hơn như nhận dạng Đối với ảnh màu thương hiệu, việcphân đoạn giúp ta có thể tách vùng ký tự ra khỏi nền hay họa tiết kháccủa ảnh, từ đó nâng cao chất lượng đầu vào cho các bước tiếp theo
Có rất nhiều kỹ thuật phân đoạn ảnh, nhưng nhìn chung chúng ta cóthể chia thành sáu nhóm sau:
• Các phương pháp dựa vào hình dạng của histogram (HistogramShape-Based Thresholding Methods): Chia ngưỡng cường độ và gánđiểm ảnh vào từng lớp khác nhau Cách giải quyết dựa trên his-togram của ảnh Ưu điểm của các phương pháp này là thời gian thựcthi ngắn, và dùng cho phân đoạn sơ bộ Tuy nhiên phương pháp nàylại không thích hợp cho ảnh nhiễu
• Các phương pháp dựa vào việc chia nhóm (Clustering-Based olding Methods): Dựa trên cường độ điểm ảnh nhưng xét thêm quan
Thresh-hệ giữa các điểm ảnh lân cận khi phân nhóm, và cập nhật giá trị đạidiện mỗi nhóm
• Các phương pháp dựa vào entropy (Entropy-Based ThresholdingMethods)
Trang 21• Các phương pháp dựa vào thuộc tính giống nhau (ThresholdingBased on Attribute Similarity).
• Các phương pháp căn cứ vào không gian (Spatial Thresholding ods)
Meth-• Các phương pháp ngưỡng thích ứng cục bộ (Locally Adaptive olding)
Phương pháp Niblack : Đây là phương pháp xác định ngưỡng cục bộ dựatrên việc tính toán giá trị trung bình và độ lệch chuẩn cục bộ
TN iblack = m + k
s1
N P
X(pi − m)2 (2.5)
Phương pháp của Sauvola: Cải tiến của phương pháp Niblack, việc tínhtoán ngưỡng dựa trên độ lệch chuẩn
TSauvola = m ∗ (1 − k ∗ (1 − s
Phương pháp của Wolf : Phương pháp này khắc phục các nhược điểmcủa phương pháp Sauvola, bằng cách chuẩn hóa độ tương phản và giá trịmức xám trung bình
TW olf = (1 − k) ∗ m + k ∗ M + ∗ s
R(m − M ) (2.7)Phương pháp Otsu: Đây là phương pháp xác định ngưỡng toàn cục dựavào histogram để phân chia các điểm ảnh vào hai lớp tiền cảnh (đối tượng)
và nền sao cho “khoảng cách” giữa các điểm ảnh trong mỗi lớp là nhỏ nhất
σb2(t) = σ2 − σw2(t) = w1(t)w2(t)(µ1(t) − µ2(t))2 (2.8)Phương pháp watershed phân cấp: Biến đổi watershed là phương phápphân đoạn phổ biến xuất phát từ các phương pháp hình thái học Biến đổinày đơn giản và có thể mô tả trực quan như sau: Xem ảnh là vùng địa hình
3 chiều, trong đó mỗi điểm ảnh đều có độ cao thể hiện tương ứng giá trịmức xám của nó Cho mưa rơi trên vùng địa hình (ảnh xám đang xét) thìwatershed là đường ngăn cách tạo thành hồ chứa nước (catchment basin)tương đương với đối tượng được phân đoạn trên ảnh Thuật giải watersheddựa trên khoảng cách được thực hiện như sau:
Trang 221 Chuyển ảnh I từ sắc xám về đen trắng Ib với ngưỡng Ir cho trước.
2 Tính giá trị mỗi điểm ảnh trong ảnh là khoảng cách Euclide Trong
đó giá trị mỗi điểm ảnh là khoảng cách Euclide gần nhất đến giá trịđiểm ảnh khác zero trong ảnh Ib
3 Sắp xếp các điểm ảnh trong ảnh theo giá trị khoảng cách tăng dần
4 Tất cả điểm ảnh có giá trị khoảng cách lớn nhất Dmax được gán nhãnduy nhất Lmax và xem là các marker (có thể là một điểm ảnh hay lànhóm các điểm ảnh kề nhau) và được lưu trong ảnh marker
5 Xét các điểm ảnh có khoảng cách Dnext (giá trị lớn kế sau Dmax).Nếu có các điểm ảnh kề Lmax thì được sáp nhập vào Lmax Các điểmảnh (hay nhóm các điểm ảnh kề nhau) chưa được sáp nhập sẽ tạothành các marker mới với nhãn mới
6 Dmax = Dnext
7 Dnext= Giá trị khoảng cách lớn kế tiếp
8 Lặp lại các bước B5, B6, B7 cho đến khi Dmax bằng Dmin
Tesseract là một công cụ OCR mã nguồn mở phổ biến và có độ chínhxác cao Ban đầu nó được nghiên cứu và phát triển bởi HP trong giai đoạn1984-1994 Nó được biết như là một phần mềm thêm vào cho dòng sảnphẩm máy quét của HP Trong giai đoạn này, nó vẫn còn rất sơ khai và chỉđược dùng để cải thiện chất lượng của các bản in Nó được phát triển chođến năm 1994 thì ngưng Sau khi được cải thiện độ chính xác, nó được HPđưa vào cuộc kiểm tra thường niên về độ chính xác của các công cụ OCR
và nó đã thể hiện được sự vượt trội của mình Kể từ năm 2006, nó đã đượccải thiện rộng rãi bởi Google, phát hành dưới Apache license, version 2.0.Tesseract có thể hoạt động trên Linux, Windows và Mac OSX Nóchủ yếu cung cấp các chức năng nhận dạng như tìm kiếm ký tự và phândòng, thống kê Tuy nhiên nó không hỗ trợ phân tích cấu trúc văn bảntheo lớp, và giao diện người sử dụng Điểm mạnh khác của Tesseract
là nó có hệ dữ liệu nhận dạng cho nhiều ngôn ngữ, hiện nay nó hỗ trợhơn 100 ngôn ngữ và các biến thể Chúng ta có thể tải về tại địa chỉhttp://code.google.com/p/tesseract-ocr Phiên bản Tesseract sử dụng trongthực nghiệm của luận văn này là phiên bản v3.01, phát hành tháng 11,2011
Hình 2.5 mô tả cấu trúc tổng quát của Tesseract, trong đó tạo ngưỡngthích nghi giúp loại bỏ các yếu tố nền của hình ảnh (ví dụ như ánh sáng,
Trang 23Hình 2.5: Cấu trúc của Tesseractbóng, ) và giúp phân tích các pixel thành ảnh nhị phân Nhận dạng đượctiến hành qua một quá trình với hai lần nhận dạng Lần thứ nhất: nhận
ra lần lượt từng từ Mỗi từ có nghĩa là đạt yêu cầu và được thông qua vàđược lưu vào dữ liệu Lần thứ hai, khi phân loại thích ứng, công cụ sẽ nhậndạng lại các từ không được nhận dạng tốt ở lần trước đó
• Xác định dòng: Mục đích của bước này là nhận dạng các dòng củacác hình ảnh bị nghiêng, giúp giảm sự mất thông tin khi nhận dạngảnh nghiêng Các bộ phận quan trọng của quá trình này là lọc dãymàu (còn được gọi là blobs) và xây dựng dòng Bước này cũng giúploại bỏ các văn bản có drop-cap
• Thiết lập dòng cơ sở: Khi dòng văn bản được tìm thấy, các dòng
cơ sở được thiết lập chính xác hơn bằng cách sử dụng một đường cótên là spline toàn phương (là dòng mà được kết hợp từ nhiều đoạn)
Nó giúp Tesseract xử lý các trang có đường cơ sở là đường cong Cácdòng cơ sở được thiết lập bằng cách phân vùng các blobs thành cácnhóm có thể thay thế thích hợp liên tục trong đường cơ sở thẳngban đầu Một spline toàn phương được thiết lập cho phân vùng dàyđặc nhất, (giả định là đường cơ sở) của một hình có phương ít nhất.Spline có lợi thế là tính toán ổn định, nhược điểm là sự gián đoạn cóthể xảy ra khi nhiều phân đoạn spline được yêu cầu
• Cắt nhỏ từ:Tesseract sẽ xác định xem có các ký tự dính với nhautrong một từ hay không Nếu có nó sẽ cắt nhỏ các ký tự ra thànhcác ký tự riêng lẻ
• Nhận dạng khoảng cách giữa chữ hoặc số: Xác định khoảngcách giữa các số hoặc giữa các chữ là một vấn đề khá phức tạp
Trang 24Tesseract giải quyết những vấn đề này bằng cách đo khoảng cáchtrong một phạm vi hạn chế theo chiều dọc giữa dòng cơ sở và dòngtrung bình.
• Đào tạo dữ liệu nhận dạng: Ngoài việc cung cấp dữ liệu nhậndạng cho ngôn ngữ thông dụng, Tesseract cho phép xây dựng dữ liệunhận dạng theo mục đích khác nhau.Đầu vào của quá trình là tậpảnh các kí tự cần nhận dạng Sau khi chạy quá trình huấn luyện,Tessract tập hợp các kết quả và thêm dữ liệu từ điển vào thư mục
"/tessdata", dữ liệu này có thể cung cấp cho người sử dụng khác dễdàng
Trang 25Các bước biến đổi trong hình 3.1 sẽ tương ứng với các pha sau trongluận văn:
• Pha phân đoạn: bao gồm hai bước nhỏ là chuyển đổi sang ảnh mứcxám và phân đoạn phân cấp Trong đó bước phân đoạn phân cấpđược cải tiến để tự động tính số lượng ngưỡng tối ưu cho hệ nhậndạng
• Pha nhận dạng: máy nhận dạng Tesseract được đề xuất cho bướcnày
mức xám
Mục tiêu của quá trình này ngoài giảm số chiều dữ liệu trước khi đưavào phân cụm, việc chuyển đổi còn đảm bảo các điểm ảnh có màu sắctương tự nhau được mã hóa tương đương nhau, điều đó có nghĩa mức xámcủa các điểm ảnh đích giống nếu ở ảnh gốc chúng có màu sắc giống nhau.Thuật toán của Mark D Fairchild (1991) được thiết kế để tăng cường độtương phản một cách rõ ràng, bằng cách điều chỉnh độ sáng (luminance)trong toàn bộ ảnh vào từng điểm ảnh, từ đó nổi bật màu sắc dễ nhận biếtbằng mắt người khi xếp cạnh nhau Việc sử dụng hiệu ứng màu sắc rất hay
sử dụng trong ảnh màu thương hiệu, do vậy thuật toán của Mark tận dụngđược yếu tố này trong quá trình chuyển đổi Hình 3.3 so sánh ảnh đầu ra
Trang 26Hình 3.1: Sơ đồ hệ nhận dạng ký tự cho ảnh màu thương hiệu
khi áp dụng phương pháp Mark và một số phương pháp thông dụng kháctrên tập ảnh mẫu
Một số ưu điểm khi áp dụng phương pháp của Mark có thể liệt kê nhưsau:
• Liên tục (Continuous mapping): Hàm chuyển đổi từ ảnh màusang ảnh mức xám là một hàm liên tục, giúp cho các đường nét sauchuyển đổi không bị đứt đoạn, chẳng hạn như các đường viền haybao đóng
• Thống nhất (Global consistency): Nếu hai điểm ảnh có cùngmàu sắc ở ảnh gốc, chúng sẽ có cùng mức xám ở ảnh đích Điều nàygiúp tạo mối liên hệ trong toàn ảnh và tránh sai lệch mức xám
• Bảo toàn mức xám (Grayscale preservation): Nếu một điểmảnh trong ảnh gốc có màu xám, nó sẽ có mức xám tương tự trongảnh đích Việc này được thực hiên bằng phân tích mối quan hệ giữamức xám và giá trị độ sáng
• Thứ tự độ sáng (Luminance ordering): Khi một chuỗi điểm ảnhcùng màu (Hue) và độ bão hòa (Saturation), còn độ sáng tăng dần,thì thứ tự mức xám chuỗi điểm ảnh ở ảnh đích được bảo tồn
• Thứ tự màu (Hue ordering): Khi một chuỗi điểm ảnh cùng độsáng (Luminance) và độ bão hòa (Saturation), còn giá trị màu (Hue)
Trang 27Hình 3.2: Chuyển đổi ảnh màu sang ảnh mức xám; (a): ảnh gốc, (b) ảnh
độ sáng, (c) ảnh mức xám áp dụng phương pháp của Rasche, (d) ảnh mứcxám áp dụng phương pháp của Mark
tăng dần, thì thứ tự mức xám chuỗi điểm ảnh ở ảnh đích được bảotồn
• Thứ tự độ bão hòa (Saturation ordering): Khi một chuỗi điểmảnh cùng giá trị độ sáng (Luminance) và màu (Hue), còn giá trị độbão hòa tăng dần, thì thứ tự mức xám chuỗi điểm ảnh ở ảnh đíchđược bảo tồn
Hình 3.3 mô tả một số mẫu điển hình, Hình 3.4 mô tả một số mẫu ảnhsau khi chuyển sang ảnh mức xám với phương pháp của Mark
Trang 28Hình 3.3: Ảnh màu thương hiệu
Hình 3.4: Ảnh mức xám sau khi biến đổi sử dụng phương pháp của Mark
Trang 293.2 Pha 2: Phân đoạn ảnh phân cấp
Sau khi ảnh màu thương hiệu được đưa về ảnh mức xám, nó được
hệ thống chuyển sang quá trình phân đoạn ảnh phân cấp (hierarchicalsegmentation), nhằm tách các chữ có màu sắc tương đương nhau ra cáclớp riêng biệt Có nhiều phương pháp được áp dụng trong quá trình này
pháp này cho kết quả chưa cao khi áp dụng cho ảnh màu thương hiệu, dotận dụng chưa tốt yếu tố ánh sáng trong bức ảnh sau khi áp dụng thuậttoán của Mark Ở quá trình này tôi đề xuất thuật toán phân cụm phâncấp của Arifin Arifin (2006) trên histogram để khắc phục nhược điểm vừanêu, đồng thời đưa ra cải tiến tính số lượng cụm một cách tự động chophương pháp này Thuật toán phân cụm phân cấp của Arifin dùng ngưỡng(threholding - đề cập trong mục2.3) để phân chia và xác định giới hạn củacác cụm với nhau
Giả sử h(z), z = 0, 1, , L − 1 là biểu đồ histogram của ảnh, xác suấtmức xám z trên toàn ảnh làp(z) = h(z)N (N : kích thước ảnh theo pixel) Giátrị P (Ck) của cụm Ck được tính như sau:
P (Ck) =
TkXz=Tk1−1+1
Khi đó khoảng cách giữa hai cụm Dist (Ck1, Ck2) được định nghĩa:
Dist (Ck1, Ck2) = σI2(Ck1, Ck2) σ2A(Ck1, Ck2) (3.2)Trong đó:
σI2(C1, C2): phương sai giữa hai cụm C1 và C2
h(z − M (Ck1, Ck2))2p (z)
i
(3.4)