Báo cáo chuyển đổi file ảnh sang file văn bản

Rút trích văn bản từ tập tin hình ảnh đang là một trong những bài toán quan trọng trong xử l‎ ý ảnh hiện nay. Trong bài báo này, chúng tôi bước đầu tìm hiểu các phương pháp trích lọc văn bản từ hình ảnh của một số công trình liên quan đồng thời cũng tìm hiểu, hiệu chỉnh công cụ mã nguồn mở Tesseract để thực hiện trích lọc văn bản tiếng Anh từ tập tin hình ảnh. Kết quả thử nghiệm bước đầu cho thấy công cụ này rút trích khá tốt các văn bản từ tập tin hình ảnh chứa văn bản được đánh máy.

Trang 1

Xin gửi lời cảm ơn chân thành đến gia đình, và bè bạn vì đã luôn là nguồnđộng viên to lớn, giúp đỡ em vượt qua những khó khăn trong suốt quá trình học tập.

Mặc dù đã cố gắng hoàn thiện đồ án với tất cả sự nỗ lực của bản thân, nhưngchắc chắn không thể tránh khỏi những thiếu sót Kính mong quý Thầy Cô tận tìnhchỉ bảo

Một lần nữa, em xin chân thành cảm ơn và luôn mong nhận được sự đónggóp quý báu của tất cả mọi người

Hà Nội, tháng 12 năm 2014Sinh viên thực hiện

Trang 2

NHẬN XÉT

···

Trang 3

MỤC LỤC

DANH MỤC HÌNH

DANH MỤC BẢNG

Trang 4

CHƯƠNG 1: TỔNG QUAN VỀ HỌC MÁY 1.1 Giới Thiệu Về Học Máy

Học máy, có tài liệu gọi là Máy học, (tiếng Anh: machine learning) là mộtlĩnh vực của trí tuệ nhân tạo liên quan đến việc phát triển các kĩ thuật cho phép cácmáy tính có thể "học" Cụ thể hơn, học máy là một phương pháp để tạo ra cácchương trình máy tính bằng việc phân tích các tập dữ liệu Học máy có liên quanlớn đến thống kê, vì cả hai lĩnh vực đều nghiên cứu việc phân tích dữ liệu, nhưngkhác với thống kê, học máy tập trung vào sự phức tạp của các giải thuật trong việcthực thi tính toán Nhiều bài toán suy luận được xếp vào loại bài toán NP-khó, vìthế một phần của học máy là nghiên cứu sự phát triển các giải thuật suy luận xấp xỉ

mà có thể xử lí được Học máy có tính ứng dụng rất cao bao gồm máy truy tìm dữliệu, chẩn đoán y khoa, phát hiện thẻ tín dụng giả, phân tích thị trường chứngkhoán, phân loại các chuỗi DNA, nhận dạng tiếng nói và chữ viết, dịch tự động,chơi trò chơi và cử động rô-bốt (robot locomotion)

Học máy có liên quan lớn đến thống kê, vì cả hai lĩnh vực đều nghiên cứuviệc phân tích dữ liệu, nhưng khác với thống kê, học máy tập trung vào sự phức tạpcủa các giải thuật trong việc thực thi tính toán

Tương tác với con người

Một số hệ thống học máy nỗ lực loại bỏ nhu cầu trực giác của con ngườitrong việc phân tích dữ liệu, trong khi các hệ thống khác hướng đến việc tăng sựcộng tác giữa người và máy Không thể loại bỏ hoàn toàn tác động của con người vìcác nhà thiết kế hệ thống phải chỉ định cách biểu diễn của dữ liệu và những cơ chếnào sẽ được dùng để tìm kiếm các đặc tính của dữ liệu Học máy có thể được xem làmột nỗ lực để tự động hóa một số phần của phương pháp khoa học Một số nhànghiên cứu học máy tạo ra các phương pháp bên trong các khuôn khổ của thống kêBayes

1.2 Các Loại Giải Thuật

Các thuật toán học máy được phân loại theo kết quả mong muốn của thuật

Trang 5

Học có giám sát trong đó, thuật toán tạo ra một hàm ánh xạ dữ liệu vào tớikết quả mong muốn Một phát biểu chuẩn về một việc học có giám sát là bàitoánphân loại: chương trình cần học (cách xấp xỉ biểu hiện của) một hàm ánh xạ mộtvector [X1, X2, , Xn] tới một vài lớp bằng cách xem xét một số mẫu dữ liệu kếtquả của hàm đó.

• Học không giám sát mô hình hóa một tập dữ liệu, không có sẵn các

ví dụ đã được gắn nhãn

• Học nửa giám sát kết hợp các ví dụ có gắn nhãn và không gắn nhãn

để sinh một hàm hoặc một bộ phân loại thích hợp

• Học tăng cường trong đó, thuật toán học một chính sách hành độngtùy theo các quan sát về thế giới Mỗi hành động đều có tác động tớimôi trường, và môi trường cung cấp thông tin phản hồi để hướng dẫncho thuật toán của quá trình học

• Chuyển đổi tương tự học có giám sát nhưng không xây dựng hàmmột cách rõ ràng Thay vì thế, cố gắng đoán kết quả mới dựa vào các

dữ liệu huấn luyện, kết quả huấn luyện, và dữ liệu thử nghiệm có sẵntrong quá trình huấn luyện

• Học cách học trong đó thuật toán học thiên kiến quy nạp của chínhmình, dựa theo các kinh nghiệm đã gặp

Phân tích hiệu quả các thuật toán học máy là một nhánh của ngành thống kê,được biết với tên lý thuyết học điện toán Các chủ đề về học máy

• Mô hình hóa các hàm mật độ xác suất điều kiện: hồi quy và phân loại

o Mạng nơ-ron

o Cây quyết định

o Lập trình biểu thức gen

o Lập trình di truyền

o Hồi quy quá trình Gauss

o Phân tích biệt thức tuyến tính

Trang 6

o Thuật toán cực đại kì vọng

o Các mô hình đồ họa gồm mạng Bayes và mạng Markov

o Ánh xạ topo phát sinh

• Các kỹ thuật suy luận xấp xỉ đúng:

o Chuỗi Markov phương pháp Monte Carlo

o Phương pháp biến thiên

• Tối ưu hóa: hầu hết các phương pháp trên đều sử dụng tối ưu hóa hoặc là cácthể hiện của các thuật toán tối ưu hóa

• Phân tích thị trường chứng khoán

• Phân loại các chuỗi DNA, nhận dạng tiếng nói và chữ viết, dịch tự động,chơi trò chơi và cử động rô-bốt (robot locomotion)

1.4 Các Ví Dụ Học Máy

 Bài toán lọc các trang web theo sở thích của một người dung.

T: Dự án (để lọc) xem những trang web nào mà một người dùng cụ thể thíchđọc

P: Tỷ lệ (%) các trang web được dự đoán đúng

E: Một tập các trang web mà người dùng đã chỉ định là thích đọc và một tậpcác trang web mà anh ta chỉ định là không thích đọc

Trang 7

Hình 1.1: Lọc các trang web theo sở thích

 Bài toán phân loại các trang web theo các chủ đề.

T: Phân loại các trang web theo các chủ đề đã định trước

P: Tỷ lệ (%) các trang web được phân loại chính xác

E: Một tập các trang web, trong đó mỗi trang web gắn với một chủ đề

Hình 1.2: Phân loại các trang web theo chủ đề

 Bài toán nhận dạng chữ viết tay.

T: Nhận dạng và phân loại các từ trong các ảnh chữ viết tay

P: Tỷ lệ (%) các từ được nhận dạng và phân loại đúng

E: Một tập các ảnh chữ viết tay, trong đó mỗi ảnh được gắn với một địnhdanh của một từ

Trang 8

Hình 1.3: Nhận dạng chữ viết tay

 Bài toán robot lái xe tự động.

T: Robot (được trang bị các camera quan sát) lái xe tự động trên đường caotốc

P: Khoảng cách trung bình mà robot có thể lái xe tự động trước khi xảy ralỗi

E: Một tập các ví dụ được ghi lại khi quan sát một người lái xe trên đườngcao ốc, trong đó mỗi ví dụ gồm một chuỗi các ảnh và các lệnh điều khiển

Hình 1.4: Robot lái xe tự động

1.5 Học Giám Sát

Học có giám sát là một kĩ thuật của ngành học máy để xây dựng một hàm(function) từ dữ liệu huấn luyện Dữ liệu huấn luyện bao gồm các cặp gồm đốitượng đầu vào (thường dạng vec-tơ), và đầu ra mong muốn Đầu ra của một hàm cóthể là một giá trị liên tục (gọi là hồi qui), hay có thể là dự đoán một nhãn phân loạicho một đối tượng đầu vào (gọi là phân loại) Nhiệm vụ của chương trình học có

Trang 9

giám sát là dự đoán giá trị của hàm cho một đối tượng bất kì là đầu vào hợp lệ, saukhi đã xem xét một số ví dụ huấn luyện (nghĩa là, các cặp đầu vào và đầu ra tươngứng) Để đạt được điều này, chương trình học phải tổng quát hóa từ các dữ liệu sẵn

có để dự đoán được những tình huống chưa gặp phải theo một cách "hợp lí" (xemthiên kiến qui nạp - inductive bias)

So sánh với học không có giám sát

Học có giám sát có thể tạo ra 2 loại mô hình Phổ biến nhất, học có giám sáttạo ra một mô hình toàn cục (global model) để ánh xạ đối tượng đầu vào đến đầu ramong muốn Tuy nhiên, trong một số trường hợp, việc ánh xạ được thực hiện dướidạng một tập các mô hình cục bộ (như trong phương pháp lập luận theo tình huống(case-based reasoning) hay giải thuật láng giềng gần nhất)

Để có thể giải quyết một bài toán nào đó của học có giám sát (ví dụ: học đểnhận dạng chữ viết tay) người ta phải xem xét nhiều bước khác nhau:

Xác định loại của các ví dụ huấn luyện Trước khi làm bất cứ điều gì, người

kĩ sư nên quyết định loại dữ liệu nào sẽ được sử dụng làm ví dụ Chẳng hạn, đó cóthể là một kí tự viết tay đơn lẻ, toàn bộ một từ viết tay, hay toàn bộ một dòng chữviết tay

Thu thập tập huấn luyện Tập huấn luyện cần đặc trưng cho thực tế sử dụngcủa hàm chức năng Vì thế, một tập các đối tượng đầu vào được thu thập và đầu ratương ứng được thu thập, hoặc từ các chuyên gia hoặc từ việc đo đạc tính toán

Xác định việc biểu diễn các đặc trưng đầu vào cho hàm chức năng cần tìm

Sự chính xác của hàm chức năng phụ thuộc lớn vào cách các đối tượng đầu vàođược biểu diễn Thông thường, đối tượng đầu vào được chuyển đổi thành một vec-

tơ đặc trưng, chứa một số các đặc trưng nhằm mô tả cho đối tượng đó Số lượng cácđặc trưng không nên quá lớn, do sự bùng nổ tổ hợp (curse of dimensionality);nhưng phải đủ lớn để dự đoán chính xác đầu ra

Xác định cấu trúc của hàm chức năng cần tìm và giải thuật học tương ứng

Ví dụ, người kĩ sư có thể lựa chọn việc sử dụng mạng nơ-ron nhân tạo hay câyquyết định

Trang 10

Hoàn thiện thiết kế Người kĩ sư sẽ chạy giải thuật học từ tập huấn luyện thuthập được Các tham số của giải thuật học có thể được điều chỉnh bằng cách tối ưuhóa hiệu năng trên một tập con (gọi là tập kiểm chứng -validation set) của tập huấnluyện, hay thông qua kiểm chứng chéo (cross-validation) Sau khi học và điều chỉnhtham số, hiệu năng của giải thuật có thể được đo đạc trên một tập kiểm tra độc lậpvới tập huấn luyện.

1.6 Học Không Giám Sát

Học không có giám sát (tiếng Anh là unsupervised learning) là một phươngpháp của ngành học máy nhằm tìm ra một mô hình mà phù hợp với các quan sát

Nó khác biệt với học có giám sát ở chỗ là đầu ra đúng tương ứng cho mỗi đầu vào

là không biết trước Trong học không có giám sát, một tập dữ liệu đầu vào được thuthập Học không có giám sát thường đối xử với các đối tượng đầu vào như là mộttập các biến ngẫu nhiên Sau đó, một mô hình mật độ kết hợp sẽ được xây dựng chotập dữ liệu đó

Học không có giám sát có thể được dùng kết hợp với suy diễn Bayes(Bayesian inference) để cho ra xác suất có điều kiện (nghĩa là học có giám sát) chobất kì biến ngẫu nhiên nào khi biết trước các biến khác

Học không có giám sát cũng hữu ích cho việc nén dữ liệu: về cơ bản, mọigiải thuật nén dữ liệu hoặc là dựa vào một phân bố xác suất trên một tập đầu vàomột cách tường minh hay không tường minh

Một dạng khác của học không có giám sát là phân mảnh (data clustering), nóđôi khi không mang tính xác suất Xem thêm phân tích khái niệm hình thức (formalconcept analysis)

Trang 11

CHƯƠNG 2: BỘ NHẬN DẠNG KÝ TỰ QUANG HỌC TESSERACT 2.1 Giới Thiệu Về Bộ Nhận Dạng Ký Tự Quang Học Tesseract

2.1.1 Lịch sư

Tesseract là một phần mềm mã nguồn mở và ban đầu nó được nghiên cứu vàphát triển tại hãng Hewlett Packet (HP) trong khoảng từ năm 1984 đến 1994 Vàonăm 1995, Tesseract nằm trong nhóm ba bộ nhận dạng OCR đứng đầu về độ chínhxác khi tham gia trong hội nghị thường niên của tổ chức UNLV

Lúc mới khởi động thì Tesseract là một dự án nghiên cứu tiến sĩ tại phòng thínghiệm HP ở Bristol và đã được tích hợp vào trong các dòng máy quét dạng phẳngcủa hãng dưới dạng các add-on phần cứng hoặc phần mềm Nhưng thực tế dự ánnày đã thất bại ngay từ trong trứng nước vì nó chỉ làm việc hiệu quả trên các tài liệu

in có chất lượng tốt

Sau đó, dự án này cùng với sự cộng tác của bộ phận máy quét HP ở bangColorado đã đạt được một bước tiến quan trọng về độ chuẩn xác khi nhận dạng vàvượt lên nhiều bộ nhận dạng OCR thời đó nhưng dự án đã không thể trở thành sảnphẩm hoàn chỉnh vì độ cồng kềnh và phức tạp Sau đó, dự án được đưa về phòng thínghiệm của HP để nghiên cứu về cách thức nén và tối ưu mã nguồn Dự án tậptrung cải thiện hiệu năng làm việc của Tesseract dựa trên độ chính xác đã có Dự ánnày được hoàn tất vào cuối năm 1994 và sau đó vào năm 1995 bộ Tesseract đượcgửi đi tham dự hội nghị UNLV thường niên về độ chính xác của OCR, vượt trộihơn hẳn so với các phần mềm OCR lúc bấy giờ Tuy nhiên, Tesseract đã không thểtrở thành một sản phẩm thương mại hoàn chỉnh được và vào năm 2005, HP đãchuyển Tesseract sang mã nguồn mở và được hãng Google tài trợ Tesseract chođến nay vẫn được nhiều nhà phát triển cộng tác và tiếp tục hoàn thiện Phiên bảnmới nhất của bộ nhận dạng Tesseract là phiên bản 3.0.1

Phần mềm thương mại Bộ nhận dạng Tesseract

Hỗ trợ hơn 100 ngôn ngữ Hỗ trợ trên 40 ngôn ngữ và đang tăng dần

Có giao diện đồ họa Không hỗ trợ giao diện đồ họa (dùng

Trang 12

Command Line để gõ lệnh)Hầu hết chỉ hỗ trợ trên nền tảng

Windows

Hỗ trợ trên Windows, Linux, Mac OS

Độ chính xác cao mới đây Độ chính xác cao từ năm 1995

Chi phí khá cao 130$ - 500 $ Hoàn toàn miễn phí (mã nguồn mở)

Bảng 2.1: So sánh phần mềm thương mại và Tesseract

Vì Tesseract hiện nay là bộ thư viện mã nguồn mở hoàn toàn miễn phí nêntrên thế giới đã có nhiều phần mềm nhận dạng ký tự quang học ra đời dựa trên bộTesseract với giao diện và các tính năng dễ sử dụng hơn so với giao diện đơn giảncủa Tesseract ban đầu như: VietOCR cho nhận dạng tiếng Việt, Tessenet2 bộ nhậndiện Tesseract trên nền Net của Microsoft, giao diện Java (Java GUI frontend) choTesseract…

Ngôn ngữ Tổng số ký tự

(triệu)

Tổng số từ (triệu)

Lỗi ký tự (%)

Bảng 2.2: Độ chính xác của Tesseract trên một số ngôn ngữ

2.1.2 Kiến trúc hoạt động

Đầu tiên, bộ nhận diện Tesseract sẽ nhận đầu vào là ảnh màu hoặc ảnh mức

xám Ảnh này sẽ được chuyển đến bộ phận phân tích ngưỡng thích ứng (adaptive thresholding) để cho ra ảnh nhị phân Vì trước kia HP cũng đã phát triển bộ phận

phân tích bố cục trang nên Tesseract không cần phải có thành phần đó và được thừa

Trang 13

hưởng từ HP Vì thế mà Tesseract nhận đầu vào là một ảnh nhị phân với các vùng

đa giác tùy chọn đã được xác định

Ban đầu, Tesseract được thiết kế làm việc trên ảnh nhị phân sau đó chươngtrình được cải tiến để có thể nhận dạng cả ảnh màu và ảnh mức xám Chính vì thế

mà cần bộ phận phân tích ngưỡng thích ứng để chuyển đổi ảnh màu / ảnh mức xámsang ảnh nhị phân

Sau đó quá trình nhận dạng sẽ được thực hiện tuần tự theo từng bước

• Bước đầu tiên là phân tích các thành phần liên thông Kết quả củabước này sẽ là tạo ra các đường bao quanh các ký tự

• Bước thứ hai là tìm hàng và tìm từ, kết quả của bước này cũng giốngnhư bước trên sẽ tạo ra các vùng bao quanh các hàng chữ và ký tựchứa trong vùng văn bản

• Bước tiếp theo sẽ là nhận dạng từ Công đoạn nhận dạng từ sẽ được

xử lý qua 2 giai đoạn Giai đoạn đầu sẽ là nhận dạng các từ theo lượt.Các từ thỏa yêu cầu trong giai đoạn này sẽ được chuyển sang bộ phân

loại thích ứng (adaptive classifier) để làm dữ liệu huấn luyện Chính

nhờ đó mà bộ phân loại thích ứng sẽ có khả năng nhận diện đượcchính xác hơn ở phần sau của trang Sau khi bộ phân loại thích ứng đãhọc được các thông tin có ích từ giai đoạn đầu khi nhận dạng phầntrên của trang thì giai đoạn thứ 2 của việc nhận dạng sẽ được thựchiện Giai đoạn này sẽ quét hết toàn bộ trang, các từ không được nhậndiện chính xác ở giai đoạn đầu sẽ được nhận diện lại lần nữa Cuốicùng bộ nhận diện sẽ tổng hợp lại các thông tin ở trên và cho ra kếtquả nhận diện hoàn chỉnh

2.1.3 Xác định dòng và từ

Xác định dòng : mục đích của bước này là nhận dạng các dòng của các hình

ảnh bị nghiêng, giúp giảm sự mất thông tin khi nhận dạng ảnh nghiêng Các bộphận quan trọng của quá trình này là lọc dãy màu (còn được gọi là blobs) và xâydựng dòng Bước này cũng giúp loại bỏ các văn bản có drop-cap

Thiết lập dòng cơ sở: khi dòng văn bản được tìm thấy, các dòng cơ sở được

thiết lập chính xác hơn bằng cách sử dụng một đường có tên là spline toàn phương

Trang 14

(là dòng mà được kết hợp từ nhiều đoạn) Nó giúp Tesseract xử lý các trang cóđường cơ sở là đường cong

Các dòng cơ sở được thiết lập bằng cách phân vùng các blobs thành cácnhóm có thể thay thế thích hợp liên tục trong đường cơ sở thẳng ban đầu Mộtspline toàn phương được thiết lập cho phân vùng dày đặc nhất, (giả định là đường

cơ sở) của một hình có phương ít nhất Spline có lợi thế là tính toán ổn định, nhượcđiểm là sự gián đoạn có thể xảy ra khi nhiều phân đoạn spline được yêu cầu

Cắt nhỏ từ : Tesseract sẽ xác định xem có các ký tự dính với nhau trong một

từ hay không Nếu có nó sẽ cắt nhỏ các ký tự ra thành các ký tự riêng lẻ

Nhận dạng khoảng cách giữa chữ hoặc số: xác định khoảng cách giữa các

số hoặc giữa các chữ là một vấn đề khá phức tạp Tesseract giải quyết những vấn đềnày bằng cách đo khoảng cách trong một phạm vi hạn chế theo chiều dọc giữa dòng

cơ sở và dòng trung bình

Nhận dạng từ : quá trình nhận dạng một từ là quá trình phân tích một từ

được chia ra thành các ký tự như thế nào

Khi kết quả xuất ra một từ mà nó không thỏa mãn nhu cầu thì Teseract cốgắng cải thiện kết quả này bằng cách cắt nhỏ các từ có nghĩa không tốt nhất Nếuviệc cắt nhỏ không làm tăng chất lượng từ thì nó sẽ phục hồi lại từ trước đó

2.1.4 Huấn luyện dữ liệu trên tesseract

Tesseract ban đầu được thiết kế để nhận dạng các từ tiếng Anh trên ngôn ngữ

hệ Latinh Sau này, nhờ sự cố gắng của nhiều nhà phát triển mà các phiên bản củaTesseract đã có thể nhận diện các ngôn ngữ khác ngoài hệ Latinh như tiếng Trung,tiếng Nhật và tương thích với các ký tự trong bảng mã UTF-8 Việc nhận dạng cácngôn ngữ mới trên Tesseract có thể thực hiện được nhờ vào việc huấn luyện dữ liệu

Từ phiên bản 3.0 trở đi, Tesseract đã có thể hỗ trợ thêm nhiều dạng ngôn ngữ mới

và mở rộng thêm việc huấn luyện theo font chữ Bởi vì ban đầu, bộ Tesseract đượchuấn luyện để nhận diện từ chính xác nhất trên một số loại font mặc định, nếu sửdụng các font chữ khác để nhận diện thì có thể kết quả sẽ không có độ chính xáccao khi làm việc với các loại font được cài đặt sẵn trong dữ liệu huấn luyện Đểthực hiện quá trình huấn luyện thì ta phải sử dụng công cụ có sẵn của Tesseract

Trang 15

Mặc định trong luận văn này, sử dụng công cụ Tesseract 3.01 cho việc thực hiệnhuấn luyện ngôn ngữ và font mới.

Để huấn luyện dữ liệu trên Tesseract (hoặc ngôn ngữ mới) thì ta cần một tập

các tập tin dữ liệu chứa trong thư mục tessdata, sau đó kết hợp các tập tin này thành tập tin duy nhất Các tập tin có trong thư mục tessdata có quy tắc đặt tên theo dạng: tên_ngôn_ngữ.tên_tập tin Ví dụ các tập tin cần thiết khi thực hiện việc

huấn luyện tiếng Anh:

trong tập tin huấn luyện

• tessdata/eng.normproto: Như tập tin pffmtable.

• tessdata/eng.punc-dawg.

• tessdata/eng.number-dawg.

• tessdata/eng.freq-dawg: Danh sách các từ tổng quát.

• tessdata/eng.word-dawg: Danh sách các từ thông thường.

• tessdata/eng.user-word: Danh sách từ của người dùng (tùy chọn có thể

2.1.5 Quá trình huấn luyện ngôn ngữ và font mới

Để trải qua quá trình huấn luyện ngôn ngữ hoặc loại font mới trên Tesseract

ta cần thực hiện thông qua các giai đoạn sau:

 Phát sinh các tập tin hình ảnh cho việc huấn luyện:

Đây là bước đầu tiên nhầm xác định tập ký tự sẽ được sử dụng trong việchuấn luyện Trước hết ta cần chuẩn bị sẵn một tập tin văn bản chứa các dữ liệu huấn

Định dạng
Số trang	31
Dung lượng	707,67 KB