Báo cáo công nghệ OCR

Tài liệu Công nghệ phần mềm Mỗi ngày nhân viên kho sẽ đi thống kê còn lại những gì trong kho nếu các mặt hàng đó không còn đủ để cung cấp cho ngày hôm sau thì nhân viên kho sẽ lập danh sách những mặt hàng cần để phục vụ nhu cầu sử dụng của khách hàng. Sau đó sẽ gửi nhà cung cấp, nhà cung cấp sẽ cung cấp những mặt hàng mà quản lý kho yêu cầu, gửi kèm theo hóa đơn thanh toán , nhân viên quản lý kho sẽ đến quầy thu ngân và đưa hóa đơn thanh toán đó cho nhân viên thu ngân, nhân viên thu ngân sẽ đưa tiền cho nhân viên quản lý kho và trả lại cho nhà cung cấp những dịch vụ đó.

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THỰC PHẨM TP HCM

KHOA CÔNG NGHỆ THÔNG TIN

BÁO CÁO MÔN HỌC

Trang 2

Tân Phú, Tháng 6/2020

Trang 3

BẢNG PHÂN CÔNG

Trương Tấn Phong 2001170129 Phân chia công việc cho từng

thành viên,tìm video và tài liệu

về OCR

A+

Đặng Quốc Hải 2001170046 Tìm hiểu và thiết kế PowerPoint,

làm lại word(bổ sung)

Trang 4

LỜI MỞ ĐẦU

♥♥♥

Thời đại công nghệ là một bước rẻ đầy ngoạn mục và táo bạo của nền khoa họcnhân loại Đó là thời điểm nhu cầu về việc rút trích từ ngữ từ hình ảnh đang ngày càngphát triển, bên cạnh sự gia tăng về nhu cầu là sự phát triển về công nghệ nhận dạng ký

tự quang học(Optical Character Recognition) hay còn được gọi tắt là OCR Đây là mộtcông nghệ giúp chúng ta chuyển đổi hình ảnh của chữ viết tay hoặc đánh máy thành ký

tự đã được mã hóa trong máy tính Giả sử chúng ta cần chỉnh sửa một số tài liệu giấynhư: Các bài viết trên tạp chí, tờ rơi hay tập tin PDF hình ảnh Rõ rành chúng ta khôngthể sử dụng một máy quét để chuyển các tài liệu này thành tập tin văn bản để có thểchỉnh sửa

Tất cả những gì máy quét có thể làm là tạo ra một hình ảnh hoặc một bản chụpcủa các tài liệu Để giải nén giải nén và sử dụng lại từ tài liệu được quét, hình ảnh máyảnh hoặc hình ảnh tập tin PDF, chúng ta cần một phần mềm OCR Nó sẻ xuất ra ký tựtrên hình ảnh, ghép chúng thành từ và sau đó ghép các từ thành câu hoàn chỉnh Nhờvậy, chúng ta có thể truy cập và chỉnh sửa nội dung của tài liệu gốc

Nhận thức được điều đó nhóm sinh viên chúng em bộ môn Công nghệ phần mềmcủa Trường Đại học Công nghiệp Thực phẩm đã tìm hiểu và biên soạn tài liệu này vớicác tiêu chí ngắn gọn, dể hiểu Từ đó tài liệu giúp độc giả hiểu rõ hơn, tạo điều kiện chocác bạn học tập và nghiên cứu về công nghệ OCR

Nội dung tài liệu gồm 4 chương:

Chương 1: Giới thiệu tổng quan về công nghệ OCR

Chương 2: Ưu điểm và nhược điểm của công nghệ OCR

Chương 3: Ứng dụng và một số phần mềm phổ biến hiện nay

Chương 4: Giới thiệu hệ thống mã nguồn mở tesseract OCR

Trong quá trình biên soạn, chắc chắn không tránh khỏi sai sót, kính mong quýđộc giả quan tâm góp ý và chia sẻ những nội dung còn khiếm khuyết để Nhóm chúng

em bổ sung hoàn thiện kịp thời đáp ứng tốt nhất yêu cầu của bạn đọc

Trân trọng cảm ơn!

Trang 5

MỤC LỤC

1. Chương 1 Giới thiệu về công nghệ OCR 2

1.1. Tổng quan 2

1.2. Khái niêm 3

1.3. Lịch sử phát triển 3

1.4. Yêu cầu phần cứng, phần mềm 3

1.5. Yêu cầu giao diện và chức năng 3

2. Chương 2 Ưu điểm và nhược điểm công nghệ OCR 4

2.1.Ưu điểm của công nghệ OCR 4

2.2. Nhược điểm của công nghệ OCR 5

3. Chương 3 Ứng dụng và một số phần mềm phổ biến 6

3.1. Phần mềm nhận dạng OCR- Soda PDF 6

3.2. Nuance OmniPage - Phần mềm nhận dạng chữ in OCR trên Windows 6

3.3. Phần mềm nhận dạng chữ Adobe Acrobat DC 7

3.4. Ứng dụng nhận dạng chữ Nuance PaperPort Professional 8

3.5. Ứng dụng phần mềm nhận dạng chữ IONE 9

4. Chương 4 Giới thiệu hệ thống mã nguồn mở tesseract OCR 10

4.1.Giới thiệu về bộ nhận dạng ký tự quang học Tesseract 10

4.2.Lịch sử phát triển 10

4.3. Tiến trình nhận dạng sử dụng Tesseract OCR 14

4.4. Đánh giá độ chính xác nhận dạng Tesseract OCR 15

CHƯƠNG 1: GIỚI THIỆU VỀ CÔNG NGHỆ OCR

1.1 Tổng quan

Qui trình chung của một hệ thống nhận dạng chữ có nhiều phương pháp để tạo

ra một phần mềm dạng OCR, độ chính xác của các phương pháp này phụ thuộc vào

Trang 6

công nghệ tạo nên phần mềm Các phương pháp này đạt được độ tin cậy trong các hìnhảnh có chất lượng tốt và vừa Độ chính xác của việc rút trích văn bản là điều quan trọngnhất Nhóm tác giả Kirill Safronov cho rằng một số sai sót trong quá trình chuyển đổithường không quá quan trọng trừ các trường hợp như rút trích số serial từ ảnh chụp,

Để khắc phục tình trạng kết quả xuất ra không chính xác của công nghệ OCR, nhiềucông nghệ khác đã ra đời, tác giả A Vinutha M H đã ứng dụng định hướng robot(Optical Character Recognition Based Auto Navigation of Robot) Việc định hướng củarobot dựa vào bảng tính hiệu như là một cột mốc đánh dấu đường đi tiếp theo củarobot Định hướng tự động của các robot trong một vùng lớn đòi hỏi nhiều bảng tínhiệu khác nhau với mô hình nhận dạng duy nhất

Ngoài ra, hệ thống này còn cho phép nhận diện vị trí tên riêng Bên cạnh việc cảithiện độ chính xác, cần có sự thay đổi kích thước của thiết bị nhận dạng, tác giả AliAhmadi đã đề cập trong nghiên cứu của mình, tốc độ xử lý và độ chính xác cao là yêucầu lớn hiện nay của các thiết bị nhận dạng ký tự dạng nhỏ, ví dụ như bút biết nhậndạng Nhưng dù có nhiều mặt hàng loại này được chào bán trên thị trường nhưng nóvẫn không đáp ứng nhu cầu sử dụng và kích thước thiết bị Ngoài sự đa dạng trongcách thức nhận dạng, OCR còn đa dạng về cách dùng, nó được chia thành hai cách,dùng online và dùng offline, có nhận xét về hai cách dùng này như sau:

 Nhận dạng offline: nhận dạng các văn bản in ra giấy hoặc các bản viết tay và nó

đòi hỏi quá trình scan trên mặt giấy hoặc mặt vật liệu có chữ Cách này thường đòi hỏicon người phải thực hiện một số thao tác như phân loại, lưu trữ và chỉnh sửa văn bảntrước khi scan

 Nhận dạng online: thường chỉ được dùng cho nhận dạng chữ viết tay được lưu trữ ở

dạng kỹ thuật số, thông thường để scan dạng này chúng ta thường dùng một loại bútđặc biệt nhưng do sự thành công của các nghiên cứu gần đây mà giờ đã có các thiết bịkhác thay thế Việc nhận dạng online nhằm giúp con người giao tiếp với máy tính tốthơn bằng cách viết tay thay vì gõ phím

1.2 Khái Niệm:

Nhận dạng ký tự quang học (tên tiếng anh là Optical Character Recognition –OCR) là kỹ thuật được sử dụng để chuyển đổi ảnh văn bản sang dạng văn bản có thể

Trang 7

chỉnh sửa trong máy tính Đầu vào của quá trình này là tập tin hình ảnh và đầu ra sẽ làcác tập tin văn bản chứa nội dung là các chữ viết, kí hiệu có trong hình ảnh đó.

Nhận dạng ký tự quang học (dùng các kỹ thuật quang học chẳng hạn như gương

và ống kính) và nhận dạng ký tự số (sử dụng máy quét và các thuật toán máy tính) lúcđầu được xem xét như hai lĩnh vực khác nhau Bởi vì chỉ có rất ít các ứng dụng tồn tại

với các kỹ thuật quang học thực sự, bởi vậy thuật ngữ Nhận dạng ký tự quang học

được mở rộng và bao gồm luôn ý nghĩa nhận dạng ký tự số

1.3 Lịch sử phát triển

Khái niệm về OCR lần đầu tiên được đề xuất bởi nhà khoa học người ĐứcTausheck vào năm 1929 Trong giai đoạn đầu của nghiên cứu, phương pháp nhận dạngvăn bản chủ yếu được nghiên cứu và việc nhận dạng văn bản chỉ từ 0 đến 9 số.Từ năm

1965 đến 1970, nó bắt đầu có một số sản phẩm đơn giản Phần mềm OCR ban đầukhông đáp ứng các yêu cầu thực tế do nhiều yếu tố như tỷ lệ nhận dạng và sản xuất.Trong khi đó, vì chi phí thiết bị phần cứng cao, tốc độ chạy chậm, cũng không đạt mứcthực tế Phần mềm OCR chỉ được sử dụng bởi các bộ phận riêng lẻ, chẳng hạn như bộphận thông tin và các tổ chức báo chí và xuất bản Từ những năm 1990, với ứng dụngrộng rãi của máy quét nền tảng và phổ biến tự động hóa thông tin và tự động hóa vănphòng tại Trung Quốc, công nghệ OCR đã thúc đẩy sự phát triển hơn nữa của nó, làmcho độ chính xác và tốc độ của nhận dạng OCR đáp ứng yêu cầu của đa số người dùng

1.4 Yêu cầu phần cứng, phần mềm

Phần cứng: Window

Phần mềm: Microsoft Visual Studio 2010

Trang 8

Đối tượng sử dụng: Mọi ngành, mọi lĩnh vực như tài chính, y tế, giáo dục, giải trí, văn

hóa và thể thao, công nghệ thông tin, viễn thông cần xây dựng và ứng dụng hệ thốngcông nghệ thông tin thì đều có nhu cầu cần sử dụng công nghệ:

ảnh trở nên dễ dàng,sao lưu nhanh chóng,tiết kiệm dữ liệu

các thủ tục vào quy trình làm việc,tăng năng suất lao động,tối ưu hóa các chi phí

1.5 Yêu cầu giao diện và chức năng

Về giao diện có các giao diện chính sau:

 Giao diện menu

 Giao diện chọn ảnh đầu vào

 Giao diện ảnh đầu ra

 Giao diện lưu kết quả

 Các chức năng cần thiết trong từng giao diện

 Chức năng chọn ảnh đầu vào

 Chức năng xử lý ảnh đầu vào

 Chức năng lưu kết quả xử lý

CHƯƠNG 2: ƯU VÀ NHƯỢC ĐIỂM CỦA CÔNG NGHỆ OCR

2.1 Ưu điểm của công nghệ OCR:

a) Hỗ trợ cuộc sống của người già, người khiếm thị

Trang 9

Vào những năm 1970, công ty Kurzweil Computer Products Inc của Mỹ đã cho rađời hệ thống phông chữ Omni đầu tiên trên thế giới Phần mềm OCR có khả năng nhậndạng phông chữ này Ngay lập tức, công nghệ OCR đã được tích hợp với công nghệtổng hợp giọng nói (giọng máy), giúp máy có khả năng đọc hiểu văn bản Nói cáchkhác, văn bản không chỉ được phần mềm OCR giải mã, mà còn được công cụ tổng hợpgiọng nói đọc ra thành tiếng Giọng nói vi tính hóa đã được ứng dụng vào việc đọc vănbản trong sách, báo, tạp chí cho người cao tuổi, người khiếm thị, giúp cuộc sống của họtrở nên nhẹ nhàng hơn

b) Sắp xếp tài liệu trong các công ty luật và toà án

Trong mỗi vụ án, các giấy tờ tài liệu pháp lí, hồ sơ rất nhiều và phức tạp Để đảmbảo không bỏ sót bất kì chi tiết, giấy tờ nào quan trọng, luật sư phải sắp xếp và tìmkiếm mất rất nhiều thời gian Nhờ phần mềm OCR, các luật sư có thể số hóa tất cả cácvăn bản một cách vô cùng nhanh chóng Khi cần, họ dễ dàng tìm tài liệu theo từ khoá,ngày tháng, tên tệp… một cách đơn giản, tiện lợi và khoa học Điều này đồng nghĩa vớiviệc, luật sư không phải thuê nhiều trợ lí để thực hiện các nhiệm vụ thủ công, mà vẫnđảm bảo giám sát được công việc

c) Bảo tồn các văn bản có giá trị

Các thư viện cổ, trung tâm văn hóa lịch sử hay viện bảo tàng… là những nơi lưu trữrất nhiều các bản thảo, tài liệu, hồi kí… Quá trình cất giữ và bảo quản những tài liệunày không hề đơn giản Chúng rất dễ bị mối mọt và hư hại theo thời gian Việc nhậpliệu thủ công chính xác và đầy đủ lượng văn bản khổng lồ đấy là điều vô cùng khókhăn và vất vả, có thể mất tới hàng chục năm Tuy nhiên, công nghệ OCR ra đời đãgiúp nhiều tổ chức giải quyết bài toán đó một cách đơn giản hơn Các văn bản, tài liệuquan trọng được chuyển đổi từ dạng giấy sang file mềm, giúp việc lưu trữ và bảo tồnnhiều di sản văn học trở nên dễ dàng hơn

d) Nhận dạng cá nhân

Khi đăng kí mở tài khoản ngân hàng, mở thẻ thành viên hay bất kì một hành độngnào cần phải xác minh danh tính, bạn đều phải cung cấp thông tin cá nhân đúng và đầy

Trang 10

đủ với các bên đối tác Quá trình kê tờ khai mất kha khá thời gian của bạn và bên làmdịch vụ Đôi khi, nhập liệu sai dẫn đến những rắc rối không đáng có về sau Với phầnmềm OCR, các tài liệu pháp lí như chứng minh nhân dân, hộ chiếu, bằng lái xe vànhiều loại giấy tờ khác đều có thể được quét nhanh chóng bởi các văn phòng côngchứng, phòng cảnh sát, sân bay và nhiều tổ chức, dịch vụ cần xử lí thông tin cá nhân.Đối với các giấy tờ tùy thân không quá nhiều kí tự, công nghệ OCR có khả năng nhậndạng chính xác gần như tuyệt đối, giảm thiếu tối đa lỗi nhập liệu Hơn thế nữa, việcnhận dạng và trích xuất thông tin bằng máy giúp các cơ quan, đơn vị, tổ chức dễ dànglưu trữ thông tin và có thể truy xuất thông tin người dùng bất cứ lúc nào

e) Xử lí hóa đơn và nhiều loại chứng từ

Tất cả các cơ quan, tổ chức đều có hàng nghìn các loại giấy tờ, tài liệu, với nhiềuđịnh dạng khác nhau như các văn bản in/viết tay trên giấy, file PDF, JPG… Các nhânviên khó có thể nhập tất cả các dữ liệu đó vào hệ thống, hoặc phải tốn rất nhiều thờigian để xử lí khối lượng giấy tờ không hồi kết đó Hơn thế, xác suất sai sót trong nhậpliệu khá lớn

Nhiều cơ quan, tổ chức chọn giải pháp chuyển đổi các hợp đồng, hóa đơn, chứng từ

và nhiều loại giấy tờ khác thành văn bản dưới dạng kĩ thuật số, để tiện sử dụng dữ liệu

đó cho các báo cáo tài chính, lưu trữ hay trao đổi tài liệu Và phần mềm OCR là sự lựachọn tuyệt vời

Hiện nay, hơn 60% các công ty lớn trên toàn thế giới đã sử dụng OCR để nhập dữliệu cho nhiều bước trong quy trình hoạt động của doanh nghiệp Công nghệ OCR chophép các công ty tự động lưu trữ dữ liệu vào hệ thống, dễ dàng tích hợp, chuyển đổihay liên kết đến một nền tảng khác như qua email, fax hoặc EDI truyền thống

Công nghệ OCR ngày càng trở nên phổ biến bởi những tiện ích mà nó mang lại cho

cả các cơ quan tổ chức cũng như người dùng Trong tương lai không xa, OCR sẽ đượctích hợp với rất nhiều công nghệ tiên tiến khác, để tạo ra những sản phẩm đột phá phục

vụ nhiều hoạt động của con người

Ở Việt Nam, một trong những sản phẩm được tích hợp công nghệ OCR có tínhchính xác cao nhất trên thị trường đó là FPT.AI Vision, được phát triển bởi Ban côngnghệ, thuộc tập đoàn FPT Đây là giải pháp nhận dạng và trích xuất thông tin trên các

Trang 11

giấy tờ tùy nhân như chứng minh nhân dân, giấy phép lái xe, hộ chiếu… có độ chínhxác lên đến 98%, dẫn đầu thị trường về chất lượng nhận diện

Ngoài ra, công nghệ OCR của FPT.AI còn có khả năng nhận dạng và trích xuấtthông tin trên các loại giấy tờ như hóa đơn, hợp đồng và nhiều yêu cầu riêng tùy nhucầu của từng đối tác FPT.AI Vision giúp các doanh nghiệp số hóa giấy tờ và nhận diệnthông tin khách hàng nhanh chóng Nhờ có OCR, thời gian nhập liệu được rút ngắn,thông tin có độ chính xác cao, giúp tiết kiệm thời gian, công sức và chi phí hoạt động

2.2 Nhược điểm của công nghệ OCR

Những hạn chế của OCR - Đa số những phần mềm, ứng dụng chứa OCR chỉ cókhả năng nhận dạng chính xác khoảng 80-90% dựa vào hình ảnh rõ nét

Ngoài ra, ở thời điểm hiện tại khi các ngôn ngữ ngày càng trở nên phong phú thìcông nghệ OCR lại chưa thể đáp ứng đa ngôn ngữ OCR chưa hỗ trợ support cho tất cảngôn ngữ

Các chương trình hỗ trợ OCR có thể nhận dạng ký tự với tỷ lệ trên 90% đối vớichất lượng hình ảnh rõ nét và font chữ thông thường Đối với hình chất lượng kém, fontchữ đặc biệt hoặc chữ viết tay thì kết quả cho ra không mấy khả quan Đối với văn bảnTiếng Việt thì tỷ lệ phần trăm chính xác không cao so với các văn bản ngôn ngữ khác

CHƯƠNG 3: ỨNG DỤNG VÀ MỘT SỐ PHẦN MỀM PHỔ BIẾN

1 Phần mềm nhận dạng OCR - Soda PDF

Nền tảng: Windows, Mac, Web.

Trang 12

Hồ trợ: giấy, ảnh , file PDF, có thể chỉnh sửa

Bên cạnh đó, khi dữ liệu đã scan thành PDF, bạn có thể dễ dàng chỉnh sửa nội dungvăn bản, thêm chú thích, diễn giải… Ứng dụng cung cấp tính năng gửi và theo dõi hợpđồng

Ngoài ra, ứng dụng cho phép bạn dùng thử trước khi quyết định mua Vì vậy, hãycân nhắc để lựa chọn cho mình nhé!

2 Nuance OmniPage - Phần mềm nhận dạng chữ in OCR trên nền tảng Windows

Nền tảng: Windows.

Trang 13

Bên cạnh đó, Nuance Omnipage còn giúp hỗ trợ giải quyết số lượng tài liệu lớn từnhiều thiết bị, nén dữ liệu và chuyển đổi dữ liệu Thêm vào đó, bạn có thể dễ dàng biếnvăn bản trên giấy, form, hay ảnh sang dạng file kỹ thuật dễ chỉnh sửa

3 Phần mềm nhận dạng chữ Adobe Acrobat DC

Trang 14

Nền tảng: Windows, Mac.

Hỗ trợ: giấy, ảnh, file PDF Có thể chỉnh sửa.

3.1 Ưu điểm

 Sản phẩm của công ty uy tín, có thương hiệu Adobe

 Nhiều tính năng đặc trưng và hữu ích

Trang 15

4 Ứng dụng nhận dạng chữ Nuance PaperPort Professional

Nền tảng: Windows.

Hỗ trợ: giấy , ảnh , file PDF Có thể chỉnh sửa.

Hỗ trợ đa thiết bị: Không

Trang 17

tài liệu dạng ảnh, tìm kiếm tài liệu của doanh nghiệp hay các cơ quan nhà nước trở nênđơn giản và thuận tiện Đặc biệt với tài liệu có số lượng cực lớn như sổ đó, CMND việcnhâp thông tin lên hệ thống không còn là công việc tốn thời gian, công sức của các cơquan nhà nước Sử dụng IONE là giải pháp giúp nâng cao chất lượng làm việc và phục

vụ người dân và khách hàng Cùng tìm hiểu thêm về ứng dụng IONE qua bài viết:

IONE - Công nghệ nhận dạng và bóc tách thông tin vượt trội ứng dụng OCR.

CHƯƠNG 4: GIỚI THIỆU MÃ NGUỒN MỞ TESSERACT OCR

4.1 Giới thiệu về bộ nhận dạng ký tự quang học Tesseract

Nhận dạng ký tự quang học (tên tiếng anh là Optical Character Recognition – OCR)

là kỹ thuật được sử dụng để chuyển đổi ảnh văn bản sang dạng văn bản có thể chỉnhsửa trong máy tính Đầu vào của quá trình này là tập tin hình ảnh và đầu ra sẽ là các tậptin văn bản chứa nội dung là các chữ viết, ký hiệu có trong hình ảnh đó

4.2 Lịch sử

Tesseract là một phần mềm mã nguồn mở và ban đầu nó được nghiên cứu và pháttriển tại hãng Hewlett Packet (HP) trong khoảng từ năm 1984 đến 1994 Vào năm 1995,Tesseract nằm trong nhóm ba bộ nhận dạng OCR đứng đầu về độ chính xác khi thamgia trong hội nghị thường niên của tổ chức UNLV Lúc mới khởi động thì Tesseract làmột dự án nghiên cứu tiến sĩ tại phòng thí nghiệm HP ở Bristol và đã được tích hợp vàotrong các dòng máy quét dạng phẳng của hãng dưới dạng các add-on phần cứng hoặcphần mềm Nhưng thực tế dự án này đã thất bại ngay từ trong trứng nước vì nó chỉ làmviệc hiệu quả trên các tài liệu in có chất lượng tốt Sau đó, dự án này cùng với sự cộng

Định dạng
Số trang	24
Dung lượng	2,75 MB