1. Trang chủ
  2. » Thể loại khác

SỐ HOÁ VÀ RÚT TRÍCH TỰ ĐỘNG THÔNG TIN CÔNG VĂN KHOA CÔNG NGHỆ THÔNG TIN

46 94 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 46
Dung lượng 1,35 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Nhận dạng ký tự quang học tiếng Anh: Optical Character Recognition, viết tắt là OCR, là loại phần mềm máy tính được tạo ra để chuyến các hình ảnh của chữ viết tay hoặc chữ đánh

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC ĐÀ LẠT

BÁO CÁO TỔNG KẾT

ĐỀ TÀI KHOA HỌC SINH VIÊN NĂM 2019

SỐ HOÁ VÀ RÚT TRÍCH TỰ ĐỘNG THÔNG TIN CÔNG VĂN

KHOA CÔNG NGHỆ THÔNG TIN

Thuộc nhóm ngành khoa học: Công nghệ thông tin & Khoa học Tự nhiên

Lâm Đồng, tháng 6/2019

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC ĐÀ LẠT

BÁO CÁO TỔNG KẾT

ĐỀ TÀI KHOA HỌC SINH VIÊN NĂM 2019

SỐ HOÁ VÀ RÚT TRÍCH TỰ ĐỘNG THÔNG TIN CÔNG VĂN

KHOA CÔNG NGHỆ THÔNG TIN

Thuộc nhóm ngành khoa học: Công nghệ thông tin & Khoa học Tự nhiên

Chủ nhiệm đề tài: Nguyễn Văn Vương Nam, Nữ: Nam

Dân tộc: Kinh

Lớp, khoa: CTK39 – Công nghệ thông tin

Năm thứ: 4 - Số năm đào tạo: 4.5 năm

Ngành học: Công nghệ thông tin

Người hướng dẫn: ThS Nguyễn Minh Hiệp, ThS Thái Duy Quý

Lâm Đồng, tháng 6/2019

Trang 3

Danh sách những thành viên

Sinh viên thực hiện

Giáo viên hướng dẫn: ThS Nguyễn Minh Hiệp, ThS Thái Duy Quý

Trang 4

Mục lục

Mục lục 42

MỞ ĐẦU 44

Chương 1: Tổng quan 46

1.1 Giới thiệu tổng quan 46

1.2 Tổng quan về ý tưởng phần mềm sẽ như sau: 48

Chương II: Giới thiệu kỹ thuật nhận dạng quang học (Optical Character Recognition-OCR) 50

2.1 Giới thiệu kỹ thuật nhận dạng quang học 50

2.2 Giới thiệu Tesseract 51

2.3 Cơ chế 52

2.4 So sánh với công cụ khác 54

Chương 3: Rút trích thông tin và phân loại văn bản với mô hình Naive Bayes 56

3.1 Mô hình Naive Bayes Classifier 56

3.2 Các phân phối xác suất 57

Chương IV: Giới thiệu ứng VHD - Scanner 60

4.1 Tổng quan về dự án 60

4.1.1 Tổng quan ý tưởng phần mềm: 60

4.1.2 Mục tiêu dự án: 61

4.1.3 Phạm vi triển khai: 62

4.1.4 Đối tượng sử dụng 62

4.2 Mô tả tóm tắt các yêu cầu phần mềm 62

4.2.1 Định hướng sản phẩm 62

4.2.2 Yêu cầu chức năng phần mềm 62

4.3 Đặc tả chi tiết yêu cầu phần mềm. 64

4.3.1 Quản lý công văn đến 64

4.3.2 Quản lý công văn 65

4.3.3 Quản lý người dùng 66

4.3.4 Quản lý lưu trữ, tra cứu, thống kê, tìm kiếm: 67

4.3.5 Phân loại người dùng 67

4.3.6 Quản lý công văn 67

4.3.7 Quản lý lưu trữ 68

4.3.8 Quản lý thống kê 69

4.3.9 Xử lý công văn 69

4.3.10 Thông báo công văn 70

4.3.11 Yêu cầu về hệ thống 70

Trang 5

4.3.12 Yêu cầu thuộc tính phần mềm 71

4.3.13 Yêu cầu cơ sở dữ liệu 72

4.3.14 Kế hoạch thực hiện dự án 73

Chương V: Kết luận và hướng phát triển 82

5.1 Thành quả đạt được 82

5.2 Hướng phát triển 82

TÀI LIỆU THAM KHẢO 83

Trang 6

MỞ ĐẦU

Trải qua ba cuộc cách mạng công nghiệp, nhân loại đã thu được những thành tựu rực rỡ thay đổi hoàn toàn cuộc sống của con người Khoa học kỹ thuật được áp

dụng dần dần thay thế cho sức lao động của con người Tới nay, thời đại của nền Công

nghiệp 4.0 lên ngôi, công nghệ thông tin càng gần gũi hơn với con người Trí tuệ nhân

tạo, vạn vật kết nối (IOT) và dữ liệu lớn (BIGDATA) là những yêu tố cốt lõi và đang

là những mối quan tâm hàng đầu Tới thời điểm hiện nay nhân loại cũng đã gặt hái được rất nhiều thành công trong nền công nghiệp 4.0: bác sỹ AI, trợ lý ảo thông mình, nhà máy không nhân công, nhà thông mình… Dễ dàng nhận thấy công nghệ thông tin

hỗ trợ đắc lực cho con người, giúp công việc trở nên đơn giản, nhanh chóng và thuận lợi hơn, mọi phần mềm ứng dụng tương ứng với từng chức năng cụ thể cũng ra đời theo nhu cầu của từng ngành nghề Việc ứng dụng công nghệ chuyển đổi hình ảnh sang chữ hiện nay đang rất phát triển gọi chung là “nhận dạng ký tự quang học”

Nhận dạng ký tự quang học (tiếng Anh: Optical Character Recognition, viết tắt là OCR), là loại phần mềm máy tính được tạo ra để chuyến các hình ảnh của chữ viết tay hoặc chữ đánh máy thường được quét bằng máy scanner) thành các văn bản tải liệu OCR được hình thành từ một lĩnh vực nghiên cứu về nhận dạng mẫu, trí tuệ nhân tạo và machine vision Mặc dù công việc nghiên cứu học thuật vẫn tiếp tục, một phân công việc của OCR đã chuyển sang ứng dụng trong thực tế với các kỹ thuật đã được chứng minh

Hiện nay ở Việt Nam hầu như việc lưu trữ văn bản giấy tờ vẫn còn dùng cách thủ công Việc này gây rất nhiều khó khăn trong việc lưu trữ, quản lý và bảo quản các văn bản này vì thường các văn bản giấy tờ thường rất nhiều, có thể lên tới hàng ngàn bản chỉ trong vòng một tháng Hơn nữa những đơn vị được giao việc quản lý các văn bản giấy tờ thường rất ít nhân lực càng gây khó khăn hơn, nếu nhiều nhân lực thì lại tốn nhiều chi phí hơn Khó khăn càng chồng khó khăn Chính vì thế hiện tại không còn

gì tuyệt vời hơn ngoài việc áp dụng khoa học kỹ thuật vào việc quản lý công văn bằng cách lưu chúng thành các văn kiện điện tử lưu vào trong máy tính đem lại rất nhiều lợi ích: vừa giảm chi phí, vừa dễ quản lý và cũng có thể triển khai trên diện rộng giúp đỡ rất nhiều cho con người

Đề tài “Số hoá và rút trích tự động thông tin công văn khoa công nghệ thông tin” nhằm tìm hiểu kỹ thuật số hoá thông tin từ một công văn tiếng Việt, vốn là một

Trang 7

hình chụp từ máy Scan Kỹ thuật số hoá bao gồm tìm hiểu các phần mềm VietOCR, ABBYY Từ đó nghiên cứu cách phân loại công văn và rút trích văn bản Đề tài cũng hướng tới mục tiêu xây dựng một ứng dụng rút trích thông tin từ công văn Khoa Công nghệ Thông tin

Trang 8

Chương 1: Tổng quan

Hiện nay, nhu cầu về việc lấy văn bản từ hình ảnh đang ngày càng phát triển, bên cạnh sự gia tăng về nhu cầu là sự phát triển của công nghệ nhận dạng ký tự quang học (Optical Character Recognition) hay còn được gọi tắt là OCR Đây là một công nghệ giúp chuyển đổi hình ảnh của chữ viết tay hoặc đánh máy thành các ký tự đã được mã hóa trong máy tính Giả sử chúng ta cần chỉnh sửa một số tài liệu giấy như: Các bài viết trên tạp chí, tờ rơi, hoặc một tập tin PDF hình ảnh Rõ ràng, chúng ta không thể sử dụng một máy quét để chuyển các tài liệu này thành tập tin văn bản để có

thể chỉnh sửa (ví dụ như trình soạn thảo Microsoft Word)

Tất cả những gì máy quét có thể làm là tạo ra một hình ảnh hoặc một bản chụp của các tài liệu Để giải nén và sử dụng lại dữ liệu từ tài liệu được quét, hình ảnh máy ảnh hoặc hình ảnh của các tập tin PDF, chúng ta cần một phần mềm OCR Nó sẽ xuất

ra ký tự trên hình ảnh, ghép chúng thành từ và sau đó ghép các từ thành câu Nhờ vậy, chúng ta có thể truy cập và chỉnh sửa nội dung của tài liệu gốc Tương tự, những tài liệu cổ đang bị hư hại theo thời gian và việc viết tay hay đánh máy lại những tài liệu này sẽ tốn rất nhiều chi phí, thời gian và không đảm bảo được độ chính xác cũng như là sự an toàn cho tài liệu nền Việc này rất cần một công nghệ lấy từ ngữ từ hình ảnh chụp

Nhận dạng ký tự quang học (dùng các kỹ thuật quang học chẳng hạn như gương và ống kính) và nhận dạng ký tự số (sử dụng máy quét và các thuật toán máy tính) lúc đầu được xem xét như hai lĩnh vực khảo nhau Bởi vì chi có rất ít các ứng dụng tổn tại với các kỹ thuật quang học thực sự, bới vậy thuật ngữ Nhận dạng ký tự quang học được mở rộng và bao gồm luôn ý nghĩa nhận dạng ký tự số

Đầu tiên hệ thống nhận dạng yêu cầu phải được huấn luyện với các mẫu của các ký tự cụ thể Các hệ thống "thông minh" với độ chính xác nhận dạng cao đối với hầu hết các phông chữ hiện nay đã trở nên phổ biến Một số hệ thống còn có khả năng tái tạo lại các định dạng của tài liệu gần giống với bản gốc bao gồm: hình ảnh, các cột, bảng biểu, các thành phần không phải là văn bản

Hiện nay, với chữ Việt, phần mềm nhận dạng chữ Việt … VnDOCR 4.0 có khả năng nhận dạng trực tiếp các loại tài liệu được quét qua máy quét, không cần lưu trữ

Trang 9

dưới dạng tệp ảnh trung gian Cảo trang tài liệu có thế được quét và lưu trữ dưới dạng tệp tin nhiều trang Kết quả nhận dạng được lưu trữ sang định dạng của Microsoft Word, Excel… phục vụ rất tốt nhu cầu sô hỏa dữ liệu

Ngoài ra, còn có một dự án OCR Tiếng Việt có tên VietOCR, được phát triển dựa trên nền tảng mã nguồn mở tesseract-ocr do Google tài trợ VietOCR có khả năng nhận dạng chữ Việt rất tốt… Đây là một chương trình nguồn mở Java NET, hỗ trợ nhận dạng cho các dạng ảnh PDF, TIFF, JPEG, GIF, PNG và BMP

ABBYY - một hãng công nghệ hàng đầu trên thế giới về lĩnh vực Nhận dạng ký tự quang học đã tiến hành nghiên cứu và triển khai công nghệ nhận dạng Tiếng Việt vào tháng 4 năm 2009 Với công nghệ này đó chính xảo trong việc nhận dạng tài liệu chữ … Tiếng Việt lên tới hơn 99% (cử nhận dạng 100 ký tự thì có chưa đến 1 ký tự sai) Công nghệ của ABBYY chấp nhận hầu hết các định dạng ảnh đầu vào như: PDF, TIFF, JPEG, GIF, PNG, BMP, PCX, DCX, DjVu… Kết quả nhận dạng được lưu trữ dưới các định dạng MS Word, MS Excel, HTML, TXT, XML, PDF, PDF 2 lớp, trong

đó định dạng PDF 2 lớp là một định dạng hoàn hảo cho việc lưu trữ và khai thảo tài liệu Với định dạng này, người đọc có thể đọc trung thực ảnh gốc nhờ lớp ảnh bên trên, các công cụ tìm kiếm có thể tìm kiếm toàn văn trên văn bản nhờ lớp text nhận dạng được bên dưới

Tuy nhiên thực trạng hiện nay chúng ta vẫn tỏ ra chậm chạp khi áp dụng khoa học công nghệ vào công việc đời sống hàng ngày, quen theo lối truyền thống dân tới càng ngày càng tụt hậu, hiệu quả chưa cao Nổi bật nhất trong ngành giáo dục nơi mà các giấy tờ đều gần như là giấy trắng mực đen với số lượng không tưởng khiến cho việc quản lý gặp không ít khó khăn Nhận thấy vậy dưới sự hướng dẫn của thạc sĩ Nguyễn Minh Hiệp, thành viên nhóm thuộc lớp CTK39 đã ứng dụng công nghệ nhận dạng ký tự quang học (OCR) để giải quyết khó khăn này Trong bài báo cáo này chúng

em xin trình bày sơ lược về dự án mà chúng em đặt tên là VDH-Scanner

Mục tiêu của đề tài là triển khai giải pháp số hoá kho dữ liệu, chuyển đổi từ tài liệu dạng giấy lưu trữ trong các hồ sơ, tủ tài liệu sang tài liệu dạng số lưu trữ trong máy tính, máy chủ hoặc các thiết bị lưu trữ nội dung số khác để đảm bảo tính toàn vẹn của dữ liệu, phục vụ cho công tác khai thác, thống kê, phân tích và dự báo trong hoạt động của khoa

Trang 10

Bài báo cáo chúng em sẽ chia làm 5 chương để mô tả một cách chi tiết nhất

ứng dụng VDH-Scanner Trong phần đầu chúng em sẽ đưa ra một cách nhìn tổng quan

nhất về dự án, phần tiếp theo chúng em sẽ phân tích sâu vào công nghệ OCR và ứng dụng Tesseract để tìm hiểu chúng là gì và cách thức hoạt động thế nào để có thể đưa vào sử dụng Phần ba sẽ mô tả, phân tích áp dụng thuật toán Bayes Classifier để phân loại công văn Phần 4 sẽ nói về ứng dụng VHD-Scanner và những kết quả đã đạt được và cuối cùng phần 5 chúng em sẽ đưa ra kết luận, ưu nhược điểm và đặt ra hướng phát

triển của VHD-Scanner trong tương lai

1.2 Tổng quan về ý tưởng phần mềm sẽ như sau:

Nhận dạng ký tự quang học là loại phần mềm máy tính tạo ra để chuyển hình ảnh thành các văn bản tài liệu

Phần mềm Quản lý số hoá công văn xây dựng nhằm: Quản lý thông tin, nội dung công văn của khoa và quá trình xử lý Mục tiêu: nhằm loại bỏ tình trạng công văn trùng lặp, giải quyết chồng chéo

Về mục tiêu dự án:

Triển khai giải pháp số hoá kho dữ liệu,chuyển đổi từ tài liệu dạng giấy sang tài liệu dạng số lưu trữ trong máy tính, máy chủ hoặc các thiết bị lưu trữ nội dung số khác để đảm bảo tính toàn vẹn của dữ liệu, phục vụ cho công tác khai thác, thống kê, phân tích và dự báo trong hoạt động của khoa

Đề tài nhằm tìm hiểu kỹ thuật số hóa thông tin từ một công văn tiếng Việt, vốn là một hình chụp “ từ máy Scan Kỹ thuật số hóa bao gồm tìm hiểu các phần mềm VietOCR, ABBYY,Tesseract, từ đó nghiên cứu cách phân loại công văn và rút trích văn bản Đề tài cũng hướng tới mục tiêu xây dựng một ứng dụng rút trích thông tin từ công văn Khoa Công nghệ Thông tin

Về phạm vi triển khai:

Giai đoạn 1: Thử nghiệm tại khoa công nghệ thông tin

Khoa công nghệ thông tin

Giai đoạn 2: Triển khai trên toàn trường

Phạm vi của hệ thống: Hệ thống được truy cập thông qua Internet ; chỉ có người trong khoa mới được truy cập hệ thống

Về đối tượng sử dụng

Trang 11

• Ban Chủ nhiệm khoa

• Văn thư

• Giảng viên

Trang 12

Chương II: Giới thiệu kỹ thuật nhận dạng quang học (Optical Character

Recognition-OCR)

Nhận dạng ký tự quang học (tiếng Anh: Optical Character Recognition, viết

tắt là OCR), là loại phần mềm máy tính được tạo ra để chuyển các hình ảnh của chữ

viết tay hoặc chữ đánh máy (thường được quét bằng máy scanner) thành các văn bản tài liệu OCR được hình thành từ một lĩnh vực nghiên cứu về nhận dạng mẫu, trí tuệ nhận tạo và machine vision Mặc dù công việc nghiên cứu học thuật vẫn tiếp tục, một phần công việc của OCR đã chuyển sang ứng dụng trong thực tế với các kỹ thuật đã được chứng minh

Nhận dạng ký tự quang học (dùng các kỹ thuật quang học chẳng hạn như gương và ống kính) và nhận dạng ký tự số (sử dụng máy quét và các thuật toán máy tính) lúc đầu được xem xét như hai lĩnh vực khác nhau Bởi vì chỉ có rất ít các ứng dụng tồn tại

với các kỹ thuật quang học thực sự, bởi vậy thuật ngữ Nhận dạng ký tự quang học

được mở rộng và bao gồm luôn ý nghĩa nhận dạng ký tự số

Đầu tiên hệ thống nhận dạng yêu cầu phải được huấn luyện với các mẫu của các ký tự cụ thể Các hệ thống "thông minh" với độ chính xác nhận dạng cao đối với hầu hết các phông chữ hiện nay đã trở nên phổ biến Một số hệ thống còn có khả năng tái tạo lại các định dạng của tài liệu gần giống với bản gốc bao gồm: hình ảnh, các cột, bảng biểu, các thành phần không phải là văn bản

Hiện nay, với chữ Việt, phần mềm nhận dạng chữ Việt in VnDOCR 4.0 có khả năng nhận dạng trực tiếp các loại tài liệu được quét qua máy quét, không cần lưu trữ dưới dạng tệp ảnh trung gian Các trang tài liệu có thể được quét và lưu trữ dưới dạng tệp tin nhiều trang Kết quả nhận dạng được lưu trữ sang định dạng của Microsoft Word, Excel phục vụ rất tốt nhu cầu số hóa dữ liệu

Ngoài ra, còn có một dự án OCR Tiếng Việt có tên VietOCR, được phát triển dựa trên nền tảng mã nguồn mở tesseract-ocr do Google tài trợ VietOCR có khả năng nhận dạng chữ Việt rất tốt Đây là một chương trình nguồn mở Java/.NET, hỗ trợ nhận dạng cho các dạng ảnh PDF, TIFF, JPEG, GIF, PNG, và BMP

ABBYY - một hãng công nghệ hàng đầu trên thế giới về lĩnh vực Nhận dạng

ký tự quang học đã tiến hành nghiên cứu và triển khai công nghệ nhận dạng Tiếng

Việt vào tháng 4 năm 2009 Với công nghệ này độ chính xác trong việc nhận dạng tài

Trang 13

liệu chữ in Tiếng Việt lên tới hơn 99% (cứ nhận dạng 100 ký tự thì có chưa đến 1 ký tự sai) Công nghệ của ABBYY chấp nhận hầu hết các định dạng ảnh đầu vào như: PDF, TIFF, JPEG, GIF, PNG, BMP, PCX, DCX, DjVu Kết quả nhận dạng được lưu trữ dưới các định dạng MS Word, MS Excel, HTML, TXT, XML, PDF, PDF 2 lớp, trong đó định dạng PDF 2 lớp là một định dạng hoàn hảo cho việc lưu trữ và khai thác tài liệu Với định dạng này, người đọc có thể đọc trung thực ảnh gốc nhờ lớp ảnh bên trên, các công cụ tìm kiếm có thể tìm kiếm toàn văn trên văn bản nhờ lớp text nhận dạng được bên dưới

Nhận dạng ký tự quang học (tên tiếng anh là Optical Character Recognition –OCR) là kỹ thuật được sử dụng để chuyển đổi ảnh văn bản sang dạng văn bản có thể chỉnh sửa trong máy tính Đầu vào của quá trình này là tập tin hình ảnh và đầu ra sẽ là các tập tin văn bản chứa nội dung là các chữ viết, ký hiệu có trong hình ảnh đó

Tesseract là một phần mềm mã nguồn mở và ban đầu nó được nghiên cứu và phát triển tại hãng Hewlett Packet (HP) trong khoảng từ năm 1984 đến 1994 Vào năm

1995, Tesseract nằm trong nhóm ba bộ nhận dạng OCR đứng đầu về độ chính xác khi tham gia trong hội nghị thường niên của tổ chức UNLV

Lúc mới khởi động thì Tesseract là một dự án nghiên cứu tiến sĩ tại phòng thí nghiệm HP ở Bristol và đã được tích hợp vào trong các dòng máy quét dạng phẳng của hãng dưới dạng các add-on phần cứng hoặc phần mềm Nhưng thực tế dự án này đã thất bại ngay từ trong trứng nước vì nó chỉ làm việc hiệu quả trên các tài liệu in có chất lượng tốt

Sau đó, dự án này cùng với sự cộng tác của bộ phận máy quét HP ở bang

Colorado đã đạt được một bước tiến quan trọng về độ chuẩn xác khi nhận dạng và vượt lên nhiều bộ nhận dạng OCR thời đó nhưng dự án đã không thể trở thành sản phẩm hoàn chỉnh vì độ cồng kềnh và phức tạp Sau đó, dự án được đưa về phòng thí nghiệm của HP để nghiên cứu về cách thức nén và tối ưu mã nguồn

Dự án tập trung cải thiện hiệu năng làm việc của Tesseract dựa trên độ chính xác đã có Dự án này được hoàn tất vào cuối năm 1994 và sau đó vào năm 1995 bộ Tesseract được gửi đi tham dự hội nghị UNLV thường niên về độ chính xác của OCR, vượt trội hơn hẳn so với các phần mềm OCR lúc bấy giờ Tuy nhiên, Tesseract đã

Trang 14

không thể trở thành một sản phẩm thương mại hoàn chỉnh được và vào năm 2005, HP

đã chuyển Tesseract sang mã nguồn mở và được hãng Google tài trợ

Tesseract cho đến nay vẫn được nhiều nhà phát triển cộng tác và tiếp tục hoàn thiện Phiên bản mới nhất của bộ nhận dạng Tesseract là phiên bản 4.0

Hình 1 Kết quả phân tích của Tesseract OCR

Trang 15

Trước tiên, hình ảnh sẽ được phân tích để tìm ra các vùng kết nối (connected component) Bước này cho phép OCR dễ dàng nhận biết những vùng ký tự ngược để

có thể nhận diện những ký tự bên trong Trong Tesseract, những vùng chứa ký tự này được gọi là Blob

Tiếp đến, những blob này sẽ tiếp tục được phân tích để tìm ra các dòng, rồi đến các ký tự Việc tìm các dòng sẽ được xử lý bởi thuật toán dựa vào vùng ký tự, cỡ chữ cùng toạ độ (trục x) Trong quá trình này, các blob cũng có thể được ghép với nhau nếu OCR nhận thấy chúng chứa các ký tự trong cùng một dòng Những blob được ghép phải trùng ít nhất 50% theo chiều ngang Sau đó, các đường cơ sở (baseline) cũng được tìm kiếm nhờ vào việc quét các dòng đã được xác định

Sau khi đã xác định được các dòng ký tự cùng các đối số tương ứng, dòng ký tự

sẽ được chia nhỏ thành các từ dựa vào các ký tự phân cách Lúc này, văn bản cố định

sẽ được chia nhỏ và tiến hành nhận diện Trong khi đó, văn bản không cố định hoặc chưa chắc chắn thì sẽ được chia nhỏ thành các từ dù chưa chắc chắn Nhưng nhờ vào bước nhận diện, chúng ta sẽ thu được kết quả cuối cùng chính xác hơn

Hình 2 Chia nhỏ các ký tự trong từ (fixed word)

Bước vào quá trình nhận diện, input của chúng ta sẽ được đánh giá, phân tích hai lần Ở lần đầu tiên, OCR sẽ nhận diện ký tự với kết quả phân tích ở bước trước đó Các kết quả nhận diện thoả mãn yêu cầu sẽ được đưa vào tập tin huấn luyện để hỗ trợ cho quá trình nhận diện lần thứ hai với các kết quả chưa đạt yêu cầu Đương nhiên, việc xác nhận kết quả có thoả mãn yêu cầu hay không cần phải dựa trên nhiều tiêu chí

vì nhận diện nội dung phải trải qua một quá trình lặp đi lặp lại gồm các bước nhận diện

Trang 16

ký tự, ghép ký tự và so khớp với từ điển Các tiêu chí đó bao gồm khoảng cách của các ký tự, độ phù hợp với từ điển và khoảng cách đến các dấu câu

Hình 3 Quy trình nhận diện từ của Tesseract

Cuối cùng, OCR sẽ xử lý những dấu cách không rõ ràng cùng với xem xét các giả thiết khác cho việc định vị những ký tự in hoa nhỏ để đi đến kết quả cuối cùng

Vì Tesseract hiện nay là bộ thư viện mã nguồn mở hoàn toàn miễn phí nên trên

thế giới đã có nhiều phần mềm nhận dạng ký tự quang học ra đời dựa trên bộ Tesseract với giao diện và các tính năng dễ sử dụng hơn so với giao diện đơn giản của Tesseract ban đầu như: VietOCR cho nhận dạng tiếng Việt, Tessenet 2 bộ nhận diện Tesseract trên nền Net của Microsoft, giao diện Java (Java GUI frontend) cho Tesseract…

Phần mềm thương mại Bộ nhận dạng Tesseract

Hỗ trợ hơn 192 ngôn ngữ Hỗ trợ trên 116 ngôn ngữ và đang tăng

Trang 17

dần

Có giao diện đồ họa Không hỗ trợ giao diện đồ họa (dùng

Command Line để gõ lệnh)

Độ chính xác cao mới đây Độ chính xác cao từ năm 1995

Chi phí khá cao 130$ - 500 $ Hoàn toàn miễn phí (mã nguồn mở)

Không có phiên bản dành cho lập trình

viên, có API nhưng phải trả phí

Phù hợp với lập trình viên vì có thể nhúng vào các ngôn ngữ lập trình

Bảng 2.1 So sánh phần mềm thương mại và Tesseract

Trang 18

Chương 3: Rút trích thông tin và phân loại văn bản với mô hình Naive Bayes

Xét bài toán classification với C classes 1,2,…, C Giả sử có một điểm dữ liệu x∈Rd Hãy tính xác suất để điểm dữ liệu này rơi vào class c Hay ta tính:

Trang 19

Ở bước training, các phân phối p(c) và p(xi|c),i=1,…,d sẽ được xác định dựa

vào training data Việc xác định các giá trị này có thể dựa vào Maximum Likelihood Estimation hoặc Maximum A Posteriori

Ở bước test, với một điểm dữ liệu mới x, class của nó sẽ được xác đinh bởi:

Multinomial Naive Bayes

Mô hình này chủ yếu được sử dụng trong phân loại văn bản mà feature vectors được tính bằng Bags of Words

Khi đó, p(xi|c) tỉ lệ với tần suất từ thứ i (hay feature thứ i cho trường hợp tổng quát) xuất hiện trong các văn bản của class c Giá trị này có thể được tính bằng cách:

𝛌 𝑐𝑖 = 𝑝(𝑥 𝑖 |𝑐) = 𝑁 𝑐𝑖

𝑁 𝑐 (10)

N ci là tổng số lần từ thứ i xuất hiện trong các văn bản của class c

N c là tổng số từ (kể cả lặp) xuất hiện trong class c

𝑁𝑐 = ∑𝑑 𝑖=1𝑁𝑐𝑖 , từ đó ∑𝑑 𝑖=1𝛌𝒄𝒊 = 𝟏

Trang 20

V={Hanoi, pho, chaolong, buncha, omai, banhgio, saigon, hutiu, banhbo}

|V| = 9

Trang 21

3.3 Rút trích thông tin

Để thêm phần tiện lợi, nhóm đã tích hợp module bằng cách sử dụng biểu thức

chính quy để rút trích thông tin từ văn bản cho phép người sử dụng ít phải can thiệp

nhất Trong trường hợp lý tưởng, VHD-Scanner có thể tự tách các thông tin như: số

văn bản, ngày ban hành, nội dung rút gọn, người ký… Song do các loại văn bản có

kiểu bố cục, nội dung không đồng nhất nên việc rút trích còn gặp nhiều khó khăn chưa hoạt động thật sự tốt

Hình 1: Code áp dụng biểu thức chính quy lấy ngày tháng năm từ văn bản

Và kết quả đạt được:

Hình 2: Việc điền thông tin hoàn toàn tự động sau khi scan từ file hình ảnh

Trang 22

Chương IV: Giới thiệu ứng VHD - Scanner

4.1 Tổng quan về dự án

Nhận dạng ký tự quang học (tiếng Anh: Optical Character Recognition, viết tắt là OCR), là loại phần mềm máy tính được tạo ra để chuyến các hình ảnh của chữ viết tay hoặc chữ đánh máy thường được quét bằng máy scanner) thành các văn bản tải liệu OCR được hình thành từ một lĩnh vực nghiên cứu về nhận dạng mẫu, trí tuệ nhân tạo và machine vision Mặc dù công việc nghiên cứu học thuật vẫn tiếp tục, một phân công việc của OCR đã chuyển sang ứng dụng trong thực tế với các kỹ thuật đã được chứng minh

Nhận dạng ký tự quang học (dùng các kỹ thuật quang học chẳng hạn như gương và ống kính) và nhận dạng ký tự số (sử dụng máy quét và các thuật toán máy tính) lúc đầu được xem xét như hai lĩnh vực khảo nhau Bởi vì chi có rất ít các ứng dụng tổn tại với các kỹ thuật quang học thực sự, bới vậy thuật ngữ Nhận dạng ký tự quang học được mở rộng và bao gồm luôn ý nghĩa nhận dạng ký tự số

Đầu tiên hệ thống nhận dạng yêu cầu phải được huấn luyện với các mẫu của các ký tự cụ thể Các hệ thống "thông minh" với độ chính xác nhận dạng cao đối với hầu hết các phông chữ hiện nay đã trở nên phổ biến Một số hệ thống còn có khả năng tái tạo lại các định dạng của tài liệu gần giống với bản gốc bao gồm: hình ảnh, các cột, bảng biểu, các thành phần không phải là văn bản

Hiện nay, với chữ Việt, phần mềm nhận dạng chữ Việt … VnDOCR 4.0 có khả năng nhận dạng trực tiếp các loại tài liệu được quét qua máy quét, không cần lưu trữ dưới dạng tệp ảnh trung gian Cảo trang tài liệu có thế được quét và lưu trữ dưới dạng tệp tin nhiều trang Kết quả nhận dạng được lưu trữ sang định dạng của Microsoft Word, Excel… phục vụ rất tốt nhu cầu sô hỏa dữ liệu

Ngoài ra, còn có một dự án OCR Tiếng Việt có tên VietOCR, được phát triển dựa trên nền tảng mã nguồn mở tesseract-ocr do Google tài trợ VietOCR có khả năng nhận dạng chữ Việt rất tốt… Đây là một chương trình nguồn mở Java NET, hỗ trợ nhận dạng cho các dạng ảnh PDF, TIFF, JPEG, GIF, PNG và BMP

ABBYY một hãng công nghệ hàng đầu trên thế giới về lĩnh vực Nhận dạng ký tự quang học đã tiến hành nghiên cứu và triển khai công nghệ nhận dạng Tiếng Việt vào tháng 4 năm 2009 Với công nghệ này đó chính xảo trong việc nhận dạng tài liệu

Trang 23

chữ … Tiếng Việt lên tới hơn 99% (cử nhận dạng 100 ký tự thì có chưa đến 1 ký tự sai) Công nghệ của ABBYY chấp nhận hầu hết các định dạng ảnh đầu vào như: PDF, TIFF, JPEG, GIF, PNG, BMP, PCX, DCX, DjVu… Kết quả nhận dạng được lưu trữ dưới các định dạng MS Word, MS Excel, HTML, TXT, XML, PDF, PDF 2 lớp, trong

đó định dạng PDF 2 lớp là một định dạng hoàn hảo cho việc lưu trữ và khai thảo tài liệu Với định dạng này, người đọc có thể đọc trung thực ảnh gốc nhờ lớp ảnh bên trên, các công cụ tìm kiếm có thể tìm kiếm toàn văn trên văn bản nhờ lớp text nhận dạng được bên dưới

Nhận dạng ký tự quang học là loại phần mềm máy tính tạo ra để chuyển hình ảnh thành các văn bản tài liệu

Phần mềm Quản lý số hoá công văn xây dựng nhằm: Quản lý thông tin, nội

dung công văn của khoa và quá trình xử lý Mục tiêu: nhằm loại bỏ tình trạng công văn trùng lặp, giải quyết chồng chéo

Hình 1: Sơ đồ luồng xử lý của VHD-Scanner

Ngày đăng: 28/06/2020, 22:25

HÌNH ẢNH LIÊN QUAN

Trước tiên, hình ảnh sẽ được phân tích để tìm ra các vùng kết nối (connected component) - SỐ HOÁ VÀ RÚT TRÍCH TỰ ĐỘNG THÔNG TIN CÔNG VĂN KHOA CÔNG NGHỆ THÔNG TIN
r ước tiên, hình ảnh sẽ được phân tích để tìm ra các vùng kết nối (connected component) (Trang 15)
Bảng 2.1 So sánh phần mềm thương mại và Tesseract - SỐ HOÁ VÀ RÚT TRÍCH TỰ ĐỘNG THÔNG TIN CÔNG VĂN KHOA CÔNG NGHỆ THÔNG TIN
Bảng 2.1 So sánh phần mềm thương mại và Tesseract (Trang 17)
Hình 2: Việc điền thông tin hoàn toàn tự động sau khi scan từ file hình ảnh - SỐ HOÁ VÀ RÚT TRÍCH TỰ ĐỘNG THÔNG TIN CÔNG VĂN KHOA CÔNG NGHỆ THÔNG TIN
Hình 2 Việc điền thông tin hoàn toàn tự động sau khi scan từ file hình ảnh (Trang 21)
Hình 1: Code áp dụng biểu thức chính quy lấy ngày tháng năm từ văn bản - SỐ HOÁ VÀ RÚT TRÍCH TỰ ĐỘNG THÔNG TIN CÔNG VĂN KHOA CÔNG NGHỆ THÔNG TIN
Hình 1 Code áp dụng biểu thức chính quy lấy ngày tháng năm từ văn bản (Trang 21)
Nhận dạng ký tự quang học là loại phần mềm máy tính tạo ra để chuyển hình ảnh thành các văn bản tài liệu  - SỐ HOÁ VÀ RÚT TRÍCH TỰ ĐỘNG THÔNG TIN CÔNG VĂN KHOA CÔNG NGHỆ THÔNG TIN
h ận dạng ký tự quang học là loại phần mềm máy tính tạo ra để chuyển hình ảnh thành các văn bản tài liệu (Trang 23)
- B6.3: Thông báo công văn sai nội dung, hình thức cần được kiểm lại - SỐ HOÁ VÀ RÚT TRÍCH TỰ ĐỘNG THÔNG TIN CÔNG VĂN KHOA CÔNG NGHỆ THÔNG TIN
6.3 Thông báo công văn sai nội dung, hình thức cần được kiểm lại (Trang 32)
Bảng chi tiết: - SỐ HOÁ VÀ RÚT TRÍCH TỰ ĐỘNG THÔNG TIN CÔNG VĂN KHOA CÔNG NGHỆ THÔNG TIN
Bảng chi tiết: (Trang 36)
Bảng chi tiết: - SỐ HOÁ VÀ RÚT TRÍCH TỰ ĐỘNG THÔNG TIN CÔNG VĂN KHOA CÔNG NGHỆ THÔNG TIN
Bảng chi tiết: (Trang 37)
Xây dựng các bảng 6 ngày 28/03/2019 03/04/2019 - SỐ HOÁ VÀ RÚT TRÍCH TỰ ĐỘNG THÔNG TIN CÔNG VĂN KHOA CÔNG NGHỆ THÔNG TIN
y dựng các bảng 6 ngày 28/03/2019 03/04/2019 (Trang 40)
Hình 3: Giao diện đăng nhập hệ thống - SỐ HOÁ VÀ RÚT TRÍCH TỰ ĐỘNG THÔNG TIN CÔNG VĂN KHOA CÔNG NGHỆ THÔNG TIN
Hình 3 Giao diện đăng nhập hệ thống (Trang 41)
Hình 4: Giao diện hệ thống front-end - SỐ HOÁ VÀ RÚT TRÍCH TỰ ĐỘNG THÔNG TIN CÔNG VĂN KHOA CÔNG NGHỆ THÔNG TIN
Hình 4 Giao diện hệ thống front-end (Trang 42)
Hình 5: Giao diện scan file hình và thành quả - SỐ HOÁ VÀ RÚT TRÍCH TỰ ĐỘNG THÔNG TIN CÔNG VĂN KHOA CÔNG NGHỆ THÔNG TIN
Hình 5 Giao diện scan file hình và thành quả (Trang 42)
Hình 6: giao diện trang chính (back-end) 1 - SỐ HOÁ VÀ RÚT TRÍCH TỰ ĐỘNG THÔNG TIN CÔNG VĂN KHOA CÔNG NGHỆ THÔNG TIN
Hình 6 giao diện trang chính (back-end) 1 (Trang 43)
Hình 7: giao diện trang chính (back-end) 2 - SỐ HOÁ VÀ RÚT TRÍCH TỰ ĐỘNG THÔNG TIN CÔNG VĂN KHOA CÔNG NGHỆ THÔNG TIN
Hình 7 giao diện trang chính (back-end) 2 (Trang 43)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w