1. Trang chủ
  2. » Luận Văn - Báo Cáo

Ứng dụng học máy trong nhận dạng công văn các cơ quan Đảng tỉnh Quảng Bình

25 38 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 25
Dung lượng 424,21 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Cùng với sự phát triển ứng dụng công nghệ thông tin trên các lĩnh vực đời sống xã hội, trong các hoạt động công tác, nhu cầu phân loại các tài liệu có ký hiệu để lưu trữ, khai thác các t

Trang 1

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA -

TRẦN TRUNG THÔNG

ỨNG DỤNG HỌC MÁY TRONG NHẬN DẠNG CÔNG VĂN

CÁC CƠ QUAN ĐẢNG TỈNH QUẢNG BÌNH

C u n n n K o m t n

M s 8480101

T M TẮT LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Đ Nẵn - Năm 2019

Trang 2

Công trình được hoàn thành tại TRƯỜNG ĐẠI HỌC BÁCH KHOA

N ười ướn dẫn k o TS PHẠM MINH TUẤN

P ản biện 1 PGS.TS Hu n H u Hưn

P ản biện 2 TS Tr n Văn Cườn

Luận văn đã được bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc sĩ Khoa học máy tính tại Trường Đại học Bách khoa vào ngày 25 tháng 8 năm 2019

Có t ể tìm iểu luận văn tại

- Trung tâm Học liệu, Đại học Đà Nẵng tại Trường Đại học Bách khoa

- Thư viện Khoa Công nghệ thông tin, Trường Đại học Bách khoa

– Đại học Đà Nẵng

Trang 3

MỞ ĐẦU

1 Lý do n đề t i

Hiện nay, nhu cầu về việc rút trích từ ngữ từ hình ảnh đang ngày càng phát triển, bên cạnh sự gia tăng về nhu cầu là sự phát triển của công nghệ nhận dạng ký tự quang học (Optical Character Recognition) hay còn được gọi tắt là OCR Đây là một công nghệ giúp chuyển đổi hình ảnh của chữ viết tay hoặc đánh máy thành các

ký tự đã được mã hóa trong máy tính Công nghệ OCR đã tạo ra giải pháp kỹ thuật mới, mang tính đột phá trong việc xây dựng cơ sở dữ liệu điện tử Cùng với sự phát triển ứng dụng công nghệ thông tin trên các lĩnh vực đời sống xã hội, trong các hoạt động công tác, nhu cầu phân loại các tài liệu có ký hiệu để lưu trữ, khai thác các thông tin trên hệ thống máy tính là một bài toán đang được đặt ra Trên thực

tế, cách duy nhất để sử dụng thông tin ký hiệu và phân loại thì phải

gõ lại văn bản trên bàn phím để có thể thêm nó vào hệ thống máy tính hay sử dụng làm đầu vào Với mong muốn tìm hiểu về ứng dụng học máy trong nhận dạng, lĩnh vực nhận dạng kí tự quang học (Optical character recognition – OCR) và đóng góp thêm vào kho ứng dụng về nhận dạng một hệ thống nhận dạng thiết thực, hữu ích

Vì vậy trong luận văn sẽ tập trung tìm hiểu các kỹ thuật, các

công nghệ cần thiết để xây dựng hệ thống Ứn dụn m tron

n ận dạn ôn văn ơ qu n Đản tỉn Quản Bìn làm đề

tài luận văn thạc sỹ của mình

Nội dung luận văn gồm phần mở đầu, 3 chương nội dung, phần kết luận, tài liệu tham khảo

Chương 1: Cơ sở lý thuyết

Trang 4

Chương 2: Xây dựng ứng dụng nhận dạng công văn trong các

cơ quan Đảng tỉnh Quảng Bình

Chương 3: Triển khai hệ thống và đánh giá kết quả

2 Mụ đ n i n ứu

- Nghiên cứu lý thuyết nhận dạng, xử lý ảnh

- Hệ thống OCR

- Công nghệ mã nguồn mở Tesseract OCR

- Tạo ra một ứng dụng nhận dạng ký hiệu văn bản dựa trên mã nguồn mở Tesseract OCR

- Tìm hiểu tổng quan về các phương pháp dạy máy học

- Nghiên cứu lý thuyết nhận dạng, xử lý ảnh

- Tạo ra một ứng dụng nhận dạng ký hiệu văn bản rời rạc dựa trên mã nguồn mở Tesseract OCR

Trang 5

- Xây dựng chương trình, cài đặt, kiểm thử và đánh giá

5 B ụ ủ luận văn

Cấu trúc của luận văn được trình bày bao gồm các phần chính sau:

MỞ ĐẦU Giới thiệu sơ bộ về lý do chọn đề tài, mục đích

nghiên cứu, đối tượng và phạm vi nghiên cứu, phương pháp nghiên cứu, ý nghĩa khoa học và thực tiễn của đề tài

CHƯƠNG 1 CƠ SỞ Ý THUYẾT

Giới thiệu tổng quan các phương pháp học máy, các phương pháp nhận dạng văn bản, nhận dạng ký tự quang học OCR

CHƯƠNG 2 XÂY DỰNG ỨNG DỤNG NHẬN DẠNG CÔNG VĂN TẠI CÁC CƠ QUAN ĐẢNG TỈNH QUẢNG BÌNH

Trong chương này tác giả nghiên cứu bộ thư viện mã nguồn

mở tessract, đề xuất phương pháp xây dựng hệ thống nhận dạng công văn trong các cơ quan Đảng tỉnh Quảng Bình và trình bày các khối chức năng của phương pháp nhận dạng văn bản theo từng loại tại cơ quan

CHƯƠNG 3 TRIỂN KHAI HỆ THỐNG VÀ ĐÁNH GIÁ KẾT QUẢ

Trong chương này, tác giả xin được trình bày ứng dụng học máy trong nhận dạng công văn trong các cơ quan Đảng tỉnh Quảng Bình và xây dựng quá trình thực nghiệm và đánh giá kết quả

Trang 6

C ƣơn 1- CƠ SỞ LÝ THUYẾT

1.1.2 Các phương pháp học máy

1.1.2.1 Học có giám sát

Học có giám sát là thuật toán dự đoán đầu ra (outcome) của

một dữ liệu mới (new input) dựa trên các cặp (input, outcome) đã biết

từ trước Cặp dữ liệu này còn được gọi là (data, label), tức (dữ liệu, nhãn) Học có giám sát là nhóm phổ biến nhất trong các thuật toán

là gì

Trang 7

Khi đó, mục tiêu của thuật toán học không giám sát không phải

là tìm đầu ra chính xác mà sẽ hướng tới việc tìm ra cấu trúc hoặc sự liên hệ trong dữ liệu để thực hiện một công việc nào đó,

1.1.2.3 Học bán giám sát (Semi-Supervised Learning)

Là bài toán mà khi tập dữ liệu đầu vào X là hỗn hợp các mẫu

có nhãn và không có nhãn, trong đó số lượng có nhãn chỉ chiếm một phần nhỏ

Phần lớn các bài toán thực tế của ML thuộc nhóm này vì việc thu thập dữ liệu có nhãn tốn rất nhiều thời gian và có chi phí cao Rất nhiều loại dữ liệu thậm chí cần phải có chuyên gia mới gán nhãn được, chẳng hạn như ảnh y học hoặc các cặp câu song ngữ Ngược lại, dữ liệu chưa có nhãn có thể được thu thập với chi phí thấp từ internet

1.1.2.4 Học tăng cường(Reinforcement learning)

Học tăng cường hay học củng cố là bài toán giúp cho một hệ thống tự động xác định hành vi dựa trên hoàn cảnh để đạt được lợi ích cao nhất Hiện tại, học tăng cường chủ yếu được áp dụng vào lý thuyết trò chơi (Game Theory)

1.1.3 Các ứng dụng của học máy

Học máy có ứng dụng rộng khắp trong các khoa học/sản xuất, đặc biệt là những ngành cần phân tích dữ liệu lớn Một số ứng dụng thường thấy: Xử lý ngôn ngữ tự nhiên, nhận dạng, tìm kiếm , ch n đoán trong y tế, tin sinh học, vật lý, chơi trò chơi

1.2 C p ƣơn p p n ận dạn

1.2.1 Mô hình Markov ẩn (HMM – Hidden Markov Model)

Mô hình Markov n là mô hình thống kê trong đó hệ thống mô hình hóa được cho là một quá trình Markov với các tham số không

Trang 8

biết trước và nhiệm vụ là xác định các tham số n từ các tham

số quan sát được, dựa trên sự thừa nhận này Các tham số của mô hình được rút ra sau đó có thể sử dụng để thực hiện các phân tích kế tiếp, ví dụ cho các ứng dụng nhận dạng mẫu

Trong một mô hình Markov điển hình, trạng thái được quan sát trực tiếp bởi người quan sát, và vì vậy các xác suất chuyển tiếp trạng thái là các tham số duy nhất Mô hình Markov n thêm vào các đầu ra: mỗi trạng thái có xác suất phân bổ trên các biểu hiện đầu ra có thể Vì vậy, nhìn vào dãy của các biểu hiện được sinh ra bởi HMM không trực tiếp chỉ ra dãy các trạng thái

Đây là một mô hình toán thống kê có ứng dụng rộng rãi trong Tin sinh học

Hình 1 5: Mô hình Markov n Các chuyển tiếp trạng thái trong mô hình Markov n

- x — Các trạng thái trong mô hình Markov

- a — Các xác suất chuyển tiếp

- b — Các xác suất đầu ra

- y — Các dữ liệu quan sát

Sự tiến hóa của mô hình Markov

Trang 9

Biểu đồ trên đây làm nổi bật các chuyển tiếp trạng thái của mô hình Markov n Nó cũng có ích để biểu diễn rõ ràng sự tiến hóa của

mô hình theo thời gian, với các trạng thái tại các thời điểm khác nhau t1 và t2 được biểu diễn bằng các tham biến khác nhau, x(t1) và x(t2)

Hình 1 6: Biểu đồ chuyển tiếp trạng thái mô hình Markov Trong biểu đồ này, nó được hiểu rằng thời gian chia cắt ra (x(t), y(t)) mở rộng tới các thời gian trước và sau đó như một sự cần thiết Thông thường lát cắt sớm nhất là thời gian t=0 hay t=1

Sử dụng các mô hình Markov

Có ba vấn đề cơ bản để giải quyết bằng HMM:

Cung cấp cho mô hình các tham số, tính xác suất của dãy đầu

ra cụ thể Giải bằng thuật toán tiến trước (thuật toán tham lam) Cung cấp cho mô hình các tham số, tìm dãy các trạng thái ( n)

có khả năng lớn nhất mà có thể sinh ra dãy đầu ra đã cung cấp Giải bằng thuật toán Viterbi

Cung cấp dãy đầu ra, tìm tập hợp có khả năng nhất của chuyển tiếp trạng thái và các xác suất đầu ra Giải bằng thuật toán Baum-Welch

1.2.2 Máy véc-tơ hỗ trợ (SVM)

Máy vectơ hỗ trợ (SVM –support vector machine) là một khái niệm trong thống kê và khoa học máy tính cho một tập hợp các

Trang 10

phương pháp học có giám sát liên quan đến nhau để phân loại và phân tích hồi quy SVM dạng chu n nhận dữ liệu vào và phân loại chúng vào hai lớp khác nhau Do đó SVM là một thuật toán phân loại nhị phân Với một bộ các ví dụ luyện tập thuộc hai thể loại cho trước, thuật toán luyện tập SVM xây dựng một mô hình SVM để phân loại các ví dụ khác vào hai thể loại đó Một mô hình SVM là một cách biểu diễn các điểm trong không gian và lựa chọn ranh giới giữa hai thể loại sao cho khoảng cách từ các ví dụ luyện tập tới ranh giới là xa nhất có thể Các ví dụ mới cũng được biểu diễn trong cùng một không gian và được thuật toán dự đoán thuộc một trong hai thể loại tùy vào ví dụ đó nằm ở phía nào của ranh giới

Hình 1 7: Mô hình máy véc-tơ hỗ trợ Một máy vectơ hỗ trợ xây dựng một siêu phẳng hoặc một tập hợp các siêu phẳng trong một không gian nhiều chiều hoặc vô hạn chiều, có thể được sử dụng cho phân loại, hồi quy, hoặc các nhiệm vụ khác

Ưu điểm của SVM

- Cho kết quả nhận dạng với độ chính xác cao

- Bài toán huấn luyện SVM thực chất là bài toán quy hoạch toàn phương trên một tập lồi, do đó SVM luôn có nghiệm toàn cục và

Trang 11

duy nhất, đây chính là điểm khác biệt rõ nhất giữa SVM so với phương pháp mạng Neural, vì mạng Neural vốn tồn tại nhiều điểm cực trị địa phương

Nhược điểm của SVM

- Hạn chế lớn nhất của SVM là tốc độ phân lớp rất chậm, tùy thuộc vào số lượng các véc tơ hỗ trợ

- Giai đoạn huấn luyện SVM đòi hỏi bộ nhớ rất lớn, do đó các bài toán huấn luyện với số lượng mẫu lớn sẽ gặp trở ngại trong vấn

đề lưu trữ Hiệu quả phân lớp của SVM phụ thuộc vào hai yếu tố: giải bài toán quy hoạch toàn phương và lựa chọn hàm nhân

1.2.3 Phương pháp tiếp cận cấu trúc

Cách tiếp cận của phương pháp này dựa vào việc mô tả đối tượng nhờ một số khái niệm biểu diễn đối tượng cơ sở trong ngôn ngữ tự nhiên Để mô tả đối tượng người ta dùng một số dạng nguyên thủy như đoạn thẳng, cung,… Mỗi đối tượng được mô tả như một sự kết hợp của các dạng nguyên thủy

Các quy tắc kết hợp các dạng nguyên thủy được xây dựng giống như việc nghiên cứu văn phạm trong một ngôn ngữ, do đó quá trình quyết định nhận dạng là quá trình phân tích cú pháp Phương pháp này đặt vấn đề để giải quyết bài toán nhận dạng chữ tổng quát Tuy vậy, cho đến nay còn nhiều vấn đề liên quan đến hệ nhận dạng

cú pháp chưa được giải quyết độc lập và xây dụng được các thuật toán phổ dụng Hiện nay, nhận dạng theo cấu trúc phổ biến là trích trọn các đặc trung của mẫu học, phân hoạch bảng ký tự dựa trên các đặc trưng này, sau đó ảnh cần nhận dạng sẽ được trích chọn đặc trưng, sau đó so sánh bảng phân hoạch để tìm ra ký tự có các đặc trưng phù hợp

Trang 12

Các phương pháp cấu trúc áp dụng cho các bài toán nhận dạng chữ được phát triển theo hai hướng sau:

1.2.3.1 Phương pháp đồ thị (Graphical Methods)

1.2.3.2 Phương pháp ngữ pháp (Grammatical Methods)

1.2.4 Đối sánh mẫu

Kỹ thuật nhận dạng chữ đơn giản nhất dựa trên cơ sở đối sánh các nguyên mẫu (prototype) với nhau để nhận dạng ký tự hoặc từ Nói chung, toán tử đối sánh xác định mức độ giống nhau giữa hai véc

tơ (nhóm các điểm, hình dạng, độ cong ) trong một không gian đặc trưng Các kỹ thuật đối sánh có thể nghiên cứu theo ba hướng sau: Đối sánh trực tiếp: Một ký tự đầu vào là ảnh đa cấp xám hoặc ảnh nhị phân được so sánh trực tiếp với một tập mẫu chu n đã được lưu trữ Việc so sánh dựa theo một độ đo về sự tương đồng nào đó (chẳng hạn như độ đo Euclide) để nhận dạng Các kỹ thuật đối sánh này có thể đơn giản như việc so sánh một – một hoặc phức tạp hơn như cây quyết định Mặc dù phương pháp đối sánh trực tiếp đơn giản

và có một cơ sở toán học vững chắc nhưng kết quả nhận dạng của nó cũng rất nhạy cảm với nhiễu

Các mẫu biến dạng và đối sánh mềm: Một phương pháp đối sánh khác là sử dụng các mẫu biến dạng, trong đó một phép biến dạng ảnh được dùng để đối sánh một ảnh chưa biết với một cơ sở dữ liệu ảnh đã biết

Ý tưởng cơ bản của đối sánh mềm là đối sánh một cách tối ưu mẫu chưa biết với tất cả các mẫu có thể mà các mẫu này có thế kéo giãn ra hoặc co lại Chỉ một không gian đặc trung được thành lập, các véc tơ chưa biết được đối sánh bằng cách sử dụng quy hoạch động và một hàm biến dạng

Trang 13

Đối sánh giảm nhẹ: Đây là một kỹ thuật đối sánh ảnh ở mức độ tượng trưng, kỹ thuật này sử dụng hình dáng đặc trưng cơ bản của ảnh ký tự Thứ nhất, các vùng đối sánh đã được nhận biết Sau đó, trên cơ sở với các vùng đối sánh này Công việc này đòi hỏi một kỹ thuật tìm kiếm trong một không guan đa chiều để tìm cực đại toàn cục của số hàm

Các kỹ thuật đối sánh mẫu chỉ áp dụng với nhận dạng chữ in, còn đối với chữ viết tay thì các kỹ thuật này tỏ ra kém hiệu quả

1.2.5 Mạng nơ ron

Một mạng nơ ron được định nghĩa như một cấu trúc tính toán bao gồm nhiều bộ xử lý ―nơron‖ được kết nối song song chằng chịt với nhau Do bản chất song song của các nơ ron nên nó có thể thực hiện các tính toán với tốc độ cao hơn so với các kỹ thuật phân lớp khác Các kiến trúc mạng nơron có thể được phân thành hai nhóm chính: mạng truyền thẳng và mạng lan truyền ngược Trong các hệ thống nhận dạng chữ, các mạng nơron sử dụng phổ biến nhất là mạng perceptron đa lớp thuộc nhóm mạng truyền thẳng và mạng SOM (Self Origanizing Map) của Kohonen thuộc nhóm mạng lan truyền ngược

Mạng perceptron đa lớp được đề xuất bởi Rosenblatt được nhiều tác giả sử dụng trong hệ thống nhận dạng Hầu hết các nghiên cứu phát triển nhận dạng chữ viết hiện nay đều tập trung vào mạng SOM SOM kết hợp trích chọn đặc trưng và nhận dạng trên một tập lớn các ký tự huấn luyện Mạng này chứng tỏ rằng nó tương đương với thuật toán phân cụm k-means

1.2.5.1 Đặc trưng của mạng nơ ron

1.2.5.1.1 Tính phi tuyến

Trang 14

1.2.5.1.2 Tính chất tương ứng đầu vào đầu ra

1.2.5.1.3 Tính chất thích nghi

1.2.5.1.4 Tính chất đưa ra lời giải có bằng chứng

1.2.5.1.5 Tính chất chấp nhận sai sót

1.2.5.1.6 Khả năng cài đặt VLSI

1.2.5.1.7 Tính chất đồng dạng trong phân tích và thiết kế

1.2.6 Nhận dạng ký tự quang học – OCR

Nhận dạng ký tự quang học là loại phần mềm máy tính được tạo ra để chuyển các hình ảnh của chữ viết tay hoặc chữ đánh máy (thường được quét bằng máy scanner) thành các văn bản tài liệu OCR được hình thành từ một lĩnh vực nghiên cứu về nhận dạng mẫu, trí tuệ nhân tạo và machine vision

Một số phần mềm nhận dạng chữ Việt: VnDOCR 4.0, VietOCR, ABBYY

Ngày nay, các hệ thống nhận dạng ký tự quang học thỏa mãn

độ chính xác nhận dạng cao đối với hầu hết các phông chữ tiêu chu n như Unicode Một số hệ thống còn có khả năng tái tạo lại các định dạng của tài liệu gần giống với bản gốc bao gồm hình ảnh, các cột, bảng biểu, các thành phần không phải là văn bản

1.3 T ƣ viện n ận dạn T ssr t

1.3.1 Chức năng của Tesseract

Tesseract là một thư viện mã nguồn mở để hỗ trợ xây dựng ứng dụng nhận dạng ký tự quang học được phát triển từ năm 1995

1.3.2 Kiến trúc giải thuật nhận dạng chữ in

Tesseract có một kiến trúc điển hình từ trên xuống Bước đầu bằng chức năng tiền xử lý, một ngưỡng sẽ được chọn bởi bộ phân ngưỡng thông qua một quá trình phân tích các điểm trong ảnh với

Ngày đăng: 15/06/2020, 21:15

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w