Các kỹ thuật xử lý ngôn ngữ trong số hóa văn bản tiếng việt của hệ thống FSCANNER

Tôi xin cam đoan luận văn thạc sĩ “Các kỹ thuật xử lý ngôn ngữ trong số hóa văn bản tiếng Việt của hệ thống FSCANNER” là công trình nghiên cứu của riêng tôi cùng với sự hướng dẫn của TS.

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NINH THỊ THU HÀ

CÁC KỸ THUẬT XỬ LÝ NGÔN NGỮ TRONG SỐ HÓA VĂN BẢN TIẾNG VIỆT

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NINH THỊ THU HÀ

CÁC KỸ THUẬT XỬ LÝ NGÔN NGỮ TRONG SỐ HÓA VĂN BẢN TIẾNG VIỆT

Trang 3

LỜI CAM ĐOAN

Tôi là Ninh Thị Thu Hà, học viên cao học K19, chuyên ngành Công nghệ phần mềm, khóa 2012-2014 Tôi xin cam đoan luận văn thạc sĩ “Các kỹ thuật xử

lý ngôn ngữ trong số hóa văn bản tiếng Việt của hệ thống FSCANNER” là công trình nghiên cứu của riêng tôi cùng với sự hướng dẫn của TS Lê Quang Minh Các số liệu, kết quả nêu trong Luận văn là trung thực và chưa từng được ai công

bố trong bất kỳ công trình nào khác

Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc một cách rõ ràng từ danh mục tài liệu tham khảo của luận văn Trong luận văn, không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài liệu tham khảo

Hà nội, ngày 28 tháng 10 năm 2014

Tác giả

Ninh Thị Thu Hà

Trang 4

LỜI CẢM ƠN

Tôi xin gửi lời cảm ơn sâu sắc tới TS Lê Quang Minh – Viện Công nghệ thông tin, Đại học Quốc gia Hà Nội, người thầy đã hướng dẫn, chỉ bảo tận tình cho tôi trong suốt quá trình nghiên cứu và hoàn thành luận văn tốt nghiệp

Tôi xin gửi lời cảm ơn chân thành tới các thầy cô đã và đang tham gia giảng dạy tại trường Đại học Công nghệ - Đại học Quốc gia Hà nội Các thầy cô

đã nhiệt tình giảng dạy và tạo mọi điều kiện thuận lợi cho tôi hoàn thành khóa học tại trường

Tôi xin bày tỏ lòng biết ơn tới tất cả bạn bè, đồng nghiệp và người thân đã động viên, giúp đỡ tôi trong suốt quá trình học tập và nghiên cứu, hoàn thành luận văn

Tôi xin được gửi lời cảm ơn đến các tác giả, nhóm tác giả của những giáo trình, những công trình khoa học và những bài báo khoa học mà tôi tham khảo

để hoàn thiện luận văn này

Tác giả

Trang 5

MỤC LỤC

DANH MỤC CÁC TỪ VIẾT TẮT 1

DANH MỤC BẢNG BIỂU 2

DANH MỤC HÌNH VẼ 4

MỞ ĐẦU 6

CHƯƠNG 1 TỔNG QUAN VỀ BÀI TOÁN XỬ LÝ NGÔN NGỮ TRONG SỐ HÓA VĂN BẢN TIẾNG VIỆT 9

1.1 Giới thiệu về xử lý ngôn ngữ tự nhiên 9

1.2 Giới thiệu một số công nghệ trong số hóa tài liệu 10

1.2.1 Công nghệ nhận dạng tiếng Việt 10

1.2.2 Công nghệ soát lỗi chính tả tiếng Việt 11

1.2.3 Công nghệ tách bộ và lập chỉ mục 12

1.3 Bài toán xử lý ngôn ngữ trong số hóa văn bản tiếng Việt 13

Tổng kết chương 1 15

CHƯƠNG 2 CÁC KỸ THUẬT XỬ LÝ NGÔN NGỮ TRONG SỐ HÓA VĂN BẢN 16

2.1 Một số kỹ thuật nhận dạng OCR 16

2.1.1 Giới thiệu 16

2.1.2 Kỹ thuật nhận dạng dựa trên mô hình máy vectơ hỗ trợ (SVM) 18

2.1.3 Kỹ thuật nhận dạng dựa trên mô hình Markov ẩn (HMM) 20

2.1.4 Kỹ thuật nhận dạng dựa trên mô hình mạng nơ ron (ANN) 22

2.1.5 Cách tiếp cận nhận dạng OCR của FSCANNER 24

2.2 Kỹ thuật soát lỗi chính tả tiếng Việt dựa trên mô hình n-gram 25

2.2.1 Giới thiệu bài toán soát lỗi chính tả tiếng Việt 25

2.2.2 Mô hình ngôn ngữ N-gram 27

2.2.3 Kỹ thuật soát lỗi dựa trên mô hình n-gram của hệ thống FSCANNER 29 2.3 Trích rút metadata 30

2.3.1 Giới thiệu về metadata và chuẩn Dublin Core 30

2.3.2 Bài toán trích rút metadata 32

2.3.3 Đề xuất metadata cho văn bản được số hóa 34

Trang 6

CHƯƠNG 3 THỰC NGHIỆM, ĐÁNH GIÁ 46

3.1 Các bước thực hiện chương trình của hệ thống 46

3.2 Xây dựng bộ dữ liệu thực nghiệm cho ảnh quét 48

3.3 Tiến hành thực nghiệm 49

3.3.1 Mục tiêu 49

3.3.2 Cách thực hiện 49

3.4 Kết quả thực nghiệm 50

3.5 Đánh giá kết quả 52

KẾT LUẬN 53

TÀI LIỆU THAM KHẢO 54

Trang 7

DANH MỤC CÁC TỪ VIẾT TẮT

STT Từ viết

1 ANN Artificial Neural Network Mạng nơ-ron nhân tạo

2 API Application Programming Interface Giao diện lập trình ứng

dụng

4 HMM Hiden Markov Model Mô hình Markov ẩn

5 MLP Multi Layer Perceptron Mạng nhiều lớp truyền

thẳng Perceptron

6 NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên

7 OCR Optical Character Recognition Nhận dạng kí tự quang

học

9 OVR One Versus The Rest Một với phần còn lại

10 SVM Support Vector Machine Máy Véc tơ Hỗ trợ

Trang 8

Bảng 2.2 Cấu trúc âm tiết 3 thành phần

Bảng 2.5 Các thành phần âm tiết của cấu trúc âm tiết 4 thành phần

Bảng 2.6 Một ví dụ trích rút metadata

Bảng 2.7 15 yếu tố của Dublin Core Metadata

Bảng 2.8 Đề xuất xây dựng các yếu tố metadata cho số hóa văn bản

Trang 9

Bảng 2.24 Cơ quan lưu trữ (Archive)

Bảng 2.25 Phông lưu trữ (Archive fond)

Bảng 2.26 Mục lục số (List number)

Bảng 2.27 Hộp số (Folder number)

Bảng 2.28 Hồ sơ số (Record number)

Bảng 2.29 Tờ số (Page number)

Bảng 2.30 Ngày số hóa (Digitizing date)

Bảng 2.31 Người số hóa (Digitizing person)

Bảng 2.32 Tổ chức số hóa (Digitizing organization)

Bảng 2.33 Thiết bị số hóa (Digitizing equipment)

Bảng 2.34 Bảng Cơ sở dữ liệu của 25 yếu tố metadata xây dựng cho văn bản được số hóa

Bảng 3.1 Số từ nhận dạng đúng với các mức DPI khác nhau của ảnh quét

Bảng 3.2 Số từ nhận dạng đúng với các góc xoay (lệch trái so với ảnh quét gốc) của ảnh quét

Bảng 3.3 Số từ nhận dạng đúng với các góc xoay (lệch phải so với ảnh quét gốc) của ảnh quét

Trang 10

DANH MỤC HÌNH VẼ

Hình 1.1 Một ví dụ kéo thả OCR trong sử dụng phần mềm Kodak Capture Pro Hình 1.2.a Một phần ảnh văn bản

Hình 1.2.b Phần văn bản đã được nhận

Hình 1.3.a Phần văn bản đã được nhận

Hình 1.3.b Phần văn bản nhận dạng đã sửa lỗi chính tả tiếng Việt

Hình 1.4 Một ví dụ về trích rút thông tin

Hình 1.5 Sơ đồ hoạt động của việc số hóa văn bản tiếng Việt của hệ thống FSCANNER

Hình 2.1 Sơ đồ tổng quát của một hệ thống nhận dạng OCR

Hình 2.2.a Các lớp phân tách tuyến tính

Hình 2.2.b Siêu phẳng tối ưu và biên lề tương ứng, các vectơ hỗ trợ

Hình 2.3.a: Siêu phẳng phân tách 2 lớp (Liu, 2006)

Hình 2.3.b: Siêu phẳng phân tách có lề cực đại (Liu, 2006)

Hình 2.4 Lưới các chuỗi trạng thái, các tiến trình Markov với dãy quan sát O1, , OT

Hình 2.5 Mô hình một nơron nhân tạo

Hình 2.6 Mạng MLP trong nhận dạng kí tự quang học

Hình 2.7 Mô hình Markov bậc 2

Hình 3.1 Giao diện chương trình FSCANNER

Hình 3.2 Upload văn bản trong hệ thống FSCANNER

Hình 3.3 Hệ thống FSCANNER đang nhận dạng OCR 1 file ảnh

Hình 3.4 Hệ thống FSCANNER đã xử lý văn bản xong và kết quả trích rút metadata của văn bản đó

Trang 11

Hình 3.5 Biểu đồ tỉ lệ % số từ nhận dạng đúng ở 7 mức DPI

Hình 3.6 Biểu đồ tỉ lệ % số từ nhận dạng đúng ở các góc xoay lệch trái Hình 3.7 Biểu đồ tỉ lệ % số từ nhận dạng đúng ở các góc xoay lệch trái

Trang 12

MỞ ĐẦU

1 Tính cấp thiết

Công tác lưu trữ có vai trò đặc biệt quan trọng đối với các lĩnh vực của đời sống xã hội bởi thông tin trong tài liệu lưu trữ là loại thông tin có độ tin cậy cao do nguồn gốc hình thành, do đặc trưng pháp lý của văn bản lưu trữ quy định Ngày nay văn bản lưu trữ đang dần được số hóa – đó là nhu cầu cần thiết giúp giảm chi phí và tăng năng suất trong việc quản lý

Thực tế tại Việt Nam có rất nhiều tổ chức và doanh nghiệp đang phải lưu trữ một lượng lớn các loại văn bản tài liệu tiếng Việt (bản cứng) do đó có nhu cầu số hóa tài liệu, tức là chuyển các tài liệu bản cứng đó vào trong máy tính để lưu trữ, tìm kiếm, chỉnh sửa khi cần

Hiện nay chúng ta đã có các máy quét với tốc độ cao, có thể đáp ứng cho việc quét các tài liệu bản cứng thành file ảnh để lưu trữ lâu dài trên máy tính Việc sử dụng máy quét sẽ tiết kiệm thời gian, chi phí gấp hàng trăm lần so với việc nhập bằng tay các tài liệu bản cứng vào máy tính Tuy nhiên, nếu quét các tài liệu bản cứng thành các file ảnh để lưu trữ thì sẽ không thể chỉnh sửa các văn bản đó khi cần thiết, việc tìm kiếm từ khóa hay nội dung trong văn bản quét cũng không thể thực hiện được Vì vậy, file ảnh thu được sau khi quét cần được nhận dạng để thu được file văn bản có thể chỉnh sửa được trên máy tính

Khi số lượng văn bản tài liệu rất lớn cần lưu trữ một cách thông minh để phục vụ cho việc tìm kiếm nhanh, độ chính xác của việc tìm kiếm sẽ phụ thuộc nhiều vào bước nhận dạng văn bản số hóa và bước trích rút metadata Đã có những công cụ được phát triển để giải quyết vấn đề trên và mang lại kết quả rất khả quan Tuy nhiên, nhằm nâng cao hiệu quả của công cụ này chúng ta cần có những cải tiến tốt hơn nữa, giúp cho độ chính xác trong công việc nhận dạng, tìm kiếm là tốt và nhanh hơn Nhóm nghiên cứu của Viện Công nghệ thông tin-Đại học Quốc gia Hà Nội đưa ra giải pháp là xây dựng hệ thống FSCANNER để

số hóa văn bản tiếng Việt

Trang 13

2 Mục tiêu của luận văn

· Tổng quan về bài toán xử lý ngôn ngữ trong số hóa văn bản tiếng Việt, quy trình làm việc của hệ thống số hóa văn bản FSCANNER

· Tìm hiểu về các kỹ thuật nhận dạng OCR, kỹ thuật soát lỗi chính tả tiếng Việt, trích rút metadata trong số hóa văn bản tiếng Việt

· Nghiên cứu về các đặc trưng lưu trữ từ đó đề xuất xây dựng metadata cho văn bản được số hóa

3 Nhiệm vụ nghiên cứu

Mục đích của luận văn đề cập được đến hai phần:

· Phần lý thuyết: Trình bày tổng quan về bài toán xử lý ngôn ngữ và sơ

đồ hoạt động của việc số hóa văn bản của hệ thống FSCANNER Sau

đó trình bày về các kỹ thuật nhận dạng OCR, kỹ thuật sửa lỗi chính tả tiếng Việt dựa trên mô hình n-gram; Với bài toán trích rút metadata, tìm hiểu về metadata và chuẩn Dublin Core, nghiên cứu về các đặc trưng lưu trữ từ đó đề xuất xây dựng metadata cho văn bản được số hóa

· Phần phát triển ứng dụng: Thực nghiệm chọn ngưỡng góc xoay và chỉ

số DPI thích hợp nâng cao chất lượng nhận dạng OCR

4 Phạm vi nghiên cứu

Hệ thống FSCANNER được nhóm nghiên cứu của Viện Công nghệ thông tin- Đại học Quốc Gia Hà Nội xây dựng với mục đích quản lý và tự động số hóa tài liệu Đây thực sự là một bài toán lớn Chính vì thế trong phạm vi của luận văn chỉ tìm hiểu về quy trình thực hiện của hệ thống, tìm hiểu về một số kỹ thuật nhận dạng OCR, kỹ thuật sửa lỗi chính tả tiếng Việt dựa trên mô hình ngôn ngữ n-gram của hệ thống, nghiên cứu về các đặc trưng lưu trữ và đề xuất xây dựng metadata cho văn bản được số hóa để phục vụ cho quá trình trích rút metadata

5 Những đóng góp mới

Đề xuất chọn ngưỡng góc xoay và chỉ số DPI thích hợp đối với ảnh đầu vào để nâng cao chất lượng nhận dạng OCR

Trang 14

Đề xuất xây dựng metadata cho văn bản được số hóa, góp phần xác định các thuộc tính cần thiết của metadata cho việc xây dựng hệ thống FSCANNER

Chương 2: Các kỹ thuật xử lý ngôn ngữ trong số hóa văn bản tiếng Việt

Nội dung chương 2 gồm 3 phần: giới thiệu một số kỹ thuật nhận dạng OCR; kỹ thuật soát lỗi chính tả dựa trên mô hình ngôn ngữ n-gram; kỹ thuật trích rút metadata, trong đó đề xuất xây dựng metadata cho văn bản được số hóa

Chương 3: Thực nghiệm – đánh giá:

Chạy chương trình với bộ dữ liệu thực nghiệm đưa ra để chọn ngưỡng chỉ

số DPI và góc xoay thích hợp đối với ảnh quét đầu vào trước khi nhận dạng OCR, nhằm nâng cao hiệu quả nhận dạng

Trang 15

CHƯƠNG 1 TỔNG QUAN VỀ BÀI TOÁN XỬ LÝ NGÔN NGỮ

TRONG SỐ HÓA VĂN BẢN TIẾNG VIỆT 1.1 Giới thiệu về xử lý ngôn ngữ tự nhiên

Xử lý ngôn ngữ tự nhiên (NLP – Natural Language Processing) là một lĩnh vực nghiên cứu nhằm giúp cho các hệ thống máy tính hiểu và xử lý được ngôn ngữ của con người (ngôn ngữ nói –viết) NLP là lĩnh vực thuộc ngành Khoa học máy tính, là một nhánh của Trí tuệ nhân tạo Lĩnh vực xử lý ngôn ngữ

tự nhiên ra đời đã lâu, trải qua nhiều nghiên cứu và ứng dụng, ngày nay được hiểu như là lĩnh vực giúp máy tính xử lý các vấn đề về ngôn ngữ tự nhiên để việc giao tiếp giữa người và máy tính thuận tiện và thân thiện hơn Dưới đây là một số bài toán tiêu biểu của xử lý ngôn ngữ với các mức độ khác nhau về xử lý

và sử dụng ngôn ngữ tự nhiên của con người [1]

· Nhận dạng tiếng nói: Từ tiếng nói của con người nhận biết và chuyển chúng thành dữ liệu văn bản tương ứng, ví dụ như tìm kiếm thông tin bằng tiếng nói (search voice),

· Tổng hợp tiếng nói: Từ dữ liệu văn bản, phân tích và chuyển thành tiếng người nói, ví dụ thay vì đọc nội dung trên web, nó tự đọc cho chúng ta,

· Nhận dạng chữ viết: Từ văn bản trên giấy, nhận biết từng chữ cái và chuyển chúng thành một tệp văn bản trên máy tính Có hai kiểu nhận dạng: nhận dạng chữ in ví dụ như nhận dạng chữ trên sách giáo khoa rồi chuyển nó thành văn bản như định dạng *.doc lưu trên máy tính; và nhận dạng chữ viết tay ví dụ như nhận dạng chữ ký,

· Dịch tự động: Từ một tệp dữ liệu văn bản trong một ngôn ngữ (ví dụ tiếng Anh), máy tính dịch và chuyển thành một tệp văn bản trong một ngôn ngữ khác (ví dụ tiếng Việt)

· Tóm tắt văn bản: Từ một văn bản dài máy tóm tắt thành một văn bản ngắn gọn với những nội dung cơ bản

· Tìm kiếm thông tin: Từ một nguồn rất nhiều tệp văn bản hay tiếng nói, tìm ra những tệp có nội dung liên quan đến một vấn đề ta cần biết, ví dụ điển hình như Google Search có thể tìm kiếm văn bản hay tiếng nói

Trang 16

· Trích chọn thông tin: Từ một nguồn rất nhiều tệp văn bản hay tiếng nói, tìm ra một số đoạn bên trong một số tệp liên quan đến một vấn đề ta cần biết

· Phát hiện tri thức và khai phá dữ liệu văn bản: Từ những nguồn rất nhiều văn bản thậm chí hầu như không có quan hệ với nhau tìm ra được những tri thức trước đấy chưa ai biết, đây là một vấn đề rất phức tạp và đang ở giai đoạn đầu nghiên cứu trên thế giới

1.2 Giới thiệu một số công nghệ trong số hóa tài liệu

1.2.1 Công nghệ nhận dạng tiếng Việt

Hiện nay trên thế giới cũng như Việt Nam đã có những sản phẩm nhận dạng tiếng Việt như ABBYY FineReader, VietOCR, VnDOCR… Trong đó sản phẩm tính phí là ABBYY FineReader và VnDOCR; còn VietOCR là phần mềm

mã nguồn mở sử dụng công cụ Tesseract được phát triển tại công ty Google Phần mềm VnDOCR là sản phẩm của Viện công nghệ thông tin dùng để nhận dạng chữ Việt in Phần mềm này có từ phiên bản 1.0 và đến nay là phiên bản VnDOCR 4.0 Có thể download dùng thử tại trang web http://www.vndocr.com/home/Products.asp?ProductID=2 Khi chạy phần mềm cho phép tiền xử lý ảnh đầu vào trước khi nhận dạng như xoay ảnh, chỉnh độ nghiêng, xóa nhiễu Tuy nhiên bản dùng thử không cho phép lưu lại văn bản đã nhận dạng

VietOCR là một chương trình mã nguồn mở do người Việt phát triển Chương trình sử dụng bộ nhận dạng Tesseract Có khả năng nhận diện ký tự từ các loại dạng ảnh phổ thông Độ chính xác nhận dạng tùy thuộc phần lớn vào chất lượng của ảnh quét Vì đây phần mềm mã nguồn mở nên việc phát triển nó

để nâng cao chất lượng nhận dạng là rất khả thi Download phần mềm VietOCR tại trang web http://vietocr.sourceforge.net/usage_vi.html và chọn download Sau đó cài đặt VietOCR theo hướng dẫn tại trang web http://vietocr.sourceforge.net/usage_vi.html

FineReader là một sản phẩm OCR của ABBYY – một hãng công nghệ hàng đầu trên thế giới về lĩnh vực nhận dạng kí tự quang học; hãng này đã tiến hành nghiên cứu và triển khai công nghệ nhận dạng tiếng Việt vào tháng 4/2009 Với công nghệ này, độ chính xác trong việc nhận dạng chữ in tiếng Việt lên tới

Trang 17

99% Tuy nhiên, sản phẩm này là sản phẩm thương mại hóa, tính phí cho mỗi trang scan Hiện tại, FineReader đang ở phiên bản thứ 12 ABBYY FineReader

là phần mềm mất phí, dùng thử có thể download ABBYY FineReader 12 tại trang web http://download.abbyy.com/finereader_pro , sau khi download xong, tiến hành cài đặt chương trình theo hướng dẫn có sẵn của chương trình

Là chương trình mã nguồn

mở do người Việt phát triển

Việc phát triển phần mềm này để nâng cao chất lượng nhận dạng là rất khả thi

http://finereader.abbyy.co m/

Là sản phẩm thương mại

Là phần mềm của Nga Cho phép kết nối và nhận dạng trực tiếp ảnh từ Camera

Nhận dạng được các trang

có nhiều loại font, kiểu font hoặc nền là ảnh màu

Nhận dạng được nhiều định dạng ảnh đầu vào Phân vùng đúng, giữ nguyên bố cục và định dạng ban đầu

Nhận dạng tốt bảng biểu, chữ to đầu đoạn, công thức toán học,

chữ cái to đầu đoạn (Drop

Cap), chỉ số trên của các

công thức toán học

Không phân vùng được (chỉ nhận dạng được một vùng)

Chất lượng nhận dạng chưa cao

Không nhận dạng được chữ cái to đầu đoạn, các công thức toán học, bảng biểu

Giá thành cao

Là sản phẩm không phải của người Việt, có thể bị mất thông tin vì chúng ta không nắm được quy trình

1.2.2 Công nghệ soát lỗi chính tả tiếng Việt

Lỗi chính tả gồm hai loại là lỗi thực từ và lỗi phi từ Hầu hết các phần mềm soát lỗi chính tả phát hiện được lỗi phi từ Tuy nhiên lỗi thực từ tiếng Việt

Trang 18

rất khó phát hiện Do đó những công ty sản xuất các sản phẩm này đã ngừng đầu

tư phát triển

Vào tháng 6/2010, tại buổi họp báo [9] của Viện Công nghệ thông tin-Đại

học Quốc gia Hà Nội đã công bố bản Báo cáo về tình hình chính tả trong văn bản tiếng Việt, đợt đánh giá tháng 6/2010 Trong đó các phần mềm soát lỗi và

sửa lỗi chính tả trên thị trường có tỉ lệ soát lỗi như sau: BÚT ĐỎ 92,5%; CÚ MÈO 62,65%; VIETSPELL 62,76% Trên cơ sở đó, chúng tôi giới thiệu một số phần mềm soát lỗi chính tả tiếng Việt [8] và kết quả đánh giá độ nhận biết lỗi chính tả tiếng Việt của một số phần mềm [7] thể hiện ở bảng 1.2

Bảng 1.2 Một số phần mềm soát lỗi chính tả tiếng Việt và kết quả đánh giá độ

nhận biết lỗi chính tả tiếng Việt đối với các phần mềm đó

- Ngừng phát triển

- Thương mại, dùng thử hạn chế 62,76%

VCatSpell Thông tấn xã

Công giáo Việt Nam

Trang 19

form mẫu được tạo bởi người sử dụng (đánh dấu vị trí cần nhận dạng và lập chỉ mục) Sản phẩm chỉ làm việc với các biểu mẫu có cùng 1 dạng và có vị trí cần nhận dạng chính xác với vị trí đã đánh dấu Kodak Capture cho phép người dùng chỉ định vùng OCR bằng thao tác kéo thả vùng cần nhận dạng (drag & drop OCR) để trích rút thông tin cần thiết hỗ trợ cho việc tạo chỉ mục Dưới đây ở hình 1.1 là một ví dụ kéo thả vùng nhận dạng để trích rút thông tin

Hình 1.1 M ột ví dụ kéo thả OCR trong sử dụng phần mềm Kodak Capture Pro

1.3 Bài toán xử lý ngôn ngữ trong số hóa văn bản tiếng Việt

Với một khối lượng khổng lồ các tài liệu văn bản giấy, máy quét có thể chuyển chúng thành các file ảnh văn bản lưu trữ được trong máy tính Tuy nhiên, các file ảnh văn bản sau khi quét thì không thể chỉnh sửa được trên máy tính hay tìm kiếm theo từ khóa hay nội dung trong ảnh văn bản đó Vì vậy, các ảnh văn bản thu được sau khi quét cần đươc nhận dạng thành thành văn bản có thể chỉnh sửa được (hình 1.2.a và hình 1.2.b)

Kết quả nhận dạng phụ thuộc rất nhiều vào chất lượng ảnh quét Khi hệ thống không nhận dạng được một kí tự, sẽ gây ra một lỗi chính tả tiếng Việt ở đầu ra Việc sửa lỗi chính tả tiếng Việt sau khi nhận dạng sẽ làm tăng độ chính xác nhận dạng (hình 1.3.a và hình1.3.b)

Hình 1.2.a Một phần ảnh văn bản

Trong cuộc tiếp trợ lý Tổng thống Mỹ T.Đai-nai-lơn tới trao thư của Tổng thống B.ô-ba-ma, Tổng thống Nga V.Pu-tin cho biết, sẽ nghiên cứu đề xuất của Mỹ về tăng cường đối thoại và hợp tác song phương Ông Đai-nai-lơn trước đó đã hội đàm với Bộ trưởng Ngoại giao Nga X.La-vrốp ■ Theo Tân Hoa xã, phát biểu ý kiến tại Viện Công nghệ Nhật Bản, Bộ trưởng Ngoại giao Mỹ G.Ke-ri nêu bốn nguyên tắc chính sách cua

Mỹ nhằm giúp các nước khu vực châu Á - Thái Bình Dương đối phó các thách thức, gồm: tăng trưởng mạnh, công bằng, nhanh và hợp lý ■ Tại cuộc hội thảo về kinh tế, Thủ tướng Trung Quốc Lý Khắc Cường nhấn mạnh tầm quan trọng của công tác dự báo chính sách kinh'tế, đồng thời kêu gọi tập trung chuyển đổi và cập nhật kinh tể thòng qua cải cách sâu rộng (XEM TIẾP TRANG 7)

Hình 1.2.b Phần văn bản đã được nhận dạng

Trang 20

Với mỗi văn bản sau khi đã nhận dạng và sửa lỗi sẽ được trích rút thông tin theo mẫu phục vụ cho việc lưu trữ thông minh và hỗ trợ người dùng tìm kiếm tài liệu một cách dễ dàng Ở hình 1.4 là một ví dụ về trích rút metadata

Đã có những công cụ được phát triển để giải quyết bài toán số hóa văn bản và mang lại kết quả rất khả quan Tuy nhiên để nâng cao hiệu quả của công

cụ này chúng ta cần có những cải tiến tốt hơn nữa, giúp cho độ chính xác trong công việc nhận dạng, tìm kiếm là tốt và nhanh hơn Giải pháp đưa ra là một quy trình (hình 1.6 ) gồm các bước sau:

1 Người dùng quét các văn bản từ máy Scan hoặc import các văn bản đã được quét từ trước Kết quả của bước này là các văn bản được số hóa mức

1 dưới dạng các ảnh

2 Hệ thống sẽ kích hoạt chương trình nhận dạng OCR thông qua các giao diện lập trình ứng dụng (API) để nhận dạng các văn bản dưới dạng ảnh và thu về văn bản ở dạng text

Cơ quan ban hành: Bộ Khoa học và Công nghệ

Số hiệu: 3390/QĐ-BKHCN Ngày ban hành: 11/12/2012 Trích yếu nội dung: Quyết định về việc công bố thủ tục hành chính mới ban hành thuộc phạm vi chức năng quản lý của Bộ Khoa học và Công nghệ

Tác giả: Thứ trưởng Trần Việt Thanh

Hình 1.4 Một ví dụ về trích rút metadata

Trong cuộc tiếp trợ lý Tổng thống Mỹ T.Đai-nai-lơn tới

trao thư của Tổng thống B.ô-ba-ma, Tổng thống Nga

V.Pu-tin cho biết, sẽ nghiên cứu đề xuất của Mỹ về

tăng cường đối thoại và hợp tác song phương Ông

Đai-nai-lơn trước đó đã hội đàm với Bộ trưởng Ngoại

giao Nga X.La-vrốp ■ Theo Tân Hoa xã, phát biểu ý

kiến tại Viện Công nghệ Nhật Bản, Bộ trưởng Ngoại

giao Mỹ G.Ke-ri nêu bốn nguyên tắc chính sách cua Mỹ

nhằm giúp các nước khu vực châu Á - Thái Bình

Dương đối phó các thách thức, gồm: tăng trưởng

mạnh, công bằng, nhanh và hợp lý ■ Tại cuộc hội thảo

về kinh tế, Thủ tướng Trung Quốc Lý Khắc Cường

nhấn mạnh tầm quan trọng của công tác dự báo chính

sách kinh'tế, đồng thời kêu gọi tập trung chuyển đổi và

cập nhật kinh tể thòng qua cải cách sâu rộng (XEM

về kinh tế, Thủ tướng Trung Quốc Lý Khắc Cường nhấn mạnh tầm quan trọng của công tác dự báo chính sách kinh tế, đồng thời kêu gọi tập trung chuyển đổi và cập nhật kinh tế thông qua cải cách sâu rộng (XEM TIẾP TRANG 7)

Hình 1.3.b Phần văn bản nhận dạng đã sửa lỗi chính tả tiếng Việt

Trang 21

3 Văn bản dạng text sau quá trình nhận dạng OCR sẽ được soát lỗi chính tả tiếng Việt để nâng cao độ chính xác của kết quả nhận dạng

4 Trích rút thông tin theo mẫu đã được thiết lập tương ứng (mẫu tương ứng nằm trong danh mục tài liệu mẫu đã được thiết kế, nếu không tìm thấy mẫu nào tương ứng trong danh mục tài liệu mẫu, hệ thống sẽ yêu cầu người dùng tạo một tài liệu mẫu mới và đưa thêm vào danh mục tài liệu mẫu) Sau đó là khâu đặt tên file, lập chỉ mục tự động theo cấu trúc đã được thiết lập, và lưu vào cơ sở dữ liệu của hệ thống

Trong quy trình ở hình 1.5, các bước: nhận dạng OCR, soát lỗi chính tả, trích rút metadata là những bài toán thuộc lĩnh vực xử lý ngôn ngữ tự nhiên (dữ liệu văn bản)

Tổng kết chương 1

Trên đây chúng tôi đã giới thiệu về xử lý ngôn ngữ tự nhiên như khái niệm và một số bài toán NLP; giới thiệu khái niệm số hóa văn bản, giới thiệu một số công nghệ số hóa tài liệu như công nghệ nhận dạng OCR, công nghệ soát lỗi chính tả tiếng Việt, công nghệ tách bộ và lập chỉ mục Trên cơ sở đó, luận văn đưa ra giải pháp là xây dựng một hệ thống số hóa văn bản tiếng Việt với tên

là FSCANNER Mỗi bước trong quy trình số hóa của hệ thống liên quan mật thiết với mỗi bài toán trong xử lý ngôn ngữ, cụ thể là bài toán nhận dạng chữ OCR, bài toán soát lỗi chính tả tiếng Việt, bài toán trích chọn thông tin với bài toán con là trích chọn metadata

Hình 1.5 Sơ đồ hoạt động của việc số hóa văn bản

tiếng Việt của hệ thống FSCANNER

Ảnh quét Nhận dạng OCR Soát lỗi chính tả

Trích rút metadata

và lập chỉ mục

Trang 22

CHƯƠNG 2 CÁC KỸ THUẬT XỬ LÝ NGÔN NGỮ TRONG SỐ

2.1 Một số kỹ thuật nhận dạng OCR

2.1.1 Giới thiệu

Nhận dạng ký tự quang học (Optical Character Recognition – OCR) là loại phần mềm máy tính có chức năng chuyển các hình ảnh của chữ viết tay hoặc chữ đánh máy (thường được quét bằng máy scanner, chụp ảnh) thành các văn bản tài liệu Giả sử ta có một văn bản tài liệu bản cứng, sau khi quét bằng máy scanner thành file ảnh, phần mềm OCR sẽ nhận dạng file ảnh đã quét đó thành file văn bản lưu trữ trên máy tính có thể chỉnh sửa được trên máy tính Lịch sử của OCR đã có từ hơn nửa thế kỷ, nó xuất hiện đầu tiên để giải quyết bài toán đọc mã số trong bưu điện, tiếp đó phát triển để tự động đọc các địa chỉ

và đọc các thông tin trong các mẫu đơn, văn bản Ngày nay với sự phát triển mạnh mẽ, OCR trở nên phổ biến và thường được ứng dụng như một phần mềm cài đặt trên máy tính hoặc tích hợp kèm với phần cứng như tích hợp trong máy scan Hiện nay trên thế giới cũng như ở Việt Nam đã có những sản phẩm nhận dạng chữ in có giá trị thực tế cao, có thể kể đến như: sản phẩm ABBYY FineReader (hiện nay là phiên bản FineReader 12) có thể nhận dạng được 190 ngôn ngữ trên thế giới [19]; sản phẩm OmniPage của Nuance nhận dạng được trên 119 ngôn ngữ khác nhau [21]; sản phẩm VnDOCR nhận dạng chữ Việt in của Viện Công nghệ thông tin-Viện Khoa học và Công nghệ Việt Nam; sản phẩm VietOCR nhận dạng chữ in tiếng Việt là chương trình mã nguồn mở do người Việt phát triển sử dụng bộ nhận dạng Tessecract,

Trang 23

Mô hình tổng quát của một hệ nhận dạng chữ [26] như hình 2.1

Hình 2.1 Sơ đồ tổng quát của một hệ thống nhận dạng OCR

Các tài liệu giấy (chữ in hoặc chữ viết tay) được chuyển thành các file ảnh bằng máy quét Các ảnh quét đó là đầu vào cho quá trình nhận dạng OCR Tiếp theo là bước tiền xử lý ảnh quét, bước tiền xử lý thực hiện một số chức năng như: nhị phân hóa ảnh, lọc nhiễu, chuẩn hóa kích thước ảnh, làm trơn biên chữ, làm đầy chữ, điều chỉnh độ nghiêng văn bản Bước phân đoạn thực hiện việc việc tách từng ký tự ra khỏi ảnh văn bản như tách dòng, tách từ, tách kí tự Với mỗi ảnh ký tự, khâu trích chọn đặc trưng phân tích ảnh ký tự tìm ra đặc trưng riêng của ký tự đó Các đặc trưng đã được lựa chọn trong bước trích chọn đặc trưng được sử dụng cho việc huấn luyện và nhận dạng ở bước tiếp theo Đầu ra của quá trình nhận dạng có thể bị lỗi, bước hậu xử lý sẽ thực hiện việc ghép nối các kí tự đã nhận dạng thành các từ, các câu, các đoạn văn để tái hiện lại văn bản, đồng thời sửa lỗi đảm bảo kết quả nhận dạng tốt nhất Tất cả các bước thực hiện trên đều quan trọng, nhưng bước quan trọng nhất quyết định độ chính xác của nhận dạng là trích chọn đặc trưng và phân lớp Thuật toán phân lớp là yếu tố

có vai trò quyết định đến chất lượng của một hệ thống nhận dạng

Các phương pháp nhận dạng truyền thống như đối sánh mẫu, nhận dạng cấu trúc đã được ứng dụng khá phổ biến trong các hệ thống nhận dạng và cũng

đã thu được những thành công nhất định Tuy vậy, với những trường hợp văn bản đầu vào có chất lượng không tốt (nhiễu, đứt nét, dính nét ) thì các thuật toán này tỏ ra không hiệu quả Để khắc phục điều này, trong những năm gần đây nhiều nhóm nghiên cứu đã sử dụng các thuật toán phân lớp dựa trên mô hình

Trích chọn đặc trưng

Phân lớp Hậu xử lý

Văn bản đã

nhận dạng

Trang 24

SVM [12] , mô hình Markov ẩn HMM [11], mô hình mạng nơron ANN [13] cho các bài toán nhận dạng nói chung và nhận dạng chữ nói riêng

2.1.2 Kỹ thuật nhận dạng dựa trên mô hình máy vectơ hỗ trợ (SVM)

Máy vectơ hỗ trợ (Support vector machine – SVM) là một phương pháp phân lớp dựa trên lý thuyết học thống kê, được đề xuất bởi V.Vapnik và các đồng nghiệp của ông [15] vào những năm 1970 ở Nga, và sau đó đã trở nên nổi tiếng và phổ biến vào những năm 1990 SVM là một phương pháp phân lớp tuyến tính với mục đích xác định một siêu phẳng để phân tách hai lớp của dữ liệu, ví dụ lớp các ví dụ có nhãn dương và lớp các ví dụ có nhãn âm Có thể mô

tả một cách đơn giản về bộ phân lớp SVM như sau: cho trước 2 tập dữ liệu học, mỗi tập thuộc về một lớp cho trước, bộ phân lớp SVM sẽ xây dựng mô hình phân lớp dựa trên 2 tập dữ liệu này Khi có một mẫu mới được đưa vào, bộ phân lớp sẽ đưa ra dự đoán xem mẫu này thuộc lớp nào trong 2 lớp đã định Các hàm nhân (kernel functions)-cũng được gọi là các hàm biến đổi, được dùng cho trường hợp phân lớp phi tuyến

Nếu biểu diễn tập D gồm r các ví dụ huấn luyện như sau D={(x1,y1), (x2,y2), (xr, yr)} thì mỗi xi chính là một vectơ đầu vào được biểu diễn trong không gian XÍRn và yi là một nhãn lớp (giá trị đầu ra) chỉ nhận 2 giá trị là -1 hoặc 1 (lớp âm hoặc lớp dương) Khi đó SVM xác định một hàm phân tách tuyến tính f(x)=<w.x>+b, trong đó w là vectơ trọng số các thuộc tính, b là một giá trị số thực Mặt siêu phẳng phân tách các ví dụ huấn luyện lớp dương và các

ví dụ huấn luyện lớp âm là <w.x>+b=0 được thể hiện ở hình 2.3.a

Hình 2.2.b Siêu phẳng tối ưu và biên

lề tương ứng, các vectơ hỗ trợ.

Hình 2.2.a Các lớp phân

tách tuyến tính.

Trang 25

Tuy nhiên trên thực tế có thể tìm được vô số những mặt siêu phẳng phân tách trên cùng một tập dữ liệu thì khi đó ta chọn mặt siêu phẳng phân tách có lề cực đại (Hình 2.3.b) Quá trình học SVM nhằm cực đại hóa mức lề

Trong hình 2.6.b, giả sử rằng tập các ví dụ huấn luyện có thể phân tách được một cách tuyến tính Xét một ví dụ của lớp dương (x+,1) và một ví dụ của lớp âm (x-,1) gần nhất đối với siêu phẳng phân tách H0 (<w.x>+b=0) Mức lề (margin) là khoảng cách giữa 2 siêu phẳng lề H+ (<w.x>+b=1) và H-(<w.x>+b=-1) trong đó H+ đi qua x+ và song song với H0, H- đi qua x- và song song với H0, d+ là khoảng cách giữa H+ và H0; d- là khoảng cách giữa H- và H0, thì (d+ + d-) chính là lề (margin) Theo lý thuyết đại số vectơ, khoảng cách từ một điểm xi đến mặt siêu phẳng <w.x>+b=0 là w

Trang 26

SVM học một phân lớp nhằm cực đại hóa mức lề tương đương với việc giải quyết bài toán tối ưu bậc 2 sau: Tìm w và b sao cho margin = 2

w đạt cực đại với điều kiện:

SVM có một nền tảng lý thuyết chặt chẽ, dựa trên nhiều định lý toán học,

nó là một phương pháp phù hợp đối với những bài toán phân lớp có không gian biểu diễn thuộc tính lớn – các đối tượng cần phân lớp được biểu diễn bởi một tập rất lớn các thuộc tính SVM được biết đến là một trong số các phương pháp phân lớp tốt nhất đối với bài toán phân lớp văn bản SVM cơ bản dùng cho hai lớp Để có thể dùng cho nhiều lớp thì ta phải kết hợp nhiều bộ phân loại hai lớp hoặc xây dựng SVM cho nhiều lớp Cách tiếp cận để giải bài toán phân loại k lớp SVM là one-versus – the –rest (OVR) dùng k bộ nhận dạng và cách tiếp cận one-versus-one (OVO) dùng k(k-1)/2 bộ SVM [22]

Mặc dù SVM được đánh giá là một hướng tiếp cận phân lớp đạt độ chính xác cao nhưng có hạn chế là với số lớp nhận dạng quá lớn đòi hỏi bộ nhớ lớn và thời gian huấn luyện rất lớn

2.1.3 Kỹ thuật nhận dạng dựa trên mô hình Markov ẩn (HMM)

Mô hình Markov ẩn (Hiden Markov Model - HMM) được giới thiệu vào cuối những năm 1960 và là một trong những mô hình học máy quan trọng nhất ứng dụng trong xử lý ngôn ngữ tự nhiên và nhận dạng Mô hình này là trường hợp mở rộng của máy hữu hạn trạng thái có hướng, có trọng số HMM thường được dùng để xử lý những sự kiện không quan sát trực tiếp được (sự kiện ẩn) HMM là một mô hình xác suất hữu hạn trạng thái theo kiểu phát sinh tiến trình bằng cách định nghĩa xác suất liên kết trên các chuỗi quan sát Mỗi chuỗi quan sát được sinh ra bởi một chuỗi các phép chuyển trạng thái, bắt đầu từ trạng thái khởi đầu cho đến khi thu được trạng thái kết thúc Tại mỗi trạng thái thì một phần tử của chuỗi quan sát được phát sinh ngẫu nhiên trước khi chuyển sang trạng thái tiếp theo Các trạng thái của HMM được xem là ẩn bên trong mô hình

vì tại mỗi thời điểm chỉ nhìn thấy các kí hiệu quan sát còn các trạng thái cũng như sự chuyển đổi trạng thái được vận hành ẩn bên trong mô hình Đặc biệt, mô hình Markov ẩn đã được sử dụng rất thành công trong lĩnh vực nhận dạng tiếng

i i

< > + ³ì

í< > + £

-î

, nếu y i =1 , nếu y i =-1 ; với mọi ví dụ huấn luyện x i (i=1 r)

Trang 27

nói [25] Chính sự thành công này đã mở ra một hướng tiếp cận mới trong lĩnh vực nhận dạng ảnh văn bản ví dụ như nhận dạng chữ [11]

Mô hình Markov ẩn là mô hình thống kê, các thành phần của mô hình bao gồm:

· Tập N trạng thái S 1 , S 2 , , S N , trạng thái ở “thời điểm” t, q t = S i

· Ma trận xác suất chuyển trạng A =[ aij ], aij biểu diễn xác suất dịch

chuyển từ trạng thái i tới trạng thái j, (a ij ≡ P(q t+1 =S j | q t =S i ) với a ij

≥ 0 và ∑ 1 ∀

· Dãy gồm T quan sát O = O 1 O 2 …O T lấy trong tập các kí hiệu quan sát tập V = v1v2…vM

· Dãy các khả năng quan sát (Observation Likehood) B = b j (m ), biểu thị

xác suất của quan sát vm ở thời điểm t (Ot =v m ) được sinh ra từ trạng

thái ở thời điểm t, q t =S j , b j (m) ≡ P(O t =v m | q t =S j ), ∑ b 1

· Xác suất khởi tạo πi ≡ P(q1=S i) , trong đó ∑ π 1

Một mô hình HMM với N trạng thái {S 1 , ,S n } được kí hiệu là λ=(A,B,π)

Mô hình λ hoạt động khi cho chuỗi dữ liệu đầu vào O = O 1 O 2 O T (chuỗi quan sát)- đây là dữ liệu trích rút đặc trưng từ ảnh kí tự cần nhận dạng trong nhận dạng ảnh văn bản Với mô hình hoạt động như vậy (thể hiện bằng lưới ở hình 2.4), chúng ta có khả năng nhận dạng tín hiệu được sinh ra từ các tiến trình ở hình lưới hoặc tiên đoán chuỗi quan sát trong tương lai gần đúng nhất khi cho trước một dãy quan sát cục bộ nào đó

Hình 2.4 Lưới các chuỗi trạng thái, các tiến trình Markov với dãy quan sát O 1 , ., O T

Trang 28

Ở hình 2.4, mỗi HMM có thể sinh ra một chuỗi các kí hiệu đầu ra, các kí hiệu này quan sát được, chuỗi trạng thái sinh ra quan sát này là ẩn Các trạng thái trong mô hình HMM được xem là bị ẩn đi

Hai vấn đề chính của HMM để nó có thể ứng dụng trong hệ thống nhận dạng (JeffBilmes, 2002):

- Vấn đề 1: Nhận dạng Cho chuỗi quan sát O= O 1 , O 2 , , O T và một mô hình HMM l Tính xác suất P(O|l) của chuỗi O trên mô hình đó

- Vấn đề 2: Huấn luyện Làm thế nào điều chỉnh các tham số của mô hình l để P(O|l) cực đại, nghĩa là tối ưu hóa l

Khi đó có thể áp dụng mô hình HMM nhận dạng ảnh kí tự, với mỗi kí tự sau khi qua khâu trích rút đặc trưng thu được vec tơ p chiều, vec tơ đặc trưng

này được biến đổi thành dãy quan sát O 1 , O 2 , , O T

Ưu điểm của HMM khi nhận dạng là đầu vào không cần các mẫu có số lượng các khung bằng nhau; quá trình học có thể tổng hợp tất cả các mẫu khác nhau của cùng một lớp để đưa ra mô hình chung cho các mẫu học Hạn chế của

mô hình Markov là khó để phân lớp dữ liệu vì để tính được xác suất P(Y,X) thông thường ta phải liệt kê hết các trường hợp có thể của chuỗi Y và chuỗi X Thực tế thì chuỗi Y là hữu hạn có thể liệt kê được, còn X (các dữ liệu quan sát)

là rất phong phú Để giải quyết các vấn đề này HMM đưa ra giả thiết về sự độc lập giữa các dữ liệu quan sát: dữ liệu quan sát được tại thời điểm t chỉ phụ thuộc vào trạng thái tại thời điểm đó

2.1.4 Kỹ thuật nhận dạng dựa trên mô hình mạng nơ ron (ANN)

Mạng Neuron nhân tạo (Artificial Neural Network- ANN) là mô hình xử

lý thông tin được mô phỏng dựa trên hoạt động của hệ thống thần kinh của sinh vật, bao gồm số lượng lớn các Neuron được gắn kết để xử lý thông tin ANN giống như bộ não con người, được học bởi kinh nghiệm (thông qua huấn luyện),

có khả năng lưu giữ những kinh nghiệm hiểu biết (tri thức) và sử dụng những tri thức đó trong việc dự đoán các dữ liệu chưa biết

Cấu trúc của một mô hình mạng nơron bao gồm nhiều nút (đơn vị xử lý, nơron) được nối với nhau bởi các liên kết nơron (hình 2.5)

Trang 29

Hình 2.5 Mô hình một nơron nhân tạo

Mỗi liên kết kèm theo một trọng số liên kết wij đặc trưng cho đặc tính kích hoạt/ức chế các nơron Có thể xem các trọng số liên kết là để lưu giữ thông tin dài hạn trong mạng nơron và nhiệm vụ của quá trình huấn luyện mạng là cập nhật các trọng số liên kết khi có thêm các thông tin về các mẫu học, hay nói một cách khác là các trọng số liên kết được điều chỉnh sao cho dáng điệu vào ra của

nó mô phỏng hoàn toàn phù hợp với môi trường đang xét

Hiện nay, các loại mạng nơron thông dụng gồm có: mạng truyền thẳng, mạng hồi quy, mạng tự tổ chức Thực tế cho thấy mô hình mạng nhiều lớp truyền thẳng Perceptron-MLP (Multi Layer Perceptron) là mô hình phổ biến, được sử dụng rộng rãi trong các hệ thống nhận dạng như nhận dạng kí tự quang học [13], nhận dạng tiếng nói

Hình 2.6 Mạng MLP trong nhận dạng kí tự quang học

Hình 2.6 là mạng MLP có 3 lớp: lớp vào có 150 nút tương ứng 150 điểm ảnh của vec tơ ma trận pixel của mỗi kí tự trích chọn đặc trưng, lớp ẩn có 250 nơron và lớp ra có 16 nơron tương ứng với 16 bit nhị phân của giá trị Unicode của các kí tự

Trang 30

Quá trình huấn luyện là quá trình học với mẫu huấn luyện là cặp vectơ (x={x1, ,xn};t={t1, ,tn}) để điều chỉnh tập trọng số liên kết, trong đó x là vectơ đặc trưng n chiều của mẫu cần nhận dạng, t là giá trị mục tiêu tương ứng của mẫu đó Giải thuật huấn luyện của mạng MLP cho nhận dạng kí tự thường là giải thuật lan truyền ngược sai số thể hiện qua hai quá trình:

Quá trình truyền thẳng : các đầu vào sẽ được cung cấp cho các nơron của mạng và tín hiệu sẽ được lan truyền lần lượt trên từng lớp mạng để thay đổi giá trị của trọng số liên kết w của các nơron trong mạng biểu diễn được dữ liệu học; tìm ra sự khác nhau giữa giá trị thật hàm mẫu mà mạng tính được và kết quả dự đoán của mạng

Quá trình lan truyền ngược sai số và cập nhật các tham số của mạng Thông tin về sai số được lan truyền ngược qua mạng để điều chỉnh lại các giá trị trọng số tại vòng lặp thứ i, và được thực hiện lặp đi lặp lại cho đến khi sai số đạt được ≤ sai số tối thiểu của mạng (đã được xác định)

Sau khi mạng được huấn huấn thành công, các tri thức tích luỹ được trong quá trình luyện mạng (các ma trận trọng số, các tham số tự do, ) sẽ được cập nhật vào cơ sở tri thức để sử dụng trong quá trình nhận dạng

Ưu điểm của mạng nơron là dễ cài đặt cùng với khả năng học và tổng quát hóa rất cao Nhược điểm là khi dùng mạng Neural huấn luyện, kích thước về số chiều của vector đầu vào của các mẫu chữ phải là như nhau Do đó trước khi đưa vào mạng Neural để huấn luyện, mẫu học phải qua quá trình chuẩn hoá Hơn nữa, nếu đặc trưng trích chọn không tốt sẽ dẫn đến quá trình hội tụ khi huấn luyện mạng Nơron sẽ rất lâu

2.1.5 Cách tiếp cận nhận dạng OCR của FSCANNER

Hiện nay đã có nhiều sản phẩm nhận dạng chữ in tiếng Việt, được giới thiệu tại mục 1.2.1 trong luận văn Trong đó, sản phẩm của ABBYY cho độ chính xác cao hơn cả Hệ thống FSCANNER đã sử dụng API có sẵn của ABBYY cho phát triển sản phẩm thương mại, tuy nhiên giá thành sản phẩm của ABBYY cao

Định dạng
Số trang	61
Dung lượng	9,99 MB

Các kỹ thuật xử lý ngôn ngữ trong số hóa văn bản tiếng việt của hệ thống FSCANNER

Mô hình ngôn ngữ N-gram

Giới thiệu về metadata và chuẩn DublinCore