Nghiên cứu nâng cấp chất lượng công nghệ nhận dạng và sửa lỗi cho phần mềm docpro

ĐẠI HỌC QUỐC GIA HÀ NỘI BÁO CÁO TỔNG KẾT KẾT QUẢ THỰC HIỆN ĐỀ TÀI KH&CN CẤP ĐẠI HỌC QUỐC GIA Tên đề tài: Nghiên cứu nâng cấp chất lượng công nghệ nhận dạng và sửa lỗi cho phần mềm DocP

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

BÁO CÁO TỔNG KẾT KẾT QUẢ THỰC HIỆN ĐỀ TÀI KH&CN

CẤP ĐẠI HỌC QUỐC GIA

Tên đề tài: Nghiên cứu nâng cấp chất lượng công nghệ nhận dạng và sửa lỗi cho phần mềm DocPro

Mã số đề tài: QG.15.67

Chủ nhiệm đề tài: TS Vũ Duy Linh

Hà Nội, 2017

Trang 2

1

PHẦN I THÔNG TIN CHUNG

1.1 Tên đề tài: Nghiên cứu nâng cấp chất lượng công nghệ nhận dạng và sửa lỗi cho phần mềm DocPro

1.2 Mã số: QG.15.67

1.3 Danh sách chủ trì, thành viên tham gia thực hiện đề tài

TT Chức danh, học vị, họ và tên Đơn vị công tác Vai trò thực hiện đề tài

2 TS Nguyễn Văn Đoàn Viện CNTT Thành viên thực hiện chính

3 ThS Nguyễn Thị Ngọc Hân Viện CNTT Thành viên thực hiện chính

4 ThS Phan Huy Anh Viện CNTT Thành viên thực hiện chính

1.4 Đơn vị chủ trì:

Tên đơn vị chủ trì : Viện CNTT ĐHQG Hà Nội

Điện thoại: 04.3.37547547 Fax:

E-mail: iti@vnu.edu.vn

Website: http:// iti.vnu.edu.vn

Địa chỉ: E3, 144 Xuân Thủy, Cầu Giấy, Hà Nội

1.5 Thời gian thực hiện:

1.5.1 Theo hợp đồng: 12 tháng từ 04/12/2015 tới 4/12/2016

1.5.2 Gia hạn (nếu có): đến tháng 6/2017

1.5.3 Thực hiện thực tế: từ tháng 6 năm 2016 đến tháng 6 năm 2017

1.6 Những thay đổi so với thuyết minh ban đầu (nếu có):

(Về mục tiêu, nội dung, phương pháp, kết quả nghiên cứu và tổ chức thực hiện; Nguyên

nhân; Ý kiến của Cơ quan quản lý)

1.7 Tổng kinh phí được phê duyệt của đề tài: 200 triệu đồng

Trang 3

2

PHẦN II TỔNG QUAN KẾT QUẢ NGHIÊN CỨU

Viết theo cấu trúc một bài báo khoa học tổng quan từ 6-15 trang (báo cáo này sẽ được đăng trên tạp chí khoa học ĐHQGHN sau khi đề tài được nghiệm thu), nội dung gồm các phần:

1 Đặt vấn đề

Công nghệ OCR (Optical Character Recognition) đã và đang được nghiên cứu và phát triển rất mạnh trên thế giới cũng như ở Việt Nam Hiện tại công nghệ OCR của ABBYY [1] đang là sản phẩm có chất lượng số 1 trên thế giới với khả năng nhận dạng gần

200 ngôn ngữ, trong đó có tiếng Việt Tại Việt Nam VnDOCR [2] cũng có những ưu điểm nhất định cho việc nhận dạng chữ in tiếng Việt

Trong nhiều năm qua, nhóm nghiên cứu về nội dung số của Viện CNTT-ĐHQGHN bao gồm TS Vũ Duy Linh và TS Nguyễn Văn Đoàn đã nghiên cứu và hoàn thiện công nghệ số hóa văn bản và hỗ trợ nhận dạng tiếng Việt, công nghệ này được nhóm nghiên cứu tích hợp vào hệ thống số hóa, quản trị tài liệu DocPro với công ty FSI, một công ty đứng đầu Việt Nam trong lĩnh vực số hóa tài liệu và giải pháp phần mềm

Cùng với sự phát triển của lĩnh vực số hóa thì các vấn đề xung quanh cũng nảy sinh,

đó là dung lượng lưu trữ, chất lượng file scan đầu vào Đối với các công nghệ OCR hiện tại tiêu chuẩn đầu vào của file ảnh phải ở mức 300dpi [3][4][5], điều này dẫn tới dung lượng lưu trữ tương đối lớn Ngoài ra file đầu vào cần phải scan rõ ràng, ít bị nhiễu

Chính vì vậy đề tài này đi vào việc nghiên cứu giải pháp để có thể nhận dạng các files có chất lượng scan thấp, kết hợp với việc xử lý ngôn ngữ tự nhiên nhằm nâng cao chất lượng của công nghệ nhận dạng chữ viết tiếng Việt, trích xuất thông tin tự động và tích hợp

vào Hệ thống quản trị tài liệu thông minh DocPro

2 Mục tiêu

Nghiên cứu và nâng cao chất lượng công nghệ nhận dạng và xử lý ngôn ngữ tự nhiên nhằm hoàn thiện hệ thống quản trị tài liệu thông minh DocPro

- Tích hợp công nghệ nhận dạng vào hệ thống DocPro

- Tích hợp công nghệ xử lý ngôn ngữ tự nhiên, trích xuất thông tin tự động từ các văn bản

- Hoàn thiện sản phẩm DocPro và tham dự giải thưởng Sao Khuê

Trang 4

3

3 Phương pháp nghiên cứu

Nghiên cứu các thuật toán xử lý, xây dựng thử nghiệm, đánh giá kết quả, tối ưu kết quả

4 Tổng kết kết quả nghiên cứu

4.1 Nâng cao chất lượng công nghệ nhận dạng và xử lý ngôn ngữ tự nhiên

Để nâng cao chất lượng nhâ ̣n da ̣ng chữ viết, nhóm nghiên cứu đề xuất giải pháp dưới đây

Giải pháp đề xuất:

Hình 1 Giải pháp nâng cao chất lượng nhận dạng chữ viết tiếng Việt

Bước 1: Đầu vào là file tài liệu

Bước 2: Xác định các thuộc tính của file như độ phân giải, kích cỡ các dòng text, độ nét, sáng tối, phông nền

Bước 3: Xử lý file với các thuật toán như nâng độ phân giải lên 300dpi, xác định các dòng text có size nhỏ để tăng độ lớn, xử lý phông nền, xử lý độ nét …

Bước 4: Sau khi xử lý file đầu ra sẽ được tiến hành OCR, sửa lỗi tiếng Việt

Sơ đồ thuâ ̣t toán như sau:

Trang 5

4

Hình 2 Thuật toán nâng cao chất lượng nhận dạng chữ viết tiếng Việt

Mô hình chuyển đổi file sang 300dpi:

Input file

Chia file thành các page nhỏ dạng ảnh

Tiền xử lý ảnh nâng cao chất lượng

Chuyển sang dpi

Hình 3 Mô hình chuyển đổi file sang 300dpi

Bước 1: Với file input đầu vào ta cần chia nhỏ thành các ảnh

Bước 2: áp dụng các thuật toán tiền xử lý nâng cao chất lượng file ảnh

Bước 3: Chuyển sang độ phân giải 300dpi

Mô hình chuyển đổi kích thước cỡ chữ:

Trang 6

5

Input file

Xác định các dòng text có size nhỏ

Tăng kích thước

Hình 4 Mô hình chuyển đổi các dòng text có kích cỡ nhỏ

Bước 1: Xác định các dòng text có kích cỡ nhỏ bằng phương pháp chiếu dọc và ngang Từ

đó tính toán được tỉ lệ chiều cao và rộng của text trên ảnh

Bước 2: Với các dòng text có kích cỡ nhỏ hơn mức định nghĩa (OCR không thể nhận dạng)

sẽ tăng kích thước cho vùng đó, đồng thời áp dụng các phương pháp nâng cao chất lượng ảnh sau khi điều chỉnh

Bước 3: Nhận dạng vùng text đã chỉnh sửa kích cỡ

Các phương pháp xử lý ảnh:

Xử lý ảnh là bước cần thiết để nâng cao chất lượng ảnh nhằm hoàn thiện một số đặc tính của ảnh Trong các thuật toán nâng cao chất lượng ảnh người ta thường sử dụng các kỹ thuật trong miền điểm, không gian và tần số Trong đó, toán tử điểm là phép biến đổi đối với từng điểm ảnh đang xét, không liên quan đến các điểm lân cận khác; toán tử không gian

sử dụng các điểm lân cận để quy chiếu tới điểm ảnh đang xét Miền tần số chủ yếu được sử dụng để thực hiện một số phép biến đổi có tính toán phức tạp sau đó kết quả được biến đổi trở lại miền không gian

Các phương pháp xử lý ảnh được sử dụng trong thuật toán nâng cao chất lượng nhận dạng chữ viết tiếng Việt bao gồm:

a Tăng độ tương phản (Stretching Contrast):

Các cấp độ α, β, γ xác định độ tương phản tương đối L là số mức xám cực đại Các tham số a và b (các cận) có thể chọn khi xem xét lược đồ xám của ảnh

b Tách nhiễu và phân ngưỡng:

Trang 7

6

Trong đó a = b = t gọi là phân ngưỡng Tách nhiễu là trường hợp đặc biệt của dãn độ tương phản khi hệ số góc α = β = 0 Tách nhiễu được ứng dụng có hiệu quả để giảm nhiễu khi biết tín hiệu vào khoảng [a, b] Phân ngưỡng là trường hợp đặc biệt của tách nhiễu khi a

= b = const

c Cắt theo mức (Intensity Level Slicing):

Kỹ thuật này dùng 2 phép ánh xạ khác nhau cho trường hợp có nền và không nền

Trang 8

7

h T (x,y,k,l) = h -1 (x,y,k,l)

f Khôi phục ảnh bằng phương pháp bình phương tối thiểu:

Mô hình nhiễu ở dạng vector và ma trận:

v = Hu + η hay η = v – Hu

Trong đó: u, v, η là các vector ảnh thật, vector ảnh ghi được, vector nhiễu tương ứng;

H là ma trận hàm truyền của hệ thống

Nếu không nhiễu (η = 0), cần chọn u sao cho Hu xấp xỉ theo v theo nghĩa bình

phương tối thiểu Với cách lập luận như vậy, chúng ta có thể xây dựng hàm mục tiêu:

y( ) = ||η|| 2 = ||v - H || 2 min

Trong đó:

||η|| 2 = η T η; ||v - H || 2 = (v - H ) T (v - H )

Nhằm nâng cao độ chính xác của kết quả nhận dạng tiếng Việt, đề tài đã sử dụng các

kỹ thuật tự động phát hiện lỗi và sửa lỗi tiếng Việt Các kỹ thuật này được mô tả trong [6]

Ngoài ra, trích xuất thông tin văn bản hành chính theo thuật toán sau:

Trang 9

8

Hình 5 Thuật toán trích xuất thông tin Văn bản hành chính

Ảnh đầu vào sau khi nâng cao chất lượng sẽ được phân tích thành các khối, sau đó các khối sẽ được nhận dạng OCR Kết quả nhận dạng này được phân tích các thông tin như

vị trí của khối, nội dung của khối để trích xuất thông tin cần thiết Nếu kết quả trích xuất trang đầu tiên chưa có trường thông tin Nơi nhận thì sẽ tiến hành phân tích và nhận dạng trang tiếp theo

Kết quả thử nghiệm:

Thử nghiệm với file 100 files với độ phân giải 100dpi, kết quả nhận dạng thu được với độ chính xác > 85% Ví dụ đối với tài liệu:

Trang 10

9

Hình 6 Ví dụ file 100dpi dùng để nhận dạng Kết quả nhận dạng TRƯỚC khi áp dụng “Giải pháp nâng cao chất lượng nhận dạng chữ viết tiếng Việt” nêu trên:

Kết quả nhận dạng SAU khi áp dụng “Giải pháp nâng cao chất lượng nhận dạng chữ viết tiếng Việt” nêu trên:

Rõ ràng chất lượng nhận dạng tiếng Việt được cải thiện với độ chính xác cao

Kết quả nhận dạng khi dùng VnDOCR:

đơn vị có liên quan chiu trách nhiệm thi hành Quyết định này l

QUYET ĐỊNH:

mề… x Ban hành kèm …… Quyết định này Chương trình xây dựng văn bản quy phạm pháp

…ẹxz năm của Bộ cũng ngh p

mà… 2 Thủ trường các … v| được giau nhiệm vụ chu … xây dựng văn bản quy phạm pháp

luận [xong Chương lanh này có nách nhiệm_ phối hợp với … cơ quan n… vi có liên quan chuẩn bi dv cháu văn bản trình … quan có nhà… quyền theo đúng thời gian quy đình

Diều ] Chánh Văn ph`ng Bọ, cm…n Thanh ua Bộ, các Vụ [mừng Cuc trường thuộc Bộ

Viện [mòng Viện Nghi cứu Chiến lược, Chính ch Cũng nghiệp Thủ trưởng các ta quan đau vì «› liên quan chịu trách nhiệm \hi hành Quyết đinh này/

Trang 11

10

Hình 7 Kết quả nhận dạng file 100dpi khi dùng VnDOCR

Kết quả nhận dạng khi dùng ABBYY:

Kết quả nhận dạng khi dùng Tesseract:

Diều 3 Chánh Văn phòng Bộ, Chánh Thanh tra Bộ, các Vụ trưởng, Cục trưởng thuộc Bộ, Viện trưởng Viện Nghiên cứu Chiến lược, Chính sách Công nghiệp, Thủ trường các cơ quan, đơn vị có liên quan chịu trách nhiệm thi hành Quyêt định này./

Trang 12

11

Như vậy, đối với văn bản hành chính thì IONE cho kết quả có độ chính xác cao hơn VnDOCR, Tesseract và gần bằng ABBYY

Đối với Chứng minh nhân dân, ví dụ đối với file sau:

Hình 8 Ví dụ file Chứng minh thư dùng để nhận dạng

Kết quả nhận dạng Chứng minh thư của IONE:

Kết quả nhận dạng Chứng minh thư của VnDOCR: Không nhận dạng được

Kết quả nhận dạng Chứng minh thư của ABBYY:

mèn 3 chánh văn ph`ng aụ, cm…n ra… an Bỏ, các vu lmởng Cuc trường thuộc Bộ

Viện Irưòng Vlện Nghi cứu Chỉển lược, can… ch ceng nghiệp Thủ trưởng các cụ quan đau vì có liên quan chìu trách nhiệm mi hành Quyết đinh nàyl

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

Nguyên quán: Ho ̂̀ ng Phong, Vũ Thư, Thá i Bî̀ nh

Nơi ĐKHK thường trú: Ho ̂̀ ng Phong, Vũ Thư, Thá i Bî̀ nh

Trang 13

12

Kết quả nhận dạng Chứng minh thư của Tesseract:

Như vậy nhận dạng Chứng minh thư của IONE tốt hơn hẳn VnDOCR, Tesseract, ABBYY Đối với văn bản bị nhiễu do nền hoa văn, và các dấu chấm, ví dụ như:

Hình 9 Ví dụ ảnh văn bản có nền hoa văn và dấu chấm

Kết quả nhận dạng của IONE:

` ỔỌNG HÒA xÂ HỘI cmũ NGHĨA ViỆT NAM `{_

Đgggg-fudg Hg`nhghúc ị

miỉv quá… mi… tư" tới

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Ị; ;ìị-'Đôc lập “ Tự do - Hạnh phtifeffigO':

IgIẨỲ CHỨNG minh MHÂN dân

Trang 14

13

Kết quả nhận dạng của VnDOCR: không chạy, do VnDOCR chỉ làm việc với ảnh đen trắng Kết quả nhận dạng của ABBYY:

Kết quả nhận dạng của Tesseract:

Nhà xưởng Công tỵ cổ phận Bạo bì Đại Hoàng Hà

Địa điểm xây dựng: SỌ.B8/36 H.ựng.Nhơn, Ập.2,.xậ.T.ận.K.iệní.huỵệxiBình Chánh

Chủ đầu tư/chủ phương tiện: Cồng.ty.Cổ.p.hần.B.a.Q.bì.Đ.ạiHQàxtg.Hà

Đơn vị lập dự án/thiết kế: C.Ộjng ty TNHHMT.Y.H.CrK.T Thăng.Long

Đã được thẩm duyệt thiết kế về phòng cháy và chữa cháy các nội dung sau:

- Bậc chịu lửa, giải pháp ngăn cháy,, giao thông phục vụ chữa cháy, Ịọi thọát nạn;

- Hệ thống họng nước chữa cháỵ trong nhà, chữa cháy tự động Sprinkler, bình chữa cháy;

- Hệ thống báo cháy tự động, đèn chiếu sáng sự cọ,, đèn chỉ dẫn thoát nan;

- Hệ thống chống sét đánh thẳng

Nhà xưởng Công ty Cổ phần Bao bì Đại Hoàng Hà

Đĩa diêm xây dưng SỔ 88/36 Hưng Nhợil…AP 2… xã Tân Kiên hnyêanh Chanh

Chủ đâu tư/chủ phương tiện Công ty Cô phần Bao bì Đội Hoàng, Ha

Đơn vi lâp dư ản|thiêt kê Công ty TNHH MTV HC—KT Thăng Long

Đã được thăm duyệt thlêt kê vê phòng cháy va chữa chay cac nộ1 dung sau:

— Bậc chiu lửa, giải pháp ngăn chảy, giao thông phục vụ chữa cháy, lối thoát mạng

— Hệ thông họng nước chữa chay trong nha, chữa chay tự động Sprmkler, bmh chữa cháy2

— Hệ thông bao chay tự động, đen Chlêu sáng sự cô, đen ch1 dẫn thoát nạn,

- Hệ thông chông set đanh tháng

Trang 15

14

Như vậy, đối với những văn bản loại này IONE cũng cho kết quả tốt hơn các công nghệ khác

Trong quá trình thực nghiệm, chúng tôi có bảng so sánh đánh giá như sau Đối với công nghệ nhận dạng chữ viết:

Sản phẩm Công nghệ

nhận dạng tiếng việt (%)

Công nghệ trích xuất thông tin

Định nghĩa mẫu bóc tách

Tốc độ xử lý (giấy/trang)

Phân loại tài liệu tự động

form mẫu

phải theo mẫu định sẵn

IONE (Viện

CNTT)

động

Bảng 1 So sánh công nghệ IONE với các công nghệ nhận dạng

Đối với các hệ thống phần mềm tương tự như DocPro:

Hệ thống

phần mềm

Công nghệ nhận dạng

Công nghệ trích xuất

Định nghĩa mẫu bóc

Bóc tách thông tin

Phân loại tài liệu tự

Địa điểm xây dựng: số B8/36 Hưng Nth Áp ?… xặ Iân Kiên huỵện.Bình Chánh uuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu Chủ đầu tư/chủ phương tiện: Gímg ty .Cố phần B an bì Đ.aiHaàngHà

Đon vị lập dự án/thiết kế: C.ôneg…TNffl M.T.V.HCẹKI.ThăngLong

Đã được thẩm duyệt thiết kể về phòng cháy và chữa cháy các nội dung sau: '

Trang 16

EdocMan

Alfresco

Bảng 2 So sánh hệ thống DocPro với các phần mềm khác

4.2 Tích hợp công nghệ nhận dạng vào Hệ thống DocPro

Từ năm 2013 nhóm nghiên cứu phòng Nội Dung Số của Viện CNTT-ĐHQGHN bao bồm TS Vũ Duy Linh và TS Nguyễn Văn Đoàn đã phối hợp cùng với các nhà nghiên cứu, doanh nghiệp bắt tay vào nghiên cứu và xây dựng công nghệ nhận dạng và bóc tách thông tin tự động Công nghệ này được gọi là công nghệ IONE (Intelligent OCR and Extract information) Hiện tại công nghệ nhận dạng và trích xuất thông tin đã đạt được những kết quả tốt về chất lượng (95%), tốc độ (6s/trang) và có tính thực tiễn cao đặc biệt cho ngôn ngữ tiếng Việt Đặc biệt tại Việt Nam chưa thực sự có một hệ thống, sản phẩm phần mềm nào thực hiện được việc trích xuất thông tin tự động số hóa tài liệu từ nhận dạng tiếng việt sau

đó tách bộ và lập chỉ mục Tất cả các sản phẩm mới chỉ dừng lại ở mục làm thủ công

Một số hệ thống quản trị nội dung tại Việt Nam: Tại việt nam các hệ thống quản trị nội dung đa phần phát triển lại từ nguồn mở như EcoECM phát triển từ Alfresco [7], các hệ thống khác được xây dựng trên nền tảng Sharepoint, eDocman của tập đoàn CMC [8] Các

hệ thống này cũng không được tích hợp hệ thống nhận dạng cũng như xử lý tiếng Việt

Một hệ thống quản trị nội dung và tự động bóc tách thông tin tài liệu là hoàn toàn cần thiết đối với Việt Nam hiện nay Việc kết hợp công nghệ nhận dạng OCR cùng với các công nghệ xử lý tiếng việt của Viện CNTT chắc chắn sẽ tạo ra hệ thống thực sự có lợi ích cho việc số hóa và quản trị tài liệu tại Việt Nam

Công nghệ IONE:

Công nghệ IONE có kiến trúc như sau:

Trang 17

16

Hình 10 Kiến trúc công nghệ IONE

Ảnh đầu vào qua các modules, api của công nghê ̣ IONE cho ra dữ liê ̣u văn bản, metadata để lưu trữ hoă ̣c tích hợp vào các ứng du ̣ng khác Các tính năng của công nghê ̣ IONE bao gồm:

 Nhâ ̣n da ̣ng toàn văn

 Nhâ ̣n da ̣ng theo biểu mẫu

 Tạo file pdf/a (file pdf có thêm lớp text giúp tìm kiếm trực tiếp trên file)

 Bóc tách thông tin Văn bản hành chính

 Bóc tách thông tin Chứng minh nhân dân

 Bóc tách thông tin Sổ đỏ, Hợp đồng, Tờ trình

 Bóc tách thông tin Phiếu khảo sát, Phiếu dự thi vào ĐHQGHN

 Bóc tách thông tin Các biểu mẫu ngân hàng

Định dạng
Số trang	32
Dung lượng	2,34 MB