ĐẠI HỌC QUỐC GIA HÀ NỘI BÁO CÁO TỔNG KẾT KẾT QUẢ THỰC HIỆN ĐỀ TÀI KH&CN CẤP ĐẠI HỌC QUỐC GIA Tên đề tài: Nghiên cứu nâng cấp chất lượng công nghệ nhận dạng và sửa lỗi cho phần mềm DocP
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
BÁO CÁO TỔNG KẾT KẾT QUẢ THỰC HIỆN ĐỀ TÀI KH&CN
CẤP ĐẠI HỌC QUỐC GIA
Tên đề tài: Nghiên cứu nâng cấp chất lượng công nghệ nhận dạng và sửa lỗi cho phần mềm DocPro
Mã số đề tài: QG.15.67
Chủ nhiệm đề tài: TS Vũ Duy Linh
Hà Nội, 2017
Trang 21
PHẦN I THÔNG TIN CHUNG
1.1 Tên đề tài: Nghiên cứu nâng cấp chất lượng công nghệ nhận dạng và sửa lỗi cho phần mềm DocPro
1.2 Mã số: QG.15.67
1.3 Danh sách chủ trì, thành viên tham gia thực hiện đề tài
TT Chức danh, học vị, họ và tên Đơn vị công tác Vai trò thực hiện đề tài
2 TS Nguyễn Văn Đoàn Viện CNTT Thành viên thực hiện chính
3 ThS Nguyễn Thị Ngọc Hân Viện CNTT Thành viên thực hiện chính
4 ThS Phan Huy Anh Viện CNTT Thành viên thực hiện chính
1.4 Đơn vị chủ trì:
Tên đơn vị chủ trì : Viện CNTT ĐHQG Hà Nội
Điện thoại: 04.3.37547547 Fax:
E-mail: iti@vnu.edu.vn
Website: http:// iti.vnu.edu.vn
Địa chỉ: E3, 144 Xuân Thủy, Cầu Giấy, Hà Nội
1.5 Thời gian thực hiện:
1.5.1 Theo hợp đồng: 12 tháng từ 04/12/2015 tới 4/12/2016
1.5.2 Gia hạn (nếu có): đến tháng 6/2017
1.5.3 Thực hiện thực tế: từ tháng 6 năm 2016 đến tháng 6 năm 2017
1.6 Những thay đổi so với thuyết minh ban đầu (nếu có):
(Về mục tiêu, nội dung, phương pháp, kết quả nghiên cứu và tổ chức thực hiện; Nguyên
nhân; Ý kiến của Cơ quan quản lý)
1.7 Tổng kinh phí được phê duyệt của đề tài: 200 triệu đồng
Trang 32
PHẦN II TỔNG QUAN KẾT QUẢ NGHIÊN CỨU
Viết theo cấu trúc một bài báo khoa học tổng quan từ 6-15 trang (báo cáo này sẽ được đăng trên tạp chí khoa học ĐHQGHN sau khi đề tài được nghiệm thu), nội dung gồm các phần:
1 Đặt vấn đề
Công nghệ OCR (Optical Character Recognition) đã và đang được nghiên cứu và phát triển rất mạnh trên thế giới cũng như ở Việt Nam Hiện tại công nghệ OCR của ABBYY [1] đang là sản phẩm có chất lượng số 1 trên thế giới với khả năng nhận dạng gần
200 ngôn ngữ, trong đó có tiếng Việt Tại Việt Nam VnDOCR [2] cũng có những ưu điểm nhất định cho việc nhận dạng chữ in tiếng Việt
Trong nhiều năm qua, nhóm nghiên cứu về nội dung số của Viện CNTT-ĐHQGHN bao gồm TS Vũ Duy Linh và TS Nguyễn Văn Đoàn đã nghiên cứu và hoàn thiện công nghệ số hóa văn bản và hỗ trợ nhận dạng tiếng Việt, công nghệ này được nhóm nghiên cứu tích hợp vào hệ thống số hóa, quản trị tài liệu DocPro với công ty FSI, một công ty đứng đầu Việt Nam trong lĩnh vực số hóa tài liệu và giải pháp phần mềm
Cùng với sự phát triển của lĩnh vực số hóa thì các vấn đề xung quanh cũng nảy sinh,
đó là dung lượng lưu trữ, chất lượng file scan đầu vào Đối với các công nghệ OCR hiện tại tiêu chuẩn đầu vào của file ảnh phải ở mức 300dpi [3][4][5], điều này dẫn tới dung lượng lưu trữ tương đối lớn Ngoài ra file đầu vào cần phải scan rõ ràng, ít bị nhiễu
Chính vì vậy đề tài này đi vào việc nghiên cứu giải pháp để có thể nhận dạng các files có chất lượng scan thấp, kết hợp với việc xử lý ngôn ngữ tự nhiên nhằm nâng cao chất lượng của công nghệ nhận dạng chữ viết tiếng Việt, trích xuất thông tin tự động và tích hợp
vào Hệ thống quản trị tài liệu thông minh DocPro
2 Mục tiêu
Nghiên cứu và nâng cao chất lượng công nghệ nhận dạng và xử lý ngôn ngữ tự nhiên nhằm hoàn thiện hệ thống quản trị tài liệu thông minh DocPro
- Tích hợp công nghệ nhận dạng vào hệ thống DocPro
- Tích hợp công nghệ xử lý ngôn ngữ tự nhiên, trích xuất thông tin tự động từ các văn bản
- Hoàn thiện sản phẩm DocPro và tham dự giải thưởng Sao Khuê
Trang 43
3 Phương pháp nghiên cứu
Nghiên cứu các thuật toán xử lý, xây dựng thử nghiệm, đánh giá kết quả, tối ưu kết quả
4 Tổng kết kết quả nghiên cứu
4.1 Nâng cao chất lượng công nghệ nhận dạng và xử lý ngôn ngữ tự nhiên
Để nâng cao chất lượng nhâ ̣n da ̣ng chữ viết, nhóm nghiên cứu đề xuất giải pháp dưới đây
Giải pháp đề xuất:
Hình 1 Giải pháp nâng cao chất lượng nhận dạng chữ viết tiếng Việt
Bước 1: Đầu vào là file tài liệu
Bước 2: Xác định các thuộc tính của file như độ phân giải, kích cỡ các dòng text, độ nét, sáng tối, phông nền
Bước 3: Xử lý file với các thuật toán như nâng độ phân giải lên 300dpi, xác định các dòng text có size nhỏ để tăng độ lớn, xử lý phông nền, xử lý độ nét …
Bước 4: Sau khi xử lý file đầu ra sẽ được tiến hành OCR, sửa lỗi tiếng Việt
Sơ đồ thuâ ̣t toán như sau:
Trang 54
Hình 2 Thuật toán nâng cao chất lượng nhận dạng chữ viết tiếng Việt
Mô hình chuyển đổi file sang 300dpi:
Input file
Chia file thành các page nhỏ dạng ảnh
Tiền xử lý ảnh nâng cao chất lượng
Chuyển sang dpi
Hình 3 Mô hình chuyển đổi file sang 300dpi
Bước 1: Với file input đầu vào ta cần chia nhỏ thành các ảnh
Bước 2: áp dụng các thuật toán tiền xử lý nâng cao chất lượng file ảnh
Bước 3: Chuyển sang độ phân giải 300dpi
Mô hình chuyển đổi kích thước cỡ chữ:
Trang 65
Input file
Xác định các dòng text có size nhỏ
Tăng kích thước
Hình 4 Mô hình chuyển đổi các dòng text có kích cỡ nhỏ
Bước 1: Xác định các dòng text có kích cỡ nhỏ bằng phương pháp chiếu dọc và ngang Từ
đó tính toán được tỉ lệ chiều cao và rộng của text trên ảnh
Bước 2: Với các dòng text có kích cỡ nhỏ hơn mức định nghĩa (OCR không thể nhận dạng)
sẽ tăng kích thước cho vùng đó, đồng thời áp dụng các phương pháp nâng cao chất lượng ảnh sau khi điều chỉnh
Bước 3: Nhận dạng vùng text đã chỉnh sửa kích cỡ
Các phương pháp xử lý ảnh:
Xử lý ảnh là bước cần thiết để nâng cao chất lượng ảnh nhằm hoàn thiện một số đặc tính của ảnh Trong các thuật toán nâng cao chất lượng ảnh người ta thường sử dụng các kỹ thuật trong miền điểm, không gian và tần số Trong đó, toán tử điểm là phép biến đổi đối với từng điểm ảnh đang xét, không liên quan đến các điểm lân cận khác; toán tử không gian
sử dụng các điểm lân cận để quy chiếu tới điểm ảnh đang xét Miền tần số chủ yếu được sử dụng để thực hiện một số phép biến đổi có tính toán phức tạp sau đó kết quả được biến đổi trở lại miền không gian
Các phương pháp xử lý ảnh được sử dụng trong thuật toán nâng cao chất lượng nhận dạng chữ viết tiếng Việt bao gồm:
a Tăng độ tương phản (Stretching Contrast):
Các cấp độ α, β, γ xác định độ tương phản tương đối L là số mức xám cực đại Các tham số a và b (các cận) có thể chọn khi xem xét lược đồ xám của ảnh
b Tách nhiễu và phân ngưỡng:
Trang 76
Trong đó a = b = t gọi là phân ngưỡng Tách nhiễu là trường hợp đặc biệt của dãn độ tương phản khi hệ số góc α = β = 0 Tách nhiễu được ứng dụng có hiệu quả để giảm nhiễu khi biết tín hiệu vào khoảng [a, b] Phân ngưỡng là trường hợp đặc biệt của tách nhiễu khi a
= b = const
c Cắt theo mức (Intensity Level Slicing):
Kỹ thuật này dùng 2 phép ánh xạ khác nhau cho trường hợp có nền và không nền
Trang 87
h T (x,y,k,l) = h -1 (x,y,k,l)
f Khôi phục ảnh bằng phương pháp bình phương tối thiểu:
Mô hình nhiễu ở dạng vector và ma trận:
v = Hu + η hay η = v – Hu
Trong đó: u, v, η là các vector ảnh thật, vector ảnh ghi được, vector nhiễu tương ứng;
H là ma trận hàm truyền của hệ thống
Nếu không nhiễu (η = 0), cần chọn u sao cho Hu xấp xỉ theo v theo nghĩa bình
phương tối thiểu Với cách lập luận như vậy, chúng ta có thể xây dựng hàm mục tiêu:
y( ) = ||η|| 2 = ||v - H || 2 min
Trong đó:
||η|| 2 = η T η; ||v - H || 2 = (v - H ) T (v - H )
Nhằm nâng cao độ chính xác của kết quả nhận dạng tiếng Việt, đề tài đã sử dụng các
kỹ thuật tự động phát hiện lỗi và sửa lỗi tiếng Việt Các kỹ thuật này được mô tả trong [6]
Ngoài ra, trích xuất thông tin văn bản hành chính theo thuật toán sau:
Trang 98
Hình 5 Thuật toán trích xuất thông tin Văn bản hành chính
Ảnh đầu vào sau khi nâng cao chất lượng sẽ được phân tích thành các khối, sau đó các khối sẽ được nhận dạng OCR Kết quả nhận dạng này được phân tích các thông tin như
vị trí của khối, nội dung của khối để trích xuất thông tin cần thiết Nếu kết quả trích xuất trang đầu tiên chưa có trường thông tin Nơi nhận thì sẽ tiến hành phân tích và nhận dạng trang tiếp theo
Kết quả thử nghiệm:
Thử nghiệm với file 100 files với độ phân giải 100dpi, kết quả nhận dạng thu được với độ chính xác > 85% Ví dụ đối với tài liệu:
Trang 109
Hình 6 Ví dụ file 100dpi dùng để nhận dạng Kết quả nhận dạng TRƯỚC khi áp dụng “Giải pháp nâng cao chất lượng nhận dạng chữ viết tiếng Việt” nêu trên:
Kết quả nhận dạng SAU khi áp dụng “Giải pháp nâng cao chất lượng nhận dạng chữ viết tiếng Việt” nêu trên:
Rõ ràng chất lượng nhận dạng tiếng Việt được cải thiện với độ chính xác cao
Kết quả nhận dạng khi dùng VnDOCR:
đơn vị có liên quan chiu trách nhiệm thi hành Quyết định này l
QUYET ĐỊNH:
mề… x Ban hành kèm …… Quyết định này Chương trình xây dựng văn bản quy phạm pháp
…ẹxz năm của Bộ cũng ngh p
mà… 2 Thủ trường các … v| được giau nhiệm vụ chu … xây dựng văn bản quy phạm pháp
luận [xong Chương lanh này có nách nhiệm_ phối hợp với … cơ quan n… vi có liên quan chuẩn bi dv cháu văn bản trình … quan có nhà… quyền theo đúng thời gian quy đình
Diều ] Chánh Văn ph`ng Bọ, cm…n Thanh ua Bộ, các Vụ [mừng Cuc trường thuộc Bộ
Viện [mòng Viện Nghi cứu Chiến lược, Chính ch Cũng nghiệp Thủ trưởng các ta quan đau vì «› liên quan chịu trách nhiệm \hi hành Quyết đinh này/
Trang 1110
Hình 7 Kết quả nhận dạng file 100dpi khi dùng VnDOCR
Kết quả nhận dạng khi dùng ABBYY:
Kết quả nhận dạng khi dùng Tesseract:
Diều 3 Chánh Văn phòng Bộ, Chánh Thanh tra Bộ, các Vụ trưởng, Cục trưởng thuộc Bộ, Viện trưởng Viện Nghiên cứu Chiến lược, Chính sách Công nghiệp, Thủ trường các cơ quan, đơn vị có liên quan chịu trách nhiệm thi hành Quyêt định này./
Trang 1211
Như vậy, đối với văn bản hành chính thì IONE cho kết quả có độ chính xác cao hơn VnDOCR, Tesseract và gần bằng ABBYY
Đối với Chứng minh nhân dân, ví dụ đối với file sau:
Hình 8 Ví dụ file Chứng minh thư dùng để nhận dạng
Kết quả nhận dạng Chứng minh thư của IONE:
Kết quả nhận dạng Chứng minh thư của VnDOCR: Không nhận dạng được
Kết quả nhận dạng Chứng minh thư của ABBYY:
mèn 3 chánh văn ph`ng aụ, cm…n ra… an Bỏ, các vu lmởng Cuc trường thuộc Bộ
Viện Irưòng Vlện Nghi cứu Chỉển lược, can… ch ceng nghiệp Thủ trưởng các cụ quan đau vì có liên quan chìu trách nhiệm mi hành Quyết đinh nàyl
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Nguyên quán: Ho ̂̀ ng Phong, Vũ Thư, Thá i Bî̀ nh
Nơi ĐKHK thường trú: Ho ̂̀ ng Phong, Vũ Thư, Thá i Bî̀ nh
Trang 1312
Kết quả nhận dạng Chứng minh thư của Tesseract:
Như vậy nhận dạng Chứng minh thư của IONE tốt hơn hẳn VnDOCR, Tesseract, ABBYY Đối với văn bản bị nhiễu do nền hoa văn, và các dấu chấm, ví dụ như:
Hình 9 Ví dụ ảnh văn bản có nền hoa văn và dấu chấm
Kết quả nhận dạng của IONE:
` ỔỌNG HÒA x HỘI cmũ NGHĨA ViỆT NAM `{_
Đgggg-fudg Hg`nhghúc ị
miỉv quá… mi… tư" tới
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Ị; ;ìị-'Đôc lập “ Tự do - Hạnh phtifeffigO':
IgIẨỲ CHỨNG minh MHÂN dân
Trang 1413
Kết quả nhận dạng của VnDOCR: không chạy, do VnDOCR chỉ làm việc với ảnh đen trắng Kết quả nhận dạng của ABBYY:
Kết quả nhận dạng của Tesseract:
Nhà xưởng Công tỵ cổ phận Bạo bì Đại Hoàng Hà
Địa điểm xây dựng: SỌ.B8/36 H.ựng.Nhơn, Ập.2,.xậ.T.ận.K.iệní.huỵệxiBình Chánh
Chủ đầu tư/chủ phương tiện: Cồng.ty.Cổ.p.hần.B.a.Q.bì.Đ.ạiHQàxtg.Hà
Đơn vị lập dự án/thiết kế: C.Ộjng ty TNHHMT.Y.H.CrK.T Thăng.Long
Đã được thẩm duyệt thiết kế về phòng cháy và chữa cháy các nội dung sau:
- Bậc chịu lửa, giải pháp ngăn cháy,, giao thông phục vụ chữa cháy, Ịọi thọát nạn;
- Hệ thống họng nước chữa cháỵ trong nhà, chữa cháy tự động Sprinkler, bình chữa cháy;
- Hệ thống báo cháy tự động, đèn chiếu sáng sự cọ,, đèn chỉ dẫn thoát nan;
- Hệ thống chống sét đánh thẳng
Nhà xưởng Công ty Cổ phần Bao bì Đại Hoàng Hà
Đĩa diêm xây dưng SỔ 88/36 Hưng Nhợil…AP 2… xã Tân Kiên hnyêanh Chanh
Chủ đâu tư/chủ phương tiện Công ty Cô phần Bao bì Đội Hoàng, Ha
Đơn vi lâp dư ản|thiêt kê Công ty TNHH MTV HC—KT Thăng Long
Đã được thăm duyệt thlêt kê vê phòng cháy va chữa chay cac nộ1 dung sau:
— Bậc chiu lửa, giải pháp ngăn chảy, giao thông phục vụ chữa cháy, lối thoát mạng
— Hệ thông họng nước chữa chay trong nha, chữa chay tự động Sprmkler, bmh chữa cháy2
— Hệ thông bao chay tự động, đen Chlêu sáng sự cô, đen ch1 dẫn thoát nạn,
- Hệ thông chông set đanh tháng
Trang 1514
Như vậy, đối với những văn bản loại này IONE cũng cho kết quả tốt hơn các công nghệ khác
Trong quá trình thực nghiệm, chúng tôi có bảng so sánh đánh giá như sau Đối với công nghệ nhận dạng chữ viết:
Sản phẩm Công nghệ
nhận dạng tiếng việt (%)
Công nghệ trích xuất thông tin
Định nghĩa mẫu bóc tách
Tốc độ xử lý (giấy/trang)
Phân loại tài liệu tự động
form mẫu
phải theo mẫu định sẵn
IONE (Viện
CNTT)
động
Bảng 1 So sánh công nghệ IONE với các công nghệ nhận dạng
Đối với các hệ thống phần mềm tương tự như DocPro:
Hệ thống
phần mềm
Công nghệ nhận dạng
Công nghệ trích xuất
Định nghĩa mẫu bóc
Bóc tách thông tin
Phân loại tài liệu tự
Địa điểm xây dựng: số B8/36 Hưng Nth Áp ?… xặ Iân Kiên huỵện.Bình Chánh uuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu Chủ đầu tư/chủ phương tiện: Gímg ty .Cố phần B an bì Đ.aiHaàngHà
Đon vị lập dự án/thiết kế: C.ôneg…TNffl M.T.V.HCẹKI.ThăngLong
Đã được thẩm duyệt thiết kể về phòng cháy và chữa cháy các nội dung sau: '
Trang 16
EdocMan
Alfresco
Bảng 2 So sánh hệ thống DocPro với các phần mềm khác
4.2 Tích hợp công nghệ nhận dạng vào Hệ thống DocPro
Từ năm 2013 nhóm nghiên cứu phòng Nội Dung Số của Viện CNTT-ĐHQGHN bao bồm TS Vũ Duy Linh và TS Nguyễn Văn Đoàn đã phối hợp cùng với các nhà nghiên cứu, doanh nghiệp bắt tay vào nghiên cứu và xây dựng công nghệ nhận dạng và bóc tách thông tin tự động Công nghệ này được gọi là công nghệ IONE (Intelligent OCR and Extract information) Hiện tại công nghệ nhận dạng và trích xuất thông tin đã đạt được những kết quả tốt về chất lượng (95%), tốc độ (6s/trang) và có tính thực tiễn cao đặc biệt cho ngôn ngữ tiếng Việt Đặc biệt tại Việt Nam chưa thực sự có một hệ thống, sản phẩm phần mềm nào thực hiện được việc trích xuất thông tin tự động số hóa tài liệu từ nhận dạng tiếng việt sau
đó tách bộ và lập chỉ mục Tất cả các sản phẩm mới chỉ dừng lại ở mục làm thủ công
Một số hệ thống quản trị nội dung tại Việt Nam: Tại việt nam các hệ thống quản trị nội dung đa phần phát triển lại từ nguồn mở như EcoECM phát triển từ Alfresco [7], các hệ thống khác được xây dựng trên nền tảng Sharepoint, eDocman của tập đoàn CMC [8] Các
hệ thống này cũng không được tích hợp hệ thống nhận dạng cũng như xử lý tiếng Việt
Một hệ thống quản trị nội dung và tự động bóc tách thông tin tài liệu là hoàn toàn cần thiết đối với Việt Nam hiện nay Việc kết hợp công nghệ nhận dạng OCR cùng với các công nghệ xử lý tiếng việt của Viện CNTT chắc chắn sẽ tạo ra hệ thống thực sự có lợi ích cho việc số hóa và quản trị tài liệu tại Việt Nam
Công nghệ IONE:
Công nghệ IONE có kiến trúc như sau:
Trang 1716
Hình 10 Kiến trúc công nghệ IONE
Ảnh đầu vào qua các modules, api của công nghê ̣ IONE cho ra dữ liê ̣u văn bản, metadata để lưu trữ hoă ̣c tích hợp vào các ứng du ̣ng khác Các tính năng của công nghê ̣ IONE bao gồm:
Nhâ ̣n da ̣ng toàn văn
Nhâ ̣n da ̣ng theo biểu mẫu
Tạo file pdf/a (file pdf có thêm lớp text giúp tìm kiếm trực tiếp trên file)
Bóc tách thông tin Văn bản hành chính
Bóc tách thông tin Chứng minh nhân dân
Bóc tách thông tin Sổ đỏ, Hợp đồng, Tờ trình
Bóc tách thông tin Phiếu khảo sát, Phiếu dự thi vào ĐHQGHN
Bóc tách thông tin Các biểu mẫu ngân hàng