Các kỹ thuật xử lý ngôn ngữ trong số hóa văn bản tiếng Việt của hệ thống FSCANNER Ninh Thị Thu Hà Trường đại học Công nghệ Luận văn ThS.. Tìm hiểu các kỹ thuật nhận dạng OCR, kỹ thuật
Trang 1Các kỹ thuật xử lý ngôn ngữ trong số hóa văn bản tiếng Việt của hệ thống FSCANNER
Ninh Thị Thu Hà
Trường đại học Công nghệ Luận văn ThS Kỹ thuật phần mềm; Mã số: 60 48 01 03
Người hướng dẫn: TS Lê Quang Minh
Năm bảo vệ: 2014
Abstract Tìm hiểu các kỹ thuật nhận dạng OCR, kỹ thuật kiểm lỗi chính tả dựa trên mô
hình n-gram, kỹ thuật trích rút metadata
Nghiên cứu các đặc trưng lưu trữ và đề xuất xây dựng metadata cho văn bản được số hóa góp phần xác định các thuộc tính cần thiết của metadata cho việc xây dựng hệ thống FSCANNER
Đề xuất chọn chỉ số dpi và góc xoay thích hợp cho ảnh quét để nâng cao hiệu quả nhận dạng OCR
Keywords Xử lý ngôn ngữ; Số hóa văn bản; FSCANNER; Nhận dạng hình ảnh; Công
nghệ thông tin
Content
Chương 1: Tổng quan về bài toán xử lý ngôn ngữ trong số hóa văn bản
tiếng Việt
Nội dung giới thiệu về bài toán xử lý ngôn ngữ tự nhiên và sơ đồ hoạt
động của việc số hóa văn bản tiếng Việt của hệ thống FSCANNER
Chương 2: Các kỹ thuật xử lý ngôn ngữ trong số hóa văn bản tiếng Việt
Nội dung chương 2 gồm 3 phần: giới thiệu một số kỹ thuật nhận dạng
OCR; kỹ thuật soát lỗi chính tả dựa trên mô hình ngôn ngữ n-gram; kỹ thuật
trích rút metadata, trong đó đề xuất xây dựng metadata cho văn bản được số hóa
Trang 2Chương 3: Thực nghiệm – đánh giá:
Chạy chương trình với bộ dữ liệu thực nghiệm đưa ra để chọn ngưỡng chỉ
số DPI và góc xoay thích hợp đối với ảnh quét đầu vào trước khi nhận dạng
OCR, nhằm nâng cao hiệu quả nhận dạng
References
Tiếng Việt
1 Hồ Tú Bảo, Lương Chi Mai (2005), “Về xử lý tiếng Việt trong Công nghệ thông tin” http://www.jaist.ac.jp/~bao/Writings/VLSPwhitepaper%20-%20Final.pdf
2 Bộ Giáo dục (1984), Quy định về chính tả tiếng Việt và thuật ngữ tiếng Việt http://thuvienphapluat.vn/archive/Quyet-dinh-240-QD-nam-1984-chinh-ta-thuat- ngu-tieng-Viet-sach-giao-khoa-bao-van-ban-nganh-giao-duc-vb216818.aspx
3 Bộ Giáo dục và Đào tạo (2002), Quy định tạm thời về chính tả trong sách giáo khoa mới, Nhà Xuất bản giáo dục
4 Bộ Giáo dục và Đào tạo (2003), Quy định tạm thời về viết hoa tên riêng trong sách giáo khoa
5 Bộ nội vụ (2011), Thông tư hướng dẫn thể thức và kỹ thuật trình bày văn bản hành chính
6 Bộ Thông tin và truyền thông (2011), Thông tư quy định về việc tạo lập, sử dụng
và lưu trữ dữ liệu đặc tả trên trang thông tin điện tử hoặc cổng thông tin điện tử của cơ quan nhà nước
7 http://xephangvanban.com/ThongtinSukien.aspx?id1=12&id2=15
8 http://xephangvanban.com/ThongtinSukien.aspx?id1=12&id2=16
9 http://vtc.vn/394-255965/giat-minh-thuc-trang-loi-chinh-ta-tieng-viet.htm
10 Lê Trung Hiếu, Lê Anh Vũ, Lê Trung Kiên (2013), “Áp dụng xác suất thống kê
Trang 3và quá trình máy tự học cho bài toán phân tách từ văn bản tiếng Việt”, Tạp chí
khoa học và công nghệ trường Đại học Duy Tân, (1), tr.32-38
11 Lê Minh Hoàng, Ngô Quốc Tạo, Lương Chi Mai (2002), “Ứng dụng mô hình Markov ẩn trong nhận dạng chữ”, Tạp chí khoa học và công nghệ, tập 40, số ĐB, tr.31-40
12 Phạm Anh Phương, Ngô Quốc Tạo, Lương Chi Mai (2009), “Kết hợp các bộ phận phân lớp SVM cho việc nhận dạng chữ việt viết tay rời rạc”, Tạp chí tin học và
điều khiển, tập 25, (1) ,tr.88-97
13 Ngô Văn Sỹ (2008), “Nhận dạng ký tự quang học bằng mạng nơron” , Tạp chí khoa học và công nghệ Đại Học Đà nẵng, (4), tr.20-24
14 Văn phòng chính phủ (1998), Quy định tạm thời về viết hoa trong văn bản của Chính phủ và của Văn phòng Chính phủ
Tiếng Anh
15 Cortes, Corinna, Vapnik, Vladimir (1995), Support-Vector Networks, Machine Learning
16 H Han, C.L Giles, E Manavoglu, H Zha, Z Zhang, E.A Fox (2003), Automatic document metadata extraction using support vector machines, In: Proceedings of the 3rd ACM/IEEECS Joint Conference on Digital Libraries, International
Conference on Digital Libraries, pp 37–48 IEEE Computer Society Press,
Washington, DC
17 Hao, C X (2000), Vietnamese - Some Questions on Phonetics, Syntax and Semantics, Education Publishing House, Hanoi
18 http://dublincore.org/documents/dces
19 http://help.abbyy.com/FineReader/FineReader12/Vietnamese/Overview/overvie.ht m;
Trang 420 http://www.kodakcapturepro.co.uk/products/kodak-capture-pro
21 http://www.nuance.com
22 John C.Platt, Nello Cristianini, John Shawe-Taylor (1999), Large Margin DAGs for Multiclass Classification, NIPS
23 K Nakagawa, A Nomura, and M Suzuki (2004), “Extraction of Logical Structure from Articles in Mathematics”, MKM, LNCS 3119, pp 276-289,
Springer Berlin Heidelberg from Articles in Mathematics
24 F Peng, A McCallum (2006), “Accurate Information Extraction from Research Papers using Conditional Random Fields”, Information Processing and
Management: an International Journal, pp 963 – 979
25 Rabiner L.R (1989), "A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition" , Proceedings of IEEE, VOL.77, NO.2, pp 257-286
26 Rohit Verma, Dr Jahid Ali (2012), “A-Survey of Feature Extraction and Classification Techniques in OCR Systems”, International Journal Applications & Information Technology, Vol.I, Issue III (ISSN: 2278-7720)