DSpace at VNU: Các kỹ thuật xử lý ngôn ngữ trong số hóa văn bản tiếng Việt của hệ thống FSCANNER

Các kỹ thuật xử lý ngôn ngữ trong số hóa văn bản tiếng Việt của hệ thống FSCANNER Ninh Thị Thu Hà Trường đại học Công nghệ Luận văn ThS.. Tìm hiểu các kỹ thuật nhận dạng OCR, kỹ thuật

Trang 1

Các kỹ thuật xử lý ngôn ngữ trong số hóa văn bản tiếng Việt của hệ thống FSCANNER

Ninh Thị Thu Hà

Trường đại học Công nghệ Luận văn ThS Kỹ thuật phần mềm; Mã số: 60 48 01 03

Người hướng dẫn: TS Lê Quang Minh

Năm bảo vệ: 2014

Abstract Tìm hiểu các kỹ thuật nhận dạng OCR, kỹ thuật kiểm lỗi chính tả dựa trên mô

hình n-gram, kỹ thuật trích rút metadata

 Nghiên cứu các đặc trưng lưu trữ và đề xuất xây dựng metadata cho văn bản được số hóa góp phần xác định các thuộc tính cần thiết của metadata cho việc xây dựng hệ thống FSCANNER

 Đề xuất chọn chỉ số dpi và góc xoay thích hợp cho ảnh quét để nâng cao hiệu quả nhận dạng OCR

Keywords Xử lý ngôn ngữ; Số hóa văn bản; FSCANNER; Nhận dạng hình ảnh; Công

nghệ thông tin

Content

Chương 1: Tổng quan về bài toán xử lý ngôn ngữ trong số hóa văn bản

tiếng Việt

Nội dung giới thiệu về bài toán xử lý ngôn ngữ tự nhiên và sơ đồ hoạt

động của việc số hóa văn bản tiếng Việt của hệ thống FSCANNER

Chương 2: Các kỹ thuật xử lý ngôn ngữ trong số hóa văn bản tiếng Việt

Nội dung chương 2 gồm 3 phần: giới thiệu một số kỹ thuật nhận dạng

OCR; kỹ thuật soát lỗi chính tả dựa trên mô hình ngôn ngữ n-gram; kỹ thuật

trích rút metadata, trong đó đề xuất xây dựng metadata cho văn bản được số hóa

Trang 2

Chương 3: Thực nghiệm – đánh giá:

Chạy chương trình với bộ dữ liệu thực nghiệm đưa ra để chọn ngưỡng chỉ

số DPI và góc xoay thích hợp đối với ảnh quét đầu vào trước khi nhận dạng

OCR, nhằm nâng cao hiệu quả nhận dạng

References

Tiếng Việt

1 Hồ Tú Bảo, Lương Chi Mai (2005), “Về xử lý tiếng Việt trong Công nghệ thông tin” http://www.jaist.ac.jp/~bao/Writings/VLSPwhitepaper%20-%20Final.pdf

2 Bộ Giáo dục (1984), Quy định về chính tả tiếng Việt và thuật ngữ tiếng Việt http://thuvienphapluat.vn/archive/Quyet-dinh-240-QD-nam-1984-chinh-ta-thuat- ngu-tieng-Viet-sach-giao-khoa-bao-van-ban-nganh-giao-duc-vb216818.aspx

3 Bộ Giáo dục và Đào tạo (2002), Quy định tạm thời về chính tả trong sách giáo khoa mới, Nhà Xuất bản giáo dục

4 Bộ Giáo dục và Đào tạo (2003), Quy định tạm thời về viết hoa tên riêng trong sách giáo khoa

5 Bộ nội vụ (2011), Thông tư hướng dẫn thể thức và kỹ thuật trình bày văn bản hành chính

6 Bộ Thông tin và truyền thông (2011), Thông tư quy định về việc tạo lập, sử dụng

và lưu trữ dữ liệu đặc tả trên trang thông tin điện tử hoặc cổng thông tin điện tử của cơ quan nhà nước

7 http://xephangvanban.com/ThongtinSukien.aspx?id1=12&id2=15

8 http://xephangvanban.com/ThongtinSukien.aspx?id1=12&id2=16

9 http://vtc.vn/394-255965/giat-minh-thuc-trang-loi-chinh-ta-tieng-viet.htm

10 Lê Trung Hiếu, Lê Anh Vũ, Lê Trung Kiên (2013), “Áp dụng xác suất thống kê

Trang 3

và quá trình máy tự học cho bài toán phân tách từ văn bản tiếng Việt”, Tạp chí

khoa học và công nghệ trường Đại học Duy Tân, (1), tr.32-38

11 Lê Minh Hoàng, Ngô Quốc Tạo, Lương Chi Mai (2002), “Ứng dụng mô hình Markov ẩn trong nhận dạng chữ”, Tạp chí khoa học và công nghệ, tập 40, số ĐB, tr.31-40

12 Phạm Anh Phương, Ngô Quốc Tạo, Lương Chi Mai (2009), “Kết hợp các bộ phận phân lớp SVM cho việc nhận dạng chữ việt viết tay rời rạc”, Tạp chí tin học và

điều khiển, tập 25, (1) ,tr.88-97

13 Ngô Văn Sỹ (2008), “Nhận dạng ký tự quang học bằng mạng nơron” , Tạp chí khoa học và công nghệ Đại Học Đà nẵng, (4), tr.20-24

14 Văn phòng chính phủ (1998), Quy định tạm thời về viết hoa trong văn bản của Chính phủ và của Văn phòng Chính phủ

Tiếng Anh

15 Cortes, Corinna, Vapnik, Vladimir (1995), Support-Vector Networks, Machine Learning

16 H Han, C.L Giles, E Manavoglu, H Zha, Z Zhang, E.A Fox (2003), Automatic document metadata extraction using support vector machines, In: Proceedings of the 3rd ACM/IEEECS Joint Conference on Digital Libraries, International

Conference on Digital Libraries, pp 37–48 IEEE Computer Society Press,

Washington, DC

17 Hao, C X (2000), Vietnamese - Some Questions on Phonetics, Syntax and Semantics, Education Publishing House, Hanoi

18 http://dublincore.org/documents/dces

19 http://help.abbyy.com/FineReader/FineReader12/Vietnamese/Overview/overvie.ht m;

Trang 4

20 http://www.kodakcapturepro.co.uk/products/kodak-capture-pro

21 http://www.nuance.com

22 John C.Platt, Nello Cristianini, John Shawe-Taylor (1999), Large Margin DAGs for Multiclass Classification, NIPS

23 K Nakagawa, A Nomura, and M Suzuki (2004), “Extraction of Logical Structure from Articles in Mathematics”, MKM, LNCS 3119, pp 276-289,

Springer Berlin Heidelberg from Articles in Mathematics

24 F Peng, A McCallum (2006), “Accurate Information Extraction from Research Papers using Conditional Random Fields”, Information Processing and

Management: an International Journal, pp 963 – 979

25 Rabiner L.R (1989), "A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition" , Proceedings of IEEE, VOL.77, NO.2, pp 257-286

26 Rohit Verma, Dr Jahid Ali (2012), “A-Survey of Feature Extraction and Classification Techniques in OCR Systems”, International Journal Applications & Information Technology, Vol.I, Issue III (ISSN: 2278-7720)

Định dạng
Số trang	4
Dung lượng	107,46 KB