...Hoàng Thị Bình__.pdf tài liệu, giáo án, bài giảng , luận văn, luận án, đồ án, bài tập lớn về tất cả các lĩnh vực kinh...
Trang 1TRƯỜNG ĐẠI HỌC TÀI NGUYÊN VÀ MÔI TRƯỜNG HÀ NỘI
KHOA CÔNG NGHỆ THÔNG TIN
NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP TRÍCH CHỌN
ĐẶC TRƯNG ĐỂ NHẬN DẠNG CHỮ VIẾT TAY
SỬ DỤNG MẠNG NƠRON
Hà Nội, năm 2016
Trang 2TRƯỜNG ĐẠI HỌC TÀI NGUYÊN VÀ MÔI TRƯỜNG HÀ NỘI
KHOA CÔNG NGHỆ THÔNG TIN
HOÀNG THỊ BÌNH
NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP TRÍCH CHỌN
ĐẶC TRƯNG ĐỂ NHẬN DẠNG CHỮ VIẾT TAY
SỬ DỤNG MẠNG NƠRON
Chuyên ngành : Công nghệ thông tin
Mã ngành : D480201
NGƯỜI HƯỚNG DẪN : TS.NGUYỄN VIỆT ANH
Hà Nội, năm 2016
Trang 3LỜI CAM ĐOAN
Em tên là: Hoàng Thị Bình, sinh viên lớp DH2C4 – khoa Công nghệ thông tin – Trường Đại Học Tài Nguyên và Môi trường Hà Nội
Em xin cam đoan toàn bộ nội dung của đồ án là do em tự tìm hiểu, nghiên cứu trên
Internet, trong các tài liệu trong và ngoài nước Không sao chép hay sử dụng bài
làm của bất kỳ ai khác, mọi tài liệu đều được trích dẫn cụ thể
Em xin chịu hoàn toàn trách nhiệm về lời cam đoan của mình trước quý thầy cô, khoa và nhà trường
Hà Nội, ngày 25 tháng 5 năm 2016
Người cam đoan
Hoàng Thị Bình
Trang 4LỜI CẢM ƠN
Trước tiên em xin được bày tỏ sự trân trọng và lòng biết ơn đối với thầy giáo TS.Nguyễn Việt Anh, Phòng Khoa học dữ liệu và Ứng dụng, Viện CNTT – Viện Hàn Lâm và Khoa Học Việt Nam Trong suốt thời gian làm đồ án tốt nghiệp, thầy
đã dành rất nhiều thời gian quí báu để tận tình chỉ bảo, hướng dẫn, định hướng cho
em thực hiện đồ án
Em xin được cảm ơn các thầy cô giáo Trường Đại học Tài Nguyên và Môi Trường
Hà Nội đã giảng dạy trong quá trình học tập, thực hành, làm bài tập, giúp em hiểu thấu đáo hơn các nội dung học tập và những hạn chế cần khắc phục trong việc học tập, nghiên cứu và thực hiện bản đồ án này
Em xin cảm ơn các bạn bè và nhất là các thành viên trong gia đình đã tạo mọi điều kiện tốt nhất, động viên, cổ vũ trong suốt quá trình học tập và đồ án tốt nghiệp
Do thời gian và kiến thức có hạn nên không tránh khỏi những thiếu sót nhất định
Em rất mong nhận được sự đóng góp quý báu của thầy cô!
Em xin chân thành cảm ơn!
Hà Nội, ngày 25 tháng 5 năm 2015
Sinh viên
Trang 5MỤC LỤC
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
DANH MỤC CÁC HÌNH
MỞ ĐẦU 1
1 Lý do lựa chọn đề tài 1
2 Nội dung 2
3 Phương pháp nghiên cứu 3
4 Cấu trúc luận văn 3
CHƯƠNG 1: TỔNG QUAN NHẬN DẠNG CHỮ VIẾT VÀ MỘT SỐ PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG CHO NHẬN DẠNG CHỮ VIẾT 4
1.1.Giới thiệu 4
1.2.Mô hình tổng quát của một hệ nhận dạng chữ viết 5
1.2.1.Tiền xử lý 6
1.2.2.Khối tách chữ 10
1.2.3.Trích chọn đặc trưng 11
1.2.4.Huấn luyện và nhận dạng 15
1.2.5.Hậu xử lý 15
1.3.Các phương pháp nhận dạng chữ viết tay 15
1.3.1.Đối sánh mẫu 15
1.3.2.Phương pháp tiếp cận cấu trúc 16
1.3.3.Mạng nơ ron 16
1.3.4.Mô hình Markov ẩn (HMM-Hidden Markov Model) 16
1.3.5.Máy vecto tựa (SVM) 16
1.3.6.Kết hợp các kỹ thuật nhận dạng 17
1.4.Một số phương pháp trích chọn đặc trưng cho nhận dạng chữ viết 18
Trang 61.4.1.Đặc trưng bất biến 18
1.4.2.Khả năng khôi phục 19
1.4.3.Trích chọn đặc trưng từ ảnh đa cấp xám 19
1.4.4.Trích chọn đặc trưng từ ảnh nhị phân 19
1.4.5.Trích chọn đặc trưng từ biên ảnh 19
1.4.6.Trích chọn đặc trưng từ biểu diễn vector 20
CHƯƠNG 2: PHƯƠNG PHÁP MẠNG NƠ RON VÀ ỨNG DỤNG MẠNG NƠ RON TRONG NHẬN DẠNG CHỮ VIẾT 21
2.1 Mạng Nơ ron 21
2.1.1 Giới thiệu 21
2.1.2 Khái niệm mạng Nơ ron 21
2.1.3 Đặc trưng mạng Noron 25
2.1.4 Phân loại mạng Noron nhân tạo 27
2.1.5 Xây dựng mạng hồi quy 28
2.1.6 Huấn luyện mạng Noron 29
2.1.7 Thu thập dữ liệu cho mạng Noron 33
2.1.8 Biểu diễn chi thức cho mạng Noron 33
2.1.9 Một số vấn đề của mạng Noron 35
2.1.10 Ứng dụng của mạng Noron 36
2.2 Ứng dụng mạng Noron nhận dạng chữ viết 36
2.2.1 Giới thiệu 36
2.2.2 Phát biểu bài toán 37
2.2.3 Các bước giải quyết bài toán 37
CHƯƠNG 3: CHƯƠNG TRÌNH THỬ NGHIỆM 48
3.1 Giới thiệu 48
3.2 Xây dựng giao diện vẽ 48
3.3 Xử lý dữ liệu (phân tích ảnh) 49
Trang 73.4 Kết quả nhận dạng 51
3.5 Đánh giá, nhận xét 51
KẾT LUẬN VÀ KIẾN NGHỊ 59
DANH MỤC TÀI LIỆU THAM KHẢO 60
Trang 8DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
Off-line Ngoại tuyến
On-line Trực tuyến
OCR Optical Character Recognition (Nhận dạng chữ quang học) SVM Support Vector Machines (Máy vector tựa)
USPS United States Postal Service
MNIST Bộ mẫu chữ số viết tay NIST – Viện Công nghệ và Tiêu chuẩn
Quốc gia Hoa Kỳ
SV Support vector (vector tựa)
Working set Tập làm việc
Trang 9DANH MỤC CÁC HÌNH
Hình 1.1: Sơ đồ tổng quát của một hệ thống nhận dạng chữ viết tay 6
Hình 1.2: Nhị phân hóa ảnh 7
Hình 1.3: Nhiều đốm và nhiễu vệt 7
Hình 1.4: Chuẩn hóa kích thước ảnh các ký tự “A” và “P” 8
Hình 1.5: (a) Ảnh gốc, (b) Ảnh sau khi được làm trơn biên 9
Hình 1.6: Làm mảnh chữ 9
Hình 1.7: Hiệu chỉnh độ nghiêng của văn bản 10
Hình 1.8: Tách dòng chữ dựa trên histogram theo chiều ngang của khối chữ 10
Hình 1.9: Xác định khoảng cách giữa hai ký tự và giữa hai từ dựa trên histogram theo chiều thẳng đứng của dòng chữ 11
Hình 2.1: Mô hình Noron sinh học 22
Hình 2.2: Mô hình Noron nhân tạo ở mức đơn giản 23
Hình 2.3 : Mạng hồi quy không có Noron ẩn và không có vòng lặp tự phản hồi 27
Hình 2.4: Mạng hồi quy có các Noron ẩn 28
Hình 2.5: Sơ đồ đồ thị có hướng đơn giản 28
Hình 2.6: Sơ đồ mạng Noron thiết kế 38
Hình 2.7: Quá trình tách dòng ký tự 40
Hình 2.8: Qúa trình tách ký tự 41
Hình 2.9: Quá trình tìm giới hạn ký tự 42
Hình 2.10: Quá trình chia lưới ký tự 43
Hình 2.11: Quá tình ánh xạ từ ma trận điểm sang ma trận giá trị 43
Hình 2.12: Sơ đồ khối quá trình huấn luyện mạng Noron 46
Hình 2.13: Sơ đồ khối quá trình nhận dạng ký tự 47
Hình 3.1: Qúa trình tìm giới hạn ký tự 49
Hình 3.2: Quá trình lấy mẫu xuống 49
Hình 3.3: Qúa trình ánh xạ từ ma trận điểm sang ma trận giá trị 50
Hình 3.4: Mạng lưới thần kinh mới 52
Trang 10Hình 3.5 :Giao diện mạng đào tạo 54 Hình 3.6: Giao diện chương trình nhận dạng chữ viết tay 58