TRƯỜNG ĐẠI HỌC TÀI NGUYÊN VÀ MÔI TRƯỜNG HÀ NỘI KHOA CÔNG NGHỆ THÔNG TIN NGHIÊN CỨU PHƯƠNG PHÁP SVM VÀ ỨNG DỤNG NHẬN DẠNG CHỮ VIẾT TAY Hà Nội – 2016... TRƯỜNG ĐẠI HỌC TÀI NGUYÊN VÀ MÔ
Trang 1TRƯỜNG ĐẠI HỌC TÀI NGUYÊN VÀ MÔI TRƯỜNG HÀ NỘI
KHOA CÔNG NGHỆ THÔNG TIN
NGHIÊN CỨU PHƯƠNG PHÁP SVM VÀ
ỨNG DỤNG NHẬN DẠNG CHỮ VIẾT TAY
Hà Nội – 2016
Trang 2TRƯỜNG ĐẠI HỌC TÀI NGUYÊN VÀ MÔI TRƯỜNG HÀ NỘI
KHOA CÔNG NGHỆ THÔNG TIN
BÙI THU HƯỜNG
NGHIÊN CỨU PHƯƠNG PHÁP SVM VÀ
ỨNG DỤNG NHẬN DẠNG CHỮ VIẾT TAY
Chuyên ngành : Công nghệ thông tin
Mã ngành : D480201
NGƯỜI HƯỚNG DẪN: THS VŨ VĂN HUÂN
Trang 3LỜI CAM ĐOAN
Em xin cam đoan các kết quả nghiên cứu đưa ra trong đồ án tốt nghiệp này dựa trên các kết quả thu được trong quá trình nghiên cứu của riêng em, không sao chép bất kỳ kết quả nghiên cứu nào của các tác giả khác
Nội dung của đồ án tốt nghiệp có tham khảo và sử dụng một số thông tin, tài liệu từ các nguồn sách, tạp chí được liệt kê trong danh mục các tài liệu tham khảo
và được sự hướng dẫn của ThS Lê Thị Vui
Nếu phát hiện có bất kỳ sư gian lận nào em xin hoàn toàn chịu trách nhiệm về nội dung đồ án của mình
Hà Nội, ngày tháng năm 2016
Sinh viên thực hiện (ký và ghi rõ họ tên)
Trang 4LỜI CẢM ƠN
Trên thực tế không có sự thành công nào mà không gắn liền với những sự hỗ trợ, sự giúp đỡ dù ít hay nhiều, dù là trực tiếp hay gián tiếp của người khác Trong suốt thời gian từ khi bắt đầu học tập ở giảng đường Đại học đến nay, em đã nhận được rất nhiều sự quan tâm, giúp đỡ của Thầy Cô, gia đình và bạn bè
Với lòng biết ơn sâu sắc nhất, em xin gửi đến Cô Lê Thị Vui ở Khoa Công Nghệ Thông Tin trường đã cùng với tri thức và tâm huyết của mình để truyền đạt vốn kiến thức quý báu cho em trong suốt thời gian học tập tại trường
Em xin chân thành cảm ơn cô đã tận tâm hướng dẫn em cùng với những góp ý
và những buổi nói chuyện, thảo luận về đồ án Nếu không có những lời hướng dẫn, dạy bảo của cô em nghĩ đồ án này của em rất khó có thể hoàn thành được
Xin gửi lời cảm ơn chân thành đến gia đình, bạn bè, đã luôn là nguồn động viên to lớn, giúp em vượt qua những khó khăn trong suốt quá trình học tập và thực hiện đồ án tốt nghiệp
Mặc dù đã rất cố gắng hoàn thiện đồ án với tất cả sự nỗ lực, tuy nhiên đồ án
“Nghiên cứu phương pháp SVM và ứng dụng nhận dạng chữ viết tay” chắc chắn sẽ
không thể tránh khỏi những thiếu sót Em rất mong nhận được sự quan tâm, thông cảm và những đóng góp quý báu của các Thầy Cô để đồ án này ngày càng hoàn thiện hơn
Trang 5MỤC LỤC LỜI CAM ĐOAN
LỜI CẢM ƠN
DANH MỤC VIẾT TẮT
DANH MỤC BẢNG
DANH MỤC HÌNH
LỜI MỞ ĐẦU 1
1 Lý do chọn đề tài 1
2 Nội dung đề tài 1
3 Phương pháp nghiên cứu 2
4 Cấu trúc đề tài 2
CHƯƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG CHỮ VIẾT TAY 3
1.1 Tổng quan về bài toán nhận dạng 3
1.2 Mô hình tổng quát của một hệ nhận dạng chữ viết tay 4
1.2.1 Tiền xử lý 4
1.2.2 Khối tách chữ 8
1.2.3 Trích chọn đặc trưng 9
1.2.4 Huấn luyện và nhận dạng 13
1.2.5 Hậu xử lý 17
1.3 Phương pháp máy véc tơ tựa 17
1.3.1 Định nghĩa 17
1.3.2 Đặc điểm 18
1.3.3 Thuật toán SVM 19
1.3.4 Huấn luyện SVM 22
1.3.5 Các ưu thế của SVM trong phân lớp văn bản 22
1.4 Đánh giá, so sánh các phương pháp nhận dạng 24
CHƯƠNG 2: NHẬN DẠNG CHỮ VIẾT TAY SỬ DỤNG PHƯƠNG PHÁP SVM 28
Trang 62.1 Support Vector Machine 28
2.2 MultiClass SVMs 39
2.3 Áp dụng cho bài toán phân loại văn bản 40
2.3.1 Huấn luyện 40
2.3.2 Phân lớp 40
2.4 Giới thiệu về Accord.NET framework 40
2.5 Phân tích xây dựng chương trình 42
2.5.1 Máy học 42
2.5.2 Thuật toán huấn luyện 43
2.5.3 Nhận dạng chữ số 44
2.5.4 Ứng dụng mẫu 45
2.6 Mô hình nhận dạng chữ viết tay rời rạc 46
2.6.1 Tiền xử lý 47
2.6.2 Trích chọn đặc trưng 47
2.6.3 Lựa chọn thuật toán huấn luyện phân lớp 48
CHƯƠNG 3: CHƯƠNG TRÌNH DEMO 49
3.1 Chuẩn bị các bộ dữ liệu thực nghiệm 49
3.2 Giao diện chính 49
3.3 Kết quả thực nghiệm 50
3.4 Kết quả thực nghiệm trên bộ dữ liêu 50
3.5 Kết quả thực nghiệm trên dữ liệu chữ viết tay tiếng Việt 51
3.6 Đánh giá hiệu quả phân lớp SVM 52
KẾT LUẬN 54
TÀI LIỆU THAM KHẢO 55
Trang 7DANH MỤC BẢNG
Bảng 3.1: Kết quả thực nghiệm trên tập MNIST với hàm nhân RBF(s =0.08) 51 Bảng 3.2: So sánh kết quả nhận dạng của VM với mô hình mạng nơ ron 51 Bảng 3.3: Thực nghiệm trên tập dữ liệu chữ viết tay tiếng Việt 52
Trang 8DANH MỤC HÌNH
Hình 1.1 Sơ đồ tổng quát của một hệ nhận dạng chữ viết tay 4
Hình 1.2 Nhị phân hóa ảnh 5
Hình 1.3 Nhiễu đốm và nhiễu vệt 5
Hình 1.4 Chuẩn hóa kích thước ảnh các ký tự “A” và “P” 6
Hình 1.5 (a) Ảnh gốc, (b) Ảnh sau khi được làm trơn biên 6
Hình 1.6 Làm mảnh chữ 7
Hình 1.7 Hiệu chỉnh độ nghiêng của văn bản 8
Hình 1.8 Siêu phẳng h phân chia dữ liệu huấn luyện thành 2 lớp + và - với khoảng cách biên lớn nhất 20
Hình 2.1: Phân lớp tuyến tính 28
Hình 2.2: Khoảng cách từ đường phân cách đến những điểm gần nhất 29
Hình 2.3: Đường phân có khoảng cách margin lớn 30
Hình 2.4: Khoảng cách từ điểm dữ liệu đến mặt phân cách 31
Hình 2.5: Một vài điểm bị phân lớp sai 35
Hình 2.6: Trường hợp phân nhiều lớp K > 2 39
Hình 2.7: Các lớp học dành cho các máy trong mã nguồn 43
Hình 2.8: Sơ đồ lớp thuật toán huấn luyện 43
Hình 2.9: Mô hình nhận dạng chữ viết tay rời rạc 47
Hình 2.10: Trích chọn đặc trưng trọng số vùng 48
Hình 3.1 Đưa các mẫu vào huấn luyện và cài đặt thông số huấn luyện phân loại 49
Hình 3.2 Kết quả huấn luyện phân loại 50
Hình 3.3 Màn hình nhận dạng 50
Trang 9DANH MỤC TỪ VIẾT TẮT