1 Tìm hiểu hàm nhân trong máy vector hỗ trợ và ứng dụng trong nhận dạng chữ số viết tay Researching Kernels of Support Vector Machine and Their Applications in Handwriting Recognition N
Trang 11
Tìm hiểu hàm nhân trong máy vector hỗ trợ và ứng dụng trong nhận dạng chữ số viết tay Researching Kernels of Support Vector Machine and Their Applications in Handwriting
Recognition NXB H : ĐHCN, 2014 Số trang 52 tr +
Chu văn Vinh
Đại học Công nghệ Luận văn ThS ngành: Kỹ thuật Phần mềm; Mã số: 60 48 01 03
Người hướng dẫn: TS Nguyễn Văn Vinh
Năm bảo vệ: 2014
Keywords: Kỹ thuật phần mềm; Hàm nhân; Máy vector hỗ trợ; Phương pháp học máy
Content
1 Đặt vấn đề, giới thiệu bài toán
Ngày nay với sự phát triển mạnh mẽ của khoa học kỹ thuật, đặc biệt là sự phát triển của mạng máy tính toàn cầu, một lượng lớn dữ liệu được tạo ra thường xuyên hàng ngày nhằm đáp ứng nhu cầu không thể thiếu của con người đó là thông tin Chúng ta đang được sống trong một
xã hội bùng nổ thông tin, các ứng dụng công nghệ thông tin đã và đang đi vào từng lĩnh vực của đời sống xã hội Thông tin được thể hiện dưới rất nhiều dạng khác nhau như: văn bản, hình ảnh,
âm thanh cần được nhận dạng, sắp xếp, phân loại để con người có thể dễ dàng nhận biết và tìm kiếm
Học máy là một lĩnh vực của trí tuệ nhân tạo, liên quan đến việc nghiên cứu và xây dựng các kỹ thuật cho phép hệ thống có thể học tự động từ dữ liệu để giải quyết những vấn đề cụ thể Phương pháp học máy thường được áp dụng trong các bài toán như: nhận dạng, phân lớp dữ liệu,
xử lý ngôn ngữ, tin sinh học Các phương phương pháp học máy thường được sử dụng rộng rãi
là Mạng nơ-ron nhân tạo, máy vector hỗ trợ, k-láng giềng gần nhất, Naive Bayes, mô hình hỗn hợp Gauss Trong đó, thuật toán máy vector hỗ trợ (Support Vector Machine) là phương pháp mới và tiên tiến, đang được đánh giá rất cao do tính hiệu quả trong việc nhận dạng và phân lớp dữ liệu của nó Nội dung chính của thuật toán máy vector hỗ trợ là tìm ra một siêu phẳng phân cách tối ưu để có thể phân chia dữ liệu tuyến tính ra làm hai lớp khác nhau
Trong thuật toán máy vector hỗ trợ, các hàm nhân và các tham số của nó đóng vai trò rất quan trọng, ảnh hưởng đến tốc độ xử lý huấn luyện và tính chính xác của thuật toán với các bài toán phân lớp dữ liệu không tuyến tính Bài toán lựa chọn hàm nhân và tham số tốt nhất vẫn còn
là một vấn đề mở, là một bài toán khó trong thuật toán máy vector hỗ trợ Trong rất nhiều các phương pháp đề xuất, thuật toán tìm kiếm dạng lưới và thẩm định chéo là một trong những phương pháp cơ bản và thông dụng để tìm ra hàm nhân và tham số tốt nhất trong một khoảng giá trị được xác định trước
Trên thực tế, máy vector hỗ trợ đã được cài đặt và kiểm chứng cho ra kết quả nhận dạng, phân loại rất tốt với các bài toán như: nhận dạng hình ảnh, nhận dạng chữ viết tay, phân loại văn bản, nhận dạng âm thanh Bài toán nhận dạng chữ viết tay vẫn đang là một vấn đề kinh điển
Trang 22
trong công nghệ thông tin do sự đa dạng của thông tin đầu vào và thuật toán vẫn còn đang trong quá trình hoàn thiện để đi đến kết quả chính xác nhất
2 Mục tiêu của luận văn
Trên cơ sở về tính cấp thiết và tính thực tiễn của các vấn đề nêu trên, tôi đã chọn đề tài
“Tìm hiểu hàm nhân trong máy vector hỗ trợ và ứng dụng trong nhận dạng chữ số viết tay”
làm đề tài cho luận văn của mình Mục đích chính của luận văn là tìm hiểu các hàm nhân trong máy vector hỗ trợ, các phương pháp lựa chọn tham số tốt nhất cho hàm nhân trong một khoảng giá trị xác định trước Từ những phương pháp đó, tôi sẽ tìm hiểu bài toán nhận dạng chữ viết tay, các bước áp dụng hàm nhân trong bài toán nhận dạng chữ số viết tay để thực hiện cài đặt và đánh giá kết quả thử nghiệm với các hàm nhân, thử nghiệm phương pháp lựa chọn tham số cho hàm nhân
3 Phương pháp và phạm vi nghiên cứu của luận văn
Để đạt được mục tiêu của luận văn, tôi đã tìm hiểu và tổng hợp các kiến thức liên quan đến máy vector hỗ trợ, các hàm nhân thường sử dụng trong máy vector hỗ trợ, các phương pháp đánh giá để tìm ra giá trị tốt nhất cho tham số của hàm nhân trong một khoảng giá trị được xác định trước Sau đó, tìm hiểu bài toán nhận dạng chữ viết tay, quá trình áp dụng hàm nhân để giải quyết bài toán nhận dạng chữ số viết tay để xây dựng chương trình thử nghiệm đánh giá các kết quả đã nghiên cứu Bên cạnh đó, để có thể đánh giá tốt các kết quả nghiên cứu, độ lớn và độ chính xác của tập dữ liệu thử nghiệm cũng rất quan trọng, tôi đã tìm hiểu các tập dữ liệu đang sử dụng phổ biến hiện nay và lấy tập dữ liệu MNIST để thử nghiệm chương trình cài đặt
4 Nội dung của luận văn
Nội dung chính của luận văn được chia thành 4 chương có nội dung như sau:
Chương 1: Thuật toán máy vector hỗ Chương này trình bày các lý thuyết cơ bản về học
máy, máy vector hỗ trợ, các phương pháp cải tiến của máy vector hỗ trợ để làm tiền đề cho quá trình huấn luyện và nhận dạng dữ liệu
Chương 2: Các hàm nhân trong máy vector hỗ trợ Chương này giới thiệu các vấn đề
liên quan đến hàm nhân thường được áp dụng trong máy vector hỗ trợ để giải quyết các bài toán phân lớp dữ liệu không tuyến tính
Chương 3: Ứng dụng của hàm nhân trong nhận dạng chữ số viết tay Chương này
giới thiệu bài toán nhận dạng chữ viết tay, các bước áp dụng thuật toán máy vector hỗ trợ và hàm nhân để giải quyết bài toán nhận dạng chữ số viết tay
Chương 4: Cài đặt và thử nghiệm chương trình Chương này giới thiệu về chương trình
cài đặt, thử nghiệm với 7000 chữ số viết tay mẫu, từ đó đánh giá hiệu quả của phương pháp tìm kiếm dạng lưới và thẩm định chéo khi lựa chọn hàm nhân cũng như tham số cho hàm nhân trong một khoảng giá trị xác định trước
Phần kết luận: Tổng kết những kết quả đã đạt được của luận văn và hướng nghiên cứu,
phát triển tiếp theo
References
Tiếng Việt
[1] Trần Uyên Trang, Giáo trình Trí tuệ nhân tạo, 2013
[2] Nguyễn Thị Thảo, Phương pháp phân lớp sử dụng máy vector hỗ trợ ứng dụng trong tin
sinh học, Tạp chí Khoa học và Phát triển, 2011
[3] Phạm Anh Phương, “Nghiên cứu ứng dụng phương pháp máy véc tơ tựa trong nhận dạng
chữ Việt viết tay rời rạc”, Luận án Tiến sĩ, 2010
Trang 33
Tiếng Anh
[4] Henok Girma, “A tutorial on Support Vector Machine”, 2009
[5] Cesar de Souza, “Handwriting Recognition Revisited: Kernel Support Vector Machine”,
2012
[6] Colin Campbell, “Kernel methods: a survey of current techniques”, 2001
[7] Alexandros Karatzoglou, David Meyer, Kurt Hornik “Support Vector Machines in R”,
Journal of Statistical Software, 2006
[8] Olivier Chapelle, Vladimir Vapnik, “Choosing Multiple Parameters for Support Vector
Machines”, 2001
[9] Ching-Yinn Lee, Shuh-Gi Chern, “Application of a support vector machine for
liquefaction assessment”, Journal of Marine Science and Technology, Vol.21, No.3, pp.318-324,
2013
[10] Chih-Wei Hsu, Chih-Chung Chang, and Chih-Jen Lin, “A Practical Guide to Support
Vector Classification”, 2010
[11] Y LeCun, L Bottou, Y Bengio, and P Haffner "Gradient-based learning applied to
document recognition.", Proceedings of the IEEE, 86(11): 2278-2324, 1998