Do đó, luận văn tiến hành nghiên cứu một số giải thuật học có giám sát trong lĩnh vực máy học trên cơ sở bộ số liệu thu thập được là kết quả học tập của sinh viên.. Đặc biệt, luận văn tậ
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO
Trang 2BỘ GIÁO DỤC VÀ ĐÀO TẠO
Chuyên ngành : Công nghệ thông tin
Mã số ngành: 60480201
CÁN BỘ HƯỚNG DẪN KHOA HỌC: TS LƯ NHẬT VINH
TP HỒ CHÍ MINH, tháng 6 năm 2016
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi Các số liệu, kết quả nêu trong Luận văn là trung thực và chƣa từng đƣợc ai công bố trong bất kỳ công trình nào khác
Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện Luận văn này
đã đƣợc cảm ơn và các thông tin trích dẫn trong Luận văn đã đƣợc chỉ rõ nguồn gốc
Học viên thực hiện Luận văn
(Ký và ghi rõ họ tên)
Trần Thị Vân Anh
Trang 4LỜI CÁM ƠN
Tôi xin chân thành cảm ơn thầy hướng dẫn Tiến sĩ Lư Nhật Vinh, khoa Công nghệ thông tin – Trường Đại học Công nghiệp Thực phẩm TP.HCM đã tận tình hướng dẫn tôi trong suốt thời gian thực hiện luận văn
Hai người tôi muốn gửi lời cảm ơn sâu sắc nhất đó là ba mẹ đáng kính của tôi
đã chăm sóc con nhỏ để tôi yên tâm học tập, nghiên cứu và làm việc, cảm ơn những lời động viên tinh thần từ người chồng đã giúp tôi vượt qua mọi khó khăn, cảm ơn con Ngân Khánh đã mang lại niềm vui và là nguồn động lực cho mẹ
Tôi cũng xin cảm ơn khoa Công nghệ thông tin – Trường Đại học Công nghệ
Tp Hồ Chí Minh, thầy Võ Đình Bảy đã góp ý, định hướng, động viên tinh thần thường xuyên cho tập thể lớp Cao học 14SCT11
Xin cảm ơn bạn bè và đồng nghiệp tại trường Đại học Công nghiệp thực phẩm TP.HCM, các anh chị, các bạn cùng lớp Cao học đã giúp đỡ và chia sẻ với tôi trong quá trình học tập và thực hiện luận văn
Trang 5TÓM TẮT
Trong đào tạo tín chỉ, sinh viên được tự do đăng ký học phần Trong số các học phần phải đăng ký có các học phần có thuộc tính là bắt buộc và có học phần có thuộc tính là tự chọn Đối với những học phần bắt buộc, sinh viên được yêu cầu phải hoàn thành Đối với học phần tự chọn, sinh viên có quyền chọn học phần theo
ý riêng Đối với những sinh viên khi chưa tìm hiểu rõ mục tiêu, tính áp dụng của các học phần tự chọn thì việc chọn lựa học phần là một điều mới mẽ và gây ra tâm
lý lúng túng Ngay cả cố vấn học tập của lớp cũng khó có thể tư vấn chính xác cho từng sinh viên do không tiếp cận được chi tiết dữ liệu điểm Do đó, luận văn tiến hành nghiên cứu một số giải thuật học có giám sát trong lĩnh vực máy học trên cơ
sở bộ số liệu thu thập được là kết quả học tập của sinh viên Cụ thể, luận văn nghiên
cứu lý thuyết của 3 giải thuật: Mạng nơron nhân tạo – ANN (Artificial Neural
Networks), Máy vector hỗ trợ - SVM (Support Vector Machines) và cây quyết định
- DT (Decision Tree).Trên cơ sở phân tích các giải thuật này, luận văn đề xuất sử
dụng giải thuật ANN cho bài toán đặt ra
Trước hết, luận văn giới thiệu tổng quan về lĩnh vực khai thác dữ liệu giáo dục (EDM) và các công trình nghiên cứu liên quan Đặc biệt, luận văn tập trung vào những nghiên cứu áp dụng giải thuật học có giám sát để khai thác dữ liệu học tập của sinh viên Nội dung chương 2, luận văn giới thiệu về các giải thuật học có giám sát và đi vào nghiên cứu chi tiết từng giải thuật ANN, SVM và DT Dựa trên ngôn ngữ C#, trong chương 3 của luận văn sẽ trình bày phần cài đặt thực nghiệm trên giải thuật ANN Trong chương 4, luận văn tiến hành đánh giá kết quả thực nghiệm và đưa ra kết luận đồng thời trình bày những hạn chế chưa thực hiện được sẽ là định hướng phát triển trong tương lai
Trang 6ABSTRACT
In academic credit system, students need to register subjects by themselves Some of these subjects are compulsory and some others are optional For the compulsory subjects, students have to complete all of these subjects For the optional subjects, students can select the subjects that they prefer
In case students without understanding the objectives and applicability of the optional subjects, selecting new subjects may cause embarrassed Moreover, their advisors may also hardly provide suitable advices to students as these advisors do not clear about the ability of each student Therefore, this thesis studied some supervised learning algorithms in the field of machine learning based on student
result Specifically, we applied theoretically three algorithms: ANN (Artificial
Neural Networks), SVM (Support Vector Machines) and DT (Decision Tree) The
derived results then proposed to use ANN algorithm to solve the given problem
Firstly, thesis provided an overview of the field of educational data mining (EDM) and other relevant studies In particular, the thesis focused on the study applied supervised learning algorithms for data mining student result In chapter 2, thesis introduced generally theory of supervised learning algorithms and focused more into ANN, SVM and DT algorithms Based on the C # language, the experimental settings for the ANN algorithm were given in chapter 3 Finally, chapter 4 was to assess empirical and provide conclusions This chapter also identified some limitations of the thesis and provided the orientation for future study
Trang 7MỤC LỤC
LỜI CAM ĐOAN i
LỜI CÁM ƠN ii
TÓM TẮT iii
ABSTRACT iv
MỤC LỤC v
DANH MỤC CÁC TỪ VIẾT TẮT vii
DANH MỤC CÁC BẢNG viii
DANH MỤC BIỂU ĐỒ, ĐỒ THỊ, HÌNH ẢNH ix
MỞ ĐẦU 10
CHƯƠNG 1.TỔNG QUAN 12
1.1 Giới thiệu 12
1.2 Giới thiệu về khai thác dữ liệu giáo dục (EDM) 14
1.2.1 EDM ứng dụng trong dự báo và đánh giá khả năng của người học 16
1.2.2 EDM ứng dụng trong phân tích hành vi người học 17
1.3 Các vấn đề luận văn cần nghiên cứu 18
1.4 Tổng kết chương 20
CHƯƠNG 2.CƠ SỞ LÝ THUYẾT 21
2.1 Tổng quan về học có giám sát (Supervised Learning) 21
2.1.1 Giới thiệu 21
2.1.2 Tổng quan về giải thuật học có giám sát 21
2.2 Giải thuật máy vector hỗ trợ - SVM 24
2.2.1 Giới thiệu giải thuật SVM 24
2.2.2 SVM tuyến tính 24
2.2.3 SVM đa lớp 34
2.3 Cây quyết định 35
2.3.1 Cấu trúc của cây quyết định 35
2.3.2 Các kiểu Cây quyết định 36
2.3.3 Các bước chính để xây dựng cây 37
Trang 82.3.4 Một số ưu điểm của cây quyết định 38
2.3.5 Một số điểm yếu của cây quyết định 40
2.3.6 Thuật toán ID3 40
2.3.7 Thuật toán C4.5 48
2.4 Mạng ANN 55
2.4.1 Giới thiệu 55
2.4.2 Cấu trúc mạng Nơron 55
2.4.3 Phân loại cấu trúc mạng Nơron 56
2.4.4 Hàm hoạt động 57
2.4.5 Tiến trình học 57
2.4.6 Giải thuật Back – Propagation 59
2.5 Đánh giá các giải thuật 61
2.6 Tổng kết chương 63
CHƯƠNG 3.CÀI ĐẶT THỰC NGHIỆM 64
3.1 Mô tả bài toán 64
3.2 Tiền xử lý dữ liệu 66
3.3 Cài đặt thực nghiệm 67
3.3.1 Ví dụ thực nghiệm 70
3.4 Tổng kết chương 75
CHƯƠNG 4.KẾT LUẬN 76
DANH MỤC TÀI LIỆU THAM KHẢO 77
Trang 9DANH MỤC CÁC TỪ VIẾT TẮT
Chữ viết tắt Thuật ngữ tiếng Anh Diễn giải
LMS Learning managerment systems Hệ thống quản trị học
ITS Intelligent tutoriol system Hệ thống hướng dẫn thông minh
SRM Structural Risk Minimization Cực tiểu hóa rủi ro có cấu trúc
Trang 10DANH MỤC CÁC BẢNG
Bảng 1.1. Kế hoạch đào tạo học kỳ 2 hệ Đại học ngành Công nghệ sinh học 12
Bảng 2.1. Bảng dữ liệu chơi golf 36
Bảng 3.1 Khung chương trình đào tạo học kỳ 1 ngành Công nghệ sinh học 63
Bảng 3.2 Khung chương trình đào tạo học kỳ 2 ngành Công nghệ sinh học 64
Trang 11DANH MỤC BIỂU ĐỒ, ĐỒ THỊ, HÌNH ẢNH
Hình 2.1. Minh họa SVM tuyến tính 25
Hình 2.2. Minh họa tìm một siêu phẳng tối ưu 26
Hình 2.3. Xác định siêu phẳng tối ưu 26
Hình 2.4. Minh họa trường hợp dữ liệu nhiễu 30
Hình 2.5. Trường hợp dữ liệu nhiễu 31
Hình 2.6. Minh họa trường hợp SVM đa lớp 34
Hình 2.7. Mô tả chung về cây quyết định 35
Hình 2.8. Cấu trúc một Nơron 55
Hình 2.9. Cấu trúc một mạng nơron không có lớp ẩn 56
Hình 2.10.Cấu trúc mạng neural nhiều lớp 56
Hình 2.11.Tiến trình học của mạng nơron 58
Hình 2.12.Mô hình tính toán một nơron 59
Hình 3.1. Mô hình dự báo kết quả học tập 67
Hình 3.2. Dữ liệu huấn luyện 71
Hình 3.3. Đánh giá sai số huấn luyện 71
Hình 3.4. Đánh giá thời gian huấn luyện 72
Hình 3.5. Dữ liệu kiểm thử 72
Hình 3.6. Đánh giá sai số kiểm thử 73
Hình 3.7. Đánh giá thời gian kiểm thử 73
Hình 3.8. Các giá trị kiểm thử 74
Trang 12MỞ ĐẦU
Tại Việt Nam, hình thức đào tạo tín chỉ đã được áp dụng từ năm 2001[26] Việc áp dụng đào tạo theo hình thức tín chỉ tạo nhiều thuận lợi cho người học bởi tính liên thơng của nĩ Học theo tín chỉ tạo điều kiện cho người học cĩ thể học liên thơng giữa các ngành trong trường, hoặc liên thơng giữa các trường trong nước Ngồi ra cịn cĩ thể dễ dàng hội nhập với giáo dục của thế giới do chương trình học phân theo từng mơ đun cụ thể
Cơng nghệ thơng tin đã ứng dụng trong hầu hết các lĩnh vực, trong đĩ ngành giáo dục đã ứng dụng cơng nghệ thơng tin vào trong giảng dạy rất nhiều như những bài giảng điện tử, những hệ thống quản lý sinh viên trực tuyến Khơng dừng lại ở
đĩ, song song với tiến bộ của cơng nghệ thơng tin đặc biệt là trong lĩnh vực khai thác dữ liệu Mơi trường giáo dục là một trong những mơi trường được các nhà nghiên cứu tập trung khai thác, với mục đích chính là tìm ra những tri thức tiềm ẩn
để từ đĩ xem xét đầu tư và cải tiến trong các mặt của giáo dục, đồng thời thơng qua
đĩ nâng cao khả năng của những nhà nghiên cứu trong việc nghiên cứu và phát triển các kỹ thuật khai thác dữ liệu
Các giải thuật học cĩ giám sát của ngành máy học là những giải thuật được
sử dụng rộng rãi trong các bài tốn phân lớp và dự báo bởi kết quả chính xác mà nĩ
mang lại [11] Các giải thuật đĩ là: giải thuật Mạng ANN, SVM và DT, NB (Nạve
Bayer) và giải thuật K láng giềng gần - KNN (K Nearest Neighbours) Trong số đĩ:
giải thuật Mạng ANN, Máy vector hỗ trợ SVM và Cây quyết định DT được sử dụng rộng rãi trong các bài tốn khai thác dữ liệu giáo dục[17] Trên cơ sở đĩ, luận văn thực hiện nghiên cứu chi tiết đối với ba giải thuật trên cho bài tốn dự báo kết quả học của các học phần tự chọn Mục tiêu nghiên cứu chính của luận văn:
Đề xuất mơ hình bài tốn dự báo kết quả học tập của các học phần tự chọn để
từ đĩ làm cơ sở thực nghiệm đối với tập dữ liệu thu thập được
Đề xuất giải thuật dự báo trên cơ sở nghiên cứu các giải thuật học cĩ giám sát
Trang 13 Xây dựng thực nghiệm đã xác định được kết quả dự báo
Đánh giá, so sánh kết quả thực nghiệm
Trên cơ sở mục tiêu nghiên cứu, luận văn xác định các đối tượng cần phải nghiên cứu như sau:
Nghiên cứu cấu trúc chung của giải thuật học có giám sát để làm cơ sở nghiên cứu các giải thuật cụ thể
Đi sâu nghiên cứu chi tiết từng giải thuật: giải thuật Mạng ANN, Máy vector
hỗ trợ SVM và cây quyết định DT
Nghiên cứu dữ liệu đầu vào và cài đặt thực nghiệm
Phạm vi nghiên cứu của luận văn giới hạn trong các giải thuật ANN, SVM
và DT Ngôn ngữ sử dụng để cài đặt thực nghiệm là C# Từ đó phân tích tính phù hợp của các giải thuật và chọn giải thuật để áp dụng cho bài toán dự báo kết quả học tập Sau cùng, trình bày kết quả thực nghiệm và đánh giá hiệu suất của giải thuật áp dụng Dựa trên kết quả đạt được, nhìn nhận những hạn chế từ đó đề xuất hướng nghiên cứu tiếp theo
Trang 14CHƯƠNG 1 TỔNG QUAN
1.1 Giới thiệu
Hình thức đào tạo tín chỉ là một phương pháp đào tạo tiên tiến trên thế giới
và đang được áp dụng rộng rãi tại một số trường đại học của Việt Nam hiện nay Ưu điểm của hình thức đào tạo này là tính liên thông giữa các hệ đào tạo, giữa các trường để tạo điều kiện cho việc hội nhập với giáo dục trong nước và giáo dục thế giới Vì lý do đó, chủ trương đã được thủ tướng chính phủ phê duyệt theo Quyết định 47/2001/QĐ-TT là mở rộng áp dụng hình thức đào tạo tín chỉ trong mạng lưới các trường đại học, cao đẳng trong nước giai đoạn 2001- 2010
Trường Đại học Công nghiệp Thực phẩm Tp HCM đã áp dụng hình thức học theo tín chỉ từ năm học 2006 đến nay Theo tinh thần của tín chỉ, sinh viên có thể tự xây dựng kế hoạch học tập cho suốt quá trình học tập toàn khóa học, có nghĩa
là tùy theo năng lực và điều kiện của bản thân, sinh viên sẽ đăng ký học phần trong mỗi học kỳ theo qui định của Nhà trường
Theo qui chế đào tạo tín chỉ của Nhà trường [25], kế hoạch đào tạo trong một học kỳ đối với sinh viên bao gồm học phần bắt buộc và học phần tự chọn Trong đó,
số tín chỉ đăng ký tối thiểu là 14 Theo đặc thù của Nhà trường, trong học kỳ đầu tiên, sinh viên sẽ được đăng ký lịch học tự động và trong học kỳ này sinh viên không thực viện việc chọn học phần tự chọn Bắt đầu học kỳ thứ 2 trở đi, sinh viên
sẽ tự chọn học phần để đăng ký học, ví dụ:
Bảng 1.1 Kế hoạch đào tạo học kỳ 2 hệ Đại học ngành Công nghệ sinh học
Học kỳ 2: 22 Tín chỉ
1 17201002 Giáo dục thể chất 2 30 tiết 17201001(a)
2 19200001 Những nguyên lý cơ bản của
chủ nghĩa Mác – Lênin 5(5,0,10)
Trang 155 18200003 Toán cao cấp A3 2(2,0,4)
6 18200014 Vật lý đại cương 2 2(2,0,4) 18200013 (a)
7 18202015 Thí nghiệm vật lý đại cương 1(0,1,1) 18200014 (c)
9 09200009 Môi trường và con người 2(2,0,4)
2 18200012 Quy hoạch thực nghiệm 2(2,0,4)
3 18200008 Quy hoạch tuyến tính 2(2,0,4)
Trong nhóm học phần tự chọn, sinh viên sẽ phải chọn học phần tự chọn như bảng 1.1 Giai đoạn chọn lựa học phần là giai đoạn khó khăn đối với sinh viên vì phải ra quyết định lựa chọn mà không rõ là học phần nào sẽ cho kết quả tốt hơn, có nhiều tiêu chí để sinh viên lựa chọn môn học Thông thường, sinh viên sẽ chọn môn học theo cảm tính, theo sở thích, theo kinh nghiệm của những sinh viên đi trước mà chưa có một cơ sở nào chắc chắn để hỗ trợ sinh viên có thể dự đoán được điểm của học phần đã chọn Theo tình trạng hiện tại, sinh viên thiếu kênh thông tin dự báo để tham khảo, do đó thiếu tự tin trong việc chọn lựa học phần mặc dù Nhà trường cũng
đã có bộ phận cố vấn học tập để hỗ trợ sinh viên trong vấn đề này Nhưng với số lượng sinh viên trong một lớp rất đông và cố vấn học tập cũng không thể tiếp cận chi tiết đến dữ liệu điểm số của từng sinh viên nên cố vấn học tập chưa sâu sát được đến từng sinh viên để đưa ra một lời khuyên tốt nhất
Nắm rõ những khó khăn trên của sinh viên và cố vấn học tập tại trường Đại học Công nghiệp Thực phẩm Tp Hồ Chí Minh, luận văn đề xuất nghiên cứu một số giải thuật học có giám sát của ngành máy học đó là giải thuật SVM, giải thuật cây quyết định DT và giải thuật Mạng ANN để khai thác dữ liệu kết quả học tập của sinh viên Từ đó, luận văn phân tích các giải thuật này Dựa trên kết quả phân tích
Trang 16này luận văn chọn ra một giải thuật tối ưu để xây dựng mô hình dự báo từ đó đưa ra những gợi ý tư vấn cho sinh viên trong việc lựa chọn các học phần tự chọn, mục đích để đạt được kết quả như mong muốn.
1.2 Giới thiệu về khai thác dữ liệu giáo dục (EDM)
Khai thác dữ liệu giáo dục (Education Data Mining- EDM) là một lĩnh vực nghiên cứu phát triển các kỹ thuật khai thác dữ liệu (Data Mining- DM) trên bộ số
liệu của hệ thống giáo dục [14] Qua đó, khám phá ra những thông tin tiềm ẩn để trả lời cho những câu hỏi và những vấn đề chưa được giải đáp của lĩnh vực giáo dục
Từ đó, đưa ra những cải tiến trong chất lượng giảng dạy và các chính sách giáo dục khác Những câu hỏi tương tự như:
Làm sao có thể dự đoán được thành công của người học?
Những biểu hiện nào của sinh viên cho thấy có sự tiến bộ hoặc tụt dốc trong học tập?
Cần phải thay đổi môi trường học tập như thế nào để người học có kết quả tốt hơn?
Làm sao biết được các yếu tố ảnh hưởng đến lỷ tệ nhập học của người học? EDM được coi là mỏ vàng của ngành khai thác dữ liệu[14], những dữ liệu thuộc ngành này đã được tích lũy nhiều năm và vô cùng phong phú EDM đóng góp rất nhiều cho việc phát triển các kỹ thuật DM[7] EDM không giới hạn các kỹ thuật
khai thác dữ liệu Hầu như các kỹ thuật phân lớp (classification), gom cụm (clustering), rút luật kết hợp (association rule) đều được áp dụng thành công trong
lĩnh vực giáo dục[14]
Hội thảo quốc tế về lĩnh vực EDM diễn ra tại các nước vào tháng 7 hằng năm (http://www.educationaldatamining.org) là cơ hội để những nhà nghiên cứu về lĩnh vực này công bố những hướng nghiên cứu mới Đồng thời tạp chí jounal of education data mining cũng là một kênh chính cho những ai theo đuỗi lĩnh vực này nắm bắt được tình hình nghiên cứu trên thế giới
Trang 17Những nghiên cứu của EDM xoay quang 4 đối tượng chính [14]:
Sinh viên: chủ yếu là khai thác những thông tin chi tiết của sinh viên, tính cách cũng như khả năng kiến thức, các kỹ năng, động lực, sự hài lòng, thái độ mục tiêu là phát hiện khả năng phát sinh những tác động tiêu cực làm ảnh hưởng đến quá trình học
Người dạy: Khai thác dữ liệu để tìm ra những yếu tố ảnh hưởng đến quá trình dạy từ đó điều chỉnh, cải tiến phương pháp giảng dạy cho phù hợp
Người quản lý: Khai thác dữ liệu để tìm ra những nguy cơ, những rủi ro ảnh hưởng đến chiến lược, mục tiêu của Trường học, những lỗ hổng trong quản lý và để cải thiện hơn trong quản lý nhân sự hoặc xem xét các yếu tố cải thiện cơ sở vật chất
Nhà nghiên cứu: phát triển và so sánh các kỹ thuật khai thác dữ liệu ứng dụng trong các vấn đề cụ thể từ đó đưa ra những kiến nghị có lợi trong việc lựa chọn kỹ thuật khai thác dữ liệu phù hợp
Những nghiên cứu gần đây: trong bài báo về phân tích hiệu suất và dự báo trong khai thác dữ liệu giáo dục[7] đã trình bày cuộc khảo sát toàn diện về EDM (từ năm 2002 đến 2014) bao gồm các nghiên cứu của các tác giả trong tài liệu [7]: đã sử dụng phương pháp thống kê và gom cụm để khai thác dữ liệu giáo dục và đưa ra các bài báo đã chia cách tiếp cận khai thác dữ liệu giáo dục theo phân loại hệ thống giáo dục, ngành học, nhiệm vụ, phương pháp, và các giải thuật áp dụng Trong nội dung bài báo còn khảo sát các nghiên cứu về EDM tập trung chủ yếu là dự báo kết quả học tập dựa vào các yếu tố nhập học của người học Hầu hết các tài liệu nghiên cứu
về EDM đều thuộc thể loại này Bài viết mới nhất trên tạp chí Computer Science and Mobile Computing [7] mô tả quá trình tìm kiếm các nhóm học sinh yếu dựa trên số liệu điểm tốt nghiệp Ngoài ra còn một số nghiên cứu khác cũng nhằm mục đích dự báo những học sinh yếu [17] Trong một nghiên cứu khác dùng kỹ thuật cây quyết định để khai thác dữ liệu nhằm hỗ trợ sinh viên trong việc ghi danh các khóa học Trong một bài báo khác năm 2010, cũng khai thác các thuộc tính tuyển sinh để
dự báo khả năng học tập của sinh viên [9]
Trang 18Nhìn chung, các nghiên cứu về EDM có thể phân chia theo hai hướng tiếp cận Thứ nhất, EDM ứng dụng trong dự báo và đánh giá khả năng người học Thứ hai, EDM ứng dụng trong phân tích hành vi người học
1.2.1 EDM ứng dụng trong dự báo và đánh giá khả năng của người học
Hiện nay đã có nhiều ứng dụng khai thác dữ liệu trong giáo dục đóng vai trò quan trọng trong việc phát triển hệ thống giáo dục:
Theo tài liệu [18], EDM được ứng dụng chủ yếu trong các hệ thống quản trị
học tập (Learning Managerment Systems - LMS) và hệ thống tài liệu thông minh (Intelligent tutoriol system- ITS)
Hệ thống LMS tiêu biểu nhất là Moodle Thông qua hoạt động học của sinh viên trên hệ thống Moodle, Jovanovica và cộng sự đã xây dựng mô hình phân loại ứng dụng dựa trên kỹ thuật phân cụm để dự đoán kết quả học của sinh viên [18] Hệ thống này đã được thiết kế trên Moodle để trích xuất dữ liệu cần thiết một cách tự động Kết quả đã giúp ích cho hoạt động dạy của giảng viên Một nghiên cứu khác của Falakmusic và jafar cũng cho thấy lợi ích của khai thác dữ liệu khi dùng cây quyết định để khai thác hồ sơ truy cập Moodle của sinh viên[18] Kết quả là có thể xác định và xếp hạng chính xác kết quả thi cuối kỳ của sinh viên thông qua việc tham gia các lớp trên Moodle Romero và cộng sự cũng đã thực hiện nhiều thử nghiệm khai thác dữ liệu của hệ thống e-learning để dự đoán điểm cuối khóa của sinh viên, đồng thời cũng xác định được nhiều ứng dụng phân loại trong môi trường giáo dục như: phát hiện các nhóm sinh viên có cùng đặc trưng, xác định nhóm người học có động cơ thấp để đề xuất hướng khắc phục, dự đoán và phân loại nhóm sinh viên có sử dụng hệ thống tài liệu thông minh Song song với việc dự đoán kết quả học của người học qua việc truy cập thường xuyên trên hệ thống học Moodle còn giúp người hướng dẫn phát hiện những truy cập không thường xuyên của sinh viên
Các nghiên cứu của EDM đã sử dụng nhiều kỹ thuật (phân tích nhân tố và hồi quy logictic, cây quyết định, máy hỗ trợ vector (SVM), mạng Bayes) để xây
Trang 19dựng mô hình khai thác dữ liệu có thể giúp dự đoán kết quả sinh viên Song song với việc dự đoán là phân tích kết quả học tập để tìm ra những yếu tố ảnh hưởng và đưa ra những hành động khắc phục trong các cơ sở giáo dục đại học
Nghiên cứu về ITS, Dominguez và cộng sự đã tạo một hệ thống tiếp nhận thông tin phản hồi của sinh viên và theo dõi việc sinh viên chia sẽ những tài liệu học, họ phát hiện ra rằng những sinh viên tham gia vào hệ thống và thời gian lưu lại lâu hơn có kết quả tốt hơn đáng kễ so với những người không tham gia[2]
Gorissen và cộng sự đã phân tích tương tác của sinh viên với các bài giảng được ghi bằng các kỹ thuật khai thác dữ liệu giáo dục Cho thấy sự khác biệt cũng như sự tương đồng giữa các báo cáo bằng lời nói của học sinh và thực tế cách sử dụng như đăng nhập bằng các máy chủ bài giảng ghi lại Dữ liệu cho thấy rằng những sinh viên này có kết quả thi tốt hơn [14]
1.2.2 EDM ứng dụng trong phân tích hành vi người học
Xác định được hành vi và thái độ của người học là một yếu tố quan trọng trong việc cải tiến phương pháp giảng dạy Trong một số nghiên cứu về phân tích hành vi người học [18], đa số sử dụng các kỹ thuật phân lớp và gom cụm để thực hiện các mục tiêu như: phân tích việc sinh viên sử dụng tài liệu học tập của khóa học, Phân tích hành vi của người học thông qua quá trình làm bài tập, phân tích hành vi nên được thực hiện trong thời gian thực để cung cấp thông tin phản hồi kịp thời cho giáo viên cũng như người học để nâng cao việc theo dõi và dạy kèm cho sinh viên Những nghiên cứu dựa trên hành vi người học góp phần không nhỏ trong việc cải thiện môi trường học tập
Các công trình ngoài nước đã đề cập nhiều đến các kỹ thuật ứng dụng trong EDM như: classification, clustering, assosiation rule,…trong đó có ba kỹ thuật được đánh giá cao là Máy vecto hỗ trợ SVM, cây quyết định và mạng nơ ron nhân tạo ANN [17] Do đó tác giả lựa chọn ba kỹ thuật này để tiến hành nghiên cứu là một cách tiếp cận tốt và khả thi
Trang 20Trong nước cũng có một số nghiên cứu áp dụng khai thác dữ liệu vào lĩnh vực giáo dục chủ yếu là ứng dụng khai thác dữ liệu từ thông tin cá nhân của sinh viên, kết hợp khai thác dữ liệu từ thông tin và kết quả tuyển sinh của sinh viên để
dự đoán kết quả học tập Trong luận văn này, tác giả sẽ tiến hành khai thác dữ liệu
từ kết quả học của những sinh viên khóa trước Từ đó, đưa ra những dự báo kết quả cho sinh viên đang học Ngoài ra, còn phục vụ cho mục đích tư vấn của cố vấn học tập đối với lớp học nhằm tăng cường vai trò của người cố vấn trong các hoạt động đào tạo
1.3 Các vấn đề luận văn cần nghiên cứu
Trên cơ sở nhu cầu cần một công cụ tư vấn cấp thiết tại Trường Đại học Công nghiệp Thực phẩm Tp HCM, luận văn tiến hành tiếp cận nghiên cứu kỹ thuật học có giám sát của ngành máy học Cụ thể là SVM, DT và ANN từ đó lựa chọn một kỹ thuật tối ưu để áp dụng vào bài toán dự báo kết quả học tập Do đó, luận văn
sẽ tập trung nghiên cứu những nội dung chính như sau:
Nghiên cứu giải thuật Máy vecto hỗ trợ (SVM) và các lĩnh vực ứng dụng Nghiên cứu giải thuật Cây quyết định (DT) và các lĩnh vực ứng dụng
Nghiên cứu giải thuật Mạng nơ ron nhân tạo (ANN) và các lĩnh vực ứng dụng
Nghiên cứu bài toán khai thác dữ liệu trên kết quả học tập của người học
So sánh ưu nhược điểm của SVM, DT và ANN áp dụng cho bài toán dự đoán kết quả học tập
Đóng góp chính của luận văn gồm ba phần chính như sau:
Phân tích đánh giá và lựa chọn giải thuật phù hợp với bài toán đặt ra
Đề xuất xây dựng mô hình cho bài toán khai thác dữ liệu trên kết quả học tập của người học tại Trường Đại học Công nghiệp Thực phẩm Tp HCM
Trang 21Cài đặt chương trình trực quan tư vấn cho sinh viên trong việc lựa chọn học phần
Nội dung của luận văn bao gồm 4 chương:
Chương 1- Tổng quan: trong chương này luận văn khảo sát tổng quan về khai thác dữ liệu trong giáo dục và các công trình liên quan Dựa trên các nội dung khảo sát, trong chương này lần lượt phân tích các đặc điểm của các nghiên cứu đã công bố từ đó đánh giá tính khả thi của đề tài luận văn cũng như định hướng nghiên cứu cho luận văn Trên cơ sở các định hướng nghiên cứu này, luận văn sẽ dần đi vào cụ thể từng đối tượng dựa trên phương pháp nghiên cứu lý thuyết
Chương 2- Cơ sở lý thuyết: Trong chương này luận văn sẽ khảo sát tổng quan về máy học, cụ thể là các thuật toán học có giám sát Sau đó, phân tích các đặc tính tổng quát của các giải thuật này cụ thể là ba giải thuật SVM, DT và ANN từ đó đưa ra sự phù hợp của việc giải bài toán dự báo kết quả học tập Nội dung của chương này cũng sẽ phân tích các giải thuật học có giám sát và mô hình tổng quát của bài toán dự báo Trong chương này, lần lượt giới thiệu các giải thuật SVM, DT
và giải thuật ANN
Chương 3- Cài đặt thực nghiệm: Trong chương này luận văn trình bày mô tả bài toán khai thác dữ liệu kết quả học tập của sinh viên Trường Đại học Công nghiệp Thực phẩm Tp HCM, phân tích các tham số đầu vào và cài đặt thực nghiệm trên giải thuật đã lựa chọn
Chương 4- Đánh giá, Kết luận và hướng phát triển: Trong chương này, luận văn đưa ra đánh giá sau quá trình nghiên cứu Trên căn cứ đánh giá này nêu ra các kết luận về lý thuyết cũng như thực nghiệm cho giải thuật áp dụng cho bài toán đã đặt ra Bên cạnh đó, luận văn cũng nêu ra những mặt còn hạn chế và những định hướng phát triển trong tương lai
Trang 221.4 Tổng kết chương
Trong chương này, luận văn đã nêu tổng quan cũng như nhu cầu cần thiết phải giải quyết bài toán dự báo kết quả học tập để từ đó tư vấn cho sinh viên trong vấn đề lựa chọn học phần Bên cạnh đó, trong chương này, luận văn cũng đã khảo sát những công trình nghiên cứu gần đây, từ đó cho thấy vấn đề nghiên cứu của luận văn khả thi và có nhiều cơ sở khoa học Trên cơ sở này, luận văn đã xác định được các đối tượng, mục tiêu và phạm vi nghiên cứu Vì vậy, trong chương này luận văn
đã định hướng nội dung các chương cần nghiên cứu để giải quyết bài toán đặt ra nhằm đóng góp một phần công sức trong quá trình thực nghiệm trong lĩnh vực khai thác dữ liệu giáo dục
Trang 23CHƯƠNG 2 CƠ SỞ LÝ THUYẾT
2.1 Tổng quan về học có giám sát (Supervised Learning)
2.1.1 Giới thiệu
Giải thuật học có giám sát là một nhánh trong ngành máy học (machine
learning) [11] Một số kỹ thuật của giải thuật học có giám sát được ứng dụng hiệu
quả như: ANN, SVM, DT, NB, KNN…[21] Các ứng dụng phổ biến của giải thuật học có giám sát bao gồm các bài toán phân lớp hay dự báo như: bài toán dự báo giá
cổ phiếu trong lĩnh vực chứng khoán, bài toán dự báo rủi ro thương mại, bài toán phát hiện gian lận tín dụng, thực phẩm, y khoa, sinh học …[11] Trong chương này, luận văn sẽ tiếp cận các khái niệm tổng quan về giải thuật học có giám sát, từ đó phân tích cách giải thuật như mạng ANN, SVM và DT Dựa trên các phân tích này, luận văn chọn lựa giải thuật phù hợp cho bài toán dự báo kết quả học tập của sinh viên
2.1.2 Tổng quan về giải thuật học có giám sát
Giải thuật học có giám sát thường giải quyết dưới dạng các bài toán phân lớp
và dự báo Trong bài toán này thực hiện cực tiểu hóa rủi ro có cấu trúc (Structural
Risk Minimization- SRM) [19].Theo như tài liệu [11], giải thuật có giám sát là kỹ
thuật học dựa trên dữ liệu đã được gán nhãn (training set), thông qua quá trình học
từ bộ dữ liệu này thực hiện gán nhãn cho tập dữ liệu mới (test set) có cùng đặc
trưng so với mẫu dữ liệu cũ Máy học đã được ứng dụng rộng rãi trên hầu hết các lĩnh vực, sự đóng góp của các giải thuật học có giám sát đã giúp ích cho vấn đề phân lớp và dự báo trên các dữ liệu có kích thước lớn
Một số giải thuật học có giám sát bao gồm các kỹ thuật phân lớp sau: giải thuật mạng nơron nhân tạo ANN, SVM, giải thuật cây quyết định DT, giải thuật
NB, giải thuật KNN
Theo như tài liệu [11], học có giám sát là một kỹ thuật của ngành máy học để xây dựng một hàm từ dữ liệu huấn luyện Dữ liệu huấn luyện bao gồm các cặp đối
Trang 24tượng đầu vào và đầu ra Đầu vào thường có dạng vector Đầu ra của một hàm có thể là một giá trị liên tục (gọi là hồi quy), hay có thể là dự đoán một nhãn phân lớp cho một đối tượng đầu vào (gọi là phân lớp) Nhiệm vụ của chương trình học có giám sát là dự đoán giá trị của hàm cho một đối tượng bất kỳ là đầu vào hợp lệ, sau khi đã xem xét một số ví dụ huấn luyện (nghĩa là, các cặp đầu vào và đầu ra tương ứng) Để đạt được điều này, chương trình học phải tổng quát hoá từ các dữ liệu sẵn
có để dự đoán những tình huống chưa gặp phải một cách hợp lý Để giải quyết một bài toán nào đó của học có giám sát, phải xem xét nhiều bước khác nhau:
(1) Để thực hiện phân lớp, trước tiên phải chuẩn bị một tập dữ liệu huấn
luyện (training data set), để có tập dữ liệu huấn luyện phải thực hiện gán
nhãn cho dữ liệu ban đầu, đây được gọi là quá trình thu thập tập huấn luyện
(2) Lựa chọn một thuật toán phân lớp xây dựng bộ phân lớp để học tập dữ
liệu huấn luyện Hay nói cách khác, dùng tập dữ liệu huấn luyện để huấn
luyện bộ phân lớp Thuật ngữ học có giám sát được hiểu là học tập dữ
liệu đã được gán nhãn trước (các dữ liệu kèm theo nhãn tương ứng này coi như đã được giám sát bởi người thực hiện gán nhãn)
(3) Sử dụng một tập dữ liệu kiểm tra (test set) đã được gán nhãn trước, để
kiểm tra tính đúng đắn của bộ phân lớp Sau đó, có thể dùng bộ phân lớp
để phân lớp cho các dữ liệu mới
Tóm lại, giải thuật học có giám sát là các chiến lược tìm kiếm không gian của những giả thuyết có thể bằng cách sử dụng nhiều phương pháp khác nhau Theo [11]có thể mô hình hoá một vấn đề học có giám sát như sau:
Giải thuật học có giám sát gồm tập dữ liệu huấn luyện M cặp
( ,i j) 1, , ; 1, ,
Các cặp huấn luyện này gọi là mẫu, với x là vector n-chiều còn gọi là vector i đặc trưng, c là lớp thứ j đã biết trước j
Trang 25 Giải thuật học có giám sát tìm kiếm không gian của những giả thuyết có thể, gọi là H Đối với một hay nhiều giả thuyết mà ước lượng tốt nhất hàm :
f xc
Đối với việc phân lớp có thể xem giả thuyết như một tiêu chí phân lớp
Thuật toán máy học tìm ra những giả thuyết bằng cách khám phá ra những đặc trưng chung của những mẫu thể hiện cho mỗi lớp
Kết quả nhận được thường ở dạng luật (Nếu…thì)
Khi áp dụng những mẫu dữ liệu mới, cần dựa trên những giả thuyết đã có để
dự báo những phân lớp tương ứng của chúng Nếu như không gian giả thuyết lớn, thì cần một tập dữ liệu huấn luyện đủ lớn nhằm tìm kiếm một hàm xấp
xỉ f tốt nhất
Tùy vào mức độ của thuật toán học có giám sát, có những mô hình học giám sát như sau [11]:
Học vẹt (rote): hệ thống luôn được dạy những luật đúng, sau có học hội tụ
Học bằng phép loại suy (analogy): hệ thống được dạy phản hồi đúng cho một
công việc tương tự nhưng không xác định Vì thế, hệ thống phải hiệu chỉnh phản hồi trước đó bằng cách tạo ra một luật mới có thể áp dụng cho trường hợp mới
Học dựa trên trường hợp (case- based learning): trong trường hợp này, hệ
thống học lưu trữ tất cả các trường hợp cùng với kết quả đầu ra của chúng Khi bắt gặp một trường hợp mới hệ thống sẽ cố gắng hiệu chỉnh trường hợp mới này đến cách xử lý đã được lưu trữ trước đó
Học dựa trên sự giải thích (explanation- based learning): hệ thống sẽ phân
tích tập hợp những giải pháp nhằm chỉ ra tại sao mỗi phương pháp là thành công hay không thành công Sau khi tạo ra các giải thích, những giải thích này sẽ được dùng để giải quyết các vấn đề mới
Trang 262.2 Giải thuật máy vector hỗ trợ - SVM
2.2.1 Giới thiệu giải thuật SVM
Giải thuật SVM là giải thuật học có giám sát được đề xuất năm 1995 bởi Vapnik [4] Giải thuật được xây dựng dựa trên lý thuyết học thống kê nên kết quả được đánh giá có độ chính xác cao [6][12][6] SVM cũng là một giải thuật được sử dụng phổ biến và được ứng dụng trong nhiều bài toán như: nhận diện chữ viết tay [15], dự báo giá cổ phiếu [12] … Ý tưởng cơ bản của giải thuật SVM là xây dựng một siêu phẳng tối ưu trong không gian n- chiều sao cho khoảng cách lề từ điểm gần nhất của 2 lớp đến siêu phẳng đạt cực đại
Mô hình giải thuật:
Giả sử có một số điểm dữ liệu thuộc một trong hai lớp và mục tiêu của giải thuật là xác định xem dữ liệu mới thêm vào sẽ thuộc lớp nào Mỗi điểm dữ liệu như một vector p chiều, những điểm dữ liệu có tách được bằng một siêu phẳng p-1 chiều hay không?
Xem dữ liệu đầu vào như hai tập vector n chiều, một SVM sẽ xây dựng một siêu phẳng riêng biệt trong không gian đó sao cho nó tối đa hóa biên lề giữa hai tập dữ liệu
Để tính lề, hai siêu phẳng song song được xây dựng, mỗi lề nằm ở một phía của siêu phẳng phân biệt và chúng được đẩy về phía hai tập dữ liệu
Một phân lớp hiệu quả sẽ thu được siêu phẳng có khoảng cách lớn nhất đến các điểm lân cận của hai lớp, vì lề càng lớn thì sai số tổng quát hóa của bộ phân lớp càng tốt hơn
Trang 27Giả sử tập dữ liệu của ta có thể phân tách tuyến tính hoàn toàn (các mẫu đều
được phân đúng lớp) trong không gian đặc trưng (feature space), do đó sẽ tồn tại
giá trị tham số w và b theo (2.1) thỏa ( ) 0y x n cho những điểm có nhãn t n 1 và ( n) 0
y x cho những điểm có t n 1, vì thế mà t y x n ( n)0 cho mọi điểm dữ liệu huấn luyện
SVM tiếp cận giải quyết vấn đề này thông qua khái niệm gọi là lề hoặc biên
(margin) Lề được chọn là khoảng cách nhỏ nhất từ đường phân cách đến mọi điểm
dữ liệu hay là khoảng cách từ đường phân cách đến những điểm gần nhất
Hình 2.1 Minh họa SVM tuyến tính
Trong SVM, đường phân lớp tốt nhất chính là đường có khoảng cách lớn nhất (tức là sẽ tồn tại rất nhiều đường phân cách xoay theo các phương khác nhau,
và ta chọn ra đường phân cách mà có khoảng cách lớn nhất)
Trang 28Hình 2.2 Minh họa tìm một siêu phẳng tối ƣu
Ta có công thức tính khoảng cách từ điểm dữ liệu đến mặt phân cách nhƣ sau:
Trang 29Do ta đang xét trong trường hợp các điểm dữ liệu đều được phân lớp đúng nên t y x n ( n)0cho mọi n Vì thế khoảng cách từ điểm xn đến mặt phân cách được viết lại như sau:
,
1arg maxw b min t w n( T (x n) b
Vấn đề tối ưu yêu cầu cực đại 1
w được chuyển thành cực tiểu w , công 2
thức được viết lại:
2 ,
1arg min
2
Việc nhân hệ số ½ sẽ giúp thuận lợi cho lấy đạo hàm về sau
Trang 30Lý thuyết Nhân tử Lagrange:
Vấn đề cực đại hàm f x thỏa điều kiện ( ) g x 0 sẽ được viết lại dưới dạng tối ưu của hàm Lagrange như sau:
Trong đó a( , ,a1 a N)Tlà nhân tử Lagrange
Lưu ý dấu (–) trong hàm Lagrange, bởi vì ta cực tiểu theo biến w và b, và cực đại theo biến a
Lấy đạo hàm L w b a theo , , w và b ta có:
1
N
n n n n
Trang 31Vì thế với mọi điểm dữ liệu, hoặc là a n 0 hoặc là t y x n ( n)1 Những điểm
dữ liệu mà có a n 0 sẽ không xuất hiện trong (2.13) và do đó mà không đóng góp trong việc dự đoán điểm dữ liệu mới
Những điểm dữ liệu còn lại (a n 0) đƣợc gọi là support vector, chúng thỏa ( ) 1
n n
t y x , đó là những điểm nằm trên lề của siêu phẳng trong không gian đặc trƣng
Trang 32Support vector chính là cái mà ta quan tâm trong quá trình huấn luyện của SVM Việc phân lớp cho một điểm dữ liệu mới sẽ chỉ phụ thuộc vào các support vector
Giả sử rằng ta đã giải quyết được vấn đề (2.10) và tìm được giá trị nhân tử a, bây giờ ta cần xác định tham số b dựa vào các support vector xn có t y x n ( n)1 Thế (2.13) vào:
Đầu tiên ta nhân tn vào (2.17) (lưu ý t n2 1), và giá trị b sẽ là:
1
( n m m ( n, m))
n S m S S
Trong đó Ns là tổng số support vector
Ban đầu để dễ trình bày thuật toán ta đã giả sử là các điểm dữ liệu có thể phân tách hoàn toàn trong không gian đặc trưng ( ) x Nhưng việc phân tách hoàn toàn này có thể dẫn đến khả năng tổng quát hóa kém, vì thực tế một số mẫu trong quá trình thu thập dữ liệu có thể bị gán nhãn sai, nếu ta cố tình phân tách hoàn toàn
sẽ làm cho mô hình dự đoán quá khớp
Hình 2.4 Minh họa trường hợp dữ liệu nhiễu
Trang 33Để chống lại sự quá khớp (overfitting), chúng ta chấp nhận cho một vài điểm
bị phân lớp sai
Để làm điều này, ta dùng các biến slack variables n 0, với n1, ,N cho mọi điểm dữ liệu
n 0cho những điểm nằm trên lề hoặc phía trong của lề
n t n y x( )n cho những điểm còn lại
Do đó những điểm nằm trên đường phân cách ( ) 0y x n sẽ có n 1
Còn những điểm phân lớp sai sẽ có n 1
Trang 342 1
1w2
N
n n
Trong đó a n 0vàn 0là các nhân tử Lagrange
Các điều kiện KKT cần thỏa là:
Trang 36( n m m ( n, m))
n M m S M
Hình 2.6 Minh họa trường hợp SVM đa lớp
Bây giờ xét đến trường hợp phân nhiều lớp K > 2 Chúng ta có thể xây dựng việc phân K-class dựa trên việc kết hợp một số đường phân 2 lớp Tuy nhiên, điều này sẽ dẫn đến một vài khó khăn [4]: (1) Hướng one-versus-the-rest, ta sẽ dùng K-1
bộ phân lớp nhị phân để xây dựng K-class (2) Hướng one-versus-one, dùng K 1)/2 bộ phân lớp nhị phân để xây dựng K-class Cả 2 hướng đều dẫn đến vùng mập
(K-mờ trong phân lớp (như hình 2.6) Ta có thể tránh được vấn đề này bằng cách xây dựng K-Class dựa trên K hàm tuyến tình có dạng:
Trang 372.3 Cây quyết định
Cây quyết định (Decision Tree) là một kiểu mô hình dự báo (predictive
model) trong lĩnh vực máy học [13], nghĩa là một ánh xạ từ các quan sát về một sự vật/hiện tượng tới các kết luận về giá trị mục tiêu của sự vật/hiện tượng Cây quyết định là một cây phân cấp có cấu trúc được dùng để phân lớp các đối tượng dựa vào
dãy các luật (series of rules) Các thuộc tính của đối tượng (ngoại trừ thuộc tính phân lớp (Category attribute) có thể thuộc các kiểu dữ liệu khác nhau (Binary,
Nominal, ordinal, quantitative values) trong khi đó thuộc tính phân lớp phải có kiểu
dữ liệu là Binary hoặc Ordinal
2.3.1 Cấu trúc của cây quyết định
Cấu trúc của cây quyết định gồm có: nút trong (internal node): biểu diễn
thuộc tính, Nhánh (branch): biểu diễn giá trị của thuộc tính Nút lá (leaf node): biểu diễn các lớp quyết định Nút gốc (root): đỉnh trên cùng của cây quyết định
Hình 2.7 Mô tả chung về cây quyết định
Dữ liệu được cho dưới dạng các bản ghi có dạng:( , )x y ( ,x x x1 2, , ,3 x y k, )
Biến phụ thuộc (dependant variable) y là biến mà chúng ta cần tìm hiểu, phân loại
hay tổng quát hóa x x x1, 2, 3 là các biến sẽ giúp ta thực hiện công việc đó
Trang 382.3.2 Các kiểu Cây quyết định
Cây hồi quy (Regression tree) ƣớc lƣợng các hàm giá có giá trị là số thực
thay vì đƣợc sử dụng cho các nhiệm vụ phân loại (ví dụ: ƣớc tính giá một ngôi nhà
hoặc khoảng thời gian một bệnh nhân nằm viện) Cây phân loại (Classification
tree), nếu y là một biến phân loại nhƣ: giới tính (nam hay nữ), kết quả của một trận
đấu (thắng hay thua) [16]
Ví dụ:
Bảng 2.1 Bảng dữ liệu chơi golf
Dữ liệu chơi golf
Trang 39Từ bảng dữ liệu chơi golf, xây dựng được cây quyết định để dự báo các trường hợp chơi như sau:
Từ cây quyết định trên có thể rút ra các luật như sau:
R1: If (Quang cảnh=Nắng) (Độ ẩm=Cao) Then Chơi=Không
R2: If (Quang cảnh=Nắng) (Độ ẩm=Trung bình) Then Chơi=Có
R3: If (Quang cảnh=Âm u) Then Chơi=Có
R4: If (Quang cảnh=Mưa) (Gió=Mạnh) Then Chơi=Không
R5: If (Quang cảnh=Mưa) (Gió=Nhẹ) Then Chơi=Có
Trang 40C4.5, SLIQ, SPRINT, C5.0 Nhưng nói chung quá trình xây dựng cây quyết định đều được chia ra làm 3 giai đoạn cơ bản:
Giai đoạn 1 – Xây dựng cây: Thực hiện chia một cách đệ quy tập mẫu dữ liệu huấn luyện cho đến khi các mẫu ở mỗi nút lá thuộc cùng một lớp
Giai đoạn 2 – Cắt tỉa cây: Là việc làm dùng để tối ưu hoá cây Cắt tỉa cây chính là việc trộn một cây con vào trong một nút lá
Giai đoạn 3 – Đánh giá cây: Dùng để đánh giá độ chính xác của cây kết quả Tiêu chí đánh giá là tổng số mẫu được phân lớp chính xác trên tổng số mẫu đưa vào
Mã giả cho quá trình Xây dựng cây
Make Tree (Training Data T)
evaluate splits on attribute A;
use best split found to partition S into
Si, S2,…, Sk Partition(Sl) Partition(S2)… Partition(Sk)
2.3.4 Một số ưu điểm của cây quyết định
Khả năng sinh ra các quy tắc hiểu được
Cây quyết định có khả năng sinh ra các quy tắc dễ dịch (if _ then ) hoặc có
thể chuyển đổi được sang tiếng Anh hoặc SQL Đây là ưu điểm nổi bật của kỹ thuật này Thậm chí với những tập dữ liệu lớn khiến cho hình dáng cây quyết định lớn và phức tạp, việc đi theo bất cứ đường nào trên cây là dễ dàng theo nghĩa phổ biến và
rõ ràng Do vậy sự giải thích cho bất cứ một sự phân lớp hay dự đoán nào đều tương đối minh bạch Do đó mọi người có thể hiểu mô hình cây quyết định thông qua giải thích ban đầu