NỘI DUNG
CƠ SỞ LÝ THUYẾT
1 Khai phá dữ liệu giáo dục
1.1 Định nghĩa khai phá dữ liệu giáo dục
Khai phá dữ liệu giáo dục (EDM) là một lĩnh vực nghiên cứu và phát triển mới, tập trung vào việc áp dụng các kỹ thuật khai thác dữ liệu để phân tích thông tin từ dữ liệu thô của các hệ thống giáo dục, nhằm phát hiện những thông tin ẩn chứa bên trong.
Trong những năm gần đây, lĩnh vực nghiên cứu đã tăng cường đáng kể các công trình nhằm xác định vai trò của kỹ thuật khai thác dữ liệu trong hệ thống giáo dục Việc khai thác và phân tích dữ liệu thô từ các hệ thống này được coi là "mỏ vàng", giúp các nhà thiết kế và người sử dụng nâng cao hiệu quả hoạt động và thu thập thông tin quý giá về hành vi của sinh viên trong quá trình học tập.
Việc khai thác dữ liệu trong giáo dục có thể giúp giải quyết nhiều vấn đề học tập Sử dụng phân tích dữ liệu để trả lời các câu hỏi như: Điều gì dẫn đến thành công của sinh viên? Chuỗi kịch bản nào hiệu quả cho từng sinh viên? Hành động nào cho thấy sự tiến bộ trong học tập? Đặc điểm nào của môi trường học tập giúp cải thiện kết quả? Mục tiêu của chương trình này là thiết lập một phương pháp đánh giá mới trong khai thác dữ liệu giáo dục, xác định các khía cạnh như dữ liệu, mục tiêu nghiên cứu, kỹ thuật sử dụng và đóng góp của các kỹ thuật này trong giáo dục Chương trình không chỉ liệt kê các công việc hiện tại mà còn tạo điều kiện cho việc áp dụng và hiểu biết về kỹ thuật khai thác dữ liệu, giúp các chuyên gia giáo dục phản hồi và xác định khu vực nghiên cứu.
Theo Romero và Ventura, EDM (Khai thác Dữ liệu Giáo dục) là ứng dụng các kỹ thuật khai thác dữ liệu để xác định loại dữ liệu từ môi trường giáo dục nhằm giải quyết các câu hỏi giáo dục quan trọng Định nghĩa này nhấn mạnh tầm quan trọng của việc khám phá kiến thức dựa trên dữ liệu giáo dục để cải tiến hệ thống giáo dục EDM thường bị nhầm lẫn với Phân tích học tập, là quá trình đo lường, thu thập, phân tích và báo cáo dữ liệu về người học và bối cảnh của họ, với mục đích hiểu và tối ưu hóa việc học cùng môi trường diễn ra.
Trường Đại học Kinh tế Huế
EDM và "phân tích học tập" là hai khái niệm khác nhau EDM được hình thành từ sự kết hợp của ba lĩnh vực chính: khoa học máy tính, giáo dục và thống kê.
EDM áp dụng các phương pháp từ thống kê, học máy, khai thác dữ liệu và tâm lý học để giải quyết các vấn đề giáo dục Việc lựa chọn kỹ thuật hay phương pháp phù hợp sẽ phụ thuộc vào yêu cầu cụ thể của từng vấn đề.
1.2 Mô hình hóa các mục tiêu chung của EDM
Mô hình hóa sinh viên trong lĩnh vực giáo dục kết hợp các thông tin chi tiết về đặc điểm và trạng thái của sinh viên, bao gồm kiến thức, kỹ năng, động lực, sự hài lòng, siêu nhận thức, thái độ, kinh nghiệm và tiến bộ học tập Mục tiêu của mô hình này là tạo ra hoặc cải tiến các mô hình sinh viên dựa trên thông tin đã sử dụng, nhằm nâng cao kết quả học tập và giảm thiểu các vấn đề tiêu cực ảnh hưởng đến quá trình học tập.
Dự đoán kết quả học tập của sinh viên là một mục tiêu quan trọng, nhằm xác định kết quả cuối cùng hoặc các loại kết quả học tập khác dựa trên dữ liệu từ các hoạt động trong khóa học.
- Tạo đề xuất: mục tiêu là đểgiới thiệu cho sinh viên nội dung nào phù hợp nhất với họhiện tại.
- Phân tích hành vi người học: được sửdụng để nhóm sinh viên theo hướng dẫn của họcho mục đích thích ứng và cá nhân hóa.
Giao tiếp với các bên liên quan là rất quan trọng, nhằm hỗ trợ các nhà quản lý và nhà giáo dục trong việc phân tích hoạt động của sinh viên cũng như thông tin được sử dụng trong các khóa học.
Phân tích cấu trúc miền nhằm xác định và cải tiến các mô hình miền mô tả nội dung học tập cũng như trình tự giảng dạy tối ưu Mục tiêu là sử dụng khả năng dự đoán hiệu suất của sinh viên như một thước đo chất lượng cho mô hình cấu trúc miền.
- Nghiên cứu các tác động của các loại hình hỗtrợ sư phạm có thể được cung cấp bằng cách dùng phần mềm.
Nâng cao kiến thức khoa học về học tập và người học bằng cách xây dựng, khám phá và cải tiến mô hình sinh viên, lĩnh vực và hỗ trợ sư phạm là rất quan trọng.
2 Các giai đoạn trong khai phá dữ liệu
Giai đoạn 1: Hình thành, xác định và định nghĩa bài toán Là việc tìm hiểu lĩnh
Trường Đại học Kinh tế Huế
Bước này quyết định việc trích xuất tri thức hữu ích và lựa chọn các phương pháp khai thác dữ liệu phù hợp với mục đích ứng dụng và bản chất của dữ liệu.
Giai đoạn 2: Thu thập và tiền xử lý dữ liệu là bước quan trọng nhằm loại bỏ nhiễu và dữ liệu dư thừa Trong quá trình này, dữ liệu được làm sạch, xử lý và khắc phục các vấn đề thiếu hoặc thừa dữ liệu Ngoài ra, việc biến đổi và rút gọn dữ liệu cũng được thực hiện nếu cần thiết để đảm bảo tính chính xác và hiệu quả trong phân tích.
Bước này thường chiếm nhiều thời gian nhất (bước quan trọng) trong toàn bộquy trình phát hiện tri thức.
Giai đoạn 3: Biến đổi dữ liệu, chọn lựa một số phương pháp Phân loại
(Classification), hồi quy (Regression), phân nhóm (Clustering), quy nạp, tổng hợp kết quả(Summarization).
Hình 1.1: Các bước trong quá trình khai phá dữliệu [6]
Giai đoạn 4 của quá trình khai phá dữ liệu tập trung vào việc trích xuất các mẫu và mô hình tiềm ẩn từ dữ liệu có ý nghĩa Đây là một giai đoạn quan trọng, bao gồm việc xác định chức năng, nhiệm vụ và mục đích của việc khai phá dữ liệu, cũng như lựa chọn phương pháp khai phá phù hợp để đạt được kết quả tối ưu.
Giai đoạn 5 bao gồm việc giải thích kết quả và đánh giá các mẫu hay mô hình, được hình thành từ giai đoạn 3 trong quy trình Đây là một bước quan trọng không thể thiếu trong quá trình khai phá tri thức.
ỨNG DỤNG WEKA TRONG VIỆC DỰ BÁO LỰA CHỌN CHUYÊN NGÀNH CHO SINH VIÊN KHOA HỆ THỐNG THÔNG TIN KINH TẾ - ĐẠI HỌC
BÁO LỰA CHỌN CHUYÊN NGÀNH CHO SINH VIÊN
KHOA HỆ THỐNG THÔNG TIN KINH TẾ - ĐẠI HỌC
Bao gồm điểm 9 môn năm nhất của 99 sinh viên mẫu khóa K42 thuộc khoa
HTTTKT, Đại học Kinh tếHuế.
2 Tiền xử lý dữ liệu
- Ban đầu, dữ liệu điểm của sinh viên được lưu trữ dưới dạng file excel có đuôi
Hình 2.1: Dữliệu điểm gốc của sinh viên
Sau khi xử lý dữ liệu gốc, chúng tôi đã tổng hợp thông tin của 99 sinh viên có chung 9 môn học trong năm thứ nhất Dữ liệu mẫu cuối cùng được lưu dưới dạng file CSV và bao gồm điểm số của các sinh viên này.
Trường Đại học Kinh tế Huế
Hình 2.2: Dữliệu sau khi đãđược tổng hợp và xửlý
2.1 Chuẩn bị dữ liệu để huấn luyện (training set) và kiểm thử (testing set)
Khởi động WEKA → Chọn Explore → Chọn Open File → Chọn data
“data.csv” có kết quả như sau:
- Click chọn “Choose” → “filters” → “unsupervised” → “instance” →
Trong việc chia tách dữ liệu, người dùng có thể lấy 20% cho mục “percentage”, nghĩa là 80% dữ liệu gốc sẽ được sử dụng làm dữ liệu huấn luyện, trong khi 20% còn lại sẽ được dùng cho kiểm thử Tỉ lệ này có thể điều chỉnh tùy theo nhu cầu, nhưng khuyến nghị là nên sử dụng mức 20%.
Trường Đại học Kinh tế Huế
→ Nhấn“OK” → “Apply” → “Save”để lưu lại dữ liệu huấn luyện.
- Với dữ liệu kiểm thử, thực hiện tương tự như ở việc chuẩn bị dữ liệu huấn luyện, chỉkhác biệt ở chỗ “invertSelection”thìđổi từ“False”thành“True”
2.2 Trích chọn thuộc tính cho dữ liệu huấn luyện
- Với việc sửdụngAttribute Evaluator là “CfsSubsetEval”, Search Method là
Trường Đại học Kinh tế Huế
Dựa vào kết quả ở phần “Output”, hai trường thuộc tính quan trọng nhất là điểm môn “Toan_1” với tác động 90% và “Vi_mo” với tác động 10% Các môn học còn lại có ảnh hưởng ít hoặc không có tác động đến việc chọn ngành của sinh viên.
3 Chạy phần mềm WEKA với dữ liệu huấn luyện
Việc sử dụng dữ liệu huấn luyện để phân lớp và đạt độ chính xác cao trong mô hình dự báo phân loại chuyên ngành cần kiểm thử với nhiều phương pháp khác nhau Do số lượng trường thuộc tính không nhiều, việc trích chọn thuộc tính có thể không mang lại kết quả tối ưu Vì vậy, chúng tôi sẽ kiểm thử cả hai trường hợp: trước và sau khi trích chọn thuộc tính, nhằm so sánh độ tin cậy và cuối cùng lựa chọn phương pháp tối ưu nhất cho nghiên cứu.
3.1 Khi chưa trích chọn dữ liệu
3.1.1 Phân lớp bằng thuật tốn Nạve Bayes
MởWEKA→ ChọnExplore→Open file→ Chọn dữliệu huấn luyện (ở đây là
“train.arff”), được như sau:
Trường Đại học Kinh tế Huế
Để tiến hành phân lớp theo thuật toán Naive Bayes, bạn cần chọn Classify → Choose → bayes → Naive Bayes Trong phần “Test option”, hãy chọn “use training set” và nhấn “start” để có được bảng kết quả.
Trường Đại học Kinh tế Huế
Kết quảphân lớp nhận được là:
+ Trường hợp phân lớp chính xác: 56 chiếm 70.8861%
+ Trường hợp phân lớp chưa chínhxác: 23 chiếm 29.1139%
Kiểm thửlại bằng dữliệu kiểm thử:
+ Chọn dữ liệu kiểm thử (ở đây là “test.arff”), chọn Set ở Supplied test set →
Open file→ Chọn“test.arff”→OK
In the "More options" section, select "Output predictions" and choose "Plain Text." This setting is designed to clearly display the model's predictions using text data, making it easier for users to review the results.
Trường Đại học Kinh tế Huế
+ Kích chuột phải vào model cần kiểm thử, chọn Re-evaluate model on current test setđểtiến hành kiểm thửvới dữliệu kiểm thử.
Ta có được kết quảsau kiểm thử như sau:
Kết quả kiểm thửmô hình tóm tắt là: dự đoán chính xác 12 chiếm 60%, dự đoán sai 8 chiếm 40%.
Trường Đại học Kinh tế Huế
Cụ thể hơn, ở phần kết quả, cột predicted (dự báo), dấu + thể hiện cho
Misspredicted (dựbáo sai) Cột actual gán nhãn có sẵn của dữliệu
Lưu lại mô hình bằng việc kích chuột phải vào mô hình rồi nhấnSave model.
3.1.2 Phân lớp bằng phương pháp cây quyết định sử dụng thuật toán
Kết quảphân lớp của dữliệu huấn luyện khi sửdụng thuật toán J48:
Kết quảphân lớp nhận được là:
+ Trường hợp phân lớp chính xác: 53 chiếm 67.0886%
+ Trường hợp phân lớp không chính xác: 26 chiếm 32.9114%
Chạy lại mô hình với dữliệu kiểm thử, ta có kết quả như sau:
Trường Đại học Kinh tế Huế
Kết quả kiểm thử mô hình tóm tắt là: dự đoán chính xác 8 chiếm 40%, dự đoán sai 12 chiếm 60% Dấu + thểhiện cho những nhãn dán dựbáo sai.
3.1.3 Phân lớp bằng phương pháp cây quyết định sử dụng thuật toán
Kết quảphân lớp dữliệu huấn luyện sửdụng thuật toán cây ngẫu nhiên:
Kết quảphân lớp chính xác đạt 100%.
Chạy lại mô hình với dữliệu kiểm thử, ta có kết quả như sau:
Trường Đại học Kinh tế Huế
Kết quả kiểm thử mô hình tóm tắt là: dự đoán chính xác 8 chiếm 40%, dự đoán sai 12 chiếm 60% Dấu + thểhiện cho những nhãn dán dựbáo sai.
3.1.4 Phân lớp bằng phương pháp cây quyết định sử dụng thuật toán
Kết quảphân lớp dữliệu huấn luyện sửdụng thuật toán rừng ngẫu nhiên:
Kết quảphân lớp chính xác đạt 100%.
Chạy lại mô hình với dữliệu kiểm thử, ta có kết quả như sau:
Kết quả kiểm thửmô hình tóm tắt là: dự đoán chính xác 12 chiếm 60%, dự đoán sai 8 chiếm 40%.
Trường Đại học Kinh tế Huế
Sau khi áp dụng bốn giải thuật phân lớp mà không tiến hành trích chọn thuộc tính, chúng tôi nhận thấy rằng thuật toán cây quyết định sử dụng phương pháp RandomForest đạt tỉ lệ dự đoán chính xác cao nhất trong quá trình kiểm thử.
Thuật toán Nạve Bayes đạt tỉ lệ dự đoán chính xác 60%, trong khi hai thuật toán cây quyết định, bao gồm RandomTree và J48, chỉ đạt 40% Do đó, khi chưa thực hiện trích chọn dữ liệu, để tối ưu hóa tỉ lệ dự đoán, nên lựa chọn thuật toán cây quyết định RandomForest và Nạve Bayes.
3.2 Sau khi trích chọn dữ liệu
3.2.1 Phân lớp bằng thuật tốn Nạve Bayes
Dữ liệu sau khi trích chọn chỉ còn lại hai trường thuộc tính "Toan_1" và "Vi_mo", tạo thành tập dữ liệu huấn luyện.
Như đã thấy, dữ liệu huấn luyện bây giờ chỉ còn lại 2 thuộc tính phân lớp và 1 thuộc tính đích đểphân lớp.
Trường Đại học Kinh tế Huế
Khi chỉcòn 2 thuộc tínhảnh hưởng, kết quảphân lớp như sau:
+ Phân lớp chính xác: 51 chiếm 64.557%
+ Phân lớp không chính xác: 28 chiếm 35.443%
Kết quả kiểm thử mô hình tóm tắt là: dự đoán chính xác 7 chiếm 35%, dự đoán sai 13 chiếm 65%.
Trường Đại học Kinh tế Huế
3.2.2 Phân lớp bằng phương pháp cây ngẫu nhiên sử dụng thuật toán
Tóm tắt kết quảphân lớp:
+ Phân lớp chính xác: 47 chiếm 59.4937%
+ Phân lớp không chính xác: 32 chiếm 40.5063%
Trường Đại học Kinh tế Huế
Kết quả kiểm thử mô hình tóm tắt là: dự đoán chính xác 8 chiếm 40%, dự đoán sai 12 chiếm 60%.
3.2.3 Phân lớp bằng phương pháp cây quyết định sử dụng thuật toán
Kết quả kiểm thửmô hình tóm tắt là: dự đoán chính xác 11 chiếm 55%, dự đoán sai 9 chiếm 45%.
Trường Đại học Kinh tế Huế
3.2.4 Phân lớp bằng phương pháp cây quyết định sử dụng thuật toán
Kết quả kiểm thửmô hình tóm tắt là: dự đoán chính xác 11 chiếm 55%, dự đoán sai 9 chiếm 45%.
Sau khi trích chọn thuộc tính, việc sử dụng 4 giải thuật phân lớp cho thấy thuật toán đạt tỉ lệ dự đoán chính xác cao nhất trong quá trình kiểm thử.
Trường Đại học Kinh tế Huế áp dụng thuật toán cây quyết định với phương pháp RandomTree và RandomForest, cả hai đều đạt tỉ lệ dự đoán chính xác tương đương.
55% Hai thuật toán còn lại là cây quyết định sửdụng phương phápJ48 và thuật toán
Thuật toán Naive Bayes có tỷ lệ dự đoán chính xác lần lượt là 40% và 35% Để đạt được tỷ lệ dự đoán cao nhất sau khi trích chọn dữ liệu, nên sử dụng thuật toán cây quyết định với phương pháp RandomTree.
3.3 Phân tích kết quả đạt được
Sau khi sử dụng các phương pháp khác nhau cùng kiểu dữ liệu chưa trích chọn và sau trích chọn, ta tổng hợp được 1 bảng kết quả như sau:
Chưa trích chọn thuộc tính Sau trích chọn thuộc tính
Dựa vào bảng kết quả, ta có thể đưa ra những nhận xét như sau:
Trong nghiên cứu này, hai thuật toán có tỉ lệ dự đoán chính xác cao nhất là Nạve Bayes và RandomForest khi dữ liệu huấn luyện chưa được trích chọn thuộc tính Sau khi thực hiện việc trích chọn thuộc tính, thuật toán RandomForest vẫn duy trì tỉ lệ dự đoán chính xác cao nhất.
Cuối cùng, để tối ưu hóa quy trình, chúng tôi đã chọn thuật toán cây ngẫu nhiên với phương pháp RandomForest, nhằm phục vụ cho nghiên cứu dự đoán chuyên ngành cho sinh viên năm nhất thuộc khoa HTTTKT, Đại học Kinh tế Huế, trước khi thực hiện trích chọn thuộc tính.
Việc trích chọn thuộc tính đóng vai trò quan trọng trong nghiên cứu, nhưng trong trường hợp này, nó không mang lại hiệu quả mong đợi Các thuộc tính trong dữ liệu mẫu đều ảnh hưởng đến kết quả dự đoán Cụ thể, sau khi thực hiện trích chọn thuộc tính, 3 trên 4 thuật toán được sử dụng đã cho kết quả dự đoán chính xác thấp hơn so với khi chưa thực hiện trích chọn.
Trường Đại học Kinh tế Huế