Phương pháp thực hiện: Tính toán thuộc tính cân thiết Chia dữ liệu theo học kỳ học tap Hình 1: Quy trình nghiên cứu cảnh báo xử lý học vụ Trong hình 1 trình bày quy trình nghiên cứu xử l
Trang 1ĐẠI HỌC QUÓC GIA TP HÒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN
TRẢN THỊ MỸ LINH DƯƠNG THỊ HÒNG HẠNH
KHÓA LUẬN TÓT NGHIỆP
NGHIÊN CỨU HỆ THÓNG CẢNH BÁO HIỆU SUÁT
HỌC TẬP TẠI MỘT TRƯỜNG ĐẠI HỌC
Academic Performance Warning System for Higher Education
CU NHAN NGANH KHOA HOC DU LIEU
TP HO CHi MINH, 2022
Trang 2ĐẠI HỌC QUỐC GIA TP HÒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN
TRAN THỊ MỸ LINH - 18520999 DƯƠNG THỊ HONG HẠNH - 18520711
KHÓA LUẬN TÓT NGHIỆP
NGHIÊN CỨU HE THONG CANH BAO HIỆU SUÁT
HỌC TẬP TẠI MỘT TRƯỜNG ĐẠI HỌC
Academic Performance Warning System for Higher Education
CỬ NHÂN NGANH KHOA HOC DU LIEU
GIANG VIEN HUONG DAN
ThS NGUYEN VAN KIET
TP HO CHi MINH, 2022
Trang 3THÔNG TIN HỘI ĐÒNG CHÁM KHÓA LUẬN TÓT NGHIỆP
Hội đồng châm khóa luận tốt nghiệp, thành lập theo Quyết định số
NAY của Hiệu trưởng Trường Đại học Công nghệ Thông tin.
Trang 4LỜI CẢM ƠN
Chúng em xin được gửi cảm ơn chân thành nhất đến ThS Nguyễn Văn Kiệt — người luôn đông hành, hỗ trợ, theo sát và quan tâm đến nhóm chúng em trong quá trình lựa
chọn cũng như hoàn tat khóa luận tốt nghiệp Thay chính là người truyền đạt và đưa
ra những lời khuyên bồ ich cho chúng em trong suốt quá trình học tập tại ngôi trường
này, giúp chúng em có thể có được ngọn lửa nhiệt huyết và nguôn cảm hứng bắt tận
cũng như năng lượng dé hoàn thành khóa luận một cách chin chu nhất.
Chúng em cũng xin gửi lời cảm ơn tới các anh, chị và các bạn trong nhóm nghiên
cứu DS@UIT đã giúp đỡ, chia sẻ kinh nghiệm và góp ý cho dé tài dé đạt được kết quả tốt nhất.
Hơn nữa, chúng em muốn gửi lời cảm ơn sâu sắc nhất đến quỷ thay, cô tại trường Dai học Công nghệ Thông tin nói chung và quý thay, cô khoa Khoa học và Kỹ thuật Thông tin nói riêng đã truyền đạt những kiến thức hữu ích cũng như các kỹ năng cần thiết để chúng em có thể hoàn thành khóa luận và đạt được những thành công nhất
định sau này.
Sau cùng, chúng em muôn xin cảm ơn đền gia đình, người thân và bạn bè đã luôn
quan tâm, động viên, khuyến khích, giúp đỡ và đưa ra những lời khuyên bổ ích.
Chân thành cảm ơn!
Trang 5ĐẠI HỌC QUOC GIA TP HO CHÍMINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc
CÔNG NGHỆ THÔNG TIN
ĐÈ CƯƠNG CHI TIẾT
TEN DE TÀI: NGHIÊN CỨU HE THONG CANH BAO HIỆU SUÁT HỌC TAP
TAI MỘT TRƯỜNG ĐẠI HỌC
TÊN ĐỀ TÀI (tiếng Anh): ACADEMIC PERFORMANCE WARNING SYSTEM
FOR HIGHER EDUCATION
Cán bộ hướng dẫn: ThS Nguyễn Văn Kiệt
Thời gian thực hiện: Từ ngày 20/01/2022 đến ngày 10/07/2022.
Sinh viên thực hiện:
Dương Thị Hồng Hạnh - 18520711 Lớp: KHDL2018
Email: 18520711 @gm.uit.edu.vn Dién thoai: 0869400718
Trần Thi Mỹ Linh - 18520999 Lớp: KHDL2018
Email: 18520999@gm.uit.edu.vn Điện thoại: 0911129455
Nội dung đề tài: (M6 ta chỉ tiết mục tiêu, phạm vi, đối tượng, phương pháp thực hiện, kết
quả mong đợi của dé tài)
Mục tiêu nghiên cứu:
Trang 6Nghiên cứu này được phát triển với mục đích cung cấp cho sinh viên những cảnh báo
kịp thời và đúng đắn về nguy cơ bị xử lý học vụ của họ trong học kỳ mới, bước đầu dựa
trên kết quả học tập Việc nhận được cảnh báo sẽ khiến sinh viên quan tâm hơn đến
trình độ học tập hiện tại của mình dé từ đó điều chỉnh thái độ học tập phù hợp hơn, phan đầu nâng cao điểm số, tránh tình trạng xử lý học vụ Mặt khác, dựa trên cơ sở đó, cô vấn học tập cũng hiểu được phần nào về rủi ro trong xử lý học vụ của sinh viên, cho
phép họ đưa ra những sự trợ giúp phù hợp và kịp thời hơn cho sinh viên Để thực hiện mục tiêu trên, chúng tôi xây dựng bộ dữ liệu chuan cho bai toán cảnh báo trang thái xử
lý học vụ dựa trên kết quả học tập Tiến hành nghiên cứu các phương pháp tiếp cận, các
mô hình và kỹ thuật có liên quan cho dé giải quyết tốt các bài toán đặt ra, từ đó giúp kiểm soát được thực trạng xử lý học tập của sinh viên trong môi trường đại học.
Phạm vi nghiên cứu:
Nghiên cứu dựa trên kết quả học tập của sinh viên trong quá trình theo học và quy định
xử lý học vụ của một trường đại học uy tín tại Việt Nam.
Đối tượng nghiên cứu:
Bài toán phân loại.
Phương pháp thực hiện:
Tính toán thuộc tính cân thiết
Chia dữ liệu theo học kỳ học tap
Hình 1: Quy trình nghiên cứu cảnh báo xử lý học vụ
Trong hình 1 trình bày quy trình nghiên cứu xử lý học vụ của chúng tôi, có hai quy
trình chính là xây dựng bộ dữ liệu, nghiên cứu mô hình máy học và thực nghiệm cho
bộ dữ liệu của chúng tôi.
1 Xây dựng bộ dữ liệu:
Trang 7Quá trình tạo bộ dữ liệu của chúng tôi trải qua 3 giai đoạn gồm có: Tính toán các
thuộc tính cần thiết, Gán nhãn dữ liệu, Đánh giá và rà soát lại bộ dữ liệu.
Giai đoạn 1: Tính toán các thuộc tính cần thiết
Từ cơ sở dữ liệu thô được cung cấp bởi một trường đại học uy tín tại Việt Nam, chúng tôi đã thực hiện xây dựng nên các bộ dữ liệu mới để phục vụ cho quá trình
nghiên cứu Cơ sở dữ liệu thô này bao gồm các thông tin chỉ tiết về môn học (tên
môn học, mã môn học, số tín chỉ, hệ số các điểm thành phan, các môn hoc trước, môn tiên quyết, ), thông tin về kết quả học tập của sinh viên (mã định danh của
sinh viên sau khi mã hóa, tên môn học, điểm số đạt được, ) Với cơ sở dữ liệu trên, chúng tôi thực hiện các thao tác xử lý và trích xuất ra các thuộc tính mới thực sự hữu ích cho việc dự đoán trạng thái cảnh báo học vụ của sinh viên Cụ thể bộ dữ
liệu mới sẽ gồm các nhóm thuộc tính được tính toán như sau:
Thuộc tính pre avg: Điểm trung bình của tất cả các môn học được coi là điểm
trung bình của môn học trước của môn học mà sinh viên đã đăng ký trong học kỳ
Trang 8m: là học kỳ thứ m sinh viên đã học trước đó.
n: là số môn học liên quan đến học kỳ đang xét.
scorem¿: là điểm trung bình của môn hoc i trong học kỳ thứ m.
creditm,: là số tín chỉ của môn học i trong học ky thứ m.
score(j)pi: là điểm thành phan j cho môn học i trong học kỳ hiện tại Trong đó: j=1: điểm quá trình; j=2: điểm thực hành, j=3: điểm giữa kỳ.
creditp¡: là số tín chỉ của môn học i trong học kỳ hiện tại.
coef()p¡: là hệ sé tương ứng của score (j)p¡.
Giai đoạn 2: Gán nhãn dữ liệu
Chúng tôi gán nhãn dựa vào các điều kiện được quy định sẵn như sau:
Điều kiện Trạng thái Nhãn
Không hoàn thành nghĩa vụ học phí đúng quy
định
Điểm trung bình học kỳ đang xét dưới 3.0
Điểm trung bình liên tiếp 2 học kỳ gần
nhất đều dưới 4.0
Warning (Cảnh cáo học vụ)
Điểm trung bình liên tiếp 2 học kỳ gần
nhất đều bằng 0.0
Bị cảnh báo học vụ lần thứ hai liên tiếp và
vẫn tái phạm
Bị đình chỉ học tập lần thứ hai
Hết thời gian tối đa hoàn thành khóa học
Vi phạm kỷ luật nghiêm trọng hoặc vi phạm
Dismissal (Buộc thôi học)
Trang 9pháp luật bị xử phạt tù giam
Normal Các trường hợp còn lại 0
(Bình thường)
Giai đoạn 3: Đánh giá và rà soát lại bộ dữ liệu.
Trong giai đoạn này chúng tôi tiến hành rà soát lại dữ liệu, loại bỏ những trường hợp dữ liệu trống Ngoài ra, vì số lượng học kỳ mà sinh viên tham gia học là khác
nhau, chúng tôi tiến hành chia thành các bộ dữ liệu nhỏ tương ứng với số lượng học
kỳ sinh viên đã học (đã loại bỏ những bộ quá ít dữ liệu, ít hơn 200 điểm dữ liệu) Việc thực nghiệm sẽ được thực hiện hoàn toàn trên các bộ dữ liệu mới được tổng
hợp từ nhóm các thuộc tính được tính toán ở giai đoạn 1.
2 Dinh nghĩa bài toán
Chúng tôi thực hiện xây dựng một hệ thống cảnh báo hiệu suất học tập 2 giai đoạn cho sinh viên, bao gồm: cảnh báo lần 1 - khi bắt đầu một học kỳ mới và cảnh báo lần 2 -
trước khi sinh viên thi cuối kỳ Cụ thể, đầu vào và đầu ra của từng bài toán như sau: -_ Cảnh báo lần 1:
e Đầu vào: các thuộc tính được xây dung dựa trên kết quả các học kỳ trước đó
của sinh viên.
e Đầu ra: trạng thái xử lý học vụ của sinh viên trong kỳ hiện tại.
-_ Cảnh báo lần 2:
e Đầu vào: các thuộc tính được xây dựng dựa trên kết quả các học kỳ trước và
các thuộc tính mới được xây dựng dựa trên điểm số sinh viên đạt được trong học kỳ đang xét (tính đến thời điểm trước khi thi cuối kỳ).
e Đầura: trạng thái xử lý học vụ của sinh viên trong kỳ hiện tại.
3 Nghiên cứu phương pháp thực nghiệm:
- Thực nghiệm trên các thuật toán học may truyền thống lẫn hiện đại, điều chỉnh
tham số để tìm ra mô hình phù hợp với bài toán đặt ra, như:
Trang 10e Random Forest
e Decision Tree
e Extra Trees
e Support Vector Machine
e Neural Support Vector Machine
e Stochastic Gradient Descent Classifier
Giải quyết vấn dé dữ liệu mất cân bằng trên cả hai giải pháp: sử dụng tham số
class _weight đã được tích hợp sẵn trong các thuật toán học máy và các phương pháp lấy mẫu (sampling), để tìm kiếm giải pháp phù hợp, mang lại hiệu quả cao
và 6n định nhất cho từng bộ dữ liệu cụ thé.
Ngoài việc tiếp cận dưới hình thức một bài toán phân loại ba nhãn, chúng tôi
còn thực hiện phân chia thành hai bài toán phân loại nhị phân nhỏ, gồm: (1) bài
toán phân loại sinh viên bình thường (nhãn 0) với sinh viên có khả năng bị xử lý học vụ (nhãn 1, 2); (2) bài toán phân loại sinh viên có khả năng bị cảnh cáo học
vụ (nhãn 1) với sinh viên có khả năng bị buộc thôi học (nhãn 2) Việc phân chia
này được thực hiện với mục tiêu mang đến kết quả phân loại chính xác hơn.
Cách tiếp cận này sẽ được giải thích cụ thể hơn tại hình bên đưới.
Trang 11- Sau cùng, thực hiện kết hợp (ensemble) các mô hình tốt nhất thu được trong quá
trình thực nghiệm đê cho ra hiệu suất tốt nhất.
4 Phương pháp đánh giá
4.1 Thông số đánh giá
- Chúng tôi thực hiện đánh giá hiệu suất mô hình huấn luận với 3 thông số:
score, Fl-score và chỉ số Recall của nhãn 2 (nhãn buộc thôi học) Trong đó, score được xem là quan trọng nhất.
F2 Độ đo F2F2 score được sử dụng với tiêu chí xem việc bỏ sót sinh viên có khả năng
bị xử lý học vụ (cảnh cáo học vụ, buộc thôi học) tệ hơn nhiều so với việc cảnh
báo lầm Độ đo này cho phép chúng tôi lựa chọn được các mô hình dự đoán giảm
thiểu số lượng sinh viên bị bỏ sót Tuy nhiên, F2-score chỉ được sử dụng trong phân loại nhị phân, chính vì vậy cần thực hiện chuyển đổi nhãn 1 và 2 vào cùng
một phân lớp trước khi thực hiện đánh giá.
- Bên cạnh đó, trong đánh giá bài toán 3 nhãn, Recall của nhãn 2 được thêm vào
nhằm đảm bảo mô hình lựa chọn hoạt động tốt với nhãn 2 Điều này là do số lượng nhãn 2 quá ít, nên việc chỉ sử dụng F2-score vô tình khiến kết quả dự đoán
riêng lẻ của nhãn 2 bi phot lờ.
- Để đánh giá chính xác hiệu suất mô hình trên dữ liệu không cân bằng, các thông
Trang 12số trên đều sẽ được tính toán trên trung bình macro.
4.2 Chiến lược đánh giá
Căn cứ vào từng loại bài toán, từng vấn đề cũng như từng cách tiếp cận khác nhau
mà chúng tôi sẽ thực hiện lựa chọn các độ đo phủ hợp nhất đề sử dụng.
Kết quả mong đợi:
Tạo ra bộ dữ liệu chứa các thuộc tính có giá trị trong việc cảnh báo hiệu suất học tập
của sinh viên, từ đó giảm thiểu sự gia tăng xử lý học vụ tại các trường đại học.
Làm rõ được nhưng đặc điểm và nguyên nhân dẫn đến thực trạng xử lý học vụ, bước
đầu dựa trên khía cạnh hiệu suất học tập.
Đề xuất được các phương pháp tiếp cận và các thuật toán phù hợp nhất cho từng bài
toán cảnh báo được đặt ra.
Tài liệu tham khảo
Huang, S., Fang, N.: Predicting student academic performance in an engineering dynamics course: A comparison of four types of predictive mathematical models Comput Educ.61, 133-145 (2013).
Miguéis, V.L., Freitas, A., Garcia, P.J.V., Silva, A.: Early segmentation of students according to their academic performance: A predictive modeling approach Decis Support Syst.115, 36-51 (2018).
Mingyu, Z., Sutong, W., Yanzhang, W., Dujuan, W.: An interpretable prediction
method for university student academic crisis warning Complex& Intelligent Systems (2021).
Bujang, S.D.A., Selamat, A., Ibrahim, R., Krejcar, O., Herrera-Viedma, E., Fujita,
H., Ghani, N.A.M.: Multiclass prediction model for student grade prediction using machine learning IEEE Access 9, 95608-95621 (2021).
Trang 13Kế hoạch thực hiện: (Mô ta tóm tắt kế hoạch làm việc và phân công công việc cho từng
sinh viên tham gia.)
- Mô tả tóm tắt kế hoạch làm việc:
Bang 1 - Kế hoạch thực hiện đề tài trong 6 tháng
Công việc Sinh viên
Tìm hiéu tổng quan Linh, Hạnh
Tạo bộ dữ liệu Linh, Hạnh
Nghiên cứu phương pháp | Linh, Hạnh
Báo cáo Linh, Hạnh |
- Phan công công việc cho từng thành viên:
Dương Thị | Tran Thị
Công việc A
Hong Hanh Mỹ Linh
Khảo sát bài toán và tìm hiểu tổng quan x x
Phát triển bộ dữ liệu từ dữ liệu góc x x
Kiểm tra bộ dữ liệu x x
Nghiên cứu phương pháp và hướng tiếp
¬ to x x
cận giải quyết bai toán.
Triển khai mô hình thực nghiệm x x
Đánh giá và phân tích kết quả x x
Việt báo cáo và báo cáo x x
Trang 14Xác nhận của CBHD
(Ký tên và ghi rõ họ tên)
Nguyễn Văn Kiệt
TP HCM, ngày 24 tháng 01 năm 2022
Sinh viên (Ký tên và ghi rõ họ tên)
Dương Thị Hồng Hạnh
Trần Thị Mỹ Linh
Trang 15MỤC LỤC
TOM TAT KHÓA LUẬN
MỞ ĐÀU
Chương 1 TONG QUAN
1.1 Giới thiệu dé tài
1.2 Mô tả bài toán
1.2.1 Bài toán 1: Cảnh báo lần 1 - cảnh báo đầu mỗi học kỳ.
1.2.2 Bài toán 2: Cảnh báo lần 2 - Cảnh báo trước khi thi cuối ky.
3.1.3 Đánh giá và rà soát lại bộ dữ liệu
3.2 Tăng cường dữ liệu
Chương 4 PHƯƠNG PHAP TIEP CAN
4.2.1.1.3 Gradient Boosting Decision Tree (GB)
4.2.1.1.4 Gradient Based One Side Sampling (GOSS)
mè t3 =
`©
22
22 23 23 23 23
25 26 27
Trang 164.2.1.1.5 Exclusive Feature Bundling (EFB)
4.2.1.2 Support Vector Machine (SVM)
4.2.2 Thuật toán co sở
4.2.2.1 Decision Tree (DT)
4.2.2.2 Random Forest (RF)
4.2.2.3 Extra Trees (ET)
4.2.2.4 Gradient Boosting Decision Tree (GB)
4.2.2.5 Logistic Regression (LR)
4.2.2.6 Stochastic Gradient Descent Classifier (SGD)
4.2.2.6.1 Stochastic Gradient Descent
4.2.2.6.2 Stochastic Gradient Descent Classifier (SGD)
4.2.2.7 Neural Support Vector Machine (N-SVM)
Xử lý dé liệu mat cân bằng
Phương pháp tiếp cận mới - Phương pháp tiếp cận phân chia
Đánh giá
Độ đo
4.7.2 Chiến lược đánh giá
Chương 5 CÀI ĐẶT THU NGHIỆM VA ĐÁNH GIA
5.1.
5.2.
Quy trình thực nghiệm
Kết quả thực nghiệm 5.21 Dau hoc kỳ
5.2.2 Trước khi thi cuối kỳ
27 28
30 30
39
39
40 41
4I 44
44 47
Trang 175.3 Phân tích trực quan kết qua
5.3.1 Dau học kỳ5.3.2 _ Trước khi thi cuối kỳ
5.3.3 Lựa chọn đặc trưng
Chương 6 KẾT LUẬN VÀ HƯỚNG PHÁT TRIEN
6.1 Kếtluận
6.2 Hướng phát triển
DANH MỤC CÔNG TRÌNH TÁC GIÁ
TÀI LIỆU THAM KHẢO
57
58
59
63
Trang 18DANH MỤC HÌNH ẢNH
Hình 3.1 Phương pháp tăng cường dữ liệu .- - 5 + *+vsstrsereerererrre 19
Hình 4.1 Tổng quan về cách hoạt động của Gradient Descent . - 24
Hình 4.2 Các mô hình được học tuần tự để khắc phục sai sót - 26
Hình 4.3 Tổng quan về cách hoạt động của -¿2- +x+zx++zs+rxerxezes 27 Hình 4.4 Tổng quan về Exclusive Feature Bundling -s¿©¿©s2 szxz>s+ 28 Hình 4.5 Tổng quan về cách hoạt động của Support Vector Machine 29
Hình 4.6 Cơ chế hoạt động của thuật toán Decision Tree .- ‹ -«+ +- 30
Hình 4.7 Cơ chế hoạt động của thuật toán Random FOorest -+- 31
Hình 4.8 Cơ chế hoạt động của thuật toán + c 1S Set 32 Hình 4.9 Con đường hướng tới cực tiểu của Stochastic Gradient Descent và Gradient Descent trong không gian 2ÌD 5 6+ 1E 9E rệt 34 Hình 4.10 Tổng quan kiến trúc của Neural Support Vector Machine 35
Hình 4.11 Cách tiếp cận phân chia 2-22 +¿2SE2E£+EE£2EE2EEtEEEerxezrxrrreeree 38 Hình 5.1 Quy trình thực nghiỆm . c5 <1 32113311139 E+EEESEsEeseeereeeereere 42 Hình 5.2 Quy trình đánh gia và thử nghiệm trung bình trên các thuật toán 43
Hình 5.3 Biểu đồ kết quả khi áp dụng các phương pháp xử lý đặc trưng 49
Hình 5.4 Biéu đồ so sánh các kết quả thu được trên cách tiếp cận - 50
Hình 5.5 Biéu đồ so sánh kết quả trước và sau khi xử lý - s52 50 Hình 5.6 Biểu đồ so sánh trước và sau khi xử lý mat cân bằng dữ liệu 52
Hình 5.7 Biéu đồ so sánh trước và sau khi áp dụng kỹ thuật tao đặc trưng 52
Hình 5.8 Biểu đồ so sánh trước và sau khi áp dụng kỹ thuật tạo - 53
Hình 5.9 Biểu đồ so sánh thực nghiệm trên cách tiếp cận thông thường 53
Hình 5.10 Heatmap biéu diễn độ tương quan Pearson của -: -:-s- 55 Hình 0.1 Trang chủ đăng nhập, sinh viên nhập tài khoản để - 63
Hình 0.2 Hiền thị thông tin cảnh báo học vụ kỳ hiện tại của sinh viên 64
Hình 0.3 Nhập các điểm thành phan đã biết của kỳ hiện tại dé biết - 64
Hình 0.4 Hiền thị thông tin về quy định xử lý học vụ . - 5-5 secsss2 65 Hình 0.5 Tổng quan dashboard theo dõi trạng thái học vụ của toàn bộ sinh viên 66
Trang 19DANH MỤC BANG
Bảng 3.1 Điều kiện gan nhãn dựa trên chính sách giáo dục đại hoc 18
Bang 3.2 Thống kê số lượng của từng trạng thái hoc vụ trên từng học kỳ 20
Bang 3.3 Mô tả ý nghĩa các thuộc tính trong bộ dữ liệu - -«<+-<<5+ 21 Bang 4.1 Thống kê số lượng dữ liệu bi thiếu theo từng học kỳ -. - 22
Bảng 5.1 Một số ví dụ về dữ liệu sử dụng trong bài toán cảnh báo đầu học kỳ 43
Bảng 5.2 Một số ví dụ về dữ liệu sử dụng trong cảnh báo trước khi thi cuối ky 44
Bang 5.3 Kết quả thực nghiệm của bài toán cảnh báo đầu học kỳ 46
Bang 5.4 Kết quả thực nghiệm của bài toán cảnh báo trước khi thi cuối kỳ 48
Trang 20DANH MỤC TU VIET TAT
STT Từ Viết Tat Ý nghĩa
1 XGBoost Extreme Gradient Boosting
2 LightGBM/LGBM | Light Gradient Boosted Machine
3 DT Decision Tree
4 SVM Support Vector Machine
5 MSE Mean Squared Error
6 MAE Mean Absolute Error
7 R2 R-Squared
8 SMOTE Synthetic Minority Oversampling Technique
9 GPA Grade point average
10 GOSS Gradient Based One Side Sampling
11 EFB Exclusive Feature Bundling
12 GB Gradient Boosting Decision Tree
13 svm.SVC C-Support Vector Classification
14 RF Random Forest
15 LR Logistic Regression
16 SGD Stochastic Gradient Descent Classifier
17 N-SVM Neural Support Vector Machine
18 NN Neural Network
19 ET Extra Trees
Trang 21TÓM TAT KHÓA LUẬN
Xử lý học vụ tại các trường đại học đã trở thành vấn đề cấp bách trong những nămgần đây, nhiều sinh viên phải đối mặt với những hậu quả nghiêm trọng từ xử lý học
vụ Vì thé, chúng tôi đã tiễn hành nghiên cứu nhằm tìm ra giải pháp giúp giảm thiêu
tình trạng nêu trên Nghiên cứu của chúng tôi đã sử dụng sức mạnh của nguồn dữ liệukhổng 16 từ ngành giáo dục và sự hiện đại của các kỹ thuật học may dé xây dựng một
hệ thống cảnh báo hiệu suất học tập Hệ thống của chúng tôi dựa trên kết quả học tập,yếu tố phản ánh trực tiếp tình trạng học tập của sinh viên tại trường đại học Qua quátrình nghiên cứu, chúng tôi đã cung cấp bộ đữ liệu được trích xuất và phát triển từ
các nguồn dữ liệu thô, bao gồm nhiều thông tin về sinh viên, môn học và điểm số Bộ
dữ liệu được xây dựng với nhiều thuộc tính cực kỳ hữu ích trong việc dự đoán tìnhtrạng xử lý học vụ của sinh viên thông qua các kỹ thuật tạo và lựa chọn đặc trưng.Đáng chú ý, bộ dit liệu được đóng góp rat linh hoạt và có thé dé dang mở rộng, tái sử
dụng vì chúng tôi đã cung cấp các công thức tính toán chỉ tiết mà các thuộc tính liênquan có thé dé dang được tìm thấy ở bất kỳ trường đại học hoặc cao đăng nào ở Việt
Nam Điều đó cho phép bat kỳ trường đại hoc nao sử dung lại hoặc xây dựng lại một
bộ dữ liệu tương tự dựa trên cơ sở dữ liệu của họ Hơn nữa, chúng tôi đã kết hợp các
kỹ thuật vé xử lý dữ liệu, kỹ thuật xử lý mất cân bằng, kỹ thuật lựa chọn mô hình và
nghiên cứu dé đề xuất các thuật toán học máy phù hợp, giúp xây dựng hệ thống cảnhbáo tốt nhất có thể Do đó, một hệ thống cảnh báo học vụ hai giai đoạn cho giáo dụcđại học đã được đề xuất, với F2-score lần lượt là 74.37% vào đầu học kỳ bằng cách
sử dụng thuật toán Support Vector Machine và hơn 92.71% trước khi kỳ thi cuối kỳ
sử dụng thuật toán LightGBM.
Trang 22MỞ DAU
Đặt vấn đề
Trong những năm gần đây, tình trạng sinh viên bị xử lý học vụ ở Việt Nam xuất hiện
có xu hướng tăng nhanh một cách đáng báo động Theo thống kê của các trường đạihọc, số lượng sinh viên bị xử lý học vụ lên tới hàng trăm, thậm chí hàng nghìn sinhviên mỗi năm Hơn nữa, điều này ảnh hưởng không nhỏ đến chất lượng đào tạo, chuẩnđầu ra của trường và hoạt động học tập của sinh viên Đặc biệt, nó có thể gây ra nhữnghậu quả nghiêm trọng cho sinh viên, chăng hạn như hạn chế số lượng tín chỉ đăng ký,
mất cơ hội theo đuôi chuyên nganh yêu thích, hoặc thậm chi bị đuổi học Trên thế
giới, việc nghiên cứu điểm học tập, cảnh báo nguy cơ học tập của sinh viên khôngcòn quá xa lạ Tuy nhiên, ở Việt Nam, theo tìm hiểu của nhóm tới thời điểm hiện tại
vẫn chưa có bài báo hoặc công trình nghiên cứu nào về việc xử lý học vụ sinh viên
được công bó
Chính vì vậy, chúng tôi đã quyết định tìm hiểu và nghiên cứu dé tài này giúp cảnhbáo khả năng xử lý học vụ ở sinh viên cho nhà trường Nhiều nghiên cứu liên quan
chỉ ra có nhiều yếu t6 có thé ảnh hưởng đến khả năng bị xử lý học vụ của sinh viên
Tuy nhiên ở nghiên cứu này, chúng tôi bước đầu dựa trên kết quả học tập, yếu tổ phảnánh trực tiếp nhất và cũng là yếu tổ quyết định trong chính sách xử lý học vụ tại cáctrường đại học ở Việt Nam Hệ thống này được xem xét phát triển với mục tiêu giúpnhà trường cảnh báo một cách tự động và có cơ sở đến sinh viên về nguy cơ bị xử lýhọc vụ của họ trong học kỳ mới, từ đó giúp sinh viên biết được mức học tập hiện tại
của ban thân dé có thé tự điều chỉnh thái độ học tập phù hợp hơn, phan đấu cải thiện
điểm số, tránh trình trạng bị xử lý học vụ Đồng thời, dựa vào đó, nhà trường và cốvấn học tập cũng phần nào năm được trạng thái về khả năng xử lý học vụ của sinhviên để có thê đưa ra các biện pháp cải thiện phù hợp và kịp thời hơn
Với mục tiêu phân loại sinh viên vào các trạng thái xử lý học vụ phù hợp, chúng tôi
quyết định xây dựng hệ thống của mình dưới dạng một bài toán phân loại, có thể tổngquát bai toán như sau:
Trang 23e Đầu vào: Thông tin liên quan đến kết quả học tập của sinh viên.
e Đầu ra: Nhãn dự đoán bởi mô hình, cụ thể là một trong ba nhãn gồm normal
(bình thường), warning (cảnh báo), dismissal (buộc thôi học).
Mục tiêu khóa luận
Nghiên cứu này được phát triển với mục đích cung cấp cho sinh viên những cảnh báo
kịp thời và đúng đắn về nguy cơ bị xử lý học vụ của họ trong học kỳ mới, bước đầu
dựa trên kết quả học tập Việc nhận được cảnh báo sẽ khiến sinh viên quan tâm hơnđến trình độ học tập hiện tại của mình để từ đó điều chỉnh thái độ học tập phù hợphơn, phan dau nang cao diém SỐ, tránh tình trạng xử lý học tập Mặt khác, dựa trên
cơ sở đó, có vấn học tập cũng hiểu được phần nào về rủi ro trong xử lý học vụ của
sinh viên, cho phép họ đưa ra những sự trợ giúp phù hợp va kip thời hơn cho sinh
viên Dé hoàn thành được mục đích chung của nghiên cứu, chúng tôi đề ra 4 mục tiêu
cần đạt được trong quá trình nghiên cứu của mình:
e Thứ nhất, chúng tôi xây dựng bộ dit liệu chuẩn cho bài toán cảnh báo trạng
thái xử lý học vụ dựa trên kết quả học tập Bộ dữ liệu được xây dựng với mục
tiêu có thể cung cấp được các thuộc tính tổng quát nhất, dễ dàng tái sử dụng
và mở rộng tùy theo cơ sở dir liệu của các trường đại học khác nhau.
e Thứ hai, chúng tôi tiến hành cài đặt, thử nghiệm trên các phương pháp học
máy và học sâu khác nhau, đề có thé đề xuất được các thuật toán phù hợp
e Thứ ba, chúng tôi nghiên cứu các phương pháp tiếp cận và kỹ thuật có liên
quan nhằm tìm ra tổ hợp phương pháp phù hợp với thuật toán được đề xuất,đồng thời cải thiện hiệu suất của hệ thống cảnh báo
e Cuối cùng, chúng tôi xây dựng một hệ thống cảnh báo với các chức năng cơ
bản để có thể có cái nhìn tổng quát hơn về cách mà hệ thống cảnh báo hoạtđộng Thêm vào đó là đề ra những mục tiêu trong tương lai để có thê tiếp tụcphát triển nghiên cứu hoàn thiện hơn
Trang 24Đôi tương và phạm vỉ nghiên cứu
e Đối tượng: Bài toán phân loại trạng thái xử lý học vụ của sinh viên dựa trên
kết quả học tập
e Phạm vi nghiên cứu: Nghiên cứu dựa trên kết quả học tập của sinh viên trong
quá trình theo học và quy định xử lý học vụ của một trường đại học uy tín tại
Việt Nam Chủ yếu tập trung vào các vẫn đề sau:
«= _ Xây dựng bộ dữ liệu tổng quát va chất lượng phục vụ cho việc phân loại
trạng thái học vụ của sinh viên dựa trên kết quả học tập ở các trường đại
học tại Việt Nam.
= Cai đặt, thử nghiệm trên nhiều thuật toán học máy và học sâu khác nhau
dé đề xuất thuật toán phù hợp
* _ Nghiên cứu, áp dụng các cách tiếp cận mới, các kỹ thuật liên quan đến dữ
liệu nhằm cải thiện hiệu suất hệ thống
Kết quả nghiên cứu
Sau khi hoàn thành nghiên cứu, chúng tôi đạt được những kết quả như sau:
e Tao ra bộ dữ liệu chứa các thuộc tính có giá tri trong việc cảnh báo hiệu suất
học tập của sinh viên, từ đó giảm thiểu sự gia tăng số lượng sinh viên bị xử lý
học vụ tại các trường đại học.
e Làm rõ được những đặc điểm và nguyên nhân dẫn đến thực trạng xử lý học
vụ, bước đầu dựa trên khía cạnh hiệu suất học tập
e Đề xuất được các phương pháp tiếp cận và các thuật toán phù hợp nhất cho
từng bai toán cảnh báo được đặt ra.
e Xây dựng demo cho khóa luận tốt nghiệp nay bằng cách sử dụng các mô hình đạt
hiệu suất tốt nhất trên từng giai đoạn đầu học kỳ và trước khi thi cuối kỳ
Trang 25Câu trúc khóa luận
Khóa luận gôm 6 chương với các nội dung chính sau:
Chương 1: Tổng quan
Trong chương này chúng tôi giới thiệu tổng quan về tình trạng xử lý học vụ,lợi ích, hiệu quả khi xây dựng thành công hệ thống cảnh báo học vụ.Đồng thời trình bày chỉ tiết từng bài toán nhỏ mà chúng tôi nghiên cứu, baogồm bài toán dự đoán trạng thái học vụ ở đầu học kỳ và bài toán dự đoán trướckhi thi cuối kỳ
Chương 2: Công trình liên quan
Chúng tôi giới thiệu một số công trình nghiên cứu trong và ngoai nước liên
quan đến lĩnh vực xử lý học vụ, dự đoán trạng thái học tập của sinh viên Đồng
thời, chương này cũng thể hiện sơ lược về các kết quả đạt được và những thuậttoán, kỹ thuật tiềm năng trong các nghiên cứu đó
Chương 3: Bộ dữ liệu
Trong chương nay, chúng tôi trình bay quy trình xây dựng bộ dữ liệu, cách
tính toán các thuộc tính cần thiết, hướng dẫn gan nhãn, tăng cường dit kiểm
tra chất lượng dé dam bảo dữ liệu cho quá trình đào tạo, xây dựng hệ thống.
Chương 4: Phương pháp tiếp cận
Trong chương này, chúng tôi trình bày các thuật toán đề xuất và cơ sở, nhữngphương pháp tiếp cận mới, cùng việc kết hợp thêm các kỹ thuật liên quan đến
xử lý thuộc tinh và xử ly dit liệu dé cải thiện hiệu suất hệ thống
Chương 5: Cài đặt thử nghiệm và đánh giá
Trong chương này, chúng tôi trình bay các quy trình thực nghiệm, cách đánh
giá, các bước cài đặt mô hình, đồng thời tiến hành trực quan và phân tích kếtquả đạt được trên các mô hình đê xuât và mô hình cơ sở.
Trang 26e Chương 6: Kết luận và hướng phát triển
Chúng tôi trình bày các kết quả đã thực hiện và thu được trong khóa luận tốt
nghiệp này, các mặt hạn chế cũng như các hướng phát triển trong tương lai để
hoàn thiện thêm nghiên cứu.
Trang 27Chương 1 TONG QUAN
1.1 Giới thiệu đề tài
Với sự phát triển không ngừng của khoa học công nghệ, mức sống, dân số,lượng dit liệu trong các lĩnh vực không ngừng tăng trưởng với tốc độ chóngmặt Trước sự bùng nô đó, việc khai thác và tận dụng những thông tin từ chínhnguồn dữ liệu được tạo ra dé làm bệ phóng cho sự phát triển về sau là một giảipháp khôn ngoan cho bat kỳ cá nhân, tô chức, doanh nghiệp hay quốc gia nào.Tính đến thời điểm hiện tại, các lợi ích và giá trị từ dữ liệu ngày càng được thé
hiện rõ ràng và chân thực hơn với hàng loạt các dự án, các công trình nghiên
cứu thuộc mọi lĩnh vực trong đời sống thông qua những tiến bộ vượt bậc vềMáy học, Trí tuệ Nhân tạo, Mạng nơ ron và nhiều công nghệ khác Dữ liệu đã,đang và ngày càng chiếm một vi trí quan trọng trong công cuộc đổi mới vàphát triển của toàn xã hội
Hòa mình vào dòng chảy đó, chúng tôi đã thực hiện một nghiên cứu về đữ liệuthuộc lĩnh vực giáo dục - một lĩnh vực quan trọng, tiềm năng nhưng chưa đượckhai thác nhiều tại Việt Nam Và cụ thé, nghiên cứu này được triển khai trong
môi trường giáo dục bậc đại học Với mong muốn tận dụng được những trithức quý giá từ lượng dữ liệu lớn của sinh viên được lưu trữ trong cơ sở dữliệu tại các trường đại học, từ đó tạo cơ sở vững chắc thúc đây sự phát triểncủa nhà trường nói riêng và nền giáo dục Việt Nam nói chung Tại đây, nghiên
cứu của chúng tôi hướng đến việc giải quyết một thực trang vô cùng dai dang
và nhức nhối của nhiều trường đại học ở Việt Nam: Xử lý học vụ
Trong những năm gần đây, số lượng sinh viên bị xử lý học vụ ở Việt Namđang chạm mức đáng báo động Theo thống kê của các trường đại học, sélượng sinh viên bi xử ly học vụ lên tới hang trăm, thậm chi hang nghìn sinhviên mỗi năm Sinh viên bị xử lý học vụ khi không đạt được yêu cầu tối thiểu
mà nhà trường quy định Nếu lượng sinh viên này ngày tăng lên sẽ ảnh hưởngkhông nhỏ đến chất lượng đào tạo, chuẩn đầu ra của trường và hoạt động học
Trang 28tập của sinh viên Đặc biệt, nó có thể gây ra những hậu quả nghiêm trọng chosinh viên, chăng hạn như hạn chế số lượng tín chỉ đăng ký, mất cơ hội theođuôi chuyên ngành yêu thích, hoặc thậm chi bị đuôi học.
Dựa trên những cơ sở trên, chúng tôi xây dựng một hệ thống cảnh báo nhằm
hỗ trợ các trường đại học dự đoán khả năng bị xử lý học vụ của sinh viên, ban
đầu dựa trên kết quả học tập của họ - yếu tố quan trọng quyết định khả năng
xử lý học vụ của sinh viên Nghiên cứu này được phát triển để cung cấp chosinh viên những cảnh báo kịp thời và đúng đắn về khả năng bị xử lý học vụcủa họ trong học kỳ mới Việc nhận được cảnh báo sẽ khiến sinh viên quantâm hơn đến trình độ học tập hiện tại của mình dé điều chỉnh thái độ học tậpphù hợp hơn, phan dau nang cao điểm sé, tránh tình trạng bị xử lý học vụ Mặt
khác, trên cơ sở đó, có vấn học tập cũng phần nào nắm trước được tình trạngcủa sinh viên, cho phép ho đưa ra những giải pháp phù hợp và kip thời hon.
Chúng tôi thực hiện nghiên cứu với dir liệu do một trường đại hoc uy tín ở
Việt Nam cung cấp cùng với các chính sách về xử lý học vụ được quy địnhtrong quy chế học tập của ngôi trường này Cụ thể, tình trạng xử lý học vụ ở
Việt Nam được chia thành 3 dạng chính: đình chỉ học tập, cảnh cáo và buộc
thôi học Tuy nhiên, với mục tiêu xây dựng hệ thống cảnh báo chỉ dựa trên kết
quả học tập của sinh viên, các mô hình mà chúng tôi đào tạo sẽ chỉ hỗ trợ phân
loại hai trạng thái, bao gồm cảnh báo và buộc thôi học, vì đình chỉ học tập
không bị ảnh hưởng bởi tiêu chí kết quả học tập Cụ thể, chúng tôi sẽ xây dựngmột hệ thống cảnh báo hiệu suất học tập 2 giai đoạn, đầu mỗi học kỳ và trướckhi thi cuối kỳ Cả hai lần cảnh báo chủ yếu sử dụng các thuộc tính liên quan
đến kết quả học tập của sinh viên dé dự đoán trạng thái xử lý học vụ của gồm
normal (bình thường), cảnh báo (warning), buộc thôi học (dismissal).
Trang 291.2 Mô tả bài toán
Với mục tiêu xây dựng nên một hệ thống mang đến những cảnh báo thông
minh và toàn diện cho sinh viên, chúng tôi đã xây dựng nên một hệ thông cảnh báo hai giai đoạn, bao gôm:
e Cảnh báo lần 1: cảnh báo được đưa ra vào đầu mỗi học kỳ.
e Cảnh báo lần 2: cảnh báo trước khi thi cuối kỳ
Trong đó, cảnh báo đầu tiên sẽ giúp các sinh viên sớm hiểu được tình trạnghọc tập hiện tại của mình, giúp họ điều chỉnh thái độ học tập cho phù hợp ngay
từ khi bắt đầu một học kỳ mới Đồng thời, các trường đại học sẽ có thể căn cứvào kết quả cảnh báo dé có các kế hoạch và chiến lược giáo dục phù hợp, kịpthời Với sự hỗ trợ từ hệ thống cảnh báo, cả sinh viên và trường đại học đều
có thé chủ động hơn trong việc hạn chế tình trạng xử lý học vụ ngay từ rất
mô hình học được nhiều thông tin hơn đề đưa ra những cảnh báo với khả năng
chính xác cao hơn Hơn nữa, cảnh báo lần 2 sẽ giúp nhà trường xác định thêmđược những sinh viên có kết quả học tập bắt đầu giảm sút trong học kỳ đangđược xem xét Điều này cho phép nhà trường đưa đến lời cảnh tỉnh cuối cùng
cho những sinh viên đó trước khi họ hoàn thành học kỳ.
1.2.1 Bài toán 1: Cảnh báo lần 1 - cảnh báo đầu mỗi học kỳ
Thông tin chỉ tiết về đầu vào và đầu ra của cảnh báo lần 1 như sau:
e Đâu vào: điêm trung bình (GPA) của các hoc kỳ trước đó của sinh viên
và điêm trung bình môn học được xem là môn học trước của học kỳ hiện tại.
Trang 30e Đầu ra: trạng thái cảnh báo bào gồm normal (bình thường), warning
(cảnh báo), dismissal (buộc thôi học).
1.2.2 Bài toán 2: Cảnh báo lần 2 - Cảnh báo trước khi thi cuối kỳ
Thông tin chỉ tiết về đầu vào và đầu ra của cảnh báo lần 2 như sau:
e Đầu vào: giá tri GPA của các học kỳ trước, các giá trị và trọng số của
các điểm thành phần trong học ky hiện tai và điểm trung bình môn họcđược xem là môn học trước cua học ky hiện tai.
e Đầu ra: trạng thái cảnh báo bào gồm normal(bình thường), warning
(cảnh báo), dismissal (buộc thôi học).
1.3 Tính ứng dụng của đề tài
Xử lý học vụ gây ra nhiều ảnh hưởng tiêu cực đến sinh viên lẫn các trường đạihọc cũng như chất lượng giáo dục tại Việt Nam nói chung Tình trạng này diễn
ra do yếu tố chính xuất phát từ nhận thức về học tập của sinh viên Chính vì
vậy một hệ thống cảnh báo về khả năng bị xử lý học vụ dành cho sinh viên tại
mỗi trường đại học là vô cùng cần thiết Chúng tôi sử dụng sự tiên tiến của
khoa học dé đưa đến cho sinh viên những lời nhắc nhở một cách tự động, kịpthời từ chính kết quả học tập của họ trong quá khứ Bên cạnh đó, nghiên cứu
của chúng tôi được xây dựng trên dữ liệu mà bất kỳ trường đại học nào cũng
có trong cơ sở dữ liệu của minh cũng như sử dụng quy chế xử lý học vụ phổ
biến tại Việt Nam Điều này cho phép hệ thống của chúng tôi dễ dàng triểnkhai cho bat kỳ trường dai học nào, giúp giảm thiểu sự gia tăng về số lượngsinh viên bị xử lý học vụ tại các trường đại học, từ đó thiết lập một môi trườnghọc tập tích cực cho sinh viên Việt Nam nói riêng và sinh viên trên toàn thế
giới nói chung.
10
Trang 31Chương2 CÔNG TRÌNH LIÊN QUAN
Đưa ra cảnh báo về hiệu suất học tập là một giải pháp tuyệt vời giúp các sinh viêntránh khỏi tình trạng bị xử lý học vụ vào cuối học kỳ Đồng thời, các trường đại học
cũng có thể dựa vào kết qua dự đoán dé đưa ra các chiến lược phủ hop, kịp thời, hỗ
trợ sinh viên cải thiện kết quả học tập của họ hoặc ngăn chặn việc tốt nghiệp bị trìhoãn Do đó, ngày càng có nhiều học giả nhận ra tiềm năng xã hội to lớn của dữ liệu
giáo dục và tiến hành nghiên cứu trong lĩnh vực này
Đầu tiên không thê không nhắc đến công trình nghiên cứu của Huang Fang cùng các
cộng sự [1] vào năm 2013, đây là công trình nghiên cứu đầu tiên trong lĩnh vực này
Nghiên cứu của họ sử dụng bốn loại mô hình toán học khác nhau gồm mô hình hồiquy đa biến, mô hình Multi-layer Perceptron, mô hình mạng no ron RBF (radial basisfunction) và Support Vector Machine đề dự đoán điểm trung bình cuối kỳ của sinhviên trong lớp học về kỹ thuật động lực học Bài toán sử dụng các yếu tố về điểmtrung bình (GPA), kết quả từ bốn khóa học tiên quyết (tĩnh học, giải tích I, giải tích
II, vật lý) va ba bài kiểm tra động lực học giữa kỳ (các bài kiểm tra sinh viên đã thựchiện trước khi thi cuối kỳ) Với hơn 2,907 điểm dữ liệu được thu thập từ 323 sinhviên chưa tốt nghiệp trong bốn học kỳ, nghiên cứu này đã phát trién 24 mô hình toán
học dự đoán, dẫn đến nhiều phát hiện mới và quan trọng Kết quả nghiên cứu thu
được tốt nhất với mô hình Support Vector Machine cùng đầu vao là 6 thuộc tính đầu
Tiếp đến vào năm 2018, Migueis và các cộng sự [2] cũng thực hiện một nghiên cứu
thuộc dé tài này Dữ liệu được thu thập từ 2,459 sinh viên theo học từ năm 2003 đếnnăm 2015 của một trường công lập tại Châu Âu Họ đã tiến hành xây dựng mô hình
dự đoán hiệu suất học tập của sinh viên với các thuật toán Máy học như Random
Forest, Decision Tree, Support Vector Machine, Naive Bayes, bagged trees and
boosted trees Cuối cùng, mô hình do tác gia đề xuất là Random Forest, với độ chính
xác đạt trên 95.00% ở giai đoạn đầu của học kỳ Các nghiên cứu trước đây chứng
minh rằng điểm trung bình ở học kỳ trước có tác động đến kết quả học tập của sinh
viên trong học kỳ tiếp theo
11
Trang 32Vào năm 2021, Zhai Mingyu và cộng sự [3] đã sử dụng nhóm các tính năng liên quan
đến việc học tap, sinh hoạt, hoạt động internet va thông tin cơ bản của sinh viên từnăm 2018 đến năm 2020 dé dự đoán về khủng hoảng học tập Dé thu được những môhình có hiệu suất tốt nhất, họ đã dành hơn 80% thời gian nghiên cứu cho việc xử lý
dữ liệu gồm tổng hop dữ liệu từ nhiều nguồn, xử lý dữ liệu thiếu, xử lý dữ liệu dưthừa và chuyền đôi dữ liệu Bên cạnh đó, họ còn ap dụng phương pháp lựa chọn đặctrưng được hỗ trợ từ Random Forest dé loại bỏ các tính năng không cần thiết và kết
quả thu được là hầu hết các thuộc tính được xem là quan trọng đều có liên quan tớikết quả học tập Tiếp đó, các mô hình dự đoán được xây dựng từ nhiều thuật toán học
máy như Logistic Regression , Decision Tree, Support Vector Machine, Random Forest, Gradient Boosting Decision Tree, Extreme Gradient Boosting (XGBoost),
LightGBM, Và kết quả thu được tốt nhất là phương pháp Catboost — SHAP với
Mean Squared Error (MSE), Mean Absolute Error (MAE) và R-Squared (R2) tương ứng là 24.98, 3.55 và 80.30% trong 10 fold cross-validation Các phát hiện của nghiên
cứu không chi đề xuất phương pháp dé phát hiện những sinh viên có van đề với điểmkém mà còn đưa ra các phân tích về các yếu tố cụ thé tac động đến kết quả học tập
của sinh viên Ngoài việc thử nghiệm các phương pháp khác nhau dé dự đoán điểm
của sinh viên, Bujang và cộng sự [4] đã giải quyết các thách thức về dữ liệu khôngcân bang dé cải thiện hiệu suất tốt hơn Họ đã sử dụng Kỹ thuật Synthetic MinorityOversampling Technique (SMOTE) dé giải quyết van dé này Kết qua đáng ngạcnhiên là Random Forest cùng phương pháp lựa chon đặc trưng đã cho chỉ số F-scorecao nhất là 99.50% Nghiên cứu đã chứng minh khả năng sử dụng các thuật toán phânloại để giải quyết vấn đề cảnh báo hiệu suất học tập, trong đó Random Forest và
Support Vector Machine đã cho thấy khả năng vượt trội của chúng trong lĩnh vực
Trang 33Gradient Boosting, Extreme Gradient Boosting, LightGBM, CatBoost để tìm ra thuật
toán hiệu quả nhất với bài toán này Ngoài ra, nhóm tác giả còn tiến hành áp dụng
thêm kỹ thuật chọn đặc trưng nhằm mục tiêu cải thiện hiệu suất mô hình và tốc độ học Kết quả nghiên cứu cho thay LightGBM là mô hình hiệu quả nhất trong tat cả
các thuật toán thử nghiệm với độ chính xác trung bình đạt 89.26%, với 14 đặc trưng
được lựa chọn thông qua kỹ thuật chọn đặc trưng, các đặc trưng đó liên quan chủ yếu
đến hành vi học tập, điểm số của sinh viên.
Từ những công trình nghiên cứu trên, ta có thể nhận định rằng các nghiên cứu về cảnh báo hiệu suất học tập cho sinh viên không còn hiếm gặp trên thế giới Tuy nhiên,
lĩnh vực này lại khá mới mẻ tại Việt Nam Nhận thấy được tiềm năng và những giá
trị xã hội ma các nghiên cứu thuộc dé tài này mang lại, chúng tôi đã thực hiện khóa luận này với nguồn dữ liệu được thu thập tại Việt Nam với mong muốn cải thiện được phần nào sự gia tăng về số lượng sinh viên bị xử lý học vụ.
13
Trang 34Chương 3 BỘ DU LIEU
3.1 Quy trình xây dựng
Ở nghiên cứu này, chúng tôi tập trung khai thác kết quả học tập của sinh viên dé
có thê đưa ra dự đoán về trạng thái xử lý học vụ phù hợp Kết quả học tập là yếu
tố phản ánh trực quan và rõ ràng nhất tình hình học tập của sinh viên, đồng thời
nó cũng đóng vai trò quan trọng trong quá trình ra quyết định cảnh báo học tậpcủa nhà trường Tuy nhiên, vì đữ liệu thô về điểm của sinh viên chứa nhiều thuộctính liên quan đến nhiều khía cạnh khác nhau, một số trong chúng có những đặc
điểm tương đồng, do đó chúng tôi quyết định chuyên đổi dit liệu thô đó thành bộ
dữ liệu mới và tổng quát hơn
Đề có thể xây dựng một hệ thống dễ dàng áp dụng với các trường đại học của Việt
Nam, chúng tôi quyết định dựa trên những quy chuẩn của hệ thống giáo dục ViệtNam Thông thường, một năm học được chia thành hai học kỳ Sinh viên sẽ đăng
ký các môn học của học kỳ trước khi học kỳ bắt đầu Với mỗi môn học, chúng tacần quan tâm đến bốn loại điểm, gọi chúng là điểm thành phần: điểm quá trình,điểm giữa kỳ, điểm thực hành và diém thi cuối kỳ Mỗi điểm thành phan sẽ đượcquy định hệ số riêng và tông hệ số của bốn loại diém bằng 1 Điểm trung bình củamỗi môn học được tinh bằng tổng các điểm thành phan nhân với hệ số của chúng.Trong các điểm thành phần, vì điểm giữa kỳ và cuối kỳ chiếm tỉ trọng cao nênchúng có vai trò quyết định phần lớn điểm trung bình của môn học Cuối cùng,điểm trung bình của học kỳ sẽ được tính dựa trên điểm trung bình của tất cả các
môn học mà sinh viên hoàn thành trong học kỳ, với công thức:
1 subGPA, subCredit;
semGPA =
-3¡ subCredit;
14
Trang 35Trong đó:
e semGPA: điểm trung bình học kỳ.
en: số môn sinh viên học trong học kỳ.
e subGPA(): điểm trung bình của môn học thứ i trong học ky.
e subCredit(): số tín chỉ của môn học thứ i trong học kỳ
Điểm trung bình chúng tôi sử dụng trong nghiên cứu này là GPA trên thang điểm
10, cụ thể như sau: 9.00 10.00 (A+), 8.00 9.00 (A), 7.00 8.00 (B+), 6.00
-7.00 (B), 5.00 - 6.00 (C), 4.00 - 5.00 (D+), 3.00 - 4.00 (D), < 3.00 (F).
Dữ liệu đóng vai trò quyết định khi xây dựng hệ thống cảnh báo, vì vậy chúng tôicần đảm bảo chất lượng dữ liệu đồng thời dữ liệu được tạo ra phải tuân thủ theocác quy định về cảnh báo học vụ Quá trình tạo bộ dữ liệu của chúng tôi trải qua
3 giai đoạn gồm có: Tính toán các thuộc tính cần thiết, gán nhãn dữ liệu, đánh giá
và rà soát lại bộ dữ liệu.
3.1.1 Tính toán các thuộc tính cần thiết
Từ cơ sở dữ liệu thô được cung cấp bởi một trường đại học uy tín tại ViệtNam, chúng tôi đã thực hiện xây dựng nên một bộ dữ liệu mới dé phuc vu choquá trình nghiên cứu Co sở dit liệu thô này bao gồm các thông tin chi tiết về
môn học (tên môn học, mã môn học, số tín chỉ, hệ số các điểm thành phần, các môn học trước, môn tiên quyết, ), thông tin về kết quả học tập của sinh viên
(mã định danh của sinh viên sau khi mã hóa, tên môn học, điểm số đạt được, ).Chúng tôi thực hiện các thao tác xử lý và trích xuất ra các thuộc tính mới thực
sự hữu ich cho việc dự đoán trang thái cảnh báo học vụ của sinh viên Cu thể
bộ dữ liệu mới sẽ gôm các nhóm thuộc tính được tính toán như sau:
Thuộc tính pre_avg: Điêm trung bình của tât cả các môn học được coi là điêm trung bình của môn học trước của môn học mà sinh viên đã đăng ký trong học kỳ hiện tại.
15
Trang 36Nhóm 1: Danh sách các thuộc tính điểm trung bình của mỗi học kỳ mà sinhviên đã hoàn thành (vi dụ: sinh viên A đã hoàn thành 6 học kỳ, thì A có 6
thuộc tính thuộc Nhóm | là s1, s2, s3, s4, s5, s6)
1 SCOT@m,¡.Creditmi
s(m) =(m) Ni credit;
Nhóm 2: Mỗi môn học có các điểm thành phan tương ứng Trước khi thi
cuối kỳ, sinh viên đã được biết điểm quá trình, điểm thực hành và điểm giữa
kỳ Nhóm 2 bao gồm điểm trung bình quá trình (avg1), điểm trung bình thựchành (avg2) và điểm trung bình điểm giữa kỳ (avg3) của tất cả các môn học
trong học kỳ hiện tại.
1 score(j)„¡.coeƒ()y¡.credit,¡
avg (i) = Vi credit, ;
Nhóm 3: Mỗi điểm thành phan đều có hệ số tương ứng Nhóm 3 bao gồm hệ
số trung bình của điểm quá trình (coef1), hệ số trung bình của điểm thực hành
(coef2) và hệ số trung bình của điểm giữa kỳ (coef3) của tất cả các môn học
trong học kỳ hiện tại.
1 coeƒQ)p„¡.credit, ¡
Ni credit, j
coef(j) =
Trong đó:
e p: là cho học kỳ hiện tại của sinh viên.
e mm: là học ky thứ m sinh viên đã học trước đó.
e_n: là số môn học liên quan đến học kỳ đang xét.
® scorem¿: là điểm trung bình của môn học i trong học ky thứ m.
® creditn;: là sô tín chỉ của môn học 1 trong hoc kỳ thứ m.
16
Trang 37© score(j)p¡: là điểm thành phần j cho môn học i trong học kỳ hiện tai.
Trong đó: j = 1: điểm quá trình; j = 2: điểm thực hành; j = 3: điểm
giữa kỳ.
® crcditp¡: là số tín chỉ của môn học i trong học kỳ hiện tại.
© coef(j)piz là hệ số tương ứng của score (j)p¡.
3.1.2 Gán nhãn dữ liệu
Việc xử lý học vụ dựa trên kết quả học tập tại Việt Nam tuân theo những quy
định được Bộ Giáo dục và Dao tạo ban hành Tuy nhiên, với mỗi trường đại
học khác nhau lại có các tiêu chuẩn và quy định khác nhau như sự khác nhau
về thang điểm, về hình thức xử lý học vụ, Do đó, dé dam bảo khả năng ứng
dụng của nghiên cứu, chúng tôi đã lựa chọn một bộ các quy định phô biến nhất
dé sử dụng cho nghiên cứu nay Cụ thé, chúng tôi gan nhãn dựa vào các điềukiện được quy định trong Bảng 3.1.
Điều kiện Trạng thái Nhãn
Không hoàn thành nghĩa vụ học phí đúng
Bi cảnh báo học vu lân thứ hai liên tiép ; 2
(Buộc thôi hoc)
và vân tái phạm
Bị đình chỉ học tập lần thứ hai
17
Trang 38Hết thời gian tối đa hoàn thành khóa học
Vi phạm kỷ luật nghiêm trọng hoặc vi phạm pháp luật bị xử phạt tù giam
Normal Các trường hợp con lại 0
(Bình thường)
Bang 3.1 Điều kiện gán nhãn dựa trên chính sách giáo dục đại học
Bang 3.1 thé hiện tat cả các điều kiện được dùng để xác định trạng thái xử lý
học vụ của sinh viên về các mặt như kết quả học tập, đạo đức, kỷ luật, Các
điều kiện được in đậm là những điều kiện bị ảnh hưởng trực tiếp bởi kết quahọc tập của sinh viên và các điều kiện còn lại có thé dé dàng xác định màkhông cần sự trợ giúp của mô hình Chính vì vậy, chúng tôi tập trung vào việc
phân loại sinh viên dựa trên những điều kiện được in đậm, bộ dữ liệu theo đó
sẽ được gán nhãn dựa trên điều kiện thuộc dong 1, 2, 3 của Bảng 3.1
3.1.3 Đánh giá và rà soát lại bộ dữ liệu
Trong giai đoạn này chúng tôi tiến hành rà soát lại dit liệu, loại bỏ những
trường hợp đữ liệu trống Ngoài ra, vì số lượng học kỳ mà sinh viên tham gia
học là khác nhau, chúng tôi tiền hành chia thành các bộ dit liệu nhỏ tương ứngvới sé lượng học kỳ sinh viên đã học (đã loại bỏ những bộ quá ít dữ liệu, íthon 200 điểm dữ liệu) Việc thực nghiệm được thực hiện hoàn toàn trên các
bộ dữ liệu mới được tong hop từ nhóm các thuộc tính được tinh toán ở giai
đoạn 1.
3.2 Tăng cường dữ liệu
Sau khi chuyền đổi dit liệu từ thông tin của 4,383 sinh viên theo quy trình ở Phan
3.1 Bởi vì mỗi sinh viên có số lượng các học kỳ đã hoàn thành khác nhau, chúngtôi đã nhóm các sinh viên có cùng sô lượng học kỳ vào các bộ dữ liệu nhỏ phùhợp và tiến hành huấn luyện mô hình theo từng bộ dữ liệu nhỏ Tuy nhiên, dé có
18
Trang 39thêm dữ liệu cho quá trình huấn luyện và cải thiện hiệu suất mô hình, chúng tôi
đã tăng cường dữ liệu theo cách tiếp cận được hiển thị trong Hình 3.1 Từ danh
sách điểm trung bình các học kỳ đã hoàn thành của từng sinh viên, chúng tôi chiathành các nhóm điểm trung bình liền nhau Mỗi nhóm được thêm vào bộ đữ liệunhỏ tương ứng (ví dụ: sinh viên A đã hoàn thành bốn học kỳ, chúng tôi chia danhsách điểm trung bình của sinh viên A thành ba nhóm: hai điểm trung bình liền kề,
ba điểm trung bình liền kề, bốn điểm trung bình liền kề)
Ñ Ñ ú thêm vàn / aN
| noc ky | | Leche | | hoc ky 3 | bộ dữ liệu nhỏ)
L a học ky 2 | | hoc ky 3 | học kỹ 4 | gus
noc ky1 | | họckỳ2 | học ky 2 | hocky3 | thêm vào bộ dữ liệu nhỏ, |
Hình 3.1 Phương pháp tăng cường dữ liệu.
Sau quá trình xây dựng và tăng cường, một nhóm các bộ dữ liệu đã được xây dựng
dé sử dụng cho việc đào tạo các mô hình cảnh báo vào đầu học kỳ và trước kỳ thicuối kỳ Nhóm dữ liệu bao gồm 9 bộ dữ liệu nhỏ riêng lẻ có tên ở dạng df(i) với
i € [2,10] Chỉ số i đại diện cho thứ tự của hoc kỳ hiện tại mà sinh viên đang học.Mỗi bộ dữ liệu nhỏ được sử dụng dé đào tạo và dự đoán trạng thái cảnh báo củasinh viên với số lượng đầu vào khác nhau (ví dụ: df2 được sử dụng dé dao tao va
dự đoán trang thái của sinh viên đã hoàn thành hoc ky dau tiên và đang trong học
kỳ thứ hai, ngược lại df3 dùng để đào tạo và dự đoán tình trạng của sinh viên đã
học hết học kỳ thứ 2 và đang học học kỳ thứ 3) Nhóm dữ liệu được thống kê và
mô tả cụ thê ở Bảng 3.2 và 3.3
19
Trang 40label 0 label 1 label 2 total
train 23,588 1,981 22 25,591
df2 val 2,948 248 3 3,199
test 2,949 248 2 3,199 train 18,389 1,475 21 19,885 df3 val 2,299 184 3 2,486
test 2,299 185 3 2,487 train 14,329 1,189 18 15,536
df4 val 1,791 149 2 1,942
test 1,792 149 2 1,943 train 10,452 976 14 11,442 df5 val 1,306 122 2 1,430
test 1,307 122 2 1,431 train 7,654 754 12 8,420
df6 val 956 94 2 1,052
test 957 95 1 1,053 train 4,965 554 11 5,530
df7 val 620 69 2 691
test 621 70 1 692 train 3,021 417 9 3,447
test 42 20 1 63
Bảng 3.2 Thống kê số lượng của từng trạng thai học vụ trên từng học
kỳ.
20