Khóa luận tốt nghiệp Khoa học dữ liệu: Nghiên cứu hệ thống cảnh báo hiệu suất học tập tại một trường đại học

Phương pháp thực hiện: Tính toán thuộc tính cân thiết Chia dữ liệu theo học kỳ học tap Hình 1: Quy trình nghiên cứu cảnh báo xử lý học vụ Trong hình 1 trình bày quy trình nghiên cứu xử l

Trang 1

ĐẠI HỌC QUÓC GIA TP HÒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN

TRẢN THỊ MỸ LINH DƯƠNG THỊ HÒNG HẠNH

KHÓA LUẬN TÓT NGHIỆP

NGHIÊN CỨU HỆ THÓNG CẢNH BÁO HIỆU SUÁT

HỌC TẬP TẠI MỘT TRƯỜNG ĐẠI HỌC

Academic Performance Warning System for Higher Education

CU NHAN NGANH KHOA HOC DU LIEU

TP HO CHi MINH, 2022

Trang 2

ĐẠI HỌC QUỐC GIA TP HÒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN

TRAN THỊ MỸ LINH - 18520999 DƯƠNG THỊ HONG HẠNH - 18520711

KHÓA LUẬN TÓT NGHIỆP

NGHIÊN CỨU HE THONG CANH BAO HIỆU SUÁT

HỌC TẬP TẠI MỘT TRƯỜNG ĐẠI HỌC

Academic Performance Warning System for Higher Education

CỬ NHÂN NGANH KHOA HOC DU LIEU

GIANG VIEN HUONG DAN

ThS NGUYEN VAN KIET

TP HO CHi MINH, 2022

Trang 3

THÔNG TIN HỘI ĐÒNG CHÁM KHÓA LUẬN TÓT NGHIỆP

Hội đồng châm khóa luận tốt nghiệp, thành lập theo Quyết định số

NAY của Hiệu trưởng Trường Đại học Công nghệ Thông tin.

Trang 4

LỜI CẢM ƠN

Chúng em xin được gửi cảm ơn chân thành nhất đến ThS Nguyễn Văn Kiệt — người luôn đông hành, hỗ trợ, theo sát và quan tâm đến nhóm chúng em trong quá trình lựa

chọn cũng như hoàn tat khóa luận tốt nghiệp Thay chính là người truyền đạt và đưa

ra những lời khuyên bồ ich cho chúng em trong suốt quá trình học tập tại ngôi trường

này, giúp chúng em có thể có được ngọn lửa nhiệt huyết và nguôn cảm hứng bắt tận

cũng như năng lượng dé hoàn thành khóa luận một cách chin chu nhất.

Chúng em cũng xin gửi lời cảm ơn tới các anh, chị và các bạn trong nhóm nghiên

cứu DS@UIT đã giúp đỡ, chia sẻ kinh nghiệm và góp ý cho dé tài dé đạt được kết quả tốt nhất.

Hơn nữa, chúng em muốn gửi lời cảm ơn sâu sắc nhất đến quỷ thay, cô tại trường Dai học Công nghệ Thông tin nói chung và quý thay, cô khoa Khoa học và Kỹ thuật Thông tin nói riêng đã truyền đạt những kiến thức hữu ích cũng như các kỹ năng cần thiết để chúng em có thể hoàn thành khóa luận và đạt được những thành công nhất

định sau này.

Sau cùng, chúng em muôn xin cảm ơn đền gia đình, người thân và bạn bè đã luôn

quan tâm, động viên, khuyến khích, giúp đỡ và đưa ra những lời khuyên bổ ích.

Chân thành cảm ơn!

Trang 5

ĐẠI HỌC QUOC GIA TP HO CHÍMINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc

CÔNG NGHỆ THÔNG TIN

ĐÈ CƯƠNG CHI TIẾT

TEN DE TÀI: NGHIÊN CỨU HE THONG CANH BAO HIỆU SUÁT HỌC TAP

TAI MỘT TRƯỜNG ĐẠI HỌC

TÊN ĐỀ TÀI (tiếng Anh): ACADEMIC PERFORMANCE WARNING SYSTEM

FOR HIGHER EDUCATION

Cán bộ hướng dẫn: ThS Nguyễn Văn Kiệt

Thời gian thực hiện: Từ ngày 20/01/2022 đến ngày 10/07/2022.

Sinh viên thực hiện:

Dương Thị Hồng Hạnh - 18520711 Lớp: KHDL2018

Email: 18520711 @gm.uit.edu.vn Dién thoai: 0869400718

Trần Thi Mỹ Linh - 18520999 Lớp: KHDL2018

Email: 18520999@gm.uit.edu.vn Điện thoại: 0911129455

Nội dung đề tài: (M6 ta chỉ tiết mục tiêu, phạm vi, đối tượng, phương pháp thực hiện, kết

quả mong đợi của dé tài)

Mục tiêu nghiên cứu:

Trang 6

Nghiên cứu này được phát triển với mục đích cung cấp cho sinh viên những cảnh báo

kịp thời và đúng đắn về nguy cơ bị xử lý học vụ của họ trong học kỳ mới, bước đầu dựa

trên kết quả học tập Việc nhận được cảnh báo sẽ khiến sinh viên quan tâm hơn đến

trình độ học tập hiện tại của mình dé từ đó điều chỉnh thái độ học tập phù hợp hơn, phan đầu nâng cao điểm số, tránh tình trạng xử lý học vụ Mặt khác, dựa trên cơ sở đó, cô vấn học tập cũng hiểu được phần nào về rủi ro trong xử lý học vụ của sinh viên, cho

phép họ đưa ra những sự trợ giúp phù hợp và kịp thời hơn cho sinh viên Để thực hiện mục tiêu trên, chúng tôi xây dựng bộ dữ liệu chuan cho bai toán cảnh báo trang thái xử

lý học vụ dựa trên kết quả học tập Tiến hành nghiên cứu các phương pháp tiếp cận, các

mô hình và kỹ thuật có liên quan cho dé giải quyết tốt các bài toán đặt ra, từ đó giúp kiểm soát được thực trạng xử lý học tập của sinh viên trong môi trường đại học.

Phạm vi nghiên cứu:

Nghiên cứu dựa trên kết quả học tập của sinh viên trong quá trình theo học và quy định

xử lý học vụ của một trường đại học uy tín tại Việt Nam.

Đối tượng nghiên cứu:

Bài toán phân loại.

Phương pháp thực hiện:

Tính toán thuộc tính cân thiết

Chia dữ liệu theo học kỳ học tap

Hình 1: Quy trình nghiên cứu cảnh báo xử lý học vụ

Trong hình 1 trình bày quy trình nghiên cứu xử lý học vụ của chúng tôi, có hai quy

trình chính là xây dựng bộ dữ liệu, nghiên cứu mô hình máy học và thực nghiệm cho

bộ dữ liệu của chúng tôi.

1 Xây dựng bộ dữ liệu:

Trang 7

Quá trình tạo bộ dữ liệu của chúng tôi trải qua 3 giai đoạn gồm có: Tính toán các

thuộc tính cần thiết, Gán nhãn dữ liệu, Đánh giá và rà soát lại bộ dữ liệu.

Giai đoạn 1: Tính toán các thuộc tính cần thiết

Từ cơ sở dữ liệu thô được cung cấp bởi một trường đại học uy tín tại Việt Nam, chúng tôi đã thực hiện xây dựng nên các bộ dữ liệu mới để phục vụ cho quá trình

nghiên cứu Cơ sở dữ liệu thô này bao gồm các thông tin chỉ tiết về môn học (tên

môn học, mã môn học, số tín chỉ, hệ số các điểm thành phan, các môn hoc trước, môn tiên quyết, ), thông tin về kết quả học tập của sinh viên (mã định danh của

sinh viên sau khi mã hóa, tên môn học, điểm số đạt được, ) Với cơ sở dữ liệu trên, chúng tôi thực hiện các thao tác xử lý và trích xuất ra các thuộc tính mới thực sự hữu ích cho việc dự đoán trạng thái cảnh báo học vụ của sinh viên Cụ thể bộ dữ

liệu mới sẽ gồm các nhóm thuộc tính được tính toán như sau:

Thuộc tính pre avg: Điểm trung bình của tất cả các môn học được coi là điểm

trung bình của môn học trước của môn học mà sinh viên đã đăng ký trong học kỳ

Trang 8

m: là học kỳ thứ m sinh viên đã học trước đó.

n: là số môn học liên quan đến học kỳ đang xét.

scorem¿: là điểm trung bình của môn hoc i trong học kỳ thứ m.

creditm,: là số tín chỉ của môn học i trong học ky thứ m.

score(j)pi: là điểm thành phan j cho môn học i trong học kỳ hiện tại Trong đó: j=1: điểm quá trình; j=2: điểm thực hành, j=3: điểm giữa kỳ.

creditp¡: là số tín chỉ của môn học i trong học kỳ hiện tại.

coef()p¡: là hệ sé tương ứng của score (j)p¡.

Giai đoạn 2: Gán nhãn dữ liệu

Chúng tôi gán nhãn dựa vào các điều kiện được quy định sẵn như sau:

Điều kiện Trạng thái Nhãn

Không hoàn thành nghĩa vụ học phí đúng quy

định

Điểm trung bình học kỳ đang xét dưới 3.0

Điểm trung bình liên tiếp 2 học kỳ gần

nhất đều dưới 4.0

Warning (Cảnh cáo học vụ)

Điểm trung bình liên tiếp 2 học kỳ gần

nhất đều bằng 0.0

Bị cảnh báo học vụ lần thứ hai liên tiếp và

vẫn tái phạm

Bị đình chỉ học tập lần thứ hai

Hết thời gian tối đa hoàn thành khóa học

Vi phạm kỷ luật nghiêm trọng hoặc vi phạm

Dismissal (Buộc thôi học)

Trang 9

pháp luật bị xử phạt tù giam

Normal Các trường hợp còn lại 0

(Bình thường)

Giai đoạn 3: Đánh giá và rà soát lại bộ dữ liệu.

Trong giai đoạn này chúng tôi tiến hành rà soát lại dữ liệu, loại bỏ những trường hợp dữ liệu trống Ngoài ra, vì số lượng học kỳ mà sinh viên tham gia học là khác

nhau, chúng tôi tiến hành chia thành các bộ dữ liệu nhỏ tương ứng với số lượng học

kỳ sinh viên đã học (đã loại bỏ những bộ quá ít dữ liệu, ít hơn 200 điểm dữ liệu) Việc thực nghiệm sẽ được thực hiện hoàn toàn trên các bộ dữ liệu mới được tổng

hợp từ nhóm các thuộc tính được tính toán ở giai đoạn 1.

2 Dinh nghĩa bài toán

Chúng tôi thực hiện xây dựng một hệ thống cảnh báo hiệu suất học tập 2 giai đoạn cho sinh viên, bao gồm: cảnh báo lần 1 - khi bắt đầu một học kỳ mới và cảnh báo lần 2 -

trước khi sinh viên thi cuối kỳ Cụ thể, đầu vào và đầu ra của từng bài toán như sau: -_ Cảnh báo lần 1:

e Đầu vào: các thuộc tính được xây dung dựa trên kết quả các học kỳ trước đó

của sinh viên.

e Đầu ra: trạng thái xử lý học vụ của sinh viên trong kỳ hiện tại.

-_ Cảnh báo lần 2:

e Đầu vào: các thuộc tính được xây dựng dựa trên kết quả các học kỳ trước và

các thuộc tính mới được xây dựng dựa trên điểm số sinh viên đạt được trong học kỳ đang xét (tính đến thời điểm trước khi thi cuối kỳ).

e Đầura: trạng thái xử lý học vụ của sinh viên trong kỳ hiện tại.

3 Nghiên cứu phương pháp thực nghiệm:

- Thực nghiệm trên các thuật toán học may truyền thống lẫn hiện đại, điều chỉnh

tham số để tìm ra mô hình phù hợp với bài toán đặt ra, như:

Trang 10

e Random Forest

e Decision Tree

e Extra Trees

e Support Vector Machine

e Neural Support Vector Machine

e Stochastic Gradient Descent Classifier

Giải quyết vấn dé dữ liệu mất cân bằng trên cả hai giải pháp: sử dụng tham số

class _weight đã được tích hợp sẵn trong các thuật toán học máy và các phương pháp lấy mẫu (sampling), để tìm kiếm giải pháp phù hợp, mang lại hiệu quả cao

và 6n định nhất cho từng bộ dữ liệu cụ thé.

Ngoài việc tiếp cận dưới hình thức một bài toán phân loại ba nhãn, chúng tôi

còn thực hiện phân chia thành hai bài toán phân loại nhị phân nhỏ, gồm: (1) bài

toán phân loại sinh viên bình thường (nhãn 0) với sinh viên có khả năng bị xử lý học vụ (nhãn 1, 2); (2) bài toán phân loại sinh viên có khả năng bị cảnh cáo học

vụ (nhãn 1) với sinh viên có khả năng bị buộc thôi học (nhãn 2) Việc phân chia

này được thực hiện với mục tiêu mang đến kết quả phân loại chính xác hơn.

Cách tiếp cận này sẽ được giải thích cụ thể hơn tại hình bên đưới.

Trang 11

- Sau cùng, thực hiện kết hợp (ensemble) các mô hình tốt nhất thu được trong quá

trình thực nghiệm đê cho ra hiệu suất tốt nhất.

4 Phương pháp đánh giá

4.1 Thông số đánh giá

- Chúng tôi thực hiện đánh giá hiệu suất mô hình huấn luận với 3 thông số:

score, Fl-score và chỉ số Recall của nhãn 2 (nhãn buộc thôi học) Trong đó, score được xem là quan trọng nhất.

F2 Độ đo F2F2 score được sử dụng với tiêu chí xem việc bỏ sót sinh viên có khả năng

bị xử lý học vụ (cảnh cáo học vụ, buộc thôi học) tệ hơn nhiều so với việc cảnh

báo lầm Độ đo này cho phép chúng tôi lựa chọn được các mô hình dự đoán giảm

thiểu số lượng sinh viên bị bỏ sót Tuy nhiên, F2-score chỉ được sử dụng trong phân loại nhị phân, chính vì vậy cần thực hiện chuyển đổi nhãn 1 và 2 vào cùng

một phân lớp trước khi thực hiện đánh giá.

- Bên cạnh đó, trong đánh giá bài toán 3 nhãn, Recall của nhãn 2 được thêm vào

nhằm đảm bảo mô hình lựa chọn hoạt động tốt với nhãn 2 Điều này là do số lượng nhãn 2 quá ít, nên việc chỉ sử dụng F2-score vô tình khiến kết quả dự đoán

riêng lẻ của nhãn 2 bi phot lờ.

- Để đánh giá chính xác hiệu suất mô hình trên dữ liệu không cân bằng, các thông

Trang 12

số trên đều sẽ được tính toán trên trung bình macro.

4.2 Chiến lược đánh giá

Căn cứ vào từng loại bài toán, từng vấn đề cũng như từng cách tiếp cận khác nhau

mà chúng tôi sẽ thực hiện lựa chọn các độ đo phủ hợp nhất đề sử dụng.

Kết quả mong đợi:

Tạo ra bộ dữ liệu chứa các thuộc tính có giá trị trong việc cảnh báo hiệu suất học tập

của sinh viên, từ đó giảm thiểu sự gia tăng xử lý học vụ tại các trường đại học.

Làm rõ được nhưng đặc điểm và nguyên nhân dẫn đến thực trạng xử lý học vụ, bước

đầu dựa trên khía cạnh hiệu suất học tập.

Đề xuất được các phương pháp tiếp cận và các thuật toán phù hợp nhất cho từng bài

toán cảnh báo được đặt ra.

Tài liệu tham khảo

Huang, S., Fang, N.: Predicting student academic performance in an engineering dynamics course: A comparison of four types of predictive mathematical models Comput Educ.61, 133-145 (2013).

Miguéis, V.L., Freitas, A., Garcia, P.J.V., Silva, A.: Early segmentation of students according to their academic performance: A predictive modeling approach Decis Support Syst.115, 36-51 (2018).

Mingyu, Z., Sutong, W., Yanzhang, W., Dujuan, W.: An interpretable prediction

method for university student academic crisis warning Complex& Intelligent Systems (2021).

Bujang, S.D.A., Selamat, A., Ibrahim, R., Krejcar, O., Herrera-Viedma, E., Fujita,

H., Ghani, N.A.M.: Multiclass prediction model for student grade prediction using machine learning IEEE Access 9, 95608-95621 (2021).

Trang 13

Kế hoạch thực hiện: (Mô ta tóm tắt kế hoạch làm việc và phân công công việc cho từng

sinh viên tham gia.)

- Mô tả tóm tắt kế hoạch làm việc:

Bang 1 - Kế hoạch thực hiện đề tài trong 6 tháng

Công việc Sinh viên

Tìm hiéu tổng quan Linh, Hạnh

Tạo bộ dữ liệu Linh, Hạnh

Nghiên cứu phương pháp | Linh, Hạnh

Báo cáo Linh, Hạnh |

- Phan công công việc cho từng thành viên:

Dương Thị | Tran Thị

Công việc A

Hong Hanh Mỹ Linh

Khảo sát bài toán và tìm hiểu tổng quan x x

Phát triển bộ dữ liệu từ dữ liệu góc x x

Kiểm tra bộ dữ liệu x x

Nghiên cứu phương pháp và hướng tiếp

¬ to x x

cận giải quyết bai toán.

Triển khai mô hình thực nghiệm x x

Đánh giá và phân tích kết quả x x

Việt báo cáo và báo cáo x x

Trang 14

Xác nhận của CBHD

(Ký tên và ghi rõ họ tên)

Nguyễn Văn Kiệt

TP HCM, ngày 24 tháng 01 năm 2022

Sinh viên (Ký tên và ghi rõ họ tên)

Dương Thị Hồng Hạnh

Trần Thị Mỹ Linh

Trang 15

MỤC LỤC

TOM TAT KHÓA LUẬN

MỞ ĐÀU

Chương 1 TONG QUAN

1.1 Giới thiệu dé tài

1.2 Mô tả bài toán

1.2.1 Bài toán 1: Cảnh báo lần 1 - cảnh báo đầu mỗi học kỳ.

1.2.2 Bài toán 2: Cảnh báo lần 2 - Cảnh báo trước khi thi cuối ky.

3.1.3 Đánh giá và rà soát lại bộ dữ liệu

3.2 Tăng cường dữ liệu

Chương 4 PHƯƠNG PHAP TIEP CAN

4.2.1.1.3 Gradient Boosting Decision Tree (GB)

4.2.1.1.4 Gradient Based One Side Sampling (GOSS)

mè t3 =

`©

22

22 23 23 23 23

25 26 27

Trang 16

4.2.1.1.5 Exclusive Feature Bundling (EFB)

4.2.1.2 Support Vector Machine (SVM)

4.2.2 Thuật toán co sở

4.2.2.1 Decision Tree (DT)

4.2.2.2 Random Forest (RF)

4.2.2.3 Extra Trees (ET)

4.2.2.4 Gradient Boosting Decision Tree (GB)

4.2.2.5 Logistic Regression (LR)

4.2.2.6 Stochastic Gradient Descent Classifier (SGD)

4.2.2.6.1 Stochastic Gradient Descent

4.2.2.6.2 Stochastic Gradient Descent Classifier (SGD)

4.2.2.7 Neural Support Vector Machine (N-SVM)

Xử lý dé liệu mat cân bằng

Phương pháp tiếp cận mới - Phương pháp tiếp cận phân chia

Đánh giá

Độ đo

4.7.2 Chiến lược đánh giá

Chương 5 CÀI ĐẶT THU NGHIỆM VA ĐÁNH GIA

5.1.

5.2.

Quy trình thực nghiệm

Kết quả thực nghiệm 5.21 Dau hoc kỳ

5.2.2 Trước khi thi cuối kỳ

27 28

30 30

39

40 41

4I 44

44 47

Trang 17

5.3 Phân tích trực quan kết qua

5.3.1 Dau học kỳ5.3.2 _ Trước khi thi cuối kỳ

5.3.3 Lựa chọn đặc trưng

Chương 6 KẾT LUẬN VÀ HƯỚNG PHÁT TRIEN

6.1 Kếtluận

6.2 Hướng phát triển

DANH MỤC CÔNG TRÌNH TÁC GIÁ

TÀI LIỆU THAM KHẢO

57

58

59

63

Trang 18

DANH MỤC HÌNH ẢNH

Hình 3.1 Phương pháp tăng cường dữ liệu .- - 5 + *+vsstrsereerererrre 19

Hình 4.1 Tổng quan về cách hoạt động của Gradient Descent . - 24

Hình 4.2 Các mô hình được học tuần tự để khắc phục sai sót - 26

Hình 4.3 Tổng quan về cách hoạt động của -¿2- +x+zx++zs+rxerxezes 27 Hình 4.4 Tổng quan về Exclusive Feature Bundling -s¿©¿©s2 szxz>s+ 28 Hình 4.5 Tổng quan về cách hoạt động của Support Vector Machine 29

Hình 4.6 Cơ chế hoạt động của thuật toán Decision Tree .- ‹ -«+ +- 30

Hình 4.7 Cơ chế hoạt động của thuật toán Random FOorest -+- 31

Hình 4.8 Cơ chế hoạt động của thuật toán + c 1S Set 32 Hình 4.9 Con đường hướng tới cực tiểu của Stochastic Gradient Descent và Gradient Descent trong không gian 2ÌD 5 6+ 1E 9E rệt 34 Hình 4.10 Tổng quan kiến trúc của Neural Support Vector Machine 35

Hình 4.11 Cách tiếp cận phân chia 2-22 +¿2SE2E£+EE£2EE2EEtEEEerxezrxrrreeree 38 Hình 5.1 Quy trình thực nghiỆm . c5 <1 32113311139 E+EEESEsEeseeereeeereere 42 Hình 5.2 Quy trình đánh gia và thử nghiệm trung bình trên các thuật toán 43

Hình 5.3 Biểu đồ kết quả khi áp dụng các phương pháp xử lý đặc trưng 49

Hình 5.4 Biéu đồ so sánh các kết quả thu được trên cách tiếp cận - 50

Hình 5.5 Biéu đồ so sánh kết quả trước và sau khi xử lý - s52 50 Hình 5.6 Biểu đồ so sánh trước và sau khi xử lý mat cân bằng dữ liệu 52

Hình 5.7 Biéu đồ so sánh trước và sau khi áp dụng kỹ thuật tao đặc trưng 52

Hình 5.8 Biểu đồ so sánh trước và sau khi áp dụng kỹ thuật tạo - 53

Hình 5.9 Biểu đồ so sánh thực nghiệm trên cách tiếp cận thông thường 53

Hình 5.10 Heatmap biéu diễn độ tương quan Pearson của -: -:-s- 55 Hình 0.1 Trang chủ đăng nhập, sinh viên nhập tài khoản để - 63

Hình 0.2 Hiền thị thông tin cảnh báo học vụ kỳ hiện tại của sinh viên 64

Hình 0.3 Nhập các điểm thành phan đã biết của kỳ hiện tại dé biết - 64

Hình 0.4 Hiền thị thông tin về quy định xử lý học vụ . - 5-5 secsss2 65 Hình 0.5 Tổng quan dashboard theo dõi trạng thái học vụ của toàn bộ sinh viên 66

Trang 19

DANH MỤC BANG

Bảng 3.1 Điều kiện gan nhãn dựa trên chính sách giáo dục đại hoc 18

Bang 3.2 Thống kê số lượng của từng trạng thái hoc vụ trên từng học kỳ 20

Bang 3.3 Mô tả ý nghĩa các thuộc tính trong bộ dữ liệu - -«<+-<<5+ 21 Bang 4.1 Thống kê số lượng dữ liệu bi thiếu theo từng học kỳ -. - 22

Bảng 5.1 Một số ví dụ về dữ liệu sử dụng trong bài toán cảnh báo đầu học kỳ 43

Bảng 5.2 Một số ví dụ về dữ liệu sử dụng trong cảnh báo trước khi thi cuối ky 44

Bang 5.3 Kết quả thực nghiệm của bài toán cảnh báo đầu học kỳ 46

Bang 5.4 Kết quả thực nghiệm của bài toán cảnh báo trước khi thi cuối kỳ 48

Trang 20

DANH MỤC TU VIET TAT

STT Từ Viết Tat Ý nghĩa

1 XGBoost Extreme Gradient Boosting

2 LightGBM/LGBM | Light Gradient Boosted Machine

3 DT Decision Tree

4 SVM Support Vector Machine

5 MSE Mean Squared Error

6 MAE Mean Absolute Error

7 R2 R-Squared

8 SMOTE Synthetic Minority Oversampling Technique

9 GPA Grade point average

10 GOSS Gradient Based One Side Sampling

11 EFB Exclusive Feature Bundling

12 GB Gradient Boosting Decision Tree

13 svm.SVC C-Support Vector Classification

14 RF Random Forest

15 LR Logistic Regression

16 SGD Stochastic Gradient Descent Classifier

17 N-SVM Neural Support Vector Machine

18 NN Neural Network

19 ET Extra Trees

Trang 21

TÓM TAT KHÓA LUẬN

Xử lý học vụ tại các trường đại học đã trở thành vấn đề cấp bách trong những nămgần đây, nhiều sinh viên phải đối mặt với những hậu quả nghiêm trọng từ xử lý học

vụ Vì thé, chúng tôi đã tiễn hành nghiên cứu nhằm tìm ra giải pháp giúp giảm thiêu

tình trạng nêu trên Nghiên cứu của chúng tôi đã sử dụng sức mạnh của nguồn dữ liệukhổng 16 từ ngành giáo dục và sự hiện đại của các kỹ thuật học may dé xây dựng một

hệ thống cảnh báo hiệu suất học tập Hệ thống của chúng tôi dựa trên kết quả học tập,yếu tố phản ánh trực tiếp tình trạng học tập của sinh viên tại trường đại học Qua quátrình nghiên cứu, chúng tôi đã cung cấp bộ đữ liệu được trích xuất và phát triển từ

các nguồn dữ liệu thô, bao gồm nhiều thông tin về sinh viên, môn học và điểm số Bộ

dữ liệu được xây dựng với nhiều thuộc tính cực kỳ hữu ích trong việc dự đoán tìnhtrạng xử lý học vụ của sinh viên thông qua các kỹ thuật tạo và lựa chọn đặc trưng.Đáng chú ý, bộ dit liệu được đóng góp rat linh hoạt và có thé dé dang mở rộng, tái sử

dụng vì chúng tôi đã cung cấp các công thức tính toán chỉ tiết mà các thuộc tính liênquan có thé dé dang được tìm thấy ở bất kỳ trường đại học hoặc cao đăng nào ở Việt

Nam Điều đó cho phép bat kỳ trường đại hoc nao sử dung lại hoặc xây dựng lại một

bộ dữ liệu tương tự dựa trên cơ sở dữ liệu của họ Hơn nữa, chúng tôi đã kết hợp các

kỹ thuật vé xử lý dữ liệu, kỹ thuật xử lý mất cân bằng, kỹ thuật lựa chọn mô hình và

nghiên cứu dé đề xuất các thuật toán học máy phù hợp, giúp xây dựng hệ thống cảnhbáo tốt nhất có thể Do đó, một hệ thống cảnh báo học vụ hai giai đoạn cho giáo dụcđại học đã được đề xuất, với F2-score lần lượt là 74.37% vào đầu học kỳ bằng cách

sử dụng thuật toán Support Vector Machine và hơn 92.71% trước khi kỳ thi cuối kỳ

sử dụng thuật toán LightGBM.

Trang 22

MỞ DAU

Đặt vấn đề

Trong những năm gần đây, tình trạng sinh viên bị xử lý học vụ ở Việt Nam xuất hiện

có xu hướng tăng nhanh một cách đáng báo động Theo thống kê của các trường đạihọc, số lượng sinh viên bị xử lý học vụ lên tới hàng trăm, thậm chí hàng nghìn sinhviên mỗi năm Hơn nữa, điều này ảnh hưởng không nhỏ đến chất lượng đào tạo, chuẩnđầu ra của trường và hoạt động học tập của sinh viên Đặc biệt, nó có thể gây ra nhữnghậu quả nghiêm trọng cho sinh viên, chăng hạn như hạn chế số lượng tín chỉ đăng ký,

mất cơ hội theo đuôi chuyên nganh yêu thích, hoặc thậm chi bị đuổi học Trên thế

giới, việc nghiên cứu điểm học tập, cảnh báo nguy cơ học tập của sinh viên khôngcòn quá xa lạ Tuy nhiên, ở Việt Nam, theo tìm hiểu của nhóm tới thời điểm hiện tại

vẫn chưa có bài báo hoặc công trình nghiên cứu nào về việc xử lý học vụ sinh viên

được công bó

Chính vì vậy, chúng tôi đã quyết định tìm hiểu và nghiên cứu dé tài này giúp cảnhbáo khả năng xử lý học vụ ở sinh viên cho nhà trường Nhiều nghiên cứu liên quan

chỉ ra có nhiều yếu t6 có thé ảnh hưởng đến khả năng bị xử lý học vụ của sinh viên

Tuy nhiên ở nghiên cứu này, chúng tôi bước đầu dựa trên kết quả học tập, yếu tổ phảnánh trực tiếp nhất và cũng là yếu tổ quyết định trong chính sách xử lý học vụ tại cáctrường đại học ở Việt Nam Hệ thống này được xem xét phát triển với mục tiêu giúpnhà trường cảnh báo một cách tự động và có cơ sở đến sinh viên về nguy cơ bị xử lýhọc vụ của họ trong học kỳ mới, từ đó giúp sinh viên biết được mức học tập hiện tại

của ban thân dé có thé tự điều chỉnh thái độ học tập phù hợp hơn, phan đấu cải thiện

điểm số, tránh trình trạng bị xử lý học vụ Đồng thời, dựa vào đó, nhà trường và cốvấn học tập cũng phần nào năm được trạng thái về khả năng xử lý học vụ của sinhviên để có thê đưa ra các biện pháp cải thiện phù hợp và kịp thời hơn

Với mục tiêu phân loại sinh viên vào các trạng thái xử lý học vụ phù hợp, chúng tôi

quyết định xây dựng hệ thống của mình dưới dạng một bài toán phân loại, có thể tổngquát bai toán như sau:

Trang 23

e Đầu vào: Thông tin liên quan đến kết quả học tập của sinh viên.

e Đầu ra: Nhãn dự đoán bởi mô hình, cụ thể là một trong ba nhãn gồm normal

(bình thường), warning (cảnh báo), dismissal (buộc thôi học).

Mục tiêu khóa luận

Nghiên cứu này được phát triển với mục đích cung cấp cho sinh viên những cảnh báo

kịp thời và đúng đắn về nguy cơ bị xử lý học vụ của họ trong học kỳ mới, bước đầu

dựa trên kết quả học tập Việc nhận được cảnh báo sẽ khiến sinh viên quan tâm hơnđến trình độ học tập hiện tại của mình để từ đó điều chỉnh thái độ học tập phù hợphơn, phan dau nang cao diém SỐ, tránh tình trạng xử lý học tập Mặt khác, dựa trên

cơ sở đó, có vấn học tập cũng hiểu được phần nào về rủi ro trong xử lý học vụ của

sinh viên, cho phép họ đưa ra những sự trợ giúp phù hợp va kip thời hơn cho sinh

viên Dé hoàn thành được mục đích chung của nghiên cứu, chúng tôi đề ra 4 mục tiêu

cần đạt được trong quá trình nghiên cứu của mình:

e Thứ nhất, chúng tôi xây dựng bộ dit liệu chuẩn cho bài toán cảnh báo trạng

thái xử lý học vụ dựa trên kết quả học tập Bộ dữ liệu được xây dựng với mục

tiêu có thể cung cấp được các thuộc tính tổng quát nhất, dễ dàng tái sử dụng

và mở rộng tùy theo cơ sở dir liệu của các trường đại học khác nhau.

e Thứ hai, chúng tôi tiến hành cài đặt, thử nghiệm trên các phương pháp học

máy và học sâu khác nhau, đề có thé đề xuất được các thuật toán phù hợp

e Thứ ba, chúng tôi nghiên cứu các phương pháp tiếp cận và kỹ thuật có liên

quan nhằm tìm ra tổ hợp phương pháp phù hợp với thuật toán được đề xuất,đồng thời cải thiện hiệu suất của hệ thống cảnh báo

e Cuối cùng, chúng tôi xây dựng một hệ thống cảnh báo với các chức năng cơ

bản để có thể có cái nhìn tổng quát hơn về cách mà hệ thống cảnh báo hoạtđộng Thêm vào đó là đề ra những mục tiêu trong tương lai để có thê tiếp tụcphát triển nghiên cứu hoàn thiện hơn

Trang 24

Đôi tương và phạm vỉ nghiên cứu

e Đối tượng: Bài toán phân loại trạng thái xử lý học vụ của sinh viên dựa trên

kết quả học tập

e Phạm vi nghiên cứu: Nghiên cứu dựa trên kết quả học tập của sinh viên trong

quá trình theo học và quy định xử lý học vụ của một trường đại học uy tín tại

Việt Nam Chủ yếu tập trung vào các vẫn đề sau:

«= _ Xây dựng bộ dữ liệu tổng quát va chất lượng phục vụ cho việc phân loại

trạng thái học vụ của sinh viên dựa trên kết quả học tập ở các trường đại

học tại Việt Nam.

= Cai đặt, thử nghiệm trên nhiều thuật toán học máy và học sâu khác nhau

dé đề xuất thuật toán phù hợp

* _ Nghiên cứu, áp dụng các cách tiếp cận mới, các kỹ thuật liên quan đến dữ

liệu nhằm cải thiện hiệu suất hệ thống

Kết quả nghiên cứu

Sau khi hoàn thành nghiên cứu, chúng tôi đạt được những kết quả như sau:

e Tao ra bộ dữ liệu chứa các thuộc tính có giá tri trong việc cảnh báo hiệu suất

học tập của sinh viên, từ đó giảm thiểu sự gia tăng số lượng sinh viên bị xử lý

học vụ tại các trường đại học.

e Làm rõ được những đặc điểm và nguyên nhân dẫn đến thực trạng xử lý học

vụ, bước đầu dựa trên khía cạnh hiệu suất học tập

e Đề xuất được các phương pháp tiếp cận và các thuật toán phù hợp nhất cho

từng bai toán cảnh báo được đặt ra.

e Xây dựng demo cho khóa luận tốt nghiệp nay bằng cách sử dụng các mô hình đạt

hiệu suất tốt nhất trên từng giai đoạn đầu học kỳ và trước khi thi cuối kỳ

Trang 25

Câu trúc khóa luận

Khóa luận gôm 6 chương với các nội dung chính sau:

Chương 1: Tổng quan

Trong chương này chúng tôi giới thiệu tổng quan về tình trạng xử lý học vụ,lợi ích, hiệu quả khi xây dựng thành công hệ thống cảnh báo học vụ.Đồng thời trình bày chỉ tiết từng bài toán nhỏ mà chúng tôi nghiên cứu, baogồm bài toán dự đoán trạng thái học vụ ở đầu học kỳ và bài toán dự đoán trướckhi thi cuối kỳ

Chương 2: Công trình liên quan

Chúng tôi giới thiệu một số công trình nghiên cứu trong và ngoai nước liên

quan đến lĩnh vực xử lý học vụ, dự đoán trạng thái học tập của sinh viên Đồng

thời, chương này cũng thể hiện sơ lược về các kết quả đạt được và những thuậttoán, kỹ thuật tiềm năng trong các nghiên cứu đó

Chương 3: Bộ dữ liệu

Trong chương nay, chúng tôi trình bay quy trình xây dựng bộ dữ liệu, cách

tính toán các thuộc tính cần thiết, hướng dẫn gan nhãn, tăng cường dit kiểm

tra chất lượng dé dam bảo dữ liệu cho quá trình đào tạo, xây dựng hệ thống.

Chương 4: Phương pháp tiếp cận

Trong chương này, chúng tôi trình bày các thuật toán đề xuất và cơ sở, nhữngphương pháp tiếp cận mới, cùng việc kết hợp thêm các kỹ thuật liên quan đến

xử lý thuộc tinh và xử ly dit liệu dé cải thiện hiệu suất hệ thống

Chương 5: Cài đặt thử nghiệm và đánh giá

Trong chương này, chúng tôi trình bay các quy trình thực nghiệm, cách đánh

giá, các bước cài đặt mô hình, đồng thời tiến hành trực quan và phân tích kếtquả đạt được trên các mô hình đê xuât và mô hình cơ sở.

Trang 26

e Chương 6: Kết luận và hướng phát triển

Chúng tôi trình bày các kết quả đã thực hiện và thu được trong khóa luận tốt

nghiệp này, các mặt hạn chế cũng như các hướng phát triển trong tương lai để

hoàn thiện thêm nghiên cứu.

Trang 27

Chương 1 TONG QUAN

1.1 Giới thiệu đề tài

Với sự phát triển không ngừng của khoa học công nghệ, mức sống, dân số,lượng dit liệu trong các lĩnh vực không ngừng tăng trưởng với tốc độ chóngmặt Trước sự bùng nô đó, việc khai thác và tận dụng những thông tin từ chínhnguồn dữ liệu được tạo ra dé làm bệ phóng cho sự phát triển về sau là một giảipháp khôn ngoan cho bat kỳ cá nhân, tô chức, doanh nghiệp hay quốc gia nào.Tính đến thời điểm hiện tại, các lợi ích và giá trị từ dữ liệu ngày càng được thé

hiện rõ ràng và chân thực hơn với hàng loạt các dự án, các công trình nghiên

cứu thuộc mọi lĩnh vực trong đời sống thông qua những tiến bộ vượt bậc vềMáy học, Trí tuệ Nhân tạo, Mạng nơ ron và nhiều công nghệ khác Dữ liệu đã,đang và ngày càng chiếm một vi trí quan trọng trong công cuộc đổi mới vàphát triển của toàn xã hội

Hòa mình vào dòng chảy đó, chúng tôi đã thực hiện một nghiên cứu về đữ liệuthuộc lĩnh vực giáo dục - một lĩnh vực quan trọng, tiềm năng nhưng chưa đượckhai thác nhiều tại Việt Nam Và cụ thé, nghiên cứu này được triển khai trong

môi trường giáo dục bậc đại học Với mong muốn tận dụng được những trithức quý giá từ lượng dữ liệu lớn của sinh viên được lưu trữ trong cơ sở dữliệu tại các trường đại học, từ đó tạo cơ sở vững chắc thúc đây sự phát triểncủa nhà trường nói riêng và nền giáo dục Việt Nam nói chung Tại đây, nghiên

cứu của chúng tôi hướng đến việc giải quyết một thực trang vô cùng dai dang

và nhức nhối của nhiều trường đại học ở Việt Nam: Xử lý học vụ

Trong những năm gần đây, số lượng sinh viên bị xử lý học vụ ở Việt Namđang chạm mức đáng báo động Theo thống kê của các trường đại học, sélượng sinh viên bi xử ly học vụ lên tới hang trăm, thậm chi hang nghìn sinhviên mỗi năm Sinh viên bị xử lý học vụ khi không đạt được yêu cầu tối thiểu

mà nhà trường quy định Nếu lượng sinh viên này ngày tăng lên sẽ ảnh hưởngkhông nhỏ đến chất lượng đào tạo, chuẩn đầu ra của trường và hoạt động học

Trang 28

tập của sinh viên Đặc biệt, nó có thể gây ra những hậu quả nghiêm trọng chosinh viên, chăng hạn như hạn chế số lượng tín chỉ đăng ký, mất cơ hội theođuôi chuyên ngành yêu thích, hoặc thậm chi bị đuôi học.

Dựa trên những cơ sở trên, chúng tôi xây dựng một hệ thống cảnh báo nhằm

hỗ trợ các trường đại học dự đoán khả năng bị xử lý học vụ của sinh viên, ban

đầu dựa trên kết quả học tập của họ - yếu tố quan trọng quyết định khả năng

xử lý học vụ của sinh viên Nghiên cứu này được phát triển để cung cấp chosinh viên những cảnh báo kịp thời và đúng đắn về khả năng bị xử lý học vụcủa họ trong học kỳ mới Việc nhận được cảnh báo sẽ khiến sinh viên quantâm hơn đến trình độ học tập hiện tại của mình dé điều chỉnh thái độ học tậpphù hợp hơn, phan dau nang cao điểm sé, tránh tình trạng bị xử lý học vụ Mặt

khác, trên cơ sở đó, có vấn học tập cũng phần nào nắm trước được tình trạngcủa sinh viên, cho phép ho đưa ra những giải pháp phù hợp và kip thời hon.

Chúng tôi thực hiện nghiên cứu với dir liệu do một trường đại hoc uy tín ở

Việt Nam cung cấp cùng với các chính sách về xử lý học vụ được quy địnhtrong quy chế học tập của ngôi trường này Cụ thể, tình trạng xử lý học vụ ở

Việt Nam được chia thành 3 dạng chính: đình chỉ học tập, cảnh cáo và buộc

thôi học Tuy nhiên, với mục tiêu xây dựng hệ thống cảnh báo chỉ dựa trên kết

quả học tập của sinh viên, các mô hình mà chúng tôi đào tạo sẽ chỉ hỗ trợ phân

loại hai trạng thái, bao gồm cảnh báo và buộc thôi học, vì đình chỉ học tập

không bị ảnh hưởng bởi tiêu chí kết quả học tập Cụ thể, chúng tôi sẽ xây dựngmột hệ thống cảnh báo hiệu suất học tập 2 giai đoạn, đầu mỗi học kỳ và trướckhi thi cuối kỳ Cả hai lần cảnh báo chủ yếu sử dụng các thuộc tính liên quan

đến kết quả học tập của sinh viên dé dự đoán trạng thái xử lý học vụ của gồm

normal (bình thường), cảnh báo (warning), buộc thôi học (dismissal).

Trang 29

1.2 Mô tả bài toán

Với mục tiêu xây dựng nên một hệ thống mang đến những cảnh báo thông

minh và toàn diện cho sinh viên, chúng tôi đã xây dựng nên một hệ thông cảnh báo hai giai đoạn, bao gôm:

e Cảnh báo lần 1: cảnh báo được đưa ra vào đầu mỗi học kỳ.

e Cảnh báo lần 2: cảnh báo trước khi thi cuối kỳ

Trong đó, cảnh báo đầu tiên sẽ giúp các sinh viên sớm hiểu được tình trạnghọc tập hiện tại của mình, giúp họ điều chỉnh thái độ học tập cho phù hợp ngay

từ khi bắt đầu một học kỳ mới Đồng thời, các trường đại học sẽ có thể căn cứvào kết quả cảnh báo dé có các kế hoạch và chiến lược giáo dục phù hợp, kịpthời Với sự hỗ trợ từ hệ thống cảnh báo, cả sinh viên và trường đại học đều

có thé chủ động hơn trong việc hạn chế tình trạng xử lý học vụ ngay từ rất

mô hình học được nhiều thông tin hơn đề đưa ra những cảnh báo với khả năng

chính xác cao hơn Hơn nữa, cảnh báo lần 2 sẽ giúp nhà trường xác định thêmđược những sinh viên có kết quả học tập bắt đầu giảm sút trong học kỳ đangđược xem xét Điều này cho phép nhà trường đưa đến lời cảnh tỉnh cuối cùng

cho những sinh viên đó trước khi họ hoàn thành học kỳ.

1.2.1 Bài toán 1: Cảnh báo lần 1 - cảnh báo đầu mỗi học kỳ

Thông tin chỉ tiết về đầu vào và đầu ra của cảnh báo lần 1 như sau:

e Đâu vào: điêm trung bình (GPA) của các hoc kỳ trước đó của sinh viên

và điêm trung bình môn học được xem là môn học trước của học kỳ hiện tại.

Trang 30

e Đầu ra: trạng thái cảnh báo bào gồm normal (bình thường), warning

(cảnh báo), dismissal (buộc thôi học).

1.2.2 Bài toán 2: Cảnh báo lần 2 - Cảnh báo trước khi thi cuối kỳ

Thông tin chỉ tiết về đầu vào và đầu ra của cảnh báo lần 2 như sau:

e Đầu vào: giá tri GPA của các học kỳ trước, các giá trị và trọng số của

các điểm thành phần trong học ky hiện tai và điểm trung bình môn họcđược xem là môn học trước cua học ky hiện tai.

e Đầu ra: trạng thái cảnh báo bào gồm normal(bình thường), warning

(cảnh báo), dismissal (buộc thôi học).

1.3 Tính ứng dụng của đề tài

Xử lý học vụ gây ra nhiều ảnh hưởng tiêu cực đến sinh viên lẫn các trường đạihọc cũng như chất lượng giáo dục tại Việt Nam nói chung Tình trạng này diễn

ra do yếu tố chính xuất phát từ nhận thức về học tập của sinh viên Chính vì

vậy một hệ thống cảnh báo về khả năng bị xử lý học vụ dành cho sinh viên tại

mỗi trường đại học là vô cùng cần thiết Chúng tôi sử dụng sự tiên tiến của

khoa học dé đưa đến cho sinh viên những lời nhắc nhở một cách tự động, kịpthời từ chính kết quả học tập của họ trong quá khứ Bên cạnh đó, nghiên cứu

của chúng tôi được xây dựng trên dữ liệu mà bất kỳ trường đại học nào cũng

có trong cơ sở dữ liệu của minh cũng như sử dụng quy chế xử lý học vụ phổ

biến tại Việt Nam Điều này cho phép hệ thống của chúng tôi dễ dàng triểnkhai cho bat kỳ trường dai học nào, giúp giảm thiểu sự gia tăng về số lượngsinh viên bị xử lý học vụ tại các trường đại học, từ đó thiết lập một môi trườnghọc tập tích cực cho sinh viên Việt Nam nói riêng và sinh viên trên toàn thế

giới nói chung.

10

Trang 31

Chương2 CÔNG TRÌNH LIÊN QUAN

Đưa ra cảnh báo về hiệu suất học tập là một giải pháp tuyệt vời giúp các sinh viêntránh khỏi tình trạng bị xử lý học vụ vào cuối học kỳ Đồng thời, các trường đại học

cũng có thể dựa vào kết qua dự đoán dé đưa ra các chiến lược phủ hop, kịp thời, hỗ

trợ sinh viên cải thiện kết quả học tập của họ hoặc ngăn chặn việc tốt nghiệp bị trìhoãn Do đó, ngày càng có nhiều học giả nhận ra tiềm năng xã hội to lớn của dữ liệu

giáo dục và tiến hành nghiên cứu trong lĩnh vực này

Đầu tiên không thê không nhắc đến công trình nghiên cứu của Huang Fang cùng các

cộng sự [1] vào năm 2013, đây là công trình nghiên cứu đầu tiên trong lĩnh vực này

Nghiên cứu của họ sử dụng bốn loại mô hình toán học khác nhau gồm mô hình hồiquy đa biến, mô hình Multi-layer Perceptron, mô hình mạng no ron RBF (radial basisfunction) và Support Vector Machine đề dự đoán điểm trung bình cuối kỳ của sinhviên trong lớp học về kỹ thuật động lực học Bài toán sử dụng các yếu tố về điểmtrung bình (GPA), kết quả từ bốn khóa học tiên quyết (tĩnh học, giải tích I, giải tích

II, vật lý) va ba bài kiểm tra động lực học giữa kỳ (các bài kiểm tra sinh viên đã thựchiện trước khi thi cuối kỳ) Với hơn 2,907 điểm dữ liệu được thu thập từ 323 sinhviên chưa tốt nghiệp trong bốn học kỳ, nghiên cứu này đã phát trién 24 mô hình toán

học dự đoán, dẫn đến nhiều phát hiện mới và quan trọng Kết quả nghiên cứu thu

được tốt nhất với mô hình Support Vector Machine cùng đầu vao là 6 thuộc tính đầu

Tiếp đến vào năm 2018, Migueis và các cộng sự [2] cũng thực hiện một nghiên cứu

thuộc dé tài này Dữ liệu được thu thập từ 2,459 sinh viên theo học từ năm 2003 đếnnăm 2015 của một trường công lập tại Châu Âu Họ đã tiến hành xây dựng mô hình

dự đoán hiệu suất học tập của sinh viên với các thuật toán Máy học như Random

Forest, Decision Tree, Support Vector Machine, Naive Bayes, bagged trees and

boosted trees Cuối cùng, mô hình do tác gia đề xuất là Random Forest, với độ chính

xác đạt trên 95.00% ở giai đoạn đầu của học kỳ Các nghiên cứu trước đây chứng

minh rằng điểm trung bình ở học kỳ trước có tác động đến kết quả học tập của sinh

viên trong học kỳ tiếp theo

11

Trang 32

Vào năm 2021, Zhai Mingyu và cộng sự [3] đã sử dụng nhóm các tính năng liên quan

đến việc học tap, sinh hoạt, hoạt động internet va thông tin cơ bản của sinh viên từnăm 2018 đến năm 2020 dé dự đoán về khủng hoảng học tập Dé thu được những môhình có hiệu suất tốt nhất, họ đã dành hơn 80% thời gian nghiên cứu cho việc xử lý

dữ liệu gồm tổng hop dữ liệu từ nhiều nguồn, xử lý dữ liệu thiếu, xử lý dữ liệu dưthừa và chuyền đôi dữ liệu Bên cạnh đó, họ còn ap dụng phương pháp lựa chọn đặctrưng được hỗ trợ từ Random Forest dé loại bỏ các tính năng không cần thiết và kết

quả thu được là hầu hết các thuộc tính được xem là quan trọng đều có liên quan tớikết quả học tập Tiếp đó, các mô hình dự đoán được xây dựng từ nhiều thuật toán học

máy như Logistic Regression , Decision Tree, Support Vector Machine, Random Forest, Gradient Boosting Decision Tree, Extreme Gradient Boosting (XGBoost),

LightGBM, Và kết quả thu được tốt nhất là phương pháp Catboost — SHAP với

Mean Squared Error (MSE), Mean Absolute Error (MAE) và R-Squared (R2) tương ứng là 24.98, 3.55 và 80.30% trong 10 fold cross-validation Các phát hiện của nghiên

cứu không chi đề xuất phương pháp dé phát hiện những sinh viên có van đề với điểmkém mà còn đưa ra các phân tích về các yếu tố cụ thé tac động đến kết quả học tập

của sinh viên Ngoài việc thử nghiệm các phương pháp khác nhau dé dự đoán điểm

của sinh viên, Bujang và cộng sự [4] đã giải quyết các thách thức về dữ liệu khôngcân bang dé cải thiện hiệu suất tốt hơn Họ đã sử dụng Kỹ thuật Synthetic MinorityOversampling Technique (SMOTE) dé giải quyết van dé này Kết qua đáng ngạcnhiên là Random Forest cùng phương pháp lựa chon đặc trưng đã cho chỉ số F-scorecao nhất là 99.50% Nghiên cứu đã chứng minh khả năng sử dụng các thuật toán phânloại để giải quyết vấn đề cảnh báo hiệu suất học tập, trong đó Random Forest và

Support Vector Machine đã cho thấy khả năng vượt trội của chúng trong lĩnh vực

Trang 33

Gradient Boosting, Extreme Gradient Boosting, LightGBM, CatBoost để tìm ra thuật

toán hiệu quả nhất với bài toán này Ngoài ra, nhóm tác giả còn tiến hành áp dụng

thêm kỹ thuật chọn đặc trưng nhằm mục tiêu cải thiện hiệu suất mô hình và tốc độ học Kết quả nghiên cứu cho thay LightGBM là mô hình hiệu quả nhất trong tat cả

các thuật toán thử nghiệm với độ chính xác trung bình đạt 89.26%, với 14 đặc trưng

được lựa chọn thông qua kỹ thuật chọn đặc trưng, các đặc trưng đó liên quan chủ yếu

đến hành vi học tập, điểm số của sinh viên.

Từ những công trình nghiên cứu trên, ta có thể nhận định rằng các nghiên cứu về cảnh báo hiệu suất học tập cho sinh viên không còn hiếm gặp trên thế giới Tuy nhiên,

lĩnh vực này lại khá mới mẻ tại Việt Nam Nhận thấy được tiềm năng và những giá

trị xã hội ma các nghiên cứu thuộc dé tài này mang lại, chúng tôi đã thực hiện khóa luận này với nguồn dữ liệu được thu thập tại Việt Nam với mong muốn cải thiện được phần nào sự gia tăng về số lượng sinh viên bị xử lý học vụ.

13

Trang 34

Chương 3 BỘ DU LIEU

3.1 Quy trình xây dựng

Ở nghiên cứu này, chúng tôi tập trung khai thác kết quả học tập của sinh viên dé

có thê đưa ra dự đoán về trạng thái xử lý học vụ phù hợp Kết quả học tập là yếu

tố phản ánh trực quan và rõ ràng nhất tình hình học tập của sinh viên, đồng thời

nó cũng đóng vai trò quan trọng trong quá trình ra quyết định cảnh báo học tậpcủa nhà trường Tuy nhiên, vì đữ liệu thô về điểm của sinh viên chứa nhiều thuộctính liên quan đến nhiều khía cạnh khác nhau, một số trong chúng có những đặc

điểm tương đồng, do đó chúng tôi quyết định chuyên đổi dit liệu thô đó thành bộ

dữ liệu mới và tổng quát hơn

Đề có thể xây dựng một hệ thống dễ dàng áp dụng với các trường đại học của Việt

Nam, chúng tôi quyết định dựa trên những quy chuẩn của hệ thống giáo dục ViệtNam Thông thường, một năm học được chia thành hai học kỳ Sinh viên sẽ đăng

ký các môn học của học kỳ trước khi học kỳ bắt đầu Với mỗi môn học, chúng tacần quan tâm đến bốn loại điểm, gọi chúng là điểm thành phần: điểm quá trình,điểm giữa kỳ, điểm thực hành và diém thi cuối kỳ Mỗi điểm thành phan sẽ đượcquy định hệ số riêng và tông hệ số của bốn loại diém bằng 1 Điểm trung bình củamỗi môn học được tinh bằng tổng các điểm thành phan nhân với hệ số của chúng.Trong các điểm thành phần, vì điểm giữa kỳ và cuối kỳ chiếm tỉ trọng cao nênchúng có vai trò quyết định phần lớn điểm trung bình của môn học Cuối cùng,điểm trung bình của học kỳ sẽ được tính dựa trên điểm trung bình của tất cả các

môn học mà sinh viên hoàn thành trong học kỳ, với công thức:

1 subGPA, subCredit;

semGPA =

-3¡ subCredit;

14

Trang 35

Trong đó:

e semGPA: điểm trung bình học kỳ.

en: số môn sinh viên học trong học kỳ.

e subGPA(): điểm trung bình của môn học thứ i trong học ky.

e subCredit(): số tín chỉ của môn học thứ i trong học kỳ

Điểm trung bình chúng tôi sử dụng trong nghiên cứu này là GPA trên thang điểm

10, cụ thể như sau: 9.00 10.00 (A+), 8.00 9.00 (A), 7.00 8.00 (B+), 6.00

-7.00 (B), 5.00 - 6.00 (C), 4.00 - 5.00 (D+), 3.00 - 4.00 (D), < 3.00 (F).

Dữ liệu đóng vai trò quyết định khi xây dựng hệ thống cảnh báo, vì vậy chúng tôicần đảm bảo chất lượng dữ liệu đồng thời dữ liệu được tạo ra phải tuân thủ theocác quy định về cảnh báo học vụ Quá trình tạo bộ dữ liệu của chúng tôi trải qua

3 giai đoạn gồm có: Tính toán các thuộc tính cần thiết, gán nhãn dữ liệu, đánh giá

và rà soát lại bộ dữ liệu.

3.1.1 Tính toán các thuộc tính cần thiết

Từ cơ sở dữ liệu thô được cung cấp bởi một trường đại học uy tín tại ViệtNam, chúng tôi đã thực hiện xây dựng nên một bộ dữ liệu mới dé phuc vu choquá trình nghiên cứu Co sở dit liệu thô này bao gồm các thông tin chi tiết về

môn học (tên môn học, mã môn học, số tín chỉ, hệ số các điểm thành phần, các môn học trước, môn tiên quyết, ), thông tin về kết quả học tập của sinh viên

(mã định danh của sinh viên sau khi mã hóa, tên môn học, điểm số đạt được, ).Chúng tôi thực hiện các thao tác xử lý và trích xuất ra các thuộc tính mới thực

sự hữu ich cho việc dự đoán trang thái cảnh báo học vụ của sinh viên Cu thể

bộ dữ liệu mới sẽ gôm các nhóm thuộc tính được tính toán như sau:

Thuộc tính pre_avg: Điêm trung bình của tât cả các môn học được coi là điêm trung bình của môn học trước của môn học mà sinh viên đã đăng ký trong học kỳ hiện tại.

15

Trang 36

Nhóm 1: Danh sách các thuộc tính điểm trung bình của mỗi học kỳ mà sinhviên đã hoàn thành (vi dụ: sinh viên A đã hoàn thành 6 học kỳ, thì A có 6

thuộc tính thuộc Nhóm | là s1, s2, s3, s4, s5, s6)

1 SCOT@m,¡.Creditmi

s(m) =(m) Ni credit;

Nhóm 2: Mỗi môn học có các điểm thành phan tương ứng Trước khi thi

cuối kỳ, sinh viên đã được biết điểm quá trình, điểm thực hành và điểm giữa

kỳ Nhóm 2 bao gồm điểm trung bình quá trình (avg1), điểm trung bình thựchành (avg2) và điểm trung bình điểm giữa kỳ (avg3) của tất cả các môn học

trong học kỳ hiện tại.

1 score(j)„¡.coeƒ()y¡.credit,¡

avg (i) = Vi credit, ;

Nhóm 3: Mỗi điểm thành phan đều có hệ số tương ứng Nhóm 3 bao gồm hệ

số trung bình của điểm quá trình (coef1), hệ số trung bình của điểm thực hành

(coef2) và hệ số trung bình của điểm giữa kỳ (coef3) của tất cả các môn học

trong học kỳ hiện tại.

1 coeƒQ)p„¡.credit, ¡

Ni credit, j

coef(j) =

Trong đó:

e p: là cho học kỳ hiện tại của sinh viên.

e mm: là học ky thứ m sinh viên đã học trước đó.

e_n: là số môn học liên quan đến học kỳ đang xét.

® scorem¿: là điểm trung bình của môn học i trong học ky thứ m.

® creditn;: là sô tín chỉ của môn học 1 trong hoc kỳ thứ m.

16

Trang 37

Trong đó: j = 1: điểm quá trình; j = 2: điểm thực hành; j = 3: điểm

giữa kỳ.

® crcditp¡: là số tín chỉ của môn học i trong học kỳ hiện tại.

3.1.2 Gán nhãn dữ liệu

Việc xử lý học vụ dựa trên kết quả học tập tại Việt Nam tuân theo những quy

định được Bộ Giáo dục và Dao tạo ban hành Tuy nhiên, với mỗi trường đại

học khác nhau lại có các tiêu chuẩn và quy định khác nhau như sự khác nhau

về thang điểm, về hình thức xử lý học vụ, Do đó, dé dam bảo khả năng ứng

dụng của nghiên cứu, chúng tôi đã lựa chọn một bộ các quy định phô biến nhất

dé sử dụng cho nghiên cứu nay Cụ thé, chúng tôi gan nhãn dựa vào các điềukiện được quy định trong Bảng 3.1.

Điều kiện Trạng thái Nhãn

Không hoàn thành nghĩa vụ học phí đúng

Bi cảnh báo học vu lân thứ hai liên tiép ; 2

(Buộc thôi hoc)

và vân tái phạm

Bị đình chỉ học tập lần thứ hai

17

Trang 38

Hết thời gian tối đa hoàn thành khóa học

Vi phạm kỷ luật nghiêm trọng hoặc vi phạm pháp luật bị xử phạt tù giam

Normal Các trường hợp con lại 0

(Bình thường)

Bang 3.1 Điều kiện gán nhãn dựa trên chính sách giáo dục đại học

Bang 3.1 thé hiện tat cả các điều kiện được dùng để xác định trạng thái xử lý

học vụ của sinh viên về các mặt như kết quả học tập, đạo đức, kỷ luật, Các

điều kiện được in đậm là những điều kiện bị ảnh hưởng trực tiếp bởi kết quahọc tập của sinh viên và các điều kiện còn lại có thé dé dàng xác định màkhông cần sự trợ giúp của mô hình Chính vì vậy, chúng tôi tập trung vào việc

phân loại sinh viên dựa trên những điều kiện được in đậm, bộ dữ liệu theo đó

sẽ được gán nhãn dựa trên điều kiện thuộc dong 1, 2, 3 của Bảng 3.1

3.1.3 Đánh giá và rà soát lại bộ dữ liệu

Trong giai đoạn này chúng tôi tiến hành rà soát lại dit liệu, loại bỏ những

trường hợp đữ liệu trống Ngoài ra, vì số lượng học kỳ mà sinh viên tham gia

học là khác nhau, chúng tôi tiền hành chia thành các bộ dit liệu nhỏ tương ứngvới sé lượng học kỳ sinh viên đã học (đã loại bỏ những bộ quá ít dữ liệu, íthon 200 điểm dữ liệu) Việc thực nghiệm được thực hiện hoàn toàn trên các

bộ dữ liệu mới được tong hop từ nhóm các thuộc tính được tinh toán ở giai

đoạn 1.

3.2 Tăng cường dữ liệu

Sau khi chuyền đổi dit liệu từ thông tin của 4,383 sinh viên theo quy trình ở Phan

3.1 Bởi vì mỗi sinh viên có số lượng các học kỳ đã hoàn thành khác nhau, chúngtôi đã nhóm các sinh viên có cùng sô lượng học kỳ vào các bộ dữ liệu nhỏ phùhợp và tiến hành huấn luyện mô hình theo từng bộ dữ liệu nhỏ Tuy nhiên, dé có

18

Trang 39

thêm dữ liệu cho quá trình huấn luyện và cải thiện hiệu suất mô hình, chúng tôi

đã tăng cường dữ liệu theo cách tiếp cận được hiển thị trong Hình 3.1 Từ danh

sách điểm trung bình các học kỳ đã hoàn thành của từng sinh viên, chúng tôi chiathành các nhóm điểm trung bình liền nhau Mỗi nhóm được thêm vào bộ đữ liệunhỏ tương ứng (ví dụ: sinh viên A đã hoàn thành bốn học kỳ, chúng tôi chia danhsách điểm trung bình của sinh viên A thành ba nhóm: hai điểm trung bình liền kề,

ba điểm trung bình liền kề, bốn điểm trung bình liền kề)

Ñ Ñ ú thêm vàn / aN

L a học ky 2 | | hoc ky 3 | học kỹ 4 | gus

Hình 3.1 Phương pháp tăng cường dữ liệu.

Sau quá trình xây dựng và tăng cường, một nhóm các bộ dữ liệu đã được xây dựng

dé sử dụng cho việc đào tạo các mô hình cảnh báo vào đầu học kỳ và trước kỳ thicuối kỳ Nhóm dữ liệu bao gồm 9 bộ dữ liệu nhỏ riêng lẻ có tên ở dạng df(i) với

i € [2,10] Chỉ số i đại diện cho thứ tự của hoc kỳ hiện tại mà sinh viên đang học.Mỗi bộ dữ liệu nhỏ được sử dụng dé đào tạo và dự đoán trạng thái cảnh báo củasinh viên với số lượng đầu vào khác nhau (ví dụ: df2 được sử dụng dé dao tao va

dự đoán trang thái của sinh viên đã hoàn thành hoc ky dau tiên và đang trong học

kỳ thứ hai, ngược lại df3 dùng để đào tạo và dự đoán tình trạng của sinh viên đã

học hết học kỳ thứ 2 và đang học học kỳ thứ 3) Nhóm dữ liệu được thống kê và

mô tả cụ thê ở Bảng 3.2 và 3.3

19

Trang 40

label 0 label 1 label 2 total

train 23,588 1,981 22 25,591

df2 val 2,948 248 3 3,199

test 2,949 248 2 3,199 train 18,389 1,475 21 19,885 df3 val 2,299 184 3 2,486

test 2,299 185 3 2,487 train 14,329 1,189 18 15,536

df4 val 1,791 149 2 1,942

test 1,792 149 2 1,943 train 10,452 976 14 11,442 df5 val 1,306 122 2 1,430

test 1,307 122 2 1,431 train 7,654 754 12 8,420

df6 val 956 94 2 1,052

test 957 95 1 1,053 train 4,965 554 11 5,530

df7 val 620 69 2 691

test 621 70 1 692 train 3,021 417 9 3,447

test 42 20 1 63

Bảng 3.2 Thống kê số lượng của từng trạng thai học vụ trên từng học

kỳ.

20

Tiêu đề	Nghiên cứu hệ thống cảnh báo hiệu suất học tập tại một trường đại học
Tác giả	Trần Thị Mỹ Linh, Dương Thị Hồng Hạnh
Người hướng dẫn	ThS. Nguyễn Văn Kiệt
Trường học	Trường Đại học Công nghệ Thông tin
Chuyên ngành	Khoa học dữ liệu
Thể loại	Khóa luận tốt nghiệp
Năm xuất bản	2022
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	117
Dung lượng	74,26 MB