Trong lĩnh vực giáo dục, vai trò của khoa học dữ liệu là không thể phủ nhận khi qua quá trình phổ cập công nghệ, chúng ta biết cách tận dụng dữ liệu để phân tích và hiểu rõ các yếu tố ản
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC KINH TẾ TP HỒ CHÍ MINH
BÀI TIỂU LUẬN KẾT THÚC HỌC PHẦN MÔN: KHOA HỌC DỮ LIỆU
ĐỀ TÀI: DỰ ĐOÁN KẾT QUẢ HỌC TẬP CỦA SINH VIÊN
Giảng viên hướng dẫn: Võ Văn Hải
Nhóm 2:
1 Nguyễn Ngọc Hà_ 31231027724
2 Lê Nguyễn_ 31231023538
3 Nguyễn Trần Thành Đạt_31231026128
TP Hồ Chí Minh, ngày 30 tháng 09 năm 2024
Trang 3Mục lục
1 Giới thiệu đề tài: 2
1.1 Giới thiệu sơ lược đề tài: 2
1.2 Mục đích nghiên cứu: 2
2 Thu thập dữ liệu: 2
2.1 Mô tả tổng quát dữ liệu: 2
2.2 Các thuộc tính của bộ dữ liệu: 2
2.3 Tiền xử lý bộ dữ liệu: 4
2.3.1 Làm sạch dữ liệu: Dữ liệu gốc tốt, không có giá trị nào bị thiếu: 4
2.3.2 Loại bỏ biến không ảnh hưởng: 5
3 Kiểm định và đánh giá các mô hình: 6
3.1 Thực hiện các loại mô hình dự đoán: 6
3.2 Đánh giá các mô hình: 7
4 Lựa chọn mô hình và bài toán dự báo: 9
4.1 Lựa chọn mô hình: 10
4.3 Đọc bảng kết quả: 10
4.4 Giải pháp: 12
5 Ý nghĩa 13
6 Đánh giá và nhận xét quá trình thực hiện dự án. 13
6.1 Đánh giá đóng góp của thành viên tham gia dự án 13
6.2 Đánh giá hoàn thành công việc 14
Trang 41 Giới thiệu đề tài:
1.1 Giới thiệu sơ lược đề tài:
Khoa học dữ liệu đang dần trở thành công cụ hữu hiệu trong việc giải mã mối liên hệ giữa thông tin và tri thức Công cụ này giúp con người khám phá thế giới, qua đó có thể tối ưu hiệu suất cho các hoạt động trong cuộc sống chúng ta Trong lĩnh vực giáo dục, vai trò của khoa học dữ liệu là không thể phủ nhận khi qua quá trình phổ cập công nghệ, chúng ta biết cách tận dụng dữ liệu để phân tích và hiểu rõ các yếu tố ảnh hưởng đến kết quả học tập của sinh viên trong vấn đề nâng cao chất lượng giáo dục Với bộ dữ liệu “student performance data”, thông qua các thông tin quan trọng như độ tuổi, giới tính, dân tộc, chuyên cần, hỗ trợ từ gia đình, và hoạt động ngoại khóa của bộ dữ liệu Chúng tôi thực hiện đề tài nghiên cứu “Phân loại sinh viên và đánh giá các yếu tố ảnh hưởng đến kết quả học tập của sinh viên”, chủ yếu tập trung vào việc khai thác và phân tích các yếu tố trên để làm sáng tỏ những mối quan hệ phức tạp giữa chúng, nhằm đưa ra những lời khuyên tốt nhất cho bản thân và các bạn học trong quá trình học tập và rèn luyện tri thức
1.2 Mục đích nghiên cứu:
Mục tiêu chính của nhóm là áp dụng khoa học dữ liệu để phân tích sự tương quan phụ thuộc giữa các đối tượng là những yếu tố như sự hỗ trợ từ gia đình, thời gian học tập hay sự ảnh hưởng bởi việc tham gia các hoạt động ngoại khóa đến điểm GPA và thứ hạng của sinh viên Qua dự án này, nhóm hy vọng làm sáng tỏ được những sự liên kết và phụ thuộc giữa các yếu tố, từ đó đưa ra những khuyến nghị có cơ sở cho vấn đề giáo dục Chúng em tin với những nỗ lực của mình không chỉ giúp tối ưu hóa môi trường học tập mà còn hỗ trợ việc phát triển toàn diện cho sinh viên, giúp họ khai thác tối đa tiềm năng của mình Việc khai thác và phân tích dữ liệu không chỉ đơn thuần là việc thu thập và xử lý thông tin, mà còn là hành trình tích cực khai sáng những tri thức hữu ích mới cho giáo dục nói riêng và sự phát triển toàn xã hội nói chung Đây sẽ là nền tảng vững chắc cho thế hệ mầm non tương lai và tạo ra một môi trường học tập không chỉ hiệu quả mà còn bền vững
2 Thu thập dữ liệu:
2.1 Mô tả tổng quát dữ liệu:
Bộ dữ liệu Student Performance Data được nhóm thu thập từ GitHub Basic Dataset với 15 cột tương ứng 15 biến độc lập (bao gồm: Student ID, Age, Gender, Ethnicity, Parental Education, Study Time Weekly, Absences, Tutoring, Parental, Support Extracurricular, Sports, Music, Volunteer, GPA, Ranking) và 2392 dòng tương ứng 2392 đối tượng quan sát
2.2 Các thuộc tính của bộ dữ liệu:
Trang 5Tên biến Loại
biến
Ý nghĩa Các giá trị của biến
Student ID Định
lượng
Xác định và giúp dễ dàng theo dõi
dữ liệu cá nhân của sinh viên
lượng
Biến có khả năng không liên quan vì
độ tuổi đều là thanh thiếu niên do đó nhận thức là ngang nhau
lượng
Giới tính không ảnh hưởng đến xếp loại
0: Nam 1: Nữ Ethnicity Định
lượng
Dân tộc không ảnh hưởng đến xếp loại
0: Caucasian 1: African American 2: Asian
3: Other Parental Education Định
lượng
Trình độ học vấn mà cha mẹ của một đứa trẻ, thường ảnh hưởng đến với sự thành công trong học tập của con cái
0: None 1: High School 2: Some College 3: Bachelor's 4: Higher Study Time Weekly Định
lượng
Thời gian học tập hằng ngày đánh giá lịch trình học tập và mức độ tập trung của sinh viên
Absences Định
lượng
Số lượng số buổi vắng mặt của sinh viên, sinh viên Việc vắng mặt có thể ảnh hưởng đến kết quả học tập
Tutoring Định
lượng
Việc dạy kèm nhằm giúp sinh viên, sinh viên theo kịp bài giảng trên lớp hoặc hiểu sâu hơn và nâng cao kiến thức, kỹ năng
0: No 1: Yes
Parental Support Định Sự hỗ trợ và giúp đỡ của cha mẹ 0: None
Trang 6lượng góp phần thành công trong quá trình
phát triển và học tập của cha mẹ 1: Low
2: Moderate 3: High 4: Very High Extracurricular Định
lượng
Các hoạt động ngoại khoá giúp học thêm kỹ năng mềm và thấu hiểu bản thân
0: No 1: Yes
lượng
Thể thao giúp rèn luyện sức khoẻ và các kỹ năng như: kỹ năng lãnh đạo,
kỹ năng làm việc nhóm
0: No 1: Yes
lượng
Âm nhạc không chỉ để thư giãn mà còn mang lại sự sáng tạo và nâng cao sự tập trung
0: No 1: Yes
Volunteer Định
lượng
Làm tình nguyện không chỉ đem lại
sự giúp đỡ cho người khác mà còn
mở rộng mối quan hệ và góp phần
có ích cho cộng đồng
0: No 1: Yes
lượng
Điểm số giúp đánh giá hiệu suất và khả năng học tập, tạo áp lực giúp sinh viên ngày càng tiến bộ hơn
tính
Xếp hạng có thể ảnh hưởng đến cơ hội học tập nâng cao hơn
Fail/Pass
2.3 Tiền xử lý bộ dữ liệu:
2.3.1 Làm sạch dữ liệu: Dữ liệu gốc tốt, không có giá trị nào bị thiếu:
Trang 72.3.2 Loại bỏ biến không ảnh hưởng:
Nhóm quyết định loại bỏ biến Student ID, Age, Gender, Ethnicity, ParentalEducation do chúng không ảnh hưởng đến vấn đề xếp loại học tập của sinh viên
Trang 8Từ bộ dữ liệu gốc gồm 2392 mẫu, nhóm thực hiện chọn ngẫu nhiên 500 mẫu để tạo thành bộ
dữ liệu dùng để kiểm thử và thực hiện dự đoán mô hình phân lớp
3 Kiểm định và đánh giá các mô hình:
3.1 Thực hiện các loại mô hình dự đoán:
Để tiến hành phân lớp dữ liệu, nhóm đã sử dụng 4 phương pháp: SVM, Neural Network, Logistic Regression, Tree
Trang 93.2 Đánh giá các mô hình:
Sử dụng công cụ Test and Score và để đánh giá 4 mô hình đã sử dụng:
Trong đó:
• AUC: Giá trị này là một số dương nhỏ hơn hoặc bằng 1 Giá trị này càng lớn thì mô hình càng tốt
• CA: Giá trị này cho biết tỷ lệ số mẫu được phân lớp đúng trong toàn bộ tập dữ liệu
• F1: giá trị trung bình điều hòa (harmonic mean) của hai độ đo Precision và Recall
• Precision (độ chính xác): giá trị này cho biết trong số m mẫu được phân vào lớp i thì
có tỷ lệ bao nhiêu mẫu có đúng
• Recall: còn gọi là độ phủ hay độ nhạy (sensitivity) hay TPR (True Positive Rate) Tuy nhiên, đây không phải là phương thức tốt nhất để đánh giá đâu là mô hình tốt nhất Để đánh giá mô hình nào là tốt nhất để phân lớp dữ liệu, ta dùng Confusion Matrix (Ma trận nhầm lẫn)
Trang 10Ma trận nhầm lẫn của mô hình Neural Network
• Tỷ lệ mô hình dự đoán đúng sinh viên rớt môn là 92.2%
• Tỷ lệ mô hình dự đoán sai sinh viên rớt môn là 12.3%
• Tỷ lệ mô hình dự đoán sai sinh viên qua môn là 7.8%
• Tỷ lệ mô hình dự đoán đúng sinh viên qua môn là 87.7%
Ma trận nhầm lẫn của mô hình SVM:
• Tỷ lệ mô hình dự đoán đúng sinh viên rớt môn là 91.2%
• Tỷ lệ mô hình dự đoán sai sinh viên rớt môn là 10.2%
• Tỷ lệ mô hình dự đoán sai sinh viên qua môn là 8.8%
• Tỷ lệ mô hình dự đoán đúng sinh viên qua môn là 89.8%
Trang 11Ma trận nhầm lẫn của mô hình Logistic Regression:
• Tỷ lệ mô hình dự đoán đúng sinh viên rớt môn là 92.7%
• Tỷ lệ mô hình dự đoán sai sinh viên rớt môn là 12.1%
• Tỷ lệ mô hình dự đoán sai sinh viên qua môn là 7.3%
• Tỷ lệ mô hình dự đoán đúng sinh viên qua môn là 87.9%
Ma trận nhầm lẫn của mô hình Tree:
• Tỷ lệ mô hình dự đoán đúng sinh viên rớt môn là 95.1%
• Tỷ lệ mô hình dự đoán sai sinh viên rớt môn là 6.4%
• Tỷ lệ mô hình dự đoán sai sinh viên qua môn là 4.9%
• Tỷ lệ mô hình dự đoán đúng sinh viên qua môn là 93.6%
4 Lựa chọn mô hình và bài toán dự báo:
4.1 Lựa chọn mô hình:
Trang 12Mô hình Tree có tổng sai lầm loại 1 và loại 2 nhỏ nhất nên nhóm chọn mô hình Tree Sử dụng
bộ dữ liệu gồm 50 mẫu để tiến hành dự đoán phân lớp
4.2 Kết quả dự báo:
Sử dụng mô hình Tree và công cụ Predictions để dự báo 50 mẫu thử nghiệm cho ra kết quả cuối cùng
4.3 Đọc bảng kết quả:
Nhóm 1: Sinh viên xuất sắc
Đặc điểm:
GPA: Trên 3.0
Thời gian học tập: Trên 10 giờ mỗi tuần
Số ngày nghỉ học: Dưới 10 ngày
Sự hỗ trợ từ phụ huynh: Có
Kết quả học tập: Pass
Nhóm 2: Sinh viên trung bình nhưng nỗ lực
Đặc điểm:
Trang 13 GPA: 2.0 - 3.0
Thời gian học tập: Trên 10 giờ mỗi tuần
Số ngày nghỉ học: Dưới 20 ngày
Sự hỗ trợ từ phụ huynh: Có hoặc không
Kết quả học tập: Pass
Nhóm 3: Sinh viên có nguy cơ thất bại nhưng có hỗ trợ
Đặc điểm:
GPA: Dưới 2.0
Thời gian học tập: Trên 10 giờ mỗi tuần
Số ngày nghỉ học: Dưới 15 ngày
Sự hỗ trợ từ phụ huynh: Có
Kết quả học tập: Fail
Nhóm 4: Sinh viên ít nỗ lực, nguy cơ cao
Đặc điểm:
GPA: Dưới 2.0
Thời gian học tập: Dưới 10 giờ mỗi tuần
Số ngày nghỉ học: Trên 20 ngày
Sự hỗ trợ từ phụ huynh: Không có
Kết quả học tập: Fail
Nhóm 5: Sinh viên khá nhưng thiếu sự hỗ trợ
Đặc điểm:
GPA: 2.5 - 3.0
Thời gian học tập: Trên 10 giờ mỗi tuần
Số ngày nghỉ học: Dưới 15 ngày
Sự hỗ trợ từ phụ huynh: Không có
Kết quả học tập: Pass
Nhóm 6: Sinh viên chăm chỉ nhưng GPA thấp
Đặc điểm:
GPA: Dưới 2.5
Thời gian học tập: Trên 15 giờ mỗi tuần
Số ngày nghỉ học: Dưới 10 ngày
Sự hỗ trợ từ phụ huynh: Có hoặc không
Kết quả học tập: Fail
Kết luận:
Trang 14Phân tích dữ liệu sinh viên cho thấy mối liên hệ chặt chẽ giữa GPA, thời gian học, sự hỗ trợ từ phụ huynh và tham gia hoạt động ngoại khóa Những sinh viên có GPA cao thường dành nhiều thời gian cho việc học tập và nhận được sự hỗ trợ tích cực từ gia đình Điều này chỉ ra rằng việc gia tăng thời gian học tập và sự hỗ trợ từ phụ huynh có thể cải thiện đáng kể kết quả học tập Đồng thời, sinh viên tích cực tham gia vào các hoạt động ngoại khóa cũng có
xu hướng đạt GPA cao hơn, nhờ vào việc phát triển các kỹ năng mềm và khả năng quản lý thời gian tốt hơn
Ngoài ra, đối với các nhóm sinh viên có GPA trung bình và thấp, việc cải thiện phương pháp học tập và quản lý thời gian là rất cần thiết Các trường đại học nên xem xét việc triển khai các chương trình hỗ trợ học tập, như gia sư và hoạt động học nhóm, để giúp sinh viên tối
ưu hóa hiệu quả học tập Đồng thời, khuyến khích sinh viên tham gia các hoạt động ngoại khóa sẽ không chỉ phát triển kỹ năng cá nhân mà còn có thể cải thiện kết quả học tập của họ Chính sách theo dõi và hỗ trợ sinh viên từ giáo viên và cố vấn học tập cũng rất quan trọng để can thiệp kịp thời, đảm bảo mỗi sinh viên có cơ hội tốt nhất để thành công trong học tập
4.4 Giải pháp:
Tăng cường Chương trình Hỗ trợ Học tập: Các trường đại học cần triển khai các chương trình gia sư và học nhóm, tạo điều kiện cho sinh viên gặp gỡ và chia sẻ kinh nghiệm học tập Các buổi hội thảo về kỹ năng học tập và quản lý thời gian cũng nên được tổ chức thường xuyên để giúp sinh viên trang bị những kỹ năng cần thiết Khuyến khích Tham gia Hoạt động Ngoại khóa: Cần tạo ra nhiều cơ hội cho sinh viên tham gia vào các hoạt động ngoại khóa như câu lạc bộ, thể thao, và tình nguyện Những hoạt động này không chỉ giúp sinh viên phát triển kỹ năng mềm mà còn tạo ra một môi trường học tập tích cực và gắn kết giữa các sinh viên
Đào tạo Giảng viên và Cố vấn Học tập: Đào tạo giảng viên và cố vấn học tập để họ có thể nhận biết và hỗ trợ những sinh viên có nguy cơ gặp khó khăn trong học tập Việc này bao gồm cách nhận diện sớm các vấn đề và tạo ra môi trường hỗ trợ cho sinh viên Tổ chức các Buổi Tư vấn và Định hướng: Các trường nên tổ chức các buổi tư vấn để giúp sinh viên hiểu rõ hơn về phương pháp học tập hiệu quả và cách quản lý thời gian Những buổi tư vấn này có thể được thực hiện theo nhóm hoặc cá nhân để đáp ứng nhu cầu của từng sinh viên
Khuyến khích Sự Tham gia của Phụ huynh: Cần có các chương trình khuyến khích sự tham gia của phụ huynh trong quá trình học tập của con cái họ Các buổi họp phụ
Trang 15huynh và các sự kiện trường học có thể giúp phụ huynh hiểu rõ hơn về môi trường học tập và cách họ có thể hỗ trợ con cái
Phát triển Nền tảng Công nghệ Học tập: Sử dụng các nền tảng công nghệ để cung cấp các tài nguyên học tập, video hướng dẫn, và các khóa học trực tuyến Điều này giúp sinh viên có thể học hỏi theo nhịp độ riêng của mình và tiếp cận thông tin dễ dàng hơn
5 Ý nghĩa
Kết quả học tập của sinh viên có ý nghĩa quan trọng trong việc dự đoán khả năng phát triển ở tương lai về nhiều khía cạnh của một quốc gia, bao gồm kinh tế, xã hội, văn hóa, bởi trẻ em
là mầm non của đất nước Các nhà giáo dục có thể dễ dàng thu thập dữ liệu về sinh viên thông qua nhiều phương tiện như khảo sát, sổ điểm, học bạ, và sử dụng dữ liệu để phân tích hành
vi và hoàn thành mô hình dự đoán giúp đưa ra các hành động cấp bách trong mục tiêu phát triển toàn diện con người Việt Nam Dự đoán sự tích cực hay tiêu cực của nền giáo dục tương lai là cần thiết để phát huy những chính sách đúng đắn hay là điều chỉnh các yếu tố không phù hợp Thống kê các yếu tố ảnh hưởng đến kết quả rèn luyện của sinh viên giúp:
Hiểu rõ trạng thái sinh viên từ đó điều chỉnh nội dung, phương pháp giảng dạy để phù hợp hơn với mục tiêu mong muốn của sinh viên
Xây dựng các chương trình hỗ trợ học tập, như dạy bổ túc, kèm thêm sinh viên khác biệt, hoặc tư vấn tâm lý cho những sinh viên gặp khó khăn
Đưa ra các quyết định chiến lược về công tác đào tạo và phát triển giáo dục theo mục tiêu của Đảng và nhà nước
Tạo động lực cho sinh viên tham gia tích cực vào các hoạt động ngoại khóa và học tập, mở ra tầm nhìn mới trong việc giáo dục, dạy học không chỉ là dạy kiến thức mà còn là dạy các kỹ năng cơ bản cần thiết
Thúc đẩy sự liên kết hỗ trợ giữa phụ huynh và nhà trường để hỗ trợ sinh viên tốt hơn Sớm nhận diện các dấu hiệu học tập không hiệu quả và can thiệp kịp thời
Phân bổ nguồn lực hiệu quả hơn, nhằm đáp ứng đúng đam mê và năng lực cá nhân của từng nhóm sinh viên
6 Đánh giá và nhận xét quá trình thực hiện dự án
1.1 Đánh giá đóng góp của thành viên tham gia dự án
Các giai đoạn dự án Thành viên thực hiện
Trang 161 Tìm dữ liệu Lê Nguyễn
Nguyễn Trần Thành Đạt
2 Chạy Orange Toàn bộ thành viên nhóm
3 Viết tiểu luận
Giới thiệu đề tài và thu thập dữ liệu Nguyễn Ngọc Hà
Kiểm định và đánh giá mô hình Nguyễn Trần Thành Đạt
Lựa chọn mô hình và bài toán dự báo Lê Nguyễn
Ý nghĩa và đánh giá quá trình dự án Nguyễn Ngọc Hà
1.2 Đánh giá hoàn thành công việc
Thành viên Đánh giá mức độ hoàn thành
Nguyễn Trần Thành Đạt 100%
Nguyễn Ngọc Hà 100%