1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Bài tiểu luận kết thúc học phần môn khoa học dữ liệu Đề tài dự Đoán kết quả học tập của sinh viên

16 14 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Dự Đoán Kết Quả Học Tập Của Sinh Viên
Tác giả Nguyễn Ngọc Hà, Lê Nguyễn, Nguyễn Trần Thành Đạt
Người hướng dẫn Võ Văn Hải
Trường học Đại Học Kinh Tế Tp. Hồ Chí Minh
Chuyên ngành Khoa Học Dữ Liệu
Thể loại tiểu luận
Năm xuất bản 2024
Thành phố Tp. Hồ Chí Minh
Định dạng
Số trang 16
Dung lượng 1,77 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Trong lĩnh vực giáo dục, vai trò của khoa học dữ liệu là không thể phủ nhận khi qua quá trình phổ cập công nghệ, chúng ta biết cách tận dụng dữ liệu để phân tích và hiểu rõ các yếu tố ản

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC KINH TẾ TP HỒ CHÍ MINH

BÀI TIỂU LUẬN KẾT THÚC HỌC PHẦN MÔN: KHOA HỌC DỮ LIỆU

ĐỀ TÀI: DỰ ĐOÁN KẾT QUẢ HỌC TẬP CỦA SINH VIÊN

Giảng viên hướng dẫn: Võ Văn Hải

Nhóm 2:

1 Nguyễn Ngọc Hà_ 31231027724

2 Lê Nguyễn_ 31231023538

3 Nguyễn Trần Thành Đạt_31231026128

TP Hồ Chí Minh, ngày 30 tháng 09 năm 2024

Trang 3

Mục lục

1 Giới thiệu đề tài: 2

1.1 Giới thiệu sơ lược đề tài: 2

1.2 Mục đích nghiên cứu: 2

2 Thu thập dữ liệu: 2

2.1 Mô tả tổng quát dữ liệu: 2

2.2 Các thuộc tính của bộ dữ liệu: 2

2.3 Tiền xử lý bộ dữ liệu: 4

2.3.1 Làm sạch dữ liệu: Dữ liệu gốc tốt, không có giá trị nào bị thiếu: 4

2.3.2 Loại bỏ biến không ảnh hưởng: 5

3 Kiểm định và đánh giá các mô hình: 6

3.1 Thực hiện các loại mô hình dự đoán: 6

3.2 Đánh giá các mô hình: 7

4 Lựa chọn mô hình và bài toán dự báo: 9

4.1 Lựa chọn mô hình: 10

4.3 Đọc bảng kết quả: 10

4.4 Giải pháp: 12

5 Ý nghĩa 13

6 Đánh giá và nhận xét quá trình thực hiện dự án. 13

6.1 Đánh giá đóng góp của thành viên tham gia dự án 13

6.2 Đánh giá hoàn thành công việc 14

Trang 4

1 Giới thiệu đề tài:

1.1 Giới thiệu sơ lược đề tài:

Khoa học dữ liệu đang dần trở thành công cụ hữu hiệu trong việc giải mã mối liên hệ giữa thông tin và tri thức Công cụ này giúp con người khám phá thế giới, qua đó có thể tối ưu hiệu suất cho các hoạt động trong cuộc sống chúng ta Trong lĩnh vực giáo dục, vai trò của khoa học dữ liệu là không thể phủ nhận khi qua quá trình phổ cập công nghệ, chúng ta biết cách tận dụng dữ liệu để phân tích và hiểu rõ các yếu tố ảnh hưởng đến kết quả học tập của sinh viên trong vấn đề nâng cao chất lượng giáo dục Với bộ dữ liệu “student performance data”, thông qua các thông tin quan trọng như độ tuổi, giới tính, dân tộc, chuyên cần, hỗ trợ từ gia đình, và hoạt động ngoại khóa của bộ dữ liệu Chúng tôi thực hiện đề tài nghiên cứu “Phân loại sinh viên và đánh giá các yếu tố ảnh hưởng đến kết quả học tập của sinh viên”, chủ yếu tập trung vào việc khai thác và phân tích các yếu tố trên để làm sáng tỏ những mối quan hệ phức tạp giữa chúng, nhằm đưa ra những lời khuyên tốt nhất cho bản thân và các bạn học trong quá trình học tập và rèn luyện tri thức

1.2 Mục đích nghiên cứu:

  Mục tiêu chính của nhóm là áp dụng khoa học dữ liệu để phân tích sự tương quan phụ thuộc giữa các đối tượng là những yếu tố như sự hỗ trợ từ gia đình, thời gian học tập hay sự  ảnh hưởng bởi việc tham gia các hoạt động ngoại khóa đến điểm GPA và thứ hạng của sinh viên Qua dự án này, nhóm hy vọng làm sáng tỏ được những sự liên kết và phụ thuộc giữa các yếu tố, từ đó đưa ra những khuyến nghị có cơ sở cho vấn đề giáo dục Chúng em tin với những nỗ lực của mình không chỉ giúp tối ưu hóa môi trường học tập mà còn hỗ trợ việc phát triển toàn diện cho sinh viên, giúp họ khai thác tối đa tiềm năng của mình Việc khai thác và phân tích dữ liệu không chỉ đơn thuần là việc thu thập và xử lý thông tin, mà còn là hành trình tích cực khai sáng những tri thức hữu ích mới cho giáo dục nói riêng và sự phát triển toàn xã hội nói chung Đây sẽ là nền tảng vững chắc cho thế hệ mầm non tương lai và tạo ra một môi trường học tập không chỉ hiệu quả mà còn bền vững

2 Thu thập dữ liệu:

2.1 Mô tả tổng quát dữ liệu:

  Bộ dữ liệu Student Performance Data được nhóm thu thập từ GitHub Basic Dataset với 15 cột tương ứng 15 biến độc lập (bao gồm: Student ID, Age, Gender, Ethnicity, Parental Education, Study Time Weekly, Absences, Tutoring, Parental, Support Extracurricular, Sports, Music, Volunteer, GPA, Ranking) và 2392 dòng tương ứng 2392 đối tượng quan sát

2.2 Các thuộc tính của bộ dữ liệu:

Trang 5

Tên biến Loại

biến

Ý nghĩa Các giá trị của biến

Student ID Định

lượng

Xác định và giúp dễ dàng theo dõi

dữ liệu cá nhân của sinh viên

lượng

Biến có khả năng không liên quan vì

độ tuổi đều là thanh thiếu niên do đó nhận thức là ngang nhau

lượng

Giới tính không ảnh hưởng đến xếp loại

0: Nam 1: Nữ  Ethnicity Định

lượng

Dân tộc không ảnh hưởng đến xếp loại

0: Caucasian 1: African American 2: Asian

3: Other Parental Education Định

lượng

Trình độ học vấn mà cha mẹ của một đứa trẻ, thường ảnh hưởng đến với sự thành công trong học tập của con cái

0: None 1: High School 2: Some College 3: Bachelor's 4: Higher Study Time Weekly Định

lượng

Thời gian học tập hằng ngày đánh giá lịch trình học tập và mức độ tập trung của sinh viên

Absences Định

lượng

Số lượng số buổi vắng mặt của sinh viên, sinh viên Việc vắng mặt có thể ảnh hưởng đến kết quả học tập

Tutoring Định

lượng

Việc dạy kèm nhằm giúp sinh viên, sinh viên theo kịp bài giảng trên lớp hoặc hiểu sâu hơn và nâng cao kiến thức, kỹ năng

0: No 1: Yes

Parental Support Định Sự hỗ trợ và giúp đỡ của cha mẹ 0: None

Trang 6

lượng góp phần thành công trong quá trình

phát triển và học tập của cha mẹ 1: Low

2: Moderate 3: High 4: Very High Extracurricular Định

lượng

Các hoạt động ngoại khoá giúp học thêm kỹ năng mềm và thấu hiểu bản thân

0: No 1: Yes

lượng

Thể thao giúp rèn luyện sức khoẻ và các kỹ năng như: kỹ năng lãnh đạo,

kỹ năng làm việc nhóm

0: No 1: Yes

lượng

Âm nhạc không chỉ để thư giãn mà còn mang lại sự sáng tạo và nâng cao sự tập trung

0: No 1: Yes

Volunteer Định

lượng

Làm tình nguyện không chỉ đem lại

sự giúp đỡ cho người khác mà còn

mở rộng mối quan hệ và góp phần

có ích cho cộng đồng

0: No 1: Yes

lượng

Điểm số giúp đánh giá hiệu suất và khả năng học tập, tạo áp lực giúp sinh viên ngày càng tiến bộ hơn

tính

Xếp hạng có thể ảnh hưởng đến cơ hội học tập nâng cao hơn

Fail/Pass

2.3 Tiền xử lý bộ dữ liệu:

2.3.1 Làm sạch dữ liệu: Dữ liệu gốc tốt, không có giá trị nào bị thiếu:

Trang 7

2.3.2 Loại bỏ biến không ảnh hưởng:

Nhóm quyết định loại bỏ biến Student ID, Age, Gender, Ethnicity, ParentalEducation do chúng không ảnh hưởng đến vấn đề xếp loại học tập của sinh viên

Trang 8

Từ bộ dữ liệu gốc gồm 2392 mẫu, nhóm thực hiện chọn ngẫu nhiên 500 mẫu để tạo thành bộ

dữ liệu dùng để kiểm thử và thực hiện dự đoán mô hình phân lớp

3 Kiểm định và đánh giá các mô hình:

3.1 Thực hiện các loại mô hình dự đoán:

Để tiến hành phân lớp dữ liệu, nhóm đã sử dụng 4 phương pháp: SVM, Neural Network, Logistic Regression, Tree

Trang 9

3.2 Đánh giá các mô hình:

Sử dụng công cụ Test and Score và để đánh giá 4 mô hình đã sử dụng:

Trong đó:

• AUC: Giá trị này là một số dương nhỏ hơn hoặc bằng 1 Giá trị này càng lớn thì mô hình càng tốt

• CA: Giá trị này cho biết tỷ lệ số mẫu được phân lớp đúng trong toàn bộ tập dữ liệu

• F1: giá trị trung bình điều hòa (harmonic mean) của hai độ đo Precision và Recall

• Precision (độ chính xác): giá trị này cho biết trong số m mẫu được phân vào lớp i thì

có tỷ lệ bao nhiêu mẫu có đúng

• Recall: còn gọi là độ phủ hay độ nhạy (sensitivity) hay TPR (True Positive Rate) Tuy nhiên, đây không phải là phương thức tốt nhất để đánh giá đâu là mô hình tốt nhất Để đánh giá mô hình nào là tốt nhất để phân lớp dữ liệu, ta dùng Confusion Matrix (Ma trận nhầm lẫn)

Trang 10

Ma trận nhầm lẫn của mô hình Neural Network

• Tỷ lệ mô hình dự đoán đúng sinh viên rớt môn là 92.2%

• Tỷ lệ mô hình dự đoán sai sinh viên rớt môn là 12.3%

• Tỷ lệ mô hình dự đoán sai sinh viên qua môn là 7.8%

• Tỷ lệ mô hình dự đoán đúng sinh viên qua môn là 87.7%

Ma trận nhầm lẫn của mô hình SVM:

• Tỷ lệ mô hình dự đoán đúng sinh viên rớt môn là 91.2%

• Tỷ lệ mô hình dự đoán sai sinh viên rớt môn là 10.2%

• Tỷ lệ mô hình dự đoán sai sinh viên qua môn là 8.8%

• Tỷ lệ mô hình dự đoán đúng sinh viên qua môn là 89.8%

Trang 11

Ma trận nhầm lẫn của mô hình Logistic Regression:

• Tỷ lệ mô hình dự đoán đúng sinh viên rớt môn là 92.7%

• Tỷ lệ mô hình dự đoán sai sinh viên rớt môn là 12.1%

• Tỷ lệ mô hình dự đoán sai sinh viên qua môn là 7.3%

• Tỷ lệ mô hình dự đoán đúng sinh viên qua môn là 87.9%

 

Ma trận nhầm lẫn của mô hình Tree:

• Tỷ lệ mô hình dự đoán đúng sinh viên rớt môn là 95.1%

• Tỷ lệ mô hình dự đoán sai sinh viên rớt môn là 6.4%

• Tỷ lệ mô hình dự đoán sai sinh viên qua môn là 4.9%

• Tỷ lệ mô hình dự đoán đúng sinh viên qua môn là 93.6%

4 Lựa chọn mô hình và bài toán dự báo:

4.1 Lựa chọn mô hình:

Trang 12

Mô hình Tree có tổng sai lầm loại 1 và loại 2 nhỏ nhất nên nhóm chọn mô hình Tree Sử dụng

bộ dữ liệu gồm 50 mẫu để tiến hành dự đoán phân lớp

4.2 Kết quả dự báo:

Sử dụng mô hình Tree và công cụ Predictions để dự báo 50 mẫu thử nghiệm cho ra kết quả cuối cùng

4.3 Đọc bảng kết quả:

  Nhóm 1: Sinh viên xuất sắc

 Đặc điểm:

 GPA: Trên 3.0

 Thời gian học tập: Trên 10 giờ mỗi tuần

 Số ngày nghỉ học: Dưới 10 ngày

 Sự hỗ trợ từ phụ huynh: Có

Kết quả học tập: Pass

  Nhóm 2: Sinh viên trung bình nhưng nỗ lực

 Đặc điểm:

Trang 13

 GPA: 2.0 - 3.0

 Thời gian học tập: Trên 10 giờ mỗi tuần

 Số ngày nghỉ học: Dưới 20 ngày

 Sự hỗ trợ từ phụ huynh: Có hoặc không

Kết quả học tập: Pass

  Nhóm 3: Sinh viên có nguy cơ thất bại nhưng có hỗ trợ 

 Đặc điểm:

 GPA: Dưới 2.0

 Thời gian học tập: Trên 10 giờ mỗi tuần

 Số ngày nghỉ học: Dưới 15 ngày

 Sự hỗ trợ từ phụ huynh: Có

Kết quả học tập: Fail

  Nhóm 4: Sinh viên ít nỗ lực, nguy cơ cao

 Đặc điểm:

 GPA: Dưới 2.0

 Thời gian học tập: Dưới 10 giờ mỗi tuần

 Số ngày nghỉ học: Trên 20 ngày

 Sự hỗ trợ từ phụ huynh: Không có

Kết quả học tập: Fail

  Nhóm 5: Sinh viên khá nhưng thiếu sự hỗ trợ 

 Đặc điểm:

 GPA: 2.5 - 3.0

 Thời gian học tập: Trên 10 giờ mỗi tuần

 Số ngày nghỉ học: Dưới 15 ngày

 Sự hỗ trợ từ phụ huynh: Không có

Kết quả học tập: Pass

  Nhóm 6: Sinh viên chăm chỉ nhưng GPA thấp

 Đặc điểm:

 GPA: Dưới 2.5

 Thời gian học tập: Trên 15 giờ mỗi tuần

 Số ngày nghỉ học: Dưới 10 ngày

 Sự hỗ trợ từ phụ huynh: Có hoặc không

Kết quả học tập: Fail

Kết luận:

Trang 14

Phân tích dữ liệu sinh viên cho thấy mối liên hệ chặt chẽ giữa GPA, thời gian học, sự hỗ trợ từ phụ huynh và tham gia hoạt động ngoại khóa Những sinh viên có GPA cao thường dành nhiều thời gian cho việc học tập và nhận được sự hỗ trợ tích cực từ gia đình Điều này chỉ ra rằng việc gia tăng thời gian học tập và sự hỗ trợ từ phụ huynh có thể cải thiện đáng kể kết quả học tập Đồng thời, sinh viên tích cực tham gia vào các hoạt động ngoại khóa cũng có

xu hướng đạt GPA cao hơn, nhờ vào việc phát triển các kỹ năng mềm và khả năng quản lý thời gian tốt hơn

Ngoài ra, đối với các nhóm sinh viên có GPA trung bình và thấp, việc cải thiện phương pháp học tập và quản lý thời gian là rất cần thiết Các trường đại học nên xem xét việc triển khai các chương trình hỗ trợ học tập, như gia sư và hoạt động học nhóm, để giúp sinh viên tối

ưu hóa hiệu quả học tập Đồng thời, khuyến khích sinh viên tham gia các hoạt động ngoại khóa sẽ không chỉ phát triển kỹ năng cá nhân mà còn có thể cải thiện kết quả học tập của họ Chính sách theo dõi và hỗ trợ sinh viên từ giáo viên và cố vấn học tập cũng rất quan trọng để can thiệp kịp thời, đảm bảo mỗi sinh viên có cơ hội tốt nhất để thành công trong học tập

4.4 Giải pháp:

  Tăng cường Chương trình Hỗ trợ Học tập: Các trường đại học cần triển khai các chương trình gia sư và học nhóm, tạo điều kiện cho sinh viên gặp gỡ và chia sẻ kinh nghiệm học tập Các buổi hội thảo về kỹ năng học tập và quản lý thời gian cũng nên được tổ chức thường xuyên để giúp sinh viên trang bị những kỹ năng cần thiết   Khuyến khích Tham gia Hoạt động Ngoại khóa: Cần tạo ra nhiều cơ hội cho sinh viên tham gia vào các hoạt động ngoại khóa như câu lạc bộ, thể thao, và tình nguyện Những hoạt động này không chỉ giúp sinh viên phát triển kỹ năng mềm mà còn tạo ra một môi trường học tập tích cực và gắn kết giữa các sinh viên

  Đào tạo Giảng viên và Cố vấn Học tập: Đào tạo giảng viên và cố vấn học tập để họ có thể nhận biết và hỗ trợ những sinh viên có nguy cơ gặp khó khăn trong học tập Việc này bao gồm cách nhận diện sớm các vấn đề và tạo ra môi trường hỗ trợ cho sinh viên   Tổ chức các Buổi Tư vấn và Định hướng: Các trường nên tổ chức các buổi tư vấn để giúp sinh viên hiểu rõ hơn về phương pháp học tập hiệu quả và cách quản lý thời gian Những buổi tư vấn này có thể được thực hiện theo nhóm hoặc cá nhân để đáp ứng nhu cầu của từng sinh viên

  Khuyến khích Sự Tham gia của Phụ huynh: Cần có các chương trình khuyến khích sự tham gia của phụ huynh trong quá trình học tập của con cái họ Các buổi họp phụ

Trang 15

huynh và các sự kiện trường học có thể giúp phụ huynh hiểu rõ hơn về môi trường học tập và cách họ có thể hỗ trợ con cái

  Phát triển Nền tảng Công nghệ Học tập: Sử dụng các nền tảng công nghệ để cung cấp các tài nguyên học tập, video hướng dẫn, và các khóa học trực tuyến Điều này giúp sinh viên có thể học hỏi theo nhịp độ riêng của mình và tiếp cận thông tin dễ dàng hơn

5 Ý nghĩa

Kết quả học tập của sinh viên có ý nghĩa quan trọng trong việc dự đoán khả năng phát triển ở tương lai về nhiều khía cạnh của một quốc gia, bao gồm kinh tế, xã hội, văn hóa, bởi trẻ em

là mầm non của đất nước Các nhà giáo dục có thể dễ dàng thu thập dữ liệu về sinh viên thông qua nhiều phương tiện như khảo sát, sổ điểm, học bạ, và sử dụng dữ liệu để phân tích hành

vi và hoàn thành mô hình dự đoán giúp đưa ra các hành động cấp bách trong mục tiêu phát triển toàn diện con người Việt Nam Dự đoán sự tích cực hay tiêu cực của nền giáo dục tương lai là cần thiết để phát huy những chính sách đúng đắn hay là điều chỉnh các yếu tố không phù hợp Thống kê các yếu tố ảnh hưởng đến kết quả rèn luyện của sinh viên giúp:

  Hiểu rõ trạng thái sinh viên từ đó điều chỉnh nội dung, phương pháp giảng dạy để phù hợp hơn với mục tiêu mong muốn của sinh viên

  Xây dựng các chương trình hỗ trợ học tập, như dạy bổ túc, kèm thêm sinh viên khác biệt, hoặc tư vấn tâm lý cho những sinh viên gặp khó khăn

  Đưa ra các quyết định chiến lược về công tác đào tạo và phát triển giáo dục theo mục tiêu của Đảng và nhà nước

  Tạo động lực cho sinh viên tham gia tích cực vào các hoạt động ngoại khóa và học tập, mở ra tầm nhìn mới trong việc giáo dục, dạy học không chỉ là dạy kiến thức mà còn là dạy các kỹ năng cơ bản cần thiết

  Thúc đẩy sự liên kết hỗ trợ giữa phụ huynh và nhà trường để hỗ trợ sinh viên tốt hơn Sớm nhận diện các dấu hiệu học tập không hiệu quả và can thiệp kịp thời

  Phân bổ nguồn lực hiệu quả hơn, nhằm đáp ứng đúng đam mê và năng lực cá nhân của từng nhóm sinh viên

6 Đánh giá và nhận xét quá trình thực hiện dự án

1.1 Đánh giá đóng góp của thành viên tham gia dự án

Các giai đoạn dự án Thành viên thực hiện

Trang 16

1 Tìm dữ liệu Lê Nguyễn

Nguyễn Trần Thành Đạt

2 Chạy Orange Toàn bộ thành viên nhóm

3 Viết tiểu luận

  Giới thiệu đề tài và thu thập dữ liệu Nguyễn Ngọc Hà

  Kiểm định và đánh giá mô hình Nguyễn Trần Thành Đạt

  Lựa chọn mô hình và bài toán dự báo Lê Nguyễn

  Ý nghĩa và đánh giá quá trình dự án Nguyễn Ngọc Hà

1.2 Đánh giá hoàn thành công việc

Thành viên Đánh giá mức độ hoàn thành

Nguyễn Trần Thành Đạt 100%

Nguyễn Ngọc Hà 100%

Ngày đăng: 08/12/2024, 03:59

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w