ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KINH TẾ LUẬT NHÓM 4 PREDICTING E LEARNING STUDENT PERFORMANCE LỚP HỌC PHẦN 221TK0526 GIẢNG VIÊN HƯỚNG DẪN TS NGUYỄN PHÚC SƠN TP Hồ Chí Minh, Tháng[.]
Trang 1ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC KINH TẾ - LUẬT
NHÓM 4 PREDICTING E-LEARNING STUDENT
PERFORMANCE
GIẢNG VIÊN HƯỚNG DẪN: TS NGUYỄN PHÚC SƠN
TP Hồ Chí Minh, Tháng 11 Năm 2022
Trang 2MỤC LỤC
I TỔNG QUAN VỀ ĐỀ TÀI 3
1 Tóm tắt tình huống 3
2 Mục tiêu của đề tài 3
II NỘI DUNG CHÍNH 4
1 Mô tả dữ liệu 4
2 Mục tiêu 1 – Đo lường mức độ quan trọng của các bài tập 5
3 Mục tiêu 2 – Phương pháp đánh giá kiến thức học sinh tiếp thu được 8
III MỞ RỘNG – SO SÁNH MÔ HÌNH 10
KẾT LUẬN 12
TÀI LIỆU THAM KHẢO 13
Trang 3CHAPTER 10:
DỰ ĐOÁN HIỆU SUẤT HỌC TRỰC TUYẾN CỦA SINH VIÊN (PREDICTING E-LEARNING STUDENT PERFOMANCE)
I TỔNG QUAN VỀ ĐỀ TÀI
1 Tóm tắt tình huống
Opera Multimedia là một đơn vị chuyên cung cấp nội dung học tập trên nền tảng E-learning cho sinh viên Họ thiết kế những khóa học để khắc phục những hạn chế cả
về không gian lẫn thời gian của hình thức giáo dục truyền thống Trong bài báo cáo này, chúng tôi sẽ phân tích dữ liệu thu được từ 463 sinh viên đã trải nghiệm khóa học thử nghiệm đầu tiên tại Đại học Pavia Opera Multimedia đã kết hợp tính hiệu quả của phương pháp giảng dạy tại các Học viện Anh quốc và tính tức thời của nền tảng E-learning Khóa học được chia thành ba cấp độ, phù hợp với khung tham chiếu ngôn ngữ chung Châu Âu: Cấp độ 1 tương ứng với trình độ A1 – dành cho người mới bắt đầu; Cấp độ 2 tương ứng với trình độ A2 – áp dụng cho học sinh tiền trung cấp; Cấp
độ 3 bao gồm trình độ B1 – được thiết kế cho học sinh trung cấp
Mỗi cấp độ có 14 – 15 bài học, trong đó có một bài giữa khóa và một bài cuối khóa để các sinh viên ôn tập lại các kiến thức đã học Khóa học tập trung vào 4 kỹ năng: nghe, nói, đọc, viết; trong đó kỹ năng nghe được đặc biệt chú trọng Chương trình bao gồm nhiều nội dung được đi kèm với hình ảnh minh họa và nhiều bài tập tương tác
2 Mục tiêu của đề tài
Bài nghiên cứu giúp sinh viên có thể hiểu rõ bản thân họ thực sự phù hợp với phương pháp học tập nào (trực tuyến, trực tiếp hay qua CD-ROM ) và liệu những sinh viên khác sẽ có trải nghiệm học tập giống họ hay không (hiệu quả hay không hiệu quả ) khi cùng sử dụng phương pháp học tập do Opera Multimedia cung cấp, từ đó dễ dàng so sánh và đối chiếu lại với chính kết quả học tập của bản thân Đồng thời, các trường đại học thông qua quá trình tham gia của sinh viên trên nền tảng đó để có thể
dự đoán được chất lượng học tập của họ, và đặt ra câu hỏi liệu sinh viên có thật sự tập trung và đạt hiệu quả trong học tập với phương pháp học tập mới này không? Bên cạnh đó, dựa trên kết quả cho ra, nếu thấy được mặt tích cực và khả quan, có thể thấy
Trang 4phương pháp này giúp sinh viên học tập hiệu quả hơn, và đây cũng là cơ hội để nâng cao danh tiếng và chất lượng của trường cũng như Opera Multimedia Ngược lại, nếu kết quả có vấn đề, thông qua phân tích, trường có thể nhận ra những khúc mắc và khuyết điểm của sinh viên để đưa ra giải đáp và những giải pháp kịp thời Ngoài ra, việc tổng hợp ý kiến của các bạn sinh viên về phương pháp học tập này sẽ giúp tìm ra được hướng phát triển đúng đắn và định hướng dạy kèm phù hợp
Và mục tiêu chính của bài báo cáo này là đánh giá tầm quan trọng của những bài tập và ước tính những kiến thức mà mỗi sinh viên đã tiếp thu được và cá nhân hóa nền tảng học tập trực tuyến
II NỘI DUNG CHÍNH
1 Mô tả dữ liệu
Dữ liệu được lấy từ nền tảng học tập điện tử Opera Multimedia của Đại học Pavia Trong đó, khóa học tiếng Anh có 15 cấp độ, mỗi cấp độ bao gồm 11 chương (mỗi chương gồm 10 bài học và 1 bài kiểm tra cuối khóa): đánh giá, đối thoại, thuật ngữ, giới thiệu, nghe 1, nghe 2, phát âm, đọc, sử dụng tiếng Anh, video và từ vựng Khóa học được chia thành nhiều dạng bài tập: có đánh giá (phát âm, nghe và kiểm tra trình độ) và không có đánh giá (ngữ pháp) Đối với những bài có đánh giá, thang điểm sẽ từ 0 đến 100; mức điểm để đạt yêu cầu là 50 Số điểm này giúp biết được các lỗ hổng của sinh viên, nhằm đưa ra giải pháp bù đắp kịp thời để có thể cung cấp cho mỗi sinh viên kiến thức toàn diện nhất
Tiếp theo để đánh giá kiến thức mà các học sinh tiếp thu được, chúng ta sẽ phân tích dữ liệu dựa trên kết quả đạt được thông qua những bài tập Kết quả được chia thành 4 cấp độ là C (hoàn thành), I (không hoàn thành), F (không đạt yêu cầu), P (đạt yêu cầu)
Trong lúc thu thập dữ liệu, chúng tôi đã loại bỏ 37,203 kết quả bất thường và kết quả thuộc cấp độ I trong số 147,432 kết quả ban đầu
Dữ liệu sau cùng được sắp xếp thành 5 bảng:
Dữ liệu nhân khẩu học liên quan đến những sinh viên đăng ký khóa học
Ngày tháng, thời gian bắt đầu và kết thúc cho mỗi khóa học mà sinh viên tham gia
Cấu trúc của trang web học trực tuyến và bộ chuyển dịch cơ sở dữ liệu của những bài giảng
Trang 5 Kết quả từ những bài kiểm tra cuối khóa theo từng cấp độ.
2 Mục tiêu 1 – Đo lường mức độ quan trọng của các bài tập
Mục tiêu đầu tiên của chúng tôi là cung cấp một phương pháp đánh giá tầm quan trọng của mỗi bài tập và dự đoán khả năng tiếp thu của mỗi sinh viên Trong phương pháp này, chúng tôi dựa trên các kết quả học tập để cá nhân hoá trải nghiệm học tập của người học và bên cạnh đó cải thiện nền tảng giáo dục trực tuyến cho mỗi khóa học Tiếng Anh Để đạt được điều này, trước tiên chúng ta nên xem xét sử dụng phương pháp thống kê nào để có thể thể hiện bao quát từng kết quả của mỗi sinh viên Ở đây chúng tôi nhận thấy phương pháp Kernel (KDE) phù hợp để trình bày dữ liệu khi thực hiện phân tích mục tiêu đầu tiên
Điểm quan trọng khi áp dụng phương pháp phi tham số để ước tính hàm mật độ xác suất là việc chọn ra một băng thông (tốc độ truyền dữ liệu tối đa trên một đường dẫn nhất định) phù hợp Đây là việc cân bằng trong việc thể hiện thông tin dữ liệu vừa tổng quan vừa chi tiết Căn cứ vào dữ liệu thực tế, chúng ta cần phải so sánh giữa các phương pháp Sheather & Jones (1991) và phương pháp kiểm chứng chéo để tìm ra phương pháp nào có tham số đặc trưng đạt hiệu quả tối ưu hơn trong việc ước lượng mật độ xác suất Hình 1 và Hình 2 biểu diễn biểu đồ tần suất và ước lượng mật độ tương đối cho bài tập X10702 theo phương pháp kiểm chứng chéo và phương pháp Sheather & Jones
Trang 6Hình 1 Ước tính mật độ cho việc đánh giá bài tập X10702 bằng phương pháp kiểm
chứng chéo.
Hình 2 Ước lượng cho các bài đánh giá X10702 bằng phương pháp Sheather &
Jones
Bảng 1 So sánh theo cặp không tham số
X10304 X10307 0.04 X10304 X10402 0.01 X10304 X10406 0.02 X10305 X10406 0.16 X10305 X10504 0.01 X10307 X10402 0.14 X10307 X10406 0.14 X10308 X10504 0.55 X10309 X10403 0.01 X10309 X10602 0.67 X10402 X10403 0.01 X10402 X10602 0.02 X10502 X10503 0.12
Trang 7X10502 X10702 0.26
Từ việc ứng dụng biểu đồ sau đã cho ra kết quả phù hợp và gần nhất với dữ liệu
đã cho Giả sử rằng tầm quan trọng của mỗi bài tập được đánh giá bằng hình thức so sánh mật độ của từng cặp giá trị với nhau Ở mỗi cặp bài tập đó, chúng ta cần phải đo lường sự khác nhau giữa các mật độ điểm tương ứng Giả sử với giả thuyết gốc H0:
Hàm mật độ của bài tập f và g là giống nhau, chúng ta sẽ lấy được giá trị p (p-value)
thông qua quy trình bootstrap để giữ cho h không thay đổi Kết quả được hiển thị trong Bảng 1, trong đó, ta thấy được nhiều bài tập có giá trị p rất nhỏ so với phần còn lại như: X10304 và X10307, X10304 và X10402, X10304 và X10406, X10305 và X10504, X10309 và X10403, X10402 và X10403, X10402 và X10602
Hình 3 So sánh đồ họa giữa các bài tập X10308 và X10504
Hình 3 thể hiện sự so sánh giữa bài tập X10308 và X10504 dựa trên khoảng tin cậy có được nhờ quy trình thống kê Khoảng tin cậy đó rất giống với ước tính mật độ nên chúng ta cần xem xét sự tương đồng giữa hai bài tập Do vậy, để giảm chiều của
Trang 8mô hình dự đoán (được mô tả trong phần sau) thì cả X10308 hay X10504 đều có thể bị loại bỏ
Hình 4 So sánh đồ họa giữa các bài tập X10309 và X10403
Mặt khác, trong Hình 4 cũng thể hiện sự khác biệt lớn về mặt thống kê giữa hai bài tập X10309 và X10403 Điều này có nghĩa là cả hai bài tập đó đều quan trọng như nhau và nên được giữ lại trong mô hình
3 Mục tiêu 2 – Phương pháp đánh giá kiến thức học sinh tiếp thu được
Đối với mục tiêu thứ hai là dự đoán kiến thức mỗi sinh viên tiếp thu được sau khóa học của Opera Multimedia, chúng tôi sẽ so sánh giữa mô hình hồi quy logistic với mô hình phi tham số Kết quả bài kiểm tra cuối kỳ của sinh viên được xếp thành biến nhị phân với Y = 0 là đạt yêu cầu và Y = 1 là không đạt yêu cầu Chúng tôi xem xét 10 đánh giá bài tập là các biến giải thích, được chọn lọc theo phép so sánh ghép cặp phi tham số (so sánh từng cặp dữ liệu với nhau) Bảng 2 cho thấy các ước lượng tham số từ hồi quy logistic, đặc biệt ở đây chỉ có ba bài tập có ý nghĩa đối với chất
Trang 9lượng đánh giá và bài kiểm tra cuối khóa gồm: X10308 (phát âm), X10309 (nghe) và X10702 (hiểu)
Bảng 2 Ước lượng cho mô hình hồi quy logistic
Bây giờ, chúng tôi so sánh kết quả trong Bảng 2 với kỹ thuật phi tham số dựa trên mô hình phi tham số Một trong những lý do chính của việc sử dụng phương pháp này là vì nó không liên quan đến mối quan hệ tiềm ẩn trong hồi quy tham số chuẩn Những lợi ích trong việc áp dụng một phép tính cộng thêm xấp xỉ của chúng tôi ít nhất
là gấp đôi
Đầu tiên, vì mỗi thuật ngữ phụ gia riêng lẻ được ước tính bằng cách sử dụng một đơn biến mịn hơn, nên tránh được lời nguyền của chiều (số lượng biến càng lớn, khả năng suy luận từ dữ liệu càng trở nên thách thức)
Thứ hai, ước tính của các điều khoản riêng lẻ giải thích các biến phụ thuộc thay đổi không tuyến tính với các biến giải thích tương ứng Trên thực tế, các mô hình cộng tổng quát mở rộng phạm vi ứng dụng của các mô hình tuyến tính tổng quát thông qua các phương pháp làm mịn dữ liệu (phương thức xử lí dữ liệu, được thực hiện bằng cách sử dụng thuật toán để loại bỏ nhiễu khỏi bộ dữ liệu Điều này cho phép các mẫu
và xu hướng quan trọng trở nên nổi bật)
Trong ứng dụng của chúng tôi, Bảng 3 cho thấy kết quả của mô hình phi tham số Đối với quá trình ước tính, một cách tiếp cận lặp lại được sử dụng với thuật toán backfitting Các bài tập quan trọng là X10308 (phát âm), X10309 (nghe), X10601 và X10602 (hiểu) So sánh Bảng 2 và Bảng 3 lưu ý rằng chúng có điểm chung là X10308
và X10309
Bảng 3 Ước lượng cho mô hình phi tham số
Trang 10X10309 7.8260 3
III MỞ RỘNG – SO SÁNH MÔ HÌNH
Chúng tôi thực hiện báo cáo ma trận nhầm lẫn để từ Bảng 2 và Bảng 3 có thể đưa
ra lựa chọn mô hình dự đoán tốt nhất giữa những mô hình sản xuất Ma trận nhầm lẫn này được xem như là sự biểu diễn các tính chất của quy tắc phân lớp hay quy tắc phân biệt Ta có thể thấy những phần tử đã được phân loại đúng hoặc sai cho từng lớp Đường chéo chính cho thấy số lượng quan sát đã được phân loại chính xác cho từng lớp, trong khi các phần tử nằm ngoài đường chéo được phân loại không chính xác Nếu giả định là (rõ ràng hoặc ngầm định) rằng mỗi phân loại không chính xác có cùng chi phí về kiến thức thu được, chúng ta có thể tính toán tổng số phân loại sai như một thước đo hiệu suất
Và ở đây, như trường hợp của chúng tôi, Bảng 4 cho thấy ma trận nhầm lẫn lý thuyết cho một bộ phân loại hai lớp
Bảng 4 Ma trận nhầm lẫn lý thuyết
Với bối cảnh nghiên cứu của chúng tôi, các mục trong ma trận nhầm lẫn có ý
nghĩa sau: a là số lần dự đoán đúng rằng một sinh viên sẽ không đạt; b là số lần dự đoán sai rằng một sinh viên sẽ không đạt; c là số lần dự đoán sai mà một sinh viên sẽ đạt; d là số lần dự đoán đúng mà một sinh viên sẽ đạt.
Tiếp theo, Bảng 5 và Bảng 6 cho thấy các ma trận nhầm lẫn cho hai mô hình:
mô hình hồi quy logistic và mô hình phi tham số
Bảng 5 Ma trận nhầm lẫn cho mô hình hồi quy logistic
Bảng 6 Ma trận nhầm lẫn cho mô hình phi tham số
Trang 11P (Y = 0) P (Y = 1)
Để có được các số liệu trong bảng, chúng tôi đã sử dụng phương pháp kiểm chứng chéo Chúng tôi xây dựng mỗi một mô hình trên một mẫu đào tạo và so sánh các mô hình trên mẫu xác định Mẫu đào tạo (70%) và mẫu xác định (30%) được chọn ngẫu nhiên Từ kết quả, so sánh hai ma trận nhầm lẫn, chúng tôi nhận thấy rằng mô hình phi tham số tốt hơn so với hồi quy logistic, vì nó dẫn đến ít lỗi phân loại sai hơn (Mô hình phi tham số có 20 lần dự đoán sai trong khi mô hình hồi quy logistic có đến
33 lần) Dựa trên các lỗi phân loại sai, chúng tôi cho rằng mô hình phi tham số lựa chọn các bài tập cụ thể có độ chính xác cao hơn liên quan nhiều đến thành tích trong bài kiểm tra cuối khóa Bằng chứng thực nghiệm này dẫn đến việc dành sự chú ý đặc biệt cho các bài tập cụ thể Thông tin này có thể giúp nhà cung cấp dữ liệu của chúng tôi cá nhân hóa nền tảng học tập và lập kế hoạch cho các hành động dạy kèm cụ thể
Trang 12KẾT LUẬN
Trong bài báo cáo này, chúng tôi đã phân tích một bộ dữ liệu E-learning (học tập trực tuyến) từ trường Đại học Pavia với mục tiêu là đo lường, đánh giá về tầm quan trọng của những bài tập trên hệ thống đó và ước tính được những kiến thức mà mỗi học sinh đã tiếp thu được Những dữ liệu được chúng tôi trích xuất từ nhiều tệp nhật
ký trên nền tảng E-learning Trong phần thu thập và kiểm tra dữ liệu, chúng tôi đã sử dụng một tập hợp các thước đo mô tả dựa trên các kỹ thuật phi tham số Tầm quan trọng của mỗi bài tập được đánh giá bằng cách so sánh từng cặp giá trị dựa trên kỹ thuật đánh giá phi tham số Còn để dự đoán kiến thức thu được cho mỗi sinh viên, chúng tôi so sánh các mô hình hồi quy logistic cổ điển với các mô hình phi tham số
Để chọn ra mô hình tốt nhất giữa các mô hình dự đoán ở trên, chúng tôi sử dụng ma trận nhầm lẫn để phân tích
Trang 13TÀI LIỆU THAM KHẢO
1 Giudici, P and Figini, S., 2009 Applied data mining for business and industry
Chichester, West Sussex: Wiley
2 Ly Tuan Anh, 2021 “THỐNG KÊ, PHÂN TÍCH, MÔ HÌNH HÓA DỮ LIỆU”,
facebook.com/lytuananh1980,
https://www.facebook.com/notes/628545234506514/?
paipv=0&eav=AfaHT6mO4l3fBBKZlQzgDk5gvCE5X8EG0J0PLwA2XHnqyJb yqMA0_p5_I2zoO0hhvcA, Truy cập ngày 10/11/2022
3 Hoang Vy, 2020 “Làm mịn dữ liệu (Data Smoothing) là gì? Đặc điểm của làm
mịn dữ liệu”, Vietnambiz,
https://vietnambiz.vn/lam-min-du-lieu-data-smoothing-la-gi-dac-diem-cua-lam-min-du-lieu-20200323232709363.htm, Truy cập ngày 7/11/2022
4 Linh Nghiem, 2019 “Khoa học dữ liệu: Suy luận hay dự đoán?”,
https://linhnghiem.org/2019/11/03/khoa-hoc-du-lieu-suy-luan-hay-du-doan/, Truy cập ngày 10/11/2022