XÂY DỰNG WEBSITE DỰ ĐOÁN KẾT QUẢ HỌC TẬP VÀ GỢI Ý LỰA CHỌN MÔN HỌC DỰA TRÊN KHAI PHÁ DỮ LIỆU VÀ MÁY HỌC GVHD: TS... LÝ DO CHỌN ĐỀ TÀI• Về sự tiến bộ của khoa học kỹ thuật: • Trí thông mi
Trang 1XÂY DỰNG WEBSITE DỰ ĐOÁN KẾT QUẢ HỌC TẬP VÀ GỢI Ý LỰA CHỌN MÔN HỌC DỰA TRÊN
KHAI PHÁ DỮ LIỆU VÀ MÁY HỌC
GVHD: TS Bùi Thành Hùng SVTH: Trương Thiệu Huy MSSV: 1424801030127 NIÊN KHÓA: 2014 - 2018
TIỂU LUẬN TỐT NGHIỆP
Bình Dương – 5/2018
Trang 31 GIỚI THIỆU
Trang 4LÝ DO CHỌN ĐỀ TÀI
• Về sự tiến bộ của khoa học kỹ thuật:
• Trí thông minh nhân tạo (AI) đang là xu hướng
• Sự tiến bộ không ngừng của máy học (Machine Learning)
• Các giải thuật gợi ý ngày càng chính xác
• Về nhu cầu thiết yếu:
• Định hướng và chọn mục tiêu là việc rất quan trọng
• Chọn sai môn học gây tổn thất lớn cho sinh viên, gia đình và xã hội
• Dự đoán kết quả học tập giúp đánh giá, phân loại sinh viên một cách nhanh chóng, chính xác.
• Về cá nhân
• Với mong muốn học hỏi và ứng dụng máy học vào các vấn đề thực tiễn nhất
là đối với việc cấp thiết như lựa chọn môn học
Trang 5MỤC TIÊU
• Từ những dữ liệu của sinh viên thông qua máy học để tiến hành
dự đoán và gợi ý môn học
• Thực hiện dự đoán trên 3 giải thuật gợi ý:
Trang 62 TỔNG QUAN
Trang 7CƠ SỞ LÍ THUYẾT
• Máy học (Machine Learning)
• Hệ thống gợi ý (Recommender System)
Trang 8Recommender System
Trang 9Các nghiên cứu ở Việt Nam
Dự đoán kết quả học tập và gợi ý lựa chọn môn học bằng phương pháp Phân rã ma trận – Huỳnh Lý Thanh Nhân (Luận văn Thạc sĩ – Đại học Cần Thơ - 2013)
Khai phá dữ liệu điểm để dự đoán kết quả học tập của sinh viên trường Cao đẳng Sư phạm Hà Nội bằng Business Intelligence Development Studio của SQL Server 2008 - Phạm Thị Như Trang ( Luận văn Thạc sĩ – Đại học Công nghệ - 2013)
Huynh Ly Thanh-Nhan, Huu-Hoa Nguyen, and Nguyen Thai-Nghe.
2016 Methods for building course recommendation systems In Proceedings of the 2016 International Conference on Knowledge and Systems Engineering (KSE 2016), pp.163-168, ISBN 978-1-4673- 8929-7, IEEE Xplore.
Trang 11Xây dựng Website trực quan hóa kết quả
Dự đoán kết quả Gợi ý lựa chọn môn học
So sánh đánh giá các mô hình
Tích hợp vào hệ thống quản lý
Thông tin Phân tích kết quả
Trang 123 MÔ HÌNH ĐỀ XUẤT
Trang 13MÔ HÌNH ĐỀ XUẤT
ỨNG DỤNG XÂY DỰNG MODEL
model
Trang 14DỮ LIỆU THÔ
Trang 15DỮ LIỆU THÔ
Trang 17PHÂN TÁCH DỮ LIỆU
Trang 18XÂY DỰNG HỆ THỐNG BẰNG 3 PHƯƠNG PHÁP
• Content based filtering
• Collaborative filtering
• Matrix Factorization
Trang 19Content based filtering
Là giá trị điểm của môn đã có điểm
Là feature môn đã có điểm
e là vector cột chứa S(n) phần tử 1
Sn là số môn đã có điểm
Trang 20Content based filtering
Ta có feature matrix cho item như sau:
Xét user E ta có:
Từ đó suy ra:
Áp dụng vào công thức để tìm nghiệm w5 và b5:
Trang 21Content based filtering
• Sau khi ta tìm được mô hình cho user Thì kết quả dự đoán của user (n) và item (m) sẽ được tính bằng:
Với X(m) là feature của item
Wn và bn là mô hình của user (n)
Trang 23Collaborative Filtering
Trang 24Collaborative Filtering
Ví dụ ta dự đoán u1 với i1:
Ta chọn hệ số k = 2
Các sinh viên có điểm i1: {u0, u3, u5}
Độ tương quan với u1: {0.83, -0.4, -0.23}
2 sinh viên gần u1 nhất: {u0, u5}
Điểm đã chuẩn hóa: {0.75, 0.5}
Trang 26Matrix Factorization
Công thức cập nhật W
Công thức cập nhật X
Trang 27Matrix Factorization
Mean => 4.5 4.5 1.5
U0 U1 U2
I0 0.5 0.5 0.5 I1 -0.5 0 0 I2 0 -0.5 -0.5
Trang 28Matrix Factorization
-0.3 2.3 0.4 0.7 -0.4 3.0
0.5 0.5 0.5 -0.9 1.6 1.9
X =
W =
U0 U1 U2
I0 0.5 0.5 0.5 I1 -
Wm =
Trang 29Matrix Factorization
-0.3 2.3 0.4 0.7 -0.4 3.0
Wm =
Kết quả ta cập nhật X0 = [0.3 , 0.7 ]
Trang 314 THỰC NGHIỆM
Trang 32THỰC NGHIỆM
• Với CSDL của sinh viên D13HT01 (TDMU):
• Bao gồm 32 sinh viên
• 52 môn học
• Danh sách môn học và số tín chỉ
• Tổng số record là 1560
Trang 33XÂY DỰNG MODEL
• Với 2 dạng dữ liệu để huấn luyện:
• Phân phối ngẫu nhiên (traing/test) với tỉ lệ 7/3
• Dùng 3 năm đầu để traning và dự đoán kết quả năm cuối
• Xây dựng các model cho từng giải thuật bằng lần lượt với 2 dạng dữ liệu:
=> Ta có tổng số model là 6
Trang 34ĐÁNH GIÁ MODEL
• Dùng 3 độ do để đánh giá model
• MAE (Mean absolute error)
• MSE (Mean squared error)
• RMSE (Root mean squared error)
Trang 35KẾT QUẢ
Trang 36KẾT QUẢ
• Sai số trung bình của 3 giải thuật khoảng 1 điểm
• Giải thuật Content-based cho kết quả không được chính xác cho
đã đơn giản hóa feature của môn học
• Dùng bộ dữ liệu (3 năm đầu để dự đoán năm cuối) cho kết quả sai số cao
Trang 37XÂY DỰNG WEBSITE VÀ API
• Dùng Flask để xây dựng API trên python hỗ trợ việc đọc model để tiến hành dự đoán và gợi ý
• Xây dựng website bằng MEAN Stack để hiển thị kết quả
Trang 38KẾT QUẢ
Trang 395 DEMO
Trang 406 KẾT LUẬN
Trang 41 Xây dựng Website trực quan hóa kết quả
Phân tích, đánh giá các model đề xuất
Thực nghiệm trên CSDL điểm của sinh viên Đại học TDM
Trang 42TÀI LIỆU THAM KHẢO
Dự đoán kết quả học tập và gợi ý lựa chọn môn học bằng phương pháp Phân
rã ma trận – Huỳnh Lý Thanh Nhân (Luận văn Thạc sĩ – Đại học Cần Thơ 2013)
- Khai phá dữ liệu điểm để dự đoán kết quả học tập của sinh viên trường Cao đẳng Sư phạm Hà Nội - Phạm Thị Như Trang (Luận văn Thạc sĩ – Đại học Công nghệ - 2013)
Huynh Ly Thanh-Nhan, Huu-Hoa Nguyen, and Nguyen Thai-Nghe 2016 Methods for building course recommendation systems In Proceedings of the
2016 International Conference on Knowledge and Systems Engineering (KSE 2016), pp.163-168, ISBN 978-1-4673-8929-7, IEEE Xplore.
Francesco Ricci, Lior Rokach, Bracha Shapira, Paul B Kantor, Recommander Systems Handbook, Springer 2011